Are More Data Always Better for Factor Analysis?

Apakah Lebih Banyak Data Selalu Lebih Baik dalam Analisis Faktor?


Introduction


In macroeconomics and empirical finance, factor models have become a standard tool for extracting common signals from large datasets. The basic intuition is appealing: the more variables we observe, the better we can identify the underlying economic forces driving them.

But is this intuition always correct?

Boivin and Ng (2003), in their influential paper “Are More Data Always Better for Factor Analysis?”, challenge this assumption. Their central message is clear and counterintuitive: adding more data does not necessarily improve factor estimation and may even worsen forecasting performance.


Dalam makroekonomi dan keuangan empiris, model faktor telah menjadi alat utama untuk mengekstraksi sinyal bersama dari kumpulan data yang besar. Intuisinya sederhana: semakin banyak variabel yang diamati, semakin baik kita dapat menangkap kekuatan ekonomi laten yang mendasarinya.

Namun, apakah intuisi ini selalu benar?

Boivin dan Ng (2003) melalui artikel berpengaruh “Are More Data Always Better for Factor Analysis?” justru mempertanyakan asumsi tersebut. Pesan utamanya tegas dan tidak intuitif: menambah data tidak selalu memperbaiki estimasi faktor, dan dalam banyak kasus justru memperburuk kinerja peramalan.


1. The Logic of Factor Models

Logika Dasar Model Faktor


Factor models start from the idea that many observed variables move together because they are driven by a small number of latent common factors. Each variable can be decomposed into a shared component and a variable-specific component:Xit=λiFt+eitX_{it} = \lambda_i’ F_t + e_{it}

Here, FtF_trepresents unobserved common factors, while eite_{it}​ captures idiosyncratic movements unique to each series.


Model faktor berangkat dari gagasan bahwa banyak variabel ekonomi bergerak bersama karena dipengaruhi oleh sejumlah kecil faktor laten yang sama. Setiap variabel dapat diuraikan menjadi komponen bersama dan komponen spesifik variabel:Xit=λiFt+eitX_{it} = \lambda_i’ F_t + e_{it}

Di sini, FtF_t​ merepresentasikan faktor bersama yang tidak teramati, sedangkan eite_{it}​ menangkap pergerakan khusus masing-masing seri.


2. Approximate Factor Models and Reality

Approximate Factor Model dan Realitas Data


In reality, idiosyncratic components are rarely well-behaved. They may be heteroskedastic, correlated across variables, and persistent over time. The approximate factor model allows for these features, making it empirically realistic.

However, this realism comes at a cost: idiosyncratic noise can contaminate factor estimation.


Dalam praktik, komponen idiosinkratik jarang bersifat ideal. Variansnya bisa berbeda antar seri, saling berkorelasi, dan persisten secara waktu. Approximate factor model mengakomodasi kondisi ini sehingga lebih realistis secara empiris.

Namun, realisme ini memiliki konsekuensi penting: noise idiosinkratik dapat mencemari estimasi faktor.


3. How Factors Are Estimated in Practice

Bagaimana Faktor Diestimasi dalam Praktik


Because factors are unobserved, they are typically estimated using Principal Components (PC). The method extracts factors from the covariance structure of the data, assuming that common factors dominate the largest eigenvalues.

The problem is that PC does not know the difference between meaningful common signals and strongly correlated noise.


Karena faktor tidak teramati, estimasinya umumnya dilakukan dengan Principal Components (PC). Metode ini mengekstraksi faktor dari struktur kovarians data, dengan asumsi bahwa faktor bersama mendominasi eigenvalue terbesar.

Masalahnya, PC tidak mampu membedakan antara sinyal ekonomi yang bermakna dan noise yang kebetulan saling berkorelasi.


4. Forecasting as a Stress Test

Peramalan sebagai Uji Ketahanan Model


Boivin and Ng evaluate factor quality using forecasting performance. Factors are included in predictive regressions to forecast macroeconomic variables. If more data improve factor estimation, forecasts should become more accurate.

Yet, this is often not what happens.


Boivin dan Ng menilai kualitas faktor melalui kinerja peramalan. Faktor digunakan dalam regresi prediktif untuk meramalkan variabel makroekonomi. Jika penambahan data memperbaiki estimasi faktor, seharusnya akurasi ramalan meningkat.

Namun, hasil empiris sering menunjukkan hal sebaliknya.


5. When More Data Hurt

Ketika Lebih Banyak Data Justru Merugikan


The paper identifies several mechanisms through which additional data reduce performance:

  • noisy variables dilute the common signal,
  • cross-correlated residuals distort the covariance matrix,
  • oversampling causes one factor to dominate others.


Artikel ini mengidentifikasi beberapa mekanisme utama mengapa penambahan data justru merugikan:

  • variabel yang sangat noisy melemahkan sinyal bersama,
  • residual yang saling berkorelasi mendistorsi struktur kovarians,
  • oversampling membuat satu faktor mendominasi faktor lainnya.

6. A Counterintuitive Finding

Temuan yang Tidak Intuitif


One of the most striking results is that smaller datasets if carefully selected often outperform large datasets in forecasting exercises.

More data are not necessarily better data.


Salah satu temuan paling menarik adalah bahwa dataset yang lebih kecil jika dipilih secara cermat sering kali menghasilkan ramalan yang lebih baik dibandingkan dataset besar.

Lebih banyak data tidak selalu berarti data yang lebih baik.


7. Smarter Alternatives: Weighted and Selective Factors

Alternatif yang Lebih Cerdas: Faktor Berbobot dan Selektif


Instead of blindly expanding datasets, the authors propose weighting or selecting variables based on their statistical properties. Variables with high noise or extreme correlations should contribute less—or be excluded altogether.

This leads to cleaner factors and more reliable forecasts.


Alih-alih memperbesar dataset secara membabi buta, penulis mengusulkan pembobotan dan seleksi variabel berdasarkan karakteristik statistiknya. Variabel dengan noise tinggi atau korelasi ekstrem sebaiknya diberi bobot lebih kecil atau bahkan dikeluarkan.

Pendekatan ini menghasilkan faktor yang lebih bersih dan ramalan yang lebih andal.


8. Why This Paper Still Matters

Mengapa Artikel Ini Tetap Relevan


In today’s era of big macro-financial data, this paper offers a timeless reminder: factor models reward structure and judgment, not sheer data volume.


Di era big data makro-keuangan saat ini, artikel ini memberikan pengingat yang sangat relevan: model faktor menghargai struktur dan pertimbangan ekonomi, bukan sekadar kuantitas data.


Final Reflection


More data can be powerful—but only when they are informative, balanced, and well-structured.


Lebih banyak data bisa menjadi kekuatan tetapi hanya jika data tersebut informatif, seimbang, dan terstruktur dengan baik.

Factor analysis is not about collecting everything.
It is about understanding what truly matters.