“Are More Data Always Better for Factor Analysis?” (Boivin & Ng, 2003)


1) Kerangka utama: Approximate Factor Model (AFM)

1.1. Struktur data panel

Paper bekerja dengan panel makro:

  • i=1,…,N = indeks seri/variabel (cross-section)
  • t=1,…,T = indeks waktu (time series)

Model faktor (statik) untuk setiap seri:Xit=λi0Ft0+eitχit+eitX_{it}=\lambda_i^{0\prime}F_t^0+e_{it}\equiv \chi_{it}+e_{it}

Arti simbol:

  • XitX_{it} ​: observasi seri ke-ii pada waktu tt (biasanya sudah ditransformasi & distandardisasi)
  • Ft0F_t^0 ​ : vektor faktor laten ukuran r×1r\times 1 (common factors)
  • λi0\lambda_i^0 ​: vektor factor loading untuk seri iii ukuran r×1r\times 1
  • χit=λi0Ft0\chi_{it}=\lambda_i^{0\prime}F_t^0​: common component (bagian yang “shared” oleh banyak seri)
  • eite_{it}​: idiosyncratic error (bagian spesifik-seri)

Inti “approximate factor model”: eite_{it}boleh saling berkorelasi (cross-correlated) dan serially correlated secara lemah, tidak harus diagonal seperti strict factor model. ARE MORE DATA ALWAYS BETTER FOR…


2) Estimasi faktor: Principal Components (PC)

2.1. Matriks kovarians dan struktur eigen

Didefinisikan:

  • ΣX\Sigma_X: kovarians populasi dari Xt=(X1t,...,XNt)X_t=(X_{1t},…,X_{Nt})’
  • Σχ\Sigma_\chi: kovarians populasi dari komponen bersama χt\chi_t
  • Ω\Omega: kovarians idiosinkratik ete_t

Relasi populasi:ΣX=Σχ+Ω\Sigma_X=\Sigma_\chi+\Omega

Ciri faktor:

  • Σχ\Sigma_\chi​ punya r eigenvalue non-zero yang membesar saat NN membesar (pervasive factors).
  • Maka rr eigenvalue terbesar dari ΣX\Sigma_X​ juga membesar → ruang faktor dapat diestimasi dari eigen-dekomposisi.

2.2. Rumus PC estimator (versi paper)

Ambil eigenvector vj=(v1j,...,vNj)v_j=(v_{1j},…,v_{Nj})’ dari sample covariance Σ^X\widehat{\Sigma}_X untuk eigenvalue ke-jj terbesar.

Faktor terestimasi ke-jjj:F^t,N(j)=1Ni=1NXitvij\widehat{F}_{t,N}^{(j)}=\sqrt{\frac{1}{N}}\sum_{i=1}^N X_{it}v_{ij}

Loading terestimasi:λ^ij=Nvij\widehat{\lambda}_{ij}=\sqrt{N}\,v_{ij}

Kumpulan faktor:

  • F^t,N=(F^t,N(1),...,F^t,N(r))\widehat F_{t,N}=(\widehat F_{t,N}^{(1)},…,\widehat F_{t,N}^{(r)})’

Makna penting: PC memakai Σ^X\widehat{\Sigma}_X(tanpa “GLS-weighting” penuh), sehingga jika Ω\Omega jauh dari “spherical” (heteroskedastik + cross-correlation), presisi faktor bisa turun. ARE MORE DATA ALWAYS BETTER FOR…


3) Metode evaluasi utama: Forecasting dengan Diffusion Index

Paper menilai “apakah lebih banyak data NNN selalu lebih baik?” melalui kinerja forecasting.

3.1. Benchmark AR(p)

y^t+1t=α^0+j=1pγ^jytj+1\widehat y_{t+1|t}=\widehat\alpha_0+\sum_{j=1}^p \widehat\gamma_j\,y_{t-j+1}

  • yty_t​: seri target yang mau diprediksi
  • pp: orde AR
  • α^0,γ^j\widehat{\alpha}_0,\widehat{\gamma}_j: OLS

3.2. Forecast dengan faktor (infeasible vs feasible)

Jika faktor benar Ft0F_t^0 terobservasi:y^t+1t=β^0+β^1Ft0+j=1pγ^jytj+1\widehat y_{t+1|t}=\widehat\beta_0+\widehat\beta_1’F_t^0+\sum_{j=1}^p \widehat\gamma_j\,y_{t-j+1}

Tapi karena Ft0F_t^0​ tidak terobservasi, dipakai faktor hasil PC:y^t+1t=β^0+β^1F^t,N+j=1pγ^jytj+1\widehat y_{t+1|t}=\widehat\beta_0+\widehat\beta_1’\widehat F_{t,N}+\sum_{j=1}^p \widehat\gamma_j\,y_{t-j+1}

Simbol:

  • β0\beta_0​: intercept
  • β1\beta_1​: koefisien faktor
  • F^t,N\widehat F_{t,N}​: faktor hasil ekstraksi dari NN seri

Poin metodologis kunci paper: dalam finite sample, forecast berbasis F^t,N\widehat F_{t,N}​ bisa lebih buruk ketika penambahan seri menambah noise/cross-correlation atau menyebabkan “oversampling” faktor tertentu. ARE MORE DATA ALWAYS BETTER FOR…


4) Metode simulasi (Monte Carlo): kapan “more data” jadi buruk?

Paper merancang 2 eksperimen Monte Carlo untuk mengisolasi mekanisme.

4.1. Persamaan target yang diprediksi

yt+1=j=1rβjFjt0+εt+1y_{t+1}=\sum_{j=1}^r \beta_j F_{jt}^0+\varepsilon_{t+1}

  • εtN(0,σε2)\varepsilon_{t}\sim N(0,\sigma_\varepsilon^2)
  • σε2\sigma_\varepsilon^2​ dipilih agar R2R^2 persamaan forecasting = κy\kappa_y

4.2. Data panel yang mengandung faktor

Xit=m=1rλimFmt+eitX_{it}=\sum_{m=1}^r \lambda_{im}F_{mt}+e_{it}

  • λim\lambda_{im}: loading (di simulasi: acak, mis. N(1,1)N(1,1)
  • fokus paper: struktur eit (heteroskedastik + cross-correlated)

4.3. Model 1 (Correlated & Noisy Errors)

Total seri: N=N1+N2+N3N=N_1+N_2+N_3 ​, dengan tiga tipe error:

  1. “Clean” (uncorrelated, var kecil):

eit=σ1uit,iN1e_{it}=\sigma_1 u_{it},\quad i\in N_1

  1. “Noisy” (uncorrelated, var besar):

eit=σ2uit,iN2, σ22>σ12e_{it}=\sigma_2 u_{it},\quad i\in N_2,\ \sigma_2^2>\sigma_1^2

  1. Cross-correlated:

eit=σ3e~it,e~it=uit+j=1Cρijujt,iN3e_{it}=\sigma_3 \tilde e_{it},\quad \tilde e_{it}=u_{it}+\sum_{j=1}^{C}\rho_{ij}u_{jt},\quad i\in N_3

  • Set N3N_3 ​ “menempel” pada CC seri dari grup N1N_1 ​, sehingga muncul blok kovarians Ω13\Omega_{13} ​.

Struktur Ω\Omega yang ditulis paper:Ω=[σ12IN10Ω130σ22IN20Ω130Ω33]\Omega= \begin{bmatrix} \sigma_1^2 I_{N_1} & 0 & \Omega_{13}\\ 0 & \sigma_2^2 I_{N_2} & 0\\ \Omega_{13}’ & 0 & \Omega_{33} \end{bmatrix}

Indikator “berapa parah” cross-correlation:

  • τ^ij=1Tte^ite^jt\widehat\tau_{ij}=\frac{1}{T}\sum_t \widehat e_{it}\widehat e_{jt}
  • τ^i=j=1Nτ^ij\widehat\tau_i^*=\sum_{j=1}^N |\widehat\tau_{ij}|
  • τ^=1Nmaxiτ^i\widehat\tau^*=\frac{1}{N}\max_i \widehat\tau_i^*

Indikator “seberapa kuat common component”:

  • Ri2=tχ^it2txit2R_i^2=\dfrac{\sum_t \widehat\chi_{it}^2}{\sum_t x_{it}^2} (fraksi variasi seri ii yang dijelaskan common component)
  • R2=1NiRi2R^2=\frac{1}{N}\sum_i R_i^2 ​ (rata-rata)
  • Rq=R0.9N2R0.1N2R_q=R^2_{0.9N}-R^2_{0.1N} ​ (dispersi: beda persentil 90 dan 10)

Statistik evaluasi kualitas faktor & forecast:

  1. Kedekatan ruang faktor:

SF,F0=tr(F0F^(F^F^)1F^F0)tr(F0F0)S_{F,F^0}=\frac{\text{tr}\big(F^{0\prime}\widehat F(\widehat F’\widehat F)^{-1}\widehat F’F^0\big)}{\text{tr}(F^{0\prime}F^0)}

  1. Kedekatan forecast feasible vs infeasible:

Sy,y0=1t(y^F0,t+1ty^F^,t+1t)2ty^F0,t+1t2S_{y,y^0}=1-\frac{\sum_t(\widehat y_{F^0,t+1|t}-\widehat y_{\widehat F,t+1|t})^2}{\sum_t \widehat y_{F^0,t+1|t}^2}

  1. Kinerja terhadap conditional mean (di simulasi):

Sβ,β^=t(yF^,t+1ty^F^,t+1t)2tyF^,t+1t2S_{\beta,\widehat\beta}=\frac{\sum_t(y_{\widehat F,t+1|t}-\widehat y_{\widehat F,t+1|t})^2}{\sum_t y_{\widehat F,t+1|t}^2}

Kesimpulan metodologis Model 1: menambah seri tipe N2N_2 (noisy) atau N3N_3 ​ (cross-correlated) dapat menurunkan SF,F0S_{F,F^0} ​ dan kinerja forecast—jadi “lebih banyak data” bisa memperburuk estimasi faktor. ARE MORE DATA ALWAYS BETTER FOR…


4.4. Model 2 (Oversampling)

Mereka mensimulasikan 2 faktor AR(1):Fmt=0.5Fm,t1+umt,umtN(0,1), m=1,2F_{mt}=0.5F_{m,t-1}+u_{mt},\quad u_{mt}\sim N(0,1),\ m=1,2

Dua target:yt+1A=βAF1t+εt+1A,yt+1B=βBF2t+εt+1By^A_{t+1}=\beta_A F_{1t}+\varepsilon^A_{t+1},\qquad y^B_{t+1}=\beta_B F_{2t}+\varepsilon^B_{t+1}

Lalu mereka membentuk 5 “tipe seri” XitX_{it} ​ dengan bobot faktor yang berbeda (ada yang dominan F1, dominan F2, campuran, dan murni noise).

Makna oversampling: dataset bisa “terlalu banyak” memuat seri yang kuat pada satu faktor (mis. F1), sehingga faktor lain (F2) menjadi tidak dominan di panel besar → untuk mem-forecast target yang tergantung F2, kita mungkin butuh lebih banyak faktor terestimasi (menambah sampling variability), atau justru lebih baik pakai subset yang membuat F2 dominan. ARE MORE DATA ALWAYS BETTER FOR…


5) Metode empiris: Real-time forecasting + Weighted PC

5.1. Setup forecast empiris (12 bulan ke depan)

Mereka pakai panel bulanan N=147 seri (1959:1–1998:12), dan memprediksi 8 indikator (ip, gmyxspq, msmtq, lpnag, punew, gmdc, puxx, pwfsa). Forecast model:y^t+ht=β^0+β^1F^t,N+j=1pγ^jztj+1\widehat y_{t+h|t}=\widehat\beta_0+\widehat\beta_1’\widehat F_{t,N}+\sum_{j=1}^p \widehat\gamma_j z_{t-j+1}

dengan:

  • h=12h=12
  • p=4p=4
  • zt=100h(ytyt1)z_t = 100\cdot h\,(y_t-y_{t-1}) (scaled one-period growth)
  • jumlah faktor kandidat sampai k=6k=6 , dipilih pakai BIC ala Stock–Watson.

5.2. Mengapa “weighted PC”?

Mereka tunjukkan di data nyata: residual idiosinkratik banyak yang korelasinya tinggi (bahkan ada mendekati 1), dan banyak seri memiliki Ri2R_i^2 ​ kecil (common component lemah). Ini kondisi yang membuat PC “plain” berisiko. ARE MORE DATA ALWAYS BETTER FOR…

5.3. Bentuk umum objective berbobot

Alih-alih minimisasi SSE biasa:V(k)=1NTi=1Nt=1Teit2V(k)=\frac{1}{NT}\sum_{i=1}^N\sum_{t=1}^T e_{it}^2

mereka pertimbangkan:W(k)=1NTi=1NwiTt=1Teit2W(k)=\frac{1}{NT}\sum_{i=1}^N w_{iT}\sum_{t=1}^T e_{it}^2

  • wiTw_{iT} : bobot yang merefleksikan “informativeness” atau “problematicness” seri ii

5.4. Definisi aturan bobot / seleksi seri (Rules)

Mereka lakukan two-step:

  1. Estimasi faktor awal (mis. 6 faktor) → dapat residual e^it\widehat e_{it} ​ → bentuk Ω^T\widehat\Omega_T
  2. Bangun bobot wiTw_{iT} / drop series → estimasi faktor ulang → dipakai untuk forecasting

Aturan penting:

  • SWa: wiT=1/Ω^T(i,i)w_{iT} = 1/\widehat\Omega_T(i,i) (koreksi heteroskedastisitas diagonal)
  • SWb: wiT=1/(1Nj=1NΩ^T(i,j))w_{iT} = 1/\left(\frac{1}{N}\sum_{j=1}^N |\widehat\Omega_T(i,j)|\right) (downweight seri dengan residual yang banyak berkorelasi)
  • Rule 1: drop semua seri yang menjadi “pasangan korelasi maksimum” (set j1={ji1}j_1=\{j_i^1\}
  • Rule 2: drop tambahan berdasarkan korelasi maksimum ke-2
  • 1c/2c: versi rolling/real-time dari Rule 1/2 (set drop bisa berubah ketika sample bergeser)
  • A/B/C/D (reklasifikasi ekonomi): pecah panel menjadi Real (R), Nominal (N), Volatile/Leading (V); ekstrak faktor terpisah (mis. 3 faktor per grup), lalu tentukan urutan masuk ke persamaan forecasting.

Temuan metodologis: beberapa rule yang memakai lebih sedikit seri (mis. 33 atau 46 seri) atau downweight korelasi residual sering memberi forecast error lebih kecil daripada memakai seluruh 147 seri. ARE MORE DATA ALWAYS BETTER FOR…


6) Ringkasan “apa yang harus Anda ambil” dari metode paper

Secara metodologis, paper ini mengatakan:

  1. PC faktor = estimator yang sangat bergantung pada “kualitas panel”, bukan hanya ukuran NN .
  2. Penambahan seri bisa:
    • menurunkan rata-rata kekuatan common component (R2R^2 turun),
    • menaikkan cross-correlation idiosinkratik (τ^\widehat\tau^* naik),
    • memicu oversampling (faktor tertentu jadi dominan, yang lain “tenggelam”).
  3. Karena itu, strategi seleksi/penimbangan seri (weighted PC / drop correlated-noisy series / split by economic blocks) adalah bagian inti dari metode untuk memperbaiki kinerja forecast.