“Are More Data Always Better for Factor Analysis?” (Boivin & Ng, 2003)

1) Kerangka utama: Approximate Factor Model (AFM)

1.1. Struktur data panel

Paper bekerja dengan panel makro:

i=1,…,N = indeks seri/variabel (cross-section)
t=1,…,T = indeks waktu (time series)

Model faktor (statik) untuk setiap seri: $X_{it}=\lambda_i^{0\prime}F_t^0+e_{it}\equiv \chi_{it}+e_{it}$

Arti simbol:

$X_{it}$ : observasi seri ke- $i$ pada waktu $t$ (biasanya sudah ditransformasi & distandardisasi)
$F_t^0$ : vektor faktor laten ukuran $r\times 1$ (common factors)
$\lambda_i^0$ : vektor factor loading untuk seri $i$ i ukuran $r\times 1$
$\chi_{it}=\lambda_i^{0\prime}F_t^0$ : common component (bagian yang “shared” oleh banyak seri)
$e_{it}$ : idiosyncratic error (bagian spesifik-seri)

Inti “approximate factor model”: $e_{it}$ boleh saling berkorelasi (cross-correlated) dan serially correlated secara lemah, tidak harus diagonal seperti strict factor model. ARE MORE DATA ALWAYS BETTER FOR…

2) Estimasi faktor: Principal Components (PC)

2.1. Matriks kovarians dan struktur eigen

Didefinisikan:

$\Sigma_X$ : kovarians populasi dari $X_t=(X_{1t},…,X_{Nt})’$
$\Sigma_\chi$ : kovarians populasi dari komponen bersama $\chi_t$
$\Omega$ : kovarians idiosinkratik $e_t$

Relasi populasi: $\Sigma_X=\Sigma_\chi+\Omega$

Ciri faktor:

$\Sigma_\chi$ punya r eigenvalue non-zero yang membesar saat $N$ membesar (pervasive factors).
Maka $r$ eigenvalue terbesar dari $\Sigma_X$ juga membesar → ruang faktor dapat diestimasi dari eigen-dekomposisi.

2.2. Rumus PC estimator (versi paper)

Ambil eigenvector $v_j=(v_{1j},…,v_{Nj})’$ dari sample covariance $\widehat{\Sigma}_X$ untuk eigenvalue ke- $j$ terbesar.

Faktor terestimasi ke- $j$ j: $\widehat{F}_{t,N}^{(j)}=\sqrt{\frac{1}{N}}\sum_{i=1}^N X_{it}v_{ij}$

Loading terestimasi: $\widehat{\lambda}_{ij}=\sqrt{N}\,v_{ij}$

Kumpulan faktor:

$\widehat F_{t,N}=(\widehat F_{t,N}^{(1)},…,\widehat F_{t,N}^{(r)})’$

Makna penting: PC memakai $\widehat{\Sigma}_X$ (tanpa “GLS-weighting” penuh), sehingga jika $\Omega$ jauh dari “spherical” (heteroskedastik + cross-correlation), presisi faktor bisa turun. ARE MORE DATA ALWAYS BETTER FOR…

3) Metode evaluasi utama: Forecasting dengan Diffusion Index

Paper menilai “apakah lebih banyak data $N$ N selalu lebih baik?” melalui kinerja forecasting.

3.1. Benchmark AR(p)

$\widehat y_{t+1|t}=\widehat\alpha_0+\sum_{j=1}^p \widehat\gamma_j\,y_{t-j+1}$

$y_t$ : seri target yang mau diprediksi
$p$ : orde AR
$\widehat{\alpha}_0,\widehat{\gamma}_j$ : OLS

3.2. Forecast dengan faktor (infeasible vs feasible)

Jika faktor benar $F_t^0$ terobservasi: $\widehat y_{t+1|t}=\widehat\beta_0+\widehat\beta_1’F_t^0+\sum_{j=1}^p \widehat\gamma_j\,y_{t-j+1}$

Tapi karena $F_t^0$ tidak terobservasi, dipakai faktor hasil PC: $\widehat y_{t+1|t}=\widehat\beta_0+\widehat\beta_1’\widehat F_{t,N}+\sum_{j=1}^p \widehat\gamma_j\,y_{t-j+1}$

Simbol:

$\beta_0$ : intercept
$\beta_1$ : koefisien faktor
$\widehat F_{t,N}$ : faktor hasil ekstraksi dari $N$ seri

Poin metodologis kunci paper: dalam finite sample, forecast berbasis $\widehat F_{t,N}$ bisa lebih buruk ketika penambahan seri menambah noise/cross-correlation atau menyebabkan “oversampling” faktor tertentu. ARE MORE DATA ALWAYS BETTER FOR…

4) Metode simulasi (Monte Carlo): kapan “more data” jadi buruk?

Paper merancang 2 eksperimen Monte Carlo untuk mengisolasi mekanisme.

4.1. Persamaan target yang diprediksi

$y_{t+1}=\sum_{j=1}^r \beta_j F_{jt}^0+\varepsilon_{t+1}$

$\varepsilon_{t}\sim N(0,\sigma_\varepsilon^2)$
$\sigma_\varepsilon^2$ dipilih agar $R^2$ persamaan forecasting = $\kappa_y$

4.2. Data panel yang mengandung faktor

$X_{it}=\sum_{m=1}^r \lambda_{im}F_{mt}+e_{it}$

$\lambda_{im}$ : loading (di simulasi: acak, mis. $N(1,1)$
fokus paper: struktur eit (heteroskedastik + cross-correlated)

4.3. Model 1 (Correlated & Noisy Errors)

Total seri: $N=N_1+N_2+N_3$ , dengan tiga tipe error:

“Clean” (uncorrelated, var kecil):

$e_{it}=\sigma_1 u_{it},\quad i\in N_1$

“Noisy” (uncorrelated, var besar):

$e_{it}=\sigma_2 u_{it},\quad i\in N_2,\ \sigma_2^2>\sigma_1^2$

Cross-correlated:

$e_{it}=\sigma_3 \tilde e_{it},\quad \tilde e_{it}=u_{it}+\sum_{j=1}^{C}\rho_{ij}u_{jt},\quad i\in N_3$

Set $N_3$ “menempel” pada $C$ seri dari grup $N_1$ , sehingga muncul blok kovarians $\Omega_{13}$ .

Struktur $\Omega$ yang ditulis paper: $\Omega= \begin{bmatrix} \sigma_1^2 I_{N_1} & 0 & \Omega_{13}\\ 0 & \sigma_2^2 I_{N_2} & 0\\ \Omega_{13}’ & 0 & \Omega_{33} \end{bmatrix}$

Indikator “berapa parah” cross-correlation:

$\widehat\tau_{ij}=\frac{1}{T}\sum_t \widehat e_{it}\widehat e_{jt}$
$\widehat\tau_i^*=\sum_{j=1}^N |\widehat\tau_{ij}|$
$\widehat\tau^*=\frac{1}{N}\max_i \widehat\tau_i^*$

Indikator “seberapa kuat common component”:

$R_i^2=\dfrac{\sum_t \widehat\chi_{it}^2}{\sum_t x_{it}^2}$ (fraksi variasi seri $i$ yang dijelaskan common component)
$R^2=\frac{1}{N}\sum_i R_i^2$ (rata-rata)
$R_q=R^2_{0.9N}-R^2_{0.1N}$ (dispersi: beda persentil 90 dan 10)

Statistik evaluasi kualitas faktor & forecast:

Kedekatan ruang faktor:

$S_{F,F^0}=\frac{\text{tr}\big(F^{0\prime}\widehat F(\widehat F’\widehat F)^{-1}\widehat F’F^0\big)}{\text{tr}(F^{0\prime}F^0)}$

Kedekatan forecast feasible vs infeasible:

$S_{y,y^0}=1-\frac{\sum_t(\widehat y_{F^0,t+1|t}-\widehat y_{\widehat F,t+1|t})^2}{\sum_t \widehat y_{F^0,t+1|t}^2}$

Kinerja terhadap conditional mean (di simulasi):

$S_{\beta,\widehat\beta}=\frac{\sum_t(y_{\widehat F,t+1|t}-\widehat y_{\widehat F,t+1|t})^2}{\sum_t y_{\widehat F,t+1|t}^2}$

Kesimpulan metodologis Model 1: menambah seri tipe $N_2$ (noisy) atau $N_3$ (cross-correlated) dapat menurunkan $S_{F,F^0}$ dan kinerja forecast—jadi “lebih banyak data” bisa memperburuk estimasi faktor. ARE MORE DATA ALWAYS BETTER FOR…

4.4. Model 2 (Oversampling)

Mereka mensimulasikan 2 faktor AR(1): $F_{mt}=0.5F_{m,t-1}+u_{mt},\quad u_{mt}\sim N(0,1),\ m=1,2$

Dua target: $y^A_{t+1}=\beta_A F_{1t}+\varepsilon^A_{t+1},\qquad y^B_{t+1}=\beta_B F_{2t}+\varepsilon^B_{t+1}$

Lalu mereka membentuk 5 “tipe seri” $X_{it}$ dengan bobot faktor yang berbeda (ada yang dominan F1, dominan F2, campuran, dan murni noise).

Makna oversampling: dataset bisa “terlalu banyak” memuat seri yang kuat pada satu faktor (mis. F1), sehingga faktor lain (F2) menjadi tidak dominan di panel besar → untuk mem-forecast target yang tergantung F2, kita mungkin butuh lebih banyak faktor terestimasi (menambah sampling variability), atau justru lebih baik pakai subset yang membuat F2 dominan. ARE MORE DATA ALWAYS BETTER FOR…

5) Metode empiris: Real-time forecasting + Weighted PC

5.1. Setup forecast empiris (12 bulan ke depan)

Mereka pakai panel bulanan N=147 seri (1959:1–1998:12), dan memprediksi 8 indikator (ip, gmyxspq, msmtq, lpnag, punew, gmdc, puxx, pwfsa). Forecast model: $\widehat y_{t+h|t}=\widehat\beta_0+\widehat\beta_1’\widehat F_{t,N}+\sum_{j=1}^p \widehat\gamma_j z_{t-j+1}$

dengan:

$h=12$
$p=4$
$z_t = 100\cdot h\,(y_t-y_{t-1})$ (scaled one-period growth)
jumlah faktor kandidat sampai $k=6$ , dipilih pakai BIC ala Stock–Watson.

5.2. Mengapa “weighted PC”?

Mereka tunjukkan di data nyata: residual idiosinkratik banyak yang korelasinya tinggi (bahkan ada mendekati 1), dan banyak seri memiliki $R_i^2$ kecil (common component lemah). Ini kondisi yang membuat PC “plain” berisiko. ARE MORE DATA ALWAYS BETTER FOR…

5.3. Bentuk umum objective berbobot

Alih-alih minimisasi SSE biasa: $V(k)=\frac{1}{NT}\sum_{i=1}^N\sum_{t=1}^T e_{it}^2$

mereka pertimbangkan: $W(k)=\frac{1}{NT}\sum_{i=1}^N w_{iT}\sum_{t=1}^T e_{it}^2$

$w_{iT}$ : bobot yang merefleksikan “informativeness” atau “problematicness” seri $i$

5.4. Definisi aturan bobot / seleksi seri (Rules)

Mereka lakukan two-step:

Estimasi faktor awal (mis. 6 faktor) → dapat residual $\widehat e_{it}$ → bentuk $\widehat\Omega_T$
Bangun bobot $w_{iT}$ / drop series → estimasi faktor ulang → dipakai untuk forecasting

Aturan penting:

SWa: $w_{iT} = 1/\widehat\Omega_T(i,i)$ (koreksi heteroskedastisitas diagonal)
SWb: $w_{iT} = 1/\left(\frac{1}{N}\sum_{j=1}^N |\widehat\Omega_T(i,j)|\right)$ (downweight seri dengan residual yang banyak berkorelasi)
Rule 1: drop semua seri yang menjadi “pasangan korelasi maksimum” (set $j_1=\{j_i^1\}$
Rule 2: drop tambahan berdasarkan korelasi maksimum ke-2
1c/2c: versi rolling/real-time dari Rule 1/2 (set drop bisa berubah ketika sample bergeser)
A/B/C/D (reklasifikasi ekonomi): pecah panel menjadi Real (R), Nominal (N), Volatile/Leading (V); ekstrak faktor terpisah (mis. 3 faktor per grup), lalu tentukan urutan masuk ke persamaan forecasting.

Temuan metodologis: beberapa rule yang memakai lebih sedikit seri (mis. 33 atau 46 seri) atau downweight korelasi residual sering memberi forecast error lebih kecil daripada memakai seluruh 147 seri. ARE MORE DATA ALWAYS BETTER FOR…

6) Ringkasan “apa yang harus Anda ambil” dari metode paper

Secara metodologis, paper ini mengatakan:

PC faktor = estimator yang sangat bergantung pada “kualitas panel”, bukan hanya ukuran $N$ .
Penambahan seri bisa:
- menurunkan rata-rata kekuatan common component ( $R^2$ turun),
- menaikkan cross-correlation idiosinkratik ( $\widehat\tau^*$ naik),
- memicu oversampling (faktor tertentu jadi dominan, yang lain “tenggelam”).
Karena itu, strategi seleksi/penimbangan seri (weighted PC / drop correlated-noisy series / split by economic blocks) adalah bagian inti dari metode untuk memperbaiki kinerja forecast.