1) Kerangka utama: Approximate Factor Model (AFM)
1.1. Struktur data panel
Paper bekerja dengan panel makro:
- i=1,…,N = indeks seri/variabel (cross-section)
- t=1,…,T = indeks waktu (time series)
Model faktor (statik) untuk setiap seri:
Arti simbol:
- : observasi seri ke- pada waktu (biasanya sudah ditransformasi & distandardisasi)
- : vektor faktor laten ukuran (common factors)
- : vektor factor loading untuk seri i ukuran
- : common component (bagian yang “shared” oleh banyak seri)
- : idiosyncratic error (bagian spesifik-seri)
Inti “approximate factor model”: boleh saling berkorelasi (cross-correlated) dan serially correlated secara lemah, tidak harus diagonal seperti strict factor model. ARE MORE DATA ALWAYS BETTER FOR…
2) Estimasi faktor: Principal Components (PC)
2.1. Matriks kovarians dan struktur eigen
Didefinisikan:
- : kovarians populasi dari
- : kovarians populasi dari komponen bersama
- : kovarians idiosinkratik
Relasi populasi:
Ciri faktor:
- punya r eigenvalue non-zero yang membesar saat membesar (pervasive factors).
- Maka eigenvalue terbesar dari juga membesar → ruang faktor dapat diestimasi dari eigen-dekomposisi.
2.2. Rumus PC estimator (versi paper)
Ambil eigenvector dari sample covariance untuk eigenvalue ke- terbesar.
Faktor terestimasi ke-j:
Loading terestimasi:
Kumpulan faktor:
Makna penting: PC memakai (tanpa “GLS-weighting” penuh), sehingga jika jauh dari “spherical” (heteroskedastik + cross-correlation), presisi faktor bisa turun. ARE MORE DATA ALWAYS BETTER FOR…
3) Metode evaluasi utama: Forecasting dengan Diffusion Index
Paper menilai “apakah lebih banyak data N selalu lebih baik?” melalui kinerja forecasting.
3.1. Benchmark AR(p)
- : seri target yang mau diprediksi
- : orde AR
- : OLS
3.2. Forecast dengan faktor (infeasible vs feasible)
Jika faktor benar terobservasi:
Tapi karena tidak terobservasi, dipakai faktor hasil PC:
Simbol:
- : intercept
- : koefisien faktor
- : faktor hasil ekstraksi dari seri
Poin metodologis kunci paper: dalam finite sample, forecast berbasis bisa lebih buruk ketika penambahan seri menambah noise/cross-correlation atau menyebabkan “oversampling” faktor tertentu. ARE MORE DATA ALWAYS BETTER FOR…
4) Metode simulasi (Monte Carlo): kapan “more data” jadi buruk?
Paper merancang 2 eksperimen Monte Carlo untuk mengisolasi mekanisme.
4.1. Persamaan target yang diprediksi
- dipilih agar persamaan forecasting =
4.2. Data panel yang mengandung faktor
- : loading (di simulasi: acak, mis.
- fokus paper: struktur eit (heteroskedastik + cross-correlated)
4.3. Model 1 (Correlated & Noisy Errors)
Total seri: , dengan tiga tipe error:
- “Clean” (uncorrelated, var kecil):
- “Noisy” (uncorrelated, var besar):
- Cross-correlated:
- Set “menempel” pada seri dari grup , sehingga muncul blok kovarians .
Struktur yang ditulis paper:
Indikator “berapa parah” cross-correlation:
Indikator “seberapa kuat common component”:
- (fraksi variasi seri yang dijelaskan common component)
- (rata-rata)
- (dispersi: beda persentil 90 dan 10)
Statistik evaluasi kualitas faktor & forecast:
- Kedekatan ruang faktor:
- Kedekatan forecast feasible vs infeasible:
- Kinerja terhadap conditional mean (di simulasi):
Kesimpulan metodologis Model 1: menambah seri tipe (noisy) atau (cross-correlated) dapat menurunkan dan kinerja forecast—jadi “lebih banyak data” bisa memperburuk estimasi faktor. ARE MORE DATA ALWAYS BETTER FOR…
4.4. Model 2 (Oversampling)
Mereka mensimulasikan 2 faktor AR(1):
Dua target:
Lalu mereka membentuk 5 “tipe seri” dengan bobot faktor yang berbeda (ada yang dominan F1, dominan F2, campuran, dan murni noise).
Makna oversampling: dataset bisa “terlalu banyak” memuat seri yang kuat pada satu faktor (mis. F1), sehingga faktor lain (F2) menjadi tidak dominan di panel besar → untuk mem-forecast target yang tergantung F2, kita mungkin butuh lebih banyak faktor terestimasi (menambah sampling variability), atau justru lebih baik pakai subset yang membuat F2 dominan. ARE MORE DATA ALWAYS BETTER FOR…
5) Metode empiris: Real-time forecasting + Weighted PC
5.1. Setup forecast empiris (12 bulan ke depan)
Mereka pakai panel bulanan N=147 seri (1959:1–1998:12), dan memprediksi 8 indikator (ip, gmyxspq, msmtq, lpnag, punew, gmdc, puxx, pwfsa). Forecast model:
dengan:
- (scaled one-period growth)
- jumlah faktor kandidat sampai , dipilih pakai BIC ala Stock–Watson.
5.2. Mengapa “weighted PC”?
Mereka tunjukkan di data nyata: residual idiosinkratik banyak yang korelasinya tinggi (bahkan ada mendekati 1), dan banyak seri memiliki kecil (common component lemah). Ini kondisi yang membuat PC “plain” berisiko. ARE MORE DATA ALWAYS BETTER FOR…
5.3. Bentuk umum objective berbobot
Alih-alih minimisasi SSE biasa:
mereka pertimbangkan:
- : bobot yang merefleksikan “informativeness” atau “problematicness” seri
5.4. Definisi aturan bobot / seleksi seri (Rules)
Mereka lakukan two-step:
- Estimasi faktor awal (mis. 6 faktor) → dapat residual → bentuk
- Bangun bobot / drop series → estimasi faktor ulang → dipakai untuk forecasting
Aturan penting:
- SWa: (koreksi heteroskedastisitas diagonal)
- SWb: (downweight seri dengan residual yang banyak berkorelasi)
- Rule 1: drop semua seri yang menjadi “pasangan korelasi maksimum” (set
- Rule 2: drop tambahan berdasarkan korelasi maksimum ke-2
- 1c/2c: versi rolling/real-time dari Rule 1/2 (set drop bisa berubah ketika sample bergeser)
- A/B/C/D (reklasifikasi ekonomi): pecah panel menjadi Real (R), Nominal (N), Volatile/Leading (V); ekstrak faktor terpisah (mis. 3 faktor per grup), lalu tentukan urutan masuk ke persamaan forecasting.
Temuan metodologis: beberapa rule yang memakai lebih sedikit seri (mis. 33 atau 46 seri) atau downweight korelasi residual sering memberi forecast error lebih kecil daripada memakai seluruh 147 seri. ARE MORE DATA ALWAYS BETTER FOR…
6) Ringkasan “apa yang harus Anda ambil” dari metode paper
Secara metodologis, paper ini mengatakan:
- PC faktor = estimator yang sangat bergantung pada “kualitas panel”, bukan hanya ukuran .
- Penambahan seri bisa:
- menurunkan rata-rata kekuatan common component ( turun),
- menaikkan cross-correlation idiosinkratik ( naik),
- memicu oversampling (faktor tertentu jadi dominan, yang lain “tenggelam”).
- Karena itu, strategi seleksi/penimbangan seri (weighted PC / drop correlated-noisy series / split by economic blocks) adalah bagian inti dari metode untuk memperbaiki kinerja forecast.