High-Dimensional Prediction, Nonlinearity, and Economic Interpretation
🇮🇩 Catatan Akademik
1. Asset Pricing sebagai Masalah Ekspektasi Kondisional
Dalam asset pricing empiris, objek utama yang ingin diestimasi bukan sekadar return historis, melainkan ekspektasi return masa depan bersyarat pada informasi saat ini. Secara formal:
Pendekatan ini menempatkan asset pricing sebagai masalah prediksi, bukan semata-mata pengujian teori faktor. Perbedaan mendasar dengan literatur klasik terletak pada cara membentuk fungsi kondisional tersebut.
2. Keterbatasan Model Tradisional
Model asset pricing konvensional (CAPM, multifactor models) umumnya:
- bersifat linier,
- aditif,
- dan mengandalkan jumlah faktor terbatas.
Dalam konteks data modern—dengan ratusan karakteristik saham dan kondisi makro yang berubah—pendekatan ini menghadapi dua masalah utama:
- curse of dimensionality,
- ketidakstabilan out-of-sample akibat noise return yang tinggi.
OLS, khususnya, gagal ketika jumlah prediktor mendekati atau melampaui jumlah observasi efektif.
3. Reformulasi dengan Machine Learning
Machine learning memperlakukan return sebagai hasil dari fungsi tak diketahui:
tanpa asumsi awal bahwa f(⋅) harus linier atau aditif. Fokus utamanya adalah minimisasi kesalahan prediksi out-of-sample, bukan interpretasi koefisien individual.
4. High-Dimensional Feature Space
Vektor prediktor dibangun sebagai:
yang mencakup:
- karakteristik perusahaan,
- interaksi dengan kondisi makro,
- dummy sektor industri.
Konsekuensinya, estimasi berada dalam domain high-dimensional regression, di mana regularisasi dan reduksi kompleksitas menjadi keharusan metodologis.
5. Kelas Model dan Representasi Matematis
a. Penalized Linear Models
Elastic Net memecahkan:
Model ini memperbaiki stabilitas OLS, tetapi tetap terbatas pada struktur linier.
b. Dimension Reduction
PCR dan PLS menggantikan prediktor mentah dengan kombinasi linier berdimensi rendah. Intinya:
Pendekatan ini mengurangi noise, tetapi mengaburkan struktur hubungan ekonomi mikro.
c. Nonlinear Additive Models
Model spline:
mengizinkan kelengkungan, tetapi mengabaikan interaksi antar prediktor, sehingga sering tidak cukup dalam konteks keuangan.
d. Tree-Based Models
Random Forest dan Boosted Trees mengaproksimasi:
dengan Tb sebagai pohon keputusan. Keunggulan utama model ini adalah kemampuannya menangkap interaksi nonlinier secara implisit.
e. Neural Networks
Neural networks membangun komposisi fungsi nonlinier berlapis:
dengan:
Model ini sangat fleksibel, tetapi rentan overfitting jika kedalaman berlebihan—khususnya ketika signal-to-noise ratio return rendah.
6. Evaluasi: Statistik vs Makna Ekonomi
Evaluasi tidak cukup berhenti pada R2 out-of-sample. Prediksi harus diterjemahkan ke:
- strategi portofolio,
- market timing,
- dan Sharpe ratio.
Ini menegaskan prinsip penting: validitas ekonomi sama pentingnya dengan akurasi statistik.
7. Catatan Metodologis Kritis
- Keunggulan ML tidak berasal dari “lebih banyak variabel”, tetapi dari struktur nonlinier dan interaksi.
- Model yang terlalu kompleks tidak selalu unggul.
- Interpretabilitas menjadi tantangan, sehingga analisis sensitivitas dan robustness wajib dilakukan.
🇬🇧 Academic Notes
1. Asset Pricing as a Conditional Expectation Problem
Empirical asset pricing fundamentally seeks to estimate:
Recasting this task as a prediction problem allows machine learning methods to relax strong functional-form assumptions.
2. Limitations of Classical Models
Linear factor models struggle in high-dimensional settings due to:
- multicollinearity,
- overfitting,
- poor out-of-sample stability.
3. Machine Learning Reformulation
Returns are modeled as:
where is learned from data.
4. High-Dimensional Predictors
The feature space combines firm characteristics, macro interactions, and industry indicators, requiring regularization and nonlinear modeling.
5. Model Classes
- Penalized linear models stabilize estimation,
- Dimension reduction trades interpretability for robustness,
- Tree-based models and neural networks capture nonlinear interactions.
6. Economic Evaluation
Predictive success must translate into economically meaningful portfolio performance, not just statistical fit.
7. Key Takeaways
- Nonlinear interactions drive predictive gains,
- Complexity must be disciplined,
- Machine learning complements not replaces economic theory.