Empirical Asset Pricing via Machine Learning

High-Dimensional Prediction, Nonlinearity, and Economic Interpretation


🇮🇩 Catatan Akademik

1. Asset Pricing sebagai Masalah Ekspektasi Kondisional

Dalam asset pricing empiris, objek utama yang ingin diestimasi bukan sekadar return historis, melainkan ekspektasi return masa depan bersyarat pada informasi saat ini. Secara formal:E(Ri,t+1Ft)\mathbb{E}(R_{i,t+1} \mid \mathcal{F}_t)

Pendekatan ini menempatkan asset pricing sebagai masalah prediksi, bukan semata-mata pengujian teori faktor. Perbedaan mendasar dengan literatur klasik terletak pada cara membentuk fungsi kondisional tersebut.


2. Keterbatasan Model Tradisional

Model asset pricing konvensional (CAPM, multifactor models) umumnya:

  • bersifat linier,
  • aditif,
  • dan mengandalkan jumlah faktor terbatas.

Dalam konteks data modern—dengan ratusan karakteristik saham dan kondisi makro yang berubah—pendekatan ini menghadapi dua masalah utama:

  1. curse of dimensionality,
  2. ketidakstabilan out-of-sample akibat noise return yang tinggi.

OLS, khususnya, gagal ketika jumlah prediktor mendekati atau melampaui jumlah observasi efektif.


3. Reformulasi dengan Machine Learning

Machine learning memperlakukan return sebagai hasil dari fungsi tak diketahui:Ri,t+1=f(Xi,t,Zt)+εi,t+1R_{i,t+1} = f(X_{i,t}, Z_t) + \varepsilon_{i,t+1}

tanpa asumsi awal bahwa f()f(\cdot)f(⋅) harus linier atau aditif. Fokus utamanya adalah minimisasi kesalahan prediksi out-of-sample, bukan interpretasi koefisien individual.


4. High-Dimensional Feature Space

Vektor prediktor dibangun sebagai:Wi,t=[Xi,tXi,tZtDi]W_{i,t} = \begin{bmatrix} X_{i,t} \\ X_{i,t} \otimes Z_t \\ D_i \end{bmatrix}

yang mencakup:

  • karakteristik perusahaan,
  • interaksi dengan kondisi makro,
  • dummy sektor industri.

Konsekuensinya, estimasi berada dalam domain high-dimensional regression, di mana regularisasi dan reduksi kompleksitas menjadi keharusan metodologis.


5. Kelas Model dan Representasi Matematis

a. Penalized Linear Models

Elastic Net memecahkan:minβ(RWβ)2+λ1β1+λ2β22\min_{\beta} \sum (R – W\beta)^2 + \lambda_1 \|\beta\|_1 + \lambda_2 \|\beta\|_2^2

Model ini memperbaiki stabilitas OLS, tetapi tetap terbatas pada struktur linier.


b. Dimension Reduction

PCR dan PLS menggantikan prediktor mentah dengan kombinasi linier berdimensi rendah. Intinya:Rk=1KγkComponentkR \approx \sum_{k=1}^K \gamma_k \cdot \text{Component}_k

Pendekatan ini mengurangi noise, tetapi mengaburkan struktur hubungan ekonomi mikro.


c. Nonlinear Additive Models

Model spline:R=α+jgj(Wj)+εR = \alpha + \sum_j g_j(W_j) + \varepsilon

mengizinkan kelengkungan, tetapi mengabaikan interaksi antar prediktor, sehingga sering tidak cukup dalam konteks keuangan.


d. Tree-Based Models

Random Forest dan Boosted Trees mengaproksimasi:f(W)b=1BTb(W)f(W) \approx \sum_{b=1}^B T_b(W)

dengan TbT_bTb​ sebagai pohon keputusan. Keunggulan utama model ini adalah kemampuannya menangkap interaksi nonlinier secara implisit.


e. Neural Networks

Neural networks membangun komposisi fungsi nonlinier berlapis:R^=f(W;θ)\hat{R} = f(W; \theta)

dengan:h(l)=σ(W(l)h(l1)+b(l))h^{(l)} = \sigma(W^{(l)} h^{(l-1)} + b^{(l)})

Model ini sangat fleksibel, tetapi rentan overfitting jika kedalaman berlebihan—khususnya ketika signal-to-noise ratio return rendah.


6. Evaluasi: Statistik vs Makna Ekonomi

Evaluasi tidak cukup berhenti pada R2R^2R2 out-of-sample. Prediksi harus diterjemahkan ke:

  • strategi portofolio,
  • market timing,
  • dan Sharpe ratio.

Ini menegaskan prinsip penting: validitas ekonomi sama pentingnya dengan akurasi statistik.


7. Catatan Metodologis Kritis

  1. Keunggulan ML tidak berasal dari “lebih banyak variabel”, tetapi dari struktur nonlinier dan interaksi.
  2. Model yang terlalu kompleks tidak selalu unggul.
  3. Interpretabilitas menjadi tantangan, sehingga analisis sensitivitas dan robustness wajib dilakukan.

🇬🇧 Academic Notes

1. Asset Pricing as a Conditional Expectation Problem

Empirical asset pricing fundamentally seeks to estimate:E(Ri,t+1Ft)\mathbb{E}(R_{i,t+1} \mid \mathcal{F}_t)

Recasting this task as a prediction problem allows machine learning methods to relax strong functional-form assumptions.


2. Limitations of Classical Models

Linear factor models struggle in high-dimensional settings due to:

  • multicollinearity,
  • overfitting,
  • poor out-of-sample stability.

3. Machine Learning Reformulation

Returns are modeled as:Ri,t+1=f(Xi,t,Zt)+εi,t+1R_{i,t+1} = f(X_{i,t}, Z_t) + \varepsilon_{i,t+1}

where f()f(\cdot) is learned from data.


4. High-Dimensional Predictors

The feature space combines firm characteristics, macro interactions, and industry indicators, requiring regularization and nonlinear modeling.


5. Model Classes

  • Penalized linear models stabilize estimation,
  • Dimension reduction trades interpretability for robustness,
  • Tree-based models and neural networks capture nonlinear interactions.

6. Economic Evaluation

Predictive success must translate into economically meaningful portfolio performance, not just statistical fit.


7. Key Takeaways

  • Nonlinear interactions drive predictive gains,
  • Complexity must be disciplined,
  • Machine learning complements not replaces economic theory.