🇮🇩 VERSI BAHASA INDONESIA
1. Kerangka Metodologis Umum
Penelitian ini memandang asset pricing empiris sebagai persoalan estimasi ekspektasi kondisional return, yang secara formal dapat dinyatakan sebagai:
dengan:
- adalah excess return saham i pada periode ,
- adalah himpunan informasi yang tersedia pada waktu ,
- mencerminkan karakteristik spesifik perusahaan,
- merepresentasikan kondisi makroekonomi dan pasar agregat.
Berbeda dari pendekatan klasik yang mengasumsikan bentuk linier dan faktor risiko terstruktur, studi ini mengadopsi kerangka supervised learning, di mana fungsi prediksi dipelajari langsung dari data:
tanpa pembatasan awal terhadap linearitas maupun additivitas.
2. Struktur Data dan Ruang Prediktor
2.1 Vektor Prediktor
Vektor prediktor berdimensi tinggi dibangun sebagai:
di mana:
- adalah karakteristik saham,
- adalah interaksi karakteristik dengan variabel makro,
- adalah dummy industri.
Total dimensi prediktor:
yang menempatkan studi ini dalam konteks high-dimensional regression.
3. Spesifikasi Model Matematis
3.1 Model Linear Dasar (Benchmark)
Ordinary Least Squares (OLS)
OLS berfungsi sebagai benchmark, namun tidak konsisten secara out-of-sample ketika:
akibat varians estimator yang meningkat tajam.
3.2 Penalized Linear Regression
Elastic Net
Model diestimasi dengan meminimalkan:
dengan:
- penalti mendorong sparsity,
- penalti menstabilkan estimasi pada prediktor berkorelasi tinggi.
3.3 Reduksi Dimensi
Principal Component Regression (PCR)
- Dekomposisi:
- Pemilihan K komponen utama:
- Regresi:
Partial Least Squares (PLS)
PLS memilih vektor bobot ωk yang memaksimalkan:
sehingga lebih fokus pada prediktivitas return dibanding variansi prediktor.
3.4 Model Nonlinier Terbatas
Generalized Linear Model dengan Spline
dengan:
- gj(⋅) adalah fungsi spline nonlinier,
- penalti group LASSO diterapkan untuk seleksi kelompok fungsi.
Keterbatasan utama:
(interaksi tidak dimodelkan).
3.5 Tree-Based Ensemble Models
Random Forest (RF)
dengan:
- adalah decision tree ke-,
- setiap tree dibangun dari bootstrap sample.
RF secara implisit menangkap interaksi:
melalui struktur percabangan.
Gradient Boosted Trees (GBRT)
Model aditif:
di mana setiap tree hm mengaproksimasi negative gradient dari fungsi loss.
3.6 Neural Networks
Feedforward Neural Network
dengan:
- hidden layers,
- fungsi aktivasi nonlinier.
Estimasi dilakukan melalui:
disertai early stopping untuk mencegah overfitting.
4. Evaluasi dan Implementasi Ekonomi
Model dievaluasi berdasarkan:
- Out-of-sample R2,
- Sharpe ratio portofolio hasil prediksi,
- Strategi long–short decile dan market timing.
🇬🇧 ENGLISH VERSION
Methodology and Model Specification
Empirical Asset Pricing via Machine Learning: A High-Dimensional Predictive Framework
1. General Methodological Framework
This study formulates empirical asset pricing as a conditional expectation problem, expressed as:
where:
- denotes excess stock returns,
- represents the information set,
- are firm-level characteristics,
- captures aggregate macroeconomic conditions.
The predictive model is written as:
without imposing linearity or additivity ex ante.
2. High-Dimensional Feature Space
The predictor vector is constructed as:
resulting in more than 900 predictive signals, placing the analysis in a high-dimensional regression environment.
3. Mathematical Model Specifications
3.1 Linear Benchmark Model
Ordinary Least Squares
OLS serves as a baseline but suffers from poor out-of-sample performance under dimensionality.
3.2 Penalized Linear Models
Elastic Net
balancing sparsity and stability.
3.3 Dimension Reduction
Principal Component Regression
Partial Least Squares
PLS maximizes:
to extract predictive components.
3.4 Restricted Nonlinear Models
Spline-Based GLM
Nonlinear but additive, hence interaction-free.
3.5 Tree-Based Ensembles
Random Forest
Gradient Boosting
capturing nonlinear interactions.
3.6 Neural Networks
with multi-layer nonlinear transformations estimated via regularized least squares and early stopping.
5. Methodological Contribution
The methodology demonstrates that predictive gains in asset pricing arise primarily from nonlinear interactions, not merely from expanding predictor sets.