🇮🇩 VERSI BAHASA INDONESIA

1. Kerangka Metodologis Umum

Penelitian ini memandang asset pricing empiris sebagai persoalan estimasi ekspektasi kondisional return, yang secara formal dapat dinyatakan sebagai: $\mathbb{E}\left(R_{i,t+1} \mid \mathcal{F}_t\right)$

dengan:

$R_{i,t+1}$ adalah excess return saham $i$ i pada periode $t+1$ ,
$\mathcal{F}_t = \{X_{i,t}, Z_t\}$ adalah himpunan informasi yang tersedia pada waktu $t$ ,
$X_{i,t}$ mencerminkan karakteristik spesifik perusahaan,
$Z_t$ merepresentasikan kondisi makroekonomi dan pasar agregat.

Berbeda dari pendekatan klasik yang mengasumsikan bentuk linier dan faktor risiko terstruktur, studi ini mengadopsi kerangka supervised learning, di mana fungsi prediksi $f(\cdot)$ dipelajari langsung dari data: $R_{i,t+1} = f(X_{i,t}, Z_t) + \varepsilon_{i,t+1}$

tanpa pembatasan awal terhadap linearitas maupun additivitas.

2. Struktur Data dan Ruang Prediktor

2.1 Vektor Prediktor

Vektor prediktor berdimensi tinggi dibangun sebagai: $W_{i,t} = \begin{bmatrix} X_{i,t} \\ X_{i,t} \otimes Z_t \\ D_i \end{bmatrix}$

di mana:

$X_{i,t} \in \mathbb{R}^{94}$ adalah karakteristik saham,
$X_{i,t} \otimes Z_t$ adalah interaksi karakteristik dengan variabel makro,
$D_i$ adalah dummy industri.

Total dimensi prediktor: $\dim(W_{i,t}) > 900$

yang menempatkan studi ini dalam konteks high-dimensional regression.

3. Spesifikasi Model Matematis

3.1 Model Linear Dasar (Benchmark)

Ordinary Least Squares (OLS)

$R_{i,t+1} = \alpha + W_{i,t}’\beta + \varepsilon_{i,t+1}$

OLS berfungsi sebagai benchmark, namun tidak konsisten secara out-of-sample ketika: $\dim(W_{i,t}) \approx N \quad \text{atau} \quad \dim(W_{i,t}) > N$

akibat varians estimator yang meningkat tajam.

3.2 Penalized Linear Regression

Elastic Net

Model diestimasi dengan meminimalkan: $\min_{\beta} \sum_{i,t} \left(R_{i,t+1} – W_{i,t}’\beta\right)^2 + \lambda_1 \|\beta\|_1 + \lambda_2 \|\beta\|_2^2$

dengan:

penalti $\ell_1$ mendorong sparsity,
penalti $\ell_2$ menstabilkan estimasi pada prediktor berkorelasi tinggi.

3.3 Reduksi Dimensi

Principal Component Regression (PCR)

Dekomposisi:

$W = U \Sigma V’$

Pemilihan $K$ K komponen utama:

$\tilde{W} = U_K \Sigma_K$

Regresi:

$R_{t+1} = \tilde{W}_t \gamma + \varepsilon_{t+1}$

Partial Least Squares (PLS)

PLS memilih vektor bobot $\omega_k$ ωk yang memaksimalkan: $\text{Cov}(W\omega_k, R)^2$

sehingga lebih fokus pada prediktivitas return dibanding variansi prediktor.

3.4 Model Nonlinier Terbatas

Generalized Linear Model dengan Spline

$R_{i,t+1} = \alpha + \sum_{j=1}^p g_j(W_{i,t,j}) + \varepsilon_{i,t+1}$

dengan:

$g_j(\cdot)$ gj(⋅) adalah fungsi spline nonlinier,
penalti group LASSO diterapkan untuk seleksi kelompok fungsi.

Keterbatasan utama: $\frac{\partial^2 R}{\partial W_j \partial W_k} = 0 \quad \forall j \neq k$

(interaksi tidak dimodelkan).

3.5 Tree-Based Ensemble Models

Random Forest (RF)

$\hat{f}(W) = \frac{1}{B} \sum_{b=1}^B T_b(W)$

dengan:

$T_b(\cdot)$ adalah decision tree ke- $b$ ,
setiap tree dibangun dari bootstrap sample.

RF secara implisit menangkap interaksi: $W_j \times W_k$

melalui struktur percabangan.

Gradient Boosted Trees (GBRT)

Model aditif: $f_M(W) = \sum_{m=1}^M \nu h_m(W)$

di mana setiap tree $h_m$ hm mengaproksimasi negative gradient dari fungsi loss.

3.6 Neural Networks

Feedforward Neural Network

$\begin{aligned} h^{(1)} &= \sigma(W^{(1)} W + b^{(1)}) \\ h^{(l)} &= \sigma(W^{(l)} h^{(l-1)} + b^{(l)}) \\ \hat{R}_{i,t+1} &= W^{(L)} h^{(L-1)} + b^{(L)} \end{aligned}$

dengan:

$L = 1,\dots,5$ hidden layers,
$\sigma(\cdot)$ fungsi aktivasi nonlinier.

Estimasi dilakukan melalui: $\min_{\theta} \sum (R – \hat{R})^2 + \lambda \|\theta\|^2$

disertai early stopping untuk mencegah overfitting.

4. Evaluasi dan Implementasi Ekonomi

Model dievaluasi berdasarkan:

Out-of-sample R2,
Sharpe ratio portofolio hasil prediksi,
Strategi long–short decile dan market timing.

🇬🇧 ENGLISH VERSION

Methodology and Model Specification

Empirical Asset Pricing via Machine Learning: A High-Dimensional Predictive Framework

1. General Methodological Framework

This study formulates empirical asset pricing as a conditional expectation problem, expressed as: $\mathbb{E}(R_{i,t+1} \mid \mathcal{F}_t)$

where:

$R_{i,t+1}$ denotes excess stock returns,
$\mathcal{F}_t = \{X_{i,t}, Z_t\}$ represents the information set,
$X_{i,t}$ are firm-level characteristics,
$Z_t$ captures aggregate macroeconomic conditions.

The predictive model is written as: $R_{i,t+1} = f(X_{i,t}, Z_t) + \varepsilon_{i,t+1}$

without imposing linearity or additivity ex ante.

2. High-Dimensional Feature Space

The predictor vector is constructed as: $W_{i,t} = \begin{bmatrix} X_{i,t} \\ X_{i,t} \otimes Z_t \\ D_i \end{bmatrix}$

resulting in more than 900 predictive signals, placing the analysis in a high-dimensional regression environment.

3. Mathematical Model Specifications

3.1 Linear Benchmark Model

Ordinary Least Squares

$R_{i,t+1} = \alpha + W_{i,t}’\beta + \varepsilon_{i,t+1}$

OLS serves as a baseline but suffers from poor out-of-sample performance under dimensionality.

3.2 Penalized Linear Models

Elastic Net

$\min_{\beta} \sum (R – W\beta)^2 + \lambda_1 \|\beta\|_1 + \lambda_2 \|\beta\|_2^2$

balancing sparsity and stability.

3.3 Dimension Reduction

Principal Component Regression

$W = U\Sigma V’ \quad \Rightarrow \quad R = U_K \Sigma_K \gamma + \varepsilon$

Partial Least Squares

PLS maximizes: $\text{Cov}(W\omega, R)^2$

to extract predictive components.

3.4 Restricted Nonlinear Models

Spline-Based GLM

$R_{i,t+1} = \alpha + \sum_j g_j(W_{i,t,j}) + \varepsilon$

Nonlinear but additive, hence interaction-free.

3.5 Tree-Based Ensembles

Random Forest

$\hat{f}(W) = \frac{1}{B} \sum_{b=1}^B T_b(W)$

Gradient Boosting

$f_M(W) = \sum_{m=1}^M \nu h_m(W)$

capturing nonlinear interactions.

3.6 Neural Networks

$\hat{R} = f(W;\theta)$

with multi-layer nonlinear transformations estimated via regularized least squares and early stopping.

5. Methodological Contribution

The methodology demonstrates that predictive gains in asset pricing arise primarily from nonlinear interactions, not merely from expanding predictor sets.

Machine Learning dalam Asset Pricing Empiris: Pendekatan Prediktif Berbasis High-Dimensional Data

🇮🇩 VERSI BAHASA INDONESIA

1. Kerangka Metodologis Umum

2. Struktur Data dan Ruang Prediktor

2.1 Vektor Prediktor

3. Spesifikasi Model Matematis

3.1 Model Linear Dasar (Benchmark)

Ordinary Least Squares (OLS)

3.2 Penalized Linear Regression

Elastic Net

3.3 Reduksi Dimensi

Principal Component Regression (PCR)

Partial Least Squares (PLS)

3.4 Model Nonlinier Terbatas

Generalized Linear Model dengan Spline

3.5 Tree-Based Ensemble Models

Random Forest (RF)

Gradient Boosted Trees (GBRT)

3.6 Neural Networks

Feedforward Neural Network

4. Evaluasi dan Implementasi Ekonomi

🇬🇧 ENGLISH VERSION

Methodology and Model Specification

Empirical Asset Pricing via Machine Learning: A High-Dimensional Predictive Framework

1. General Methodological Framework

2. High-Dimensional Feature Space

3. Mathematical Model Specifications

3.1 Linear Benchmark Model

Ordinary Least Squares

3.2 Penalized Linear Models

Elastic Net

3.3 Dimension Reduction

Principal Component Regression

Partial Least Squares

3.4 Restricted Nonlinear Models

Spline-Based GLM

3.5 Tree-Based Ensembles

Random Forest

Gradient Boosting

3.6 Neural Networks

5. Methodological Contribution