Multicollinearity and Variable Selection in Economic Growth Modeling: Evidence from China (2000–2019)


Artikel ini berbasis:

Li et al. (2021), Analysis of Potential Factors Influencing China’s Regional Sustainable Economic Growth, Applied Sciences, 11, 10832. DOI: 10.3390/app112210832

Research Context

Pertumbuhan ekonomi China selama dua dekade terakhir ditandai oleh:

  • Transformasi struktural dari manufaktur ke jasa
  • Urbanisasi dan ekspansi konsumsi domestik
  • Global integration (trade & FDI)
  • Reformasi fiskal dan moneter

Penelitian ini bertujuan untuk:

Mengidentifikasi faktor dominan yang memengaruhi pertumbuhan ekonomi berkelanjutan China dengan mempertimbangkan multikolinearitas antar variabel makroekonomi.


Data Structure

Period

2000–2019 (annual data)

2.2 Dependent Variable

Yt=GDP Growth RateY_t = \text{GDP Growth Rate}

Independent Variables

Kelompok variabel:

A. External / Global Factors

  • Trade growth
  • Exchange rate
  • Foreign Direct Investment (FDI)

B. Domestic Factors

  • Fiscal expenditure
  • Money supply growth
  • Household consumption
  • Education spending
  • R&D expenditure
  • Tertiary industry growth
  • Financial development
  • Industrial growth
  • Real estate development

(Deskripsi variabel terdapat pada bagian data dan variabel penelitian applsci-11-10832)


Econometric Specification

Model dasar:Y=Xβ+εY = X\beta + \varepsilon

Dimana:

  • YRn×1Y \in \mathbb{R}^{n \times 1}
  • XRn×pX \in \mathbb{R}^{n \times p}
  • βRp×1\beta \in \mathbb{R}^{p \times 1}
  • εN(0,σ2I)\varepsilon \sim N(0, \sigma^2I)

Methodological Framework

Penelitian menggunakan empat pendekatan:

  1. Ordinary Least Squares (OLS)
  2. Stepwise Regression
  3. Ridge Regression
  4. Lasso Regression

Tujuannya adalah mengatasi multikolinearitas dan melakukan seleksi variabel optimal.


1. Ordinary Least Squares (OLS)

a. Estimator

β^OLS=(XTX)1XTY\hat{\beta}_{OLS} = (X^TX)^{-1}X^TY

b.Classical Assumptions

  • No perfect multicollinearity
  • Homoskedasticity
  • No autocorrelation
  • Exogeneity

c. Problem Identified

Variance Inflation Factor (VIF) > 3 untuk banyak variabel.

Multikolinearitas menyebabkan:Var(β^)=σ2(XTX)1Var(\hat{\beta}) = \sigma^2 (X^TX)^{-1}

Jika XTXX^TX hampir singular → varians koefisien sangat besar.

Kesimpulan: OLS tidak stabil untuk dataset ini applsci-11-10832


2. Stepwise Regression

Stepwise menggunakan kriteria AIC:AIC=2k2ln(L)AIC = 2k – 2\ln(L)

Metode ini mengeliminasi variabel berdasarkan kontribusi statistik.

Kelemahan:

  • Over-censoring
  • Tidak mempertimbangkan struktur korelasi penuh

3. Ridge Regression (L2 Regularization)

Digunakan untuk mengatasi multikolinearitas.

a. Optimization Problem

minβi=1n(yixiTβ)2+λj=1pβj2\min_{\beta} \sum_{i=1}^{n}(y_i – x_i^T\beta)^2 + \lambda \sum_{j=1}^{p}\beta_j^2

b. Estimator

β^ridge=(XTX+λI)1XTY\hat{\beta}_{ridge} = (X^TX + \lambda I)^{-1}X^TY

Penambahan λI\lambda IλI membuat matriks selalu invertible.

Karakteristik:

  • Mengurangi varians
  • Tidak mengeliminasi variabel

4. Lasso Regression (L1 Regularization)

8.1 Optimization

minβi=1n(yixiTβ)2+λj=1pβj\min_{\beta} \sum_{i=1}^{n}(y_i – x_i^T\beta)^2 + \lambda \sum_{j=1}^{p}|\beta_j|

Lasso menghasilkan solusi sparse:βj=0untuk variabel tidak signifikan\beta_j = 0 \quad \text{untuk variabel tidak signifikan}

8.2 Keunggulan

  • Automatic variable selection
  • Mengurangi overfitting
  • Cocok untuk model ekonomi dengan banyak variabel

Penelitian menunjukkan Lasso memiliki MSE terkecil


Final Model (Lasso Output)

Model optimal:GDP=0.32174+0.00882Trade+0.02303FDI0.18662Fiscal+0.00372Money+0.65418Consumption+0.07189Education+0.63368Tertiary0.01650Finance0.00703IndustryGDP = 0.32174 + 0.00882 Trade + 0.02303 FDI – 0.18662 Fiscal + 0.00372 Money + 0.65418 Consumption + 0.07189 Education + 0.63368 Tertiary – 0.01650 Finance – 0.00703 Industry


Interpretation of Coefficients

Household Consumption (0.65418)

Dominant driver of economic growth.

Tertiary Industry (0.63368)

Structural shift toward service economy.

Trade and FDI

Remain significant but secondary.

Fiscal Expenditure (-0.18662)

Negative sign may indicate inefficiency or crowding-out effect.


11. Methodological Insights

MethodRobust to MulticollinearityVariable SelectionStability
OLSLow
StepwisePartialModerate
RidgeHigh
LassoHighest

Lasso provides the best bias-variance tradeoff.


Theoretical Implication

Model menunjukkan bahwa:GDPt=f(Consumption,Tertiary,Trade,FDI)GDP_t = f(Consumption, Tertiary, Trade, FDI)

Implikasi teori:

  • Keynesian demand-side mechanism dominan
  • Structural transformation hypothesis valid
  • Export-led growth bukan satu-satunya motor

Policy Implication

  1. Stimulus konsumsi domestik
  2. Transformasi industri jasa
  3. Reformasi fiskal
  4. Optimalisasi FDI berkualitas
  5. Kurangi ketergantungan properti

Critical Evaluation

Kelebihan:

  • Pendekatan regularization tepat
  • Perbandingan metode komprehensif

Keterbatasan:

  • Data time series pendek (20 tahun)
  • Tidak memasukkan dinamika lag
  • Tidak menggunakan VAR atau panel regional

Key Takeaway for Researchers

Jika dataset ekonomi memiliki:

  • Banyak variabel
  • Korelasi tinggi antar variabel
  • Risiko overfitting

Maka:Gunakan Lasso Regression untuk seleksi variabel optimal.\textbf{Gunakan Lasso Regression untuk seleksi variabel optimal.}