Dari OLS menuju BLUE, Standard Error, \(r^2\), dan Monte Carlo
Bab 3 menjawab pertanyaan inti dalam regresi dua variabel: bagaimana kita mengestimasi population regression function (PRF) menggunakan sample regression function (SRF) secara seakurat mungkin. Gujarati memperkenalkan metode Ordinary Least Squares (OLS), asumsi Classical Linear Regression Model (CLRM), ketelitian estimator melalui standard error, teorema Gauss–Markov, serta ukuran kecocokan model melalui \(r^2\).
Peta Konseptual: Apa yang Dipelajari dalam Chapter 3?
Bab 3 bergerak secara sistematis: mulai dari prinsip OLS, rumus estimator, asumsi CLRM, standard error, teorema Gauss–Markov, goodness of fit, contoh numerik, hingga simulasi Monte Carlo.
Masalah Estimasi dalam Regresi Dua Variabel
Karena PRF tidak dapat diamati secara langsung, ekonometris membangun SRF dari sampel dan memilih garis regresi yang paling dekat dengan data aktual.
Ordinary Least Squares
Mencari garis regresi dengan residual kuadrat minimum.
- PRF tidak teramati langsung.
- SRF dibangun dari data sampel.
- Residual: \(\hat u_i=Y_i-\hat Y_i\).
- OLS meminimumkan \(\sum \hat u_i^2\).
Estimator dan CLRM
Estimator OLS bergantung pada asumsi model klasik.
- \(\hat\beta_1\) dan \(\hat\beta_2\).
- Normal equations.
- Zero conditional mean.
- Homoskedastisitas.
- No autocorrelation.
Standard Error dan BLUE
Ketelitian estimator dan optimalitas OLS.
- \(\operatorname{se}(\hat\beta_1)\).
- \(\operatorname{se}(\hat\beta_2)\).
- Gauss–Markov theorem.
- OLS adalah BLUE.
Goodness of Fit
Seberapa baik garis regresi menjelaskan variasi \(Y\).
- \(TSS=ESS+RSS\).
- \(r^2=ESS/TSS\).
- \(0\le r^2\le1\).
- \(r=\pm\sqrt{r^2}\).
Contoh Numerik
Fungsi konsumsi–pendapatan dengan data hipotetis.
- \(\hat Y=24.4545+0.5091X\).
- \(r^2=0.9621\).
- \(r=0.9809\).
- Interpretasi slope dan intercept.
Ilustrative Examples
Aplikasi OLS pada konsumsi, pangan, dan pendidikan.
- PCE–GDP Amerika Serikat.
- Food expenditure di India.
- Earnings dan education.
- Perbedaan \(r^2\) time series dan cross-section.
Monte Carlo
Simulasi untuk memahami sifat estimator OLS.
- Tentukan \(\beta_1,\beta_2\).
- Bangkitkan error acak.
- Ulangi estimasi berkali-kali.
- Lihat apakah rata-rata estimator mendekati parameter sebenarnya.
Roadmap CLRM
Apa yang terjadi jika asumsi model dilanggar?
- Heteroskedastisitas.
- Autokorelasi.
- Spesifikasi model salah.
- Multikolinearitas.
Dari PRF ke SRF: Mengapa OLS Diperlukan?
PRF menggambarkan hubungan populasi yang ideal, tetapi tidak dapat diamati secara langsung. Karena itu, kita menggunakan data sampel untuk membangun SRF. OLS memilih nilai \(\hat\beta_1\) dan \(\hat\beta_2\) yang meminimumkan jumlah kuadrat residual.
1. Population Regression Function
Hubungan teoritis pada tingkat populasi.
2. Sample Regression Function
Hubungan yang dibangun dari data sampel.
3. Residual
Selisih antara nilai aktual dan nilai prediksi.
4. Prinsip Least Squares
Residual besar diberi penalti lebih berat.
Mencari Garis Regresi dengan RSS Terkecil
Gunakan simulator berikut untuk melihat bahwa setiap kombinasi \(\hat\beta_1\) dan \(\hat\beta_2\) menghasilkan residual berbeda. Tujuan OLS adalah memilih garis yang menghasilkan Residual Sum of Squares (RSS) paling kecil.
Scatter Plot dan Garis SRF
Data mengikuti contoh sederhana seperti Table 3.1: \((X,Y)=(1,4),(4,5),(5,7),(6,12)\).
Ubah \(\hat\beta_1\) dan \(\hat\beta_2\)
Coba geser nilai intercept dan slope, lalu perhatikan perubahan RSS.
| Model | \(\hat\beta_1\) | \(\hat\beta_2\) | Persamaan | RSS | Interpretasi |
|---|---|---|---|---|---|
| Eksperimen 1 | 1.572 | 1.357 | \(\hat Y=1.572+1.357X\) | 12.214 | Lebih baik karena jumlah kuadrat residual lebih kecil. |
| Eksperimen 2 | 3.000 | 1.000 | \(\hat Y=3+X\) | 14.000 | Masih masuk akal, tetapi tidak seoptimal model OLS. |
Bagaimana OLS Menghasilkan \(\hat\beta_1\) dan \(\hat\beta_2\)?
Dengan meminimumkan \(\sum \hat u_i^2\) terhadap \(\hat\beta_1\) dan \(\hat\beta_2\), kita memperoleh dua persamaan normal dan rumus estimator OLS.
Normal Equation 1
Turunan terhadap \(\hat\beta_1\).
Normal Equation 2
Turunan terhadap \(\hat\beta_2\).
Estimator Slope
Rumus paling penting pada regresi sederhana.
Estimator Intercept
Garis harus melewati titik rata-rata.
Empat Sifat Penting Garis Regresi Sampel
Setelah \(\hat\beta_1\) dan \(\hat\beta_2\) diperoleh, SRF memiliki sejumlah sifat numerik yang sangat khas.
Melewati \((\bar X,\bar Y)\)
Karena \[ \bar Y=\hat\beta_1+\hat\beta_2\bar X \] maka garis regresi selalu melalui mean sampel.
Jumlah Residual Nol
\[ \sum \hat u_i=0 \] Residual positif dan negatif seimbang di sekitar garis regresi.
Residual Ortogonal terhadap \(X\)
\[ \sum X_i\hat u_i=0 \] Residual tidak berkorelasi secara sampel dengan regressor.
Residual Ortogonal terhadap \(\hat Y\)
\[ \sum \hat Y_i\hat u_i=0 \] Fitted values dan residual tidak bergerak sistematis bersama.
Garis SRF melalui \((\bar X,\bar Y)\)
Grafik ini merekonstruksi gagasan Figure 3.2 secara interaktif.
Sifat OLS pada Data Table 3.2
Dashboard berikut menghitung sifat dasar residual menggunakan data konsumsi–pendapatan.
Asumsi-Asumsi Dasar CLRM
Agar estimator OLS mempunyai sifat statistik yang baik, Gujarati memperkenalkan asumsi CLRM. Asumsi-asumsi ini berkaitan dengan bentuk model, perilaku \(X\), karakteristik error \(u_i\), dan kecukupan informasi dalam sampel.
Linear in Parameters
Model berbentuk linear terhadap parameter \(\beta_1,\beta_2\).
\(X\) Fixed in Repeated Sampling
Nilai \(X_i\) dianggap tetap atau nonstokastik.
Zero Conditional Mean
\[ E(u_i\mid X_i)=0 \]
Homoscedasticity
\[ \operatorname{var}(u_i\mid X_i)=\sigma^2 \]
No Autocorrelation
\[ \operatorname{cov}(u_i,u_j)=0 \]
Zero Covariance \(u_i,X_i\)
\[ \operatorname{cov}(u_i,X_i)=0 \]
Observations \(>\) Parameters
Jumlah observasi harus cukup untuk mengestimasi parameter.
Variability in \(X\)
\(X_i\) tidak boleh semuanya sama.
Correct Specification
Model harus memasukkan bentuk hubungan yang tepat.
No Perfect Multicollinearity
Relevan saat model memiliki lebih dari satu regressor.
Mengapa asumsi CLRM penting?
- Asumsi membantu membangun teori estimasi secara bertahap.
- Asumsi tidak selalu sepenuhnya realistis, tetapi berguna sebagai titik awal analisis.
- Gujarati menekankan bahwa peneliti harus memeriksa apakah asumsi sesuai dengan data dan masalah riset.
- Pelanggaran asumsi membuka jalan menuju topik lanjutan: heteroskedastisitas, autokorelasi, spesifikasi model, dan multikolinearitas.
Homoskedastisitas, Heteroskedastisitas, dan Autokorelasi
Tiga visual berikut membantu mahasiswa membedakan struktur error yang memenuhi dan melanggar asumsi CLRM.
Homoskedastisitas
Varians error relatif sama pada seluruh tingkat \(X\).
Heteroskedastisitas
Varians error membesar atau mengecil secara sistematis.
Autokorelasi Error
Error positif diikuti positif, atau negatif diikuti negatif.
Seberapa Presisi Estimator OLS?
Karena nilai \(\hat\beta_1\) dan \(\hat\beta_2\) dapat berubah dari satu sampel ke sampel lain, kita memerlukan ukuran presisi. Gujarati menggunakan standard error untuk menilai reliabilitas estimator.
Variance of Slope
Semakin besar variasi \(X\), slope makin presisi.
Standard Error of Slope
Akar positif dari varians slope.
Estimator of \(\sigma^2\)
RSS dibagi derajat bebas.
Standard Error of Regression
Ukuran rata-rata penyebaran residual.
Pengaruh \(\sigma^2\) dan \(\sum x_i^2\) terhadap \(se(\hat\beta_2)\)
Geser nilai varians error dan variasi regressor untuk melihat perubahan presisi slope.
Standard Error Slope
Kurva memperlihatkan hubungan terbalik antara \(\sum x_i^2\) dan \(se(\hat\beta_2)\).
Mengapa OLS Disebut BLUE?
Gujarati menekankan bahwa di bawah asumsi CLRM, estimator OLS adalah Best Linear Unbiased Estimator (BLUE). Artinya: linear, tidak bias, dan memiliki varians minimum dibanding estimator linear tak bias lainnya.
Linear
Estimator merupakan fungsi linear dari \(Y_i\).
Unbiased
Nilai harapan estimator sama dengan parameter sebenarnya.
Minimum Variance
Lebih efisien dari estimator linear tak bias lain.
BLUE
Best Linear Unbiased Estimator.
Distribusi Estimator OLS vs Estimator Alternatif
Kedua estimator sama-sama tidak bias, tetapi OLS lebih terkonsentrasi di sekitar \(\beta_2\).
Apa yang Dimaksud “Best”?
Kapan BLUE tidak berlaku?
- Jika homoskedastisitas dilanggar.
- Jika model tidak linear dalam parameter.
- Jika asumsi CLRM lain tidak terpenuhi.
- OLS bisa tetap unbiased, tetapi tidak lagi minimum variance.
Koefisien Determinasi \(r^2\): Seberapa Baik Model Menjelaskan \(Y\)?
Gujarati menunjukkan bahwa variasi total \(Y\) dapat dipecah menjadi variasi yang dijelaskan oleh regresi dan variasi residual. Dari sini lahir ukuran penting, yaitu \(r^2\).
Dekomposisi Variasi
Total = Explained + Residual.
Koefisien Determinasi
Proporsi variasi \(Y\) yang dijelaskan oleh model.
Alternatif \(r^2\)
Menggunakan residual.
Korelasi
Hubungan \(r\) dan \(r^2\).
Simulasi Overlap Variasi \(X\) dan \(Y\)
Semakin besar overlap antara lingkaran \(X\) dan \(Y\), semakin besar proporsi variasi \(Y\) yang dijelaskan oleh \(X\).
Contoh Table 3.2
Berdasarkan data konsumsi–pendapatan hipotetis:
Contoh Lengkap: Konsumsi Mingguan dan Pendapatan Mingguan
Gujarati menggunakan data hipotetis keluarga untuk memperoleh model: \[ \hat Y_i=24.4545+0.5091X_i \] Slope \(0.5091\) berarti setiap kenaikan pendapatan sebesar 1 dolar meningkatkan konsumsi rata-rata sekitar 51 sen.
Data Konsumsi dan Pendapatan
| No. | Income \(X\) | Consumption \(Y\) | \(\hat Y\) | Residual \(\hat u\) |
|---|
Estimasi SRF Konsumsi–Pendapatan
Titik menunjukkan data aktual, garis emas menunjukkan estimasi OLS.
Tiga Contoh Aplikasi OLS dalam Gujarati
Gujarati menunjukkan bahwa regresi dua variabel dapat diterapkan pada data time series maupun cross-section. Nilai \(r^2\) yang tinggi atau rendah harus dibaca sesuai konteks datanya.
Simulator Interpretasi Persamaan
Makna \(r^2\) pada Tiap Kasus
Simulasi Monte Carlo: Apakah Rata-Rata Estimator Mendekati Parameter Asli?
Monte Carlo digunakan untuk memahami sifat estimator melalui eksperimen sampling berulang. Kita tetapkan parameter sejati, membangkitkan error acak, membentuk \(Y_i\), lalu mengestimasi regresi berkali-kali.
Atur Parameter Monte Carlo
Sampling Distribution dari \(\hat\beta_2\)
Bila estimator unbiased, rata-rata estimasi slope akan mendekati \(\beta_2\) sejati.
Jika Asumsi CLRM Dilanggar, Belajar ke Bab Mana?
Gujarati menyusun Table 3.4 sebagai peta lanjutan. Tabel ini membantu mahasiswa melihat bahwa Bab 3 adalah fondasi menuju topik ekonometrika lanjutan.
| No. | Pelanggaran Asumsi | Dipelajari Lebih Lanjut |
|---|---|---|
| 1 | Nonlinearity in parameters | Chapter 14 |
| 2 | Stochastic regressors | Introduction to Part II |
| 3 | Nonzero mean of \(u_i\) | Introduction to Part II |
| 4 | Heteroscedasticity | Chapter 11 |
| 5 | Autocorrelated disturbances | Chapter 12 |
| 6 | Nonzero covariance between disturbance and regressor | Introduction to Part II and Part IV |
| 7 | Sample observations fewer than number of regressors | Chapter 10 |
| 8 | Insufficient variability in regressors | Chapter 10 |
| 9 | Specification bias | Chapters 13 and 14 |
| 10 | Multicollinearity | Chapter 10 |
Inti Bab 3 yang Harus Dipahami Mahasiswa
Bab 3 adalah jantung awal teori estimasi regresi. Mahasiswa tidak hanya perlu menghafal rumus, tetapi memahami mengapa OLS digunakan, apa yang membuatnya optimal, kapan hasilnya dapat dipercaya, dan bagaimana mengukur kualitas garis regresi.
Garis dipilih dengan meminimumkan jumlah kuadrat residual, bukan sekadar jumlah residual biasa.
\(\hat\beta_1\) dan \(\hat\beta_2\) diperoleh dari normal equations dan memiliki sifat numerik khusus.
Di bawah asumsi klasik, OLS menjadi estimator linear tak bias dengan varians minimum.
\(r^2\) menunjukkan proporsi variasi \(Y\) yang dijelaskan oleh model regresi.