Gujarati · Chapter 3 · Two-Variable Regression Model

Dari OLS menuju BLUE, Standard Error, \(r^2\), dan Monte Carlo

Bab 3 menjawab pertanyaan inti dalam regresi dua variabel: bagaimana kita mengestimasi population regression function (PRF) menggunakan sample regression function (SRF) secara seakurat mungkin. Gujarati memperkenalkan metode Ordinary Least Squares (OLS), asumsi Classical Linear Regression Model (CLRM), ketelitian estimator melalui standard error, teorema Gauss–Markov, serta ukuran kecocokan model melalui \(r^2\).

\(\min \sum \hat{u}_i^2\) Prinsip utama OLS: memilih garis dengan jumlah kuadrat residual terkecil.

\(\hat{\beta}_2=\frac{\sum x_iy_i}{\sum x_i^2}\) Estimator slope dari regresi dua variabel.

BLUE OLS menjadi Best Linear Unbiased Estimator di bawah asumsi CLRM.

\(TSS=ESS+RSS\) Variasi total \(Y\) diuraikan menjadi variasi yang dijelaskan dan residual.

Pohon Pengetahuan Bab 3

Peta Konseptual: Apa yang Dipelajari dalam Chapter 3?

Bab 3 bergerak secara sistematis: mulai dari prinsip OLS, rumus estimator, asumsi CLRM, standard error, teorema Gauss–Markov, goodness of fit, contoh numerik, hingga simulasi Monte Carlo.

Akar Utama

Masalah Estimasi dalam Regresi Dua Variabel

Karena PRF tidak dapat diamati secara langsung, ekonometris membangun SRF dari sampel dan memilih garis regresi yang paling dekat dengan data aktual.

3.1

Ordinary Least Squares

Mencari garis regresi dengan residual kuadrat minimum.

PRF tidak teramati langsung.
SRF dibangun dari data sampel.
Residual: \(\hat u_i=Y_i-\hat Y_i\).
OLS meminimumkan \(\sum \hat u_i^2\).

3.1–3.2

Estimator dan CLRM

Estimator OLS bergantung pada asumsi model klasik.

\(\hat\beta_1\) dan \(\hat\beta_2\).
Normal equations.
Zero conditional mean.
Homoskedastisitas.
No autocorrelation.

3.3–3.4

Standard Error dan BLUE

Ketelitian estimator dan optimalitas OLS.

\(\operatorname{se}(\hat\beta_1)\).
\(\operatorname{se}(\hat\beta_2)\).
Gauss–Markov theorem.
OLS adalah BLUE.

3.5

Goodness of Fit

Seberapa baik garis regresi menjelaskan variasi \(Y\).

\(TSS=ESS+RSS\).
\(r^2=ESS/TSS\).
\(0\le r^2\le1\).
\(r=\pm\sqrt{r^2}\).

3.6

Contoh Numerik

Fungsi konsumsi–pendapatan dengan data hipotetis.

\(\hat Y=24.4545+0.5091X\).
\(r^2=0.9621\).
\(r=0.9809\).
Interpretasi slope dan intercept.

3.7

Ilustrative Examples

Aplikasi OLS pada konsumsi, pangan, dan pendidikan.

PCE–GDP Amerika Serikat.
Food expenditure di India.
Earnings dan education.
Perbedaan \(r^2\) time series dan cross-section.

3.8

Monte Carlo

Simulasi untuk memahami sifat estimator OLS.

Tentukan \(\beta_1,\beta_2\).
Bangkitkan error acak.
Ulangi estimasi berkali-kali.
Lihat apakah rata-rata estimator mendekati parameter sebenarnya.

3.9

Roadmap CLRM

Apa yang terjadi jika asumsi model dilanggar?

Heteroskedastisitas.
Autokorelasi.
Spesifikasi model salah.
Multikolinearitas.

3.1 · Ordinary Least Squares

Dari PRF ke SRF: Mengapa OLS Diperlukan?

PRF menggambarkan hubungan populasi yang ideal, tetapi tidak dapat diamati secara langsung. Karena itu, kita menggunakan data sampel untuk membangun SRF. OLS memilih nilai \(\hat\beta_1\) dan \(\hat\beta_2\) yang meminimumkan jumlah kuadrat residual.

1. Population Regression Function

Hubungan teoritis pada tingkat populasi.

\[ Y_i=\beta_1+\beta_2X_i+u_i \]

2. Sample Regression Function

Hubungan yang dibangun dari data sampel.

\[ Y_i=\hat\beta_1+\hat\beta_2X_i+\hat u_i \]

3. Residual

Selisih antara nilai aktual dan nilai prediksi.

\[ \hat u_i=Y_i-\hat Y_i \]

4. Prinsip Least Squares

Residual besar diberi penalti lebih berat.

\[ \min \sum_{i=1}^{n}\hat u_i^2 \]

Intuisi OLS: Mengapa residual dikuadratkan? Karena jika hanya menjumlahkan residual, nilai positif dan negatif dapat saling meniadakan. Dengan kuadrat residual, penyimpangan yang besar akan diberi bobot lebih besar, sehingga garis terbaik benar-benar mendekati keseluruhan data.

Simulator OLS

Mencari Garis Regresi dengan RSS Terkecil

Gunakan simulator berikut untuk melihat bahwa setiap kombinasi \(\hat\beta_1\) dan \(\hat\beta_2\) menghasilkan residual berbeda. Tujuan OLS adalah memilih garis yang menghasilkan Residual Sum of Squares (RSS) paling kecil.

Grafik Residual

Scatter Plot dan Garis SRF

Data mengikuti contoh sederhana seperti Table 3.1: \((X,Y)=(1,4),(4,5),(5,7),(6,12)\).

Kontrol Estimasi

Ubah \(\hat\beta_1\) dan \(\hat\beta_2\)

Coba geser nilai intercept dan slope, lalu perhatikan perubahan RSS.

Intercept \(\hat\beta_1\): 1.572

Slope \(\hat\beta_2\): 1.357

\(RSS=12.214\) Model \(\hat Y=1.572+1.357X\) memberikan RSS lebih kecil dibandingkan tebakan kedua.

Model	\(\hat\beta_1\)	\(\hat\beta_2\)	Persamaan	RSS	Interpretasi
Eksperimen 1	1.572	1.357	\(\hat Y=1.572+1.357X\)	12.214	Lebih baik karena jumlah kuadrat residual lebih kecil.
Eksperimen 2	3.000	1.000	\(\hat Y=3+X\)	14.000	Masih masuk akal, tetapi tidak seoptimal model OLS.

Normal Equations

Bagaimana OLS Menghasilkan \(\hat\beta_1\) dan \(\hat\beta_2\)?

Dengan meminimumkan \(\sum \hat u_i^2\) terhadap \(\hat\beta_1\) dan \(\hat\beta_2\), kita memperoleh dua persamaan normal dan rumus estimator OLS.

Normal Equation 1

Turunan terhadap \(\hat\beta_1\).

\[ \sum Y_i=n\hat\beta_1+\hat\beta_2\sum X_i \]

Normal Equation 2

Turunan terhadap \(\hat\beta_2\).

\[ \sum X_iY_i= \hat\beta_1\sum X_i+ \hat\beta_2\sum X_i^2 \]

Estimator Slope

Rumus paling penting pada regresi sederhana.

\[ \hat\beta_2= \frac{\sum x_iy_i}{\sum x_i^2} \]

Estimator Intercept

Garis harus melewati titik rata-rata.

\[ \hat\beta_1= \bar Y-\hat\beta_2\bar X \]

Notasi penting: Huruf kecil digunakan untuk deviasi dari rata-rata: \[ x_i=X_i-\bar X,\qquad y_i=Y_i-\bar Y \] sehingga rumus slope menjadi lebih ringkas.

Sifat Numerik OLS

Empat Sifat Penting Garis Regresi Sampel

Setelah \(\hat\beta_1\) dan \(\hat\beta_2\) diperoleh, SRF memiliki sejumlah sifat numerik yang sangat khas.

Melewati \((\bar X,\bar Y)\)

Karena \[ \bar Y=\hat\beta_1+\hat\beta_2\bar X \] maka garis regresi selalu melalui mean sampel.

Jumlah Residual Nol

\[ \sum \hat u_i=0 \] Residual positif dan negatif seimbang di sekitar garis regresi.

Residual Ortogonal terhadap \(X\)

\[ \sum X_i\hat u_i=0 \] Residual tidak berkorelasi secara sampel dengan regressor.

Residual Ortogonal terhadap \(\hat Y\)

\[ \sum \hat Y_i\hat u_i=0 \] Fitted values dan residual tidak bergerak sistematis bersama.

Visualisasi Mean

Garis SRF melalui \((\bar X,\bar Y)\)

Grafik ini merekonstruksi gagasan Figure 3.2 secara interaktif.

Verifikasi Numerik

Sifat OLS pada Data Table 3.2

Dashboard berikut menghitung sifat dasar residual menggunakan data konsumsi–pendapatan.

0.000 \(\sum\hat u_i\)

0.000 \(\sum X_i\hat u_i\)

111.000 \(\bar Y\)

111.000 \(\bar{\hat Y}\)

Makna: sifat-sifat tersebut bukan kebetulan, tetapi konsekuensi langsung dari prosedur OLS.

3.2 · Classical Linear Regression Model

Asumsi-Asumsi Dasar CLRM

Agar estimator OLS mempunyai sifat statistik yang baik, Gujarati memperkenalkan asumsi CLRM. Asumsi-asumsi ini berkaitan dengan bentuk model, perilaku \(X\), karakteristik error \(u_i\), dan kecukupan informasi dalam sampel.

Linear in Parameters

Model berbentuk linear terhadap parameter \(\beta_1,\beta_2\).

\(X\) Fixed in Repeated Sampling

Nilai \(X_i\) dianggap tetap atau nonstokastik.

Zero Conditional Mean

\[ E(u_i\mid X_i)=0 \]

Homoscedasticity

\[ \operatorname{var}(u_i\mid X_i)=\sigma^2 \]

No Autocorrelation

\[ \operatorname{cov}(u_i,u_j)=0 \]

Zero Covariance \(u_i,X_i\)

\[ \operatorname{cov}(u_i,X_i)=0 \]

Observations \(>\) Parameters

Jumlah observasi harus cukup untuk mengestimasi parameter.

Variability in \(X\)

\(X_i\) tidak boleh semuanya sama.

Correct Specification

Model harus memasukkan bentuk hubungan yang tepat.

No Perfect Multicollinearity

Relevan saat model memiliki lebih dari satu regressor.

Mengapa asumsi CLRM penting?

Asumsi membantu membangun teori estimasi secara bertahap.
Asumsi tidak selalu sepenuhnya realistis, tetapi berguna sebagai titik awal analisis.
Gujarati menekankan bahwa peneliti harus memeriksa apakah asumsi sesuai dengan data dan masalah riset.
Pelanggaran asumsi membuka jalan menuju topik lanjutan: heteroskedastisitas, autokorelasi, spesifikasi model, dan multikolinearitas.

Visualisasi Asumsi CLRM

Homoskedastisitas, Heteroskedastisitas, dan Autokorelasi

Tiga visual berikut membantu mahasiswa membedakan struktur error yang memenuhi dan melanggar asumsi CLRM.

Variance Pattern

Homoskedastisitas

Varians error relatif sama pada seluruh tingkat \(X\).

Variance Pattern

Heteroskedastisitas

Varians error membesar atau mengecil secara sistematis.

Serial Correlation

Autokorelasi Error

Error positif diikuti positif, atau negatif diikuti negatif.

3.3 · Precision / Standard Errors

Seberapa Presisi Estimator OLS?

Karena nilai \(\hat\beta_1\) dan \(\hat\beta_2\) dapat berubah dari satu sampel ke sampel lain, kita memerlukan ukuran presisi. Gujarati menggunakan standard error untuk menilai reliabilitas estimator.

Variance of Slope

Semakin besar variasi \(X\), slope makin presisi.

\[ \operatorname{var}(\hat\beta_2) = \frac{\sigma^2}{\sum x_i^2} \]

Standard Error of Slope

Akar positif dari varians slope.

\[ se(\hat\beta_2) = \sqrt{ \frac{\sigma^2}{\sum x_i^2} } \]

Estimator of \(\sigma^2\)

RSS dibagi derajat bebas.

\[ \hat\sigma^2= \frac{\sum \hat u_i^2}{n-2} \]

Standard Error of Regression

Ukuran rata-rata penyebaran residual.

\[ \hat\sigma= \sqrt{ \frac{\sum \hat u_i^2}{n-2} } \]

Simulator Precision

Pengaruh \(\sigma^2\) dan \(\sum x_i^2\) terhadap \(se(\hat\beta_2)\)

Geser nilai varians error dan variasi regressor untuk melihat perubahan presisi slope.

\(\sigma^2\): 42

\(\sum x_i^2\): 33000

\(se(\hat\beta_2)=0.0357\) Semakin kecil \(\sigma^2\) dan semakin besar variasi \(X\), slope dapat diestimasi lebih presisi.

Kurva Presisi

Standard Error Slope

Kurva memperlihatkan hubungan terbalik antara \(\sum x_i^2\) dan \(se(\hat\beta_2)\).

3.4 · Gauss–Markov Theorem

Mengapa OLS Disebut BLUE?

Gujarati menekankan bahwa di bawah asumsi CLRM, estimator OLS adalah Best Linear Unbiased Estimator (BLUE). Artinya: linear, tidak bias, dan memiliki varians minimum dibanding estimator linear tak bias lainnya.

Linear

Estimator merupakan fungsi linear dari \(Y_i\).

\[ \hat\beta_2=\sum k_iY_i \]

Unbiased

Nilai harapan estimator sama dengan parameter sebenarnya.

\[ E(\hat\beta_2)=\beta_2 \]

Minimum Variance

Lebih efisien dari estimator linear tak bias lain.

\[ \operatorname{var}(\hat\beta_2) \le \operatorname{var}(\beta_2^*) \]

BLUE

Best Linear Unbiased Estimator.

\[ OLS \Rightarrow BLUE \]

Visual BLUE

Distribusi Estimator OLS vs Estimator Alternatif

Kedua estimator sama-sama tidak bias, tetapi OLS lebih terkonsentrasi di sekitar \(\beta_2\).

Intuisi

Apa yang Dimaksud “Best”?

Best = Varians Minimum Jika dua estimator sama-sama linear dan unbiased, estimator dengan varians lebih kecil lebih mungkin berada dekat dengan parameter populasi sebenarnya.

Kapan BLUE tidak berlaku?

Jika homoskedastisitas dilanggar.
Jika model tidak linear dalam parameter.
Jika asumsi CLRM lain tidak terpenuhi.
OLS bisa tetap unbiased, tetapi tidak lagi minimum variance.

3.5 · Goodness of Fit

Koefisien Determinasi \(r^2\): Seberapa Baik Model Menjelaskan \(Y\)?

Gujarati menunjukkan bahwa variasi total \(Y\) dapat dipecah menjadi variasi yang dijelaskan oleh regresi dan variasi residual. Dari sini lahir ukuran penting, yaitu \(r^2\).

Dekomposisi Variasi

Total = Explained + Residual.

\[ TSS=ESS+RSS \]

Koefisien Determinasi

Proporsi variasi \(Y\) yang dijelaskan oleh model.

\[ r^2=\frac{ESS}{TSS} \]

Alternatif \(r^2\)

Menggunakan residual.

\[ r^2=1-\frac{RSS}{TSS} \]

Korelasi

Hubungan \(r\) dan \(r^2\).

\[ r=\pm\sqrt{r^2} \]

Ballentine \(r^2\)

Simulasi Overlap Variasi \(X\) dan \(Y\)

Semakin besar overlap antara lingkaran \(X\) dan \(Y\), semakin besar proporsi variasi \(Y\) yang dijelaskan oleh \(X\).

Nilai \(r^2\): 0.70

\(r^2=0.70\): sekitar 70% variasi \(Y\) dijelaskan oleh \(X\).

Dekomposisi Numerik

Contoh Table 3.2

Berdasarkan data konsumsi–pendapatan hipotetis:

8890.00 TSS

8552.73 ESS

337.27 RSS

0.9621 \(r^2\)

Interpretasi: sekitar 96.21% variasi pengeluaran konsumsi mingguan dijelaskan oleh variasi pendapatan mingguan.

3.6 · Numerical Example

Contoh Lengkap: Konsumsi Mingguan dan Pendapatan Mingguan

Gujarati menggunakan data hipotetis keluarga untuk memperoleh model: \[ \hat Y_i=24.4545+0.5091X_i \] Slope \(0.5091\) berarti setiap kenaikan pendapatan sebesar 1 dolar meningkatkan konsumsi rata-rata sekitar 51 sen.

Data Table 3.2

Data Konsumsi dan Pendapatan

No.	Income \(X\)	Consumption \(Y\)	\(\hat Y\)	Residual \(\hat u\)

Scatter + Regression Line

Estimasi SRF Konsumsi–Pendapatan

Titik menunjukkan data aktual, garis emas menunjukkan estimasi OLS.

\(\hat\beta_1=24.4545\) Intercept

\(\hat\beta_2=0.5091\) Slope / MPC dalam contoh

\(r^2=0.9621\) Goodness of fit

\(r=0.9809\) Korelasi positif sangat kuat

Catatan interpretasi intercept: Intercept sering kali tidak boleh ditafsirkan secara mekanis, terutama bila nilai \(X=0\) berada di luar rentang sampel. Dalam praktik, slope biasanya lebih substantif dibanding intercept.

3.7 · Illustrative Examples

Tiga Contoh Aplikasi OLS dalam Gujarati

Gujarati menunjukkan bahwa regresi dua variabel dapat diterapkan pada data time series maupun cross-section. Nilai \(r^2\) yang tinggi atau rendah harus dibaca sesuai konteks datanya.

Pilih Contoh

Simulator Interpretasi Persamaan

Pilih contoh regresi

\(\hat Y=-184.0780+0.7064X\) Setiap kenaikan GDP sebesar 1 unit meningkatkan PCE rata-rata sekitar 0.7064 unit.

Ringkasan Statistik

Makna \(r^2\) pada Tiap Kasus

0.9984 \(r^2\)

Time Series Jenis data

0.7064 Slope

Sangat tinggi Kualitas fit visual

Dalam data time series, nilai \(r^2\) sangat tinggi relatif sering dijumpai.

3.8 · Monte Carlo Experiments

Simulasi Monte Carlo: Apakah Rata-Rata Estimator Mendekati Parameter Asli?

Monte Carlo digunakan untuk memahami sifat estimator melalui eksperimen sampling berulang. Kita tetapkan parameter sejati, membangkitkan error acak, membentuk \(Y_i\), lalu mengestimasi regresi berkali-kali.

Kontrol Simulasi

Atur Parameter Monte Carlo

True \(\beta_1\)

True \(\beta_2\)

Standard deviation error \(\sigma\)

Jumlah eksperimen

Belum dijalankan Klik tombol simulasi untuk membangkitkan distribusi \(\hat\beta_1\) dan \(\hat\beta_2\).

Distribusi Estimator

Sampling Distribution dari \(\hat\beta_2\)

Bila estimator unbiased, rata-rata estimasi slope akan mendekati \(\beta_2\) sejati.

Roadmap Pelanggaran Asumsi

Jika Asumsi CLRM Dilanggar, Belajar ke Bab Mana?

Gujarati menyusun Table 3.4 sebagai peta lanjutan. Tabel ini membantu mahasiswa melihat bahwa Bab 3 adalah fondasi menuju topik ekonometrika lanjutan.

No.	Pelanggaran Asumsi	Dipelajari Lebih Lanjut
1	Nonlinearity in parameters	Chapter 14
2	Stochastic regressors	Introduction to Part II
3	Nonzero mean of \(u_i\)	Introduction to Part II
4	Heteroscedasticity	Chapter 11
5	Autocorrelated disturbances	Chapter 12
6	Nonzero covariance between disturbance and regressor	Introduction to Part II and Part IV
7	Sample observations fewer than number of regressors	Chapter 10
8	Insufficient variability in regressors	Chapter 10
9	Specification bias	Chapters 13 and 14
10	Multicollinearity	Chapter 10

Sintesis Akhir

Inti Bab 3 yang Harus Dipahami Mahasiswa

Bab 3 adalah jantung awal teori estimasi regresi. Mahasiswa tidak hanya perlu menghafal rumus, tetapi memahami mengapa OLS digunakan, apa yang membuatnya optimal, kapan hasilnya dapat dipercaya, dan bagaimana mengukur kualitas garis regresi.

1. OLS Memilih Garis Terbaik

Garis dipilih dengan meminimumkan jumlah kuadrat residual, bukan sekadar jumlah residual biasa.

2. Estimator Memiliki Struktur

\(\hat\beta_1\) dan \(\hat\beta_2\) diperoleh dari normal equations dan memiliki sifat numerik khusus.

3. CLRM Menjamin BLUE

Di bawah asumsi klasik, OLS menjadi estimator linear tak bias dengan varians minimum.

4. \(r^2\) Menilai Kecocokan

\(r^2\) menunjukkan proporsi variasi \(Y\) yang dijelaskan oleh model regresi.

Kesimpulan pembelajaran: Jika Bab 2 menjelaskan apa itu regresi, maka Bab 3 menjelaskan bagaimana garis regresi dihitung, mengapa OLS penting, dan bagaimana menilai kualitas estimasinya.