Memahami Regresi Dua Variabel: dari Conditional Mean, PRF, SRF, hingga Stochastic Disturbance
Chapter 2 memperkenalkan gagasan formal paling dasar dalam regresi: bagaimana nilai rata-rata variabel dependen berubah ketika nilai variabel penjelas diketahui. Gujarati menggunakan contoh konsumsi keluarga dan pendapatan mingguan untuk menjelaskan Conditional Expectation Function, Population Regression Function, dan Sample Regression Function.
Struktur Utama Chapter 2
Bab ini membangun fondasi teoretis regresi dua variabel secara bertahap: dari contoh hipotetis, conditional mean, PRF, linearitas, stochastic error, hingga hubungan antara PRF dan SRF.
Regresi Dua Variabel sebagai Model Rata-Rata Bersyarat
Tujuan regresi bukan memprediksi setiap individu secara sempurna, tetapi menjelaskan bagaimana nilai rata-rata \(Y\) berubah ketika nilai \(X\) diketahui atau dianggap tetap.
Hypothetical Example
Data konsumsi keluarga berdasarkan kelompok pendapatan.
- Variabel \(X\): weekly family income.
- Variabel \(Y\): weekly consumption expenditure.
- Terdapat subpopulasi \(Y\) untuk setiap \(X_i\).
CEF dan PRF
Conditional mean membentuk population regression function.
- \(E(Y\mid X_i)\) adalah conditional expectation.
- PRF menghubungkan semua conditional means.
- PRF adalah konsep populasi yang ideal.
Makna Linear
Linear dapat berarti linear dalam variabel atau parameter.
- Linear in variables.
- Linear in parameters.
- Model regresi linear terutama linear dalam parameter.
Stochastic PRF
Setiap individu berbeda dari mean karena error term.
- \(u_i=Y_i-E(Y\mid X_i)\).
- Error merepresentasikan faktor tak teramati.
- Hubungan ekonomi tidak deterministik sempurna.
Signifikansi \(u_i\)
Error term memiliki peran sentral dalam regresi.
- Mewakili omitted variables.
- Mengandung measurement error.
- Menyimpan unsur unpredictable human behavior.
SRF
Karena populasi jarang tersedia, kita memakai sampel.
- SRF memperkirakan PRF.
- Koefisien sampel ditulis \(\hat{\beta}_1,\hat{\beta}_2\).
- Residual sampel ditulis \(\hat{u}_i\).
Illustrative Example
Mean hourly wage berdasarkan years of schooling.
- Pendidikan sebagai \(X\).
- Mean wage sebagai \(Y\).
- Rata-rata wage cenderung naik dengan pendidikan.
Kesimpulan Bab
Regresi adalah studi tentang conditional expectation.
- CEF/PRF adalah inti regresi.
- SRF dipakai untuk menduga PRF.
- Stochastic error penting untuk model empiris.
Rumus Inti Regresi Dua Variabel
Bab ini berpusat pada konsep conditional expectation dan perbedaan antara fungsi populasi dan fungsi sampel. Rumus berikut menjadi inti pemahaman Chapter 2.
1. Conditional Expectation Function
Rata-rata \(Y\) ketika \(X\) diketahui.
2. Linear PRF
PRF linear dalam bentuk sederhana.
3. Stochastic PRF
Observasi individu berbeda dari rata-ratanya.
4. Disturbance Term
Deviasi individu dari conditional mean.
5. Sample Regression Function
Garis regresi berdasarkan sampel.
6. Sample Residual
Selisih antara \(Y_i\) aktual dan \(\hat{Y}_i\).
7. SRF Stokastik
Model sampel lengkap dengan residual.
8. Tujuan Estimasi
SRF diharapkan mendekati PRF.
Conditional Distribution dan Conditional Mean
Pada setiap nilai pendapatan \(X_i\), terdapat beberapa nilai konsumsi \(Y\). Rata-rata nilai \(Y\) pada setiap \(X_i\) disebut conditional mean. Garis yang menghubungkan conditional means adalah bentuk awal dari PRF.
Distribusi \(Y\) untuk Berbagai Nilai \(X\)
Titik menunjukkan konsumsi individual. Titik emas menunjukkan conditional mean \(E(Y\mid X_i)\).
Pilih Pendapatan Mingguan
Pilih nilai \(X\) untuk melihat subpopulasi konsumsi dan conditional mean.
Population Regression Function vs Sample Regression Function
PRF adalah konsep ideal berbasis populasi. Namun dalam praktik, peneliti jarang memiliki seluruh populasi. Karena itu, peneliti menggunakan sampel dan membentuk SRF untuk memperkirakan PRF.
Bandingkan Garis Populasi dan Garis Sampel
Garis emas menunjukkan PRF. Garis hijau/merah menunjukkan SRF dari dua sampel berbeda.
Mengapa SRF Tidak Sama Persis dengan PRF?
Karena sampel hanya sebagian dari populasi. Dua sampel yang berbeda dapat menghasilkan garis regresi sampel yang berbeda.
Stochastic Disturbance Term \(u_i\)
Disturbance term \(u_i\) menjelaskan mengapa konsumsi individu tidak selalu sama dengan rata-rata konsumsi pada tingkat pendapatan tertentu. Ia memuat pengaruh variabel lain, error pengukuran, dan unsur perilaku manusia yang tidak sepenuhnya terprediksi.
Ubah Nilai Error \(u_i\)
Perhatikan bagaimana titik observasi bergerak di atas atau di bawah conditional mean.
Deviasi dari Conditional Mean
Garis vertikal menunjukkan deviasi individu dari rata-rata kelompoknya.
Linear dalam Variabel vs Linear dalam Parameter
Gujarati menegaskan bahwa dalam ekonometrika, istilah linear regression model terutama merujuk pada linear dalam parameter, bukan harus selalu linear dalam variabel.
| Model | Linear dalam Parameter? | Linear dalam Variabel? | Kategori | Interpretasi |
|---|---|---|---|---|
| \(Y_i=\beta_1+\beta_2X_i+u_i\) | Ya | Ya | LRM | Model linear sederhana paling dasar. |
| \(Y_i=\beta_1+\beta_2X_i^2+u_i\) | Ya | Tidak | LRM | Linear dalam parameter, meskipun variabel berbentuk kuadrat. |
| \(Y_i=\beta_1+\beta_2\ln X_i+u_i\) | Ya | Tidak | LRM | Model semilog; tetap linear regression model. |
| \(Y_i=\beta_1+\beta_2^2X_i+u_i\) | Tidak | Ya | NLRM | Tidak linear dalam parameter karena \(\beta_2\) berpangkat dua. |
Mean Hourly Wage by Education
Gujarati menutup bab dengan contoh hubungan antara pendidikan dan mean wage. Secara umum, semakin tinggi tahun pendidikan, rata-rata upah cenderung meningkat.
Tabel Ringkas
Data berikut menunjukkan years of schooling, mean wage, dan jumlah orang pada tiap level pendidikan.
| Schooling | Mean Wage | People |
|---|
Mean Wage terhadap Education
Titik menunjukkan mean wage pada level pendidikan tertentu.
Food Expenditure vs Total Expenditure
Latihan 2.15 meminta mahasiswa memplot food expenditure terhadap total expenditure. Karena total expenditure dapat dipakai sebagai proksi income, grafik ini dapat digunakan untuk membaca apakah konsumsi makanan meningkat seiring kemampuan belanja rumah tangga.
Food dan Total Expenditure
Gunakan tombol untuk menambahkan garis linear eksploratif.
Apa Kesimpulan Awalnya?
Panel ini memberikan interpretasi awal berdasarkan garis kecenderungan.
Apakah hubungan selalu linear?
- Secara ekonomi, food expenditure biasanya naik ketika income naik.
- Namun kenaikannya mungkin tidak selalu proporsional.
- Untuk rumah tangga berpendapatan tinggi, proporsi pengeluaran makanan bisa menurun.
- Karena itu bentuk non-linear dapat menjadi alternatif dalam kajian lanjutan.
Inti Chapter 2 yang Harus Dipahami Mahasiswa
Chapter 2 memperkenalkan fondasi formal regresi dua variabel. Mahasiswa harus memahami bahwa regresi bukan sekadar garis pada scatter plot, tetapi cara untuk menjelaskan conditional mean melalui PRF dan memperkirakannya dengan SRF.
Regresi mempelajari \(E(Y\mid X_i)\), yaitu rata-rata \(Y\) ketika \(X_i\) diketahui.
PRF menunjukkan hubungan populasi yang sebenarnya, tetapi jarang diketahui secara langsung.
Karena peneliti memakai sampel, SRF digunakan untuk memperkirakan PRF.
\(u_i\) menjelaskan mengapa observasi individu berbeda dari rata-rata kelompoknya.