REGRESI LINIER BERGANDA (MULTIPLE) DENGAN SPSS

click to get the pdf version

Ketika kita menghadapi suatu kasus dengan data dengan banyak variabel, satu pertanyaan yang penting adalah bagaimana variabel-variabel tersebut berhubungan. Misalnya kita akan mempertanyakan bagaimana hubungan antara harapan hidup (life expectancy) dengan fertility rate, fasilitas kesehatan yang tersedia, atau jumlah migrasi keluar ataupun masuk ke suatu negara.

Regresi adalah teknik untuk mengukur hubungan, ya itu aja, hubungan antar variabel satu terhadap variabel lain yang dipengaruhinya. Singkatnya, Analisis Regresi memungkinkan kita untuk :
  • Menjelaskan hubungan antara variabel terikat (dependen) dan variabel bebas (independen), variabel terikat biasanya hanya satu, tapi dalam regresi linier berganda (multiple), variabel bebasnya bisa banyak,
  • Menghitung nilai variabel terikat dari nilai variabel bebas yang kita amati, biasanya dalam bentuk model,
  • Memperkirakan faktor risiko yang mempengaruhi suatu hasil dapat diidentifikasi, sehingga proyeksi dapat dilakukan.
Regresi linier digunakan untuk mempelajari hubungan, lebih tepatnya hubungan linier antara variabel terikat (Y) dengan variabel bebas (X). Variabel terikat (Y) harus berupa data kontinyu, sedangkan variabel bebasnya (X) bisa saja kontinyu, biner, atau kategorik.
Penilaian awal dari hubungan yang mungkin antara dua variabel kontinyu harus digambarkan terlebih dahulu dengan plot grafik, bisa dalam bentuk scatter ataupun line, dan harus terdapat pola hubungan linier yang ditunjukkan kedua variabel tersebut.


Diagram Scatter yang menunjukkan pola hubungan linier

Pada banyak kasus, satu variabel bebas tidak dapat banyak menjelaskan variabel terikat Y. Jika terjadi hal seperti itu, kita dapat melakukan analisis regresi linier berganda (multiple) untuk mempelajari efek dari banyak variabel bebas (X1, X2, X3,....Xn) terhadap satu variabel terikat Y.
Dalam regresi linier berganda (multiple) variabel terikat dijelaskan sebagai fungsi linier dari variabel bebas Xi dengan persamaan seperti berikut ini :

Y = b0 + b1X1 + b2X2 + b3X3 + ...... + bnXn

dimana :
Y = variabel terikat (dependen),
b0 = konstanta / slope,
b1 = koefisien regresi
X1, X3, X3,...Xn = variabel bebas (independen).

Sebelum Masuk ke ilustrasi ada beberapa hal yang perlu diperhatikan sebelum melakukan Analisis Regresi Linier Berganda ini diantaranya,
  1. Hubungan kausal antara variabel terikat dan bebas harus dipertimbangkan terlebih dahulu berdasarkan sumber teori atau penelitian terdahulu yang sudah ada. Apa artinya jika anda mengatakan banyaknya titik api di Kalimantan pada musim kemarau disebabkan oleh meningkatnya penjualan korek api, dan kebiasaan merokok oleh para pekerja perkebunan. Padahal teori atau penelitian lain mengatakan titik api disebabkan oleh maraknya pembakaran lahan oleh oknum-oknum yang tidak bertanggung jawab, dan kurangnya antisipasi pemerintah terhadap musim kemarau yang akan datang. Ga nyambung kan jadinya??plis deehh,,karena itu penentuan variabel yang tepat akan mempengaruhi hasil analisis yang kamu peroleh.
  2. Jumlah Sampel, Beberapa kasus biasanya menekankan pada kekuatan hubungan antara variabelnya, bayangkan jika kamu melakukan analisis regresi dengan jumlah sampel yang sangat kecil, atau ada salah satu variabel kamu yang ga relevan, maka hasilnya akan memperlihatkan indikator analisis yang kurang baik. Disini kamu bisa melihat nilai R2 atau koefisien determinasi, biasanya nilai corrected koefisien determinasi menentukan kekuatan hubungan variabel bebas dengan variabel terikat yang kamu gunakan.
  3. Missing Value, biasa aja kejadian data bolong-bolong gini, tapi hal ini dapat mempengaruhi kekuatan prediksi kalian. Bayangkan jika dalam 100 sampel ada nilai yang hilang sebanyak 13, model yang didapatkan akhirnya jadi tidak applicable atau practical. Teknik terakhir bagi para mahasiswa ataupun para peneliti yang ga mau repot menambahkannya dengan tebak-tebak berhadiah. Walaupun demikian ada beberapa cara yang dapat digunakan untuk mengatasi hal missing value ini, akan saya jelaskan di bagian lain blog ini.
Ilustrasi contoh:
Seandainya kita ingin melihat hubungan antara variabel dependen (Y) Nilai penjualan film box office di negara A, dalam juta dollar, dengan 3 prediktor (X) antara lain; nilai produksi (prodcost), nilai promosi (promotecost), dan bayaran bintang film (starcost), dalam juta dollar, maka akan kita terapkan persamaan berikut ini:
Y = β0 + β1X1 + β2X2 + β3X3 + ε
Coba lihat datanya berikut ini, untuk data aslinya dalam bentuk excel (xls) sebagai latihan kamu bisa ambil disini.


Bahasan kali ini kita coba menggunakan bantuan perangkat lunak IBM SPSS versi 25, bagi yang belum punya, atau versinya udah lama, bisa beli disini. Murah koq, cuma Rp.50.000, bisa langsung digunakan juga.



Untuk impor data dari excel kita tinggal pilih file - import data - excel,



Cari File excel kamu tadi, klik - open,


Sekarang kita sudah masuk dalam jendela SPSS versi 25, untuk mengubah nilai desimal di belakang koma bisa di variable view, set aja 2 angka di belakang koma,


Mari kita lihat hubungan linier antar variabel dengan grafik scatterplot, kamu bisa masuk ke Graphs - Chart Builder,


Dalam kotak dialog chart builder, silahkan pilih model plot di bawah, kemudian tarik aja ke area blank di atasnya untuk menampilkan model grafik,


Untuk melihat plot antara Revenue (Y) dengan variabel ProdCost (X1) silahkan masukkan Revenue (Y) ke axis, dan ProdCost (X1) ke ordinat, trus klik OK,


Hasil plot hubungan linier antara Revenue (Y) dengan ProdCost (X1) adalah seperti berikut, buka aja di output SPSS versi 25,



Nah kira-kira adakah hubungan liniernya? lihat juga nilai koefisien determinasi (R2) di pojok kanan atas adalah 0,692, cukup baik ya hubungan liniernya,

Lakukan juga hal yang sama untuk variabel PromoteCost (X2) dan StarCost (X3),



Hasil plot hubungan linier antara Revenue (Y) dengan PromoteCost(X2) adalah seperti berikut,



Hubungan Revenue (Y) dengan PromoteCost (X2) ternyata lebih baik daripada ProdCost (X1), lihat koefisien determinasi di pojok kanan atas, R2 = 0,707,

Terakhir Hasil plot hubungan linier antara Revenue (Y) dengan StarCost (X3) adalah seperti berikut, Kebayang aja kalau bintang filmnya Mas Chris Evans atau Mbak Natalie Portman, biasanya mah revenuenya besar ya \0/,



Ah, ga ngaruh juga, ternyata hubungan linier antara Revenue (Y) dengan StarCost (X3), tidak bersifat linier, lihat nilai R2 hanya 0,153, tapi kita akan teruskan saja sebagai ilustrasi,
Sekarang kita masuk ke tahap analisis, oya untuk variabel starcost (X3) kamu bisa drop aja kalau ketemu kasus seperti ini, atau kamu bisa menggantinya dengan variabel lain yang lebih relevan, baca lagi penelitian terdahulu atau perdalam kembali teori terkait penelitian yang kamu lakukan,


Untuk meregresikan variabel ini, cukup masuk ke tab Analyze - Regression - Linear,



Masukkan variabel sesuai tempatnya,



Pilih Statistics, di samping kanan atas, checklist seperti gambar berikut ini; lalu continue - OK,


Perlu diketahui Colinearity diagnostic untuk melihat masalah multikolinearitas, dan durbin watson untuk melihat masalah autokorelasi dalam regresi, bahasan lain tentang masalah multikolinearitas dan autokorelasi bisa kamu lihat disini.

Output yang diperoleh dari analisis regresi linier berganda kali ini,


Lihat model Summary dengan adjusted R-square yang baik sebesar 0,811, ini mengindikasikan pemilihan variabel bebas sudah baik terhadap variabel terikat, nilai signifikansi juga 0,000 kurang dari 0,05 mengindikasikan secara keseluruhan model baik.

Nilai Durbin Watson sebesar 2,328 mengindikasikan bahwa tidak terdapat masalah autokorelasi pada data sampel, baca lagi mengenai statistik durbin watson disini.

Pada Uji Anova dapat kita lihat nilai signifikansi sebesar 0,000 masih kurang dari nilai kritik 0,05 mengindikasikan bahwa perbedaan antara mean revenue dengan ketiga variabel prediktor adalah signifikan secara statistik.


Dari output berikutnya kita peroleh model regresi dari Coefficients, yaitu :

Y = b0 + b1X1 + b2X2 + b3X3 + ...... + bnXn

Revenue = 10,429 + 4,139 (ProdCost) + 6,854 (PromoteCost) + 0,608 (StarCost)

Nilai signifikansi yang terbaik sebagai prediktor adalah variabel ProdCost (0,000) dan variabel PromoteCost (0,000), sedangkan variabel StarCost tidak signifikan secara statistik karena 0,366 lebih besar dari nilai kritik 0,05.

Nilai VIF mengindikasikan masalah multikolinearitas pada model, hasil di atas menunjukkan bahwa model tidak mengandung masalah multikolinearitas dengan nilai VIF berturut-turut untuk X1, X2, dan X3 adalah 1,972; 1,985; dan 1,143. baca kembali mengenai nilai VIF disini.(yoso)
untuk menjalankan analisis regresi linier berganda dengan software Eviews 9, kamu bisa lihat disini.