Philosophia: April 2010

Disusun Guna Memenuhi Tugas

Mata Kuliah Statistik Multivariat I

Dosen Pengampu : Dhoriva Uswatun Wutsqo, Dr.

Disusun oleh :

Bambang Priono, S.Pd. 0970 9251 007

Wahyudi, S.Pd. 0970 9251 010

PROGRAM STUDI PENDIDIKAN MATEMATIKA

PROGRAM PASCASARJANA

UNIVERSITAS NEGERI YOGYAKARTA

2010

3.6 HUBUNGAN ANTARA KORELASI SEDERHANA DENGAN KORELASI GANDA (R)

Idealnya, untuk mendapatkan nilai R yang tinggi, setiap prediktor (variable bebas) harus mempunyai korelasi secara signifikan dengan variabel terikat dan setiap prediktor tidak mempunyai korelasi dengan satu dan lainnya. Jadi prediktor-prediktor tersebut mengukur konsep yang berbeda dan dapat memperkirakan bagian yang berbeda dari variansi y. Tentu saja, dalam prakteknya kita tidak akan menemukan hal ini, karena hampir semua variabel tersebut berkorelasi dengan tingkat tertentu. Dalam tataran praktis yang baik adalah kondisi dimana sebagian besar prediktor berkorelasi secara signifikan dengan y dan diantara prediktor memiliki korelasi yang relative rendah. Sebagai gambaran, perhatikan hal dibawah ini:

(1)		X₁	X₂	X₃	(2)		X₁	X₂	X₃	(3)		X₁	X₂	X₃
	Y	0,20	0,10	0,30		Y	0,60	0,50	0,70		Y	0,60	0,70	0,70
	X₁		0,50	0,40		X₁		0,20	0,30		X₁		0,70	0,60
	X₂			0,60		X₂			0,20		X₂			0,80

Dalam kasus ini, yang kita inginkan adalah nilai korelasi ganda menjadi tinggi dan korelasi antar prediktor rendah. Pada kasus pertama tampak bahwa nilai R rendah (0,30). Hal ini disebabkan tingginya korelasi antar prediktor. Sedangkan pada kasus 2 dan 3 nilai R tinggi (0,70). Selanjutnya, pada kasus 1 tidak ada peluang agar nilai R menjadi lebih besar disbanding pada kasus 2 dan 3, karena hubungan timbal balik (intercorrelation) antar prediktor relative tinggi dibandingkan dua kasus lainnya.

Apabila kita membandingkan kasus 2 dan 3. Maka kita berharap nilai pada kasus 2 lebih tinggi dibandingkan kasus 3. Hal ini disebabkan interkorelasi antar prediktor pada kasus 2 lebih rendah dibandingkan interkorelasi antar prediktor pada kasus 3. Meskipun pada kasus 3 korelasi prediktor (variable bebas) terhadap y lebih tinggi (0,60;0,70;0,70) daripada Kasus 2 (0,60;0,50;0,70). Akan tetapi interkolasi antar prediktor pada kasus 3 yang lebih tinggi sangat membatasi kemampuan X₂ dan X₃ untuk memprediksi varians tambahan di luar X₁ (agar R meningkat secara sigifikan), sementara ini tidak terjadi untuk kasus 2.

3.7 MULTIKOLINIARITI

Multikoliniariti Adalah kondisi dimana terjadi interkorelasi yang tinggi antar prediktor. Dalam bahasa yang sederhana multikolliniariti disebut sebagai ketergantungan linear antar prediktor(Myers,1990;488). Multikoliniariti biasanya terjadi pada penelitian yang menggunakan pengukuran kognitif sebagai prediktor. Multikoliniariti merupakan sebuah masalah bagi peneliti dalam menggunakan regresi ganda karena tiga alasan:

1. Multikolliniariti sangat membatasi nilai R, hal ini disebabkan prediktor-prediktor akan timbul karena ada kesamaan variansi pada y. Sebuah kajian yang dilakukan oleh Dizney dan Gromen (1967) mengilustrasikan dengan baik bagaimana multikoliniariti antar prediktor membatasi nilai R. Keduanya mempelajari seberapa baik kemampuan membaca (x₁) dan kemampuan menulis (x₂) akan memprediksi mata kuliah (tingkat prestasi, penj) pada perguruan tinggi di Jerman. Berikut adalah matriks korelasi tersebut:

	X₁	X₂	y
X₁	1,00	0,58	0,33
X₂		1,00	0,45
Y			1,00

Perhatikan multikoliniariti untuk x₁ dan x₂(r _x1x2 = 0 ,58), dan juga bahwa x₂ memiliki korelasi sederhana 0,45 terhadap y. Dengan korelasi ganda R hanya 0,46. Dengan demikian, adanya korelasi yang relatif tinggi antara kemampuan membaca dan kemampuan menulis sangat berpengaruh terhadap peningkatan nilai R yaitu hanya 0.01 (didapat dari 0,46 - 0,45).

2. Multikoliniariti menyebabkan sulit menentukan prediktor mana yang paling pengaruh terhadap variabel dependen (korelasi) karena antar prediktor sendiri saling mempengaruhi. Padahal idealnya antar prediktor saling independen.

3. Multikoliniariti meningkatkan variansi dari koefisien regresi. Semakin besar variasinya, maka semakin tidak stabil persamaan prediksi.

Berikut ini adalah dua metode untuk mendiagnosis multkoliniariti:

1. Periksa korelasi sederhana antara prediktor dari matriks korelasi. Ini harus difahami, dan mudah dimengerti, tapi peneliti perlu hati-hati bahwa korelasi tersebut tidak selalu menunjukkan tingkat multikollineariti.

2. Periksa faktor inflasi variansi (VIF) untuk prediktor-prediktor yang ada.

Besarnya nilai

dis ;ebut faktor inflasi varians ke-j dimana R_j² adalah kuadrat korelasi ganda untuk memperkirakan/menaksir predictor ke- j dari semua prediktor lainnya.

Faktor inflasi varians untuk sebuah prediktor menunjukkan apakah ada hubungan/korelasi linier yang kuat antara prediktor itu dengan semua preditor yang lainnya. Hal ini jelas memungkinkan sebuah prediktor untuk hanya memiliki hubungan dan / atau relatif lemah hubungannya dengan prediktor lain dalam hal korelasi sederhana, dan belum memiliki R yang cukup tinggi ketika meregresi semua prediktor lainnya. kapankah nilai untuk sebuah faktor inflasi varians cukup besar untuk diperhitungkan? Myers (1990) menyatakan: "Walaupun tidak ada aturan mengenai nilai-nilai numerik namun secara umum dapat percaya bahwa jika ada VIF (Variance Inflation Factor) melampaui 10, ada alasan yang patut untuk diperhatikan, kemudian salah satu variabel bisa dihapus atau alternatif untuk mengestimasi kuadrat terkecil untuk meyelesaikan masalah(multikollinearity,penj)". Faktor-faktor inflasi varians dapat diperoleh dengan mudah dari SAS REG.

Setidaknya ada tiga cara untuk menyelesaikan masalah multicollineariti.

Cara pertama, menggabungkan prediktor-prediktor yang berkorelasi tinggi. Sebagai contoh, jika ada tiga pengukuran yang berkaitan dengan contruk tunggal yang memiliki intercorrelasi sekitar 0,80 atau lebih, kemudian tambahkan ketiga pengukuran pada bentuk pengukuran tunggal.

Cara kedua, jika pada awalnya sekumpulan prediktor yang cukup besar, maka dapat dipertimbangkan sebuah analisis komponen-komponen utama (suatu jenis analisis faktor) untuk mengurangi kumpulan prediktor yang kecil. Sebagai contoh, jika ada 30 prediktor kita pasti tidak akan menghitungnya satu persatu. Sebuah analisis faktor dapat menjelaskan berapa banyak konstruk utama yang kita ukur. Faktor-faktor tersebut menjadi prediktor baru, dan karena faktor-faktor yang tidak berhubungan dengan konstruksi awal, maka kita menghilangkan masalah multicollineariti.

Cara ketiga, menggunakan sebuah teknik yang disebut “regressi punggung” (ridge regression). Pendekatan ini di luar pembahasan ini.

3.8 MEMILIH MODEL

Ada berbagai metode yang tersedia untuk memilih kumpulan prediktor yang baik:

1. Pengetahuan Substantif.

Weisberg (1985) menyatakan, "Satu-satunya alat yang paling penting dalam memilih sekelompok variabel untuk digunakan sebagai model analisis pengetahuan dari daerah substantif yang diteliti. Penting bagi peneliti untuk lebih hati-hati dalam memilih prediktor. Banyak peneliti telah menyalahgunakan regresi ganda secara serampangan dalam mengambil variabel.” Cohen (1990), berkomentar mengenai penggunaan variabel sembarangan; "saya menemukan banyak penelitian dengan jumlah variabel dependen atau variabel independen yang terlalu banyak atau kedua-duanya”.

Ada beberapa alasan mengapa menggunakan prediktor yang sedikit: (a) prinsip penghematan ilmiah (scientific parsimony), (b) mengurangi jumlah prediktor akan memperbaiki rasio n / k, rendahnya rasio n/k akan memudahkan proses validasi, dan (c) perhatikan ungkapan dari Lard dan Novick (1968):

Pengalaman dalam bidang psikologi dan dalam banyak bidang aplikasi lain telah menunjukkan bahwa kurang ada manfaatnya untuk memasukkan banyak prediktor dalam persamaan regresi, sebagai validitas tambahan variabel baru, setelah point tertentu biasanya sangat rendah. Hasil ini benar benar karena cenderung tumpang tindih dalam isi dan akibat penambahan kelima atau keenam pengujian dapat berpengaruh bagi deretan dan masih relevan dengan kriteria.

2. Metode berurutan (Sequensial).

Metode ini terdiri dari langkah forward (pilihan maju), langkah stepwise (regresi bertahap) dan langkah backward selection (penyisihan mundur) yang telah populer bagi peneliti. Semua prosedur ini melibatkan beberapa langkah, para peneliti memandang pengaruh prediktor terhadap prediktor lain.

Kita anggap prosedur itu sebagai urutan prediktor, akan memungkinkan kita untuk menentukan kontribusi masing-masing prediktor tetentu dalam perhitungan variansi y. Prosedur yang menggunakan korelasi semipartial ini akan menguraikan korelasi antara prediktor.
Jika terdapat Korelasi parsial antara variabel 1 dan 2 dan terpisah dengan Variabel 3 maka rumus korelasi parsialnya adalah:

r_12.3 =

Kita telah mengetahui korelasi parsial pertama karena dua alasan (a) korelasi semiparsial adalah jenis/bagian dari korelasi parsial dan (b) korelasi parsial akan terlibat dalam perhitungan yang makin sulit dari korelasi semiparsial.

Untuk menentukan nilai R²,kita akan menguraikan secara semi parsial yang biasa disebut part corelation. Rumus untuk korelasi semipartial adalah:

r_12.3(s) =

Perbedaan antara persamaan ini dan persamaan sebelumnya hanya terletak pada penyebut pada persamaan sebelumnya mengandung standar deviansi untul variabel pertama.

Dalam korelasi ganda kita ingin membagi variabel independen (prediktor) dari prediktor lainnya, tetapi bukan dari variabel dependen. Kita akan membiarkan variabel dependen tetap utuh. Misalkan R²_y12...kmenyatakan korelasi ganda berpangkat untuk prediktor sebanyak k, dimana prediktor diletakan setelah titik. Misalkan ada satu variabel dependen dan tiga prediktor yang ditunjukkan dengan persamaan berikut:

di mana

r_y2.1(s) =

adalah korelasi semipartial antara y dan variabel kedua, dimana variabel 1 terpisahdengan variabel 2. Sedangkan

menyatakan korelasi semipartial antara y dan variabel 3 dimana variabel 1 dan 2 terpisah dari variabel 3:

Jadi, dalam penggunaan korelasi semiparsial kita menguraikan hubungan antar prediktor dan menentukan seberapa banyak varian tunggal pada setiap prediktor yang berkaitan dengan variansi y.

Sebagai ilustrasi, perhatikan contoh berikut:

Contoh 1- penjelasan secara lisan tentang turunan variansi

Y = IPK mahasiswa semester 1

prediktor 1         = Nilai UAN SMA(GPA)
prediktor 2         = Nilai tes skolastik (SAT)
prediktor 3         = sikap siswa

R_y²_.123 = r_y1² + r_y²_2.1(s) + r_y²_3.12(s)

r_y1² : merupakan variansi dari nilai IPK Mahasiswa dapat diperkirakan dari variabel nilai UAN SMA. Ini karena ada perbedaan antara nilai IPK mahasiswa dan nilai UAN SMA

r_y²_2.1(s) : merupakan variansi residual pada nilai SAT, dimana variansi SAT tidak berhubungan dengan variansi nilai UAN SMA tetapi berhubungan dengan variansi nilai IPK perguruan tinggi.

r_y²_3.12(s) : merupakan variansi residual pada sikap, dimana variansi sikap tidak berhubungan dengan variansi nilai UAN SMA dan nilai SAT tetapi berhubungan dengan variansi nilai IPK perguruan tinggi

Contoh 2-turunan variansi yang ditunjukkan dengan grafik

Ini cara yang paling mudah untuk menganalisa hubungan dua prediktor. Oleh karena itu, misalkan kita memiliki: r_yi = 0,60, r_y2 = 0,50 dan r₁₂ = 0,70. Dipergunakan diagram Venn dimana lingkaran merepresentasikan varians untuk sebuah variabel, dan gabungan antara dua lingkaran menunjukkan jumlah variansdua variabel.

Ket: Irisan variansi y dengan prediktor 1 dan 2; Irisan variansi y dengan prediktor 2, dan terpisah dengan prediktor 1

Selanjutnya kita menyajikan korelasi semiparsial, yang menunjukkan hasil 1,2% adalah:

r_y2.1(s) =

= 0,11 è r_y2.1(s)=0,012

FORWARD- prinsif dari model ini adalah memasukan satu persatu predictor pada persamaan regresi hingga didapatkan persamaan regresi yang memuaskan (signifikan). Prosedurnya adalah memilih prediktor pertama kemudian dimasukan pada persamaan. Apabila korelasi sederhana terhadap y besar maka prediktor tersebut dipilih. Dengan kata lain, jika prediktor ini memberikan nilai korelasi semiparsial yang cukup tinggi maka predictor ini dipakai sebagai prediktor yang baik, dan seterusnya.Pada tahap tertentu prediktor yang dimasukan tidak memberi kontribusi yang signifikan terhadap nilai R² maka prediktor ini dibuang.

STEPWISE- pada dasarnya adalah satu jenis dari tahapan pertama, Forward. Meskipun pada setiap langkah, sebuah pengujian dirancang dari prediktor yang berdayaguna rendah. Arti penting setiap prediksi yang diulang terus-menerus. Dengan demikian, sebuah prediktor yang mungkin telah menjadi calon prediktor terbaik sebelumnya sekarang mungkin menjadi tidak berguna.

BACKWARD SELECTION (penyisihan mundur) – prinsifnya mirip dengan model pilihan maju akan tetapi pada model ini langkah dimulai dari semua peubah dalam model. Langkahnya sebagai berikut: (a) semua prediktor dihitung dengan satu persamaan,(b) F dihitung untuk setiap prediktor, diperlakukan seperti prediktor terakhir yang dimasukkan pada persamaan regresi, (c) nilai F terkecil disebut F₁, dibandingkan dengan nilai signifikansi yang telah dipilih sebelumnya (F₀). Jika F₁ < F₀ maka dihapus prediktor tersebut dan persamaan dihitung kembali dengan prediktor yang tersisa. Dan seterusnya langkah diatas diulangi lagi sampai pada suatu langkah predictor yang memberi jumlah regresi terkecil.

3. Penggunaan C_p Mallows.

Sebelum mengenal apa itu C_p Mallows. Penting untuk mempertimbangkan konsekuensi dari variable yang memberi kontribusi penting terhadap model tapi dikeluarkan dari model atau yang disebut underfitting dan sebaliknya variable yang rendah kontribusinya/marginal justru tetap ada pada model atau yang disebut overfitting. Myers menyatakan: "Sebuah model yang terlalu sederhana mungkin akan kurang baik karena akan menimbulkan bias koefisien dan bias prediksi yang tinggi, sementara model yang terlalu rumit dapat menghasilkan variansi yang tinggi baik pada koefisien maupun prediksi. "

Metode ini diperkenalkan oleh C.L. Mallows (1973) sebagai kriteria untuk memilih model yang baik. Dengan cara menghitung jumlah kuadrat kesalahan. Model yang wajar yang direkomendasikan Mallows adalah C_p≈ p. Dengan cara ini underfitting dan / atau overfitting dapat diminimalkan. Kriteria Mallows dapat ditulis sebagai:

C_p = p +

Keterangan:

P = k + 1

s² : rataan kuadat galat (varian residu) untuk calon model

: taksiran dari varian residu biasanya didasarkan pada model penuh.
model yang baik adalah yang nilai C_p-nya kecil.

4. Penggunaan prosedur MAXR dari program SAS.

Ada sembilan metode dari pemilihan model dengan program SAS REG. Salah satunya adalah MAXR. Prosedur MAXR ini menghasilkan beberapa model; - model variabel - terbaik pertama, model variabel terbaik kedua, dan seterusnya. Berikut adalah dari prosedur dari SAS/STAT manual:

Metode MAXR dimulai dengan mencari model variable yang menghasilkan R² yang tertinggi. Kemudian variabel lain yang dapat meningkatkan R² ditambahkan/dimasukan pada model. Setelah dua variabel model didapat, setiap variabel dalam model ini dibandingkan dengan setiap variabel yang tidak masuk dalam model. Apabila dilakukan terhadap variable tertentu (yang dinilai rendah regresinya) maka MAXR akan menggantinya dengan variabel yang dapat meningkat R². Setelah membandingkan semua kemungkinan, MAXR membuat perubahan (switch) yang menghasilkan peningkatan R² tertinggi. Perbandingan dimulai lagi, dan proses berlanjut sampai MAXR menemukan bahwa tidak ada lagi variabel yang dapat meningkatkan R² . variabel lain kemudian ditambahkan kedalam model, dan dibandingkan dan dirubah dan seterusnya hingga didapatkan model variabel terbaik ketiga.

5. Menggunakan Semua metode regresi yang mungkin digunakan.

Untuk melakukan langkah ini dapat menggunakan program SAS REG. jumlah regresi dapat meningkatkan dengan tajam seiring dengan meningkatnya nilai k . Kumpulan variable yang baik dapat dicari dengan menentukan nilai C yang terendah berdasarkan metode Mallows.

Penggunaan satu atau lebih dari metode-metode di atas akan sering menghasilkan sejumlah model yang lebih tepat/baik. Myers (1990) menyatakan: "Untuk membuat model yang baik kita harus memahami banyak kumpulan data, beberapa model dapat dipakai untuk menghasilkan persamaan yang lebih efektif. Dengan demikian satu masalah dapat diselesaikan dengan penyatuan model dari calon-calon model yang ada”

Seperti disebutkan sebelumnya bahwa kriteria Mallows sangat berguna dalam menjaga underfitting dan overfitting. Tiga kriteria lainnya yang sangat penting yang dapat digunakan untuk memilih metode yang dipakai dimana semua berhubungan dengan generalisasi persamaan prediksi, yaitu seberapa baik persamaan memprediksi sampel independen dari data yang ada. Tiga metode validasi model, yang akan didetailkan pada bagian 3.11, yaitu:

1. Membagi/mengacak data, menentukan persamaan prediksi pada pecahan acak kemudian memeriksa kekuatan prediktif (cross-validasi) pada sampel lainnya.

2. Penggunaan statistik PRESS.

3. Menentukan taksiran rata-rata kekuatan prediktif (predictive power) pada persamaan pada banyak sampel lain dari populasi yang sama.

3.9. DUA CONTOH PERHITUNGAN DENGAN KOMPUTER

Untuk menggambarkan penggunaan metode model perhitungan yang ada, ada dua contoh yang perhitungannya menggunakan komputer. Yang pertama diilustrasikan melalui program REGRESI SPSSX dan menggunakan data dari Morrison (1983) pada 32 siswa pada sebuah lembaga kursus MBA. Contoh kedua diilustrasikan melalui program SAS REG pada tingkat kualitas 46 peneliti program doktoral di bidang psikologi.

Contoh 5-Regresi SPSS pada Data MBA Morrison

Yang menjadi Variabel dependen adalah evaluasi kemampuan mengajar instruktur pada lembaga kursus MBA dengan lima prediktor, yaitu kejelasan (CLARITY), dorongan (STIMUL), pengetahuan (KNOWLEDGE), perhatian (INTEREST), nilai hasil belajar (COUVAL). Akan diilustrasikan melalui dua prosedur squensial yaitu stepwise dan backward selection.

Pada regresi SPSS X memeiliki nilai p yang dinotasikan dengan PIN dan POUT, dimana prediktor akan dimasukkan kedalam persamaan sedangkan yang lainnya akan dihapus. Tingkat kesalahan PIN adalah 0,05 dan tingkat kesalahan POUT adalah 0,10. Dengan kata lain, sebuah prediktor haruslah signifikan ditingkat 0,05 untuk dapat dimasukkan dalam persamaan atau tidak pada tingkat signifikansi 0,10 maka prediktor akan dihapus.

Tabel 3.3

Pertama, kita membahas hasil prosedur stepwise. Pengujian matrik korelasi pada Tabel 3.3 menunjukkan bahwa tiga dari prediktor (CLARITY, STIMUL, dan COUEVAL) berkorelasi secara signifikan dengan INSTEVAL (pada tingkat korelasi 0,862; 0,739; dan 0,738). Karena CLARITY memiliki korelasi tertinggi maka akan dimasukkan dalam persamaan pertama. Sedangkan STIMUL dan COUEVAL akan masuk berikutnya, akan tetapi kita harus mempertimbangkan bagaimana prediksi ini berkorelasi dengan CLARITY, dan tentu saja keduanya memiliki korelasi yang tinggi dengan CLARITY (0,617 dan 0,651). Dengan demikian, STIMUL dan COUEVAL tidak akan diperhitungkan untuk dijadikan variansi tunggal pada INSTEVAL, maka CLARITY akan diikutsertakan dalam persamaan. Sedangkan, INTEREST yang memiliki korelasi rendah terhadap INSTEVAL (0,44) hanya berkorelasi 0,2 terhadap CLARITY. Dengan demikian, varian pada INSTEVAL relatif independent terhadap varian CLARITY sehingga INTEREST dimasukan dalam persamaan regresi yang kedua.

STIMUL adalah prediktor ketiga dan terakhir yang dimasukkan dalam persamaan, karena memiliki nilai p (0.0086) yang lebih rendah 0,05. Akhirnya, prediktor lain (KNOWLEDGE dan COUVAL) tidak dimasukan dalam persamaan karena mereka nilai p (0.0989 dan 0,1288) yang lebih besar dari 0,05.

Perhatikan tabel 3.5 (Backward Selection). langkah pertama, seluruh prediktor dimasukkan dalam persamaan, kemudian menentukan prediktor mana yang paling kecil kontribusinya pada persamaan. Terlihat bahwa INTEREST , dengan nilai p 0,9097 dihapus dari persamaan. Sedangkan prediktor lainnya tidak dihapus karena memiliki nilai p kurang dari 0,10.

Perhatikan dua kumpulan prediktor yang berbeda yang dihasilkan dari dua prosedur yang berbeda. Prosedur STEPWISE menghasilkan tiga prediktor (CLARITY, INTEREST dan STIMUL) sedangkan prosedur BACKWARD menghasilkan 4 prediktor (COUVAL, KNOWLEGDE, STIMUL dan CLARITY), meskipun mereka beririsan di CLARITY dan STIMUL. Berdasarkan prinsip pernghematan, mungkin kita akan memilih kelompok prediktor yang dihasilkan oleh prosedur STEPWISE. Alasan lain, karena kedua kelompok prediktor tersebut menghasilkan nilai R² yang tidak jauh berbeda (0,84 dan 0,87).

Ada tiga hal yang harus diketahui sebelum memilih model:

1. Kita perlu untuk menentukan apakah asumsi model regresi linear dapat dipertahankan.

2. Kita perlu memperkirakan cross validity power dari persamaan.

3. Kita periksa keberadaan outliers dan / atau datum yang berpengaruh.

Gambar 3.4 memperlihatkan kumpulan residu yang dibandingkan dengan nilai perkiraan dari SPSS X. kumpulan ini pada dasarnya menunjukkan variasi acak dari titik-titik tentang garis horizontal pada 0, menunjukkan tidak ada yang salah pada asumsi.
masalah pada cross validity power dan outliers adalah akan dibahas pada bab 3.15.

Contoh 6 - REG SAS pada Program Doktoral Psikologi

Data pada contoh ini berasal dari laporan National Academy of Sciences (1982) yang mengurutkan kualitas dari 46 peneliti di program doktoral bidang psikologi. Keenam variabel yang digunakan untuk memprediksi kualitas tersebut adalah:

NFACULTY :jumlah anggota fakultas pada program tersebut per Desember 1980.
NGRADS : banyaknya lulusan program tersebut dari tahun 1975 sampai 1980.

PCTSUPP : persentase lulusan program dari 1975-1979 yang menerima beasiswa atau pelatihan pendukung selama pendidikan pascasarjana mereka.

PCTGRANT : persentase anggota fakultas yang mendapat bantuan dana penelitian dari Alkohol, Drug Abuse, Mental Health Administration, dinas Kesehatan atau National, Science Foundation selama tahun 1978-1980.

NARTICLE : jumlah artikel yang diterbitkan yang berhubungan dengan anggota fakultas pada tahun 1978-1980.

PCTPUB : persentase satu atau lebih artikel yang diterbitkan fakultas pasa tahun 1978-1980.

Prosedur stepwise dan prosedur MAXR yang digunakan pada data ini untuk menghasilkan beberapa model regresi. Cara kerja sampai tampilan matriks corelasi tertera pada tabel 3.6. Salah satu fitur SAS REG yang menarik, bahwa C_p Mallows diberikan untuk setiap model. Prosedur stepwise dihentikan setelah dimasukan 4 prediktor. Berikut adalah tabel ringkasannya, persis seperti yang tertera pada printout:

Model keempat prediktor ini tampak sungguh meyakinkan. Pertama, C_pMallows mendekati nilai p (p = k + 1), yaitu 5,216≈ 5, menunjukkan bahwa model tidak mengandung banyak bias. Kedua, R² =0,8221, menunjukkan bahwa kita dapat memprediksi cukup baik kualitas dari keempat prediktor. Meskipun ini jarang terjadi, nilai kewajaran ini tidak jauh berbeda karena kita tidak mengambil terlalu banyak prediktor.

Diambil dari cetakan hasil prosedur MAXR pada Tabel 3.7. Dari Tabel 3.7 kita dapat membuat hasil sebagai berikut:

pada kasus ini, keempat prediktor yang digunakan dalam prosedur MAXR juga telah digunakan dalam prosedur stepwise.

Catatan untuk nilai p terhadap nilai signifikansi Prediktor-prediktor.
Nilai p yang telah dihasilkan oleh SPSS dan SAS untuk nilai signifikansi dari setiap prediktor di setiap langkah pada prosedur stepwise atau prosedur forward selection menjadi renggang, terutama jika anggota kelompok prediktor pertama sedang (15) atau besar (30). Alasannya adalah tidak terdapat distribusi F, ini karena F terbesar yang dipilih dari semua F yang tersedia. Dengan demikian, nilai kritis akan lebih besar (dan dapat jauh lebih besar) dari yang diperoleh dari distribusi F nol . Draper dan Smith (1981) menyatakan, "Penelitian telah menunjukkan, dalam beberapa kasus di mana nilai F pada tingkat α yang dimasukkan dalam pengujian, probabilitas yang sesuai adalah qα, di mana ada sebanyak q prediktor yang akan dimasukkan dalam pengujian". Ini berarti, bahwa seorang peneliti berpikir kemungkinannya melakukan kesalahan memasukkan prediktor sebesar 0,05, walau pada kenyataannya kemungkinan sebenarnya adalah 0,5 (jika ada 10 prediktor yang akan dimasukkan pada saat itu).

Jadi, uji F dipastikan menjadi bias, jika prediktor terlalu banyak, maka nilai bias menjadi semakin besar. Oleh karena itu, pengujian F ini hanya digunakan untuk panduan memilih prediktor yang dapat digunakan. Contoh, pengujian yang baik adalah seberapa baik prediktor dapat melakukan validasi silang. Dapat menjadi kurang baik untuk menggunakan secara sembarangan dari prosedur stepwise dengan 20 atau 30 prediktor dan 100 subyek, karena memakan biaya yang besar dan validasi silangnya juga kurang baik. Untuk menemukan suatu persamaan yang mungkin dapat digunakan untuk keseluruhan, baik kiranya secara hati-hati memilih kumpulan prediktor yang kecil (menggunakan pengetahuan subtantive dan / atau daftar bacaan yang terkait sebelumnya).

Ramsey dan Schafer (1991, hal 93) berkomentar tentang masalah ini:

Nilai sampingan dari 4 untuk statistik F (atau 2 untuk besarnya statistik t) disamakan dengan nilai p dua arah yang kurang dari 0,05. Dugaan nilai signifikansi tidak dapat diambil secara meyakinkan, karena pemilihaan variabel percobaan merupakan bentuk dari data yang terselubung.

Pada langkah pertama dari prosedur stepwise, nilai sampingan dari F = 4 sama dengan nilai sampingan pengujian hipotesis untuk koefesien tunggal. Namun perhitungan statistik sebenarnya adalah yang terbesar statistik F. Dimana distribusi sampling di bawah hipotesis nol berbeda tajam Dari nilai distribusi F.

Untuk menunjukkan hal ini, andaikan sebuah model berisi 10 variabel bebas dan sebuah variabel respon, dengan banyaknya sampel n = 100. Nilai statistik F untuk satu variabel pada langkah pertama, akan dibandingkan dengan nilai distribusi F dengan 1 dan 98 derajat bebas, dimana hanya 4,8% dari F-rasio yang melebihi 4. Tapi sebelas variabel selanjutnya yang dihasilkan secara acak (dan terbebas satu sama lain), dari distribusi normal standar. Apa yang dapat diharapkan dari besarnya nilai F yang akan digunakan?.

Proses penurunan secara acak ini disimulasikan 500 kali di komputer. Tampilan berikut menunjukkan histogram dari nilai terbesar antara sepuluh nilai F yang dimasukkan, mendekati distribusi F secara teori. Kedua distribusi tersebut sangat berbeda. Setidaknya satu nilai F yang dimasukkan menjadi sangat besar melebihi 4 pada 38 % dari pemeriksaan yang disimulasikan. Walaupun tidak ada variabel yang jelas, yang berhubungan dengan respon.

Philosophia

My Blog List

Thursday, 1 April 2010

TEORI BELAJAR (TOKOH, PRINSIP YANG DIANUT DAN APLIKASI DALAM PEMBELAJARAN MATEMATIKA)

ROBERT GAGNE

HIRARKI BELAJAR ADALAH SALAH SATU IMPLEMENTASI DARI TEORI BELAJAR GAGNE

Contoh Pemanfaatan Hirarki Belajar

jHUBUNGAN ANTARA KORELASI SEDERHANA DENGAN KORELASI GANDA (R)

Followers

Facebook Badge

Visit