L Abaci: RELIABILITAS

A. DEFINISI UMUM

Reliabilitas adalah derajat kekonsistenan hasil/nilai siswa pada pemberian penilaian yang berulang (Nitko, Anthony J. & Susan M. B. 2011 : 64). Konsistensi merupakan konsep penting untuk memutuskan seberapa besar derajat kepercayaan dari hasil penilaian terhadap siswa. Makna lain reliabilitas dalam terminologi stabilitas adalah subjek yang dikenai pengukuran akan menempati ranking yang relatif sama pada testing yang terpisah dengan alat tes yang ekuivalen (Singh, 1986; Thorndike, 1991).

Kaitannya dengan validitas, Nitko, Anthony J. & Susan M. B menjelaskan bahwa validitas berhubungan dengan interpretasi hasil penilaian terhadap siswa dalam penggunaannya untuk membuat keputusan. Interpretasi tersebut tidak valid apabila hasil penilaian terhadap siswa tidak konsisten. Dengan kata lain, derajat reliabilitas dari hasil penilaian (tes) membatasi derajat validitasnya. Meskipun derajat validitas yang tinggi membutuhkan reliabilitas yang tinggi, tapi tidak berlaku untuk kebalikannya. Reliabilitas yang tinggi tidak menjamin validitasnya.

Menurut Mary J. Allen & Wendy M. Yen, ada beberapa cara mendefinisikan dan menginterpretasikan reliabilitas tes. Contohnya, suatu tes reliabel jika skor amatan (X) berkorelasi tinggi dengan skor sebenarnya (T). Hal ini terjadi jika skor amatan dan skor sebenarnya dapat di peroleh setiap peserta ujian dalam tes. Kuadrat korelasi antara skor amatan dengan skor sebenarnya ( ) disebut koefisien reliabilitas untuk tes tersebut. Atau reliabilitas dapat di tunjukan sebagai korelasi koefisien antara skor pengamatan pada dua tes yang paralel. Jika dua tes yang paralel diberikan pada populasi peserta ujian dan skor amatan yang dihasilkan dikorelasikan, korelasi ini (disimbolkan dimana X dan X’ adalah skor amatan untuk dua tes yang paralel) adalah koefisien reliabilitas.

Berikut ini adalah enam cara Alternatif untuk menginterpretasikan Koefisien reliabilitas:

1. korelasi antara skor amatan pada tes parallel.

Bahwa reliabilitas tes sama dengan korelasi antara skor amatan pertama dengan skor amatan kedua dalam tes parallel. Jika masing-masing peserta ujian memperoleh skor amatan yang sama ketika dites dengan bentuk parallel dan ada beberapa varians dalam skor amatan pada masing-masing tes, tes memiliki reliabilitas sempurna, ( ). Jika peserta ujian mempunyai skor amatan pada satu tes yang tidak berkolerasi dengan skor amatan lainnya pada tes parallel ( ), suatu tes sepenuhnya tidak reliabel

2. perbandingan dari variansi X yang berhubungan linier dengan X’

Interpretasi ini merupakan interpretasi Standar untuk koefisien korelasi Pearson, yang dijelaskan pada bab 2.8. korelasi kuadrat dapat selalu di interpretasikan sebagai perbandingan pada variansi dalam satu variable yang dijelaskan dengan hubungan linear dengan variable lain. Sehingga, dapat ditinjau sebagai perb andingan variansi dalam skor satu tes pada tes parallel.

Bahwa koefisien reliabilitas adalah rasio dari variansi skor sebenarnya dengan variansi skor amatan. Untuk reliable tes yang sempurna, , maka , dan semua variansi skor amatan mencerminkan variansi skor sebenarnya dibandingkan variansi errornya. Jika , adanya perbedaan antara skor amatan peserta perbedaan antara skor sebenarnya. Jika , maka pasti 0. karena (E) = 0 maka semua error harus sama dengan 0 ketika . Sehingga ketika , pengukurannya dibuat tanpa membuat kesalahan (error). Ketika , ada error dalam pengukurannya. Ketika , maka , yang berarti bahwa smua skor mencerminkan error saja. Untuk itu, perbedaan antara skor amatan peserta ujian mencerminkan error acak dari pada perbedaan skor sebenarnya.

Ketika reliabilitas tes meningkat, varian skor error menjadi relative lebih kecil, skor amatan dari peserta ujian semakin mendekati nilai skor sebenarnya. Bagaimanapun juga ketika varian eror itu relative besar maka skor amatan memberikan estimasi yang rendah atau buruk dari skor sebenarnya. Gambar 4.1 mengilustrasikan hubungan tersebut. Kurva mewakili distribusi menurut teori dari skor amatan untuk satu skor sebenarnya yang tetap, yaitu distribusi skor amatan satu peserta ujian. skor sebenarnya peserta ujian di tunjukkan dengan T pada gambar. Ingat, ketika skor sebenarnya tetap atau konstan, , dan variansi skor amatan sama dengan variansi kesalahan (error). Pada kurva A dimana mempunyai variansi kesalahan (error) yang lebih kecil, sebagian besar skor amatan dekat dengan T, sedangkan pada kurva B yang mempunyai variansi kesalahan (error) lebih besar, banyaknya skor yang diuji sangat jauh dari T.

Menunjukan koefisiean reliabilitas sebagai kuadrat korelasi antara skor amatan dan skor sebenarnya. Contohnya, jika , maka jika , maka . Hubungan ini adalah diilustrasikan pada gambar 4.2. kapanpun , kita dapat melihat bahwa , skor amatan akan lebih tinggi korelsinya dengan skor sebenarnya dari pada dengan skor pengamatan pada tes parallel. Ketika skor tes tidak dapat berkolerasi lebih tinggi dengan setiap variabel lain dibandingkan dengan skor sebenarnya, korelasi maksimum antara skor amatan dan variabel lainnya adalah , jika sebuah tes, X, digunakan untuk memprediksi sebuah kriteria ,Y, maka disebut koefisien validitas. Karena tidak bisa lebih besar dari , juga tidak bisa lebih besar dari , oleh karena itu,ketidak reliabelan mempengaruhi validitas. Meskipun koefisien validitas tidak dapat lebih tinggi dari akar kuadrat koefisien reliabilitas, koefisien validitas dapat lebih besar dari koefisien reliabilitas itu sendiri. Contohnya, jika , maka . Dalam situasi (koefisien validitas) dapat sebesar 0,7 dan oleh karena itu, dapat lebih tinggi dari koefisien reliabilitas.

Bahwa koefisien reliabilitas adalah 1 dikurang kuadrat korelasi antara skor pengamatan dan skor kesalahan. Secara ideal, seharusnya 0, tapi hanya jika . Hubungan antara dan di ilustrasikan pada gambar 4.3.

Menghubungkan reliabilitas ke variansi skor kesalahan dan variansi skor pengamatan. Sebagaimana diuraikan terdahulu, ketika maka dan ketika maka . Tingkat heterogenitas (variansi) pada skor hasil yang diamati untuk kelompok peserta ujian mempunyai pengaruh yang penting pada reliabilitas. Jika tes diberikan untuk populasi dengn jarak yang dibatasi pada skor pengamatan (contohnya, jika kita berikan tes IQ untuk kelompok orang yang pertumbuhan mental yang terhambat), akan dikurangi. Jika variansi kesalahan sama dalam kelompok yang dibatasi sebagai kelompok yang lebih heterogen, maka reliabilitas akan lebih kecil untuk kelompok yang dibatasi. Dengan kata lain, perkiraan reliabilitas didasarkan pada kelompok heterogen akan cenderung lebih tinggi dari perkiraan awal pada kelompok yang lebih homogen .

Kesimpulannya ,

ketika , maka :

1. Pengukuran yang dibuat tanpa kesalahan ( semua E = 0)

2. X = T untuk semua yang diuji

3. Semua variansi skor pengamatan mewakili variansi skor sebenarnya

4. Semua perbedaan antara skor pengamatan mewakili perbedaan skor sebenarnya

5. Korelasi antara skor pengamatan dan skor sebenarnya adalah 1 ( ) dan

6. Korelasi antara skor pengamatan dan skor kesalahan adalah 0 ( )

ketika , maka :

1. Hanya kesalahan acak yang termasuk dalam pengukuran

2. X = E untuk semua yang diuji

3. Semua variansi yang diamati mewakili variansi kesalahan ( )

4. Semua perbedaan antara skor mewakili kesalahan pengukuran

5. Korelasi antara skor pengamatan dan skor sebenarnya adalah 0 ( ) dan

6. Korelasi antara skor pengamatan dan skor kesalahan adalah 1 ( )

Ketika , maka :

1. Pengukuran dapat mengandung beberapa kesalahan

2. X = T + E

3. Variansi skor yang diamati mengandung variansi skor sebenarnya dan beberapa variansi skor kesalahan ( )

4. Perbedaan antara skor pengamatan dapat mewakili kesalahan pengukuran seperti perbedaan skor sebenarnya.

5. Korelasi antara skor pengamatan dan skor sebenarnya, sama dengan

6. Korelasi antara skor pengamatan dan skor kesalahan, sama dengan

7. Reliabilitas adalah proporsi variansi skor pengamatan adalah variansi skor sebenarnya

8. terbesar adalah lebih pasti kita memperkirakan T dari X, karena variansi kesalahan akan relatif kecil.

A. ESTIMASI RELIABILITAS

Pada kebanyakan kasus, skor sebenarnya (T) tidak dapat diperoleh, dan tidak mungkin untuk memeriksa bahwa kedua tes tersebut parallel. Untuk itu reliabilitas harus diestimasi dengan metode yang lain.

1. Metode Tes/Retest

Estimasi reliabilitas dengan test/retest merupakan metode yang berdasarkan pada tes yang diberikan pada peserta ujian yang sama dan dengan tes yang sama diberikan dua kali dan mengkorelasikan hasilnya. Jika setiap peserta ujian memperoleh skor amatan yang tepat sama pada tes kedua seperti yang didapat pada tes pertama dan jika variansi dalam skor amatan diantara peserta uji korelasinya adalah 1.0 maka menunjukan reliabilitas sempurna. Tapi, jika himpunan skor dari tes pertama tidak berhubungan dengan himpunan skor tes kedua, estimasinya 0.

Untuk memperoleh reliabilitas dengan metode ini, kita perlu membuat sebuah instrument tes dan menentukan subjeknya. Kemudian tes diberikan sebanyak dua kali pada subjek yang sama namun diberikan pada waktu yang berbeda. Dengan demikian, kita akan memperoleh dua himpunan skor dari tes pertama dan kedua. Estimasi reliabilitas kita peroleh dari korelasi skor pertama dan kedua.

Masalah yang ditemukan dalam estimasi reliabilitas dengan metode ini adalah :

a. Carry-Over Effects antara Tes

Ada kemungkinan tes pertama berpengaruh pada tes kedua. Kontaminasi skor ini dapat terjadi dalam berbagai cara. Peserta tes mungkin mengingat jawaban pada tes pertama dan mengulangnya. Jika sebagian besar peserta tes melakukannya, akan overestimate atau pada beberapa tes, carry over effects di sebabkan oleh pengaruh latihan. Contohnya, kebanyakan orang cenderung untuk meningkatkan nilai dengan tes berulang pada tes ketangkasan dan tes kemampuan. Jika beberapa orang nilainya telah meningkat lebih dari yang lain, korelasi skor amatan dari dua tes itu kemungkinan akan underestimate, kecuali derajat peningkatan korelasinya tinggi dengan skor pada tes pertama atau kedua

b. lamanya waktu antara pemberian kedua tes.

Selang waktu yang sangat singkat akan menimbulkan carry over effects yang disebabkan oleh ingatan, latihan, atau suasana hati. Selang waktu yang lama akan memberikan pengaruh karena perubahan informasi atau suasana. Jika sifat tes yang mengukur dengan variasi waktu, seperti kemampuan kognitif anak, selang yang lama akan cenderung mengarah kepada underestimate pada reliabilitas tes pada suatu kesempatan. Perbedaan lama waktu dapat mempengaruhi estimasi reliabillitas dengan cara yang berbeda, kadang – kadang overestimate dan kadang – kadang underestimate dari reliabilitas sebenarnya. Contohnya, prosedur tes/retest tepat untuk mengestimasi reliabilitas tugas diskriminasi sensorik (seperti tes ketajaman visual dan audio).

2. Metode Bentuk Alternatif/Paralel

Estimasi reliabilitas bentuk paralel adalah korelasi, , antara skor amatan pada dua tes paralel. Prakteknya, biasanya tidak mungkin untuk memerikasa bahwa dua tes paralel. Dan bentuk tes alternatif sering digunakan pada bentuk tes paralel. Bentuk tes alternatif adalah bentuk dua tes yang telah dikonstruksikan sebagai usaha membuatnya paralel, dan keduanya mungkin mempunyai kesamaan (atau sangat mirip) rata–rata skor amatan, variansi dan korelasi dengan pengukuran lainnya. Namun, namun, tidak ada bukti yang tersedia bahwa bentuk alternatif adalah paralel. Korelasi antar skor amatan pada bentuk tes alternatif, adalah estimasi reliabilitas salah satu dari bentuk alternatif. Korelasi ini akan mencerminkan bagaimana reliabel tes tersebut, sebaik bagaimana keduanya parallel.

Untuk memperoleh reliabilitas dengan metode ini, kita perlu membuat dua buah instrument tes yang diberikan pada subjek yang sama namun pada waktu yang berbeda. Dengan demikian, kita akan memperoleh dua himpunan skor dari tes pertama dan kedua. Estimasi reliabilitas kita peroleh dari korelasi skor pertama dan kedua.

Namun, menggunakan estimasi reliabilitas bentuk alternatif atau paralel tidak selalu menghilangkan kemungkinan carry over effect khususnya yang berhubungan dengan gaya respon, suasana hati atau sikap. Seperti estimasi reliabilitas dengan tes/retest, carry over effects ini mungkin akan memberikan nilai yang overestimate atau underestimate dari dari atau . Pemilihan waktu juga merupakan masalah. Jangka waktu yang pendek antara dua tes memungkinkan kontaminasi skor perolehan yang disebabkan oleh ingatan, latihan atau suasana hati; pada jangka waktu yang panjang trait yang berubah seiring waktu .

Ketika bentuk tes alternatif, X dan Z, tidak paralel, secara umum akan menjadi estimasi tidak akurat dari atau contohnya, diketahui X = T_X + E_X dan Z = T_Z + E_Z. Jika T_X = T_Z tapi , kemudian X kurang reliabel dari Z. Korelasi akan cenderung overestimate , dan underestimate . Jika T_X ≠ T_Z , mungkin tes mengukur trate yang berbeda, dan akan cenderung underestimasi baik dan . Contohnya, jika X adalah skor pada tes komputasi matematika dan Z adalah skor tes penalaran matematika, adalah korelasi antara komputasi matematika dan skor penalaran. dan tidak perlu estimasi reliabilitas yang bagus dari tes yang lain.

Kesimpulannya, korelasi antara skor pengamatan pada bentuk alternatif akan menghasilkan estimasi yang bagus dari reliabilitas tes jika bentuk alternatifnya paralel atau jika keduanya fungsi linear dari skor tes paralel dan jika carry over effects dan perubahan skor karena waktu tidak mempengaruhi korelasi.

3. Metode Konsistensi Internal : Split Halves

Reliabilitas konsistensi internal diestimasi menggunakan satu bentuk tes yang hanya diberikan sekali dan untuk menghindari masalah yang ditimbulkan pada tes berulang. Metode ini lebih dikenal sebagai estimasi reliabilitas dengan metode split half (metode belah dua). Tes ini dibagi menjadi dua bagian, yang merupakan bentuk alternatif dari masing-masing, dan diusahakan untuk memilih bagian-bagian tersebut sehingga menjadi parallel atau pada essentially (lihat bagian 3.1). Jika bagian dari tes ini parallel, reliabilitas dari keseluruhan tes diestimasi dengan menggunakan rumus Spearman-Brown. Jika bagian-bagiannya merupakan essentially , koefisien dapat digunakan untuk menghitung reliabilitas keseluruhan tes.

Ada 3 metode yang biasa digunakan dalam membagi tes.

a. Metode genap/ganjil

mengklasifikasikan item dengan cara membagi mana yang genap dan mana yang ganjil dalam suatu tes. Setiap peserta ujian memperoleh skor untuk item bernomor genap dan item bernomor ganjil.

b. Metode Urutan

Membentuk bagiannya dalam urutan, tiap peserta ujian memperoleh skor bagian pertama dari tes dan skor bagian kedua dari tes. Secara umum, pembentukan bagian tes dengan metode urutan kurang sesuai dibandingkan dengan metode genap/ganjil, karena beberapa peserta ujian mungkin memperbaiki dengan latihan (menaikkan skor bagian kedua) dan beberapa peserta ujian mungkin tidak dapat menyelesaikan tes (menurunkan skor bagian kedua). Bagaimanapun juga, masalah bagi beberapa peserta ujian dapat diatasi dengan dengan memisahkan waktu dari dua bagian. Yaitu, peserta ujian diberikan beberapa menit ntuk menyelesaikan bagian pertama dari tes dan ketika waktu habis, semua peserta ujian menyelesaikan bagian kedua dari tes. Peserta ujian diberi waktu yang sama untuk menyelesaikan tes bagian dua dengan tes bagian pertama. Tipe tes belah dua sama dengan memberikan dua bentuk alternate singkat, dengan hanya memberikan selang waktu yang singkat antar keduanya.

c. Metode Matched Random Subsets

Metode ini lebih bagus dibandingkan dua metode sebelumnya. Metode ini melibatkan beberapa langkah. Pertama, dua statistic dihitung untuk masing-masing itemnya : (1) proporsi peserta ujian yang lulus item (tingkat kesukaran item) dan (2) biserial atau korelasi biserial titik antara skor item dan skor total tes (lihat bagian 2.11). kemudian masing-masing item diplotkan pada grafik menggunakan dua statistic tersebut. Item-item yang saling berdekatan dipasangkan. Dan satu item pada masing-masing pasangan dipilih secara acak untuk setengah bagian tes. Item sisanya membentuk setengah bagian yang lainnya. Contohnya, gambar 4.4 menunjukkan 6 item yang telah diplotkan dan digrupkan menjadi pasangan. Jika item A dipilih untuk setengah bagian pertama, item B akan menjadi setengah bagian kedua, dan seterusnya. Pengelompokan yag mungkin adalah ACE dan BDF, ADE dan BCF, ACF dan BDE, dan seterusnya. Metode ini membantu meyakinkan bahwa kedua bagian memiliki tingkat kesukaran yang sama dan mengukur hal yang sama (sehingga menghasilkan nilai sebenarnya yang sama).

Gambar 4.4 seleksi matched random subsets dengan grafik

Untuk mengestimasi reliabilitasnya, kita menggunakan rumus-rumus sebagai berikut.

a. Rumus Spearman-Brown

Rumus Spearman-Brown dapat digunakan untuk menentukan reliabilitas dari keseluruhan tes jika bagian-bagiannya paralel. Skor dari bagian tes yang parallel (ditulis dan ) dikorelasikan, menghasilkan . Korelasi ini akan menjadi ukuran yang wajar dari reliabilitas satu bagian tes. Reliabilitas dari keseluruhan tes, , akan lebih besar dari reliabilitas per bagian. Rumus Spearman-Brown, yang merupakan reliabilitas dari keseluruhan tes, adalah

(4.1)

Seperti yang ditunjukkan pada table 4.1, biasanya lebih besar daripada , karena adalah reliabilitas keseluruhan tes dan adalah hanya reliabilitas per bagian tes.

Tabel 4.1 Korelasi antara bagian tes yang parallel ( )


0.00	0.00
0.33	0.20
0.57	0.40
0.75	0.60
0.89	0.80
1.00	1.00

b. Koefisien

Rumus ini digunakan pada tes yang skor bagiannya memiliki varians yang tidak sama atau ada indikasi bahwa tidak parallel. Rumus ini dapat digunakan untuk mengestimasi reliabilitas keseluruhan tes. Jika bagian-bagiannya (tulis dan ) , koefisien merupakan reliabilitas tes. Jika bagian-bagiannya bukan , koefisien akan memberian batas bawah dari reliabilitas keseluruhan tes. (Sehingga, reliabilitas tes pasti lebih besar atau sama dengan hasil yang diberikan pada rumus koefisien ).

Jika koefisien menghasilkan nilai yang tinggi, kita tahu bahwa reliabilitas tes pasti tinggi; jika koefisien rendah, kita mungkin tidak tahu apakah sebenarnya tes tersebut memiliki reliabilitas yang rendah atau apakah bagian dari tes bukan merupakan . Rumus koefisien untuk metode belah dua adalah

(4.2)

Dimana dan adalah varians skor dua bagian tes, dan adalah varians skor dari keseluruhan tes, dengan .

Nilai yang dihasilkan oleh koefisien dan rumus Spearman Brown akan lebih besar jika bagian tes berkorelasi tinggi dan akan bernilai kecil jika sebaliknya. Bagian tes akan berkorelasi tinggi hanya jika mengukur trait yang sama atau yang berkorelasi tinggi; sehingga, reliabilitas rumus Spearman Brown dan koefisien merupakan indeks konsistensi internal tes atau homogenitas.

Jika varians dari skor amatan dari bagian tes sama, rumus Spearman Brown dan koefisien sama. Jika varians dari skor amatan dari bagian tes sama, tapi bagiannya tidak , baik rumus Spearman Brown dan koefisien akan memperkecil reliabilitas tes. Jika varians dari skor amatan dari bagian tes sama, dengan bagiannya , baik rumus Spearman Brown dan koefisien akan memiliki reliabilitas yang sama.

Penggunaan metode belah dua untuk estimasi reliabilitas dapat diilustrasikan dalam sebuah contoh. anggap bahwa korelasi antara skor kedua bagiannya adalah 0.5. varians skor per bagian adalah 7 dan 5, dan varians skor total adalah 17.9. dengan menggunakan rumus Spearman Brown (persamaan 4.1), reliabilitas skor total diestimasi menjadi

Reliabilitas skor total diestimasi dengan koefisien (persamaan 4.2) menjadi

Dalam contoh ini, estimasi dengan koefisien menghasilkan nilai yang lebih kecil dibandingkan menggunakan rumus Spearman Brown.

Manfaat terbesar estimasi reliabilitas konsistensi internal adalah tes hanya perlu diberikan sekali untuk dapat mengestimasi relibilitasnya. Bagaimanapun juga, metode konsistensi internal ini tidak terpenuhi ketika tes tidak dapat dibagi menjadi beberapa bagian yang parallel atau dasar atau ketika tes tidak memiliki item yang independen yang dapat dipisah.

Estimasi reliabilitas dengan metode split half harusnya tidak boleh digunakan pada tes kecepatan, karena akan memberikan nilai estimasi yang tidak wajar. Pada tes kecepatan murni kebanyakan orang dapat menjawab tiap item dengan benar, maka jika sesorang menyelesaikan 30 item, skor bagian genap dan ganjil masing-masing 15 item. Secara umum skor genap dan ganjil tiap peserta uji bisa jadi hampir identik, akibatnya nilai estimasi reliabilitas mendekati 1. Dan jika estimasi dengan split half berdasarkan korelasi setengah bagian pertama dan bagian kedua, nilai estimasi bias jadi mendekati 0, ketika sebagian besar peserta uji mendapatkan nilai tinggi pada bagian pertama dan nilai rendah pada bagian kedua. Pada kasus ini, korelasi antara bagian-bagiannya mencerminkan error antara bagian pertama dan kecepatan pada bagian kedua. Metode matched random subsets tidak lagi sesuai untuk tes kecepatan, karena item yang sulit dan korelasi item akan menjadi fungsi dari tes daripada fungsi sifat-sifat item itu sendiri.

KASUS UMUM RELIABILITAS INTERNAL KONSISTENSI

Teknik membagi tes menjadi dua bagian dengan metode sebelumnya dapat digeneralisasikan untuk membagi tes menjadi lebih dari dua bagian. Contohnya, metode genap dan ganjil dapat dimodifikasi dengan membuat pertiga untuk tes dengan sembilan item dengan memasukkan item pertama, keempat, dan ketujuh ke dalam sepertiga bagian pertama, item kedua, kelima, dan kedelapan dalam sepertiga bagian kedua, serta item ketiga, keenam, dan kesembilan dalam bagian ketiga. Metode matched random subsets akan melibatkan pembentukan triplet (kembar tiga) dengan metode grafik yang diilustrasikan pada gambar 4.4 dan secara acak dipilih satu item dari masing-masing triplet untuk dimasukkan ke dalam tiga bagian tes tersebut.

Bagian ini mengasumsikan bahwa tes dibagi menjadi N komponen. Variansi skor dari komponen-komponen tersebut dan varians dari skor total digunakan untuk mengestimasi reliabilitas tes. Jika komponennya (misalnya item atau himpunan item) semuanya . rumus pada bagian ini menghasilkan reliabilitas tes; jika komponennya tidak , rumus ini akan menghasilkan reliabilitas tes yang underestimate. Di sisi lain, rumus ini akan menghasilkan estimasi yang bagus hanya ketika tes mengukur satu trait – yaitu ketika isinya homogen. Contohnya, sebuah tes yang mengukur penalaran aljabar mungkin homogen, tapi tes tipe intelegensi, yang mengukur kemampuan verbal, spasial, dan kuantitatif, akan heterogen. Pengukuran reliabilitas dengan internal konsistensi tidak cocok digunakan pada tes yang heterogen. Selain itu juga tidak cocok untuk tes kecepatan karena konsistensi internal komponen tesnya bukan indikasi yang baik dari reliabilitas tes.

Rumus untuk reliabilitas konsistensi internal pada kasus umum adalah

a. koefisien

Rumus koefisien digunakan untuk mengestimasi reliabilitas tes yang komponen-komponennya parallel.

(4.3)

Dimana

X = skor amatan yang dibentuk dari mengkombinasikan N komponen,

= varians populasi X

= varians populasi dari komponen ke-I , Yi

N = banyaknya komponen yang dikombinasikan ke bentuk X, contohnya jika N = 3, skor tes, X, berdasarkan 3 komponen.

Kuder- Richardson 20 (KR20)

Jika setiap komponen tes, Yi ,item dikotomi, persamaan 4.3 diberikan pada bentuk khusus berikut.

(4.4)

Dimana adalah proporsi peserta ujian yang mendapatkan i item benar, yang mengukur kesulitan item. Persamaan 4.4 mencerminkan fakta bahwa varians skor pada item i, ketika skor pada item ini dapat mengambil nilai 0 atau 1, sama dengan dimana adalah proporsi peserta ujian dalam sebuah populasi yang mendapat skor 1 pada item (yang artinya lulus item tersebut). Persamaan 4.4 sering disebut Rumus Kuder-Richardson 20, disingkat KR20, karena ini adalah rumus ke- 20 yang diberikan Kuder dan Richardson (1937). Nama lain dari rumus ini adalah koefisien -20 , disingkat .

Rumus Kuder-Richardson 21

Rumus Kuder-Richardson yang lain yang sangat berguna ketika setiap Yi merupakan item dikotomi adalah

(4.5)

Dimana adalah rata-rata tingkat kesukaran item. Karena lebih mudah untuk dihitung dengan , persamaan 4.5 dapat dihitung dari rata-rata dan varians tes dengan N-item. Persamaan 4.5 adalah kasus khusus dari KR20 dan biasanya ditulis KR21 atau , selanjutnya

(4.6)

Kedua rumus tersebut akan sama jika tingkat kesukaran item semuanya sama. Jika tidak, KR21 akan kurang dari KR20 dan akan menimbulkan reliabilitas yang underestimate.

Nilai yang dihasilkan pada persamaan 4.3 dan 4.4 akan kurang dari atau samadengan reliabilitas tes dan akan sama dengan reliabilitas tes jika Yi (yaitu, pada dasarnya sama dengan skor sebenarnya). KR21 akan sama dengan reliabiltas tes hanya jika tiap item memiliki tingkat kesukaran yang sama dan . Nilai yang dihasilkan pada persamaan 4.3 dan 4.4 akan besar jika komponen penyusunnya memiliki interkorelasi yang tinggi, dan juga sebaliknya. Komponennya akan berinterkorelasi tinggi hanya jika mengukur trait yang sama atau trait yang berkorelasi tinggi. Sehingga rumus pada bagian ini mengindikasikan konsistensi internal tes atau homogenitas.

Contoh berikut mengilustrasikan penggunaan rumus untuk estimasi reliabilitas konsistensi internal. (Dalam prakteknya, mengestimasi varians komponen-komponennya, , kesukaran item, , dan varians tes, pada persamaan 4.3,4.4, dan 4.5)

1. Tes kreatifitas dibagi menjadi 3 bagian.

Varians bagian pertama =

Varians bagian kedua =

Varians bagian ketiga =

Jumlah ketiga varians = 15

Varians skor total =

Estimasi batas bawah reliabilitas tesnya (dari persamaan 4.3) = .

Jika ketiga bagian tes essentially , 0.6 merupakan estimasi reliabilitas tes.

2. 5 item tes autonomy diberikan pada kelompok guru SD. Varians skor amatan,

Rata-rata skor amatan,

Proporsi guru yang lulus item ( adalah 0.3, 0.4, 0.7, 0.5, dan 0.1

Jumlah varians skor item,

Dengan menggunakan persamaan 4.4,

estimasi batas bawah reliabilitas tes =

jika itemnya , estimasi reliabilitasnya sama dengan 0.833. Batas bawah juga bias diperoleh dengan rumus KR21. Rata-rata tingkat kesukaran, , dan .

Estimasi batas bawah dengan persamaan 4.5 yaitu .

KR21 menghasilkan estimasi batas bawah lebih kecil dibandingkan KR20 karena item-itemnya memiliki tingkat kesukatan yang tidak sama.

b. Rumus Spearman-Brown

Rumus Spearman-Brown digunakan untuk mengestimasi reliabilitas tes yang komponen-komponennya parallel. Bentuk umum rumus ini adalah

(4.7)

Dimana

X = skor amatan total yang dibentuk dengan mengkombinasikan N komponen yang parallel,

= komponen skor tes

=reliabilitas populasi X

= reliabilitas populasi

N = banyaknya skor tes parallel yang dikombinasikan menjadi X

Catatan bahwa . disebut juga a stepped-up reliability, karena merupakan penyesuaian ke atas dari reliabilitas yang lebih pendek.

Persamaan 4.7 dapat juga digunakan untuk menentukan jika N dan diketahui.

(4.8)

Dan jika diketahui dan , maka rumus tersebut dapat digunakan untuk mengetahui N, yaitu

(4.9)

Berikut contoh aplikasi persamaan-persamaan tersebut. Menggunakan rumus Spearman Brown, untuk mengestimasi reliabilitas ( dan ) menggantikan nilai reliabilitas populasi ( dan ).

1. Kita punya tes lima menit dengan reliabilitasnya 0.6. jika kita melakukan tes tiga kali dengan menambahkan komponen yang pararel, maka berapa estimasi reliabilitas tes yang lebih panjang?

N = 3 dan , maka diperoleh

2. Kita punya tes dengan 50 item dengan estimasi reliabilitas 0.9. jika kita menghilangkan 10 item, berapa estimasi reliabilitas tes dengan sepuluh item tersebut? N = 5 , dan

3. Kita punya tes dengan sepuluh item dengan estimasi reliabilitasnya 0.8. berapa banyak item tes diberikan untuk mendapatkan reliabilitas 0.9?

dan

B. STANDARD ERROR OF MEASUREMENT (SEM)

Standar error pengukuran, , adalah standar deviasi dari skor error untuk peserta ujian khusus dalam pengetesan berulang yang independen dengan tes yang sama atau tes yang parallel.

Pada gambar 4.6, Misalkan berlaku asumsi teori klasik skor sebenarnya dan distribusi skor amatan peserta uji dalam tes independen berulang dengan tes yang sama atau parallel. Distribusinya berpusat pada T, dan memiliki standar deviasi, , yang merupakan SEM. Jika , maka skor amatan akan tepat sama dengan skor sebenarnya. Gambar 4.6 menunjukkan pendekatan distribusi normal skor amatan, dimana akan berada pada interval T- hingga T+ , atau .

Jika skor amatan, x, berada pada interval , maka skornya tidak akan lebih jauh dari T. Standar eror ini dapat diestimasi dari standar deviasi skor amatan dan reliabilitas yang diestimasi pada kelompok peserta uji, menggunakan rumus

Jika diasumsikan sama untuk semua peserta uji. Dengan membuat beberapa asumsi, standar error pengukuran dapat digunakan untuk mengestimasi interval kepercayaan dari skor sebenarnya. Asumsi yang perlu dipenuhi yaitu,

1. Asumsi teori klasikal skor sebenarnya (bagian 3.1)

2. Asumsi bahwa error of measurement berdistribusi normal.

3. Asumsi bahwa sama untuk semua peserta uji.

Jika ketiga asumsi tersebut dipenuhi maka interval kepercayaan untuk skor sebenarnya adalah

Dimana

X = skor amatan peserta uji

=estimasi standar error pengukuran,

= nilai kritik deviasi standar normal yang diperoleh dari table normal.

C. CARA MENINGKATKAN RELIABILITAS

Adapun cara untuk meningkatkan nilai reliabilitas menurut Nitko, Anthony J. & Susan M. B. (2011:81) adalah sebagai berikut.

1. Memperpanjang prosedur penilaian. Seperti praktis, beri lebih banyak waktu, gunakan banyak pertanyaan-pertanyaan, lebih banyak observasi dan lain-lain.

2. Perluas dari keleluasaan prosedur.

3. Tingkatkan obyektivitas.

4. Gunakan penilaian yang beragam.

5. Bandingkan hasil-hasil dari beberapa penilaian.

6. Memberikan waktu lebih kepada siswa.

7. Ajari siswa tentang bagaimana kinerja mereka bisa lebih baik.

8. Cocokkan tingkatan kemampuan siswa terhadap penilaian yang berbeda.

9. Seleksi tugas-tugas penilaian yang dikerjakan dengan baik dari perbedaan siswa-siswa yang berprestasi terhadap siswa-siswa yang kurang mampu

D. KESIMPULAN

Reliabilitas ( ) adalah derajat kekonsistenan hasil/nilai siswa pada pemberian penilaian yang berulang. Konsistensi merupakan konsep penting untuk memutuskan seberapa besar derajat kepercayaan dari hasil penilaian terhadap siswa. Reliabilitas dapat diestimasi dengan tiga cara yaitu, (1) test/retest, (2) bentuk alternative/parallel, dan (3) internal konsistensi (rumus koefisien dan Spearman-Brown). Standar error pengukuran, , adalah standar deviasi dari skor error untuk peserta ujian khusus dalam pengetesan berulang yang independen dengan tes yang sama atau tes yang parallel. Standar eror ini dapat diestimasi dari standar deviasi skor amatan dan reliabilitas yang diestimasi pada kelompok peserta uji, menggunakan rumus

REFERENSI

Nitko, Anthony J. & Susan M. B. 2011. Educational Assessment of Students – 6^th Edition. USA : Pearson Education, Inc.

Mary J. Allen & Wendy M. Yen. 1979. Introduction to Measurement Theory. California: A Division of Wadsworth, Inc.

Singh, Arun Kumar. 1986. Tests, Measurement and Research Methods in Behavioral Sciences. New Delhi: Tata McGraw Hill.

L Abaci

Rabu, 07 September 2016

RELIABILITAS

Tidak ada komentar:

Posting Komentar