Rabu, 07 September 2016

RELIABILITAS


A.     DEFINISI UMUM
Reliabilitas adalah derajat kekonsistenan hasil/nilai siswa pada pemberian penilaian yang berulang (Nitko, Anthony J.  & Susan M. B. 2011 : 64). Konsistensi merupakan konsep penting untuk memutuskan seberapa besar derajat kepercayaan dari hasil penilaian terhadap siswa.  Makna lain reliabilitas dalam terminologi stabilitas adalah subjek yang dikenai pengukuran akan menempati ranking yang relatif sama pada testing yang terpisah dengan alat tes yang ekuivalen (Singh, 1986; Thorndike, 1991).
Kaitannya dengan validitas, Nitko, Anthony J.  & Susan M. B menjelaskan bahwa validitas berhubungan dengan interpretasi hasil penilaian terhadap siswa dalam penggunaannya untuk membuat keputusan. Interpretasi tersebut tidak valid apabila hasil penilaian terhadap siswa tidak konsisten. Dengan kata lain, derajat reliabilitas dari hasil penilaian (tes) membatasi derajat validitasnya. Meskipun derajat validitas yang tinggi membutuhkan reliabilitas yang tinggi, tapi tidak berlaku untuk kebalikannya. Reliabilitas yang tinggi tidak menjamin validitasnya.
Menurut Mary J. Allen & Wendy M. Yen, ada beberapa cara mendefinisikan dan menginterpretasikan reliabilitas tes. Contohnya, suatu tes reliabel jika skor amatan (X) berkorelasi tinggi dengan skor sebenarnya (T). Hal ini terjadi jika skor amatan dan skor sebenarnya dapat di peroleh setiap  peserta ujian dalam  tes. Kuadrat korelasi antara skor amatan dengan skor sebenarnya  ( ) disebut koefisien reliabilitas untuk tes tersebut. Atau reliabilitas dapat di tunjukan sebagai korelasi koefisien antara skor pengamatan pada dua tes yang paralel. Jika dua tes yang  paralel diberikan pada populasi peserta ujian dan  skor amatan yang dihasilkan dikorelasikan, korelasi ini (disimbolkan  dimana X dan X’ adalah skor amatan untuk dua tes yang paralel) adalah koefisien reliabilitas.
Berikut ini adalah enam cara Alternatif untuk menginterpretasikan Koefisien reliabilitas:
1.       korelasi antara skor amatan pada tes parallel.
Bahwa reliabilitas tes sama dengan korelasi antara skor amatan pertama dengan skor amatan kedua dalam tes parallel. Jika masing-masing peserta ujian memperoleh skor amatan yang sama ketika dites dengan bentuk parallel dan ada beberapa varians dalam skor amatan pada masing-masing tes, tes memiliki reliabilitas sempurna, ( ). Jika peserta ujian mempunyai skor amatan pada satu tes yang tidak berkolerasi dengan skor amatan lainnya pada tes parallel ( ), suatu tes sepenuhnya tidak reliabel
2.      perbandingan dari variansi X yang berhubungan linier dengan X’
Interpretasi ini merupakan interpretasi Standar untuk koefisien korelasi Pearson, yang dijelaskan pada bab 2.8. korelasi kuadrat dapat selalu di interpretasikan sebagai perbandingan pada variansi dalam satu variable yang dijelaskan dengan hubungan linear dengan variable lain. Sehingga,  dapat ditinjau sebagai perb andingan variansi dalam skor satu tes pada tes parallel.
3.     
Bahwa koefisien reliabilitas adalah rasio dari variansi skor sebenarnya dengan variansi skor amatan. Untuk reliable tes yang sempurna, , maka , dan semua variansi skor amatan mencerminkan   variansi skor sebenarnya dibandingkan variansi errornya. Jika adanya perbedaan antara skor amatan peserta perbedaan antara skor sebenarnya. Jika maka  pasti 0. karena  (E) = 0 maka semua error harus sama dengan 0 ketika . Sehingga ketika , pengukurannya dibuat tanpa membuat kesalahan (error). Ketika ada error dalam pengukurannya. Ketika maka  yang berarti bahwa smua skor mencerminkan error saja. Untuk itu, perbedaan antara skor amatan peserta ujian mencerminkan error acak dari pada perbedaan skor sebenarnya.
            Ketika reliabilitas tes meningkat, varian skor error menjadi relative lebih kecil, skor amatan dari peserta ujian semakin mendekati nilai skor sebenarnya. Bagaimanapun juga ketika varian eror itu relative besar maka skor amatan memberikan estimasi yang rendah atau buruk dari skor sebenarnya. Gambar 4.1 mengilustrasikan hubungan tersebut. Kurva mewakili distribusi menurut teori dari skor amatan untuk satu skor sebenarnya yang tetap, yaitu distribusi skor amatan satu peserta ujian. skor sebenarnya peserta ujian  di tunjukkan dengan T pada gambar. Ingat, ketika skor sebenarnya tetap atau konstan, , dan variansi skor amatan sama dengan variansi kesalahan (error)Pada kurva A dimana mempunyai variansi kesalahan (error) yang lebih kecil,  sebagian besar skor amatan dekat dengan T, sedangkan pada kurva B yang mempunyai variansi kesalahan (error)  lebih besar, banyaknya skor yang diuji sangat jauh dari T.
4.     
Menunjukan koefisiean reliabilitas sebagai kuadrat korelasi antara skor amatan dan skor sebenarnya. Contohnya, jika , maka    jika , maka . Hubungan ini adalah diilustrasikan pada gambar 4.2. kapanpun , kita dapat melihat bahwa , skor amatan akan lebih tinggi korelsinya dengan skor sebenarnya dari pada dengan skor pengamatan pada tes parallel. Ketika skor tes tidak dapat berkolerasi lebih tinggi dengan setiap variabel lain dibandingkan dengan skor sebenarnya, korelasi maksimum antara skor amatan dan variabel lainnya adalah  , jika sebuah tes, X, digunakan untuk memprediksi sebuah kriteria ,Y, maka disebut koefisien validitas. Karena tidak bisa lebih besar dari juga tidak bisa lebih besar dari , oleh karena itu,ketidak reliabelan mempengaruhi validitas. Meskipun koefisien validitas tidak dapat lebih tinggi dari akar kuadrat koefisien reliabilitas, koefisien validitas dapat lebih besar dari koefisien reliabilitas itu sendiri. Contohnya, jika   , maka . Dalam situasi  (koefisien validitas) dapat sebesar 0,7 dan oleh karena itu, dapat lebih tinggi dari koefisien reliabilitas.
5.     
Bahwa koefisien reliabilitas adalah 1 dikurang kuadrat korelasi antara skor pengamatan dan skor kesalahan. Secara ideal,   seharusnya 0, tapi  hanya jika . Hubungan antara  dan   di ilustrasikan pada gambar 4.3.
6.     
Menghubungkan reliabilitas ke variansi skor kesalahan dan variansi skor pengamatan. Sebagaimana diuraikan terdahulu, ketika   maka   dan ketika  maka . Tingkat heterogenitas (variansi) pada skor hasil yang diamati untuk kelompok peserta ujian mempunyai pengaruh yang penting pada reliabilitas. Jika tes diberikan untuk populasi dengn jarak yang dibatasi pada skor pengamatan (contohnya, jika kita berikan tes IQ untuk kelompok orang yang pertumbuhan mental yang terhambat),   akan dikurangi. Jika variansi kesalahan sama dalam kelompok yang dibatasi sebagai kelompok yang lebih heterogen, maka reliabilitas akan lebih kecil untuk kelompok yang dibatasi. Dengan kata lain, perkiraan reliabilitas didasarkan pada kelompok heterogen akan cenderung lebih tinggi dari perkiraan awal pada kelompok yang lebih homogen .
Kesimpulannya ,
ketika , maka :
1.      Pengukuran yang dibuat tanpa kesalahan ( semua E = 0)
2.      X = T untuk semua yang diuji
3.      Semua variansi skor pengamatan mewakili variansi skor sebenarnya  
4.      Semua perbedaan antara  skor pengamatan mewakili perbedaan skor sebenarnya
5.      Korelasi antara skor pengamatan dan skor sebenarnya adalah 1 ( ) dan
6.      Korelasi antara skor pengamatan dan skor kesalahan adalah 0 ( )
ketika , maka :
1.      Hanya kesalahan acak yang termasuk dalam pengukuran
2.      X = E untuk semua yang diuji
3.      Semua variansi yang diamati mewakili variansi kesalahan ( )
4.      Semua perbedaan antara skor mewakili kesalahan pengukuran
5.      Korelasi antara skor pengamatan dan skor sebenarnya adalah 0 ( ) dan
6.      Korelasi antara skor pengamatan dan skor kesalahan adalah 1 ( )
Ketika , maka :
1.      Pengukuran dapat mengandung beberapa kesalahan
2.      X = T + E
3.      Variansi skor yang  diamati mengandung variansi skor sebenarnya dan beberapa variansi skor kesalahan ( )
4.      Perbedaan antara skor pengamatan dapat mewakili kesalahan pengukuran seperti perbedaan skor sebenarnya.
5.      Korelasi antara skor pengamatan dan skor sebenarnya,  sama dengan
6.      Korelasi antara skor pengamatan dan skor kesalahan,  sama dengan
7.      Reliabilitas adalah proporsi variansi skor pengamatan adalah variansi skor sebenarnya
8.       terbesar adalah lebih pasti kita memperkirakan T dari X, karena variansi kesalahan akan relatif kecil.

A.    ESTIMASI RELIABILITAS
Pada kebanyakan kasus, skor sebenarnya (T) tidak dapat diperoleh, dan tidak mungkin untuk memeriksa bahwa kedua tes tersebut parallel. Untuk itu reliabilitas harus diestimasi dengan metode yang lain.
1.      Metode Tes/Retest
Estimasi reliabilitas dengan test/retest merupakan  metode  yang berdasarkan pada tes yang diberikan pada peserta ujian yang sama dan dengan tes yang sama diberikan dua kali dan mengkorelasikan hasilnya. Jika setiap peserta ujian memperoleh skor amatan   yang tepat sama pada tes kedua seperti yang didapat pada tes pertama dan  jika variansi dalam skor amatan diantara peserta uji korelasinya adalah 1.0 maka menunjukan reliabilitas sempurna. Tapi, jika himpunan  skor dari tes pertama tidak berhubungan dengan himpunan skor tes kedua, estimasinya 0.
Untuk memperoleh reliabilitas dengan metode ini, kita perlu membuat sebuah instrument tes dan menentukan subjeknya. Kemudian tes diberikan sebanyak dua kali pada subjek yang sama namun diberikan pada waktu yang berbeda. Dengan demikian, kita akan memperoleh dua himpunan skor dari tes pertama dan kedua. Estimasi reliabilitas kita peroleh dari korelasi skor pertama dan kedua.
Masalah yang ditemukan dalam estimasi reliabilitas dengan metode ini adalah :
a.       Carry-Over Effects antara Tes  
Ada kemungkinan tes pertama berpengaruh pada tes kedua. Kontaminasi skor ini dapat terjadi dalam berbagai cara. Peserta tes mungkin mengingat jawaban pada tes pertama dan mengulangnya. Jika sebagian besar  peserta tes melakukannya,   akan overestimate     atau pada beberapa tes, carry over effects di sebabkan oleh pengaruh latihan. Contohnya, kebanyakan orang cenderung untuk meningkatkan nilai dengan tes berulang pada tes ketangkasan dan  tes kemampuan. Jika beberapa orang nilainya telah meningkat lebih dari yang lain, korelasi skor amatan dari  dua tes itu kemungkinan akan underestimate, kecuali derajat peningkatan korelasinya  tinggi dengan skor pada tes pertama atau kedua
b.      lamanya waktu antara pemberian  kedua tes.
Selang waktu yang sangat singkat akan menimbulkan carry over effects  yang disebabkan oleh ingatanlatihan, atau suasana hati. Selang waktu yang lama akan memberikan pengaruh karena perubahan informasi atau suasana. Jika sifat tes yang mengukur dengan variasi waktu, seperti kemampuan kognitif anak, selang yang lama akan cenderung mengarah kepada underestimate pada reliabilitas tes pada suatu kesempatan. Perbedaan lama waktu dapat mempengaruhi estimasi reliabillitas dengan cara yang berbeda, kadang – kadang overestimate dan kadang – kadang underestimate dari reliabilitas sebenarnya. Contohnya, prosedur  tes/retest tepat untuk mengestimasi reliabilitas tugas diskriminasi sensorik (seperti tes ketajaman visual dan audio).

2.      Metode Bentuk Alternatif/Paralel
Estimasi reliabilitas bentuk paralel adalah korelasi, , antara skor amatan pada dua tes paralel. Prakteknya, biasanya tidak mungkin untuk memerikasa bahwa dua tes paralel. Dan bentuk tes alternatif sering digunakan pada bentuk tes paralel. Bentuk  tes alternatif adalah bentuk dua tes yang telah   dikonstruksikan sebagai usaha  membuatnya paralel, dan keduanya mungkin mempunyai kesamaan (atau sangat mirip) rata–rata skor amatan, variansi dan korelasi dengan pengukuran lainnya. Namun, namuntidak ada bukti yang tersedia bahwa bentuk alternatif  adalah paralel. Korelasi antar skor amatan pada  bentuk tes alternatif,  adalah estimasi reliabilitas salah satu dari bentuk alternatif. Korelasi  ini akan mencerminkan  bagaimana reliabel tes tersebutsebaik  bagaimana keduanya parallel.
Untuk memperoleh reliabilitas dengan metode ini, kita perlu membuat dua buah instrument tes yang diberikan pada subjek yang sama namun pada waktu yang berbeda. Dengan demikian, kita akan memperoleh dua himpunan skor dari tes pertama dan kedua. Estimasi reliabilitas kita peroleh dari korelasi skor pertama dan kedua.
Namun, menggunakan estimasi reliabilitas bentuk alternatif atau paralel tidak selalu menghilangkan kemungkinan carry over effect khususnya yang berhubungan dengan gaya respon, suasana hati atau sikap. Seperti  estimasi reliabilitas dengan tes/retest, carry over effects ini mungkin akan  memberikan nilai yang overestimate atau underestimate dari  dari atau . Pemilihan waktu juga merupakan masalah. Jangka waktu yang pendek antara dua tes  memungkinkan kontaminasi skor perolehan yang disebabkan oleh ingatanlatihan atau suasana hati; pada jangka waktu yang panjang trait yang berubah seiring waktu .
Ketika bentuk tes alternatif, X dan Z, tidak paralel,   secara umum akan menjadi estimasi tidak akurat dari atau  contohnya, diketahui X = TX + EX dan Z = TZ + EZ. Jika TX = TZ tapi , kemudian X kurang reliabel dari Z. Korelasi   akan cenderung overestimate , dan underestimate    . Jika TX ≠ TZ , mungkin tes mengukur trate yang berbeda, dan akan cenderung underestimasi baik   dan . Contohnya, jika X adalah skor pada tes komputasi  matematika  dan Z adalah skor tes penalaran matematika adalah korelasi antara komputasi matematika dan skor penalaran. dan tidak perlu estimasi reliabilitas yang bagus dari tes yang lain.
Kesimpulannya, korelasi antara skor pengamatan pada bentuk alternatif akan menghasilkan estimasi yang bagus dari reliabilitas tes jika bentuk alternatifnya paralel atau jika keduanya  fungsi linear dari skor tes paralel dan jika carry over effects dan perubahan skor  karena waktu  tidak mempengaruhi korelasi.

3.      Metode Konsistensi Internal : Split Halves
Reliabilitas konsistensi internal diestimasi menggunakan satu bentuk tes yang hanya diberikan sekali dan untuk menghindari masalah yang ditimbulkan pada tes berulang. Metode ini lebih dikenal sebagai estimasi reliabilitas dengan metode split half (metode belah dua). Tes ini dibagi menjadi dua bagian, yang merupakan bentuk alternatif dari masing-masing, dan diusahakan untuk memilih bagian-bagian  tersebut sehingga menjadi parallel atau pada essentially  (lihat bagian 3.1). Jika bagian dari tes ini parallel, reliabilitas dari keseluruhan tes diestimasi dengan menggunakan rumus Spearman-Brown. Jika bagian-bagiannya merupakan essentially  , koefisien  dapat digunakan untuk menghitung reliabilitas keseluruhan tes.
Ada 3 metode yang biasa digunakan dalam membagi tes.
a.       Metode genap/ganjil
mengklasifikasikan item dengan cara membagi mana yang genap dan mana yang ganjil dalam suatu tes. Setiap peserta ujian memperoleh  skor untuk item bernomor genap dan item bernomor ganjil.
b.      Metode Urutan
Membentuk bagiannya dalam urutan, tiap peserta ujian memperoleh skor bagian pertama dari tes dan skor bagian kedua dari tes. Secara umum, pembentukan bagian tes dengan metode urutan kurang sesuai dibandingkan dengan metode genap/ganjil, karena beberapa peserta ujian mungkin memperbaiki dengan latihan (menaikkan skor bagian kedua) dan beberapa peserta ujian mungkin tidak dapat menyelesaikan tes (menurunkan skor bagian kedua). Bagaimanapun juga, masalah bagi beberapa peserta ujian dapat diatasi dengan dengan memisahkan waktu dari dua bagian. Yaitu, peserta ujian diberikan beberapa menit ntuk menyelesaikan bagian pertama dari tes dan ketika waktu habis,  semua peserta ujian menyelesaikan bagian kedua dari tes. Peserta ujian diberi waktu yang sama untuk menyelesaikan tes bagian dua dengan tes bagian pertama. Tipe tes belah dua sama dengan memberikan  dua bentuk alternate singkat, dengan hanya memberikan selang waktu yang singkat antar keduanya.
c.       Metode Matched Random Subsets
Metode ini lebih bagus dibandingkan dua metode sebelumnya. Metode ini melibatkan beberapa langkah. Pertama, dua statistic dihitung untuk masing-masing itemnya : (1) proporsi peserta ujian yang lulus item (tingkat kesukaran item) dan (2) biserial atau korelasi biserial titik antara skor item dan skor total tes (lihat bagian 2.11). kemudian masing-masing item diplotkan pada grafik menggunakan dua statistic tersebut. Item-item yang saling berdekatan dipasangkan. Dan satu item pada masing-masing pasangan dipilih secara acak untuk setengah bagian tes. Item sisanya membentuk setengah bagian yang lainnya. Contohnya, gambar 4.4 menunjukkan 6 item yang telah diplotkan dan digrupkan menjadi pasangan. Jika item A dipilih untuk setengah bagian pertama, item B akan menjadi setengah bagian kedua, dan seterusnya. Pengelompokan yag mungkin  adalah ACE dan BDF, ADE dan BCF, ACF dan BDE, dan seterusnya. Metode  ini membantu meyakinkan bahwa kedua bagian memiliki tingkat kesukaran yang sama dan mengukur hal yang sama (sehingga menghasilkan nilai sebenarnya yang sama).
Gambar 4.4 seleksi matched random subsets  dengan grafik
Untuk mengestimasi reliabilitasnya, kita menggunakan rumus-rumus sebagai berikut.
a.       Rumus Spearman-Brown
Rumus Spearman-Brown dapat digunakan untuk menentukan reliabilitas dari keseluruhan tes jika bagian-bagiannya paralel. Skor dari bagian tes yang parallel (ditulis  dan ) dikorelasikan, menghasilkan . Korelasi ini akan menjadi ukuran yang wajar dari reliabilitas satu bagian tes. Reliabilitas dari keseluruhan tes, , akan lebih besar dari reliabilitas per bagian. Rumus Spearman-Brown, yang merupakan reliabilitas dari keseluruhan tes, adalah
                                                                                     (4.1)
Seperti yang ditunjukkan pada table 4.1,  biasanya lebih besar daripada , karena  adalah reliabilitas keseluruhan tes dan  adalah hanya reliabilitas per bagian tes.
Tabel 4.1 Korelasi antara bagian tes yang parallel ( )
0.00
0.00
0.33
0.20
0.57
0.40
0.75
0.60
0.89
0.80
1.00
1.00

b.      Koefisien  
Rumus ini digunakan pada tes yang skor bagiannya memiliki varians yang tidak sama atau ada indikasi bahwa tidak parallel. Rumus ini dapat digunakan untuk mengestimasi reliabilitas keseluruhan tes. Jika bagian-bagiannya (tulis  dan , koefisien  merupakan reliabilitas tes. Jika bagian-bagiannya bukan , koefisien  akan memberian batas bawah dari reliabilitas keseluruhan tes. (Sehingga, reliabilitas tes pasti lebih besar atau sama dengan hasil yang diberikan pada rumus koefisien ).
Jika koefisien  menghasilkan nilai yang tinggi, kita tahu bahwa reliabilitas tes pasti tinggi; jika koefisien  rendah, kita mungkin tidak tahu apakah sebenarnya tes tersebut memiliki reliabilitas yang rendah atau apakah bagian dari tes bukan merupakan . Rumus koefisien untuk metode belah dua adalah
                                                       (4.2)
Dimana  dan  adalah varians skor dua bagian tes, dan  adalah varians skor dari keseluruhan tes, dengan .
Nilai yang dihasilkan oleh koefisien  dan rumus Spearman Brown akan lebih besar jika bagian tes berkorelasi tinggi dan akan bernilai kecil jika sebaliknya. Bagian tes akan berkorelasi tinggi hanya jika mengukur trait yang sama atau yang berkorelasi tinggi; sehingga, reliabilitas  rumus Spearman Brown dan koefisien  merupakan indeks konsistensi internal tes atau homogenitas.
Jika varians dari skor amatan dari bagian tes sama, rumus Spearman Brown dan koefisien sama. Jika varians dari skor amatan dari bagian tes sama, tapi bagiannya tidak , baik rumus Spearman Brown dan koefisien  akan memperkecil reliabilitas tes. Jika varians dari skor amatan dari bagian tes sama, dengan bagiannya , baik rumus Spearman Brown dan koefisien  akan memiliki reliabilitas yang sama.
Penggunaan metode belah dua untuk estimasi reliabilitas dapat diilustrasikan dalam sebuah contoh. anggap bahwa korelasi antara skor kedua bagiannya adalah 0.5. varians skor per bagian adalah 7 dan 5, dan varians skor total adalah 17.9. dengan menggunakan rumus Spearman Brown (persamaan 4.1), reliabilitas skor total diestimasi menjadi
Reliabilitas skor total diestimasi dengan koefisien  (persamaan 4.2) menjadi
        
Dalam contoh ini, estimasi dengan koefisien  menghasilkan nilai yang lebih kecil dibandingkan menggunakan rumus Spearman Brown.
Manfaat terbesar estimasi reliabilitas konsistensi internal adalah tes hanya perlu diberikan sekali untuk dapat mengestimasi relibilitasnya. Bagaimanapun juga, metode konsistensi internal ini tidak terpenuhi ketika tes tidak dapat dibagi menjadi beberapa bagian yang parallel atau  dasar atau ketika tes tidak memiliki item yang independen yang dapat dipisah.
Estimasi reliabilitas dengan metode split half  harusnya tidak boleh digunakan pada tes kecepatan, karena akan memberikan nilai estimasi yang tidak wajar. Pada tes kecepatan murni kebanyakan orang dapat menjawab tiap item dengan benar, maka jika sesorang menyelesaikan 30 item, skor bagian genap dan ganjil  masing-masing 15 item. Secara umum skor genap dan ganjil tiap peserta uji bisa jadi hampir identik, akibatnya nilai estimasi reliabilitas mendekati 1. Dan jika estimasi dengan split half berdasarkan korelasi setengah bagian pertama dan bagian kedua, nilai estimasi bias jadi mendekati 0, ketika sebagian besar peserta uji mendapatkan nilai tinggi pada bagian pertama dan nilai rendah pada bagian kedua. Pada kasus ini, korelasi antara bagian-bagiannya mencerminkan error antara bagian pertama dan kecepatan pada bagian kedua. Metode matched random subsets   tidak lagi sesuai untuk tes kecepatan, karena item yang sulit dan korelasi item akan menjadi fungsi dari tes daripada fungsi  sifat-sifat item itu sendiri.

KASUS UMUM RELIABILITAS INTERNAL KONSISTENSI
Teknik membagi tes menjadi dua bagian dengan metode sebelumnya dapat digeneralisasikan untuk membagi tes menjadi lebih dari dua bagian. Contohnya, metode genap dan ganjil dapat dimodifikasi dengan membuat pertiga untuk tes dengan sembilan item dengan memasukkan item pertama, keempat, dan ketujuh ke dalam sepertiga bagian pertama, item kedua, kelima, dan kedelapan dalam sepertiga bagian kedua, serta item ketiga, keenam, dan kesembilan dalam bagian ketiga. Metode matched random subsets   akan melibatkan pembentukan triplet (kembar tiga) dengan metode grafik yang diilustrasikan pada gambar 4.4 dan secara acak dipilih satu item dari masing-masing triplet untuk dimasukkan ke dalam tiga bagian tes tersebut.
Bagian ini mengasumsikan bahwa tes dibagi menjadi N komponen. Variansi skor dari komponen-komponen tersebut dan varians dari skor total digunakan untuk mengestimasi reliabilitas tes. Jika komponennya (misalnya item atau himpunan item) semuanya rumus pada bagian ini menghasilkan reliabilitas tes; jika komponennya tidak   , rumus ini akan menghasilkan reliabilitas tes yang underestimate. Di sisi lain, rumus ini akan menghasilkan estimasi yang bagus hanya ketika tes mengukur satu trait – yaitu ketika isinya homogen. Contohnya, sebuah tes yang mengukur penalaran aljabar mungkin homogen, tapi tes tipe intelegensi, yang mengukur kemampuan verbal, spasial, dan kuantitatif, akan heterogen. Pengukuran reliabilitas dengan internal konsistensi tidak cocok digunakan pada tes yang heterogen. Selain itu juga tidak cocok untuk tes kecepatan karena konsistensi internal komponen tesnya bukan indikasi yang baik dari reliabilitas tes.
Rumus untuk reliabilitas konsistensi internal pada kasus umum adalah
a.       koefisien
Rumus koefisien  digunakan untuk mengestimasi reliabilitas tes yang komponen-komponennya parallel.

                                                 (4.3)
Dimana
X = skor amatan yang dibentuk dari mengkombinasikan N komponen,
= varians populasi X
= varians populasi dari komponen ke-I , Yi
N = banyaknya komponen yang dikombinasikan ke bentuk X, contohnya jika N = 3, skor tes, X, berdasarkan 3 komponen.

Kuder- Richardson 20 (KR20)
Jika setiap komponen tes, Yi ,item dikotomi, persamaan 4.3 diberikan pada bentuk khusus berikut. 
                                  (4.4)

Dimana  adalah proporsi peserta ujian yang mendapatkan i   item benar, yang mengukur kesulitan item. Persamaan 4.4 mencerminkan fakta bahwa varians skor pada item i, ketika skor pada item ini dapat mengambil nilai 0 atau 1, sama dengan  dimana  adalah proporsi peserta ujian dalam sebuah populasi yang mendapat skor 1 pada item (yang artinya lulus item tersebut). Persamaan 4.4 sering disebut Rumus Kuder-Richardson 20, disingkat KR20, karena ini adalah rumus ke- 20 yang diberikan Kuder dan Richardson (1937). Nama lain dari rumus ini adalah koefisien  -20 , disingkat .

Rumus Kuder-Richardson 21
Rumus Kuder-Richardson yang lain yang sangat berguna ketika setiap Yi merupakan item dikotomi adalah

                                      (4.5)

Dimana  adalah rata-rata tingkat kesukaran item. Karena  lebih mudah untuk dihitung dengan  , persamaan 4.5 dapat dihitung dari rata-rata dan varians tes dengan N-item. Persamaan 4.5 adalah kasus khusus dari KR20 dan biasanya ditulis KR21 atau , selanjutnya
                                                        (4.6)
Kedua rumus tersebut akan sama jika tingkat kesukaran item semuanya sama. Jika tidak, KR21 akan kurang dari KR20 dan akan menimbulkan reliabilitas yang underestimate.
Nilai yang dihasilkan pada persamaan 4.3 dan 4.4 akan kurang dari atau samadengan reliabilitas tes dan akan sama dengan reliabilitas tes jika Yi  (yaitu, pada dasarnya sama dengan skor sebenarnya). KR21 akan sama dengan reliabiltas tes hanya jika tiap item memiliki tingkat kesukaran yang sama dan . Nilai yang dihasilkan pada persamaan 4.3 dan 4.4 akan besar jika komponen penyusunnya memiliki interkorelasi yang tinggi, dan juga sebaliknya. Komponennya akan berinterkorelasi tinggi hanya jika mengukur trait yang sama atau trait yang berkorelasi tinggi. Sehingga rumus pada bagian ini mengindikasikan konsistensi internal tes atau homogenitas.
Contoh berikut mengilustrasikan penggunaan rumus untuk estimasi reliabilitas konsistensi internal. (Dalam prakteknya, mengestimasi varians komponen-komponennya, , kesukaran item, , dan varians tes,  pada persamaan 4.3,4.4, dan  4.5)
1.      Tes kreatifitas dibagi menjadi 3 bagian.
Varians bagian pertama =
Varians bagian kedua =
Varians bagian ketiga =
Jumlah ketiga varians = 15
Varians skor total =
Estimasi batas bawah reliabilitas tesnya (dari persamaan 4.3) = .
Jika ketiga bagian tes essentially  , 0.6 merupakan estimasi reliabilitas tes.

2.      5 item tes autonomy diberikan pada kelompok guru SD. Varians skor amatan,
Rata-rata skor amatan,
Proporsi guru yang lulus item (  adalah 0.3, 0.4, 0.7, 0.5, dan 0.1
Jumlah varians skor item,
Dengan menggunakan persamaan 4.4,
estimasi batas bawah reliabilitas tes =
jika itemnya , estimasi reliabilitasnya sama dengan 0.833. Batas bawah juga bias diperoleh dengan rumus KR21. Rata-rata tingkat kesukaran, , dan .
Estimasi batas bawah dengan persamaan 4.5 yaitu  .
KR21 menghasilkan estimasi batas bawah lebih kecil dibandingkan KR20 karena item-itemnya memiliki tingkat kesukatan yang tidak sama.

b.      Rumus Spearman-Brown
Rumus Spearman-Brown digunakan untuk mengestimasi reliabilitas tes yang komponen-komponennya parallel. Bentuk umum rumus ini adalah
                             (4.7)
Dimana
X = skor amatan total yang dibentuk dengan mengkombinasikan N komponen yang parallel,
= komponen skor tes
=reliabilitas populasi X
= reliabilitas populasi
N = banyaknya skor tes parallel yang dikombinasikan menjadi X
Catatan bahwa .   disebut juga a stepped-up reliability, karena merupakan penyesuaian ke atas dari reliabilitas yang lebih pendek.
Persamaan 4.7 dapat juga digunakan untuk menentukan  jika N dan  diketahui.
                                                                                                            (4.8)
Dan jika diketahui  dan , maka rumus tersebut dapat digunakan untuk mengetahui N, yaitu
                                                                                                            (4.9)
Berikut contoh aplikasi persamaan-persamaan tersebut. Menggunakan rumus Spearman Brown, untuk mengestimasi reliabilitas ( dan ) menggantikan nilai reliabilitas populasi ( dan ).
1.      Kita punya tes lima menit dengan reliabilitasnya 0.6. jika kita melakukan tes tiga kali dengan menambahkan komponen yang pararel, maka berapa estimasi reliabilitas tes yang lebih panjang?
N = 3 dan , maka diperoleh
2.      Kita punya tes dengan 50 item dengan estimasi reliabilitas 0.9. jika kita menghilangkan 10 item, berapa estimasi reliabilitas tes dengan sepuluh item tersebut? N = 5 , dan
3.      Kita punya tes dengan sepuluh item dengan estimasi reliabilitasnya 0.8. berapa banyak item tes diberikan untuk mendapatkan reliabilitas 0.9?
 dan

B.     STANDARD ERROR OF MEASUREMENT (SEM)
Standar error pengukuran, , adalah standar deviasi dari skor error untuk peserta ujian khusus dalam pengetesan berulang yang independen dengan tes yang sama atau tes yang parallel.
Pada gambar 4.6, Misalkan berlaku asumsi teori klasik skor sebenarnya dan distribusi skor amatan peserta uji dalam tes independen berulang dengan tes yang sama atau parallel. Distribusinya berpusat pada T, dan memiliki standar deviasi, , yang merupakan SEM. Jika , maka skor amatan akan tepat sama dengan skor sebenarnya. Gambar 4.6 menunjukkan pendekatan distribusi normal skor amatan, dimana akan berada pada interval T-  hingga T+ , atau .
Jika skor amatan, x, berada pada interval , maka skornya tidak akan lebih jauh dari T. Standar eror ini dapat diestimasi dari standar deviasi skor amatan dan reliabilitas yang diestimasi pada kelompok peserta uji, menggunakan rumus
Jika diasumsikan  sama untuk semua peserta uji. Dengan membuat beberapa asumsi, standar error pengukuran dapat digunakan untuk mengestimasi interval kepercayaan dari skor sebenarnya. Asumsi yang perlu dipenuhi yaitu,
1.      Asumsi teori klasikal skor sebenarnya (bagian 3.1)
2.      Asumsi bahwa error of measurement berdistribusi normal.
3.      Asumsi bahwa  sama untuk semua peserta uji.
Jika ketiga asumsi tersebut dipenuhi maka interval kepercayaan untuk skor sebenarnya adalah
                                 
Dimana
X = skor amatan peserta uji
=estimasi standar error pengukuran,
= nilai kritik deviasi standar normal yang diperoleh dari table normal.

C.    CARA MENINGKATKAN RELIABILITAS
Adapun cara untuk meningkatkan nilai reliabilitas menurut Nitko, Anthony J.  & Susan M. B. (2011:81) adalah sebagai berikut.
1.      Memperpanjang prosedur penilaian. Seperti praktis, beri lebih banyak waktu, gunakan banyak pertanyaan-pertanyaan, lebih banyak observasi dan lain-lain.
2.      Perluas dari keleluasaan prosedur.
3.      Tingkatkan obyektivitas.
4.      Gunakan penilaian yang beragam.
5.      Bandingkan hasil-hasil dari beberapa penilaian.
6.      Memberikan waktu lebih kepada siswa.
7.      Ajari siswa tentang bagaimana kinerja mereka bisa lebih baik.
8.      Cocokkan tingkatan kemampuan siswa terhadap penilaian yang berbeda.
9.      Seleksi tugas-tugas penilaian yang dikerjakan dengan baik dari perbedaan siswa-siswa yang berprestasi terhadap siswa-siswa yang kurang mampu

D.    KESIMPULAN
Reliabilitas ( ) adalah derajat kekonsistenan hasil/nilai siswa pada pemberian penilaian yang berulang. Konsistensi merupakan konsep penting untuk memutuskan seberapa besar derajat kepercayaan dari hasil penilaian terhadap siswa. Reliabilitas dapat diestimasi dengan tiga cara yaitu, (1) test/retest, (2) bentuk alternative/parallel, dan (3) internal konsistensi (rumus koefisien dan Spearman-Brown). Standar error pengukuran, , adalah standar deviasi dari skor error untuk peserta ujian khusus dalam pengetesan berulang yang independen dengan tes yang sama atau tes yang parallel. Standar eror ini dapat diestimasi dari standar deviasi skor amatan dan reliabilitas yang diestimasi pada kelompok peserta uji, menggunakan rumus




REFERENSI

Nitko, Anthony J.  & Susan M. B. 2011. Educational Assessment of Students – 6th Edition. USA : Pearson Education, Inc.

Mary J. Allen & Wendy M. Yen. 1979. Introduction to Measurement Theory. California: A Division of Wadsworth, Inc.

Singh, Arun Kumar. 1986. Tests, Measurement and Research Methods in Behavioral Sciences. New Delhi: Tata McGraw Hill.

Tidak ada komentar:

Posting Komentar