Analisis Reliabilitas

Bilson Simamora, 5 Juni 2022

Uji validitas berkaitan dengan pertanyaan apakah data yang kita memiki akurat, yaitu menunjukkan ukuran sebenarnya dari apa yang mau diukur. Ukuran sebenarnya dapat memiliki ukuran resmi (misalnya tinggi gunung Everest dari permukaan laut adalah 8849 meter), bisa pula bersifat hipothetik. Untuk memperoleh data akurat tersebut diperlukan instrumen yang handal atau reliabilitas.

Bayangkan kita mengukur suhu air hangat. Kita gunakan dua instrumen, yaitu termometer dan jari telunjuk. Pengukuran dilakukan lima kali. Dengan termometer, angka yang dihasilkan adalah 37, 36.8, 37.1, 37.2 dan 36.9 derajat celsius. Sedangkan dengan jari telunjuk, angka perkiraan yang dihasilkan lima orang adalah 30, 40, 36, 45 dan 25 derajat celsius.  Jelas, dalam contoh ini, termometer lebih reliabel dibanding jari telunjuk karena secara kasat mata menghasilkan data yang lebih seragam.

Reliabilitas atau kehandalan atau adalah kemampuan sebuah kuesioner, tes, pengamatan atau prosedur pengukuran memberikan hasil sama apabila pengukuran dilakukan berulang-ulang. Reliabilitas mencakup aspek stabilitas atau konsistensi skor (nilai) dari waktu ke waktu dan oleh penilai atau pengamat berbeda (Bolarinwa, 2015; Souza et al., 2017, Taherdoost, 2016).

Perlu diketahui bahwa reliabilitas tidak hanya menyangkut instrumen penelitian, akan tetapi juga terkait dengan populasi di mana instrumen itu digunakan,  keadaan atau situasi peneliti,  pengamat yang melakukan pengukuran, dan konteks penelitian. Instrumen yang sama mungkin tidak memberikan hasil yang konsisten pada kondisi berbeda (Souza et al., 2017). Karena itulah, reliabilitas harus ditopang oleh aspek stabilitas (Bolarinwa, 2015).

Pertanyaannya, untuk menguji konsistensi data yang dihasilkan sebuah instrumen (misalnya kuesioner), apakah kita harus melakukan pengukuran lebih dari satu kali? Untuk menjawab pertanyaan ini, kita perlu pahami dua jenis reabilitas, yaitu reliabilitas eksternal dan reliabilitas internal, seperti dijelaskan berikut ini.

Reliabilitas Eksternal

Secara garis besar, reliabilitas eksternal adalah reliabilitas yang diperoleh dengan membandingkan hasil dua kelompok data. Ada dua jenis cara untuk menguji reliabilitas eksternal, yaitu teknik paralel dan teknik ulang.

Teknik Paralel

Pada teknik paralel, peneliti perlu menyiapkan dua perangkat kuesioner atau tes, kemudian keduanya dicobakan pada sekelompok responden yang sama pada waktu yang sama. Misalnya, soal mata kuliah riset pemasaran dibuat dua bentuk, yaitu pilihan ganda dan essay. Kalau hasil keduanya sama, maka kedua bentuk soal adalah reliabel. Kalau hasilnya berbeda, salah satu atau kedua tes tidak reliabel.

Kuesioner juga bisa dibuat dua format. Misalnya, format kesatu menggunakan itemized scale, (Contoh pertanyaan: “Apakah anda puas terhadap maskapai penerbangan X? a. Sangat tidak puas, b. Tidak puas, c.  Netral, d. Puas, e. Sangat puas). Kuesioner kedua dibuat dengan skala Likert (Contoh pertanyaan: “Anda puas pada maskapai penerbangan X: a. Sangat tidak setuju, b. Setuju, c. Netral, d. Setuju, e. Sangat setuju). Kalau hasilnya sama, maka kedua perangkat kuesioner reliabel. Kalau berbeda, salah satu atau keduanya tidak reliabel.

Karena menggunakan dua instrumen dan pengisian kuesioner dilakukan dua kali, maka teknik ini disebut teknik double test double trial. Hasil dari kedua percobaan kemudian diasosiasikan. Sekelompok data dijadikan sebagai variabel X, sekelompok lainnya dijadikan sebagai variabel Y. Apabila data interval atau rasio dapat digunakan korelasi product moment atau Pearson. Data yang bersifat ordinal dapat menggunakan korelasi rank-order Spearman.  Sedangkan data nominal dapat menggunakan uji independensi Chi-Square. Tinggi rendahnya koefisien korelasi keduanyalah yang menentukan reliabilitas kuesioner.  Dianjurkan agar para peneliti untuk menetapkan batas yang tinggi untuk setiap uji, misalnya r>0.70.

Teknik Berulang

Dalam teknik ini, tes atau kuesioner yang digunakan hanya hanya satu set, namun percobaan dilakukan dua kali pada waktu yang berbeda. Dengan kata lain, sekelompok responden diminta untuk mengisi kuesioner dua kali. Teknik ini cocok digunakan untuk menguji aspek stabilitas respon. Sebagai contoh, kepada mahasiswa sebuah kelas yang berisikan 30 mahasiswa, diberikan pertanyaan-pertanyaan untuk mengukur kepuasan mereka pada dosen bernama Bilson Simamora.

Selang tiga kemudian, dilakukan pengukuran dengan instrumen yang sama. Oh ya, dalam tiga hari itu mereka tidak berinteraksi dengan atau mendapat masukan apapun tentang dosen yang bersangkutan, yang mungkin mengubah sikap mereka.  Kedua kelompok data, yaitu hasil putaran pertama pertama dan kedua, dikorelasikan dengan teknik yang disesuaikan dengan jenis datanya, seperti dijelaskan di atas. Karena dalam teknik ini hanya dibutuhkan satu set kuesioner dengan dua kali uji coba, maka teknik ini dinamakan single test double trial. Apabila hasilnya berkorelasi tinggi (r>0.70), unsur stabilitas terpenuhi dan kuesioner reliabel.

Reliabilitas Internal

Kalau reliabilitas eksternal diperoleh dengan menganalisis dua kelompok data, baik dari perangkat kuesioner yang berbedamaupun sama, maka reliabilitas internal diperoleh dengan menganalisis data yang berasal dari satu kali pengujian kuesioner. Sebuah skala dikatakan memiliki reliabilitas konsistensi internal yang tinggi jika item-item pertanyaan yang digunakan mengukur konstruk yang sama dengan kontribusi yang sama (Souza et al., 2017).

Terdapat berbagai rumus (teknik) mencari reliabilitas, yaitu Spearman-Brown, Flanagan, Rulon, K-R. 20, K-R.21, Hoyt dan Cronbach Alpha. Keenam teknik pertama disebutkan menggunakan data diskrit 0 dan 1. Cronbach Alpha dapat mengolah data berskala berganda (multiple scale), yang skornya bisa antara 1 sampa1 5, 1 sampai 7, -3 sampai 3, dan seterusnya. Untuk data berskala ganda, Cronbach Alpha biasanya digunakan.

Apabila validitas diuji menggunakan confirmatory factor analysis (CFA), maka selain Cronbach Alpha, composite reliability (CR) juga digunakan. Syarat CFA sebagai pendahulu ini penting karena CR dihitung menggunakan factor loading yang dihasilkan CFA.

Cronbach Alpha

Cronbach Alpha menggunakan rumus:

Sebagai contoh, data di bawah ini adalah hasil penelitian yang menggunakan lima butir pertanyaan dengan jumlah reponden 10 orang.

RESPONDEN BUTIR PERTANYAAN SKOR x2
1 2 3 4 5 TOTAL (x)
1 10 8 9 10 8 45 2025
2 8 7 8 9 7 39 1521
3 6 5 6 8 7 32 1024
4 5 4 3 0 2 14 196
5 9 10 8 7 6 40 1600
6 7 5 3 4 7 26 676
7 3 4 4 5 6 22 484
8 4 3 5 5 5 22 484
9 6 2 2 2 3 15 225
10 7 6 1 5 4 23 529
Jumlah 65 54 49 55 55 278 8764
Jumlah kuadrat 465 344 309 389 337 1844 varian total=103,56
Varian butir 4,25 5,24 6,89 8,65 3,45 Total varian butir =28,48

Dengan data pada tabel di atas, perhitungan nilai Cronbach Alpha adalah sebagai berikut:

Sebenarnya, kita tidak perlu lagi menghitung nilai Alpha secara manual. Dengan SPSS proses ini mudah dilakukan. Copy data ini dan bawah ke SPSS. Lalu, lakukan proses berikut: Analyze>Scale>Reliability Analysis. Kemudian, pindahkan semua variabel ke sel Items. Pastikan model yang digunakan adalah Alpha. Kita akan peroleh hasil yang sama persis.

Hinton et al. (2004) memberikan empat kategori reliabilitas, yaitu: sangat baik (0,90 ke atas), tinggi (0,70-0,90),  sedang (0,50-0,70), dan rendah (0,50 dan di bawah). Riset konklusif sebaiknya menggunakan batas 0.70 ke atas. Namun, untuk riset eksploratori dan pilot study, batas o.60 juga masih dapat digunakan (Straub et al. 2004). Oleh karena itu, data contoh di atas dihasilkan oleh instrumen yang reliabel.

Composite Reliability

Cronbach alpha memiliki kelemahan karena teknik ini mengasumsikan bahwa factor loading semua variabel pengamatan adalah sama (Hair et al., 2021). Composite reliability (CR) juga mengindikasikan konsistensi internal variabel-variabel operasional suatu pengukuran dengan menjelaskan persentase varian total variabel laten yang dijelaskan variabel-variabel pengamatan (Hair et al., 2014; Wijanto, 2008). Teknik ini biasanya digunakan bersamaan dengan confirmatory factor analysis, seperti dijelaskan di depan.

Setiap variabel pengamatan memiliki nilai sebenarnya (true value atau golden standard) yang bersifat hipothetik, nilai obervasi (O) dan kesalahan pengamatan (error) (E). Varian nilai sebenarnya yang hipothetik (VT) tersebut adalah hasil penjumlahan varian observasi (FL2) dan error variance (EV). CR mengukur berapa proporsi FL2 dari VT berapa persen VT yang dijelaskan oleh FL2.

Sebagaimana diketahui, EV + VE=1 atau EV=1-VE. CR dihitung dengan rumus berikut:

Lihat kembali confirmatory factor analysis halaman ini yang berisikan gambar di bawah ini.

Menurut Hair et al. (2021), nilai CR=0.60 – 0.70 dapat ditoleransi untuk penelitian eksploratori. Nilai yang baik adalah dari 0.70 – 0.90. Nilai di atas 0.90 bersifat problematik karena besarnya kemungkinan redundancy antar variabel-variabel pengamatan. Nilainya dapat ditoleransi sepanjang di bawah 0.95. Kalau CR=0.95 atau lebih, menurut mereka, terdapat kemungkinan konstruk menggunakan variabel-variabel yang sama, sehingga instrumen perlu diperiksa kembali.

Sekarang kita hitung CR untuk variabel laten ‘complex’. FL kita ambil dari gambar di atas. Dengan menggunakan excel, kita dapat memperoleh VE dan EV. Kita masukkan data FL dan VE ke dalam rumus, maka kita memperoleh nilai CR=0.92, yang menunjukkan reliabilitas sangat baik.

Konstruk FL VE EV CR
Complex 0.76 0.58 0.42 0.92
0.88 0.77 0.23
0.93 0.86 0.14
0.87 0.76 0.24
0.81 0.66 0.34
0.59 0.35 0.65
Hubungan Antara Reliabilitas dan Validitas

Kenapa instrumen yang reliabel, bukan datanya? Pertanyaannya, bisakah data yang valid dihasilkan oleh instrumen yang tidak reliabel? Bisakah data tidak valid tetapi instrumen reliabel? Sebenarnya … read more

REFERENCES

Bolarinwa, O.A. (2015). Principles and methods of validity and reliability testing of questionnaires used in social and health science researches. Nigeria Postgraduate Medical Journal, 22, 195-201.

Hair, J.F., Hult, G.T.M., Ringle, C.M., Sarstedt, M., Danks, N.P., Ray, S. (2021). Evaluation of reflective measurement models. In: Partial Least Squares Structural Equation Modeling (PLS-SEM) Using R. Classroom Companion: Business. Springer, Cham. https://doi.org/10.1007/978-3-030-80519-7_4

Hair, Joseph F., Anderson, Rolph E., Black, William C.(2014). Multivariate Data Analysis. Ed. 7th. Harlow: Pearson

Hinton, P. R., Brownlow, C., McMurray, I., & Cozens, B. (2004). SPSS Explained: East Sussex, England: Routledge Inc.

Huck, S. W. (2007). Reading Statistics and Research. Allyn & Bacon.

Souza, A. C., Alexandre, N., & Guirardello, E. B. (2017). Psychometric properties in instruments evaluation of reliability and validity. Propriedades psicométricas na avaliação de instrumentos: avaliação da confiabilidade e da validade. Epidemiologia e Servicos de Saude: Revista do Sistema Unico de Saude do Brasil26(3), 649–659. https://doi.org/10.5123/S1679-49742017000300022

Straub, D., Boudreau, M.-C. & Gefen, D. (2004). Validation guidelines for IS positivist research. Communications of the Association for Information Systems, 13, 380-427.

Taherdoost, H. (2016). Validity and reliability of the research instrument; How to test the validation of a questionnaire/survey in a research. International Journal of Academic Research in Management, 5(3), 28-36.

Wijanto, S. (2008). Structural Equation Modeling dengan Lisrel 8.8. Graha Ilmu, Yogyakarta.