Analisis Validitas dan Reliabilitas dalam Survai

Bilson Simamora, 3 Juni 2022

Analisis validitas adalah sebuah pengujian untuk mengetahui apakah kita mengukur apa yang mau diukur. Apa yang mau diukur memiliki dua aspek. Pertama adalah criterion validity, yaitu apakah data yang dihasilkan menggambarkan karakteristik yang mau diukur? Dengan kata lain, apakah data-data yang dihasilkan dapat dipercaya? Aspek kedua adalah construct validity, yaitu sejauh mana tes atau instrumen mampu mengukur konsep, sifat, atau entitas teoretis lainnya.

Criterion Validity

Criterion validity terdiri dari dua bagian. Bagian pertama adalah concurrent validity, yaitu apakah data yang kita hasilkan sama dengan keadaan sebenarnya? Misalnya, tinggi gunung Everest dari permukaan laut yang diakui secara resmi (disebut juga golden standar) adalah 8.849 meter. Seorang pendaki melakukan pengukuran dan hasilnya adalah 8.510 meter. Tentu data yang dimiliki pendaki tersebut berbeda dari versi resmi, sehingga dianggap tidak valid.

Masalahnya, versi resmi ini (atau golden standar) ini tidak selalu ada. Misalkan kita melakukan penelitian kepuasan konsumen pada restoran McDonald. Kita mewawancarai 1000 responden. Hasilnya adalah  67% puas dan 33% tidak puas.  Pertanyaannya, apakah angka-angka ini memenuhi concurrent validity? Tidak bisa ditentukan karena ketiadaan golden standard untuk ke-1000 responden yang kita teliti.

Bagian kedua adalah predictive validity. Bagian ini menguji apakah dengan data yang kita miliki, variabel yang diukur dapat memprediksi variabel lain yang terkait? Selama ini diyakini bahwa konsumen yang puas cenderung loyal pada merek. Berdasarkan keyakinan ini kita dapat membuat hipothesis: Kepuasan berpengaruh positif terhadap loyalitas konsumen. Predictive validity terpenuhi apabila secara statistic ditemukan bahwa hypothesis tersebut terpenuhi. Apabila hipothesis tidak terpenuhi, apalagi kalau temuan berlawanan (misalnya kepuasan konsumen berpengaruh negatif terhadap loyalitas konsumen), predictive validity tidak terpenuhi. Namun, kesimpulan ‘predictive validity tidak terpenuhi’ inipun dapat dikesampingkan apabila para peneliti menemukan alasan kuat kenapa hipothesis tidak terpenuhi. Alasan tersebut biasanya dituangkan dalam pembahasan atau discussion.

Construct Validity

Menurut Apa Dictionary Psychology (n.d.), validitas konstruk adalah sejauh mana tes atau instrumen mampu mengukur konsep, sifat, atau entitas teoretis lainnya. Misalnya, jika seorang peneliti mengembangkan kuesioner baru untuk mengevaluasi tingkat agresi responden, validitas konstruk instrumen akan sejauh mana ia benar-benar menilai agresi sebagai lawan dari ketegasan, dominasi sosial, dan sebagainya. Ada empat bagian validitas konstruk dalam ilmu-ilmu sosial:  content validity, face validity, convergent validity, dan discriminant validity. Content validity dan face validity disebut juga logical validity karena keduanya memeriksa apakah instrumen penelitian sudah valid secara logika atau teoritis.

Content Validity

Content validity adalah sebuah penilaian apakah sebuah instrument telah mencakup semua aspek-aspek sebuah konstruk. Misalkan kita ingin mengukur loyalitas konsumen, apakah butir-butir pertanyaan yang digunakan telah mencakup loyalitas secara lengkap? Content validity tidak terpenuhi apabila, pertama, alat ukur tidak dikembangkan berdasarkan teori yang sesuai dengan konteks penelitian. Kedua, item-item pertanyaan tidak mencakup semua aspek yang dijelaskan dalam teori. Ketiga, sebagian atau semua item pertanyaan tidak relevan, tidak jelas, atau tidak penting (Rodriguez et al. 2017).

Misalnya, penggunaan variabel ‘frekuensi pembelian’ tidak tepat untuk mengukur loyalitas konsumen terhadap sebuah wedding organizer karena jasa organisasi demikian jarang digunakan dan kebanyakan orang menggunakannya hanya sekali. Tetapi, kalau menggunakan variabel ‘rekomendasi’ (Apakah anda akan merekomendasikan penggunakaan wedding organizer X kepada calon konsumen lain?) memenuhi face validity. Kedua, item-item pertanyaan yang kita gunakan tidak menggambarkan secara lengkap karakteristik yang mau diukur. Menurut Aaker (1991), loyalitas konsumen dicerminkan oleh kepuasan (consumer satisfaction), rasa suka (liking the brand), pembelaan (brand advocate), rekomendasi merek (brand recommendation), dan keinginan menggunakan kembali apabila membutuhkan (repurchase willingness). Dengan demikian, agar memenuhi content validity, alat ukur loyalitas terhadap wedding organizer tadi harus mencakup keempat variabel tersebut, tidak cukup hanya recommendation. Berdasarkan keempat variabel tersebut, katakanlah kita menyusun instrumen penelitian dengan tujuh item pertanyaan dengan skala Likert lima tingkat, seperti disajikan pada Tabel 1.

Tabel 1. Alat Ukur Loyalitas terhadap Wedding Organizer X

Item Skala
1. Saya puas terhadap wedding organizer X 1: Sangat tidak setuju; 5: Sangat setuju
2. Saya suka terhadap wedding organizer X 1: Sangat tidak setuju; 5: Sangat setuju
3. Saya akan melakukan pembelaan apabila ada yang menyatakan wedding organizer X buruk 1: Sangat tidak setuju; 5: Sangat setuju
4 Saya tertarik pada wedding organizer X 1: Sangat tidak setuju; 5: Sangat setuju
5 Saya penasaran dengan wedding organizer X 1: Sangat tidak setuju; 5: Sangat setuju
6. Saya akan merekomendasikan wedding organizer X kepada yang sedang membutuhkan 1: Sangat tidak setuju; 5: Sangat setuju
7. Saya akan memilih wedding organizer X apabila teman atau saudara dekat meminta tolong saya untuk mencari wedding organizer 1: Sangat tidak setuju; 5: Sangat setuju

Selanjutnya, alat ukur tersebut kita periksakan kepada para ahli dengan menggunakan kuesioner yang mempertanyakan relevansi, kejelasan, dan kepentingan item-item pertanyaan (Rodriquez et al. 2017), seperti pada Tabel 2 [Kejelasan di sini maksudnya adalah kejelasan setiap item pertanyaan. Pada face validity dipertanyakan juga aspek kejelasan, namun sifatnya bukan per item, tetapi instrumen secara keseluruhan].

Item Pertanyaan Relevansi (a=tidak relevan, b=agak relevan, c=cukup relevan, d, relevan) Kejelasan (a=tidak jelas, b=perlu direvisi, c=sangat jelas) Kepentingan (a=tidak penting, b=bermanfaat tetapi tidak penting, c=penting)
1.  Saya puas terhadap wedding organizer X (brand satisfaction) a     b     c     d  a     b     c  a     b     c
2.  Saya suka terhadap wedding organizer X (liking the brand) a     b     c     d  a     b     c
3. Saya akan melakukan pembelaan apabila ada yang menyatakan wedding organizer X buruk (brand advocate) a     b     c     d  a     b     c  a     b     c
4. Saya tertarik pada wedding organizer X      
5. Saya penasaran dengan wedding organizer X      
6. Saya akan merekomendasikan wedding organizer X kepada yang sedang membutuhkan (brand recommendation) a     b     c     d  a     b     c  a     b     c
7. Saya akan memilih wedding organizer X apabila teman atau saudara dekat meminta tolong saya untuk mencari wedding organizer (repurchase willingness) a     b     c     d  a     b     c  a     b     c

Untuk melakukan pengujian, data yang diolah dikotomi ‘setuju’ adalah tidak setuju  (Taherdoost, 2016). Untuk itu, pada aspek relevansi, pilihan tidak relevan dan agak relevan, kita kategorikan ‘tidak setuju’ dan ‘cukup relevan’ dan ‘relevan’ masuk kategori ‘setuju’.  Apabila kategori ‘setuju’ kita yang kita pakai’, maka kita memperoleh nilai content validity index item (I-CVI) melalui persamaan:

di mana, ni=jumlah panelis yang menjawab item ke-i relevan dan N=jumlah panelis. Nilai CVI berkisar antara 0 – 1. Bila I-CVI > 0.79, item adalah relevan. Bila nilainya antara 0.70 sampai 0.79, maka item perlu direvisi. Bila I-CVI di bawah 0.70 berarti item dikeluarkan.

Pada level instrumen, kita juga bisa memperoleh hasil scale-level content validity index (S-CVI) dengan rumus:

di mana di mana, nsi=jumlah panelis jumlah respon relevan pada semua item, dan Ii=item ke-i, j=jumlah item. Nilai S-CVI berkisar antara 0-1, di mana nilai baik adalah S-CVI>0.80 sampai 0.89 dan sangat baik (excellent) kalau S-CVI = 0.90 atau lebih tinggi.

Rodrigues et al. (2017) menyatakan bahwa perhitungan nilai I-CVI belum memperhitungkan bias ke atas (inflasi). Untuk mengoreksinya, diperlukan nilai Kappa, yang dihitung dengan rumus:

di mana, K=nilai Kappa, CVIi=CVI item ke-i. Pc adalah nilai yang diperoleh dengan rumus: PC=Pc = [N!/A!(N-A)!]* 0.5N.  Nilai Kappa di atas 0.74 tergolong sangat baik (excellent), antara 0.60 sampai 0.74 adalah baik (good ), pada kisaran 0.40 sampai 0.59 cukup baik, dan di bawah 0.40 buruk.

Selanjutnya, kita mendatangi tujuh ahli (expert) dan meminta mereka mengisi kuesioner. Hasilnya, untuk aspek relevansi adalah seperti pada Tabel 3.

Item Pertanyaan Tidak setuju Setuju I-CVI Kappa S-CVI
Saya puas terhadap wedding organizer X (brand satisfaction) 0 7 1.00 (Relevan) 0.98 (Sangat baik)
Saya suka terhadap wedding organizer X (liking the brand) 1 6 0.86 (Relevan) 0.85 (Sangat baik)
Saya tertarik pada wedding organizer X 4 3 0.43 (Buruk, keluarkan) 0.43 (Cukup baik)
Saya penasaran dengan wedding organizer X 6 1 0.14 (Buruk, keluarkan) 0.14 (Buruk)
Saya akan melakukan pembelaan apabila ada yang menyatakan wedding organizer X buruk (brand advocate) 0 7 1.00 (Relevan) 0.98 (Sangat baik)
Saya akan merekomendasikan wedding organizer X kepada yang sedang membutuhkan (brand recommendation) 0 7 1.00 (Relevan) 0.98 (Sangat baik)
Saya akan memilih wedding organizer X apabila teman atau saudara dekat meminta tolong saya untuk mencari wedding organizer (repurchase willingness) 2 5 0.71 (Perlu revisi) 0.71 (Baik)
13 36 0.73 0.64

Berdasakan nilai I-CVI terlihat bahwa dua item, yaitu “Saya tertarik pada wedding organizer X” (I-CVI=0.43) dan “Saya penasaran dengan wedding organizer X” (I-CVI=0.14) tidak memenuhi sehingga keputusannya adalah menghapus kedua item pertanyaan. Item pertanyaan ketujuh, yaitu “Saya akan memilih wedding organizer X apabila teman atau saudara dekat meminta tolong saya untuk mencari wedding organizer (repurchase willingness)” perlu direvisi. Misalnya, hasil revisinya adalah: “Saya akan memilih wedding organizer X apabila teman atau saudara dekat menugaskan saya untuk mencari wedding organizer (repurchase willingness)”.

Setelah melakukan langkah-langkah itu, kembali kita melakukan wawancara dengan panelis. Katakanlah hasilnya seperti di bawah ini.

Item Pertanyaan Tidak setuju Setuju I-CVI Kappa S-CVI
1  Saya puas terhadap wedding organizer X (brand satisfaction) 0 7 1.00 (Relevan) 1.00 (Sangat baik)
2  Saya suka terhadap wedding organizer X (liking the brand) 1 6 0.86 (Relevan) 0.86 (Sangat baik)
3 Saya akan melakukan pembelaan apabila ada yang menyatakan wedding organizer X buruk (brand advocate) 0 7 1.00 (Relevan) 1.00 (Sangat baik)
4 Saya akan merekomendasikan wedding organizer X kepada yang sedang membutuhkan (brand recommendation) 0 7 1.00 (Relevan) 1.00 (Sangat baik)
5 Saya akan memilih wedding organizer X apabila teman atau saudara dekat menugaskan saya untuk mencari wedding organizer (repurchase willingness)  1 6 0.86 (Relevan) 0.86 (Sangat baik)
2 33 0.94 0.83 (baik)

Nilai I-CVI  menyatakan bahwa kelima item pertanyaan yang tersisa adalah relevan (I-CVI>0.79). Secara keseluruhan, nilai S-CVI menunjukkan bahwa validitas konten item-item tersebut baik (S-CVI>0.90). Kesimpulan yang sama diberikan nilai Kappa yang semuanya di atas 0.74.

Face Validity

Face validity adalah sebuah pandangan subyektif tentang kualitas sebuah alat ukur, untuk memastikan apakah pertanyaan-pertanyaannya dapat dipahami dengan jelas (Moores et al., 2012).  Dengan kata lain, face validity berkaitan dengan kualitas bahasa alat ukur (Taherdoost, 2016). Dalam praktiknya, face validity dinilai secara kualitatif oleh peneliti sendiri atau berdasarkan pendapat orang-orang berkompeten (Moores et al., 2012; Taherdoost, 2016).

Selain secara kualitatif, face validity dapat juga dianalisis secara kuantitatif. Misalnya, Moores et al. (2012) melakukan survai terhadap 245 responden untuk menguji face validity instrumen survai di bidang kesehatan. Sebagian peneliti melakukan wawancara focus group, yakni bertanya kepada beberapa orang yang dianggap berkompeten. Apabila kita lakukan survai untuk memeriksa face validity alat ukur pada Tabel 1 di atas, misalnya, kita buat kuesioner seperti pada Tabel 2. Kemudian, seperti nyatakan Johnson (2013), butir-butir pertanyaan atau pernyataan yang mendapat skor persetujuan yang tinggi memiliki face validity yang tinggi.

Item Skala
1. Saya memahami pertanyaan-pertanyaan dalam kuesioner 1: Sangat tidak setuju; 5: Sangat setuju
2. Pertanyaan-pertanyaan pada kuesioner relevan bagi saya 1: Sangat tidak setuju; 5: Sangat setuju
3. Kuesioner mudah diisi 1: Sangat tidak setuju; 5: Sangat setuju
4. Saya menikmati pengisian kuesioner 1: Sangat tidak setuju; 5: Sangat setuju
5. Kuesioner tidak terlalu panjang 1: Sangat tidak setuju; 5: Sangat setuju
6. Kuesioner tidak rumit 1: Sangat tidak setuju; 5: Sangat setuju

Agar hasil survai face validity valid, perlu dilakukan survai pada berbagai segmen (Souza et al. 2017). Misalnya, survai instrumen pada Tabel 1 kita lakukan pada segmen: konsumen versus bukan konsumen wedding organizer X, pria versus wanita, fans versus haters wedding organizer X. Apabila hasil pada segmen-segmen yang dibandingkan sama, maka hasil survai dianggap sah (valid). Pengambilan kesimpulan atas nilai face validity cenderung bersifat kualitatif (Taherdoost, 2016). Namun, diharapkan agar yang memberikan respon positif (setuju dan sangat setuju) lebih banyak dibanding yang memberikan respon negatif dan netral (sangat tidak setuju, tidak setuju, dan netral).

Convergent Validity

Dalam riset pemasaran, konstruk adalah konsep yang level abstraksinya tinggi, tidak bisa diukur secara langsung dan harus diukur menggunakan variabel-variabel pengamatan yang merefleksikannya. Pada contoh di atas, loyalitas konsumen adalah konstruk dengan variabel-variabel pengamatan: kepuasan (consumer satisfaction), rasa suka (liking the brand), pembelaan (brand advocate), dan rekomendasi merek (brand recommendation), seperti telah dijelaskan. Adapun pernyataan-pernyataan pada Tabel 1 merupakan operasionalisasi variabel-variabel pengamatan tersebut menjadi instrumen penelitian atau item-item pertanyaan.

Validitas konvergen adalah kepaduan (cohesiveness) variabel-variabel pengamatan menggambarkan konstruknya. Kepaduan tersebut diindikasikan oleh korelasi, barlet test of Sphericity, anti-image matrices, exploratory factor analysis (EFA), dan confirmatory factor analysis (CFA) … read more

REFERENCES

Aaker, D.A. (1991). Managing Brand Equity. New York: The Free Press.

Bongers, P., Hove, P., Stassen, L., Dankelman, J., Schreuder, H.W.R. (2014). A new virtual reality training module for laparoscopic surgical skills and equipment handling: Can multitasking be trained? A randomized controlled trial [In Press]. Journal of Surgical Education, 72(2). DOI: 10.1016/j.jsurg.2014.09.004

Johnson, E. (2013). Face Validity. In: Volkmar F.R. (eds). Encyclopedia of Autism Spectrum Disorders. Springer, New York, NY. https://doi.org/10.1007/978-1-4419-1698-3_308

Rodrigues, I.B., Adachi, J.D., Beattie, K.A. et al. (2017). Development and validation of a new tool to measure the facilitators, barriers and preferences to exercise in people with osteoporosis. BMC Musculoskelet Disord 18, 540. https://doi.org/10.1186/s12891-017-1914-5

Moores, K.L., Jones, G.L., & Radley, S.C. (2012). Development of an instrument to measure face validity, feasibility and utility of patient questionnaire use during health care: the QQ-10. International Journal for Quality in Health Care: Journal of the International Society for Quality in Health Care, 24 5, 517-24 .

Souza, A. C., Alexandre, N., & Guirardello, E. B. (2017). Psychometric properties in instruments evaluation of reliability and validity. Propriedades psicométricas na avaliação de instrumentos: avaliação da confiabilidade e da validade. Epidemiologia e Servicos de Saude: Revista do Sistema Unico de Saude do Brasil26(3), 649–659. https://doi.org/10.5123/S1679-49742017000300022

Taherdoost, H. (2016). Validity and reliability of the research instrument: How to test the validation of a questionnaire/survey in a research.  International Journal of Academic Research in Management, 5(3), 28-36.