Isu Validitas dalam Riset

Artikel ini adalah bab dari sebuah buku yang telah terbit. Apabila digunakan sebagai referensi, silakan menggunakan format untuk bab buku. Berikut ini disajikan tiga model penulisan yang biasa dipakai:

Model APA:
Simamora, B. (2023). Validitas. In Pengembangan dan Validasi Instrument Riset Perilaku Konsumen (pp. 66–87). DeePublish.

Model MLA:
Simamora, Bilson. “Validitas.” Pengembangan Dan Validasi Instrument Riset Perilaku Konsumen, DeePublish, 2023, pp. 66–87.

Model Vancouver:
Simamora B. Validitas. In: Pengembangan dan Validasi Instrument Riset Perilaku Konsumen. Yogyakarta: DeePublish; 2023. p. 66–87.

Sejarah

Konsep validitas telah bermetamorfosis sejak 1940-an (Geissinger, 1992; Shaw & Crisp, 2011). Pada masa-masa awal pemunculannya, pengertian validitas masih berpusat pada pengukuran (measurement) atau uji (test). Pada tahun 1927, dalam catatan Borsboom et al. (2004), Kelley menyatakan sebuah tes atau instrumen adalah valid kalau mampu mengukur apa yang mau diukur (a test is valid if it measures what it purports to measure). Saat ini, definisi klasik ini masih digunakan oleh banyak penulis.

Pada tahun 1950-an, Guliksen menyatakan bahwa dalam uji validitas, untuk memastikan validitas instrumen, hasil pengukuran perlu dikorelasikan dengan kriteria eksternal. Menurutnya, validitas konten intrinsik (intrinsic content validity) harus ditentukan menggunakan analisis faktor, koefisien validitas dan studi komprehensif atas kriteria dan variabel prediktor.

Langkah monumental dilakukan oleh Cronbach dan Meehl tahun 1955 dengan merekomendasikan empat tipe validitas, yaitu predictive validity, concurrent validity, content validity, dan construct validity. Dua tipe pertama berkenaan dengan kriteria eksternal dan digolongkan sebagai criterion validity. Dengan penggolongan tersebut, maka keempat tipe berubah menjadi tiga tipe, yang disebut “trinity of validity”, yaitu criterion validity, content validity, dan construct validity.

Gambar 5.1. Sejarah Konsep Validitas

Pada tahun 1959, Campbel dan Fiske mengusulkan bahwa tipe-tipe validitas adalah bersifat diskrit. Setiap tipe validitas membutuhkan pengujian sendiri. Bersamaan dengan pendapat ini, kedua penulis menambahkan dua konsep validititas, yaitu convergent validity dan discriminant validity. Di kemudian hari, para ahli (misalnya Bagozzi, 1981; Brown, 2010) menyatakan kedua tipe ini adalah bagian construct validity.

Pada tahun 1970, Cronbach menyatakan bahwa semua kriteria validitas terpusat pada validitas konstruk. Messic (1989) memperkuat pendapat ini. Kemudian, Brown (2010) menyatakan: “All validity is construct validity.”

Pandangan Cronbach (1970) dan Messic (1989) mempengaruhi AERA, APA dan NCME. Pada tahun 2014, ketiga lembaga ini mengeluarkan standar validitas pada bidang pendidikan dan psikologi dan menyatakan bahwa validitas adalah kesesuaian kesimpulan yang diambil dari nilai tes atau pengukuran dengan validitas konstruk sebagai konsep sentral. Selengkapnya, ketiga lembaga itu menyatakan:

“Validity refers to the degree to which evidence and theory support the interpretations of test score entailed by proposed uses of test.”

Kata „theory‟ dalam pernyataan tersebut mengacu pada konstruk yang diukur. Evidence adalah hasil pengukuran atau skor tes tentang konstruk tersebut. Jadi, secara empiris dan teoretis validitas adalah menyangkut konstruk (Brown, 2010).

Walaupun teori validitas berkembang jauh, keyakinan bahwa validitas adalah properti instrumen masih dijadikan dasar oleh banyak peneliti dan penulis buku. Pada umumnya mereka masih menggunakan definisi klasik Kelly dari tahun 1927: “Validitas adalah apakah Anda mengukur apa yang mau diukur”.

Gambar 5.1 menunjukkan bahwa setiap pemikiran masih ada hingga saat ini. Penggunaan pendekatan tradisional, yang memperlakukan tipe-tipe validitas sebagai analisis diskrit, juga masih  luas  diterapkan.  Bahkan,  tipe-tipe  baru  validitas bermunculan dan memperkaya alisan tiga tipe (the trinity of validity) yang dipopulerkan tahun 1950-an, seperti dijelaskan berikut ini.

Pengetahuan terhadap pendekatan tradisional adalah dasar untuk memahami ketiga aliran pemikiran yang muncul sejak tahun 1970-an (Gambar 5.1). Bukti validitas yang perlu diverifikasi menurut anjuran AERA, APA dan NCME (1999, 2014) sebagian besar berkaitan dengan tipe-tipe validitas pendekatan tradisional. Karena itu, pengenalan atas tipe-tipe validitas, seperti disajikan berikut ini, adalah penting.

Tipe-Tipe Validitas Tradisional

Sejak itu bermunculan beragam tipe validitas pada berbagai bidang penelitian. Dalam bidang sosial, tipe-tipe lain yang muncul adalah observational validity, nomological validity, systemic validity, semantic validity, control validity, dan face validity.

 Criterion Validity

Menguji apakah dengan data yang kita miliki, variabel yang diukur dapat memprediksi variabel lain yang terkait, yang secara saintifik hubungannya diterima dengan sendirinya (given)? Validitas ini terdiri dari concurrent validity dan predictive validity.

Concurrent Validity

Bagaimana korelasi antara data hasil pengukuran dengan nilai yang selama ini dijadikan patokan? Misalnya, reputasi sebuah seller Scarlett Whitening, yang dirata-ratakan dari pendapat 50.000 orang responden pembelanja adalah 4.9 dari skala lima bintang, dijadikan pegangan oleh publik. Seorang peneliti melakukan penelitian yang sama dan menemukan rata-rata 4.7 dari skala 5 bintang. Uji validitas dapat kita lakukan dengan membandingkan 4.9 versus 4.7. Kalau hasilnya dianggap sama, maka concurrent validity terpenuhi. Concurrent validity tidak selalu bisa diuji karena nilai patokan (golden standard) dengan mana hasil penelitian dibandingkan tidak selalu tersedia.

Predictive Validity

Apakah nilai sebuah pengukuran dapat memprediksi nilai variabel lain yang terkait? Misalnya, apakah penghargaan karyawan yang tinggi akan menyebabkan kepuasan karyawan yang tinggi juga sesuai teori? Misalnya, dalam teori ekonomi kebenaran premis

„pendapatan yang siap dibelanjakan (disposable income) berpengaruh positif pada pengeluaran konsumsi‟ adalah tidak perlu dipertanyakan karena dianggap terjadi dengan sendirinya. Apabila kita mengukur pendapatan yang siap dibelanjakan dan pengeluaran konsumsi, agar dianggap valid, hubungan keduanya harus mengikuti premis di atas. Kalau tidak, salah satu atau keduanya dianggap tidak valid.

Content Validity

Apakah variabel-variabel penelitian (sering juga disebut indikator) mewakili konstruknya? Content validity terpenuhi apabila, pertama, alat ukur dikembangkan berdasarkan teori yang sesuai dengan konteks penelitian. Kedua, item-item pertanyaan mencakup semua aspek yang dijelaskan dalam teori. Ketiga, sebagian atau semua item pertanyaan relevan, jelas, atau penting (Rodriguez et al. 2017).

Dalam content validity dilakukan penilaian apakah sebuah instrumen telah mencakup semua aspek-aspek sebuah konstruk. Langkah ini diperlukan pada saat peneliti ingin mengembangkan instrumen baru atau mengadaptasi instrumen yang sudah ada. Misalkan kita ingin mengukur loyalitas konsumen dan membuat instrumen berdasarkan teori yang kita gunakan. Pertanyaannya pertama, apakah variabel pengamatan sudah mencakup semua aspek yang diperlukan? Pertanyaan kedua, apakah variabel-variabel pengamatan perlu?

Face Validity

Face validity adalah kesesuaian, kepekaan ataupun relevansi tes dan butir-butirnya ditinjau dari orang-orang (intended audience) yang akan menjawab atau merespons tes atau skala pengukuran. Apakah tes dan butir-butirnya valid dan bermakna bagi individu yang mengikuti tes? Secara formal, face validity adalah sejauh adalah sebuah penilaian apakah isi tes atau instrumen dan item-item-nya relevan, dimengerti, dan mudah dijawab (Cho & Allen, 2006; Holden, 2010).

Construct Validity

Menguji apakah item-item pertanyaan (indikator) mampu menggambarkan atau menjelaskan konstruknya? Validitas ini diperiksa menggunakan korelasi internal (factor loading) antar- item (Hair et al. 2019, Knekta et al. 2019, Wijanto, 2008). Pengujian dilakukan dengan membanding hasil analisis dengan kriteria yang telah ditetapkan, yaitu factor loading>0.50 dan average variance extracted >0.50 (Hair et al., 2019).

Convergent Validity

Convergent validity menyatakan seberapa dekat hubungan antara item-item suatu konstruk dengan konstruk lain yang mirip. Dalam layanan (service) misalnya, kualitas layanan dan kepuasan terhadap layanan adalah dua konstruk berbeda namun berdekatan. Kotler dan Keller (2016) menganggap bahwa item-item kualitas layanan dapat dipakai menjelaskan kepuasan layanan karena korelasinya tinggi. Kalau terbukti demikian, item-item kualitas layanan memenuhi syarat convergent validity.

Discriminant Validity

Untuk konstruk-konstruk berbeda, discriminant validity terpenuhi apabila item-item sebuah konstruk berkorelasi rendah dengan konstruk lain dan berkorelasi tinggi dengan konstruknya. Misalnya, konsep dua dimensi loyalitas (two-dimensional loyalty) gagasan Day (1976) menganggap bahwa, walaupun bersumber dari konstruk yang sama, loyalitas sikap dan loyalitas perilaku adalah dua dimensi yang berbeda (divergent). Oleh karena itu item-item loyalitas sikap berkorelasi rendah dengan loyalitas perilaku dan sebaliknya.

Nomological Validity

Nomological validity, yang disebut juga structural validity, adalah sebuah keputusan tentang apakah penelitian mampu membuktikan hubungan-hubungan yang dispesifikasi dalam kerangka pemikiran (Malhotra et al. 2012).

 

External Validity

External validity menyangkut generalisasi hasil penelitian, yaitu sejauh mana hasil dapat penelitian dapat digeneralisasi oleh penelitian-penelitian lain pada konteks yang berbeda (Pearl & Bareinboim, 2014). Maksudnya, apabila penelitian yang sama dilakukan pada konteks yang berbeda, apakah hasilnya sama? (Lynch, 1982; Pearl & Bareinboim, 2014).

 

Internal Validity

Validitas internal adalah ukuran seberapa baik suatu penelitian dilakukan dan seberapa akurat hasilnya mencerminkan objek penelitian (Cuncic, 2022). Tipe ini fokus pada seberapa baik metodologi penelitian dirancang dan diimplementasikan.

 

Semantic Validity

Instrumen diturunkan dari konsep. Bahasa konsep dan bahasa observasi adalah dua hal berbeda. Dalam penelitian peneliti perlu menerjemahkan bahasa teori menjadi bahasa observasi dengan menghindari risiko kehilangan makna (lost in translation). Semantic validity adalah konsistensi maka bahasa observasi mewakili bahasa konsep (Hathcoat, 2013; Brenna et al. 2011). Misalnya, kita ingin meneliti kepastian layanan (service assurance), yang merupakan salah satu dimensi SERVQUAL.

Tabel 1. Contoh Operasionalisasi Variabel-variabel Penelitian

Variabel Terjemahan

langsung

Pertanyaan Terjemahan Kontekstual
Employees

should be trustworthy

Karyawan BCA dapat dipercaya Karyawan mana? Karyawan layanan BCA

konsumen dapat dipercaya dalam melakukan tugas.

Customers should feel safe when transacting with

employees

Saya merasa aman saat bertransaksi dengan

karyawan BCA

Transaksi dalam bentuk apa? Saya merasa aman saat menyetor dan mengambil uang melalui teller, mobile banking, e-banking dan

ATM.

Employees should be polite Karyawan bersikap sopan Kapan dan untuk

siapa bersikap sopan?

Karyawan BCA bersikap

sopan saat berinteraksi dengan konsumen

Employees should get adequate support from the firm to do

their job well

Karyawan BCA mendapat dukungan BCA untuk melakukan tugas

mereka

Apa bentuk dukungannya? Tugas apa yang dimaksud? BCA mendukung karyawan- karyawannya memberikan layanan konsumen yang baik

Berdasarkan Parasuraman et al. (1988), ada empat variabel dimensi ini. Apabila dalam penelitian tentang kualitas layanan BCA kita operasionalkan variabel-variabel tersebut secara langsung, terdapat pertanyaan-pertanyaan terkait dengan semantic validity. Dengan melakukan adaptasi pertanyaan sesuai konteks, semantic validity terpenuhi.

Sebagian ahli (a.l. Brenna et al. 2011, Hathcoat, 2013; Zaltman et al. 1982) menempatkan semantic validity sebagai tipe sendiri. Namun, tipe ini juga dapat ditempatkan sebagai bagian validitas isi (content validity) karena menjawab pertanyaan, apakah operasionalisasi variabel penelitian mampu menggambarkan konsep yang diukur?

Observasional Validity

Observational validity adalah apakah konstruk dapat direduksi menjadi variabel-variabel pengamatan. Konstruk adalah konsep bersifat abstrak dan hanya dapat diukur melalui variabel- variabelnya yang lebih sempit dan spesifik. Sebagian konstruk atau sub-konstruk dapat dioperasionalkan ke dalam variabel-variabel penelitian yang dapat diukur melalui survei, seperti pada 1.

Namun, banyak juga konstruk yang tidak demikian dan hanya dapat diukur melalui metode khusus, misalnya penelitian laboratorium.

Sebagai contoh adalah brand awareness dan brand equity. Konstruk ini didefinisikan sebagai tingkat kemampuan seseorang mengingat atau menyadari suatu merek (“the extent to which customers are able to recall or recognize a brand under different conditions” (Rositer, 1987; Aaker, 1991). Pertanyaannya, bagaimana mengoperasionalkan brand recall dan recognize tersebut ke dalam variabel-variabel penelitian, sehingga merek-merek yang dikenal dan didasari individu dapat diberi nilai? Belum ada alat ukur standar yang tersedia. Hal yang sama terjadi pada brand equity. Walaupun konsepnya jelas belum ada metode standard yang praktis untuk mengukur konstruk ini. Dengan demikian, apabila dipakai dalam penelitian survei, observational validity kedua konsep ini juga perlu dipertanyakan.

Observational validity dianggap bagian content validity karena menyangkut penilaian tentang kemampuan variabel- variabel penelitian menjelaskan konstruknya.

Unifikasi Konsep Validitas

Sejak awal terjadi perbedaan pendapat menyangkut definisi validitas dan sub-konsep validitas serta pandangan tipe diskrit versus pandangan konsep tunggal (discrete-tipes view versus single concept view). Sejak tahun 1950-an, para ahli, khususnya di bidang pendidikan dan psikologi, memulai usaha menyamakan pendapat tentang teori validitas.

Definisi validitas paling popular adalah pengertian klasik yang berasal Kelly (1927). Ia menyatakan bahwa sebuah tes atau alat ukur yang valid adalah yang mengukur apa yang mau diukur. Jadi, uji validitas adalah sebuah proses untuk memastikan „apakah Anda mengukur apa yang mau diukur? (“Do you measure what you want to measure?” (Ruch, 1924).

Pada tahun 1950-an, Guliksen menyatakan bahwa dalam uji validitas dilakukan analisis atas hasil pengukuran untuk memastikan validitas instrumen.

Pendapat kedua penulis di atas mewakili pendapat umum saat itu bahwa validitas adalah karakteristik instrumen. Namun, pandangan ini dianggap membingungkan karena: “Kalau instrumen sudah dinyatakan valid, kenapa instrumen yang sama perlu divalidasi lagi untuk penelitian lain yang berbeda?”

Pada tahun 1966 telah mulai dilakukan perumusan ulang konsep validitas. Untuk itu, American Psychological Association (APA), American Educational Research Association (AERA) dan National Council for Measurement in Education (NCME) berkolaborasi untuk mendefinisikan validitas dan kategorisasinya. Mereka menyatakan validitas sebagai: “The extent to which a test produced information that was useful for specific purpose.” Artinya, validitas adalah tingkat sejauh mana sebuah uji menghasilkan informasi yang bermanfaat bagi tujuan tertentu.

Pada tahun 1980-an dan 1990-an muncul pandangan yang mempertimbangkan konsekuensi sosial sebuah tes (Goodwin dan Leech, 2004). Misalnya, sebuah tes yang menentukan lulus- tidaknya seorang calon karyawan akan mengakibatkan konsekuensi buruk bagi para calon karyawan dan perusahaan apabila tes yang digunakan tidak mampu mendeteksi kemampuan calon karyawan secara akurat. Berdasarkan bukti penggunaan ini Messick (1989) menamakannya sebagai „consequential validity‟. Tanda kutip menyatakan bahwa Messick tidak mengusulkannya sebagai tipe baru validitas.

AERA, APA, dan NCME (2014: 21) mendefinisikan validitas sebagai:

“Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests. Validity is, therefore, the most fundamental consideration in developing tests and evaluating tests. The process of validation involves accumulating relevant evidence to provide a sound scientific basis for the proposed score interpretations. It is the interpretations of test scores for proposed uses that are evaluated, not the test itself. When test scores are interpreted in more than one way (e.g., both to describe a test taker‟s current level of the attribute being measured and to make a prediction about a future outcome), each intended interpretation must be validated. Statements about validity should refer to particular interpretations for specified uses. It is incorrect to use the unqualified phrase „the validity of the test‟.”

Pada uraian di atas kita dapat melihat bahwa validitas adalah kadar dukungan bukti dan teori terhadap interpretasi skor tes sesuai peruntukan tes. Dengan kata lain, validitas adalah apakah interpretasi hasil pengukuran yang digunakan untuk tujuan tertentu dapat diterima secara empiris dan teoretis? Apabila nilai tes digunakan atau diinterpretasikan dengan berbagai cara, setiap interpretasi harus divalidasi (Kane, 2016; Knekta et al. 2019; Messick, 1989).

Sebagai contoh, mari kita lihat pengukuran kinerja dosen di sebuah perguruan tinggi (Tabel 5.2). Menyangkut apa validitaskita pertanyakan dalam pengukuran tersebut? Kalau menurut definisi AERA, APA dan NCME (2014), maka pertanyaan terkait interpretasi adalah: “Akuratkah kesimpulan bahwa kinerja dosen XYZ adalah kategori „B”?

Dalam perguruan tinggi yang bersangkutan, syarat untuk memperoleh beasiswa adalah kinerja mengajar kategori “A”. Dengan nilai “B” dosen yang bersangkutan diputuskan tidak mendapat beasiswa. Sesuai dengan definisi di atas, pertanyaan yang dapat diajukan terkait konsekuensi adalah: “Akuratkah keputusan tidak memberikan beasiswa bagi dosen yang bersangkutan?”

Tabel 1.2. Pengukuran Kinerja Mengajar Dosen di Sebuah PT

Verifikasi Bukti-bukti Validitas

Sekarang, bagaimana kita memeriksa bahwa validitas interpretasi dan penggunaannya atas dosen XYZ? Menurut AERA, APA, dan NCME (2014), ada lima kategori bukti untuk memeriksa validitas, yaitu bukti isi tes (test content evidence), bukti proses tanggapan (response process evidence), bukti struktur internal (internal structure evidence), bukti hubungan dengan variabel lain (relation to other variables evidence) dan bukti konsekuensi tes (concequences of test evidence). Berdasarkan bukti-bukti yang relevan (bisa beberapa atau semua kategori), peneliti dapat menyimpulkan validitas.

Unitary versus Discrete Views of Validity

Pada awal perkembangannya, para ahli fokus pada pembahasan dan pengembangan tipe-tipe validitas. Lahir tiga pertanyaan. Pertama, dengan banyaknya tipe, apakah validitas memiliki tipe yang berbeda-beda? Kedua, apakah sebuah tipe validitas dapat tidak dipenuhi asalkan tipe lain terpenuhi? Ketiga, untuk mengecek validitas, kita mulai dari tipe mana dulu?

Messick (1989) menyatakan bahwa semua bukti berhubungan satu sama lain (inter-connected) dan menghasilkan kesimpulan tunggal tentang validitas. Kemudian, American Psycological Association (APA), American Educational Research Association (AERA) dan National Council for Measurement in Education (NCME) (1985) menegaskan bahwa validitas adalah konsep uniter dan tidak terpecah-pecah (fragmented) ke dalam berbagai tipe yang berbeda. Untuk menghilangkan fragmentasi itulah ketiga lembaga tersebut menggunakan konsep evidence- based validity, bukan types of validity (Messick, 1989; Royal, 2017).

Sampai di sini jelas bahwa validitas adalah konsep uniter yang disimpulkan berdasarkan kelima bukti pendukungnya. Para ahli juga memberi arahan tentang pertanyaan-pertanyaan yang dapat diajukan untuk memeriksa (memvalidasi) bukti-bukti dimaksud. Yang belum jelas adalah:

  1. Bagaimana memberi nilai (scoring) dan mengkompilasi nilai-nilai tersebut ke dalam nilai akhir?
  2. Bagaimana menginterpretasi nilai hasil akhir validisasi tersebut?
  3. Apakah semua bukti harus diperiksa?

Validitas sebagai Uji yang Menghasilkan Kesimpulan Dikotomis: Valid atau Tidak Valid

Secara tradisional, pengambilan kesimpulan tentang validitas selalu dilakukan melalui uji yang menghasilkan dua kesimpulan: valid dan tidak valid. Kesimpulan demikian berpotensi menghilangkan informasi tentang kualitas data. Misalnya, uji validitas menggunakan confirmatory factor analysis (CFA) yang mewarnai sebagian besar penelitian-penelitian pemasaran saat ini menyatakan bahwa validitas konstruk terbukti kalau:

  1. Factor loading >05 (Hair et al. 2014).
  2. Average variance extracted >0.05 (Hair et al. 2014).
  3. Discriminan validity terpenuhi: AVE dengan konstruk sendiri lebih tinggi dari AVE dengan variabel lain (Hair et al. 2014).
  4. Convergent validity terpenuhi: AVE item-item sebuah konstruk dengan konstruk lain yang mirip adalah tinggi =0.30 (Knekta et al. 2019).

Validitas sebagai Kesimpulan yang Didukung Argumen Meyakinkan

Pada tahun 1992, Kane mengusulkan agar pengambilan kesimpulan didasarkan pada argumen. Ia mengajukan validitas validitas adalah sebuah kontinum. Berdasarkan argumen, menurutnya, kita dapat menyatakan “X memiliki validitas sangat tinggi” atau “validitas M adalah rendah”, bukan sekadar “valid” dan “tidak valid”.

Sebagai sebuah kontinum, validitas berkisar mulai dari tidak ada (nol) sampai sempurna. Selanjutnya, merujuk Royal (2017), kontinum tersebut dapat dibagi kategori-kategori berjenjang, misalnya: Tidak ada sama sekali (nol), sangat rendah, rendah, cukup tinggi, tinggi, sangat tinggi dan sempurna. Logikanya, dengan jumlah tingkatan yang lebih banyak, informasi yang hilang lebih sedikit dari skala dikotomi (valid dan tidak valid).

Usulan Kane (1992) mewarnai standar validitas AERA, APA dan NCME (2014) dan diterapkan pada penelitian-penelitian terbaru (antara lain: Chapelle & Voss, 2021; Fletchter et al. 2021). Sekalipun demikian, sampai saat ini belum ada metode standar tentang pemberian nilai (scoring) pada setiap bukti dan penghitungan nilai akhir validitas. Dengan demikian, para peneliti memiliki fleksibilitas untuk menyusun argumentasi berdasarkan bukti-bukti validitas.

Apakah Semua Bukti Harus Diperiksa?

Berangkat dari perspektif tradisional tentang tipe validitas yang sesuai untuk riset pemasaran sosial, Brennan et al. (2011) mengatakan: “Each of these validities will be appropriate within the context of the research but may not be necessary in all researches, at all times.” Artinya, setiap tipe validitas sesuai untuk konteks tertentu dan tidak untuk semua konteks. Dalam perspektif kontemporer, Hill et al. (2022) menyatakan bahwa untuk memilih kerangka validasi, yang terdiri dari langkah-langkah validasi dan bukti validasi pada setiap tahap, ada beberapa faktor yang perlu diperhatikan, yaitu: (1) kerangka mana yang paling sesuai dengan konteks penelitian, (2) kemampuan dan kenyamanan periset, (3) tipe bukti validitas yang dapat dikumpulkan, (4) kompleksitas argumen validitas dan (5) pertaruhan atas kesimpulan yang dibuat.

Konteks penelitian Hill et al. (2022) dapat diterjemahkan lebih lanjut sebagai berikut:

  • Penelitian untuk menemukan konstruk baru, misalnya, tidak membutuhkan bukti validitas isi dan bukti validitas
  • Konstruk variabel tunggal (single-variable construct) tidak membutuhkan bukti konsistensi internal.
  • Pengukuran konstruk yang hubungannya dengan indikator- indikatornya bersifat formatif, tidak membutuhkan bukti konsistensi internal (Menold et al. 2018).
  • Sebuah tes yang hanya menggunakan satu konstruk (misalnya tes kepribadian dengan alat ukur standar), sangat membutuhkan bukti validasi inferensial dan konsekuensi dan tidak membutuhkan bukti validasi congcurrent, predictive, convergent dan discriminant.
  • Sebuah tes atau alat ukur yang menggunakan pertanyaan- pertanyaan sederhana, tidak membutuhkan bukti validasi semantic.
  • Concurrent validity evidence tidak bisa ditunjukkan kalau pembanding yang diakui (golden standard) tidak tersedia.

Validitas Konstruk sebagai Konsep Tunggal

Atas pertanyaan “apa yang harus valid?” pada awalnya para ahli menjawab “pengukuran” (measurement). Kemudian, AERA, APA dan NCME (1999; 2014) menyatakan bawah validitas adalah properti „interpretasi‟. Apabila sebuah alat ukur telah diadopsi, maka yang divalidasi interpretasi hasil pengukuran, bukan alat ukur itu. Jadi, “It is incorrect to use the unqualified phrase „the validity of the test‟” (AERA, APA, dan NCME, 2014: 21).

Menurut Newton (2012) interpretasi menghasilkan pertanyaan tentang hasil pengukuran. Pertanyaan tentang apa? Tentang apa yang diukur. Apa yang diukur? Konstruk yang bersifat abstrak. Jadi, pengukuran dan pernyataan tentang makna hasil pengukuran adalah menyangkut konstruk yang menjadi pusat perhatian. Karena itu, Messic (1989) menyatakan bahwa validitas adalah properti konstruk. Pandangan ini didukung oleh banyak ahli (Brown, 2010), termasuk AERA, APA dan NCME (2014). Karena itu, validasi harus dilakukan pada setiap konstruk.

Kesimpulan Validasi

Validasi tidak pernah menghasilkan keadaan valid sempurna atau bebas kesalahan (error=0) (Royal, 2017). Oleh Oxford Dictionary (n.d., def. 1), valid adalah memiliki dasar logika atau fakta yang kuat; masuk akal atau meyakinkan (“having a sound basis in logic or fact; reasonable or cogent”). Jadi, validasi adalah verifikasi konstruk berbasis teori dan fakta melalui argumen untuk menghasilkan kesimpulan.

Hasil validasi konstruk tidak dinyatakan dalam skala dikotomi „valid‟ dan „tidak valid‟, akan tetapi dalam skala ordinal mulai dari „sangat rendah‟ sampai „sangat kuat‟, yang ditentukan berdasarkan bukti-bukti validitas (AERA, APA, NCME, 2014; Royal, 2017).

Referensi

  1. Aaker, D.A. (1991). Managing Brand Equity. New York: The Free Press.
  2. American Educational Research Association, American Psychological Association, and National Council for Measurement in Education (AERA, APA, and NCME). (1966). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
  3. American Educational Research Association, American Psychological Association, and National Council for Measurement in Education (AERA, APA, and NCME). (1985). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
  4. American Educational Research Association, American Psychological Association, and National Council for Measurement in Education (AERA, APA, and NCME). (2014). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
  5. Bagozzi, R. P. (1981). Evaluating Structural Equation Models with Unobservable Variables and Measurement Error: A Comment. Journal of Marketing Research, 18(3), 375–381. https://doi.org/10.2307/3150979
  6. Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The Concept of Validity. Psychological Review, 111(4), 1061–1071. https://doi.org/10.1037/ 0033-295X.111.4.1061
  7. Brennan, L., Voros, J., & Brady, E. (2011). Paradigms at Play and Implications for Validity in Social Marketing Research. Journal of Social Marketing, 1 (2), 100 – 119. http://dx.doi.org/10.1108/20426761111141869
  8. Brown, T. (2010). Construct Validity: A Unitary Concept for Occupational Therapy Assessment and Measurement. Hong Kong Journal of Occupational Therapy, 20(1):30-42. https://doi.org/10.1016/S1569-18611070056-5
  9. Campbell, D. T., & Fiske, D. W. (1959). Convergent and Discriminant Validation by the Multitrait Multimethod Matrix. Psychology Bulletin, 56, 81-105. Retrieved                                            from http://garfield.library.upenn.edu/classics1987/A1987G546500001.pdf, July 20, 2023.
  10. Chapelle, C., & Voss, E. (2021). Introduction to Validity Argument in Language Testing and Assessment. In C. Chapelle & E. Voss (Eds.), Validity Argument in Language Testing: Case Studies of Validation Research (Cambridge Applied Linguistics, pp. 1-16). Cambridge: Cambridge University Press. doi:10.1017/9781108669849.002
  11. Cho, J., & Trent, A. (2006). Validity in Qualitative Research Revisited. Qualitative Research, 6(3), 319–340. https://doi.org/10.1177/1468794106065006
  12. Cronbach, L. J. (1970). Essentials of Psychological Testing. New York: Harper & Row
  13. Cronbach, L. J., & Meehl, P. E. (1955). Construct Validity in Psychological Tests. Psychological Bulletin, 52(4), 281–302. https://doi.org/10.1037/ h0040957
  14. Cuncic, A. (2022). Internal Validity vs. External Validity in Research. Verywell Mind [Health Science Blog]. Retrieved from https://www.verywellmind.com/internal-and-external-validity-4584479, July 29, 2023
  15. Day, G.S. (1976). A Two-Dimensional Concept of Brand Loyalty. In: Mathematical Models in Marketing. Lecture Notes in Economics and Mathematical Systems, vol 132. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642- 51565-1_26
  16. Fletchter, T., Dai, T., Cromley, J.G., Nelson, F.E., Van Boekel, M., & Du, Y. (2021). Developing a Validity Argument for an Inference-Making and Reasoning Measure for Use in Higher Education. Frontiers in Education. 6:727539. doi: 10.3389/feduc.2021.727539
  17. Goodwin, L. D., & Leech, N. L. (2003). The Meaning of Validity in the New Standards for Educational and Psychological Testing: Implications for Measurement Courses. Measurement and Evaluation in Counseling and Development, 36(3), 181–192
  18. Gulliksen, H. (1950). Intrinsic Validity. American Psychologist, 5(10), 511–https://doi.org/10.1037/h0054604
  19. Hair, J.F., Black, W.C., Babin, B.J. and Anderson, R.E. (2014). Multivariate Data Analysis. 7th Edition. Andover, UK: Cengage.
  20. Hathcoat, J. D. (2019). Validity Semantics in Educational and Psychological Assessment. Practical Assessment, Research, and Evaluation, 18, Article 9. https://doi.org/10.7275/ay6p-xw09
  21. Hill, J., Ogle, K., Santen, S.A., Gottlieb, M., & Artino, M.R. (2022). Educator’s Blueprint: A How-to Guide for Survey Design. Wiley Online Library. https://doi.org/10.1002/aet2.10796
  22. Holden, R. R. (2010). Face Validity. Corsini Encyclopedia of Psychology. https://doi.org/10.1002/9780470479216.corpsy0341
  23. Kane, M. T. (1992). An Argument-Based Approach to Validity. Psychological Bulletin, 112(3), 527–535. https://doi.org/10.1037/0033-2909.112.3.527
  24. Kane, M. T. (2016). Explicating Validity. Assessment in Education: Principles, Policy  &  Practice23(2),  198–211.  https://doi.org/10.1080/0969594X.
  25. Knekta, E., Runyon, C., & Eddy, S. (2019). One Size Doesn’t Fit All: Using Factor Analysis to Gather Validity Evidence When Using Surveys in Your Research. CBE Life Sciences Education, 18(1), rm1. https://doi.org/10.1187/ cbe.18-04-0064
  26. Kotler, P., & Keller, K.L. (2016). Marketing Management. 15th Edition. Essex, UK: Pearson
  27. Lynch, J. G. (1982). On The External Validity of Experiments in Consumer Research. Journal of Consumer Research, 9(3), 225–239. https://doi.org/ 10.1086/208919
  28. Malhotra, N. K., Mukhopadhyay, S., Liu, X., & Dash, S. (2012). One, Few or Many?: An Integrated Framework for Identifying the Items in Measurement Scales. International Journal of Market Research, 54(6), 835–862. https://doi.org/ 10.2501/IJMR-54-6-835-862
  29. Menold, N., Bluemke, M., & Hubley, A. M. (2018). Validity: Challenges in Conception, Methods, and Interpretation in Survey Research. Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 14(4), 143-145. https://doi.org/10.1027/1614-2241/a000159
  30. Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational Measurement. 3rd Edition (pp. 13-104). New York, NY: American Council on Education and Macmillan.
  31. Newton, P.E. (2012). Clarifying the Consensus Definition of Validity, Measurement. Interdisciplinary Research and Perspectives, 10(1-2), 1-29, https://doi.org/ 10.1080/15366367.2012.669666
  32. Parasuraman, A., Zeithaml, V.A. and Berry, L.L. (1988) SERVQUAL: A Multiple- Item Scale for Measuring Consumer Perceptions of Service Quality. Journal of Retailing, 64, 12-40.
  33. Pearl, J., & Bareinboim, E. (2014). External Validity: From Do-Calculus to Transportability  across  Populations. Statistical  Science, 29 (4),  579–arXiv:1503.01603. https://doi.or/10.1214/14-sts486. S2CID 5586184
  34. Rossiter, J.R. (2002). The C-OAR-SE procedure for Scale Development in Marketing. International Journal of Research in Marketing, 19, 305–335
  35. Royal K. D. (2017). Four Tenets of Modern Validity Theory for Medical Education Assessment and Evaluation. Advances in Medical Education and Practice, 8, 567–570. https://doi.org/10.2147/AMEP.S139492
  36. Ruch, G. M. (1924). The Improvement of the Written Examination. Chicago, IL: Scott, Foresman.
  37. Shaw. S., & Crisp, V. (2011). Tracing the Evolution of Validity in Educational Measurement: Past Issues and Contemporary Challenges. Research Matters, 2011,  14-15.  Retrived  from  http://www.cambridgeassessment.org.uk/research-matters/, July 29, 2023.
  38. Urbina-Rojas, Y. E., Leiton-Espinoza, Z. E., López-González, A., Rabanales-Sotos, J., Silva, A. R. F., & Fhon, J. R. S. (2022). Development and Semantic Validation of an Instrument for the Assessment of Knowledge and Attitudes towards Cardiopulmonary Resuscitation in Adolescents. Investigacion y educacion en enfermeria, 40(1), e15. https://doi.org/10.17533/udea. iee.v40n1e15
  39. Wijanto, S. (2008). Structural Equation Modeling dengan Lisrel 8.8. Graha Ilmu, Yogyakarta.
  40. Zaltman, G., LeMasters, K., & Heffring, M. (1982). Theory Construction in Marketing: Some Thoughts on Thinking. New York, NY: John Wiley & Sons