A. Pendahuluan
Tidak ada usaha guru yang lebih baik
selain usaha untuk selalu meningkatkan mutu tes yang disusunnya. Namun, hal ini
tidak dilaksanakan karena kecenderungan seseorang untuk beranggapan bahwa hasil
karyanya adalah yang terbaik atau setidak-tidaknya sudah cukup baik. Guru yang
sudah berpengalaman, mengajar dan menyusun soal-soal tes, juga masih sukar
menyadari bahwa tesnya masih belum sempurna. Oleh karena itu, cara yang paling
baik adalah secara jujur melihat hasil yang diperoleh oleh siswa (Arikunto,
2010).
Menunurut Aiken (1994) dalam
Suprananto (2012), kegiatan analisis butir soal merupakan kegiatan penting
dalam penyusunan soal agar diperoleh butir soal yang bermutu.Tujuan kegiatan
ini adalah mengkaji dan menelaah setiap butir soal agar diperoleh soal yang
bermutu sebelum digunakan, meningkatkan kualitas butir tes melalui revisi atau
membuang soal yang tidak efektif, serta mengetahui informasi diagnostik
pada siswa apakah mereka telah memahami materi yang telah diajarkan. Soal
yang bermutu adalah soal dapat memberikan informasi setepat-tepatnya tentang
siswa mana yang telah menguasai meteri dan siswa yang belum menguasai materi.
Menurut Anastasia dan Urbina (1997)
dalam Suprananto (2012), analisis butir soal dapat dilakukan secara kualitatif
(berkenaan dengan isi dan bentuknya), dan kuantitatif (berkaitan dengan
ciri-ciri statistiknya). Analisis kualitatif mencakup pertimbangan validitas
isi dan konstruksi, sedangkan analisis kuantitatif mencakup pengukuran validilitas
dan reliabilitas butir soal, kesulitan butir soal, serta diskriminasi soal.
Oleh karena itu, teknik terbaik adalah menggunakan atau memadukan keduanya.
Dalam makalah ini, akan dijelaskan secara rinci mengenai analisis butir soal
secara lengkap. Baca Selengkapnya.....
A.
Teknik Analisis Soal Tes (Item Analysis)
Analisis
soal dilakukan untuk mengetahui berfungsi atau tidaknya sebuah soal. Analisis
pada umumnya dilakukan melalui dua cara, yaitu analisis kualitatif (qualitatif control) dan analisis kuantitatif (quantitatif control).[1]
1. Analisis Butir Soal Secara
Kualitatif
Pada
prinsipnya analisis butir soal secara kualitatif dilaksanakan berdasarkan
kaidah penulisan soal (tes tertulis, perbuatan, dan sikap). Penelaahan ini
biasanya dilakukan sebelum soal digunakan atau diujikan. Aspek yang
diperhatikan dalam penelaahan secara kualitatif mencakup aspek materi,
konstruksi, bahasa atau budaya, dan kunci jawaban.
Ada beberapa
teknik yang digunakan untuk menganalisis butir soal secara kualitatif, yaitu
teknik moderator dan teknik panel. Teknik moderator merupakan teknik berdiskusi
yang didalamnya terdapat satu orang sebagai penengah. Berdasarkan teknik ini,
setiap butir soal didiskusikan secara bersama-sama dengan beberapa ahli.
Sedangkan
teknik panel adalah teknik menelaah butir soal berdasarkan kaidah penulisan
butir soal. Kaidah itu diantaranya adalah materi, kontruksi, bahasa atau
budaya, kebenaran kunci jawaban. Caranya beberapa penelaah diberikan beberapa
butir soal yang akan ditelaah, format penelaahan, dan pedoman penelaahan.
Dalam
menganalisis butir soal secara kualitatif penggunaan format penelaahan soal
akan membantu dan mempermudah prosedur pelaksanaannya. Format penelaahan soal
digunakan sebagai dasar untuk menganalisis setiap butir soal. Format penelaahan
yang dimaksud adalah format penelaahan butir soal: constructed response, selected response, tes perbuatan dan instrumen non tes.
2. Analisis Butir Soal Secara
Kuantitatif
Penelaahan
soal secara kuantitatif adalah penelaahan butir soal didasarkan pada bukti
empirik.[2] Salah satu tujuan utama pengujian
butir-butir soal secara emperik adalah untuk mengetahui sejauh mana
masing-masing butir soal membedakan antara mereka yang tinggi kemampuannya
dalam hal yang didefinisikan oleh kriteria dari mereka yang rendah
kemampuannya.[3]
Data empirik
ini diperoleh dari soal yang telah diujikan. Ada dua pendekatan dalam analisis
secara kuantitatif yaitu pendekatan secara klasik dan modern.
Analisis
butir soal secara klasik adalah proses penelaahan butir soal melalui informasi
dari jawaban peserta tes guna meningkatkan mutu butir soal yang bersangkutan
dengan menggunakan teori tes klasik.[4] Pada teori tes klasik, analisis item
tes dilakukan dengan memperhitungkan kedudukan item dalam suatu kelas atau
kelompok. Karakteristik atau kualitas item sangat tergantung pada kelompok
dimana diujicobakan sehingga kualitas item terikat pada sampel responden atau
peserta tes yang memberikan respons (sample
bounded).[5]
Ada beberapa
kelebihan analisis butir soal secara klasik adalah murah, sederhana, familiar,
dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer dan dapat
menggunakan beberapa data dari peserta tes.
Analisis
butir soal secara modern adalah penelaahan butir soal dengan menggunakan teori
respon butir atau item response theory. Teori ini merupakan suatu teori yang menggunakan
fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu butir
dengan kemampuan siswa.
Teori ini
muncul karena adanya beberapa keterbatasan pada analisis secara klasik, yaitu:
a. Tingkat kemampuan dalam teori klasik adalah true score. Artinya, jika suatu tes sulit maka tingkat kemampuan peserta tes akan
rendah.sebaiknya, jika suatu tes mudah maka tingkat kemampuan peserta tes
tinggi.
b. Tingkat kesukaran butir soal didefinisikan sebagai
proporsi peserta tes yang menjawab benar. Mudah atau sulitnya butir soal
tergantung pada kemampuan peserta tes.
c. Daya pembeda, reliabilitas, dan validitas tes
tergantung pada kondisi peserta tes.[6]
B.
Parameter
Item Tes yang Baik
Sebagaimana telah disebut sebelumnya,
bahwa item tes yang baik adalah item yang memenuhi syarat sebagaimana kriteria
atau karakteristik item tes yang baik. Karakteristik item yang dimaksud adalah
tingkat kesulitan atau kesukaran, daya pembeda, dan efektivitas pengecoh.
1. Tingkat Kesulitan atau Kesukaran
Tingkat kesukaran soal adalah
peluang menjawab benar suatu soal pada tingkat kemampuan tertentu yang biasanya
dinyatakan dalam bentuk indeks.[7] Tingkat
kesukaran dinyatakan dalam indeks kesukaran (dificulty index), yaitu
angka yang menunjukkan proporsi siswa yang menjawab benar soal tersebut.[8] Semakin
besar indeks tingkat kesukaran yang diperoleh dan hasil hitungan, berarti
semakin mudah soal itu.
Dalam hal ini, item yang baik adalah
item yang tingkat kesukarannya dapat diketahui, tidak terlalu sukar dan
tidak terlalu mudah. Sebab, tingkat kesukaran item itu memiliki korelasi dengan
daya pembeda. Bilamana item memiliki tingkat kesukaran yang maksimal, maka daya
pembedanya akan rendah, demikian pula bila item itu terlalu mudah maka tidak
akan memiliki daya pembeda.
Oleh karena itu, sebaiknya tingkat
kesukaran soal itu dipertahankan dalam batas yang mampu memberikan daya
pembeda. Namun, jika terdapat tujuan khusus dalam penyusunan tes, maka tingkat
kesukaran itu bisa dipertimbangkan. Misalnya, tingkat kesukaran item
untuk tes sumatif berbeda dengan tingkat kesukaran pada tes diagnostik.[9]
Untuk menghitung taraf kesukaran
soal dari suatu tes dipergunakan rumus sebagai berikut:
TK = U + L
T
Keterangan:
U =
jumlah siswa yang termasuk kelompok pandai (upper group) yang
menjawab benar untuk tiap soal.
L =
jumlah siswa yang termasuk kurang (lower group) yang menjawab
benar untuk tiap soal.
T
= jumlah siswa dari kelompok pandai dan kelompok kurang (jumlah
upper group dan lower group)
Misalkan suatu tes yang terdiri atas
N soal yang diberikan kepada 40 siswa. Dari hasil tes tersebut, tiap-tiap soal
dianalisis taraf kesukarannya. mula-mula hasil tes itu kita susun kedalam
peringkat, kemudian kita ambil 25% (10 lembar jawaban siswa kelompok pandai),
dan 10 lembar jawaban siswa dari kelompok yang kurang pandai. Kemudian kita
tabulasikan. Misalkan dari tabulasi soal no. 1 kita peroleh hasil sebagai
berikut: yang menjawab benar dari kelompok pandai ada 9 siswa, dan yang menjawab
benar dari kelompok kurang pandai ada 4 siswa.
Dengan menggunakan rumus diatas,
maka taraf kesukaran atau TK dari soal no. 1 adalah:
TK = U + L = 9
+ 4 = 0,65 atau 65%
T
20
Jadi dapat disimpilkan bahwa nilai
dari TK atau tingkat kesukarannya adalah 65%. [10]
Sedangkan dalam bukunya Drs. H.
Daryanto, rumus untuk mencari taraf kesukaran atau indeks kesukaran adalah:
P = B
JS
Keterangan:
P =
indeks kesukaran.
B =
banyaknya siswa yang menjawab soal itu dengan benar.
JS
= jumlah seluruh siswa peserta tes.
Contoh:
Jumlah siswa peserta tes dalam suatu
kelas ada 40 siswa. Dari 40 siswa tersebut terdapat 12 siswa yang mampu
mengerjakan soal no. 1 dengan benar. Maka berapa indeks kesukarannya?
Jawab:
P = B
JS
= 12
40
= 0,30
Menurut ketentuan yang sering
diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut:
a.
Soal dengan P 0,00 sampai 0,30
adalah soal sukar.
b.
Soal dengan P 0,30 sampai 0,70
adalah soal sedang.
c.
Soal dengan P 0,70 sampai 1,00
adalah soal mudah.[11]
2.
Daya
Pembeda
Perhitungan daya pembeda adalah
pengukuran sejauh mana suatu butir soal mampu membedakan peserta didik yang
sudah menguasai kompetensi dengan peserta didik yang belum atau kurang
menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koofisien
daya pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan
antara peerta didik yang menguasai kompetensi dengan pesertan didik yang kurang
menguasai kompetensi.[12]
Angka yang menunjukkan besarnya daya
pembeda disebut indeks diskriminasi.[13]
Daya pembeda suatu soal tes dapat dihitung dengan menggunakan rumus sebagai
berikut:
DP = U
– L
½ T
Keterangan:
DP =
indeks DP atau daya pembeda yang dicari.
U =
jumlah siswa yang termasuk dalam kelompok pandai yang mampu
menjawab benar untuk tiap soa.
L
= jumlah siswa yang termasuk kurang yang menjawab benar untuk tiap soal.
T
= jumlah siswa keseluruhan.
Contoh:
Dari hasil tes psikologi kelas 11 SPG, jumlah siswa
yang dites adalah 40 siswa, sedangkan tes tersebut terdiri dari 20 soal.
Setelah hasil tes tersebut diperiksa, kemudian disusun kedalam peringkat untuk
menentukan 25% siswa yang termasuk kelompok pandai (upper group) dan
25% siswa yang termasuk kelompok kurang (lower group).
Kemudian hasil tes tersebut ditabulasikan dengan
menggunakan format tabulasi jawaban tes, kemudian hasil tabulasi dari kedua
kelompok tersebut dimasukkan kedalam format analisis soal tes, sehingga kita
dapat menghitung tingkat kesukaran dan daya pembeda tiap soal yang kita
analisis.
Misalkan dari tabulasi soal no. 1 kita peroleh hasil
sebagai berikut: yang menjawab benar dari kelompok pandai ada 10 siswa, dan
yang menjawab benar dari kelompok kurang ada 9 siswa. Maka daya pembedanya
adalah:
DP = U – L
½ T
= 10 – 9
½ x (20)
= 1
10
= 0,10
Jadi dapat disimpulkan bahwa indeks pembedanya adalah
0,10.
Dalam bukunya Prof. Dr. Suharsimi Arikunto, dijelaskan
mengenai klasifikasi daya pembeda, yaitu:
D = 0,00 – 0,20 = jelek (poor).
D = 0,20 – 0,40 = cukup (satisfactory).
D = 0,40 – 0,70 = baik (good).
D = 0,70 – 1,00 = baik sekali (excellent).
3. Analisis pengecoh (Efektifitas Distraktor )
Instrumen evaluasi yang berbentuk
tes dan objektif, selain harus memenuhi syarat-syarat yang telah disebutkan
terdahulu, harus mempunyai distraktor yang efektif. Yang disebut dengan
distraktor atau pengecoh adalah opsi-opsi yang bukan merupakan kunci jawaban
(jawaban benar).
Butir soal yang baik pengecohnya
akan dipilih secara merata oleh peserta didik yang menjawab salah. Sebaliknya,
butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata.
Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama
atau mendekati jumlah ideal. Indeks pengecoh dihitung dengan rumus:
IP
=
P
x 100%
(N - B) (n - 1)
Keterangan:
IP =
indeks pengecoh
P
= jumlah peserta didik yang memilih pengecoh
N =
jumlah peserta didik yang ikut tes
B =
jumlah peserta didik yang menjawab benar pada setiap soal
n
= jumlah alternatif jawaban
1.
= bilangan tetap
Catatan:
Jika semua peserta didik menjawab benar pada butir
soal tertentu (sesuai kunci jawaban), maka IP = 0 yang berarti soal tersebut
jelek. Dengan demikian pengecoh tidak berfungsi.
Contoh:
50 orang peserta didik dites dengan 10 soal bentuk
pilihan ganda. Tiap soal memiliki alternatif jawaban (a, b, c, d, e). Kunci
jawaban (jawaban yang benar) no. 8 adalah c. Setelah soal no.8 diperiksa untuk
semua peserta didik, ternyata dari 50 orang peserta didik, 20 peserta didik
menjawab benar dan 30 peserta didik menjawab salah. Idealnya, pengecoh dipilih
secara merata.
Berikut ini adalah contoh soal no.8.
Alternatif jawaban
|
A
|
B
|
C
|
D
|
E
|
Distribusi jawaban peserta didik
|
7
|
8
|
20
|
7
|
8
|
IP
|
93%
|
107%
|
**
|
93%
|
107%
|
Kualitas pengecoh
|
++
|
++
|
++
|
++
|
++
|
Keterangan:
** = kunci jawaban
++ = sangat baik
+ = baik
·
= kurang
baik
_ = jelek
_ _ = sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah
93%, 107%, 93%, dan 107%. Semuanya dekat dengan angka 100%, sehingga
digolongkan sangat baik sebab semua pengecoh itu berfungsi. Jika pilihan
jawaban peserta didik menumpuk pada satu alternatif jawaban, misalnya seperti
berikut:
Alternatif jawaban
|
A
|
B
|
C
|
D
|
E
|
Distribusi jawaban peserta didik
|
20
|
2
|
20
|
8
|
0
|
IP
|
267%
|
27%
|
**
|
107%
|
0%
|
Kualitas pengecoh
|
_
|
-
|
**
|
++
|
_
|
Dengan demikian, dapat ditafsirkan
pengecoh (d) yang terbaik, pengecoh (e) dan (b) tidak berfungsi, pengecoh (a)
menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena termasuk jelek,
danpengecoh (b) perlu direvisikarena kurang baik. adapun kualitas pengecoh
berdasar indeks pengecoh adalah:
Sangat baik IP = 76% -
125%
Baik
IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% -
50% atau 151% - 175%
Jelek
IP = 0% - 25% atau 176% - 200%
Sangat jelek IP = lebih dari
200%
A. Kesimpulan
Dari uraian diatas dapat disimpulkan
bahwa analisis butir soal merupakan suatu kegiatan yang dilakukan untuk
menyakinkan bahwa bahwa butir-butir soal tersebut bermutu dan memenuhi kriteria
yang ditentukan. Kriteria atau karakteristik yang baik adalah yang berkaitan
dengan tingkat kesukaran, daya pembeda, dan efektivitas pengecoh. Analisis
butir soal dapat dilakukan, baik secara kualitatif maupun kuantitatif.
Ada beberapa manfaat dari analisis
soal buatan guru: (1) menentukan soal-soal yang cacat atau tidak berfungsi
denganbaik; (2) meningkatkan butir soal melalui tiga komponen analisis yaitu,
tingkatan kesukaran, daya pembeda, dan pengecoh soal; (3) merevisi soalyang
tidak relevan dengan materi yang diajarkan, ditandai dengan banyaknya anak yang
tidak dapat menjawab butir soal tertentu.
DAFTAR
PUSTAKA
Abdullah,
Shodiq. Evaluasi Pembelajaran. Semarang: PUSTAKA RIZKI PUTRA.
2012.
Arifin,
Zainal. Evauasi Pembelajaran. Bandung: PT REMAJA ROSDAKARYA.
2012.
Arikunto,
Suharsimi. Dasar Dasar Evaluasi Pendidikan. Jakarta: PT Bumi
Aksara. 2009.
Daryanto, Evaluasi
Pendidikan. Jakarta: PT RINEKA CIPTA, 2008.
Purwanto,
Ngalim. Prinsip Prinsip dan Yeknik Evaluasi Pembelajaran. Bandung.
2002.
Surapranata,
Sumarna. Analisis, Validitas, Reliabilitas, dan Interpretasi Hasil Tes.Bandung:
PT REMAJA ROSDAKARYA. 2004.
Suprananto,
Kusaeri. Pengukuran dan Penilaian Pendidikan. Yogyakarta:
GRAHA ILMU. 2012.
Suryabrata,
Sumadi. Pengembangan Tes Hasil Belajar. Jakarta: CV Rajawali.
1987.
Silverius,Suke. Evaluasi
Hasil Belajar dan Umpan Balik. Jakarta: PT Grasindo. 1991.
Thoha,
Chabib. Teknik Evaluasi Pendidikan. Jakarta: PT Raja Grafindo
Persada. 1996.
[1] Sumarna Surapranata, Analisis,
Validitas, Reliabilitas, dan Interpretasi Hasil Tes,(Bandung: PT REMAJA
ROSDAKARYA, 2004), hlm. 1
[2] Kusaeri Suprananto, Pengukuran
dan Penilaian Pendidikan, (Yogyakarta:
GRAHA ILMU, 2012), hlm. 165-173
[10] Ngalim Purwanto, Prinsip Prinsip dan Yeknik Evaluasi Pembelajaran, (Bandung,
2002), hlm. 119-120
No comments:
Post a Comment