黃 勇
廣東湛江麻斜91640部隊(duì),廣東湛江 524064
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)技術(shù)
黃 勇
廣東湛江麻斜91640部隊(duì),廣東湛江 524064
目前,對(duì)于計(jì)算機(jī)考試與水平的評(píng)價(jià),國際、國內(nèi)均廣泛的采用CAT應(yīng)用模式。但是對(duì)于在應(yīng)用范疇內(nèi)同等重要的自適應(yīng)測(cè)驗(yàn)則重視不足。這樣導(dǎo)致了計(jì)算機(jī)的測(cè)驗(yàn)無法明確表現(xiàn)出應(yīng)用水平,造成測(cè)驗(yàn)失準(zhǔn)或者測(cè)驗(yàn)評(píng)價(jià)的含金量降低等問題。本文從自適應(yīng)測(cè)試的技術(shù)關(guān)鍵、測(cè)試難點(diǎn)及其作用等角度來討論計(jì)算機(jī)測(cè)試的改革。
計(jì)算機(jī);自適應(yīng)檢測(cè);考試
自適應(yīng)測(cè)試作為考試的一部分被作為一種測(cè)試計(jì)算機(jī)應(yīng)用能力的手段而廣泛應(yīng)用。隨著計(jì)算機(jī)的不斷發(fā)展與應(yīng)用的不斷深入,考試對(duì)自適應(yīng)測(cè)試要求也越來越高。從我們通常采用的傳統(tǒng)筆試考試(P&P)、以及平常依賴計(jì)算機(jī)的考試(Computer Base Test)到現(xiàn)在推行的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(CAT,ComputerAdaptive Test),考試的客觀性和準(zhǔn)確性在很大程度上不斷得到改進(jìn)和提高。在20世紀(jì)初期的法國比奈智力測(cè)驗(yàn)中,產(chǎn)生了自適應(yīng)測(cè)試(Adaptive Test),其目的是用來匹配考試成績與考生能力的測(cè)試。進(jìn)行測(cè)試的時(shí)候,以考生的作答情況作為參考,選取和利用在考生能力范圍的題目,能夠在最短的時(shí)間內(nèi)準(zhǔn)確的測(cè)量出來考生的知識(shí)和能力水平。當(dāng)今計(jì)算機(jī)技術(shù)進(jìn)行不斷革新,計(jì)算機(jī)完全可以控制和推行自適應(yīng)測(cè)試的過程,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)于1971年由學(xué)者Lord提出,此后在美國各地發(fā)展相當(dāng)迅速。
自適應(yīng)測(cè)驗(yàn)系統(tǒng)首先應(yīng)詳細(xì)學(xué)習(xí)項(xiàng)目反映理論,并深入了解計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)的每個(gè)環(huán)節(jié)。在把《近代海軍史》公共課作為題庫來源開發(fā)成小型的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)中,可以很好的利用該系統(tǒng)的實(shí)施,在沉重的測(cè)驗(yàn)工作之中把《近代海軍史》公共課的老師解脫出來,并將被測(cè)者的能力值準(zhǔn)確高效的顯示出來。
前文中詳細(xì)描述了計(jì)算機(jī)自適應(yīng)測(cè)試的相關(guān)概念,在對(duì)該概念的分析和深入研究的基礎(chǔ)上,我們得到了該系統(tǒng)的流程圖(如圖1所示),用以表示整個(gè)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的具體過程:
圖1 計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)的流程圖
計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)由一系列環(huán)節(jié)組成,各個(gè)環(huán)節(jié)都是相互聯(lián)系、缺一不可的。為了使該系統(tǒng)可以獲得參考價(jià)值較高的被測(cè)者的能力值,首先,我們需擬合檢驗(yàn)?zāi)P秃蛿?shù)據(jù),正確選擇項(xiàng)目反應(yīng)模型市準(zhǔn)確測(cè)量被試能力的前提;其次,應(yīng)建設(shè)高質(zhì)量的題庫,題庫質(zhì)量高才能使測(cè)驗(yàn)結(jié)果得到保證;最后,對(duì)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的項(xiàng)目選擇、被試能力估計(jì)、終止條件的確定等每一個(gè)環(huán)節(jié)都要認(rèn)真執(zhí)行。
項(xiàng)目反應(yīng)理論所包含的模型有很多,如等級(jí)反應(yīng)模型、拉稀模型以及邏輯斯蒂模型等,每種模型都存在各自的優(yōu)缺點(diǎn),萬能的模型是不存在的。很高的數(shù)學(xué)性質(zhì)以及對(duì)難度和能力參數(shù)可以充分計(jì)量等是拉稀模型的優(yōu)點(diǎn)所在,其缺點(diǎn)是無法使用猜測(cè)度和問題區(qū)分度,所以只能在較小的范圍內(nèi)使用該模型。而邏輯斯蒂模型,三參數(shù)和雙參數(shù)都包括在內(nèi),則有較廣的適用范圍,但其未能充分計(jì)量參數(shù),導(dǎo)致諸多不變存在于估計(jì)過程中。
題庫的性能和質(zhì)量好壞與否關(guān)系到測(cè)量結(jié)果的準(zhǔn)確性,是實(shí)施計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的前提,所以題庫建設(shè)必須加強(qiáng)。在建設(shè)題庫的過程中,有兩個(gè)環(huán)節(jié)相當(dāng)重要,就是所謂的估計(jì)項(xiàng)目參數(shù)以及等值測(cè)驗(yàn)。我們說的等值測(cè)驗(yàn),就是在同一個(gè)量表上把不同時(shí)間得到的項(xiàng)目的參數(shù)進(jìn)行轉(zhuǎn)化,使得施測(cè)和比較更加方便,這里我們主要對(duì)項(xiàng)目參數(shù)的估計(jì)進(jìn)行講述。
一個(gè)質(zhì)量高、容量大的題庫建好之后,“因材施測(cè)”即可開始,這是自適應(yīng)測(cè)試的特點(diǎn),施測(cè)要選擇與被試者能力匹配的項(xiàng)目,進(jìn)而快速判斷出被試的能力,即在項(xiàng)目參數(shù)確定的前提下對(duì)被試的能力參數(shù)進(jìn)行估計(jì)。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的主要施測(cè)過程就是這樣,它大體上可以分為兩個(gè)極端,即試探性探查以及對(duì)真值做精確的估計(jì)。第一階段,試探性探查,即對(duì)被試者的能力做初步的了解。從理論上講,被試能力的真實(shí)情況我們?cè)跍y(cè)驗(yàn)支出并不了解,選擇何種難度的試題對(duì)被試者進(jìn)行測(cè)試都是可以的,不過Wanine(1990)研究指出,若第一個(gè)測(cè)試項(xiàng)目的難度與被試者的能力想接近,則通過較短的測(cè)驗(yàn)就可以得到穩(wěn)定的能力估計(jì)值,所以,為了方面初步了解被試者的能力水平,在正式對(duì)其進(jìn)行測(cè)試之前,我們可讓被試者作答從題庫中抽取的少量項(xiàng)目。第二階段,對(duì)真值做精確的估計(jì),在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中,該部分最為重要,其目的就是獲得被試能力的真值,“因人施策”是該階段應(yīng)始終遵循的思想。在試探性探查階段,對(duì)于被試者的能力水平我們通過從題庫中抽取的少量項(xiàng)目做了初步估計(jì),可以使能力估計(jì)值的說服力更強(qiáng),到了精確估計(jì)真值的階段,施測(cè)還需繼續(xù)進(jìn)行,需要注意的是,此時(shí)就不可能只在題庫中抽取簡單的、少量的項(xiàng)目了,對(duì)項(xiàng)目的選擇要遵循合適的選題策略,直至被試的能力被精確估計(jì)出來。
[1]Bryce Thomas Bsttisti, Nikki Hanegan, Richard Sudweeks and Rex Cates.Using Item Response Theory to Conduct a Distracter Analysis on Conceptual Inventory of Natural Selection [J],2009,11.
[2]Stefania Mignani, Silvia Cagnone, Giorgio Casadei,and Antonella Carbonaro.An Item Response Theory Model for Student Ability Evaluation Using Computer-Automated Test Results[J].Mignani et al,325-332.
[3]Michael A.Young, Ira S.Halper,David C.Clark,William Scheftner, and Jan Fawcett.An Item-Response Theory Evaluation of the Beck Hopelessness Scale[J].Cognitive Therapy and Research,Vol.16,No.5,1992:579-587.
TP39
A
1674-6708(2011)53-0159-02