摘 要:隨著計算機技術(shù)的發(fā)展,帶來的便利為現(xiàn)代社會所應(yīng)用,形成了良好的效果。計算機自適應(yīng)測驗在現(xiàn)代社會的應(yīng)用過程中卻因為測驗效果的問題受到了一些質(zhì)疑,本身存在著一些問題。本文主要對計算機自適應(yīng)測驗技術(shù)的理論基礎(chǔ)進行描述,通過現(xiàn)代計算機理論結(jié)合實踐的形式對測驗技術(shù)的完善提供一定的建議,并對實踐的經(jīng)驗進行總結(jié)。
關(guān)鍵詞:計算機;自適應(yīng);測驗技術(shù);項目
中圖分類號:TP391.6
現(xiàn)代教育中,考試是一項繁重而又常見的工作,傳統(tǒng)上,學(xué)生通過書面考試可以反映出學(xué)習(xí)效果。隨著現(xiàn)代信息技術(shù)的進步,教學(xué)過程中出現(xiàn)了基于計算機的考試與計算機自適應(yīng)測驗的考試形式。隨著設(shè)施的完善與技術(shù)的進步,越來越多的教學(xué)科目通過計算機來完成,如各類學(xué)歷考試、證書考試等。雖然與傳統(tǒng)的書面考試相比,有了明顯的進步,但傳統(tǒng)的計算機考試中還是存在著一些不足。作為一種簡單的顯示、儲存試題與答案的設(shè)備,難以真正發(fā)揮信息管理的作用,另外每種試卷都會有相同的項目,只不過順序有所不同,對于不同的考生,真正測驗效果會有所不同。這些測試程序都無法真正測試出學(xué)生的真實水平。
計算機自適應(yīng)測驗是二十世紀(jì)八十年代開始發(fā)展起來的一種快速高效測試學(xué)生水平的考試形式。針對不同能力的學(xué)生,計算機考試系統(tǒng)可以根據(jù)能力自動在題庫中調(diào)出與學(xué)生水平相適應(yīng)的題目來進行測試,這種主動適應(yīng)被試者水平的因人施測法能夠在短時間內(nèi)測出應(yīng)試者的能力水平,更為準(zhǔn)確,也更利于報告與分析。國外對于計算機自適應(yīng)測驗的研究相對早一些,是從比奈的智力測驗基礎(chǔ)發(fā)展而來。針對應(yīng)試者的能力不斷對試題進行難度調(diào)整,隨著計算機運算速度的加快,隨之建立了計算機自適應(yīng)測驗,目前在美國已經(jīng)取得了不錯的發(fā)展[1]。
1 計算機自適應(yīng)測驗理論基礎(chǔ)
計算機自適應(yīng)測驗理論已經(jīng)不再以經(jīng)典的測驗理論作為支撐,而是以現(xiàn)代的測量理論作為指導(dǎo),就是項目反應(yīng)理論(IRT),項目反應(yīng)理論相對優(yōu)勢明顯,能夠為計算機自適應(yīng)測驗未來發(fā)展提供更加廣闊的空間。
1.1 項目反應(yīng)理論模型
項目反應(yīng)理論認(rèn)為在被試的項目與潛在物質(zhì)間的數(shù)學(xué)形式反應(yīng)為一定的模型,這種概率模型可以用項目特性曲線的單增函數(shù)描述,反應(yīng)項目正確概率與被試的能力與各個項目間的關(guān)聯(lián)。數(shù)學(xué)研究者已經(jīng)提出了多種項目反應(yīng)理論模型,如邏輯斯締模型、正態(tài)卵形模型等。按照項目參數(shù)個數(shù)可以對邏輯斯締模型分為三種主要類型。分別是單參數(shù)邏輯斯締模型、雙參數(shù)邏輯斯締模型以及三參數(shù)邏輯斯締模型。
1.2 項目反應(yīng)理論特點
經(jīng)典測驗理論存在著一定的局限性。由于它發(fā)展以來主要為心理與教育測量工作提供基礎(chǔ),在技術(shù)上還存在著許多問題。在其中,項目參數(shù)主要依賴于樣本,項目的難度主要是補試占所有被試的比例,不同組的項目難度肯定會有所不同。在被試測驗分?jǐn)?shù)方面,也存在著一定的局限性,過多依賴于所施測的項目難度,分?jǐn)?shù)與回答的項目數(shù)有關(guān),項目難度大,得分就會低。另外由于測驗信度方面的局限性原因,由此帶來的測驗效果也就越差[2]。
項目反應(yīng)理論主要是基于潛在物質(zhì)理論,主要基理是假設(shè)被試面對測驗時的反應(yīng)受到心理影響,反映成相對穩(wěn)定能夠?qū)y驗作為支配動作的反應(yīng),并造成同樣反應(yīng)的內(nèi)存特征。
2 計算機自適應(yīng)測驗關(guān)鍵環(huán)節(jié)
每一個計算機自適應(yīng)測驗都是通過一系列的環(huán)節(jié)組合而成,各個環(huán)節(jié)間關(guān)系密切,為了讓自適應(yīng)測驗效果更好,首先需要對數(shù)據(jù)與模型進行擬合檢驗,通過對正確的項目反應(yīng)模型進行選擇,才能獲得準(zhǔn)確的被試測量數(shù)據(jù),另外是建立高質(zhì)量的題庫,進行計算機自適應(yīng)測驗的最重要核心部分,項目的選擇、能力估計與終止條件的確定,最后形成測驗質(zhì)量評估報告[3]。
2.1 數(shù)據(jù)與模型擬合檢驗
在項目反應(yīng)理論中,存在著多種模型,這些模型本身也有其優(yōu)點與缺點。拉稀模型的能力和難度參數(shù)都可以進行統(tǒng)計分析,而未使用猜測度與區(qū)分度,多參數(shù)邏輯斯締模型使用的范圍要廣的多,但參數(shù)卻不存在充分的統(tǒng)計量。在邏輯斯締模型中,如果參數(shù)選擇太多,估計過程會更加復(fù)雜,估計出的結(jié)果也會存在著較大的偏差。在做數(shù)據(jù)與模型的擬合檢驗時,首先要作單維性假設(shè)的檢驗。項目反應(yīng)理論本身就是建立在單維性假設(shè)基礎(chǔ)上的,主要是假定這些項目是為了測試某一種主要能力使用的,只有與單維性符合的項目,才能為被試的能力作出正確的估計。其次是準(zhǔn)備模型參數(shù)不變性的檢驗。當(dāng)驗證能力不變性時,能夠?qū)Σ煌臏y驗試題進行檢測,這個時候最后的結(jié)果除去系統(tǒng)本身的誤差值,將會與實際水平?jīng)]有明顯差異。最后進行模型預(yù)測能力的檢驗。采用計算機模擬法與標(biāo)準(zhǔn)殘差進行結(jié)合對比,對模型的能力進行檢驗。首先設(shè)定模型可以使用,利用這個模型測試出來的參數(shù),設(shè)定使用三參數(shù)邏輯斯締模型,計算出真實數(shù)據(jù)的殘差,之后對每一種能力的被試者的反饋情況進行預(yù)測。最終檢驗預(yù)測與實際是否相符,如果采用直方圖的形式進行對比,效果將會更加明顯[4]。
2.2 題庫建立
題庫是現(xiàn)代計算機自適應(yīng)測驗的基礎(chǔ)。在題庫的建立過程中,需要估計題目的參數(shù)與等值測驗。IRT參數(shù)的估計主要是根據(jù)被試者的反應(yīng)矩陣,來判斷出被試者的能力參數(shù)與不同題目的參數(shù)。參數(shù)估計過程中多采用極大似然估計,如果不能正確反映出能力與題目的特征,則可以使用貝葉斯參數(shù)估計法來進行估計。這兩種主要的估計方法形成了統(tǒng)計學(xué)的兩大派別。貝葉斯學(xué)派中,主要認(rèn)為概率支持的信息總體與樣本信息要進行使用外,還需要對信息進行驗證,稱為先驗概率。
題目的建立過程中,以上參數(shù)的確定工作非常重要,否則題庫無法真正起到自適應(yīng)檢測的效果。在題目的參數(shù)確定后,就可以進行題庫建立了??梢圆捎靡韵路椒?,把能力已知的被試者去做題目,對不同的參數(shù)進行估計,編入題目庫。對題目的參數(shù)確定后,可以進行題目的質(zhì)量分析,對題目進行篩選后入庫處理。這時對題目的區(qū)分度越高越好,如果題庫總體上區(qū)分度不高的話,也就無需此步驟了。對于不能夠正常收斂的題目,需要放棄,畢竟所占數(shù)量不多,質(zhì)量會差一些[5]。
2.3 施測估計被試者的能力參數(shù)
當(dāng)具備了高質(zhì)量的題庫時,就可以進行施測了,從而可以對被試者的能力進行判定,是計算機自適應(yīng)測驗的主要環(huán)節(jié),可以分為探查階段與精確估計階段。
在試探階段主要是為了對被試者的能力進行初步了解,首先我們不知道被試者的真正水平,可以對任何難度的題目進行作業(yè),但某項研究表明,如果第一道題恰恰與本身的能力相近時,則可以使用最短的時間達到穩(wěn)定的能力值,所以需要提前進行少量題目試答,從而對被試者的能力進行初步了解。在精確估值階段,是為了真正體現(xiàn)出被試者的能力,是最為核心的部分,符合因人而測的原則。在自適應(yīng)測驗中,為了適應(yīng)被試者的能力水平,需要提供最大信息量的題目,按照最大化原則進行選擇題目,針對不同的能力的測試者,題目所提供的信息量會有所不同,最大的信息量值時,能力值就與被測者的能力值相符。另外在終止規(guī)則方面,需要注意幾種方法。一種是固定的測驗長度,另外是固定能力估計的標(biāo)準(zhǔn)差,最后是對連續(xù)兩次測驗的能力值,結(jié)果小于特定值時就終止測驗[6]。
3 計算機自適應(yīng)測驗系統(tǒng)實現(xiàn)
3.1 計算機自適應(yīng)測驗系統(tǒng)流程圖
通過相關(guān)的理論,結(jié)合某公共課作為數(shù)據(jù)來源,對自適應(yīng)測驗系統(tǒng)進行實施,系統(tǒng)功能主要為了實現(xiàn)考試的公平性,讓現(xiàn)代教師不再從事繁忙的考試工作,提高效率。計算機自適應(yīng)測驗流程如下圖所示。
圖1 計算機自適應(yīng)測驗系統(tǒng)流程圖
3.2 系統(tǒng)模塊的實現(xiàn)
3.2.1 題庫管理模塊
題庫對于計算機考試來講是十分重要的,對于自適應(yīng)測驗中,也是相當(dāng)重要的一個環(huán)節(jié)。首先要對IRT選擇與題目參數(shù)的確定。從2009年在山東某大學(xué)獲得的某公共課的能力了解中,獲得了總共1300份答卷,可以為計算機自適應(yīng)測驗提供數(shù)據(jù)支持。經(jīng)過對這些數(shù)據(jù)的分析,發(fā)現(xiàn)它們與三參數(shù)邏輯斯締模型擬合相對好一些,而且二十個題目參數(shù)都在允許范圍內(nèi),所以需要把二十個題目組織入庫,建立了小型題庫[7]。
3.2.2 考試管理模塊
計算機自適應(yīng)測驗的呈現(xiàn)同樣也非常重要,如何去呈現(xiàn)、選題、終止都需要進行考試管理模塊的開發(fā)與管理,利用微軟的.NET平臺,調(diào)用Oracle數(shù)據(jù)庫來對后臺操作進行支持。首先要對用戶的登陸界面與注冊界面進行設(shè)計,主要是為了讓所有的被測者都能夠在下次登陸后看到自己曾經(jīng)做過哪些題目,從而對錯題進行關(guān)注。在探測階段,為被試者準(zhǔn)備了三個題目,從而可以初步獲得被試者的初始能力值,確保在精確測量階段可以獲得能力值與較短的測驗長度。在對系統(tǒng)進行考試終止時,需要控制其結(jié)束,在進行某公共課的計算機自適應(yīng)測驗中,由于題庫數(shù)量有限,存在著一定的局限性,所以需要采取固定能力估計的標(biāo)準(zhǔn)差與固定測驗長度結(jié)合法來對測驗結(jié)束進行控制。
4 結(jié)束語
本文對項目反應(yīng)理論的原理與方法進行了描述,對計算機自適應(yīng)測驗的重要環(huán)節(jié)進行分析,并結(jié)合某公共課實例對系統(tǒng)的實用性進行操作。在技術(shù)探究中探討了數(shù)據(jù)與模型的擬合檢驗,采用貝葉斯最大后驗估計的方法對被試者的能力進行估計,并結(jié)合開發(fā)的系統(tǒng)對理論進行實踐。在計算機自適應(yīng)測驗技術(shù)應(yīng)用中,還需要通過不斷的分析與經(jīng)驗總結(jié),對不完善之處進行修訂,通過不斷嘗試與創(chuàng)新,設(shè)計出最貼近實際的測驗方法,為現(xiàn)代教育的進步提供更多的思路。
參考文獻:
[1]姚敏華.基于項目反應(yīng)理論的計算機化自適應(yīng)測試a分層法的優(yōu)化[D].上海交通大學(xué),2011.
[2]劉偉.計算機自適應(yīng)測驗技術(shù)的探索與實現(xiàn)[D].山東師范大學(xué),2011.
[3]李銘勇,張敏強,簡小珠.計算機自適應(yīng)測驗中測驗安全控制方法評述[J].心理科學(xué)進展,2010(08):1339-1348.
[4]路鵬.計算機自適應(yīng)測試若干關(guān)鍵技術(shù)研究[D].東北師范大學(xué),2012.
[5]簡小珠,張敏強,彭春妹.計算機自適應(yīng)測驗的測試流程與測試技術(shù)[J].教育測量與評價(理論版),2011(12):9-14.
[6]喻曉鋒,秦春影,唐淑萍.自適應(yīng)形式的計算機等級考試的應(yīng)用研究[J].齊齊哈爾大學(xué)學(xué)報(自然科學(xué)版),2012(01):1-5.
[7]李華群.基于IRT計算機自適應(yīng)測試的研究[D].南昌大學(xué),2010.
作者簡介:劉昆揚(1983-),男,山東人,天津港信息技術(shù)發(fā)展有限公司,技術(shù)服務(wù)主管,工程師,碩士,
作者單位:天津港信息技術(shù)發(fā)展有限公司,天津 300456