路 鵬,叢 曉,宋 克,周東岱
(1.東北電力大學(xué)媒體技術(shù)與傳播系,吉林吉林132012;2.東北電力大學(xué)理學(xué)院,吉林吉林132012;3.東北師范大學(xué)教育部數(shù)字化學(xué)習(xí)支撐技術(shù)工程研究中心,長春130117)
計算機自適應(yīng)測試(Computerized Adaptive Testing,CAT)是根據(jù)被試特征進行個性化測試的一種測試形式。從測試的發(fā)展歷程可以看出,對被試進行自適應(yīng)測試的思想與測試本身一樣悠久,其原型是教育與心理學(xué)領(lǐng)域中進行診斷的口試[1],教師遵循可比性原則對被試進行測試或診斷,后來產(chǎn)生的各種項目反應(yīng)模型都源自于這種樸素的想法。
自適應(yīng)測試最早的例子可以追溯到20世紀初期由心理學(xué)家Binet.Alfred開發(fā)的一個智力測試,該測試對被試的反應(yīng)與項目(item)選擇之間的關(guān)系進行了精確的描述。他認為,對于一個標準化的測試,只要采用相同的項目選擇規(guī)則,就可以對所有被試進行合理的評價,沒必要為所有被試都提供相同的項目。因此,Binet測試最主要的創(chuàng)新就是直觀的反應(yīng)模型[2]。后來心理學(xué)家Louis L.Thurstone[3]在對度量化方法的研究中便使用了Binet測試的數(shù)據(jù)集。但是,此時教育和心理測試領(lǐng)域已經(jīng)廣泛采用基于經(jīng)典測驗理論的群體測試,并使用觀測分數(shù)來維護分數(shù)的可比性。這種測試形式便于實施,但是卻不允許任何適應(yīng)性的改變。對被試來說,測試中包含的項目太難或者太簡單,結(jié)果導(dǎo)致測試效率較低。
自適應(yīng)測試的發(fā)展依賴兩個方面的不斷發(fā)展。最主要的是測試基礎(chǔ)理論的發(fā)展,這方面產(chǎn)生了項目反應(yīng)理論(Item Response Theory,IRT)。IRT利用項目特征曲線(ICC)對被試在項目上的反應(yīng)概率分布進行了解釋。第一個模型是由Lord提出的雙參數(shù)正態(tài)卵形模型(Normal Ogive Model,NOM)[4],該模型采用正態(tài)分布函數(shù)來描述ICC,如下式所示:
式中:θ表示被試的能力參數(shù);區(qū)分度ai表示和ICC拐點處的斜率K成正比的值;難度bi表示ICC拐點處相對應(yīng)的能力值。NOM曲線的形狀和位置由拐點和斜率兩個因素決定,曲線拐點處的斜率越大表示項目的區(qū)分度越高,而拐點的位置越靠右表示項目的難度越大。
另外一個著名的IRT模型是Rasch模型[5],該模型中包括能力參數(shù)θ和一個項目難度參數(shù)b,它將被試在一個項目i上的正確反應(yīng)概率表示為:
式中:θ表示被試的能力參數(shù);bi為項目i的難度參數(shù),通過校驗,bi已被估計的足夠精確。
除了以上模型,此后Birnbaum又提出了Logistic模型、Lazarsfeld和Henry提出了潛在線性模型和潛在距離模型、Samejima提出了連續(xù)反應(yīng)模型、Masters提出了部分記分模型等等。IRT的不斷發(fā)展為自適應(yīng)測試提供了堅實的理論基礎(chǔ)。
除了基礎(chǔ)理論,另一方面是計算機技術(shù)的發(fā)展。早在20世紀70年代,學(xué)者們便對使用計算機實施自適應(yīng)測試進行了有意義的嘗試。例如,美國明尼蘇達大學(xué)的David Weiss對CAT的研究做了開創(chuàng)性的工作[2],而Lord則對計算機化的項目參數(shù)估計和項目選擇方法進行了研究。自80年代以來,隨著計算機技術(shù)的發(fā)展以及計算能力的不斷提高,使其作為測試工具成為可能。使用計算機便于測試中采用復(fù)雜的統(tǒng)計方式來估計被試的能力水平并根據(jù)能力水平實時的從項目池(item pool)中選擇最佳的項目。而對自適應(yīng)測試的大規(guī)模應(yīng)用則出現(xiàn)于90年代中期,其不僅應(yīng)用在心理測試上,也廣泛應(yīng)用于大學(xué)入學(xué)資格考試、職業(yè)認證以及軍事等領(lǐng)域中。
隨著CAT在實際中的深入應(yīng)用,學(xué)者們對于基礎(chǔ)理論以及實施過程中面臨的實際情況進行了更加深入的思考,不斷的推動了測試基礎(chǔ)理論和計算機技術(shù)的深入應(yīng)用兩個方面不斷的向前發(fā)展。下面我們對近年來的研究進展進行總結(jié)并對未來的發(fā)展趨勢進行展望。
近年來,隨著IRT在自適應(yīng)測試中的應(yīng)用,為了對被試進行更加科學(xué)的評價,學(xué)者們通過添加重要的參數(shù)、修改IRT的基本假設(shè)等方式對項目反應(yīng)模型進行不斷的完善,下面對主要的研究內(nèi)容進行詳細介紹。
通常情況下,被試在測試項目上的反應(yīng)時間(response time,RT)不同,更難的項目需要更多的時間。而自適應(yīng)算法往往為能力水平高的被試提供更加耗時的項目,結(jié)果導(dǎo)致測試不夠科學(xué)合理。因此,在CAT中通過自動記錄被試的RT,將RT的差異體現(xiàn)到測驗結(jié)果之中是新的研究重點。這方面代表性的成果是由Tianyou Wang和Bradley A.Hanson提出的四參數(shù)Logistic計時模型[6],具體形式如下式所示:
式中:ρm表示被試m的速度參數(shù),該值越大表示被試m在解決項目時所需時間越多;di是項目i的速度參數(shù),該值越大表示正確解決項目i所需要的時間越多;tmi是被試m在項目i上的反應(yīng)時間。
通過模型可知,當速度參數(shù)ρm和di不變,則隨著項目反應(yīng)時間tmi增大,正確反應(yīng)概率P隨之增大;而在項目反應(yīng)時間tmi一定的情況下,ρmdi越大則被試m正確作答項目i的概率越小;當tmi趨于無窮時,指數(shù)收斂于a(θ-b)。這意味著,即使當時間無限時也并不能保證被試一定會答對項目。因此,該模型更加適用于能力測試。通過該模型可以對限時的能力測試進行合理的項目參數(shù)估計、能力估計,并使能力估計快速收斂于真實能力水平。此外,也可以研究被試是否可以解決問題及精度信息和最優(yōu)的測試策略。
應(yīng)當指出,該模型僅僅是一個測試過程的部分描述,更完整的描述應(yīng)該包括RT在項目池中所有項目上的分布,形成更加合適的統(tǒng)計模型。因此,部分學(xué)者提出了在能力參數(shù)θ和速度參數(shù)ρ的聯(lián)合分布基礎(chǔ)上,使用分層框架實現(xiàn)了提高能力估計的收斂速度[7],以及基于被試的項目反應(yīng)時間遵循正態(tài)分布的假設(shè),提出了對數(shù)正態(tài)RT模型[8]。
使用RT的另一個好處是可以檢查CAT中可能存在的異常,例如項目的功能差異、項目中答案的欺騙、項目的先前知識等。對于這些行為,基于傳統(tǒng)模型的測試失去了功效,而RT在異常行為上面包括了更多的信息,因此不受此影響[9]。帶參數(shù)結(jié)構(gòu)的RT模型允許我們根據(jù)被試的實際速度調(diào)整被試的RT,并且檢查他們對測試中的項目反應(yīng)結(jié)果是否符合時間敏感模式。所以,即使對于具有豐富經(jīng)驗的作弊者,都不可能找出有規(guī)律的模式。
到目前為止,大多數(shù)可操作的CAT都是基于二級評分項目反應(yīng)模型的基礎(chǔ)上,用以處理客觀題[10]。而在實際中,測驗更重視被試在主觀題上的反應(yīng),許多測試項目都是多等級評分的項目,如計算題、論述題等。事實證明,使用多級評分項目比使用二級評分項目可以獲取更多的被試信息[11]。因此,采用多點計分模型更加合理。最為著名的多點計分模型為Samejima提出的等級反應(yīng)模型(Graded Response Mode,GRM)[12],該模型描述如下:設(shè)項目 i的滿分為S(S ≥ 1),則有S+1 個計分點,x=0,1,2,...,S;表示能力為 θ的那一類被試在項目i上得分不低于x分的概率,令所有得分大于等于x的被試為“通過”(1分),得分小于x的被試為“不通過”(0分),那么就成為二值評分中的項目特征函數(shù);再令在這個模型下,使用兩個階段來獲得被試在某一個確定項目上分類得分的概率。
(1)第一個階段,計算具有能力水平 θ的被試在項目 i上可以接受分數(shù)的累計概率,取為 3PLM:
式中:bix為項目i與等級x相關(guān)的一個閾值參數(shù),該參數(shù)符合約束bix-1<bix<bix+1。對于一個項目,所有的反應(yīng)曲線共享相同的區(qū)分度ai。
(2)第二個階段,獲得被試在一個給定等級上的反應(yīng)概率。這個概率通過累積概率的相減來獲得,如下所示。
圖1和圖2分別展示了一個三等級項目的運算特征曲線和項目等級反應(yīng)曲線(a=2,b1=-1,b2=0,b3=1.5,c=0.1)。
圖1 項目運算特征曲線
圖2 項目的等級反應(yīng)曲線
基于多級評分的IRT模型突破了過去項目反應(yīng)模型只能用于二級評分項目的限制。因此,學(xué)者們越來越傾向于用多級評分替代傳統(tǒng)的二級評分方法,也引起了更為復(fù)雜的評分模型的研究。GRM比較適用于一般主客觀題的評分形式,數(shù)學(xué)處理較為方便。在未來的幾十年中,GRM在應(yīng)用和理論探索方面必定會有更加廣闊的前景,具有較好的推廣價值。
隨著IRT在實際工作中的廣泛運用,人們漸漸發(fā)現(xiàn)傳統(tǒng)IRT的單維性假設(shè)與許多心理或教育測驗的實際情況并不相符[13]。測驗數(shù)據(jù)的多維性與人在完成一項測驗任務(wù)時需要多種能力的共同配合是相符的,很少有測驗只測量單一能力或特質(zhì)[14]。因此,對多維項目反應(yīng)理論(Multidimensional Item Response Theory,MIRT)的研究顯得十分必要[15],研究者們逐漸轉(zhuǎn)移到多維項目反應(yīng)模型。盡管這類模型在20世紀60年代就已被提出,然而由于其統(tǒng)計模型復(fù)雜,需要計算能力強的設(shè)備支持,所以在當時很難使用。但是,隨著統(tǒng)計學(xué)和計算機技術(shù)的發(fā)展,這種情況發(fā)生了巨大的變化。所以,近年來對多維項目反應(yīng)理論的研究和使用逐漸流行起來。
Reckase和Mckinley在回顧以往大量MIRT模型基礎(chǔ)上,提出了當前最實用的Logistic多維項目反應(yīng)模型,該模型的項目反應(yīng)函數(shù)為[16]:
式中:θj=(θj1,...,θjk,...,θjm)為被試j的m維能力向量參數(shù),aj=(aj1,...,ajk,...,ajm)是與測驗項目區(qū)分能力有關(guān)的項目參數(shù)向量;di是與測驗項目難度有關(guān)的參數(shù),但意義不同于單維模型中的bi;ci是項目猜測參數(shù)。
從模型中可以看出,每個被試有m維能力,而與之相應(yīng)的,每個項目有m維區(qū)分度;但每個項目只有一個猜測度參數(shù)ci和一個與項目難度相關(guān)的參數(shù)di。
所有的項目都需要顯示出令人滿意的反應(yīng)模型的擬合,所以自適應(yīng)測試中多維問題更具主導(dǎo),應(yīng)該對其使用多維模型進行建模以及調(diào)整自適應(yīng)測試算法。如果目標是進行診斷,那么每個維度都應(yīng)該仔細的測試。從一維到多維的自適應(yīng)測試的改變涉及一個重要的修改,即項目選擇標準。例如,基于項目信息函數(shù)的項目選擇方法在測試過程中存在多個參數(shù),由于信息函數(shù)被p×p矩陣所取代(p是項目參數(shù)的數(shù)目),項目選擇過程變得顯著復(fù)雜[17]。這不僅反應(yīng)了估計的精度,也反應(yīng)了它們的相關(guān)性。
如何把多維的實體降低到單維的標準取決于實際測試的目的。對于一個二維的測試,應(yīng)區(qū)分三個不同的目標:1)兩個維度的能力參數(shù)都是主要的,并應(yīng)該進行精確的估計;2)只有一個參數(shù)是主要的,另一個是干擾參數(shù);3)對兩個參數(shù)進行合并,如它們的(加權(quán))平均。對于這些不同的目標,項目選擇以及項目池組裝的規(guī)則可以使用統(tǒng)計學(xué)中的優(yōu)化設(shè)計原則,以優(yōu)化實驗設(shè)計或取樣程序。
在CAT的實施過程中,仍面臨很多實際的問題,如:1)為了維護測試的有效性,使得項目選擇成為復(fù)雜的帶有大量約束的序列優(yōu)化問題,如何快速選擇最佳的項目;2)項目池面臨風(fēng)險高和成本高的問題,如何自動大規(guī)模生成高質(zhì)量的項目。這些問題的解決都依賴于計算機技術(shù)深入應(yīng)用于自適應(yīng)測試的實施過程中。
從測量學(xué)的視角來看,考慮到測試有效性,實施CAT僅需滿足內(nèi)容要求。而在應(yīng)用中,自適應(yīng)測試也必須滿足測試安全、測試全面等許多實際的要求。相對于使用特別的方法逐一處理這些具體的要求,近年來學(xué)者們思考采用通用的方法同時處理任何類型的要求。這類方法把測試要求作為項目選擇方法的約束,把自適應(yīng)測試作為受約束的組合優(yōu)化問題的實例[18]。下面,我們對當前幾種主要的通用約束處理方法進行論述。
(1)加權(quán)離差模型方法
加權(quán)離差模型方法(Weighted deviation modeling,WDM)是由Swanson Stocking提出的[19],該方法是一種啟發(fā)式的項目選擇方法。項目選擇的目標函數(shù)定義為加權(quán)離差的和WDM,如下式所示:
式中:K為約束的數(shù)目,C為項目和約束之間的關(guān)系矩陣,wk表示約束k的權(quán)重,wI表示測試信息量的權(quán)重;lk和uk代表約束k的下界和上界;dlk為相對于約束下界的差額,duk為相對于約束上界的超額,dI為相對于目標測試信息量It的差額;elk為相對下界的超額,euk為相對于上界的差額。而WDM受到上界約束uk、下界約束lk以及最大信息量約束It三個約束的限制。
WDM方法把項目選擇的約束問題轉(zhuǎn)化為數(shù)學(xué)規(guī)劃,通過不斷的計算上界和下界來選擇合適的項目。在WDM方法中,所有的約束差額與信息量差額的和作為總體的目標函數(shù)。然而,各種約束差額和信息差額并不在相同的尺度上,如曝光率約束被表達為百分比,而內(nèi)容約束被表達為數(shù)量,因此不應(yīng)在一起進行比較。此外,該方法需要不斷的調(diào)整各種邊界以達到期望的結(jié)果,這樣非常耗時[20]。
(2)分層方法
分層方法是由伊利諾伊大學(xué)香檳厄巴納分校教育心理系張華華教授等提出的方法[18]。他們針對CAT中存在的項目曝光率不均勻以及測試內(nèi)容平衡問題,先后提出了STR_A分層法、STR_B分層法以及STR_C分層法。
1)STR_A分層法。區(qū)分度高的項目在測試中的曝光率比較高,因此,STR_A分層法的思路是根據(jù)項目區(qū)分度對項目池進行分層,然后把測試劃分為幾個相應(yīng)的階段。研究表明,在保證測試精度的情況下,該方法提高了低區(qū)分度項目的使用率[21]。但是,由于項目的區(qū)分度參數(shù)和難度參數(shù)經(jīng)常是正相關(guān)的,該方法仍存在部分項目曝光率過高的問題。
2)STR_B分層法。在STR_A方法的基礎(chǔ)上,學(xué)者們又提出了STR_B方法[22]。在該方法中,按照項目難度把項目池分為若干塊,并依照項目區(qū)分度把各個塊中的項目合并為不同的層。這樣,所產(chǎn)生的項目池在各層中的難度分布類似。研究表明,在降低項目曝光率和提高項目池使用率方面,STR_B方法優(yōu)于STR_A方法,但是仍未解決內(nèi)容平衡問題。
3)STR_C分層法。為了解決內(nèi)容平衡問題,學(xué)者們提出了STR_C[23]。該方法在對項目池進行分層的過程中同時考慮了項目區(qū)分度、項目難度和測試內(nèi)容三個因素,根據(jù)測試內(nèi)容把一個項目池分為若干組;然后在每個組中使用STR_B方法來獲得所有階層。這樣,設(shè)計的項目池在各層的內(nèi)容覆蓋與整個項目池是相似的,以此來解決內(nèi)容平衡問題。
分層方法在曝光控制和內(nèi)容平衡方面具有很大的進步。然而,測試之前需要對項目池進行排序、分組、分塊、分層和組裝等操作,因此需要大量的計算時間。當面對不同的被試對象以及項目池更新時需要重新排序以及組裝等,使得教師把過多的精力用在前期的準備中,不便于實施。
(3)Shadow-test方法
針對項目選擇過程中所面臨的約束問題,van der Linden等提出了Shadow-test方法[24]。該方法首先從項目池中選擇一個完整的測試,它滿足所有的約束;然后根據(jù)被試的初始能力水平θ0從這個測試中選擇最佳的項目;接著記錄被試對項目的反應(yīng)并對其能力水平進行重新估計;根據(jù)新的能力水平θ1重新組裝測試;重復(fù)以上步驟直到測試結(jié)束。
完整的CAT被不斷重組裝為Shadow-test,在實施過程中,它們僅作為項目選擇的中間步驟,如圖3所示。
圖3 使用shadow-test方法進行自適應(yīng)測試
由于每個Shadow-test滿足了所有的約束,并在測試過程中從Shadow-test中使用了最佳的項目,所以給定約束下自適應(yīng)測試也是最佳的。研究表明,由于該方法選擇最優(yōu)項目的速度遠遠快于無約束的自適應(yīng)測試[24]。此外,學(xué)者們也對控制被試速度[25]、保證項目池中項目曝光率[26]等很多實際的約束進行了研究。
(4)循環(huán)題庫法
針對約束問題,部分研究者從項目池構(gòu)建的角度提出了循環(huán)題庫方法(Rotating Item Pools,RIP)[27]。該方法通過兩個階段來構(gòu)建題庫來處理所有的約束。
1)第一階段:把題庫中的項目分配到臨時集合中。通過目標函數(shù)計算題庫中任一對項目之間差異并最小化,把題庫劃分為兩個相似的臨時集,以此類推。具體的,可以采用順序分配或者采用啟發(fā)式方法同時進行分配。
2)第二階段:把臨時集合中的項目分配到子題庫中。根據(jù)不同的使用目的,可以構(gòu)造非重疊題庫或重疊題庫。具體方法可以采用隨機分配方法或者數(shù)學(xué)規(guī)劃方法。
循環(huán)題庫法從題庫的設(shè)計角度來解決約束問題。在測試前,通過把總題庫劃分為各種參數(shù)幾乎相同的子題庫為被試使用。在測試過程中,系統(tǒng)從不同的子題庫中為被試選擇合適的項目。然而該方法也存在一些問題,如測試開始前需要花費大量的時間在子題庫的劃分上以及需要針對被試的規(guī)模設(shè)計子題庫的數(shù)目。
(5)最大優(yōu)先指數(shù)法
最大優(yōu)先指數(shù)法(Maximum Priority Index,MPI)[28]把所有的約束變量進行加權(quán)之后與項目最大信息量MI的值相乘,形成積PI。用這個最大化的積PI代替MI作為衡量項目的指標,乘積越大則項目的優(yōu)先級越高。通過下式計算項目的優(yōu)先指數(shù):
式中:K為所有約束的總數(shù);C表示項目與約束的關(guān)聯(lián)矩陣;Ii為項目i的信息量;其余部分為與該項目相關(guān)約束的權(quán)重積,fk表示約束k的剩余配額,wk表示約束k的權(quán)重。在實際中,采用兩階段的項目選擇框架來處理每個靈活的約束(同時涉及上界與下界)。在第一個階段處理下界,在第二個階段處理上界,而每個階段中計算fk的方法不同。
MPI方法可以處理多種約束,計算的效率也比較高。重要的是,該方法中的目標函數(shù)為所有約束的fk與信息量的乘積,因此所有的優(yōu)先指數(shù)都是在相同的尺度上,便于項目之間的比較。然而,作為一種啟發(fā)式的方法,它不能保證所選擇的項目一直都是最佳的。
下面從約束處理、方法類型、復(fù)雜程度和精度影響四個方面對以上幾種方法進行對比,結(jié)果如表1所示。
表1 項目選擇方法對比分析
通過以上對比分析可以看出,啟發(fā)式方法可以同時處理項目曝光率、內(nèi)容平衡等多種約束,而其它方法主要針對部分約束問題進行了解決;在實施的復(fù)雜程度上,這類方法也比較簡單;由于考慮到多種約束問題,啟發(fā)式方法在項目選擇時的計算量比較大??傮w來說,啟發(fā)式方法是約束處理方面比較好的方法,是以后的研究重點。
在傳統(tǒng)的測試中,需要針對一次具體的測試開發(fā)相應(yīng)的項目并進行預(yù)測試。如果CAT也按照這樣的思路,那么每一次新的測試都需要更換整個項目池,這樣會涉及大量的資源(人力、財力等);而如果被試連續(xù)使用同一個項目池進行測試,結(jié)果會導(dǎo)致安全風(fēng)險。對于這個問題,早期的解決方案是使用項目曝光控制技術(shù)來保證測試安全以及更好地利用項目池。但是學(xué)者們隨后意識到,這類方法雖然可以提高項目池中項目的使用率,但往往很難使用[29]。一個更加根本的解決辦法是采用一定的規(guī)則自動生成大規(guī)模的、高質(zhì)量的項目。早在20世紀60年代,學(xué)者們就已經(jīng)對基于規(guī)則的項目生成技術(shù)進行了研究[30]。而隨著計算機技術(shù)的發(fā)展,采用計算機化的方法自動生成項目并直接用于CAT中的可能性促使學(xué)者們對這一領(lǐng)域進行了深入的研究。
目前,學(xué)者們已經(jīng)研究了多種類型的項目自動產(chǎn)生方法,最具代表性的方法是使用項目模板[31]。
在這種方法中,通過選擇出一批高質(zhì)量的項目成為模板,每個項目中的一些元素(例如:題干中的部分內(nèi)容、正確答案等)都被相應(yīng)的集合所替代。通過目標并利用規(guī)則形成若干項目族(item family),這樣,整個項目池便由若干項目族組成,如圖4所示。
圖4 項目池中的項目族
實際中,采用兩階段的項目選擇過程進行自適應(yīng)測試:首先根據(jù)當前估計的被試能力θ,利用項目池中不同項目族之間的差異選擇一個最佳的項目族;再從這個族里隨機產(chǎn)生一個項目提供給被試進行測試,這樣做的目的是期望產(chǎn)生較小的族內(nèi)部的差異。因此,需要把項目反應(yīng)模型修改為一個具有兩級結(jié)構(gòu)的模型。設(shè)項目族為f=1,…,F(xiàn),族f中的項目表示為if。則對于Rasch模型,適當?shù)膬杉壗Y(jié)構(gòu)表示為:
式中:每一個族f的難度參數(shù)b為正態(tài)分布(平均值μf、方差)。這樣,可以通過參數(shù)μf來獲得不同項目族之間的差異,而通過參數(shù)獲得每個族內(nèi)部項目之間的差異。
基于規(guī)則的項目生成方法一個未解決的問題是項目前測的代價。部分研究者認為,由于從一個項目的參數(shù)自動產(chǎn)生其它項目的參數(shù),所以可以省去一些前測活動。而實際上,由于自動生成的項目涉及更加廣泛的項目審查、項目校驗以及不同項目族之間的項目參數(shù)差異很大,所以其代價遠遠高于由教師自主開發(fā)的項目。而在這個模型下,項目校驗就轉(zhuǎn)變?yōu)轫椖孔逍r?。因此,對項目校驗代價的節(jié)省與項目樣本的數(shù)量以及從族中生成項目的總數(shù)兩方面的差異直接相關(guān)。
目前,對基于規(guī)則的項目產(chǎn)生的研究包括,通過一組有限的規(guī)則可以生成大量的測試項目并進行圖形推理[32],采用貝葉斯估計方法進行項目族校驗進行了研究[33],將三參數(shù)Logistic的項目池建模為項目族集合的方法[34]。因為廣闊的應(yīng)用前景,基于規(guī)則的項目生成方法的研究逐漸成為CAT領(lǐng)域中的一個新的研究熱點[35]。
隨著項目反應(yīng)理論以及計算機技術(shù)兩個方面的發(fā)展,也不斷促進了CAT的發(fā)展,取得了很多重要的研究成果。通過項目反應(yīng)理論解釋了被試在項目上的反應(yīng)概率分布,實現(xiàn)了根據(jù)被試的反應(yīng)從項目池中適應(yīng)性的項目選擇以及自動的進行能力參數(shù)估計,卻并有失去分數(shù)的可比性;而通過計算機技術(shù),使得采用復(fù)雜的統(tǒng)計方式進行實時的被試能力估計和選擇最優(yōu)的項目成為可能。
雖然自適應(yīng)測試取得了長足的進步,但在多年的實際應(yīng)用中也逐漸暴露了一些問題和不足,有待于進一步研究和完善,主要集中在以下幾個方面:
(1)更加合理的項目反應(yīng)模型。針對大多數(shù)測試項目均是多級評分、在項目解決上被試會運用多種能力、被試的反應(yīng)時間也體現(xiàn)出了被試能力上的差異等實際情況,不論是等級反應(yīng)模型、計時模型,還是多維項目反應(yīng)理論都僅從一個側(cè)面提出了解決方案,還沒有一個統(tǒng)一的模型來解決這些問題。因此,有必要結(jié)合認知心理學(xué)、統(tǒng)計學(xué)等對項目反應(yīng)模型進行更加深入的研究,提出更加符合被試特征并且能夠?qū)嶋H應(yīng)用的項目反應(yīng)模型。
(2)通用的約束處理方法。像標準化的線性測試一樣,為了維護測試的有效性,CAT不得不滿足廣泛的約束。相對于使用特別的算法來注意處理各個約束,應(yīng)提出一種通用的約束處理方法,并且仍可以保證比較高的執(zhí)行效率,不影響用戶體驗。人工智能領(lǐng)域的啟發(fā)式算法計算高效,可以避免計算量過大和不可行性兩個問題,為約束處理提供了可行的解決方案。雖然該方法得到最終結(jié)果不一定是“最優(yōu)”的,但通過適當延長測試長度仍可以保證測試精度。
(3)項目池的組織與建設(shè)。采用項目模板并基于規(guī)則自動的生成高質(zhì)量的項目以及通過分析測試記錄對項目的參數(shù)進行維護,可以降低項目的開發(fā)成本;此外,采用本體技術(shù)構(gòu)建領(lǐng)域本體,完整描述測試領(lǐng)域的詳細知識點或內(nèi)容之間的詳細關(guān)系。在此基礎(chǔ)上,教師根據(jù)構(gòu)建的本體把開發(fā)的項目分配的相應(yīng)的知識點上。通過兩者的結(jié)合,以保證測試項目與內(nèi)容域的關(guān)系更加的合理。
(4)認知診斷與評估。認知診斷與評估是CAT的一個重要發(fā)展方向,通過診斷不僅可以獲得常規(guī)的測試分數(shù),而且在評價被試心理特質(zhì)方面,提供了更加細致的評估結(jié)果。對此,可以采用多維項目反應(yīng)理論與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法形成新的認知診斷模型,實現(xiàn)對被試特定認知領(lǐng)域的技能和知識、知識結(jié)構(gòu)和認知過程的測量。
以上是CAT在未來一個階段內(nèi)的發(fā)展趨勢,如何在實際中更好的實施自適應(yīng)測試還有待進一步的研究和探索。我國《教育信息化十年發(fā)展規(guī)劃(2011-2020)》發(fā)展任務(wù)部分中的提高教育管理公共服務(wù)質(zhì)量與水平明確指出“…,完善國家教育考試評價綜合信息化平臺,支持考試招生制度改革…”。因此,通過對CAT基礎(chǔ)理論與相關(guān)支撐技術(shù)的深入研究,促進CAT的發(fā)展,對于學(xué)生綜合素質(zhì)的評價以及教育教學(xué)的發(fā)展具有重要的現(xiàn)實意義。
[1]L·克羅克,J·阿爾吉納.經(jīng)典和現(xiàn)代測驗理論導(dǎo)論[M].上海:華東師范大學(xué)出版社,2004.
[2]WimJ.van der Linden.Some New Developments in Adaptive Testing Technology[J].Journal of Psychology,2008,216(1):3-11.
[3]Thurstone,L.L.A method of scaling educational and psychological tests[J].Journal of Educational Psychology,1925,16(7):433-451.
[4]路鵬,周東岱,鐘紹春,叢曉.面向多類終端的計算機自適應(yīng)測試系統(tǒng)的設(shè)計與實現(xiàn)[J].現(xiàn)代教育技術(shù),2012,22(6):88-92.
[5]Rasch,G.Probabilistic models for some intelligence and attainment tests[M].Chicago:University of Chicago Press,1960.
[6]Tianyou Wang,Bradley Allanson.Development and calibration of an Item Response Model that Incorporates Response Time Applied Psychological Measurement[J].2005,29(5):323-339.
[7]Van der Linden,W.J.Using response times for item selection in adaptive testing[J].Journal of Educational and Behavioral Statistics,2008,33(1):5-20.
[8]Van der Linden,W.J.A lognormal model for response times on test items[J].Journal of Educational and Behavioral Statistics,2006,31(2):181-204.
[9]Van der Linden,W.J.,&Guo,F(xiàn).Bayesian procedures for identifying aberrant response-time patterns in adaptive testing[J].Psychometrika,2008,73(3):365-384.
[10]羅芬,丁樹良,王曉慶.多級評分計算機化自適應(yīng)測驗動態(tài)綜合選題策略[J].心理學(xué)報,2012,44(3):400-412.
[11]陳平,丁樹良,林海菁,等級反應(yīng)模型下計算機化自適應(yīng)測驗選題策略[J].心理學(xué)報,2006,38(3):461-467.
[12]Samejima,F(xiàn).Estimation of ability using a response pattern of graded scores[J].Psychometrika,1970,35(1):139-139.
[13]Reckase,M.D.Multidimensional Item Response Theory[M].New York:Springer-Verlag,2009.
[14]康春花,辛濤.測驗理論的新發(fā)展:多維項目反應(yīng)理論[J].心理科學(xué)進展,2010,18(3):530-536.
[15]涂冬波,蔡艷,戴海琦,等.多維項目反應(yīng)理論:參數(shù)估計及其在心理測驗中的應(yīng)用[J].心理學(xué)報,2011,43(11):1329-1340.
[16]Reckase,M.D.,& McKinley,R.L.Some Latent Trait Theory in a Multidimensional Latent Space[M].Iowa City,IA:American College Service.1982.
[17]Mulder,J.,& van der Linden,W.J.Multidimensional adaptive testing with optimal design criteria for item selection[J].Psychometrika,2009,74(2):273-296.
[18]路鵬,周東岱,鐘紹春,等.基于模擬退火算法的計算機自適應(yīng)測試項目選擇方法研究[J].計算機應(yīng)用與軟件,2012,29(10):175-179.
[19]Swanson,I.,& Stocking,M.I.A model and heuristic for solving very large item selection problems[J].Applied Psychological Measurement,1993,17(2):151-166.
[20]Leung C.K.,Chang,H.H.andHau,K.T.Computerized adaptive testing:A mixture item selection approach for constrained situations[J].British Journal of Mathematical& Statistical Psychology,2005,58(2):239-257.
[21]Hau,K.T.,& Chang,H.Item selection in computerized adaptive testing:Should more discriminating items be used first?[J].Journal of Educational Measurement,2001,38(3):249-266.
[22]Chang,H.,Qian,J.,& Ying,Z.a-stratifiedmultisage CAT with b-blocking[J].Applied Psychological Measurement,2001,25(4):333-341.
[23]Yi,Q.,& Chang,H.a-stratified CAT design with content blocking[J].British Journal of Mathematical and Statistical Psychology,2003,56(2):359-378.
[24]van der Linden,W.J.Linear models for optimal test design[M].New York:Springer-Verlag,2005.
[25]van der Linden,W.J.,Breithaupt,K.,Chuah,S.C.,& Zhang,Y.Detecting differential speededness in multistage testing[J].Journal of Educational Measurement,2007,44(2):117-130.
[26]van derLinden,W.J.,& Veldkamp,B.P.Conditional item exposure control in adaptive testing using item-ineligibility probabilities[J].Journal of Educational and Behavioral Statistics,2007,32(4):398-418.
[27]Ariel,A.,Veldkamp,B.P.,& van der Linden,W.J.Constructing rotating item pools for constrained adaptive testing[J].Journal of Educational Measurement,2004,41(4):345-360.
[28]Cheng,Y.,& Chang,H.The maximum priority index method for severely constrained item selection in computerized adaptive testing[J].British Journal of Mathematical and Statistical Psychology,2009,62(2):369-383.
[29]Chang,H.,& Ying,Z.a-Stratified multistage computerized adaptive testing[J].Applied Psychological Measurement,1999,23(3):211-222.
[30]Osburn,H.G.Item sampling for achievement testing[J].Educational and Psychological Measurements,1968,28(1):95-104.
[31]Irvine,S.H.,&Kyllonen,P.C.(Eds.).Item generation for test development[M].Mahwah Erlbaum,2002.
[32]Freund,Ph.A.,Hofer,S.,&Holling,H.Explaining and controlling for the psychometric properties of computer-generated figural matrix items[J].Applied Psychological Measurement,2008,32(3):195-210.
[33]Sinharay,S.,Johnson,M.S.,& Williamson,D.M.Calibrating item families and summarizing the results using family expected response functions[J].Journal of Educational and Behavioral Statistics,2003,28(4):295-313.
[34]Glas,C.A.W.,& van der Linden,W.J.Computerized adaptive testing with item cloning[J].Applied Psychological Measurement,2003,27(4):247-261.
[35]王欣,張毅.基于“項目驅(qū)動”的新型教學(xué)模式研究[J].東北電力大學(xué)學(xué)報,2012,32(2):108-111.