簡小珠 陳平
計算機化自適應(yīng)測驗 (computerized adaptive testing,CAT)是一種以項目反應(yīng)理論(item response theory,IRT)為指導(dǎo)的新興測驗形式。它在測試過程中根據(jù)考生作答情況來匹配考生能力水平的試題,實現(xiàn)因人施測。相對于傳統(tǒng)的紙筆測驗,CAT使用較少的試題就能獲得相同的測量精度,而且根據(jù)被試能力水平選擇試題,可以降低被試測試焦慮。CAT的其他優(yōu)點還包括采用標(biāo)準(zhǔn)化的測試、即時的報告測驗成績與反饋作答結(jié)果信息等[1]。
CAT國際協(xié)會于2010年成立[2],創(chuàng)辦了專業(yè)期刊Journal of Computerized Adaptive Testing[3],每 兩年舉行一次研討會議。研討會議促進(jìn)CAT研究的發(fā)展應(yīng)用。根據(jù)協(xié)會的統(tǒng)計,目前至少有二十多項CAT項目正在施測應(yīng)用中[4],CAT已被廣泛應(yīng)用于多個測量領(lǐng)域:(1)心理與教育測量領(lǐng)域,例如美國大學(xué)入學(xué)考試(SAT)、學(xué)業(yè)進(jìn)展測評(MAP)、中國臺灣地區(qū)初中升高中的基礎(chǔ)知識測試等;(2)職業(yè)資格考試領(lǐng)域,包括美國醫(yī)生護(hù)士資格考試、微軟軟件程序員認(rèn)證考試、美國軍隊職業(yè)能力傾向成套測驗(ASVABCAT)等都采用了CAT版本的測驗;(3)人格測量領(lǐng)域,CAT應(yīng)用于人格問卷的典型例子是明尼蘇達(dá)多項人格量表(MMPI)采用CAT測試的實踐與研究,F(xiàn)orbey和Ben-Porath(2007)回顧了MMPI-2使用CAT的測試應(yīng)用[5];(4)認(rèn)知診斷測量領(lǐng)域,認(rèn)知診斷CAT(CD-CAT)是目前研究熱點之一,唐小娟、丁樹良和俞宗火(2012)概述了近年來CD-CAT的理論與實踐研究情況[6];(5)在多維能力測量方面,發(fā)展出多維能力 CAT (Multidimensional Adaptive Testing),多維能力CAT可以提高自適應(yīng)測驗的內(nèi)容覆蓋面,測量多個能力維度,從而獲得更多的測驗信息和更高的測驗效率,例如 Yao、Pommerich 和 Segall(2014)及劉發(fā)明和丁樹良(2006)等人的研究[7-9]。
對于目前出現(xiàn)的眾多CAT研究,已有研究者對它們進(jìn)行了分類,Chang(2012)以及唐小娟等(2012)將CAT分為兩類[10]:以IRT為基礎(chǔ)的傳統(tǒng)CAT和以認(rèn)知診斷理論為基礎(chǔ)的認(rèn)知診斷CAT。這里對CAT進(jìn)行了更為細(xì)致的分類,從四個角度進(jìn)行闡述:
第一,從CAT所使用數(shù)學(xué)模型的角度,可分為單維CAT、多維CAT和認(rèn)知診斷CAT。單維CAT是最早的、也最為常見的CAT形式,使用單維能力IRT模型,如單、兩、三、四參數(shù)Logistic模型,等級反應(yīng)模型等。多維CAT是以多維能力IRT模型為基礎(chǔ)的CAT形式,以及多維能力IRT模型(Reckase,2009)[11],包括多維Rasch模型、三參數(shù)多維Logistic模型、多維等級反應(yīng)模型等。認(rèn)知診斷CAT是以認(rèn)知診斷模型作為基礎(chǔ)模型的CAT形式,認(rèn)知診斷CAT使用的認(rèn)知診斷模型又可以分為兩類,一類是以IRT為理論基礎(chǔ)的認(rèn)知診斷模型,如線性Logistic模型、多成分潛在特質(zhì)模型等等;另外一類是不屬于IRT范疇的認(rèn)知診斷模型,如規(guī)則空間模型、屬性層次模型、DINA模型、融合模型等。
第二,從CAT測驗長度是否固定的角度,可以分為定長CAT(Fixed-length computerized adaptive testing,F(xiàn)L-CAT)和變長 CAT(Variable-length computerized adaptive testing,VL-CAT)。 定長 CAT 規(guī)定所有被試作答相同數(shù)量的題目,只要CAT達(dá)到指定的測驗長度,測驗則終止。變長CAT是不固定測驗長度的CAT,需要以其他終止規(guī)則來判斷是否要終止測驗。
第三,從CAT能力評價絕對參照點的角度,CAT發(fā)展出計算機化分類測驗(Variable-length Computerized Classification Testing,VL-CCT),有些文獻(xiàn)也稱為 mastery adaptive test, 或者 computerized mastery adaptive test,或者 Pass-Fail CAT。VL-CCT 本質(zhì)上是單維CAT的一種特殊形式。VL-CCT測驗在CAT形式下按照某一絕對標(biāo)準(zhǔn)(即能力估計值分界點)對被試進(jìn)行分類,看其是否達(dá)到某一絕對標(biāo)準(zhǔn)來對分?jǐn)?shù)進(jìn)行解釋并將被試分為通過或不通過兩類,或兩類以上。測驗過程中只要確定了對被試的分類并達(dá)到其他測驗?zāi)繕?biāo),則測驗終止。VL-CCT能用較少的試題實現(xiàn)對被試的準(zhǔn)確分類,而且在對被試能力分類方面要優(yōu)于一般的單維CAT(Eggen&Straetmans,2000)[12]。VL-CCT測驗類似于傳統(tǒng)紙筆測驗形式下的標(biāo)準(zhǔn)參照測驗(或掌握性測驗)。VL-CCT適合應(yīng)用于心理與教育測量中的掌握性評價或等級評價,以及職業(yè)資格考試評價,可以有效地對被試進(jìn)行分類。VL-CCT也可以看成是變長CAT(VL-CAT)的一種特殊形式。但與一般的變長CAT相比,VL-CCT需要有一個或多個劃界分?jǐn)?shù)線,必須要對被試進(jìn)行分類才能終止測驗,并兼顧其他測驗?zāi)繕?biāo);而變長CAT可以在達(dá)到標(biāo)準(zhǔn)誤準(zhǔn)則、貝葉斯最小方差變異準(zhǔn)則等要求時就終止測驗,不需要劃界分?jǐn)?shù)線。
第四,從CAT自適應(yīng)過程設(shè)計的角度,CAT發(fā)展出計算機化自適應(yīng)序列測驗 (computer-adaptive sequential testing,CAST)[13]。 計算機化自適應(yīng)序列測驗,有些文獻(xiàn)也稱為計算機化多步自適應(yīng)測驗或多階段自適應(yīng)測驗 (Multistage Testing,或multistage adaptive testing,MST)。CAST在測試過程中將測試分為3至5個階段,在每個階段測試的內(nèi)容模塊需要根據(jù)被試上一階段的作答情況來估計被試能力值,并根據(jù)被試能力值情況選擇下一階段的測試內(nèi)容模塊。
此外,還有一些其他分類角度,包括是否屬于速度測驗、是否是由被試自己選擇測試起點等等,但這些分類角度較少被研究者關(guān)注。
VL-CCT本質(zhì)上是單維CAT的一種特殊形式,組成部分與單維CAT的組成部分基本上是一樣的。為敘述方便,下文中CAT均表示單維CAT。Thompson(2007)認(rèn)為VL-CCT測驗包括五個組成部分:測量模型、量尺化的題庫、測試起點、選題策略和終止規(guī)則[14]。筆者認(rèn)為,在Thompson觀點的基礎(chǔ)上應(yīng)增加能力估計方法、研究結(jié)果的評價分析這兩個部分。由于VL-CCT測驗的主要目標(biāo)是將被試進(jìn)行分類,因而VL-CCT在選題策略、終止規(guī)則、評價分析等部分有其獨特性,以下分別論述VL-CCT各個組成部分的特點。
VL-CCT以IRT為基礎(chǔ)理論,常用的IRT模型都可作為VL-CCT的測量模型。研究者已經(jīng)將常用的IRT模型應(yīng)用到了VL-CCT中,例如:Eggen(2011)在VL-CCT的終止規(guī)則研究中使用了Rasch模型[15],文劍冰和王文昊(2008)在比較VL-CCT的終止規(guī)則研究中使用了三參數(shù)Logistic模型[16],Smits&Finkelman(2013)在人格測量情境下CAT與VL-CCT的比較研究中使用了等級反應(yīng)模型[17]。
在CAT研究中,題庫的試題b參數(shù)往往模擬服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)。也有一些研究讓b參數(shù)服從 U[-3,+3]或 U[-4,+4],如 Wouda 和 Eggen(2009)以及程小揚、丁樹良、嚴(yán)深海和朱隆尹(2011)等人的研究[18,19]。在VL-CCT測驗中,在能力分?jǐn)?shù)劃界點的試題需要更多的題量,那么試題b參數(shù)分布就需要在能力分?jǐn)?shù)劃界點模擬成尖峰分布形態(tài)。例如Huebner和 Li (2012)、Thompson (2009) 的研究中[20,21],一部分研究情境的試題參數(shù)分布設(shè)計為在能力分?jǐn)?shù)劃界點-0.75上服從寬分布的正態(tài)形態(tài) N(-0.75,2.0),另一部分研究情境的試題參數(shù)分布設(shè)計為在能力分?jǐn)?shù)劃界點-0.75上服從窄分布的正態(tài)形態(tài) N(-0.75,0.4)。有些VL-CCT研究中也使用實測題庫的試題參數(shù),例如:Chen、Lei、Chen 和 Liu(2014),Lin (2011),van Groen、Eggen 和 Veldkamp(2014),Yang、Poggio 和 Glasnapp(2006)等,都使用了實測題庫的試題參數(shù)[22-25]。
在CAT模擬研究中,能力起點一般從能力中點θ=0.0 開始,例如 Lin(2011);Bock 和 Mislevy(1982);Passos,Berger 和 Tan (2008);Van Der Linden 和Veldkamp(2004)等人的研究[26-29]。 在VL-CCT 測驗研究中,除了上述兩種測試起點方法外,還可以選擇以下兩種方法作為起點[30]:一是以實際參加測試的被試能力分布的中點作為測試起點,二是以被試通過與未通過的概率似然比等于1.0時作為測試起點。
選題策略 (包括試題曝光率控制和測驗交疊率控制)是計算機化自適應(yīng)測驗的關(guān)鍵環(huán)節(jié),許多CAT研究都是圍繞選題策略和測驗安全控制進(jìn)行的。毛秀珍和辛濤(2011)以及簡小珠、戴海崎、張敏強和彭春妹(2014)等人的研究中都已經(jīng)將CAT形式的選題策略及其變式進(jìn)行了概括分類[31,32],包括Robbins-Monro選題策略 (b匹配選題策略)、Fisher信息函數(shù)策略 (FI)及其變式、KLI函數(shù)策略 (Kullback-Leibler information,KLI)及其變式、α分層策略及其變式、貝葉斯策略及其變式等等,并認(rèn)為應(yīng)根據(jù)CAT測驗情境要求來選擇相對應(yīng)的選題策略。
在CAT下,F(xiàn)I函數(shù)方法及其變式、KLI函數(shù)方法及其變式、PG 方法(progressive method,PG)及其變式、貝葉斯選題策略等選題策略同樣都可以適用計算機化分類測驗。例如,路鵬、周東岱、鐘紹春、叢曉(2013)在VL-CCT下使用貝葉斯選題策略,發(fā)現(xiàn)被試分類準(zhǔn)確性較高[33];Veldkamp(1999)、van Groen、Eggen和Veldkamp(2014)在VL-CCT下為實現(xiàn)多個測驗?zāi)繕?biāo)[34,35],在FI函數(shù)的基礎(chǔ)上進(jìn)行改進(jìn),提出了六個FI函數(shù)選題策略的變式,包括:加權(quán)方法(Weighting Methods,WM)、 等級優(yōu)先方法(Ranking or Prioritizing Methods)、目標(biāo)程序方法 (Goal Programming,GP)、 全局信息方法 (Global-Criterion,GC)、極大值方法(Maximin Methods,MA)、約束控制方法(Constraint-Based Methods,CBM)。van Groen 等(2014)的研究結(jié)果表明[36],WM、GP、GC、MA、以即時能力估計值為基礎(chǔ)的FI、以一組劃界分?jǐn)?shù)線中數(shù)為基礎(chǔ)的FI(MC)、以最近的劃界分?jǐn)?shù)線為基礎(chǔ)的FI(NC)等這七種選題策略方法,其模擬結(jié)果發(fā)現(xiàn),這七種選題策略方法下的被試分類準(zhǔn)確性相差不大,然而以一組劃界分?jǐn)?shù)線中數(shù)為基礎(chǔ)的FI(MC)、以最近的劃界分?jǐn)?shù)線為基礎(chǔ)的FI(NC)這兩種方法下的測驗長度較短,測驗效率相對較高。
近年來研究者還提出了專門適合VL-CCT測驗的兩種選題策略,即加權(quán)似然比函數(shù)方法(Weighted Log-odds ratio,WLOR)和交互信息函數(shù)方法(Mutual Information,MI)。
加權(quán)似然比函數(shù)(WLOR))方法最早是由Lin和Spray(2000)提出的[37]。 Eggen(1999)、Eggen 和Straetmans(2000)認(rèn)為,KLI函數(shù)方法能適合VL-CCT的終止規(guī)則 SPRT(sequential probability ratio test)[38,39],選擇具有最大KLI函數(shù)值的試題,可以在分類測驗中使用較少的試題對被試能力進(jìn)行較為準(zhǔn)確的分類,但KLI函數(shù)方法只能適合分為兩類的情況(即一個分界點),而有多個分界點時就很困難。Lin和Spray(2000)在KLI函數(shù)方法的思想基礎(chǔ)上發(fā)展出加權(quán)似然比函數(shù)方法(WLOR),在備選的試題集中,選擇在加權(quán)似然比函數(shù)上具有最大值的試題作為測試的下一道試題,加權(quán)似然比函數(shù)方法公式為:
其中,θ1和θ2應(yīng)該分別在分?jǐn)?shù)界限的以上和以下,R函數(shù)值的性質(zhì)與作用與KLI函數(shù)值很相似。
交互信息函數(shù)方法(MI)由 Weissman(2007)提出[40]。為了克服KLI函數(shù)方法只能適合分為兩類的情況,Weissman(2007)提出MI方法可以適合被試分為三類及三類以上的情況。MI函數(shù)方法也是在KLI函數(shù)的思想上發(fā)展起來的,其函數(shù)公式為:
其中,Xi表示在試題i上f(θ)的作答反應(yīng),f(xi,θ)是Xi,θ上的聯(lián)合分布函數(shù),而f(xi)、f(θ)分別是被試作答反應(yīng)、被試能力分布的邊際分布。在此方法下,選擇具有最大MI信息量的試題作為下一道試題的測試。MI信息函數(shù)方法是對稱的,而KLI函數(shù)則不是對稱,MI信息函數(shù)方法可以適合多個分?jǐn)?shù)界線的測驗,如果只有一個分?jǐn)?shù)界線時,MI信息函數(shù)方法也就簡化成了KLI函數(shù)方法了[41]。在MI函數(shù)的基礎(chǔ)上結(jié)合多重分類方法,進(jìn)一步提出了交互信息函數(shù)多重分類方法 (Mutual Information and Multiple Imputations,MIMI),該方法是MI方法的一種變式。Weissman(2007)通過CAT模擬比較發(fā)現(xiàn),在被試分為四類的情況下,MI方法分類準(zhǔn)確性略高于FIP方法(后驗加權(quán)的FI方法)和FI方法,而測驗使用的試題數(shù)量也略少于FIP方法和FI方法。
從選題策略方法公式中使用能力值參照模式的角度,Thompson(2009)將 VL-CCT下選題策略的應(yīng)用分為兩種模式[42]:第一種模式是選題策略使用劃界分?jǐn)?shù)線 θ0為參照模式(Cutscore-based methods,CB),即選題策略方法公式中使用劃界分?jǐn)?shù)線的能力值θ0來計算,并據(jù)此來選擇試題進(jìn)行測試;第二種模式是選題策略以測試過程中被試能力估計值θ?為參照模式(Estimate-based methods,EB),即選題策略方法公式中使用即時動態(tài)更新的被試能力估計值θ?來計算,并據(jù)此來選擇試題進(jìn)行測試。本文在Thompson(2009)歸納的選題策略應(yīng)用模式的基礎(chǔ)上進(jìn)一步總結(jié)如表1。
在以往研究中發(fā)現(xiàn),同一種選題策略下CB模式和EB模式的測驗長度、分類準(zhǔn)確性有差異,因此研究者將選題策略分為CB模式、EB模式兩大類。Thompson(2009)將選題策略與終止規(guī)則結(jié)合分析,以尋找選題策略與終止規(guī)則的最佳組合模式,在VL-CCT下將FI選題策略的CB模式、EB模式,分別與序列概率比檢驗 (SPRT)、能力置信區(qū)間方法(ACI)這兩種終止規(guī)則進(jìn)行組合,分別在這四種情境下進(jìn)行模擬分析。當(dāng)終止規(guī)則為ACI時,F(xiàn)I選題策略的EB模式比CB模式所需測驗題量平均少2.8題;而在終止規(guī)則為SPRT時,F(xiàn)I選題策略的EB模式比CB模式所需測驗題量平均多20.46題。綜合其研究結(jié)果,在FI選題策略為CB模式、終止規(guī)則為SPRT的組合情境下,被試分類準(zhǔn)確性略高,而測驗長度最短。當(dāng)然在總體上,CB模式下的題庫利用率低于EB模式。以上是FI選題策略CB模式、EB模式與不同終止規(guī)則進(jìn)行組合設(shè)計,其他的選題策略、終止規(guī)則進(jìn)行組合對被試分類準(zhǔn)確性、測驗效率的影響將是怎樣的?如何尋找選題策略、終止規(guī)則最佳的組合?這將是VL-CCT未來研究拓展方向之一。
CAT測驗終止規(guī)則主要有固定測驗長度和不固定測驗長度兩類。以固定測驗長度為終止標(biāo)準(zhǔn)時,當(dāng)作答試題數(shù)量達(dá)到規(guī)定的測驗長度便終止測驗。在許多研究中,固定測驗長度范圍一般在25題至70題之間。當(dāng)CAT終止標(biāo)準(zhǔn)為不固定測驗長度時,需要使用終止規(guī)則作為測驗終止的依據(jù)。Babcock和Weiss(2012)歸納了變長CAT下的幾種終止規(guī)則,包括標(biāo)準(zhǔn)誤準(zhǔn)則、最小信息量準(zhǔn)則、最小能力估計值變化準(zhǔn)則[63]。(1)標(biāo)準(zhǔn)誤準(zhǔn)則,在當(dāng)前能力估計值的測驗標(biāo)準(zhǔn)誤差達(dá)到指定的標(biāo)準(zhǔn)便終止測驗,標(biāo)準(zhǔn)誤準(zhǔn)則是以往CAT研究常用的終止準(zhǔn)則。(2)最小信息量準(zhǔn)則,當(dāng)前題庫中被選擇用來測試當(dāng)前被試的試題所提供的信息量小于指定的標(biāo)準(zhǔn)時則可以終止測驗。(3)最小能力估計值變化準(zhǔn)則,是指CAT測試過程中在測試一道試題后,被試能力估計值的前后變化值小于指定的精度時就終止測驗。此外,還有貝葉斯最小方差變異準(zhǔn)則。以貝葉斯估計法作為CAT選題策略標(biāo)準(zhǔn)時,測驗終止規(guī)則是估計能力之變異數(shù)小到某個預(yù)定的標(biāo)準(zhǔn)時終止施測。標(biāo)準(zhǔn)誤準(zhǔn)則、最小能力估計值變化準(zhǔn)則、最小信息量準(zhǔn)則、貝葉斯最小方差變異準(zhǔn)則這四種終止規(guī)則也可以在VL-CCT中使用。VL-CCT下為了達(dá)到對被試的分類,還發(fā)展出專門適用的四種基本終止規(guī)則及其發(fā)展變式,包括序列概率比檢驗方法、能力置信區(qū)間方法、拓展似然比方法、貝葉斯決策理論方法,這些終止規(guī)則實質(zhì)上都是對被試進(jìn)行分類的規(guī)則,是VL-CCT的關(guān)鍵組成部分,以下分別論述這四種終止規(guī)則。
表1 VL-CCT選題策略的應(yīng)用模式分類
第一種終止規(guī)則:序列概率比檢驗方法(Sequentialprobability ratio test,SPRT;Eggen,1999;Eggen&Straetmans,2000)[64,65],其測驗虛無假設(shè)與備擇假設(shè)是,H0:θ=θ1,H1:θ=θ2; 其中,θ1,θ2分別是劃界分?jǐn)?shù)的下界和上界,θ0為劃界分?jǐn)?shù)線的能力值,且θ1=θ0-δ,θ2=θ0+δ。 θ1,θ2之間的寬度 θ2-θ1=2δ被稱為“indifference region”,即無差異區(qū)間。2δ是被試分類判定在劃界分?jǐn)?shù)線附近所允許的誤差區(qū)間,δ一般為0.1 至 0.3 之間(Lin,2011)[66],δ越大則被試分類準(zhǔn)確性下降,而測驗長度縮短。SPRT方法下似然比率LR的計算公式:
其中xi是某被試在試題i上的得分,為1或0分;P(θ1)、P(θ2)分別為被試在能力 θ1、θ2上正確作答概率的期望值;h是測驗?zāi)壳耙呀?jīng)測試了的最大題量。 同時設(shè)定A=(1-β)/α,B=β/(1-α),α、β 為 I型錯誤和II型錯誤的概率,α、β需要預(yù)先設(shè)定,在一些研究中設(shè)定 α=β=0.05[67-69]。
如果似然比率LR≤A,那么將接受虛無假設(shè),即被試判定為未通過,測驗終止;如果LR≥B,那么將接受備擇假設(shè),即被試判定為通過,測驗終止;如果A≤LR≤B,那么繼續(xù)測下一道試題。如果測驗的測試題量已經(jīng)達(dá)到最大允許題量,而且A≤LR≤B,那么此時就屬于對被試強制分類:如果LR≤1,那么被試判定為未通過;如果LR>1,則被試判定為通過。
以上是SPRT終止規(guī)則對被試能力分類的統(tǒng)計算法。當(dāng)VL-CCT采用以劃界分?jǐn)?shù)線為參照模式的選題策略時,同時配合SPRT作為測驗終止規(guī)則更為有效,測驗長度較短,而且有更好的分類準(zhǔn)確性(Lin,2011)。
SPRT方法后來被許多研究者加以發(fā)展,Wouda和 Eggen(2009)、Finkelman(2008)等人的研究中論述了刪節(jié)SPRT方法(Truncated sequential probability ratio test,TSPRT)和隨機截尾 TSPRT 方法(stochastically curtailed SPRT,SCTSPRT)[70,71]。 TSPRT 方法是SPRT的改進(jìn)形式,當(dāng)被試作答試題題量小于最大測驗長度N時,TSPRT方法的判定方法與SPRT一致。當(dāng)被試作答試題題量等于最大測驗長度N時,那么測驗終止。如果公式(3)中的
假定C為一個常量,且logC=(logA+logB)/2。此時判定方法為:如果公式(4)中的LR≥C,則被試判定為通過;否則,則評定為未通過。并且其中A≤C≤B。
Finkelman(2008)在TSPRT的基礎(chǔ)上進(jìn)一步提出了隨機截尾TSPRT方法 (stochastically curtailed TSPRT,SCTSPRT)[72],該方法是當(dāng)被試已作答題量k等于最大測驗長度N時,與TSPRT方法的判定方法一致;在當(dāng)被試已作答題量k小于最大測驗長度N時(即k<N),在TSPRT方法的基礎(chǔ)上進(jìn)一步增加終止規(guī)則。SCTSPRT增加終止規(guī)則時,需要預(yù)先設(shè)定能力分界點 θ0的概率值 γ',γ, 并且 0.5<γ',γ≤1,γ'、γ設(shè)置一般為0.8至0.95之間,而不接近或等于1。γ',γ 也可以設(shè)置為同一個概率值。 同時令Pθ1,θ2(LR)為被試作答情況在(θ1,θ2)區(qū)間積分分布的期望概率。SCTSPRT增加終止規(guī)則以下兩條:當(dāng)k<N時,(1)如果似然比率LR≤A,或者LR<C且Pθ1,θ2(LR)≥γ,那么被試判定為未通過,測驗終止;(2)如果似然比率LR≥B,或者LR>C且Pθ1,θ2(LR)≥γ',那么被試判定為通過,測驗終止。
第二種終止規(guī)則:能力置信區(qū)間方法(ability confidence intervals,ACI)。該方法是在測試過程中,使用被試的即時能力估計值?和條件測量標(biāo)準(zhǔn)誤建立判斷置信區(qū)間[73-75],其判斷置信區(qū)間的計算公式為:
其中zα為(1-α)置信區(qū)間所對應(yīng)的標(biāo)準(zhǔn)差,95%置信區(qū)間時zα值為1.96。CSEM則根據(jù)被試已測試題的項目信息量總和來計算,即如果此能力置信區(qū)間都高于劃界分?jǐn)?shù)線,則該被試判定為通過;如果此能力置信區(qū)間都低于劃界分?jǐn)?shù)線,則該被試判定為未通過。如果此能力置信區(qū)間包含了劃界分?jǐn)?shù),則需要繼續(xù)測試。當(dāng)采用以被試能力估計為參照模式的選題策略時,往往需要配合ACI策略作為測驗終止規(guī)則,即需要被試能力估計值達(dá)到某一能力精度(或置信區(qū)間)。
Thompson(2011)提出SEM可以分兩種計算方法[76],包括理論最大值的CSEM和觀察分?jǐn)?shù)的CSEM。理論最大值的CSEM的計算方法為根據(jù)某一被試目前已測試題所組成的測驗,在能力區(qū)間[-3,+3]每隔0.01分別計算的測驗信息量并選擇其中的最大值。觀察分?jǐn)?shù)的CSEM的計算方法是依據(jù)被試已作答試題所組成的測驗,并根據(jù)牛頓迭代方法估計的能力估計值來計算測驗信息量。在一般研究中,觀察分?jǐn)?shù)的CSEM應(yīng)用較多。
第三種終止規(guī)則:拓展似然比方法(generalized likelihood ratio,GLR)。SPRT方法一般情況下是將劃界分?jǐn)?shù)的上界和下界 θ0、θ1設(shè)為固定值,Thompson(2011)提出拓展似然比方法方法(GLR 方法)[77],在一定的測驗條件下,將似然比率計算公式中的上下界 θ1、θ2用被試的極大似然估計值來替代, 其計算公式為:
如果 θ1<θ?max<θ2, 則LR計算方法保持不變,即除了以上LR計算方法不同之外,GLR方法的虛無假設(shè)、判定方法與SPRT終止規(guī)則一致。 Thompson(2011)在VL-CCT終止規(guī)則比較研究中得出,與SPRT、ACI方法相比,GLR方法在不損失分類準(zhǔn)確性的前提下能縮短測驗長度[78]。
第四種終止規(guī)則:貝葉斯決策理論方法(bayesian decision theory,BST)。 此方法是在貝葉斯選題策略的基礎(chǔ)上,在測驗終止時進(jìn)一步對被試最終的能力估計值進(jìn)行分類[79]。貝葉斯決策理論方法主要是作為選題策略使用,而作為終止規(guī)則相對較少 使 用 (Thompson,2009),Glas 和 Vos(2006)、Vos(2000)等少量研究使用了貝葉斯決策理論方法作為終止規(guī)則[80,81]。
在以上四種終止規(guī)則中,SPRT方法及其變式在VL-CCT研究中使用最多,ACI方法使用情況次之,拓展似然比方法、貝葉斯決策理論方法這兩種終止規(guī)則使用較少。研究者認(rèn)為,SPRT方法適合偏態(tài)分布的題庫,而ACI方法更適合于均勻分布的題庫(Lin&Spray,2000;Thompson,2007)[82,83]。 Spray 和Reckase(1996)的研究結(jié)果表明,在一般情況下SPRT策略要優(yōu)于ACI方法[84]。
在VL-CCT下測驗終止時,需要給定一個或多個被試分類的劃界分?jǐn)?shù)線。當(dāng)劃界分?jǐn)?shù)線為一個時,劃界分?jǐn)?shù)線往往以-0.5、0.0、0.5為劃界點,例如Thompson(2009)以-0.5 為分界點[85]、Huebner和 Li(2012)以 0.5 為分界點[86]、Wang 和 Huang(2011)以0.0為分界點[87],等等。當(dāng)劃界分?jǐn)?shù)線為兩個或兩個以上時,被試劃界分?jǐn)?shù)線的劃分方式可以分為兩種類型。第一種類型是依據(jù)能力量尺的能力點作為劃界分?jǐn)?shù)線的依據(jù),此類型往往是依據(jù)達(dá)到測驗指定的能力標(biāo)準(zhǔn)進(jìn)行分類。例如,Wang和Liu(2011)在兩個劃界分?jǐn)?shù)線時設(shè)定在-1、+1,在三個劃界分?jǐn)?shù)線時設(shè)定在-1.5、0、+1.5[88]。 Weissman(2007)三個劃界分?jǐn)?shù)線設(shè)定為-0.3、+1、+2[89]。 Yang、Poggio 和 Glasnapp(2006)將四個劃界分?jǐn)?shù)線設(shè)定為-1.8、-0.6、+0.6、+1.8[90]。 Wouda 和 Eggen(2009)、Eggen 和 Straetmans(2000)將兩個劃界分?jǐn)?shù)線設(shè)定在-0.13、+0.33[91,92]。第二種類型是依據(jù)被試分布的百分比作為劃界分?jǐn)?shù)線的依據(jù),此類型適合將被試人數(shù)均勻分為幾個等級。例如,van Groen、Eggen 和 Veldkamp(2014)將兩個劃界分?jǐn)?shù)線設(shè)定在被試能力分布的33%和66%位置[93],在三個劃界分?jǐn)?shù)線時設(shè)定在被試能力分布的25%、50%、75%位置,在四個劃界分?jǐn)?shù)線時設(shè)定在被試能力分布 20%、40%、60%、80%位置;Gnambs和Batinic(2011)在兩個劃界分?jǐn)?shù)線時設(shè)定在被試能力分布 25%、75%位置[94]。
CAT研究中常用的能力估計方法有極大似然估計方法(maximum likelihood estimator,MLE)、期望后驗?zāi)芰烙嫹椒ǎ╡xpected a posteriori,EAP)、極大后驗?zāi)芰烙嫹椒ǎ╩aximum a posteriori,MAP)等三種基本方法及各種變式。而VL-CCT研究中也是使用這些基本能力估計方法及其變式。Yang、Poggio和Glasnapp(2006)在VL-CCT模擬研究中比較了MLE、MAP、EAP、 加權(quán)極大似然估計方法(weighted likelihood estimator,WLE)、貝葉斯估計方法(Owen’s method,OWN)五種能力估計方法,發(fā)現(xiàn) MAP、OWN方法下測驗測量誤差較小,被試分類準(zhǔn)確性相對較高[95]。
對于CAT研究最后得到的測驗數(shù)據(jù)都需要進(jìn)行統(tǒng)計評價分析。CAT測驗數(shù)據(jù)的評價指標(biāo)也都可以適合VL-CCT測驗的評價,主要歸納為以下五個方面:(1)反映模擬返真性能的指標(biāo),包括偏差Bias、平均絕對值誤差(MAE)、均方根誤差RMSE(或均方誤差MSE)等;(2)反映測驗的測量準(zhǔn)確性、測驗精度方面的指標(biāo),包括標(biāo)準(zhǔn)誤、測驗信息量等。(3)反映題庫安全性方面的評價指標(biāo),包括試題最大曝光率觀測值、測驗交疊率、試題使用頻數(shù)的卡方統(tǒng)計量χ2等;(4)反映題庫利用率方面的評價指標(biāo),包括題庫中被調(diào)用試題所占的比例、題庫中所有試題調(diào)用次數(shù)的標(biāo)準(zhǔn)差、從未調(diào)用試題的數(shù)量、曝光率低于0.02的試題量等;(5)反映測驗效率方面的評價指標(biāo),如平均測驗長度(average test length,ATL,也稱為人均用題量,其計算方法是將m個被試重復(fù)n次模擬的測驗長度累加和,再除以m*n)。平均測驗長度越短、人均用題量越少,則測驗效率越高。平均測驗長度也是VL-CCT中被試分類效率的主要評價指標(biāo)之一。
此外,近年來研究者還提出了專門適合VL-CCT對被試分類的評價指標(biāo),包括兩個方面:
一是反映測驗效率方面的評價指標(biāo),包括測驗效率、相對測驗效率評價指標(biāo)。Patton、Cheng、Yuan和Diao(2013)在研究中使用測驗效率、以及相對測驗效率來分析測驗分類效率[96]。測驗效率是指所有測試試題的信息量的平均值。相對測驗效率,是指用能力估計值進(jìn)行計算的測驗信息量與用期望估計值進(jìn)行計算的測驗信息量之比。
二是反映對被試分類準(zhǔn)確性方面的評價指標(biāo),包括被試正確分類的百分比[97](percentage of correct decision,PCD,Lin,2011)、 真實能力屬于掌握的測試者的正確分類百分比[98]、強制分類的百分比[99](forced classification rates)。被試正確分類的百分比主要反映對被試總體的分類正確性情況,其計算方法是PCD=(A+C)/N,被試模擬初始值歸屬于合格且估計值也歸屬于合格的被試人數(shù)A,加上被試模擬初始值歸屬于不合格且估計值也歸屬于不合格的被試人數(shù)C,這兩類被試的累加和占總?cè)藬?shù)N的比例。真實能力屬于掌握的測試者的正確分類百分比,此指標(biāo)關(guān)注真實水平屬于掌握的那部分被試的正確分類情況,特別適用于合格標(biāo)準(zhǔn)嚴(yán)格的資格證考試。強制分類的百分比計算方式為:當(dāng)考生在既定的最大測驗長度內(nèi)無法被歸類,此時只好強迫停止,并加以歸類,此時被強迫停止測驗的被試人數(shù)占測驗總?cè)藬?shù)的百分比,強制分類的百分比可以間接反映測驗選題策略或終止規(guī)則的分類效率。
在VL-CCT中,被試分類準(zhǔn)確性與測驗效率這兩個方面往往是此消彼長,如何找到這兩方面的綜合評價指標(biāo)呢? Finkelman(2008)、Huebner和 Fina(2014)在前人研究的基礎(chǔ)上進(jìn)行改進(jìn),進(jìn)一步提出了測驗效率與被試分類準(zhǔn)確性的綜合指標(biāo)Loss[100,101],其計算公式為Loss=100*1w+Test Length。當(dāng)被試分類錯誤時1w取值為1,分類準(zhǔn)確時1w為0,公式中的100為分類不正確時的懲罰系數(shù)。當(dāng)所有被試Loss平均值越小,那么測驗分類效率、分類準(zhǔn)確性的綜合性能就越高。
Groen和 Groen Van(2012)論述 VL-CCT 的重要組成部分是選題策略和被試分類策略 (終止規(guī)則),這也是多數(shù)研究者的一致觀點。圍繞VL-CCT的選題策略、被試分類策略是研究者關(guān)注的重點,近年來VL-CCT呈現(xiàn)以下幾方面的研究熱點與趨勢:
第一,對多種選題策略進(jìn)行比較,選擇能同時兼顧較高的被試分類準(zhǔn)確性和被試分類效率的選題策略是VL-CCT研究的主要熱點。在VL-CCT測驗情境下,被試分類效率(測驗效率)、被試分類準(zhǔn)確性存在著一定的此消彼長的關(guān)系。許多研究者試圖尋找這樣一種較優(yōu)的選題策略:在保證被試分類準(zhǔn)確性不降低的情況 (被試分類準(zhǔn)確性在許多研究中都保持在90%至95%以上),適當(dāng)縮短測驗長度,提高被試分類效率。 近年來在VL-CCT測驗情境下的選題策略比較研究有很多,包括Huebner和Li(2012)、Lin(2011)、Wang 和 Huang(2011)等等[102-104]。
Lin(2011)對比分析了 FI方法、KL 方法、加權(quán)似然比方法(WLOR)、交互信息函數(shù)方法(MI)四種選題策略[105],當(dāng)被試分為掌握與未掌握兩類,在三種測驗情境下(包括無內(nèi)容平衡、有內(nèi)容平衡控制、有內(nèi)容平衡控制和試題曝光率控制),四種選題策略在被試分類準(zhǔn)確性、試題曝光率、試題利用率方面都很相近,在測驗長度方面WLOR方法比其他三種選題策略都要短一些。
Wang&Huang(2011)比較分析了FI選題策略、FI后驗分布方法、PG方法、改進(jìn)的APG方法四種選題策略[106],并使用Sympson&Hetter曝光率控制方法[107](SH,Sympson&Hetter,1985),同時結(jié)合在線試題凍結(jié)方法 (Wu&Chen,2008)[108], 此方法簡寫為SHOF。研究結(jié)果發(fā)現(xiàn),加入試題曝光率控制方法即SHOF方法后,被試分類準(zhǔn)確性基本沒有變化,題庫利用率提高,試題最大曝光率水平下降,而不足的是,被試強制分類率升高,平均測驗長度增大。
Huebner&Li(2012)在 VL-CCT測驗下使用 FI選題策略在劃界分?jǐn)?shù)線的CB模式[109],并結(jié)合隨機化試題曝光率平衡算法,研究結(jié)果顯示,在維持測驗分類精度基本不變的情況下,隨機化的試題曝光率平衡算法在減少過度曝光率的試題數(shù)量、實現(xiàn)試題曝光率均衡(即提供了題庫利用率)方面,優(yōu)于單獨的Sympson和Hetter(1985)提出的SH方法。
在試題曝光率控制、測驗交疊率控制的研究方面,Huebner(2012)在FI選題策略下以 SPRT為終止規(guī)則[110],比較了三種試題曝光率控制方法,包括SH方法、限制方法(RT)、項目合格方法(IE)。 Chen 等(2014)對 Chen(2010)的在線測驗交疊率控制方法進(jìn)行改進(jìn)[111,112],并進(jìn)一步比較了VL-CCT下8種測驗交疊率控制方法,認(rèn)為改進(jìn)的測驗交疊率控制方法SHG1方法能夠在不損失被試分類精度的情況下,較好地控制測驗交疊率。
以上研究設(shè)計中對許多選題策略 (試題曝光率控制、測驗交疊率控制方法)進(jìn)行了比較,同時對VL-CCT的測驗分類準(zhǔn)確性、測驗效率、題庫曝光率、題庫利用率等進(jìn)行了分析。然而,以下研究設(shè)計方向還有待于進(jìn)一步探討,例如:(1)專門適合VLCCT的選題策略,包括加權(quán)似然比方法(WLOR)、交互信息函數(shù)方法(MI)、交互信息函數(shù)多重分類方法(MIMI)這三種策略,與多種試題曝光率控制、測驗交疊率控制方法之間進(jìn)行交互組合設(shè)計比較;(2)專門適合VL-CCT的三種選題策略下CB模式和EB模式,與多種試題曝光率控制方法、測驗交疊率控制方法之間的交互組合設(shè)計比較;(3)VL-CCT下對內(nèi)容平衡、試題曝光率控制、測驗交疊率等多個測驗?zāi)繕?biāo),使用加權(quán)離差方法、最優(yōu)指數(shù)方法 (Cheng&Chang,2009;潘奕嬈,丁樹良,尚志勇,2011)等方法同時約束控制進(jìn)行最優(yōu)化組合的研究設(shè)計[113,114]。
第二,VL-CCT的終止規(guī)則及其發(fā)展變式的研究,以及終止規(guī)則之間的比較研究是VL-CCT研究的第二個熱點領(lǐng)域。正如前文“(5)終止規(guī)則”所論述,近年來研究者在SPRT方法、ACI方法這兩種基本終止規(guī)則的基礎(chǔ)上提出了多種發(fā)展變式。此外,研究者還提出了其他改進(jìn)變式,例如:(1)Finkelman(2010)在標(biāo)準(zhǔn)的SCTSPRT的基礎(chǔ)上提出了SCTSPRT的三種變式[115],這些變式是使用新的能力估計值方法來替代SCTSPRT方法劃界分?jǐn)?shù)線的上下界θ1、θ2。這三種新的能力估計方法分別為極大似然估計估計算法、能力置信區(qū)間算法、貝葉斯后驗估計算法。模擬研究發(fā)現(xiàn),SCTSPRT的三種變式能縮短測驗長度,并且在多數(shù)測驗情境下,測驗效率與被試分類準(zhǔn)確性的綜合指標(biāo)優(yōu)于標(biāo)準(zhǔn)的SCTSPRT。(2)Nydick(2014)對SPRT進(jìn)行改進(jìn),使用被試能力期望值來代替SPRT的能力估計值,提出期望SPRT方法,根據(jù)期望SPRT計算的對數(shù)似然比[116]可以使得FI選題策略在選擇試題時選擇FI信息量在能力點(θ0+θ?)/2上最大值的試題,從而縮短測驗長度縮短,而不損失被試分類準(zhǔn)確性。(3)Huebner和Fina(2014)在此GLR終止規(guī)則基礎(chǔ)上提出了SCGLR方法[117],SCGLR方法是SCTSPRT和GLR的結(jié)合,研究結(jié)果發(fā)現(xiàn),SCGLR方法同時具有SCTSPRT和GLR這兩種方法的優(yōu)點。
而且,對終止規(guī)則及其變式進(jìn)行比較研究也是目前的研究熱點。例如Wang和Huang(2011)的研究結(jié)果顯示[118],在難度參數(shù)為正態(tài)分布的題庫中,與ACI方法相比較,SPRT方法下的被試分類準(zhǔn)確性較高,被試強制分類率較低,但平均測驗長度相對較長,題庫利用率相對較低,試題最大曝光率水平相對較高。在Rasch模型下,Eggen(2011)比較了TSPRT、SCSPRT、最優(yōu)傳統(tǒng)線性方法(optimal traditional linear tests,屬于固定測驗長度)三種終止規(guī)則[119],發(fā)現(xiàn)TSPRT和SCSPRT的平均測驗長度較小,優(yōu)于最優(yōu)傳統(tǒng)線性方法,同時SCSPRT的平均測驗長度要少于TSPRT。文劍冰和王文昊(2008)通過模擬研究比較了SPRT、ACI、測驗?zāi)繕?biāo)信息量[120]、貝葉斯決策理論(BDT)四種測驗終止規(guī)則,結(jié)果顯示不同的測驗終止規(guī)則在不同情況下其效率和準(zhǔn)確性表現(xiàn)有差異。
第三,以往VL-CCT的多數(shù)研究中被試分為兩類(即只有一個劃界分?jǐn)?shù)線),近年來對被試分為三類及三類以上的研究逐漸成為研究者的探討方向。在實際測驗中,有時需要將被試分為三類或三類以上,例如將被試分為優(yōu)秀、合格、不合格三個等級,或優(yōu)、良、中、差,以及在人格測量中,分為高分組、中間組、低分組三類,或無癥狀組、中間組、有癥狀組。Gnamb 和 Batinic(2011)將被試分為三類:不合格、中等、優(yōu)秀,在被試分三類的情況下將增加題庫的題量壓力,題庫需要增加那些適合劃分優(yōu)秀分界點的試題。van Groen、Eggen 和 Veldkamp(2014)分別設(shè)計了兩、三、四個劃界分?jǐn)?shù)線的測驗情境[121],研究結(jié)果顯示,在同一個題庫以及其他測驗條件下,劃界分?jǐn)?shù)線的個數(shù)越多,測驗長度相對越長,被試分類準(zhǔn)確就越低。Seitz和Frey(2013)在多維能力測驗研究中發(fā)現(xiàn),劃界分?jǐn)?shù)線為4個時的測驗長度比劃界分?jǐn)?shù)線為1個時要大許多[122]。
當(dāng)被試分為兩類時,可以使用被試正確分類的百分比、真實能力屬于掌握的測試者的正確分類百分比這兩個指標(biāo)來評價被試分類一致性;而當(dāng)被試分為三類或三類以上時,就不適合使用以上兩個指標(biāo)。因此,VL-CCT下怎樣對多個分類的被試分類一致性進(jìn)行估計也是研究者探討的問題。Cheng和Morgan(2012)等研究者借鑒紙筆測驗中的標(biāo)準(zhǔn)參照測驗對被試分類的一致性估計系數(shù)Kappa的計算[123],對VL-CCT的被試多等級分類一致性進(jìn)行分析,發(fā)現(xiàn)最優(yōu)指數(shù)方法要優(yōu)于其他選題策略方法;而且被試分類的等級數(shù)量越多,被試分類的一致性則越差。Cheng、Liu 和 Behrens(2014)從公式推導(dǎo)與數(shù)理分析的角度探討了被試分為三類及三類以上時[124],能力估計的標(biāo)準(zhǔn)誤減小,那么被試分類準(zhǔn)確性和一致性將提高。
第四,VL-CCT研究應(yīng)用領(lǐng)域的拓展,包括拓展到多維能力測量、人格測量等領(lǐng)域。(1)在多維能力測量方面。例如,Seitz和Frey(2013)在CAT與多維能力CAT下比較了SPRT終止規(guī)則對被試的分類情況[125],發(fā)現(xiàn)多維能力CAT下被試分類準(zhǔn)確性要高于CAT。(2)在人格測量中也往往需要將被試分為兩類或兩類以上,例如將被試分為兩類(正常、不正常),或三類(正常、中間狀態(tài)、不正常)。近年來VL-CCT在人格測量方面的研究,如Smits和Finkelman(2013)在等級反應(yīng)模型下[126]以自陳人格問卷的試題形式進(jìn)行CAT與VL-CCT模擬測試,發(fā)現(xiàn)測試的題量會影響被試分類準(zhǔn)確性。Wang和Liu(2011)在展開模型下(generalized graded unfolding model,GGUM)進(jìn)行VL-CCT模擬[127],發(fā)現(xiàn)試題的等級分點數(shù)量越多,被試分類等級數(shù)量越少,則被試分類的準(zhǔn)確性越高。
此外,以往出現(xiàn)在CAT下的研究主題,目前研究者也在VL-CCT下進(jìn)行深入探討。例如:(1)關(guān)于題庫參數(shù)估計對測量誤差的研究。van der Linden和Glas(2000)討論在CAT下題庫項目參數(shù)估計對測量誤差的影響,而在VL-CCT下探討了題庫項目參數(shù)估計的誤差對被試能力分類、測驗效率的影響[128]。(2)將被試作答反應(yīng)時間結(jié)合到選題策略中的研究。Fan、Wang、Chang 和 Douglas(2013)在 CAT 形式下,將被試作答反應(yīng)時間與α分層選題策略結(jié)合,提出結(jié)合被試作答反應(yīng)時間形成半?yún)?shù)化的選題策略模式[129]。Sie、Finkelman、Riley 和 Smits(2015)在 VL-CCT下提出了將被試作答反應(yīng)時間與FI選題策略結(jié)合形成新算法,模擬研究結(jié)果發(fā)現(xiàn),此新算法可以使測驗的平均時間減少,被試分類準(zhǔn)確性略微提高[130]。
VL-CCT作為CAT的一種特殊形式,其主要組成部分與CAT基本一樣,包括測量模型、量尺化的題庫、測試起點、選題策略,終止規(guī)則、能力估計方法、評價分析共七個組成部分。VL-CCT的重要特點是發(fā)展出了專門適合被試分類情境下的選題策略、終止規(guī)則,以及在被試分類準(zhǔn)確性、測驗效率方面的評價指標(biāo)。與固定測驗長度的CAT測驗相比,VLCCT能夠用較短的測驗長度實現(xiàn)對被試能力水平的有效分類。
在VL-CCT下尋找到能同時兼顧較高的被試分類準(zhǔn)確性和被試分類效率的選題策略 (包括試題曝光率控制、測驗交疊率控制)是主要研究趨勢。提高被試分類準(zhǔn)確性,發(fā)展新的終止規(guī)則及其變式,以及在VL-CCT下將多種選題策略、測驗終止規(guī)則之間進(jìn)行交叉設(shè)計,以尋找最佳的組合,這些將是今后VL-CCT研究拓展方向之一。此外,在VL-CCT下對被試分為三類及三類以上的研究,在人格測量、多維能力測量的拓展應(yīng)用也是今后研究探討的方向之一。
VL-CCT可以適合學(xué)校教育測驗與評估(Groen和 Groen Van,2012),包括:(1)對學(xué)生成績進(jìn)行分等級,(2)對學(xué)習(xí)內(nèi)容的掌握過程進(jìn)行評估,(3)對學(xué)生群體進(jìn)行分類以進(jìn)行分類指導(dǎo),(4)教育質(zhì)量評估[131]。各能力合格水平測驗、職業(yè)資格測驗等也可以使用VL-CCT,因為在對被試評定分類這方面,VL-CCT要優(yōu)于CAT。