艾國金,甘登文,丁樹良,熊建華
(江西師范大學(xué)計算機信息工程學(xué)院,江西南昌330022)
教育認知診斷由于可以為家長、老師和學(xué)生提供診斷信息,為因材施教提供參考和指導(dǎo),因而備受國內(nèi)外研究者和應(yīng)用者的青睞.認知診斷計算機化自適應(yīng)測驗(cognitive diagnosis computerized adaptive testing,CD_CAT)運用能夠體現(xiàn)“因人施教、量體裁衣”的CD_CAT選題策略和終止規(guī)則,根據(jù)被試當前的狀態(tài)自適應(yīng)匹配項目進行測驗,獲得被試對項目的反應(yīng),通過反應(yīng)快速、準確地診斷出被試對測驗所涉及屬性的掌握情況[1].近些年來,國內(nèi)外對CD_CAT的研究越來越多,也越來越深入,與傳統(tǒng)CAT不同的是目前CD_CAT中還沒有找到類似Fisher信息量指標衡量測量誤差,因此認知診斷CAT通常采用施測起來較為方便的定長CAT的形式作為其終止規(guī)則或者采用其他指標作為不定長的終止規(guī)則.
目前對不定長CD_CAT終止規(guī)則的研究并不多,如C.Tatsuoka[2]建議如果被試的后驗概率達到0.8以上,測驗終止;Cheng Ying[3]則建議當后驗的SHE值或鄰近SHE值的變化足夠小時,或鄰近2次后驗KL距離足夠小時,測驗終止;C.L.Hsu等[4]通過大量實驗提出當最大潛在模式后驗概率大于某個預(yù)定的值(如0.7)或當最大潛在模式后驗概率大于某個預(yù)定的值(如0.7)且第2大潛在模式后驗概率小于某個預(yù)定值(如0.1)時,測驗終止;郭磊等[5]則認為當鄰近后驗概率之差等于某個足夠小的值或?qū)傩詷藴收`之差足夠小時,測驗終止.以上方法通過模擬實驗都獲得了較好的效果.不定長CD_CAT至少在用題量方面可能比定長情形要節(jié)省一點,本文討論CD_CAT的新的終止規(guī)則.
DINA 模型(deterministic inputs,noisy and gatemodel)表達式為
其中αi為被試i的知識狀態(tài)描述被試i是否掌握項目j所考察的所有屬性.若ηij=1,說明被試i掌握了項目j所考察的全部屬性;若ηij=0,則說明被試i對項目j所考察的屬性至少有1個未掌握,qjk為項目j所考察的屬性分量,其值為0或1.若qjk=1說明項目j考察了第k個屬性;若qjk=0則說明項目j未考察第k個屬性.
sj=P(Xij=0|ηij=1)表示被試i在掌握了項目j所考察的全部屬性的情況下,答錯項目j的概率,通常稱為失誤參數(shù),gj=P(Xij=1|ηij=0)表示被試i在未全部掌握項目j所考察所有屬性的情況下,答對項目j的概率,通常稱為猜測參數(shù).
對各種不同終止規(guī)則本文均采用尚志勇等[6]提出的按屬性模式分層選題策略作為模擬試驗的CD_CAT選題策略,利用MAP方法估計被試的知識狀態(tài),即將在作答模式Xi已知的條件下先計算被試各種可能的知識狀態(tài)對應(yīng)的后驗概率分布,然后將具有最大后驗概率對應(yīng)的知識狀態(tài)作為被試知識狀態(tài)的估計值,公式為
1.3.1 Hsu等方法 當被試屬于某個知識狀態(tài)的最大后驗概率P1st大于某個預(yù)定的值(如0.7)并且第2大后驗概率P2nd小于某個預(yù)定值(如0.1)時,測驗終止,并給出了第2大后驗概率的計算公式[4]:
其中K為考察屬性個數(shù),通常d根據(jù)需要取值,Hsu等在模擬實驗中d取0,0.25,0.5和0.75.
1.3.2 鄰近后驗概率之差法 鄰近后驗概率之差法(difference of the adjacent posterior probabilitymethod,DAPP)[5]規(guī)定在測試過程中當出現(xiàn)從屬于同一個知識狀態(tài)的前后2次鄰近的最大后驗概率差的絕對值小于某個預(yù)設(shè)值時,測驗終止.
1.3.3 3種新終止規(guī)則 由于被試i每做一題,其不同潛在模式的后驗概率就會更新一次.因此,若被試i做了t題,則不同潛在模式的后驗概率累積的更新次數(shù)更多.對于好的選題策略,t越大最接近被試i真實知識狀態(tài)的潛在模式后驗概率值會越來越大,其他潛在模式的后驗概率值則會越來越小.受Hsu等方法2和DAPP法的啟發(fā),本文給出幾種新的終止規(guī)則.
方法1 被試i測驗t題后觀察其最大后驗概率與第2大后驗概率之差,若差值足夠大,則說明被試i能夠較好地區(qū)分最大后驗概率值對應(yīng)的知識狀態(tài)和其他潛在知識狀態(tài).最大后驗概率與第2大后驗概率之差M大于某個預(yù)設(shè)值,計算公式為
方法2 若最大后驗概率與最小后驗概率之差值足夠大,則說明被試i在作答最大后驗概率對應(yīng)的項目時,其答對的概率非常大.這也說明對被試i能夠較好地區(qū)分最大后驗概率值對應(yīng)的知識狀態(tài)和其他潛在知識狀態(tài).最大后驗概率與最小后驗概率之差N大于某個預(yù)設(shè)值,計算公式為
方法3 如果方法1與方法2的差的絕對值,即第2大后驗概率與最小后驗概率之差的絕對值足夠小,說明此時最大后驗概率已足夠大,按照MAP估計方法也能說明被試i能夠較好地區(qū)分與自己真值接近的知識狀態(tài)和其他潛在知識狀態(tài).方法1與方法2的差的絕對值小于某個預(yù)設(shè)值ξ,計算公式為
本文使用模式判準率、人均測驗用時、人均測驗用題數(shù)、單個被試最大用題數(shù)和最小用題數(shù)、χ2統(tǒng)計量和測試重疊率作為考察指標.模式判準率(patternmatch ratio,PMR),即被試掌握模式并判準的人數(shù)占總?cè)藬?shù)的百分比,計算公式為:PMR=NP/N,其中NP指被試掌握模式并判對的人數(shù),N指總?cè)藬?shù);Time為N個被試開始測驗到結(jié)束測驗的總耗時,SItems為 N個被試總使用題數(shù),人均測驗用時:T=Time/N,人均測驗用題數(shù):S=SItems/N,單個被試最大用題數(shù)和最小用題數(shù),即被試在不同終止規(guī)則下在模擬實驗過程中測驗需要的最大題數(shù)和最小題數(shù);χ2統(tǒng)計量是用來反映項目被調(diào)用的均勻性,χ2指標越小說明整個題庫的使用越均勻,計算公式為
其中Ajt為第j個項目模式下的第t個題目的曝光率,計算Ajt的公式為Ajt=nt/N,nt為第j個項目模式下的第t個題目的使用次數(shù).測試重疊率(Rt)也是用來衡量安全性的指標,計算公式為
其中Li為第i個人測試長度.
為驗證新方法,本文在Window 7系統(tǒng),內(nèi)存2 GB的環(huán)境下,采用Matlab8.0(R2012b)為工具進行Monte Carlo模擬實驗.實驗中共考察了6個屬性,分為4種結(jié)構(gòu):線型、收斂型、發(fā)散型、無結(jié)構(gòu)型[7],如圖 1 所示,依次為 L、C、D、U.
圖1 4種屬性層級結(jié)構(gòu)圖
被試人數(shù)設(shè)為1000人,對于每種類型的屬性層級結(jié)構(gòu),有相應(yīng)的項目類qj(qj為潛在Q陣的某一列),每個項目類的屬性相同但參數(shù)不同,每類模式的項目設(shè)為100,項目的失誤參數(shù)和猜測參數(shù)均服從均勻分布U(0.05,0.25),以此建立題庫[8].
實驗中將定長L=30、Tatsuoka提出的方法(以下簡稱Tatsuoka法)、Hsu方法2(其中P1st>0.95,d=0.25)作為參照終止規(guī)則,方法1中M >0.99,方法2中N >0.99,方法3中ξ=0.001.利用Monte Carlo模擬測驗并重復(fù)30次求平均值的方法,得到4種結(jié)構(gòu)下不同終止規(guī)則的模式判準率如表1所示,人均測驗用時如表2所示,人均測驗用題數(shù)如表3所示,單個被試最大用題數(shù)和最小用題數(shù)如表4、表5所示,各方法的χ2統(tǒng)計量、測試重疊率如表6.
表1 4種結(jié)構(gòu)下不同終止規(guī)則的模式判準率
表2 4種結(jié)構(gòu)下不同終止規(guī)則模擬實驗人均測驗用時 單位:s
表3 4種結(jié)構(gòu)下不同終止規(guī)則模擬實驗人均測驗用題數(shù) 單位:個
表4 4種結(jié)構(gòu)下不同終止規(guī)則模擬實驗單個被試最大用題數(shù) 單位:個
表5 4種結(jié)構(gòu)下不同終止規(guī)則模擬實驗單個被試最小用題數(shù) 單位:個
表6 不同終止規(guī)則模擬實驗χ2指標和測試重疊率指標
從表1中可以得出:定長終止規(guī)則得到的模式判準率要比不定長終止規(guī)則得到的稍好些,但是表現(xiàn)出的優(yōu)勢十分有限;在不定長終止規(guī)則中方法1、方法2和方法3要比Tatsuoka法和Hsu方法好,而方法1和方法2在不同屬性層級結(jié)構(gòu)下其模式判準率表現(xiàn)也各有優(yōu)勢.從表2、表3中可以看出:不定長終止規(guī)則的人均測驗用時和人均測驗用題數(shù)表現(xiàn)要優(yōu)于定長終止規(guī)則,方法3的表現(xiàn)又優(yōu)于其他終止規(guī)則;從表4、表5中可以看出:不同終止規(guī)則在單個被試最大用題數(shù)上的表現(xiàn)幾乎相當,在單個被試最小用題數(shù)上,不定長終止規(guī)則要優(yōu)于定長終止規(guī)則.從表6可以看出不定長終止規(guī)則χ2指標和Rt指標都優(yōu)于定長終止規(guī)則,結(jié)合前5個指標,在小幅度降低模式判準率的前提下,方法3的表現(xiàn)要優(yōu)于其他終止規(guī)則.考慮到CD_CAT要實現(xiàn)“快速、準確、安全”測驗這個特點,綜合表1~表6可以得出方法1、方法2、方法3要優(yōu)于其他方法.
雖然方法1、方法2和方法3在上述5個指標上的表現(xiàn)都不錯,但在不同指標上的優(yōu)勢卻不盡相同.新方法只討論了在DINA模型下的表現(xiàn)情況,如果改成其他模型新方法[9-11]是否可用.另外能否開發(fā)一個或多個不定長終止規(guī)則在上述7個指標上的表現(xiàn)都為最佳,這些都有待在未來研究中進一步探索.
[1]漆書青,戴海琦,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社,2002.
[2]Tatsuoka C.Data analyticmethods for latent partially ordered classificationmodels[J].Applied Statistics,2002,51(3):337-350.
[3]Cheng Ying.Computerized adaptive testing:New developments and applications[D].Urbana-Champaign:University ofIllinois,2008.
[4]Hsu C L,Wang W C,Chen S Y.Variable-length computerized adaptive testing based on cognitive diagnosismodels[J].Applied Psychological Measurement,2014,4:6-7.
[5]郭磊,邊玉芳.認知診斷計算機化自適應(yīng)測驗變長終止規(guī)則的研究[C]//心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會議論文集,2013.
[6]尚志勇,丁樹良.認知診斷自適應(yīng)測驗選題策略探新[J].江西師范大學(xué)學(xué)報:自然科學(xué)版,2011,35(4):418-421.
[7]Leighton J P,Gierl M,Hunka S M.The attribute hierarchymethod for cognitive assessment:a variation on Tatsuoka’s rule-space approach [J].Journal of Educational Measurement,2004,41(3):205-236.
[8]唐小娟,丁樹良,毛萌萌,等.基于屬性層級結(jié)構(gòu)的認知診斷測驗的組卷[J].心理學(xué)探新,2013,33(3):252-259.
[9]丁樹良,羅芬,汪文義.多級評分認知診斷測驗藍圖的設(shè)計——獨立型和收斂型結(jié)構(gòu)[J].江西師范大學(xué)學(xué)報:自然科學(xué)版,2014,38(2):265-269.
[10]丁樹良,羅芬,汪文義.多級評分認知診斷測驗藍圖的設(shè)計——根樹型結(jié)構(gòu)[J].江西師范大學(xué)學(xué)報:自然科學(xué)版,2014,38(2):111-118.
[11]艾國金,甘登文,丁樹良.計算機化自適度認知診斷測驗按模式分層選題策略[J].江西師范大學(xué)學(xué)報:自然科學(xué)版,2014,38(3):270-273.