韓裕娜,張敏強(qiáng)
(1.華南師范大學(xué)心理應(yīng)用研究中心,廣東廣州510631;2.華南師范大學(xué)基礎(chǔ)教育培訓(xùn)與研究院,廣東廣州510631)
基于經(jīng)典測(cè)驗(yàn)理論、概化理論和項(xiàng)目反應(yīng)理論的傳統(tǒng)測(cè)驗(yàn)最終只是給出一個(gè)分?jǐn)?shù)或等級(jí).然而有的考生分?jǐn)?shù)或等級(jí)雖然相同,所掌握的知識(shí)卻不同.為了通過(guò)測(cè)驗(yàn)從考生的反應(yīng)模式中獲得更多考生的信息,有些研究者提出“將認(rèn)知與測(cè)量相結(jié)合”.按照不同的假設(shè),提出了各自不同的方法和模型,并稱這些模型為認(rèn)知診斷模型.常見(jiàn)的認(rèn)知診斷模型有規(guī)則空間模型(Rule Space Model,RSM)、屬性層級(jí)模型(Attribute Hierarchy Method,AHM)、DINA 模型(Deterministic Input,Noisy-And gate,DINA)、NIDA模型(Noisy Input,Deterministic-And gate,NIDA)等.
本研究將在前人研究的基礎(chǔ)上,對(duì)AHM模型2種基于IRT的判別方法——方法A和方法B進(jìn)行改良,得到2種新分類方法——方法C和方法D.進(jìn)而設(shè)計(jì)蒙特卡洛模擬試驗(yàn)考察4種分類方法的診斷性能.
AHM模型假設(shè)屬性之間有一定的層級(jí)關(guān)系,并把觀察反應(yīng)模式劃歸為期望反應(yīng)模式,該模型也采用了RSM模型的Q矩陣?yán)碚摚?-3],兩者的判別方法不同.RSM對(duì)被試的認(rèn)知診斷是通過(guò)建構(gòu)規(guī)則空間,采用距離判別法,將其判歸為相應(yīng)的典型屬性掌握模式.AHM則是根據(jù)最大相似概率進(jìn)行判別,將觀察反應(yīng)模式劃歸為期望反應(yīng)模式.
使用屬性層級(jí)模型進(jìn)行認(rèn)知診斷,共包含如下4 個(gè)步驟[4].
屬性間的層級(jí)關(guān)系共有4種基本關(guān)系(圖1),其他復(fù)雜的關(guān)系可以由這4種基本關(guān)系組合生成[5].用鄰接矩陣 A(adjacency matrix)來(lái)表征屬性間的鄰接關(guān)系.并通過(guò)布爾代數(shù)計(jì)算(布爾加和布爾乘)由矩陣A計(jì)算得到可達(dá)矩陣R(reachability matrix),用R來(lái)表征屬性間的前提關(guān)系.
圖1 4種不同的屬性層級(jí)關(guān)系Figure 1 Four hierarchical structures using seven attributes
1.2.1 建立事件矩陣 Q 事件矩陣 Q(incidence matrix)k行n列,描述各屬性與可能的項(xiàng)目類型間的關(guān)系.其中,k表示屬性數(shù)目,n指可能的項(xiàng)目類型數(shù),由組合數(shù)學(xué)可知n=2k-1.
1.2.2 建立縮減矩陣Qr建立縮減矩陣Qr目前有2種方法:縮減法和擴(kuò)張算法.縮減法是由TATSUOKA提出的,先得到Q矩陣,然后刪除不可能存在的項(xiàng)目類型.而擴(kuò)張算法則是由R矩陣,通過(guò)擴(kuò)張算法直接得到縮減矩陣Qr[6].
1.2.3 編制測(cè)驗(yàn)并施測(cè) 一般來(lái)說(shuō),在設(shè)計(jì)測(cè)驗(yàn)時(shí),先選定可達(dá)陣R對(duì)應(yīng)的所有題型作為測(cè)驗(yàn)的一部分,再根據(jù)所需依據(jù)矩陣Qr選擇適當(dāng)數(shù)量的題目類型構(gòu)成測(cè)驗(yàn),得到測(cè)驗(yàn)所對(duì)應(yīng)的測(cè)驗(yàn)Q矩陣Qt.Qtk行n列,k表示屬性數(shù)目,n指測(cè)驗(yàn)的項(xiàng)目數(shù)[7].
接著進(jìn)行施測(cè),得到被試的作答情況(也稱為觀察反應(yīng)模式).
AHM中分類方法有IRT分類法和非IRT分類法.LEIGHTON等[5-6]提出了2種基于項(xiàng)目反應(yīng)理論和概率論的分類方法:A方法和B方法.方法A和方法B都是通過(guò)分析觀察反應(yīng)模式同各類期望反應(yīng)模式的一致程度來(lái)進(jìn)行分類的,是根據(jù)最大相似概率進(jìn)行判別.
假設(shè)第j種期望反應(yīng)模式對(duì)應(yīng)的被試能力為θj,由項(xiàng)目反應(yīng)理論可知,第j種期望反應(yīng)模式在第k題的正確作答概率Pk(θj)和錯(cuò)誤作答概率Qk(θj)=1-Pk(θj)可由IRT模型及模擬方法計(jì)算得到.
A方法認(rèn)為,當(dāng)被試的觀察反應(yīng)模式和任何一類期望反應(yīng)模式都不一樣時(shí),則計(jì)算各種期望反應(yīng)模式轉(zhuǎn)化為觀察反應(yīng)模式的概率,假設(shè)第p種期望反應(yīng)模式的轉(zhuǎn)化概率最大,則將被試歸為第p類被試.轉(zhuǎn)化概率的計(jì)算公式如下:
其中:Si(0→1)表示對(duì)于被試i期望反應(yīng)為0,但觀察反應(yīng)模式為1的所有題的集合;Si(1→0)表示對(duì)于被試i期望反應(yīng)為1,但觀察反應(yīng)模式為0的所有題的集合.
B方法則認(rèn)為,擁有某個(gè)觀察反應(yīng)模式的被試掌握了所有邏輯包含在其中的期望反應(yīng)模式的屬性組合.對(duì)于那些不邏輯包含的期望反應(yīng)模式,則只需要考慮失誤而不考慮猜測(cè),即只計(jì)算1→0的可能性,公式如下所示.假設(shè)第p種期望反應(yīng)模式的轉(zhuǎn)化概率最大,且最大轉(zhuǎn)化概率大于等于截?cái)帱c(diǎn)(cutpoint),則被試有可能歸為第p類被試.最后結(jié)合邏輯包含部分的診斷結(jié)果和不邏輯包含的部分的診斷結(jié)果,給出最終的診斷結(jié)果.
GIERL等[5]則提出了非IRT方法,該方法是用多層感知器神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)被試對(duì)每個(gè)屬性的掌握概率.
將被試進(jìn)行歸類,最終報(bào)告認(rèn)知診斷分析結(jié)果.
以往的研究[5]表明,方法A和方法B的診斷準(zhǔn)確率均不高,有待進(jìn)一步改良.
方法A在判別具有觀察反應(yīng)模式Si的被試是否屬于第j類被試(對(duì)應(yīng)期望反應(yīng)模式Sj,能力為θj)的關(guān)系時(shí),計(jì)算概率時(shí)是以第j類被試為主體,計(jì)算的是第j類被試出現(xiàn)觀察反應(yīng)模式Si的概率.使用到的是2類事件的概率:
(1)Pk(θj):對(duì)于題目k,第j類被試事實(shí)上并沒(méi)有掌握該題所考察的屬性,然而卻答對(duì)了的概率.
(2)1-Pm(θj):對(duì)于題目m,第j類被試事實(shí)上掌握該題所考察的屬性,然而卻答錯(cuò)了的概率.
方法A在判別被試屬于哪一類時(shí)使用上述概率并不合理,是該方法診斷準(zhǔn)確率不高的一個(gè)原因.在判別具有觀察反應(yīng)模式Si的被試是否屬于第j類被試(對(duì)應(yīng)期望反應(yīng)模式Sj,能力為θj)的關(guān)系時(shí),應(yīng)該以觀察反應(yīng)模式Si為主體,計(jì)算的是具有觀察反應(yīng)模式Si的被試是第j類被試的概率,換句話說(shuō),計(jì)算的是觀察反應(yīng)模式Si轉(zhuǎn)移到期望反應(yīng)模式Sj的概率值.
因而使用到的概率應(yīng)該是另2種:
(1)當(dāng)受測(cè)者答對(duì)試題q時(shí),受測(cè)者實(shí)際上并未掌握試題q所考察的屬性的概率P(q:1→0),稱為猜測(cè)概率,用PG(q)表示.
(2)當(dāng)受測(cè)者答錯(cuò)試題q時(shí),受測(cè)者實(shí)際上掌握了試題q所考察的屬性的概率P(q:0→1),稱為失誤概率,用PS(q)表示.
由A方法的計(jì)算公式,以猜測(cè)概率PG(q)和失誤概率 PS(q)代替Pk(θj)、Qk(θj),即得到判別方法C:對(duì)于某觀察反應(yīng)模式Si,記從Si轉(zhuǎn)移到期望反應(yīng)模式Sj的概率值為Pij,Pij實(shí)際上等于從Si轉(zhuǎn)移到Sj時(shí)對(duì)不同的答題結(jié)果進(jìn)行0/1反轉(zhuǎn)的概率PG(q)、PS(q)的乘積.計(jì)算各觀察反應(yīng)模式Si轉(zhuǎn)移到各個(gè)期望反應(yīng)模式概率值,最大概率值對(duì)應(yīng)的期望反應(yīng)模式就是Si進(jìn)行狀態(tài)轉(zhuǎn)移的目標(biāo)狀態(tài),換句話說(shuō),觀察反應(yīng)模式Si是由最大概率值對(duì)應(yīng)的期望反應(yīng)模式衍生的.
例如,對(duì)于觀察反應(yīng)模式S(10001)轉(zhuǎn)移到期望反應(yīng)模式S1(10000)的概率為PG(q5),而轉(zhuǎn)移到期望反應(yīng)模式S2(11111)的概率為PS(q2)×PS(q3)×PS(q4).
同樣地,可由B方法得到對(duì)應(yīng)的D方法,D方法使用的公式如下:
從理論上看,方法C和方法D的計(jì)算方法比方法A和方法B更科學(xué),具有更高的診斷性能.為了比較方法A、B、C和D的診斷性能,本研究通過(guò)蒙特卡洛模擬試驗(yàn),以計(jì)分準(zhǔn)確率、模式判準(zhǔn)率、邊際判準(zhǔn)率為評(píng)價(jià)指標(biāo),對(duì)4種判別方法的診斷性能進(jìn)行考察.
在診斷前,首先指定測(cè)驗(yàn)需測(cè)量的屬性以及屬性層級(jí)關(guān)系,屬性間的層級(jí)關(guān)系共有4種基本關(guān)系(圖1),其他復(fù)雜的關(guān)系可以由這4種基本關(guān)系組合生成[5].本模擬試驗(yàn)以圖1為例,考察在4種不同的屬性層級(jí)結(jié)構(gòu)下4種診斷方法的診斷性能.
以七屬性發(fā)散型結(jié)構(gòu)為例(圖1 A),模擬步驟如下:
(1)設(shè)定初始值 測(cè)驗(yàn)項(xiàng)目數(shù):20;屬性個(gè)數(shù):7;屬性層級(jí)關(guān)系:發(fā)散型(圖1 A);被試先驗(yàn)分布:被試成績(jī)按正態(tài)分布;被試人數(shù):5 000;IRT模型:二參數(shù)Logistic IRT模型;失誤水平參數(shù)假定為0.1.
(2)根據(jù)初始值得到A、R、Qr和D 根據(jù)屬性層級(jí)關(guān)系圖確定鄰接矩陣A,通過(guò)布爾代數(shù)計(jì)算可達(dá)矩陣R.由R通過(guò)擴(kuò)張算法得到縮減矩陣Qr.再由Qr得到知識(shí)狀態(tài)矩陣D.
(3)模擬診斷過(guò)程 為了盡量減少無(wú)關(guān)變量隨機(jī)抽取Qr項(xiàng)目的影響,本部分步驟采取隨機(jī)化試驗(yàn)設(shè)計(jì)并重復(fù)10次.
①根據(jù)初始設(shè)定,測(cè)驗(yàn)項(xiàng)目數(shù)量為20.其中,有7個(gè)項(xiàng)目對(duì)應(yīng)R的7個(gè)列,剩余的13個(gè)項(xiàng)目從Qr中隨機(jī)抽取確定,從而得到測(cè)驗(yàn)Q矩陣Qt.進(jìn)而由D和Qt得到期望反應(yīng)矩陣E.
②根據(jù)先驗(yàn)分布假設(shè)模擬產(chǎn)生5 000個(gè)被試的期望反應(yīng)矩陣.由期望反應(yīng)矩陣計(jì)算各類被試能力參數(shù) θj和各題試題參數(shù) ai、bi(1≤j≤5 000,1≤i≤20).根據(jù)所得參數(shù)計(jì)算 Pi(θj)(1≤j≤5 000,1≤i≤20)、Qi(θj)、PG(i)和 PS(i).
③由期望反應(yīng)矩陣模擬產(chǎn)生5 000個(gè)被試的觀察反應(yīng)模式矩陣.由于本研究的目的在于研究在相同條件下4種診斷方法的診斷性能,因而失誤水平參數(shù)的大小并不是本研究關(guān)注的對(duì)象,進(jìn)行模擬試驗(yàn)時(shí)失誤參數(shù)假定為0.1.
④對(duì)觀察反應(yīng)模式矩陣分別使用4種方法進(jìn)行診斷,并計(jì)算計(jì)分準(zhǔn)確率、模式判準(zhǔn)率、邊際判準(zhǔn)率.
上述步驟重復(fù)10次后,求10次模擬各種指標(biāo)的平均值.
本研究通過(guò)R軟件編程實(shí)現(xiàn)上述模擬試驗(yàn)并統(tǒng)計(jì)各種方法的計(jì)分準(zhǔn)確率、模式判準(zhǔn)率、邊際判準(zhǔn)率,蒙特卡洛模擬試驗(yàn)的結(jié)果見(jiàn)表1~表3.
從計(jì)分準(zhǔn)確率(表1)和模式判準(zhǔn)率(表2)2項(xiàng)診斷指標(biāo)看,對(duì)于線型結(jié)構(gòu),B方法的診斷指標(biāo)高于A方法,D方法的診斷指標(biāo)高于C方法,即B方法優(yōu)于A方法,D方法優(yōu)于C方法.而對(duì)于其他3種結(jié)構(gòu)則反過(guò)來(lái),均是A方法優(yōu)于B方法,C方法優(yōu)于D方法.不過(guò)不管對(duì)于哪種結(jié)構(gòu),新方法均優(yōu)于對(duì)應(yīng)的原方法.換句話說(shuō),C方法的診斷指標(biāo)高于A方法,D方法的診斷指標(biāo)高于B方法.
表1 各種診斷方法的計(jì)分準(zhǔn)確率Table 1 Scorematch ratios for differentmethods
從邊際判準(zhǔn)率來(lái)看,對(duì)于線型結(jié)構(gòu),B方法的平均邊際判準(zhǔn)率高于A方法,D方法的平均邊際判準(zhǔn)率高于C方法.從總體來(lái)說(shuō),D方法的平均邊際判準(zhǔn)率0.758最高,其次是B方法.不過(guò)從各個(gè)屬性的邊際判準(zhǔn)率來(lái)看,則是C方法對(duì)屬性A1、A2、A3的邊際判準(zhǔn)率最高,D 方法對(duì)屬性 A4、A5、A6、A7的邊際判準(zhǔn)率最高.對(duì)于其他3種結(jié)構(gòu),情況則不同,均是A方法的平均邊際判準(zhǔn)率高于B方法,C方法的平均邊際判準(zhǔn)率高于D方法,且C方法對(duì)各個(gè)屬性的邊際判準(zhǔn)率最高.
表2 各種診斷方法的模式判準(zhǔn)率Table 2 Patternmatch ratios for differentmethods
表3 各種診斷方法的邊際判準(zhǔn)率Table 3 Marginalmatch ratios for differentmethods
綜合考慮3種評(píng)價(jià)指標(biāo),對(duì)線型結(jié)構(gòu)進(jìn)行診斷,最優(yōu)方法是D方法,平均邊際判準(zhǔn)率在0.7以上,尤其是屬性A6和A7的邊際判準(zhǔn)率高達(dá)0.944和0.988.模式判準(zhǔn)率僅有0.372偏低,計(jì)分準(zhǔn)確率也僅有0.372.最優(yōu)方法是C方法,平均邊際判準(zhǔn)率在0.9以上,有一些屬性的邊際判準(zhǔn)率還高達(dá)0.99以上,模式判準(zhǔn)率和計(jì)分準(zhǔn)確率也均在0.6以上.
(1)蒙特卡洛模擬試驗(yàn)的結(jié)果與理論研究結(jié)果相符,經(jīng)過(guò)改良得到的方法C和方法D的診斷性能均優(yōu)于對(duì)應(yīng)的原方法.且從總體上看,新方法的評(píng)價(jià)指標(biāo)比對(duì)應(yīng)原方法的評(píng)價(jià)指標(biāo)有較大幅度提高.使用方法C和方法D更能準(zhǔn)確的得到被試真實(shí)的知識(shí)狀態(tài)和認(rèn)知結(jié)構(gòu),為教學(xué)提供更為準(zhǔn)確的診斷結(jié)果.
(2)由于使用D方法對(duì)線型結(jié)構(gòu)進(jìn)行診斷的模式判準(zhǔn)率和計(jì)分準(zhǔn)確率較低.相對(duì)來(lái)說(shuō),使用C方法對(duì)發(fā)散型、收斂型和無(wú)結(jié)構(gòu)型3種屬性結(jié)構(gòu)進(jìn)行診斷的各項(xiàng)指標(biāo)則較好.因而在設(shè)計(jì)測(cè)驗(yàn)時(shí),不妨設(shè)法增加待測(cè)屬性,使線型結(jié)構(gòu)轉(zhuǎn)化為發(fā)散型、收斂型或者由基本關(guān)系組合生成的復(fù)雜結(jié)構(gòu),以便提高診斷性能.
(3)評(píng)價(jià)指標(biāo)的高低除了跟屬性結(jié)構(gòu)、診斷方法有關(guān),還有可能受其他因素影響,例如:測(cè)驗(yàn)長(zhǎng)度、測(cè)驗(yàn)題目的復(fù)雜程度、測(cè)驗(yàn)屬性的個(gè)數(shù)、試題隨機(jī)參數(shù)、IRT模型、考生成績(jī)分布狀態(tài)、計(jì)分形式等.本研究組業(yè)已設(shè)計(jì)一系列蒙特卡洛模擬試驗(yàn)考察A、B、C、D等4種診斷方法的分類準(zhǔn)確率如何受到測(cè)驗(yàn)不同的因素的影響,以便探究在哪種情況下使用哪一種的方法可以得到最準(zhǔn)確的診斷結(jié)果,具體研究方法及結(jié)論將另文撰之.這些試驗(yàn)結(jié)論可用于指導(dǎo)測(cè)驗(yàn)編制.
[1]TATSUOKA K.A probabilistic model for diagnosing misconceptions in the pattern classification approach[J].Journal of Educational Statistics,1985,10:55-73.
[2]文劍冰.規(guī)則空間模型在診斷性計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中的應(yīng)用[D].香港:香港中文大學(xué),2003.
[3]張敏強(qiáng),簡(jiǎn)小珠,陳秋梅.規(guī)則空間模型在瑞文智力測(cè)驗(yàn)中的認(rèn)知診斷分析[J].心理科學(xué),2011,34(2):266-271.
[4]LEIGHTON JP,GIERL M J.Cognitive diagnostic assessment for education:Theory and applications[M].Cambridge,UK:Cambridge University Press,2007:242-274.
[5]CUIY,LEIGHTON JP,ZHENG Y.Simulation studies for evaluating the performance of the two classification methods in the AHM[R].San Francisco,CA:The annualmeeting of the National Council on Measurement in Education,2006.
[6]祝玉芳.RSM改進(jìn)及多級(jí)評(píng)分AHM的開(kāi)發(fā)研究[D].南昌:江西師范大學(xué),2008.
[7]丁樹(shù)良,汪文義,楊淑群.認(rèn)知診斷測(cè)驗(yàn)藍(lán)圖的設(shè)計(jì)[J].心理科學(xué),2011,34(2):258-265.