祝玉芳 王黎華
基于多級評分的屬性層級方法和廣義距離法的認知診斷
祝玉芳 王黎華
基于等級反應模型的屬性層級方法和多級評分的廣義距離法,是兩種基于項目反應理論的多級評分的認知診斷方法。本文通過采用Monte Carlo方法模擬比較兩種方法的優(yōu)劣,發(fā)現(xiàn)在四種屬性層級結(jié)構(gòu)、四種被試作答失誤率情況下,對發(fā)散型來說,多級評分的廣義距離判別法相對更好;對無結(jié)構(gòu)型來說,基于等級反應模型的屬性層級方法是更好的選擇;對收斂型和線型而言,被試作答失誤率比較大時多級評分的廣義距離判別法相對更合適,其他情況下兩種方法診斷效果差不多。
多級評分;認知診斷;屬性層級方法;廣義距離法
隨著義務教育的普及,我國學校教育已經(jīng)逐步由“精英教育”轉(zhuǎn)化為“普及教育”,教育者不但關(guān)注教育結(jié)果,而且關(guān)注教育過程。與之相適應,在強調(diào)測試選拔功能的同時,教育測試的輔助教學與診斷功能也逐步受到重視。除了報告分數(shù),測試者還應該為教師、學生和家長提供關(guān)于學生對知識、技能的掌握情況,根據(jù)這些反饋信息,教師可以進行反思并有針對性地補救教學;學生可以不斷監(jiān)督、評價自己的學習,從而提高學習效率,促進自身學習能力的發(fā)展與提高。
認知診斷(CognitiveDiagnosis,CD)理論是根據(jù)被試對測試題目的反應,將傳統(tǒng)的單一考試分數(shù)轉(zhuǎn)化為被試對試題中所涉及的認知過程與技能的掌握概率,據(jù)此提供被試的有針對性的信息,即通過考試報告被試的知識狀態(tài)。近年來,教育與心理測量學家們提出了不少認知診斷模型,但是這些模型大多是“0-1”評分的,而我國大規(guī)模教育考試中的計算題、論述題等不僅僅使用兩級評分,而且使用了多級評分。兩級評分是多級評分的特例。事實證明,使用多級評分項目比使用兩級評分項目可以獲得更多的診斷信息。然而,和“0-1”評分相比,多級評分認知診斷的相關(guān)研究尚不多見,因此,開展多級評分認知診斷的相關(guān)研究很有必要。
基于等級反應模型的屬性層級方法(A Polytomous Extension of Attribute Hierarchy Method Based on Graded Response Model,簡稱 GRMAHM)[1]和多級評分的廣義距離法(A Polytomous Extension of the Generalized Distance Discriminating Method,簡稱GDD-P)[2]是兩種多級評分的認知診斷方法。二者都是基于項目反應理論(IRT)的診斷方法。這兩種方法最大的差別是比較被試的觀察項目反應模式和期望項目反應模式之間的準則,GRM-AHM是用對數(shù)似然比,而GDD-P是用廣義距離。實際測驗中,施測者一般很難檢驗診斷方法是否精確診斷了被試的知識狀態(tài),因而往往通過MonteCarlo方法模擬研究,通過歸準率的高低來確定診斷方法的優(yōu)劣。目前尚沒有相關(guān)文獻比較研究過GRM-AHM和GDD-P的優(yōu)劣。本研究主要介紹這兩種方法的統(tǒng)計原理和使用方法,并采用MonteCarlo方法比較這兩種方法的優(yōu)劣,以期為研究者在認知診斷的實測應用中選擇合適的診斷方法提供依據(jù)。
GRM-AHM應用對數(shù)似然比(LL)作判別方法。有研究者在GRM-AHM[3]中比較過幾種判別方法,LL的診斷率最高。多級評分IRT選用Samejima的等級反應模型 (Graded response model,GRM)。它的數(shù)學表達式為:
其中,Xα是被試α(α=1,…,N)的觀察得分向量,Vβ(β=1,…,R)是期望得分向量(N是被試數(shù),R是期望項目反應模式數(shù))。我們?nèi)钥蓪α稱為觀察項目反應模式,Vβ稱為期望項目反應模式。fj(fj≥1,j=1,2,…,J)是第j個項目的滿分(J是診斷測驗項目個數(shù))。上式中,Pαjt與Pβjt的值用等級反應模型(GRM)來計算,xαjt和vβjt的值非0 即1。若被試α在第j個項目上的得分為m,記Xαj=m,則xαjm=1,而t≠m時xαjt=0(0≤t≤fj);若Vβ的第j分量為m,即Vβj=m,則vβjm=1,而t≠m時vβjt=0(0≤t≤fj)。
本研究將使LL(Xα,Vβ)值達到最小的期望項目反應模式Vβ對應的屬性掌握模式判為被試α的屬性掌握模式。
GDD-P定義了被試的觀察項目反應模式和期望項目反應模式之間的廣義距離,將被試的觀察項目反應模式判歸為離它最近的期望項目反應模式所對應的知識狀態(tài)。在項目為多級評分的認知診斷測驗中,它的數(shù)學表達式為:
Xα=(Xα1,…,XαJ)表示被試α的觀察項目反應模式,Vβ=(Vβ1,…,VβJ)表示第β種期望項目反應模式,d(Xαj,Vβj)表示j項目上被試α的觀察反應Xαj與項目j上第β種期望反應Vβj的廣義距離,d(Xα,Vβ)表示Xα到Vβ的廣義距離,即為所有
其中,項目的廣義距離之和;PV(βjθα)是能力水平為θα的被試α在項目j上得到反應為Vβj的概率。
本研究將使d(Xα,Vβ)值達到最小的期望項目反應模式Vβ對應的屬性掌握模式判為被試α的屬性掌握模式。
本研究采用MonteCarlo方法模擬研究,比較GRM-AHM和GDD-P的優(yōu)劣,使用Matlab7.0軟件編寫程序。
1.測驗Q矩陣的設計
本研究采用Leighton等人[4]采用的四種屬性層級結(jié)構(gòu)(如圖1所示的發(fā)散型、收斂型、線型和無結(jié)構(gòu)型),由屬性層級關(guān)系可以得到屬性的鄰接陣,繼而得到可達陣R,使用Tatsuoka[5]的縮減算法或丁樹良[6][7][8]的擴張算法導出潛在Q陣(Qr陣),Qr陣的每一列都可作為認知診斷測驗項目類。Qr陣再加上一個零列,構(gòu)成被試Q陣(Qs陣)[9],它的列表示了被試知識狀態(tài)的所有可能類。測驗的期望項目反應模式全集由Qs的轉(zhuǎn)置乘以Qr(即得到(對應分量的值為多級評分),即得到認知診斷分類中心,被試知識狀態(tài)與期望項目反應模式是一一對應的。實際測驗中,研究者一般把Qr陣用作測驗Q矩陣(如本研究),可不一定非得用Qr陣為測驗Q矩陣,只需包含可達陣R的矩陣都可測驗Q矩陣,因為只要測驗Q矩陣中包含了可達陣R就能保證知識狀態(tài)和期望項目反應模式是一一對應的。[10][11]
不管是GRM-AHM還是GDD-P,都是比較被試觀察項目反應模式和期望項目反應模式,只要兩者滿足方法的準則,則匹配成功,那該被試觀察項目反應模式匹配的期望項目反應模式對應的知識狀態(tài)就被診斷為被試的知識狀態(tài),所以測驗Q矩陣必須保證知識狀態(tài)與期望項目反應模式的一一對應。
圖1 含七個屬性的四種層級結(jié)構(gòu)圖
2.被試觀察項目反應模式的模擬
在實際測驗中,被試觀察項目反應模式就是被試對測驗題目的作答反應模式。模擬的方法是對每個期望項目反應模式的分量加上隨機誤差,造成被試作答失誤率slip(這里的slip是指與期望項目作答反應不一致,包含失誤或猜測)后所得到的反應向量作為被試觀察項目反應模式。本研究在四種slip(分別為2%、5%、10%和15%)情況下比較GDD-P和GRM-AHM的優(yōu)劣。
模擬被試作答矩陣的方法如下:
(1)模擬產(chǎn)生被試。把期望項目反應模式按總得分從小到大排序,然后使具有這些得分的被試人數(shù)滿足標準正態(tài)分布,產(chǎn)生5000個被試進行分配,其中得分相同的期望項目反應模式平均分配人數(shù)。
(2)模擬觀察項目反應模式。如要模擬每個模式的每個項目的得分有5%的概率發(fā)生slip的情況,采用一個服從開區(qū)間(0,1)上均勻分布U(0,1)的隨機數(shù)r,如果r>0.925且該得分不是滿分,則該項目得分增加1分;如果r<0.025且該項目得分不是0則該項目得分減1分,否則該項目得分不變,這樣就模擬產(chǎn)生了一個以5%概率發(fā)生slip的觀察項目反應模式。采用相同的方法可模擬產(chǎn)生2%、10%和15%失誤概率的觀察項目反應模式。[12]
表1 歸類結(jié)果
3.兩種診斷方法的比較
對被試作答矩陣采用三參數(shù)等級反應模型[13]估計項目參數(shù)和能力參數(shù);使用GDD-P和GRM-AHM把被試的觀察項目反應模式和期望項目反應模式進行匹配,匹配的期望項目反應模式對應的知識狀態(tài)即為該被試的知識狀態(tài),從而得到每位被試的知識狀態(tài)。
本研究在4種slip下考慮4種屬性層級結(jié)構(gòu)的診斷結(jié)果,即用“4×4”交叉設計,共16個試驗,每個試驗都重復進行20次以減少誤差,每次試驗都對兩種診斷方法(GRM-AHM和GDD-P)比較研究,以考察失誤概率對診斷準確率的影響及診斷方法對診斷準確率的影響。
我們把發(fā)生slip前的期望反應模式作為真值,然后用模式歸準率(PatternRatio,簡稱PR)和屬性邊際歸準率(Marginal Ration,簡稱MR)[14]作為評價指標來比較方法的優(yōu)劣。
4.結(jié)果分析
表1列出了兩種診斷方法在4種層級結(jié)構(gòu)上的歸準率(模式歸準率和屬性邊際歸準率)。從表1我們可以知道:對于4種7個屬性的屬性結(jié)構(gòu),兩種診斷方法在4種silp情況下的模式歸準了都在80%以上,屬性邊際歸準率都在90%以上。圖2至圖5顯示了歸類結(jié)果,從這些圖表我們可以看出:對于發(fā)散型結(jié)構(gòu),4種slip情況下都是GDD-P比GRM-AHM的診斷效果好;對于無結(jié)構(gòu)型結(jié)構(gòu),GRM-AHM反而比GDD-P診斷效果好;對于收斂型和線型結(jié)構(gòu),在15%slip時是GDD-P方法更好,在其他3種slip時,兩種方法的診斷效果相差不大。
圖2 發(fā)散型歸類結(jié)果圖
圖3 收斂型歸類結(jié)果圖
圖4 線型歸類結(jié)果圖
圖5 無結(jié)構(gòu)型歸類結(jié)果圖
理論最終服務于實踐,本研究探討了基于多級評分的屬性層級方法和廣義距離法的認知診斷方法在實證數(shù)據(jù)中的應用。如果我們想診斷某學校學生在“進位計數(shù)制”這一內(nèi)容的掌握情況,步驟如下:
(1)根據(jù)診斷目標,由學科專家界定完成測驗任務所需的認知屬性(知識結(jié)構(gòu)與認知技能),以及這些屬性之間的層級關(guān)系。在借鑒喻曉峰[15]等人研究成果的基礎上,我們確定了五個屬性,分別為:A1(進制的概念),A2(十進制轉(zhuǎn)化成其他進制),A3(其他進制轉(zhuǎn)換成十進制),A4(二進制轉(zhuǎn)換成八進制或十六進制),A5(八進制或十六進制轉(zhuǎn)換成二進制)。這五個屬性間的層級關(guān)系如圖6所示。
圖6 “數(shù)的進制”的屬性的層級
(2)根據(jù)屬性及其間的層級結(jié)構(gòu),確定屬性間的可達陣R、潛在Q陣(Qr陣)、被試Q陣(Qs陣)。測驗Q矩陣(Qt陣)可根據(jù)實際需要編制,只需Qt陣包含可達陣R即可,本測驗的Qt陣如表2所示。之后,我們根據(jù)Qt陣和Qs陣計算期望反應模式,確定認知診斷的分類中心。
表2 測驗Q陣(Qt陣)
(3)根據(jù)Qt矩陣編制認知診斷測驗題目。比如表2中題目I5在A1和A2這兩個分量的值為1,其余為0,則題目I5只包含屬性A1和A2,不包含其他屬性,本測驗的I5的內(nèi)容為:十進制數(shù)為57,則其二進制數(shù)為多少?
其他測驗題目按相同的方法編制,然后組織學生實施認知診斷測驗。
(4)收集被試的測驗數(shù)據(jù),選擇合適的認知診斷模型對題目參數(shù)和學生的知識狀態(tài)進行評估。本測驗的屬性層級結(jié)構(gòu)是無結(jié)構(gòu)型,由表1我們可以知道,對于本測驗GRM-AHM比GDD-P的診斷效果更好,故選GRM-AHM作為本測驗的認知診斷模型。我們也可以根據(jù)測驗的Qt陣、被試情況產(chǎn)生模擬數(shù)據(jù)來比較哪種診斷模型更適合。
(5)對于每個被試來說,把被試的作答反應模式和每個期望反應模式依據(jù)式(1)進行計算,使得對數(shù)似然比的值最小的期望反應模式對應的屬性掌握模式就是該被試的屬性掌握模式。從而可以向被試報告屬性掌握模式,讓被試知道自已對每個屬性的掌握情況;向教師報告被試對每個屬性的平均掌握率,從而判斷所有被試對每個屬性的掌握情況,進而開展補救教學。
本文介紹了兩種多級評分認知診斷方法(GRM-AHM和GDD-P),并對這兩種方法進行了比較研究。實驗結(jié)果發(fā)現(xiàn):對發(fā)散型來說,GDD-P相對更好;對無結(jié)構(gòu)型來說,GRM-AHM是更好的選擇;對收斂型和線型而言,slip比較大時GDD-P相對更合適,其他情況下兩種方法診斷效果差不多。這樣,對于多級評分認知診斷的實測,可以根據(jù)實驗結(jié)果在不同的測驗情況下選擇不同的診斷方法。
對于認知診斷方法來說,診斷率越高診斷效果越好,所以開發(fā)具有更好診斷率的認知診斷方法應是我們努力的方向。
[1][3][12][14]祝玉芳,丁樹良.基于等級反應模型的屬性層級方法[J].心理學報,2009,41(3):267~275.
[2]Sun J N,Xin T,Zhang S M & Jimmy de la Torre. A Polytomous Extension of the Generalized Distance Discriminating Method[J]. Applied Psychological Measurement,2013,37 (7): 503~521.
[4]Leighton J P,GierlMJ,Hunka S M. The attribute hierarchy method for cognitive assessment: a variation on Tatsuoka’s rule space approach [J]. Journal of EducationalMeasurement, 2004,41(3):205~237.
[5]TatsuokaKK.Architecture of knowledge structure and cognitive diagnosis: a statistical pattern recognition and classification approach [M].P. D. Nichols,S. F. Chipman & R. L. Brennan. Cognitively Diagnostic Assessment. Hillsdale,NJ: Erlbaum,1995. 327~361.
[6]Ding S L,Luo F,Cai Y,Lin H J,Wang X B. Complement to Tatsuoka’s Q matrix theory [M].K. Shingemasu,A. Okada,T. Imaizumi,T. Hoshino . New trends in psychometrics. Tokyo: UniversalAcademy,2008. 417~423.
[7]丁樹良,祝玉芳,林海菁等.Tatsuoka Q矩陣理論的修正[J].心理學報,2009,41(2):175~181.
[8]楊淑群,蔡聲鎮(zhèn),丁樹良等.求解簡化Q矩陣的擴張算法[J].蘭州大學學報(自然科學版),2008,44(3):87~91.
[9]丁樹良,汪文義,羅芬.認知診斷中Q矩陣和Q矩陣理論[J].江西師范大學學報(自然科學版),2012,36 (5):441~445.
[10]丁樹良,楊淑群,汪文義.可達矩陣在認知診斷測驗編制中的重要作用[J].江西師范大學學報(自然科學版),2010,34(5):490~494.
[11]丁樹良,羅芬,汪文義.認知診斷分類中心的確定[J].心理學探新,2013,33(5):396~401
[13]陳青,丁樹良,朱隆尹等.3參數(shù)等級反應模型及其參數(shù)估計[J].江西師范大學學報(自然科學版),2010,34(2):117~122.
[15]喻曉鋒,丁樹良,秦春影等.貝葉斯網(wǎng)在認知診斷屬性層級結(jié)構(gòu)確定中的應用[J].心理學報,2011,43 (3):338~346.
責任編輯/王彩霞
G40-058.1
A
1674-1536(2014)12-0009-05
祝玉芳/上饒師范學院小學教育師范分院教師,碩士,研究方向為認知診斷。(上饒 334000)
王黎華/上饒師范學院小學教育師范分院教師,碩士,研究方向為教育心理學。