秦春影 喻曉鋒
多級屬性矩陣的驗(yàn)證與估計*
秦春影1,2喻曉鋒1
(1江西師范大學(xué)心理學(xué)院, 南昌 330022) (2南昌師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院, 南昌 330032)
多級屬性是將診斷測驗(yàn)中傳統(tǒng)的二值(即兩種水平, 通常定義為0和1)屬性定義為多值(多個水平可以為0, 1, …), 它不但可以描述學(xué)生對于知識屬性是否掌握, 而且可以描述學(xué)生在屬性上的掌握程度, 這樣使得診斷測驗(yàn)?zāi)芴峁┙o被試更豐富的知識掌握詳情。本文將適用于二級屬性矩陣的統(tǒng)計量(統(tǒng)計量)拓展到多級屬性下的矩陣驗(yàn)證和估計, 在兩種常見的條件下, 設(shè)計了兩種估計算法:聯(lián)合估計算法和在線估計算法。模擬實(shí)驗(yàn)結(jié)果表明:聯(lián)合估計算法適用于對專家界定的初始矩陣進(jìn)行驗(yàn)證, 當(dāng)初始矩陣中包含較少的錯誤時, 通過聯(lián)合估計算法有很大可能恢復(fù)正確的矩陣; 在線估計算法適用于對“新項(xiàng)目”進(jìn)行屬性向量和項(xiàng)目參數(shù)的在線標(biāo)定, 基于一定數(shù)量的“基礎(chǔ)項(xiàng)目”, 在線估計算法對于新項(xiàng)目的估計也能達(dá)到較滿意的成功率。實(shí)證數(shù)據(jù)分析則進(jìn)一步展示了該方法的使用。
多級屬性,矩陣, p-DINA模型,統(tǒng)計量
隨著社會的發(fā)展, 教育和心理測驗(yàn)已經(jīng)不滿足于單一的總體評價(overall assessment)。認(rèn)知診斷評價(cognitive diagnosis assessment, CDA)可以提供學(xué)生在知識上的掌握詳情, 已受到社會的廣泛關(guān)注(Leighton & Gierl, 2007; Tatsuoka, 2009; Rupp et al., 2010; 羅照盛, 2019; von Davier & Lee, 2019)。傳統(tǒng)的測驗(yàn), 如基于經(jīng)典測驗(yàn)理論(classical test theory, CTT)或基于項(xiàng)目反應(yīng)理論(item response theory, IRT)的測驗(yàn)都僅僅提供學(xué)生的總體分?jǐn)?shù)或能力, 除了這個總體評價之外, CDA還可以提供學(xué)生的知識狀態(tài)(knowledge state, KS), 這個知識掌握狀態(tài)可以對學(xué)生的學(xué)習(xí)、教師的教學(xué)和教學(xué)效果的評價起到很好的指導(dǎo)和參考作用。
通常情況下, CDA中學(xué)生對知識的掌握情況是用0或1來描述, 1表示學(xué)生掌握了某個知識, 0表示沒有掌握, 即學(xué)生對知識的掌握僅僅有2個水平。文獻(xiàn)中通常把CDA中細(xì)粒度的知識用屬性(attribute; Leighton et al., 2004)來描述, 學(xué)生在這多個屬性上的掌握情況就是學(xué)生的KS。因此, 學(xué)生的KS通常是一個二值向量。將學(xué)生對屬性的掌握情況用0和1來描述的好處是相對簡單, 容易解釋, 但是卻也相對粗糙, 不能準(zhǔn)確刻畫學(xué)生在屬性上的掌握程度, 因?yàn)閮蓚€在某屬性上的狀態(tài)都為0的學(xué)生之間還是有掌握程度上的區(qū)別的。也正是因?yàn)槿绱? 有很多研究者考慮將屬性的二種取值考慮設(shè)置成多種取值(Karelitz, 2004; von Davier, 2008; Chen & de la Torre, 2013; Sun et al., 2013; 蔡艷, 涂冬波, 2015; 涂冬波, 蔡艷, 2015; 詹沛達(dá)等, 2016; Zhan et al., 2020; Shang et al., 2021)。實(shí)際應(yīng)用中, 有很多情況都是對知識屬性的多水平要求和考查, 比如《全日制義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(修改稿)》中就使用了“了解(認(rèn)識)”、“理解”、“掌握”和“運(yùn)用”這4個順序類別詞匯來表述知識技能目標(biāo)的不同水平。因此, 多級屬性能夠?qū)W(xué)生做出更為精細(xì)地劃分, 將屬性定義成多級的診斷測驗(yàn)具有現(xiàn)實(shí)應(yīng)用價值和前景。
也正是因?yàn)槿绱? 研究者們對基于多級屬性的CDA展開了研究, 有針對性地開發(fā)了診斷模型, 比如Karelitz (2004)構(gòu)建了基于順序類別屬性編碼(ordered-category attribute coding, OCAC)的診斷模型OCAC-DINA, 并且對矩陣中存在缺失時的參數(shù)估計和分類進(jìn)行研究; 還有基于其它診斷模型所開發(fā)的多級屬性模型, 像RRUM下的多級屬性模型(Templin, 2004), LCDM下的多級屬性模型(Templin & Bradshaw, 2014); GDM下的多級屬性模型(Haberman et al., 2008; von Davier, 2008); Zhan等人(2020)構(gòu)建了高階的多級屬性的診斷模型等; 與前面這些研究不同的是, Shang等人(2021)借鑒多維IRT的思想, 定義連續(xù)的多級屬性, 并且構(gòu)建了可以處理連續(xù)多級屬性的診斷模型。同傳統(tǒng)的CDA一樣, 多級屬性CDA中的矩陣的作用也十分關(guān)鍵, 它的正確性會直接影響模型參數(shù)的識別、被試的分類乃至整個測驗(yàn)的信度和效度。并且更重要的是, 在實(shí)際應(yīng)用中, 僅僅由專家界定的矩陣很容易出現(xiàn)錯誤或?qū)<乙庖姴灰恢碌那闆r(de la Torre, 2008; DeCarlo, 2012; Liu et al., 2012; 喻曉鋒等, 2015a; Yu & Cheng, 2020)。從目前已有的研究來看, 研究者們采用的多級屬性矩陣大都是由專家界定或模擬生成, 通常假定它是正確的, 沒有對它的正確性或合適性進(jìn)行驗(yàn)證, 還缺乏對多級屬性矩陣的驗(yàn)證和估計方法進(jìn)行研究。因此, 迫切需要研究客觀的方法來對其正確性進(jìn)行驗(yàn)證或估計。本研究擬將適合二級屬性下矩陣的驗(yàn)證和估計方法拓展到適合多級屬性矩陣的情況, 研究客觀的驗(yàn)證或估計多級屬性矩陣的方法, 以期能促進(jìn)多級屬性CDA的發(fā)展。
在正式介紹多級屬性矩陣的估計算法之前, 首先對多級屬性矩陣及對應(yīng)的診斷模型進(jìn)行介紹。
如果屬性按按傳統(tǒng)的二級方式, 用0作為截斷點(diǎn)來對屬性進(jìn)行劃分, 則其所對應(yīng)的矩陣如(2)所示。
已開發(fā)的適合多級屬性的診斷模型主要有OCAC-DINA (Karelitz, 2004), LCDM下的多級屬性模型(Templin & Bradshaw, 2014), GDM對應(yīng)的多級屬性診斷模型(Haberman et al., 2008; von Davier, 2008), 基于G-DINA框架下的多級屬性模型, 比如Chen和de la Torre (2013), 蔡艷和涂冬波(2015), 高階的多級屬性模型(Zhan et al., 2020), 連續(xù)的多級屬性診斷模型(Shang et al., 2021)等。在這里, 為節(jié)省篇幅, 僅僅介紹與本文有關(guān)的pG-DINA和p-DINA模型。
下面介紹適合于前面提到的兩種應(yīng)用情境的算法。
JE算法需要專家已經(jīng)對測驗(yàn)中的所有項(xiàng)目屬性均已界定, 只是其中包含錯誤。不同的是, OE算法只需要專家對少部分項(xiàng)目已經(jīng)界定, 對剩余的項(xiàng)目未界定(可以是以下三種情況:新編制的項(xiàng)目需要界定屬性、專家之間對屬性界定持不同意見的項(xiàng)目、屬性定義不確定或有懷疑的項(xiàng)目), 在這種情況下, 可以采用OE算法進(jìn)行估計。
4.3.1矩陣
4.3.2 項(xiàng)目參數(shù)
4.3.3 被試參數(shù)
4.3.4 作答數(shù)據(jù)
基于真實(shí)的矩陣、項(xiàng)目參數(shù)和被試參數(shù), 按照p-DINA模型模擬作答數(shù)據(jù)。
4.3.5 初始矩陣
4.3.6 參數(shù)估計
數(shù)據(jù)的模擬和分析采用matlab編寫程序完成, 每種實(shí)驗(yàn)條件重復(fù)100次, 最后取100次的平均值作為最終的結(jié)果。
4.3.7 評價指標(biāo)
平均迭代次數(shù)是對100次估計的總迭代次數(shù)計算平均值。
與平均迭代次數(shù)類似, 我們同樣也分別記錄了兩種方法的平均執(zhí)行時間, 它也描述了對應(yīng)方法的計算效率, 具體計算公式為
聯(lián)合估計適合的測驗(yàn)情形是:專家已對測驗(yàn)項(xiàng)目都已界定, 只是對部分項(xiàng)目的屬性定義尚不確定、可能界定錯誤或意見不統(tǒng)一時使用。采用JE算法可以對矩陣進(jìn)行驗(yàn)證, 并且輸出建議的矩陣。下面分兩種錯誤類型進(jìn)行介紹。
4.4.1 僅僅存在屬性值界定錯誤時的聯(lián)合估計
在實(shí)際應(yīng)用中, 專家在界定某些項(xiàng)目的屬性值時出現(xiàn)分歧或錯誤的情況, 即前面所介紹的錯誤I, 這是一種相對簡單的情形。因此本研究考察當(dāng)初始矩陣中有部分項(xiàng)目僅僅出現(xiàn)屬性低估或高估的情況(不包括低估至0或從0高估的情況)。
學(xué)生在測驗(yàn)中的作答模擬是按真實(shí)矩陣完成, 只是在分析數(shù)據(jù)時采用包含錯誤的“初始矩陣”作為輸入, 采用JE算法來實(shí)現(xiàn)對矩陣、項(xiàng)目參數(shù)和被試參數(shù)的聯(lián)合估計, 最后比較算法估計得到的矩陣與真實(shí)矩陣之間的差異, 若完全一致,則估計成功, 否則估計失敗, 并且統(tǒng)計估計過程中的迭代次數(shù)。
4.4.2 存在屬性值錯誤、含多余屬性或缺失必要屬性時的聯(lián)合估計
相對來說, 錯誤II是比錯誤I更嚴(yán)重的錯誤, 因?yàn)椴坏珪霈F(xiàn)屬性低估和高估, 同時還會出現(xiàn)將未考察的屬性包含進(jìn)來, 也可能會出現(xiàn)將考察的屬性遺漏, 這在實(shí)際應(yīng)用也是有可能出現(xiàn)的, 錯誤I可以看成是錯誤II的一種特殊情形。因此本研究考察當(dāng)初始矩陣出現(xiàn)錯誤II時JE算法的表現(xiàn)。
在線估計算法OE適合的另一種測驗(yàn)情形, 即僅僅少部分項(xiàng)目被正確界定, 有大批項(xiàng)目需要定義屬性向量的情況, 比如對編制的一批新題進(jìn)行界定(包括屬性向量和參數(shù)), “新項(xiàng)目”的屬性向量不需要專家進(jìn)行初始界定, 可以按隨機(jī)方式生成, 在這種情況下, 可以借助已有項(xiàng)目的信息, 完成對新項(xiàng)目的界定。
界定時需要學(xué)生同時作答“基礎(chǔ)項(xiàng)目”和“新項(xiàng)目”, 估計時固定“基礎(chǔ)項(xiàng)目”的屬性向量, 只需要估計“新項(xiàng)目”的屬性向量。為了充分利用已有信息, 減少“噪音”信息引起的“遮罩效應(yīng)”(masking effect; Fung, 1993; Yuan & Zhong, 2008)帶來的負(fù)面影響, 估計時采用每次只加入一個“新項(xiàng)目”的增量式估計的方式進(jìn)行。并且, 為了降低由于“基礎(chǔ)題”的質(zhì)量所帶來的影響, 在OE算法結(jié)束后, 對整個矩陣再使用JE算法進(jìn)行整體估計, 提高估計的成功率。最后比較算法估計得到的矩陣與真實(shí)矩陣之間的差異, 若完全一致, 則估計成功, 否則估計失敗, 并且統(tǒng)計估計過程中的迭代次數(shù)。
需要注意的是, OE算法中是指完成所有的“新項(xiàng)目”估計后, 如果“新項(xiàng)目”沒有估計成功, 則對包含“基礎(chǔ)項(xiàng)目”和“新”項(xiàng)目的矩陣用JE算法進(jìn)行聯(lián)合估計, 因此從這個角度來看, OE算法中的迭代次數(shù)與JE算法中一樣, 也是指對所有項(xiàng)目完成一次估計的次數(shù)。
4.6.1 JE算法的估計結(jié)果
表1~表4是JE算法在項(xiàng)目數(shù)(30, 15)和錯誤類型(I和II)時的估計結(jié)果, 從結(jié)果可以看出, JE算法在估計矩陣時, 其執(zhí)行效率和正確率受到多方面因素的影響, 比如:被試人數(shù), 測驗(yàn)的項(xiàng)目數(shù), 包含的錯誤項(xiàng)目數(shù)等的影響。研究1和研究2是分別安排在兩臺云服務(wù)器上運(yùn)行的, 服務(wù)器的具體配置是:CPU是2顆至強(qiáng)E5-2697, 十二核心; 內(nèi)存類型DDR5, 容量是64 G; 硬盤類型是固態(tài), 容量512 G。從算法的執(zhí)行效率來看, 雖然算法的搜索空間已經(jīng)下降了很多, 但是依然有較大的搜索空間, 各種條件下的平均執(zhí)行時間仍然較大, 最低情況下需要一天的時間(89182.33秒)。從算法的正確率來看, 相對來看, 測驗(yàn)項(xiàng)目數(shù)對于正確率的影響很大, 測驗(yàn)項(xiàng)目從30下降到15, 估計成功率平均下降了61.67%。
從表1和表2中可以看出, 被試人數(shù)和測驗(yàn)項(xiàng)目數(shù)都與矩陣估計成功率有正向的相關(guān)關(guān)系, 而錯誤項(xiàng)目數(shù)與矩陣估計成功率則有負(fù)向的相關(guān)關(guān)系。根據(jù)本研究中的條件, 被試人數(shù)為2000, 測驗(yàn)項(xiàng)目數(shù)為30, 可以達(dá)到較好的估計結(jié)果。具體來說, 對于估計成功率,矩陣包含30題時各條件下都能達(dá)到80%以上, 而15題時最好的情況都要小于60%。從迭代次數(shù)來看, 測驗(yàn)項(xiàng)目數(shù)為15時, 各樣本條件下需要的平均迭代次數(shù)小于2.5, 而當(dāng)項(xiàng)目數(shù)達(dá)到30時, 對應(yīng)需要的迭代次數(shù)超過3。圖1和圖2進(jìn)一步展示了JE算法的表現(xiàn)隨著錯誤界定項(xiàng)目數(shù)發(fā)生變化的趨勢。
表3和表4分別是測驗(yàn)項(xiàng)目數(shù)為30, 15, 并且矩陣中包含錯誤類型II時的估計結(jié)果??梢钥闯? 一方面被試人數(shù)的增加可以提高JE算法的估計成功率, 比如測驗(yàn)長為30, 錯誤項(xiàng)目數(shù)為3和5時, 被試人數(shù)從1000提高到4000, 估計成功率分別提高了7%和13%。另一方面, 被試人數(shù)和錯誤項(xiàng)目數(shù)會對估計成功率會產(chǎn)生交互作用, 因?yàn)楫?dāng)測驗(yàn)長度只有15, 錯誤項(xiàng)目數(shù)3和5, 人數(shù)從1000提高到4000, 估計成功率分別提高了18%和5%, 此時人數(shù)的增加對低錯誤項(xiàng)目數(shù)影響更大, 這與測驗(yàn)長度為30時的情況正好相反。圖3和圖4是測驗(yàn)項(xiàng)目為15題時JE算法的表現(xiàn)隨著錯誤界定項(xiàng)目數(shù)發(fā)生變化的情況。
表1 錯誤類型I, 時JE算法的估計成功率和平均迭代次數(shù)
表2 錯誤類型I, 時JE算法的估計估計成功率和平均迭代次數(shù)
圖1 錯誤類型I時, JE算法的估計結(jié)果
圖2 錯誤類型I時, JE算法的迭代次數(shù)
表3 錯誤類型II, 時JE算法的估計成功率平均迭代次數(shù)
表4 錯誤類型II, 時JE算法的估計成功率和平均迭代次數(shù)
綜合表1, 表2, 表3和表4可以看出, 一方面, 當(dāng)錯誤類型為II時, 相同人數(shù)、題目條件下要略低于錯誤類型I時的估計成功率, 并且相應(yīng)的迭代次數(shù)也要更多, 這是因?yàn)殄e誤類型II時, 項(xiàng)目屬性向量可能的取值空間更大所導(dǎo)致的; 另一方面, 從平均運(yùn)行時間來看, 相對于錯誤類型I, 固定其它條件時錯誤類型II各對應(yīng)的實(shí)驗(yàn)條件需要相對更多的運(yùn)行時間, 這一點(diǎn)是和更大的迭代次數(shù)相一致的。
圖3 錯誤類型II時, JE算法的估計結(jié)果
圖4 錯誤類型II時, JE算法的迭代次數(shù)
綜合圖1、圖2、圖3和圖4, 隨著矩陣中包含的錯誤項(xiàng)目數(shù)增加, 不論是錯誤類型I還是錯誤類型II, JE算法估計的成功率在下降, 所需要的迭代次數(shù)在增加。
4.6.2 OE算法的估計結(jié)果
從圖5~圖8可以看出, 當(dāng)測驗(yàn)項(xiàng)目數(shù)從30降到15時, 算法所需要的迭代次數(shù)會有較大的增加, 比如基礎(chǔ)題為10個, 1000人, 長度30和15的測驗(yàn)所需要的迭代次數(shù)分別為0.74和1.06。
圖5 OE算法在的估計結(jié)果
圖6 OE算法在的迭代次數(shù)
表5 時OE算法的估計成功率和平均迭代次數(shù)
注:OE算法中的平均迭代次數(shù)是指在對數(shù)據(jù)進(jìn)行整體估計時的平均迭代次數(shù), 如果估計過程不需要整體估計即已成功完成, 則該批數(shù)據(jù)的迭代次數(shù)為0。
表6 時OE算法的估計估計成功率和平均迭代次數(shù)
圖7 OE算法對的估計結(jié)果
圖8 OE算法對的平均迭代次數(shù)
為了進(jìn)一步評價兩種算法的性能, 將它們應(yīng)用到一批實(shí)證數(shù)據(jù)上。這批實(shí)證數(shù)據(jù)是來自于某市高中的一次月考, 選取了數(shù)學(xué)試卷中與概率有關(guān)的試題。這部分測試題考察了隨機(jī)事件, 樣本空間, 古典概率, 使用頻數(shù)估計概率共4個屬性。每個屬性有5個連續(xù)的掌握類別:不了解, 了解, 理解, 掌握和應(yīng)用, 分別用0, 1, 2, 3, 4表示?;谶@4個屬性, 由學(xué)科專家共編制了20個題, 一共有1960個考生完成了測驗(yàn)。
表7 概率數(shù)據(jù)對應(yīng)的原始Q矩陣
對于OE算法, 我們選擇了初始矩陣中的5個題目(表A4中灰色背景顯示的題目), 選擇這5個題目的原因是學(xué)科專家對這5道題的屬性定義完全一致, 并且它們在JE算法的建議矩陣中也得到了驗(yàn)證。余下的15道題作為“新題目”, 將它們逐個用OE算法進(jìn)行估計。當(dāng)所有的“新題目”完成了估計, 再用JE算法對所有題目進(jìn)行聯(lián)合估計, 這樣就得到了OE算法建議的矩陣, 如網(wǎng)絡(luò)版附錄中的表A4所示??梢钥闯? OE算法建議修改6個題目, 共涉及6個屬性。除了第19題之外, 由JE和OE兩種算法得到的建議矩陣是完全一致的。對于第19題, 專家界定的初始向量為[0 0 4 2], JE和OE算法得到的屬性向量分別是[0 0 3 3]和[0 0 4 3]。在與5位一線的教師進(jìn)行討論之后, 他們其中的4位都傾向于同意OE算法得到的結(jié)果, 即將第4個屬性初始定義的水平2修改為水平3。
雖然JE和OE算法在模擬條件下取得了較好的結(jié)果, 即使如此, JE和OE算法仍然需要在更復(fù)雜的情況中去驗(yàn)證, 對于JE算法, 這里只考慮“初始矩陣”中包含的錯誤項(xiàng)目較少, 對于更多錯誤時的估計或者所能容忍的最大錯誤項(xiàng)目數(shù)量需要進(jìn)一步研究; 對于OE算法, 研究中隨機(jī)選擇了100批“基礎(chǔ)項(xiàng)目”, 這100批“基礎(chǔ)項(xiàng)目”的質(zhì)量有好有壞, 并沒有考慮“基礎(chǔ)項(xiàng)目”的質(zhì)量對于估計的影響, 如果進(jìn)一步研究“基礎(chǔ)項(xiàng)目”的設(shè)計, 使之更有利于“新項(xiàng)目”的估計, 就像診斷測驗(yàn)中的矩陣設(shè)計一樣, 在基礎(chǔ)題中加入“可達(dá)矩陣”對于矩陣估計的影響等(Chen et al., 2015; 丁樹良等, 2019; 彭亞風(fēng)等, 2016, 2018; Gu et al., 2018; Gu & Xu, 2021), 應(yīng)該是很有意義的工作。本研究中無論是JE還是OE算法, 只考慮了兩種錯誤類型, 實(shí)際上, 還有可能存在其它的錯誤類型, 未來需要對其它更多可能的情況進(jìn)行研究。另外, 現(xiàn)實(shí)的測驗(yàn)情境往往是很復(fù)雜的, 比如考生可能是存在多種解題策略的, 因此, 結(jié)合多種策略的診斷測驗(yàn)中矩陣的估計需要進(jìn)一步考慮(黃玉等, 2019)。測驗(yàn)的屬性間很可能存在某種層級關(guān)系(喻曉鋒等, 2021), 屬性間存在層級關(guān)系時的多值矩陣估計也是未來需要研究的方向。
基于S統(tǒng)計量的矩陣估計一個不足之處在于需要花費(fèi)較多的時間, 這對于實(shí)際應(yīng)用可能是一個潛在的缺陷, 未來對提出的方法進(jìn)行時間效率上的改進(jìn)或研究時間效率更高的方法都值得進(jìn)一步研究。比如Yu和Cheng (2020)的研究表明, 0-1計分下基于殘差統(tǒng)計量的統(tǒng)計量比基于統(tǒng)計量在運(yùn)行效率上有優(yōu)勢, 因此將基于殘差的統(tǒng)計量拓廣到多值屬性診斷測驗(yàn)的矩陣估計值得考慮; 未來也需要進(jìn)一步考慮一些非參數(shù)的方法, 因?yàn)樗鼈兺ǔτ跇颖玖康囊筝^小, 并且有執(zhí)行效率上的優(yōu)勢(劉娜等, 2021); 將基于深度學(xué)習(xí)等一些算法拓廣到多值屬性診斷測驗(yàn)的矩陣估計(張玉柳等, 2021; Li et al., 2022)也需要深入研究。
實(shí)證數(shù)據(jù)的分析表明, 本研究中提出的基于統(tǒng)計量的聯(lián)合估計算法和在線估計算法可以在實(shí)際中應(yīng)用, 并且結(jié)果顯示專家對于題目屬性向量的錯誤定義更容易出現(xiàn)在高估或低估屬性的水平上, 不太容易出現(xiàn)完全缺失某個屬性或包含額外的屬性等更嚴(yán)重的情況。OE算法的一個副產(chǎn)品是同時將新項(xiàng)目的參數(shù)進(jìn)行了估計, 并且它能保證與基礎(chǔ)項(xiàng)目的參數(shù)處于同一個尺度上。將屬性間的關(guān)系納入考慮需要進(jìn)一步研究, 未來也需要將算法應(yīng)用到其它的診斷模型中(Ma & de la Torre, 2019; Zhan et al., 2020)。
Cai, Y., & Tu, D. B. (2015). Extension of cognitive diagnosis models based on the polytomous attributes framework and their Q-matrices designs.(10), 1300–1310.
[蔡艷, 涂冬波. (2015). 屬性多級化的認(rèn)知診斷模型拓展及其Q矩陣設(shè)計.(10), 1300–1310.]
Chen, J. S., & de la Torre, J. (2013). A general cognitive diagnosis model for expert-defined polytomous attributes.(6), 419–437.
Chen, Y. X., Liu, J. C., Xu, G. J., & Ying, Z. L. (2015). Statistical analysis of Q-matrix based diagnostic classification models.(510), 850–866.
Chung, M.-T. (2014).(Unpublished doctoral dissertation), Columbia University, New York.
DeCarlo, L. T. (2012). Recognizing Uncertainty in the Q-Matrix via a Bayesian Extension of the DINA Model.(6), 447–468.
de La Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications.(4), 343–362.
de la Torre, J. (2009). DINA model and parameter estimation: A didactic.(1), 115–130.
de la Torre, J. (2011). The generalized dina model framework.(2), 179-199.
de la Torre, J., & Chiu, C. Y. (2016). A general method of empirical Q-matrix validation.,(2), 253–273.
Ding, S. L., Luo, F., Wang, W. Y., & Xiong, J. H. (2019). The designing cognitive diagnostic test with dichotomous scoring.(5), 441–447.
[丁樹良, 羅芬, 汪文義, 熊建華. (2019). 0-1評分認(rèn)知診斷測驗(yàn)設(shè)計.(5), 441–447.]
Fung, W.-K. (1993). Unmasking outliers and leverage points: A confirmation.(422), 515–519.
Gu, Y. Q., Liu, J. C., Xu, G. J., & Ying, Z. L. (2018). Hypothesis testing of the Q-matrix,(3), 515–537.
Gu, Y. Q., & Xu, G. J. (2021). Sufficient and Necessary Conditions for the Identifiability of the Q-matrix., 449–472.
Haberman, S. J., von Davier, M., & Lee, Y.-H. (2008).(ETS Research Report no. RR-08-45). Princeton, NJ: Educational Testing Service.
Huang, Y., Luo, F., Xiong, J. H., Ding, S. L., & Gan, D. W. (2019). The multiple-strategy cognitive diagnosis method with polytomous scoring.(4), 376–381.
[黃玉, 羅芬, 熊建華, 丁樹良, 甘登文. (2019). 多級評分多策略認(rèn)知診斷方法.(4), 376–381.]
Karelitz, T. M. (2004).(Unpublished doctoral dissertation), University of Illinois at Urbana-Champaign.
Leighton, J. P., & Gierl, M. J. (2007).. Cambridge University Press.
Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka’s rule-space approach.(3), 205–237.
Li, C. C., Ma, C. C., & Xu, G. J. (2022). Learning large Q-matrix by restricted Boltzmann machines.. https://doi.org/10.1007/s11336-021-09828-4.
Liu, J. C., Xu, G. J., & Ying, Z. L. (2012). Data driven learning of Q matrix.(7), 548–564.
Liu, J. C., Xu, G. J., & Ying, Z. L. (2013). Theory of self-learning Q-matrix.(5A), 1790–1817.
Liu, N., Liu, X. L., Li, J. J., Zeng, P. F., Yu, X. J., & Kang, C. H. (2021). Constructing a non-parametric Q-matrix correction method based on Manhattan distance.(6), 634–641.
[劉娜, 劉芯伶, 李俊杰, 曾平飛, 俞向軍, 康春花. (2021). 基于曼哈頓距離構(gòu)建非參數(shù)Q矩陣修正方法.(6), 634–641.]
Luo, Z. S. (2019).. Beijing Normal University publishing group.
羅照盛. (2019).北京師范大學(xué)出版集團(tuán).
Ma, W., & de la Torre, J. (2019). An empirical Q-matrix validation method for the sequential generalized DINA model.(1), 142–163.
Peng, Y. F., Luo, Z. S., Li, Y. J., Gao, C. L. (2018). Optimization of test design for examinees with different cognitive structures.(1), 130–140.
[彭亞風(fēng), 羅照盛, 李喻駿, 高椿雷. (2018). 不同認(rèn)知結(jié)構(gòu)被試的測驗(yàn)設(shè)計模式.(1), 130–140.]
Peng, Y. F., Luo, Z. S., Yu, X. F., Gao, C. L., Li, Y, J. (2016). The optimization of test design in Cognitive Diagnostic Assessment.(12), 1600–1611.
[彭亞風(fēng), 羅照盛, 喻曉鋒, 高椿雷, 李喻駿. (2016). 認(rèn)知診斷評價中測驗(yàn)結(jié)構(gòu)的優(yōu)化設(shè)計.(12), 1600–1611.]
Qin, C. Y., Jia, S., Fang, X. W., & Yu, X. F. (2020). Relationship validation among items and attributes,(18), 3360–3375
Qin, C. Y., Zhang, L., Qiu, D., Huang, L., Geng, T., Jiang, H., ... Zhou, J. (2015). Model identification and Q-matrix incremental inference in cognitive diagnosis.,, 66–76.
Rupp, A. A., Templin, J., & Henson, R. A. (2010).Guilford Press.
Shang, Z. R., Erosheva, E. A., Xu, G. J. (2021). Partial-masterycognitive diagnosis models.(3), 1529 –1555.
Sun, J. N., Xin, T., Zhang, S. M., & de la Torre, J. (2013). A polytomous extension of the generalized distance discriminatingmethod.(7), 503–521.
Tatsuoka, K. K. (2009).. Routledge.
Templin, J. L. (2004).(Unpublished doctoral dissertation), University of Illinois at Urbana-Champaign.
Templin, J. L., & Bradshaw, L. (2013). Measuring the reliability of diagnostic classification model examinee estimates.(2), 251–275.
Templin, J. L., Bradshaw, L. (2014). The use and misuse of psychometric models.(2), 347–354.
Tu, D. B., & Cai, Y. (2015). The development of CD-CAT with polytomous attributes.(11), 1405–1414.
[涂冬波, 蔡艷. (2015). 基于屬性多級化的認(rèn)知診斷計算機(jī)化自適應(yīng)測驗(yàn)設(shè)計與實(shí)現(xiàn).(11), 1405–1414.]
von Davier, M. (2008). A general diagnostic model applied to language testing data.(2), 287–307.
von Davier, M., & Lee, Y.-S. (2019).. Cham: Springer International Publishing.
Wang, D. X., Cai, Y, & Tu, D. B. (2020). Q-matrix estimation methods for cognitive diagnosis models: Based on partial known Q-matrix,, 1–13. https://doi.org/10.1080/00273171.2020.1746901.
Xiang, R. (2013).(Unpublished doctoral dissertation), Columbia University, New York.
Xu, G.-J. (2013).(Unpublished doctoral dissertation), Columbia University, New York.
Yu, X. F., & Cheng, Y. (2020). Data-driven Q-matrix validation using a residual‐based statistic in cognitive diagnostic assessment.(1), 145–179.
Yu, X. F., Luo, Z. S., Gao, C. L., Li, Y. J., Wang, R., & Wang, Y. T. (2015a). An item attribute specification method based on the likelihood D2 statistic.(3), 417–426.
[喻曉鋒, 羅照盛, 高椿雷, 李喻駿, 王睿, 王鈺彤. (2015a). 使用似然比D2統(tǒng)計量的題目屬性定義方法.(3), 417–426.]
Yu, X. F., Luo, Z. S., Qin, C. Y., Gao, C. L., & Li, Y. J. (2015b). Joint estimation of model parameters and Q-matrix based on response data.(2), 273–282.
[喻曉鋒, 羅照盛, 秦春影, 高椿雷, 李喻駿. (2015b). 基于作答數(shù)據(jù)的模型參數(shù)和Q矩陣聯(lián)合估計.(2), 273–282.]
Yu, X. F., Ma, Y. F., Luo, Z. S., & Qin, C. Y. (2021). The attribute hierarchical structure learning based on K2 algorithm.(4), 376–383.
[喻曉鋒, 馬奕帆, 羅照盛, 秦春影. (2021). 基于K2算法的屬性層級結(jié)構(gòu)學(xué)習(xí)研究.(4), 376–383.]
Yuan, K.-H., & Zhong, X. (2008). Outliers, leverage observations, and influential cases in factor analysis: Using robust procedures to minimize their effect.(1), 329–368.
Zhan, P. D., Bian, Y. F., Wang, L. J. (2016). Factors affecting the classification accuracy of reparametrized diagnostic classification models for expert-defined polytomous attributes.(3), 318–330.
[詹沛達(dá), 邊玉芳, 王立君. (2016). 重參數(shù)化的多分屬性診斷分類模型及其判準(zhǔn)率影響因素.(3), 318–330.]
Zhan, P. D., Wang, W., Li, X. M. (2020). A partial mastery, higher-order latent structural model for polytomous attributesin cognitive diagnostic assessments., 328–351.
Zhang, Y. L., Zhao, B., & Tao, J. H. (2021). The study on students' cognitive state based on fuzzy cognitive diagnostic framework.(5), 452–459.
[張玉柳, 趙波, 陶金洪. (2021). 基于模糊認(rèn)知診斷模型的學(xué)生認(rèn)知狀態(tài)研究.(5),452–459.]
附表A1 30題對應(yīng)的矩陣130
附表A2 15題對應(yīng)的矩陣215
項(xiàng)目編號屬性 屬性1屬性2屬性3屬性4屬性5 110000 201000 300100 400010 500001 612000 701200 800120 900012 1020001 1122010 1221002 1310220 1402102 1500221
附表A3 由JE算法得到概率論數(shù)據(jù)的建議-matrix
注:表格中用粗斜體顯示的元素表示JE算法所修改后的屬性取值
附表A4 由OE算法得到概率論數(shù)據(jù)的建議-matrix
注:陰影顯示對應(yīng)的題目表示OE算法中的“基礎(chǔ)題”, 余下的題目對應(yīng)的是需要估計的“新題”。粗斜體顯示元素表示OE算法所修改后的屬性取值。加星號的題目表示由OE算法給出的建議值與JE算法給出的建議值不一致的題目。
Validation and estimation of expert-defined-matrix with polytomous attribute
QIN Chunying1,2, YU Xiaofeng1
(1School of Psychology, Jiangxi Normal University, Nanchang, 330022, China) (2School of Mathematics and Information Science, Nanchang Normal University, Nanchang 330032, China)
Cognitive diagnosis has recently gained prominence in educational assessment, psychiatric evaluation, and many other disciplines. Generally, entries in the-matrix of traditional cognitive diagnostic tests are binary (two levels, defined as 0 and 1). Polytomous attributes (multi-levels, defined as 0, 1, …), particularly those defined as part of the test development process, can provide additional diagnostic information. Compared to binary attributes, polytomous attributes can not only describe the student's knowledge profile, but can provide more extensive details.
As we all know,-matrix impacts the accuracy of cognitive diagnostic assessment greatly. Research on the effect of parameter estimation and classification accuracy caused by the error in-matrix already existed, and it turned out that-matrix gotten from expert definition or experience was more easily subject to be affected by subjective factors, lead to a misspecified-matrix. Under this circumstance, it’s urgently needed to find more objective polytomous-attribute-matrix verification and inference methods.
The present research proposes the verification and estimation of expert-defined polytomous attribute-matrix based on the polytomous deterministic inputs, noisy, ‘‘a(chǎn)nd’’ gate (p-DINA) model. We intend to extend the methods adapted to binary-matrix verification and estimation to polytomous attribute-matrix, and the proposed methods which can be used in different conditions are joint estimation and online estimation. Simulation results show that: the joint estimation algorithm can be applied to the-matrix validation which needs an initial-matrix defined by experts, the online estimation algorithm can be applied to online estimate the “new items” based on a certain number of “based items”. Under the various settings in the simulations, the two estimation algorithms can recover the correct polytomous-attribute-matrix at a high probability. Empirical study also indicates that the two proposed algorithms can be applied in-matrix validation or estimation for CDA with polytomous attributes.
polytomous attribute,-matrix, p-DINA model, S statistics
2021-10-06
* 全國教育科學(xué)規(guī)劃項(xiàng)目(BGA210060); 教育部教育考試院“十四五”規(guī)劃支撐專項(xiàng)課題(NEEA2021050);江西省社會科學(xué)基金項(xiàng)目(21JY06); 江西省高校人文社會科學(xué)項(xiàng)目(XL20202); 南昌市教育大數(shù)據(jù)智能技術(shù)重點(diǎn)實(shí)驗(yàn)室(2020-NCZDSY-012); 江西省教育廳科技項(xiàng)目(GJJ212602, GJJ191691, GJJ191128)資助。
喻曉鋒, E-mail: xyu6@jxnu.edu.cn
B841