郭 磊 秦海江
基于信號(hào)檢測論的認(rèn)知診斷評(píng)估:構(gòu)建與應(yīng)用*
郭 磊1,2秦海江1,3
(1西南大學(xué)心理學(xué)部;2中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心西南大學(xué)分中心, 重慶 400715) (3貴陽市第三十七中學(xué), 貴陽 550003)
作答選擇題可被看作從噪音中提取信號(hào)的過程, 研究提出了一種基于信號(hào)檢測論的認(rèn)知診斷模型(SDT-CDM)。新模型的優(yōu)勢在于:(1)無需對(duì)選項(xiàng)進(jìn)行屬性層面的編碼。(2)能獲得傳統(tǒng)診斷模型無法提供的題目區(qū)分度和難度參數(shù)。(3)可以直接表達(dá)每個(gè)選項(xiàng)之間的合理性差異, 對(duì)題目性能刻畫更加細(xì)微全面。兩個(gè)模擬研究結(jié)果表明:(1)EM算法可以實(shí)現(xiàn)對(duì)新模型的參數(shù)估計(jì)過程, 便捷有效。(2) SDT-CDM具備良好性能, 分類準(zhǔn)確性和參數(shù)估計(jì)精度較高以外, 還能提供選項(xiàng)層面的估計(jì)信息, 用于題目質(zhì)量診斷與修訂。(3)屬性數(shù)量、題目質(zhì)量與樣本量等因素會(huì)影響SDT-CDM的表現(xiàn)。(4)與稱名診斷模型NRDM相比, SDT-CDM在所有實(shí)驗(yàn)條件下對(duì)被試的分類準(zhǔn)確性更高。實(shí)證研究表明:SDT-CDM比NRDM具有更好的模型數(shù)據(jù)擬合結(jié)果, 其分類準(zhǔn)確性和一致性更高, 尤其當(dāng)屬性考察次數(shù)較少時(shí)具有很強(qiáng)的穩(wěn)定性, 難度和區(qū)分度參數(shù)與IRT模型估計(jì)結(jié)果的相關(guān)性也更高, 值得推廣。
信號(hào)檢測論, 認(rèn)知診斷, 選擇題, EM算法
自Kelly (1916)第一次提出選擇題(Multiple-Choice, MC)測驗(yàn)形式, 因其客觀、有效、便捷等特點(diǎn)而廣受歡迎, 直至當(dāng)下仍是測驗(yàn)主流題型之一, 并廣泛應(yīng)用在TIMSS、PISA、NAEP和TOEFL等標(biāo)準(zhǔn)化測驗(yàn)。MC題型具有諸多優(yōu)勢:不受主觀誤差影響、提高測驗(yàn)信度、易于批閱且計(jì)分快速、滿足內(nèi)容平衡需求等(郭磊, 周文杰, 2021)。通常, MC作答數(shù)據(jù)被當(dāng)作0-1計(jì)分形式(即答對(duì)或答錯(cuò))處理, 但這樣會(huì)造成干擾項(xiàng)信息的損失。為了充分挖掘干擾項(xiàng)的診斷信息, 提高個(gè)體知識(shí)狀態(tài)的分類精度, 研究者提出了許多方法, 如MC-DINA模型(Multiple- Choice DINA; de la Torre, 2009)及其拓展的結(jié)構(gòu)化MC-DINA模型(Ozaki, 2015), 包含干擾項(xiàng)信息的SICM模型(Scaling Individuals and Classifying Misconceptions Model; Bradshaw & Templin, 2014)和GDCM-MC模型(Generalized Diagnostic Classification Models for Multiple Choice Option-Based Scoring; DiBello et al., 2015), 以及基于選項(xiàng)層面的非參數(shù)認(rèn)知診斷方法(郭磊, 周文杰, 2021; Wang et al., 2023)。這些方法的目標(biāo)是在知識(shí)狀態(tài)空間中對(duì)被試進(jìn)行分類, 從而知曉其學(xué)科知識(shí)或認(rèn)知屬性的掌握情況, 這種評(píng)估方式也被稱作認(rèn)知診斷評(píng)估。但上述MC處理方法有個(gè)前提條件, 即要求對(duì)干擾項(xiàng)進(jìn)行編碼, 然后才能表征出區(qū)別于正確選項(xiàng)所表征的潛在類別。雖然前期的研究要求干擾項(xiàng)的編碼需要是正確選項(xiàng)編碼的子集、不同干擾項(xiàng)之間也要有包含關(guān)系(郭磊等, 2013), 但最近的研究已突破了該限制, 即干擾項(xiàng)的編碼無需嵌套于正確選項(xiàng)編碼中(Wang et al., 2023), 進(jìn)一步推動(dòng)了該領(lǐng)域研究。
實(shí)際上, MC測驗(yàn)也可以被視作一種信號(hào)檢測任務(wù), 被試需從一系列的噪音(所有選項(xiàng))背景中選擇出信號(hào), 即做出正確反應(yīng)。被試作答過程中存在兩種可能性, 要么“會(huì)答/知道(Know)”, 要么“不會(huì)答/不知道(do not Know)”。從信號(hào)檢測論(signal detection theory, SDT)的視角出發(fā), 被試作答行為可包含兩個(gè)階段:①感知階段:被試在理解題意后對(duì)每個(gè)選項(xiàng)產(chǎn)生不同程度的合理性1合理性可理解為基于個(gè)人知識(shí)、經(jīng)驗(yàn)等因素認(rèn)為該選項(xiàng)是正確的/合理的傾向性。(plausibility)判斷, 可用合理性參數(shù)表達(dá), 每個(gè)選項(xiàng)的合理性參數(shù)均服從一定分布。②決策階段:被試在權(quán)衡每個(gè)選項(xiàng)的合理性后, 會(huì)做出選擇最合理選項(xiàng)的決策?;谠摾砟? DeCarlo (2021)將SDT與項(xiàng)目反應(yīng)理論(IRT)結(jié)合用于MC題目分析, 通過SDT模型可獲得被試在選擇各選項(xiàng)時(shí)的相對(duì)合理性參數(shù)、以及題目的區(qū)分度和難度參數(shù)信息。研究表明, SDT模型估計(jì)得到的難度參數(shù)與兩參數(shù)、三參數(shù)項(xiàng)目反應(yīng)模型基本一致, 但區(qū)分度參數(shù)僅與兩參數(shù)模型相關(guān)較高, 與三參數(shù)模型相關(guān)低至0.04。此外, SDT還可以提供更豐富的信息, 如被試對(duì)每個(gè)選項(xiàng)尤其是干擾項(xiàng)的合理性傾向, 以及被試在每個(gè)選項(xiàng)上感知到的合理性差異(即選項(xiàng)差異)。因此, SDT對(duì)題目的解析更細(xì)微, 可以從選項(xiàng)層面知曉題目的整體情況, 其價(jià)值在于:①若某道題目偏簡單, 為了增大該題目難度, 可以通過估計(jì)得到的選項(xiàng)合理性參數(shù)進(jìn)行選項(xiàng)層面的針對(duì)性調(diào)整, 起到修訂題目的作用。②診斷題目是否有問題。當(dāng)被試“會(huì)答”該題目時(shí), 選擇干擾項(xiàng)的傾向性仍比選擇正確選項(xiàng)的傾向性更大, 則預(yù)示著該題目的質(zhì)量出現(xiàn)了問題。以上優(yōu)勢是兩參數(shù)和三參數(shù)模型無法做到的。此外, SDT對(duì)MC題目的分析要比稱名反應(yīng)模型(Nominal Response Model, NRM; Bock, 1972)更加簡潔易于解釋。盡管NRM也可分析基于選項(xiàng)的數(shù)據(jù), 但它引入了多個(gè)區(qū)分度參數(shù), 使得參數(shù)估計(jì)和結(jié)果解釋都變得復(fù)雜。若進(jìn)一步想在NRM中表征猜測行為的話, 又需要引入更多的猜測參數(shù), 這會(huì)導(dǎo)致模型參數(shù)增多并且難以估計(jì)(Thissen & Steinberg, 1997), 但SDT模型無需增加額外參數(shù)便可對(duì)猜測行為進(jìn)行表征, 更加簡約。并且根據(jù)DeCarlo (2021)的實(shí)證研究2600名被試參與的32道題目的學(xué)術(shù)評(píng)估測試(Scholastic Assessment Test, SAT), 每道題目有5個(gè)選項(xiàng)。表明, SDT模型比NRM有更好的模型擬合結(jié)果。
盡管在認(rèn)知診斷評(píng)估中, Templin等(2008)將NRM拓展為稱名反應(yīng)診斷模型(Nominal Response Diagnostic Model, NRDM), 使之能夠分析認(rèn)知診斷的數(shù)據(jù)。隨后, Ma和de la Torre (2016)提出了順序G-DINA (sequential G-DINA)的模型框架, 將NRDM包含在內(nèi), 可實(shí)現(xiàn)對(duì)順序(ordered)和稱名數(shù)據(jù)的處理。但這些模型均是基于最初NRM思想的拓展, 也保留了NRM存在的問題, 如題目參數(shù)過多等問題:每道題目的每個(gè)選項(xiàng)都要估計(jì)截距項(xiàng)、主效應(yīng)項(xiàng)及其交互作用項(xiàng)。因此, 基于SDT視角分析選項(xiàng)層面的診斷數(shù)據(jù), 并探討其適用價(jià)值具有重要意義。SDT用于認(rèn)知診斷評(píng)估有以下優(yōu)勢:①無需對(duì)MC題目的選項(xiàng)進(jìn)行編碼, 節(jié)省大量人力物力。②在保證提供選項(xiàng)水平分析結(jié)果的前提下, 還可以使用更加精簡的模型表達(dá)方式來達(dá)到比NRDM模型更好的解釋意義, 參數(shù)更容易估計(jì)。③由于模型更加簡潔, 模型和數(shù)據(jù)的擬合可能會(huì)進(jìn)一步提升。④能夠提供傳統(tǒng)診斷模型無法提供的難度和區(qū)分度3傳統(tǒng)診斷模型沒有難度參數(shù)的具體表達(dá), 而區(qū)分度是通過估計(jì)得到參數(shù)后計(jì)算才能得到。參數(shù)。
綜上所述, 信號(hào)檢測論視角的MC題型認(rèn)知診斷評(píng)估將具備諸多優(yōu)勢, 因此本文擬探討基于信號(hào)檢測論的MC題型認(rèn)知診斷評(píng)估方法與技術(shù), 構(gòu)建SDT-CDM模型并推導(dǎo)其參數(shù)估計(jì)方法, 并在模擬和實(shí)證測驗(yàn)中檢驗(yàn)新模型的性能和有效性。本文結(jié)構(gòu)如下:首先介紹SDT模型的邏輯背景, 其次闡述SDT診斷模型(記作SDT-CDM)的構(gòu)建過程和參數(shù)估計(jì)方法, 之后通過模擬和實(shí)證研究探討SDT- CDM的性能, 最后對(duì)結(jié)果進(jìn)行討論與展望。
被試在作答MC題目時(shí), 首先會(huì)對(duì)每個(gè)選項(xiàng)產(chǎn)生不同程度的感知, 進(jìn)而將這種感知轉(zhuǎn)換成認(rèn)為該選項(xiàng)是正確答案的合理性傾向。為了用模型表達(dá)出該加工過程, 可認(rèn)為被試對(duì)每個(gè)選項(xiàng)的合理性傾向均服從一個(gè)概率分布, 如圖1所示。
圖1 SDT模型的反應(yīng)示意圖
(取自DeCarlo, 2021; P3, Figure 1)
基于上述理論基礎(chǔ), SDT模型本質(zhì)上是一個(gè)混合模型, 如公式(1)所示(詳細(xì)推導(dǎo)請(qǐng)參見DeCarlo (2021)):
SDT-CDM的模型參數(shù)估計(jì)可用MMLE/EM算法實(shí)現(xiàn), 算法推導(dǎo)過程及其標(biāo)準(zhǔn)誤計(jì)算請(qǐng)參見網(wǎng)絡(luò)版附錄。
采用蒙特卡洛模擬方式探討SDT-CDM在不同實(shí)驗(yàn)條件下對(duì)被試的分類準(zhǔn)確性和參數(shù)估計(jì)精度。
4.2.1 題目的模擬
4.2.2 被試的模擬
被試的知識(shí)狀態(tài)采取高階和多元正態(tài)分布生成。其中, 高階分布參考Ma和de la Torre (2016)的設(shè)置, 具體如下:
參數(shù)估計(jì)精度的評(píng)價(jià)指標(biāo)主要采用平均偏差Bias、均方誤差根(root mean squared error, RMSE), 計(jì)算見公式(7)和公式(8)。
被試屬性掌握情況的估計(jì)精度評(píng)價(jià)指標(biāo)采用平均屬性判準(zhǔn)率(average attribute correct classificationrate, AACCR)和模式判準(zhǔn)率(pattern correct classification rate, PCCR), 計(jì)算公式如下:
圖2和圖3呈現(xiàn)了不同自變量水平下SDT- CDM的參數(shù)估計(jì)Bias和RMSE的總體結(jié)果。由于每道題目的合理性參數(shù)、屬性主效應(yīng)和屬性交互效應(yīng)的參數(shù)不止一個(gè), 考慮呈現(xiàn)的簡潔性和篇幅, 結(jié)果用均值表示。整體來看, 各參數(shù)的估計(jì)精度均較高, 如:合理性參數(shù)Bias范圍為?0.003至0.007, 均值為0.002; RMSE范圍為0.119至0.261, 均值為0.173。區(qū)分度參數(shù)Bias范圍為?0.054至?0.001, 均值為?0.022; RMSE范圍為0.145至0.385, 均值為0.253。易度參數(shù)eK的Bias范圍為?0.014至0.075, 均值為0.027; RMSE范圍為0.181至0.334, 均值為0.260。其余參數(shù)不再贅述。
不同自變量對(duì)參數(shù)估計(jì)精度的影響不同。首先, 屬性分布為高階分布的精度要稍優(yōu)于多元正態(tài)分布的精度, 如高階分布下的b、d、eDK、eK、δ-M和δ-I參數(shù)的Bias(RMSE)均值分別為0.002(0.160)、?0.022(0.234)、0.046(0.245)、0.025(0.248)、0.001(0.078)和?0.001(0.154), 多元正態(tài)分布下的對(duì)應(yīng)參數(shù)的Bias(RMSE)均值分別為0.002(0.187)、?0.022(0.271)、0.051(0.267)、0.029(0.271)、0.008(0.126)和?0.009(0.236)。其次, 屬性個(gè)數(shù)越多, 精度會(huì)略有下降, 如由= 3變?yōu)? 5時(shí), 盡管所有參數(shù)的Bias均值由0.009變?yōu)?.010, 但RMSE的均值由0.189增大至0.224, 增幅為18.5%。然而, 題目數(shù)量對(duì)參數(shù)估計(jì)精度的影響較小。當(dāng)= 20增加至40題時(shí), 所有參數(shù)的Bias均值由0.008變?yōu)?.010, RMSE的均值由0.203變?yōu)?.210, 相差無幾。再次, 題目質(zhì)量對(duì)精度的影響較大, 當(dāng)題目質(zhì)量由高變低時(shí), 所有參數(shù)的Bias均值由0.000變?yōu)?.019, RMSE的均值由0.192變?yōu)?.221, 增幅為15.1%。最后, 樣本量的影響最大, 當(dāng)人數(shù)由2000降低至1000時(shí), 所有參數(shù)的Bias均值由0.007變?yōu)?.010, RMSE的均值由0.179變?yōu)?.234, 增幅高達(dá)30.7%。
圖2 SDT-CDM參數(shù)估計(jì)的Bias結(jié)果
注:為所有合理性參數(shù)的均值,為區(qū)分度參數(shù), eDK為被試不會(huì)作答時(shí)的易度參數(shù), ek為被試會(huì)作答時(shí)的易度參數(shù), δ-M為屬性的主效應(yīng), δ-I為屬性的交互效應(yīng)。橫坐標(biāo)“3-20-H-1000表示”3屬性-20題-高題目質(zhì)量-1000人的實(shí)驗(yàn)條件。
圖3 SDT-CDM參數(shù)估計(jì)的RMSE結(jié)果
圖4呈現(xiàn)了SDT-CDM的AACCR和PCCR判準(zhǔn)率結(jié)果。整體而言, 新模型能夠較為準(zhǔn)確的對(duì)被試進(jìn)行分類, 其分類精度同樣會(huì)受不同自變量的影響。在本文關(guān)注的5個(gè)因素中, 對(duì)分類精度影響最大的是題目質(zhì)量。當(dāng)題目質(zhì)量較低時(shí), AACCR的范圍為0.902至0.988, 均值為0.951, PCCR的范圍為0.609至0.964, 均值為0.816; 當(dāng)題目質(zhì)量提升后, AACCR的范圍為0.973至1.000, 均值為0.990, PCCR的范圍為0.876至0.999, 均值為0.957, 增幅為17.4%。其次是屬性個(gè)數(shù)對(duì)精度的影響, 當(dāng)= 3時(shí), AACCR的范圍為0.950至1.000, 均值為0.983, PCCR的范圍為0.858至0.999, 均值為0.951; 當(dāng)= 5時(shí), AACCR的下降幅度為2.5%, 而PCCR的下降幅度為15.7%。第三位的影響因素為題目數(shù)量, 題量越多, 對(duì)被試獲得的信息就越多, 因此對(duì)其分類精度也會(huì)提升。如= 20時(shí), 平均的AACCR和PCCR分別為0.958和0.841, 當(dāng)= 40時(shí), 平均的AACCR和PCCR分別提升至0.984和0.932, 增幅分別為2.7%和10.8%。而其余兩個(gè)變量:屬性分布和樣本量對(duì)分類精度的影響不大。如高階分布時(shí)的平均AACCR和PCCR分別為0.969和0.882, 多元正態(tài)分布時(shí)的平均AACCR和PCCR分別為0.972和0.891; 人數(shù)為1000人時(shí)的平均AACCR和PCCR分別為0.970和0.883, 當(dāng)人數(shù)增長至2000時(shí), 平均AACCR和PCCR分別為0.972和0.890, 相差無幾。
圖4 SDT-CDM的PCCR和AACCR判準(zhǔn)率結(jié)果
采用蒙特卡洛模擬方式主要比較SDT-CDM和NRDM在不同實(shí)驗(yàn)條件下的被試分類準(zhǔn)確性。NRDM模型如下所示:
網(wǎng)絡(luò)版附錄圖A1和網(wǎng)絡(luò)版附錄圖A2直觀地呈現(xiàn)了兩個(gè)模型分別為真模型時(shí)在不同自變量水平下的PCCR和AACCR結(jié)果。不論真模型是哪個(gè), SDT-CDM的表現(xiàn)均要優(yōu)于NRDM。當(dāng)SDT-CDM為真模型時(shí), 屬性分布對(duì)兩個(gè)模型的分類精度影響均較小, 樣本量僅對(duì)NRDM有中等程度影響(樣本量增大, N-PCCR的均值提高了7.6%)。屬性個(gè)數(shù)由3個(gè)增加至5個(gè)時(shí), S-PCCR和N-PCCR的均值分別下降了12.9%和10.3%; 題目質(zhì)量降低時(shí), S-PCCR和N-PCCR的均值分別下降了14.3%和29.4%。值得注意的是, 題目數(shù)量對(duì)兩個(gè)模型的影響趨勢存在不同, 題目數(shù)量增大時(shí), S-PCCR的均值提高了9.2%, 但N-PCCR的均值反而下降了18.2%。一個(gè)可能的原因是:題目數(shù)量越多, NRDM的題目參數(shù)數(shù)量將大幅度增長(由公式(12)可以看出), 因此需要更多的樣本量才能保證題目參數(shù)的估計(jì)精度, 而當(dāng)樣本量不足時(shí), 題目參數(shù)的估計(jì)精度會(huì)降低, 從而進(jìn)一步降低了被試的分類精度。該影響也可以從最初提出NRDM的研究中得到佐證(Templin et al., 2008), 作者即使采用了縮減的補(bǔ)償NRDM模型而非飽和的NRDM模型也需要高達(dá)5000人才能得到理想的參數(shù)估計(jì)精度。相對(duì)而言, SDT-CDM就表現(xiàn)的和大部分研究結(jié)果相近, 即題目數(shù)量越多, 分類精度越高, 這點(diǎn)也可以說明新模型對(duì)于處理診斷測驗(yàn)中的稱名數(shù)據(jù)更為理想。同時(shí), 這5即使是縮減的補(bǔ)償NRDM模型也需要高達(dá)5000人才能得到理想的參數(shù)估計(jì)精度。也解釋了為何NRDM作為真模型的表現(xiàn)仍不如SDT-CDM。當(dāng)NRDM為真模型時(shí), 盡管自變量對(duì)分類精度的影響趨勢與真模型為SDT-CDM時(shí)類似, 但此時(shí)SDT-CDM與NRDM的表現(xiàn)差異要更小, 如題目質(zhì)量降低時(shí), S-PCCR和N-PCCR的均值分別下降了6.2%和14.8%, 這說明SDT-CDM比起NRDM具有更強(qiáng)的穩(wěn)定性。
網(wǎng)絡(luò)版附錄表A1進(jìn)一步呈現(xiàn)了不同自變量對(duì)兩個(gè)模型差異的影響。不論真模型是哪個(gè), 題目數(shù)量對(duì)于兩者的影響均是最大的, 當(dāng)= 20時(shí), 兩者表現(xiàn)相差無幾; 但當(dāng)= 40時(shí), SDT-CDM比NRDM的PCCR均值在不同真模型條件下分別高出了42.29%和21.04%, 說明NRDM不太適合分析題目數(shù)量較多的測驗(yàn), 若要分析則需要增加較多樣本量, 而SDT-CDM在一定的樣本量基礎(chǔ)上就可以分析較多題量的測驗(yàn)情景。影響其次的是題目質(zhì)量, 尤其當(dāng)題目質(zhì)量較低時(shí), SDT-CDM比NRDM的PCCR均值在不同真模型條件下分別高出了36.06%和16.52%, 說明SDT-CDM可以有效緩沖題目質(zhì)量較低產(chǎn)生的負(fù)面影響。接下來是樣本量, 當(dāng)樣本量較小時(shí), SDT-CDM比NRDM的PCCR均值在不同真模型條件下分別高出了24.72%和14.93%, 說明SDT-CDM比起NRDM來說更適合處理小樣本。而其余變量均有不同程度的影響, 不再贅述。
通過上述結(jié)果綜合來看, SDT-CDM從各方面都要優(yōu)于NRDM, 通過詳盡的模型比較研究, 進(jìn)一步證明了新模型的優(yōu)勢:當(dāng)實(shí)驗(yàn)條件變化時(shí), SDT- CDM比NRDM更能維持住相對(duì)好的模型表現(xiàn), 因此可以認(rèn)為SDT-CDM比NRDM的適用場景更廣, 表現(xiàn)更穩(wěn)定。
實(shí)證數(shù)據(jù)取自Ma和de la Torre (2020)使用過的TIMSS 2011數(shù)據(jù), 該數(shù)據(jù)共包含23道數(shù)學(xué)測驗(yàn)題目, 本研究選擇其中的14道選擇題進(jìn)行分析。數(shù)據(jù)中包含748名來自美國被試的作答數(shù)據(jù), 數(shù)據(jù)中的缺失值采用隨機(jī)的錯(cuò)誤答案進(jìn)行替換。Q矩陣屬性個(gè)數(shù)為6個(gè), 分別為:A1)整數(shù); A2)分?jǐn)?shù)、小數(shù)和比例; A3)表達(dá)式、方程式和函數(shù); A4)線條、角度和形狀; A5)位置和移動(dòng); A6)數(shù)據(jù)組織、表示和解釋識(shí)別明確信息, 如表1所示。診斷結(jié)果的信效度指標(biāo)采用Wang等(2015)提出的屬性與模式分類一致性指標(biāo)(Attribute-Level and Pattern-Level ClassificationConsistency), 以及屬性與模式分類準(zhǔn)確性(Attribute- Level and Pattern-Level Classification Accuracy), 它們可以分別從屬性層面與模式層面綜合判斷診斷結(jié)果的信效度, 均是取值越高則表明信效度越好。為了展現(xiàn)SDT-CDM的實(shí)際表現(xiàn), 在分析實(shí)證數(shù)據(jù)時(shí)加入了NRDM6使用R軟件中的GDINA程序包進(jìn)行參數(shù)估計(jì)。進(jìn)行對(duì)比。
表1 TIMSS 2011數(shù)學(xué)測驗(yàn)(選擇題)的Q矩陣
表2呈現(xiàn)了SDT-CDM與NRDM的模型?數(shù)據(jù)的相對(duì)擬合指標(biāo):負(fù)2倍對(duì)數(shù)似然值(?2 Log likelihood)、AIC (Akaike information criterion)與BIC (Bayesian information criterion), 三者均是取值越小越好。結(jié)果表明, SDT-CDM在3個(gè)擬合指標(biāo)上的結(jié)果都要優(yōu)于NRDM, 如粗體結(jié)果所示, 并且模型自由估計(jì)的參數(shù)數(shù)量為71個(gè), 而NRDM需要估計(jì)87個(gè)參數(shù), 更加復(fù)雜。
表2 模型數(shù)據(jù)相對(duì)擬合指標(biāo)
網(wǎng)絡(luò)版附錄表A2和表A3分別呈現(xiàn)了SDT- CDM和NRDM的模型參數(shù)估計(jì)結(jié)果。由網(wǎng)絡(luò)版附錄表A2可以看出, 14道題目的區(qū)分度均為正值, 這表明“會(huì)答”題目的被試和“不會(huì)答”題目的被試能夠被正常區(qū)分。理論上,越大則表明題目質(zhì)量越好, 但根據(jù)DeCarlo (2021)實(shí)證數(shù)據(jù)參數(shù)估計(jì)結(jié)果的經(jīng)驗(yàn), 當(dāng)過大時(shí)可能導(dǎo)致標(biāo)準(zhǔn)誤的增大, 例如DeCarlo研究中在6以上的3道題, 其值的標(biāo)準(zhǔn)誤均在8以上, 表明參數(shù)估計(jì)不穩(wěn)定。相比之下, 本研究僅有第7題的值大于6, 其標(biāo)準(zhǔn)誤為4.044遠(yuǎn)小于8, 整體來說, 估計(jì)結(jié)果較為理想。
表3呈現(xiàn)了屬性與模式的分類準(zhǔn)確性和分類一致性指標(biāo)(Wang et al., 2015)結(jié)果。在分類準(zhǔn)確性上, SDT-CDM除A1屬性低于NRDM之外, 其余屬性的分類準(zhǔn)確性和模式分類準(zhǔn)確性均要高于NRDM, 尤其是模式分類準(zhǔn)確性提升了39.13%, A6的屬性分類準(zhǔn)確性提升了23.77%; 在分類一致性上, SDT-CDM除A1屬性低于NRDM之外, 模式和其余屬性的分類一致性均要高于NRDM, 尤其是A6的屬性分類一致性提升了28.63%。由表2的Q矩陣可知, A6僅被考察了1次, 相對(duì)其他屬性被考察的次數(shù)偏少, 此時(shí)對(duì)NRDM的影響更大, 而SDT-CDM能夠在有限考察次數(shù)內(nèi)保持較高的分類準(zhǔn)確性和一致性, 更加穩(wěn)健。以上結(jié)果表明新模型可以得到比舊模型更佳的信效度結(jié)果。
表3 屬性與模式水平的分類準(zhǔn)確性和一致性
注:提升率 = (SDT-CDM ? NRDM)/ NRDM
SDT-CDM從可能的64種知識(shí)狀態(tài)中識(shí)別出748名被試各自所屬的知識(shí)狀態(tài)。圖5呈現(xiàn)了被試數(shù)量最多的前10類知識(shí)狀態(tài), 總占比為79.3%。進(jìn)一步計(jì)算SDT-CDM和NRDM估計(jì)得到的屬性掌握程度與總分間的相關(guān)(郭磊, 周文杰, 2021), 相關(guān)高表明總分越高的被試其掌握屬性的程度越好, 符合現(xiàn)實(shí)情況。其中, SDT-CDM為0.87 (< 0.001), NRDM為0.76 (< 0.001), 表明新模型的表現(xiàn)要優(yōu)于NRDM。
圖5 各類知識(shí)狀態(tài)的被試占總體的比例(前十類)
MC作答過程可以看作是信號(hào)檢測的過程, 意味著被試對(duì)每個(gè)選項(xiàng)都有一個(gè)合理性感知, 并且總會(huì)選擇感知到合理性最強(qiáng)的選項(xiàng)。本研究將SDT模型整合進(jìn)CDM中, 得到一些主要發(fā)現(xiàn):首先, SDT-CDM無需對(duì)MC題目的選項(xiàng)進(jìn)行編碼, 而是為每個(gè)選項(xiàng)賦予了一個(gè)合理性參數(shù), 用來刻畫選項(xiàng)之間的差異, 并且通過這些合理性參數(shù)的組合可以計(jì)算得到傳統(tǒng)診斷模型無法提供的難度和區(qū)分度參數(shù), 這些信息可用于題目質(zhì)量診斷及修訂。通過研究表明, SDT-CDM的這些優(yōu)勢都是存在的, 其模型構(gòu)建是成功的。其次, 通過兩個(gè)模擬研究, 在5個(gè)因素上全面地檢驗(yàn)了新模型的性能, 結(jié)果發(fā)現(xiàn):(1)題目質(zhì)量和樣本量對(duì)SDT-CDM的參數(shù)估計(jì)精度影響較大, 而屬性分布、屬性個(gè)數(shù)和題目數(shù)量的影響較小。(2)題目質(zhì)量、屬性個(gè)數(shù)和題目數(shù)量對(duì)被試判準(zhǔn)率的影響較大, 而屬性分布和樣本量對(duì)判準(zhǔn)率的影響不大。(3)通過模型比較研究后發(fā)現(xiàn), 不論真模型是哪個(gè), SDT-CDM的被試判準(zhǔn)率均要優(yōu)于NRDM, 導(dǎo)致該現(xiàn)象的原因是由于NRDM需要很大樣本量才能估計(jì)準(zhǔn)確導(dǎo)致, 這也恰恰證明了SDT-CDM的現(xiàn)實(shí)適用性和穩(wěn)健性。最后, 通過TIMSS 2011的實(shí)證數(shù)據(jù)分析發(fā)現(xiàn), 不論是模型數(shù)據(jù)擬合, 分類精確性和一致性, 還是與IRT的難度和區(qū)分度的相關(guān), 均是SDT-CDM表現(xiàn)更優(yōu)。此外, 由表4所得結(jié)果可用于判斷題目/選項(xiàng)的質(zhì)量和合理性, 為完善和提升題目質(zhì)量提供的針對(duì)性指標(biāo), 這也是NRDM所不能實(shí)現(xiàn)的功能。本研究值得探討的問題還有以下幾點(diǎn)。
6.1.1 干擾項(xiàng)信息的利用
6.1.2 EM算法的改進(jìn)及標(biāo)準(zhǔn)誤的計(jì)算
本研究推導(dǎo)了SDT-CDM的EM算法, 但EM算法存在多樣的變式(Chalmers, 2012), 例如標(biāo)準(zhǔn)的EM算法(the standard EM algorithm with fixed quadrature)、蒙特卡洛EM估計(jì)(Monte Carlo EM estimation)、隨機(jī)EM算法(the stochastic EM)、MH-RM算法(Metropolis-Hastings Robbins-Monro algorithm)、最小化卡方的EM (朱瑋等, 2006)等, 這些算法大部分已應(yīng)用于IRT研究領(lǐng)域, 且可以通過軟件包實(shí)現(xiàn)。然而, 目前在CDM中的EM算法比較單一, 從de la Torre (2009)提出DINA模型的邊際極大似然的EM算法(MMLE/EM)后, MMLE/EM便一直是主要的估計(jì)算法, 包括本文也是使用這一框架拓展。盡管MMLE/EM算法簡單高效, 但探索精度更高、收斂更快、或具有其他獨(dú)特優(yōu)勢的新算法很有必要。未來可以考慮將IRT里較為成熟的算法引入新模型中。
此外, CDM中參數(shù)估計(jì)的標(biāo)準(zhǔn)誤采用信息矩陣的逆求解, 但目前已有多種信息矩陣(劉彥樓, 2022), 例如經(jīng)驗(yàn)交叉相乘信息矩陣法(Empirical Cross-product Information Matrix, XPD)、觀察信息矩陣法(Observed Information Matrix, Obs)和三明治信息矩陣法(Sandwich-type Information Matrix, Sw)等。本文使用的是XPD矩陣, 未來可探索使用不同信息矩陣對(duì)SDT-CDM參數(shù)標(biāo)準(zhǔn)誤估計(jì)的影響。
6.1.3 與過程性數(shù)據(jù)相結(jié)合
隨著計(jì)算機(jī)技術(shù)的發(fā)展, 記錄被試的作答過程性數(shù)據(jù)變得方便快捷, 許多研究者開始挖掘這些過程性數(shù)據(jù)所提供的信息是如何幫助提升被試知識(shí)狀態(tài)的診斷精度, 以及反映出不同的作答風(fēng)格或策略。如, 和反應(yīng)時(shí)數(shù)據(jù)結(jié)合的診斷(鄭天鵬等, 2023), 和眼動(dòng)數(shù)據(jù)結(jié)合的診斷(詹沛達(dá), 2022), 以及和動(dòng)作序列結(jié)合的診斷(Zhan & Qiao, 2022)。這些研究均將過程性數(shù)據(jù)融入CDM中, 并證明了融入輔助信息的可行性和有效性, 為多模態(tài)數(shù)據(jù)分析提供了方法。盡管挖掘過程性數(shù)據(jù)中蘊(yùn)含的信息已被研究者接受, 但尚未就如何能更好地分析它們達(dá)成共識(shí)(He et al., 2021), 同時(shí), 用于分析過程性數(shù)據(jù)本身的模型或方法也具有多樣性, 如處理計(jì)數(shù)數(shù)據(jù)的模型包括泊松模型(poisson model)、負(fù)二項(xiàng)式模型(negative binomial model)、零膨脹模型(zero-inflated model)、跨欄模型(Hurdle model)等。再如, 動(dòng)作序列的提取方法也有很多, 如潛在空間模型(latent space model, Chen et al., 2022), 基于遞歸神經(jīng)網(wǎng)的序列到序列自動(dòng)編碼器(recurrent neural network-based sequence-to-sequence autoencoders, Tang et al., 2021), 及多維尺度法(multidimensional scaling, Tang et al., 2020)等, 不同的特征提取方法也會(huì)影響診斷分類的效果。未來可以探討不同的過程性數(shù)據(jù)模型和不同的特征提取方法與SDT-CDM結(jié)合的實(shí)際效果。
6.1.4 與追蹤診斷相結(jié)合
縱向追蹤診斷研究也是CDA領(lǐng)域近年來的一個(gè)研究熱點(diǎn), 通過對(duì)學(xué)習(xí)過程的追蹤, 不僅能進(jìn)一步刻畫學(xué)生的學(xué)習(xí)軌跡, 更能有效發(fā)揮CDA的診斷功能, 幫助教師等實(shí)施針對(duì)性補(bǔ)救教學(xué), 最終促進(jìn)學(xué)生發(fā)展。目前縱向CDM包括基于潛在轉(zhuǎn)移分析的縱向CDM (Wang et al., 2018; Zhang & Chang, 2020)和基于高階潛在結(jié)構(gòu)的縱向CDM兩大類(Lee, 2017; Zhan et al., 2019), 未來可以考慮將SDT模型融入縱向CDM中, 不僅實(shí)現(xiàn)對(duì)被試知識(shí)狀態(tài)的追蹤, 還能隨時(shí)間點(diǎn)觀察題目質(zhì)量的改變。
本研究尚存一些不足之處, 例如本研究只將SDT-CDM與NRDM進(jìn)行比較, 雖然這是由于能夠處理選項(xiàng)層面數(shù)據(jù)且不需要選項(xiàng)層面編碼的CDM較少導(dǎo)致, 但正是缺乏更多的對(duì)比目標(biāo)導(dǎo)致難以對(duì)SDT-CDM模型進(jìn)行更深一步的探索研究。本文使用的XPD信息矩陣屬于解析法信息矩陣, 而解析法信息矩陣在計(jì)算CDM模型參數(shù)的標(biāo)準(zhǔn)誤時(shí)可能會(huì)遇到矩陣非正定、以及方差協(xié)方差矩陣對(duì)角線元素可能小于0等問題, 導(dǎo)致無法求解出標(biāo)準(zhǔn)誤。因此計(jì)算標(biāo)準(zhǔn)誤更好的方法是采用劉彥樓(2022)提出的“并行自助法”, 以類似于蒙特卡洛模擬的方式進(jìn)行計(jì)算, 可以不受解析法信息矩陣的限制, 但本研究并未探索該方法在SDT-CDM模型中的有效性。此外, 本文使用的MMLE/EM算法盡管高效, 但EM算法可能會(huì)陷入局部最優(yōu)解, Zeng等(2023)提出了Tensor-EM算法, 較好地改善了局部最優(yōu)解的困境, 對(duì)于復(fù)雜模型而言是很好的參數(shù)估計(jì)方法。
本研究提出了基于信號(hào)檢測論的認(rèn)知診斷模型SDT-CDM, 基于模擬和實(shí)證研究結(jié)果, 得出如下結(jié)論:
(1) SDT-CDM可以通過EM算法實(shí)現(xiàn)其參數(shù)估計(jì)。除能提供傳統(tǒng)診斷模型不能提供的題目難度和區(qū)分度參數(shù)外, 還能估計(jì)得到每個(gè)選項(xiàng)的合理性參數(shù), 通過這些題目參數(shù)信息可以對(duì)題目進(jìn)行修訂以提高其質(zhì)量。
(2)模擬研究結(jié)果表明, SDT-CDM參數(shù)估計(jì)精度較好, 不同自變量對(duì)題目參數(shù)和被試分類精度存在影響。其中, 對(duì)分類精度影響重要性排序?yàn)椋侯}目質(zhì)量、屬性個(gè)數(shù)和題目數(shù)量, 而屬性分布和樣本量對(duì)精度的影響較小。
(3)實(shí)證研究結(jié)果表明, SDT-CDM比NRDM有更好的模型數(shù)據(jù)擬合結(jié)果, 更高的模式/屬性分類準(zhǔn)確性和一致性(尤其當(dāng)某個(gè)屬性被考察次數(shù)較少時(shí), SDT-CDM展現(xiàn)出了極高的穩(wěn)定性), 被試屬性總體掌握程度與其總分的相關(guān)結(jié)果也更高, 且無需對(duì)干擾項(xiàng)進(jìn)行編碼。此外, 可以根據(jù)兩個(gè)易度參數(shù)(eDK和eK)和區(qū)分度參數(shù)對(duì)題目質(zhì)量進(jìn)行診斷及針對(duì)性修訂。
Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories.(1, Pt. 1), 29–51.
Bradshaw, L., & Templin, J. (2014). Combining item response theory and diagnostic classification models: A psychometric model for scaling ability and diagnosing misconceptions.(3), 403–425.
Chalmers, R, P. (2012). mirt: A multidimensional item response theory package for the R environment.(6), 1–29.
Chen, Y., Zhang, J., Yang, Y., & Lee, Y.-S. (2022). Latent space model for process data.(4), 517–535.
Chiu, C.-Y. (2013). Statistical refinement of the Q-matrix in cognitive diagnosis.(8), 598–618.
Cohen, J. (1988).(2nded.). New York, NY: Erlbaum.
DiBello, L. V., Henson, R. A., & Stout, W. F. (2015). A family of generalized diagnostic classification models for multiple choice option-based scoring.(1), 62–79.
DeCarlo, L, T. (2021). A signal detection model for multiple- choice exams.(6), 423–440.
de la Torre, J. (2009). DINA model and parameter estimation: A didactic.(1), 115–130.
de la Torre, J. (2011). The generalized DINA model framework.(2), 179–199.
Fang, G., Liu, J., & Ying, Z. (2019). On the identifiability of diagnostic classification models., 19–40.
Guo, L., Yuan, C. Y., & Bian, Y. F. (2013). Discussing the development tendency of cognitive diagnosis from the perspective of new models.(12), 2256–2264.
[郭磊, 苑春永, 邊玉芳. (2013). 從新模型視角探討認(rèn)知診斷的發(fā)展趨勢.(12), 2256–2264.]
Guo, L., Zheng C., Bian Y., Song N., & Xia L. (2016). New item selection methods in cognitive diagnostic computerized adaptive testing: Combining item discrimination indices.(7), 903–914.
[郭磊, 鄭蟬金, 邊玉芳, 宋乃慶, 夏凌翔. (2016). 認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn)中新的選題策略:結(jié)合項(xiàng)目區(qū)分度指標(biāo).(7), 903–914.]
Guo, L., & Zhou, W. J. (2021). Nonparametric methods for cognitive diagnosis to multiple-choice test items.(9), 1032–1043.
[郭磊, 周文杰. (2021). 基于選項(xiàng)層面的認(rèn)知診斷非參數(shù)方法.(9), 1032–1043.]
He, Q., Borgonovi, F., & Paccagnella, M. (2021). Leveraging process data to assess adults’ problem-solving skills: Using sequence mining to identify behavioral patterns across digital tasks.: 104170.
Kelly, F. J. (1916). The kansas silent reading tests.(2), 63–80.
Lee, S. Y. (2017).(Unpublished doctorial dissertation). University of California, Berkeley.
Liu, Y. (2022). Standard errors and confidence intervals for cognitive diagnostic models: Parallel bootstrap methods.(6), 703–724.
[劉彥樓. (2022). 認(rèn)知診斷模型的標(biāo)準(zhǔn)誤與置信區(qū)間估計(jì):并行自助法.(6), 703–724.]
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.(3), 253– 275.
Ma, W., & de la Torre, J. (2020). An empirical Q-matrix validation method for the sequential generalized DINA model.(1), 142–163.
Ozaki, K. (2015). DINA models for multiple-choice items with few parameters: Considering incorrect answers.(6), 431–447.
Tang, X., Wang, Z., He, Q., Liu, J., & Ying, Z. (2020). Latent feature extraction for process data via multidimensional scaling., 378–397.
Tang, X., Wang, Z., Liu, J., & Ying, Z. (2021). An exploratory analysis of the latent structure of process data via action sequence autoencoder.(1), 1–33.
Templin, J., Henson, R., Rupp, A., Jang, E., & Ahmed, M. (2008).. Annual Meeting of the National Council on Measurement in Education, New Brunswick, New Jersey.
Thissen, D., & Steinberg, L. (1997). A response model for multiple-choice items. In W. J. van der Linden & R. K. Hambleton (Eds.),(pp. 51–65). Springer.
Wang, S., Yang, Y., Culpepper, S. A., & Douglas, J. A. (2018). Tracking skill acquisition with cognitive diagnosis models: A higher-order, hidden markov model with covariates.(1), 57–87.
Wang, W., Song, L., Chen, P., Meng, Y., & Ding, S. (2015). Attribute-level and pattern-level classification consistency and accuracy indices for cognitive diagnostic assessment., 457–476.
Wang, Y., Chiu, C.-Y., & Kohn, H. F. (2023). Nonparametric classification method for multiple-choice items in cognitive diagnosis.(2), 189–219.
Xu, G. (2017). Identifiability of restricted latent class models with binary responses.(2), 675–707.
Xu, X., Chang, H., & Douglas, J. (2003).. Paper presented at the annual meeting of National Council on Measurement in Education, Montreal, Quebec, Canada.
Zeng, Z., Gu, Y., & Xu, G. (2023). A tensor-EM method for large-scale latent class analysis with binary responses., 580–612.
Zhan, P. D. (2022). Joint-cross-loading multimodal cognitive diagnostic modeling incorporating visual fixation counts.(11), 1416–1432.
[詹沛達(dá). (2022). 引入眼動(dòng)注視點(diǎn)的聯(lián)合-交叉負(fù)載多模態(tài)認(rèn)知診斷建模.(11), 1416–1432.]
Zhan, P. D., Jiao, H., Liao D. D., & Li, F. M. (2019). A longitudinal higher-order diagnostic classification model.(3), 251–281.
Zhan, P. D., & Qiao, X. (2022). Diagnostic classification analysis of problem-solving competence using process data: An item expansion method.(4), 1529– 547.
Zhang, H. C., & Xu, J. P. (2015).(4thed.). Beijing Normal University Press.
[張厚粲, 徐建平. (2015).(第4版). 北京師范大學(xué)出版社.]
Zhang, S. S., & Chang, H. H. (2020). A multilevel logistic hidden markov model for learning under cognitive diagnosis., 408–421.
Zheng, T. P., Zhou, W. J., & Guo, L. (2023). Cognitive diagnosis modelling based on response times.(2), 478–490.
[鄭天鵬, 周文杰, 郭磊. (2023). 基于題目作答時(shí)間信息的認(rèn)知診斷模型.(2), 478–490.]
Zhu W., Ding S., & Chen X. (2006). Minimum chi-square/EM estimation under IRT.(3), 453–460.
[朱瑋, 丁樹良, 陳小攀. (2006). IRT中最小化χ2/EM參數(shù)估計(jì)方法.(3), 453–460.]
Cognitive diagnostic assessment based on signal detection theory: Modeling and application
GUO Lei1,2, QIN Haijiang1,3
(1Faculty of Psychology, Southwest University;2Southwest University Branch, Collaborative Innovation Center of Assessment toward Basic Education Quality, Chongqing 400715, China) (3Guiyang No.37 Middle School, Guiyang 550003, China)
Cognitive diagnostic assessment (CDA) is aimed at diagnose which skills or attributes examinees have or do not have as the name expressed. This technique provides more useful feedback to examinees than a simple overall score got from classical test theory or item response theory. In CDA, multiple-choice (MC) is one of popular item types, which have the superiority on high test reliability, being easy to review, and scoring quickly and objectively. Traditionally, several cognitive diagnostic models (CDMs) have been developed to analyze the MC data by including the potential diagnostic information contained in the distractors.
However, the response to MC items can be viewed as the process of extracting signals (correct options) from noises (distractors). Examinees are supposed to have perceptions of the plausibility of each options, and they make the decision based on the most plausible option. Meanwhile, there are two different states when examinee response to items: knows or does not know each item. Thus, the signal detection theory can be integrated into CDM to deal with MC data in CDA. The cognitive diagnostic model based on signal detection theory (SDT-CDM) is proposed in this paper and has several advantages over traditional CDMs. Firstly, it does not require the coding of-vector for each option. Secondly, it provides discrimination and difficulty parameters that traditional CDMs cannot provide. Thirdly, it can directly express the relative differences between each options by plausibility parameters, providing a more comprehensive characterization of item quality.
The results of two simulation studies showed that (1) the marginal maximum likelihood estimation approach via Expectation Maximization (MMLE/EM) algorithm could effectively estimate the model parameters of the SDT-CDM. (2) the SDT-CDM had high classification accuracy and parameter estimation precision, and could provide option-level information for item quality diagnosis. (3) independent variables such as the number of attributes, item quality, and sample size affected the performance of the SDT-CDM, but the overall results were promising. (4) compared with the nominal response diagnostic model (NRDM), the SDT-CDM was more accurate in classifying examinees under all data conditions.
Further, an empirical study on the TIMSS 2011 mathematics assessment were conducted using both the SDT-CDM and the NRDM to inspect the ecological validity for the new model. The results showed that the SDT-CDM had better fitting and a smaller number of model parameters than the NRDM. The difficulty parameters of the SDT-CDM were significantly correlated with those of the two- (three-) parameter logical models. And the same was true of the discrimination parameters for the SDT-CDM. However, the correlation between the discrimination parameters of the NRDM and those of the two- (three-) parameter logical models was low and not significant. Besides, the classification accuracy and classification consistency of the SDT-CDM were higher than those of the NRDM. All the results indicated that the SDT-CDM was worth promoting.
signal detection theory, cognitive diagnostic assessment, multiple-choice items, expectation maximization algorithmtext
B841
2023-04-21
* 國家自然科學(xué)基金青年項(xiàng)目(31900793); 中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(SWU2109222); 西南大學(xué)2035先導(dǎo)計(jì)劃項(xiàng)目(SWUPilotPlan006)。
郭磊, E-mail: happygl1229@swu.edu.cn