摘 要 通常情況下,認知診斷需要通過認知診斷模型對被試進行診斷評價。認知診斷模型所生成診斷結(jié)果的有效性依賴于被試作答反應(yīng)是否與所選用的模型擬合。因此,在對診斷結(jié)果進行評估的時候,需要通過被試擬合分析來對被試個體的作答反應(yīng)與模型的擬合情況進行檢驗,以避免錯誤或無效的補救措施。本研究基于加權(quán)的得分殘差,提出認知診斷評價中新的被試擬合指標(biāo)R 。模擬研究結(jié)果表明,R 指標(biāo)的一類錯誤率有較好的穩(wěn)定性,對隨機作答、疲勞、睡眠和創(chuàng)造性作答四種異常被試類型均有較高的統(tǒng)計檢驗力。并將R 指標(biāo)應(yīng)用于分數(shù)減法實證數(shù)據(jù),展示指標(biāo)在實際測驗中的使用過程。
關(guān)鍵詞 認知診斷 被試擬合 DINA 模型 異常反應(yīng)作答
1 引言
assessment, CDA)在心理和教育測量中得到了廣泛的應(yīng)用,它對考生是否掌握知識點或技能進行分析,為進一步學(xué)習(xí)和教學(xué)提供指導(dǎo)(Leighton amp;Gierl, 2007; Rupp et al., 2010; Tatsuoka, 1983)。認知診斷模型在認知診斷評價過程中起到統(tǒng)計工具的作用,它被用來推斷被試所掌握的屬性,診斷過程需要借助它來對被試進行診斷評價(von Davier amp; Lee,2019)。認知診斷模型與測驗數(shù)據(jù)的擬合情況,直接影響依據(jù)這個模型得到的診斷結(jié)果的準(zhǔn)確性,并影響整個測驗的信度和效度,因此認知診斷評價需檢驗?zāi)P? 資料擬合優(yōu)度。美國教育和心理測驗標(biāo)準(zhǔn)(American Educational Research Association et al.,2014) 中明確提出在教育和心理測量中,需要對所選擇的項目反應(yīng)模型與作答反應(yīng)數(shù)據(jù)進行擬合檢驗。
考試分數(shù)是用來衡量被試的能力水平的,但由于被試可能存在的異常行為,考試分數(shù)不一定是被試技能或知識的真實反映。在心理測量學(xué)中,衡量被試的實際作答反應(yīng)與其模型預(yù)測的反應(yīng)之間的差異的方法稱為被試擬合(Meijer amp; Sijtsma, 2001)。被試擬合用來檢驗被試個人作答反應(yīng)與認知診斷模型的擬合程度,恰當(dāng)?shù)恼J知診斷模型應(yīng)該準(zhǔn)確反映被試在項目反應(yīng)過程中的心理加工特征,以有效地推斷被試屬性掌握情況。被試作答反應(yīng)能夠擬合所選擇的認知診斷模型,稱為被試擬合(person-fit);反之,如果被試出現(xiàn)異常作答反應(yīng),和所選擇的認知診斷模型不擬合,稱為被試不擬合(person-misfit)。如果出現(xiàn)被試不擬合,一方面,根據(jù)失擬被試的作答反應(yīng)數(shù)據(jù)對其屬性掌握模式進行推斷的結(jié)果可能是難以解釋或無效的,進一步導(dǎo)致不合適的補救措施,其次,失擬被試的數(shù)據(jù)可能會影響整個測驗的信效度,因此被試擬合檢驗尤為重要。以往關(guān)于被試擬合的研究大多集中在項目反應(yīng)理論(itemresponse theory, IRT; Baker amp; Kim, 2004)下開展,在認知診斷評價中,被試擬合檢驗在測驗評價分析過程中較易被忽視,與被試擬合有關(guān)的研究較少。目前已有的研究主要包括:Liu 等人(2009)基于邊際和聯(lián)合似然比檢驗,提出了用于判別異常作答被試的似然比檢驗統(tǒng)計量,引入異常反應(yīng)概率變量,并用標(biāo)示變量定義異常反應(yīng)被試類型,其局限性在于實踐過程中異常被試和異常反應(yīng)類型較難被人為定義;Cui 和 Leighton(2009)開發(fā)了在屬性層級模型下衡量被試觀察反應(yīng)模式和理想反應(yīng)模式是否匹配的層級一致性指標(biāo)(hierarchical consistency index,HCI),層級一致性指標(biāo)基于屬性層級模型,即強調(diào)屬性間的關(guān)系,當(dāng)測驗所考察的屬性之間只有部分屬性具有層級關(guān)系或者屬性之間沒有層級關(guān)系時,HCI 指標(biāo)就不適用;Liu 等人(2009)提出的似然比檢驗統(tǒng)計量被證明在使用DINA 模型時對虛假的高分(spuriously high scores)和虛假的低分(spuriouslylow scores)具有較好的檢測力;Cui 和 Li(2015)將lz 指標(biāo)擴展到認知診斷框架下,同時提出了一種新的比較觀察反應(yīng)模式和理想反應(yīng)模式的反應(yīng)一致性指標(biāo)(response conformity index, RCI);還有研究者對認知診斷測驗中的被試擬合檢驗進行了綜述和分析(陳孚等,2016; 涂冬波等,2014)。正是因為診斷測驗中被試擬合研究的重要性,本研究擬構(gòu)建基于認知診斷測驗的被試擬合指標(biāo),并將它與lz 和RCI 指標(biāo)進行比較,考察它們在不同條件下的表現(xiàn)。有關(guān)lz 和RCI 指標(biāo)的介紹。
2 認知診斷評價下被試擬合指標(biāo)的提出
殘差是回歸分析中的重要概念,殘差在數(shù)理統(tǒng)計中是指實際觀察值與期望值(擬合值)之間的偏差。殘差應(yīng)用其中蘊含的邏輯就是,通過對比理想情況與實際情況的差異而發(fā)現(xiàn)其中的異常情況。異常偏差會使殘差統(tǒng)計量膨脹,這與被試擬合檢驗的思想一致。本研究打算構(gòu)建基于殘差的被試擬合統(tǒng)計量指標(biāo)來進行診斷測驗中的被試擬合分析。下面首先給出標(biāo)準(zhǔn)化殘差的定義。
2.1 標(biāo)準(zhǔn)化殘差的定義
在IRT 有關(guān)的很多研究中,尤其是有關(guān)Rasch模型的研究,有很多和標(biāo)準(zhǔn)化殘差xij-E(Xij|θi)/根號下Var(Xij|θi)有關(guān)的應(yīng)用(Masters amp; Wright, 1997)。其中Var(Xij|θi)是給定能力值θi隨機變量Xij的方差。對考生在各項目上標(biāo)準(zhǔn)化殘差求和之后就可以作為被試擬合的評價指標(biāo)。一方面,標(biāo)準(zhǔn)化殘差可以看作是一種加權(quán)的殘差,權(quán)重是項目作答的條件標(biāo)準(zhǔn)誤的倒數(shù),它近似服從標(biāo)準(zhǔn)正態(tài)分布。另一方面,因為被試擬合關(guān)注的是考生的觀察作答與模型的預(yù)測作答之間的一致性,當(dāng)觀察作答與模型的預(yù)測之間存在嚴重的不一致時,表現(xiàn)在出現(xiàn)這個觀察作答的概率很小,并且由于它處于分母的位置,是一個逆向的權(quán)重,就會導(dǎo)致殘差的取值虛高,因此基于以上的考慮,本研究以觀察作答概率的倒數(shù)作為被試擬合統(tǒng)計量的權(quán)重,定義新的指標(biāo)R。
2.2 R 指標(biāo)的定義
R 指標(biāo)的數(shù)學(xué)表達式如下:
其中, 表示被試i 在項目j 上的觀察得分,是被試的屬性掌握模式。在實際應(yīng)用中,真實的被試屬性掌握模式是無法得到的,因此本研究采用被試屬性掌握模式估計值。E(Xij|αi)表示屬性掌握模式為的被試i 在項目j 上的期望得分,如在DINA 模型(de la Torre, 2009)中,每個項目只包含兩個參數(shù):失誤參數(shù)s(slipping parameter)和猜測參數(shù)(guessing parameter)。如果被試i 掌握了項目j 考察的所有屬性,此時E(Xij|αi)=1-sj,如果被試i 至少有一個項目j 考察的屬性未掌握,此時E(Xij|αi)=gj,分子是觀察作答與期望得分之差。分母P(xij|αi)表示屬性掌握模式為αi的被試i 在項目j 上得分的概率,當(dāng)屬性掌握模式為αi的被試i 掌握了項目考j 察的屬性并正確作答時,P(xij=1|αi)=E(Xij|αi)。當(dāng)P(xij|αi)值越小時,被試失擬程度越高,它進一步放大了觀察作答和期望作答之間的殘差。Ri是被試i 在所有項目上的R 值的和,其值越大表示越不擬合;而對于一個“擬合良好”的被試來說,可以預(yù)期其Ri 值相對更小。需要注意的是,R 指標(biāo)本身不依賴于特定的診斷模型,因為DINA 模型具有參數(shù)簡單、易于使用、有很多的開源軟件都包含DINA 模型,這是選擇DINA 模型作為實例的原因,有關(guān)DINA 模型的具體信息請參考(de la Torre, 2009; Junker amp; Sijtsma, 2001; vonDavier amp; Lee, 2019)。
在DINA 模型中,則對于每個考生來說,他/她所完成的項目根據(jù)其對屬性的掌握情況和作答情況可以分成四類:掌握某項目考察的屬性,正確作答(η11)或錯誤作答(η10);未完全掌握某項目,錯誤作答(η00)或正確作答(η01)。這里η表示考生的類型,它的第一個下標(biāo)表示被試對項目屬性的是否完全掌握,第二個下標(biāo)表示其作答是否正確,它的取值為1 表示完全掌握或正確作答。這樣一來,公式1 可以寫成如下的形式:
3 研究1 R 指標(biāo)與lz、RCI 指標(biāo)比較研究
為了評價R 指標(biāo)在診斷測驗的被試擬合檢驗上的表現(xiàn),我們展開模擬研究來比較指標(biāo)R 與lz 指標(biāo)、RCI 指標(biāo)的表現(xiàn)。Cui 和 Li(2015)的研究表明,RCI 指標(biāo)優(yōu)于Liu 等人(2009)的似然比統(tǒng)計量,故沒有將似然比統(tǒng)計量作為比較對象。
3.1 研究設(shè)計
探討在DINA模型下,不同項目長度、項目質(zhì)量、失擬被試類型下指標(biāo)R 和lz、RCI 指標(biāo)的一類錯誤率和統(tǒng)計檢驗力。項目長度和質(zhì)量是影響診斷性測量準(zhǔn)確性的關(guān)鍵因素 (Cui et al., 2012)。一類錯誤率(type Ⅰ error)也稱“棄真”率,是指正常被試被誤判為失擬被試的比率,統(tǒng)計檢驗力是指正確檢測出失擬被試的比率。
實驗設(shè)計:采用2×2×6 三因素完全隨機實驗設(shè)計。三個因素分別為項目長度(20、40)、項目質(zhì)量(高區(qū)分度、低區(qū)分度)、失擬被試類型(創(chuàng)造性作答、隨機作答、疲勞、睡眠、作弊、隨機作弊; Cui amp; Li, 2015; Santos et al., 2020)。其中高區(qū)分度項目設(shè)置成失誤參數(shù)s 和猜測參數(shù)服從均勻分布U(.05, .25) 抽取,低區(qū)分度項目為失誤參數(shù)s 和猜測參數(shù)服從均勻分布U(.25, .40) 抽取。根據(jù)Cui和 Li(2015),創(chuàng)造性作答指高能力的被試做錯簡單的項目,這里的高能力被試定義為掌握了所有考察屬性的被試,簡單的項目定義為只測量一個屬性的項目,實驗設(shè)置為假設(shè)每個被試掌握每個屬性的概率為80%,隨機生成被試的屬性掌握模式,被試在只測量一個屬性的項目上答錯;隨機作答指測驗動機低下的被試憑猜測隨機作答,本研究設(shè)計為每個被試正確作答每題的概率為25%(Yu amp; Cheng,2019);睡眠指考試中未能正確回答前幾題,本研究設(shè)計為被試在前25% 題目上答錯;疲勞指考試中未能正確回答后幾題,這里設(shè)計為被試在后25% 題目上答錯;作弊指低能力被試抄襲高能力被試的答案,從而答對較難項目,本研究設(shè)置為按20% 概率掌握各個屬性的被試中,掌握2 個屬性以下的被試在考察3 個屬性以上的項目上正確作答;隨機作弊指低能力被試以90%的概率答對10%的難題(Santoset al., 2020)。
本研究控制變量包括:被試數(shù)量控制為1000 人,選用認知診斷模型為常見的DINA 模型,考察屬性為6 個,固定Q 矩陣。被試知識狀態(tài)和項目參數(shù)用R 語言以DINA 模型估計生成。重復(fù)實驗30 次,評價指標(biāo)為一類錯誤率和統(tǒng)計檢驗力,檢驗水準(zhǔn)α =.05,本研究中一類錯誤率設(shè)置為不同實驗條件下在DINA 模型生成的1000 個正常被試反應(yīng)模式中,被指標(biāo)誤判為失擬被試的比例;統(tǒng)計檢驗力指標(biāo)設(shè)置為每種異常被試類型生成1000 個失擬被試,被鑒別出的異常被試的比例。取30 次實驗結(jié)果平均值作為最終評價指標(biāo)。
lz 指標(biāo)和RCI 指標(biāo)均在顯著性水平為.05 的情況下,根據(jù)理論分布取臨界值,lz 指標(biāo)取5 分位數(shù)為臨界值,RCI 指標(biāo)取95 分位數(shù)為臨界值。對于R 指標(biāo),本研究采用經(jīng)驗臨界值,具體做法是:給定Q矩陣,根據(jù)DINA 模型,假設(shè)被試的知識狀態(tài)服從均勻分布來估計被試知識狀態(tài),生成10000 個正常被試作答數(shù)據(jù),使用MMLE/EM 估計項目參數(shù)(dela Torre, 2009),為每位被試計算Rt 值,從低到高排序,取Rt 值的95 分位數(shù)作為臨界值。
3.2 研究結(jié)果
表1 給出了不同實驗條件下三個指標(biāo)的一類錯誤率和對不同異常被試類型的統(tǒng)計檢驗力,表2 給出了不同測驗長度下的模式判準(zhǔn)率和屬性邊際判準(zhǔn)率。一類錯誤率的結(jié)果顯示,R 指標(biāo)對一類錯誤率控制得較好,穩(wěn)定在.05,而lz 指標(biāo)和RCI 指標(biāo)一類錯誤率出現(xiàn)了略微膨脹,在題目數(shù)量為40 題時,RCI 指標(biāo)一類錯誤率趨于合理。這與Cui 等人(2015)研究結(jié)果中l(wèi)z 指標(biāo)和RCI 指標(biāo)一類錯誤率在正常范圍有些不一致,原因可能是本研究采用的認知診斷模式為DINA 模型,而Cui 等人(2015)研究中使用的是C-RUM 模型。
在統(tǒng)計檢驗力方面,隨著題目區(qū)分度提高,各個指標(biāo)在不同異常被試類型的統(tǒng)計檢驗力均有所提高,其中指標(biāo)在疲勞、睡眠、創(chuàng)造性作答和隨機作答的異常被試類型下,隨著題目區(qū)分度提高,統(tǒng)計檢驗力提升尤為明顯,這個結(jié)果與Cui 和Li(2015)的結(jié)果一致。隨著題目數(shù)量從20 增加到40,大部分統(tǒng)計檢驗力呈現(xiàn)上升趨勢,但lz 指標(biāo)在疲勞和睡眠的異常被試類型下,以及R 指標(biāo)在隨機作弊的異常被試類型下,隨著題目數(shù)量的增加,統(tǒng)計檢驗力有略微下降。
對于不同的異常被試類型,模擬研究結(jié)果顯示在隨機作答和隨機作弊情況下,R 指標(biāo)表現(xiàn)最好,在疲勞、睡眠和創(chuàng)造性作答情況下lz 指標(biāo)則表現(xiàn)更優(yōu),而隨著題量增加,R 指標(biāo)在這三種情況下的統(tǒng)計檢驗力接近于lz 指標(biāo),這可以用隨著題量的增加,模式判準(zhǔn)率和屬性判準(zhǔn)率都有所提高來解釋。在低區(qū)分度題目上,在疲勞和睡眠的情況下,R 指標(biāo)比lz 指標(biāo)和RCI 指標(biāo)表現(xiàn)更好。在作弊情況下,則是RCI 指標(biāo)表現(xiàn)最好且最穩(wěn)定,lz 指標(biāo)表現(xiàn)不理想。
綜合可以看出:隨著題目數(shù)量和題目質(zhì)量的增加,各個被試擬合指標(biāo)對異常被試類型偵察度越好,創(chuàng)造性作答的異常被試類型較容易被檢測出來;RCI 指標(biāo)適合檢測作弊的異常被試類型;lz 指標(biāo)則更適合檢測疲勞、睡眠的異常被試類型;R 指標(biāo)對創(chuàng)造性作答、隨機作答和作弊均有較好的統(tǒng)計檢驗力,且在低區(qū)分度的題目上,R 指標(biāo)表現(xiàn)也最穩(wěn)健。
4 研究2 R 指標(biāo)在實證數(shù)據(jù)中的應(yīng)用研究
教育評估工具應(yīng)該能反映學(xué)生的學(xué)習(xí)狀態(tài),為教學(xué)改進提供反饋信息。認知診斷評估對被試在測驗所考察屬性上的掌握水平進行分類,確定被試對哪些屬性已經(jīng)掌握,對哪些屬性需要補救,而被試擬合檢驗?zāi)芨玫拇_保被試評估分類的準(zhǔn)確性和有效性。為了進一步檢驗R 指標(biāo)在認知診斷評估中應(yīng)用的可行性,本部分將以分數(shù)減法的數(shù)據(jù)為例,用R 指標(biāo)進行被試擬合檢驗與分析。
4.1 實測數(shù)據(jù)來源
本研究采用實測數(shù)據(jù)為眾多實證研究中運用的Tatsuoka 分數(shù)減法數(shù)據(jù),共536 個被試,題目數(shù)量為11 題(Henson et al., 2009)。該測驗共考察3 個屬性,A1 從整數(shù)借位(borrowing from wholenumber), A2 將整數(shù)和分數(shù)分開(separating wholenumber from fraction), A3 通分(finding commondenominator),其測驗Q 矩陣見表3。
4.2 研究過程與方法
本研究根據(jù)分數(shù)減法(Henson et al., 2009)的Q矩陣和作答數(shù)據(jù),采用DINA 模型,通過R 語言中的GDINA包估計出項目參數(shù)和被試的屬性掌握模式,項目參數(shù)結(jié)果見表4。再根據(jù)估計出的項目參數(shù),模擬10000 名正常被試的作答數(shù)據(jù),取95 分位數(shù)為判別異常被試的臨界值,最后根據(jù)R 指標(biāo)的臨界值對實際作答數(shù)據(jù)進行被試擬合檢驗。并且,將RCI 指標(biāo)和lz 指標(biāo)也應(yīng)用到這批數(shù)據(jù)上,比較它們在分析結(jié)果上的差異。
4.3 研究結(jié)果
結(jié)果顯示,有23 名被試被檢測出作答反應(yīng)異常,占總?cè)藬?shù)的4.29%。下表列出了部分異常反應(yīng)被試的基本情況。
編號為24、48 和97 號的被試答對了第5、6、9、10 題,這幾題考察第1 個屬性4 次,考察第2 個屬性2 次,未考察第3 個屬性,估計這幾個被試屬性掌握模式為[110],其理想作答反應(yīng)為[10011100111,但被試均在第1、4、11 題上答錯,第1 題和第11題考察屬性A1 和A2,可能還需進一步分析被試是否掌握了第2 個屬性。
編號為137 號被試觀察作答反應(yīng)是[00001011111],估計其屬性掌握模式為[111], 從理論上講被試掌握了所有的屬性,那么他在所有題目上都應(yīng)該答對,但被試在實際上前四題都答錯了,有可能出現(xiàn)了“睡眠”的異常反應(yīng)模式。
編號為230 號被試, 模型估計其屬性掌握模式為[000], 但其觀察作答反應(yīng)為[01100100110],答對了第2、3、6、9、10 題,有可能有作弊行為。
本研究新提出認知診斷評估中的被試擬合指標(biāo)指標(biāo),并將其與lz 和RCI 指標(biāo)和指標(biāo)進行比較。在模擬研究中,R 指標(biāo)一類錯誤率穩(wěn)定在.05 左右,較為正常,可用于認知診斷評價中對異常反應(yīng)被試進行偵察。首先,模擬研究結(jié)果表明,隨著題目數(shù)量增加和題目區(qū)分度提高,R 指標(biāo)檢測率越高,這與預(yù)期一致。但本研究中,lz 指標(biāo)一類錯誤率出現(xiàn)略微膨脹以及l(fā)z 指標(biāo)在疲勞和睡眠兩種異常被試類型下,隨著題目數(shù)量的增加,統(tǒng)計檢驗力出現(xiàn)下降的現(xiàn)象,與Cui 等人(2015)研究結(jié)果不一致,可能是所選模型不同導(dǎo)致,有待進一步研究加以探討。
其次,由于目前還不完全了解R 指標(biāo)的理論分布,本研究中R 指標(biāo)的臨界值是采用經(jīng)驗分布確定的,這在實際應(yīng)用中可能不方便使用,探索指標(biāo)的統(tǒng)計性質(zhì),如果能夠推導(dǎo)出它的理論零分布或近似分布(Andrews, 1993),則更有助于它的應(yīng)用和推廣。
第三,本研究中的R 指標(biāo)是對各考生所有項目上的求和,如果將R 指標(biāo)定義在各項目在所有考生上的求和,則可以用于項目擬合檢驗(Drasgow etal., 1985),因此,將R 指標(biāo)推廣到項目擬合檢驗也是值得研究和探索的。
第四,項目質(zhì)量對于被試擬合檢驗有非常大的影響(馬大付等,2023),本研究沒有把項目質(zhì)量納入考慮是一個不足之處,未來需進一步探索項目質(zhì)量對于R 指標(biāo)的表現(xiàn)。除此之外,Wang 等人(2018)對確定被試異常作答的類型進行了嘗試,這方面的工作也需要進行深入的探索。在實證研究中,由于采用的是其他研究的實證數(shù)據(jù),故無法對偵察出的異常被試做進一步分析以及補救措施。而且被試出現(xiàn)異常作答反應(yīng)的原因不能僅僅只根據(jù)被試擬合指標(biāo)來確定,因為被試擬合指標(biāo)不能直接指出異常反應(yīng)行為的實際原因,因此,進一步分析被試考試行為的輔助信息如被試的口頭報告、座位安排、考試時間等是十分必要的。
最后,由于二級計分方式的模型只能評價被試是否掌握某一知識或技能,而對被試在不同知識或技能的掌握水平或程度不能進行有效地評價,在實際情景中,教育與心理測驗中的題目形式豐富多樣,如教育考試中的計算題、論述題、簡答題、證明題、作文題,心理量表中的Likert 型量表等等,這些題型的數(shù)據(jù)基本都是多級評分數(shù)據(jù)(丁樹良等,2014;夏夢連等,2018; 王鵬等,2019)或多分屬性下的評分數(shù)據(jù)(丁樹良等,2015; 詹沛達等,2017),未來可將被試擬合檢0 驗擴展到多級計分或多分屬性下的認知診斷。
6 結(jié)論
本研究提出在認知診斷框架下的被試擬合指標(biāo)R,通過模擬研究比較RCI、和lz 指標(biāo)的一類錯誤率及統(tǒng)計檢驗力,并將指標(biāo)應(yīng)用于實證數(shù)據(jù),驗證R指標(biāo)在實證數(shù)據(jù)中的表現(xiàn)。研究結(jié)果表明,R 指標(biāo)一類錯誤率較合理,lz 指標(biāo)和RCI 指標(biāo)一類錯誤率出現(xiàn)了略微膨脹。隨著題目區(qū)分度和題目數(shù)量的增加,指標(biāo)的統(tǒng)計檢驗力有所提高。對于不同的異常被試類型,RCI 指標(biāo)適合檢測作弊的異常被試類型,lz 指標(biāo)適合檢測疲勞、睡眠的異常被試類型,R 指標(biāo)對創(chuàng)造性作答、隨機作答和作弊的異常被試均有較好的偵察力。
參考文獻
陳孚, 辛濤, 劉彥樓, 劉拓, 田偉. (2016). 認知診斷模型資料擬合檢驗方法和統(tǒng)計量. 心理科學(xué)進展, 24 (12), 1946-1960.
丁樹良, 汪文義, 羅芬. (2014). 多級評分認知診斷測驗藍圖的設(shè)計——根樹型結(jié)構(gòu). 江西師范大學(xué)學(xué)報( 自然科學(xué)版), 38 (2), 111-118.
丁樹良, 汪文義, 羅芬, 熊建華. (2015). 多值Q 矩陣理論. 江西師范大學(xué)學(xué)報( 自然科學(xué)版), 39 (4), 365-370.
涂冬波, 張心, 蔡艷, 戴海琦. (2014). 認知診斷模型- 資料擬合檢驗統(tǒng)計量及其性能. 心理科學(xué), 37(1), 205-211.
王鵬, 孟維璇, 朱干成, 張登浩, 張利會, 董一萱, 司英棟.(2019). 多維項目反應(yīng)理論補償性模型參數(shù)估計: 基于廣義回歸神經(jīng)網(wǎng)絡(luò)集合. 心理學(xué)探新, 39 (3),244-249.
夏夢連, 毛秀珍, 楊睿. (2018). 屬性多級和項目多級評分的認知診斷模型.江西師范大學(xué)學(xué)報( 自然科學(xué)版), 42 (2), 134-138.
詹沛達, 丁樹良, 王立君. (2017). 多分屬性層級結(jié)構(gòu)下引入邏輯約束的理想掌握模式. 江西師范大學(xué)學(xué)報( 自然科學(xué)版), 41 (3), 289-295.
American Educational Research Association, American Psychological Association,amp; National Council on Measurement in Education. (2014). Standards for"educational and psychological testing . American Educational Research Association.
Andrews, D. W. K. (1993). Tests for parameter instability and structural change"with unknown change point. Econometrica, 61(4), 821-856.
Baker, F. B., amp; Kim, S. H. (2004). Item response theory: Parameter estimation"techniques . Chapman amp; Hall/CRC.
Cui, Y., amp; Li, J. (2015). Evaluating person fit for cognitive diagnostic assessment.Applied Psychological Measurement, 39 (3), 223-238.
Cui, Y., Gierl, M. J., amp; Chang, H. H. (2012). Estimating classification consistencyand accuracy for cognitive diagnostic assessment. Journal of Educational"Measurement, 49 (1), 19-38.
Cui, Y., amp; Leighton, J. P. (2009). The hierarchy consistency index: Evaluating person fit for cognitive diagnostic assessment. Journal of Educational"Measurement, 46 (4), 429-449.
Cui, Y., amp; Li, J. (2015). Evaluating person fit for cognitive diagnostic assessment.Applied Psychological Measurement, 39 (3), 223-238.
de la Torre, J. (2009). DINA model and parameter estimation: A didactic. Journal of Educational and Behavioral Statistics, 34(1), 115-130.
Drasgow, F, Levine, M. V., amp; Williams, E. A. (1985). Appropriateness"measurement with polychotomous item response models and standardized"indices. British Journal of Mathematical and Statistical Psychology, 38 (1), 67-86.
Henson, R. A., Templin, J. L., amp; Willse, J. T. (2009). Defining a family of"cognitive diagnosis models using log-linear models with latent variables.Psychometrika, 74 (2), 191-210.
Junker, B. W., amp; Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.Applied Psychological Measurement, 25 (3), 258-272.
Leighton, J. P., amp; Gierl, M. J. (2007). Cognitive diagnostic assessment for education: Theory and applications. Cambridge University Press.
Levine, M. V., amp; Rubin, D. B. (1979). Measuring the appropriateness of multiplechoice test scores. Journal of Educational and Behavioral Statistics, 4 (4), 269-290.
Liu, Y., Douglas, J. A., amp; Henson, R. A. (2009). Testing person fit in cognitive diagnosis. Applied Psychological Measurement, 33 (8), 579-598.
Masters, G. N., amp; Wright, B. D. (1997). The partial credit model. In W. J. van der Linden amp; R. K. Hambleton (Eds.), Handbook of modern item response theory"(pp. 101-121). Springer.
Meijer, R. R., amp; Sijtsma, K. (2001). Methodology review: Evaluating person fit.Applied Psychological Measurement, 25 (2), 107-135.
Molenaar, I. W., amp; Hoijtink, H. (1990). The many 1 distributions of person fit indices. Psychometrika, 55 (1), 75-106.
Reise, S. P. (1995). Scoring method and the detection of person misfit in a"personality assessment context. Applied Psychological Measurement, 19 (3),213-229.
Rupp, A. A., Templin, J., amp; Henson, R. A. (2010). Diagnostic measurement:Theory, methods, and applications. Guilford Press.
Santos, K. C. P., de la Torre, J., amp; von Davier, M. (2020). Adjusting person fit index"for skewness in cognitive diagnosis modeling. Journal of Classification, 37(2),399-420.
Tatsuoka, K. K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20 (4),345-354.
von Davier, M., amp; Lee, Y. S. (2019). Handbook of diagnostic classification models.Cham: Springer International Publishing.
Wang, C., Xu, G. J., amp; Shang, Z. R. (2018). A two-stage approach to differentiating"normal and aberrant behavior in computer based testing. Psychometrika,83 (1), 223-254.
Yu, X. F., amp; Cheng, Y. (2019). A change-point analysis procedure based on weighted residuals to detect back random responding. Psychological Methods,24 (5), 658-674.
本研究得到教育部教育考試院‘十四五’規(guī)劃支撐專項課題“高考實施過程中的科目跨年分數(shù)的轉(zhuǎn)換研究(NEEA2021050)”和國家自然科學(xué)基金項目(32360208,62341207)的資助。