摘 要 有效應(yīng)用認(rèn)知診斷模型(cognitive diagnosis model, CDM)的一個關(guān)鍵步驟是檢查模型和測驗(yàn)題目是否擬合。盡管已有研究將IRT 中的題目擬合檢驗(yàn)方法應(yīng)用于CDM 中,然而這些方法在CDM 中的表現(xiàn)仍缺乏系統(tǒng)的比較研究。本研究通過模擬實(shí)驗(yàn)比較了χ 2,G2,S-χ 2,z(r),z(l) 和Stone-Q1 的一類錯誤率和統(tǒng)計(jì)檢驗(yàn)力。實(shí)驗(yàn)結(jié)果顯示,綜合一類錯誤率和統(tǒng)計(jì)檢驗(yàn)力而言,當(dāng)用ACDM 作為生成模型時,z(r) 和z(l) 的效果最優(yōu);當(dāng)生成模型是DINA 或DINO 時,在高質(zhì)量測驗(yàn)中,z(r) 的表現(xiàn)最好,而在低質(zhì)量測驗(yàn)中,χ 2 和G2 的表現(xiàn)更好。最后通過一個實(shí)測數(shù)據(jù)分析,進(jìn)一步檢驗(yàn)了題目擬合檢驗(yàn)方法的實(shí)證應(yīng)用效果。
關(guān)鍵詞 認(rèn)知診斷模型 題目擬合 一類錯誤率 統(tǒng)計(jì)檢驗(yàn)力
1 引言
認(rèn)知診斷模型(cognitive diagnosis model,CDM)可以提供關(guān)于每個學(xué)生在學(xué)習(xí)相關(guān)屬性方面的優(yōu)勢和劣勢的重要診斷信息(Li et al., 2020)。盡管CDM 最初是被應(yīng)用于教育評估領(lǐng)域,但它現(xiàn)在正被用于評估其他類型的結(jié)構(gòu),如心理障礙(de laTorre et al., 2018; Xi et al., 2020)和基于情境的能力評估(Sorrel et al., 2016)。當(dāng)前,基于對解決問題過程的不同認(rèn)知假設(shè),即認(rèn)知過程、技能或?qū)傩匀绾斡绊憣W(xué)生對項(xiàng)目的作答反應(yīng),已有學(xué)者開發(fā)了不同類型的CDM。像任何基于模型的評估一樣,有效應(yīng)用CDM的關(guān)鍵一步是檢查模型和數(shù)據(jù)的擬合度,即模型預(yù)測與觀察數(shù)據(jù)之間的一致性(Wang et al.,2015)。當(dāng)模型與數(shù)據(jù)不擬合時,使用模型估計(jì)的參數(shù)進(jìn)行推斷的有效性會受到很大的影響。
評估模型和數(shù)據(jù)的擬合,通常需要同時評估測驗(yàn)水平擬合(test-level fit)和題目水平擬合(item-levelfit)兩個方面。測驗(yàn)擬合從總體水平上評估模型和數(shù)據(jù)的擬合,測驗(yàn)擬合通常是比較幾個模型在同一批數(shù)據(jù)的相對擬合(relative fit)統(tǒng)計(jì)量。題目擬合用于評估每個題目和模型的擬合度,有助于識別異常題目,通過刪除或修改異常題目將提高整個測驗(yàn)和模型的擬合水平(Wang et al., 2015)。換句話說,題目水平的擬合分析不僅是對測驗(yàn)水平擬合的補(bǔ)充檢驗(yàn),而且在心理和教育測量工具開發(fā)中也是必不可少的,因?yàn)轭}目擬合結(jié)果將有助于指導(dǎo)題目的修訂或刪除(Liu amp; Maydeu-Olivares, 2014)。
在IRT 框架下,已有大量關(guān)于題目擬合檢驗(yàn)的研究(Chalmers amp; Ng, 2017; K?hler et al., 2020; Su et"al., 2021; Zhang et al., 2018)。但是,在認(rèn)知診斷理論下,關(guān)于題目擬合檢驗(yàn)的研究仍然不多。當(dāng)前,僅有少量研究試著將IRT 中的題目擬合檢驗(yàn)指標(biāo)拓展到CDM 中,例如,涂冬波等人(2014)比較了χ 2 和G2 統(tǒng)計(jì)量在 DINA 模型的效果;Wang 等人(2015)將 IRT 中的題目擬合指標(biāo): Q1 和PD(power-divergence) 等應(yīng)用于 DINA 模型中;Sorrel 等人(2017) 將S -χ 2 應(yīng)用于CDM 中;Chen 等人(2013)將基于題目對(item pairs)的統(tǒng)計(jì)量應(yīng)用于CDM 中。然而,一方面,已有的研究主要集中在DINA 模型下,比較傳統(tǒng)題目擬合方法的效果,而這些題目擬合方法在其他CDM 下的效果如何,仍值得探討;另一方面,上述這些題目擬合方法都屬于絕對題目擬合(absolute item fit)指標(biāo),絕對題目擬合在實(shí)際應(yīng)用中也是最常用的一類模型擬合評價方法,例如在IRT 的應(yīng)用中,有大量的研究使用S -χ 2 指標(biāo)來評估題目擬合(Acevedo-Mesa et al., 2020; Flens et al., 2019)。盡管這些絕對題目擬合方法已被初步應(yīng)用于CDM 中,但這些方法在CDM 的效果仍缺乏系統(tǒng)比較,在CDM 的題目擬合檢驗(yàn)中,這些指標(biāo)的效果如何?面對不同的測驗(yàn)情境,該如何選擇最佳的題目擬合檢驗(yàn)指標(biāo)?因此,本研究旨在不同的實(shí)驗(yàn)條件下,系統(tǒng)比較這些絕對題目擬合方法在CDM 的表現(xiàn),從而為實(shí)際使用者在題目擬合方法的選用上提供有價值的參考。