劉彥樓 陳啟山 王一鳴 姜曉彤
模型參數(shù)點(diǎn)估計(jì)的可靠性:以CDM為例*
劉彥樓1,2陳啟山3,4王一鳴2姜曉彤2
(1曲阜師范大學(xué)教育大數(shù)據(jù)研究院;2曲阜師范大學(xué)心理學(xué)院, 山東 濟(jì)寧 273165) (3“兒童青少年閱讀與發(fā)展”教育部哲學(xué)社會科學(xué)實(shí)驗(yàn)室(華南師范大學(xué));4華南師范大學(xué)心理學(xué)院, 廣州 510631)
心理學(xué)研究中, 不恰當(dāng)?shù)哪P蛥?shù)估計(jì)框架或收斂準(zhǔn)則嚴(yán)重影響模型參數(shù)點(diǎn)估計(jì)的可靠性, 進(jìn)而影響到研究結(jié)論的可靠性。本研究提出了基于MLE-EM的CDM模型參數(shù)估計(jì)新框架, 以及新收斂判斷方法。通過模擬研究與實(shí)證數(shù)據(jù)分析的方式, 探索了新參數(shù)估計(jì)框架和新收斂判斷方法的表現(xiàn), 并與已有模型參數(shù)估計(jì)框架及收斂判斷方法進(jìn)行了比較。結(jié)果顯示, 新的模型參數(shù)估計(jì)框架及收斂準(zhǔn)則的表現(xiàn)優(yōu)于已有的模型參數(shù)估計(jì)框架及收斂準(zhǔn)則, 能有效提高模型參數(shù)點(diǎn)估計(jì)的可靠性。
參數(shù)估計(jì), 點(diǎn)估計(jì), 收斂準(zhǔn)則, 認(rèn)知診斷模型
自然科學(xué)及社會科學(xué)各個領(lǐng)域中, 研究結(jié)論的可靠性(研究結(jié)論可以被信賴的程度), 尤其是研究結(jié)果的可重復(fù)性(replication)受到極大關(guān)注(參見:胡傳鵬等, 2016; Begley & Ellis, 2012; Ioannidis, 2005, 2008; Tajika et al., 2015)。Nature雜志對此進(jìn)行了一項(xiàng)調(diào)查, 發(fā)現(xiàn)70%以上的研究者無法重復(fù)他人實(shí)驗(yàn), 50%以上的研究者無法重復(fù)他們自己的實(shí)驗(yàn)(Baker, 2016)。心理學(xué)領(lǐng)域中, 研究者對可重復(fù)性問題出現(xiàn)的比例、可能的原因展開了探討, 并從統(tǒng)計(jì)方法和研究實(shí)踐兩方面提出了解決方案(例如, 可參考《心理學(xué)報(bào)》的投稿指南及論文自檢報(bào)告或American Psychological Association, 2020等)。
模型參數(shù)點(diǎn)估計(jì)的可靠性是研究結(jié)論可靠性的基礎(chǔ)。因此, 如何提高模型參數(shù)估計(jì)值的可靠性, 進(jìn)而提高研究結(jié)果的可重復(fù)性是本文將要探討的主要問題。
認(rèn)知診斷(或者是診斷分類)使用心理計(jì)量模型推斷被試可觀察的外顯行為與其潛在的多維、細(xì)粒度的心理特質(zhì)(如心理結(jié)構(gòu)、技能、加工過程或策略等, 統(tǒng)稱為屬性)之間的關(guān)系(Rupp et al., 2010)。認(rèn)知診斷模型(cognitive diagnostic model, CDM)在心理、教育、社會、生物以及其他多個領(lǐng)域中得到了越來越多的關(guān)注(Sorrel et al., 2016; Wu et al., 2017)。因此, 本文以CDM為例, 探討模型參數(shù)點(diǎn)估計(jì)的可靠性問題。
目前, 極大似然期望最大化算法(maximum likelihood estimation using the expectation maximization algorithm, MLE-EM)是應(yīng)用最廣泛的CDM模型參數(shù)估計(jì)方法之一(de la Torre, 2009, 2011; von Davier, 2008)。例如, 在R語言中的(George et al., 2016)、(Ma & de la Torre, 2020)軟件包以及,,、(Sen & Terz, 2020; Templin & Hoffman, 2013)等軟件中均可使用MLE-EM估計(jì)CDM的模型參數(shù)。理想條件下, 使用MLE-EM方法能夠獲得具有漸近性、一致性等優(yōu)良特性的點(diǎn)估計(jì)值。但是, 研究者指出使用MLE-EM算法估計(jì)CDM模型參數(shù)時, 可能會遇到的問題有:模型參數(shù)不收斂、項(xiàng)目參數(shù)極端值、(較差的)局部最優(yōu)解以及邊界值等(DeCarlo, 2011, 2019; Ma & Guo, 2019; Ma & Jiang, 2021; Philipp et al., 2018; Templin & Bradshaw, 2014; Zeng et al., 2023)。MLE-EM估計(jì)的一般過程是, 給定模型參數(shù)初始值, 迭代進(jìn)行E步(期望步)和M步(最大化步), 滿足特定的收斂準(zhǔn)則(convergence criterion或termination criterion)后停止迭代, 輸出模型參數(shù)的點(diǎn)估計(jì)值。因此, 可以從參數(shù)估計(jì)框架(包括模型參數(shù)初始值設(shè)置、EM過程等)及收斂準(zhǔn)則等方面著手解決模型參數(shù)點(diǎn)估計(jì)可靠性問題。
本文將在第2部分闡述CDM模型參數(shù)估計(jì)中模型參數(shù)估計(jì)框架及收斂準(zhǔn)則存在的問題, 以及這兩個問題對于參數(shù)估計(jì)可靠性的影響; 在第3部分詳細(xì)說明新提出的模型參數(shù)估計(jì)框架及收斂準(zhǔn)則, 并在第4部分通過模擬研究比較新方法與已有方法在模型參數(shù)估計(jì)可靠性方面的表現(xiàn); 第5部分是實(shí)證數(shù)據(jù)分析, 目的是檢驗(yàn)新提出的模型參數(shù)估計(jì)框架及收斂準(zhǔn)則在估計(jì)CDM模型參數(shù)時的表現(xiàn), 并與軟件包的表現(xiàn)進(jìn)行比較; 最后是討論與展望。
在這一部分, 將首先介紹飽和CDM及屬性層級CDM(hierarchical cognitive diagnostic model, HCDM); 然后以此為基礎(chǔ)闡述模型參數(shù)估計(jì)中存在的不收斂、項(xiàng)目參數(shù)極端值、(較差的)局部最優(yōu)解以及邊界值等問題。
根據(jù)屬性層級關(guān)系, HCDM中所有允許存在的屬性掌握模式是,
比較表達(dá)式(3)和(5), 及表達(dá)式(4)和(6), 可以發(fā)現(xiàn)將飽和CDM中的一些結(jié)構(gòu)參數(shù)以及項(xiàng)目參數(shù)約束為0, 可獲得HCDM。也就是, 如果“真”模型為HCDM, 但使用飽和CDM估計(jì)模型參數(shù)時, 部分模型參數(shù)的真值等于0。一些結(jié)構(gòu)模型參數(shù)真值等于0, 意味著這些參數(shù)在參數(shù)空間的下界, 如果不解決這種這類邊界值問題可能會造成MLE-EM參數(shù)估計(jì)存在多種問題。
使用CDM擬合作答反應(yīng)數(shù)據(jù)時, 如果模型參數(shù)過多、樣本量較小, 或者是模型參數(shù)中存在邊界值尤其是結(jié)構(gòu)參數(shù)中存在邊界值等問題時, 可能導(dǎo)致模型參數(shù)不收斂、項(xiàng)目參數(shù)存在極端值或者是存在多個局部最優(yōu)解等問題(Ma & Jiang, 2021; Templin & Bradshaw, 2014)。
CDM的項(xiàng)目正確作答概率及結(jié)構(gòu)參數(shù)均介于[0,1]之間。在估計(jì)模型參數(shù)時可能會遇到項(xiàng)目參數(shù)或結(jié)構(gòu)參數(shù)在參數(shù)空間的上界或下界的問題, 這可能會造成模型參數(shù)無法估計(jì), 或者是造成模型參數(shù)的標(biāo)準(zhǔn)誤過大甚至是無法求解。Ma和Jiang (2021)提出貝葉斯眾數(shù)估計(jì)及單調(diào)約束, 估計(jì)G-DINA模型的項(xiàng)目參數(shù)。但是, 他們的研究指出貝葉斯眾數(shù)估計(jì)或貝葉斯眾數(shù)與單調(diào)約束結(jié)合的算法估計(jì)獲得的項(xiàng)目參數(shù)可能是有偏的; 另外, 他們也指出在實(shí)踐應(yīng)用中先驗(yàn)分布的選擇需要非常謹(jǐn)慎, 因?yàn)椴磺‘?dāng)?shù)南闰?yàn)信息可能會導(dǎo)致誤導(dǎo)性的、甚至是錯誤的結(jié)果。為將模型參數(shù)估計(jì)值約束在適當(dāng)?shù)倪吔缰? Yamaguchi (2023)進(jìn)一步提出將結(jié)構(gòu)參數(shù)也要加以約束。然而, 當(dāng)屬性之間存在層級關(guān)系, 但是使用飽和結(jié)構(gòu)模型估計(jì)參數(shù)時, 有些結(jié)構(gòu)參數(shù)的真值等于0, 以不恰當(dāng)?shù)南闰?yàn)約束使其遠(yuǎn)離0的做法是不對的。
以飽和G-DINA模型的參數(shù)估計(jì)為例, 在M步中, 經(jīng)過公式推導(dǎo)(參考, de la Torre, 2009, 2011)可以求得更新后的第種屬性掌握模式下項(xiàng)目正確作答概率的表達(dá)式,
圖1 單個參數(shù)的局部最優(yōu)解或全局最優(yōu)解的簡單示例
當(dāng)前, 可以用于判斷CDM模型參數(shù)估計(jì)是否收斂的方法至少有6種(George et al., 2016; Ma & de la Torre, 2020; Ma et al., 2022; Robitzsch et al., 2022; Rupp & van Rijn, 2018)。
第四種是項(xiàng)目正確作答概率和結(jié)構(gòu)參數(shù)組成的向量的差的絕對值。這種方法以第三種方法為基礎(chǔ), 將結(jié)構(gòu)參數(shù)也納入考慮, 因此不再贅述。可以發(fā)現(xiàn), 以上4種收斂判斷方法是基于全部或部分模型參數(shù)的。CDM中項(xiàng)目正確作答概率一般是由項(xiàng)目參數(shù)組合而成, 也就是說相對于項(xiàng)目參數(shù)而言, 項(xiàng)目正確作答概率差這種方法更容易滿足模型收斂準(zhǔn)則。
可以發(fā)現(xiàn), 研究者使用的收斂準(zhǔn)則有很大差別。因此, 相同計(jì)量模型條件下, 不同的收斂準(zhǔn)則是否會對模型參數(shù)點(diǎn)估計(jì)的可靠性產(chǎn)生影響; 如果產(chǎn)生影響, 在目前所有可用的模型參數(shù)估計(jì)收斂判斷方法中, 哪種效果是最好的; 或者是能否開發(fā)一種具有廣泛適用性的方法提高CDM模型參數(shù)點(diǎn)估計(jì)的可靠性是一個需要解決的重要問題。
如前所述CDM模型參數(shù)估計(jì)中的邊界值、局部最優(yōu)解、項(xiàng)目參數(shù)極端值、模型參數(shù)不收斂, 以及收斂準(zhǔn)則設(shè)置等可能會對模型參數(shù)點(diǎn)估計(jì)的可靠性產(chǎn)生影響, 進(jìn)而可能會影響到研究結(jié)果的可重復(fù)性。因此, 本文提出新的模型參數(shù)估計(jì)框架試圖解決2.2部分提及的模型參數(shù)估計(jì)中可能存在的問題; 提出新的收斂準(zhǔn)則試圖解決2.3部分提及的收斂準(zhǔn)則可能存在的問題。
其次, 闡述局部最優(yōu)解、項(xiàng)目參數(shù)極端值、模型參數(shù)不收斂等問題的綜合解決方法。
模型參數(shù)收斂判斷中, 設(shè)置最大迭代次數(shù)的唯一目的是避免模型參數(shù)估計(jì)程序陷入到無限(或近乎于無限)循環(huán)。然而, 在模型參數(shù)本應(yīng)收斂的情況下, 如果將最大收斂次數(shù)設(shè)置的過小, 可能會使得MLE-EM過早結(jié)束循環(huán), 造成不收斂的錯誤結(jié)果。解決不收斂問題的首要一步是設(shè)置足夠大的收斂次數(shù), 因此本研究中將最大收斂次數(shù)設(shè)置為50000。
CDM的模型參數(shù)僅存在全局最優(yōu)解的一個前提是公式(7)為凸函數(shù)。但是, 這個前提有時未必成立, 導(dǎo)致模型參數(shù)可靠性變差。因此, 參考Ma和Guo (2019)的相關(guān)研究, 本文提出使用多個初始值計(jì)算CDM模型參數(shù)。即, 遇到不收斂或項(xiàng)目參數(shù)存在極端值時重新生成初始值并計(jì)算, 如果新初始值條件下的模型參數(shù)收斂、對數(shù)似然函數(shù)值大于先前的值、且項(xiàng)目參數(shù)不存在極端值時, 使用新的估計(jì)值作為最終的模型參數(shù)估計(jì)值。在接下來的部分將這個新的模型參數(shù)估計(jì)框架稱為, 并以此為基礎(chǔ)探討各種收斂準(zhǔn)則的表現(xiàn)。由于在特定條件下, 需要對于同一觀察數(shù)據(jù)矩陣, 在多個不同初始值下進(jìn)行模型參數(shù)估計(jì), 運(yùn)算量可能會比較大。因此參考以往研究(劉彥樓, 2022),程序計(jì)算量大的部分采用C++語言及并行計(jì)算進(jìn)行。特別說明的是,程序已上傳到科學(xué)數(shù)據(jù)銀行, 感興趣的讀者可以自行下載使用。
最后, 闡述本文中新提出的收斂判斷方法。
圖2 對數(shù)似然函數(shù)差收斂判斷方法可能缺陷的簡單示例
本研究重點(diǎn)關(guān)注的問題是:新提出的模型參數(shù)估計(jì)框架及收斂準(zhǔn)則能否有效提高模型參數(shù)點(diǎn)估計(jì)值的可靠性。即, 新提出的框架下的綜合判斷方法是否優(yōu)于現(xiàn)有框架下的方法, 能否在盡量保證參數(shù)在合理范圍內(nèi)的前提下, 獲得使得似然函數(shù)最大的參數(shù)估計(jì)值。具體包括:(1)數(shù)據(jù)生成模型與擬合模型均為飽和G-DINA時, 即模型完全正確設(shè)定條件下各種收斂準(zhǔn)則的表現(xiàn); (2)數(shù)據(jù)生成模型為HCDM但使用飽和G-DINA擬合時, 即模型中存在邊界值時各收斂準(zhǔn)則的表現(xiàn)。
圖3 模擬研究中J = 16的Q矩陣
4.4.1 飽和CDM生成數(shù)據(jù)時各收斂準(zhǔn)則的表現(xiàn)
表1 飽和CDM生成數(shù)據(jù), J = 16, N = 500條件下的模擬結(jié)果
表2 飽和CDM生成數(shù)據(jù), J = 16, N = 1000及4000條件下的模擬結(jié)果
表3 飽和CDM生成數(shù)據(jù), J = 32條件下的模擬結(jié)果
4.4.2 HCDM生成數(shù)據(jù)時各收斂準(zhǔn)則的表現(xiàn)
表4到表6呈現(xiàn)的是通過HCDM (前3個屬性是線性層級關(guān)系)生成作答反應(yīng)數(shù)據(jù)但使用飽和CDM估計(jì)模型參數(shù)條件下的模擬結(jié)果。
表4 HCDM生成數(shù)據(jù), J = 16, N = 500條件下的模擬結(jié)果
表5 HCDM生成數(shù)據(jù), J = 16, N = 1000及4000條件下的模擬結(jié)果
表6 HCDM生成數(shù)據(jù), J = 32條件下的模擬結(jié)果
圖4 Yuan等人(2022)定義的小學(xué)數(shù)學(xué)分?jǐn)?shù)運(yùn)算認(rèn)知屬性層級關(guān)系
根據(jù)模型參數(shù)估計(jì)的極大似然理論, 收斂判斷準(zhǔn)則對應(yīng)的LL越大, 說明這個準(zhǔn)則的表現(xiàn)越好, 模型參數(shù)點(diǎn)估計(jì)值的可靠性越高。
本文通過理論分析及模擬研究證實(shí), 心理計(jì)量模型的點(diǎn)估計(jì)值在一些情景中會存在可靠性問題, 且新開發(fā)的模型參數(shù)估計(jì)框架及收斂準(zhǔn)則能夠提高模型參數(shù)估計(jì)值的可靠性。
首先, 通過預(yù)研究作者認(rèn)為最大迭代次數(shù)設(shè)置過少可能會導(dǎo)致模型參數(shù)不收斂的問題(如, 3000或以下, 見及軟件包), 因此本研究將最大迭代次數(shù)設(shè)置為50000。模擬研究發(fā)現(xiàn), 本文所有實(shí)驗(yàn)條件組合下和這兩種模型參數(shù)估計(jì)框架均收斂。模擬研究顯示在一些特定條件下(見表1),和的最大迭代次數(shù)均超過了30000次, 這也就意味著如果將最大收斂次數(shù)設(shè)置為3000那么就會出現(xiàn)模型參數(shù)不收斂的問題。因此, 本文認(rèn)為增大模型參數(shù)估計(jì)程序的最大迭代次數(shù)有助于解決模型參數(shù)不收斂問題。
其次, 針對CDM中可能存在的邊界值以及項(xiàng)目參數(shù)存在極端值問題, 本文開發(fā)了新的CDM模型參數(shù)估計(jì)框架。通過對比和這兩種模型參數(shù)估計(jì)框架在模擬研究及實(shí)證數(shù)據(jù)分析中的表現(xiàn), 發(fā)現(xiàn)框架的表現(xiàn)優(yōu)于或至少與框架的表現(xiàn)相當(dāng); 且框架有效減少了項(xiàng)目參數(shù)極端值數(shù)量。因此, 本文認(rèn)為在估計(jì)CDM模型參數(shù)時,可能是一個更好的選擇。導(dǎo)致CDM中存在邊界值的一個原因是屬性間存在層級關(guān)系, 使得飽和CDM中的一些參數(shù)近似等于0。研究者以飽和CDM為基礎(chǔ)開發(fā)了一些屬性層級關(guān)系探索或驗(yàn)證的方法(Gu & Xu 2019; Liu et al., 2022; Templin & Bradshaw, 2014)。我們建議研究者進(jìn)一步在框架下使用已有方法或者是開發(fā)新方法對屬性層級關(guān)系進(jìn)行研究。當(dāng)有較為充分的證據(jù)證明層級關(guān)系存在時, 在框架下使用HCDM分析數(shù)據(jù), 可能會提高模型參數(shù)點(diǎn)估計(jì)值的可靠性。
本文以同一連接下的飽和G-DINA模型為例, 探討了和框架下目前已有的及本研究新開發(fā)的各收斂準(zhǔn)則在CDM模型參數(shù)估計(jì)中的表現(xiàn)。盡管本研究初步解決了在CDM模型參數(shù)估計(jì)時如何選擇恰當(dāng)收斂準(zhǔn)則的問題, 但是作者認(rèn)為有以下幾個問題需要進(jìn)一步探索。
第二是關(guān)于框架及其應(yīng)用的問題。本研究開發(fā)框架的主要目的在于提供一個更加合理的CDM模型參數(shù)估計(jì)框架, 盡量減少模型參數(shù)不收斂、邊界值問題及項(xiàng)目參數(shù)極端值對CDM模型參數(shù)收斂準(zhǔn)則表現(xiàn)的影響。特別說明的是模擬實(shí)驗(yàn)中將最大迭代次數(shù)設(shè)置為50000時, 兩種參數(shù)估計(jì)框架下的所有循環(huán)中的參數(shù)估計(jì)都收斂了, 因此在本研究中框架僅在邊界值問題及項(xiàng)目參數(shù)存在極端值時起作用。模型中存在邊界值時, 盡管框架下的項(xiàng)目極端值數(shù)量少于同條件下框架所對應(yīng)的數(shù)量, 但即使是在= 4000條件下,框架下出現(xiàn)極端值的頻率仍然較高。因此, 本研究認(rèn)為有必要以框架為基礎(chǔ), 繼續(xù)對模型參數(shù)不收斂、邊界值問題及項(xiàng)目參數(shù)極端值等問題展開探索。
第三, 不同連接函數(shù)下各種收斂準(zhǔn)則的表現(xiàn)有待進(jìn)一步探索。本文以同一連接下的飽和G-DINA模型為例, 探討了不同收斂準(zhǔn)則的表現(xiàn)。但CDM中還有兩種得到廣泛應(yīng)用的連接:logit連接以及l(fā)og連接(de la Torre, 2009, 2011; Templin & Bradshaw, 2014)。這3種連接函數(shù)的主要區(qū)別之一是, 項(xiàng)目參數(shù)與項(xiàng)目正確作答概率之間關(guān)系的表達(dá)不同。鑒于dp的表現(xiàn)在大多數(shù)情況下略優(yōu)于ip, 本研究認(rèn)為后續(xù)研究可以對不同連接函數(shù)下各個收斂準(zhǔn)則的表現(xiàn)展開進(jìn)一步探索。
American Psychological Association. (2020).(7th ed.). Washington.
Baker, M. (2016). 1,500 scientists lift the lid on reproducibility.(7604), 452?454.
Begley, C. G., & Ellis, L. M. (2012). Drug development: Raise standards for preclinical cancer research.(7391), 531?533.
Chiu, C. Y., K?hn, H. F., & Ma, W. (2023). Commentary on “Extending the Basic Local Independence Model to Polytomous Data” by Stefanutti, de Chiusole, Anselmi, and Spoto.(2), 656?671.
DeCarlo, T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes, and the Q-Matrix.(1), 8?26.
DeCarlo, T. (2019). Insights from reparameterized DINA and beyond. In M. von Davier & Y.-S. Lee (Eds.).(pp. 549?572). Springer.
de la Torre, J. (2009). DINA model and parameter estimation: A didactic.(1), 115?130.
de la Torre, J. (2011). The generalized DINA model framework.(2), 179?199.
Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.(1), 1?22.
Farrell, S., & Lewandowsky, S. (2018).. Cambridge University Press.
George, A. C., Robitzsch, A., Kiefer, T., Gro?, J., & ünlü, A. (2016). The R package CDM for cognitive diagnosis models.(2), 1?24.
Gu, Y., & Xu, G. (2019). Learning attribute patterns in high-dimensional structured latent attribute models.(115), 1?58.
Gu, Y., & Xu, G. (2020). Partial identifiability of restricted latent class models.(4), 2082? 2107.
Hu, C., Wang, F., Guo, J., Song, M., Sui, J., & Peng. K. (2014). The replication crisis in psychological research.,(9), 1504?1518.
[胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016). 心理學(xué)研究中的可重復(fù)性問題: 從危機(jī)到契機(jī).(9), 1504?1518.]
Ioannidis, J. P. A. (2005). Why most published research findings are false.(8), e124.
Ioannidis, J. P. A. (2008). Why most discovered true associations are inflated.(5), 640?648.
Khorramdel, L., Shin, H. J., & von Davier, M. (2019). GDM softwareIncluding parallel EM algorithm. In M. von Davier & Y.-S. Lee (Eds.),(pp. 603?628). Springer.
Liu, R. (2018). Misspecification of attribute structure in diagnostic measurement.,(4), 605?634.
Liu, Y. (2022). Standard errors and confidence intervals for cognitive diagnostic models: Parallel bootstrap methods.(6), 703?724.
[劉彥樓. (2022). 認(rèn)知診斷模型的標(biāo)準(zhǔn)誤與置信區(qū)間估計(jì):并行自助法.(6), 703?724.]
Liu, Y., Tian, W., & Xin, T. (2016). An application ofMstatistic to evaluate the fit of cognitive diagnostic models.(1), 3?26.
Liu, Y., Xin, T., & Jiang, Y. (2022). Structural parameter standard error estimation method in diagnostic classificationmodels: Estimation and application.,(5), 784?803.
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.(3), 253?275.
Ma, W., & de la Torre, J. (2020). GDINA: An R package for cognitive diagnosis modeling.(14), 1?26.
Ma, W., de la Torre, J., Sorrel, M., & Jiang, Z. (2022).. R package version 2.9.3. https://CRAN.R-project.org/package=GDINA
Ma, W., & Guo, W. (2019). Cognitive diagnosis models for multiple strategies.(2), 370?392.
Ma, W., & Jiang, Z. (2021). Estimating cognitive diagnosis models in small samples: Bayes modal estimation and monotonic constraints.,(2), 95?111.
Paek, I., & Cai, L. (2013). A comparison of item parameter standard error estimation procedures for unidimensional and multidimensional item response theory modeling.(1), 58?76.
Paulsen, J., & Valdivia, D. S. (2022). Examining cognitive diagnostic modeling in classroom assessment conditions.,(4), 916?933.
Philipp, M., Strobl, C., de la Torre, J., & Zeileis, A. (2018). On the estimation of standard errors in cognitive diagnosis models.(1), 88?115.
Robitzsch, A., Kiefer, T., George, A. C., & Uenlue, A. (2022).. R package version 8.2-6. http://CRAN.R-project.org/package=CDM
Rupp, A. A., Templin, J., & Henson, R. A. (2010).. Guilford Press.
Rupp, A. A., & van Rijn, P. W. (2018). GDINA and CDM packages in R.,(1), 71?77.
Sen, S., & Terzi, R. (2020). A comparison of software packages available for dina model estimation.,(2), 150?164.
Sorrel, M. A., Olea, J., Abad, F. J., de la Torre, J., Aguado, D., & Lievens, F. (2016). Validity and reliability of situational judgment test scores: A new approach based on cognitive diagnosis models.(3), 506?532.
Tajika, A., Ogawa, Y., Takeshima, N., Hayasaka, Y., & Furukawa, T. A. (2015). Replication and contradiction of highly cited research papers in psychiatry: 10-year follow-up.(4), 357?362.
Templin, J., & Bradshaw, L. (2014). Hierarchical diagnostic classification models: A family of models for estimating and testing attribute hierarchies.(2), 317?339.
Templin, J., & Hoffman, L. (2013). Obtaining diagnostic classification model estimates using.(2), 37?50.
Tian, W., Xin, T., & Kang, C. (2014). The data-augmentation techniques in item response modeling: Current approaches and new developments.,(6), 1036?1046.
[田偉, 辛濤, 康春花. (2014). 項(xiàng)目反應(yīng)理論中潛在心理特質(zhì)“填補(bǔ)”的參數(shù)估計(jì)方法及其演變.,(6), 1036?1046.]
von Davier, M. (2008). A general diagnostic model applied to language testing data.,(2), 287?307.
Wu, Z., Deloria-Knoll, M., & Zeger, S. L. (2017). Nested partially latent class models for dependent binary data; estimating disease etiology.(2), 200?213.
Xu, X., & von Davier, M. (2008). Fitting the structured general diagnostic model to NAEP data.,(1), i?18.
Yamaguchi, K. (2023). On the boundary problems in diagnostic classification models.(1), 399?429.
Yuan, L., Liu, Y., Chen, P., & Xin, T. (2022). Development of a new learning progression verification method based on the hierarchical diagnostic classification model: Taking grade 5 students’ fractional operations as an example.(3), 69?82.
Zeng, Z., Gu, Y., & Xu, G. (2023). A Tensor-EM method for large-scale latent class analysis with binary responses.(2), 580?612.
On the reliability of point estimation of model parameters:Taking cognitive diagnostic models as an example
LIU Yanlou1,2, CHEN Qishan3,4, WANG Yiming2, JIANG Xiaotong2
(1Academy of Big Data for Education;2School of Psychology, Qufu Normal University, Jining 273165, China) (3Philosophy and Social Science Laboratory of Reading and Development in Children and Adolescents (South China Normal University), Ministry of Education;4School of Psychology, South China Normal University, Guangzhou 510631, China)
Cognitive diagnostic models (CDMs) are psychometric models that have received increasing attention within fields such as psychology, education, sociology, and biology. It has been argued that an inappropriate convergence criterion for a maximum likelihood estimation using the expectation maximization (MLE-EM) algorithm could result in unpredictable and inaccurate model parameter estimates. Thus, inappropriate convergence criteria may yield unstable and misleading conclusions from the fitted CDMs. Although several convergence criteria have been developed, it remains an unexplored question, how to specify the appropriate convergence criterion for fitted CDMs.
A comprehensive method for assessing convergence is proposed in this study. To minimize the influence of the model parameter estimation framework, a new framework adopting the multiple starting values strategy () is introduced. To examine the performance of the convergence criterion for MLE-EM in CDMs, a simulation study under various conditions was conducted. Five convergence assessment methods were examined: the maximum absolute change in model parameters, the maximum absolute change in item endorsement probabilities and structural parameters, the absolute change in log-likelihood, the relative log-likelihood, and the comprehensive method. The data generating models were the saturated CDM and the hierarchical CDM. The number of items was set to= 16 and 32. Three levels of sample sizes were considered: 500, 1000, and 4000. The three convergence tolerance value conditions were 10–4, 10–6, and 10–8. The simulated response data were fitted by the saturated CDM using theand the R package. The maximum number of iterations was set to 50000.
The simulation results suggest the following.
(1) The saturated CDM converged under all conditions. However, the actual number of iterations exceeded 30000 under some conditions, implying that when the predefined maximum iteration number is less than 30000, the MLE-EM algorithm might inadvertently stop.
(2) The model parameter estimation framework affected the performance of the convergence criteria. The performance of the convergence criteria under theframework was comparable or superior to that of theframework.
(3) Regarding the convergence tolerance values considered in this study, 10–8consistently had the best performance in providing the maximum value of the log-likelihood and 10–4had the worst performance. Compared to all other convergence assessment methods, the comprehensive method in general had the best performance, especially under theframework. The performance of the maximum absolute change in model parameters was similar to the comprehensive method, but this good performance was not consistent. On the contrary, the relative log-likelihood had the worst performance under theandframeworks.
The simulation results showed that the most appropriate convergence criterion for MLE-EM in CDMs was the comprehensive method with tolerance 10–8under theframework. The results from the real data analysis also demonstrated that the proposed comprehensive method andframework had good performance.
model parameter estimation, point estimation, convergence criterion, cognitive diagnostic model
B841
https://doi.org/10.3724/SP.J.1041.2023.01712
2023-03-02
*國家自然科學(xué)基金青年項(xiàng)目(31900794)、山東省教育科學(xué)規(guī)劃課題(2020KZD009)、廣東省哲學(xué)社會科學(xué)規(guī)劃項(xiàng)目(GD22CXL01)、廣東省教育科學(xué)規(guī)劃課題(2022GXJK176)和大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(202110446231X)資助。
劉彥樓, E-mail: liuyanlou@163.com