詹沛達(dá)
引入眼動注視點的聯(lián)合?交叉負(fù)載多模態(tài)認(rèn)知診斷建模*
詹沛達(dá)
(浙江師范大學(xué)教師教育學(xué)院心理學(xué)系; 浙江省智能教育技術(shù)與應(yīng)用重點實驗室, 金華 321004)
多模態(tài)數(shù)據(jù)為實現(xiàn)對認(rèn)知結(jié)構(gòu)的精準(zhǔn)診斷及其他認(rèn)知特征(如, 認(rèn)知風(fēng)格)的全面反饋提供了可能性。為實現(xiàn)對題目作答精度、作答時間(RT)和視覺注視點數(shù)(FC)的聯(lián)合分析, 本文基于聯(lián)合?交叉負(fù)載建模法提出3個多模態(tài)認(rèn)知診斷模型。實證研究及模擬研究結(jié)果表明: (1)聯(lián)合分析比分離分析更適用于多模態(tài)數(shù)據(jù); (2)新模型可直接利用RT和FC中信息提高潛在能力或潛在屬性的估計準(zhǔn)確性; (3)新模型的參數(shù)估計返真性較好; (4)忽略交叉負(fù)載所導(dǎo)致的負(fù)面結(jié)果比冗余考慮交叉負(fù)載所導(dǎo)致的更嚴(yán)重。
認(rèn)知診斷, 多模態(tài)數(shù)據(jù), 題目作答時間, 注視點, 認(rèn)知風(fēng)格, 眼動
個體的外顯行為(如, 學(xué)習(xí)行為或問題解決行為)是由相互關(guān)聯(lián)的多種認(rèn)知過程及心理建構(gòu)所共同決定的。因此, 在特定問題(任務(wù))情境下, 對問題解決行為的合理分析不僅可以挖掘個體的認(rèn)知結(jié)構(gòu), 還能反映個體的認(rèn)知風(fēng)格或認(rèn)知流暢性等其他認(rèn)知特征。認(rèn)知風(fēng)格是個體組織和處理信息的特征及相對穩(wěn)定的方式, 反映了個體在感知、記憶、思維、判斷和解決問題等方面的偏好或典型模式(Riding, 1997), 有助于調(diào)節(jié)認(rèn)知加工過程的持續(xù)時間、強(qiáng)度、范圍和速度(Gardner et al., 1959; Messick, 1989)。比如, 根據(jù)個體加工信息或解決問題的速度和精度, 可將個體分為沉思型或沖動型(Kagan, 1965);通常, 沉思型個體反應(yīng)速度較慢但精度較高, 而沖動型個體反應(yīng)速度較快但容易發(fā)生錯誤。再比如, 根據(jù)個體注意力的廣度和專注度, 可將個體分為掃描者和聚焦者(Gardner et al., 1959)。在解決問題時, 掃描者的注意力廣度寬但專注度低, 而聚焦者的注意力廣度窄但專注度高。有研究表明在解決問題時掃描者的精度高于聚焦者的(Gardner et al., 1959; Holzman, 1966); 另有研究指出聚焦者對目標(biāo)的注意力持續(xù)時間久于掃描者(Rimawi et al., 2020)。也有研究認(rèn)為掃描和聚焦是兩種可分離的風(fēng)格(Messick, 1989), 根據(jù)掃描范圍(即注意力廣度)可將個體分為窄掃描者和寬掃描者, 根據(jù)聚焦程度(即專注度)可將個體分為聚焦者和非聚焦者; 而且, 兩種風(fēng)格還能相互組合。與具有相對穩(wěn)定性的認(rèn)知風(fēng)格不同, 認(rèn)知流暢性通常是指個體對信息處理或解決問題的難易程度的主觀體驗(Unkelbach, 2006), 流暢性可能會隨所處理的信息、所解決的問題或所屬的領(lǐng)域的不同而不同(Biancarosa & Shanley, 2015)。通常, 在有關(guān)流暢性測量的研究中, 流暢性被視為一種速度和精度的綜合反映。已有研究表明達(dá)到流暢性水平的個體可以又快又好地解決問題(Wang & Chen, 2020)。總之, 為實現(xiàn)對個體學(xué)習(xí)現(xiàn)狀的全面反饋, 對個體問題解決行為的分析應(yīng)嘗試從多視角切入, 不僅提供可反映認(rèn)知結(jié)構(gòu)的, 還要提供可反映認(rèn)知風(fēng)格或認(rèn)知流暢性等其他認(rèn)知特征的反饋信息。
近些年, 以促進(jìn)個體學(xué)習(xí)為目的, 客觀量化個體學(xué)習(xí)現(xiàn)狀并提供診斷反饋的測評模式日益受到關(guān)注。其中, 認(rèn)知診斷作為一種有代表性的診斷測評方式, 主要功能是診斷個體的學(xué)習(xí)現(xiàn)狀(如, 知識掌握程度)并提供相應(yīng)的反饋, 為促進(jìn)個體學(xué)習(xí)提供了方法學(xué)支持(Ren et al., 2021; Tang & Zhan, 2021; 王立君等, 2020)。作為認(rèn)知診斷的核心技術(shù)環(huán)節(jié)之一, 認(rèn)知診斷模型(cognitive diagnosis model, CDM)或診斷分類模型的合理性影響著診斷結(jié)果的準(zhǔn)確性、有效性和可解釋性。CDM作為一種有約束的潛在類別模型, 描述了潛在屬性和外顯題目作答行為之間概率關(guān)系。通常, 潛在屬性為類別變量(如, “0”表示“未掌握”, “1”表示“掌握”), 是根據(jù)個體完成復(fù)雜學(xué)習(xí)任務(wù)或解決復(fù)雜問題時所需具備的潛在技能或知識來確定的。目前, 針對不同的測驗情境和理論假設(shè), 已有許多CDM被提出(Rupp et al., 2010; von Davier & Lee, 2019), 比如常見的DINA模型(Junker & Sijtsma, 2001)及其一般化模型(de la Torre, 2011)。然而, 絕大多數(shù)CDM是基于題目作答精度(response accuracy, RA)這種單一且傳統(tǒng)的數(shù)據(jù)源開發(fā)的(詹沛達(dá), 2018), 導(dǎo)致它們所提供的診斷反饋范圍有限: 僅關(guān)注對問題解決所需的認(rèn)知技能或?qū)W科知識的診斷, 僅能提供可反映認(rèn)知結(jié)構(gòu)的反饋信息; 忽略問題解決時的信息加工速度和專注力(或視覺參與度)等其他相關(guān)建構(gòu), 難以提供可反映認(rèn)知風(fēng)格或認(rèn)知流暢性等其他認(rèn)知特征的反饋信息。換句話說, 目前絕大多數(shù)CDM提供的反饋信息有限, 不能全面反映個體間學(xué)習(xí)現(xiàn)狀之間的差異, 進(jìn)而可能限制有針對性干預(yù)的效果。導(dǎo)致這種局限性的可能原因之一是在傳統(tǒng)的(基于紙筆測驗的)認(rèn)知診斷測評中很難采集到諸如題目作答時間(response time, RT)等數(shù)據(jù)。
近些年, 隨著計算機(jī)(網(wǎng)絡(luò))化測驗的普及, 對過程數(shù)據(jù)的采集已趨于常態(tài)化。過程數(shù)據(jù)是指由計算機(jī)記錄的反映個體問題解決過程的含有時間戳的行為序列數(shù)據(jù)(Zhan & Qiao, 2022; Zoanetti, 2010;李美娟等, 2020; 劉耀輝等, 2022)。對過程數(shù)據(jù)的分析不僅可以挖掘個體的問題解決策略(Qiao & Jiao, 2018), 還可以探究個體的問題解決能力(Liu et al., 2018; Zhan & Qiao, 2022)。目前, RT數(shù)據(jù)作為一種有代表性的過程數(shù)據(jù), 因為其具有標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)[1]標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)是指數(shù)據(jù)具有N × I的矩陣結(jié)構(gòu), 其中N表示被試總數(shù), I表示題目總數(shù)。, 符合心理計量模型的建模與分析要求, 得到了研究者們的高度關(guān)注。已有研究表明, RT數(shù)據(jù)作為傳統(tǒng)RA數(shù)據(jù)的補(bǔ)充, 不僅能夠提供個體在問題解決過程中的加工速度信息, 還可以提高對潛在能力的估計精度(Bolsiova & Tijmstra, 2018; 詹沛達(dá), 2019)和潛在屬性的分類準(zhǔn)確性(Zhan, Jiao, & Liao, 2018)。實際上, 計算機(jī)化測驗的自動化特性使得它能夠在個體解決問題過程中實時記錄不限于過程數(shù)據(jù)的多種類型數(shù)據(jù), 即多模態(tài)數(shù)據(jù)。多模態(tài)數(shù)據(jù)是指對于同一個描述對象, 通過多種儀器、測量設(shè)備或采集儀器獲得到的互補(bǔ)的多樣性數(shù)據(jù)(Lahat et al., 2015)。比如, 除結(jié)果數(shù)據(jù)(如, RA數(shù)據(jù))和過程數(shù)據(jù)(如, RT數(shù)據(jù))外, 通過嵌入式傳感器或?qū)嶒炘O(shè)備(如, 眼動儀), 計算機(jī)化測驗還可以同步記錄諸如眼動、身體運(yùn)動及神經(jīng)活動等生物計量數(shù)據(jù)。生物計量數(shù)據(jù)可用于提供有關(guān)個體與任務(wù)情境互動效果的反饋, 比如, 解決問題時個體的視覺參與度(Man & Harring, 2019; Zhan et al., 2022)或大腦激活水平(Jeon et al., 2021)。在技術(shù)增強(qiáng)測評環(huán)境中, 隨著多模態(tài)數(shù)據(jù)采集技術(shù)的不斷發(fā)展, 針對多模態(tài)數(shù)據(jù)的聯(lián)合分析技術(shù)也應(yīng)得到相應(yīng)的關(guān)注和發(fā)展。
但是, 多模態(tài)數(shù)據(jù)的分析也給心理計量模型帶來了挑戰(zhàn): 僅憑借單一的測量模型無法滿足分析多模態(tài)數(shù)據(jù)的需求。因此, 在智能時代背景下, 基于技術(shù)增強(qiáng)測評環(huán)境, 建立心理與教育測量新范式, 探究多模態(tài)數(shù)據(jù)分析方法具有重要的理論意義和實踐價值。對此, 遵循聯(lián)合?層級建模法(van der Linden, 2007), Zhan等(2022)基于聯(lián)合?層級認(rèn)知診斷建??蚣?Zhan, Jiao, & Liao, 2018)提出了聯(lián)合?層級多模態(tài)認(rèn)知診斷模型(joint-hierarchical multimodal CDM, H-MCDM); 首次在認(rèn)知診斷領(lǐng)域?qū)崿F(xiàn)對結(jié)果數(shù)據(jù)、過程數(shù)據(jù)和生物計量數(shù)據(jù)進(jìn)行聯(lián)合分析。其研究結(jié)果表明聯(lián)合分析多模態(tài)數(shù)據(jù)不僅能為個體提供更全面的反饋還能提高診斷精度。然而, Ranger (2013)指出聯(lián)合?層級建模的一個主要理論局限是僅當(dāng)潛在變量之間的相關(guān)不等于0時, 各模態(tài)數(shù)據(jù)之間的信息才能相互被利用; 進(jìn)而才有可能實現(xiàn)利用輔助數(shù)據(jù)所提供的信息提高對核心特質(zhì)(如, 潛在能力)的估計精度(Bolsinova & Tijmstra, 2018)。對此, 有研究者提出聯(lián)合?交叉負(fù)載建模法(Bolsinova & Tijmstra, 2018; Molenaar et al., 2015)。聯(lián)合?交叉負(fù)載建模法可視為是對聯(lián)合?層級建模法的拓廣, 理論上可以通過交叉負(fù)載實現(xiàn)直接利用輔助數(shù)據(jù)(如, RT)為核心特質(zhì)(如, 潛在能力)提供信息。鑒于H-MCDM是遵循聯(lián)合?層級建模法構(gòu)建的, 理論上也必然存在上述局限性; 這在一定程度上可能會影響該模型的實踐應(yīng)用性。對此, 本文聚焦于認(rèn)知診斷領(lǐng)域, 針對結(jié)果數(shù)據(jù)、過程數(shù)據(jù)和生物計量數(shù)據(jù), 擬基于聯(lián)合?交叉負(fù)載建模法構(gòu)建多模態(tài)認(rèn)知診斷模型(joint-cross-loading MCDM, C-MCDM)。
首先, 簡單回顧兩種可聯(lián)合分析多模態(tài)數(shù)據(jù)的聯(lián)合建模法: 聯(lián)合?層級建模法和聯(lián)合?交叉負(fù)載建模法; 其次, 簡單介紹視覺注視點數(shù)(visual fixation count, FC), 一個重要的眼動指標(biāo); 然后, 以傳統(tǒng)的分離建模法為始, 分別介紹有關(guān)RA、RT和FC數(shù)據(jù)的測量模型, 繼而引出H-MCDM; 接著, 闡述本研究新提出的3個C-MCDM, 基于實證研究將新模型與已有模型進(jìn)行對比以展現(xiàn)新模型的現(xiàn)實可應(yīng)用性及相對優(yōu)勢, 并通過兩則模擬研究分別探究新模型的參數(shù)估計返真性和相對于H-MCDM的優(yōu)勢; 最后, 總結(jié)了研究結(jié)果并探討了未來的研究方向。
目前, 聯(lián)合?層級建模是使用最廣泛的聯(lián)合分析多模態(tài)數(shù)據(jù)的心理計量建模方法, 如圖1(a)所示。如上文所述, RT數(shù)據(jù)作為一種有代表性的過程數(shù)據(jù)近些年受到高度關(guān)注, 研究者們提出了多個可聯(lián)合分析RA和RT數(shù)據(jù)的聯(lián)合?層級模型(de Boeck & Jeon, 2019; 郭磊等, 2017; 詹沛達(dá), 2018)。在典型的聯(lián)合?層級建模中, 第一層中構(gòu)建RA數(shù)據(jù)和RT數(shù)據(jù)的測量模型: 潛在能力完全解釋RA數(shù)據(jù), 潛在加工速度完全解釋RT數(shù)據(jù); 而潛在能力和潛在加工速度之間的關(guān)系以二元正態(tài)分布的形式被建模在第二層結(jié)構(gòu)模型中。盡管幾乎所有的聯(lián)合?層級模型都局限于分析RA和RT這兩類數(shù)據(jù), 但由于該建模思路具有較強(qiáng)的可擴(kuò)展性, 基于該建??蚣芸梢詫崿F(xiàn)對更多類型數(shù)據(jù)的分析和對更多類型潛在建構(gòu)的測量。比如, Jeon等(2021)通過聯(lián)合分析RA數(shù)據(jù)和大腦激活這一生物計量數(shù)據(jù), 測量了個體的潛在能力和大腦激活水平。Man和Harring (2020)通過聯(lián)合分析RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù), 測量了個體的潛在能力、潛在加工速度和視覺參與度。Bezirhan等(2021)聯(lián)合分析了RA數(shù)據(jù)、RT數(shù)據(jù)和重訪題目次數(shù), 測量了個體的潛在能力、潛在加工速度和重訪題目傾向。基于聯(lián)合?層級建模, 在認(rèn)知診斷領(lǐng)域, Zhan, Jiao和Liao (2018)首次將RT數(shù)據(jù)引入認(rèn)知診斷建模中提出了聯(lián)合?層級認(rèn)知診斷建??蚣? 如圖1(b)所示; 該建模法同樣具有可擴(kuò)展性, 通過加入其他模態(tài)數(shù)據(jù)的測量模型, 實現(xiàn)多模態(tài)數(shù)據(jù)的聯(lián)合分析(如, Zhan et al., 2022)。
與僅關(guān)注的RA數(shù)據(jù)的傳統(tǒng)模型相比, Ranger (2013)指出聯(lián)合?層級建模的主要理論局限是僅當(dāng)潛在能力和潛在加工速度之間的相關(guān)系數(shù)不等于0時, 額外引入RT數(shù)據(jù)的聯(lián)合?層級模型才能夠提高對潛在能力參數(shù)的估計精度。Bolsinova和Tijmstra (2018)指出聯(lián)合?層級建模未充分利用RT數(shù)據(jù)所提供的信息, 即假設(shè)RT數(shù)據(jù)僅受潛在加工速度的影響, 不受潛在能力的影響。然而, 在實際測驗中, 可能存在潛在能力和潛在加工速度之間的相關(guān)系數(shù)較小(Bolsinova et al., 2017; Zhan, Liao, & Bian, 2018)以及不同能力的個體在解決問題時所花費(fèi)的時間可能不同(Schaeffer et al., 1993)的情況。對此, 聯(lián)合?交叉負(fù)載建模假設(shè)RT數(shù)據(jù)同時受個體的潛在能力和潛在加工速度的影響, 如圖1(c)所示; 理論上, 無論潛在能力與潛在加工速度之間的相關(guān)系數(shù)多大, RT數(shù)據(jù)都可以直接為潛在能力參數(shù)的估計提供信息, 增加潛在能力參數(shù)的估計精度。但目前, 尚未有研究將該建模方法引入認(rèn)知診斷領(lǐng)域, 這是本文要做的一項工作。
圖1 多模態(tài)聯(lián)合建模示意圖(以作答精度和作答時間數(shù)據(jù)為例)
注: θ為潛在能力; τ為潛在加工速度; α為潛在屬性;為題目作答精度;為題目作答時間;為題目數(shù)量;為屬性數(shù)量; IRT為項目反應(yīng)理論.
在計算機(jī)化測驗中, 通過嵌入式傳感器可以記錄個體解決問題時的生物計量數(shù)據(jù); 其中, 眼動儀是被關(guān)注較多的一種, 已被用于大規(guī)模測評項目之中(Bos et al., 2005, 也見Rupp et al., 2010)。眼動指標(biāo)可以提供有關(guān)個體在解決問題時的認(rèn)知過程的證據(jù)。常見的眼動指標(biāo)有注視點(提供眼睛看哪里信息)、眼跳(提供注視點位置發(fā)生變化的信息)、感興趣區(qū)(提供注視點聚集區(qū)域的信息)和回視次數(shù)(提供個體將注視點返回到特定目標(biāo)上的次數(shù)信息)等; 其中, 注視點是最常用的指標(biāo), 它可以反映個體對視覺目標(biāo)區(qū)域的專注度(An et al., 2017), 或視覺目標(biāo)區(qū)域?qū)€體的重要性和吸引力(Poole et al., 2004)。聚焦在計算機(jī)化測驗中, 作答題目時的注視點數(shù)(即FC數(shù)據(jù))可以反映個體解決問題時的視覺參與度(Man & Harring, 2019; Zhan et al., 2022)。
本文以分析RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)為例, 涉及3種可分析多模態(tài)數(shù)據(jù)的建模法: 分離建模法, 聯(lián)合?層級建模法和聯(lián)合?交叉負(fù)載建模法。
2.3.1 分離建模法
分離建模法延續(xù)傳統(tǒng)心理計量學(xué)模型的做法, 對不同模態(tài)的數(shù)據(jù)分別建模、獨(dú)立分析。為便于下文撰寫, 將采用分離建模法分析多模態(tài)認(rèn)知診斷數(shù)據(jù)的方法稱為分離多模態(tài)認(rèn)知診斷模型(separate MCDM, S-MCDM)。在S-MCDM中, 本文選用3個具有代表性的測量模型分別來分析RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)。
首先, 選用高階DINA (higher-order DINA, HO-DINA) (de la Torre & Douglas, 2004)模型作為RA數(shù)據(jù)的測量模型, 主要原因是為與基于聯(lián)合?層級建模法的H-MCDM做對比。HO-DINA模型可描述為:
其次, 選用對數(shù)正態(tài)RT(lognormal RT, LRT)模型(van der Linden, 2006)作為RT數(shù)據(jù)的測量模型, 該模型可描述為:
式中,T為被試作答題目的時間(常以秒為單位); τ為被試的潛在加工速度, 表示被試投入到整個測驗中的平均工作速度; ξ為題目的時間強(qiáng)度參數(shù), 表示完成題目所必需的時間; ω為題目的時間精度參數(shù)。LRT模型假設(shè)當(dāng)被試的潛在加工速度較高時則其RT較小。LRT模型也可簡單記為:
最后, 為實現(xiàn)對個體視覺參與度的測量, Man和Harring (2019)提出了可分析FC數(shù)據(jù)的負(fù)二項注視點(negative binomial fixation, NBF)模型。NBF模型假設(shè)FC服從負(fù)二項分布, 并將FC解釋為個體的視覺參與度與題目所需的必要注視點數(shù)量之間的權(quán)衡關(guān)系的產(chǎn)物。NBF模型描述了被試在作答題目時, 在貫序、獨(dú)立的V次觀察后成功提取了h次關(guān)鍵信息的概率分布, 即:
式中,V為被試解答題目時的FC; ε為被試的潛在視覺參與度, 可反映被試對問題情境中各種刺激的專注度;m為題目的視覺強(qiáng)度參數(shù), 表示完成題目所必需的注視點數(shù);h為題目上FC的離散程度參數(shù)。NBF模型也可簡單記為:
2.3.2 聯(lián)合?層級建模法
近年來, 人們越來越有興趣去結(jié)合多模態(tài)數(shù)據(jù)所提供的信息對感興趣的心理現(xiàn)象提供統(tǒng)一的解釋。實際上, 在計算機(jī)化測驗中, 對RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)的采集幾乎是同時進(jìn)行的, 且它們提供的是被試在作答相同題目時的平行信息(如, 被試正確作答某題目耗時20秒并投入30個注視點), 因此, 也有研究者將這類多模態(tài)數(shù)據(jù)稱之為平行數(shù)據(jù)(Jeon et al., 2021)。平行數(shù)據(jù)最大的優(yōu)勢在于它們包含有關(guān)同一個問題解決過程的平行信息, 如果這些信息可以被聯(lián)合分析并相互利用, 不僅可以直接分析不同潛在變量之間的關(guān)系, 還有可能提高各自測量模型的參數(shù)估計準(zhǔn)確性。
基于聯(lián)合?層級認(rèn)知診斷建模, Zhan等(2022)提出可同時分析RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)的H-MCDM。如圖2(a)所示, H-MCDM包含兩層級模型: 測量模型和結(jié)構(gòu)模型。在第一層測量模型中, 對3種模態(tài)數(shù)據(jù)分別建模, 這與S-MCDM類似, 不再贅述; 在第二層結(jié)構(gòu)模型中, 通過三元正態(tài)分布來描述潛在能力、潛在加工速度和潛在視覺參與度三者之間的關(guān)系:
式中, μperson= (μθ, μτ, με)’為3個潛在變量的均值向量; Σperson為3個潛在變量的方差協(xié)方差矩陣。
2.3.3 聯(lián)合?交叉負(fù)載建模法
如上文所述, 聯(lián)合?層級建模的主要局限之一是: 理論上, 僅當(dāng)潛在變量之間相關(guān)不為0時, 各模態(tài)數(shù)據(jù)之間的信息才能相互被利用。為了更直接地利用RT和FC這兩個附屬數(shù)據(jù)中的信息, 可使用聯(lián)合?交叉負(fù)載建模法, 將潛在屬性或潛在能力直接建模在RT測量模型和FC測量模型中?;谠撨壿? 本文提出3個C-MCDM, 如圖2(b)~2(d)所示,分別為基于潛在能力的C-MCDM (C-MCDM-θ)、基于連接縮合規(guī)則的C-MCDM (C-MCDM-D)和基于補(bǔ)償縮合規(guī)則的C-MCDM (C-MCDM-C)。3個模型遵循不同的邏輯假設(shè), 其中, C-MCDM-θ假設(shè)被試的潛在能力的變化會影響其完成該題目的耗時及所用注視點數(shù); 而C-MCDM-D和C-MCDM-C均假設(shè)被試的潛在屬性掌握情況會影響其完成該題目的耗時和注視點數(shù), 兩者差異在于前者認(rèn)為僅有被試掌握了題目所考查的所有屬性后才會影響RT和FC, 而后者認(rèn)為被試掌握該題目所考查的屬性的數(shù)量會影響RT和FC (即掌握的越多影響越大)。另外, 為保證與S-MCDM和H-MCDM具有可比性, 本文設(shè)定在C-MCDM-D和C-MCDM-C中也存在高階潛在結(jié)構(gòu), 但是否存在高階潛在結(jié)構(gòu)不影響建模。再有, 為了保證模型的可識別性(即θ和τ之間的以及θ和ε之間的相關(guān)性已經(jīng)被交叉負(fù)載解釋), 在3個C-MCDM中并沒有使用三元正態(tài)分布來聯(lián)接潛在能力、潛在加工速度和潛在視覺參與度這3個潛在變量(Bolsinova & Tijmstra, 2018; Molenaar et al., 2015)。小規(guī)模模擬研究結(jié)果顯示在當(dāng)前C-MCDM基礎(chǔ)上再采用三元正太分布聯(lián)接3個潛在變量后會導(dǎo)致參數(shù)估計不收斂, 尤其是三元正太分布中的方差和協(xié)方差。
圖2 聯(lián)合?層級和聯(lián)合?交叉負(fù)載多模態(tài)認(rèn)知診斷建模示意圖
注: θ為潛在能力; τ為潛在加工速度; ε為潛在視覺參與度; α為潛在屬性; Y為題目作答精度; T為題目作答時間; V為注視點數(shù); I為題目數(shù)量; K為屬性數(shù)量.
為便于表達(dá), 用統(tǒng)一模型來表示3個C-MCDM。首先, 對RA數(shù)據(jù)而言仍選用HO-DINA模型作為其測量模型(見公式(1))。其次, 對RT數(shù)據(jù)和FC數(shù)據(jù)而言, 它們的測量模型可分別表示為:
式中, 函數(shù)(θ, α, q)表示對于考查給定屬性的題目, 潛在能力或潛在屬性如何影響其RT和FC:
φ和λ分別為函數(shù)(θ, α, q)對RT和FC的加權(quán)系數(shù)或交叉載荷; 以C-MCDM-D為例,φ和λ分別表示, 對于題目, 理想作答為1的被試和理想作答為0的被試之間(對數(shù))RT和FC的均值的差異。鑒于已有研究表明潛在能力與潛在加工速度之間并不總是正相關(guān)(Zhan, Jiao, & Liao, 2018), 因此, 3個模型中并不限制φ和λ的正負(fù)號, 而由數(shù)據(jù)驅(qū)動決定。對于題目, 當(dāng)φ> 0時, 一定程度反映了題目對被試作答時需付出的認(rèn)知負(fù)荷的要求相對較低(如, 速度測驗中的題目), 進(jìn)而能力較高(或?qū)傩哉莆赵蕉?的被試會使用相對更少的時間來作答, 而能力較低的被試會使用相對更多的時間來作答; 而當(dāng)φ< 0時, 一定程度反映了題目對被試作答時需付出的認(rèn)知負(fù)荷的要求相對較高(如, 難度測驗中的題目), 進(jìn)而能力較高的被試會使用相對更多的時間來作答, 而能力較低的被試會使用相對更少的時間來作答(可能是動機(jī)較低導(dǎo)致的(Wise & Kong, 2005; Zhan, Jiao, & Liao, 2018))。同理, 對于題目, 當(dāng)λ> 0時, 一定程度反映了題目所涉及的關(guān)鍵信息的數(shù)量較多, 進(jìn)而能力較高的被試在作答該題目時會使用相對更多的注視點, 而能力較低的被試會使用相對較少的注視點(即難以提取到所有的關(guān)鍵信息); 而當(dāng)λ< 0時, 一定程度反映了題目所涉及的關(guān)鍵信息的數(shù)量較少, 進(jìn)而能力較高的被試在作答該題目時會使用相對更少的注視點, 而能力較低的被試會使用相對較多的注視點(可能是受到無關(guān)信息干擾, 難以確定關(guān)鍵信息的位置)。另外, 由于φ和λ是同一道題目的參數(shù), 所以理論上有4種組合, 如表1所示; 當(dāng)然, 表1中的描述只是一種可能性, 實踐中還需要針對具體問題具體分析。
另外, 鑒于在認(rèn)知診斷中提高潛在屬性的診斷準(zhǔn)確率才是關(guān)鍵, 3個C-MCDM均未考慮潛在加工速度和潛在視覺參與度對RA的影響, 即不考慮利用RA數(shù)據(jù)信息提高這兩個潛在變量的參數(shù)估計準(zhǔn)確性; 也沒有考慮RT數(shù)據(jù)和FC數(shù)據(jù)之間信息的相互利用, 仍假設(shè)潛在加工速度和潛在視覺參與度之間存在相關(guān)。此時, 可以用二元正態(tài)分布描述潛在加工速度和潛在視覺參與度之間的關(guān)系:
2.3.4 認(rèn)知結(jié)構(gòu)診斷及認(rèn)知特征推斷
實際上, 相比于傳統(tǒng)的僅分析RA數(shù)據(jù)的CDM而言, S-MCDM、H-MCDM和3個C-MCDM均能實現(xiàn)對多模態(tài)數(shù)據(jù)的分析, 研究者也均可以基于分析結(jié)果實現(xiàn)對個體認(rèn)知結(jié)構(gòu)的診斷及其他認(rèn)知特征的推斷。具體而言, 首先, 在MCDM中, 作為RA數(shù)據(jù)的測量模型, HO-DINA模型的主要功能就是診斷個體對潛在屬性的掌握情況; 因此, 潛在屬性模式的診斷結(jié)果可以較為直接地反映個體的認(rèn)知結(jié)構(gòu)。其次, 在MCDM中, 額外使用了LRT模型和NBF模型分別作為RT和FC數(shù)據(jù)的測量模型。與HO-DINA模型中將被試參數(shù)設(shè)為類別變量不同, LRT模型和NBF模型中的被試參數(shù)為連續(xù)變量; 因此, 無法像對潛在屬性的診斷一樣直接對個體的潛在加工速度和潛在視覺參與度進(jìn)行分類, 進(jìn)而無法直接實現(xiàn)對個體認(rèn)知特征的分類。
表1 C-MCDM中φi和λi參數(shù)的正負(fù)取值可能反映的題目信息
注:φ和λ分別為函數(shù)(θ, α, q)對RT和FC的交叉載荷; θ為潛在能力; α為潛在屬性;為題目所考查的屬性; ↑為增加, ↓為下降; RT為題目作答時間; FC為注視點數(shù).
表2 8種認(rèn)知特征綜合類別及可能的原因或行為表現(xiàn)(Zhan et al., 2022)
注: θ為潛在能力; τ為潛在加工速度; ε為潛在視覺參與度; +為大于均值; –為小于均值.
對此, 一種較為簡單明了的方式是利用均值作為切點: 當(dāng)個體的潛在能力大于均值時表明該個體屬于認(rèn)知能力(如, 問題解決能力)相對較高的一類, 反之則反; 當(dāng)個體的潛在加工速度大于均值時表明該個體屬于加工速度相對較快的一類, 反之則反; 當(dāng)個體的潛在視覺參與度大于均值時表明該個體屬于專注度較高的一類, 反之則反。理論上, 三者進(jìn)一步組合, 可得到8種認(rèn)知特征綜合類別(Zhan et al., 2022); 表2呈現(xiàn)了這8種認(rèn)知特征綜合類別及可能的原因或行為表現(xiàn)。當(dāng)然, 需要強(qiáng)調(diào)的是這種分類方式是比較粗糙的, 適用于對個體認(rèn)知特征的粗略推斷, 并非精確的測量或診斷結(jié)果。
本文使用全貝葉斯馬爾可夫鏈蒙特卡洛算法對S-MCDM、H-MCDM和3個C-MCDM進(jìn)行參數(shù)估計, 并基于JAGS (Plummer, 2015)實現(xiàn)。網(wǎng)絡(luò)版附錄S1章節(jié)中呈現(xiàn)了模型參數(shù)估計對高、中和低信息先驗分布的魯棒性分析結(jié)果, 結(jié)果表明新模型對包含不同信息量的先驗分布具有一定的魯棒性。結(jié)合已有實證數(shù)據(jù)分析經(jīng)驗和已有研究結(jié)果(Man & Harring, 2019; Zhan et al., 2022), 正文所有參數(shù)估計均采用中信息先驗分布。示例數(shù)據(jù)及相應(yīng)的JAGS代碼已分享在網(wǎng)絡(luò)版附錄中, 關(guān)于如何使用JAGS進(jìn)行貝葉斯參數(shù)估計可參見Zhan等(2019)。
鑒于本文所提出模型中包含φ和λ兩個新參數(shù), 暫缺乏對它們的取值范圍的了解, 難以進(jìn)行恰當(dāng)?shù)哪M研究(即, 不知根據(jù)何種分布來生成它們的真值); 因此需要先進(jìn)行實證研究, 以展現(xiàn)新模型的實踐可應(yīng)用性, 并為模擬研究中參數(shù)真值生成提供參考依據(jù)。
為對比3種多模態(tài)數(shù)據(jù)分析方法(即5個MCDM)的表現(xiàn), 我們選用來自一項技術(shù)增強(qiáng)測評環(huán)境下的數(shù)學(xué)測驗的數(shù)據(jù)。該數(shù)據(jù)[2]需要強(qiáng)調(diào)的是由于該數(shù)據(jù)中涉及到某高利害測驗中敏感信息(例如, 題目), 所以該數(shù)據(jù)并不對外公開。但研究者可以嘗試向Man和Harring (2019)或Zhan等(2022)的通訊作者以合理的理由索取。在美國東海岸一所大學(xué)的眼動實驗室采集的(Man & Harring, 2019), 其中包括= 93名(矯正)視力正常的大個體對= 10道題目的作答。該測驗考查= 4個潛在屬性: (α1)算數(shù)(arithmetic)、(α2)代數(shù)(algebra)、(α3)幾何(geometry)和(α4)數(shù)據(jù)分析(data analysis), 測驗Q矩陣見圖3。該數(shù)據(jù)包含3種同時采集的數(shù)據(jù): 結(jié)果數(shù)據(jù)(即RA)、過程數(shù)據(jù)(即RT)和生物計量數(shù)據(jù)(即FC)。另外, 有關(guān)該數(shù)據(jù)更詳細(xì)的描述請參閱Man和Harring (2019)。注意, Man和Harring (2019)使用的是語言推理數(shù)據(jù), 而Zhan等(2022)及本文使用的是同一批次采集的數(shù)學(xué)測驗數(shù)據(jù)。
分別使用S-MCDM、H-MCDM和3個C-MCDM分析該數(shù)據(jù)。5個模型均使用兩條馬爾可夫鏈(隨機(jī)起點), 每條鏈包含60, 000次迭代(預(yù)熱40, 000次), 稀疏值1; 最終剩余40, 000次迭代用于計算后驗均值和后驗標(biāo)準(zhǔn)差。使用潛在量尺縮減因子(PSRF) < 1.2 (Brooks & Gelman, 1998)作為參數(shù)估計收斂檢驗標(biāo)準(zhǔn)(Brooks & Gelman, 1998; de la Torre & Douglas, 2004)。使用后驗預(yù)測模型檢驗(posterior predictive model checking) (PPMC; Gelman et al., 2014)來評估模型?數(shù)據(jù)絕對擬合, 其中后驗預(yù)測概率(posterior predictive probability,)接近0.5表示模型與數(shù)據(jù)擬合(通常,< 0.05或> 0.95可被視為不擬合(Gelman et al., 2014))。在PPMC中使用測驗統(tǒng)計量(test statistics) (即僅關(guān)注真實數(shù)據(jù)與預(yù)測數(shù)據(jù)之間的差異, 不涉及具體模型參數(shù)) (Levy & Mislevy, 2016)。由于目前缺乏針對聯(lián)合模型的絕對擬合評價指標(biāo), 在3個模型中, 我們均分別評估不同模態(tài)數(shù)據(jù)與其測量模型之間的擬合關(guān)系。此外, 使用DIC作為模型?數(shù)據(jù)的相對擬合指標(biāo)用于模型選擇; 指標(biāo)值越小表示模型與數(shù)據(jù)擬合的越好。
圖3 實證數(shù)據(jù)Q矩陣; 白色表示“0”, 灰色表示“1”
表3 實證數(shù)據(jù)中模型?數(shù)據(jù)擬合指標(biāo)
注: –2LL = –2 log likelihood; DIC = deviance information criterion;= 后驗預(yù)測概率; RA = 作答精度; RT = 作答時間; FC = 注視點數(shù)。
通過觀察H-MCDM中潛在能力與潛在加工速度的估計值之間的相關(guān)系數(shù)(–0.008, SE = 0.278)和潛在能力與潛在視覺參與度的估計值之間的相關(guān)系數(shù)(0.004, SE = 0.252), 可發(fā)現(xiàn)兩相關(guān)系數(shù)均接近于0, 理論上難以發(fā)揮H-MCDM相較于S-MCDM的優(yōu)勢; 反觀, 由于C-MCDM-θ可以直接利用RT和FC數(shù)據(jù)中的信息來降低對潛在能力參數(shù)的估計標(biāo)準(zhǔn)誤(見圖4), 所以導(dǎo)致該模型對數(shù)據(jù)的擬合相對更好。下文將基于C-MCDM-θ模型的分析結(jié)果進(jìn)行闡述。
表4呈現(xiàn)了C-MCDM-θ模型中3個測量模型的參數(shù)估計值及φ和λ的估計值。首先, 對測量模型中參數(shù)而言, 該結(jié)果與Zhan等(2022)的估計結(jié)果基本一致。其中, 前兩題的猜測參數(shù)較大, 而第6題的失誤參數(shù)較大。各題目的時間強(qiáng)度參數(shù)的平均值約為3.33, 表明被試完成這些題目所必須的平均耗時約為28秒(接近該數(shù)據(jù)中RT的均值33.99)。各題目的視覺強(qiáng)度參數(shù)的平均值約為4.68, 表明被試完成這些題目所必須的注視點數(shù)約為107個(接近該數(shù)據(jù)中FC的均值114.53)。其次, 對φ和λ而言, 一個顯著特點是對于同一道題目兩參數(shù)的正負(fù)號相反。結(jié)合表1中的描述, 表明該測驗中題目所包含的關(guān)鍵信息數(shù)量與認(rèn)知負(fù)荷要求相匹配, 即關(guān)鍵信息多則認(rèn)知負(fù)荷要求高, 反之則反。進(jìn)一步, 圖5呈現(xiàn)φ和λ的估計值分布。發(fā)現(xiàn)φ估計值的中位數(shù) < 0, 一定程度反映該測驗中多數(shù)題目的認(rèn)知負(fù)荷要求相對較高, 進(jìn)而個體的潛在能力越高則其解題時所消耗的時間越長; 另外, 發(fā)現(xiàn)λ估計值的中位數(shù) > 0, 一定程度反映該測驗中多數(shù)題目所包含的關(guān)鍵信息數(shù)量較多, 進(jìn)而個體的潛在能力越高則其解題時所呈現(xiàn)的注視點數(shù)越多。
表4 實證數(shù)據(jù)中C-MCDM-θ模型的題目參數(shù)估計值
注: g = 猜測參數(shù); s = 失誤參數(shù); ξ = 時間強(qiáng)度參數(shù); ω = 時間精度參數(shù);= 視覺強(qiáng)度參數(shù);= 視覺區(qū)分度參數(shù); 括號內(nèi)為標(biāo)準(zhǔn)誤(后驗標(biāo)準(zhǔn)差)。
表5呈現(xiàn)了基于C-MCDM-θ模型的反饋樣例, 包括對認(rèn)知結(jié)構(gòu)和其他認(rèn)知特征的反饋信息, 以展現(xiàn)聯(lián)合分析多模態(tài)數(shù)據(jù)的優(yōu)勢。以被試5、9和65為例, 3人在潛在屬性上的診斷結(jié)果相同, 但他/她們在潛在能力、潛在加工速度和潛在視覺參與度上的估計值有較大差異; 這表明即便他/她們具有相同的認(rèn)知結(jié)構(gòu), 他/她們在認(rèn)知風(fēng)格或認(rèn)知流暢性等認(rèn)知特征方面也可能不同。另外, 對于認(rèn)知結(jié)構(gòu)有缺失的被試, 若實施有針對性干預(yù), 除缺失的潛在屬性外, 還應(yīng)考慮不同個體的認(rèn)知特征, 采取更恰當(dāng)?shù)母深A(yù)措施。比如, 被試34和67均缺失屬性2和4, 但由于兩者的認(rèn)知特征不同, 或許可以嘗試不同的有針對性干預(yù)措施。對于被試34 (沖動型+非聚焦者)而言, 由于其傾向于僅根據(jù)從問題情境中提取的部分信息就倉促做出決定, 除缺失的潛在屬性外, 還可以嘗試培養(yǎng)該被試的視覺參與度, 并鼓勵其認(rèn)真審題、謹(jǐn)慎作答。而被試67 (認(rèn)知不流暢+聚焦者)似乎有解決問題的動機(jī)或欲望但由于能力有限即便視覺參與度較高也無法提取題目中的關(guān)鍵信息; 所以對該被試而言, 應(yīng)該著重補(bǔ)救其所缺失的潛在屬性。
表5 實證數(shù)據(jù)中個體認(rèn)知結(jié)構(gòu)診斷及其他認(rèn)知特征推斷樣例
注: θ = 潛在能力; τ = 潛在加工速度; ε = 潛在視覺參與度; 括號內(nèi)為標(biāo)準(zhǔn)誤(后驗標(biāo)準(zhǔn)差)。
上文已經(jīng)通過實證研究展示了新模型的實用性及相對優(yōu)勢。本節(jié)通過兩則模擬研究進(jìn)一步探究新模型的心理計量學(xué)性能。其中, 研究1擬在多種模擬測驗條件下探究新模型的參數(shù)估計返真性; 研究2擬對比新模型和H-MCDM的相對表現(xiàn), 以展現(xiàn)新模型的相對優(yōu)勢及考慮交叉負(fù)載的必要性。
4.1.1 數(shù)據(jù)生成與分析
模擬研究中, 設(shè)定3個操縱變量: (1)樣本量: 100和500, 考慮到CDM的實際應(yīng)用場景及眼動研究目前可能的被試數(shù)量, 本研究主要關(guān)注新模型在小樣本條件下的表現(xiàn); (2)測驗長度: 15和30, 固定潛在屬性數(shù)量= 5, Q矩陣見圖6 (該Q矩陣滿足DINA模型的參數(shù)可識別性要求(Gu & Xu, 2021)); (3)交叉載荷: λ= –φ= 0、0.2和0.5, 其中, 0.2和0.5的設(shè)定參考實證數(shù)據(jù)分析結(jié)果(見表4), 而設(shè)置0的目的是為了探究當(dāng)不存在交叉負(fù)載時新模型的表現(xiàn)。
被試的潛在能力、潛在加工速度和潛在視覺參與度按如下方法生成:
該設(shè)定中ρτε= –0.5參考了上文實證研究結(jié)果及Zhan, Jiao和Liao (2018)和Man和Harring (2019)的設(shè)定: 假設(shè)個體的加工速度越慢則視覺參與度越高(即沉思型多匹配聚焦者); 同時, 個體學(xué)習(xí)的加工速度越快則視覺參與度越低(即沖動型多匹配非聚焦者); 另外, 遵循圖2(b)~2(d)中的設(shè)定, 設(shè)定ρθτ= 0和ρθε= 0, 原因是在交叉負(fù)載認(rèn)知診斷建模法中θ與τ之間的關(guān)系及θ與ε之間的關(guān)系已經(jīng)由交叉載荷來描述。
另外, 參考上文實證研究結(jié)果及Zhan, Jiao和Liao (2018)、Man和Harring (2019)的設(shè)定, 題目參數(shù)按如下方法生成
ω~(1.25, 2)和h~I(xiàn)nvGamma (2, 6)。另外, 屬性區(qū)分度參數(shù)被固定為γ1k= 1.5, 屬性難度參數(shù)被固定為γ0= (–1.5, –0.5, 0, 0.5, 1.5)’, 并依據(jù)公式2生成被試的屬性模式。
最后, 在6種(2樣本量 × 2測驗長度 × 2交叉載荷)模擬測驗條件下, 分別依據(jù)C-MCDM-θ、C-MCDM-D和C-MCDM-C各生成30組平行數(shù)據(jù)(RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù))。
4.1.2 結(jié)果
在所有模擬測驗條件下, 3個分析模型中的所有參數(shù)的PSRF值均滿足PSRF < 1.2的收斂標(biāo)準(zhǔn)(且98%以上的參數(shù)滿足相對更嚴(yán)苛的PSRF < 1.1收斂標(biāo)準(zhǔn)(Brooks & Gelman, 1998))。
圖7分別呈現(xiàn)了3個模型的屬性(模式)判準(zhǔn)率。首先, 當(dāng)交叉載荷為0時, 3個模型在不同測驗條件的表現(xiàn)基本一致。其次, 隨著交叉載荷的提高, 可發(fā)現(xiàn)3個模型的ACCR和PCCR在不同測驗條件下均有所提升, 其中C-MCDM-C提升幅度最大, C-MCDM-D次之, C-MCDM-θ最小。這表明, 在聯(lián)合?交叉負(fù)載建模法中, 為提高診斷分類準(zhǔn)確性, 直接利用RT和FC數(shù)據(jù)為被試對屬性的掌握情況提供輔助信息比先為高階潛在能力提供輔助信息再間接影響被試對屬性的掌握更有效。對此, 一種可能的原因是, 在C-MCDM-θ中, HO-DINA模型(RA數(shù)據(jù)的測量模型)中的高階潛在能力作為一種輔助參數(shù)其參數(shù)估計返真性通常較差(de la Torre & Douglas, 2004; Zhan, 2020; Zhan et al., 2020); 因此, 盡管利用RT和FC數(shù)據(jù)中的輔助信息可以適當(dāng)提高高階潛在能力的參數(shù)估計準(zhǔn)確性, 但或許是提升幅度有限, 難以有效促進(jìn)潛在屬性的估計準(zhǔn)確性。這點在圖4中也可以得到印證。
圖8分別呈現(xiàn)了3個模型的潛在能力、潛在加工速度和潛在視覺參與度的參數(shù)估計返真性。首先, 3個模型在所有條件的參數(shù)估計偏差都接近于0。其次, 對C-MCDM-θ而言, 隨著交叉載荷的提高, 潛在能力的RMSE逐漸下降且Cor逐漸提高, 表明隨著RT和FC數(shù)據(jù)中的輔助信息的提高, 潛在能力的估計返真性會隨之增加; 但值得注意的是, 隨著交叉載荷的提高, 盡管潛在能力的估計返真性有所提升, 但潛在加工速度和潛在視覺參與度的估計返真性卻出現(xiàn)下降現(xiàn)象。然后, 對C-MCDM-D和C-MCDM-C而言, 由于RT和FC數(shù)據(jù)并未直接為潛在能力提供輔助信息系; 因此, 隨著交叉載荷的提高, 兩模型中潛在能力的RMSE略微下降且Cor略微提高。
由于篇幅限制, 3個模型的題目參數(shù)估計返真性呈現(xiàn)在網(wǎng)絡(luò)版附錄表S2-S4中。整體而言, 在不同測驗條件下, 3個模型的題目參數(shù)估計返真性都較好, 呈現(xiàn)出較為一致的趨勢: 被試數(shù)量增加有助于提高題目參數(shù)估計返真性, 而測驗長度和交叉載荷大小的影響似乎很小。
注: N = 樣本量; I = 測驗長度; CL = 交叉載荷; ACCR = 屬性判準(zhǔn)率; PCCR = 屬性模式判準(zhǔn)率.
圖8 模擬研究1中3個C-MCDM的潛在能力、潛在加工速度和潛在視覺參與度的參數(shù)估計返真性.
注: N = 樣本量; I = 測驗長度; CL = 交叉載荷; θ = 高階潛在能力; τ = 潛在加工速度; ε = 潛在視覺參與度; Bias = 偏差; RMSE = 均方根誤差; Cor = 估計值與真值的相關(guān)系數(shù).
4.2.1 數(shù)據(jù)生成與分析
為進(jìn)一步探究新模型的相對優(yōu)勢及交叉?負(fù)載的必要性, 模擬研究2中分別使用3個新模型和H-MCDM作為數(shù)據(jù)生成模型, 然后對比探究幾個模型的表現(xiàn)。當(dāng)3個新模型作為數(shù)據(jù)生成模型時, 被試的潛在能力、潛在加工速度和潛在視覺參與度的生成方法與模擬研究1保持一致(公式12); 交叉載荷(λ= –φ)從均值為0.1、標(biāo)準(zhǔn)差為0.3的正態(tài)分布中抽取, 表明交叉載荷在題目之間存在差異(該設(shè)定參考了上文實證數(shù)據(jù)的結(jié)果)。當(dāng)H-MCDM作為數(shù)據(jù)生成模型時, 被試的潛在能力、潛在加工速度和潛在視覺參與度按如下分布生成:
此時, ρθτ= –0.5、ρθε= 0.5和ρτε= –0.5, 該設(shè)定參考了已有實證數(shù)據(jù)的結(jié)果(Zhan, Jiao, & Liao, 2018; Man & Harring, 2019): 假設(shè)學(xué)生能力越高則加工速度越慢且視覺參與度水平越高; 同時, 學(xué)生學(xué)習(xí)能力越低則加工速度越快且視覺參與度水平越低。另外, 每種模擬條件下均固定被試量= 500和測驗長度= 30, 其他設(shè)定均與模擬研究1保持一致。每種模擬條件下生成30組數(shù)據(jù)。
當(dāng)3個新模型作為數(shù)據(jù)生成模型時, 僅使用數(shù)據(jù)生成模型和H-MCDM分析數(shù)據(jù); 當(dāng)H-MCDM作為數(shù)據(jù)生成模型時, 使用H-MCDM和3個新模型分析數(shù)據(jù)。參數(shù)估計設(shè)定(如, 鏈數(shù)和鏈長等)、收斂指標(biāo)和返真性指標(biāo)等均與模擬研究1保持一致。
4.2.2 結(jié)果
表6呈現(xiàn)不同條件下各數(shù)據(jù)分析模型與數(shù)據(jù)的擬合情況。首先, 無論何種條件下, 數(shù)據(jù)生成模型本身對模擬數(shù)據(jù)的擬合均相對更好。其次, 根據(jù)DIC可發(fā)現(xiàn), 當(dāng)C-MCDM作為數(shù)據(jù)生成模型時, C- MCDM較H-MCDM的相對優(yōu)勢較大; 而當(dāng)H-MCDM作為數(shù)據(jù)生成模式時, H-MCDM較C-MCDM的相對劣勢較小; 表明C-MCDM對不同測驗條件的兼容性比H-MCDM更好。即忽略可能存在的交叉負(fù)載所導(dǎo)致的模型?數(shù)據(jù)不擬合比冗余考慮存在交叉負(fù)載所導(dǎo)致的模型?數(shù)據(jù)不擬合的程度更大。表7呈現(xiàn)了不同條件下各數(shù)據(jù)分析模型的屬性判準(zhǔn)率。結(jié)果的整體趨勢與DIC的類似, 即忽略可能存在的交叉負(fù)載對PCCR的負(fù)面影響比冗余考慮存在交叉負(fù)載對PCCR的負(fù)面影響更大。另外, 潛變量的和題目參數(shù)的返真性也均呈現(xiàn)類似的趨勢(見網(wǎng)絡(luò)版附錄表S5-S6)。總之, 模擬研究2結(jié)果表明忽略可能存在的交叉負(fù)載所導(dǎo)致的負(fù)面結(jié)果比冗余考慮存在交叉負(fù)載所導(dǎo)致的更嚴(yán)重, 即C-MCDM對測驗情境的兼容性優(yōu)于H-MCDM的。
表6 模擬研究2中模型?數(shù)據(jù)擬合情況
表7 模擬研究2中潛在屬性(模式)判準(zhǔn)率.
個體的問題解決行為是彼此相關(guān)的多種認(rèn)知過程及心理建構(gòu)所共同決定的。在技術(shù)增強(qiáng)測評環(huán)境中, 通過多種儀器或測量設(shè)備采集的多模態(tài)數(shù)據(jù)為實現(xiàn)對個體認(rèn)知結(jié)構(gòu)的精準(zhǔn)診斷及其他認(rèn)知特征的全面反饋提供了可能性。本文以對RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)的分析為例, 基于聯(lián)合?交叉負(fù)載建模法提出了3個具有不同理論假設(shè)的C-MCDM。其中, C-MCDM-θ假設(shè)被試的潛在能力的變化會影響其完成該題目的耗時和所用注視點數(shù); 而C- MCDM-D和C-MCDM-C均假設(shè)被試的潛在屬性掌握情況會影響其完成該題目的耗時和所用注視點數(shù), 兩者差異在于前者認(rèn)為僅有被試掌握了題目所考查的所有屬性后才會影響RT和FC, 而后者認(rèn)為被試掌握該題目所考查的屬性的數(shù)量會影響RT和FC。然后, 本文以一則實證數(shù)據(jù)為例對比探究了5個MCDM的表現(xiàn), 包括基于傳統(tǒng)分離建模法的S-MCDM、基于聯(lián)合?層級建模法的H-MCDM和新提出的3個C-MCDM。實證研究結(jié)果表明(1)聯(lián)合分析(即H-MCDM和C-MCDM)比分離分析(即S- MCDM)更適用于提供平行信息的多模態(tài)數(shù)據(jù); 且(2)從模型?數(shù)據(jù)擬合角度看, 新模型比H-MCDM更擬合該數(shù)據(jù)。此外, 實證研究也向讀者展示了如何根據(jù)數(shù)據(jù)分析結(jié)果來實現(xiàn)對個體認(rèn)知結(jié)構(gòu)的診斷及其他認(rèn)知特征(如, 認(rèn)知風(fēng)格)的推斷。最后, 使用兩則模擬研究進(jìn)一步探討新模型的表現(xiàn)。模擬研究1作為對實證研究的補(bǔ)充, 探究了3個新模型在不同模擬測驗條件的參數(shù)估計返真性。模擬研究2對比探討了3個新模型和H-MCDM的表現(xiàn), 以展示新模型的相對優(yōu)勢及考慮交叉負(fù)載的必要性。模擬研究1結(jié)果表明(1)全貝葉斯MCMC算法能夠為3個新模型提供較好的參數(shù)估計返真性, 且3個新模型中各參數(shù)估計均可有效收斂; (2)實踐應(yīng)用中, 充足的題目數(shù)量是保證被試參數(shù)估計準(zhǔn)確性的必要條件之一; (3)在不以題庫建設(shè)為目標(biāo)的(或其他題目參數(shù)相對不重要的)應(yīng)用場景中, 100人的小樣本量足以滿足提供較為精準(zhǔn)的被試參數(shù)估計值。模擬研究2結(jié)果表明忽略可能存在的交叉負(fù)載所導(dǎo)致的負(fù)面結(jié)果比冗余考慮存在交叉負(fù)載所導(dǎo)致的更嚴(yán)重, 即C-MCDM對測驗情境的兼容性優(yōu)于H- MCDM的??傊? 本文通過實證研究闡明了新模型的現(xiàn)實可應(yīng)用性, 并通過模擬研究闡明了新模型具有良好的心理計量學(xué)性能。
綜上所述, 對本文的理論創(chuàng)新、理論貢獻(xiàn)和應(yīng)用價值做如下總結(jié):
(1)理論創(chuàng)新: 首次將聯(lián)合?交叉負(fù)載建模法引入認(rèn)知診斷領(lǐng)域, 提出3種不同假設(shè)的C-MCDM;
(2)理論貢獻(xiàn): 填補(bǔ)了在認(rèn)知診斷領(lǐng)域缺少聯(lián)合?交叉負(fù)載模型的空白;
(3)應(yīng)用價值: 從全面反饋視角出發(fā), 以認(rèn)知風(fēng)格和認(rèn)知流暢性為例, 嘗試在認(rèn)知診斷中提供認(rèn)知結(jié)構(gòu)以外其他認(rèn)知特征的反饋; 豐富了認(rèn)知診斷反饋的范圍, 增加了認(rèn)知診斷的實踐價值。
另外, 本文遵循Zhan等(2022)的做法, 將實驗心理學(xué)與心理與教育測量相結(jié)合, 嘗試將眼動數(shù)據(jù)引入心理計量模型; 這在一定程度上拓展了心理與教育測量的研究范式, 為今后進(jìn)一步將實驗心理學(xué)基于儀器的測量或量化研究方法引入傳統(tǒng)心理與教育測量中提供了新視角。
值得強(qiáng)調(diào)的是由于新提出的3個C-MCDM與H-MCDM是基于不同聯(lián)合建模方法構(gòu)建的, 即它們基于不同的理論假設(shè)。在本文中, 盡管3個C-MCDM對實證數(shù)據(jù)的擬合程度優(yōu)于H-MCDM, 這并不代表它們?nèi)咴谌魏螠y驗情境下都優(yōu)于H-MCDM; 比如, H-MCDM的相對優(yōu)勢是理論結(jié)構(gòu)簡單、待估計參數(shù)數(shù)量較少。因此, 本文更多的是在認(rèn)知診斷領(lǐng)域向讀者提供一種基于聯(lián)合?交叉負(fù)載建模法的多模態(tài)數(shù)據(jù)分析視角和方法, 以期進(jìn)一步豐富多模態(tài)診斷數(shù)據(jù)分析模型的可選項。我們建議后續(xù)使用者針對特定的實證數(shù)據(jù), 同時使用多個MCDM對數(shù)據(jù)進(jìn)行聯(lián)合分析, 并基于數(shù)據(jù)?模型擬合指標(biāo)來選擇相對最合適的模型, 并結(jié)合模型的構(gòu)建理論對分析結(jié)果做進(jìn)一步解讀。
本文仍有一些局限性, 值得后續(xù)做進(jìn)一步探究。第一, 與已有聯(lián)合分析RA數(shù)據(jù)和RT數(shù)據(jù)的研究相比, 盡管本文僅額外分析了一種眼動數(shù)據(jù)——注視點數(shù)(FC), 但鑒于聯(lián)合?層級建模法和聯(lián)合?交叉負(fù)載建模法的靈活擴(kuò)展性, 其他類型的眼動數(shù)據(jù)或其他模態(tài)數(shù)據(jù)(如, 腦電[Jeon et al., 2021])也可嘗試被納入分析中, 進(jìn)而提出更全面的可聯(lián)合分析更多模態(tài)數(shù)據(jù)的認(rèn)知診斷模型。
第二, 本文以3個代表性的測量模型(即HO- DINA模型、LRT模型和NBF模型)為例闡述了聯(lián)合?交叉負(fù)載認(rèn)知診斷模型的構(gòu)建。同樣, 鑒于聯(lián)合?交叉負(fù)載建模法的靈活擴(kuò)展性, 后續(xù)針對不同的測驗情境可分別替換不同的測量模型。當(dāng)然, 需要強(qiáng)調(diào)的是測量模型的更換并不影響本文的主要創(chuàng)新點——聯(lián)合?交叉負(fù)載認(rèn)知診斷建模法。
第三, 遵循Zhan等(2022), 利用多模態(tài)診斷數(shù)據(jù)本文只關(guān)注到對有限認(rèn)知特征的推斷, 如沉思型?沖動型認(rèn)知風(fēng)格、聚焦者認(rèn)知風(fēng)格和認(rèn)知流暢性。實際上, 個體的認(rèn)知特征還有很多, 僅認(rèn)知風(fēng)格就還有其他的分類方式, 比如場獨(dú)立性?場依存性、言語型?視覺型等; 從全面反饋的視角看, 未來是否有可能利用多模態(tài)的數(shù)據(jù)實現(xiàn)對更多認(rèn)知特征的推斷, 甚至對是一些非認(rèn)知因素(如, 動機(jī)、情緒和信念)的識別, 是非常值得關(guān)注的研究方向。
第四, 本文主要是提供了一種多模態(tài)診斷數(shù)據(jù)的分析方法, 實際上, 對多模態(tài)數(shù)據(jù)的利用可以延伸到很多已有模型中。比如, 后續(xù)研究可以將多模態(tài)數(shù)據(jù)引入多策略CDM (Ma & Guo, 2019)、多水平CDM (Wang & Qiu, 2019)和多級評分CDM (Ma & de la Torre, 2016)中, 甚至考慮將多模態(tài)數(shù)據(jù)引入到一些非參數(shù)診斷法中(如, 聚類分析)等。
第五, 本文提出的3個C-MCDM均未考慮潛在加工速度和潛在視覺參與度對RA的影響, 即未考慮利用RA數(shù)據(jù)信息提高這兩個潛在變量的參數(shù)估計精度。后續(xù), 若有必要也可嘗試C-MCDM做進(jìn)一步拓廣, 納入上述未考慮的路徑(鄭天鵬等, in press), 開發(fā)全交叉負(fù)載模型; 只不過要額外注意模型可識別性問題。
第六, 如2.3.4節(jié)中所述, 由于在RT和FC測量模型中的被試參數(shù)為連續(xù)變量, 無法像對潛在屬性的診斷一樣直接對個體的潛在加工速度和潛在視覺參與度進(jìn)行分類, 進(jìn)而無法直接實現(xiàn)對個體認(rèn)知特征的分類。對此, 本文采用了以均值為切點的分類方法, 并依據(jù)潛在能力、潛在加工速度和潛在視覺參與度的分類組合, 嘗試對個體認(rèn)知特征的推斷。需要強(qiáng)調(diào)的是(1)這種分類方法是比較粗糙的, 適用于對個體認(rèn)知特征的粗略推斷, 并非精確的測量或診斷結(jié)果; (2)這種分類方法所利用的信息尚有限, 僅利用了潛在能力、潛在加工速度和潛在視覺參與度這3個潛在變量的估計值作分類依據(jù)。未來, 為實現(xiàn)對個體認(rèn)知特征的更精準(zhǔn)推斷甚至是測量, 可嘗試從3個角度突破: (1)綜合利用更多模態(tài)的數(shù)據(jù)來實現(xiàn)對個體認(rèn)知特征的推斷, 以期為推斷性分類提供更多的參考信息; (2)嘗試借鑒計算機(jī)化分類測驗中對連續(xù)變量的分類方法(Ferguson, 1969), 以期改進(jìn)以均值為切點的分類方法; (2)直接通過類別變量構(gòu)建特定認(rèn)知特征的被試參數(shù)(Wang & Chen, 2020), 以期實現(xiàn)對個體認(rèn)知特征的測量而非推斷。
第七, 由于現(xiàn)實硬件條件的限制(如, 沒有大批量眼動儀), 本文所分析的實證數(shù)據(jù)仍屬于小規(guī)模測驗(由于成本儀器成本原因, 在未來一段時間, 涉及實驗儀器采集數(shù)據(jù)的研究都會受限于被試量的問題)。盡管模擬研究結(jié)果顯示, 在不考慮建立題庫的應(yīng)用場景下小樣本量(100人)也可以滿足要求, 但在大規(guī)模測驗和涉及題庫的應(yīng)用場景(如, 計算機(jī)化自適應(yīng)測驗)中, 這些硬件條件的限制都會制約多模態(tài)數(shù)據(jù)分析方法的實際應(yīng)用。隨著測量方式及數(shù)據(jù)分析技術(shù)的不斷發(fā)展, 充分利用計算機(jī)(網(wǎng)絡(luò))技術(shù), 尤其是人工智能的介入, 并結(jié)合便攜式和低成本的心理學(xué)實驗儀器, 我們期待也有理由相信未來可以突破硬件條件的限制, 在大規(guī)模測驗中實現(xiàn)對多模態(tài)數(shù)據(jù)的采集與分析。
最后, 在貝葉斯參數(shù)估計值中, 先驗分布的選擇反映了數(shù)據(jù)分析者對模型參數(shù)的信念或已有經(jīng)驗。根據(jù)已有數(shù)據(jù)分析經(jīng)驗以及已有研究結(jié)果(Man & Harring, 2019; Zhan et al., 2022), 本文選取了特定的先驗分布。盡管魯棒性分析表明模型的參數(shù)估計結(jié)果受包含不同信息量的先驗分布的影響較小, 但這并不意味著本文所用的先驗分布適用于所有測驗情境。在后續(xù)的實踐應(yīng)用中, 針對全新的實證數(shù)據(jù), 數(shù)據(jù)分析者也可嘗試使用超先驗分布來探索恰當(dāng)?shù)南闰灧植肌?/p>
An, L., Wang, Y., & Sun, Y. (2017). Reading words or pictures: Eye movement patterns in adults and children differ by age group and receptive language ability.791. https://doi.org/10.3389/fpsyg.2017.00791
Bezirhan, U., von Davier, M., & Grabovsky, I. (2021). Modelingitem revisit behavior: The hierarchical speed-accuracy-revisitsmodel.(2), 363?387.
Biancarosa, G., & Shanley, L. (2015). What is fluency? In K. D. Cummings & Y. Petscher (Eds.),(pp. 1?18). Springer.
Bolsinova, M., de Boeck, P., & Tijmstra, J. (2017). Modelling conditional dependence between response time and accuracy., 112?1148. https://doi.org/10.1007/ s11336-016-9537-6
Bolsinova, M., & Tijmstra, J. (2018). Improving precision of ability estimation: Getting more from response times.(1), 13?38.
Bos, W., Lankes, E.-M., Prenzel, M., Schwippert, K., Valtin, R., & Walther, G. (Eds). (2005).[IGLU: Supplementary in-depth analyses of reading comprehension, context effects, and additional studies]. Münster: Waxmann.
Brooks, S. P., & Gelman, A. (1998). General methods for monitoring convergence of iterative simulations.(4), 434–455. https://doi.org/10.2307/1390675
de Boeck, P., & Jeon, M. (2019). An overview of models for response times and processes in cognitive tests.102.
De la Torre, J. (2011). The generalized DINA model framework., 179–199.
De la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.(3), 333–353. https://doi.org/10.1007/BF02295640
Gardner, R. W., Holzman, P. S., Klein, G. S., Linton, H. B., & Spence, D. (1959). Cognitive control: A study of individual consistencies in cognitive behavior., Monograph 4.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2014).. Boca Raton: CRC Press.
Gu, Y., & Xu, G. (2021). Sufficient and necessary conditions for the identifiability of the Q-matrix., 449?472.
Guo, L. Shang, P., & Xia, L. (2017). Advantages and illustrations of application of response time model in psychological and educational testing.(4), 701–712.
[郭磊, 尚鵬麗, 夏凌翔. (2017). 心理與教育測驗中反應(yīng)時模型應(yīng)用的優(yōu)勢與舉例.(4), 701–712.]
Holzman, P. S. (1966). Scanning: A principle of reality contact., 835?844.
Jeon, M., de Boeck, P., Luo, J., Li, X., & Lu, Z.-L. (2021). Modeling within-item dependencies in parallel data on test responses and brain activation.(1), 239? 271. https://doi.org/10.1007/s11336-020-09741-2
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.(3), 258–272.
Kagan, J. (1965). Reflection-impulsivity and reading ability in primary grade children.(3), 609–628.
Lahat, D., Adali, T., & Jutten, C. (2015). Multimodal data fusion: An overview of methods, challenges, and prospects.(9), 1449?1477.
Levy, R., & Mislevy, R. J. (2016).. Boca Raton, FL: CRC Press.
Li, M., Liu, Y., & Liu, H. (2020). Analysis of the problem- solving strategies in computer-based dynamic assessment: The extension and application of multilevel mixture IRT model.(4), 528?540.
[李美娟, 劉玥, 劉紅云. (2020). 計算機(jī)動態(tài)測驗中問題解決過程策略的分析: 多水平混合IRT模型的拓展與應(yīng)用.(4), 528?540.]
Liu, H., Liu Y., & Li, M. (2018). Analysis of process data of PISA 2012 computer-based problem solving: Application of the modified multilevel mixture IRT model., 1372.
Liu, Y., Xu, H., Chen, Q., & Zhan, P. (2022). The measurement of problem-solving competence using process data.(3), 522?525.
[劉耀輝, 徐慧穎, 陳琦鵬, 詹沛達(dá). (2022). 基于過程數(shù)據(jù)的問題解決能力測量及數(shù)據(jù)分析方法.(3), 522?525.]
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.(3), 253–275.
Ma, W., & Guo, W. (2019). Cognitive diagnosis models for multiple strategies.(2), 370?392.
Man, K., & Harring, J. R. (2019). Negative binomial models for visual fixation counts on test items.(4), 617?635. http://doi. Org/0.1177/0013164418824148
Man, K., & Harring, J. R. (2020). Assessing preknowledge cheating via innovative measures: A multiple-group analysis of jointly modeling item responses, response times, and visual fixation counts.,(3), 441–465. https://doi.org/10.1177/ 0013164420968630
Messick, S. (1989). Cognitive style and personality: Scanning and orientation toward affect.s, RR-89-16. https://doi.org/10.1002/j.2330-8516.1989.tb00 342.x
Molenaar, D., Tuerlinckx, F., & van der Maas, H. L. (2015). A bivariate generalized linear item response theory modeling Framework to the Analysis of Responses and Response Times.,(1), 56–74.
Plummer, M. (2015).. Retrieved from http://mcmc-jags.sourceforge.net/
Poole, A., Ball, L. J., & Phillips, P. (2004). In search of salience: A response-time and eye-movement analysis of bookmark recognition. In S. Fincher, P. Markopoulos, D. Moore, & R. Ruddle (Eds.),(pp. 363–378). London, England: Springer.
Ranger, J. (2013). A note on the hierarchical model for responses and response times in tests of van der Linden (2007).(3), 538?544.
Ren, H., Xu, N., Lin, Y., Zhang, S., & Yang, T. (2021). Remedial teaching and learning from a cognitive diagnostic model perspective: Taking the data distribution characteristics as an example., 628607. https:// doi.org/10.3389/fpsyg.2021.628607
Riding, R. J. (1997). On the nature of cognitive style.(1-2), 29?49.
Rimawi, O., Al-Halabiyah, F., & Hussein, O. (2020). The cognitive style (focusing-scanning) among Al-Quds University students.(1), 143?154.
Rupp, A. A., Templin, J. L., & Henson, R. (2010).. New York: Guilford Press.
Schaeffer, G. A., Reese, C. M., Steffen, M., McKinley, R. L., & Mills, C. N. (1993).. Princeton, NJ: Educational Testing Service.
Tang, F., & Zhan, P. (2021). Does diagnostic feedback promote learning? Evidence from a longitudinal cognitive diagnostic assessment.,. https://doi.org/10.1177/ 23328584211060804
Unkelbach, C. (2006). The learned interpretation of cognitive fluency.(4), 339?345.
Van der Linden, W. J. (2006). A lognormal model for response times on test items.(2), 181?204.
Van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items.(3), 287?308.
Von Davier, M., & Lee, Y.-S. (2019).. New York, NY: Springer.
Wang, L., Tang, F., & Zhan, P. (2020). Effect analysis of individualized remedial teaching based on cognitive diagnostic assessment: Taking “l(fā)inear equation with one unknown” as an example.(6), 1490?1497.
[王立君, 唐芳, 詹沛達(dá). (2020). 基于認(rèn)知診斷測評的個性化補(bǔ)救教學(xué)效果分析: 以“一元一次方程”為例.(6), 1490?1497.]
Wang, S., & Chen, Y. (2020). Using response times and response accuracy to measure fluency within cognitive diagnosis models.(2), 600–629.
Wang, W. C., & Qiu, X. L. (2019). Multilevel modeling of cognitive diagnostic assessment: The multilevel DINA example.(1), 34?50.
Wise, S. L., & Kong, X. (2005). Response time effort: A new measure of examinee motivation in computer-based tests.(2), 163–183
Zhan, P. (2018).(Unpublished doctoral dissertation). Beijing Normal University.
[詹沛達(dá). (2018).(博士學(xué)位論文). 北京師范大學(xué).]
Zhan, P. (2019). Joint modeling for response times and response accuracy in computer-based multidimensional assessments.(1), 170–178.
[詹沛達(dá). (2019). 計算機(jī)化多維測驗中作答時間和作答精度數(shù)據(jù)的聯(lián)合分析.(1), 170–178.]
Zhan, P. (2020). A Markov estimation strategy for longitudinal learning diagnosis: Providing timely diagnostic feedback.(6), 1145? 1167. https://doi.org/10.1177/0013164420912318
Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times.(2), 262–286.
Zhan, P., Jiao, H., Man, K, & Wang, L. (2019). Using JAGS for Bayesian cognitive diagnosis modeling: A tutorial.(4), 473–503.
Zhan, P., Liao, M., & Bian, Y. (2018). Joint testlet cognitive diagnosis modeling for paired local item dependence in response times and response accuracy., 607.
Zhan, P., Man, K., Wind, S. A., & Malone, J. (2022). Cognitive diagnosis modeling incorporating response times and fixation counts: Providing comprehensive feedback and accurate diagnosis.. https://doi.org/10.3102/10769986221111085
Zhan, P., & Qiao, X. (2022). Diagnostic Classification analysis of problem-solving competence using process data: An item expansion method.. https://doi.org/10.1007/ s11336-022-09855-9
Zheng, T., Zhou, W., & Guo, L. (in press). Cognitive diagnosis modelling based on response times.
[鄭天鵬, 周文杰, 郭磊. (in press). 基于題目作答時間信息的認(rèn)知診斷模型..]
Zoanetti, N. (2010). Interactive computer based assessment tasks: How problem-solving process data can inform instruction.(5), 585–606.
S1 參數(shù)估計對先驗分布的魯棒性分析
S1.1 高、中和低信息先驗分布
S1.1.1 中信息先驗分布
在貝葉斯參數(shù)估計值中, 先驗分布的選擇反映了數(shù)據(jù)分析者對模型參數(shù)的信念或已有經(jīng)驗。根據(jù)已有數(shù)據(jù)分析經(jīng)驗以及已有研究結(jié)果(如, Man & Harring, 2019; Zhan et al., 2022), 包含適量信息的先驗分布(即中信息先驗分布)設(shè)定如下(對3個C-MCDM通用):
首先, 根據(jù)局部獨(dú)立性假設(shè), 有
其次, 對題目參數(shù)而言, 有
然后, 對被試參數(shù)而言, 有
再有, 對高階潛在結(jié)構(gòu)參數(shù)而言, 有
S1.1.2 低信息先驗分布
低信息先驗分布的設(shè)定以“無知”為前提, 并以大方差(如, 10)為變異范圍。在S1.1.1的基礎(chǔ)上, 低信息先驗分布設(shè)定如下:
其他參數(shù)的先驗分布保持不變。
S1.1.3 高信息先驗分布
高信息先驗分布的設(shè)定以“先知”為前提, 圍繞參數(shù)“真值”進(jìn)行, 并以小方差(如, 0.5)為變異范圍。在S1.1.1的基礎(chǔ)上, 高信息先驗分布設(shè)定如下:
其他參數(shù)的先驗分布保持不變。
S1.2 參數(shù)估計一致性
選用正文模擬研究中= 100,= 15,= 0.5條件下生成的數(shù)據(jù)作為分析數(shù)據(jù); 該模擬測驗條件屬于小樣本短測驗情境, 理論上, 參數(shù)估計結(jié)果受到先驗分布的影響更大。因此, 隨樣本量增大及測驗長度提高, 參數(shù)估計結(jié)果受先驗分布中所含信息量的影響會逐漸降低(即魯棒性會增加)。3個模型的參數(shù)估計設(shè)定(如, 馬爾可夫鏈長)與模擬研究中保持一致。
圖S1-S2和表S1分別呈現(xiàn)了3個模型在不同信息量先驗分布下各參數(shù)的返真性??砂l(fā)現(xiàn)隨著先驗分布的信息量的提高, 各參數(shù)的返真性均有小幅度提升; 其中, 提升幅度相對較大的是由低信息量先驗到中信息量先驗時, 而由中信息量先驗到高信息量先驗的提升幅度微弱??紤]到實際應(yīng)用中很少使用如此低信息的先驗分布且無法像高信息先驗分布那樣圍繞各參數(shù)的“真值”進(jìn)行設(shè)定, 中信息先驗分布的普適性是相對較高的: 即避免了不實際的“無知”或“先知”, 同時又保證了較高的參數(shù)估計精度。因此, 正文中我們選用中信息先驗分布進(jìn)行后續(xù)的分析。
整體而言, 當(dāng)采用包含不同信息量的先驗分布時, 每個模型的參數(shù)估計結(jié)果均較為穩(wěn)定, 即新模型對不同先驗分布具有一定的魯棒性。
圖S1 三模型在不同信息量先驗分布下的屬性(模式)判準(zhǔn)率.
注: N = 樣本量; I = 測驗長度; CL = 交叉載荷; ACCR = 屬性判準(zhǔn)率; PCCR = 屬性模式判準(zhǔn)率.
圖S2 三模型在不同信息量先驗分布下的潛在能力、潛在加工速度和潛在視覺參與度的返真性
注: N = 樣本量; I = 測驗長度; CL = 交叉載荷; θ = 高階潛在能力; τ = 潛在加工速度; ε = 潛在視覺參與度; Bias = 偏差; RMSE = 均方根誤差; Cor = 估計值與真值的相關(guān)系數(shù).
Joint-cross-loading multimodal cognitive diagnostic modeling incorporating visual fixation counts
ZHAN Peida
(Department of Psychology, College of Teacher Education, Zhejiang Normal University; Key Laboratory of Intelligent Education Technology and Application of Zhejiang Province, Zhejiang Normal University, Jinhua 321004, China)
Students’ observed behavior (e.g., learning behavior and problem-solving behavior) comprises of activities that represent complicated cognitive processes and latent conceptions that are frequently systematically related to one another. Cognitive characteristics such as cognitive styles and fluency may differ between students with the same cognitive/knowledge structure. However, practically all cognitive diagnosis models (CDMs) that merely assess item response accuracy (RA) data are currently incapable of estimating or inferring individual differences in cognitive traits. With advances in technology-enhanced assessments, it is now possible to capture multimodal data, such as outcome data (e.g., response accuracy), process data (e.g., response times (RTs), and biometric data (e.g., visual fixation counts (FCs)), automatically and simultaneously during the problem-solving activity. Multimodal data allows for precise cognitive structure diagnosis as well as comprehensive feedback on various cognitive characteristics.
First, using joint analysis of RA, RT, and FC data as an example, this study elaborated three multimodal data analysis methods and models, including separate modeling (whose model is denoted as S-MCDM), joint- hierarchical modeling (whose model is denoted as H-MCDM) (Zhan et al., 2022), and joint-cross-loading modeling (whose model is denoted as C-MCDM). Following that, three C-MCDMs with distinct hypotheses were presented based on joint-cross-loading modeling, namely, the C-MCDM-θ, C-MCDM-D, and C-MCDM-C, respectively. Three C-MCDMs, in comparison to the H-MCDM, introduce two item-level weight parameters (i.e., φand λ) into the RT and FC measurement models, respectively, to quantify the impact of latent ability or latent attributes on RT and FC. The Markov Chain Monte Carlo method was used to estimate model parameters using a full Bayesian approach. To illustrate the three proposed models’ application and compare them to the S-MCDM and H-MCDM, multimodal data for a real-world mathematics test was used. Data was gathered at a prominent university on the East Coast of the United States in an eye-tracking lab. An= 10 mathematics items test was given to= 93 university students with normal or corrected vision. The test included= 4 attributes, and the related Q-matrix is shown in Figure 3. The data is divided into three modalities: RA, RT, and FC, which were all collected at the same time. The data was fitted to all five multimodal models.
In addition, two simulation studies were conducted further to explore the psychometric performance of the proposed models. The purpose of simulation study 1 was to explore whether the parameter estimates of the proposed models can converge effectively and explore the recovery of parameter estimation under different simulated test situations. The purpose of simulation study 2 was to explore the relative merits of C-MCDMs and H-MCDM, that is, to explore the necessity of considering cross-loading in multimodal data analysis.
The results of the empirical study showed that (1) the C-MCDM-θ has the best model-data fitting, followed by the H-MCDM and the S-MCDM. Although the DIC showed that the C-MCDM-D and C-MCDM-C also fitted the data well, the results were only for reference because some parameter estimates in these two models did not converge; that (2) the correlation coefficients between latent ability and latent processing speed and that between latent ability and latent concentration were weak, making it difficult to fully exploit the theoretical advantages of H-MCDM over S-MCDM (Ranger, 2013). By contrast, since the C-MCDM-θ can directly utilize the information from RT and FC data, the standard error of the estimates of its latent ability was significantly lower than that of the previous two competing models; and that (3) the median of the estimates of φwas less than 0, which indicated that for most items, the higher the participant’s latent ability is, the longer the time it will take to solve the items; and the median of the estimates of λwas higher than 0, which indicated that for most items, the higher the participant’s latent ability is, the more number of fixation counts he/she shown in problem-solving. Furthermore, it should be noted that the estimates of φand λdo not always have the same sign for different items, indicating that the influence of latent abilities on RT and FC has different directions (i.e., facilitation or inhibition) for different items. Furthermore, simulation study 1 indicated that the parameter estimation of the proposed three models could converge effectively and the recovery of model parameters was good under different simulated test situations. The results of simulation study 2 indicated that the adverse effects of ignoring the possible cross- loadings are more severe than redundantly considering the cross-loadings.
Overall, the results of this study indicate that (1) fusion analysis is more suitable for multimodal data that provides parallel information than separate analysis; that (2) through cross-loading, the proposed models can directly use information from RT and FC data to improve the parameter estimation accuracy of latent ability or latent attributes; that (3) the results of the proposed models can be used to diagnose cognitive structure and infer other cognitive characteristics such as cognitive styles and fluency; and that (4) the proposed models have better compatibility with different test situations than H-MCDM.
cognitive diagnosis, multimodal data, item response times, fixation counts, cognitive style, eye-tracking
B841
2021-06-10
* 國家自然科學(xué)基金青年基金項目(31900795)和浙江省哲學(xué)社會科學(xué)規(guī)劃“之江青年理論與調(diào)研專項課題”(22ZJQN38YB)資助。
詹沛達(dá), E-mail: pdzhan@gmail.com