• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機(jī)森林的認(rèn)知診斷Q 矩陣修正

      2023-11-14 06:35:48秦海江
      心理技術(shù)與應(yīng)用 2023年11期
      關(guān)鍵詞:修正數(shù)量向量

      秦海江 郭 磊,

      (1 西南大學(xué)心理學(xué)部,重慶 400715)

      (2 中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心西南大學(xué)分中心,重慶 400715)

      1 引言

      認(rèn)知診斷評(píng)估(CDA)作為新一代的心理測(cè)量理論,與經(jīng)典測(cè)量理論采用單一分?jǐn)?shù)評(píng)價(jià)個(gè)體不同,認(rèn)知診斷評(píng)估能夠?qū)€(gè)體的認(rèn)知結(jié)構(gòu)進(jìn)行診斷分類,進(jìn)而提供多維潛在特質(zhì)(如技能、素養(yǎng)、人格特質(zhì)等,統(tǒng)稱為屬性)的評(píng)價(jià)結(jié)果。認(rèn)知診斷模型(CDM)是一類用于認(rèn)知診斷評(píng)估的多維、離散潛變量模型,根據(jù)個(gè)體是否掌握某些屬性將其診斷為不同類別(Nájera et al.,2021),并已廣泛應(yīng)用于心理、教育、醫(yī)療診斷等諸多領(lǐng)域(Sorrel et al.,2016)。Q矩陣是認(rèn)知診斷的核心要素(de la Torre &Chiu,2016;Tatsuoka,1983),它描述了測(cè)驗(yàn)中題目與屬性之間的關(guān)系(Tatsuoka,1990),對(duì)診斷分類的準(zhǔn)確性至關(guān)重要(劉彥樓,吳瓊瓊,2023)。錯(cuò)誤界定的Q矩陣會(huì)極大降低認(rèn)知診斷模型參數(shù)估計(jì)的精度和被試診斷分類的準(zhǔn)確性,得到較差的模型數(shù)據(jù)擬合結(jié)果(de la Torre,2008;Gao et al.,2017;Im &Corter,2011)。目前,Q矩陣通常是領(lǐng)域?qū)<也捎梦墨I(xiàn)查閱、理論分析和口語報(bào)告等經(jīng)驗(yàn)方法構(gòu)建(Nájera et al.,2020),但這些方法較為主觀(Yu &Cheng,2019),并且在實(shí)證應(yīng)用中,Q矩陣也常被指出包含一定的錯(cuò)誤界定(Chiu,2013;Li &Suen,2013;Rupp &Templin,2008)。因此,如何界定準(zhǔn)確的Q矩陣是認(rèn)知診斷評(píng)估研究中面臨的現(xiàn)實(shí)難題。

      為了獲取準(zhǔn)確的Q矩陣,研究者嘗試使用被試的觀察作答數(shù)據(jù)估計(jì)Q矩陣,如Chung(2019)使用蒙特卡洛馬爾可夫(MCMC)算法可以較為準(zhǔn)確地估計(jì)Q矩陣。但是該方法在屬性較多、人數(shù)較少時(shí)準(zhǔn)確性會(huì)大幅下降,且程序的修訂時(shí)間較長(zhǎng),通常運(yùn)行一次蒙特卡洛馬爾可夫算法需要耗費(fèi)12小時(shí),時(shí)間成本過大(Chung,2019)。實(shí)際上,更多的研究者對(duì)專家預(yù)先構(gòu)建的Q矩陣進(jìn)行了修正,并提出了許多Q矩陣修正方法(李佳等,2021)。根據(jù)適用性,這些修正方法可大致分為適用于簡(jiǎn)化認(rèn)知診斷模型和適用于飽和認(rèn)知診斷模型兩類。適用于簡(jiǎn)化認(rèn)知診斷模型的修正方法,如δ法(de la Torre,2008)、殘差法(RSS;Chiu,2013)、迭代修正序列搜索算法(IMSSA;Terzi &de la Torre,2018)、極大似然估計(jì)與邊際極大似然估計(jì)(Wang et al.,2018)、RMSEA法(Kang et al.,2019)、殘差統(tǒng)計(jì)量法(Yu &Cheng.,2019)和ORDP法(李佳等,2022)等。這類方法往往是從某類簡(jiǎn)化認(rèn)知診斷模型的假設(shè)機(jī)制出發(fā),因此也僅在符合該機(jī)制情況下才能表現(xiàn)出較好的修正效果。然而,簡(jiǎn)化模型機(jī)制假設(shè)較強(qiáng),限制了該類方法的應(yīng)用場(chǎng)景(劉彥樓,吳瓊瓊,2023)。

      相對(duì)地,飽和認(rèn)知診斷模型(如G-DINA model,de la Torre,2011)沒有嚴(yán)格的屬性作用機(jī)制假設(shè)(Henson et al.,2009),且包含多類簡(jiǎn)化模型,比簡(jiǎn)化模型更加靈活,使用場(chǎng)景更廣?;陲柡驼J(rèn)知診斷模型框架提出的修正方法具有靈活性高、不需要嚴(yán)格的機(jī)制假設(shè)等優(yōu)勢(shì)。這類方法有殘差法(Chen,2017)、相對(duì)擬合統(tǒng)計(jì)量方法(汪大勛等,2020)、GDI法(de la Torre &Chiu,2016;Nájera et al.,2019;Nájera et al.,2020)、Hull法(Nájera et al.,2021)、基于不完全信息矩陣的Wald法(Wald-IC;Ma &de la Torre,2020)、基于完全信息矩陣的Wald法(劉彥樓,吳瓊瓊,2023;Wald-XPD)等。其中,殘差法在測(cè)驗(yàn)較短時(shí)會(huì)出現(xiàn)統(tǒng)計(jì)檢驗(yàn)力偏低的問題。相對(duì)擬合統(tǒng)計(jì)量法需要比較所有題目的所有屬性組合,在測(cè)驗(yàn)較長(zhǎng)或?qū)傩暂^多時(shí)該方法的計(jì)算復(fù)雜度會(huì)大幅提升。GDI法對(duì)每道題目計(jì)算所有可能q向量的方差占比(PVAF),選擇PVAF大于切分點(diǎn)的q向量作為修正結(jié)果。然而,PVAF的切分點(diǎn)需要研究者提前預(yù)設(shè),限制了該方法的靈活性。盡管后來Nájera等(2019)使用多元線性回歸模型預(yù)測(cè)切分點(diǎn),但該方法的各項(xiàng)回歸系數(shù)局限于模擬數(shù)據(jù)時(shí)的條件,難以推廣到一般情境(Nájera et al.,2021)。Hull法解決了切分點(diǎn)的問題且在模擬研究中表現(xiàn)良好,但是無法修正出屬性全為1的q向量(即q=[11...1],記作q1∶K)。Ma等(2020)結(jié)合Wald檢驗(yàn)與PVAF提出了Wald-IC法,通過逐一檢驗(yàn)q向量中的屬性在統(tǒng)計(jì)意義上的必要性來修正q向量。劉彥樓與吳瓊瓊(2023)指出Wald-IC法中的Wald統(tǒng)計(jì)量采用的是不完整的信息矩陣,容易出現(xiàn)低估模型參數(shù)的標(biāo)準(zhǔn)誤以及一類錯(cuò)誤控制率膨脹等問題,是Wald-IC法的修正表現(xiàn)較Hull法稍差的主要原因,并在Wald-IC的基礎(chǔ)上提出了采用完整信息矩陣(即經(jīng)驗(yàn)交叉相乘矩陣)的Wald-XPD方法,并與GDI、Hull、Wald-IC等方法進(jìn)行了比較,結(jié)果表明Wald-XPD方法表現(xiàn)最好。因此,本研究將會(huì)與該方法進(jìn)行比較。但采用完整信息矩陣會(huì)導(dǎo)致Wald-XPD方法比其他修正方法更復(fù)雜,計(jì)算量更大,耗時(shí)也更長(zhǎng)。不難看出,隨著研究者們對(duì)Q矩陣修正方法的不斷探索,修正效果也在不斷提升。然而如上所述,這些方法也存在自身的一些不足和局限。

      隨著人工智能的逐漸成熟,尤其是近十幾年的發(fā)展,直接從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)潛在規(guī)律的機(jī)器學(xué)習(xí)算法憑借自身極強(qiáng)的問題解決能力已被廣泛應(yīng)用于各種領(lǐng)域。在教育領(lǐng)域,機(jī)器學(xué)習(xí)為那些在傳統(tǒng)方法下處理效率低下的問題提供了解決方案,如使用項(xiàng)目自動(dòng)生成器(Gierl et al.,2012)生成多項(xiàng)選擇測(cè)驗(yàn)的題目;使用語音識(shí)別技術(shù)對(duì)普通話發(fā)音自動(dòng)評(píng)分(Liu et al.,2009);使用機(jī)器學(xué)習(xí)評(píng)分模型對(duì)學(xué)生作文進(jìn)行評(píng)分(Zhai et al.,2022)。近年來,機(jī)器學(xué)習(xí)也越來越多地被應(yīng)用到認(rèn)知診斷評(píng)估領(lǐng)域中。如Chiu與Douglas(2009)利用K-means與層次聚類法對(duì)具有相同屬性模式的被試進(jìn)行聚類分析以實(shí)現(xiàn)診斷分類,但該方法屬于無監(jiān)督學(xué)習(xí),無法得到類別標(biāo)簽。Zhao等(2019)使用深度學(xué)習(xí)估計(jì)Q矩陣中的屬性,盡管只能處理較為簡(jiǎn)單的Q矩陣(一道題目只測(cè)量一個(gè)屬性),但該研究訓(xùn)練出的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)較為高效(準(zhǔn)確率在80%以上)。Xue和Bradshaw(2020)訓(xùn)練了三種不同類型的神經(jīng)網(wǎng)絡(luò)用于診斷分類,并得到了比DINA、RUM、G-DINA等模型更好的分類表現(xiàn)。機(jī)器學(xué)習(xí)往往能夠通過自適應(yīng)學(xué)習(xí)數(shù)據(jù)中的潛在規(guī)律,從而獲得更強(qiáng)的問題解決能力。因此,受到前人研究的啟示,本研究認(rèn)為基于機(jī)器學(xué)習(xí)視角的Q矩陣修正方法也將會(huì)有更好的表現(xiàn)。

      本研究的目的是基于機(jī)器學(xué)習(xí)提出適用于Q矩陣的修正方法,并與最新提出的Wald-XPD法分別從模擬與實(shí)證研究中比較性能。本文其他部分內(nèi)容如下:第二部分介紹認(rèn)知診斷飽和模型、Wald-XPD修正方法以及機(jī)器學(xué)習(xí)中的隨機(jī)森林算法,以使文章更易理解;第三部分介紹基于隨機(jī)森林進(jìn)行Q矩陣修正的新方法及修正的具體步驟;第四部分為用于Q矩陣修正的隨機(jī)森林模型訓(xùn)練研究,包括生成數(shù)據(jù)集、提取特征、訓(xùn)練及評(píng)估;第五部分開展模擬研究以驗(yàn)證新方法的有效性;第六部分進(jìn)行實(shí)證數(shù)據(jù)分析,以驗(yàn)證新方法在實(shí)際應(yīng)用中的可行性;最后一部分對(duì)新方法進(jìn)行討論與展望。

      2 現(xiàn)有理論與方法

      在含有J道題目、測(cè)量K個(gè)屬性的二級(jí)評(píng)分認(rèn)知診斷測(cè)驗(yàn)中,J×K維的Q矩陣描述了測(cè)驗(yàn)題目與潛在屬性的關(guān)系。以J=3、K=2為例,根據(jù)題目與屬性的關(guān)系,可以構(gòu)建如下Q矩陣(記Q1):

      矩陣中的行表示題目的q向量,列表示屬性,元素為1表示題目考察了該屬性,為0則表示未考察。研究者可使用認(rèn)知診斷模型分析被試在各題目上的觀測(cè)作答數(shù)據(jù),實(shí)現(xiàn)被試的診斷分類,知曉被試在各個(gè)屬性上的掌握情況。然而,Q矩陣會(huì)包含不同程度的錯(cuò)誤界定(Chiu,2013;Li &Suen,2013;Rupp &Templin,2008),因此對(duì)Q矩陣修正是進(jìn)行CDA的重要前提。

      2.1 飽和CDM

      相較簡(jiǎn)化模型,飽和模型沒有嚴(yán)格的屬性作用機(jī)制假設(shè),并在加以約束時(shí)可轉(zhuǎn)化為多種簡(jiǎn)化模型(de la Torre,2011;Henson et al.,2009)。本研究以G-DINA為例進(jìn)行Q矩陣修正。G-DINA模型的一般表達(dá)式為:

      其中,Pj(αl)是屬性掌握模式為αl(l=1,2...L,L=2K*)的被試正確作答題目j的概率,K*為坍塌(collapse)q向量的屬性個(gè)數(shù);δj0為題目j的截距項(xiàng)參數(shù);δjk為αlk的主效應(yīng)參數(shù);是αlk與的交互效應(yīng)參數(shù);δj(12...K)是αl1...αlk的交互效應(yīng)參數(shù);為屬性掌握模式為αl的被試對(duì)于屬性k/k'的掌握情況,若掌握則取值1,否則為0。

      2.2 最新發(fā)表的傳統(tǒng)修正方法:Wald-XPD 法

      Wald-XPD法是Wald檢驗(yàn)與PVAF的結(jié)合,在題目水平上對(duì)Q矩陣進(jìn)行修正,其基本邏輯為:修正題目j時(shí),使PVAF值最大的單個(gè)屬性將被增加到屬性全為0的向量(即q=[00...0])中作為啟動(dòng),并在后續(xù)迭代中通過Wald檢驗(yàn)不斷增減該向量中的屬性,過程中若出現(xiàn)PVAF大于切分點(diǎn)、或?qū)傩圆辉僭鰷p時(shí)修正結(jié)束。

      Wald統(tǒng)計(jì)量服從漸近χ2分布,自由度為2K*-1,計(jì)算方式為:

      其中,R為限制性矩陣;Pj(α)為題目j的正確作答概率向量;Vj為題目j的正確作答概率的方差-協(xié)方差矩陣,可通過Mj矩陣(de la Torre,2011)與題目參數(shù)的方差-協(xié)方差矩陣∑j相乘得到,即Vj=Mj×∑j?!苆為∑中第j題的部分,為∑可通過對(duì)信息矩陣求逆所得。Wald-XPD采用完整信息矩陣,即經(jīng)驗(yàn)交叉相乘矩陣計(jì)算∑。令πl(wèi)表示不同屬性掌握模式的被試分布狀況,l(X)為觀測(cè)作答數(shù)據(jù)的對(duì)數(shù)似然,δ為題目參數(shù),于是有:

      Mj是2K*×2K*的矩陣,用以表示題目j各參數(shù)與屬性掌握模式之間的關(guān)系,行代表不同的掌握模式,列代表不同的項(xiàng)目參數(shù)。以上例Q1中第3題(q向量為[11])為例,存在如下關(guān)系:

      PVAF由廣義區(qū)分度指標(biāo)2(GDI;de la Torre&Chiu,2016)計(jì)算得到。2用于衡量題目的區(qū)分度,本質(zhì)為所有屬性掌握模式下的正確作答概率的方差:。正確界定q向量時(shí)計(jì)算所得的2較大,而當(dāng)q向量被過度界定時(shí)2將增大,且被過度界定的屬性數(shù)量越多2越大,屬性全為1的q向量(即q1∶K)有最大的2(de la Torre,2016)。這是由于q向量中屬性增多導(dǎo)致題目參數(shù)增多,因此各屬性模式之間的正確作答概率差異增大,進(jìn)而導(dǎo)致方差增大,但這種差異增長(zhǎng)是虛假的。因此,de la Torre等人通過計(jì)算PVAF=以描述當(dāng)前q向量的區(qū)分度對(duì)最大區(qū)分度的解釋程度,選擇合適的PVAF切分點(diǎn)以實(shí)現(xiàn)q向量擬合與簡(jiǎn)約的平衡。根據(jù)以往研究,PVAF的切分點(diǎn)通常取0.95(劉彥樓,吳瓊瓊,2023;Ma &de la Torre,2020;Nájera et al.,2021)。

      2.3 機(jī)器學(xué)習(xí)算法:隨機(jī)森林

      隨機(jī)森林(RF;Breiman,2001)結(jié)合隨機(jī)子空間方法與Bagging集成學(xué)習(xí)理論(Breiman,1996;Ho,1998)在分類與回歸樹(CART;Breiman et al.,1984)的基礎(chǔ)上建立,即使在樣本量小、特征維度高時(shí)也有良好表現(xiàn)(Ziegler &Knig,2013),是一種高效的有監(jiān)督學(xué)習(xí)算法。隨機(jī)森林采用bootstrap重抽樣技術(shù)從原始樣本集中抽取等量的子樣本集來生成決策樹,并從所有的特征變量中隨機(jī)抽取一定數(shù)量(mtry參數(shù))作為劃分樹節(jié)點(diǎn)的依據(jù)。“森林”即由這些隨機(jī)生成的決策樹構(gòu)成(決策樹的數(shù)量為ntree參數(shù)),森林的輸出結(jié)果為所有決策樹結(jié)果的平均值,該做法的優(yōu)勢(shì)在于不依賴單顆樹的結(jié)果,也不以全部特征建立決策樹,可以使森林有效防止過度擬合,同時(shí)也使最終輸出結(jié)果更精確。此外,森林完全基于樹模型,過程中不涉及距離矩陣,因此可以不考慮特征的歸一化問題。子樹可以并行運(yùn)行,這使得森林模型可以被高效訓(xùn)練及使用。圖1呈現(xiàn)了隨機(jī)森林的一般結(jié)構(gòu)。

      圖1 隨機(jī)森林的一般結(jié)構(gòu)示意圖

      隨機(jī)森林因其高效的性能和自身獨(dú)特優(yōu)勢(shì)被應(yīng)用于各個(gè)領(lǐng)域,如Goretzko等(2020)使用模擬的測(cè)驗(yàn)數(shù)據(jù)訓(xùn)練隨機(jī)森林模型以用于探索性因素分析的因子保留,準(zhǔn)確率高于平行分析、比較數(shù)據(jù)法等傳統(tǒng)因素分析方法;駱方等(2021)同時(shí)采用隨機(jī)森林、多層感知機(jī)、支持向量機(jī)等機(jī)器學(xué)習(xí)算法訓(xùn)練害羞特質(zhì)預(yù)測(cè)模型,結(jié)果表明隨機(jī)森林的模型訓(xùn)練最成功;還有研究者使用神經(jīng)影像數(shù)據(jù)訓(xùn)練隨機(jī)森林模型以預(yù)測(cè)阿爾茲海默癥(Sarica et al.,2017),為疾病的診斷與預(yù)防提供指導(dǎo)。整體而言,在以往研究中,隨機(jī)森林模型具有較優(yōu)異的表現(xiàn)。

      3 基于隨機(jī)森林的Q 矩陣修正方法

      隨機(jī)森林可用于分類、回歸和預(yù)測(cè)等多類型的任務(wù),而Q矩陣修正可被視作分類任務(wù):以所有的q向量類型為可能的分類結(jié)果,對(duì)Q矩陣中每一題目的q向量進(jìn)行分類。具體地,假設(shè)某個(gè)測(cè)量了K個(gè)屬性的Q矩陣需要被修正,所有的s向量類型共有2K-1種,那么該矩陣中的q向量都將會(huì)被分類為這2K-1種類型。傳統(tǒng)的Q矩陣修正采用不同方式和指標(biāo)進(jìn)行,如GDI法將PVAF達(dá)到切分點(diǎn)時(shí)的q向量作為分類結(jié)果;Wald-XPD法將PVAF達(dá)到切分點(diǎn)或者沒有其他必要屬性的q向量作為分類結(jié)果。本研究將使用隨機(jī)森林從數(shù)據(jù)中學(xué)習(xí)分類規(guī)則,以訓(xùn)練可用于Q矩陣修正的隨機(jī)森林模型。具體的訓(xùn)練過程及修正步驟見圖2。其中,訓(xùn)練過程包括:生成數(shù)據(jù)集、從數(shù)據(jù)集中提取特征、訓(xùn)練以及評(píng)估隨機(jī)森林模型,詳見本文第四部分。使用隨機(jī)森林模型進(jìn)行Q矩陣修正,只需要從測(cè)驗(yàn)數(shù)據(jù)中提取特征,并將其輸入到隨機(jī)森林模型中,模型將會(huì)以學(xué)習(xí)到的分類規(guī)則逐題進(jìn)行分類,當(dāng)所有題目均分類結(jié)束就輸出修正后的Q矩陣。以上文K=2,J=3的Q1矩陣為例,假設(shè)矩陣中包含錯(cuò)誤界定的屬性,所有可能的q向量為類22-1=3類:[10]、[01]、[11],Q矩陣中三道題目的q向量可能是這三類中的任何一類,隨機(jī)森林模型的任務(wù)即是將這三道題正確地分類至這三類q向量中,并輸出修正后的Q矩陣。

      圖2 隨機(jī)森林模型訓(xùn)練及Q 矩陣修正過程示意圖

      4 研究1:模型訓(xùn)練研究

      研究1的主要目的是訓(xùn)練隨機(jī)森林模型以進(jìn)行Q矩陣修正。Sessoms和Henson(2018)的文獻(xiàn)綜述指出,4屬性的Q矩陣是應(yīng)用類文章最常使用的屬性數(shù)量,同時(shí)參考Nájera等(2021)與劉彥樓與吳瓊瓊(2023)在模擬研究中屬性數(shù)量的設(shè)置,本研究將Q矩陣的屬性數(shù)量設(shè)置為K=4,但方法適用于任意屬性數(shù)量情境。R代碼及隨機(jī)森林模型可從https://osf.io/ve2wn/網(wǎng)站下載。

      4.1 數(shù)據(jù)集生成

      一般而言,訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集規(guī)模越大,模型越精確。但當(dāng)數(shù)據(jù)集規(guī)模大到一定程度后,其對(duì)模型精度的提升作用在衰減,且大數(shù)據(jù)集的模型訓(xùn)練需要消耗更多的算力與時(shí)間成本。因此,研究者往往綜合成本與性能提升等因素后使用合適規(guī)模的數(shù)據(jù)集,如Goretzko與Bühner(2020)模擬產(chǎn)生500000樣本大小的隨機(jī)數(shù)據(jù)集來訓(xùn)練隨機(jī)森林模型,用于探索性因子分析中的因子保留;駱方等(2021)用于羞怯特質(zhì)預(yù)測(cè)的隨機(jī)森林模型,其訓(xùn)練樣本在176~1089之間不等;Sarica等(2017)對(duì)過往使用隨機(jī)森林預(yù)測(cè)阿爾茲海默癥的12個(gè)研究進(jìn)行綜述,各研究的訓(xùn)練樣本大小從47~825之間不等。同樣地,本研究對(duì)樣本大小的設(shè)置也需要綜合考慮各方因素。盡管較大的數(shù)據(jù)集在理論上能夠獲得性能更優(yōu)異的隨機(jī)森林模型,但過大的數(shù)據(jù)集需要更多的算力與訓(xùn)練時(shí)間。因此,在綜合考慮了過往認(rèn)知診斷研究中涉及到的樣本量、算力成本及實(shí)際應(yīng)用價(jià)值等因素與模型精度的平衡后,本研究采用樣本大小為13030的數(shù)據(jù)集(來自隨機(jī)模擬的500份認(rèn)知診斷測(cè)驗(yàn),共包含13030道題目的作答數(shù)據(jù)),以訓(xùn)練用于Q矩陣修正的隨機(jī)森林模型。

      500份診斷測(cè)驗(yàn)數(shù)據(jù)中,每份數(shù)據(jù)均遵循以下規(guī)則:測(cè)驗(yàn)的題目數(shù)量由題目數(shù)量與屬性數(shù)量之比(ratio of number of items to attribute,JK)決定,而題目數(shù)量與屬性數(shù)量之比從均勻分布U(3,10)中隨機(jī)生成,例如在K=4、JK=4時(shí)將模擬4×4=16道題目。測(cè)驗(yàn)中每道題的題目質(zhì)量服從P(1)~U[0.6,1]且P(0)~U[0,0.4],其中P(1)為掌握了所有需要的屬性時(shí)的正確作答概率,P(0)為未掌握任何所需屬性時(shí)的正確作答概率。作答數(shù)據(jù)由數(shù)量為N的被試在G-DINA模型下生成,N從均勻分布U[200,2500]中隨機(jī)生成。以上題目數(shù)量與屬性數(shù)量之比、被試數(shù)量、以及題目質(zhì)量的設(shè)置涵蓋了以往Q矩陣修正研究中設(shè)置的大部分條件。被試的屬性分布采用多元正態(tài)分布θ~MVN(0K,∑)生成,該分布是被廣泛使用、貼合現(xiàn)實(shí)情景的分布(郭磊,周文杰,2021;Chiu,et al.,2009;Chiu,2013),且協(xié)方差常被設(shè)置為0.5。θi=[θi1,θi2...,θik]包含被試i在各屬性上的能力大小,用下式生成被試的屬性掌握模式:

      4.2 特征提取

      特征往往從數(shù)據(jù)集中提取,經(jīng)由機(jī)器學(xué)習(xí)算法學(xué)習(xí)其中的潛在規(guī)律,并生成可用于解決問題的模型,該過程即為模型訓(xùn)練過程。使用不同特征訓(xùn)練的模型彼此存在差異,本研究主要考慮三種類型特征:PVAF、對(duì)數(shù)似然值、R統(tǒng)計(jì)量(Yu &Cheng.,2019)。注意,為避免特征數(shù)量的劇增導(dǎo)致樣本量需求的劇增,本文不考慮同時(shí)使用三種特征來訓(xùn)練一種模型,而是分別以這三種特征訓(xùn)練三種模型。

      PVAF應(yīng)用于許多傳統(tǒng)的Q矩陣修正方法中,如GDI、Hull、Wald-XPD法等,這些方法都有不錯(cuò)的修正能力。因此,有理由認(rèn)為以PVAF為特征訓(xùn)練的隨機(jī)森林模型也會(huì)有良好的Q矩陣修正能力。

      此外,對(duì)數(shù)似然在認(rèn)知診斷中應(yīng)用廣泛,例如:在進(jìn)行認(rèn)知診斷模型的參數(shù)估計(jì)時(shí),常使用基于對(duì)數(shù)似然的最大期望化算法;相對(duì)擬合指標(biāo)(如AIC、BIC等,其本質(zhì)即為對(duì)參數(shù)數(shù)量進(jìn)行懲罰后的對(duì)數(shù)似然)等用于Q矩陣修正(汪大勛等,2020);Wang等(2018)通過最大化對(duì)數(shù)似然值對(duì)DINA模型下的Q矩陣進(jìn)行修正,表現(xiàn)良好。因此,對(duì)數(shù)似然值理論上也是較好的特征,其計(jì)算方式為:

      其中,LLj為題目j的對(duì)數(shù)似然值;Xij為被試i在題目j上的觀測(cè)作答數(shù)據(jù)(二級(jí)計(jì)分測(cè)驗(yàn)中,1表示作答正確,0表示錯(cuò)誤);ω(αl|Xi)為被試i的屬性掌握模式為αl的后驗(yàn)概率。

      最后,R統(tǒng)計(jì)量由Yu與Cheng等(2019)借鑒項(xiàng)目反應(yīng)理論中的標(biāo)準(zhǔn)化殘差(Masters &Wright,1997)而提出,可以描述模型與數(shù)據(jù)的擬合程度,也可以用于Q矩陣修正。Yu與Cheng等在修正Q矩陣時(shí)總是選擇R統(tǒng)計(jì)量最小的q向量作為修正結(jié)果。盡管R統(tǒng)計(jì)量的原始定義并不局限于簡(jiǎn)化模型,但Yu與Cheng等在研究中只將其應(yīng)用到了簡(jiǎn)化模型中,且基于簡(jiǎn)化模型機(jī)制推導(dǎo)出的公式也只適用于簡(jiǎn)化模型。實(shí)際上,R統(tǒng)計(jì)量還未在飽和模型下使用,而Nájera等(2021)認(rèn)為R統(tǒng)計(jì)量具有在飽和模型下進(jìn)行Q矩陣修正的良好前景,因此,本研究將使用R統(tǒng)計(jì)量作為特征以訓(xùn)練隨機(jī)森林模型。R統(tǒng)計(jì)量的原始定義如下:

      其中,E(Xij|αi)為被試i在第j題上的期望得分,在Yu與Cheng等人研究中R統(tǒng)計(jì)量?jī)H被用于DINA模型,因此E(Xij|αi)即為簡(jiǎn)化模型中的不失誤概率(1-s)或猜測(cè)概率(g)。由于飽和模型與簡(jiǎn)化模型參數(shù)不同,本研究將R統(tǒng)計(jì)量進(jìn)行改造,在考慮被試的后驗(yàn)概率分布后,使用期望的正確作答概率來表示期望得分(Ma &de la Torre,2016),即有P(Xij|αi)為被試i在題目j中作答結(jié)果為Xij的概率,即

      與廣義區(qū)分度指標(biāo)2類似,正確界定的q向量的對(duì)數(shù)似然值或R統(tǒng)計(jì)量在理論上是最優(yōu)的(對(duì)數(shù)似然值應(yīng)最大,R統(tǒng)計(jì)量應(yīng)最小)。但由于過度界定q向量有更多的參數(shù)(對(duì)數(shù)據(jù)有更好的擬合),因此過度界定的q向量在對(duì)數(shù)似然和R統(tǒng)計(jì)量上都將更優(yōu),然而這樣的優(yōu)度提升是過擬合、虛假的。參考PVAF做法,本研究同樣計(jì)算對(duì)數(shù)似然值與R統(tǒng)計(jì)量對(duì)最優(yōu)值的解釋程度,即對(duì)數(shù)似然值占比與R統(tǒng)計(jì)量占比抽取特征時(shí),本研究將分別計(jì)算題目,取所有可能的q向量時(shí)的三類占比(每一類都有2K-1),訓(xùn)練模型時(shí)分別以方差占比、對(duì)數(shù)似然值占比與R統(tǒng)計(jì)量占比作為訓(xùn)練特征(特征數(shù)量為2K-1),訓(xùn)練三種不同的隨機(jī)森林模型。

      4.3 模型訓(xùn)練與評(píng)估

      本研究數(shù)據(jù)集共包含13030道題目的測(cè)驗(yàn)數(shù)據(jù),其中的70%作為訓(xùn)練集用于訓(xùn)練隨機(jī)森林模型,另外30%作為測(cè)試集以評(píng)估模型精度。由于是分類任務(wù)的模型訓(xùn)練,因此隨機(jī)森林的mtry參數(shù)取。由于隨機(jī)森林具有不易過擬合的性質(zhì),理論上森林中子樹的數(shù)量ntree可以盡量大,但過大的ntree會(huì)導(dǎo)致森林形成緩慢,且子樹的規(guī)模在達(dá)到一定規(guī)模型解釋性反而減弱(劉敏等,2015),故本研究取ntree=500。

      評(píng)估指標(biāo)采用機(jī)器學(xué)習(xí)領(lǐng)域多分類任務(wù)的常用指標(biāo)(張開放等,2021;Sasikala et al.,2017;Shai &Shai,2014):準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1(F1-score)、Kappa一致性指標(biāo)。這五類指標(biāo)均基于混淆矩陣計(jì)算,取值越高代表模型訓(xùn)練越成功。下面以三分類任務(wù)(三類為C1、C2、C3)為例介紹評(píng)估指標(biāo),假設(shè)該任務(wù)分類結(jié)果的混淆矩陣如下:

      表1 三分類任務(wù)的混淆矩陣

      可以看出,基于三類特征訓(xùn)練得到的隨機(jī)森林模型的評(píng)估指標(biāo)均在0.75以上,表現(xiàn)較好。模型之間存在細(xì)微差異,RF-L在各項(xiàng)指標(biāo)上均低于RF-P與RF-R,但差異均在0.02以內(nèi)。而RF-P與RF-R兩個(gè)模型雖然在不同指標(biāo)上各有優(yōu)劣,但彼此差異均未超過0.002,可忽略不計(jì)?;谝陨辖Y(jié)果,我們將訓(xùn)練好的模型通過模擬研究,在更加充分的實(shí)驗(yàn)條件下檢驗(yàn)其效能。

      表2 模型評(píng)估結(jié)果

      5 研究2:模擬研究

      本研究的主要目的是通過模擬研究驗(yàn)證隨機(jī)森林模型修正Q矩陣的有效性,并與目前表現(xiàn)最佳的Wald-XPD方法進(jìn)行比較。研究考慮六類自變量:被試屬性分布AD、Q矩陣中單位矩陣(identity matrix,IM)的數(shù)量、題目質(zhì)量IQ、題目數(shù)量與屬性數(shù)量之比JK、被試數(shù)量N、Q矩陣錯(cuò)誤界定的比例QM,具體情境見表3。

      表3 各自變量水平匯總

      5.1 模擬條件

      參考以往Q矩陣修正研究(de la Torre &Chiu,2016;Ma &de la Torre,2020;Nájera et al.,2021;Yu &Cheng.,2019)的模擬條件,本研究各因素的具體設(shè)置如表3所示。

      考慮三種被試屬性分布:多元正態(tài)分布、高階分布(de la Torre &Douglas,2004)與均勻分布。多元正態(tài)分布的設(shè)置與“3.1”部分中生成被試屬性掌握模式的分布相同。高階分布的條件設(shè)置與Nájera等(2021)相同,即被試的能力參數(shù)θ從標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)產(chǎn)生,項(xiàng)目區(qū)分度參數(shù)服從λk1~U[1,2]、屬性難度參數(shù)λk0從[-1.5,1.5]中按照屬性數(shù)量等距產(chǎn)生。均勻分布條件時(shí),每個(gè)被試的屬性掌握模式從所有可能的掌握模式中隨機(jī)生成。

      本研究考慮在Q矩陣中包含不同數(shù)量的單位矩陣時(shí),修正方法的性能變化。在過往的Q矩陣修正研究中,研究者往往限制Q矩陣中必須包含2個(gè)或2個(gè)以上的單位矩陣(劉彥樓,吳瓊瓊,2023;Nájera et al.,2021),以實(shí)現(xiàn)被試屬性掌握模式的可識(shí)別性(Fang,G.et al.,2019;Xu,G.,2017)。但在實(shí)際測(cè)驗(yàn)中的Q矩陣卻并不一定包含如此理想,一些實(shí)證數(shù)據(jù)的Q矩陣甚至不含有單位矩陣,如分?jǐn)?shù)減法數(shù)據(jù)(Chiu,2013;Tatsuoka,1984)、PISA2000的閱讀測(cè)驗(yàn)數(shù)據(jù)(Chen &de la Torre,2014)。Q矩陣修正方法的模擬研究條件與現(xiàn)實(shí)情景不符可能導(dǎo)致實(shí)際應(yīng)用價(jià)值的降低,甚至得到并不是非常準(zhǔn)確的Q矩陣。因此,本研究考慮更加貼合現(xiàn)實(shí)的Q矩陣:Q矩陣中所有題目的真實(shí)q向量均從所有可能的q向量中隨機(jī)產(chǎn)生,并限制這些Q矩陣中單位矩陣的數(shù)量為0、1、2,以生成三種不同的Q矩陣。

      參考Nájera等(2021)與劉彥樓與吳瓊瓊(2023)的模擬研究條件設(shè)置,本研究其他條件設(shè)置如下:以題目數(shù)量與屬性數(shù)量之比控制題目數(shù)量并設(shè)置4和8兩水平,由于Q矩陣的屬性數(shù)量為K=4,題目數(shù)量即為16和32題。題目質(zhì)量采用P(0)~U[0,0.2]且P(1)~U[0.8,1]、P(0)~U[0.1,0.3]且P(1)~U[0.7,0.9]、以及P(0)~U[0.2,0.4]且P(1)~U[0.6,0.8]三個(gè)水平,分別代表高、中、低三種題目質(zhì)量。Q矩陣錯(cuò)誤界定的屬性比例設(shè)置為0.15和0.3。被試數(shù)量設(shè)置為500、1000和2000,分別代表小、中、大樣本,并在G-DINA模型下模擬被試的作答數(shù)據(jù)。

      本研究設(shè)置以上六類自變量,共3×3×2×3×3×2=324個(gè)實(shí)驗(yàn)條件,每個(gè)條件循環(huán)100次。

      5.2 評(píng)價(jià)指標(biāo)

      參考過往Q矩陣修正研究中,本研究采用五種常使用的指標(biāo)評(píng)價(jià)各修正方法,分別為:QRR、TPR、TNR、OSR、USR,計(jì)算每一條件下100次循環(huán)的指標(biāo)平均值。QRR為修正后的Q矩陣與正確的Q矩陣的一致程度,表示修正后的Q矩陣的準(zhǔn)確率,是評(píng)價(jià)修正方法最重要的指標(biāo),計(jì)算方式如下:

      TPR為Q矩陣中正確界定的屬性被保留的比例,而TNR為Q矩陣中錯(cuò)誤界定的屬性被修正正確的比例,兩者分別從保留正確屬性和修正錯(cuò)誤屬性兩方面更細(xì)致地評(píng)估修正方法,通過以下方式計(jì)算:

      USR為修正后的Q矩陣吝嗇界定(低估,即將屬性由1判定為0)的比例,OSR為修正后的Q矩陣過度界定(高估,即將屬性由0判定為1)的比例,兩者分別評(píng)估修正方法的低估傾向與高估傾向,通過以下方式計(jì)算:

      公式(8)至(12)中,I(·)為指示函數(shù),當(dāng)其中等式成立時(shí)取值為1,否則為0;為修正后Q矩陣中第j題的第k屬性;為原始Q矩陣中第j題的第k屬性;為正確Q矩陣中第j題的第k屬性。QRR、TPR與TNR取值越高表明修正方法越好,USR與OSR取值越小表明修正方法低估與高估傾向越不明顯。好的修正方法應(yīng)當(dāng)充分平衡USR與OSR,既不低估也不高估。

      5.3 結(jié)果

      表4呈現(xiàn)了不同自變量水平下Wald-XPD、RF-P、RF-L以及RF-R方法的總體結(jié)果,表中加粗?jǐn)?shù)據(jù)為QRR、TPR、TNR在同一條件下的最優(yōu)結(jié)果,而斜體數(shù)據(jù)表明修正方法在該條件下高估或低估的傾向最明顯,即說明表現(xiàn)欠佳。

      被試屬性分布、Q矩陣中單位矩陣的數(shù)量、Q矩陣錯(cuò)誤界定的比例、題目質(zhì)量、題目數(shù)量與屬性數(shù)量之比、被試數(shù)量等均對(duì)不同的修正方法有明顯影響:被試的屬性分布為均勻分布時(shí)修正效果最好,其次為多元正態(tài)或高階分布,且兩者差異不大。Q矩陣中的單位矩陣數(shù)量越多時(shí)各修正方法的修正效果越好,如不含單位矩陣時(shí)Wald-XPD、RF-P、RF-L、RF-R四個(gè)方法的QRR值分別為0.775、0.808、0.801、0.812,而當(dāng)Q矩陣含有兩個(gè)單位矩陣時(shí),各方法的QRR分別提升了0.072、0.037、0.038、0.036。原始Q矩陣中錯(cuò)誤界定的比例越低則各方法的修正效果越好,當(dāng)Q矩陣錯(cuò)誤界定比例為0.15時(shí)各方法的QRR、TPR、TNR相比Q矩陣錯(cuò)誤界定比例為0.3時(shí)至少提高了0.09、0.03、0.12,而最多則分別提高了0.129、0.045、0.0143。題目質(zhì)量越高、被試數(shù)量越多時(shí)則修正效果越好,且所有指標(biāo)均在題目質(zhì)量高、被試數(shù)量為2000時(shí)最優(yōu)。而對(duì)于題目數(shù)量與屬性數(shù)量之比而言,除TPR指標(biāo)外的其余指標(biāo)(尤其是TNR)均在題目數(shù)量與屬性數(shù)量之比為8時(shí)取得最優(yōu)值,與劉彥樓與吳瓊瓊(2023)和Nájera等(2021)研究結(jié)果一致。

      TNR表示修正方法將錯(cuò)誤界定的屬性修正成功的能力,TPR表征修正方法將原本正確界定的屬性保留下來的能力,而QRR指標(biāo)代表修正后Q矩陣準(zhǔn)確率,是對(duì)修正錯(cuò)誤屬性與保留正確屬性的綜合性指標(biāo),因此QRR指標(biāo)的結(jié)果最為重要。從結(jié)果可以看出,盡管不同方法的修正結(jié)果存在差異,但總體而言,在各實(shí)驗(yàn)條件下RF-R方法的修正效果最好,其QRR指標(biāo)最高,其次為RF-P與RF-L方法,Wald-XPD方法的QRR值最低。Wald-XPD雖然在各自變量水平下都有最高的TNR,但其TPR指標(biāo)均遠(yuǎn)小于其他方法,因此導(dǎo)致了最低的QRR結(jié)果。同樣地,RF-L方法雖然在TPR指標(biāo)上與RF-R極為接近,但是在TNR指標(biāo)上較低,因此RF-L的綜合表現(xiàn)(QRR)低于RF-R與RF-P。四種方法(Wald-XPD、RF-P、RF-L與RF-R)的USR平均值分別為0.132、0.069、0.078、0.073,OSR平均值分別為0.056、0.108、0.106、0.104。同時(shí),Wald-XPD方法在各個(gè)條件下均有最大的USR與最小的OSR值,表明在四個(gè)方法中Wald-XPD最傾向于低估Q矩陣中的屬性,即經(jīng)Wald-XPD方法修正后的Q矩陣中元素為“1”的數(shù)量會(huì)少于正確Q矩陣中的數(shù)量。而RF-P方法在大多數(shù)條件下都有最大OSR與最小USR,表明RF-P最傾向于高估Q矩陣中的屬性,即經(jīng)RF-P方法修正后的Q矩陣中元素為“1”的數(shù)量會(huì)多于正確矩陣中的數(shù)量。而RF-L與RF-R在平衡高估與低估上的表現(xiàn)較好,其中RF-R的表現(xiàn)最好。

      TPR、TNR、USR以及OSR分別表示了不同方法在保留正確屬性、修正錯(cuò)誤屬性、低估傾向、高估傾向等方面的性能,在模擬研究中可用于比較修正方法之間的細(xì)致差異與特性。然而單一指標(biāo)的意義有限,例如Wald-XPD方法相對(duì)善于修正錯(cuò)誤的屬性,而保留正確屬性的能力較弱,因此修正后的Q矩陣準(zhǔn)確率不高。QRR指標(biāo)能夠綜合的描述Q矩陣的準(zhǔn)確率,而進(jìn)行Q矩陣修正方法研究的根本目的為獲取準(zhǔn)確率更高的Q矩陣,因此下面重點(diǎn)闡述不同試驗(yàn)條件下不同方法的QRR指標(biāo)。

      圖3呈現(xiàn)了Q矩陣中未包含單位矩陣時(shí)不同方法的QRR結(jié)果,圖中“A”“B”“C”分別代表被試數(shù)量自變量的500、1000、2000水平,圖4與圖5意義相同。在多數(shù)條件下,RF-P、RF-L和RF-R方法的QRR值很接近。其中,RF-R表現(xiàn)最好,QRR平均值為0.812,RF-L與RF-P次之,QRR平均值分別為0.801和0.808,但相差不大,而Wald-XPD的QRR平均值僅為0.775,且該方法在題目質(zhì)量低、Q矩陣錯(cuò)誤率為0.15、題目數(shù)量與屬性數(shù)量之比等于4的條件下與其他方法的差異最大。

      圖4 不同方法在包含1 個(gè)單位矩陣時(shí)的QRR 結(jié)果

      圖5 不同方法在包含2 個(gè)單位矩陣時(shí)的QRR 結(jié)果

      圖4呈現(xiàn)了Q矩陣中含有1個(gè)單位矩陣時(shí)不同方法的QRR結(jié)果。與不包含單位矩陣時(shí)類似,在大多數(shù)情況下RF-R有最優(yōu)的QRR指標(biāo),平均值為0.825,RF-L與RF-R的QRR結(jié)果與RF-R接近,分別為0.815和0.821,而Wald-XPD的QRR結(jié)果為0.805。當(dāng)Q矩陣錯(cuò)誤界定比例0.15、題目質(zhì)量低、題目數(shù)量與屬性數(shù)量之比等于4等時(shí),三種新方法的QRR值明顯高于Wald-XPD方法。

      圖5呈現(xiàn)了Q矩陣中含有2個(gè)單位矩陣時(shí)不同方法的QRR結(jié)果。此時(shí)盡管各方法之間的差異不明顯,但在總體上RF-R方法仍然具有最高的QRR指標(biāo),整體平均值為0.848,而RF-L、RF-P、以及Wald-XPD方法的結(jié)果分別為0.839、0.845、0.847。Wald-XPD方法在Q矩陣錯(cuò)誤界定比例為0.15、題目質(zhì)量低等條件下明顯不如其他三種新方法。而當(dāng)Q矩陣錯(cuò)誤界定比例為0.3時(shí),Wald-XPD方法的平均QRR(0.802)稍高于其他三種方法(RF-P、RF-L以及RF-R的平均QRR分別為0.785、0.779、0.790),但彼此差異不大。當(dāng)單位矩陣的數(shù)量從0增加到2時(shí)(即圖3至圖5),Wald-XPD方法的QRR指標(biāo)與RF-P、RF-L以及RF-R方法逐漸接近,表明單位矩陣對(duì)Wald-XPD的影響較大,在單位矩陣數(shù)量較少時(shí)該方法的修正效果將會(huì)大幅下降,而三種新方法具有較強(qiáng)的穩(wěn)健性。

      綜上,不同自變量對(duì)所有修正方法均有明顯影響,而在四種修正方法中,三種基于RF模型的新方法表現(xiàn)較Wald-XPD方法更優(yōu)秀,其中RF-R在各個(gè)條件下的表現(xiàn)最好,RF-P與RF-L次之。

      6 研究3:實(shí)證數(shù)據(jù)分析

      為考察不同修正方法在實(shí)證數(shù)據(jù)中的表現(xiàn),本研究與劉彥樓與吳瓊瓊等(2023)相同,采用德國(guó)圖賓根大學(xué)關(guān)于初級(jí)概率論的學(xué)習(xí)實(shí)驗(yàn)數(shù)據(jù),共包含504名被試在12道初級(jí)概率問題上作答反應(yīng),可從R軟件包pks(Heller &Wickelmaier,2013)中獲取。Philipp等(2018)編制了原始Q矩陣(見表5),共測(cè)量了四個(gè)屬性:(A1)計(jì)算事件發(fā)生的概率,(A2)計(jì)算對(duì)立事件發(fā)生的概率,(A3)計(jì)算兩個(gè)不相干事件發(fā)生的概率,(A4)計(jì)算兩個(gè)獨(dú)立事件發(fā)生的概率。本研究在G-DINA模型下,分別使用Wald-XPD、RF-P、RF-L以及RF-R方法對(duì)原始Q矩陣進(jìn)行修正,得到了如表5的結(jié)果。

      表5 原始Q 矩陣及其修正結(jié)果

      四種方法中,Wald-XPD對(duì)16個(gè)屬性做出了調(diào)整,RF-P、RF-L和RF-R三個(gè)方法分別調(diào)整了10、8和8個(gè)屬性。經(jīng)Wald-XPD修正后的Q矩陣中含有元素“1”的屬性最少,除了第八題(修訂后q向量為[0111])外的其余題目均只考察了一個(gè)屬性,而經(jīng)RF-P修正后的Q矩陣中等于1的屬性最多,這與模擬研究中的結(jié)果一致(在四種方法中,Wald-XPD方法低估傾向最明顯,RF-P方法高估傾向最明顯)。

      使用擬合指標(biāo)對(duì)修正后的Q矩陣進(jìn)行模型-數(shù)據(jù)擬合評(píng)估,相對(duì)擬合指標(biāo)使用AIC與BIC,絕對(duì)擬合指標(biāo)使用M2檢驗(yàn)、RMSEA2(Liu et al.,2016)以及SRMSR(standardized root mean squared residual;Ravand &Robitzsch,2018),其中AIC、BIC、RMSEA2、以及SRMSR均是越小表明擬合情況越好,而M2檢驗(yàn)在不顯著時(shí)(p>0.05)表明擬合情況良好。具體擬合結(jié)果見表6。

      表6 實(shí)證數(shù)據(jù)擬合指標(biāo)結(jié)果

      對(duì)于絕對(duì)擬合指標(biāo):經(jīng)RF-P與RF-R方法修正后的Q矩陣其M2統(tǒng)計(jì)量未達(dá)到顯著水平,p值分別為0.315與0.278,表明擬合良好;RMSEA2結(jié)果類似,經(jīng)過RF-P與RF-R方法修正后的Q矩陣有較小的RMSEA2值,分別為0.019和0.023。對(duì)于SRMSR而言,Maydeu-Olivares(2013)認(rèn)為該指標(biāo)小于0.05時(shí)即可忽略擬合的不匹配,在五種Q矩陣中僅Wald-XPD修正后的Q矩陣存在擬合不理想的情況,經(jīng)RF-R修正后的Q矩陣擬合最好,有最小的SRMSR值為0.035。對(duì)于相對(duì)擬合指標(biāo):經(jīng)Wald-XPD與RF-R方法修正后的Q矩陣有比原始Q矩陣更低的AIC與BIC,其中RF-R修正的Q矩陣AIC最低(4935.57),Wald-XPD修正的Q矩陣BIC最低(5152.50)。綜合絕對(duì)擬合與相對(duì)擬合指標(biāo)來看,經(jīng)RF-R方法修正的Q矩陣有最好的模型-數(shù)據(jù)擬合結(jié)果。

      根據(jù)表5的結(jié)果,我們以屬性A1為例討論新方法修正結(jié)果的合理性。同時(shí)根據(jù)表6中相對(duì)擬合與絕對(duì)擬合的結(jié)果可知,RF-R修正的Q矩陣具有最好的擬合,該方法將題目11的屬性A1進(jìn)行了調(diào)整。題目11的描述為:“在一個(gè)車庫(kù)里,有50輛汽車。20輛是黑色的,10輛是柴油動(dòng)力的。假設(shè)汽車的顏色與燃料的種類無關(guān)。那么,隨機(jī)選擇的汽車不是黑色的并且是柴油動(dòng)力的概率是多少?”顯然,11題需要求兩個(gè)獨(dú)立事件(“不是黑色”與“是柴油動(dòng)力”)同時(shí)發(fā)生的概率,需要用到屬性A4而不是屬性A1,而三種新方法都將A1調(diào)整為了0,這與劉彥樓等(2023)對(duì)題目11修正結(jié)果的解釋一致。因此,RF-R對(duì)Q矩陣的修正是合理和可解釋的。

      7 討論與展望

      7.1 討論

      在認(rèn)知診斷評(píng)估中,Q矩陣是CDM實(shí)現(xiàn)被試的屬性掌握模式分類最重要的基礎(chǔ)。由于某些主觀判斷,領(lǐng)域?qū)<议_發(fā)的Q矩陣可能會(huì)存在錯(cuò)誤界定的情況,這對(duì)被試的診斷分類、題目參數(shù)估計(jì)和模型-數(shù)據(jù)擬合等產(chǎn)生了嚴(yán)重的負(fù)面影響(Chiu,2013;de la Torre,2008;Gao et al.,2017;Im &Corter,2011;Li &Suen,2013;Rupp&Templin,2008)。為了獲取更準(zhǔn)確的Q矩陣,研究者提出了多種Q矩陣修正方法。然而現(xiàn)有的這些Q矩陣修正方法(如GDI、Hull、Wald-XPD等)存在一定局限。區(qū)別于傳統(tǒng)的Q矩陣修正研究,本研究將Q矩陣修正視作機(jī)器學(xué)習(xí)中的分類任務(wù),利用隨機(jī)森林算法直接從數(shù)據(jù)中學(xué)習(xí)修正(分類)規(guī)則,并以PVAF、對(duì)數(shù)似然值及改造后的R統(tǒng)計(jì)量等為特征訓(xùn)練了三種不同的RF模型,通過在模擬研究與實(shí)證研究中與最近發(fā)表的Wald-XPD方法進(jìn)行比較,證明了新方法具備更強(qiáng)的修正能力。

      本研究設(shè)置的被試屬性分布、Q矩陣錯(cuò)誤界定比例、題目質(zhì)量、被試數(shù)量、題目數(shù)量與屬性數(shù)量之比五類自變量對(duì)修正方法的影響與以往研究一致,均勻分布下所有方法的修正效果最好,Q矩陣錯(cuò)誤界定的比例越低、題目質(zhì)量越高、被試數(shù)量越大、題目數(shù)量與屬性數(shù)量之比越大時(shí)所有方法的修正效果均越好??赡艿脑蚴请S著這些條件變好后,題目參數(shù)與被試屬性掌握模式的估計(jì)都更加精確。由于目前的Q矩陣修正步驟均是先采用原始Q矩陣進(jìn)行題目參數(shù)與被試屬性掌握模式的估計(jì),再使用估計(jì)所得的題目參數(shù)與被試掌握模式計(jì)算如PVAF、R統(tǒng)計(jì)量等特征量,最后根據(jù)特征量對(duì)原始Q矩陣進(jìn)行修正,因此保證題目參數(shù)與被試掌握模式的估計(jì)精度也很重要。上述五類自變量中任意變量的惡化都會(huì)降低精度,進(jìn)而影響到Q矩陣的修正。

      此外,本文還首次討論了Q矩陣中包含單位矩陣的數(shù)量對(duì)Q矩陣修正方法的影響。在以往研究中,通常會(huì)在Q矩陣中包含2個(gè)及以上的單位矩陣,然而這可能與真實(shí)測(cè)驗(yàn)不符。在目前的認(rèn)知診斷研究中,Q矩陣的編制仍然是理論嚴(yán)格、工作量大的困難任務(wù),實(shí)際中使用的Q矩陣可能很難保證遵循包含2個(gè)以上單位矩陣的要求,如分?jǐn)?shù)減法數(shù)據(jù)以及本文所使用的初級(jí)概率論數(shù)據(jù)。本研究表明,隨著單位矩陣數(shù)量的減少,所有修正方法的有效性均在降低,這同樣是因?yàn)閱挝痪仃嚁?shù)量的減少將會(huì)降低題目參數(shù)和被試掌握模式的估計(jì)精度,進(jìn)而影響到Q矩陣修正,但是新方法更能適應(yīng)單位矩陣數(shù)量不足的情況。

      本研究比較的四種方法在修正表現(xiàn)上有所差異,綜合來看RF-R表現(xiàn)最好,RF-P與RF-L次之,但兩者均很接近RF-R,而Wald-XPD的表現(xiàn)最差。同時(shí),模擬研究中表明新方法在各自變量條件惡化時(shí)有最強(qiáng)的適應(yīng)能力,仍然保持著較高的準(zhǔn)確率,然而Wald-XPD卻下降明顯,尤其在題目質(zhì)量下降、人數(shù)減少、單位矩陣數(shù)量減少時(shí)。本研究認(rèn)為這可能是由于Wald-XPD需要經(jīng)過龐大且復(fù)雜的計(jì)算所致,當(dāng)自變量條件惡化時(shí)會(huì)降低題目參數(shù)和被試掌握狀態(tài)的估計(jì)精度,而Wald-XPD在計(jì)算完整信息矩陣時(shí)需要使用這些參數(shù)進(jìn)行大量的一階導(dǎo)數(shù)、乘法運(yùn)算等,這不僅耗費(fèi)大量時(shí)間,估計(jì)誤差也可能在這些運(yùn)算中不斷累積。在劉彥樓與吳瓊瓊(2023)研究中,使用計(jì)算量較少的不完整信息矩陣的Wald-IC方法在題目質(zhì)量較差時(shí)的表現(xiàn)略微優(yōu)于Wald-XPD方法,正好支持了上述觀點(diǎn)。而在訓(xùn)練完可用模型后,新方法只需要將提取的特征輸入模型并等待輸出分類結(jié)果,該過程非常迅速,也無需額外計(jì)算。

      7.2 展望

      本研究所提出的RF-R方法在模擬與實(shí)證研究中均表現(xiàn)最好,未來仍有需要進(jìn)一步研究的地方,如:(1)機(jī)器學(xué)習(xí)中還有許多高效算法,如支持向量機(jī)、前饋神經(jīng)網(wǎng)絡(luò)等,而本研究只使用了隨機(jī)森林算法。因此,未來可考慮使用不同的機(jī)器學(xué)習(xí)算法。(2)本研究?jī)H訓(xùn)練了PVAF、對(duì)數(shù)似然值、改造后的R統(tǒng)計(jì)量等三類特征。然而還有其他的統(tǒng)計(jì)量,如R2(Nájera et al.,2021)。因此,未來可討論使用其他特征來訓(xùn)練模型。(3)本研究用于訓(xùn)練模型的數(shù)據(jù)集條件,是根據(jù)當(dāng)前認(rèn)知診斷領(lǐng)域中大部分的研究總結(jié)出來的范圍,較為寬泛,如被試人數(shù)服從U(200~2500)、題目質(zhì)量服從P(1)~[0.6,1]且P(0)~U[0,0.4]。雖然這樣能夠增加隨機(jī)森林模型在不同條件的適用性,但可以考慮精細(xì)的訓(xùn)練多個(gè)模型,以獲得在不同條件下更好的修正表現(xiàn)。(4)本研究訓(xùn)練的模型只適用于修正二級(jí)計(jì)分情景下的Q矩陣,未來可考慮在多級(jí)計(jì)分情景下進(jìn)行新方法開發(fā)。

      猜你喜歡
      修正數(shù)量向量
      向量的分解
      Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
      修正這一天
      快樂語文(2021年35期)2022-01-18 06:05:30
      聚焦“向量與三角”創(chuàng)新題
      合同解釋、合同補(bǔ)充與合同修正
      法律方法(2019年4期)2019-11-16 01:07:28
      統(tǒng)一數(shù)量再比較
      軟件修正
      頭發(fā)的數(shù)量
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      井陉县| 贡觉县| 昌宁县| 新郑市| 宝丰县| 讷河市| 农安县| 綦江县| 河北区| 黄冈市| 和政县| 绥江县| 通化县| 息烽县| 壶关县| 宁德市| 蓝田县| 出国| 广宗县| 睢宁县| 确山县| 安岳县| 普洱| 芷江| 高邑县| 遵义市| 卓资县| 南昌县| 德化县| 嵊泗县| 高淳县| 肇东市| 怀远县| 托克托县| 静安区| 商都县| 芜湖市| 广宁县| 洪湖市| 东乌珠穆沁旗| 横峰县|