高椿雷 羅照盛 喻曉鋒 彭亞風 鄭蟬金
(1江西師范大學心理學院; 2江西師范大學初等教育學院, 南昌 330022)
認知診斷評價(Cognitive Diagnosis Assessment,CDA)更細粒度的評價學生對知識的掌握情況并給出詳細的診斷信息。它的實施包含6個過程, 1)評價目標的確定, 2)確定診斷目標所涉及的認知屬性及屬性間的層級關系, 3)認知診斷測驗的正式編制,4)屬性及屬性層級關系的驗證, 5)正式測試及診斷信息的獲取, 6)診斷結果報告及針對性的補救措施的制作(涂冬波, 蔡艷, 丁樹良, 2012; DiBello, Roussos,& Stout, 2007)。CDA穿插在教與學的過程中, 是一種風險相對較低、用于改進教學的測驗方式, 為教師補救教學、學生自我學習提供依據(jù)。當前對于CDA的研究主要包括:模型的開發(fā)、參數(shù)的估計方法、項目功能差異、屬性的在線標定和計算機化自適應測驗(Wang & Douglas, 2015; 蔡艷, 涂冬波,2015; 詹沛達, 李曉敏, 王文中, 邊玉芳, 王立君, 2015;郭磊, 鄭蟬金, 邊玉芳, 2015; 羅照盛等, 2015; Xin& Zhang, 2014; Kaplan, de la Torre, & Barrada, 2015;王卓然, 郭磊, 邊玉芳, 2014; Mao & Xin, 2013; Chen,Xin, Wang, & Chang, 2012)等。
現(xiàn)階段主要的測驗形式包括紙筆測驗(或使用計算機實行的紙筆測驗)、計算機化自適應測驗(Computerized Adaptive Testing, CAT)和多階段自適應測驗(Multi-stage Testing, MST)。紙筆測驗歷史千年, 易于組卷、實施簡單, 但是它存在著測驗長度長、實施不靈活、效率低下等問題; CAT是“量體裁衣”的理想化的測驗方式, 針對每位被試的能力水平給予最適合的題目, 因此可以隨時安排考試, 縮短測驗節(jié)約時間。CAT在提高測驗效率的同時存在著許多風險, 如項目的過度曝光、考生無法返回檢查修改和內容平衡等; MST是紙筆測驗和CAT的折中, 在簡短的紙筆測驗基礎上自適應化, 它部分的解決了CAT的缺點, 如考生在模塊內可以返回檢查和修改,更容易實現(xiàn)內容平衡等, 相對于CAT, 它損失了測驗效率(Kim, 1993; Luecht & Nungester, 1998; Patsula, 1999)。
MST包含一些主要的概念, 如模塊(module)、階段(stage)、測驗版本(panel)和路由規(guī)則(routing rules)等。具有相似統(tǒng)計特征和內容特性的項目組成模塊,包含不同統(tǒng)計特征的模塊組成階段, 幾個階段組成測驗版本, 為了滿足曝光控制, 具有相似特征的測驗版本組成題庫。路由規(guī)則是將被試從一個階段自適應到下一個階段的方法。MST是紙筆測驗和CAT的折中, 它具有紙筆測驗的特點, 在測驗實施之前項目組成項目集, 這些項目集稱為模塊, 類似于一些簡短的紙筆測驗; 同時MST具有自適應的特點, 模塊是根據(jù)項目的參數(shù)組合起來的, 不同能力水平的被試完成同自己能力水平匹配的模塊, 并根據(jù)完成的情況選擇下一模塊。這一過程體現(xiàn)了自適應的思想。
圖1為一個典型的MST測驗, 該測驗共有從1,2…X個測驗版本, 測驗版本之間是平行的。每個測驗版本包括3個階段, 第一階段稱為路由階段(routing stage), 第二和第三階段均有容易、中等和困難三個模塊(1-3-3測驗版本設計)。在第一階段中根據(jù)被試的作答獲得臨時能力估計值, 選擇第二階段難度水平同被試能力相匹配的某個模塊, 并獲得被試臨時能力估計值; 同理選出第三階段的模塊并獲得最終的被試能力估計值。在整個測驗中僅有兩個自適應點, 分別是第一階段進入第二階段時的自適應和第二階段進入第三階段時的自適應。在測驗的實施過程中, 不允許被試從上一階段的最容易模塊路由到下一階段的最高難度模塊, 因為這將增加測量誤差, 并且在實際測驗中, 這種情況不太可能發(fā)生。圖1中1M+2E+3E就是某一被試所完成的整個測驗。
圖1 1-3-3 MST測驗版本設計
由圖1可知, CAT是MST的一個特例。CAT是項目水平上的自適應測驗, MST則是模塊水平上的自適應測驗。
Jodoin, Zenisky和Hambleton (2006)、Hambleton和Xing (2006) 在研究了MST的路由規(guī)則、測驗版本設計和決策的準確性等內容后認為, MST具有心理測量學上的諸多優(yōu)勢, 它在形式上接近線性測驗,在精度上接近CAT, 測驗開發(fā)者能夠更好的利用題庫, 更容易滿足內容約束。它還有一些其他的優(yōu)勢,如允許測驗組織者預先檢查, 實施靈活, 允許考生返回修改和檢查(Yan, Lewis, & von Davier, 2014)。自上世紀90年代以來MST的研究主要集中在以下幾個方面:影響因素的研究(Kim, 1993; Patsula, 1999;Zenisky, 2004; Jodoin et al., 2006; Macken-Ruiz, 2008);自動化組卷技術(Luecht, 1998; Kim, Chung, Dodd,& Park, 2012; Han, 2013; Park, Kim, Chung, & Dodd,2014); 項目曝光控制(Edwards, Flora, & Thissen,2012; Wang, Zheng, & Chang, 2014)等。
在MST的組卷中, 根據(jù)預定目標, 項目組成模塊, 模塊組成測驗版本。本研究將初始階段項目組成模塊的過程稱為初始階段模塊組建。
現(xiàn)階段, MST主要建構在項目反應理論(Item Response Theory, IRT)的基礎上, von Davier和Cheng(2014)提出了具有認知診斷功能的MST (Cognitive Diagnostic Multi-Stage Testing, CD-MST), 并對CDMST的實施提出了意見和想法。
CD-MST是CDA和MST的結合, 它將具有認知診斷功能的項目組成模塊呈現(xiàn)給被試, 采用自適應的方式將被試路由到同被試知識狀態(tài)匹配的模塊。CD-MST有很多優(yōu)勢。它同時具備了認知診斷功能和自適應的特點; 因為預先組卷, CD-MST允許組織者預先檢查試卷, 更容易做到內容平衡和曝光控制, 提高題庫的利用率; 在模塊內, CD-MST允許考生返回檢查和修改, 能有效緩解考生的緊張焦慮情緒(Patsula, 1999)。當然, 隨著自適應頻次的減少, CD-MST的判準率較具有認知診斷功能的計算機化自適應測驗(Cognitive Diagnosis Computerized Adaptive Testing, CD-CAT)也有所降低。
MST同CAT的重要區(qū)別在于預先組卷。預先組卷的優(yōu)勢在于測驗的組織者在測驗實施前可以檢查試卷, 能夠更好的利用題庫, 容易滿足內容約束等, 它充分體現(xiàn)了測驗組織者的能動性。在MST中, 一旦確定了測驗版本設計, 平行的測驗版本的組建通常包括兩個過程:首先是根據(jù)每個模塊設定的難度錨(difficulty anchors)和測驗信息函數(shù)目標從題庫中找到符合要求的項目組成模塊(Zheng, Wang,& Chang, 2014); 然后將模塊組建成測驗版本。組建平行的測驗版本主要有兩種方式(Luecht & Nungester,1998):自下而上(bottom up)和自上而下(top down)。自下而上(Luecht, Brumfield, & Breithaupt, 2006)方式的平行性是通過模塊的平行保證的。將許多平行模塊混合匹配生成大量的平行的測驗版本, 一般來說, 當題庫和約束是可行的時候, 自下而上的方式是很容易實現(xiàn)的。自上而下(Belov & Armstrong,2005; Breithaupt & Hare, 2007)方式在組建模塊時可以考慮也可以不考慮平行, 在測驗版本水平上進行新一輪的優(yōu)化實現(xiàn)平行和滿足非統(tǒng)計約束。
CDA不同于IRT, 在IRT中, 被試的能力水平和項目的難度是在相同量尺上, 它們都是連續(xù)變量,這使得基于IRT的MST依據(jù)難度和測驗信息函數(shù)進行組卷成為可能。CDA中被試的知識狀態(tài)是離散偏序集合, 項目的難度難以界定, 適用于IRT的MST的組卷方法不能應用于CD-MST。CDA中被試知識狀態(tài)是有限的, 這使得窮盡所有可能知識狀態(tài)成為可能。因此本研究將CD-CAT的選題策略用于CD-MST的預先組卷中, 這與von Davier和Cheng (2014)的觀點一致。主要的思想是使用信息量進行組卷, 采用蒙特卡洛(Monte Carlo)模擬將所有可能的知識狀態(tài)下的試卷預先組好。測驗開始時,被試完成初始階段的項目, 根據(jù)被試作答使用知識狀態(tài)估計方法估計臨時的知識狀態(tài), 根據(jù)臨時知識狀態(tài)計算預先組建模塊的信息量, 選擇出信息量最大或最小的模塊(根據(jù)信息量指標確定取最大值或最小值)作為被試下一階段將要完成的模塊。依次循環(huán), 獲得最終知識狀態(tài)估計。
對于CD-MST來說, 初始階段模塊組建方法更加重要。相對于CD-CAT, CD-MST的自適應頻次更少, 第一階段的判準率將極大影響后面對被試的最終知識狀態(tài)的估計。因此, 提出新的初始階段模塊組建方法對CD-MST有更重要的意義。CD-MST不僅需要項目參數(shù), 還關注每個項目考查的不同屬性, 這兩者對測驗的判準率都有影響。因此在初始階段模塊組建中考慮項目參數(shù)和項目考查的屬性。
本文借鑒CD-CAT的初始項目選取方法, 根據(jù)CDA和MST自身特點, 提出了7種CD-MST初始階段模塊組建方法, 并采用模擬研究對7種方法的判準率進行了比較, 這些方法也可以作為CD-CAT初始項目選取方法。
初始項目選取方法是CD-CAT的一個重要組成內容。在現(xiàn)有研究中, CD-CAT初始項目選取通常采用3種方法。第一種是同CAT相同, 隨機從題庫中選取初始項目, 這種方法沒有考慮認知診斷所特有的項目屬性。Xu, Chang和Douglas (2003, April)就是采用了該方法。第二種方法是隨機分配被試一種知識狀態(tài), 根據(jù)該知識狀態(tài)和CD-CAT的選題策略選擇第一個項目, 這種方法從第一題開始進入選題狀態(tài), 是現(xiàn)階段CD-CAT主要的起始方法(Cheng,2009; Kaplan et al., 2015; Wang et al., 2014)。第三種方法是涂冬波、蔡艷和戴海崎(2013)所提出的“T陣法”。該方法根據(jù)可達矩陣是測驗實現(xiàn)對每個屬性診斷的充分必要條件(丁樹良, 楊淑群, 汪文義,2010)的思想, 保證在CD-CAT的初始階段盡可能實現(xiàn)對每個屬性的診斷, 從而提高測驗的判準率。
借鑒CD-CAT的初始階段項目選取方法, 根據(jù)CDA和MST自身特點, 提出了以下7種CD-MST初始階段模塊組建方法。
隨機法是指采用隨機的方法從題庫中選取項目作為CD-MST初始階段模塊, 在選取項目的時候不考慮項目參數(shù)和項目所考察的屬性。這種方法簡單快速。
選題策略法是指根據(jù)隨機分配的知識狀態(tài)和信息量選取出CD-MST初始階段所需項目進行模塊組建, 如本研究中采用PWKL進行模塊組建, 根據(jù)知識狀態(tài)和PWKL信息量從題庫中選取出當前知識狀態(tài)下PWKL信息量最大的一部分項目, 如初始階段項目數(shù)是5, 則選取出PWKL信息量最大的5題組成第一階段模塊。
可達矩陣(Reachability Matrix, R矩陣)是指能夠描述屬性之間所具有的直接關系、間接關系和自身關系的矩陣。如果測驗包含K個屬性, R矩陣是K行*K列的矩陣。丁樹良、汪文義和楊淑群(2011)認為R矩陣可以用于指導認知診斷測驗的編制, 同時也可以用于認知診斷測驗的組卷。在CD-MST初始階段模塊組建時考慮R矩陣是指在選取項目時考慮項目和屬性的關系屬于R矩陣所描述的關系; 當初始階段的項目個數(shù)同R矩陣的項目個數(shù)不是一一對應時, 如屬性個數(shù)為5個, 則R矩陣是5*5的矩陣, 初始階段項目個數(shù)是6個時, 則在采用R矩陣的項目后, 再隨機從R矩陣中選擇一個項目組成初始階段項目。當初始階段項目個數(shù)小于屬性個數(shù)時, 如初始階段項目個數(shù)是4個, 屬性個數(shù)為5個, 則隨機考察其中的4個屬性。本研究將這種方法稱為R*矩陣法。R*矩陣法能夠實現(xiàn)在初始階段對每個屬性的考察, 保證了Q矩陣的完備性,提高初始階段的判準率。
以上3種方法是借鑒CD-CAT的初始階段項目選取方法。
在MST中, 第一階段通常采用難度水平為中等的題目(Kim, Moses, & Yoo, 2015)。在CDA中,雖然模型眾多, 但是都考慮項目參數(shù)。因此, 在初始階段項目的選取時考慮項目參數(shù)是有必要的。項目的區(qū)分度是指項目對所測內容的區(qū)分能力。良好區(qū)分度的項目能夠將不同水平的被試區(qū)分開來。在該項目上水平高的被試得高分, 水平低的被試得低分。在CTT中, 使用鑒別度指數(shù)計算項目的區(qū)分度。Rupp, Templin和Henson (2010)依據(jù)該思想計算CDA中項目的區(qū)分度是
Templin和Henson (2006)曾指出, 在DINA模型中, 一個質量較好的項目應該具有較小的s和g參數(shù)。s和g越小, 表示失誤和猜測的概率越小, 判準率越高。依據(jù)CTTID計算出的DINA模型的項目的區(qū)分度吻合了這一思想。因此根據(jù)CTTID方法選取出區(qū)分度最高的那部分項目組成CD-MST初始階段模塊。
上一方法采用經典測量理論的思想計算項目的區(qū)分度, 這種方法易于計算。但是這種易于計算依賴于模型。為了克服這個困難, 本研究使用Henson和Douglas (2005)提出的CDI作為另外一種區(qū)分度指標計算方法。
Chang和Ying(1999)指出在初始階段應使用區(qū)分度參數(shù)較低的項目, 因為測驗之初對被試的能力估計不準確。CDI既是選題指標也是區(qū)分度指標,在作為選題指標時, CDI不依賴于初始知識狀態(tài),因此在測驗初期優(yōu)于其他方法, 適用于初始階段的選題。作為區(qū)分度指標, CDI針對每個項目有區(qū)分度值, 這個值不依賴于被試的知識狀態(tài)和后驗估計結果。如前所述, 在CD-MST中由于自適應頻次更少, 需要在初始階段判準率更高, CDI用于CD- MST初始階段模塊組建方法會更加有效。
項目參數(shù)和項目所考察的屬性是CDA中影響測驗效率的重要因素。CD-MST需要依靠項目參數(shù)、被試在項目上的屬性的掌握情況估計知識狀態(tài)。CTTID法是根據(jù)CTT計算區(qū)分度的方法推廣到了CDA中。這種方法是在項目參數(shù)層面計算區(qū)分度, 沒有考慮項目所考察的屬性。為了提高測驗的效率, 需要同時考慮項目所考察的屬性。R*矩陣法能夠保證Q矩陣的完備性, 將R*矩陣和CTTID相結合, 既保證了項目質量又保證了對屬性的全面診斷。因此將CTTID法和R*矩陣法相結合作為CD-MST初始階段模塊組建方法。
CDI從屬性的角度上計算項目的區(qū)分度。在初始階段, CDI法選取的項目考查的屬性并不確定,也就是說不能保證每個屬性都被考察到。為了保證在初始階段就盡可能實現(xiàn)對每個屬性的診斷, 在選取出CDI最大的項目的基礎上考慮R*矩陣的方法,將CDI的方法和R*方法相結合。這種方法在項目區(qū)分度最大的基礎上同時保證初始階段實現(xiàn)了對所有屬性的診斷。作為第七種CD-MST初始階段模塊組建的方法, 稱為CDIR*法。
如前所述, 應用于CD-CAT的選題方法同樣適用于CD-MST中模塊的組建(von Davier & Cheng,2014)。鑒于PWKL是判準率較高且使用較廣的一種信息量計算方法, 本文使用PWKL進行CD-MST除初始階段以外的模塊的組建。
PWKL是在KL信息量的基礎上對被試知識狀態(tài)的后驗分布進行加權(Cheng, 2009)。其數(shù)學表達式是
CDA中屬性獨立的條件下屬性個數(shù)決定知識狀態(tài)個數(shù), 如屬性個數(shù)為5, 則有2=32種知識狀態(tài), 根據(jù)每種知識狀態(tài)可以計算出PWKL信息量最大的模塊作為預先組好的模塊。在施測中根據(jù)信息量來選擇所需要的模塊。
DINA (deterministic inputs, noisy “and” gate)模型在上百種認知診斷模型中受到較多的關注。DINA模型是非補償模型, 相對于別的模型來說, 它的參數(shù)較少, 模型簡單易于解釋。其數(shù)學表達式為:
本研究使用MATLAB自編程序進行模擬實驗。CD-MST共有3個階段, 每個階段5個項目, 測驗包含15個題目。初始階段模塊組建方法分別采用之前所介紹的隨機法、選題策略法、R*矩陣法、CTTID法、CDI法、CTTIDR*法和CDIR*法。第二階段和第三階段采用PWKL信息量組建模塊, 根據(jù)信息量選取出同當前被試知識狀態(tài)估計值最匹配的模塊。估計被試知識狀態(tài)采用最大后驗方法(Maximum A Posterior, MAP)。
de la Torre, Hong和Deng (2010)研究表明題庫的項目質量影響測驗的判準率。為此在生成項目參數(shù)時參照Kaplan等(2015), 考慮項目區(qū)分度(high discrimination, HD)和方差(variance)。項目質量分為高區(qū)分度(high discrimination, HD)、低區(qū)分度(low discrimination, LD)、高方差(high variance, HV)和低方差(low variance, LV), 四者組合產生4種實驗條件,HD-LV, HD-HV, LD-LV, LD-HV。項目參數(shù)服從均勻分布。HD-LV的s和g服從于U (0.05, 0.15), HD-HV的s和g服從于U (0.00, 0.20), LD-LV的s和g服從于U (0.15, 0.25), LD-HV的s和g服從于U (0.10,0.30)。區(qū)分度高和區(qū)分度低的題庫中, s和g的均值分別是0.1和0.2。方差高和方差低的題庫中, s和g的取值的區(qū)間寬度分別為0.2和0.1。因為每次生成的題庫不同, 為了減少隨機誤差, 整個實驗重復10次, 取10次的平均值作為最終結果。
表1 項目參數(shù)
認知診斷模型采用DINA模型, 屬性獨立的條件下, 屬性個數(shù)為5, 共有31種可能的項目考查模式,每種考查模式有40個項目, 每個題庫有1240個項目。
被試知識狀態(tài)服從于均勻分布, 共3000人。當屬性個數(shù)為5時, 可能的知識狀態(tài)是32種, 采用簡單隨機抽樣的方式抽取3000個作為被試知識狀態(tài)。
模擬被試作答反應:根據(jù)被試知識狀態(tài)的真值、項目參數(shù)的真值、使用DINA 模型的項目反應函數(shù), 計算被試正確作答該項目的概率, 并將該概率值同[0, 1]區(qū)間的均勻分布的一個隨機數(shù)相比較,若大于該隨機數(shù), 則被試在該項目上的作答為1,反之為0。
評價指標采用屬性平均判準率(Attribute Correct Classification Rate, ACCR)和模式判準率(Pattern Correct Classification Rate, PCCR)。
ACCR的公式是
K
表示屬性個數(shù),N
是被試個數(shù)。A
表示第i
個被試在第k
個屬性上的估計值和真值一致。ACCR越大表示屬性的平均判準率越高。PCCR的公式是
P
代表第i
個被試知識狀態(tài)的估計值和真值一致。PCCR越大表示對于整個知識狀態(tài)的估計越準確。表2和表3是7種初始階段模塊組建方法的結果?,F(xiàn)階段CDA的研究主要分析PCCR, 為了保持一致本文著重分析PCCR, ACCR只作為參考。
表2 七種初始階段模塊組建方法ACCR結果
表3 七種初始階段模塊組建方法PCCR結果
總體上來看, 含有R*矩陣的方法在所有題庫下都具有優(yōu)勢, 尤其是CTTIDR*法優(yōu)勢更加明顯。
當被試完成初始階段的模塊后, 7種初始階段模塊組建方法的結果差異較大, 其中CTTIDR*法最好, CDIR*法次之, 其次是R*矩陣法, CDI法,CTTID法, 隨機法, 選題策略法最差。含有R*矩陣的方法同其他4種方法相比判準率更高, CTTIDR*法在所有題庫質量下都顯著高于其他方法, CDIR*法和R*矩陣法結果較為接近。在整個測驗結束時,由于測驗長度的增加, 7種方法的判準率逐漸接近,含有R*矩陣方法的優(yōu)勢縮小。即使這樣, CTTIDR*法仍然高于其他6種方法。
從題庫角度來說, 項目質量對測驗判準率影響較大。HD-HV情況下, 判準率最高, HD-LV次之,LD-HV較差, LD-LV最差。以CTTIDR*法為例, 在整個測驗結束時PCCR分別是HD-HV是0.9891,HD-LV是0.8727, LD-HV是0.7562, LD-LV是0.6288, 四者的差異較大。
為了更加清晰的說明問題, 以下對4種題庫下7種方法的判準率逐個進行分析。
從圖2可以發(fā)現(xiàn),當被試完成初始階段模塊后,前3種方法的結果較為接近, 判準率比其它4種方法高了0.25以上。前3種方法分別是CTTIDR*法、CDIR*法和R*矩陣法, 它們都是包含R*矩陣的方法, 說明R*矩陣對判準率有較大影響。這3種方法中, CTTIDR*法顯著高于其他兩種方法, CDIR*法和R*矩陣法沒有差異。隨著測驗長度和階段數(shù)的增加, 所有方法的PCCR越來越接近, CDIR*、R*和CDI方法幾乎沒有差異。CTTIDR*法仍然比其他方法高了0.05以上。
從圖3可以發(fā)現(xiàn),在HD-HV下, 當被試完成初始階段的模塊后, 含有R*矩陣的方法比其他方法提高了0.3。CTTIDR*法在初始階段結束后已經達到了0.9117。由于天花板效應, 之后階段的提高較小, 最終的判準率是0.9891, 比處于第二位的選題策略法高了0.0380。
從圖4可以發(fā)現(xiàn),在LD-LV下, 得到的結果與之前兩種題庫質量基本相同。在初始階段結束后,含有R*矩陣的方法顯著高于其他4種方法。在整個測驗結束后, CTTIDR*法仍然顯著優(yōu)于其他方法。
圖2 HD-LV下7種初始階段模塊組建方法的PCCR
圖3 HD-HV下7種初始階段模塊組建方法的PCCR
圖4 LD-LV下7種初始階段模塊組建方法PCCR
圖5 LD-HV下7種初始階段模塊組建方法的PCCR
從圖5可以發(fā)現(xiàn),在LD-HV下, 當被試完成初始階段模塊后, 含有R*矩陣的方法顯著高于其他4種方法。整個測驗結束時, CTTIDR*法比其他方法高了0.1, 選題策略法、R*矩陣法、CTTID法、CDI法和CDIR*法結果接近。
CD-MST是對CDA有效地推廣和應用, 同時擴大了MST的適用范圍。對于CD-MST細節(jié)問題的研究很有必要, 初始階段模塊組建方法就是其中之一。初始階段模塊組建方法對于CD-MST更加重要, CD-MST是以模塊的形式進行組建并施測的,初始階段的項目數(shù)量和質量會影響初始階段項目結束后的判準率和下一階段模塊選取的準確性。本研究在CD-CAT初始項目選取的基礎上提出了7種CD-MST初始階段模塊組建方法, 采用模擬研究比較了這7種方法的判準率。
這些初始階段模塊組建方法在提高測驗判準率的同時增加了優(yōu)質項目的曝光率, 致使題庫使用不均勻。在以后的研究中可以嘗試把曝光控制的方法同初始階段模塊組建方法結合起來達到控制曝光的目的, 或者是采用平行模塊的方式解決該問題。
CD-MST作為一種新的認知診斷測驗方式, 有諸多問題需要研究。如預先組卷問題。在MST中通常根據(jù)項目參數(shù)進行組卷, CD-MST由于是在認知診斷的基礎上進行組卷, 需要考慮項目參數(shù)、項目考查的屬性等問題, 單純依靠項目參數(shù)組卷的效果很差。本研究根據(jù)信息量進行組卷, 這種方法窮盡了所有可能的知識狀態(tài)。是否存在著別的更簡便的組卷方式是值得研究的問題。
本文提出的7種CD-MST初始階段模塊組建方法不但可以應用于CD-MST, 也可以推廣至CD- CAT。選題策略法作為CD-CAT中最常用初始項目選取方法在CD-MST中表現(xiàn)很一般, 尤其是在初始階段結束時, 其判準率甚至低于隨機法。使用的選題策略法是PWKL, 該方法在測驗開始之前隨機分配被試一種知識狀態(tài), 這種知識狀態(tài)通常是錯誤的, 在錯誤的知識狀態(tài)基礎上選出來的項目通常同被試真實知識狀態(tài)相距甚遠, 因此在初始階段采用PWKL效果并不理想。本研究提出了3種含有R*矩陣的初始階段模塊組建方法, 其中CTTIDR*法顯著高于其他方法, 該方法應用于CD-CAT是否能得到較好的結果還需進一步研究。
Belov, D. I., & Armstrong, R. D. (2005). Monte Carlo test assembly for item pool analysis and extension.Applied Psychological Measurement, 29
(4), 239–261.Breithaupt, K., & Hare, D. R. (2007). Automated simultaneous assembly of multistage testlets for a high-stakes licensing examination.Educational and Psychological Measurement,67
(1), 5–20.Cai, Y., & Tu, D. B. (2015). Extension of cognitive diagnosis models based on the polytomous attributes framework and their Q-matrices designs.Acta Psychologica Sinica, 47
(10),1300–1308.[蔡艷, 涂冬波. (2015). 屬性多級化的認知診斷模型拓展及其Q矩陣設計.心理學報, 47
(10), 1300–1308.]Chang, H. H., & Ying, Z. (1999).a
-stratified multistage computerized adaptive testing.Applied Psychological Measurement, 23
(3), 211–222.Chen, P., Xin, T., Wang, C., & Chang, H. H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT.Psychometrika, 77
(2), 201–222.Cheng, Y. (2009). When cognitive diagnosis meets computerized adaptive testing: CD-CAT.Psychometrika, 74
(4), 619–632.de la Torre, J., Hong, Y., & Deng, W. L. (2010). Factors affecting the item parameter estimation and classification accuracy of the DINA model.Journal of Educational Measurement, 47
(2), 227–249.DiBello, L. V., Roussos, L. A., & Stout, W. (2007). Review of cognitively diagnostic assessment and a summary of psychometric models. In C. R. Rao & S. Sinharay (Eds.),Handbook of statistics, 26: Psychometrics
(pp. 979–1030).Amsterdam, Netherlands: Elsevier. Ding, S. L., Yang, S. Q.,& Wang, W. Y. (2010). The importance of reachability matrix in constructing cognitively diagnostic testing.Journal of Jiangxi Normal University (Natural Science),34
(5), 490–494.[丁樹良, 楊淑群, 汪文義. (2010). 可達矩陣在認知診斷測驗編制中的重要作用.江西師范大學學報(自然科學版),34
(5), 490–494.]Ding, S. L., Wang, W. Y., & Yang, S. Q. (2011). The design of cognitive diagnostic test blueprints.Journal of Psychological Science, 34
(2), 258–265.[丁樹良, 汪文義, 楊淑群. (2011). 認知診斷測驗藍圖的設計.心理科學, 34
(2), 258–265.]Edwards, M. C., Flora, D. B., & Thissen, D. (2012). Multistage computerized adaptive testing with uniform item exposure.Applied Measurement in Education, 25
(2), 118–141.Guo, L., Zheng, C. J., & Bian, Y. F. (2015). Exposure control methods and termination rules in variable-length cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 47
(1), 129–140.[郭磊, 鄭蟬金, 邊玉芳. (2015). 變長CD-CAT中的曝光控制與終止規(guī)則.心理學報, 47
(1), 129–140.]Hambleton, R. K., & Xing, D. H. (2006). Optimal and nonoptimal computer-based test designs for making pass-fail decisions.Applied Measurement in Education, 19
(3), 221– 239.Han, K. T. (2013).MSTGen
: Simulated data generator for multistage testing.Applied Psychological Measurement,37
(8), 666–668.Henson, R., & Douglas, J. (2005). Test construction for cognitive diagnosis.Applied Psychological Measurement,29
(4), 262–277.Jodoin, M. G., Zenisky, A., & Hambleton, R. K. (2006).Comparison of the psychometric properties of several computer-based test designs for credentialing exams with multiple purposes.Applied Measurement in Education,19
(3), 203–220.Kaplan, M., de la Torre, J., & Barrada, J. R. (2015). New iem selection methods for cognitive diagnosis computerized adaptive testing.Applied Psychological Measurement, 39
(3),167–188.Kim, H. (1993).Monte Carlo simulation comparison of two-stage testing and computer adaptive testing
(Unpublished doctorial dissertation). University of Nebraska, Lincoln.Kim, J., Chung, H., Dodd, B. G., & Park, R. (2012). Panel design variations in the multistage test using the mixedformat tests.Educational and Psychological Measurement,72
(4), 574–588.Kim, S., Moses, T., & Yoo, H. (2015). A comparison of IRT proficiency estimation methods under adaptive multistage testing.Journal of Educational Measurement, 52
(1), 70– 79.Luecht, R. M. (1998). Computer-assisted test assembly using optimization heuristics.Applied Psychological Measurement,22
(3), 224–236.Luecht, R. M., & Nungester, R. J. (1998). Some practical examples of computeradaptive sequential testing.Journal of Educational Measurement, 35
(3), 229–249.Luecht, R. M., Brumfield, T., & Breithaupt, K. (2006). A testlet assembly design for adaptive multistage tests.Applied Measurement in Education, 19
(3), 189–202.Luo, Z. S., Yu, X. F., Gao, C. L., Li, Y. J., Peng, Y. F., Wang,R., & Wang, Y. T. (2015). Item selection strategies based on attribute mastery probabilities in CD-CAT.Acta Psychologica Sinica, 47
(5), 679–688.[羅照盛, 喻曉鋒, 高椿雷, 李喻駿, 彭亞風, 王睿, 王鈺彤.(2015). 基于屬性掌握概率的認知診斷計算機化自適應測驗選題策略.心理學報, 47
(5), 679–688.]Macken-Ruiz, C. L. (2008).A comparison of MST and CAT based on the GPCM
(Unpublished doctorial dissertation).University of Texas, Austin.Mao, X. Z., & Xin, T. (2013). The application of the Monte Carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.Applied Psychological Measurement, 37
(6), 482–496.Park, R., Kim, J., Chung, H., & Dodd, B. G. (2014). Enhancing pool utilization in constructing the multistage test using mixed-format tests.Applied Psychological Measurement,38
(4), 268–280.Patsula, L. N. (1999).A comparison of computerized-adaptive testing and multistage testing
(Unpublished doctorial dissertation). University of Massachusetts at Amherst.Rupp, A. A., Templin, J., & Henson, R. A. (2010).Diagnostic measurement: Theory, methods, and application.
New York:The Guilford Press.Templin, J., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models.Psychological Methods, 11
(3), 287–305.Tu, D. B., Cai, Y., & Ding, S. L. (2012).Cognitive diagnosis:Theory, methods and application
. Beijing, China: Beijing Normal University Publishing Group.[涂冬波, 蔡艷, 丁樹良. (2012).認知診斷理論、方法與應用
.北京: 北京師范大學出版集團.]Tu, D. B., Cai, Y., & Dai, H. Q. (2013). Item selection strategies and initial items selection methods of CD-CAT.Journal of Psychological Science, 36
(2), 469–474.[涂冬波, 蔡艷, 戴海崎. (2013). 認知診斷CAT選題策略及初始題選取方法.心理科學, 36
(2), 469–474.]von Davier, M., & Cheng, Y. (2014). Multistage testing using diagnostic models. In D. L. Yan, A. A. von Davier, & C.Lewis (Eds.),Computerized multistage testing: Theory and applications
(pp. 219–227). New York: CRC Press.Wang, C., Zheng, C. J., & Chang, H. H. (2014). An enhanced approach to combine item response theory with cognitive diagnosis in ddaptive testing.Journal of Educational Measurement, 51
(4), 358–380.Wang, S. Y., & Douglas, J. (2015). Consistency of nonparametric classification in cognitive diagnosis.Psychometrika, 80
(1),85–100.Wang, Z. R., Guo L., & Bian, Y. F. (2014). Comparison of DIF detecting methods in cognitive diagnostic test.Acta Psychologica Sinica, 46
(12), 1923–1932.[王卓然, 郭磊, 邊玉芳. (2014). 認知診斷測驗中的項目功能差異檢測方法比較.心理學報, 46
(12), 1923–1932.]Xin, T., & Zhang, J. H. (2014). Local equating of cognitively diagnostic modeled observed scores.Applied Psychological Measurement, 39
(1), 44–61.Xu X. L., Chang, H. H., & Douglas, J. (2003, April).A simulation study to compare CAT strategies for cognitive diagnosis.
Paper presented at the annual meeting of National Council on Measurement in Education, Montreal,Canada.Yan, D., Lewis, C., & von Davier, A. A. (2014). Overview of computerized multistage tests. In D. Yan, A. A. von Davier,& C. Lewis (Eds.),Computerized multistage testing:Theory and applications
(pp. 3–20). New York: CRC Press.Zenisky, A. L. (2004).Evaluating the effects of several multistage testing design variables on selected psychometric outcomes for certification and licensure assessment
(Unpublished doctorial dissertation). University of Massachusetts,Amherst.Zhan, P. D., Li, X. M., Wang, W. C., Bian Y. F., & Wang, L. J.(2015). The multidimensional testlet-effect cognitive diagnostic models.Acta Psychologica Sinica, 47
(5), 689– 701.[詹沛達, 李曉敏, 王文中, 邊玉芳, 王立君. (2015). 多維題組效應認知診斷模型.心理學報, 47
(5), 689–701.]Zheng, Y., Wang, C., & Chang H. H. (2014). Overview of test assembly methods in multistage testing. In D. Yan, A. A.von Davier, & C. Lewis (Eds.),Computerized multistage testing: Theory and applications
(pp. 87–100). New York:CRC Press.