魏 丹 劉紅云 張丹慧
(1北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心, 北京 100875) (2北京師范大學(xué)心理學(xué)院, 北京 100875)
傳統(tǒng)測(cè)驗(yàn)中, 如果項(xiàng)目之間存在關(guān)聯(lián), 被試對(duì)不同項(xiàng)目的反應(yīng)會(huì)受到項(xiàng)目之間的相互影響, 這違背了標(biāo)準(zhǔn)IRT模型對(duì)項(xiàng)目局部獨(dú)立性的假設(shè), 從而影響對(duì)被試能力的估計(jì)。然而, 在各類測(cè)驗(yàn)中, 基于某一刺激材料研發(fā)多個(gè)項(xiàng)目的做法被廣泛使用。例如在英語水平測(cè)驗(yàn)中, 一篇閱讀材料往往會(huì)包含多個(gè)項(xiàng)目, 被試對(duì)這些項(xiàng)目的反應(yīng)會(huì)受到相同閱讀材料和背景的影響。這類受到共同刺激影響的項(xiàng)目集合稱為題組(Wang & Wilson, 2005)。
眾多研究已經(jīng)表明, 隨著各種測(cè)驗(yàn)中題組的出現(xiàn), 傳統(tǒng) IRT模型(滿足項(xiàng)目局部獨(dú)立性假設(shè))已經(jīng)不能適應(yīng)準(zhǔn)確估計(jì)被試能力的要求。詹沛達(dá)、王文中和王立君(2013)指出, 在包含題組的測(cè)驗(yàn)中, 如果忽略項(xiàng)目依賴性而直接運(yùn)用標(biāo)準(zhǔn)IRT模型, 將會(huì)錯(cuò)誤估計(jì)測(cè)驗(yàn)信度和標(biāo)準(zhǔn)誤差(Bradlow, Wainer, &Wang, 1999; Marais & Andrich, 2008; Sireci, Thissen, &Wainer, 1991; Wainer & Wang, 2000; Yen, 1993)、導(dǎo)致等值誤差和收縮誤差(Lee, Kolen, Frisbie, & Ankenmann,2001; Li, Bolt, & Fu, 2006)、導(dǎo)致項(xiàng)目區(qū)分度參數(shù)的估計(jì)誤差(Bradlow et al., 1999; Wainer & Wang, 2000;劉玥, 劉紅云, 2012)以及模型對(duì)項(xiàng)目的不適用性(misfit) (Marais & Andrich, 2008)、也會(huì)導(dǎo)致信息量估計(jì)不準(zhǔn)確(Ip, 2010; Wainer & Wang, 2000)。
針對(duì)包含題組測(cè)驗(yàn)的分析, 其中一種處理方法是分步計(jì)分模型, 即將同一題組內(nèi)的項(xiàng)目看成一個(gè)多級(jí)計(jì)分的“超級(jí)項(xiàng)目”, 這種處理方法因?yàn)閷⒍鄠€(gè)項(xiàng)目看作一個(gè)多級(jí)計(jì)分的項(xiàng)目, 沒有充分利用到每個(gè)項(xiàng)目的信息, 存在一定不足。此外, 眾多研究者提出各種題組模型, 如貝葉斯題組反應(yīng)模型、Rasch題組模型、雙因子模型、多水平題組模型和Copula模型等。其中, 貝葉斯題組反應(yīng)模型(Bradlow et al., 1999; Wainer & Wang, 2000; Wang, Bradlow,& Wainer, 2002)和Rasch題組模型(Wang & Wilson,2005)通過在標(biāo)準(zhǔn) IRT模型中加入題組效應(yīng)參數(shù),形成相應(yīng)的題型反應(yīng)模型, 通過題組的方差來反應(yīng)題組效應(yīng)的大小; 雙因子模型(Gibbons & Hedeker,1992; Gibbons et al., 2007)源于對(duì)連續(xù)項(xiàng)目反應(yīng)的驗(yàn)證性因子分析, 模型中分為包含所有項(xiàng)目的主要維度(即被試能力)和僅包含部分項(xiàng)目子集的次要維度(即題組效應(yīng)), 雙因子多維 IRT模型(DeMars,2006; Li et al., 2006), 通過次要維度的載荷與主要維度的載荷之比來反映題組效應(yīng)的大小。多水平題組模型(Jiao, Kamata, Wang, & Jin, 2012)和Copula模型(Braeken, Tuerlinckx, & De Boeck, 2007; Braeken,2011)這些新型模型都是基于IRT模型的拓展應(yīng)用。
圖1 單維能力題組模型示意圖
上述關(guān)于題組模型的研究都有一個(gè)共同的前提假設(shè)——目標(biāo)能力和題組效應(yīng)單維, 即整個(gè)測(cè)驗(yàn)測(cè)量的目標(biāo)能力參數(shù)唯一, 一個(gè)項(xiàng)目最多只存在一個(gè)題組效應(yīng)的干擾, 如圖 1(a)。而實(shí)際上, 測(cè)驗(yàn)中可能包含多種不同類型的題組效應(yīng), 也可能存在多維需要測(cè)量的目標(biāo)能力。詹沛達(dá)、王文中、王立君和李曉敏(2014)的多維題組效應(yīng)Rasch模型考慮到項(xiàng)目?jī)?nèi)題組效應(yīng)的多維性, 如圖 1(b), 它將所有題組效應(yīng)當(dāng)作是估計(jì)能力參數(shù)過程中的干擾因素, 最終得到排除所有題組效應(yīng)干擾之后的被試能力, 但不適用于目標(biāo)能力多維的情況。Cai (2010)的Twotier模型考慮了多維目標(biāo)能力的情況, 假設(shè)測(cè)驗(yàn)中不同項(xiàng)目分別測(cè)量多個(gè)不同的能力, 但模型假設(shè)每個(gè)項(xiàng)目至多包含一個(gè)題組效應(yīng), 忽略了項(xiàng)目?jī)?nèi)多維題組效應(yīng)的存在。另外, 詹沛達(dá)、李曉敏、王文中、邊玉芳和王立君(2015)提出多維題組反應(yīng)認(rèn)知診斷模型, 在認(rèn)知診斷框架下對(duì)題組測(cè)驗(yàn)進(jìn)行分析, 可以處理項(xiàng)目?jī)?nèi)多維題組效應(yīng), 也可以同時(shí)判定被試對(duì)多個(gè)認(rèn)知屬性(attribute)的掌握情況。但是認(rèn)知診斷模型是對(duì)被試的認(rèn)知屬性進(jìn)行二分或者多分的評(píng)定, 不能對(duì)被試能力進(jìn)行連續(xù)的估計(jì)。
多維隨機(jī)系數(shù)多項(xiàng)邏輯斯特模型(multidimensional random coefficients multinomial logistic model,MRCMLM; Adams, Wilson, & Wang, 1997)將單維隨機(jī)系數(shù)多項(xiàng)邏輯斯特模型(unidimensional random coefficients multinomial logistic model, RCMLM;Adams & Wilson, 1996)進(jìn)行拓展, 應(yīng)用于多維IRT領(lǐng)域, 是ConQuest (Wu, Adams, Wilson, & Heldane,2007)進(jìn)行 IRT模型估計(jì)的理論基礎(chǔ)。模型中得分矩陣(score matrix)和設(shè)計(jì)矩陣(design matrix)分別用來表示能力維度間的線性組合以及項(xiàng)目參數(shù)的分布。通過對(duì)得分矩陣和設(shè)計(jì)矩陣的限定,MRCMLM不僅可以應(yīng)用于多維IRT領(lǐng)域, 還可以轉(zhuǎn)化為 Rasch模型、PCM (partial credit model)(Masters, 1982)等, 具有高度適用性。本研究基于MRCMLM做進(jìn)一步探究。
實(shí)際中, 既包含多個(gè)目標(biāo)能力, 又包含項(xiàng)目?jī)?nèi)多維題組的測(cè)驗(yàn)真實(shí)存在。例如在一套測(cè)評(píng)學(xué)生數(shù)學(xué)能力的測(cè)驗(yàn)中, 通常測(cè)量學(xué)生在圖形與幾何、數(shù)與代數(shù)等方面的能力, 同時(shí)測(cè)驗(yàn)中情境式開放題中的多個(gè)項(xiàng)目可能受到共同情境的刺激, 情景下不同題型的項(xiàng)目又會(huì)受到共同題型的刺激。目前, 可以在two-tier模型的理論框架下分析這類測(cè)驗(yàn)得到連續(xù)的多維被試能力估計(jì)。但two-tier模型從因子分析角度分析被試的項(xiàng)目反應(yīng), 而在 IRT框架下, 此類測(cè)驗(yàn)的分析問題還有待解決。
Cai (2010)的文章中明確限定了two-tier模型次要維度(specific dimension)之間不能交叉, 但其應(yīng)用軟件(如 flexMIRT)進(jìn)行拓展之后允許在 two-tier模型的框架下分析項(xiàng)目?jī)?nèi)多維題組。Two-tier模型在項(xiàng)目參數(shù)估計(jì)中得到評(píng)分等級(jí)k上的截距參數(shù)和主要維度p (primary dimension)上的斜率參數(shù)a
,項(xiàng)目難度參數(shù)通過計(jì)算b
=-c
/a
得到(Houts & Cai,2016)。如果測(cè)驗(yàn)中存在項(xiàng)目?jī)?nèi)多維能力, 那么相應(yīng)項(xiàng)目對(duì)應(yīng)多個(gè)斜率參數(shù)a
。可見, Two-tier模型與IRT模型基于不同的理論基礎(chǔ), 估計(jì)結(jié)果不在同一量尺上, 對(duì)于結(jié)果的解釋也存在差異。因此, 有必要在 IRT的框架下探索上述測(cè)驗(yàn)結(jié)構(gòu)的分析方法,從而可以在IRT框架下解釋測(cè)驗(yàn)分析結(jié)果。在IRT領(lǐng)域, 對(duì)于題組反應(yīng)模型的研究局限于單一目標(biāo)能力。多維題組效應(yīng)Rasch模型是對(duì)Rasch模型的拓展, 也是 MRCMLM的一個(gè)特例, 可以滿足對(duì)項(xiàng)目?jī)?nèi)多維題組效應(yīng)的處理, 但仍然限定模型中只包含單一目標(biāo)能力。本文對(duì)MRCMLM做進(jìn)一步探究, 得到適用于多維目標(biāo)能力和多維題組效應(yīng)的多維題組反應(yīng)模型, 簡(jiǎn)記為MTRM (multidimensional testlets response model)。通過對(duì)模型中兩個(gè)判定矩陣的限定, 該模型適用于目標(biāo)能力單維、能力項(xiàng)目間多維、能力項(xiàng)目?jī)?nèi)多維、高階等各種測(cè)驗(yàn), 可以估計(jì)各種能力維度下多維題組效應(yīng)大小, 具有高度的靈活性和適用性。在MTRM中, 仍然以題組方差來反應(yīng)題組效應(yīng)大小。
本文主要圍繞 MTRM的參數(shù)估計(jì)精度和模型適用性展開討論。另外, 為了更全面的了解不同理論框架下的模型差異和適用性, 本文還對(duì)比分析MTRM與two-tier模型的估計(jì)結(jié)果。主要圍繞4個(gè)問題進(jìn)行論述:
(1) MRCMLM的應(yīng)用拓展:適用于能力和題組多維同時(shí)存在的MTRM及其參數(shù)估計(jì)探究。
(2) MTRM參數(shù)估計(jì)精度及其影響因素探究。
(3) MTRM與two-tier模型的差異和適用性探究。
(4) MTRM模型必要性和應(yīng)用價(jià)值探究。
目標(biāo)能力的多維性包括項(xiàng)目間多維和項(xiàng)目?jī)?nèi)多維(Adams et al., 1997), 項(xiàng)目間多維指測(cè)驗(yàn)中需要同時(shí)測(cè)量多個(gè)目標(biāo)能力, 由整個(gè)測(cè)驗(yàn)的維度構(gòu)成,每個(gè)項(xiàng)目只屬于一個(gè)能力維度; 項(xiàng)目?jī)?nèi)多維測(cè)驗(yàn)同樣需要測(cè)量多個(gè)目標(biāo)能力, 它們之間可以有交叉,一個(gè)項(xiàng)目可以屬于多個(gè)能力維度, 且至少有一個(gè)項(xiàng)目屬于兩個(gè)或以上的能力維度。處理目標(biāo)能力多維的傳統(tǒng)IRT模型稱為多維Logit模型。測(cè)驗(yàn)中, 通常包含目標(biāo)能力和題組效應(yīng)兩個(gè)維度, 將既包含目標(biāo)能力多維性, 又包含題組效應(yīng)多維性的模型稱為多維題組反應(yīng)模型, 結(jié)構(gòu)如圖2。
圖2 多維題組反應(yīng)模型示意圖
圖2(a)是多維題組效應(yīng)下的項(xiàng)目間多維目標(biāo)能力, 圖 2(b)是多維題組效應(yīng)下的項(xiàng)目?jī)?nèi)多維目標(biāo)能力。本文在MRCMLM的框架下探究解決圖2測(cè)驗(yàn)結(jié)構(gòu)的模型, 提出多維題組反應(yīng)模型(MTRM)。本文圍繞圖2(a)結(jié)構(gòu)對(duì)MTRM進(jìn)行探究, 由于模型的靈活性和適用性, 本文探究結(jié)果同樣適用于結(jié)構(gòu)2(b)。
MRCMLM可描述為:
模型(2)經(jīng)過上述自定義, 可以轉(zhuǎn)化為更為簡(jiǎn)單的形式, 即本文研究的模型MTRM,
t
的值為 1, 模型(3)就退化為多維題組效應(yīng)Rasch模型(詹沛達(dá)等, 2014)。當(dāng)題組效應(yīng)判定矩陣U為零矩陣時(shí), 表示測(cè)驗(yàn)中不包含題組, 模型(3)就成為模型(4)是MRCMLM的變形, 本文仍然稱模型(4)為MRCMLM。
本文仍然用ConQuest進(jìn)行參數(shù)估計(jì)。ConQuest參數(shù)估計(jì)的原理建立在 MRCMLM 的基礎(chǔ)上,MRCMLM模型可以經(jīng)過設(shè)計(jì)矩陣和得分矩陣的自定義轉(zhuǎn)化為與模型 MTRM 有相同的形式, 設(shè)計(jì)矩陣和得分矩陣定義如下:
且有
通過這一系列的參數(shù)設(shè)定, 可以使得 MRCMLM轉(zhuǎn)化為模型(3)的形式, 然后在 ConQuest中實(shí)現(xiàn)對(duì)MTRM的參數(shù)估計(jì), 參數(shù)估計(jì)方法選用MCMC算法。
N
= 1000,I
= 60, 模擬4種不同測(cè)驗(yàn)情境, 其中包括3個(gè)2級(jí)計(jì)分測(cè)驗(yàn)數(shù)據(jù)集和一個(gè)4級(jí)計(jì)分的測(cè)驗(yàn)數(shù)據(jù)集??疾炷芰S度之間的相關(guān)對(duì)參數(shù)估計(jì)精度的影響, 以及2級(jí)計(jì)分項(xiàng)目和多級(jí)計(jì)分項(xiàng)目之間參數(shù)估計(jì)精度的差異, 并與忽略題組維度的MRCMLM參數(shù)估計(jì)結(jié)果進(jìn)行比較。本文限定題組效應(yīng)潛變量與能力潛變量之間以及題組效應(yīng)潛變量相互之間正交, 但能力潛變量之間存在相關(guān)。通過R自編程序生成蒙特卡洛模擬研究數(shù)據(jù), 模擬數(shù)據(jù)生成包括以下步驟:
第一步, 基于潛變量的相關(guān)矩陣Corr()r
, 例r
表示能力潛變量之間的相關(guān)。此時(shí)生成的潛變量Z
滿足標(biāo)準(zhǔn)均值為0, 標(biāo)準(zhǔn)差為1, 能力之間相關(guān)為r
, 題組效應(yīng)之間相互正交的多元正態(tài)分布。第二步, 根據(jù)相關(guān)矩陣Corr()r
和方差協(xié)方差矩陣之間的關(guān)系進(jìn)行轉(zhuǎn)化。根據(jù)標(biāo)準(zhǔn)化公式將第一步生成的標(biāo)準(zhǔn)化潛變量Z
轉(zhuǎn)化為滿足特定方差協(xié)方差分布的潛變量模擬數(shù)據(jù)X
。X
, 基于多維題組反應(yīng)模型模擬生成被試的項(xiàng)目反應(yīng)概率。第四步, 最后根據(jù)反應(yīng)概率生成被試得分?jǐn)?shù)據(jù),該步驟所用的方法公式在很多模擬研究中可見(如詹沛達(dá)等, 2014), 這里不再贅述。
本文通過偏差(bias)、均方根誤差(RMSE)以及參數(shù)真值和估計(jì)值之間的相關(guān)(Corr)對(duì)參數(shù)估計(jì)的精度進(jìn)行比較分析。
R
為重復(fù)測(cè)量次數(shù)。當(dāng)計(jì)算被試個(gè)體能力參數(shù)估計(jì)精度時(shí),N
為被試人數(shù); 當(dāng)計(jì)算項(xiàng)目參數(shù)和潛變量方差估計(jì)精度時(shí)N
的值為1。(1)項(xiàng)目難度參數(shù)估計(jì)
將4個(gè)模擬數(shù)據(jù)集中項(xiàng)目難度參數(shù)估計(jì)結(jié)果進(jìn)行分離, 對(duì)題組項(xiàng)目和獨(dú)立項(xiàng)目分別進(jìn)行分析。對(duì)二級(jí)評(píng)分項(xiàng)目計(jì)算難度真值和估計(jì)值的RMSE, 并對(duì)所有項(xiàng)目難度估計(jì)的RMSE求均值; 對(duì)多級(jí)計(jì)分項(xiàng)目計(jì)算步驟難度真值與估計(jì)值的RMSE, 并對(duì)所有步驟難度估計(jì)的RMSE求均值。
結(jié)果顯示(如圖 3), 當(dāng)測(cè)驗(yàn)中包含題組, 模型MTRM和 MRCMLM對(duì)于測(cè)驗(yàn)中滿足局部獨(dú)立性的項(xiàng)目的難度參數(shù)估計(jì)精度幾乎相同, MTRM對(duì)多級(jí)評(píng)分步驟難度估計(jì)略高于MRCMLM。而對(duì)于包含題組的項(xiàng)目, MTRM對(duì)項(xiàng)目難度估計(jì)RMSE明顯小于MRCMLM。在對(duì)題組項(xiàng)目參數(shù)估計(jì)中, MTRM不受能力潛變量之間相關(guān)系數(shù)的影響, 而MRCMLM會(huì)對(duì)題組項(xiàng)目參數(shù)估計(jì)精度隨著能力潛變量之間相關(guān)系數(shù)的減小有所降低。總體來說, MTRM 和MRCMLM對(duì)2級(jí)計(jì)分項(xiàng)目參數(shù)的估計(jì)精度高于多級(jí)計(jì)分項(xiàng)目。
(2)潛變量估計(jì)
由于該模擬研究中被試能力3個(gè)維度分布相同,因此對(duì)被試能力估計(jì)結(jié)果呈現(xiàn)3個(gè)能力維度估計(jì)返真性各個(gè)指標(biāo)的均值。被試個(gè)體能力值估計(jì)結(jié)果顯示(見表 1), 能力維度間相關(guān)越高, MTRM 和MRCMLM對(duì)被試能力參數(shù)估計(jì)結(jié)果越準(zhǔn)確。當(dāng)模型條件和測(cè)驗(yàn)結(jié)構(gòu)相同時(shí), 多級(jí)計(jì)分項(xiàng)目下被試能力參數(shù)估計(jì)精度明顯高于2級(jí)計(jì)分項(xiàng)目。對(duì)于2級(jí)計(jì)分項(xiàng)目, 隨著能力維度間相關(guān)系數(shù)的增大, 參數(shù)估計(jì)的誤差在減小。對(duì)于相關(guān)系數(shù)為0.6的多級(jí)計(jì)分項(xiàng)目, 模型參數(shù)估計(jì)結(jié)果3個(gè)能力維度RMSE均值小于 0.4, 說明多級(jí)計(jì)分的被試反應(yīng)能夠?qū)Ρ辉嚹芰ψ龀龈鼮榫_的估計(jì)。
圖3 模擬研究1項(xiàng)目難度估計(jì)RMSE均值
表1 能力參數(shù)估計(jì)返真性
能力方差估計(jì)結(jié)果顯示(見表 1), MTRM 模型對(duì)被試潛變量方差估計(jì)精度更高, 受能力維度間相關(guān)系數(shù)大小的影響較小, 對(duì)多級(jí)計(jì)分項(xiàng)目下被試能力方差估計(jì)結(jié)果更為準(zhǔn)確。另外結(jié)果發(fā)現(xiàn), 大部分能力方差參數(shù)都容易被低估, 方差估計(jì)返真性指標(biāo)Bias容易出現(xiàn)負(fù)值。忽略題組效應(yīng)的存在, 負(fù)偏現(xiàn)象更加明顯, 說明忽略題組效應(yīng)會(huì)增大被試能力方差的低估現(xiàn)象。
圖4 模擬研究1題組效應(yīng)估計(jì)RMSE
圖5 模擬研究2測(cè)驗(yàn)結(jié)構(gòu)設(shè)計(jì)示意圖
對(duì)結(jié)構(gòu)一和結(jié)構(gòu)二中項(xiàng)目步驟難度參數(shù)估計(jì)結(jié)果進(jìn)行分析, 其中 two-tier模型通過 flexMIRT(Houts & Cai, 2016)軟件進(jìn)行估計(jì)。由于MTRM和twotier模型理論框架不同, 項(xiàng)目參數(shù)估計(jì)值差異較大,因此本文關(guān)注兩個(gè)模型估計(jì)結(jié)果對(duì)項(xiàng)目難度排序的影響, 計(jì)算步驟參數(shù)估計(jì)值與真值之間的相關(guān)(Corr)。
圖6 模擬研究2項(xiàng)目參數(shù)估計(jì)值與真值之間的相關(guān)(Corr)
本文呈現(xiàn)前10次重復(fù)模擬結(jié)果(如圖6), 結(jié)果表明 MTRM對(duì)結(jié)構(gòu)一和結(jié)構(gòu)二中項(xiàng)目步驟難度估計(jì)結(jié)果穩(wěn)定, 與真值的相關(guān)始終在 0.99以上。而two-tier模型步驟參數(shù)估計(jì)結(jié)果與真值的相關(guān)始終小于MTRM, 結(jié)構(gòu)一中的估計(jì)結(jié)果非常不穩(wěn)定。檢查結(jié)構(gòu)一中第1、3、7次模擬數(shù)據(jù), 發(fā)現(xiàn)存在少量極端項(xiàng)目, 被試反應(yīng)類別不完整。說明MTRM對(duì)項(xiàng)目參數(shù)估計(jì)不受測(cè)驗(yàn)結(jié)構(gòu)復(fù)雜性和被試反應(yīng)數(shù)據(jù)的影響, 能夠得到穩(wěn)定而且準(zhǔn)確的估計(jì)結(jié)果, 具有廣泛適用性, 而 two-tier模型對(duì)項(xiàng)目參數(shù)的估計(jì)受被試反應(yīng)數(shù)據(jù)的影響較大。
被試個(gè)體能力估計(jì)結(jié)果顯示(如表 2), 兩個(gè)模型對(duì)結(jié)構(gòu)二的被試能力估計(jì)結(jié)果精度都略低于結(jié)構(gòu)一, 但差異非常小。隨著能力方差的增大, MTRM和two-tier模型對(duì)被試個(gè)體能力值估計(jì)誤差都增大,兩個(gè)模型對(duì)被試個(gè)體能力估計(jì)精度的變化模式(pattern)相同, 估計(jì)精度相近。說明MTRM對(duì)被試個(gè)體能力估計(jì)受測(cè)驗(yàn)結(jié)構(gòu)影響較小, 能夠廣泛適用于不同測(cè)驗(yàn)結(jié)構(gòu), 估計(jì)精度與two-tier模型相近。
潛變量方差估計(jì)結(jié)果顯示(如表 3), MTRM 對(duì)所有潛變量方差估計(jì)精度較高, 能夠準(zhǔn)確反應(yīng)題組效應(yīng)大小, 而 two-tier模型對(duì)題組效應(yīng)方差估計(jì)精度明顯降低, 結(jié)構(gòu)二中 two-tier對(duì)題組效應(yīng)方差估計(jì)RMSE甚至達(dá)到0.55。結(jié)果顯示, 題組1~6中隨著項(xiàng)目數(shù)量的減小, 兩個(gè)模型對(duì)題組效應(yīng)方差估計(jì)的精度有所降低。MTRM對(duì)結(jié)構(gòu)二的潛變量方差估計(jì)RMSE大于結(jié)構(gòu)一, 但是最大RMSE也只有0.3,大部分都小于0.2, 說明MTRM對(duì)潛變量方差估計(jì)精度高, 能夠適用于不同測(cè)驗(yàn)結(jié)構(gòu)。
表2 模擬研究2被試能力估計(jì)結(jié)果
表3 模擬研究2潛變量方差估計(jì)結(jié)果
應(yīng)用研究將本文MTRM模型應(yīng)用到2012年數(shù)學(xué)大規(guī)模測(cè)評(píng)數(shù)據(jù)的分析中, 考察不同模型結(jié)構(gòu)對(duì)測(cè)驗(yàn)分析結(jié)果的影響, 論證 MTRM 在實(shí)際應(yīng)用中的意義。測(cè)驗(yàn)共包含114個(gè)項(xiàng)目, 所有項(xiàng)目測(cè)評(píng)學(xué)生數(shù)學(xué)能力的3個(gè)維度:數(shù)與代數(shù)、空間幾何、概率統(tǒng)計(jì)。3個(gè)維度下項(xiàng)目數(shù)量分別為58、42、14, 每個(gè)維度下既包含 2級(jí)計(jì)分項(xiàng)目, 又包含多級(jí)計(jì)分項(xiàng)目。測(cè)驗(yàn)中包含存在共同情境的問答題, 這些項(xiàng)目的作答反應(yīng)受到共同情境的刺激形成捆綁式題組, 共 6個(gè)捆綁式題組; 同時(shí)測(cè)驗(yàn)中存在建立在生活語境下的實(shí)際問題, 這些項(xiàng)目的作答反應(yīng)共同要求被試首先將實(shí)際語境轉(zhuǎn)化為數(shù)學(xué)問題, 形成1個(gè)語境嵌入式題組。捆綁式題組和語境嵌入式題組之間有交叉, 形成項(xiàng)目?jī)?nèi)多維題組。測(cè)驗(yàn)中題組維度分布情況見表4。
表4 應(yīng)用研究數(shù)據(jù)題組項(xiàng)目分布
本研究分別在忽略題組效應(yīng)(MRCMLM)、考慮捆綁式題組效應(yīng)(MTRM 1)、考慮捆綁式題組效應(yīng)和語境嵌入式題組效應(yīng)(MTRM 2)三種模型結(jié)構(gòu)下進(jìn)行測(cè)驗(yàn)分析。模型方差(Final Deviance)作為模型擬合指標(biāo), 用來進(jìn)行模型比較和篩選(Wu et al.,2007), 結(jié)果表明(見表5), MTRM 2擬合度最好, 模型方差最小, 忽略題組效應(yīng)或者忽略項(xiàng)目?jī)?nèi)多維題組效應(yīng)的存在都會(huì)增大模型擬合偏差。表5中的誤差是被試在各能力維度的后驗(yàn)分布中的方差均值,可以用來反應(yīng)能力估計(jì)的誤差方差, 即參數(shù)估計(jì)穩(wěn)定性。結(jié)果表明忽略題組效應(yīng)或者忽略項(xiàng)目?jī)?nèi)多維題組效應(yīng)的存在都會(huì)高估各維度被試能力參數(shù)估計(jì)穩(wěn)定性和各能力維度的測(cè)驗(yàn)信度。
題組已經(jīng)被越來越廣泛地應(yīng)用到各種各樣的測(cè)驗(yàn)中, 在這個(gè)“大數(shù)據(jù)”日益流行的時(shí)代, 數(shù)據(jù)分析的科學(xué)性和準(zhǔn)確性也備受關(guān)注, 為保證題組測(cè)驗(yàn)數(shù)據(jù)分析結(jié)果的可靠性, 對(duì)題組的研究具有重要的實(shí)踐意義。本文通過對(duì)MRCMLM進(jìn)行應(yīng)用拓展得到 MTRM, 并在 ConQuest中實(shí)現(xiàn)模型參數(shù)估計(jì),簡(jiǎn)單易操作, 實(shí)用性強(qiáng)。由于模型中能力維度和題組維度的增加, 模型復(fù)雜性增大, 容易造成參數(shù)估計(jì)效率降低。本文假設(shè)題組與能力之間、題組之間相互正交, 使得模型參數(shù)估計(jì)相對(duì)簡(jiǎn)化。結(jié)果表明,MTRM 模型對(duì)于高維測(cè)驗(yàn)結(jié)構(gòu)的數(shù)據(jù)有較高的參數(shù)估計(jì)返真性, 即使測(cè)驗(yàn)中能力維度和題組維度增多, 模型仍然可以得到可靠的被試能力和項(xiàng)目難度參數(shù)估計(jì)結(jié)果, 適用于各種不同結(jié)構(gòu)的測(cè)驗(yàn)。與two-tier模型比較發(fā)現(xiàn), MTRM與two-tier模型對(duì)能力估計(jì)結(jié)果相近, 但對(duì)項(xiàng)目參數(shù)和題組效應(yīng)方差估計(jì)不在同一量尺上。MTRM能夠在 IRT參數(shù)量尺上得到較高精度參數(shù)的估計(jì)結(jié)果, 對(duì)項(xiàng)目參數(shù)估計(jì)結(jié)果準(zhǔn)確性和穩(wěn)定性更高, 對(duì)測(cè)驗(yàn)中題組效應(yīng)大小估計(jì)也更準(zhǔn)確, 對(duì)工具質(zhì)量分析工作意義重大。
表5 實(shí)證研究能力與題組方差估計(jì)結(jié)果
研究結(jié)果中, 項(xiàng)目評(píng)分等級(jí)和能力維度之間的相關(guān)都是影響模型參數(shù)估計(jì)的重要因素。MTRM模型對(duì)多級(jí)計(jì)分項(xiàng)目測(cè)驗(yàn)的被試能力估計(jì)精度明顯高于2級(jí)計(jì)分項(xiàng)目測(cè)驗(yàn), 因?yàn)樵跍y(cè)驗(yàn)長(zhǎng)度相等的條件下, 多級(jí)計(jì)分項(xiàng)目提供了更多的被試反應(yīng)信息。同時(shí), MTRM模型對(duì)多級(jí)計(jì)分項(xiàng)目測(cè)驗(yàn)的項(xiàng)目難度估計(jì)誤差大于2級(jí)計(jì)分項(xiàng)目, 可能是因?yàn)樵诙嗉?jí)計(jì)分項(xiàng)目中, 項(xiàng)目參數(shù)數(shù)量增多, 項(xiàng)目參數(shù)估計(jì)復(fù)雜性增大, 導(dǎo)致參數(shù)估計(jì)精度有所下降。Wang等人(2002)在對(duì)廣義貝葉斯題組模型進(jìn)行探討時(shí), 也將評(píng)分等級(jí)當(dāng)成研究中的一個(gè)影響因素, 結(jié)果表明在單維領(lǐng)域中, 項(xiàng)目評(píng)分等級(jí)越多, 項(xiàng)目難度與區(qū)分度參數(shù)估計(jì)值與真值之間的相關(guān)越高。但實(shí)際上這一差異很小, 隨著測(cè)驗(yàn)中題組長(zhǎng)度的不同, 這一規(guī)律也有所變化, 且該研究中模擬數(shù)據(jù)只包含 30個(gè)項(xiàng)目。本研究中, 60個(gè)項(xiàng)目參數(shù)估計(jì)值與真值之間的相關(guān)系數(shù)始終在0.99以上, 不同情況下差異非常小, RMSE結(jié)果顯示4級(jí)計(jì)分項(xiàng)目難度估計(jì)誤差明顯大于2級(jí)計(jì)分。
當(dāng)測(cè)驗(yàn)中存在題組時(shí), 忽略題組效應(yīng)或忽略題組效應(yīng)多維性的存在將導(dǎo)致被試能力參數(shù)和項(xiàng)目參數(shù)估計(jì)的誤差增大, 導(dǎo)致參數(shù)估計(jì)的誤差被低估,各個(gè)維度的測(cè)驗(yàn)信度和參數(shù)估計(jì)穩(wěn)定性被高估, 這與單維能力模型研究結(jié)果一致(Bradlow et al., 1999;Marais & Andrich, 2008; Sireci et al., 1991; Wainer& Wang, 2000; Yen, 1993)。大量單維題組模型的研究結(jié)果顯示, 題組效應(yīng)越大, 忽略題組效應(yīng)對(duì)參數(shù)估計(jì)的影響越大, 參數(shù)估計(jì)精度越低(如, 劉玥, 劉紅云, 2012)。本研究結(jié)果表明, 能力維度間高相關(guān)使得MRCMLM能夠?qū)︻}組測(cè)驗(yàn)進(jìn)行更精確的估計(jì),與 MTRM模型估計(jì)差異變小。實(shí)證研究分析結(jié)果顯示, 大部分題組效應(yīng)方差在0.5左右, 3個(gè)能力維度之間相關(guān)達(dá) 0.85以上, 說明被試反應(yīng)數(shù)據(jù)對(duì)于MRCMLM是相對(duì)理想的。但結(jié)果表明 MTRM的模型擬合度更好, 其中考慮到項(xiàng)目?jī)?nèi)多維題組結(jié)構(gòu)的模型擬合度比只考慮項(xiàng)目?jī)?nèi)單維題組更高。說明在多維測(cè)驗(yàn)中, 不應(yīng)該忽略測(cè)驗(yàn)中可能存在的題組效應(yīng), MTRM為測(cè)驗(yàn)分析提供了更廣泛的模型結(jié)構(gòu)選擇, 具有重要的實(shí)際應(yīng)用價(jià)值。
本文結(jié)合模擬研究和實(shí)證研究, 得到了能力維度間相關(guān)系數(shù)、項(xiàng)目評(píng)分等級(jí)、測(cè)驗(yàn)結(jié)構(gòu)等因素對(duì)模型參數(shù)估計(jì)返真性的影響, 而當(dāng)前國內(nèi)對(duì)多維領(lǐng)域下題組模型的研究還很有限, 關(guān)于這些影響因素對(duì)模型參數(shù)估計(jì)影響的研究更是寥寥無幾, 因此本文對(duì)促進(jìn)題組反應(yīng)模型在多維測(cè)驗(yàn)中的應(yīng)用具有很大的實(shí)際意義。同時(shí), 本文仍然存在以下幾點(diǎn)不足:(1)研究雖然分別考慮到了能力維度間相關(guān)和項(xiàng)目評(píng)分等級(jí)對(duì)模擬參數(shù)估計(jì)的影響, 卻沒有進(jìn)一步對(duì)其交互作用進(jìn)行考察, 維度間相關(guān)系數(shù)與被試能力方差、題組效應(yīng)大小之間的交互作用也有待進(jìn)一步探討; (2)隨著題組模型的不斷的發(fā)展, 基于標(biāo)準(zhǔn)IRT模型的DIF檢驗(yàn)方法和等值技術(shù)也不斷擴(kuò)展到題組模型領(lǐng)域, 同樣, 多維題組模型的發(fā)展也要求拓展應(yīng)用, 感興趣的研究者可繼續(xù)進(jìn)行探討。
Adams, R. J., & Wilson, M. R. (1996). Formulating the Rasch model as a mixed coefficients multinomial logit. In G.Engelhard & M. Wilson (Eds.),Objective measurement:Theory into practice
(Vol. 3, pp, 143–166). Norwood, NJ:Ablex.Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial logit model.Applied Psychological Measurement, 21
, 1–23.Bradlow, E. T., Wainer, H, & Wang, X. H. (1999). A Bayesian random effects model for testlets.Psychometrika, 64
, 153–168.Braeken, J., Tuerlinckx, F., & De Boeck, P. (2007). Copula functions for residual dependency.Psychometrika, 72
,393–411.Braeken, J. (2011). A boundary mixture approach to violations of conditional independence.Psychometrika, 76
, 57–76.Cai, L. (2010). A two-tier full-information item factor analysis model with applications.Psychometrika, 75
, 581–612.DeMars, C. E. (2006). Application of the bi-factor multidimensional item response theory model to testlet-based tests.Journal of Educational Measurement, 43
, 145–168.Gibbons, R. D., & Hedeker, D. R. (1992). Full-information item bi-factor analysis.Psychometrika, 57
, 423–436.Gibbons, R. D., Bock, R. D., Hedeker, D., Weiss, D. J.,Segawa, E., Bhaumik, D. K., … Stover, A. (2007). Fullinformation item bifactor analysis of graded response data.Applied Psychological Measurement, 31
, 4–19.Houts, C. R., & Cai, L. (2016). FexMIRTuser’s manual version 3.5: Flexible multilevel multidimensional item analysis and test scoring. Chapel Hill, NC: Vector Psychometric Group.
Ip, E. H. (2010). Empirically indistinguishable multidimensional IRT and locally dependent unidimensional item response models.British Journal of Mathematical and Statistical Psychology, 63
, 395–416.Jiao, H., Kamata, A., Wang, S. D., & Jin, Y. (2012). A multilevel testlet model for dual local dependence.Journal of Educational Measurement, 49
, 82–100.Lee, G., Kolen, M. J., Frisbie, D. A., & Ankenmann, R. D.(2001). Comparison of dichotomous and polytomous item response models in equating scores from tests composed of testlets.Applied Psychological Measurement, 25
, 357–372.Li, Y. M., Bolt, D. M., & Fu, J. B. (2006). A comparison of alternative models for testlets.Applied Psychological Measurement, 30
, 3–21.Liu, Y., & Liu, H. Y. (2012). When should we use testlet model?A comparison study of Bayesian testlet random-effects model and standard 2-PL bayesian model.Acta Psychologica Sinica, 44
, 263–275.[劉玥, 劉紅云. (2012). 貝葉斯題組隨機(jī)效應(yīng)模型的必要性及影響因素.心理學(xué)報(bào), 44
, 263–275.]Marais, I., & Andrich, D. (2008). Formalizing dimension and response violations of local independence in the unidimensional Rasch model.Journal of Applied Measurement, 9
, 200–215.Masters, G. N. (1982). A rasch model for partial credit scoring.Psychometrika, 47
, 149–174.Sireci, S. G., Thissen, D., & Wainer, H. (1991). On the reliability of testlet-based tests.Journal of Educational Measurement,28
, 237–247Wainer, H., & Wang, X. H. (2000). Using a new statistical model for testlets to score TOEFL.Journal of Educational Measurement, 37
, 203–220.Wang, W. C., & Wilson, M. (2005). The rasch testlet model.Applied Psychological Measurement, 29
, 126–149.Wang, X. H., Bradlow, E. T., & Wainer, H. (2002). A general Bayesian model for testlets: Theory and applications.Applied Psychological Measurement, 26
, 109–128.Wu, M. L., Adams, R. J., Wilson, M., & Heldane, S. A. (2007).ACER ConQuest: Generalized item response modeling software (version 2.0) [computer software]. Melbourne:Australian Council for Educational Research.
Yen, W. M. (1993). Scaling performance assessments: Strategies for managing local item dependence.Journal of Educational Measurement, 30
, 187–213.Zhan, P. D., Li, X. M., Wang, W. C, Bian, Y. F., & Wang, L. J.(2015). The multidimensional testlet-effect cognitive diagnostic models.Acta Psychologica Sinica, 47
, 689–701.[詹沛達(dá), 李曉敏, 王文中, 邊玉芳, 王立君. (2015). 多維題組效應(yīng)認(rèn)知診斷模型.心理學(xué)報(bào), 47
, 689–701.]Zhan, P. D., Wang, W. C., & Wang, L. J. (2013). Testlet response theory: An introduction and new developments.Advances in Psychological Science, 21
, 2265–2280.[詹沛達(dá), 王文中, 王立君. (2013). 項(xiàng)目反應(yīng)理論新進(jìn)展之題組反應(yīng)理論.心理科學(xué)進(jìn)展, 21
, 2265–2280.]Zhan, P. D., Wang, W. C., Wang, L. J., & Li, X. M. (2014). The multidimensional testlet-effect rasch model.Acta Psychologica Sinica, 46
, 1208–1222.[詹沛達(dá), 王文中, 王立君, 李曉敏. (2014). 多維題組效應(yīng)Rasch模型.心理學(xué)報(bào), 46
, 1208–1222.]