(北京師范大學(xué)心理學(xué)部,北京 100875)
大型的教育測驗(yàn)通常具有多維結(jié)構(gòu),這些測驗(yàn)除了提供總分信息,也越來越重視對各分維度維度分(domain score,subscore)的報告。維度分不僅能像總分一樣作為選拔、分配等的判斷標(biāo)準(zhǔn),更重要的是能提供更詳細(xì)的診斷信息(陳飛鵬,2015)。因此,合成準(zhǔn)確、可信的總分和維度分在教育測量中具有重要意義。但是,分維度中的題目數(shù)通常較少,維度分信度較低是估計(jì)和合成維度分面臨的主要問題(de la Torre,Song,&Hong,2011)。為了提高總分和維度分的準(zhǔn)確性和可信度,研究者對總分和維度分的合成進(jìn)行了大量的探索。
基于項(xiàng)目反應(yīng)模型合成總分與維度分,比較常見的有3種方法:基于單維項(xiàng)目反應(yīng)理論(UIRT)模型的方法、基于多維項(xiàng)目反應(yīng)理論(MIRT)模型的信息函數(shù)極大化方法(Yao,2010)、基于高階項(xiàng)目反應(yīng)理論(HO-IRT)模型的方法。研究證明,MIRT模型合成分?jǐn)?shù)往往具有更高的信度(Wang,Chen,&Cheng,2004;Yao &Boughton,2007;Cheng,Wang,&Ho,2009;Yao,2010)。
盡管目前,基于MIRT模型合成總分和維度分已發(fā)展的較為成熟,但是,隨著雙因子模型(bi-factor model)在多維結(jié)構(gòu)數(shù)據(jù)中的廣泛應(yīng)用,如何基于該模型合成可信、準(zhǔn)確的總分和維度分也成為研究者探索的重點(diǎn)。
與傳統(tǒng)方法相比,基于雙因子模型合成總分和維度分具有一定的優(yōu)勢。一是具有較高的效標(biāo)關(guān)聯(lián)效度。二是具有線性轉(zhuǎn)換的特性,這在追蹤研究中尤為重要,使得研究者可以忽略最初的能力水平,通過能力分?jǐn)?shù)的變化來考察能力真值的變化情況(Gavett,Crane,&Dams-O’Connor,2013)。三是雙因子模型擬合數(shù)據(jù)所需要的計(jì)算較為簡單(DeMars,2013),可以通過限制性信息因素分析或全信息項(xiàng)目因素分析的估計(jì)方法實(shí)現(xiàn)(Reise,2012)。
目前,基于雙因子模型合成測驗(yàn)總分和維度分的研究仍較少,已有研究主要提出了4種方法。第一,使用雙因子模型原始的因子分作為總分和維度分。根據(jù)雙因子模型的定義,局部因子可以代表無關(guān)變異的因子,如題組、方法效應(yīng)等,也可以代表分維度的變異。在第一種情況下,全局因子代表了使用局部因子控制無關(guān)變異之后測驗(yàn)所關(guān)注的核心能力,因此可以看做總分(DeMars,2013)。在第二種情況下,可以使用局部因子的因子值作為維度分估計(jì)值。另外,在一些研究中,研究者直接將雙因子模型中全局因子和局部因子的因子值分別作為總分和維度分。如,Yao (2010)的研究證明,基于雙因子模型合成總分和維度分的準(zhǔn)確性遠(yuǎn)不如 MIRT和HO-IRT模型??偡謶?yīng)當(dāng)反映被試在測驗(yàn)所有題目上的整體表現(xiàn)而不僅僅是所有題目的共同部分,維度分應(yīng)當(dāng)反映被試在測驗(yàn)?zāi)硞€維度所有題目上的整體表現(xiàn),也不僅僅是控制了所有題目共同的影響后,某個維度的獨(dú)特部分,因此,這種方法具有一定的不合理性。第二,使用基于雙因子模型的觀察分?jǐn)?shù)合成維度分。模型預(yù)測的分維度觀察分?jǐn)?shù),是在給定總體能力(全局因子)和特定維度能力(局部因子)的情況下,被試正確作答分維度所有題目的概率之和。但是,這種方法得到的維度分與因子分的關(guān)系是非線性的,因此能力量尺的尾端會壓縮或擴(kuò)大。第三,使用雙因子模型的因子分加和作為總分和維度分。由于分維度觀察分?jǐn)?shù)的變異包含了全局因子和局部因子的變異(Willoughby,Blanton,&Investigators,2015),總分的變異也是全局因子和所有局部因子變異之和,因此可以考慮將全局因子和局部因子的因子分加和以合成總分和維度分。研究證明,加入了全局因子計(jì)算出的維度分的信度,高于控制了全局因子而得到的維度分信度(Reise,2012)。但是,如果僅是簡單的加和,則全局因子和局部因子對合成分?jǐn)?shù)的貢獻(xiàn)程度是相同的,這與實(shí)際情況不符。第四,使用雙因子模型的因子分加權(quán)加和作為總分和維度分。DeMars (2013)在其研究中提出使用全局因子和局部因子線性加權(quán)加和的方法來得到合成分?jǐn)?shù),并指出權(quán)重應(yīng)基于全局因子和局部因子對作答反應(yīng)的相對貢獻(xiàn)程度。但是,他們的文章并未給出權(quán)重的具體計(jì)算方法,也沒有系統(tǒng)的比較不同加權(quán)方法。
綜上,目前尚未有研究系統(tǒng)比較基于雙因子模型的測驗(yàn)總分和維度分合成方法。是否能夠根據(jù)雙因子模型本身的結(jié)構(gòu)和總分、維度分的定義,提出較為科學(xué)的方法,從而合成更加準(zhǔn)確和可信的總分和維度分,是研究關(guān)注的主要問題。
研究基于雙因子模型,提出了4種合成總分和維度分的方法。采用模擬研究的方法,對在樣本量、測驗(yàn)長度和維度間相關(guān)變化的條件下,各方法對總分和維度分估計(jì)的準(zhǔn)確性,進(jìn)行了比較,期望能夠?qū)λ岢龅姆椒ㄓ懈由钊氲恼J(rèn)識,同時也能為實(shí)際使用者提供建議。另外,研究還將各方法應(yīng)用于高考理綜測驗(yàn)數(shù)據(jù),對模擬研究的結(jié)果進(jìn)行了進(jìn)一步的印證與補(bǔ)充。
研究討論的方法都針對簡單結(jié)構(gòu)的多維數(shù)據(jù)。對于基于MIRT模型合成總分和維度分的方法,研究使用兩參數(shù)MIRT模型估計(jì)參數(shù)(Reckase,2009)。
首先,對于0/1計(jì)分的題目,題目j在上的信息函數(shù)為(Yao,2010):
其中,P j1表示在能力上答對題目j的概率。
對于多級計(jì)分的題目,題目j在上的信息函數(shù)為:
處的測驗(yàn)信息函數(shù)為:
Holzinger和 Swineford (1937)正式提出了雙因子模型,該模型包括一個全局因子,反映測驗(yàn)測量的核心能力;多個局部因子,表示控制全局因子的情況下,一組題目的共同變異,即分維度效應(yīng)或方法效應(yīng)。使用雙因子模型擬合數(shù)據(jù),每道題目的變異可分解為3個獨(dú)立的部分:全局因子、局部因子和殘差。其結(jié)構(gòu)如圖1所示,該圖表示有9道題目,每3道題目屬于1個局部因子。其中,j表示題目,表示全局因子,表示維度d上的局部因子。雙因子模型在結(jié)構(gòu)上與MIRT模型類似,應(yīng)用于兩參數(shù)IRT模型可以得到:
圖1 雙因子模型示意圖
di表示項(xiàng)目難度,區(qū)分度參數(shù)是一個向量,即每個題目有一個全局因子的區(qū)分度,同時還有一個局部因子的區(qū)分度。能力參數(shù)也是一個向量,每個被試有一個和一個,因此該模型可以得到每個被試在全局因子和局部因子上能力值的估計(jì)。為了模型更容易收斂和解釋,通常還假定全局因子與局部因子不相關(guān),局部因子之間不相關(guān)(Chen,Hayes,Carver,Laurenceau,&Zhang,2012)。但當(dāng)局部因子多于兩個時,允許部分局部因子之間相關(guān)。
由于其極大的優(yōu)越性,雙因子模型已廣泛應(yīng)用到心理和教育測量的各領(lǐng)域,如人格測驗(yàn)的數(shù)據(jù)擬合(Ackerman,Donnellan,&Robins,2012),定義和測量心理結(jié)構(gòu)(Cai,Yang,&Hansen,2011),計(jì)算機(jī)自適應(yīng)測驗(yàn)(Gibbons et al.,2008),垂直量尺化(Li&Lissitz,2012)和評估項(xiàng)目反應(yīng)差異(Fukuhara &Kamata,2011)等。另外,現(xiàn)在,很多操作簡單的軟件也能夠用于估計(jì)雙因子模型參數(shù),如 IRTPRO 2.1(Cai,Thissen,&du Toit,2011)、EQSIRT (Wu &Bentler,2011),這也進(jìn)一步促進(jìn)了雙因子模型的研究和應(yīng)用。
(1)MIRT法(MIRT)
使用兩參數(shù)MIRT模型擬合數(shù)據(jù),各分維度能力值作為維度分,采用多維測驗(yàn)信息函數(shù)極大化法合成總分。
(2)原始分法(Bifactor-M1)
將雙因子模型估計(jì)得到的被試在全局因子上的能力值作為總分,在局部因子上的能力值作為局部因子上的維度分。
(3)加和法(Bifactor-M2)
參考 Haberman (2008)的思路,在多維測驗(yàn)中,總分的變異應(yīng)當(dāng)包括被試在所有題目上的全部變異,即應(yīng)當(dāng)為題目的共同變異與它們在所有特定維度上變異之和,相當(dāng)于全局因子和所有局部因子之和。同理,維度分應(yīng)當(dāng)包括被試在特定維度上題目的全部變異,即應(yīng)當(dāng)為他們在這部分題目的共同變異與該維度上獨(dú)特變異之和,即全局因子與相應(yīng)的局部因子之和。加和法對總分和維度分的定義如下:
(4)全局加權(quán)加和法(Bifactor-M3)
借鑒 DeMars (2013)線性加權(quán)加和的思路,為全局因子和局部因子的能力值尋找合適的權(quán)重。在他們的研究中,提出可以參考最大斜率方向的概念計(jì)算權(quán)重,在雙因子模型中,全局因子的相對角度是由題目在全局因子和局部因子上的區(qū)分度合成的。對于分維度,合成分?jǐn)?shù)的權(quán)重可以采用區(qū)分度的特征向量得到。因此,可以認(rèn)為題目在全局因子和局部因子上的區(qū)分度與各因子對題目變異的解釋程度相關(guān),考慮使用各類區(qū)分度之和所占比例對能力值進(jìn)行加權(quán)。全局加權(quán)加和法的計(jì)算公式為:
(5)局部加權(quán)加和法(Bifactor-M4)
對于總分的合成,局部加權(quán)加和法與全局加權(quán)加和法相同。
研究采用混合實(shí)驗(yàn)設(shè)計(jì)。組內(nèi)變量為5種合成方法,分別為MIRT法、原始分法、加和法、全局加權(quán)加和法、局部加權(quán)加和法。組間變量有3個:(1)樣本量:500、1000、2000。(2)測驗(yàn)長度:18題、30題、60題。(3)維度間相關(guān):0.0、0.3、0.5、0.7、0.9。組間變量共形成3×3×5=45種不同的實(shí)驗(yàn)條件。
題目參數(shù)選自某地區(qū)高考理綜測驗(yàn)題目參數(shù)庫,其中所有題目區(qū)分度均值為 0.83,標(biāo)準(zhǔn)差為0.35,難度的截距均值為?0.08,標(biāo)準(zhǔn)差為 1.91。測驗(yàn)為簡單結(jié)構(gòu),包含 3個維度,每個維度的題目數(shù)相等,且0/1計(jì)分和多級計(jì)分的題目數(shù)各占50%。研究暫沒有考慮維度數(shù)的影響,主要出于兩個方面的考慮。一是根據(jù)幾種合成方法的定義,推測維度數(shù)對維度分合成的影響相對較小,且在de la Torre等(2011)的模擬研究中,各維度數(shù)條件下,各種方法的表現(xiàn)有相似的規(guī)律。二是模擬研究基于實(shí)際數(shù)據(jù),目前我國的高考文、理科綜合考試均包含3個分測驗(yàn),因此將維度數(shù)固定為3更接近高考綜合考試的實(shí)際情況,結(jié)論能更好地為實(shí)際的測驗(yàn)提供參考。產(chǎn)生數(shù)據(jù)所依據(jù)的模型為兩參數(shù) MIRT模型,能力符合多元正態(tài)分布。采用蒙特卡洛模擬研究的方法,使用SimuMIRT軟件(Yao,2013)產(chǎn)生每種條件下的反應(yīng)數(shù)據(jù),每種條件下數(shù)據(jù)重復(fù)模擬30次。數(shù)據(jù)重復(fù)模擬次數(shù)參考了多個類似模擬研究的設(shè)置,如 Huang (2015),劉玥和劉紅云(2012,2013),詹沛達(dá)、陳平和邊玉芳(2016),Yao和Boughton (2009),Yao (2010,2011),de la Torre和Song (2009),de la Torre等(2011)等。
在每種條件下,使用BMIRT (Yao,2013)軟件,基于貝葉斯框架下的 MCMC算法完成參數(shù)估計(jì),迭代次數(shù)為 2000次,各參數(shù)的先驗(yàn)分布采用軟件中的默認(rèn)值。
研究使用3個指標(biāo)評價各方法合成的總分和維度分的返真性:(1)誤差均方根(RMSE),(2)信度(Reliability),(3)合成分與真值的相關(guān)(Correlation)。其中,為使得合成分與其真值在同一量尺上,先將真值和合成分標(biāo)準(zhǔn)化,再計(jì)算誤差均方根。
誤差均方根考察了合成的總分和維度分與真實(shí)值差異的大小,其值越小說明合成分與真值的差異越小,準(zhǔn)確性越高。其公式如下:
表示標(biāo)準(zhǔn)化后總分或維度分的真值,表示標(biāo)準(zhǔn)化后合成的總分或維度分。I表示被試數(shù)量,N表示重復(fù)的次數(shù)。
信度計(jì)算公式如下:
該指標(biāo)計(jì)算了合成分與真值的積差相關(guān),它的意義是合成分與真實(shí)值的一致性水平。
另外,研究還計(jì)算了各條件下合成的維度分之間的相關(guān)系數(shù),以考察各方法所合成的維度分反映維度之間真實(shí)相關(guān)關(guān)系的程度。
研究使用某地區(qū)高考理綜測驗(yàn)的實(shí)證數(shù)據(jù)對幾種總分和維度分合成方法進(jìn)行進(jìn)一步比較。測驗(yàn)共有66道題目,分為3個維度:物理(17題)、化學(xué)(30題)、生物(19題),同時包含了0/1計(jì)分和多級計(jì)分的題目,最高等級數(shù)為9。被試人數(shù)為4815人。所比較的方法與模擬研究中的 5種方法相同,將MIRT法的總分和維度分看做“真值”,對其他的分?jǐn)?shù)合成合成方法進(jìn)行比較。
另外,還使用了絕對偏差來評價各方法結(jié)果與“真值”的差異。絕對偏差表示合成分與真值的絕對差異大小。
方差分析結(jié)果顯示1由于研究關(guān)注的重點(diǎn)在于比較各合成方法之間的表現(xiàn),因此在方差分析時僅介紹以合成方法為關(guān)注點(diǎn)的交互作用、簡單效應(yīng)。,總分合成方法與樣本量(F(6,124)=14.30,p<0.001,η2=0.409)、總分合成方法與測驗(yàn)長度(F(6,124)=38.24,p<0.001,η2=0.649)、總分合成方法與維度間相關(guān)(F(12,124)=198.99,p<0.001,η2=0.951)的交互作用顯著。簡單效應(yīng)分析結(jié)果表明,樣本量為 500時,Bifactor-M1法的誤差均方根小于Bifactor-M2法(d2d表示均值差異,后同。=?0.021,p<0.001);樣本量為2000時,Bifactor-M1法的誤差均方根大于 Bifactor-M2 法(d=?0.016,p<0.001)。測驗(yàn)長度為18題時,Bifactor-M1法誤差均方根大于Bifactor-M2 法(d=?0.030,p<0.001);測驗(yàn)長度為36題和 60題時,Bifactor-M1法誤差均方根小于Bifactor-M2法,且只有在測驗(yàn)長度為60題的情況下差異顯著(d=?0.029,p<0.001)。維度間相關(guān)較小時(相關(guān)為 0.0),MIRT法、Bifactor-M1法、Bifactor-M2法的誤差均方根差異較大(p<0.001),隨著維度間相關(guān)的增加,MIRT法、Bifactor-M1法、Bifactor-M3法的誤差均方根較為接近(p>0.001),且小于Bifactor-M2法(d=?0.123,p<0.001,d=?0.117,p<0.001,d=?0.123,p<0.001)。交互作用分析結(jié)果如圖2所示。
圖3以樣本量為1000的條件為例,展示了不同總分合成方法在不同條件下的誤差均方根。其他條件下誤差均方根規(guī)律與此類似。
從圖3中可以看出:(1)隨著維度間相關(guān)增加,MIRT法、Bifactor-M1法和Bifactor-M3法的誤差均方根有降低的趨勢,且三種方法的差異減小,當(dāng)維度間相關(guān)為 0.9時,三種方法的誤差均方根沒有顯著差異;(2)Bifactor-M2法的誤差均方根相對穩(wěn)定;(3)當(dāng)維度間相關(guān)較小時,Bifactor-M1法的誤差最大,隨著維度間相關(guān)增加,該方法誤差均方根減小,當(dāng)維度間相關(guān)較高時,Bifactor-M2法的誤差均方根最大;(4)MIRT法和Bifactor-M3法的誤差均方根隨著測驗(yàn)長度增加而減小,MIRT法和Bifactor-M3法的誤差均方根的差異隨著測驗(yàn)長度增加而增大。
總的來看,不同總分合成方法存在顯著差異,F(3,124)=873.60,p<0.001,η2=0.955。使用 LSD方法、bonferroni方法進(jìn)行多重比較結(jié)果表明,MIRT法的誤差均方根顯著小于其他方法,其次是Bifactor-M3法,然后是 Bifactor-M1法和 Bifactor-M2法,二者沒有顯著差異。
表1以樣本量為2000為例,呈現(xiàn)了不同方法合成的總分的信度,及其與真值的相關(guān)結(jié)果。其他條件下的規(guī)律與此類似。
從表1中可以看出,信度和相關(guān)的結(jié)果與誤差均方根呈現(xiàn)出相似的規(guī)律。當(dāng)測驗(yàn)長度較短、維度間相關(guān)較低時,Bifactor-M1法的信度較低。當(dāng)測驗(yàn)長度為 18題,維度間相關(guān)大于等于 0.7時,MIRT法、Bifactor-M1法和Bifactor-M3法合成總分的信度大于0.8;當(dāng)測驗(yàn)長度為36題,維度間相關(guān)大于等于0.5時,所有方法合成總分的信度大于0.8;當(dāng)測驗(yàn)長度為60題,維度間相關(guān)大于等于0.3時,所有方法合成總分的信度大于0.8。
圖2 總分合成方法與各條件交互作用
圖3 樣本量為1000條件下不同方法合成總分的誤差均方根
表1 樣本量為2000條件下不同方法合成總分的信度和相關(guān)
以維度 1為例,方差分析結(jié)果顯示,維度分合成方法與樣本量(F(8,160)=3.20,p<0.05,η2=0.138)、維度分合成方法與測驗(yàn)長度(F(8,160)=62.91,p<0.001,η2=0.759)、維度分合成方法與維度間相關(guān)(F(16,160)=450.18,p<0.001,η2=0.978)的交互作用顯著。簡單效應(yīng)分析結(jié)果表明,樣本量為500時,MIRT法和Bifactor-M3法的誤差均方根的差異相對較大(MIRT法和 Bifactor-M3法,d=?0.046,p<0.001);隨著樣本量增大,MIRT法和Bifactor-M3法的誤差均方根的差異減小(樣本量為2000,d=?0.031,p<0.001)。測驗(yàn)長度為 18 題時,MIRT法和Bifactor-M2法(d=0.017,p>0.001)、MIRT法和 Bifactor-M3 法(d=0.006,p>0.001)、Bifactor-M2法和 Bifactor-M3 法(d=?0.011,p>0.001)、Bifactor-M2法和Bifactor-M4法(d=0.019,p>0.001)的誤差均方根沒有顯著差異;測驗(yàn)長度為60題時,MIRT法誤差均方根顯著小于Bifactor-M2法(d=?0.028,p<0.001)、小于 Bifactor-M3 法(d=?0.084,p<0.001),Bifactor-M2法的誤差均方根顯著小于 Bifactor-M3法(d=?0.056,p<0.001),大于 Bifactor-M4 法(d=?0.039,p<0.001)。維度間相關(guān)較小時(相關(guān)為0.0),MIRT 法和 Bifactor-M4 法(d=?0.010,p>0.001)、Bifactor-M2法和 Bifactor- M4法(d=0.000,p>0.001)的誤差均方根沒有顯著差異,Bifactor-M3法的誤差均方根顯著大于Bifactor-M4法(d=0.090,p<0.001);隨著維度間相關(guān)的增加,MIRT法(d=0.073,p<0.001)、Bifactor- M2 法(d=0.099,p<0.001)的誤差均方根顯著大于 Bifactor-M4法,Bifactor-M3法的誤差均方根與 Bifactor-M4法沒有顯著差異(d=0.004,p>0.001)。交互作用結(jié)果如圖4所示。
圖5以樣本量為2000的條件為例,展示了不同維度分合成方法在不同條件下維度 1的誤差均方根。其他條件下誤差均方根規(guī)律與此類似。
從圖5中可以看出:(1)Bifactor-M1法的誤差均方根明顯大于其他方法,且隨著維度間相關(guān)增加,誤差增大;(2)MIRT法的誤差均方根受維度間相關(guān)的影響不大;(3)Bifactor-M3法和Bifactor-M4法的誤差均方根隨著維度間相關(guān)增加而降低,其中,Bifactor-M4法的誤差均方根始終與 MIRT法相當(dāng)或小于MIRT法,Bifactor-M3法的誤差均方根在維度間相關(guān)為0.7及以下時略大于MIRT法,在維度間相關(guān)為0.9時小于MIRT法,且該現(xiàn)象在測驗(yàn)長度較長時更加明顯;(4)測驗(yàn)長度較短時,Bifactor-M2法的誤差均方根相對不受維度間相關(guān)影響,且低于 MIRT法,測驗(yàn)長度中等和較長時,Bifactor-M2法的誤差均方根隨著維度間相關(guān)增加而略有增加,且在相關(guān)為0.9時超過MIRT法,該現(xiàn)象在測驗(yàn)長度較長時更加明顯。
總的來看,對于維度 1,各維度分合成方法存在顯著差異,F(4,160)=5897.50,p<0.001,η2=0.993。使用LSD方法、bonferroni方法進(jìn)行多重比較結(jié)果表明,Bifactor-M4法的誤差均方根顯著小于其他方法,其次是MIRT法和Bifactor-M2法,二者沒有顯著差異,再次是Bifactor-M3法,Bifactor-M1法的誤差均方根顯著大于其他方法。
圖4 維度分合成方法與各條件交互作用
圖5 樣本量為2000條件下不同方法合成維度1維度分的誤差均方根
表2以樣本量為2000為例,呈現(xiàn)了不同方法在不同條件下合成的維度1維度分的信度,及其與真值的相關(guān)結(jié)果。其他條件下的規(guī)律與此類似。
從表2中可以看出,信度和相關(guān)的結(jié)果與誤差均方根呈現(xiàn)出相似的規(guī)律。當(dāng)維度間相關(guān)較高時,Bifactor-M1法的信度較低。當(dāng)測驗(yàn)長度為18題,維度間相關(guān)為0.9時,Bifactor-M3法和Bifactor-M4法合成維度分的信度大于 0.8;當(dāng)測驗(yàn)長度為 36題,MIRT法、Bifactor-M2法和 Bifactor-M4法合成維度分的信度均大于0.8,當(dāng)維度間相關(guān)大于等于0.7時,Bifactor-M3法合成維度分的信度大于 0.8;當(dāng)測驗(yàn)長度為60題,僅有Bifactor-M1法的信度始終未達(dá)到 0.8,其余方法在各條件下合成維度分信度均大于0.8。
表2 樣本量為2000條件下不同方法合成維度1維度分的信度和相關(guān)
表3以樣本量為2000的條件為例,展示了不同維度分合成方法在不同條件下維度1和維度2維度分的相關(guān)系數(shù)。其他條件和其他維度分相關(guān)的結(jié)果與此類似。
從表3中可以看出,僅有Bifactor-M4法合成的維度分之間的相關(guān)與真值較為接近,且當(dāng)測驗(yàn)長度較長時更加接近。而 Bifactor-M1法的相關(guān)始終為負(fù),Bifactor-M2法的相關(guān)一直是中等程度,Bifactor-M3法的相關(guān)較高。綜上,Bifactor-M4法合成的維度分能較好地反映維度之間真實(shí)相關(guān)關(guān)系。
實(shí)際數(shù)據(jù)各維度之間的相關(guān)如表4所示,各維度間呈現(xiàn)出較高程度的相關(guān)。
在實(shí)證研究中,還使用了單維兩參數(shù) Logistic模型對數(shù)據(jù)進(jìn)行擬合,以此作為擬合結(jié)果比較的基線。表5呈現(xiàn)了各模型的擬合結(jié)果,MIRT模型和Bifactor模型對數(shù)據(jù)的擬合程度都顯著優(yōu)于單維模型,Bifactor模型擬合程度最好。
表3 樣本量為2000條件下不同方法合成維度1和維度2維度分的相關(guān)
表4 某地區(qū)高考理綜測驗(yàn)各維度之間相關(guān)及方差
表5 某地區(qū)高考理綜測驗(yàn)?zāi)P蛿M合結(jié)果
結(jié)果如表6所示,Bifactor-M3法合成的總分與MIRT法差異最小,Bifactor-M2法的差異最大;Bifactor-M2法和 Bifactor-M4法合成的維度分與MIRT法的差異都較小,Bifactor-M1法的差異最大。綜合來看,Bifactor-M3法和Bifactor-M4法合成分與MIRT法最為接近。
表7呈現(xiàn)了各方法合成的分的百分位數(shù)。從表7中可以看出,除了Bifactor-M2法合成總分的0.05和0.95百分位數(shù),Bifactor-M1法合成維度分的0.05和0.25百分位數(shù),Bifactor-M2法合成維度分的0.05百分位數(shù),Bifactor-M3法合成維度分的0.05和0.95百分位數(shù)與MIRT法相差0.1以上,其余方法的百分位數(shù)與MIRT法相差都較小。Bifactor-M3法合成總分,Bifactor-M4法合成維度分的百分位數(shù)與 MIRT法的最為接近,相對差異基本在[?0.05,0.05]區(qū)間內(nèi)。
表6 某地區(qū)高考理綜測驗(yàn)各方法合成總分維度分與 MIRT結(jié)果的絕對偏差和相關(guān)
表7 某地區(qū)高考理綜測驗(yàn)各方法合成總分維度分的百分位數(shù)
首先,全局加權(quán)加和法和局部加權(quán)加和法,尤其是局部加權(quán)加和法合成分準(zhǔn)確性最高,與 MIRT法的結(jié)果差異不大甚至優(yōu)于該方法。在 DeMars(2013)的文章中也指出,全局因子和局部因子加權(quán)加和合成的分?jǐn)?shù),具有較高的可信度和較小的標(biāo)準(zhǔn)誤。對于總分來說,局部加權(quán)加和法的誤差和MIRT法非常接近,并且,隨著維度間相關(guān)增加,兩種方法的誤差及其差異減小。當(dāng)維度間相關(guān)為0.9時,兩種方法合成總分的誤差沒有差異。假設(shè)研究中測驗(yàn)各部分的分?jǐn)?shù)變異關(guān)系如圖6所示。其中a、b、c可以看做局部因子,g可以看做全局因子。那么,總分可以看做 a+b+c+d+e+g+f。當(dāng)維度間相關(guān)較高時,g的部分相對較大,采用加權(quán)加和法的思路,全局因子所占的權(quán)重相對較大,其在總分中所占比重也較大,因此總分也越接近于真實(shí)值。對于維度分來說,全局加權(quán)加和法和局部加權(quán)加和法的誤差與MIRT法差異均不大。其中,局部加權(quán)加和法的誤差均方根始終與 MIRT法相當(dāng)或小于MIRT法,且當(dāng)維度間相關(guān)較高時該方法表現(xiàn)甚至優(yōu)于MIRT法;全局加權(quán)加和法的誤差均方根基本與 MIRT法相當(dāng),但當(dāng)維度間相關(guān)較低時,該方法表現(xiàn)差于MIRT法。局部加權(quán)加和法總體表現(xiàn)較為穩(wěn)定,可能因?yàn)樵摲椒ㄔ诤铣删S度分時,采用該維度題目在全局因子和局部因子上的區(qū)分度進(jìn)行加權(quán),既沒有加和法的情況下夸大局部因子的比重,也沒有在全局加權(quán)加和法的情況下減小局部因子的比重,權(quán)重的設(shè)定更加科學(xué)。另外,MIRT法盡管誤差較小,但是會低估低能力被試,高估高能力被試的總分和維度分,仍有一定的不足。
圖6 測驗(yàn)各部分分?jǐn)?shù)變異示意圖
其次,僅有局部加權(quán)加和法能較好的反映維度之間真實(shí)的相關(guān)。權(quán)重的設(shè)定是加權(quán)加和法的核心問題。DeMars (2013)指出,雙因子模型允許全局因子或局部因子對題目有不同的影響程度,即不同的權(quán)重。他通過區(qū)分度計(jì)算出最好的測量角度,從而確定權(quán)重。這種方法與研究所提出的利用區(qū)分度進(jìn)行加權(quán)的方法有一定的相似性。與 DeMars (2013)研究不同的是,DeMars (2013)設(shè)定的權(quán)重是針對每道題目的,而研究所設(shè)定的權(quán)重是針對全局因子和局部因子的。局部加權(quán)加和法與全局加權(quán)加和法的區(qū)別就在于計(jì)算維度分時,僅使用該維度題目在全局因子上的區(qū)分度計(jì)算,因此認(rèn)為局部加權(quán)加和法對權(quán)重設(shè)定較為科學(xué)。從模擬研究結(jié)果中可以看出,只有該方法合成的維度分之間的相關(guān)與真值較為接近,并且在測驗(yàn)長度較長時具有較大的優(yōu)勢。而原始分法在雙因子模型假設(shè)下,局部因子之間相關(guān)較低,所以無法得到維度間相關(guān)的真實(shí)關(guān)系;加和法設(shè)定全局因子和局部因子的權(quán)重均為 0.5,即維度分中有一半的變異為共同的變異,因此相關(guān)始終為中等程度;全局加權(quán)加和法會夸大全局因子的權(quán)重,減小局部因子的權(quán)重,使得共同變異在維度分中所占的比例偏高,因此會高估維度間的相關(guān)。
最后,原始分法和加和法在合成總分和維度分時具有不同程度的缺陷。(1)原始分法在合成維度分時誤差始終遠(yuǎn)大于其他方法,且隨著維度間相關(guān)增加,該方法的誤差越來越大。這是因?yàn)殡S著維度間相關(guān)的增加,共同變異增加,各維度獨(dú)特的變異減小,即圖6中,g增加,a、b、c減小,而維度分應(yīng)當(dāng)是共同變異與某維度獨(dú)特變異之和,即 a+d+g+e、b+d+g+f、c+e+g+f,而如果僅用局部因子,即 a、b、c表示維度分,其在維度分真值中所占比例相對減小,則誤差相對較大。DeMars (2013)認(rèn)為,維度間相關(guān)越高,局部因子所代表的獨(dú)立特性就越少,這時最好不要報告維度分而報告總分。這與模擬研究的結(jié)果類似。另外,原始分法合成維度分的信度僅在 0.1~0.3之間,顯然不能用于實(shí)際的分?jǐn)?shù)報告。DeMars (2013)的研究也指出,對于有相同作答反應(yīng)的被試,如果在全局因子上能力高,在局部因子上能力就低,反之亦然。因此,如果采用原始分法,對于這些作答模式相同的被試,其總分或者維度分會存在較大差異,這顯然是不符合常理的。(2)加和法在合成總分時誤差大于局部加權(quán)加和法與MIRT法,且當(dāng)測驗(yàn)長度較長時差異較大,可能是由于該方法對全局因子和局部因子權(quán)重相等的設(shè)定不夠科學(xué)。因此,DeMars (2013)也建議使用加權(quán)加和法。
綜上,模擬研究證明了基于雙因子模型合成總分和維度分具有一定的可行性。由于雙因子模型本身的優(yōu)勢及其在教育測驗(yàn)中的廣泛應(yīng)用,對其在合成分?jǐn)?shù)時的實(shí)際應(yīng)用提出以下建議。
第一,當(dāng)測驗(yàn)設(shè)計(jì)者對核心能力有明確的設(shè)定,并要求報告相應(yīng)的結(jié)果時,使用雙因子模型可以同時提供核心能力、總分及維度分的結(jié)果。例如,在理科綜合的考試中提取出一個共同的“科學(xué)素養(yǎng)”,那么,使用雙因子模型就能在報告總分和維度分的同時,報告學(xué)生在科學(xué)素養(yǎng)上的表現(xiàn)情況,給出更為詳細(xì)、具體的診斷信息。
第二,當(dāng)測驗(yàn)呈現(xiàn)多維結(jié)構(gòu),且維度間相關(guān)較高,使用雙因子模型合成總分、維度分具有一定優(yōu)勢。研究通過模擬數(shù)據(jù)證明,維度間相關(guān)越高,基于雙因子模型的全局加權(quán)加和法和局部加權(quán)加和法合成分?jǐn)?shù)的準(zhǔn)確性和可信度越高。并且,在關(guān)于多維測驗(yàn)?zāi)P瓦x擇方面,也有研究者提出建議,當(dāng)維度之間不相關(guān)或相關(guān)較弱時(0.1以下),可以對每個維度分別進(jìn)行 UIRT分析;當(dāng)維度之間存在中等以下的相關(guān)時(0.1到0.4 之間),全局因子負(fù)荷較低,局部因子負(fù)荷較高,因此選擇非層次的 MIRT模型(即斜交因子模型);當(dāng)維度之間相關(guān)較高時(0.4以上),選擇雙因子 IRT模型(Reise,Moore,&Haviland,2010)。
第三,如果研究在重點(diǎn)除了需要報告總分和維度分之外,還關(guān)心全局構(gòu)念、局部構(gòu)念和效標(biāo)的關(guān)系(顧紅磊,溫忠麟,方杰,2014),那么使用雙因子模型具有較大的優(yōu)勢。研究證明,雙因子模型的因子分往往具有較高的效標(biāo)關(guān)聯(lián)效度(Gavett et al.,2013)。
第四,在合成分?jǐn)?shù)之前,可以先計(jì)算指標(biāo)得到總分和維度分的信度。對雙因子模型使用α系數(shù)作為信度的估計(jì)值會得到不準(zhǔn)確的結(jié)果(Rodriguez,Reise,&Haviland,2016)。因此,Reise,Bonifay和Haviland (2013)提出計(jì)算omega和高階omega指標(biāo),估計(jì)測驗(yàn)分?jǐn)?shù)變異中分別由全局因子和局部因子所解釋的變異百分比,從而得到總分和維度分的信度(Rodriguez et al.,2016)。當(dāng)信度可以接受時,才能報告相應(yīng)的分?jǐn)?shù)。
第五,可以根據(jù)不同的應(yīng)用情境,選擇適當(dāng)?shù)暮铣煞椒?。如果分?jǐn)?shù)要運(yùn)用于潛變量回歸模型,可以直接使用雙因子模型的原始因子值。如果分?jǐn)?shù)要報告給學(xué)生、教師或咨詢者,則需要根據(jù)全局因子和局部因子上的區(qū)分度狀況,決定報告總分或者維度分,或采用加權(quán)加和的方法合成相應(yīng)的分?jǐn)?shù)。
另外,研究還存在一定的局限性。一方面,模擬研究僅考慮了簡單結(jié)構(gòu)的數(shù)據(jù),實(shí)際中可能存在復(fù)雜結(jié)構(gòu)多維數(shù)據(jù),有必要在以后的研究中對這種情況下雙因子模型合成總分和維度分的表現(xiàn)加以討論。另一方面,開發(fā)出其他基于雙因子模型合成總分和維度分的方法,也是未來值得進(jìn)一步研究的問題。
研究得出的主要結(jié)論如下:
第一,基于雙因子模型的局部加權(quán)加和法能夠合成較為準(zhǔn)確、可信的總分和維度分,并且能較為真實(shí)地反映維度之間的相關(guān)關(guān)系。
第二,維度間相關(guān)越高,測驗(yàn)長度越長,局部加權(quán)加和法合成的總分和維度分誤差越小。
第三,原始分法和加和法合成的總分和維度分在部分條件下具有較大的誤差,不推薦使用。
Ackerman,R.A.,Donnellan,M.B.,&Robins,R.W.(2012).An item response theory analysis of the narcissistic personality inventory.Journal of Personality Assessment,94(2),141–155.
Cai,L.,Thissen,D.,&du Toit,S.H.C.(2011).IRTPRO:Flexible,multidimensional,multiple categorical IRT modeling[Computer software].Chicago,IL:Scientific Software.
Cai,L.,Yang,J.S.,&Hansen,M.(2011).Generalized fullinformation item bifactor analysis.Psychological Methods,16(3),221–248.
Chen,F.F.,Hayes,A.,Carver,C.S.,Laurenceau,J.P.,&Zhang,Z.G.(2012).Modeling general and specific variance in multifaceted constructs:A comparison of the bifactor model to other approaches.Journal of Personality,80(1),219–251.
Chen,F.P.(2015).The estimation of subscores with the use higher-order item response models(Unpublished master’s thesis).Zhejiang Normal University.
[陳飛鵬.(2015).高階項(xiàng)目反應(yīng)模型估計(jì)子分?jǐn)?shù)(碩士學(xué)位論文).浙江師范大學(xué).]
Cheng,Y.Y.,Wang,W.C.,&Ho,Y.H.(2009).Multidimensional rasch analysis of a psychological test with multiple subtests:A statistical solution for the bandwidth-fidelity dilemma.Educational and Psychological Measurement,69(3),369–388.
de la Torre,J.,&Song,H.(2009).Simultaneous estimation of overall and domain abilities:A higher-order IRT model approach.Applied Psychological Measurement,33(8),620–639.
de la Torre,J.,Song,H.,&Hong,Y.(2011).A comparison of four methods of IRT subscoring.Applied Psychological Measurement,35(4),296–316.
DeMars,C.E.(2013).A tutorial on interpreting bifactor model scores.International Journal of Testing,13(4),354–378.
Fukuhara,H.,&Kamata,A.(2011).A bifactor multidimensional item response theory model for differential item functioning analysis on testlet-based items.Applied Psychological Measurement,35(8),604–622.
Gavett,B.E.,Crane,P.K.,&Dams-O’Connor,K.(2013).Bi-factor analyses of the brief test of adult cognition by telephone.Neurorehabilitation,32(2),253–265.
Gibbons,R.D.,Weiss,D.J.,Kupfer,D.J.,Frank,E.,Fagiolini,A.,Grochocinski,V.J.,… Immekus,J.C.(2008).Using computerized adaptive testing to reduce the burden of mental health assessment.Psychiatric Services,59(4),361–368.
Gu,H.L.,Wen,Z.L.,&Fang,J.(2014).Bi-factor models:A new measurement perspective of multidimensional constructs.Journal of Psychological Science,37(4),973–979.
[顧紅磊,溫忠麟,方杰.(2014).雙因子模型:多維構(gòu)念測量的新視角.心理科學(xué),37(4),973–979.]
Haberman,S.J.(2008).When can subscores have value?Journal of Educational and Behavioral Statistics,33(2),204–229.
Holzinger,K.J.,&Swineford,F.(1937).The bi-factor method.Psychometrika,2(1),41–54.
Huang,H.Y.(2015).A multilevel higher order item response theory model for measuring latent growth in longitudinal data.Applied Psychological Measurement,39(5),362–372.
Li,Y.,&Lissitz,R.W.(2012).Exploring the full-information bifactor model in vertical scaling with construct shift.Applied Psychological Measurement,36(1),3–20.
Liu,Y.,&Liu,H.Y.(2012).When should we use testlet model?A comparison study of Bayesian testlet random-effects model and standard 2-PL Bayesian model.Acta Psychologica Sinica,44(2),263–275.
[劉玥,劉紅云.(2012).貝葉斯題組隨機(jī)效應(yīng)模型的必要性及影響因素.心理學(xué)報,44(2),263–275.]
Liu,Y.,&Liu,H.Y.(2013).Comparison of MIRT linking methods for different common item designs.Acta Psychologica Sinica,45(4),466–480.
[劉玥,劉紅云.(2013).不同鉚測驗(yàn)設(shè)計(jì)下多維IRT等值方法的比較.心理學(xué)報,45(4),466–480.]
Reckase,M.D.(2009).Multidimensional item response theory models.New York:Springer.
Reise,S.P.(2012).The rediscovery of bifactor measurement models.Multivariate Behavioral Research,47(5),667–696.
Reise,S.P.,Bonifay,W.E.,&Haviland,M.G.(2013).Scoring and modeling psychological measures in the presence of multidimensionality.Journal of Personality Assessment,95(2),129–140.
Reise,S.P.,Moore,T.M.,&Haviland,M.G.(2010).Bifactor models and rotations:Exploring the extent to which multidimensional data yield univocal scale scores.Journal of Personality Assessment,92(6),544–559.
Rodriguez,A.,Reise,S.P.,&Haviland,M.G.(2016).Evaluating bifactor models:Calculating and interpreting statistical indices.Psychological Methods,21(2),137–150.
Wang,W.C.,Chen,P.H.,&Cheng,Y.Y.(2004).Improving measurement precision of test batteries using multidimensional item response models.Psychological Methods,9(1),116–136.
Willoughby,M.T.,Blanton,Z.E.,&Investigators,F.L.P.(2015).Replication and external validation of a Bi-factor parameterization of attention deficit/hyperactivity symptomatology.Journal of Clinical Child &Adolescent Psychology,44(1),68–79.
Wu,E.J.C.,&Bentler,P.M.(2011).EQSIRT:A userfriendly IRT program.Encino,CA:Multivariate Software,Inc.
Yao,L.(2013).The BMIRT toolkit.Monterey.
Yao,L.H.(2010).Reporting valid and reliable overall scores and domain scores.Journal of Educational Measurement,47(3),339–360.
Yao,L.H.(2011).Multidimensional linking for domain scores and overall scores for nonequivalent groups.Applied Psychological Measurement,35(1),48–66.
Yao,L.H.,&Boughton,K.A.(2007).A multidimensional item response modeling approach for improving subscale proficiency estimation and classification.Applied Psychological Measurement,31(2),83–105.
Yao,L.H.,&Boughton,K.(2009).Multidimensional linking for tests with mixed item types.Journal of Educational Measurement,46(2),177–197.
Zhan,P.D.,Chen,P.,&Bian,Y.F.(2016).Using confirmatory compensatory multidimensional IRT models to do cognitive diagnosis.Acta Psychologica Sinica,48(10),1347–1356.
[詹沛達(dá),陳平,邊玉芳.(2016).使用驗(yàn)證性補(bǔ)償多維 IRT模型進(jìn)行認(rèn)知診斷評估.心理學(xué)報,48(10),1347–1356.]