• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      不同鉚測驗(yàn)設(shè)計(jì)下多維IRT等值方法的比較*

      2013-02-03 01:45:15劉紅云
      心理學(xué)報(bào) 2013年4期
      關(guān)鍵詞:等值方根測驗(yàn)

      劉 玥 劉紅云

      (1四川省教育科學(xué)研究所,成都 610225) (2北京師范大學(xué)心理學(xué)院,北京 100875)

      1 引言

      在大型的教育測驗(yàn)中,常常會出現(xiàn)考核同一個內(nèi)容的多個測驗(yàn)形式,為了實(shí)現(xiàn)這些測驗(yàn)分?jǐn)?shù)之間的比較,會用到測驗(yàn)等值的方法。根據(jù)等值所依據(jù)的原理,一般可以分為經(jīng)典測驗(yàn)理論(CTT)下的等值方法和項(xiàng)目反應(yīng)理論(IRT)下的等值方法(Kolen&Brennan,2004)。其中,IRT等值方法又以其理論完善,等值關(guān)系簡潔,且題目參數(shù)具有跨群體不變性等優(yōu)勢,而受到廣泛關(guān)注。在大多數(shù)的標(biāo)準(zhǔn)測驗(yàn)中,考生的能力參數(shù)和題目參數(shù)是由單維IRT模型(UIRT)估計(jì)得到的,因此,基于單維IRT模型的等值方法已經(jīng)得到了較為深入的研究(Kolen&Brennan,2004)。

      然而,在現(xiàn)實(shí)情境里,測驗(yàn)通常會包含多維結(jié)構(gòu)(Ackerman,1994;DeMars,2006;Reckase,1985)。在很多大型的教育評價項(xiàng)目中,對于一個概括性的能力的測量,通常會包含關(guān)于多個子學(xué)科(子能力)的題目。例如在關(guān)于學(xué)生科學(xué)能力的測驗(yàn)中,可能包含分別來自于物理,地理,生物等多個學(xué)科的題目。這時,傳統(tǒng)IRT理論的單維性假設(shè)很容易遭到違背?;趩尉SIRT假設(shè)的參數(shù)估計(jì)和IRT等值結(jié)果會出現(xiàn)一定的偏差(Reckase,2009;Brossman,2010)。因此,許多研究者已經(jīng)逐漸開展了對基于多維項(xiàng)目反應(yīng)理論(MIRT)下等值方法的研究和探索。

      迄今,很多研究已經(jīng)將單維IRT下的等值方法推廣到多維結(jié)構(gòu)中。這些方法主要有多維均值/均值方法,均值/標(biāo)準(zhǔn)差方法(Yao,2011),IRT相等函數(shù)方法,Stoking-Lord(測驗(yàn)特征函數(shù))方法,Haebara(項(xiàng)目特征函數(shù))方法,直接方法(Oshima,Davey&Lee,2000),LL方法(Li&Lissitz,2000),Min的方法(Min,2003),NOP方法(Reckase&Martineau,2004)和同時等值的方法(Simon,2008)等。這些方法和單維IRT等值方法的主要區(qū)別是,多維IRT等值不僅需要調(diào)整不同測驗(yàn)量尺原點(diǎn)和單位大小的差異,還要進(jìn)行量尺旋轉(zhuǎn)和維度相關(guān)調(diào)整等一系列過程(Reckase,2009)。這些方法之間的主要區(qū)別在于它們計(jì)算參數(shù)轉(zhuǎn)換矩陣的原理和方法不同。一些研究還基于題目參數(shù)的返真性對多維IRT等值方法進(jìn)行了比較(Davey,Oshima,&Lee,1996;Li&Lissitz,2000;Oshima et al.,2000;Yao&Boughton,2009)??偟膩碚f,大多數(shù)研究結(jié)果表明,Stoking-Lord(SL)方法和Haebara(HB)方法較為穩(wěn)定,并且得到的等值結(jié)果更加準(zhǔn)確(Davey et al.,1996;Oshima et al.,2000;Yao,2011;Simon&Davison,2008)。但是Yon(2007)的研究也證明,NOP方法對題目區(qū)分度的等值結(jié)果比多維Stoking-Lord方法準(zhǔn)確。Brossman(2010)在提出多維IRT真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法后發(fā)現(xiàn),與單維IRT等值的規(guī)律相似,多維IRT真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值表現(xiàn)出很高的一致性,僅在低分段和滿分附近出現(xiàn)一定的差異。Simon(2008)對多維IRT同時等值和分別等值方法進(jìn)行了比較研究,他們建議,當(dāng)兩組被試的能力水平差異不大且多維測驗(yàn)各維度間的相關(guān)較高時,同時等值的方法要優(yōu)于分別等值??偟膩碚f,關(guān)于多維IRT等值方法的比較還沒有得出較為一致的結(jié)論。

      進(jìn)行多維IRT等值,數(shù)據(jù)結(jié)構(gòu)必須符合以下兩個條件之一(Angoff,1982;Davey et al.,1996):(1)測驗(yàn)之間包含相同的題目(鉚測驗(yàn));(2)有一批相同的考生同時參加了兩個測驗(yàn)。在實(shí)踐中,尤其是大規(guī)模測驗(yàn)中,鉚測驗(yàn)設(shè)計(jì)應(yīng)用得最為廣泛。鉚測驗(yàn)本身對等值結(jié)果有顯著的影響。有學(xué)者認(rèn)為,鉚測驗(yàn)的選擇必須盡可能代表整個測驗(yàn)的特征(Cook&Petersen,1987;Klein& Jarjoura,1985;Marco,Petersen,&Stewart,1983)。Kolen和Brennan(2004)曾建議,鉚測驗(yàn)應(yīng)當(dāng)包含足夠多的題目,經(jīng)驗(yàn)的法則是鉚題量至少為測驗(yàn)總題量的20%。Sinharay和Holland(2007)認(rèn)為,鉚題應(yīng)當(dāng)具有內(nèi)容代表性,并且難度參數(shù)的均值與總測驗(yàn)相等,只是變異性略小。針對多維IRT等值,Yao和Boughton(2009)對同時含有多項(xiàng)選擇題和結(jié)構(gòu)性試題測驗(yàn)的多維IRT等值進(jìn)行了考察,結(jié)果發(fā)現(xiàn)在鉚測驗(yàn)中使用簡單結(jié)構(gòu)的題目(題目只屬于其中一個維度)或與結(jié)構(gòu)性試題分值相等的多項(xiàng)選擇題,能夠提高等值結(jié)果的準(zhǔn)確性。Yao(2011)進(jìn)而提出了一些在多維IRT等值中選擇鉚測驗(yàn)的標(biāo)準(zhǔn),其中包括:鉚測驗(yàn)的測驗(yàn)特征函數(shù)應(yīng)當(dāng)與整個測驗(yàn)接近,鉚測驗(yàn)中各維度題目的數(shù)量應(yīng)當(dāng)與總測驗(yàn)中各維度題目的數(shù)量成比例等。其研究結(jié)果證明,按照所提出的標(biāo)準(zhǔn)選擇鉚測驗(yàn),即使在每個維度只有2道鉚題的情況下,多維Stoking-Lord方法也能得到較好的維度分和總分的等值結(jié)果。

      盡管鉚測驗(yàn)的選擇在等值中至關(guān)重要,但是在多維IRT等值中,很少有研究關(guān)注在不同鉚測驗(yàn)設(shè)計(jì)下各種多維IRT等值方法的比較(Yao&Boughton,2009)。另外,以往的研究主要關(guān)注題目參數(shù)的等值結(jié)果,很少有研究對能力參數(shù)的返真性進(jìn)行比較。為了充分考察在不同的鉚測驗(yàn)設(shè)計(jì)下,各等值方法的表現(xiàn),從而為實(shí)踐中多維IRT等值總結(jié)鉚測驗(yàn)的設(shè)計(jì)原則和選擇等值方法提供依據(jù),本文在不同的鉚測驗(yàn)設(shè)計(jì)下,采用模擬研究的方法對五種應(yīng)用較廣的多維IRT等值方法—— 均值/均值(MM)方法,均值/標(biāo)準(zhǔn)差(MS)方法,多維Stoking-Lord(SL)方法,多維Haebara(HB)方法,最小平方(LS)方法進(jìn)行比較,旨在考察鉚測驗(yàn)中題目數(shù)量和鉚測驗(yàn)構(gòu)成方式對不同等值方法的影響,主要解決以下幾個問題:(1)在多維IRT等值中,五種常用等值方法的優(yōu)劣;(2)鉚測驗(yàn)的長度對等值結(jié)果的影響;(3)使用不同的策略選擇鉚測驗(yàn)(鉚測驗(yàn)中各維度題目數(shù)量之比與總測驗(yàn)中各維度題目數(shù)量之比相同,鉚測驗(yàn)中各維度題目數(shù)量相同)是否會對等值結(jié)果有影響。同時,還考慮了測驗(yàn)維度之間的相關(guān)和兩個群體能力差異大小對等值結(jié)果的影響。

      2 多維IRT模型及等值方法

      2.1 兩參數(shù)多維IRT模型

      其中,

      d

      不同于單維IRT模型中的難度參數(shù)。多維IRT的難度參數(shù)定義為:

      2.2 多維IRT等值

      與單維IRT等值的原理類似,多維IRT等值的目的是找到合適的轉(zhuǎn)換矩陣

      A

      ,

      B

      ,從而將不同測驗(yàn)的題目和能力參數(shù)等值到同一量尺上。使用轉(zhuǎn)換矩陣進(jìn)行量尺轉(zhuǎn)換的公式為:

      下面,介紹本研究采用的五種多維IRT等值方法。

      SL方法。

      Oshima,Davey和Lee(2000)將單維IRT中的Stoking-Lord方法推廣到多維結(jié)構(gòu)的數(shù)據(jù)中。因此,對于含有兩個維度的多維測驗(yàn),多維SL等值方法求出將下面函數(shù)最小化時的轉(zhuǎn)換矩陣

      A

      ,

      B

      。

      HB方法。

      Oshima,Davey和Lee(2000)將單維IRT中的Haebara方法推廣到多維結(jié)構(gòu)的數(shù)據(jù)中。因此,對于含有兩個維度的多維測驗(yàn),多維Haebara等值方法求出將下面函數(shù)最小化時的轉(zhuǎn)換矩陣

      A

      ,

      B

      。

      LS方法。

      在LS方法中,題目參數(shù)的轉(zhuǎn)換矩陣與之前的方法有一些區(qū)別,其定義如下(Li&Lissitz,2000):

      3 模擬設(shè)計(jì)

      3.1 混合實(shí)驗(yàn)設(shè)計(jì)

      在研究中,由于五種多維IRT等值方法均會應(yīng)用于每組需等值的模擬數(shù)據(jù),因此,這是一個混合實(shí)驗(yàn)設(shè)計(jì)。組內(nèi)變量為五種等值方法,組間變量為各種模擬條件。組間變量有6個。(1)測驗(yàn)長度:測驗(yàn)中所有的題目個數(shù),分別取40和80兩種情況。(2)兩個維度題目數(shù)量的比例:有兩個水平,分別為1:1(兩個維度題目數(shù)量相等)和3:1(兩個維度題目數(shù)量不等)。(3)鉚測驗(yàn)長度:取三個水平,鉚測驗(yàn)題目數(shù)量分別為全卷的1/20,1/5和1/3。(4)鉚測驗(yàn)的選擇策略:考慮了兩種方法,即在每個維度中選取相等數(shù)量的題目組成鉚測驗(yàn)和根據(jù)全卷中每個維度題目的數(shù)量,按比例選取鉚題組成鉚測驗(yàn)。(5)兩個維度之間的相關(guān):取三個水平r=0,0.5,0.9,分別代表無相關(guān),中等程度相關(guān)和高相關(guān)。(6)等值群體的能力水平差異:分為兩種情況,兩組群體能力水平無差異(等組等值)和兩組群體能力水平有差異(非等組等值)。在等組等值的情況下,兩組被試的能力服從均值為0,標(biāo)準(zhǔn)差為1的多元正態(tài)分布;在非等組等值的情況下,參加基礎(chǔ)測驗(yàn)組的被試能力服從均值為-0.5,標(biāo)準(zhǔn)差為1的多元正態(tài)分布,參加新測驗(yàn)組的被試能力仍服從均值為0,標(biāo)準(zhǔn)差為1的多元正態(tài)分布。組間變量(1)到(4)交叉形成了17種不同的鉚測驗(yàn)設(shè)計(jì),具體見表1。每種鉚測驗(yàn)設(shè)計(jì)下,考慮兩個維度之間的相關(guān)和等值群體能力的差異,模擬設(shè)計(jì)共有17×2×3=102種。

      3.2 數(shù)據(jù)生成

      使用R語言自編程序產(chǎn)生每種條件下的反應(yīng)數(shù)據(jù)。每種條件下包括在基礎(chǔ)測驗(yàn)和新測驗(yàn)上,各3000名被試對題目的反應(yīng),所有的題目均為0/1計(jì)分。產(chǎn)生數(shù)據(jù)所依據(jù)的模型為多維兩參數(shù)Logistic模型,模型包含兩個維度,并且測驗(yàn)符合簡單結(jié)構(gòu)。在各條件下,模擬數(shù)據(jù)的參數(shù)分布參照前人文獻(xiàn)及實(shí)證研究經(jīng)驗(yàn)。其中

      a ~N(0.8,0.2 ),b ~N(0,1 )

      ,該分布與ETS進(jìn)行SAT測驗(yàn)的觀察分?jǐn)?shù)的邊緣分布匹配,故可以與實(shí)際數(shù)據(jù)相比較(Bradlow,Wainer&Wang,1999)。每種設(shè)計(jì)條件下數(shù)據(jù)重復(fù)模擬30次。

      3.3 參數(shù)估計(jì)和等值

      表1 不同鉚測驗(yàn)設(shè)計(jì)

      按照等值研究的步驟,研究采用了兩步等值法(Kim&Cohen,1998;Kim&Cohen,2002)。第一步將新測驗(yàn)上的題目參數(shù)和能力參數(shù)轉(zhuǎn)換到基礎(chǔ)測驗(yàn)的量尺上。第二步將第一步中所有等值后的參數(shù)轉(zhuǎn)換到真值的量尺上。在每種等值方法的條件下,第一步和第二步使用的方法完全相同。例如,在第一步中使用了MM方法將新測驗(yàn)的參數(shù)等值到基礎(chǔ)測驗(yàn)的量尺上,在第二步中,以兩套測驗(yàn)的所有題目為鉚題,再次使用MM方法將等值后的參數(shù)轉(zhuǎn)換到產(chǎn)生值的量尺上。

      對于MM和MS方法,通過程序LinkMIRT(Yao,2004)計(jì)算轉(zhuǎn)換矩陣

      A

      B

      。對于SL,HB和LS方法,調(diào)用R中的軟件包“Plink”完成等值(Weeks,2010)。根據(jù)前面介紹的兩步方法,每次等值時,等值方法需重復(fù)使用兩次以得到最后的參數(shù)結(jié)果。

      3.4 評價標(biāo)準(zhǔn)

      本研究從四個方面評價各參數(shù)等值后的返真性:(1)偏差(

      Bias

      ),絕對偏差(

      MAE

      ),誤差均方根(

      RMSE

      ),等值后結(jié)果與真值的相關(guān)(

      Correlation

      )。

      偏差的意義是總體考察各條件下,各參數(shù)等值后結(jié)果是否有定向的偏差。其計(jì)算公式如下:

      絕對偏差和誤差均方根考察了各條件下,等值后的各參數(shù)值與真實(shí)值的差異的大小。這兩個值越小,說明等值后各參數(shù)值與模擬的真實(shí)值越接近,等值效果越好。其計(jì)算公式如下:

      公式中各參數(shù)表示的意義與公式(14)相同。

      等值后結(jié)果與真值的相關(guān)計(jì)算了各條件下,等值后各參數(shù)值與真實(shí)值的積差相關(guān)。它的意義是考察等值后參數(shù)結(jié)果與真實(shí)值的一致性水平。

      4 結(jié)果

      在參數(shù)估計(jì)過程中,所有設(shè)計(jì)因子的條件下模型均成功收斂。下面,從4個評價標(biāo)準(zhǔn)的角度呈現(xiàn)研究結(jié)果。

      4.1 偏差

      表2列出了各條件下各參數(shù)等值后的偏差。對于區(qū)分度參數(shù),不同條件下得到的結(jié)果基本一致,MM,SL,HB和LS方法的偏差總體較小,而MS方法偏差較大。對于截距參數(shù),總體來看,SL,HB和LS方法的偏差小于MM和MS方法;隨著測驗(yàn)長度增加,各方法下截距參數(shù)等值偏差減小;兩個維度的題目數(shù)量比例、鉚測驗(yàn)長度、鉚測驗(yàn)選擇策略和測驗(yàn)維度之間的相關(guān)對截距參數(shù)等值偏差幾乎沒有明顯影響;等值群體能力水平的差異對SL,HB和LS方法沒有影響,對MM和MS方法有一定影響。對于能力參數(shù),SL,HB和LS方法幾乎沒有偏差,明顯小于MM和MS方法,且?guī)缀醪皇芷渌蛩氐挠绊?。MM和MS方法容易受其他因素的影響,如在非等組等值的情況下,MM和MS方法的偏差很大。

      4.2 絕對偏差和誤差均方根

      由于絕對偏差和誤差均方根具有較高的一致性,因此在本節(jié)的結(jié)果中,都參照誤差均方根加以比較。

      4.2.1 等值方法的比較

      多維IRT等值方法對參數(shù)估計(jì)的精度有很大的影響。SL,HB和LS方法得到的等值后各參數(shù)精度較高,且這三種多維IRT等值方法幾乎不受其他因素的影響,在各條件下等值結(jié)果相對穩(wěn)定。MM方法對區(qū)分度參數(shù)等值的誤差也較小,但是,MM方法對截距參數(shù)和能力參數(shù)的估計(jì)誤差較大,MS方法對所有參數(shù)等值的誤差都較大。

      具體來說,對于題目參數(shù)和能力參數(shù),在所有模擬因子的條件下,等值方法對誤差均方根的影響僅依賴于等值群體的能力水平差異而不同。圖1表示了等值群體的能力水平差異的不同水平下,五種等值方法得到的區(qū)分度參數(shù)、截距參數(shù)、能力參數(shù)的誤差均方根。

      從圖1中可以看出,在等組等值的條件下,SL,HB和LS方法的結(jié)果略優(yōu)于MM和MS方法;隨著等值群體的能力水平差異增大,SL,HB和LS方法的結(jié)果保持穩(wěn)定,而MM和MS方法的結(jié)果出現(xiàn)了較大的偏差。尤其對于截距參數(shù)和能力參數(shù),MM和MS方法在非等組條件下的誤差明顯增大。

      綜上,從五種等值方法的比較結(jié)果可以看出,SL,HB和LS方法得到誤差均方根顯著小于MM和MS方法,在實(shí)際應(yīng)用中應(yīng)當(dāng)作為首選方法。因此,在下面對鉚測驗(yàn)設(shè)計(jì)的考察中,僅選取SL、HB和LS三種等值方法。

      4.2.2 鉚測驗(yàn)設(shè)計(jì)對題目參數(shù)等值結(jié)果的影響

      區(qū)分度參數(shù)。

      如圖2所示,對于區(qū)分度參數(shù),測驗(yàn)長度和鉚測驗(yàn)長度對區(qū)分度參數(shù)估計(jì)的精度有較大的影響,即測驗(yàn)長度越長,鉚測驗(yàn)長度越長,誤差均方根越小。同時,測驗(yàn)長度和鉚測驗(yàn)長度的交互作用對參數(shù)估計(jì)的精度也有較大的影響,在測驗(yàn)長度較短的條件下,鉚測驗(yàn)長度僅為全卷的1/20時得到的誤差均方根遠(yuǎn)大于其他條件。在相同的測驗(yàn)長度和鉚測驗(yàn)長度下,鉚測驗(yàn)選擇策略對參數(shù)等值結(jié)果沒有影響。另外,根據(jù)附表2~附表4,兩個維度題目數(shù)量的比例對區(qū)分度參數(shù)等值結(jié)果沒有顯著影響。兩個維度之間的相關(guān)和等值群體的能力水平差異對區(qū)分度參數(shù)等值結(jié)果沒有顯著影響。并且,在維度之間的相關(guān)或等值群體的能力水平差異不同的條件下,測驗(yàn)長度、鉚測驗(yàn)長度和鉚測驗(yàn)選擇策略對參數(shù)等值結(jié)果的影響不存在差異。

      圖1 等值方法與等值群體的能力水平差異交互作用

      圖2 鉚測驗(yàn)設(shè)計(jì)對區(qū)分度參數(shù)誤差均方根的影響

      截距參數(shù)。

      鉚測驗(yàn)設(shè)計(jì)對截距參數(shù)的誤差均方根的影響與區(qū)分度參數(shù)類似。如圖3所示,測驗(yàn)長度越長,鉚測驗(yàn)長度越長,截距參數(shù)估計(jì)的誤差均方根越小。另外,根據(jù)附表1,附表2,附表4,兩個維度題目數(shù)量的比例,鉚測驗(yàn)選擇策略和維度之間的相關(guān)對截距參數(shù)的等值結(jié)果沒有顯著影響。不同的是,等值群體的能力水平差異對截距參數(shù)的等值結(jié)果有一定影響,等值群體的能力水平差異越大,誤差均方根越大。在等值群體的能力水平差異不同的條件下,鉚測驗(yàn)設(shè)計(jì)對截距參數(shù)等值結(jié)果的影響是相同的。

      4.2.3 鉚測驗(yàn)設(shè)計(jì)對能力參數(shù)等值結(jié)果的影響

      如圖4所示,首先,題目數(shù)量較多的維度(維度1),其能力參數(shù)的等值誤差均方根要小于題目數(shù)量較少的維度(維度2)。其次,對于兩個維度的能力參數(shù),測驗(yàn)長度和兩個維度之間的相關(guān)的影響顯著,即測驗(yàn)長度越長,相關(guān)越高,誤差均方根越小。并且,對于題目數(shù)量較少的維度,相關(guān)對能力參數(shù)估計(jì)結(jié)果的影響更大。測驗(yàn)長度和相關(guān)還呈現(xiàn)出交互作用,當(dāng)測驗(yàn)長度較短時,隨著相關(guān)增加,誤差均方根減小的幅度較大(維度1約0.047,維度2約0.134);當(dāng)測驗(yàn)長度較長時,隨著相關(guān)增加,誤差均方根減小的幅度較小(維度1約0.031,維度2約0.107)。

      圖3 鉚測驗(yàn)設(shè)計(jì)對截距參數(shù)誤差均方根的影響

      圖4 測驗(yàn)長度和相關(guān)對能力參數(shù)誤差均方根的影響

      根據(jù)附表4,兩個維度題目數(shù)量的比例對能力參數(shù)等值結(jié)果有顯著影響,對于維度1能力參數(shù),兩個維度題目數(shù)量相等時的誤差均方根要大于數(shù)量不等的條件,對于維度2能力參數(shù),則與之相反。這是與每個維度題目數(shù)量相關(guān)的。在該因子的兩個水平下,其他因子對能力參數(shù)等值結(jié)果的影響具有很強(qiáng)的一致性,并且,僅當(dāng)兩個維度題目數(shù)量的比例不同時,才能進(jìn)行鉚測驗(yàn)選擇策略的比較。因此,為了仔細(xì)考察鉚測驗(yàn)選題策略對能力參數(shù)等值的影響,本部分以兩個維度題目數(shù)量不等的條件為例進(jìn)行分析。表3列出了兩個維度題目數(shù)量比例不同的條件下,SL方法得到的兩個維度能力參數(shù)的誤差均方根(HB和LS方法的結(jié)果與之類似)。

      從表3中可以看出,當(dāng)兩個維度題目數(shù)量不等時,兩種選題策略下的誤差均方根在數(shù)值上非常接近。隨著鉚測驗(yàn)長度的增加,誤差均方根有一定的減少,尤其對于維度2能力參數(shù),在測驗(yàn)長度較長的條件下,該現(xiàn)象較為明顯。等值群體的能力水平差異對能力參數(shù)估計(jì)結(jié)果沒有影響。

      4.3 等值后結(jié)果與真值的相關(guān)

      在各種條件下,SL,HB和LS方法等值后各參數(shù)值與真實(shí)值的相關(guān)(區(qū)分度參數(shù):0.923~0.998,截距參數(shù):0.997~1.000,能力參數(shù):0.697~0.987)大于MM和MS方法(區(qū)分度參數(shù): 0.479~0.998,截距參數(shù):0.829~1.000,能力參數(shù):0.542~0.943),且更加穩(wěn)定。說明SL,HB和LS方法的最后得到的等值結(jié)果與真實(shí)值存在較高的一致性。MM和MS方法得到的相關(guān)系數(shù)變異較大,在一些條件下,它們的結(jié)果甚至不可接受。對于SL,HB和LS方法,鉚測驗(yàn)設(shè)計(jì)對區(qū)分度參數(shù)和能力參數(shù)相關(guān)值的影響與誤差均方根的結(jié)果類似,而截距參數(shù)的相關(guān)在各條件下普遍較高(在0.998左右),不受其他模擬因子的影響。

      表3 兩個維度題目數(shù)量比例不同條件下SL方法使用兩種鉚測驗(yàn)選題策略得到的能力參數(shù)誤差均方根

      5 討論與結(jié)論

      本研究基于含有兩個維度的多維補(bǔ)償性IRT模型模擬數(shù)據(jù),比較了五種多維IRT等值方法在各鉚測驗(yàn)設(shè)計(jì)下的表現(xiàn),研究結(jié)果可以為多維IRT等值方法的比較及其影響因素的探索提供更詳細(xì)的信息。

      首先,通過對等值方法比較可以看出,SL,HB和LS方法得到的等值結(jié)果比MM和MS方法準(zhǔn)確,特別是在非等組等值的情況下,其優(yōu)勢更為明顯。在各模擬條件下,SL,HB和LS方法三種等值方法得到的結(jié)果較為穩(wěn)定,這不僅與之前單維IRT等值的研究結(jié)果相呼應(yīng)(Hanson&Béguin,2002),也與前人關(guān)于多維IRT等值的已有研究結(jié)果一致(Davey et al.,1996;Oshima et al.,2000;Yao,2011)。SL,HB和LS方法的優(yōu)勢可能仍在于它們在計(jì)算轉(zhuǎn)換矩陣時,同時考慮了所有的題目參數(shù)。然而,除了MM方法對區(qū)分度參數(shù)等值的誤差均方根較小之外,MM和MS方法在大多數(shù)情況下表現(xiàn)很差。其中,MS方法的誤差均方根最大,這可能一方面由于該方法在等值過程中只考慮了難度參數(shù),而另一方面,計(jì)算轉(zhuǎn)換矩陣時需要用到難度參數(shù)的標(biāo)準(zhǔn)差,這個統(tǒng)計(jì)量本身不如平均數(shù)穩(wěn)定,并且當(dāng)鉚題數(shù)量較小時,其標(biāo)準(zhǔn)差也極不準(zhǔn)確。在應(yīng)用LinkMIRT軟件進(jìn)行MM和MS方法等值時,計(jì)算出的轉(zhuǎn)換矩陣

      A

      中的元素有時很大。這與其他方法的結(jié)果存在顯著差異?;仡橫M和MS方法的原理,可知轉(zhuǎn)換矩陣

      A

      為對角矩陣,即對角線之外的元素均為0。但是我們在估計(jì)參數(shù)時,沒有加入維度之間獨(dú)立的假設(shè),所以在計(jì)算轉(zhuǎn)換矩陣時理應(yīng)考慮維度之間的相關(guān)。這兩種方法沒有能夠?qū)⒕S度之間的關(guān)系納入轉(zhuǎn)換矩陣的計(jì)算中,這可能是它們的結(jié)果出現(xiàn)異常值的一個原因。因此,在實(shí)際應(yīng)用中最好選用SL,HB和LS方法進(jìn)行多維IRT等值。

      其次,在選擇 SL,HB和LS方法的前提下考慮不同鉚測驗(yàn)設(shè)計(jì)的影響。對于第一個研究問題,鉚測驗(yàn)長度對區(qū)分度參數(shù),截距參數(shù)都有一定的影響。當(dāng)測驗(yàn)長度較短時,如果鉚測驗(yàn)長度僅為全卷的1/20,得到的結(jié)果最差。隨著鉚測驗(yàn)長度增加,參數(shù)等值后的誤差均方根減小。但當(dāng)鉚測驗(yàn)長度增加到全卷的1/5以后,等值誤差均方根沒有明顯的減小。在單維IRT中,Harris和Crouse(1993)建議鉚測驗(yàn)長度不需要太長,經(jīng)驗(yàn)的標(biāo)準(zhǔn)是鉚測驗(yàn)至少需包含8道題目或者占全卷的20%(Sykes,1997)。在本研究中,對于SL,HB和LS方法,雖然鉚測驗(yàn)長度對等值誤差均方根的影響在統(tǒng)計(jì)檢驗(yàn)上達(dá)到了顯著水平,但是該變量在數(shù)值上的影響較為微弱。這與Yao(2011)的研究結(jié)果類似,在多維IRT等值中,如果選擇了較好的等值方法,等值結(jié)果準(zhǔn)確性將幾乎不受鉚測驗(yàn)長度影響。這可能是在數(shù)據(jù)模擬與模型擬合過程中,均采用了多維補(bǔ)償性模型的緣故。該結(jié)果對于實(shí)際應(yīng)用具有重要的意義,一旦選擇了良好的多維IRT等值方法,只需要較少數(shù)量的鉚題就能得到較準(zhǔn)確的等值結(jié)果。這樣既能夠減少編制鉚題時花費(fèi)的人力物力,還能在一定程度上縮短測驗(yàn)長度,提高效率。對于第二個研究問題,不同的鉚測驗(yàn)選擇方法對SL,HB和LS方法沒有顯著影響。在構(gòu)建鉚測驗(yàn)時,基本要求是它應(yīng)當(dāng)是整個測驗(yàn)的一個“微縮版本”(Kolen&Brennan,2004)。很多研究者關(guān)注了鉚測驗(yàn)在內(nèi)容上的代表性(Cook&Petersen,1987)。他們認(rèn)為,使用具有內(nèi)容代表性的鉚測驗(yàn)?zāi)軌蛉コ戎灯?并且增加估計(jì)的等值系數(shù)的精確性。因此本研究假設(shè),如果按照兩個維度題目數(shù)量的比例選擇鉚題,會得到較好的等值結(jié)果。研究結(jié)果沒有證明之前的假設(shè),這其實(shí)也沒有違背對鉚測驗(yàn)內(nèi)容代表性的要求。因?yàn)樵谘芯吭O(shè)計(jì)中,每個維度的鉚題都符合簡單結(jié)構(gòu)??梢酝茰y,如果某些維度不含鉚題,或者含有的鉚題均同時屬于多個維度(項(xiàng)目內(nèi)多維),那么將會違背鉚測驗(yàn)具有內(nèi)容代表性的原則,從而導(dǎo)致有偏差的等值結(jié)果。另外,鉚測驗(yàn)選擇策略的問題,對于單個維度來說就轉(zhuǎn)化為鉚測驗(yàn)長度的問題,只要對于每個維度來說,簡單結(jié)構(gòu)的鉚題數(shù)量達(dá)到了一定的比例,就能得到較穩(wěn)定的等值結(jié)果。

      最后,在大多數(shù)關(guān)于多維IRT等值的研究中,都只考察了等值方法對題目參數(shù)的返真性(Oshima et al.,2000;Yao&Boughton,2009;Simon,2008)。但是,有些情況下等值的目的是將參加不同測驗(yàn)考生的能力水平調(diào)整到同一量尺上。因此,本研究還包括了對各種等值方法下,能力參數(shù)返真性的比較。對于SL,HB和LS方法,兩個維度能力參數(shù)的等值結(jié)果普遍受到相關(guān)和測驗(yàn)長度的影響。另外,題目數(shù)量少的維度能力參數(shù)等值結(jié)果較差,并且容易受到鉚測驗(yàn)長度和等值群體的能力水平差異的影響。說明對于題目數(shù)量少的維度,更應(yīng)該注意對鉚測驗(yàn)的選擇??偟膩碚f,即使對于這三種方法,能力參數(shù)等值后的誤差均方根也較大。為了探索原因,以鉚測驗(yàn)設(shè)計(jì)9~11為例(在此情況下測驗(yàn)長度最長,且兩個維度的題目數(shù)量相等,參數(shù)估計(jì)準(zhǔn)確性應(yīng)當(dāng)最高),計(jì)算了BMIRT對能力參數(shù)估計(jì)值的誤差均方根。結(jié)果顯示,SL,HB和LS方法能力參數(shù)估計(jì)的誤差均方根在0.375到0.436之間,而參數(shù)的等值誤差均方根在0.375到0.439之間。因此,能力參數(shù)等值后的誤差很可能大部分來源于參數(shù)估計(jì)的誤差。迄今,很多研究者已經(jīng)對多維IRT模型的參數(shù)估計(jì)進(jìn)行了深入的研究(de la Torre,2009;Zhang&Stone,2004;Bolt&Lall,2003;Yao,2003),并編寫了一些估計(jì)軟件。其中大部分能得到較為準(zhǔn)確的題目參數(shù)估計(jì)結(jié)果,而能力參數(shù)估計(jì)結(jié)果并不理想。因此,采用合適的估計(jì)方法減小模型對能力參數(shù)估計(jì)的誤差,可能是提高多維IRT能力參數(shù)等值準(zhǔn)確性的一個有效途徑。

      現(xiàn)在,多維IRT模型在教育測量領(lǐng)域得到了越來越多的應(yīng)用。多維IRT等值自然也成為了實(shí)際中急需實(shí)現(xiàn)的方法。本研究探討了五種常用的多維IRT等值方法在不同鉚測驗(yàn)設(shè)計(jì)下的表現(xiàn),對多維測驗(yàn)中多維IRT等值方法的選擇和鉚測驗(yàn)的設(shè)計(jì)具有一定的實(shí)踐意義。第一,在編制多維IRT測驗(yàn)時,應(yīng)盡量保證每個維度都有充足的題目數(shù)量,維度之間具有較高的相關(guān)。第二,在設(shè)計(jì)多維IRT等值的鉚題時,應(yīng)當(dāng)保證每個維度都有一定數(shù)量的鉚題,并且盡可能使用簡單結(jié)構(gòu)的鉚題。另外,各維度鉚

      題的分布不一定需按照全卷各維度題目數(shù)量的比例,但需要達(dá)到每個維度鉚測驗(yàn)長度比例的最低標(biāo)準(zhǔn)。第三,在等值方法上選擇使用SL,HB和LS方法,盡量避免MM和MS方法。本研究還存在一定的局限性。如研究數(shù)據(jù)均模擬0/1計(jì)分的題目,并且被試的能力分布也滿足多元正態(tài)分布,在實(shí)際中會出現(xiàn)等級評分的題目甚至混合類型的題目,并且被試群體的能力也會呈現(xiàn)出各種分布形態(tài),有必要在以后的研究中對這些更加復(fù)雜的情況加以討論。此外,研究僅討論了對于維度能力的等值,實(shí)際中可能還需要實(shí)現(xiàn)對總能力的等值。因此結(jié)合Yao(2011)提出的方法,在各條件下對多維IRT維度能力和總能力等值的結(jié)果進(jìn)行比較,是值得進(jìn)一步研究的問題。

      本研究得到的主要結(jié)論如下:

      第一,在本研究設(shè)置的各個模擬條件下,多維SL,HB和LS等值方法得到的等值結(jié)果比MM和MS方法準(zhǔn)確,并且這三種方法表現(xiàn)更加穩(wěn)定。在等值群體的能力水平存在差異的情況下,多維MM和MS等值方法得到的等值結(jié)果誤差很大。因此,在等值方法選擇上,推薦使用多維SL,HB和LS等值方法。

      第二,對于多維SL,HB和LS等值方法:(1)測驗(yàn)長度對各參數(shù)的等值結(jié)果影響顯著,測驗(yàn)長度越長,等值結(jié)果的誤差均方根越小;(2)鉚測驗(yàn)長度對各參數(shù)的等值結(jié)果有一定影響,鉚測驗(yàn)長度越長,等值誤差均方根越小;(3)鉚測驗(yàn)選擇策略對各參數(shù)等值結(jié)果沒有顯著的影響;(4)維度之間的相關(guān)對區(qū)分度參數(shù)和截距參數(shù)的等值結(jié)果沒有影響,對于能力參數(shù),隨著相關(guān)的增加等值誤差均方根減小;(5)等值群體的能力水平差異僅對截距參數(shù)有一定影響,在非等組的條件下得到的等值誤差均方根大于等組的條件。

      Ackerman,T.A.(1994).Using multidimensionalitem response theory to understand what items and tests are measuring.

      Applied Measurementin Education,7

      (4),255–278.Angoff,W.H.(1982).Summary and derivation of equating methods used at ETS.

      Test Equating,55

      ,69.Bolt,D.M.,&Lall,V.F.(2003).Estimation of compensatory and noncompensatory multidimensionalitem response models using Markov chain Monte Carlo.

      Applied Psychological Measurement,27

      (6),395–414.Bradlow,E.T.,Wainer,H.,&Wang,X.H.(1999).A Bayesian random effects model for testlets.

      Psychometrika,64

      (2),153–168.

      Brossman,B.G.(2010).Observed score and true score equating procedures for multidimensional item response theory.University of Iowa.

      Cook,L.L.,&Paterson,N.S.(1987).Problems related to the use of conventional and item response theory equating methodsin lessthan optimalcircumstances.

      Applied Psychological Measurement,11

      (3),225–244.Davey,T.,Oshima,T.C.,& Lee,K.(1996).Linking multidimensional item calibrations.

      Applied Psychological Measurement,20

      (4),405–416.de la Torre,J.,&Song,H.(2009).Simultaneous estimation of overall and domain abilities:A higher-order IRT model approach.

      Applied PsychologicalMeasurement,33

      (8),620–639.DeMars,C.E.(2006).Application of the bi-factor multidimensionalitem response theory modelto test let-based tests.

      Journal of Educational Measurement,43

      (2),145–168.Hanson,B.A.,&Béguin,A.A.(2002).Obtaining a common scale for item response theory item parameters using separate versus concurrent estimation in the common-item equating design.

      Applied PsychologicalMeasurement,26

      (1),3–24.Harris,D.J.,&Crouse,J.D.(1993).A study of criteria used in equating.

      Applied Measurement in Education,6

      (3),195–240.Kim,S.H.,&Cohen,A.S.(1998).A comparison of linking and concurrent calibration under item response theory.

      Applied Psychological Measurement,22

      (2),131–143.Kim,S.H.,&Cohen,A.S.(2002).A comparison of linking and concurrent calibration under the graded response model.

      Applied Psychological Measurement,26

      (1),25–41.Klein,L.W.,&Jarjoura,D.(1985).The importance of content representation for common-item equating with nonrandom groups.

      JournalofEducationalMeasurement,22

      (3),197–206.Kolen,M.J.,&Brennan,R.L.(2004).

      Test equating,scaling,and linking:Methods and practices.

      New York:Springer Verlag.Li,Y.H.,&Lissitz,R.W.(2000).An evaluation of the accuracy of multidimensional IRT linking.

      Applied Psychological Measurement,24

      (2),115–138.Marco,G.L.,Petersen,N.S.,&Stewart,E.E.(1983).

      A large scale evaluation of linear and curvilinear score equating models Volume I

      (RM-83-2).Princeton,NJ:Educational Testing Service.Min,K.S.(2003).

      The impact of scale dilation on the quality of the linking of multidimensional item response theory calibrations

      .Michigan State University,Department of Counseling,Educational Psychology,and Special Education.Oshima,T.C.,Davey,T.C.,& Lee,K.(2000).Multidimensional linking: Four practical approaches.

      Journal of Educational Measurement,37

      (4),357–373.Reckase,M.D.(1985).The difficulty of test items that measure more than one ability.

      Applied Psychological Measurement,9

      (4),401–412.Reckase,M.D.(2009).

      Multidimensional item response theory.

      New York:Springer Verlag.Reckase,M.D.,&Martineau,J.(2004).

      The vertical scaling of science achievement tests

      .Committee on Test Design for K-12 Science Achievement.Washington,DC.Sch?nemann,P.H.(1966).A generalized solution of the orthogonalProcrustes problem.

      Psychometrika,31

      (1),1–10.Simon,M.K.(2008).

      Comparison of concurrent and separate multidimensional IRT linking of item parameters

      .University of Minnesota.Sinharay,S.,&Holland,P.W.(2007).Is it necessary to make anchor tests mini-versions of the tests being equated or can some restrictions be relaxed.

      JournalofEducational Measurement,44

      (3),249–275.Sykes,R.C.(1997).

      Guidelines for the selection of anchor items for mixed(or single)item format tests

      .Monterey,CA:CTB/McGraw-Hill.Weeks,J.P.(2010).Plink:An R packageforlinking mixed-format tests using IRT-based methods.

      Journal of Statistical Software,35

      (12),1–33.Yao,L.H.(2003).

      BMIRT:Bayesianmultivariateitem response theory

      .Monterey,CA:CTB/McGraw-Hill.Yao,L.H.(2004).

      LinkMIRT:Linking of multivariate itemresponse model

      .Monterey,CA:Defense Manpower Data Center.Yao,L.H.(2011).Multidimensional linking for domain scores and overall scores for nonequivalent groups.

      Applied Psychological Measurement,35

      (1),48–66.Yao,L.H.,&Boughton,K.(2009).Multidimensional linking for tests with mixed item types.

      Journal of Educational Measurement,46

      (2),177–197.

      Yon,H.(2007).Multidimensionalitem responsetheory(MIRT)approaches to vertical scaling.Michigan State University.

      Zhang,B.,&Stone,C.(2004).

      Direct and indirect estimation of three-parameter compensatory multidimensional item response models

      .Paper presented at the annual meeting of the American Educational Research Association,San Diego,CA.

      猜你喜歡
      等值方根測驗(yàn)
      方根拓展探究
      異步電動機(jī)等值負(fù)載研究
      《新年大測驗(yàn)》大揭榜
      趣味(語文)(2018年7期)2018-06-26 08:13:48
      均方根嵌入式容積粒子PHD 多目標(biāo)跟蹤方法
      兩個處理t測驗(yàn)與F測驗(yàn)的數(shù)學(xué)關(guān)系
      考試周刊(2016年88期)2016-11-24 13:30:50
      揭開心算方根之謎
      電網(wǎng)單點(diǎn)等值下等效諧波參數(shù)計(jì)算
      基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
      你知道嗎?
      數(shù)學(xué)魔術(shù)
      洱源县| 临城县| 时尚| 来安县| 开化县| 合江县| 五家渠市| 玉林市| 工布江达县| 奇台县| 中宁县| 油尖旺区| 河间市| 芷江| 安塞县| 岚皋县| 马边| 墨脱县| 揭阳市| 阆中市| 东兰县| 都兰县| 贺州市| 剑阁县| 汝南县| 寻乌县| 镇沅| 始兴县| 南安市| 建湖县| 芒康县| 潜江市| 赣州市| 青铜峡市| 渑池县| 通城县| 金川县| 偏关县| 隆安县| 塔河县| 柳州市|