孫小堅(jiān),康春花,曾平飛,辛 濤
(1.北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心,北京 100875;2.浙江師范大學(xué)教師教育學(xué)院,金華 321004)
建構(gòu)反應(yīng)題(Constructed Response item,CR題)因其可以對(duì)個(gè)體的分析、綜合、應(yīng)用等能力進(jìn)行較為準(zhǔn)確地測(cè)量(康春花,辛濤,2010),受重視程度也日益增加。但由于CR題沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)答案,因此需要額外的評(píng)分人員對(duì)學(xué)生的作答進(jìn)行評(píng)分,而各評(píng)分員由于其自身的知識(shí)、能力、經(jīng)驗(yàn)和情緒狀態(tài)的不同,導(dǎo)致CR題的評(píng)分誤差相對(duì)較大(Attali,2014;Kim,Walker,& McHale,2010;周群,2007),以及不同評(píng)分員之間的誤差也各不相同(田清源,2006)。如此,評(píng)分者信度問(wèn)題將受到一定程度的挑戰(zhàn)。如何一方面保證學(xué)生能力估計(jì)值的準(zhǔn)確性,另一方面分離出評(píng)分者寬嚴(yán)度等隨機(jī)誤差的大小及其影響因素是當(dāng)前研究的一個(gè)重要問(wèn)題。
目前,從測(cè)量學(xué)的角度,主要通過(guò)多水平模型來(lái)分離學(xué)生能力水平、評(píng)分誤差及其影響因素,從而達(dá)到對(duì)學(xué)生能力特質(zhì)更為精確的估計(jì),如多水平隨機(jī)系數(shù)模型(Multilevel Random Coefficient Model,MRCM),廣義分部評(píng)分多水平側(cè)面模型(G-MLFM;Wang & Liu,2007)。然而,MRCM是線(xiàn)性模型,而G-MLFM不適于繼時(shí)性加工的任務(wù)情境(Andrich,1995;Tutz,1990)。為此,康春花等(2016)將多面Rasch模型、多水平模型和等級(jí)反應(yīng)模型(GRM)三者結(jié)合,構(gòu)建了等級(jí)反應(yīng)多水平側(cè)面模型(Grade Response Multilevel Facets Model,GR-MLFM),并通過(guò)兩個(gè)模擬研究探討了GR-MLFM的返真性,結(jié)果表明:模型可以很好地估計(jì)出被試參數(shù)、項(xiàng)目參數(shù)和評(píng)分者參數(shù),具有較好地適用性和可行性。GR-MLFM兼具多面Rasch模型、MRCM和GRM的特征,可用于CR題如數(shù)學(xué)應(yīng)用題問(wèn)題解決,公式推導(dǎo)等邏輯性強(qiáng),解法多樣的評(píng)分情境,以考察評(píng)分者的寬嚴(yán)度及其相關(guān)的影響因素。根據(jù)GR-MLFM的特征,不難看出,在對(duì)CR題評(píng)分?jǐn)?shù)據(jù)的分析中,影響GR-MLFM能力參數(shù)估計(jì)準(zhǔn)確性的因素主要有被試特質(zhì)、項(xiàng)目特質(zhì)和評(píng)分者特質(zhì),而評(píng)分者特質(zhì)又可包括評(píng)分者人數(shù)多少及評(píng)分者個(gè)人特質(zhì)如評(píng)分經(jīng)驗(yàn)、人格特征等。
就被試特質(zhì)而言,研究認(rèn)為被試作答態(tài)度的隨意性和偶然性會(huì)影響其能力估計(jì)的準(zhǔn)確性,偶然性作答分為兩種情況,一種是低能力被試答對(duì)較難的項(xiàng)目,另一種是高能力被試答錯(cuò)較容易的題目,這兩種情況的出現(xiàn)均會(huì)影響對(duì)被試能力估計(jì)的準(zhǔn)確性(戴海崎,簡(jiǎn)小珠,2005;Wright,1977)。關(guān)于項(xiàng)目特質(zhì),有研究指出,在不增加評(píng)分者人數(shù)的情況下,通過(guò)增加測(cè)驗(yàn)項(xiàng)目數(shù)便可以提高被試能力估計(jì)的準(zhǔn)確性(Decarlo,2010;Decarlo,Kim,& Johnson,2011;Kim,2009)。而在評(píng)分者特質(zhì)方面,有研究指出(Hombo,Donoghue,& Thayer,2001;Linacre,2007;Wolfe,2004),在固定項(xiàng)目個(gè)數(shù)的前提下,通過(guò)增加每個(gè)項(xiàng)目上的評(píng)分者人數(shù)則可提高能力參數(shù)估計(jì)的準(zhǔn)確性。此外,評(píng)分者的評(píng)分經(jīng)驗(yàn)、人格特質(zhì)等也會(huì)影響其評(píng)分的準(zhǔn)確性,從而間接影響了對(duì)被試能力估計(jì)的準(zhǔn)確性(Wolfe,2004)。
由上可以看出,以往研究對(duì)多水平IRT模型在被試能力特質(zhì)估計(jì)準(zhǔn)確性的影響因素上有所涉及,但在探討評(píng)分者人數(shù)和項(xiàng)目個(gè)數(shù)對(duì)被試能力估計(jì)準(zhǔn)確性時(shí),只對(duì)其中的一個(gè)因素進(jìn)行分析,將另一個(gè)因素作為控制變量。而實(shí)際上,不同的題目個(gè)數(shù)或測(cè)驗(yàn)長(zhǎng)度,所需的評(píng)分者人數(shù)是否也存在不同?是否無(wú)論題目個(gè)數(shù)的多少,只要增加評(píng)分者人數(shù)就可達(dá)到準(zhǔn)確估計(jì)的目的?為找到問(wèn)題的答案,為主觀題測(cè)驗(yàn)編制及評(píng)分設(shè)計(jì)提供有用信息,節(jié)約考試成本,研究擬基于GR-MLFM的模擬設(shè)計(jì),進(jìn)一步探討項(xiàng)目個(gè)數(shù)與評(píng)分者人數(shù)對(duì)被試能力估計(jì)準(zhǔn)確性的影響模式。
采用康春花等(2016)提出的GR-MLFM探討項(xiàng)目個(gè)數(shù)和評(píng)分者人數(shù)對(duì)被試能力估計(jì)準(zhǔn)確性的影響,以期為測(cè)驗(yàn)的組織者在項(xiàng)目個(gè)數(shù)和評(píng)分者人數(shù)的選擇上提供參考。
考慮到研究主要關(guān)注被試的能力估計(jì)準(zhǔn)確性的問(wèn)題,研究將使用GR-MLFM中的評(píng)分者固定效應(yīng)模型,其公式如下
水平1公式:
(1)
水平2公式:
Bij=γijDr=γr
(2)
將式(1)和式(2)進(jìn)行整合,得到:
(3)
2.3.1 評(píng)分情境
考慮到完全交叉設(shè)計(jì)在小規(guī)模評(píng)價(jià)中經(jīng)常使用(Muckle & Karabatsos,2009;鐘曉玲,康春花,陳婧,2013),故研究以該設(shè)計(jì)為例。50個(gè)被試作答2到5個(gè)項(xiàng)目,同時(shí)2到5個(gè)評(píng)分者對(duì)所有被試的作答情況進(jìn)行1到4級(jí)的評(píng)定,1表示作答情況非常差,4則表示作答情況非常好。
2.3.2 實(shí)驗(yàn)變量
研究采用4 × 4的被試間實(shí)驗(yàn)設(shè)計(jì)。自變量有兩個(gè):項(xiàng)目個(gè)數(shù)(2個(gè)、3個(gè)、4個(gè)、5個(gè))和評(píng)分者人數(shù)(2人、3人、4人、5人)。因變量有4個(gè),分別為能力估計(jì)值與真值的相關(guān)r、偏差(Bias)、平均絕對(duì)偏差(Mean Absolute Bias,MAB)和誤差均方根(Root Mean Square Error,RMSE)。
2.3.3 參數(shù)設(shè)定
模型涉及到被試、項(xiàng)目和評(píng)分者三個(gè)層面的參數(shù),各層面的參數(shù)設(shè)定如下:
被試參數(shù):設(shè)定被試總體的能力均值為0,即γ00=0,各被試隨機(jī)效應(yīng)從標(biāo)準(zhǔn)正態(tài)分布N(0,1)中隨機(jī)抽取。
項(xiàng)目參數(shù):(1)為保證模型可被識(shí)別和方便設(shè)計(jì),項(xiàng)目1的區(qū)分度參數(shù)固定地設(shè)置為1,而剩余的項(xiàng)目區(qū)分度則從對(duì)數(shù)標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)抽取。(2)項(xiàng)目難度參數(shù)則從標(biāo)準(zhǔn)正態(tài)分布中抽取,考慮到每個(gè)項(xiàng)目均有3個(gè)難度閾值,此時(shí)將逐個(gè)生成項(xiàng)目的難度參數(shù),具體過(guò)程為:針對(duì)第一個(gè)項(xiàng)目,從標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)抽取3個(gè)值,之后對(duì)這3個(gè)值由小到大進(jìn)行排序,最后將排序后的3個(gè)值分別作為該項(xiàng)目的第1、2、和第3個(gè)難度閾值。其它項(xiàng)目的難度參數(shù)也依此步驟依次生成。
評(píng)分者參數(shù):Muckle和Karabatsos(2009)將Dr=1和Dr=-1 分別稱(chēng)為評(píng)分者中等嚴(yán)格和中等寬松。研究將評(píng)分者參數(shù)限定在此區(qū)間內(nèi)并進(jìn)行細(xì)分,具體的寬嚴(yán)度為D=(-1,-0.5,0,0.5,1),而各評(píng)分者的具體寬嚴(yán)度值將從該向量中隨機(jī)抽取。
被試的作答反應(yīng)數(shù)據(jù)將通過(guò)R軟件自編程序?qū)崿F(xiàn)。具體步驟為:(a)從標(biāo)準(zhǔn)正態(tài)分布N(0,1)中生成50名被試的能力值;(b)根據(jù)2.3.3章節(jié)中關(guān)于項(xiàng)目和評(píng)分者參數(shù)的設(shè)定方法生成相應(yīng)的參數(shù);(c)將生成的被試、項(xiàng)目和評(píng)分者參數(shù)代入到公式(3)中,計(jì)算相應(yīng)的累積概率和類(lèi)別概率;(d)將(c)中得到的累積概率和從均勻分布U(0,1)中生成的隨機(jī)數(shù)進(jìn)行比較,如果該隨機(jī)數(shù)小于第一個(gè)累積概率,則令隨機(jī)數(shù)為1,若隨機(jī)數(shù)在第一個(gè)和第二個(gè)累積概率之間,則令隨機(jī)數(shù)為2,以此類(lèi)推,最終得到所有評(píng)分者對(duì)于所有被試在所有題目上的作答數(shù)據(jù)。為減少抽樣誤差,每種實(shí)驗(yàn)條件均重復(fù)50次。之后用R2OpenBUGS程序包在R軟件中調(diào)用OpenBUGS軟件進(jìn)行參數(shù)估計(jì),最終的估計(jì)值為50次估計(jì)值的均值。
擬合指標(biāo)有4個(gè):估計(jì)值與真值間的相關(guān)r、偏差(Bias)、平均絕對(duì)偏差(MAB)和誤差均方根(RMSE)。其中相關(guān)系數(shù)r反映能力估計(jì)值與真值間的相互關(guān)系及方向;偏差則反映估計(jì)值與真值之間的系統(tǒng)誤差(de la Cruz,1996),越接近于0越好;MAB和RMSE則用于測(cè)量估計(jì)值與真值之間的整體誤差(Wetzel,B?hnke,& Rose,2016)這兩個(gè)指標(biāo)則是越小越好。各指標(biāo)的計(jì)算公式為:
表1呈現(xiàn)了各實(shí)驗(yàn)條件在50次重復(fù)試驗(yàn)下各被試能力估計(jì)值與真值相關(guān)系數(shù)的描述統(tǒng)計(jì)量。由表可知,總體而言,隨著項(xiàng)目個(gè)數(shù)的增加,估計(jì)值與真值間的相關(guān)程度不斷加強(qiáng),并且最大值與最小值之間的差距也在不斷縮小,且該趨勢(shì)不受評(píng)分者人數(shù)的影響。再者,當(dāng)項(xiàng)目個(gè)數(shù)和評(píng)分者人數(shù)均為2個(gè)時(shí),估計(jì)值與真值之間的相關(guān)最低,且其標(biāo)準(zhǔn)差最大(SD=0.051),說(shuō)明二者間的相關(guān)有比較大的波動(dòng),該波動(dòng)可從其變化范圍給予驗(yàn)證。當(dāng)然,需要注意的是當(dāng)只有2個(gè)項(xiàng)目時(shí),4種評(píng)分者人數(shù)條件下的能力估計(jì)值與真值的相關(guān)均在0.80以下,說(shuō)明當(dāng)項(xiàng)目個(gè)數(shù)相對(duì)較少時(shí),被試能力估計(jì)值與真值差異較大,且不易受評(píng)分者人數(shù)的影響。此外,當(dāng)項(xiàng)目個(gè)數(shù)為5個(gè)時(shí),在4種評(píng)分者人數(shù)條件下被試能力真值與估計(jì)值間的相關(guān)均在0.90以上,且在4個(gè)評(píng)分者時(shí)達(dá)到所有條件下的最大相關(guān)(0.98),說(shuō)明此時(shí)被試能力估計(jì)值與真值間的關(guān)系最為密切。
表1 各實(shí)驗(yàn)條件下的相關(guān)系數(shù)的描述統(tǒng)計(jì)結(jié)果
表2為各條件下的偏差統(tǒng)計(jì)結(jié)果。表中的結(jié)果顯示,在所有16種條件下,大部分條件下的偏差值為負(fù)值(10個(gè)),說(shuō)明大多數(shù)條件下被試的能力值被低估。同時(shí),不同項(xiàng)目個(gè)數(shù)下,各偏差值的范圍分別為:-0.083 ~ 0.135,-0.289 ~ 0.055,-0.134 ~ 0.124,以及-0.183 ~-0.101。可見(jiàn),3個(gè)項(xiàng)目條件下的偏差變化最大,且大部分的偏差值均為負(fù)數(shù),說(shuō)明該條件下的被試能力易被低估。當(dāng)具體到每一個(gè)條件時(shí),2個(gè)項(xiàng)目和2個(gè)評(píng)分者組合下的偏差變化范圍最大(全距=2.584),且偏差的SD也是最大的,說(shuō)明該條件下的能力估計(jì)值不穩(wěn)定,模型無(wú)法較為準(zhǔn)確地估計(jì)出被試的真實(shí)能力。其次,2個(gè)項(xiàng)目4個(gè)評(píng)分者組合下的偏差波動(dòng)范圍和SD標(biāo)準(zhǔn)也相對(duì)比較大,在該條件下,模型也較難估計(jì)出被試的真實(shí)能力。
表2 各實(shí)驗(yàn)條件下的偏差估計(jì)結(jié)果
圖1更為清楚地呈現(xiàn)了各組合條件下的偏差分布情況。由圖可知,5個(gè)項(xiàng)目3個(gè)評(píng)分者時(shí)的偏差值最接近0,而3個(gè)項(xiàng)目5個(gè)評(píng)分者條件下的偏差離0值最遠(yuǎn)。此外,3個(gè)評(píng)分者和5個(gè)評(píng)分者在不同項(xiàng)目個(gè)數(shù)上的變化模式是一樣的,均為先向下,后向上,最后再向下的變化趨勢(shì);而2個(gè)評(píng)分者和4個(gè)評(píng)分者的變化模式則相反:2個(gè)評(píng)分者的變化趨勢(shì)是先向上,然后再向下;而4個(gè)評(píng)分者則是先向下,然后向上變化,并與2個(gè)評(píng)分者發(fā)生交叉。
圖1 各實(shí)驗(yàn)條件下偏差值分布情況
項(xiàng)目評(píng)分者M(jìn)ABRMSEMSDMSD220.5730.2220.6810.20630.4640.1160.5690.12340.5650.2220.6660.22150.4930.1340.6080.136320.5030.110.6130.11730.3930.1050.4810.10940.3310.0880.4070.09650.4450.120.5410.131420.4320.1040.5350.11330.2770.0670.3440.06840.2570.0610.3160.0750.3760.0710.4590.076520.3010.0340.3710.04430.2090.0760.260.07640.1980.0270.2460.03150.2430.0450.3020.047
表3呈現(xiàn)了被試的能力估計(jì)值與真值在50次重復(fù)條件下MAB和RMSE的描述統(tǒng)計(jì)量。由表3可知,5個(gè)項(xiàng)目4個(gè)評(píng)分者組合下的MAB和RMSE的均值和標(biāo)準(zhǔn)差均最小,而2個(gè)項(xiàng)目2個(gè)評(píng)分者組合下的MAB和RMSE的均值最大。各實(shí)驗(yàn)條件下的兩個(gè)指標(biāo)的標(biāo)準(zhǔn)差均比較小(分別為:0.027~0.222和0.031~0.221),說(shuō)明兩個(gè)指標(biāo)在50次試驗(yàn)下的估計(jì)結(jié)果相對(duì)比較穩(wěn)定。同時(shí),各條件的RMSE和MAB的相對(duì)位置和發(fā)展趨勢(shì)是一致的。
方差分析的結(jié)果發(fā)現(xiàn),RMSE的分析結(jié)果與MAB的結(jié)果大致相同,故研究只呈現(xiàn)MAB的結(jié)果。表4呈現(xiàn)了被試能力估計(jì)值的MAB的方差分析結(jié)果。由表4可知,評(píng)分者變量和項(xiàng)目變量二者均存在顯著的主效應(yīng);并且二者的交互效應(yīng)也顯著,其效果量(ηp2)達(dá)到了中等效果量的標(biāo)準(zhǔn)(Cohen,1988)。
表4 能力估計(jì)值的MAB方差分析結(jié)果匯總表
由于評(píng)分者和項(xiàng)目個(gè)數(shù)二者間存在交互作用,有必要對(duì)它們進(jìn)行簡(jiǎn)單效應(yīng)分析,二者的交互效應(yīng)見(jiàn)圖2。經(jīng)簡(jiǎn)單效應(yīng)分析發(fā)現(xiàn)評(píng)分者人數(shù)在項(xiàng)目個(gè)數(shù)上的簡(jiǎn)單效應(yīng)均顯著(2個(gè)項(xiàng)目:F(3,196)=4.407**,ηp2=0.063;3個(gè)項(xiàng)目:F(3,196)=23.714***,ηp2=0.266;4個(gè)項(xiàng)目:F(3,196)=56.477***,ηp2=0.464;5個(gè)項(xiàng)目:F(3,196)=44.514***,ηp2=0.405);同時(shí),不同評(píng)分者人數(shù)在各個(gè)項(xiàng)目個(gè)數(shù)條件下的多重比較結(jié)果發(fā)現(xiàn):2個(gè)項(xiàng)目情況下,2個(gè)評(píng)分者和4個(gè)評(píng)分者間的MAB不顯著,3個(gè)評(píng)分者和5個(gè)評(píng)分者間的MAB不顯著,其它的多重比較結(jié)果均存在顯著差異(此時(shí),3個(gè)評(píng)分者時(shí)的能力估計(jì)準(zhǔn)確性最高);3個(gè)項(xiàng)目情況下,不同評(píng)分者人數(shù)間存在顯著差異,此時(shí)MAB由小到大為4個(gè)、3個(gè)、5個(gè)和2個(gè)評(píng)分者;再者,在4個(gè)和5個(gè)項(xiàng)目情況下的MAB值由小到大的順序與3個(gè)項(xiàng)目情況MAB的順序相同,但無(wú)論是在4個(gè)還是5個(gè)項(xiàng)目情況下,4個(gè)評(píng)分者和3個(gè)評(píng)分者之間的差異均不顯著,而在其它評(píng)分者多重比較中(如2個(gè)VS. 3個(gè)、4個(gè)和5個(gè)評(píng)分者;5個(gè)VS. 3個(gè)和4個(gè)評(píng)分者)存在顯著差異。另一方面,項(xiàng)目個(gè)數(shù)在不同評(píng)分者人數(shù)也存在顯著的簡(jiǎn)單效應(yīng)(2個(gè)評(píng)分者:F(3,196)=36.631***,ηp2=0.359;3個(gè)評(píng)分者:F(3,196)=75.356***,ηp2=0.536;4個(gè)評(píng)分者:F(3,196)=84.555***,ηp2=0.564;5個(gè)評(píng)分者:F(3,196)=59.974***,ηp2=0.479),并且在4種不同評(píng)分者人數(shù)上均表現(xiàn)出項(xiàng)目個(gè)數(shù)越多表現(xiàn)越好的趨勢(shì)。
圖2 評(píng)分者人數(shù)與項(xiàng)目個(gè)數(shù)的交互效應(yīng)
作為教育與心理測(cè)驗(yàn)中常用的考試題型,CR題評(píng)分的準(zhǔn)確性會(huì)影響被試的測(cè)驗(yàn)分?jǐn)?shù),而評(píng)分者效應(yīng)作為CR題評(píng)分中的系統(tǒng)誤差(Scullen,Mount,& Goff,2000),該效應(yīng)的出現(xiàn)一方面降低了評(píng)分者的信度,另一方面將極大地影響被試能力估計(jì)值的準(zhǔn)確性。研究在前人的基礎(chǔ)上將評(píng)分者人數(shù)和項(xiàng)目個(gè)數(shù)兩個(gè)變量同時(shí)加以考慮,并使用康春花等(2016)提出的GR-MLFM來(lái)探討此二者的不同水平對(duì)被試能力估計(jì)準(zhǔn)確性的影響。
通過(guò)模擬研究發(fā)現(xiàn),隨著項(xiàng)目個(gè)數(shù)的增加,估計(jì)值與真值間的相關(guān)系數(shù)逐漸增大,該趨勢(shì)不受評(píng)分者人數(shù)影響,而偏差、MAB以及RMSE三個(gè)指標(biāo)均不斷減小,說(shuō)明被試能力估計(jì)的準(zhǔn)確性在不斷增加,該結(jié)果與前人的研究結(jié)果及論斷相一致(Decarlo,2010;Decarlo,Kim,& Johnson,2011;Kim,2009)。該結(jié)果是可理解的,教育與心理測(cè)驗(yàn)中,項(xiàng)目可以看作是測(cè)量被試潛在能力的外部行為指標(biāo),被試在項(xiàng)目上的作答反應(yīng)是其能力的外在表現(xiàn)。IRT中,測(cè)驗(yàn)所包含的項(xiàng)目數(shù)越多,測(cè)驗(yàn)的標(biāo)準(zhǔn)誤就越小,則對(duì)被試能力的掌握情況越清楚,從而對(duì)其能力的估計(jì)就越發(fā)的精確(羅照盛,2012)。
事后分析的結(jié)果表明,隨著項(xiàng)目數(shù)的增加,評(píng)分者人數(shù)與能力估計(jì)準(zhǔn)確性之間呈倒U關(guān)系。當(dāng)被試作答的項(xiàng)目數(shù)比較少時(shí),3個(gè)評(píng)分者的評(píng)分結(jié)果相對(duì)較好,此時(shí)被試的能力估計(jì)值比較準(zhǔn)確;而當(dāng)項(xiàng)目個(gè)數(shù)增加到3個(gè)時(shí),4個(gè)評(píng)分者可以得到最優(yōu)的能力估計(jì)值;此后,隨著項(xiàng)目個(gè)數(shù)的增加,3個(gè)和4個(gè)評(píng)分者得到的被試能力估計(jì)準(zhǔn)確性并沒(méi)有顯著性差異,但此二者與1個(gè)和2個(gè)評(píng)分者條件下均存在顯著差異。此結(jié)果與前人的研究結(jié)果并不一致,前人的結(jié)果表明被試能力估計(jì)的準(zhǔn)確性隨著評(píng)分者人數(shù)的增加而不斷提高(Hombo et al.,2001;Linacre,2007;Wolfe,2004)。出現(xiàn)不一致結(jié)果的原因可能是變量設(shè)置上的差異,前人的研究(如Hombo et al.,2001)主要是在控制項(xiàng)目個(gè)數(shù)的情況下,探討評(píng)分者人數(shù)對(duì)被試能力估計(jì)準(zhǔn)確性的影響,得出評(píng)分者人數(shù)越多估計(jì)越準(zhǔn)確的結(jié)論。但正如研究得出的結(jié)果所示,評(píng)分者人數(shù)與項(xiàng)目個(gè)數(shù)之間具有交互作用,如此,若只考慮評(píng)分者人數(shù)對(duì)能力準(zhǔn)確性的影響,其結(jié)論可能有失偏頗。
與此同時(shí),研究的結(jié)果也有較大的實(shí)踐意義。實(shí)際條件下,人們?nèi)魹榱颂岣弑辉嚹芰烙?jì)的準(zhǔn)確性而無(wú)限制地增加評(píng)分者人數(shù),該做法將極大地增加測(cè)驗(yàn)的成本,不利于測(cè)驗(yàn)的發(fā)展。而本研究則說(shuō)明,提高被試估計(jì)的準(zhǔn)確性并不需要不斷增加評(píng)分者人數(shù),只需將評(píng)分者人數(shù)控制在一定范圍即可。
研究通過(guò)一個(gè)模擬研究得到了一些比較有指導(dǎo)作用的結(jié)果,同樣研究還存在一些值得進(jìn)一步研究的地方,主要表現(xiàn)在:(1)評(píng)分情境的研究。研究采用的是完全交叉設(shè)計(jì),該設(shè)計(jì)要求所有評(píng)分者評(píng)定所有被試的所有作答,其相對(duì)于嵌套設(shè)計(jì)和混合設(shè)計(jì)來(lái)說(shuō),評(píng)分者的工作量比較大,所需的資源也比較多,故當(dāng)測(cè)驗(yàn)的被試量較大時(shí),該設(shè)計(jì)將變得較復(fù)雜和繁瑣,因此未來(lái)研究有必要探討在嵌套設(shè)計(jì)和混合設(shè)計(jì)下評(píng)分者人數(shù)與項(xiàng)目個(gè)數(shù)對(duì)被試能力估計(jì)準(zhǔn)確性的影響。(2)項(xiàng)目參數(shù)的研究。研究使用2 ~ 5個(gè)項(xiàng)目進(jìn)行研究,結(jié)果表明項(xiàng)目個(gè)數(shù)越多,能力估計(jì)準(zhǔn)確性越好。那么,隨著項(xiàng)目個(gè)數(shù)的繼續(xù)增加,該趨勢(shì)是否會(huì)一直持續(xù)下去?也是未來(lái)值得關(guān)注的重要問(wèn)題。
研究通過(guò)模擬研究探討了項(xiàng)目個(gè)數(shù)和評(píng)分者人數(shù)對(duì)被試能力估計(jì)準(zhǔn)確性的影響,得到以下幾個(gè)結(jié)論:
(1)項(xiàng)目個(gè)數(shù)和評(píng)分者人數(shù)的主效應(yīng)和交互效應(yīng)均顯著。
(2)無(wú)論評(píng)分者人數(shù)多少,被試能力估計(jì)值的準(zhǔn)確性均隨著項(xiàng)目個(gè)數(shù)的增加而提高。
(3)項(xiàng)目個(gè)數(shù)不同時(shí),被試能力估計(jì)的準(zhǔn)確性隨評(píng)分者人數(shù)的不同而不同。項(xiàng)目數(shù)為2個(gè)時(shí),3個(gè)評(píng)分者得到的準(zhǔn)確性最高;隨著項(xiàng)目數(shù)的增加,4個(gè)評(píng)分者得到的能力估計(jì)的準(zhǔn)確性變得最高。
戴海崎,簡(jiǎn)小珠.(2005).被試作答的偶然性對(duì) IRT 能力估計(jì)的影響研究.心理科學(xué),28(6),1433-1436.
康春花,孫小堅(jiān),曾平飛.(2016).基于等級(jí)反應(yīng)模型的多水平多側(cè)面評(píng)分者模型.心理科學(xué),39(1),214-223.
康春花,辛濤.(2010).基于 IRT 的評(píng)分者效應(yīng)模型及其應(yīng)用展望.中國(guó)考試,(08),3-8.
劉紅云,駱?lè)?(2008).多水平項(xiàng)目反應(yīng)理論模型在測(cè)驗(yàn)發(fā)展中的應(yīng)用.心理學(xué)報(bào),40(1),92-100.
劉慧,簡(jiǎn)小珠,張敏強(qiáng),熊悅欣.(2012).多水平 IRT 的發(fā)展與應(yīng)用述評(píng).心理科學(xué)進(jìn)展,20(4),627-632.
羅照盛.(2012).項(xiàng)目反應(yīng)理論基礎(chǔ).北京:北京師范大學(xué)出版社.
田清源.(2006).主觀評(píng)分中多面Rasch模型的應(yīng)用.心理學(xué)探新,26(1),70-74.
鐘曉玲,康春花,陳婧.(2013).基于 CTT、 GT、 IRT 的評(píng)分者信度研究——以某屆奧運(yùn)會(huì)女子跳水決賽為例.考試研究,(05),41-52.
周群.(2007).主觀題評(píng)分標(biāo)準(zhǔn)研究.考試研究,(01),005.
Andrich,D.(1995).Distinctive and incompatible properties of two common classes of IRT models for graded responses.AppliedPsychologicalMeasurement,19(1),101-119.
Attali,Y.(2014).A ranking method for evaluating constructed responses.EducationalandPsychologicalMeasurement,74(5),795-808.
Cohen,J.(1988).Statisticalpoweranalysisforthebehavioralsciences(2ed).Hillsdale,NJ:L.Lawrence Earlbaum Associates.
DeCarlo,L.T.(2010).Studies of a latent class signal detection model for constructed response scoring II:Incomplete and hierarchical designs.ETSResearchReportSeries,(1),i-65.
DeCarlo,L.T.,Kim,Y.,& Johnson,M.S.(2011).A hierarchical rater model for constructed responses,with a signal detection rater model.JournalofEducationalMeasurement,48(3),333-356.
de la Cruz,R.E.(1996).Assessment-biasissuesinspecialeducation:Areviewofliterature.ERIC Document Reproduction Service No.ED390246.
Hombo,C.M.,Donoghue,J.R.,& Thayer,D.T.(2001).A simulation study of the effect of rater designs on ability estimation.ETSResearchReportSeries,(1),i-41.
Kim,S.,Walker,M.E.,& McHale,F(xiàn).(2010).Investigating the effectiveness of equating designs for constructed-response tests in large-scale assessments.JournalofEducationalMeasurement,47(2),186-201.
Kim,Y.(2009).Combiningconstructedresponseitemsandmultiplechoiceitemsusingahierarchicalratermodel.Unpublished doctoral dissertation,Columbia University,New York,NY.
Linacre,J.M.(2007).Auser’sguidetoFacets:Rasch-measurementcomputerprogram.Chicago.Online:www.winsteps.com/facets.htm(01.02.08).
Muckle,T.J.,& Karabatsos,G.(2009).Hierarchical generalized linear models for the analysis of judge ratings.JournalofEducationalMeasurement,46(2),198-219.
Scullen,S.E.,Mount,M.K.,& Goff,M.(2000).Understanding the latent structureof job performance ratings.JournalofAppliedPsychology,85(6),956-997.
Tutz,G.(1990).Sequential item response models with an ordered response.BritishJournalofMathematicalandStatisticalPsychology,43(1),39-55.
Wang,W.-C.,& Liu,C.-Y.(2007).Formulation and application of the generalized multilevel facets model.EducationalandPsychologicalMeasurement,67(4),583-605.
Wetzel,E.,B?hnke,J.R.,& Rose,N.(2016).A simulation study on methods of correcting for the effects of extreme response style.EducationalandPsychologicalMeasurement,76(2),304-324.
Wolfe,E.W.(2004).Identifying rater effects using latent trait models.PsychologyScience,46,35-51.
Wright,B.D.(1977).Solving measurement problems with the Rasch model.JournalofEducationalMeasurement,14(2),97-116.