李傳益
作文等主觀性試題的評分差異太大時需要組織評分員進(jìn)行重評,而采用傳統(tǒng)人工重評的方法費時費力,且仍然解決不了重評中存在的主觀性問題。那么,對于評分差異能否尋求另外的方法來解決?正如Lunz etal.(1990)所說:“由評分員個體差異所引起的評分差異我們是無法預(yù)先估計的,但是為了保證分?jǐn)?shù)的可靠性,我們需要對評分員的某些特征進(jìn)行數(shù)學(xué)上的客觀調(diào)整”。
本文嘗試用Longford介紹的調(diào)整評分員不一致項(殘項)的方法對評分員給出的差異較大的分?jǐn)?shù)進(jìn)行客觀、數(shù)學(xué)上的調(diào)整,希望這種調(diào)整方法能最大限度地減少評分誤差,使評分員給出的分?jǐn)?shù)盡量接近被試的能力,并能解決大規(guī)模標(biāo)準(zhǔn)化考試主觀評分人工復(fù)評中的主觀性問題。
在主觀題評分中,被試的表現(xiàn)可能要受到測驗任務(wù)、被試自身水平以及評分員的影響。對此,Longford(1995)采用了一種方差分量模型,利用方差分量和收縮系數(shù)提供了有關(guān)被試真分?jǐn)?shù)和評分員評分的信息。它將被試、項目、評分員或評分組看成是影響真分?jǐn)?shù)的因素或側(cè)面,其中,評分員的變異有來自評分員自身的變異和評分員之間的變異,它們又都可以分解為嚴(yán)厲度方差和不一致性方差(殘項方差)。將影響被試能力的誤差總來源分解后,評分的質(zhì)量可以用評分員評分不一致的方差分量來描述,或者說是用評分員所估計的真分?jǐn)?shù)和被試的真實能力之間的差異,也叫均方誤差(Mean Squared Error,MSE)來評價。如果均方誤差太大,超過了一定的限度,就要對這種有差異的分?jǐn)?shù)進(jìn)行調(diào)整,模型中的收縮系數(shù)可以將均方誤差MSE減小到最低限度,其目的是為了減少由于評分員評分的不一致而造成的系統(tǒng)誤差。該方法除了探討影響真分?jǐn)?shù)變異的各種誤差來源外,在分?jǐn)?shù)調(diào)整方面更具優(yōu)勢??梢哉f,該模型主要是針對主觀題評分問題提出來的,它不需要嚴(yán)格的前提假設(shè),應(yīng)用簡單,適用性強;而且,該方法重在評價整個評分過程,關(guān)注的是單個評分員的評分行為,特別適用于大規(guī)模標(biāo)準(zhǔn)化考試的主觀題評分。另外,它的計算相對來說比較簡便,容易操作。
大規(guī)模標(biāo)準(zhǔn)化評分實踐中,每篇作文一般由兩名評分員評分,評分員的一些狀態(tài)(如情緒波動、外界環(huán)境影響、疲勞程度等)會影響評分的準(zhǔn)確性。這些因素統(tǒng)稱為評分員評分的不一致項或殘項。
如果評分員本身或評分員之間存在著差異,他們的評分就會影響殘項方差,不能真正反映被試的能力。當(dāng)殘項方差σe2很大的時候,有必要對不一致性分?jǐn)?shù)進(jìn)行調(diào)整,以便更有效地估計被試的真分?jǐn)?shù)。這種殘項調(diào)整模型可用下式表示:
其中:αi為調(diào)整后的分?jǐn)?shù);ui是使MSE最小的關(guān)于試題層面的調(diào)整系數(shù),或叫收縮系數(shù);yi,zjik和y將在下文介紹。
該模型依賴于對評分員的任務(wù)分配,也就是說依賴于評分員的工作量nji。Di,1中的整評分員評分殘項。,MSE的值最小。一般情況下,評分員的工作量大,其收縮系數(shù)就大,但其評分的MSE反而會減??;殘項方差大,收縮系數(shù)也大;而真分?jǐn)?shù)方差大,收縮系數(shù)就小。
三個平方和統(tǒng)計量的計算公式:
N=IK表示評分總次數(shù),它可以分解為所有評分員工作量的和,即,N=n1+…+nj。
在本實驗中,對參加2006年10月高等漢語水平考試(HSK)作文評分,但評分等級差異超過3級(不包括3級)最多的24名評分員所評的1 503份作文的分?jǐn)?shù)運用殘項調(diào)整模型進(jìn)行調(diào)整。
本實驗中方差部分的計算用FOXPRO6.0自編程序完成;數(shù)據(jù)的分布和一致性分析及其相關(guān)圖表用SPSS11.0完成。
分?jǐn)?shù)調(diào)整前,首先用公式(1-3)和公式(1-4)計算三個平方和以及方差的值,它們分別是SE=4451.00,=17383.18,ST=19924.52,=3.70,=0.84,=2.12。由于的值小于的值,因此可以說,此次評分的誤差主要是由于評分員的不一致性造成(Longford,1995)。
然后,根據(jù)公式(1-1)和公式(1-2)對評分等級超過3級的分?jǐn)?shù)進(jìn)行調(diào)整。表1列出了每位評分員分?jǐn)?shù)調(diào)整的相關(guān)參數(shù)的概要。
表1 評分員分?jǐn)?shù)調(diào)整相關(guān)參數(shù)概要
為了對比分?jǐn)?shù)調(diào)整前后的情況,在表2中給出了分?jǐn)?shù)調(diào)整前后單樣本K-S檢驗、卡方檢驗以及斯皮爾曼和肯德爾等級相關(guān)數(shù)據(jù)。從表2可以看出,調(diào)整后的分?jǐn)?shù)較之調(diào)整前的分?jǐn)?shù)有了可觀的改善,調(diào)整后分?jǐn)?shù)的分布更接近正態(tài)。
分?jǐn)?shù)調(diào)整前后評分員評分的一致性程度見表3,這些數(shù)據(jù)充分說明分?jǐn)?shù)調(diào)整后評分員間的評分誤差大大減小。
表2 分?jǐn)?shù)調(diào)整前后評分員評分的數(shù)據(jù)檢驗結(jié)果
表3 分?jǐn)?shù)調(diào)整前后評分員評分一致性表
本研究利用Longford(1995)介紹的調(diào)整評分員評分殘項(不一致項)的方法,對高等漢語水平考試作文評分進(jìn)行了一次分?jǐn)?shù)調(diào)整實驗,分?jǐn)?shù)調(diào)整后評分員評分的差異明顯減小,更接近被試真實水平的期望值,而且分?jǐn)?shù)的分布有了很大的改善,用這種方法代替?zhèn)鹘y(tǒng)人工重評的方法可以提高主觀題考試的信度,同時也可以提高評分的效率,它主要表現(xiàn)在以下幾個方面:
(1)通過對調(diào)整前后的分?jǐn)?shù)進(jìn)行正態(tài)分布和一致性檢驗,發(fā)現(xiàn)調(diào)整以后的分?jǐn)?shù)的真分?jǐn)?shù)方差增大,殘項方差和均方誤差MSE都比分?jǐn)?shù)調(diào)整前減小。
(2)分?jǐn)?shù)調(diào)整前評分等級差超過(含)4級以上需要調(diào)整的作文共有243份,經(jīng)過殘項調(diào)整模型調(diào)整后的有效作文有216份①在進(jìn)行殘項調(diào)整時,實際上所有的243份作文的分?jǐn)?shù)都得到了調(diào)整,只是由于HSK作文評分量表沒有小數(shù),在進(jìn)行四舍五入運算時,有一部分調(diào)整分?jǐn)?shù)被舍去,因而有效的作文調(diào)整份數(shù)為216,這一點反映了該模型的保守性。,占總數(shù)的88.9%。分?jǐn)?shù)調(diào)整后,評分員之間的評分一致性顯著增強:等級差超過(包括)4級以上的作文只有92份,僅占總數(shù)的6.1%,這比分?jǐn)?shù)調(diào)整前降低了10.1%。
(3)評分員之間的評分差異經(jīng)過分?jǐn)?shù)調(diào)整后也大大縮小,評分更趨中,有差異的分?jǐn)?shù)大多都調(diào)整到了3級以內(nèi)(包括3級)。比如:被試302523200108的原始分?jǐn)?shù)等級是5級和9級,殘項調(diào)整模型調(diào)整的結(jié)果為6級和8級。
(4)評分員之間的相關(guān)系數(shù)改善了很多,分?jǐn)?shù)調(diào)整以后更服從正態(tài)分布。
應(yīng)用殘項調(diào)整模型以后,評分員的評分一致性顯著提高,但應(yīng)用該模型也存在一些不盡如意的地方:(1)進(jìn)行殘項調(diào)整后,仍有92份作文的等級差超過(含)4級;(2)有些作文的等級差比殘項調(diào)整前更大了。比如:分?jǐn)?shù)調(diào)整前,被試501525100087的評分等級為11級和7級,進(jìn)行殘項調(diào)整后,該被試的分?jǐn)?shù)等級為11級和6級。這種情況約占7%,雖然數(shù)量不多,但也影響到了分?jǐn)?shù)調(diào)整的質(zhì)量。造成這種情況的原因是評分員評分內(nèi)部不一致性造成的,這就要求評分員在評分時一定要保持內(nèi)部一致性,不要忽高忽低。
[1]Lunz,M.E.,Wright,B.D.,and Linacre,J.M.Measuring the impact of judge severity on examination scores.Applied Measurement in Education,1990(3):331-345.
[2]Longford,T.Models for Uncertainty in Educational Testing.New York:Springer-Verlag New York,Inc.1995.