□天津市教育招生考試院范鵬 張景華
大規(guī)模標準化考試網(wǎng)上評卷中的誤差控制研究
□天津市教育招生考試院范鵬 張景華
如何保證考試的公正、公平,減少評分誤差,始終是個世界性的難題。為試圖從根本上解決主觀題部分的評分誤差問題,90年代末國家在部分省份推行實施了高考等大規(guī)模標準化考試的網(wǎng)上評卷工作。在今天的大規(guī)模標準化考試中,網(wǎng)上評卷已經(jīng)成為整個考試流程的一個重要環(huán)節(jié),而能否更有效地進行網(wǎng)上評卷誤差控制,直接影響到考試結果的信度與效度。就網(wǎng)上評卷環(huán)節(jié)而言,仍然存在一些主觀因素制約著網(wǎng)上評卷的誤差控制。如何厘清并有效地解決或減少這些問題,對于保證評卷質(zhì)量,維護考試公平公正都具有重要意義。
標準化考試;網(wǎng)上評卷;誤差;控制
考試已有一千多年的歷史,作為一種選拔學生和評價教育的手段,其在中外歷史上發(fā)揮了重要作用。但是,如何保證考試的公正、公平,減少評分誤差,始終是個世界性的難題。從上個世紀中期開始,西方教育測量學家對標準化考試進行研究并有了一定的認識。研究認為,解決評分誤差必須從標準化入手,我國從上世紀80年代至今,逐步在考試的命題、實施和客觀題部分機器評閱等重要環(huán)節(jié)實行了標準化。為試圖從根本上解決主觀題部分的評分誤差問題,90年代末國家又在部分省份推行實施了高考等大規(guī)模標準化考試的網(wǎng)上評卷工作。截止到2011年,已有30個省區(qū)市在高考、自考、成考等大規(guī)??荚囍胁扇∪炕虿糠挚颇烤W(wǎng)上評卷。
網(wǎng)上評卷主要是利用高速圖像掃描與識別技術、計算機網(wǎng)絡技術、大型分布式數(shù)據(jù)庫及存儲技術來進行輔助評卷。與傳統(tǒng)評卷方式不同,網(wǎng)上評卷首先利用高速光電閱讀機將所有考生答卷掃描成加密圖像,同時按照評卷具體情況對答卷圖像自動切割,然后通過局域網(wǎng)隨機分派給評卷教師進行評閱。網(wǎng)上評卷與傳統(tǒng)的人工評卷最大的區(qū)別,評卷教師不再直接對考生的原始答卷進行評分,而是在計算機終端上對電子化的答卷圖像進行評閱。網(wǎng)上評卷將多年來人工評卷積累起來的豐富經(jīng)驗和現(xiàn)代高新技術有機地結合起來,與傳統(tǒng)評卷相比,主要優(yōu)點有以下幾個方面:
一是節(jié)省人力物力。網(wǎng)上評卷將傳統(tǒng)評卷中的試卷保管、分發(fā)、轉(zhuǎn)運、評卷、回收、核分等過程合并簡化為只有評卷一個過程,大大節(jié)省了整個評卷中的人力物力,提高了工作效率,縮短了評卷時間。
二是保證評卷質(zhì)量。網(wǎng)上評卷開始前,由組長進行討論并設定統(tǒng)一標準,同一試卷要經(jīng)過兩評或三評,給分更趨于公平、合理;評卷過程中,組長能夠隨時通過評卷系統(tǒng)的統(tǒng)計功能直觀地監(jiān)控每個評卷教師的工作量、給分情況和評卷質(zhì)量,隨時調(diào)整評卷進度和給分偏差,使評卷質(zhì)量和進程都能在一個良好的控制中。
三是答卷更加安全??忌拇鹁聿捎秒娮訑?shù)據(jù)加密存儲,評卷過程中任何人不會接觸到考試的原始答卷,不會像傳統(tǒng)試卷那樣不易保存、保管;任何與考生相關的信息都已經(jīng)屏蔽,評卷人員無法看到考生基本信息,也無法對原始試卷進行改動,更加保證了評卷工作的公平、公正,維護了考試的嚴肅性。
網(wǎng)上評卷的優(yōu)勢還不止于此。當前,教學質(zhì)量評價信息化已成為教育評價的追求目標,是現(xiàn)代教育條件下提高教學質(zhì)量的重要手段。教學質(zhì)量評價信息化的發(fā)展趨勢主要表現(xiàn)為從評卷系統(tǒng)到評價系統(tǒng)、從考試評價到教學質(zhì)量診斷、從試卷評價到教育學評價、從封閉式評價到開放式評價的逐步提升。采用網(wǎng)上評卷這種方式,既能實現(xiàn)對考生成績更加細化、多元化的統(tǒng)計,又可體現(xiàn)出無紙化、靈活化、網(wǎng)絡化、低成本的信息化優(yōu)勢。利用先進的數(shù)據(jù)挖掘技術,教育部門可以更加清楚地看到不同地區(qū)的考生的具體境況,在進行定性定量的統(tǒng)計分析后,可以有針對性地制定并實施相應的措施來改進教學效果。這將比過去完全依靠教師的傳統(tǒng)教學經(jīng)驗更加有的放矢。
在今天的大規(guī)模標準化考試中,網(wǎng)上評卷已經(jīng)成為整個考試流程的一個重要環(huán)節(jié),而能否更有效地進行網(wǎng)上評卷誤差控制,直接影響到考試結果的信度與效度。但就網(wǎng)上評卷環(huán)節(jié)而言,其實施主體仍然是評卷教師,因此,仍然存在一些主觀因素制約著網(wǎng)上評卷的誤差控制。如何厘清并有效地解決或減少這些問題,是本文研究的重點,以期在此方面取得進展,進而推動網(wǎng)上評卷工作的發(fā)展,促進網(wǎng)上評卷技術的提高,這對于保證評卷質(zhì)量,維護考試公平公正都具有重要意義。
誤差就是測定的數(shù)值與事物客觀具有的真值之差。在考試學里事物客觀具有的真值稱為真分數(shù)。所謂誤差即是考生考試所得分數(shù)與考生真實水平的真分數(shù)之差。本文提到的誤差為產(chǎn)生于較為主觀性試題中的誤差。
在對主觀題評分時,由兩名或兩名以上的評卷教師對同一考生作答進行評分,兩名評卷教師評分之差稱為雙評差值。
雙評差值的最大允許值稱為雙評差值閾限。網(wǎng)上評卷評分過程中,雙評差值閾限一般不能大于題目滿分的1/6。
誤差控制是根據(jù)考試的性質(zhì)、目的和要求,通過各種途徑糾正命題、考試過程和評分過程中出現(xiàn)的誤差。本文所研究的是在網(wǎng)上評卷過程中的誤差控制。
對于評分誤差控制的研究,當代多名學者都進行了大量的研究。章熊、鄭日昌等人都對主觀題特別是高考作文評分誤差控制進行了研究,張昌應、馬世曄等人進行了網(wǎng)上評卷及其誤差控制的相關問題研究,提出了誤差控制的五種方法。扈濤等人從評卷隊伍建設等方面對主觀題的評分誤差控制和評分方法進行了研究。這些研究提出了網(wǎng)上評卷誤差產(chǎn)生的多方面原因,并注意到評卷教師評分的差異性。研究者們的努力及其獲得的成果值得學習和借鑒,為進一步的深入研究奠定了基礎。但隨著網(wǎng)上評卷的逐步開展,仍然有一些問題沒有得到很好解決。主要表現(xiàn)在以下幾個方面。
專家組因其權威性,可以起到控制整體評卷局面的作用,以免出現(xiàn)整體偏差,其意義重大。但在評卷實踐中,專家組除了一般評卷管理外,主要進行一些特殊卷的處理。往往通過抽查監(jiān)控的方法來進行評卷教師個體的管理,無法對整個評卷教師的控制發(fā)揮作用。專家組控制評分誤差的作用應主要體現(xiàn)在整體控制上,但由于種種原因,專家組評卷實踐中的指導作用還沒有充分發(fā)揮出來。
當專家組不能充分發(fā)揮其作用時,則是由全體評卷教師的評卷分、標準差、評分曲線等來控制個體評卷教師。用全體的指標來衡量個體的話,容易造成趨中傾向。
“趨中傾向就是既不給高分,也不給低分,評出的分數(shù)高度集中在中部偏上的狹小區(qū)間內(nèi)。”趨中傾向在網(wǎng)上評卷主觀題評卷中普遍存在,而產(chǎn)生這一現(xiàn)象的主要原因就是“打中間分”。
以作文題目為例,打中間分就是個體評卷教師習慣在平均分上下給分,既不給太高的分,也不給低分,不能客觀地反映出學生作文的真實水平,是產(chǎn)生評分誤差的重要因素之一。究其原因,主要有以下三點。
一是現(xiàn)在的主觀題評卷多采取三評的評卷方式,如果打分與其他兩個評卷教師的評分差距過大,會使自己所評的試卷成為無效卷。在網(wǎng)上評卷中,無效卷數(shù)量指標是組長們認為的衡量一個評卷教師評分水平的一個重要指標,無效卷數(shù)量多被認為是評分標準沒有掌握好,評分水平低。
二是網(wǎng)上評卷要求既要保質(zhì)又要保量,打中間分則能做到在保證評卷速度的前提下,還不會出現(xiàn)無效卷,不會增加整個組的三評率,進而增加工作量。
三是現(xiàn)有的雙評誤差閾限模式有缺陷。仍以作文題目多采用的三評方式為例,當雙評誤差閾限設置為7分的時候,若一個評卷教師為一篇作文打了58分,而第二個評卷教師打了46分,第三個評卷教師打了50分,那么按照現(xiàn)行的評分規(guī)則,第一個評分成為無效分,該題的最后得分是取46分和50分的平均值48分;而如果第一個評卷教師打53分,那么該題的最后得分應是53分和50分的平均值51.5分,比打58分時多出3.5分,打低分的情況正好與之相反。
《國家教育考試網(wǎng)上評卷統(tǒng)計測量暫行規(guī)范》規(guī)定:“評分過程中,雙評差值閾限一般不能大于題目滿分的1/6?!备鶕?jù)此規(guī)定,滿分為60分的高考作文題目,雙評差值閾限最大值為10分。但這種僅對最大值的限定遠不能滿足對評分誤差控制的需要。
還有一種觀點認為,雙評差值閾限設置越小,就越能控制評分誤差。其實,未必如此。根據(jù)現(xiàn)行的網(wǎng)上評卷管理辦法,雙評差值超出閾限的試卷會發(fā)給三評進行仲裁。仲裁為評卷組長單評,評分并不與一、二評進行比較,得分即為該試題的最終得分。如果雙評誤差閾限太小,仲裁率會迅速上升,大量本應雙評的試題變成了單評,有違利用雙評控制評分誤差的初衷,反而會增加評卷的評分誤差。
針對上文提出的網(wǎng)上評卷中的不足,我們做了相關的理論和實踐研究。
雙評誤差的客觀性,決定了它是與全體評卷教師的雙評差值相關的。全體評卷教師對每道主觀題的雙評差值集合是雙評誤差閾限的真實反應,而并非固定的設置成某一數(shù)值。通常來說,閱卷前設置的雙評誤差閾限只能初步地區(qū)分評分波動較大的試卷,但在雙評誤差真實值與初始雙評誤差閾限這個區(qū)間的內(nèi)雙評差值,尤其是靠近初始雙評誤差閾限這一部分則沒有相應的控制手段。因此,需要對初始的雙評誤差閾限進行校正。
首先,由專家組對某一題目各個層次一定數(shù)量的試卷進行評分,根據(jù)試題類型、難度、總分等情況設置E1,即該題目評卷前導入系統(tǒng)的初始雙評誤差閾限。
然后,按照評卷程序,將全部試卷進行評分,然后選取各份試卷該題目的兩個評分差值,篩除終評卷、異常卷等無效數(shù)據(jù)形成實際評卷誤差集合A2,將集合A2取算術平均,記為E2,即實際評卷的雙評誤差。
最后,理論上E2≤E1,對于雙評差值大于E1的部分在正常評卷過程中就以三評卷的形式進行了仲裁,小于E2的部分則是兩個評卷教師給分趨于一致,能夠反映考生該題目的真實分數(shù)。雙評差值在(E2,E1]區(qū)域內(nèi)的集合D,是由于雙評誤差閾限初始設置和其真實值之間的差距造成的,將這部分試題再次評閱,然后與之前兩評比較得出最終成績,可以達到對初始雙評誤差閾限的校正效果。以某次考試一道主觀題為例,E1初始設定為7,E2計算結果為4.67,可以得知D集合中涉及試卷數(shù)為8636份,校正前后最終得分曲線圖1所示,圖中縱軸表示最終評分,波動比較大的為校正后最終評分曲線,可見較原有最終評分離散程度更高。
這種校正方法有一定的優(yōu)勢。首先,不用對現(xiàn)有的評卷系統(tǒng)進行程序上的改動,避免由于程序問題造成的誤差;其次,簡便易行,可操作性強,在整體評卷后稍加操作即可完成;再次,集合D中涉及的試卷數(shù)量有限,不會占用太多的人力就可完成。但也有不足之處,若評卷教師打分過于離散或趨中,則會對雙評差值真實值E2產(chǎn)生波動,所以此方法必須配合現(xiàn)有的質(zhì)量監(jiān)控手段共同實施。
圖1 雙評誤差閾限校正前后對比
通常對于評卷教師評卷質(zhì)量的監(jiān)控,往往將全體評卷指標曲線作為個人評卷的校標。如果評卷教師曲線與全體曲線近似吻合,就會認為該評卷教師評卷質(zhì)量較高。但這種以“全體”指導“個體”的方法容易產(chǎn)生趨中傾向。究其原因,主要是由專家校標的缺失造成的?,F(xiàn)有的評卷模式,專家組的作用多在試卷試評、評分細則制訂、問題卷處理上,往往忽視了專家校標對于評卷整體趨勢的指引和把握。因此,如果增加該學科較權威的專家的評卷規(guī)模,并以此生成專家曲線作為參考,配合全體曲線對評卷教師的評卷質(zhì)量進行監(jiān)控,就能更準確地把握評卷教師的整體評卷質(zhì)量。
目前使用的網(wǎng)上評卷軟件都提供了一定程度的質(zhì)量監(jiān)控功能,在評卷過程中積累了大量的實時數(shù)據(jù)。有效利用這些數(shù)據(jù)可以提高監(jiān)控效率,提升評卷質(zhì)量。研究認為,對于每位評卷教師評卷質(zhì)量的監(jiān)控,有以下幾個維度的考量指標。
(1)標準差
標準差代表了評卷教師給分的離散程度,標準差值越大,說明給分越分散,反之,說明越集中。在實際評卷過程中,評卷教師往往容易產(chǎn)生兩種傾向,即趨中和發(fā)散,這兩種傾向?qū)τ谠u卷的準確和公平都是無益的。目前,可以采用與全體評分標準差進行比較的方法度量個體評卷教師離散程度的大小。
(2)平均分
在實際評卷中,評卷教師容易出現(xiàn)偏松或偏嚴的情況,就可以用個體評卷教師對某題目的平均分與該題目所有評卷教師的平均分進行比較,來度量其對標準寬嚴的掌握程度。
(3)有效度
評卷教師對某份試卷的評分與其他評卷教師對該試卷評分的差值不超出雙評誤差閾限,則這份試卷屬于有效評卷。每題目每位評卷教師的有效評卷數(shù)量與其評卷總數(shù)量的比值為有效評分率。該數(shù)據(jù)值越大,證明有效評卷越多,評卷質(zhì)量越好。
(4)評卷速度
指單位時間內(nèi)評卷教師評卷數(shù)量,其中速度過快和過慢的評卷教師都是需要監(jiān)控的重點。
(5)一致性
是對評卷教師在不同時段打分的比較。主要有三種監(jiān)控方法。一是在不同時段,對某位評卷教師評卷標準差、平均分、有效度和評卷速度的比較。數(shù)據(jù)越接近,說明其一致性越好;二是對評卷教師給分相同的試題進行復判,檢測不同試卷間的評分標準掌握是否一致;三是隨機抽取教師已評試卷,再次發(fā)給本人重新評分,比較兩次評分差值,差值越小或者零差值,說明其一致性好。
在目前使用的網(wǎng)評軟件中,大多內(nèi)置了這幾個方面的質(zhì)量監(jiān)控功能,但相對獨立,不成體系,更不能從這五個維度綜合地評價評卷教師的評卷質(zhì)量。并且,在實際操作過程中,需要評卷管理人員進行人工干預監(jiān)控,這樣既提高了工作難度,又不能達到實時監(jiān)控的目的,多數(shù)的數(shù)據(jù)沒有及時正確地發(fā)揮功效。如果由計算機定期定量地對評卷教師的評卷數(shù)據(jù)進行分析,根據(jù)五個維度對評卷教師綜合進行監(jiān)控,當某位評卷教師一個或多個維度產(chǎn)生問題時,計算機自動提醒組長注意,驗證評卷教師評閱數(shù)據(jù)的合理性,將會大大提高質(zhì)量監(jiān)控的效率。
通過研究不難看出,評卷作為標準化考試的重要環(huán)節(jié),無論是傳統(tǒng)方式評卷還是網(wǎng)上評卷,其主體并沒有發(fā)生變化,評卷教師依然是影響評卷質(zhì)量最重要的因素。因此做好評卷教師的遴選、培訓和評卷過程質(zhì)量監(jiān)控工作,建立一支專業(yè)化、高水平的評卷教師隊伍,并深入研究與之相對應的評卷教師評卷質(zhì)量評價體系、方法和模型,將會為領導決策提供數(shù)據(jù)支持,也將為網(wǎng)上評卷誤差控制研究提供技術基礎,為確保評卷公平準確提供理論保障。
[1]趙世明.主觀題無紙化評分中的誤差控制[J].河南大學學報:社會科學版,2007,47(1):155-158.
[2]陳志國,芮南.高考作文網(wǎng)上閱卷雙評過程中的質(zhì)量監(jiān)控[J].中國語文教學,2009(2):12-17.
[3]趙海燕,芮南.雙評作文題網(wǎng)上閱卷評卷教師評卷水平評價維度的確定[J].中國考試,2009(2):12-17.
[4]王躍武.大學英語四、六級考試作文網(wǎng)上閱卷實驗研究[J]外語界,2004(5):78.
[5]婁慶華.高考作文評分誤差控制[D].浙江師范大學,2007.
G647
項目名稱:國家教育部考試中心教育考試“十一五”規(guī)劃2009年度課題。項目號:2009JKS3064。