鹿軍紅
摘 要 大學(xué)英語四六級考試的作文評卷采用網(wǎng)上閱卷的方式,評分員已經(jīng)成為影響網(wǎng)上閱卷質(zhì)量的重要因素之一。本文介紹了四六級英語作文的閱卷流程,分析了幾種常見類型作文的評閱方法,最后對相關(guān)的統(tǒng)計參數(shù)做了分析,以此供評分員及改卷機構(gòu)參考,從而提高英語作文的閱卷質(zhì)量,提高考試的公正性和準確性。
關(guān)鍵詞 評分員 英語作文 評卷質(zhì)量
中圖分類號:G642.475 文獻標識碼:A DOI:10.16400/j.cnki.kjdkz.2018.09.022
Abstract The essay marking of the CET-4 is based on online scoring. The scorer has become one of the important factors affecting the quality of online scoring. This paper introduces the scoring process of four or six English essays, analyzes the evaluation methods of several common types of essays, and finally analyzes the relevant statistical parameters for reference by scorers and reorganization institutions, thus improving the scribble of English composition quality; improve the fairness and accuracy of the exam.
Keywords scorer; English essays; quality of assessment
目前,在全國大學(xué)英語四六考試中,英語作文的評閱采用網(wǎng)上閱卷的方式,評分員則采用整體式評分法(Global Scoring)對英語作文進行評閱。由于評分員對評分標準把握不一,嚴厲與寬松程度不同,同時受到語言能力、欣賞習(xí)慣、心態(tài)情緒等主觀因素的影響,導(dǎo)致評分結(jié)果產(chǎn)生差異,有時同一篇作文,不同的閱卷員給出的分數(shù)相差很大。一些評分員主觀隨意性太大,一些評分員評卷經(jīng)驗不足,或評卷態(tài)度不認真,都會造成準確性不高,評卷質(zhì)量差。提高閱卷員英語作文評卷質(zhì)量對于保證考試的公正性和準確性,提高考試的信度至關(guān)重要。筆者多次參加大學(xué)英語四六級考試作文的評卷工作,本文通過筆者的體會對這一問題加以研究。
1 閱卷流程
從閱卷流程來看,首先選拔認真負責(zé)的英語教師參加閱卷,然后進行相關(guān)培訓(xùn)??荚嚱M織方提供評分標準及樣卷,樣卷的評分量表分為1~3、4~6、7~9、10~12、13~15 分,共五檔,每檔中有三個分值。
閱卷教師先學(xué)習(xí)評分標準,分析評分樣卷,試評后開始進入正評。評分員根據(jù)評分標準,對照樣卷進行評分,如果認為與某一檔樣卷相似,則定為該分數(shù)檔,若認為稍優(yōu)或略于該分數(shù)則可加一分或減一分。打分采取整體式評分方法(global scoring),亦被稱作“印象評分法”,即評分員根據(jù)閱后的總體印象打分,而不是按語言點的錯誤數(shù)目扣分。
閱卷系統(tǒng)采用計算機輔助閱卷方式,打分數(shù)據(jù)能夠通過計算機進行快速統(tǒng)計分析。主要統(tǒng)計指標有:相關(guān)系數(shù)(R)、均分(Avg)、離散(Std)、主客比(P)、速度(Speed)、綜合(Integration)等。這些數(shù)據(jù)不僅能夠為考試機構(gòu)進行質(zhì)量監(jiān)控提供支撐,也便于評分員進行自我檢測和修正。
2 評閱方法
2.1 分檔
改好作文最關(guān)鍵的是劃分好檔次,要對評分樣卷(Range-finders)認真學(xué)習(xí)領(lǐng)會,了解掌握每個檔次作文的基本特征,例如最高分檔就要求表達思想清楚,文字連貫通順,基本沒有語言錯誤,我們稱此類作文“漂漂亮亮”。次高檔的作文略差,有少量的語言錯誤,我們稱作“明明白白”。中檔作文表達思想不夠清楚,文字勉強連貫,但總體還說得過去,我們稱“馬馬虎虎”。到了5分檔的作文就有些“稀里糊涂”,表達不清,語言錯誤嚴重。最低檔作文幾乎沒有一句完整的句子,語言支離破碎,簡直是“一塌糊涂”。
評分標準的表述是原則性的,評卷員在實際評閱的過程中,所遇到的作文是五花八門,千差萬別,需要在短時間內(nèi)判斷出一篇作文的真實水平,要從各個方面進行甄別、權(quán)衡,這往往需要大量的實踐。一般而言,新閱卷員由于評卷經(jīng)驗不足,往往片面地看待一篇作文,打分不夠準確,造成脫檔或跨檔。
看到一篇作文,我們通常從這樣幾個方面進行考量:(1)思想內(nèi)容:切題還是偏題;(2)流暢程度;(3)句子結(jié)構(gòu);(4)語法正確;(5)詞匯短語。
評卷員應(yīng)該從這些方面進行綜合判斷,給出一個總體印象分。經(jīng)驗豐富的評分員往往使用一項以上的標準作為打分依據(jù),而新評分員往往對其中某一項給予突出的重視,對作文的水平做出片面的判斷,出現(xiàn)打分的偏差。作文多種多樣,以下我們僅就幾種常見類型的作文做一些分析。
2.2 幾種常見類型的作文分析
(1)高分作文。句式表達靈活多樣,讀來自然流暢。能夠使用連接詞以及替代、省略、照應(yīng)等方式增強句子間的銜接和全文的連貫。能正確使用一些高級詞匯。
(2)有些作文很通順,語法錯誤少,但句式簡單,用詞簡單。這類作文應(yīng)屬中檔,說明考生沒有駕馭復(fù)雜句式的能力,對高級詞匯掌握不夠。有的考生試圖使用一些復(fù)雜的句子結(jié)構(gòu),但組織不夠恰當(dāng)而顯得有些混亂。
(3)有些作文語法錯誤多,連貫性差,卻使用了一些高級詞匯。這說明了此類學(xué)生詞匯量較大,閱讀能力可能較好,可給予中檔評分。還有一些學(xué)生試圖使用一些高級詞匯,但一用就錯,要么用法錯誤,要么拼寫錯誤,此類作文不能歸于高檔作文。
(4)有嚴重的語法錯誤或拼寫錯誤的作文。有的老師一看到作文中有嚴重的語法錯誤或拼寫錯誤就難以容忍,給予極低的分數(shù)。這時應(yīng)該看看文中有無完整的句子,是否真得在表達一些思想,分數(shù)能否再高一些。好作文多看錯誤,從高分酌減;差作文多看優(yōu)點,從低分酌加。
(5)套卷。有些學(xué)生死記一些句子或模板進行套用,還有些同學(xué)把考試指令中給出的詞匯反復(fù)套用,有時簡直是生搬硬套。批改這類作文的要點是:特別注意學(xué)生臨場所寫的幾句話,這幾句話往往反映出他的真實水平。
(6)筆跡潦草。一些學(xué)生書寫太過潦草,寫得“龍飛鳳舞”,難以識別。遇到這類試卷,不要隨意給予低分,要有耐心去認真辨識,看出其真實水平,說不定還是一份好卷。相反,書寫得工工整整,也不要被此所迷惑,誤給了高分。
在實際閱卷的過程中,評卷員一定要對一篇作文作多角度的判斷權(quán)衡,掌握各個檔次作文的特征,不斷地總結(jié)經(jīng)驗,練就一雙“火眼金睛”,成為一名優(yōu)秀的閱卷員。
3 相關(guān)參數(shù)分析
計算機輔助閱卷可以即時提供統(tǒng)計數(shù)據(jù),這樣能夠?qū)υu分員的打分數(shù)據(jù)及質(zhì)量進行有效的監(jiān)控,評分員也應(yīng)該根據(jù)這些反饋數(shù)據(jù),及時修正偏差,努力提高自己的各項評分指標。以下對這些統(tǒng)計參數(shù)做一分析:
3.1 相關(guān)系數(shù)(R)
相關(guān)系數(shù)R的取值范圍是-1≤R≤+1,R的絕對值越大,相關(guān)程度越高,這里是指客觀分與作文分的相關(guān)性。由于客觀成績已經(jīng)由機器改出,一般而言,學(xué)生的客觀成績高,作文得分也應(yīng)與之相應(yīng),兩者呈正相關(guān)關(guān)系。因此相關(guān)系數(shù)高的閱卷員評卷的準確性就高。R值是衡量評卷質(zhì)量的首要指標。
提高R值的關(guān)鍵首先在于以認真的態(tài)度準確評好每篇作文。實際上,評分過程是一個根據(jù)評分要求對學(xué)生作文按照優(yōu)劣進行“排隊”的過程,如果好作文給了低分而差作文卻給了高分,排序反了,則系數(shù)會迅速下降。其次,要敢于給出高分作文。把握高分作文的特征,敏銳地發(fā)現(xiàn)高分作文,如果學(xué)生的客觀成績也很高,這時的系數(shù)就會很快上升。另外,打分標準要統(tǒng)一,如果早上一個標準,下午一個標準,或者今天一個標準,明天又變了,這樣就會產(chǎn)生排序錯亂,總體R值肯定不高。
3.2 主客比(P)
對一份試卷而言,由于客觀分已由機器評出,客觀分除以作文分就是主客比。個人的主客比的平均數(shù)應(yīng)與小組或閱卷點保持接近。對于一個小組而言,要想提高小組的R值,使每位成員P值保持同步是關(guān)鍵中的關(guān)鍵,因為大家擰成了一股繩,整個小組齊步走,步調(diào)一致,相關(guān)系數(shù)自然高漲。對整個閱卷點而言也同樣如此。
3.3 離散度(Std)
離散度是評價評卷質(zhì)量的第二個重要指標,離散值趨中為最好。離散過低,表明給分過于趨中,沒有拉開檔次,該給高分的沒有給上去,該給1分的卻給了2或3分。在各類考試中,作文評分容易出現(xiàn)趨中傾向,有時因為時間緊、任務(wù)重,為趕速度,評卷員會給一個平均分附近的分數(shù),所謂打‘保險分,這樣就會造成離散度過低。
如果離散值低,打開離散的關(guān)鍵是:敢于給出高分作文,一定要敏銳地發(fā)現(xiàn)高分作文,試想一個作文本來能得13分,你卻給了10分,這樣就把好學(xué)生給虧了。
如果離散值過大則正好相反,是因為本來不夠好的作文卻給了高分,高分區(qū)和低分區(qū)太多,降低的方法也正好相反。
3.4 均分(Avg)
個人的均分應(yīng)該和小組或閱卷點的保持接近。過高表明改卷過于寬松;過低則表明過于嚴厲。小組成員之間均分保持接近,同主客比一樣,對于小組整體的相關(guān)系數(shù)的提高非常重要,因為大家步調(diào)一致,整體作文的排序不會錯亂。
3.5 速度(Speed)
一般閱卷點對閱卷老師有時間上的要求,如每份試卷的閱卷時間平均不低于60秒。有的老師評卷過慢,給分猶豫不決,搖擺不定,要知道評得慢不一定評得準,掌握每個檔次作文的基本特征才能評得既快又準。當(dāng)然一掃而過的不負責(zé)任的過快閱卷,也是不可取的。
3.6 綜合(Integration)
綜合指數(shù)是以上各個指標的綜合,其中相關(guān)系數(shù)占比最大(50%),其次為離散度占30%,其余占20%。綜合指數(shù)反映出一個閱卷員的整體評卷質(zhì)量,要提高綜合指數(shù)就要提高各個分項的質(zhì)量。
3.7 分布圖(Distribution Graph)
改卷軟件中還會提供個人的評分分布圖,分布圖反映了評卷分數(shù)的分布構(gòu)成,分數(shù)構(gòu)成應(yīng)服從正態(tài)分布,圖形最好是一條呈鐘形的平滑曲線。有的評卷員的分布圖呈鋸齒狀,如10分多于9分。有的呈火箭形,如6分給得太多,突出向上,這些都是不好的打分習(xí)慣造成的。分布圖反映出一位評分員的打分習(xí)慣,組長應(yīng)幫助組員及時分析,使組員了解并糾正自己不好的打分習(xí)慣。
4 小結(jié)
閱卷員應(yīng)本著為每位考生負責(zé)的態(tài)度認真閱好每篇作文,努力做到客觀公正,同時也要不斷總結(jié)改卷經(jīng)驗,提高閱卷的準確性和可信度。組長或閱卷點也應(yīng)根據(jù)統(tǒng)計數(shù)據(jù)對閱卷員進行監(jiān)督指導(dǎo),及時糾正閱卷中的偏差。閱卷點也應(yīng)該加強評分員培訓(xùn)管理工作,培養(yǎng)出一批優(yōu)秀的閱卷員,建立一支穩(wěn)定,經(jīng)驗豐富,專業(yè)能力強的評分員隊伍,這樣,才能充分保證評卷質(zhì)量,使考生得到準確公正的分數(shù)。
參考文獻
[1] 李清華,孔文.外語寫作測試評分研究綜述[J].外語測試與教學(xué),2011.4.
[2] 陳建林.大規(guī)模英語考試作文評分標準效度驗證[J].中國考試,2016.1.
[3] 陸遠.寫作測試公正性研究——作文評分員偏頗研究綜述[J].外語測試與教學(xué),2011.4.