龔大胃 麥陳淑賢 金 檀 劉 力
(香港教育學(xué)院,香港,999077;香港中文大學(xué),香港,999077;樹童國際語言教育研究院,廣州,511400;香港中文大學(xué),香港,999077)
香港考試及評核局(Hong Kong Examinations and Assessment Authority,簡稱為HKEAA)于2012年在香港公開考試中開始大規(guī)模實施網(wǎng)上評卷(Onscreen Marking,簡稱為OSM),以此取代傳統(tǒng)的紙質(zhì)評卷方式(Paper-based Marking,簡稱為PBM)。網(wǎng)上評卷是指運用計算機網(wǎng)絡(luò)技術(shù)和電子掃描技術(shù)將紙質(zhì)答卷掃描生成圖像,客觀題由計算機對考生填涂的信息點比對標(biāo)準(zhǔn)答案自動給分,主觀題通過網(wǎng)絡(luò)隨機分派給各終端的評卷教師進(jìn)行評閱(趙建寧、厲浩2012)。
本文系統(tǒng)綜述香港考試及評核局針對網(wǎng)上閱卷實施情況所開展的一系列驗證性研究,主要分為以下三個部分:首先,簡要回顧網(wǎng)上評卷在國際上的實施背景及其研究現(xiàn)狀;其次,基于國際背景,從香港視角縱覽網(wǎng)上評卷的實施過程,并系統(tǒng)梳理針對香港中學(xué)會考(Hong Kong Certificate of Education Examination,簡稱為HKCEE)英文科目網(wǎng)上評卷所開展的實證研究。最后,總結(jié)香港網(wǎng)上評卷的實踐經(jīng)驗,并展望日后網(wǎng)上評卷的研究方向。
雖然研究者和測試開發(fā)者對網(wǎng)上評卷的實施所持意見仍褒貶不一,但大規(guī)模公開考試中使用網(wǎng)上評卷的優(yōu)點已顯而易見。因此,國際范圍內(nèi)諸多研究者都致力于考查網(wǎng)上評卷的實施情況。
英國劍橋大學(xué)考試委員會(Cambridge Assessment)投資數(shù)百萬英鎊同英國RM 國際教育公司簽訂合同開發(fā)網(wǎng)上評卷系統(tǒng)。在2011至2014年期間,RM公司將向劍橋考試委員會旗下的三個公開考試部門提供網(wǎng)上評卷服務(wù):牛津、劍橋和英國皇家藝術(shù)學(xué)會考試局(Oxford Cambridge and RSA Examinations,簡稱為OCR)、劍橋大學(xué)國際考試部(University of Cambridge International Examinations)以及劍橋大學(xué)英語考試部(Cambridge ESOL)。與此同時,北愛爾蘭教學(xué)大綱、考試與評估委員會(The Council for Curriculum,Examination and Assessment)也表達(dá)了在其公開考試中大規(guī)模實施網(wǎng)上評卷的意向。
2009年,澳大利亞新南威爾士州政府教育委員會(The Government Board of Studies,NSW Australia)在當(dāng)?shù)丶s百分之十的公開考試中引入網(wǎng)上評卷系統(tǒng)。2010年,新南威爾士州近五分之一的公開考試已實施了網(wǎng)上評卷。
我國考生數(shù)目眾多,需要大量評分員來完成試卷的評閱工作,因而網(wǎng)上評卷在各類重要考試中得以廣泛使用(馬世曄2004;羅友花、劉鐵明2009)。自2005年起,我國大陸高等教育入學(xué)考試(簡稱為“高考”)的所有試題形式(客觀題和主觀題)均采用網(wǎng)上評卷技術(shù)。其中,廣西省于1999年率先對高考英語科目實施網(wǎng)上評卷。自此,網(wǎng)上評卷在中國大陸以前所未有的規(guī)模展開,多數(shù)省份(自治區(qū)、直轄市)陸續(xù)開始使用網(wǎng)上評卷對高考不同部分試題進(jìn)行評分。截至目前,全國已有29個省份(自治區(qū)、直轄市)采用網(wǎng)上評卷,除少數(shù)小語種科目外,網(wǎng)上評卷已基本實現(xiàn)全科目覆蓋(參見http:∥news.xinhuanet.com/society/2011-06/16/c_121546140.htm)。
由于其龐大的考生數(shù)目,中國大陸經(jīng)網(wǎng)上閱卷評閱的試卷具體數(shù)目難以估算。網(wǎng)上評卷工作通常在多個閱卷中心進(jìn)行,各個省份(自治區(qū)、直轄市)自行負(fù)責(zé)考生試卷的評閱工作,例如,上海市的閱卷中心僅負(fù)責(zé)本地考生的高考評卷工作。據(jù)估計,2008年約有3000名評卷員參與江蘇省高考閱卷工作,2010年約有2580名評卷員參與浙江省高考閱卷工作(參見http:∥www.pxdgc.com/new1353.html)。
網(wǎng)上評卷的應(yīng)用雖具有一定的實踐基礎(chǔ),但許多研究者仍對其實施持有不同的看法和建議。Adam(2005)回顧了英國最大考試機構(gòu)—英國資格評估與認(rèn)證聯(lián)合會(The Assessment and Qualifications Alliance,簡稱為AQA)使用網(wǎng)上評卷的經(jīng)驗,并表達(dá)了對網(wǎng)上評卷的信度和效度的擔(dān)憂。他呼吁進(jìn)行更多的效度研究和有用性研究,采用“謹(jǐn)慎的方法”確保重要相關(guān)人員,尤其是政策制定部門和教師,能夠接受網(wǎng)上評卷所帶來的相應(yīng)變化。
在亞洲,香港研究者也針對這些研究熱點開展了一系列實證研究,主要關(guān)注紙質(zhì)評卷和網(wǎng)上評卷評分信度的比較(Coniam 2009ab,2010abc;Eowles 2008;Johnsonet al.2010)。Zhang等人(2003)的研究結(jié)果表明,使用上述兩種評分模式所得的考生平均分呈現(xiàn)顯著性差異,并且分?jǐn)?shù)差異基本一致。進(jìn)一步研究得出這兩種評分模式下的評分員一致性無顯著差異。因此,研究者認(rèn)為網(wǎng)上評卷同紙質(zhì)評卷的評分結(jié)果是具有可比性的。
其他國家和地區(qū)也針對評卷模式進(jìn)行了不同規(guī)模的評分研究,香港則是首個在其全部公開考試系統(tǒng)實施網(wǎng)上評卷的地區(qū)。自2012年,香港所有科目均實施網(wǎng)上評卷。正是由于評分模式的巨大轉(zhuǎn)變,香港研究者開展了一系列效度研究,這對其他國家和地區(qū)開展網(wǎng)上評卷起到一定的借鑒和啟示作用。
香港網(wǎng)上評卷的實施主要分為以下兩個步驟:(1)評卷前:考生完成考試后,所有試卷將集中送至評卷中心進(jìn)行掃描并存儲為圖像,然后通過系統(tǒng)分發(fā)給評分員。(2)評卷中:評卷中心為評卷員提供專用工作站,以確保評分員使用具有安全保障的局域網(wǎng)開展評卷工作。在進(jìn)行網(wǎng)上閱卷時,評分員可以對單個試題評分,也可以對試卷進(jìn)行批注,以確保二次評分時評分員不會受到第一位評分員的影響,而這種情況在紙質(zhì)評卷時卻無法避兔。
與傳統(tǒng)紙質(zhì)評卷的方式相比,基于計算機技術(shù)的網(wǎng)上評卷的優(yōu)點主要有以下五個方面:第一、安全性。采用網(wǎng)上評卷,評分員無需自己收集試卷,這也避兔了考卷丟失情況。第二、質(zhì)量監(jiān)控。網(wǎng)上評卷系統(tǒng)實時監(jiān)控評分員的評卷質(zhì)量,并對評分員不可靠的評分行為做出預(yù)警和實時補救措施。第三、數(shù)據(jù)性。網(wǎng)上評卷系統(tǒng)會生成和提取考題層面的統(tǒng)計數(shù)據(jù),以用于研究和分析。因此,教育部門可以獲得關(guān)于學(xué)生表現(xiàn)的數(shù)據(jù)回饋。第四、目標(biāo)性。由于網(wǎng)上評卷能夠?qū)崿F(xiàn)單個試題層面的評分,因此題目分配具有一定靈活性。不同的試題可以根據(jù)需要分配給特定的評分員評閱,這也增加了評分的準(zhǔn)確性和效度。第五、準(zhǔn)確性和有效性。網(wǎng)上評卷系統(tǒng)會自動檢查評分準(zhǔn)確性,評分員不用自己計算分?jǐn)?shù),這也消除了人工算分可能產(chǎn)生的誤差。
當(dāng)然,網(wǎng)上評卷也存有潛在的弊端。首先,評分員需要到特定的評卷中心進(jìn)行閱卷,并根據(jù)評卷中心的固定開放時間調(diào)整評卷時間。其次,由于評卷工作都在計算機上完成,評分員需要長時間面對計算機工作。另外,評分員需要使用評分系統(tǒng)錄入數(shù)據(jù),并使用評卷系統(tǒng)中固定建立的批注符號(包括對號、半對號等),潦草的批注是無法錄入系統(tǒng)的。
基于以上的研究和實踐背景,本文將回顧一系列香港研究者針對英文科目網(wǎng)上評卷的效度驗證研究,研究方法既包含量化分析也有質(zhì)化探討,主要圍繞以下四個研究假設(shè):
(1)采用紙質(zhì)評卷和網(wǎng)上評卷的所得分?jǐn)?shù)具有可比性;
(2)采用網(wǎng)上評卷不會影響考生分?jǐn)?shù),即:網(wǎng)上評卷和紙質(zhì)評卷獲得的考生分?jǐn)?shù)應(yīng)具有可比性;
(3)評分員掌握了足夠的計算機技術(shù),能夠有效使用網(wǎng)上評卷系統(tǒng);
(4)評分員對于使用網(wǎng)上評卷還是紙質(zhì)評卷模式?jīng)]有偏倚。
考生分?jǐn)?shù)在統(tǒng)計意義上的可比性一直是考察評分模式效度及測試公平性的核心議題,因此下文將分別針對以上提及的四個研究假設(shè)進(jìn)行討論,主要關(guān)注前兩個研究假設(shè)。
本研究主要數(shù)據(jù)源于2007年香港中學(xué)會考英文科目寫作分卷,當(dāng)年共有99,771名考生參加考試。寫作分卷測試要求考生完成兩個寫作任務(wù):任務(wù)一要求考生根據(jù)給定材料寫一篇約150字的描述性文章;任務(wù)二是開放性試題,要求考生論述聰明和美貌的重要性或闡釋喜歡在時尚界工作的理由??忌稍趦蓚€話題中任選其一撰寫一篇250字的論述文(HKEAA 2007:18)。寫作測試采用分析性評分量表,涵蓋四個子維度和相應(yīng)的等級描述語(HKEAA 2007:104)。每個維度分為六個等級,分別對應(yīng)1-6分(6分為最高分),總分為24分。所有的寫作試卷均采用雙評形式,若兩個評分員所評定分?jǐn)?shù)的差異大于等于5分,則由第三名評分員進(jìn)行評分。
研究者主要通過以下三種方式來確保寫作試卷的評分效度:(1)評分員一致性;(2)寫作分卷同其他分卷分?jǐn)?shù)的一致性;(3)寫作分卷同整個英文測試分?jǐn)?shù)的一致性(King 1994:6)。2006年香港中學(xué)會考采用傳統(tǒng)紙質(zhì)評卷方式,其評分員一致性為0.79(共188名評分員,每人約評閱800份試卷),寫作分卷得分同整個英文測試分?jǐn)?shù)的一致性為0.89。2007年采用網(wǎng)上評卷方式后,試卷隨機分發(fā)給評分員進(jìn)行評閱,如果兩個評分員出現(xiàn)評分差異,系統(tǒng)會自動將試卷分發(fā)給第三個評分員進(jìn)行評分,因此網(wǎng)上評卷系統(tǒng)不能夠直接對評分員一致性進(jìn)行計算。表1呈現(xiàn)了2007年香港中學(xué)會考英文寫作分卷同其他分卷的分?jǐn)?shù)一致性。
表1 2007年中學(xué)會考英文科目寫作分卷同其他分卷成績之間的相關(guān)系數(shù)
一般認(rèn)為相關(guān)系數(shù)大于等于0.80時,兩變量之間呈高度相關(guān)(Hatch&Lazaraton 1991:441)。如表1所示,總體來說,寫作分卷和其他分卷的分?jǐn)?shù)之間具有較高相關(guān)關(guān)系。其中,寫作分卷和口語分卷之間的相關(guān)系數(shù)相對較低(r=0.72),但和校本評核的分?jǐn)?shù)相關(guān)系數(shù)較高(r=0.83)。并且寫作分卷的分?jǐn)?shù)同2007年整個英文科目測試分?jǐn)?shù)相關(guān)系數(shù)高達(dá)0.90,同2006年的數(shù)據(jù)(r=0.89)具有可比性。顯而易見,采用網(wǎng)上評卷模式對整體測試信度并未產(chǎn)生影響。
2007年共有196名評分員參加香港中學(xué)會考英文科目寫作分卷的閱卷工作,其中117名評分員(占評分員總數(shù)59.7%)具有豐富評卷經(jīng)驗(簡稱為“老手評分員”),79名評分員(占評分員總數(shù)40.3%)是首次參與評卷工作(簡稱為“新手評分員”)。研究者從196名評分員中選擇46名作為研究對象,主要基于兩方面標(biāo)準(zhǔn):第一、所選評分員在2007年香港中學(xué)會考寫作試卷的評分工作中具有較好評分表現(xiàn),即:評分員一致性系數(shù)較高、寫作試卷分?jǐn)?shù)和客觀評定的閱讀試卷分?jǐn)?shù)之間的一致性較高等。第二、所選評分員在性別、資歷、教學(xué)和評分經(jīng)歷方面具有一定代表性??梢钥吹?,本研究的研究對象既包括老手評分員也有新手評分員,目的是為了比較兩類評分員的評分表現(xiàn):老手評分員具有豐富的紙質(zhì)評卷經(jīng)驗,卻沒有網(wǎng)上評卷經(jīng)驗;而網(wǎng)上評卷則是新手評分員唯一的評閱經(jīng)驗。最終,有30名評分員參與本研究,包括25名老手評分員(83.3%)和5名新手評分員(16.7%),有關(guān)評分員的具體背景,可參見Coniam(2009a)的研究。研究者要求每個評分員評定2007年香港中學(xué)會考的100份試卷①,并告知他們可能會遇到先前評閱過的試卷,但并未告訴這些評分員他們將再次評閱先前已評閱過的100份答卷。類似數(shù)據(jù)收集方法的可行性已在先前的實證研究中得到驗證:兩次評卷時間相隔九個月,當(dāng)評分員再次看到答卷時,會當(dāng)作從未評閱過這些答卷(Coniam 1991)。
研究中使用的試卷共3000份,其中2145份是不同考生的答卷。研究者也采取了一定措施確保所選答卷的分?jǐn)?shù)能夠代表各個不同等級的考生表現(xiàn)(1至6級)。本研究的數(shù)據(jù)分析方法采用經(jīng)典測量統(tǒng)計,主要分析評分員一致性、不同試卷間分?jǐn)?shù)的一致性等(King 1994:6)。此外,研究者還使用T檢驗來比較新手、老手評分員的評卷表現(xiàn)。數(shù)據(jù)分析主要分為以下兩個步驟:第一,分析評分員一致性以及英文科目不同分卷分?jǐn)?shù)之間的一致性;第二,分析兩種評分模式下分?jǐn)?shù)具有統(tǒng)計性差異的試卷。
2.3.1 評分一致性
如上文所提及,考生可在所給的兩個寫作題目內(nèi)任選其一。先前研究結(jié)果顯示,選擇題目二的考生整體英語能力較高(Coniam 2009a)。T檢驗的結(jié)果表明,兩種評分模式下兩個題目所得分?jǐn)?shù)之間沒有顯著性差異,因此可以推斷出,寫作題目并不是導(dǎo)致評分誤差的因素。然而,選擇兩個題目的考生的平均分呈現(xiàn)顯著性差異,這可能是由考生語言能力的差異所致。在本研究中,評分員信度是按照整個英文測試信度來計算的,并且控制了寫作任務(wù)因素。如表2所示,2007年評分員一致性系數(shù)為0.88,遠(yuǎn)高于2006年的評分員一致性系數(shù)(r=0.79)。
香港考試與評核局使用客觀評定的閱讀試卷分?jǐn)?shù)作為評分信度標(biāo)準(zhǔn)(King 1994:6),因此,本研究也分析了寫作分卷分?jǐn)?shù)同閱讀分卷分?jǐn)?shù)之間的一致性系數(shù),以及與英文科目其他分卷分?jǐn)?shù)(除寫作試卷)的一致性系數(shù)。結(jié)果表明,采用兩種評分模式所得分?jǐn)?shù)之間的相關(guān)系數(shù)均大于0.80,這說明評分員使用兩種評分模式的評分表現(xiàn)都十分可靠和穩(wěn)定。
表2 相關(guān)分析結(jié)果
2.3.2 評分員評閱經(jīng)歷
本研究采用T檢驗來比較不同評閱經(jīng)歷評分員的評分表現(xiàn)。如表3所示,新手評分員和老手評分員評定的分?jǐn)?shù)之間沒有呈現(xiàn)顯著性差異。
表3 評分員評閱經(jīng)歷描述性統(tǒng)計
2.3.3 評分模式差異分析
通常情況下,評分員使用六分制評分標(biāo)準(zhǔn)進(jìn)行評分,若兩人所評分?jǐn)?shù)差異大于等于一分,將會進(jìn)行二次評分(例如,使用第三個評分員)(Attali&Burstein 2005:13)。2007年香港中學(xué)會考英文科目寫作分卷所設(shè)定的二次評分基準(zhǔn)是:兩個評分員的評分差異大于等于5分(總分為24分)。根據(jù)該基準(zhǔn),同年寫作試卷的分?jǐn)?shù)差異率約為10%(香港考試局,網(wǎng)上評卷資料個人交流,2007年7月)。表4呈現(xiàn)了本研究使用兩種評分模式所得分?jǐn)?shù)的差異率,其中正數(shù)表示紙質(zhì)評卷的分?jǐn)?shù)高于網(wǎng)上評卷分?jǐn)?shù),負(fù)數(shù)表示紙質(zhì)評卷分?jǐn)?shù)低于網(wǎng)上評卷分?jǐn)?shù)。
表4 網(wǎng)上評卷和紙質(zhì)評卷的分?jǐn)?shù)差異
同2007年寫作分卷的分?jǐn)?shù)差異率比,本研究使用兩種評卷方式所得的整體分?jǐn)?shù)差異率略低(8.1%)。網(wǎng)上評卷的分?jǐn)?shù)差異率(4.6%)略高于使用紙質(zhì)評卷的分?jǐn)?shù)差異率(3.5%),這也驗證了T 檢驗的結(jié)果,即:兩個寫作題目的試卷分?jǐn)?shù)之間出現(xiàn)正負(fù)5分差異的概率也相類似。雖然采用兩種評卷模式的評分員表現(xiàn)并沒有呈現(xiàn)有統(tǒng)計意義的差異,但以上的數(shù)據(jù)表明評分員在網(wǎng)上評卷時可能更為寬松。
2.3.4 分?jǐn)?shù)差異試卷分析
本研究也分析了網(wǎng)上評卷出現(xiàn)分?jǐn)?shù)差異的試卷,其研究假設(shè)為:出現(xiàn)差異的寫作試卷具有明顯的特征,這些特征能夠區(qū)別相同分?jǐn)?shù)等級的其他試卷,并且評分員也能夠發(fā)現(xiàn)這些特征,即:具有分?jǐn)?shù)差異的寫作試卷有更大的非擬合值(數(shù)據(jù)分析使用多層面Rasch模型,簡稱為MERA②)。
數(shù)據(jù)收集:本研究的測試工具包括兩組寫作試卷,每組各30份。第一組為分?jǐn)?shù)差異大于等于5的試卷,第二組為評分員評定分?jǐn)?shù)完全相同的試卷。兩組試卷的分?jǐn)?shù)等級范圍從2級(5-8分)到5級(17-20分)(見表5)。
表5 兩組試卷的分?jǐn)?shù)差異
共12名評分員參與該項子研究,評分員在培訓(xùn)后分為兩組:第一組(評分員1-6)和第二組(評分員7-12)。本研究采用交叉評分設(shè)計,即:第一組評分員在網(wǎng)上評閱編號為1的試卷集(101-115號),第二組評分員采用紙質(zhì)評卷方式來評閱編號為2的試卷集(201-215號)。隨后,兩組評分員互換試卷進(jìn)行評閱。在評分員進(jìn)行閱卷時,研究者會詢問他們是否留意到哪些試卷比較容易評閱或是不容易評閱,并讓他們在這些試卷上進(jìn)行簡要批注。評卷結(jié)束后,研究者結(jié)合評分員所做的批注,就其評分過程以及評閱過程中遇到的問題進(jìn)行半結(jié)構(gòu)式訪談。
數(shù)據(jù)分析和結(jié)果:本研究使用基于多層面Rasch模型開發(fā)的統(tǒng)計工具EACETs(Linacre 2004)分析評卷過程中不同因素的擬合統(tǒng)計量(fit statistics),結(jié)果表明模型擬合度較高。研究者預(yù)測第一組考生試卷(101-115)中會有較多不符合模型假設(shè)的情況。然而,實際分析結(jié)果并非如此:在三個非擬合模型假設(shè)的考生中,最不符合模型假設(shè)的試卷出現(xiàn)在第二組試卷中。研究者進(jìn)一步分析EACETs的“非預(yù)期反應(yīng)”也未能預(yù)測該結(jié)果。此外,評卷模式和寫作題目因素分析后的輸出數(shù)據(jù)呈現(xiàn)出相似的數(shù)據(jù)分布,符合預(yù)期的分析結(jié)果,即:“非預(yù)期反應(yīng)”的評分員的非擬合統(tǒng)計量(infit statistics)最差。綜上所述,評分模式和寫作題目因素對評卷結(jié)果沒有產(chǎn)生影響。
2.3.5 容易評分和不易評分試卷
基于訪談和評分員批注,研究者分析了評分員認(rèn)為容易或不易評分的試卷,并總結(jié)出四類試卷類型來闡釋造成網(wǎng)上評卷差異的因素,即:“與構(gòu)念無關(guān)的變量”(construct irrelevant variance)。表6通過節(jié)選部分評分員訪談和批注,對這四類試卷進(jìn)行解讀。
表6 四類影響評閱的因素
2.3.6 評分員的計算機能力和對網(wǎng)上評卷所持態(tài)度
在評分結(jié)束后,研究者對評分員進(jìn)行問卷調(diào)查,主要關(guān)注評分員對于網(wǎng)上評卷和紙質(zhì)評卷所持的態(tài)度。問卷主要分為三部分:第一部分是評分員個人信息和背景;第二部分有關(guān)評分員的計算機使用能力,例如,使用鼠標(biāo)、放大/縮小屏幕圖像、調(diào)整桌面高度和屏幕分辨率等。第三部分主要關(guān)注評分過程,例如,兩種評分模式的準(zhǔn)確性、視力疲勞程度以及短暫休息的頻率等。該部分問卷還詢問了評分員對于使用評分模式的和選擇評分地點的傾向(在家或評卷中心)。
問卷采用李克特量表,6分表示“非常同意”,1分表示“非常不同意”。評分員也可以寫下有關(guān)網(wǎng)上評卷過程的任何評論。問卷中第二部分共13個問題,信度為0.85。分析結(jié)果表明,評分員認(rèn)為自己具有較強的計算機操作能力。其中,26名評分員(共30名,占86.7%)認(rèn)為自己整體計算機能力較好,26名評分員(86.7%)認(rèn)為自己使用鼠標(biāo)進(jìn)行翻頁能力較強,27名評分員(90.0%)認(rèn)為自己進(jìn)行放大/縮小屏幕圖像能力較強。分別有29名評分員(96.7%)以及25名評分員(83.3%)認(rèn)為自身使用鼠標(biāo)或鍵盤鍵入符號能力較強。
由于網(wǎng)上評卷要求評分員面對屏幕工作較長時間,問卷也調(diào)查了評分員對于人體工學(xué)因素(例如:屏幕高度和分辨率等)的態(tài)度。有25名評分員(83.3%)認(rèn)為屏幕高度適中,27名評分員(90.0%)認(rèn)為屏幕分辨率較好。仍有21名評分員(70.0%)覺得對著屏幕閱讀不太舒適。
針對評卷地點的分析得出,新手評分員(M=3.00)認(rèn)為專門去評卷中心閱卷并不是問題,而老手評分員對此并不持特別樂觀的態(tài)度(M=2.46)。該結(jié)論呼應(yīng)了評分員對于評卷地點傾向的分析結(jié)果:比起老手評分員(M=2.28,p<.05),新手評分員更傾向在評卷中心進(jìn)行閱卷(M=4.40)。相比紙質(zhì)評卷,新手評分員對于網(wǎng)上評卷持有積極態(tài)度(M=3.80),而老手評分員卻并不那么認(rèn)同(M=2.26)。
在使用計算機方面,新手評分員比老手評分員態(tài)度更加積極,他們認(rèn)為網(wǎng)上評卷不會造成太嚴(yán)重的視疲勞(M=3.40),而老手評分員卻覺得眼睛十分疲勞(M=3.96)。在問及是否紙質(zhì)評卷會帶來視疲勞時,新手(M=4.00)和老手評分員(M=3.96)都認(rèn)為網(wǎng)上評卷比紙質(zhì)評卷對視力的要求更高。此外,老手評分員認(rèn)為網(wǎng)上評卷更需要間歇休息時間(M=3.60)而新手評分員并沒有如此強烈的認(rèn)同(M=2.92)。有關(guān)是否紙質(zhì)評卷也需要間隔休息,所有評分員的回饋同網(wǎng)上評卷的分析結(jié)果類似(M=4.00)。表7歸納了評分員的總體評價。
表7 評分員對網(wǎng)上評卷所持態(tài)度
如表7所示,新手評分員均積極評價評卷中心的環(huán)境,他們認(rèn)為“控制”試卷有助于對評分進(jìn)行標(biāo)準(zhǔn)化。然而,老手評分員普遍對于網(wǎng)上評卷過程持有負(fù)面評價(16個負(fù)面評價,4個中肯評價),主要包括四個方面:不習(xí)慣往返評卷中心,更習(xí)慣在家閱卷(13人);降低評卷的靈活性(5人);紙質(zhì)評卷更容易(3人);評卷系統(tǒng)限制了評分員在試卷上批注(2人)。另一方面,在評卷時評分員并沒有被要求必須對試卷進(jìn)行批注,然而,他們卻清晰地表明想要進(jìn)行批注,主要基于以下兩點:第一、外審專家檢查評分時可作為參考;第二、可以標(biāo)注需要同外審專家進(jìn)行討論的問題。
僅有3名老手評分員對網(wǎng)上評卷給予了正面評價。與此同時,我們也應(yīng)該注意到,老手評分員也意識到了網(wǎng)上評卷的益處,而不是僅僅認(rèn)為新的評卷系統(tǒng)只能帶來一系列的問題和缺點(Ealvey&Coniam 2010):
(1)“網(wǎng)上評卷有很多優(yōu)點,例如,評分員不用一直等到具體數(shù)據(jù)出來就可以直接開始評閱第二批試卷。”(評分員76)
(2)“我認(rèn)為網(wǎng)上評卷是很好的,因為評分員在某種控制之下,如果他們不認(rèn)真閱卷,他們將會繼續(xù)接受培訓(xùn)。我認(rèn)識這對于考生來說是十分公平的方式?!保ㄔu分員110)
(3)“我十分喜歡網(wǎng)上評卷,因為系統(tǒng)會定期對試卷進(jìn)行監(jiān)控以檢查你的評分是否是連續(xù)的。這點在紙質(zhì)評卷是不能實現(xiàn)的?!保ㄔu分員140)
本文回顧和梳理了針對香港中學(xué)會考英文科目網(wǎng)上評卷實施情況的實證研究,主要關(guān)注兩方面:(1)網(wǎng)上評卷和紙質(zhì)評卷的量化比較;(2)評分員對兩種評卷模式所持態(tài)度的質(zhì)化分析。前者主要考查評卷模式是否會影響考生分?jǐn)?shù),以及兩種評卷模式的評分員一致性是否具有可比性。研究結(jié)果表明,無論采取何種評卷模式,考生所得分?jǐn)?shù)都是可靠的。后者主要關(guān)注評分員是否具有一定計算機能力來運用新的評卷模式進(jìn)行閱卷,以及評分員對網(wǎng)上評卷的態(tài)度,以驗證評分員對評卷模式?jīng)]有偏倚。
量化分析結(jié)果表明:(1)同一個評分員使用兩種評卷模式所得試卷的分?jǐn)?shù)與不同評分員評閱相同試卷所得分?jǐn)?shù)具有可比性;(2)評分員一致性系數(shù)表明,兩個評分員使用兩種評分模式閱卷的分?jǐn)?shù)也具有可比性;(3)同紙質(zhì)評卷相比,網(wǎng)上評卷的寫作成績同閱讀成績以及同整個英語科目的分?jǐn)?shù)之間的一致性系數(shù)也具可比性。因此可以得出,兩種評卷模式的評卷環(huán)境相似,使用任何一種評分模式對考生分?jǐn)?shù)不會產(chǎn)生影響。差異分?jǐn)?shù)的分析結(jié)果也驗證了該結(jié)論。
在計算機能力方面,評分員普遍認(rèn)為自己具有較好的計算機能力。無論從技術(shù)還是從效率方面看,所有評分員都認(rèn)為使用計算機評卷不存在任何困難。因此可以認(rèn)為,在技術(shù)操作層面,網(wǎng)上評卷方式對評分員不具有影響。
從對網(wǎng)上評卷的態(tài)度來看,評分員總體持積極態(tài)度,新手評分員比老手評分員的評價更為積極;有部分評分員認(rèn)為應(yīng)當(dāng)在特定階段對網(wǎng)上評卷系統(tǒng)重新進(jìn)行評估。目前,網(wǎng)上評卷系統(tǒng)的開發(fā)更多的是從技術(shù)人員而不是從評分員的角度出發(fā)的。因此,網(wǎng)上評卷系統(tǒng)的有用性以及用戶友善性有待日后進(jìn)一步考察。
本文沒有涉及其他學(xué)科的網(wǎng)上評卷實施情況,但另有一系列的研究主要針對香港通識教育學(xué)科的網(wǎng)上評卷實施情況(Coniam&Yeung 2010;Coniam 2010b)。其量化分析結(jié)果與本研究類似。由此可以看到,同紙質(zhì)評卷相比,網(wǎng)上評卷在信度和測試公平性方面更勝一籌。在通識教育學(xué)科的評卷研究中,評分員對于網(wǎng)上評卷的態(tài)度比英文學(xué)科更為積極,說明評分員對網(wǎng)上評卷系統(tǒng)具有更高的接受度。
2012年香港公開考試的所有學(xué)科都已大規(guī)模采用網(wǎng)上評卷,因此,確保評卷信度具有重要的實踐意義。本文所回顧的一系列實證研究也恰好驗證了網(wǎng)上評卷的信度。在國際范圍內(nèi),網(wǎng)上評卷系統(tǒng)還處于初期實施階段,并未完全成為公開考試的評分規(guī)范,亟待日后研究進(jìn)一步考查。香港首次中學(xué)文憑考試(Hong Kong Diploma of Secondary Education,簡稱為HKDSE)于2012年舉行,所有18個科目均采用網(wǎng)上評卷。研究者將在評分前后階段對所有參與閱卷的教師評分員(N=4,000)進(jìn)行問卷調(diào)查,所使用的問卷也根據(jù)科目和題型等進(jìn)行了相應(yīng)改編。該項研究對于網(wǎng)上評卷的評估涵蓋了所有可能的測試題型,綜合考查了評分員對網(wǎng)上評卷的態(tài)度。
附注
①本研究的理想樣本是:新手、老手評分員的分布能夠同香港中學(xué)會考的評分員分布相似。但是這一點未能在研究中得以實現(xiàn),主要有兩方面原因:第一、老手評分員有相對較好的評分?jǐn)?shù)據(jù)表現(xiàn),因此更“有資格”參加本研究;第二、相比老手評分員,新手評分員的參與積極性稍低。
②近十年來,多面Rasch分析作為主要統(tǒng)計分析方法之一,在表現(xiàn)型語言評估中得以廣泛使用。該方法能夠?qū)η榫骋蛩剡M(jìn)行建模,包括評分員嚴(yán)厲度,任務(wù)難度等(Bond&Eox 2007;Weir 2005)。