摘 要:在大規(guī)模語(yǔ)言考試實(shí)踐中,評(píng)分員培訓(xùn)通常被認(rèn)為是作文人工評(píng)分的必經(jīng)環(huán)節(jié),其目的在于提高評(píng)分一致性,保證考試公平性。然而,語(yǔ)言測(cè)試界對(duì)于評(píng)分員培訓(xùn)目的以及自身價(jià)值的爭(zhēng)論頗多,本文將對(duì)這些觀點(diǎn)進(jìn)行梳理。同時(shí),還將對(duì)評(píng)分員培訓(xùn)步驟、評(píng)分員培訓(xùn)效果與持續(xù)時(shí)間、培訓(xùn)中評(píng)分員認(rèn)知發(fā)展過(guò)程等相關(guān)研究進(jìn)行探討。
關(guān)鍵詞:語(yǔ)言測(cè)試; 評(píng)分員; 評(píng)分培訓(xùn)
中圖分類號(hào):G42 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-6822(2016)01-0099-07
1. 引言
在語(yǔ)言測(cè)試界,行為測(cè)試(performance test)方式因其較高的效度而被廣泛用于寫作能力測(cè)試之中,然而這種測(cè)試方式的評(píng)分信度卻受到質(zhì)疑。因此,如何提高其評(píng)分信度成為語(yǔ)言測(cè)試工作者所關(guān)注的焦點(diǎn)之一。評(píng)分員培訓(xùn)是測(cè)試機(jī)構(gòu)為了提高評(píng)分信度而采取的重要手段,目的在于提高評(píng)分員自身(intra-rater)以及評(píng)分員之間(inter-rater)的一致性。近三十年來(lái),對(duì)于評(píng)分員培訓(xùn)的研究取得了許多成果。整體而言,這些研究主要集中在以下四個(gè)方面:評(píng)分員培訓(xùn)目的以及自身價(jià)值、評(píng)分員培訓(xùn)步驟、評(píng)分員培訓(xùn)的效果和培訓(xùn)持續(xù)時(shí)間、評(píng)分員在培訓(xùn)中的認(rèn)知發(fā)展過(guò)程。下文將分別從這四個(gè)方面對(duì)相關(guān)研究展開討論。
2. 評(píng)分員培訓(xùn)的目的及價(jià)值
在寫作行為評(píng)估中,要求評(píng)分員評(píng)分恰當(dāng),前后打分連貫,以確保評(píng)分的有效性。然而,由于迥異的個(gè)體性格和不同的專業(yè)背景,評(píng)分員之間較易產(chǎn)生差異。為了減少這種差異從而提高主觀評(píng)分的有效性,測(cè)試工作者嘗試使用了許多手段,其中使用最廣泛的方式是評(píng)分員培訓(xùn)。在有關(guān)語(yǔ)言測(cè)試的文獻(xiàn)中,許多研究者認(rèn)為評(píng)分員培訓(xùn)在寫作行為評(píng)估中具有重要作用(McNamara, 1996)。然而,研究者對(duì)于以下兩個(gè)方面的看法卻存在分歧:第一,評(píng)分員培訓(xùn)的目的究竟應(yīng)該是提高評(píng)分員自身一致性還是提高評(píng)分員之間的一致性,亦或兩者兼有;第二,培訓(xùn)的價(jià)值究竟何在,這種過(guò)分強(qiáng)調(diào)一致性的做法是否符合人類自然評(píng)分規(guī)律。
在語(yǔ)言評(píng)估領(lǐng)域,研究人員普遍認(rèn)為評(píng)分員培訓(xùn)的目的和價(jià)值在于提高評(píng)分員的一致性和評(píng)分的合理有效。但是,也有學(xué)者對(duì)此提出異議,正如Weigle(1998)所指出的那樣,“在寫作評(píng)估和評(píng)價(jià)文獻(xiàn)中,對(duì)于評(píng)分員培訓(xùn)的目的和效用仍有一些爭(zhēng)議(p: 263)?!崩纾琖eigle(1998)的研究發(fā)現(xiàn),評(píng)分員通過(guò)培訓(xùn)會(huì)形成各自對(duì)評(píng)分標(biāo)準(zhǔn)的認(rèn)識(shí),他們往往自身一致但卻彼此不同;有些研究人員(例如,Charney, 1984)認(rèn)為評(píng)分員的一致性只能局限于一篇文章的表層特征;一些研究者認(rèn)為強(qiáng)調(diào)評(píng)分員培訓(xùn)的一致性會(huì)迫使評(píng)分員在評(píng)判寫作時(shí)忽略自己的經(jīng)驗(yàn)和專業(yè)知識(shí),而這兩方面又被視為互動(dòng)閱讀過(guò)程的基本要素(Barritt, Stock Clarke, 1986)。實(shí)際上,在自然閱讀過(guò)程中,讀者和作者的互動(dòng),寫作產(chǎn)生的語(yǔ)境,讀者對(duì)文章產(chǎn)生的共鳴等方面均是閱讀本質(zhì)的體現(xiàn)(Gere, 1980: 47)。顯然,評(píng)分員單純從文本特征方面所達(dá)成的一致性很難體現(xiàn)出人類自然閱讀的本質(zhì)。Huot(1990: 211)同樣指出,評(píng)分員不可避免地會(huì)對(duì)一篇文章有個(gè)人獨(dú)有的反應(yīng),這是閱讀的本質(zhì)屬性。然而,“通過(guò)培訓(xùn),評(píng)分員個(gè)人的立場(chǎng)看法屈從于一套規(guī)定好的評(píng)分原則,為了追求可靠性,寫作質(zhì)量真正的優(yōu)劣往往被忽略?!?/p>
以上觀點(diǎn)在實(shí)證研究中得到了證明。比如,Weigle(1998)的研究發(fā)現(xiàn),盡管經(jīng)過(guò)嚴(yán)格的培訓(xùn),評(píng)分員之間的嚴(yán)厲度仍然存在顯著差異; 評(píng)分員的個(gè)人特點(diǎn)如性別、職業(yè)、語(yǔ)言背景、認(rèn)知方式等也會(huì)對(duì)特定的學(xué)習(xí)者群體產(chǎn)生偏差作用(Wigglesworth, 1993; Carrell, 1995; Kobayashi Rinnert 1996; Schoonen et al. 1997; Chalhoub-Deville Wigglesworth 2005; Schaeffer, 2008)。
然而,另一種觀點(diǎn)則認(rèn)為評(píng)分員培訓(xùn)是必要的。支持這一觀點(diǎn)的人認(rèn)為,為了提升公平性,考生作文應(yīng)當(dāng)以相同的標(biāo)準(zhǔn)進(jìn)行評(píng)估,這就需要對(duì)評(píng)分員進(jìn)行嚴(yán)格培訓(xùn)。他們認(rèn)為,評(píng)分培訓(xùn)產(chǎn)生良好效果的前提是制定操作性強(qiáng)、評(píng)價(jià)準(zhǔn)確的寫作能力評(píng)分標(biāo)準(zhǔn)。如果評(píng)分員能根據(jù)所界定的寫作能力接受相關(guān)培訓(xùn),并且認(rèn)同評(píng)分標(biāo)準(zhǔn),擱置他們自己的主觀經(jīng)驗(yàn),評(píng)分培訓(xùn)就一定能取得良好的效果。實(shí)際上,這也是評(píng)分員培訓(xùn)中最基本的步驟(Jacobs, et al. 1981; Homburg 1984)。例如,Cooper(1977: 3-31)認(rèn)為只要評(píng)分員都來(lái)自相似的專業(yè)背景,通過(guò)嚴(yán)密的培訓(xùn),在評(píng)判文章時(shí)給出一致的分?jǐn)?shù)是可以實(shí)現(xiàn)的。Jacobs等人(1981)認(rèn)為評(píng)分員培訓(xùn)以及評(píng)分量表的使用,有利于調(diào)和由不同專業(yè)背景評(píng)分員所造成的評(píng)判差異。并且,“在對(duì)文章是否有效地傳達(dá)了交際效果進(jìn)行評(píng)判時(shí),這兩者的融合使用可以更好地保證評(píng)分員對(duì)文章解讀的一致性”(p: 43)。Lumley(2005: 63)明確指出,評(píng)分的根本矛盾在于不同人在不同語(yǔ)境下寫的不同文本要用同一個(gè)標(biāo)準(zhǔn)化的量表來(lái)評(píng)價(jià),因此只有通過(guò)培訓(xùn)才可以構(gòu)建評(píng)分共同體,實(shí)現(xiàn)不同評(píng)分員對(duì)文本的共同解讀。徐鷹(2014)也認(rèn)為,從社會(huì)認(rèn)知視角看,培訓(xùn)旨在提高評(píng)分員的評(píng)分技能,即評(píng)分員在一段時(shí)間內(nèi)保持高水平評(píng)分質(zhì)量的能力。培訓(xùn)屬于影響評(píng)分過(guò)程的外部環(huán)境因素,能夠影響到評(píng)分員對(duì)文本意象的評(píng)估。培訓(xùn)的核心目標(biāo)應(yīng)該是要強(qiáng)化評(píng)分員作為評(píng)分社區(qū)成員的集體意識(shí),并促使評(píng)分員將自己的工作經(jīng)驗(yàn)、培訓(xùn)經(jīng)歷同評(píng)分行為真正融合。
由此可以看出,對(duì)于評(píng)分員培訓(xùn)的目的和意義存在兩種不同的觀點(diǎn):一種觀點(diǎn)認(rèn)為,評(píng)分培訓(xùn)的目的是為了提高評(píng)分一致性,保證評(píng)分的公平性,因而是必要的;另一種認(rèn)為評(píng)分培訓(xùn)破壞了人類閱讀的自然屬性,因而是不必要的。這兩種觀點(diǎn)體現(xiàn)了評(píng)分的真實(shí)性和評(píng)分員評(píng)分一致性的對(duì)立。一方面,為了實(shí)現(xiàn)較高的一致性,評(píng)分員很可能對(duì)于寫作質(zhì)量?jī)?yōu)劣難以形成有效的評(píng)估。這是因?yàn)椋瑸榱俗非笤u(píng)分員評(píng)分的一致性,真實(shí)閱讀過(guò)程中不可或缺的讀者和文本的互動(dòng)以及讀者和作者的互動(dòng)將難以實(shí)現(xiàn)。另一方面,假若為了提高寫作評(píng)估的真實(shí)性而強(qiáng)調(diào)文章和不同個(gè)性讀者之間的互動(dòng),那么,同一篇文章由不同的個(gè)人批閱,結(jié)果可能大相徑庭。因此,在語(yǔ)言測(cè)試實(shí)踐中,尤其是計(jì)算機(jī)自動(dòng)評(píng)分被廣泛應(yīng)用于作文評(píng)分的新時(shí)代下,如何調(diào)和這對(duì)矛盾,即,既要體現(xiàn)評(píng)分過(guò)程的真實(shí)性和人類閱讀的自然屬性,又要保證評(píng)分結(jié)果的公平性,是擺在語(yǔ)言測(cè)試工作者和研究者面前的一個(gè)需要深入研究的課題。
3. 評(píng)分員培訓(xùn)方法和步驟
盡管人們對(duì)評(píng)分員培訓(xùn)的目的和意義還存在一定的爭(zhēng)論,然而在語(yǔ)言測(cè)試實(shí)踐中,大多數(shù)大規(guī)模語(yǔ)言測(cè)試均會(huì)對(duì)評(píng)分員進(jìn)行作文評(píng)分培訓(xùn),以期提高評(píng)分一致性,保證考試的公平性。那么,評(píng)分員培訓(xùn)到底應(yīng)道遵循什么樣的方法和步驟才能更加有效呢?大量研究人員對(duì)于評(píng)分員培訓(xùn)提出了不同的實(shí)施框架(例如:Bachman Palmer 1996; Weigle, 2002; Lane Stone 2006)。
Bachman Palmer(1996: 222)認(rèn)為在作文評(píng)分開始前,進(jìn)行大量培訓(xùn)是十分必要的。為此,他們?cè)O(shè)計(jì)出了如下的6個(gè)步驟:1)評(píng)分員集中瀏覽和探討評(píng)分量表;2)學(xué)習(xí)由專家評(píng)分員評(píng)過(guò)的作文樣本并對(duì)給出的評(píng)分和評(píng)語(yǔ)進(jìn)行討論;3)評(píng)分員練習(xí)給不同的作文樣本打分,然后和有經(jīng)驗(yàn)的評(píng)分員給出的分?jǐn)?shù)進(jìn)行對(duì)比,探討評(píng)分異同以及在評(píng)分時(shí)是如何遵循評(píng)分標(biāo)準(zhǔn)的;4)換一批作文樣本打分并討論;5)每個(gè)接受培訓(xùn)的評(píng)分員給一套相同的樣本打分,檢驗(yàn)打分花費(fèi)的時(shí)間以及打分一致性;6)挑選出能合理、有效打分的評(píng)分員。Bachman Palmer培訓(xùn)實(shí)施框架為所有類型的語(yǔ)言評(píng)估(例如:口語(yǔ)能力、寫作能力、語(yǔ)法、翻譯能力等)提供了普遍適用的模型。然而,在具體的某一項(xiàng)語(yǔ)言測(cè)試中,測(cè)試機(jī)構(gòu)和測(cè)試者到底應(yīng)當(dāng)采用什么樣的方法和步驟則需要考慮諸如測(cè)試目的、測(cè)試規(guī)模、測(cè)試環(huán)境等因素。
相比之下,Weigle(2002: 130)提出的步驟則更加詳細(xì)和具體。首先,評(píng)分組組長(zhǎng)(由評(píng)分專家或者是非常有經(jīng)驗(yàn)的評(píng)分員擔(dān)任)應(yīng)該仔細(xì)閱讀應(yīng)試者的作文,并且從大量作文中挑選出能代表不同能力級(jí)別的參照樣本。參照樣本中應(yīng)該包括一些有爭(zhēng)議并且有代表性的樣本。例如一些不按要求行文的樣本或是抄寫給出的寫作提示語(yǔ)的樣本,或者處于臨界水平的樣本(例如處于通過(guò)或不通過(guò)考試的臨界水平)。第二,將給出合理分?jǐn)?shù)的樣本按順序分發(fā)給評(píng)分員,并結(jié)合評(píng)分量表進(jìn)行講解。這一步是為了讓評(píng)分員熟悉量表,了解量表的一些特征以及理解量表描述符的意義。第三,一旦評(píng)分員熟悉了評(píng)分組組長(zhǎng)給定的評(píng)分量表,包含每個(gè)能力水平的一整套樣本將以隨機(jī)的順序分發(fā)給評(píng)分員并告知他們一個(gè)樣本對(duì)應(yīng)一個(gè)能力級(jí)別。在完成這些之后,將讓評(píng)分員評(píng)閱一些更具爭(zhēng)議的樣本。對(duì)于在實(shí)際的打分過(guò)程中可能產(chǎn)生的問(wèn)題進(jìn)行進(jìn)一步商討。第四,若評(píng)分員總是打出高于或低于其他評(píng)分員的分?jǐn)?shù),那么應(yīng)該給予這些評(píng)分員反饋或者讓他們接受額外的培訓(xùn)。Weigle (2002)指出,如果評(píng)分進(jìn)行時(shí)間較長(zhǎng),就應(yīng)該每天提供給評(píng)分員評(píng)分樣本以使他們對(duì)評(píng)分進(jìn)行再次校準(zhǔn)。另外,在培訓(xùn)中評(píng)分員不得參考其他評(píng)分員的評(píng)分,應(yīng)當(dāng)進(jìn)行獨(dú)立評(píng)分。
綜上所述,評(píng)分員培訓(xùn)的方法和步驟實(shí)際上體現(xiàn)了評(píng)分員、評(píng)分標(biāo)準(zhǔn)、和作文文本的互動(dòng)關(guān)系。作文文本是培訓(xùn)的出發(fā)點(diǎn),只有對(duì)大量文本特征進(jìn)行研究后才能歸納和概況出整體性特點(diǎn),找到共性,發(fā)現(xiàn)特殊性,從而制定具有針對(duì)性、操作性和易于理解的評(píng)分標(biāo)準(zhǔn)。而評(píng)分標(biāo)準(zhǔn)是準(zhǔn)繩,是衡量作文質(zhì)量的標(biāo)桿。只有評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)有了統(tǒng)一的認(rèn)識(shí),才能保證順利的實(shí)施。然而,評(píng)分員對(duì)于標(biāo)準(zhǔn)的把握只有與具體的文本特征相結(jié)合才能實(shí)現(xiàn)。標(biāo)準(zhǔn)是針對(duì)具體文本而言,沒(méi)有文本,標(biāo)準(zhǔn)就是抽象的和難以理解的,而沒(méi)有標(biāo)準(zhǔn),文本就是雜亂的和難以把握的。
4. 培訓(xùn)效果和持續(xù)時(shí)間
既然評(píng)分員培訓(xùn)在大規(guī)??荚囍斜粡V泛運(yùn)用,那么它的效果究竟如何,能否達(dá)到使用者的預(yù)期呢?就此問(wèn)題,許多研究人員展開了一系列的調(diào)查研究。然而,研究結(jié)果不盡相同??傮w來(lái)看,對(duì)于培訓(xùn)效果存在三種不同的認(rèn)識(shí):一種是強(qiáng)式效果論,認(rèn)為培訓(xùn)能起到非常積極的效果;第二種是微式效果論,即認(rèn)為培訓(xùn)效果有限;第三種是消極效果論,即認(rèn)為培訓(xùn)會(huì)對(duì)評(píng)分員產(chǎn)生消極的影響。
Weigle(1994)對(duì)培訓(xùn)的積極效果進(jìn)行了總結(jié):評(píng)分員培訓(xùn)以及評(píng)分說(shuō)明的使用有助于評(píng)分員更加清晰地理解評(píng)分標(biāo)準(zhǔn),同時(shí)有益于促進(jìn)評(píng)分員依照設(shè)定好的標(biāo)準(zhǔn),而不是根據(jù)他們自己的標(biāo)準(zhǔn)作出判斷(Charney, 1984);可以使由評(píng)分員自身經(jīng)歷和不同專業(yè)背景所引起的評(píng)分分歧降到最低甚至消除分歧(Jacobs et al. 1981);能讓評(píng)分員在潛意識(shí)中參照相同的評(píng)分標(biāo)準(zhǔn);通過(guò)使評(píng)分員熟悉寫作任務(wù)的要求以及寫作者不同的特征來(lái)減少評(píng)分員對(duì)作文期望值的偏差,從而提高評(píng)分一致性(Huot, 1990;Elder, 2007)。
以上結(jié)論在許多實(shí)證研究中得到了印證。例如,在Shohamy, Gordon Kraemer(1992)進(jìn)行的一項(xiàng)研究中,比較了評(píng)分前受過(guò)培訓(xùn)和未受過(guò)培訓(xùn)的評(píng)分員各10名對(duì)50篇作文所打出的分?jǐn)?shù)。結(jié)果表明,評(píng)分員自身評(píng)分可信率總體較高,受過(guò)培訓(xùn)的評(píng)分員比未受培訓(xùn)的評(píng)分員評(píng)分更可信(比率分別是0.91-0.93 vs. 0.80-0.90)。與之相似,Weigle(1998)的研究探討了有經(jīng)驗(yàn)的和無(wú)經(jīng)驗(yàn)的評(píng)分員分別在培訓(xùn)前和培訓(xùn)后評(píng)分嚴(yán)厲度和評(píng)分一致性方面的差異。該研究要求16名評(píng)分員在培訓(xùn)前和培訓(xùn)后分別給60篇作文進(jìn)行評(píng)分(其中有經(jīng)驗(yàn)的和無(wú)經(jīng)驗(yàn)的評(píng)分員各8名)。多層次Rasch分析程序得出的嚴(yán)厲程度和統(tǒng)計(jì)擬合表明,在培訓(xùn)前無(wú)經(jīng)驗(yàn)的評(píng)分員相對(duì)于有經(jīng)驗(yàn)的評(píng)分員來(lái)說(shuō),傾向于評(píng)分更為嚴(yán)厲但是卻相對(duì)缺乏評(píng)分一致性。在接受培訓(xùn)后,兩組評(píng)分員之間的差異不再明顯。
持微式效果論的人認(rèn)為,盡管評(píng)分員培訓(xùn)能在一定程度上減少評(píng)分員在評(píng)分嚴(yán)格程度方面的差異,并且能通過(guò)減少可能出現(xiàn)的隨機(jī)錯(cuò)誤和降低評(píng)分時(shí)的個(gè)人偏見,提高評(píng)分員的評(píng)分一致性,其效果卻具有很大的局限性(Lim, 2011: 544)。例如,有研究發(fā)現(xiàn)(Weigle, 1994),在經(jīng)過(guò)嚴(yán)格培訓(xùn)之后,評(píng)分員的評(píng)判嚴(yán)厲度差異依然存在。在一些情況下,這種差異在評(píng)判學(xué)生寫作行為能力中占到35%。另一些研究證實(shí),評(píng)分員培訓(xùn)在保持評(píng)分員自身一致性方面效果明顯,卻對(duì)保持評(píng)分員之間的一致性方面效果不佳(Weigle, 1994; 2002)。
除此之外,研究還發(fā)現(xiàn),盡管評(píng)分員培訓(xùn)在培養(yǎng)評(píng)分員自身一致性方面能起到一定效果,但是在提高評(píng)分員之間共識(shí)或評(píng)分員嚴(yán)格程度方面收效甚微(Weigle, 1998)。由此,便能引發(fā)關(guān)于評(píng)分員培訓(xùn)目標(biāo)究竟應(yīng)該在于提高評(píng)分員之間的一致性還是評(píng)分員自身一致性的爭(zhēng)論。在人們理所當(dāng)然地認(rèn)為培訓(xùn)目的應(yīng)當(dāng)是提高評(píng)分員之間一致性的同時(shí),一些研究者卻認(rèn)為要消除評(píng)分員之間的差異幾乎是“不可能實(shí)現(xiàn),或許也是沒(méi)有必要的”McNamara(1996: 232)。相反,培訓(xùn)的真正目的在于讓評(píng)分員保持自我一致。在保證評(píng)分員自身一致性的前提下,評(píng)分員寬嚴(yán)度的差異是可以進(jìn)行調(diào)節(jié)的。事實(shí)上,這種考試后評(píng)分調(diào)整已經(jīng)通過(guò)運(yùn)用多層面Rasch 測(cè)量程序在劍橋大學(xué)ESOL考試中得到了運(yùn)用(Shaw Weir, 2007)。
對(duì)于培訓(xùn)效果的第三種觀點(diǎn)認(rèn)為,評(píng)分員培訓(xùn)會(huì)產(chǎn)生消極效果。例如,Charney(1984)認(rèn)為如果評(píng)分員為了達(dá)到評(píng)分的一致性而接受培訓(xùn),那么這種達(dá)成的共識(shí)往往只是停留在文章表面以及那些容易識(shí)別文本特征上面,比如書寫和拼寫等,而真正決定文本質(zhì)量高低的深層次特征卻被忽略。Barritt,Stock Clark(1986)指出,強(qiáng)調(diào)評(píng)分員評(píng)分遵循評(píng)分共識(shí)會(huì)迫使他們忽略自己在評(píng)判文章優(yōu)劣方面所積累的豐富知識(shí)和經(jīng)驗(yàn)。
即使評(píng)分員培訓(xùn)能在一定程度上產(chǎn)生較為符合測(cè)試者預(yù)期的效果,這種效果到底能否持續(xù)呢?對(duì)此,不少研究人員存在疑慮。例如,Lunz Stahl(1990)的研究表明,在接受培訓(xùn)后即使僅僅超過(guò)半天,評(píng)分員也可能會(huì)前后不一致。Lumley McNamara(1995)的研究發(fā)現(xiàn),一些評(píng)分員的評(píng)分行為從間隔一個(gè)月之久的一個(gè)評(píng)分階段(該階段評(píng)分員仍接受培訓(xùn))到另一個(gè)評(píng)分階段(實(shí)際操作評(píng)分)會(huì)有較大差異。Congdon McQueen(2000)對(duì)16名評(píng)分員在評(píng)估全國(guó)范圍讀、寫能力測(cè)試和算數(shù)能力測(cè)試時(shí)的評(píng)分變化進(jìn)行了研究。他們的研究表明,評(píng)分員在連續(xù)兩天的評(píng)分中嚴(yán)厲度波動(dòng)較大,在整個(gè)評(píng)分過(guò)程的第一天和最后一天則發(fā)生了絕對(duì)變動(dòng)。
針對(duì)培訓(xùn)的這些弊端,許多研究者提出了建議。例如,Congdon McQueen(2000)建議在存在高差異風(fēng)險(xiǎn)的評(píng)分場(chǎng)合需要持續(xù)不間斷的培訓(xùn)。當(dāng)然,也有對(duì)此持反對(duì)態(tài)度的,認(rèn)為持續(xù)不間斷的培訓(xùn)不切實(shí)際(Hamilton et al. 2001)。有人則認(rèn)為為了保持培訓(xùn)的持續(xù)效果,需實(shí)行評(píng)分員通過(guò)面對(duì)面交流以及網(wǎng)絡(luò)在線等形式的自我培訓(xùn)(Elder et al. 2007)。 陸遠(yuǎn)(2011)在對(duì)評(píng)分員培訓(xùn)的方式和效果進(jìn)行研究后認(rèn)為,為了提升培訓(xùn)效果首先需要加強(qiáng)持續(xù)培訓(xùn)的力度,培訓(xùn)活動(dòng)的設(shè)計(jì)需要更加具有互動(dòng)性和針對(duì)性,培訓(xùn)的反饋信息需要更加詳細(xì),尤其是需要包括有關(guān)評(píng)分員偏頗的反饋信息。
5. 培訓(xùn)中評(píng)分員的認(rèn)知變化
盡管對(duì)于評(píng)分員培訓(xùn)的結(jié)果和效果等方面的研究成果頗豐,但對(duì)于評(píng)分員在接受培訓(xùn)過(guò)程中評(píng)分員信念所發(fā)生的變化、評(píng)分員培訓(xùn)影響評(píng)分員的過(guò)程以及培訓(xùn)如何與評(píng)分員經(jīng)驗(yàn)相融合等方面的研究甚少。而要對(duì)這些問(wèn)題進(jìn)行研究,則必須對(duì)評(píng)分員的評(píng)分過(guò)程和內(nèi)心信念進(jìn)行探究。有一些學(xué)者在這些方面進(jìn)行了一定的探索。例如,Weigle(1994)采取了有聲思維和跟進(jìn)訪談的形式對(duì)4名無(wú)經(jīng)驗(yàn)的評(píng)分員在評(píng)分員培訓(xùn)前后分別評(píng)判相同的作文進(jìn)行了調(diào)查研究。結(jié)果表明,4名評(píng)分新手或多或少都在判定分?jǐn)?shù)和最終打分方面達(dá)成了一致。針對(duì)這4位評(píng)分員信念的調(diào)查表明,評(píng)分員培訓(xùn)使得他們通過(guò)交流和探討從各自身上學(xué)會(huì)了打分程序,幫助他們“界定了評(píng)分員的評(píng)分標(biāo)準(zhǔn),調(diào)整了他們對(duì)于應(yīng)試者作文的期望值。同時(shí)為評(píng)分員提供了可以與其他評(píng)分員相比較的參照組”。
在對(duì)上述研究進(jìn)行梳理之后,Weigle(1998)又進(jìn)行了另一項(xiàng)研究。該研究使用定性方法(即在評(píng)分過(guò)程中記錄評(píng)分員言語(yǔ))和定量方法(即運(yùn)用多層面Rasch 測(cè)量程序)對(duì)ESLP( Second Language Placement Examination)評(píng)分員在接受培訓(xùn)后與評(píng)分標(biāo)準(zhǔn)的互動(dòng)進(jìn)行了研究。受試包括有經(jīng)驗(yàn)的和無(wú)經(jīng)驗(yàn)的評(píng)分員。定量分析表明,無(wú)經(jīng)驗(yàn)的評(píng)分員只在一個(gè)評(píng)分維度上比有經(jīng)驗(yàn)的評(píng)分員更為嚴(yán)格。培訓(xùn)似乎消除了有經(jīng)驗(yàn)的評(píng)分員和無(wú)經(jīng)驗(yàn)的評(píng)分員之間的差異。有聲思維和跟進(jìn)訪談分析提供了豐富且有價(jià)值的視角。這一視角可以幫助我們理解評(píng)判過(guò)程中評(píng)分員之間存在差異的原因。
不難看出,對(duì)于評(píng)分員在培訓(xùn)中的認(rèn)知過(guò)程研究還非常有限,僅有的一些研究只關(guān)注了培訓(xùn)中評(píng)分員如何學(xué)習(xí)打分步驟和調(diào)整寬嚴(yán)度,對(duì)于培訓(xùn)前后評(píng)分員所關(guān)注焦點(diǎn)的變化,以及原有經(jīng)驗(yàn)在評(píng)分中所起作用的程度變化、評(píng)分員如何建構(gòu)評(píng)分過(guò)程等的研究還顯不足。
6. 結(jié)論及啟示
綜上所述,研究者們對(duì)評(píng)分員培訓(xùn)的目的和意義、培訓(xùn)的方法和步驟、培訓(xùn)的效果和持續(xù)時(shí)間、培訓(xùn)過(guò)程中評(píng)分員的信念變化等進(jìn)行了較為全面的研究。研究方法主要采用多層面Rasch模型、有聲思維法、問(wèn)卷法和訪談法。Rasch模型屬于定量研究方法,在評(píng)分員評(píng)分一致性、評(píng)分員偏頗、以及評(píng)分員與評(píng)分標(biāo)準(zhǔn)和文本的互動(dòng)關(guān)系的研究中廣泛使用。后三種方法則屬于定性研究,能對(duì)評(píng)分員信念進(jìn)行深入研究,揭示評(píng)分員評(píng)分表現(xiàn)的原因。兩種方法互為補(bǔ)充。從研究結(jié)果來(lái)看,盡管學(xué)者們對(duì)于評(píng)分員培訓(xùn)是否符合人類自然閱讀習(xí)慣和價(jià)值判斷存在一些爭(zhēng)論,但在語(yǔ)言測(cè)試實(shí)踐中,評(píng)分員培訓(xùn)已被廣泛采用,作為作文人工評(píng)閱的必經(jīng)環(huán)節(jié)。與此相似,盡管對(duì)于培訓(xùn)的目的在于提高評(píng)分員自身一致性還是評(píng)分員之間的一致性方面也存在一些爭(zhēng)議,評(píng)分員培訓(xùn)能有效促進(jìn)評(píng)分質(zhì)量,提升考試公平性的作用卻也被廣泛認(rèn)同。由于考試是一項(xiàng)社會(huì)活動(dòng),評(píng)分員培訓(xùn)的方法步驟的制定和實(shí)施不僅要依據(jù)考試目的和性質(zhì)而定,也要充分考慮考試評(píng)分的環(huán)境和條件,同時(shí)也要考慮評(píng)分員的個(gè)體特征。同時(shí),由于評(píng)分培訓(xùn)效果并不具備一蹴而就的持續(xù)性,評(píng)分培訓(xùn)不應(yīng)該只是評(píng)分前的一個(gè)環(huán)節(jié),而應(yīng)貫穿評(píng)分的全過(guò)程,從而確保培訓(xùn)效果的持續(xù)性。此外,只有對(duì)評(píng)分員在培訓(xùn)過(guò)程中的認(rèn)知變化過(guò)程有更深入的了解,才能更有針對(duì)性地制定培訓(xùn)方法,提高評(píng)分質(zhì)量,提升考試公平性。
參 考 文 獻(xiàn)
Bachman, L. F., Palmer, A. S. Language testing in practice [M]. Oxford: Oxford University Press, 1996.
Barritt, L., Stock, P. Clarke, F. Researching practice: evaluating assessment essays [J]. College Composition and Communication, 1986, (37): 315-327.
Carrell, P. L. The effect of writers’personalities and raters’personalities on the holistic evaluation of writing [J]. Assessing Writing, 1995, 2(2): 153-190.
Chalhoub-Deville, M., Wigglesworth, G. Rater judgment and English language speaking proficiency [J]. World Englishes, 2005, 24(3): 383-391.
Charney, D. The validity of using holistic scoring to evaluate writing: a critical overview [J]. Research in the Teaching of English, 1984, (18): 65-81.
Congdon, P. J. McQueen, J. The stability of rater severity in large-scale assessment programs [J]. Journal of Educational Measuremen, 2000, 37(2): 163-178.
Elder, C., Barkhuizen, G., Knoch, U., Randow, J. Evaluating rater responses to an online training program for L2 writing assessment [J]. Language Testing, 2007, 24(1): 37-64.
Gere, A. R. Written Composition: Toward a Theory of Evaluation [J]. College English, 1980,(42): 44-58.
Hamilton, J., Reddel, S. Spratt, M. Teachers’ perceptions of on-line rater training and monitoring [J]. System, 2001, (29): 505-520.
Huot, B. Reliability, validity, and holistic scoring: what we know and what we need to know [J]. College Composition and Communication, 1990,(41): 201-213.
Jacobs, H. L., Zinkgraf, S. A., Wormuth, D. R., Hart(R)el, V. F., Hughey, J. B. Testing ESL composition: a practical approach [M]. Rowley, MA: Newbury House, 1981.
Kobayashi, H., Rinnert, C. Factors affecting composition evaluation in an EFL context: Cultural rhetorical pattern and readers' background [J]. Language Learning, 1996, (46): 397-437.
Lane, S., Stone, C. Performance assessment [A]. In R. L. Brennan (ed.), Educational measurement (4th ed.) [C]. Washington DC: American Council on Education, 2006: 387-431.
Lim, G. S. The development and maintenance of rating quality in performance writing assessment: A longitudinal study of new and experienced raters [J]. Language Testing, 2011, (28): 543-560.
Lumley, T. Assessing Second Language Writing: The Rater’s Perspective [M]. Frankfurt am Main: Peter Lang, 2005.
Lunz, M. E., Stahl, J. A. Judge consistency and severity across grading periods [J]. Evaluation and the Health Professions, 1990, (13): 425-444.
McNamara, T. F. Measuring Second Language Performance [M]. London: Longman, 1996.
O’Sullivan, B., Rignall, M. Assessing the value of bias analysis feedback to raters for the IELTS writing module [A]. In L. Taylor P. Falvey (eds.), IELTS Collected Papers: Research in Speaking and Writing Assessment [C]. Cambridge: Cambridge University Press, 2007.
Saito, H. EFL classroom peer assessment: Training effects on rating and commenting [J]. Language Testing, 2008, 25(4): 553-581.
Schaeffer, E. Rater bias patterns in an EFL writing assessment [J]. Language Testing, 2008, 25(4): 465-493.
Schoonen, R., Vergeer, M., Eiting, M. The assessment of writing ability: Expert readers versus lay readers [J]. Language Testing, 1997, 14(2): 157-184.
Shaw, S. Weir, C. J. Examining Writing in a Second Language, Studies in Language Testing [M]. Cambridge University Press and Cambridge ESOL, 2007.
Weigle, S. C. Effects of training on raters of ESL compositions [J]. Language Testing, 1994, 11(2): 197-223.
Weigle, S. C. Using Facets to model rater training effects [J]. Language testing, 1998, 15(2): 263-287.
Weigle, S. C. Assessing Writing [M]. Cambridge, UK: Cambridge University Press, 2002.
Wigglesworth, G. Exploring bias analysis as a tool for improving rater consistency in assessing oral interaction [J]. Language Testing, 1993, 10(3): 305-323.
陸 遠(yuǎn).寫作測(cè)試公正性研究—作文評(píng)分員偏頗研究綜述[J]. 外語(yǔ)測(cè)試與教學(xué),2011,(2): 30-36.
譚 智.應(yīng)用Rasch模型分析英語(yǔ)寫作評(píng)分行為[J]. 外語(yǔ)教學(xué)理論與實(shí)踐,2008,(1): 26-30.
徐 鷹.評(píng)分人培訓(xùn)的研究現(xiàn)狀及展望[J]. 中國(guó)考試,2014,(2): 10-18.
(責(zé)任編輯:向宗平)