鄒紹艷 范勁松
(1.青島農(nóng)業(yè)大學(xué) 外國(guó)語(yǔ)學(xué)院,山東 青島 266109;2.墨爾本大學(xué) 語(yǔ)言測(cè)試研究中心,澳大利亞 墨爾本 3010)
寫作測(cè)試在大規(guī)模外語(yǔ)測(cè)試中被廣泛應(yīng)用,但與此同時(shí),寫作測(cè)試的評(píng)分卻經(jīng)常遭到批判。Weigle (2002)指出,寫作測(cè)試的分?jǐn)?shù)不僅體現(xiàn)了考生和測(cè)試之間的交互作用,而且涉及其他諸多因素,如測(cè)試任務(wù)、寫作文本本身、評(píng)分員和評(píng)分量表等。這些因素之間的復(fù)雜交互作用導(dǎo)致寫作測(cè)試所測(cè)量的語(yǔ)言能力構(gòu)念往往不夠清晰,因而影響外界對(duì)寫作測(cè)試分?jǐn)?shù)的理解 (Cummingetal., 2001),即影響寫作測(cè)試的效度。根據(jù)美國(guó)三大研究機(jī)構(gòu)即美國(guó)教育研究協(xié)會(huì)、美國(guó)心理學(xué)協(xié)會(huì)和全美測(cè)量公會(huì)聯(lián)合頒布的《教育與心理測(cè)試標(biāo)準(zhǔn)》(AERAetal.,2014: 9),“效度是指根據(jù)測(cè)試的分?jǐn)?shù)做出恰當(dāng)、有意義、有用的推論”。近年來(lái),隨著考試用戶對(duì)考試效度的要求不斷提高,如何提供更加合理、有效的分?jǐn)?shù)解釋,以便鼓勵(lì)恰當(dāng)?shù)姆謹(jǐn)?shù)使用成為語(yǔ)言測(cè)試開發(fā)者面臨的艱巨任務(wù)之一” (Chapelleetal., 2008)。
在這種背景下,寫作測(cè)試的評(píng)分量表成為語(yǔ)言測(cè)試領(lǐng)域關(guān)注的焦點(diǎn)。研究者們一致認(rèn)為,評(píng)分量表能夠體現(xiàn)寫作測(cè)試實(shí)際測(cè)量的構(gòu)念 (McNamara,1996; Turner,2000; Weigle,2002; Shaw et al., 2007)。但是,Knoch (2009)指出,現(xiàn)有的大規(guī)模外語(yǔ)測(cè)試中使用的評(píng)分量表往往都存在以下問(wèn)題:(1)評(píng)分量表的制定過(guò)程主要基于專家的直覺(jué)判斷,因此無(wú)法體現(xiàn)寫作文本的真實(shí)特征;(2)評(píng)分量表中經(jīng)常使用一些印象化的術(shù)語(yǔ),容易導(dǎo)致主觀性的解讀;(3)量表并未給每個(gè)等級(jí)的表現(xiàn)提供準(zhǔn)確、詳細(xì)的描述,不同等級(jí)之間的區(qū)分主要是依靠一些相對(duì)性的措辭。Knoch (2011)進(jìn)一步指出,目前關(guān)于這些評(píng)分量表的開發(fā)過(guò)程基本都無(wú)從得知,這無(wú)疑加劇了學(xué)界對(duì)這些量表效度問(wèn)題的關(guān)注。
以國(guó)內(nèi)最大規(guī)模的外語(yǔ)考試——大學(xué)英語(yǔ)四級(jí)考試 (以下簡(jiǎn)稱CET-4)為例,其寫作部分評(píng)分量表的效度近年來(lái)引起了不少研究者的關(guān)注 (蔡基剛,2002;費(fèi)茜 等,2008;簡(jiǎn)慶閩 等,2005)。費(fèi)茜和趙毓琴 (2008)指出,CET-4寫作測(cè)試中采用的評(píng)分量表比較籠統(tǒng),評(píng)分標(biāo)準(zhǔn)也不夠全面,因此量表的效度值得探討。鑒于此,本文以CET-4寫作測(cè)試中目前使用的評(píng)分量表為研究對(duì)象,調(diào)查評(píng)分員對(duì)該評(píng)分量表的意見,初步論證該量表的效度,抑或發(fā)現(xiàn)影響量表效度的因素,為進(jìn)一步完善或提升CET-4寫作測(cè)試評(píng)分量表的效度提供依據(jù)。
CET-4寫作測(cè)試要求考生根據(jù)所給的題目、提綱、情景、圖片或圖表,在30分鐘內(nèi)寫一篇不少于120詞的作文。自1987年首次施考以來(lái),CET-4寫作測(cè)試經(jīng)歷了一系列變革,以適應(yīng)教育部2014年頒布的《大學(xué)英語(yǔ)課程教學(xué)要求》(以下簡(jiǎn)稱《教學(xué)要求》) 的變化。變革的內(nèi)容包括:作文的長(zhǎng)度、最低及格分的設(shè)置以及寫作順序的調(diào)整等 (辜向東 等,2009)。自2006年1月以來(lái),圍繞CET-4寫作測(cè)試實(shí)施的一項(xiàng)重要變革便是其評(píng)分系統(tǒng)的變化,CET-4寫作測(cè)試的評(píng)分由傳統(tǒng)的紙筆評(píng)分轉(zhuǎn)變?yōu)榫W(wǎng)上評(píng)分。目前已有不少學(xué)者針對(duì)CET寫作測(cè)試的評(píng)分開展了實(shí)證研究 (黃燕,2007;王躍武,2004;王躍武 等,2006;張森 等,2010),結(jié)果表明CET-4寫作測(cè)試網(wǎng)上評(píng)分的效率和信度均高于比紙筆評(píng)分。但值得一提的是,這些研究關(guān)注的焦點(diǎn)基本都是CET-4寫作測(cè)試的評(píng)分信度。相比之下, CET-4寫作測(cè)試評(píng)分的效度鮮少被關(guān)注。如前所述,評(píng)分量表能夠體現(xiàn)寫作測(cè)試實(shí)際測(cè)量的構(gòu)念,只有對(duì)CET-4寫作測(cè)試評(píng)分的效度進(jìn)行充分研究,我們才能理解CET-4寫作測(cè)試分?jǐn)?shù)的意義。
根據(jù)楊惠中 & Weir (1998)的觀點(diǎn),CET-4作文的評(píng)分主要采用整體評(píng)分法,評(píng)分中關(guān)注的方面包括:內(nèi)容的相關(guān)度、語(yǔ)言的質(zhì)量和語(yǔ)篇的連貫性。在評(píng)分過(guò)程中,評(píng)分員需要綜合考慮這三個(gè)方面,然后給出一個(gè)總分。根據(jù)這些原則,大學(xué)英語(yǔ)四、六級(jí)考試委員會(huì)制定了一個(gè)包含五個(gè)等級(jí)的評(píng)分量表 (見表1)。
表1 大學(xué)英語(yǔ)寫作評(píng)分量表(楊惠中 等,1998:134)
目前,關(guān)于CET-4寫作測(cè)試評(píng)分量表的研究主要分為兩大類:(1) 通過(guò)與其他大規(guī)模外語(yǔ)寫作測(cè)試的評(píng)分量表進(jìn)行對(duì)比,闡述現(xiàn)有的CET-4寫作評(píng)分量表的不足之處。例如,費(fèi)茜、趙毓琴(2008)對(duì)比了CET-4寫作和托福寫作的評(píng)分量表,認(rèn)為與托福寫作的評(píng)分量表相比,CET-4寫作測(cè)試的評(píng)分量表較為籠統(tǒng),過(guò)分關(guān)注語(yǔ)言使用的準(zhǔn)確性,而忽略對(duì)寫作內(nèi)容和結(jié)構(gòu)方面的描述,因此認(rèn)為該量表在評(píng)分中的效果可能不太理想。(2) 分析評(píng)分員的評(píng)分過(guò)程和結(jié)果,論證評(píng)分量表的效度。高懷勇(2011)采用有聲思維法研究評(píng)分員的評(píng)分過(guò)程,發(fā)現(xiàn)評(píng)分員在實(shí)際評(píng)分中關(guān)注的文本特征略多于現(xiàn)有的CET-4寫作評(píng)分標(biāo)準(zhǔn)。例如,語(yǔ)言得體性和句子結(jié)構(gòu)這兩項(xiàng)評(píng)分標(biāo)準(zhǔn)在評(píng)分中被運(yùn)用的頻次較高,但這兩項(xiàng)標(biāo)準(zhǔn)并未在現(xiàn)有的CET-4寫作整體評(píng)分量表中得到體現(xiàn)。李航(2015)通過(guò)實(shí)證研究對(duì)比了現(xiàn)有的CET寫作整體評(píng)分量表和一項(xiàng)自主開發(fā)的分項(xiàng)評(píng)分量表在CET-6寫作評(píng)分中的作用,指出分項(xiàng)評(píng)分量表能幫助評(píng)分員更加細(xì)致、準(zhǔn)確地區(qū)分考生的英語(yǔ)寫作能力。盡管該研究初步探索了分項(xiàng)評(píng)分量表在CET寫作評(píng)分中的應(yīng)用前景,但由于該研究中使用的分項(xiàng)評(píng)分量表沒(méi)有遵循嚴(yán)格的量表開發(fā)步驟,其效度有待論證。
綜上,我們認(rèn)為上述研究存在以下不足之處:(1) 目前的研究大都是基于主觀論述得出結(jié)論,鮮有研究采用實(shí)證方法檢驗(yàn)量表效度。(2) 現(xiàn)有的研究基本都缺乏相關(guān)理論框架的指導(dǎo),因此即便運(yùn)用了實(shí)證方法,也無(wú)法為評(píng)分量表的效度提供充分的證據(jù)??紤]到寫作測(cè)試在大規(guī)模外語(yǔ)考試中的廣泛應(yīng)用,而且CET屬于高風(fēng)險(xiǎn)語(yǔ)言考試,我們認(rèn)為有必要研究目前使用的CET寫作評(píng)分量表究竟能否有效地測(cè)量考試設(shè)計(jì)者想要考察的語(yǔ)言能力。鑒于此,本研究借鑒Bachman & Palmer (1996)提出的測(cè)試有用性理論框架以及Knoch (2009)對(duì)評(píng)分量表效度指標(biāo)的闡述 (見表2),探討評(píng)分員對(duì)CET-4寫作評(píng)分量表的看法和意見。根據(jù)Bachman & Palmer (1996)的觀點(diǎn),測(cè)試有用性一般通過(guò)六項(xiàng)指標(biāo)來(lái)體現(xiàn):信度、構(gòu)念效度、真實(shí)度、互動(dòng)性、考試影響和實(shí)用性。Weigle (2002)認(rèn)為,互動(dòng)性這一指標(biāo)在評(píng)分量表的效度中很難體現(xiàn)。Knoch (2009)進(jìn)一步提出了檢驗(yàn)評(píng)分量表效度的具體論據(jù),這些論據(jù)成為本文設(shè)計(jì)研究工具的依據(jù)。
表2 評(píng)分量表效度指標(biāo) (Knoch,2009:65)
本研究旨在解決以下研究問(wèn)題:
(1)評(píng)分員對(duì)現(xiàn)有的CET-4寫作評(píng)分量表的總體看法如何?
(2)評(píng)分員的評(píng)分經(jīng)驗(yàn)在多大程度上影響他們對(duì)評(píng)分量表的看法?
(3)現(xiàn)有的CET-4寫作評(píng)分量表在哪些方面需要進(jìn)一步改進(jìn)?
為解決以上研究問(wèn)題,本研究采用Creswell & Clark (2011)提出的解釋性混合研究設(shè)計(jì)方案,首先開展定量研究,然后在定量分析的基礎(chǔ)上開展定性分析?;旌涎芯吭O(shè)計(jì)的優(yōu)勢(shì)就在于其能夠?qū)⒍垦芯颗c定性研究有機(jī)地結(jié)合起來(lái),更加全面、深刻地解答研究問(wèn)題。
(1)調(diào)查問(wèn)卷
本研究采用的問(wèn)卷分為兩部分:第一部分主要調(diào)查受訪者的背景信息,如性別、教學(xué)經(jīng)歷、職稱、教育背景和CET-4的寫作評(píng)分經(jīng)驗(yàn)。第二部分包括六道題目。根據(jù)Knoch (2009) 的量表效度理論框架,問(wèn)卷第二部分的六道題目設(shè)計(jì)如表3所示:
六道題目均采用李克特五級(jí)量表的形式(0~4),其中“0”代表“完全否定”,“4”代表“完全肯定”。問(wèn)卷題目的作答形式之所以采用“0”和“4”作為量表的兩個(gè)極端,而非傳統(tǒng)的“1”和“5”,是為了促使受訪者做出真正的選擇,防止過(guò)多使用中間項(xiàng)“3” (D?rnyei,2003)。問(wèn)卷調(diào)查首先于2016年6月在11名CET-4寫作評(píng)分員中進(jìn)行了試測(cè),根據(jù)試測(cè)結(jié)果對(duì)問(wèn)卷內(nèi)容作了微調(diào)。
另外,本研究還設(shè)計(jì)了用于訪談的半結(jié)構(gòu)式訪談大綱,包含兩個(gè)問(wèn)題:(1) 如何看待CET-4寫作評(píng)分量表的描述語(yǔ)和等級(jí)劃分;(2) CET-4寫作評(píng)分量表的哪些方面還需進(jìn)一步改進(jìn)。
表3 問(wèn)卷的題目以及涉及的效度指標(biāo)
問(wèn)卷調(diào)查的對(duì)象是來(lái)自上海、山東、吉林、四川等幾所CET-4閱卷點(diǎn)的179名作文評(píng)分員,他們的背景信息如表4所示:
表4 評(píng)分員背景信息
問(wèn)卷數(shù)據(jù)被分析之后,12位評(píng)分員受邀參與了后續(xù)訪談,其中六位評(píng)分員擁有三次及以上CET-4寫作評(píng)分經(jīng)歷,而另外六位評(píng)分員參與CET-4寫作評(píng)分的次數(shù)不足三次。
問(wèn)卷數(shù)據(jù)于2016年7月四級(jí)作文評(píng)分期間被收集。為了解決研究問(wèn)題一,本研究運(yùn)用SPSS軟件對(duì)問(wèn)卷調(diào)查的數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)分析,了解評(píng)分員對(duì)現(xiàn)有的CET-4寫作評(píng)分量表的總體看法;為了解決研究問(wèn)題二,本研究運(yùn)用SPSS軟件對(duì)問(wèn)卷調(diào)查的數(shù)據(jù)進(jìn)行獨(dú)立樣本t檢驗(yàn),探討擁有不同評(píng)分經(jīng)驗(yàn)的評(píng)分員對(duì)于CET-4寫作評(píng)分量表的看法是否存在顯著性差異。問(wèn)卷數(shù)據(jù)分析完成后,研究者根據(jù)數(shù)據(jù)分析的結(jié)果邀請(qǐng)12位評(píng)分員進(jìn)行了一對(duì)一的深入訪談。訪談的內(nèi)容被錄音并轉(zhuǎn)寫成文字,然后利用Given(2008)提出的歸納法對(duì)訪談中反復(fù)提到的主題進(jìn)行歸納和分析。
3.1.1描述統(tǒng)計(jì)分析
對(duì)問(wèn)卷數(shù)據(jù)進(jìn)行信度分析的結(jié)果表明,六道題目作答數(shù)據(jù)的內(nèi)部一致性系數(shù)為0.781,說(shuō)明評(píng)分員對(duì)這些題目的作答都比較可靠(Barrett,2001)。對(duì)問(wèn)卷數(shù)據(jù)的描述統(tǒng)計(jì)分析如表5所示。
表5顯示,問(wèn)卷中六道題目的得分均值都在2.50~3.18之間。由于問(wèn)卷設(shè)計(jì)是采用0~4的五級(jí)量表,所以這六道題目的得分均值都可視為高于中等水平。這一結(jié)果表明評(píng)分員對(duì)現(xiàn)有的CET-4寫作評(píng)分量表基本上持肯定態(tài)度。但從表5中也可以看出,第4道題目的得分均值(2.50)在所有題目中最低,僅略高于中等水平,說(shuō)明評(píng)分員對(duì)于現(xiàn)有的CET-4寫作評(píng)分量表為大學(xué)英語(yǔ)教學(xué)提供的反饋信息這一方面的認(rèn)同度略低。而且,從六道題目作答數(shù)據(jù)的標(biāo)準(zhǔn)差來(lái)看,第四、五、六道題目的標(biāo)準(zhǔn)差較大,說(shuō)明評(píng)分員在這幾道題目上的意見分歧較大。
表5 問(wèn)卷題目的描述統(tǒng)計(jì)分析(n = 179)
3.1.2獨(dú)立樣本T檢驗(yàn)
按照評(píng)分員在CET-4寫作評(píng)分中的經(jīng)歷,179位評(píng)分員被分為兩組:資深組(即參與評(píng)分三次及以上的評(píng)分員,n= 90)和新手組(即參與評(píng)分三次以下的評(píng)分員,n= 89)。對(duì)兩組評(píng)分員在六道題目上的作答數(shù)據(jù)進(jìn)行獨(dú)立樣本T檢驗(yàn),結(jié)果如表6所示。
首先,對(duì)兩組評(píng)分員在六道題目上的作答數(shù)據(jù)進(jìn)行F檢驗(yàn),結(jié)果表明兩組評(píng)分員的數(shù)據(jù)差異符合方差齊性假設(shè),因此滿足進(jìn)行獨(dú)立樣本T檢驗(yàn)的前提條件。T檢驗(yàn)的結(jié)果顯示,在看待現(xiàn)有的CET-4寫作評(píng)分量表的清晰度(Q1)、完整性(Q2)、可操作性(Q3)、提供的反饋信息(Q4)、樣本作文(Q5)這五個(gè)方面時(shí),兩組評(píng)分員的意見的Sig值都大于0.05,說(shuō)明兩組評(píng)分員在這些方面沒(méi)有顯著性差異。但在看待評(píng)分培訓(xùn)的作用上,兩組評(píng)分員意見的Sig值為0.00,小于0.01,說(shuō)明兩組評(píng)分員的意見之間存在顯著性差異。具體而言,新手組評(píng)分員對(duì)評(píng)分培訓(xùn)的看法不如資深組評(píng)分員肯定。
表6 兩組評(píng)分員數(shù)據(jù)的T檢驗(yàn)結(jié)果
為了進(jìn)一步理解問(wèn)卷調(diào)查的結(jié)果,研究者邀請(qǐng)部分評(píng)分員進(jìn)行了訪談。研究者反復(fù)閱讀了基于評(píng)分員訪談轉(zhuǎn)寫的文本材料,歸納出四個(gè)評(píng)論最為最多的主題:
第一,量表描述語(yǔ)的清晰度
受訪的12位評(píng)分員中,67%的評(píng)分員(五位資深評(píng)分員、三位新手評(píng)分員)認(rèn)為,量表的描述語(yǔ)比較清晰易懂。但也有33%的評(píng)分員(三位資深評(píng)分員、一位新手評(píng)分員)指出,量表描述語(yǔ)的有些措辭比較含糊,容易引起歧義。例如,三位評(píng)分員都提到,量表中的“嚴(yán)重語(yǔ)言錯(cuò)誤”“語(yǔ)言錯(cuò)誤相當(dāng)多”“少量語(yǔ)言錯(cuò)誤”之類的描述語(yǔ)有點(diǎn)籠統(tǒng),不太容易理解。資深評(píng)分員R2指出:“有相當(dāng)多的人認(rèn)為句法結(jié)構(gòu)錯(cuò)誤是嚴(yán)重的語(yǔ)言錯(cuò)誤,有人認(rèn)為不符合英文表達(dá)習(xí)慣的錯(cuò)誤是嚴(yán)重的語(yǔ)言錯(cuò)誤,也有人認(rèn)為只有影響語(yǔ)義理解的錯(cuò)誤才是嚴(yán)重的語(yǔ)言錯(cuò)誤。我一般都是自己反復(fù)研讀閱卷點(diǎn)提供的樣本作文,理解什么是嚴(yán)重的語(yǔ)言錯(cuò)誤,什么是少量的語(yǔ)言錯(cuò)誤?!绷硗猓率衷u(píng)分員R7認(rèn)為,11分檔和14分檔的作文在“切題”方面沒(méi)有做出明確的區(qū)分,而五分檔和八分檔的作文則都是要求“基本切題”,不明白其中有何差異。
訪談中涉及的這一主題與問(wèn)卷的第一道題目基本吻合。該題目在問(wèn)卷調(diào)查中的得分均值為3.11,表明總體而言,評(píng)分員對(duì)于CET-4寫作評(píng)分量表的清晰度基本滿意。而對(duì)訪談的分析則顯示出,1/3的評(píng)分員對(duì)量表的清晰度仍有一定的質(zhì)疑,尤其是涉及“語(yǔ)言錯(cuò)誤”和“切題”方面的描述語(yǔ)不夠具體、清晰。
第二,量表描述語(yǔ)的完整性
50%的評(píng)分員(三位資深評(píng)分員、三位新手評(píng)分員)在訪談時(shí)提到了量表描述語(yǔ)的完整性。他們認(rèn)為,量表的描述語(yǔ)不夠完整,不足以涵蓋四級(jí)作文的特點(diǎn)。例如,某資深評(píng)分員R4指出:“量表中對(duì)于內(nèi)容和思想的描述基本就是圍繞切不切題。實(shí)際上,有些作文盡管切題,但是內(nèi)容空洞,缺乏嚴(yán)謹(jǐn)?shù)恼撟C,是不是應(yīng)該考慮增加寫作內(nèi)容方面的描述?”資深評(píng)分員R5提到,量表的等級(jí)描述中沒(méi)有涉及語(yǔ)言使用的得體性,“我在閱卷時(shí)發(fā)現(xiàn),有的考生根本沒(méi)有讀者意識(shí),比如在給老師寫信時(shí),連稱呼都不得體。我認(rèn)為評(píng)分量表應(yīng)該對(duì)語(yǔ)言使用的得體性進(jìn)行描述,引導(dǎo)學(xué)生在寫作中樹立讀者意識(shí),注意語(yǔ)言使用的得體性”。此外,新手評(píng)分員R11表示:“從11分檔和14分檔的描述語(yǔ)來(lái)看,好像這兩個(gè)等級(jí)的四級(jí)作文就是在錯(cuò)誤數(shù)量上有所區(qū)別。實(shí)際上,14分檔的作文一般用詞上要比11分檔的作文豐富、精準(zhǔn),句型結(jié)構(gòu)也更加豐富,但是CET-4的寫作評(píng)分量表并沒(méi)有體現(xiàn)這些特點(diǎn)?!?/p>
訪談的這一主題與問(wèn)卷調(diào)查的第二道題目?jī)?nèi)容基本一致。這道題目在問(wèn)卷調(diào)查中的得分均值為3.18,表明評(píng)分員對(duì)量表的完整性比較滿意。而在訪談中,卻有50%的評(píng)分員認(rèn)為量表的完整性存在一定的問(wèn)題。當(dāng)被問(wèn)及在問(wèn)卷調(diào)查中是否忠實(shí)地表達(dá)了自己的意見時(shí),評(píng)分員R4說(shuō):“問(wèn)卷調(diào)查的時(shí)間比較短暫,沒(méi)有仔細(xì)思考‘完整性’的含義,所以在問(wèn)卷中還是選擇了比較肯定的選項(xiàng)?!痹撛u(píng)分員的說(shuō)法在一定程度上能夠解釋這道題目在問(wèn)卷調(diào)查時(shí)得分均值較高的原因。
第三,量表為大學(xué)英語(yǔ)教學(xué)提供的反饋信息
由于受訪的12位評(píng)分員都是一線大學(xué)英語(yǔ)教師,他們無(wú)一例外地都表示非常關(guān)注CET-4寫作評(píng)分量表為大學(xué)英語(yǔ)教學(xué)提供的反饋信息。其中67%的評(píng)分員認(rèn)為,目前的量表無(wú)法為大學(xué)英語(yǔ)寫作教學(xué)提供充分、有用的信息。例如,資深評(píng)分員R3指出:“無(wú)論從大學(xué)英語(yǔ)教學(xué)中還是從CET-4評(píng)分中都能看出,寫作在大學(xué)生的聽、說(shuō)、讀、寫四項(xiàng)技能中是最弱的一項(xiàng)。但是不同水平的學(xué)生在寫作中究竟存在哪些問(wèn)題,有哪些地方還需要改進(jìn)和提高,僅僅依靠課堂教學(xué)中教師反饋的信息是不夠的。如果CET-4寫作的評(píng)分量表能夠提供比較詳細(xì)的反饋信息,讓考生明白自己寫作中的問(wèn)題所在,就能幫助他們有針對(duì)性地克服自己的不足,提高寫作水平?!毙率衷u(píng)分員R9則提到:“在CET-4寫作正式評(píng)分前,培訓(xùn)員對(duì)不同水平的樣本作文的特點(diǎn)講解得比較詳細(xì),我在評(píng)分過(guò)程中也會(huì)不時(shí)地回顧這些作文的特點(diǎn)。但是,考生和大學(xué)英語(yǔ)教師無(wú)從得知不同層次四級(jí)作文的具體特征,如果能把這些信息補(bǔ)充到量表中,并在報(bào)道考試成績(jī)時(shí)附帶報(bào)道學(xué)生的作文分?jǐn)?shù)和等級(jí),那么教師和學(xué)生都將從中受益?!?/p>
訪談的這一主題與問(wèn)卷調(diào)查的第四道題目?jī)?nèi)容一致。該題目在問(wèn)卷調(diào)查的六道題目中得分均值最低(2.50),而訪談的結(jié)果恰好能夠解釋這道題目得分較低的原因。從上述分析可以看出,由于所有評(píng)分員都是大學(xué)英語(yǔ)教師,他們迫切希望CET-4寫作評(píng)分量表能為大學(xué)英語(yǔ)教學(xué)提供更加具體、詳細(xì)的反饋信息,從而促進(jìn)大學(xué)英語(yǔ)教學(xué)和學(xué)習(xí)。
第四,評(píng)分培訓(xùn)的作用
訪談中,有42%的評(píng)分員 (三位資深評(píng)分員、兩位新手評(píng)分員)提到了閱卷點(diǎn)組織的評(píng)分培訓(xùn)的作用。其中資深評(píng)分員R2提到:“我參加四級(jí)寫作評(píng)分很多次了,已經(jīng)基本掌握了評(píng)分標(biāo)準(zhǔn)。每次我參加評(píng)分培訓(xùn)都會(huì)重點(diǎn)看一下閱卷點(diǎn)提供的樣本作文,熟悉一下作文的話題。不太需要專門去看評(píng)分量表,因?yàn)闃?biāo)準(zhǔn)已經(jīng)記在我心里了?!倍率衷u(píng)分員R8指出:“評(píng)分培訓(xùn)時(shí),專家對(duì)樣本作文的特征和得分點(diǎn)講解得比較仔細(xì)。但一到實(shí)際閱卷時(shí),還是經(jīng)常不明白該怎么評(píng)分,因?yàn)樵u(píng)閱的作文與樣本作文之間還是有一定的差異。所以,只能時(shí)不時(shí)找出樣本作文進(jìn)行對(duì)比,看看評(píng)閱的作文與哪個(gè)分?jǐn)?shù)段的樣本作文比較接近,然后再給分?!?/p>
從這一訪談結(jié)果不難看出,問(wèn)卷調(diào)查中資深評(píng)分員之所以對(duì)評(píng)分培訓(xùn)的作用比較肯定,可能主要因?yàn)樗麄円呀?jīng)熟悉、內(nèi)化了CET-4寫作測(cè)試的評(píng)分標(biāo)準(zhǔn)。而相比之下,新手評(píng)分員對(duì)評(píng)分培訓(xùn)的作用認(rèn)可度偏低則是因?yàn)樵u(píng)分培訓(xùn)未能幫助他們快速掌握有效的評(píng)分標(biāo)準(zhǔn)。
在考試的開發(fā)和效度驗(yàn)證過(guò)程中,征求考試?yán)嫦嚓P(guān)者的意見十分必要 (如 AERAetal., 2014; Aldersonetal., 1995; Chun, 2008; Karelitz, 2013; Messick, 1989; Fan, 2014)。參與本研究問(wèn)卷調(diào)查和訪談的都是大學(xué)英語(yǔ)教師,他們既是評(píng)分量表的使用者,也是CET-4考試?yán)娴南嚓P(guān)者,因此他們的意見對(duì)于檢驗(yàn)和完善CET-4寫作評(píng)分量表的效度而言十分重要。從研究結(jié)果來(lái)看,盡管評(píng)分員對(duì)目前使用的CET-4寫作評(píng)分量表總體上持肯定態(tài)度,但是該量表在清晰度、完整性、為大學(xué)英語(yǔ)教學(xué)提供的反饋信息量這幾個(gè)方面,仍有待完善和提升。另外,在看待CET-4寫作評(píng)分培訓(xùn)的作用時(shí),資深評(píng)分員和新手評(píng)分員的意見出現(xiàn)了顯著性差異,新手評(píng)分員的看法不如資深評(píng)分員肯定,說(shuō)明現(xiàn)有的評(píng)分量表在評(píng)分培訓(xùn)中的作用也有待于進(jìn)一步加強(qiáng)。根據(jù)Knoch (2009) 提出的評(píng)分量表效度框架,這幾個(gè)方面是體現(xiàn)量表效度的重要指標(biāo),因此對(duì)量表的這幾個(gè)方面進(jìn)行修訂或完善有助于提高CET-4寫作評(píng)分量表的總體效度。
鄒紹艷、高秀雪 (2015)提到他們?cè)诖髮W(xué)英語(yǔ)教學(xué)過(guò)程中發(fā)現(xiàn)學(xué)生的語(yǔ)言表達(dá)空洞,沒(méi)有實(shí)質(zhì)性內(nèi)容,思辨缺席現(xiàn)象嚴(yán)重。如果CET-4寫作測(cè)試的評(píng)分量表能針對(duì)不同水平的寫作表現(xiàn)提供詳細(xì)的診斷性信息,必將對(duì)大學(xué)英語(yǔ)教學(xué)產(chǎn)生積極的后效,從而促進(jìn)教學(xué)的提高。但由于CET-4寫作測(cè)試目前采用的是整體性評(píng)分量表,很難克服這種量表自身的桎梏。根據(jù)Weigle (2002)的觀點(diǎn),整體評(píng)分量表無(wú)法捕捉考生寫作中的具體不足和優(yōu)勢(shì)所在,因而影響考官區(qū)分寫作文本在不同方面的特征,例如詞匯的使用、修辭組織、語(yǔ)法結(jié)構(gòu)的控制和準(zhǔn)確性,更無(wú)法為考生提供有用的診斷性信息。Leeetal. (2008:1)也強(qiáng)調(diào),整體評(píng)分量表的這一缺陷對(duì)于二語(yǔ)學(xué)習(xí)者來(lái)說(shuō)尤為明顯,因?yàn)檫@類學(xué)習(xí)者的寫作水平仍在發(fā)展中,他們可能會(huì)在寫作的不同方面展現(xiàn)出不均衡的特點(diǎn)。雖然CET-4的考生都是處于大學(xué)階段的外語(yǔ)學(xué)習(xí)者,但他們的寫作能力發(fā)展并不均衡 (劉建達(dá) 等,2011; 唐錦蘭 等,2012)。鑒于此,我們建議運(yùn)用實(shí)證方法為CET-4寫作測(cè)試開發(fā)分項(xiàng)評(píng)分量表?,F(xiàn)有文獻(xiàn)表明,分項(xiàng)評(píng)分量表能夠針對(duì)受試者的表現(xiàn),提供診斷性信息,反映受試者的進(jìn)步 (如Hamp-Lyons,1986, 1991; Shaw,2007; Weigle,2002)。而且,分項(xiàng)評(píng)分量表在評(píng)分員培訓(xùn)中的作用更加明顯,因?yàn)榻?jīng)驗(yàn)不足的評(píng)分員更容易理解并應(yīng)用量表中的評(píng)分標(biāo)準(zhǔn) (Weigle,2002; Weir,1990)。
金艷 (2005)指出,CET-4的考試目的一方面是客觀地測(cè)量大學(xué)生的總體英語(yǔ)水平,另一方面期望對(duì)中國(guó)的大學(xué)英語(yǔ)教學(xué)產(chǎn)生積極的后效和影響。目前,相關(guān)研究已經(jīng)證明CET-4寫作測(cè)試的評(píng)分信度比較令人滿意。這說(shuō)明CET-4寫作測(cè)試能夠比較客觀地測(cè)量考生的英語(yǔ)寫作水平。但就考試為教學(xué)帶來(lái)的后效或產(chǎn)生的影響這一點(diǎn)來(lái)說(shuō),CET-4寫作測(cè)試仍有較大的提升空間。因此,本研究建議進(jìn)一步運(yùn)用實(shí)證方法為CET-4寫作測(cè)試開發(fā)分項(xiàng)評(píng)分量表,以便為大學(xué)英語(yǔ)教學(xué)提供更加豐富的診斷性信息,確??荚嚹軌?qū)虒W(xué)產(chǎn)生積極的后效和影響。