吳昊 韓葉
(海軍軍醫(yī)大學(xué)國際軍事醫(yī)學(xué)交流中心外語教研室,上海 200433)
寫作作為英語的輸出性技能之一,在評價學(xué)生語言知識的吸收和應(yīng)用上扮演著非常重要的角色。文章重點比較了兩種常用的寫作評價方法:分析性評價和整體性評價。采用 Bachman和 Palmer(1996)的《測試效用框架》(framework of test usefulness),文章從信度、效度和實用性等角度對兩種評價方式進行了對比。最后,基于比較分析中提到的理論和實證發(fā)現(xiàn),文章為寫作教學(xué)和評價給出了一系列建議。
分析性評價(analytical assessment)是一種對評價標準中各個維度分別打分并將總分或加權(quán)分數(shù)作為評價結(jié)果的評價方式。成績一般以字母、數(shù)字或百分比等形式體現(xiàn)。分析性評價關(guān)注應(yīng)試者在各個維度中的表現(xiàn),每一個維度的評價過程相對獨立。在寫作測試中,評分員可以分別給詞匯、語法、篇章結(jié)構(gòu)、連貫性等維度制定評價標準,然后依照這些評價標準給應(yīng)試者的各項表現(xiàn)逐一打分,取總成績或者加權(quán)分數(shù)。
整體性評價(holistic assessment)是一種綜合考慮評價標準后直接給出評價結(jié)果的評價方式。評分員將應(yīng)試者的表現(xiàn)對標到評價標準中的對應(yīng)等級并給出評價結(jié)果。成績一般以字母、數(shù)字或百分比等形式。在評價過程中,評分員給出的分數(shù)反映了他們對應(yīng)試者在任務(wù)中的表現(xiàn)的總體印象。評分員需要經(jīng)過嚴格的培訓(xùn)以保證他們的判斷符合評分標準的要求。
本節(jié)采用Bachman和Palmer(1996)提出的《測試效用框架》重點對比兩種評價方式的四個核心特點:信度、結(jié)構(gòu)效度和實用性,并引用實證研究的發(fā)現(xiàn)加以佐證。
評價方式的信度指的是不同評分員對于應(yīng)試者表現(xiàn)的判斷具有多高的一致性。較高的信度意味著評分員多數(shù)情況下都能夠給出一致的評價結(jié)果。評價實操通常關(guān)注兩種信度:評分員間信度(inter-rater reliability)和評分員內(nèi)信度(intra-rater reliability)。前者衡量不同評分員對同一試卷的評價一致性,而后者衡量同一位評分員對同一試卷進行多次評價的一致性。
分析性評價通常比整體性評價具有更高的信度。在Ghalib和Al-Hattami(2015)的研究中,三名專業(yè)評分員在接受了兩個小時的培訓(xùn)后為30名英語專業(yè)學(xué)生的寫作試卷打分。評分員首先使用整體性評價對30篇稿件進行評分,然后使用分析性評價為同一批文章打分,為保證兩次評價的獨立性,時間間隔為一個月。當三名評分員使用分析性評價時,評分員間的差異不顯著,但當他們使用整體性評價時,差異顯著。這表示分析性評價的評價結(jié)果一致性和可靠性更高。此外,類內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient)表明,當三位評分員使用分析性評價時,他們的類內(nèi)相關(guān)系數(shù)更高,更高的類內(nèi)相關(guān)系數(shù)意味著更高的評分員內(nèi)信度。
在之后的研究中,Knoch(2009)訓(xùn)練了10位評分員對100份稿件進行評分,發(fā)現(xiàn)在大學(xué)學(xué)術(shù)英語的教學(xué)環(huán)境下,分析性評價比整體性評價具有更高的評分員間可靠性,這彌補了Ghalib和Al-Hattami的研究中缺乏評分員間信度測量的問題。此外,在一項類似的研究中,Zhang等人通過分層抽樣從5,000名中國EFL學(xué)生中選取了300份答卷,得到的結(jié)論與Ghalib和Al-Hattami一致。
以上研究發(fā)現(xiàn)均可以有力支持分析性評價比整體性評價具有更高的信度。但是,目前大多數(shù)有關(guān)評價方式的研究都集中在大學(xué)英語教學(xué)背景下,其他語言學(xué)習(xí)環(huán)境下(如中小學(xué)、校外語言學(xué)習(xí)中心、其他語種的學(xué)習(xí))的實證研究開展不足。未來的研究可以考慮在更多學(xué)習(xí)環(huán)境下開展,以使論點的普適性更強。
評價方式的效度指的是評價的準確性,反映了測試內(nèi)容在多大程度上吻合教學(xué)內(nèi)容的安排。在效度的各個維度中,建構(gòu)效度最受關(guān)注。寫作測試的建構(gòu)效度指的是一次寫作測試能夠在多大程度上將應(yīng)試者在不同技能上的表現(xiàn)區(qū)別開來,建構(gòu)效度越高,這種能力就越強。一般來講,分析性評價比整體性評價具有更高的建構(gòu)效度。以上文提到的雅思寫作測試和托福寫作測試做對比,雅思寫作測試給應(yīng)試者的各項寫作能力分別評分,這樣每項技能的表現(xiàn)都可以區(qū)分開來,例如某位應(yīng)試者在語法多樣性和準確性這一項的表現(xiàn)只得到了5分,但這并不影響他在詞匯豐富程度這一項得到6分,這樣就避免了評分員因個人喜好給某個維度賦予更多權(quán)重,從而對整個測試評價過程的信度帶來負面影響。
相比之下,整體性評價根據(jù)評分員的總體印象給出一個單一的分數(shù),這是其結(jié)構(gòu)效度相對較低的主要原因。畢竟整體性評價不能像分析性評價那樣對每一個維度分別評價。結(jié)構(gòu)效度低的評價方式在報告成績時會給應(yīng)試者帶來一定程度的消極感受:例如,托福寫作測試采用整體性評價,考生備考時很難很快理解3分的作文比4分的作文差在哪里,是連貫性,文章結(jié)構(gòu),還是詞匯準確度?即使是評價經(jīng)驗豐富的教師拿到這樣兩份試卷后做出的解釋也不一定和評分員給出評價時的原因相同,因為如果這位評分員因個人喜好更看重文章結(jié)構(gòu),而這份試卷的結(jié)構(gòu)恰好完整且清晰,那么這份試卷拿到高分的可能性便會大大增加,反之亦然。
評價方式的實用性衡量的是整個評價過程所需的人力、財力和時間成本。在大多數(shù)情況下,評價周期拉得越長,成本越高。研究表明,在對同一份樣卷進行評價時,整體性評價所花費的時間遠遠少于分析性評價,因為使用分析性評價的評分員需要更多的時間給每個維度逐一評分。此外,如果分析性評價因其側(cè)重點在設(shè)計過程中賦予了各個維度不均等的權(quán)重,用于計算最終得分的時間將會更久。研究表明,分析性評價在評分員培訓(xùn)中所花費的時間是整體性評價的兩倍,在正式評價環(huán)節(jié)中所花費的時間更是整體性評價的四倍。在Zhang等人(2015)的研究中,同一批14名評分員對300份英語寫作樣本進行評分,使用分析性評價需要花費多達8.5天,而整體性評價僅花費了1.5天,兩者相差5.7倍。很顯然,與分析性評價相比,整體性評價的“性價比”更高。
首先,評價方式的選擇應(yīng)該考慮測試的目的。由于整體性評價的實用性很高,它經(jīng)常作為大規(guī)模評價或在有限時間、有限資源內(nèi)完成的緊急需求下的首選評價方式。然而,如果一次寫作測試是為了向教師和學(xué)生提供診斷性信息,分析性評價無疑是更好的選擇。研究表明,分析性評價可以提高評分的透明度、提升評分員內(nèi)信度和評分員間信度、激發(fā)教師對教學(xué)實踐的反思以及促進學(xué)生進行自我感知和評價。
其次,評價標準的設(shè)計應(yīng)當清晰、明確、合理。一份合格的寫作評價標準應(yīng)該對寫作技能的定義、得分方式、各個維度的權(quán)重以及分數(shù)的反饋方式有精確的解釋。此外,如果測試的目的是評價某一特定語言技能的掌握情況,那么評價標準應(yīng)當給出明確的側(cè)重點。例如,如果教師希望用寫作測試考察英語初學(xué)者對于過去式的掌握和運用,那么語法的準確性應(yīng)該被賦予更多的權(quán)重,相反對于初學(xué)者來說文章結(jié)構(gòu)和語義連貫性這些高階技能不應(yīng)該成為本次測試的重點。此外,教師也應(yīng)當考慮在本次測試中采用分析性評價,因為它可以在調(diào)整語法技能在評價標準中的權(quán)重的同時提供給學(xué)生更詳細的反饋,例如,將語法技能增加到50%,而將剩余的50%分配給詞匯、文章結(jié)構(gòu)、文章內(nèi)容等方面。
評價標準確立后,還需要進行評價標準的培訓(xùn)和樣卷的試評和解析。評價標準培訓(xùn)的主要目的是保證評價標準的信度和效度。測試的組織者應(yīng)當帶領(lǐng)評分員認真核對答案、學(xué)習(xí)評價標準和評價要求。此外,提供樣卷的試評和解析是最有助于保證信度和效度的方式之一。樣卷的數(shù)量不必過大,3到10份具有代表性的樣卷就足以幫助評分員在評價前對應(yīng)試者的群體水平有一個大致的了解,也可以保證評分員在評價實操中快速回顧和參考。相關(guān)研究表明,大部分的評分員對于樣卷的依賴程度很高,尤其是在處理疑難答卷時(如處于及格邊緣、優(yōu)秀邊緣的答卷),樣卷往往可以提供非常有效的參考。
文章通過對比發(fā)現(xiàn),分析性評價因其給每個維度逐一打分的特質(zhì),具有更高的信度、結(jié)構(gòu)效度。相比之下,整體性評價因其只需打一次分數(shù),在時間和人力成本上具有更強優(yōu)勢。兩種評價方式對應(yīng)不同的測試需求,教師應(yīng)當綜合考慮測試的目的和測試結(jié)果的功能。此外,測試發(fā)起方應(yīng)當制定規(guī)則合理、描述清晰的評價標準,并進行全面的評價培訓(xùn)以保證測試的信度和效度。