許婷 滕麗梅
◆摘? 要:為了全面了解考生英語水平,最常見的就是對學(xué)生聽、說、讀、寫能力進(jìn)行全方位的測試,本文對如何有效對考生能力進(jìn)行有效測試展開討論。
◆關(guān)鍵詞:能力測試;有效性
一、聽力測試
聽力測試是英語技巧中最難測試的一部分,因為我們通過肉眼很難察覺學(xué)生的學(xué)習(xí)測試過程。我們在聽的過程中,大腦是一直語處于活躍狀態(tài)的,我們的大腦需要確定我們聽到的聲音是否就是我們要學(xué)習(xí)的語言,大腦也要積極搜索相匹配的詞,把詞連接成短語,然后再利用我們對世界的認(rèn)知加以理解。
通常情況下我們需要測試學(xué)生的以下三種聽力水平:①測試學(xué)生是否掌握大意(general understanding)。以來自實際生活的聽力材料為例:奇聞異事anecdote,新聞;②測試學(xué)生是否掌握特定信息(specific information)。以酒店前臺工作人員為例,他們在接聽預(yù)定電話時,需要獲取某些特定的要求和信息,比如客人的預(yù)訂電話以及預(yù)定時間等等;③通過聽力材料能否推斷(infer)說話者暗含的意思。比如我們在聽到某個人談?wù)撟闱虮荣?,通過他的語音語調(diào),以及豐富的足球知識,我們可以推斷出,此人平時應(yīng)該是個足球迷,盡管聽力材料中沒有明確指出。
那么我們可以采用什么測試類型(listening formats)呢?
我們聽力測試材料可以包含獨白(monologue),也可以包含對話(dialogue),因為我們現(xiàn)實生活中經(jīng)常會出現(xiàn)這兩種聽力形式,而且兩種題型對聽力的技巧要求也是不一樣的。聽力材料也不易過長,一方面部分學(xué)生可能因為錯過了某個信息導(dǎo)致后面一直跟不上節(jié)奏,二是學(xué)生的短時記憶能力也有所差別,不利于考察學(xué)生的真實的聽力水平。各種測試類型也有自己的優(yōu)勢和劣勢。測試人員現(xiàn)場大聲讀不需要技術(shù)投入,測試者也熟悉口音,但是缺乏真實性;喇叭播放具有經(jīng)濟(jì)性等優(yōu)勢,可是學(xué)生座位位置不同,聽力效果不一致;耳機播放的聽力材料清晰,但是每人佩戴一個,不具經(jīng)濟(jì)性;視頻播放可以模擬現(xiàn)實生活,更具真實性,但是有時分散精力,并且制作成本很高。所以在選擇聽力形式的時候要綜合考慮利弊。
聽力測試的形式可以是選擇題,也可能是以長問題或者短問題的形式回答問題。那怎樣賦分呢?
1.賦分(weighting)
題目的難度不同,分值也應(yīng)不同,題目越難,分值也應(yīng)該越高。
2.partial credit部分得分評判標(biāo)準(zhǔn)
對于開放式問題,要思考以下兩個方面:一是學(xué)生的語法、拼讀甚至標(biāo)點哪些是在可以接受的范圍?哪些必須進(jìn)行扣分?二是 如果學(xué)生只是寫出部分答案,該怎樣賦分呢?以某聽力材料為例,如果正確答案是their new teacher(3分),那么teacher需要得幾分?new teacher可以得幾分?teacher這個單詞拼錯了能不能接受?
3.限制正確答案數(shù)量
對于開放式問題,要限定可能性答案的數(shù)量,否則既浪費閱卷老師的時間,也使閱卷缺乏客觀性。
二、閱讀能力測試
現(xiàn)如今,人們的閱讀方式發(fā)生了變化,從主要依賴書本變成了通過電腦、平板、手機等多種渠道獲取閱讀信息,但是知識的獲取過程是沒有變化的。我們認(rèn)知單詞、短語和句型結(jié)構(gòu),我們的大腦利用對篇章結(jié)構(gòu)的內(nèi)部聯(lián)系和背景知識,理解所讀文章的意義。閱讀篇幅比較長的文章時,根據(jù)閱讀的目的,我們的閱讀方式是不一樣的。我們可能會迅速閱讀,獲取篇章的大意或者尋找特定信息。我們也可以慢慢仔細(xì)閱讀,以便獲取詳細(xì)的信息。不管以何種方式閱讀,不論我們讀什么,我們的大腦都在飛快運轉(zhuǎn)工作,以獲取文章表達(dá)的含義。
設(shè)計一項成功的閱讀測試,無論是計算機測試還是紙質(zhì)測試,我們應(yīng)該使我們的測試盡可能的材料關(guān)聯(lián)并且有意義;也應(yīng)該把課文和任務(wù)適當(dāng)結(jié)合起來。一要注意測試和閱讀材料有盡可能多的相關(guān)性和意義性,二要注意把測試題目和閱讀材料有效結(jié)合在一起。
測試的閱讀材料要有以下主要特點:難度適中。閱讀材料既不太難,也不太簡單,學(xué)生能夠通過克服困難完成閱讀任務(wù)。長度合適,含有足夠所多的細(xì)節(jié)。不借助背景知識,信息可以直接從閱讀材料中找到。比如有個考題詢問荷蘭的國花是什么?學(xué)生根本就不需要閱讀文章借助背景知識就能給出答案,也不要出現(xiàn)部分考生因為更熟悉某些內(nèi)容而具有測試優(yōu)勢的現(xiàn)象。閱讀材料不應(yīng)帶有任何文化歧視,以免引起閱讀者不適。
閱讀測試的類型可以是選擇正確的答案,選擇段落適合的中心句或者總結(jié),簡要回答問題,完成表格,寫總結(jié),排序等等。
為了保證測試的公平公正,提出以下建議:題目要求必須清晰,測試者清楚知道自己的每一個任務(wù)。時間要相對充足。最重要的就是學(xué)生應(yīng)該清楚的知道答案會被如何賦予分值。閱卷老師閱卷時,應(yīng)該清楚知道每一個問題只有一個正確答案,如果是個短問題,正確答案的數(shù)量也是有限的,閱卷老師們也應(yīng)該達(dá)成一致意見。如果要求寫的答案比較長,那么閱卷老師也應(yīng)該就語法、拼寫和標(biāo)點錯誤的扣分問題達(dá)成一致。
總之,有效的閱讀測試能夠提供測試者閱讀能力的有效信息。這就意味著必須選擇正確的閱讀材料,確定最合適的測試任務(wù),有效進(jìn)行打分,所有的這些都需要花費時間和精力,運用經(jīng)驗以及極強的判斷力。
三、寫作能力測試
有些人寫作是因為愛好,有些人寫作是因為工作。我們寫作的形式也發(fā)生了變化,比如我們已經(jīng)不像以前那樣寫信了,可是我們依舊需要發(fā)送電子郵件,編輯微信社交語言等。我們在寫作的時候,要考慮以下幾個特征:首先是寫什么的問題:也就是寫作的主題,寫作的目的;再就要考慮讀者;還要考慮怎樣寫:也就是需要構(gòu)思寫作的結(jié)構(gòu),選擇合適的詞語,運用適當(dāng)?shù)恼Z法,傳達(dá)作者的本意。
在確定測試者寫作的內(nèi)容時,我們應(yīng)該考慮以下問題:寫作的成績用來作為什么目的?是用來分流考生還是用來作為等級測試或升學(xué)考試等目的?還要了解測試者的年齡、興趣、英語水平等。我們可以用寫作來詢問信息,做出評價等,根據(jù)閱讀對象的不同,寫作的正式性也受影響。例如同樣的賓館住宿的這件事情,如果你跟朋友敘述,可以用非正式的文體,和朋友抱怨或者炫耀一會,但是你要給酒店經(jīng)理寫信,就得用正式文體,格式、語言,目的等都應(yīng)有相應(yīng)的變化。
那么怎樣賦分呢?目前有兩種賦分方式可以借鑒:一種是學(xué)生日常最常見的一種方式叫做綜合評分法(global rating),就是教師根據(jù)寫作的綜合表現(xiàn)權(quán)衡后給出一個分?jǐn)?shù),另一種就是像雅思寫作評分標(biāo)準(zhǔn)一樣使用分析性評分標(biāo)準(zhǔn)(analytic rating)。兩種方法各有利弊,如果測試的規(guī)模比較小,教師的目的就是了解學(xué)生的基本寫作水平,那么教師可以根據(jù)以往的教學(xué)和閱卷經(jīng)驗采用綜合評分法即可,但是這種方法的準(zhǔn)確性就不如分析性測試那么準(zhǔn)確了;如果測試的目的想全面了解學(xué)生的詞匯、語法等各方面的能力,測試的范圍比較廣,閱卷者比較多,為了測試的客觀準(zhǔn)確性,可以采用分析性評分標(biāo)準(zhǔn),不過這種方法也是有弊端,那就是在制定測試標(biāo)準(zhǔn)的時候比較費時間,測試標(biāo)準(zhǔn)是否具有有效性很關(guān)鍵,對閱卷老師提出的時間、能力等各方面的要求也更高?,F(xiàn)在又出現(xiàn)了一種新型的閱卷方式,那就是采用計算機軟件協(xié)助閱卷,比如在外研社舉辦的高等職業(yè)院校寫作比賽中就采用計算機評分系統(tǒng)協(xié)助閱卷,希望這種體系越來越完善,能夠更好地協(xié)助人工寫作閱卷工作。
四、口語測試
我們每個人幾乎每天都在說話,跟我們的同事,朋友家人,甚至是我們自己,我們在說的時候大腦也在不停地工作,根據(jù)說話對象和環(huán)境的不同,我們大腦也在不斷組織語言,把聽到的信息,結(jié)合已有知識,根據(jù)交流的目的,轉(zhuǎn)變成長時記憶,然后組織成可供交流的語言。
測試口語時要考慮很多問題,比如:測試的目的是什么?測試我要設(shè)計什么樣的任務(wù)?測試的對象人數(shù)是多少?什么職業(yè)?測試的時間是什么?需要現(xiàn)場測試還是錄音?錄音要采用的科技手段是平板、錄音機還是耳麥?
為了有效測試說的能力,我們要設(shè)法重現(xiàn)說話者大腦的活動以及所描述的社會活動。最常見的測試說的能力的方式就是面試,考生根據(jù)考官的問題回答問題,或者和搭檔做一個對話,或者作為小組成員展開討論,共同解決某個問題,測試的任務(wù)常見的有描述——某幅畫,某個地方,某個人,或者某個事情;講故事:根據(jù)圖畫講故事;對比事物:可以是現(xiàn)實生活中真實的實物、圖片、藝術(shù)作品,甚至是某些抽象的想法;講述個人信息:興趣愛好,家鄉(xiāng)、喜聞樂見等等。
測試的方式可以通過電話錄音測試,也可以通過面對面測試。評分標(biāo)準(zhǔn)有的可以設(shè)計比較簡單,有的可以根據(jù)需要設(shè)計地比較復(fù)雜,復(fù)雜的評分標(biāo)準(zhǔn)往往也是更公平有效的,但是相對更難設(shè)計,使用起來也更耗時費力。那么電腦評分能不能幫助我們減輕負(fù)擔(dān)呢?目前,電腦也只是輔助手段,人機交互技術(shù)還需要進(jìn)一步提高。
參考文獻(xiàn)
[1]Hughes,A.Testing for Language Teachers.Cambridge University press,2003.
[2]Weigle,S.C.Assessing Writing.Cambridge University Press,2002.
[3]Alderson,J.C.Assessing Reading.Cambridge University Press,2000.
[4]Buck,G.Assessing Listening.Cambridge University Press,2001.
作者簡介
許婷,第一作者。
滕麗梅,第二作者。