孫桐
聽力理解測量是一項復(fù)雜的技術(shù), 優(yōu)質(zhì)的任務(wù)設(shè)計是測試效度的重要保障(Field,2013),是聽力測試開發(fā)和使用過程中的核心問題。 盡管21 世紀以來,學(xué)界已圍繞聽力理解理論模型、聽力理解策略、相關(guān)效度驗證框架、 特定任務(wù)特征及后效作用等話題開展了一定數(shù)量的研究(Buck,2001;Field,2008;Rost,2002,2011;Vandergrift and Goh,2012;Geranpayeh and Taylor,2013;Wagner,2014;Goh and Aryadoust,2016), 但尚未有文獻針對聽力測試設(shè)計與開發(fā)的實踐技術(shù)提供全面且深入細致的指導(dǎo)。 針對這一空缺,Rita Green 憑借多年語言測試設(shè)計開發(fā)及培訓(xùn)的經(jīng)驗,撰寫了《聽力測試設(shè)計:實用方法介紹》(Designing Listening Tests:A Practical Approach)一書,介紹聽力測試設(shè)計的科學(xué)原則、方法、步驟和流程, 由 Palgrave Macmillan 出版社于 2017 年正式發(fā)行。 該專著針對聽力測試的設(shè)計與開發(fā)進行了全面系統(tǒng)的介紹,搭建了理論和實踐之間的橋梁,為語言測試的開發(fā)者、 使用者及研究人員的工作帶來了便利。 本文將介紹這一著作主要內(nèi)容,總結(jié)其主要特色及不足之處,并提出改進建議。
該著作共分七章, 每章分別由一個簡潔的問題作為標題引導(dǎo), 各章編排以嚴謹?shù)倪壿嬳樞蛲暾尸F(xiàn)了聽力測試設(shè)計與開發(fā)的重要理念、 步驟和程序等相關(guān)內(nèi)容。 第一章為全書引言和對聽力測試開發(fā)流程的簡介。 第二章和第三章分別從測試設(shè)計細則(test specifications)和語音文件的開發(fā)利用等方面細致講解了任務(wù)設(shè)計之前的準備工作。 第四章和第五章詳細介紹了不同聽力測試任務(wù)類型設(shè)計中的注意事項、方法與原則:首先收集總結(jié)相關(guān)理念,其后通過實例分析,展示任務(wù)設(shè)計實踐。 第六章和第七章聚焦于聽力測試的結(jié)果分析和使用方法, 包括對聽力任務(wù)試測及改進的探討, 以及測試分數(shù)的報告和解讀方式。
第一章名為 “聽力測試涉及哪些問題 (What is involved assessing listening?)”,是該書的引言,言簡意賅地介紹了聽力測試的基本問題, 作為其余章節(jié)的基礎(chǔ)。 作者首先追隨聽力理解研究的最新成果,基于Field(2013)的理論模型探討了聽力理解過程的本質(zhì)和特點。 其后,分別從聽力的目的、聽者特征、聽覺輸入的特點以及口頭和書面用語的差異等方面介紹了聽力理解的多樣性。 在此基礎(chǔ)上,該章總結(jié)了影響聽力理解難度的主要因素, 包括與語音材料的性質(zhì)、信息加工的復(fù)雜性、聽力輸入、聽力任務(wù)、收聽環(huán)境以及說話者和聽者自身相關(guān)的一系列特征。 最后該章解釋了聽力的用途及聽力測試的重要意義,并在小結(jié)中完整介紹了聽力測試開發(fā)的循環(huán)性流程。該流程從測試開發(fā)者培訓(xùn)、 試題設(shè)計的準備工作開始,直到測試實施后的結(jié)果分析,共16 個主要步驟,各步驟之間存在較為錯綜復(fù)雜的聯(lián)系。
第二章名為 “測試設(shè)計細則有何助益(How can test specifications help?)”,全面介紹了 “測試設(shè)計細則” 的概念、涵蓋的內(nèi)容及使用原因,并在小結(jié)中為讀者提供了普適的測試設(shè)計細則模板。 這一章開篇指出,測試設(shè)計細則應(yīng)在測試正式設(shè)計之前撰寫,它是考試設(shè)計的綱領(lǐng)、規(guī)劃和藍圖,在測試開發(fā)全程中都發(fā)揮著關(guān)鍵作用。 隨后描述了聽力測試設(shè)計細則中應(yīng)包含的各方面信息,包括測試目的、考生特征、測試構(gòu)念、 聽力材料以及任務(wù)設(shè)計等方面的詳細規(guī)劃。 作者指出,測試設(shè)計細則是聽力測試質(zhì)量的重要保障,有利于構(gòu)念界定的明確性、任務(wù)與測量目標對應(yīng)的合理性, 還可有效促進測試開發(fā)團隊的合作成效。 最后,第二章以一個表格(表2.6)作為測試設(shè)計細則的模板,并將該章主要內(nèi)容在表中作了總結(jié)。
第三章名為 “如何開發(fā)聲音文件(How do we exploit sound files?)”, 詳細講解了幫助聽力測試科學(xué)選材的 “語篇制圖(textmapping)” 技術(shù)。 該章在介紹了 “語篇制圖” 技術(shù)的緣起之后,對這一概念進行了界定,并描述了其基本特征。 語篇制圖是測試開發(fā)中對音頻材料或文本內(nèi)容集體意義構(gòu)建的系統(tǒng)性流程。 在聽力測試中,語篇制圖必須以音頻文件為分析和判斷的基礎(chǔ)。 參與者應(yīng)將自己視為真實語境中的聽者,而非測試設(shè)計者,并在收聽語音文件后根據(jù)特定要求匯報自己真實理解的內(nèi)容。 對于每個獨立的聽力語篇, 測試開發(fā)者需要至少與3 位工作人員合作,并確定大多數(shù)人對特定內(nèi)容理解一致,該材料才能進入任務(wù)設(shè)計環(huán)節(jié)。 其后,這一章詳細探討了三種不同的語篇制圖流程, 分別基于測量主旨要義(gist)、細節(jié)性信息(specific information and important detail,簡稱SIID)以及主要觀點和支撐性細節(jié)(main ideas and supporting details, 簡稱 MISD) 的聽力材料。 這三種流程雖然在細節(jié)上有所差異,但都涵蓋五個主要步驟:(1)合理選材并組織相關(guān)人員;(2)介紹語篇制圖的目的和具體任務(wù)要求;(3)播放聽力錄音并記錄聽者收集的信息;(4)整理、分析相關(guān)信息,并以表格歸納多數(shù)人共同理解的意義;(5)根據(jù)語篇制圖分析的結(jié)果, 決定聽力材料是否直接進入任務(wù)設(shè)計環(huán)節(jié)。 第三章進一步指出,某些首次無法通過的聽力材料, 可以改變測量目標, 并重復(fù)語篇制圖的流程。 在進行結(jié)果分析前,測試開發(fā)者還可調(diào)查聽者對聽力材料的難度、 話題適切性及語篇長度等方面的感受,作為材料適用與否的輔助性證據(jù)。
第四章名為 “如何設(shè)計聽力任務(wù)(How do we develop a listening task?)”, 主要介紹聽力測試試題編寫中的實用方法和原則。 這一章首先介紹了一種制作 “任務(wù)名片(task identifier)” 的實用方法,以便收集有關(guān)任務(wù)的重要信息。 其后,探討了任務(wù)設(shè)計中需重點考慮的因素,包括任務(wù)說明、測試方法、聽力材料、輸入和輸出形式、 外觀設(shè)計以及評分等多個方面的問題。 作者重點總結(jié)了聽力測試中常見任務(wù)類型如多項選擇題 (Multiple Choice Questions)、 簡答題(Short Answer Questions) 和 多 項 匹 配 題 (Multiple Matching)的特點,并詳盡列舉了任務(wù)編寫的各個方面及同行審查(peer review)中的注意事項,為試題設(shè)計的實踐工作提供了實用參考。
第五章名為 “何謂優(yōu)質(zhì)的聽力任務(wù)(What makes a good listening task?)”,對一系列典型的聽力測試任務(wù)設(shè)計進行了細致的評析。 該章共選擇了八個聽力任務(wù),涵蓋了第四章中提及的多項選擇題、簡答題和多項匹配題全部三種任務(wù)類型。 前三個任務(wù)為不同形式的多項匹配題(問題與答案的匹配、圖片匹配題和句子首尾匹配),任務(wù)四和任務(wù)五為問答形式的簡答題, 任務(wù)六為填空類簡答題, 任務(wù)七為圖片選擇題,任務(wù)八是四選項的多項選擇題。 對于每個任務(wù),作者主要從語音文件和任務(wù)特征等方面對其設(shè)計進行評價;對于任務(wù)特征,從聽力能力(listening behavior)、測試方法的適切性和外觀形式等三個方面分別評析。 最后,該章總結(jié)了一個合格的聽力任務(wù)所具備的五種特征:任務(wù)構(gòu)念的有效測量、清晰明確的任務(wù)說明、合理的測試方法、適切的選材以及合適的語音材料。
第六章名為 “如何知曉聽力任務(wù)的效果(How do we know if the listening task works?)”,詳細介紹了聽力測試試測階段的實踐工作。 這一章首先指出了試測的重要意義, 并討論了其對測試開發(fā)各個環(huán)節(jié)以及任務(wù)設(shè)計不同方面的益處。 其后,詳細說明了聽力測試試測準備和實施過程中需注意的問題。 最后,介紹了試測結(jié)果的處理方法。 在講解數(shù)據(jù)分析的用途之后, 作者列舉了試測需匯報的量化指標 (作答頻率、區(qū)分度、信度和難度系數(shù)等),并講解了基于數(shù)據(jù)分析結(jié)果的不同決策(測試項目的棄用、改進及存檔)。
第七章名為 “如何報告分數(shù)并設(shè)置合格標準(How do we report scores and set pass marks?)”,主要介紹了聽力測試分數(shù)匯報和標準設(shè)定(standard setting)的方法與原則。該章首先介紹了測試分數(shù)報告的不同形式和主要方法。 其后,對標準設(shè)定的概念、意義及過程進行了詳細的講解。 所謂標準設(shè)定是測試通過科學(xué)的方法和流程設(shè)立其分數(shù)線的過程, 該章以CEFR 中的聽力水平等級為參照標準,描述了對相關(guān)人員進行培訓(xùn)的方法以及設(shè)定分數(shù)線的操作程序。 此外,這一章介紹了 “測試人員會議(stakeholder meetings)”, 作為在條件有限的情況下,標準設(shè)定的另一種形式;還建議以提供任務(wù)樣例和網(wǎng)站建設(shè)等形式,作為標準設(shè)定的補充性信息的來源。 最后,該章還簡明地論述了測試結(jié)束后項目分析的必要性,并指明了相關(guān)的統(tǒng)計方法。
《聽力測試設(shè)計:實用方法介紹》是學(xué)界首部系統(tǒng)全面地介紹聽力測試設(shè)計與開發(fā)的著作,為聽力理解研究、聽力教學(xué)及測評的理論和實踐之間搭建了橋梁。 在現(xiàn)有的經(jīng)典著作中,Buck(2001)對聽力測試的理論和實踐進行了綜合性介紹,Rost(2002,2011)和 Field(2008)主要關(guān)注聽力理解過程的本質(zhì)以及聽力教學(xué)中的重點問題,Vandergrift和Goh (2012) 聚焦于聽力測試中的元認知策略,Geranpayeh 和Taylor(2013)的著作則圍繞聽力測試的 “社會認知效度驗證框架(Socio-Cognitive Validation Framework)” 進行。 這些著作雖然或多或少地包含了聽力測試研發(fā)的問題, 但從未面面俱到、細致入微地講解過測試任務(wù)設(shè)計和開發(fā)的步驟、流程及原則。 Rita Green 的著作填補了學(xué)界對聽力測試設(shè)計與開發(fā)實踐性指導(dǎo)的空缺,使得眾多語言測試開發(fā)人員、研究者、教師以及教材開發(fā)者能夠遵循系統(tǒng)規(guī)范的流程, 設(shè)計出高質(zhì)量的聽力測試任務(wù)。相關(guān)程序按照其邏輯順序, 貫穿于全書各章節(jié)中,具體步驟經(jīng)過串聯(lián),形成了一套清晰、嚴謹、精密的循環(huán)性的流程(見著作1.7.1 小節(jié)),便于讀者學(xué)習參考。
該著作的具體內(nèi)容也獨具特色,主要體現(xiàn)在聽力材料的選擇、多樣化的任務(wù)設(shè)計和全面的典型案例分析等三個方面。 首先,對于聽力測試的選材,該著作在第三章中主張以 “語篇制圖” 的方法,盡可能還原真實的聽力理解語境,并通過征求大多數(shù)聽者的統(tǒng)一解讀方式,科學(xué)嚴謹?shù)嘏袛嗪蜻x語音材料是否適合測量選定的聽力技能。 這一輪篩選注重聽力材料的真實性和實用性,可以為后續(xù)的任務(wù)設(shè)計環(huán)節(jié)節(jié)省時間和精力,是著作中的一大亮點。 其次,該著作還對不同任務(wù)類型在設(shè)計方法和原則方面的差異進行了細致的辨析和探討。 第四、五兩章中,聽力任務(wù)被分為三個主要類別, 分別為多項匹配題、簡答題和多項選擇題。 特別值得稱贊的是,聽力多項匹配題在該著作中被視為獨立的任務(wù)類型,其獨有的特色也得到了充分重視,這比起認為該任務(wù)類型是 “多項選擇題的一種變體” 的傳統(tǒng)觀點(Elliott and Wilson 2013:166)無疑是一種進步。 再次,針對三個主要類別的聽力測試任務(wù),該著作在第五章中以八個鮮明生動的任務(wù)實例分析,展示了豐富多彩且科學(xué)嚴謹?shù)娜蝿?wù)設(shè)計,彰顯了語言測試的科學(xué)與藝術(shù)。 這些任務(wù)用途廣泛,在不同水平的標準化測試、聽力教學(xué)、課堂評價以及教材開發(fā)中都可應(yīng)用。
這一專著當前內(nèi)容為2017 年發(fā)行的第一版,難免存在一些不足之處,有待在未來版本中不斷改進。 本文在此提出四個針對細節(jié)性內(nèi)容的建議。
首先,該著作中涵蓋的測評形式和內(nèi)容尚且比較局限,現(xiàn)實中的聽力測試任務(wù)設(shè)計開發(fā)往往較之更為復(fù)雜。 例如,聽力測試中的視覺元素研究當前頗受關(guān)注,學(xué)界一直在探索視頻和圖片輔助型聽力任務(wù)的理論價值及應(yīng)用效果 (如 Batty,2015;Suvorov,2015),相關(guān)研究反映了聽力評價研究的一種未來發(fā)展趨勢(Wagner,2014)。 遺憾的是,視覺元素雖然在Green 的著作中有所涉及,但并未作為重點深入探討(Yang and Wu,2017)。 建議該著作在未來版本中詳細介紹聽力測試的配套視頻、靜態(tài)照片及圖表等內(nèi)容的設(shè)計方法和使用原則。
其次,該著作對多項匹配題的設(shè)計原則和任務(wù)特征的部分認識還有待商榷。 第四章中提到匹配任務(wù)在試測中應(yīng)設(shè)置干擾項,以避免 “完美匹配(perfect matching)” 的情況(Nitko and Brookhart,2011),降低考生以排除法猜對答案的可能性。 但在多項匹配題任務(wù)設(shè)計的實踐中, 干擾項的設(shè)置主要針對每個選項只能使用一次的匹配任務(wù), 而對于每個選項可使用不止一次的情況, 干擾項的設(shè)置就并非是必需的。 如CPE 聽力測試2013 年以前曾經(jīng)使用的 “三項匹配題(3-way matching)”,全部項目共享三個可允許多次選擇的共同選項(Boroughs,2003;Elliott and Wilson,2013);以及 FCE 測試“閱讀和語言運用” 部分沿用至今的段落匹配題,實質(zhì)上是一種 “四項匹配題(4-way matching)”,比三項匹配題多一個選項, 同樣不設(shè)干擾項 ( 孫桐,2019)。 此外,第五章任務(wù)三的句子首尾匹配題(名為A Diplomat Speaks)中,由于很多句子開頭和結(jié)尾的語法結(jié)構(gòu)和內(nèi)容差別較大, 可能會導(dǎo)致考生容易根據(jù)題干和選項的內(nèi)容猜對答案, 這一問題必將損害該任務(wù)的效度。 新版著作可考慮改進任務(wù)設(shè)計或更換案例。
再次,該書對 “簡答題” 的分類似乎有欠精準,因其囊括了直接回答問題以及句子填空等多種形式。在一些標準化聽力測試中,簡答題的界定十分明確具體,如 Field(2013)、Elliott 和 Wilson(2013)都將Green 所指的“簡答題” 稱為“建構(gòu)性作答方式 (constructed response format)” 的 任 務(wù) , 包 括 “ 句子及摘要填空題”、“圖表填空題” 和 “筆記填空題” 等類別。 在 IELTS 中,“簡答題” 僅限直接以簡短的文字回答問題的任務(wù), 獨立于與另外幾種填空任務(wù) (Cambridge English Language Assessment,2016)。 因此,建議該書選用 “建構(gòu)性作答方式” 這一概念,或?qū)?“簡答題” 的概念及分類做出明確、清晰的闡釋。
最后,第二章末尾處提供的測試設(shè)計細則模板內(nèi)容太過籠統(tǒng),真實性有限。 建議使用一個標準化聽力測試的實例,并置于附錄中。 此外,可考慮在表格中總結(jié)詳細的任務(wù)特征,并呈現(xiàn)具體任務(wù)與測試構(gòu)念之間的對應(yīng),如此可增強內(nèi)容的指導(dǎo)性。
作為首部全面系統(tǒng)介紹聽力測試設(shè)計開發(fā)的著作,該書雖然存在不足之處,但其重要價值不容忽視,可為標準化聽力測試、聽力課堂測評設(shè)計與應(yīng)用、聽力教材開發(fā)以及聽力測試學(xué)術(shù)研究提供理論支持和實踐指導(dǎo)。 可將該著作作為重要參考,評價和反思我國聽力測試設(shè)計與開發(fā)的實踐工作,提高測試開發(fā)者和使用者的評價素養(yǎng),促進相關(guān)領(lǐng)域的發(fā)展。