鄒紹艷
(1.上海交通大學(xué) 外國語學(xué)院,上海 200240;2.青島農(nóng)業(yè)大學(xué) 外國語學(xué)院,山東 青島 266109)
?
語料庫在語言測試中的應(yīng)用:回顧與反思*
鄒紹艷1,2
(1.上海交通大學(xué) 外國語學(xué)院,上海 200240;2.青島農(nóng)業(yè)大學(xué) 外國語學(xué)院,山東 青島 266109)
近年來,語料庫在語言測試領(lǐng)域的應(yīng)用得到廣泛認(rèn)可,其應(yīng)用潛力和前景也備受關(guān)注。本文首先回顧并梳理了語料庫在國際語言測試領(lǐng)域四個方面的應(yīng)用:考試開發(fā)、考試效度驗(yàn)證、自動評分系統(tǒng)、語言能力量表構(gòu)建,然后對語料庫在國內(nèi)語言測試領(lǐng)域的應(yīng)用情況進(jìn)行了反思,并以中國英語學(xué)習(xí)者寫作能力量表的構(gòu)建為例,闡述了語料庫在構(gòu)建寫作能力量表中的應(yīng)用。
語料庫;語言測試;中國英語學(xué)習(xí)者寫作能力量表
自20世紀(jì)60年代第一個計(jì)算機(jī)化的語料庫——Brown語料庫在美國問世以來,語料庫作為一種新興的研究方法逐漸滲透到語言學(xué)研究的相關(guān)領(lǐng)域。20世紀(jì)90年代中期,隨著大型本族語者語料庫的建立(例如,英國國家語料庫British National Corpus,以下簡稱BNC和美國國家語料庫American National Corpus,以下簡稱ANC),語料庫在語言測試領(lǐng)域的應(yīng)用前景開始引起語言測試界的關(guān)注。 Alderson在1996年就預(yù)測了語料庫在語言測試中的一系列用途:設(shè)計(jì)考試題目、確立考試構(gòu)念、分?jǐn)?shù)評定與報(bào)道等等。[1]自此之后,語料庫開始被頻繁地用于大規(guī)模標(biāo)準(zhǔn)化考試、整體性測評以及發(fā)展性測評中。2003年,在英國雷丁大學(xué)召開的第26屆國際語言測試研究大會專門就語料庫和語言測試的關(guān)系成立了一個專題研討會,學(xué)者們分別聚焦本族語者語料庫和二語學(xué)習(xí)者語料庫在寫作測試、閱讀測試以及口語測試中的應(yīng)用,闡明語料庫在語言測試領(lǐng)域的應(yīng)用前景。[2]
當(dāng)前,我國正在調(diào)動英語教學(xué)和測試各方面的資源制定中國英語能力等級量表(China Standards of English,簡稱CSE)。在這種背景下,我們重新回顧和反思語料庫在語言測試領(lǐng)域的應(yīng)用,不僅有助于豐富學(xué)界對這一領(lǐng)域研究現(xiàn)狀的認(rèn)識,也希望發(fā)現(xiàn)值得借鑒的經(jīng)驗(yàn)亦或可能存在的不足,進(jìn)而探索語料庫在構(gòu)建中國英語能力等級量表中的應(yīng)用前景。
縱觀語料庫在語言測試領(lǐng)域的應(yīng)用,基本涉及以下幾個方面:第一、語料庫用于開發(fā)、設(shè)計(jì)試題;第二、語料庫用于考試效度驗(yàn)證;第三、語料庫用于開發(fā)自動評分系統(tǒng);第四、語料庫用于構(gòu)建語言能力量表。以下將結(jié)合語言測試領(lǐng)域的相關(guān)理論和研究,分別回顧與梳理語料庫在這四個方面的應(yīng)用情況。
(一)考試開發(fā)
20世紀(jì)80年代中期以來,隨著交際語言能力理論在應(yīng)用語言學(xué)領(lǐng)域逐漸被接受并得到廣泛應(yīng)用,語言測試的模式也從傳統(tǒng)的分離式語言測試(discrete- point language test)轉(zhuǎn)向交際語言測試(communicative language test)。交際語言測試是一種行為測試,是在真實(shí)或接近真實(shí)的情景中通過完成實(shí)際的交際任務(wù)來測量考生運(yùn)用語言知識的能力。[3]可見,真實(shí)性、情景化是交際語言測試的關(guān)鍵。Bachman認(rèn)為,真實(shí)性就是語言測試任務(wù)特征和目標(biāo)語言使用特征之間的吻合程度,是根據(jù)語言測試的成績做出推斷的前提。[4]
語料庫研究方法的興起為提高語言測試的真實(shí)性提供了有效的解決途徑。20世紀(jì)90年代中期,除了本族語者語料庫之外,大型學(xué)習(xí)者語料庫(如CLC)以及一些學(xué)術(shù)英語語料庫(如Michigan Corpus of Academic Spoken English,簡稱MCASE;British Academic Written English corpus,簡稱BAWE語料庫,等)也相繼建立。這些語料庫的主要用途之一便是開發(fā)與目標(biāo)語使用相一致的測試。[5]例如,CLC就是一個含有錯誤標(biāo)注(error- tagged)、測試文本和學(xué)習(xí)者信息的語料庫,劍橋考試中心的測試設(shè)計(jì)者們利用該語料庫來設(shè)計(jì)和修訂考試。具體而言,測試開發(fā)者可以借助語料庫了解本族語者在語言使用中的詞匯、語法特點(diǎn),包括詞匯和短語的相對頻率、句式、搭配和類聯(lián)接、語法結(jié)構(gòu)、程式化表達(dá)、詞序等。Park指出,考試的構(gòu)念(test construct)正是通過觀察這些特征而產(chǎn)生的。[5]
在語料庫用于考試開發(fā)的研究方面,Sharpling報(bào)告了BAWE語料庫在設(shè)計(jì)Warwick英語測試的語法和語言使用部分試題中的應(yīng)用,他建議在計(jì)算機(jī)化考試和語料庫之間建立更加緊密的聯(lián)系,通過相互關(guān)聯(lián)的數(shù)據(jù)庫來輔助考試開發(fā)。[6]Weir和Milanovic指出,在設(shè)計(jì)側(cè)重考核詞匯、語法的測試任務(wù)時(如多項(xiàng)選擇式的完形填空、句子轉(zhuǎn)換等),可以利用語料庫設(shè)計(jì)真實(shí)的測試題目,以及潛在的干擾項(xiàng)。[7]Barker肯定了語料庫對于提高語言測試真實(shí)性的作用,他認(rèn)為本族語者語料庫和學(xué)習(xí)者語料庫的建立,使得語言測試的設(shè)計(jì)者們能夠根據(jù)更加真實(shí)的語言和文本來設(shè)計(jì)測試任務(wù),而且在設(shè)計(jì)任務(wù)時能夠更直接地定位到與目標(biāo)受試者最為相關(guān)的語言使用。[8]劍橋大學(xué)出版社的官方網(wǎng)站上提供了語料庫使用的諸多案例,其中一例便是學(xué)習(xí)者語料庫有助于甄別處于某種水平的學(xué)習(xí)者易犯的典型錯誤,使得這一受試群體的測試題目或測試任務(wù)設(shè)計(jì)更有針對性。
Park總結(jié)了語料庫在開發(fā)、設(shè)計(jì)試題中的應(yīng)用,即語言測試的設(shè)計(jì)者們可以根據(jù)本族語者語料庫或?qū)W習(xí)者語料庫中包含的豐富信息,如詞匯、語法、搭配、句式、程式化表達(dá)等等開發(fā)和設(shè)計(jì)語言測試,而且正是通過觀察語料庫中的這些信息,語言測試的構(gòu)念才能得以確立。[5]總之,正如鄒申等人所言,在設(shè)計(jì)與編制試題方面,語料庫可以為我們提供真實(shí)的、可供參考的語料,為制定決策提供客觀的數(shù)據(jù)。[9]
(二)考試效度驗(yàn)證
效度是語言測試最重要的屬性,[4]也是語言測試的基本出發(fā)點(diǎn)。效度研究貫穿于考試的整個過程:即從開發(fā)到驗(yàn)證其有效性,具體包括:語言能力構(gòu)念的界定、測試任務(wù)的設(shè)計(jì)(如何實(shí)現(xiàn)其真實(shí)性和交互性)、評分標(biāo)準(zhǔn)的制定(如何保證其科學(xué)性和可行性)、評分信度(如何實(shí)現(xiàn)評分員之間或自身的一致性)、考試分?jǐn)?shù)的解釋和使用等等。[4]Alderson(1996)曾指出,語料庫的應(yīng)用可以提高考試的內(nèi)容效度,因?yàn)闇y試材料選自真實(shí)語言文本,具有自然語言特征。[1]繼Alderson之后,Hawkey和Barker也指出,語料庫用于語言測試的效度驗(yàn)證,主要優(yōu)勢在于語料庫的發(fā)現(xiàn)可以為效度檢驗(yàn)提供證據(jù)。[10]
美國教育考試服務(wù)中心(簡稱ETS)就是采用基于語料庫的方法來驗(yàn)證其旗下的TOEFL考試和GRE考試的效度。例如,為了檢驗(yàn)TOEFL 2000聽力和閱讀測試中使用的文本是否代表真實(shí)的口語和學(xué)術(shù)語言使用,Biber等人建立了TOEFL 2000學(xué)術(shù)口語和書面語語料庫(T2K- SWAL),并從語法、詞匯量、詞塊、詞匯分布等方面對該語料庫的文本進(jìn)行了語言分析,然后把分析的結(jié)果與課堂活動中所用語言的特征進(jìn)行了對比,從而驗(yàn)證TOEFL 2000聽力和口語測試的效度。[11]Biber還利用T2K- SWAL語料庫檢驗(yàn)了詞塊的用法,發(fā)現(xiàn)立場標(biāo)記詞塊(stance bundles)在課堂教學(xué)中的使用頻率遠(yuǎn)遠(yuǎn)高于在課本中的使用頻率,盡管這兩種語域在態(tài)度確定和目標(biāo)實(shí)現(xiàn)這兩方面都包含了豐富的信息,但是它們卻采用不同的會話來實(shí)現(xiàn)各自的目標(biāo)。[12]換言之,詞塊體現(xiàn)了一種語域的語言模式,因而對詞塊的分析有助于完整地描述學(xué)習(xí)者的語言和語言需要。根據(jù)這一發(fā)現(xiàn),Biber建議在對TOEFL考試以及其它同類考試進(jìn)行效度驗(yàn)證時,可開展類似的語料庫分析。總之,Taylor和Barker強(qiáng)調(diào),可以定期地運(yùn)用學(xué)習(xí)者語料庫驗(yàn)證測試設(shè)計(jì)者對于語言特征以及不同水平等級的語言頻率的直覺判斷。[13]
(三)自動評分系統(tǒng)
在語言測試領(lǐng)域,自動評分系統(tǒng)主要用于口語和寫作這兩種產(chǎn)出性語言能力的評分。最早利用語料庫開展寫作自動評分系統(tǒng)的國家是美國。上世紀(jì)60年代,美國杜克大學(xué)的Ellis Page教授等人應(yīng)美國大學(xué)委員會的請求,開發(fā)了Page Essay Grade(PEG)。PEG首先對一篇文章的可測量特征如長度以及平均句長等進(jìn)行多元回歸分析,然后基于人工評判的大量作文語料庫建立評分模型。[14]PEG的評分準(zhǔn)確率高,但該系統(tǒng)使用的文本特征都是與語言的形式特征有關(guān),對內(nèi)容、組織、體裁等語義方面的信息卻束手無策。為了彌補(bǔ)這些不足,上世紀(jì)90年代,美國的ETS和Vantage learning又分別研制了E- rater和Intellimetric。這兩種評分系統(tǒng)同PEG一樣,也是基于人工評判的作文語料庫建立評分模型,但是包含了更多關(guān)于語義信息方面的元素,因此操作起來更加復(fù)雜。到本世紀(jì)初,由以上評分系統(tǒng)衍生的自動評分軟件如My Access、Criterion等被先后開發(fā)出來。除了提供總分之外,這些評分系統(tǒng)還針對寫作的內(nèi)容、組織結(jié)構(gòu)、語體使用、詞匯和語法等方面提供單項(xiàng)分。不僅如此,這些評分系統(tǒng)還能提供詳略不等的個性化反饋。Park詳細(xì)介紹了現(xiàn)代化自動評分系統(tǒng)(以下簡稱 AES)的運(yùn)作:該系統(tǒng)通過測量作文中蘊(yùn)含的多種特征,并參考一個囊括結(jié)構(gòu)、銜接詞、錯誤、詞匯和句法復(fù)雜度、篇章組織和展開的特征集進(jìn)行評分。[5]在把特征集和相關(guān)理論應(yīng)用到實(shí)際評分的過程中,大多數(shù)AES系統(tǒng)都會啟用一個培訓(xùn)數(shù)據(jù)庫,即一個已經(jīng)被人工評閱的作文語料庫,該語料庫被設(shè)為最佳基準(zhǔn),與人工評閱高度相關(guān)的特征被篩選出來收錄入特征集。
AES系統(tǒng)的設(shè)計(jì)初衷是節(jié)省成本、時間和人力,提高評分信度。但是,正如Park所言,AES系統(tǒng)究竟在多大程度上實(shí)現(xiàn)了這些目標(biāo),尤其是在評判內(nèi)容和語言的說服力方面,仍然不得而知。[5]有的學(xué)者指出,AES系統(tǒng)的使用導(dǎo)致寫作從一種思辨型極強(qiáng)的創(chuàng)造性活動降格為只追求表面特征和形式特征的活動,這必然對學(xué)生的寫作產(chǎn)生負(fù)面影響。[15]顯然,目前的AES技術(shù)還不足以仿效人工評閱,但是很多研究已經(jīng)表明在機(jī)器評分與人工評分之間的存在很高的相關(guān)關(guān)系,[16]說明這方面的技術(shù)在不斷進(jìn)步。Warschauer和Ware認(rèn)為,隨著性能的提高,AES系統(tǒng)必將在語言測試領(lǐng)域大放異彩,廣泛應(yīng)用于評分員培訓(xùn)、交互性語言測試、以及展示學(xué)生的歷時語言表現(xiàn)等多個方面。[17]
(四)語言能力量表構(gòu)建
除上述三個方面的應(yīng)用之外,語料庫在語言測試中發(fā)揮的又一個重要作用便是對傳統(tǒng)的評分大綱進(jìn)行補(bǔ)充,對不同水平學(xué)習(xí)者的語言能力采用“能做”描述。Park曾指出,語料庫能夠幫助測試開發(fā)者發(fā)現(xiàn)哪些語言特征是哪種水平的學(xué)習(xí)者所特有的。[5]例如,Hawkey和Barker通過對學(xué)習(xí)者語料庫進(jìn)行分析,篩選出不同水平學(xué)習(xí)者的寫作特征,然后根據(jù)這些特征構(gòu)建了一個二語寫作能力量表。[10]Granger和Thewissen利用一個包含錯誤標(biāo)注的學(xué)習(xí)者語料庫展示了學(xué)習(xí)者的錯誤如何與現(xiàn)有的評定標(biāo)準(zhǔn)(例如《歐洲語言共同參考框架》,簡稱《歐框》)進(jìn)行關(guān)聯(lián),以便達(dá)到評估的目的。他們指出,如果人工評分員參考《歐框》對國際英語學(xué)習(xí)者語料庫(ICLE)中的某一部分進(jìn)行評分,就會標(biāo)識出與《歐框》的每個等級相吻合的錯誤,這些錯誤可以進(jìn)一步用于判斷一篇作文的錯誤類型以及錯誤頻率。[18]Thewissen則更具體地實(shí)現(xiàn)了這一想法,他在語法錯誤類型與《歐框》具體的等級之間建立了關(guān)聯(lián)。[19]
在利用語料庫補(bǔ)充語言能力量表方面,歐洲理事會自2005年起開展的EP項(xiàng)目(English Profile Program)備受矚目。該項(xiàng)目旨在利用CLC語料庫補(bǔ)充與完善《歐框》從A1級到C2級的描述語,彌補(bǔ)某些等級描述較為粗略、籠統(tǒng)的不足。Hawkins和 Buttery指出,EP項(xiàng)目引入的一個重要概念就是“判別性特征”(criterial features),即與《歐框》的六個等級相對應(yīng)的語言特征。[20]具體而言,該項(xiàng)目旨在確立這些特征與學(xué)習(xí)者變量(如水平和母語背景)之間的相關(guān)關(guān)系,核心理念是我們可以期望低水平的學(xué)習(xí)者犯某種類型的錯誤或者表現(xiàn)出一些不太地道的語言使用特征(即消極特征),而高水平的學(xué)習(xí)者表現(xiàn)出這些負(fù)面特征的頻率相對較少。另外,與低水平的學(xué)習(xí)者相比,高水平學(xué)習(xí)者的語言使用具有更加復(fù)雜的語言特征(即積極特征)。例如,新手寫作者所產(chǎn)出的文本中很少會包含語法上比較復(fù)雜的結(jié)構(gòu),如主從句、述謂結(jié)構(gòu)或者程式化表述以及搭配等等;而與之相反,高水平的學(xué)習(xí)者寫出的文本包含的消極特征較少,除了復(fù)雜的語法和程式化表述、[21]更加恰當(dāng)?shù)膽?yīng)答標(biāo)記詞、[22][23]短語動詞以外,[24]還有更多其它的積極特征。一旦確定某種判別性特征與特定的水平或等級相關(guān)聯(lián),就可以采用更加客觀的描述語來補(bǔ)充傳統(tǒng)評分大綱的不足。
目前,盡管這種利用判別性特征來補(bǔ)充評分量表的做法的準(zhǔn)確性還有待于進(jìn)一步驗(yàn)證,但是與傳統(tǒng)的評分大綱相比,這種基于語料庫和語言學(xué)理論構(gòu)建的評分量表無疑為測試設(shè)計(jì)者以及測試的使用者提供了更多關(guān)于受試者語言使用的真實(shí)案例。
如前所述,語料庫在語言測試領(lǐng)域的用途廣泛。但是與國外研究取得的成果相比,目前中國學(xué)者對于語料庫在外語測試領(lǐng)域的應(yīng)用仍然缺乏足夠的認(rèn)識和重視。
首先,在考試設(shè)計(jì)方面,國內(nèi)幾乎沒有關(guān)于語料庫在該領(lǐng)域應(yīng)用的報(bào)道。一方面,可能由于大規(guī)??荚嚨母唢L(fēng)險(xiǎn)與機(jī)密性,相關(guān)的研究人員無法獲取考試設(shè)計(jì)的相關(guān)信息;另一方面,盡管國內(nèi)學(xué)者建立了一些學(xué)習(xí)者語料庫,但這些語料庫并沒有隨著時間的推移得到及時的更新與補(bǔ)充,因此在考試開發(fā)方面的作用有待進(jìn)一步探索。例如,楊惠中等人2003年建成的中國學(xué)習(xí)者英語語料庫(Chinese Learner English Corpus,簡稱CLEC)和文秋芳等人2005年建立的英語專業(yè)學(xué)生口筆語語料庫(Spoken and Written English Corpus of Chinese Learners,SWECCL)的規(guī)模都較大,但是都已建立10年有余。在這10年中,自然科學(xué)領(lǐng)域、社會科學(xué)領(lǐng)域新的成果不斷涌現(xiàn),網(wǎng)絡(luò)信息技術(shù)飛速發(fā)展,新的詞匯、新的術(shù)語源源不斷地補(bǔ)充到英語語言中,而且學(xué)習(xí)者的認(rèn)知能力和學(xué)習(xí)方式也發(fā)生了很大的變化,這一切都使得庫中語料的代表性受到挑戰(zhàn)。Park曾指出大規(guī)模考試的設(shè)計(jì)者可以利用語料庫甄辨某種水平的學(xué)習(xí)者易犯的錯誤,并對考試的難度進(jìn)行相應(yīng)的調(diào)整。[5]但如果語料的代表性不強(qiáng),那么基于語料庫開發(fā)的考試內(nèi)容的真實(shí)性也會因此受到威脅。
其次,國內(nèi)學(xué)者利用語料庫開展考試效度研究的案例比較匱乏,即便開展此類研究,所用語料的代表性和相關(guān)性也不夠充分。例如,穆惠峰借助自建小型語料庫、SWECCL語料庫、以及BNC語料庫對大學(xué)英語四級考試完形填空題的內(nèi)容效度進(jìn)行了驗(yàn)證。[25]但SWECCL語料庫中的口、筆語語料均來自中國高校的英語專業(yè)學(xué)生,因此其在該研究中的相關(guān)性和代表性值得探討。中國的外語考試種類繁多,而且規(guī)模較大,風(fēng)險(xiǎn)較高。在考試的效度驗(yàn)證方面,語料庫的作用仍有待進(jìn)一步挖掘和發(fā)揮。
再次,與國外研究相比,國內(nèi)學(xué)者在利用語料庫開發(fā)自動評分系統(tǒng)方面起步較晚,而且大都偏重于介紹和探討。例如,王金銓和文秋芳回顧了國內(nèi)外機(jī)器自動評分系統(tǒng)的現(xiàn)狀、內(nèi)容和特點(diǎn),并進(jìn)一步探討了現(xiàn)有的機(jī)器自動評分技術(shù)對中國學(xué)生翻譯自動評分系統(tǒng)開發(fā)的啟示。[26]近年來,國內(nèi)學(xué)者在作文自動評分系統(tǒng)的研發(fā)方面也取得了一定的成果。例如,梁茂成教授研制的大規(guī)模英語考試作文自動評分系統(tǒng)(EFL Essay Evaluator,簡稱EEE)1.0,基于大量人工評判的中國大學(xué)生作文語料庫建立評分模型,從語言、內(nèi)容和組織結(jié)構(gòu)三個方面對作文進(jìn)行評價。還有基于網(wǎng)絡(luò)的作文批改系統(tǒng)(如句酷作文批改網(wǎng)),已經(jīng)在全國許多高校的大學(xué)英語教學(xué)中使用。但是,這些自動作文批改系統(tǒng)在被廣泛應(yīng)用的同時,也飽受詬病。例如,蔣艷和馬武林指出,目前的自動評分系統(tǒng)“只能從語言上判斷水平,不能從語義上判斷內(nèi)容,無法對作文內(nèi)容錯誤進(jìn)行識別、部分語言錯誤無法識別”。[27](P76)可能正是因?yàn)榇嬖谏鲜霰锥?,目前這種基于語料庫開發(fā)的自動評分系統(tǒng)尚未在國內(nèi)大規(guī)模外語考試中得以推廣和應(yīng)用。在未來的研究中,如能繼續(xù)改進(jìn)或完善語料庫在這一領(lǐng)域的應(yīng)用,必將極大地緩解大規(guī)??荚囍腥斯ぴu分的壓力,節(jié)省閱卷的成本,提高評分的信度。
最后,在國內(nèi),盡管有學(xué)者開始倡導(dǎo)利用現(xiàn)有的語言能力量表對語料庫中的語料進(jìn)行分級,[28]但如何利用語料庫構(gòu)建語言能力量表仍未得到相應(yīng)的關(guān)注。目前,我國自主開發(fā)的英語能力等級量表項(xiàng)目正在如火如荼地開展進(jìn)行中。根據(jù)該項(xiàng)目負(fù)責(zé)人劉建達(dá)教授的介紹,CSE量表描述語的分級主要采用專家判斷、教師評定學(xué)生和學(xué)生自評的方式進(jìn)行,[29]這在很大程度上與《歐框》的構(gòu)建方法相吻合。盡管有了Rasch模型等先進(jìn)統(tǒng)計(jì)手段的支撐,這種“自上而下”(top- down)構(gòu)建量表的方法能夠比較科學(xué)地對不同來源的描述語進(jìn)行難度排序,但也存在一定的問題。例如,Hustijin曾批判《歐框》制定過程中所采用的實(shí)證研究方法并非以二語學(xué)習(xí)者真實(shí)的數(shù)據(jù)為基礎(chǔ),在很多情況下,教師不得不參照自己所教的某位學(xué)生的能力判斷描述語的難度,這在一定程度上影響了描述語判斷的客觀性。[30]鑒于此,我們建議在構(gòu)建中國英語能力等級量表的過程中充分發(fā)揮語料庫的作用,尤其是在量表的后期效度驗(yàn)證階段,可以利用語料庫對量表進(jìn)行自下而上(bottom- up)的效度檢驗(yàn)。以下就以中國英語學(xué)習(xí)者寫作能力量表(以下簡稱寫作能力量表)的開發(fā)為例,具體闡述語料庫在量表開發(fā)中的應(yīng)用。
寫作能力量表的構(gòu)建主要遵循CSE總的構(gòu)建方案,基于前期收集、整理的大量寫作能力描述語,邀請專家、教師和學(xué)生對描述語的難度進(jìn)行判斷,從而實(shí)現(xiàn)描述語的分級驗(yàn)證。但是寫作能力作為一種產(chǎn)出型語言能力,其獨(dú)特的優(yōu)勢在于大量可收集、可保存、可觀察的寫作文本。而且我國學(xué)者已經(jīng)建立了一些大型的書面語語料庫(見表1),我們應(yīng)該充分利用語料庫提供的信息,彌補(bǔ)專家和教師判斷過程中可能出現(xiàn)的主觀性過強(qiáng)的問題,從而對量表進(jìn)行補(bǔ)充和完善。具體方案如下:
表1 我國學(xué)者建立的漢語為母語的英語學(xué)習(xí)者書面語語料庫
首先,從表1可以看出,目前我國學(xué)者建立的書面語語料庫主要源自大學(xué)階段的英語寫作文本。低端(如小學(xué)和初中)和高端(英語專業(yè)碩士、博士和高翻人才)學(xué)習(xí)者的語料庫比較稀缺,因此建議相關(guān)研究人員或機(jī)構(gòu)廣泛收集這兩個群體的寫作語料,建立高、低端英語學(xué)習(xí)者的寫作語料庫,使得各個英語學(xué)習(xí)階段的寫作語料庫互相銜接,形成“一條龍”。對于已經(jīng)建成的語料庫,可以利用近年來大規(guī)??荚嚨膶懽魑谋净?qū)W生的日常習(xí)作對庫中的語料進(jìn)行補(bǔ)充和完善,使得庫中的語料更具代表性。
其次,在對語料庫進(jìn)行補(bǔ)充和完善之后,需要重新審核和修訂庫中語料的分級。王麗和張立英介紹了四種不同的語料庫分級方法:學(xué)習(xí)者背景、教師判斷、測試成績以及量表等級。[28]第一種方法需要考慮學(xué)習(xí)者學(xué)習(xí)目標(biāo)語的時間以及受教育的程度;第二種方法一般是教師對學(xué)生水平或?qū)W生作文進(jìn)行判斷,劃分不同的等級水平;第三種方法是根據(jù)學(xué)生在標(biāo)準(zhǔn)化考試中的成績進(jìn)行分級;第四種方法是在語料庫和比較知名的語言能力量表(如《歐框》)之間建立對接,根據(jù)量表的等級劃分語料庫的等級。由于我國目前尚未建成符合我國英語學(xué)習(xí)者特點(diǎn)的語言能力量表,所以第四種方法暫時無法采用。在構(gòu)建寫作量表的過程中,我們可以綜合運(yùn)用前三種方法,對寫作語料進(jìn)行初步分級。
再次,語料庫初步分級之后,可以利用相關(guān)的語料庫分析工具(如Wordsmith,Coh- metrix,Concordancer等),并借助先進(jìn)的統(tǒng)計(jì)手段,對庫中不同水平的文本從詞匯、詞頻、搭配、銜接、句長等方面進(jìn)行特征分析和對比。在這方面,我們可以參考?xì)W洲理事會EP項(xiàng)目的研究成果。例如,2012年由Hawkins教授和Filipovic教授主編、劍橋大學(xué)出版社出版的CriterialFeaturesinL2English這本著作展現(xiàn)了英語學(xué)習(xí)者的語法特征。另外,劍橋大學(xué)出版社的官方網(wǎng)站上也在EnglishProfileJournal這本電子期刊上定期刊載該項(xiàng)目最新的研究動態(tài)和成果,這些研究采用的工具和方法值得我們學(xué)習(xí)和借鑒。
最后,根據(jù)語料庫分析提取的文本特征或做出的發(fā)現(xiàn)對前期通過“自上而下”的方法初步構(gòu)建的寫作能力量表進(jìn)行效度驗(yàn)證,并在此基礎(chǔ)上補(bǔ)充、修改和完善量表,使得量表的等級劃分更加科學(xué),語言能力描述更加細(xì)致、具體。當(dāng)然,在寫作能力量表建成之后,也可以反過來用其驗(yàn)證語料庫的分級。量表和語料庫相互驗(yàn)證、互相補(bǔ)充,共同服務(wù)于我國的外語教學(xué)和測試。
在大數(shù)據(jù)時代,語料庫提供的豐富信息無疑是其他研究方法無法比擬的。但是,語料庫的補(bǔ)充、完善和修訂如同CSE量表的構(gòu)建一樣,需要語言教學(xué)部門、測試機(jī)構(gòu)、專業(yè)技術(shù)人員以及教育管理部門的通力合作。在構(gòu)建CSE的過程中,我們需要綜合運(yùn)用不同來源的證據(jù),例如理論上的證據(jù)、專家和教師以及學(xué)習(xí)者評判情況的證據(jù)、語料庫分析的證據(jù)。唯有如此,量表的效度才能得到充分驗(yàn)證,開發(fā)出來的量表才能既有相關(guān)理論支持,又能反映我國英語學(xué)習(xí)者的特點(diǎn)和規(guī)律,從而更好地服務(wù)于中國的英語教學(xué)、學(xué)習(xí)和測試。
[1] Alderson,J. C. Do corpora have a role in language assessment?[A]//Usingcorporaforlanguageresearch. London:Longman,1996:248- 259.
[2] Taylor,L.,Thompson,P.,McCarthy,M. & Barker,F(xiàn). Exploring the relationship between language corpora and language testing. In Symposium at 25th Language Testing Research Colloquium, Reading,UK,2003: 22- 25.
[3] Carroll,B. J. & Hall,P. J.MakeyourownlanguageTests:APracticalGuidetoWritingLanguagePerformanceTests[M]. Oxford:Pergamon Press,1985.
[4] Bachman,L. F.FundamentalConsiderationsinLanguageTesting[M]. Oxford: Oxford University Press, 1990.
[5] Park,K. Corpora and language assessment:the state of the art[J].LanguageAssessmentQuarterly,2014,(11):27- 44.
[6] Sharpling,G. P. When BAWE meets WELT:the use of a corpus of student writing to develop items for a proficiency test in grammar and English usage[J].JournalofWritingResearch,2010,(2):175- 189.
[7] Weir,C. & Milanovic,M.ContinuityandInnovation:RevisingtheCambridgeProficiencyinEnglishExamination1913- 2002(StudiesinLanguageTesting,Volume15)[M]. Cambridge:UCLES/Cambridge University Press,2003.
[8] Barker,F(xiàn). Using Corpora in Language Testing:Research and validation of language tests[J].ModernEnglishTeacher,2004,(13):63- 67.
[9] 鄒申,楊任明.語料庫在試題設(shè)計(jì)和驗(yàn)證中的應(yīng)用研究[J].外語電化教學(xué),2008,(5):10- 15.
[10] Hawkey,R. & Barker,F(xiàn). Developing a common scale for the assessment of writing[J].AssessingWriting,2004,(9):122- 159.
[11] Biber,D.,Conrad,S.,Reppen,R.,Byrd,P.,Helt,M.,Clark,V.,Cortes, V.,Csomay,E. & Urzua,A.RepresentingLanguageUseintheUniversity:AnalysisoftheTOEFL2000SpokenandWrittenAcademicLanguageCorpus,report Number:RM- 04- 03. Educational Testing Service,Princeton,NJ,2004.
[12] Biber,D.UniversityLanguage:ACorpus-basedStudyofSpokenandWrittenRegisters[M]. Amsterdam:John Benjamins,2006.
[13] Taylor,L. & Barker,F(xiàn). Using corpora for language assessment [A]//EncyclopediaofLanguageandEducation. New York:Springer Science+Business Media,LLC,2008:241- 254.
[14] 唐錦蘭,吳一安.在線英語寫作自動評價系統(tǒng)應(yīng)用研究述評[J].外語教學(xué)與研究,2011,(2):273- 282.
[15] Ericsson,P. F. & Haswell,R. H.Machinescoringofstudentessays:Truthandconsequences[C]. Logan:Utah State University Press,2006.
[16] Attali, Y. & Burstein, J. Automated essay scoring with e- rater?v. 2[J].TheJournalofTechnology,LearningandAssessment, 2006,4(3): 3- 30.
[17] Warschauer, M. & Ware, P. Automated writing evaluation: Defining the classroom research agenda[J].LanguageTeachingResearch, 2006,(10): 157- 180.
[18] Granger,S. & Thewissen,J. The contribution of error- tagged learner corpora to the assessment of language proficiency[A]. Paper presented at the 27th language testing research colloquium. Ottawa,Canada,2005.
[19] Thewissen,J. The phraseological errors of French- ,German- and Spanish- speaking EFL learners:Evidence from an error- tagged learner corpus[A]//Proceedingsfromthe8thteachingandlanguagecorporaconference. Lisbon,Portugal:Associa??o de Estudos e de Investigo??o Científica do ISLA- Lisboa,2008: 300- 306.
[20] Hawkins,J. A. & Buttery,P. Criterial features in learner corpora:Theory and illustrations[J].EnglishProfileJournal,2010,(1):e5.
[21] McCarthy,M. Spoken fluency revisited[J].EnglishProfileJournal,2010,(1): e4.
[22] Farr,F(xiàn). Engaged listenership in spoken academic discourse:The case of student- tutor meetings[J].JournalofEnglishforAcademicPurposes,2003,(2):67- 85.
[23] McCarthy,M. Good listenership made plain: British and American non- minimal response tokens in everyday conversation[A]//UsingCorporatoExploreLinguisticVariation. Amsterdam:John Benjamins,2002:49- 71.
[24] Negishi,M.,Tono,Y. & Fujita,Y. A validation study of the CEFR levels of phrasal verbs in the English vocabulary profile[J].EnglishProfileJournal,2012,(3):e3.
[25] 穆惠峰.基于語料庫的大學(xué)英語四級完型填空測試內(nèi)容效度驗(yàn)證研究 [J].外語電化教學(xué),2011,(4):66- 70.
[26] 王金銓,文秋芳.國內(nèi)外機(jī)器自動評分系統(tǒng)評述——兼論對中國學(xué)生翻譯自動評分系統(tǒng)的啟示[J].外語界,2010,(1):75- 81,91.
[27] 蔣艷,馬武林.中國英語寫作教學(xué)智能導(dǎo)師系統(tǒng):成就與挑戰(zhàn)——以句酷批改網(wǎng)為例[J].電化教育研究, 2013,(7):76- 81.
[28] 王麗,張立英.學(xué)習(xí)者語料庫分級方法研究:反思與啟迪[J].中國海洋大學(xué)學(xué)報(bào)(社會科學(xué)版),2016,(2):107- 113.
[29] 劉建達(dá).我國英語能力等級量表研制的基本思路.中國考試,2015,(1):7- 11.
[30] Hulstijn,J. H. The shaky ground beneath the CEFR: Quantitative and qualitative dimensions of language Proficiency1. The Modern Language Journal,2007,(4):663- 667.
責(zé)任編輯:周延云
The Application of Corpora in Language Assessment——Review and Reflection
Zou Shaoyan1,2
(1. College of Foreign Languages, Shanghai Jiao Tong University, Shanghai 200240;2. College of Foreign Languages, Qingdao Agricultural University, Qingdao 266109, China)
The application of corpora in language assessment has gained wide recognition in recent years and the potential and prospects of its application have been attracting increasing attention as well. Situated in such a context, this research firstly reviewed and combed the application of corpora in the four areas of language assessment: developing and designing test items, validating tests, scoring essays and constructing rating scales. Based on the review, the research reflected the use of corpora in language assessment in China and further elaborated its potential use in developing the writing scales of China Standards of English. writing scales.
Corpora; Language assessment; the Writing Scales of China Standards of English
2016-09-09
教育部哲學(xué)社會科學(xué)研究重大課題攻關(guān)項(xiàng)目--中國英語能力等級量表建設(shè)研究(15JZD049)
鄒紹艷(1979- ),女,山東青島人,上海交通大學(xué)外國語學(xué)院在讀博士,青島農(nóng)業(yè)大學(xué)外國語學(xué)院講師,主要從事語言測試和外語教學(xué)研究。
H05
A
1672-335X(2016)06-0109-06
中國海洋大學(xué)學(xué)報(bào)(社會科學(xué)版)2016年6期