周玉林
(1.深圳職業(yè)技術(shù)學(xué)院應(yīng)用外國語學(xué)院,廣東深圳518055;2.新西蘭奧克蘭大學(xué)應(yīng)用語言研究與語言學(xué)系,新西蘭奧克蘭0600)
試論“商務(wù)英語語料庫”的建設(shè)及其應(yīng)用*
周玉林1,2
(1.深圳職業(yè)技術(shù)學(xué)院應(yīng)用外國語學(xué)院,廣東深圳518055;2.新西蘭奧克蘭大學(xué)應(yīng)用語言研究與語言學(xué)系,新西蘭奧克蘭0600)
語料庫語言學(xué)作為一門新興的語言學(xué)分支已在國內(nèi)外語言研究中得到了長足的發(fā)展,尤其是近十年來,其影響已遍及語言學(xué)研究的各領(lǐng)域。但如何將語料庫與語言教學(xué)結(jié)合起來,使語料庫走進(jìn)課堂,在日常語言教學(xué)中得到實(shí)際應(yīng)用,仍然處在探索階段。本文探討“商務(wù)英語語料庫”的建設(shè)及其在商務(wù)英語教學(xué)大綱設(shè)計(jì)與教材開發(fā)、商務(wù)英語教學(xué)、測試和翻譯中的應(yīng)用,以期語料庫語言學(xué)為商務(wù)英語教學(xué)帶來更多成果。
商務(wù)英語;語料庫;數(shù)據(jù)驅(qū)動學(xué)習(xí)
縱觀語言學(xué)研究的歷史,各種理論、學(xué)說和流派眾說紛紜,但就其方法論來說,可劃分為兩大派別。一是理性主義(rationalis m),二是經(jīng)驗(yàn)主義(empiricis m)。理性主義以喬姆斯基(Noam Chomsky)為代表。喬氏根據(jù)數(shù)學(xué)中的公理化方法來研究自然語言,從形式描述的高度,建立了“普遍語法(Universal Grammar)。喬氏不關(guān)心語言的實(shí)證研究,有關(guān)語言的論述都基于內(nèi)心反省和人為編造的例子,目標(biāo)是通過研究人類獲得和識別語言的內(nèi)在能力,建立對語言規(guī)則演繹推導(dǎo)的解釋程序。與此相反,經(jīng)驗(yàn)主義則認(rèn)為語言學(xué)的研究必須以語言事實(shí)作為根據(jù),詳盡地、大量地占有材料,才有可能在理論上得出比較可靠的結(jié)論。二十世紀(jì)下半葉,計(jì)算機(jī)功能逐漸完善、強(qiáng)大,使得語言學(xué)家可以高效地進(jìn)行大量語言材料的搜集、整理和加工,從而催生了一門新的語言學(xué)學(xué)科——語料庫語言學(xué)(corpus linguistics)的誕生。
語料庫語言學(xué)研究自然語言文本的采集、存儲、加工和統(tǒng)計(jì)分析,憑借大規(guī)模語料庫提供的客觀翔實(shí)的語言證據(jù),運(yùn)用到語言學(xué)研究和自然語言信息處理系統(tǒng)的開發(fā)。語料庫的使用,為語言學(xué)的研究提供了一種新的思維方式,輔助人們的語言“直覺”和“內(nèi)省”判斷,從而克服研究者本人的主觀性和片面性,現(xiàn)已逐漸成為語言學(xué)研究的主流方法(Svartvik 2001)。如同天文學(xué)家利用望遠(yuǎn)鏡來研究天文學(xué),生物學(xué)家利用顯微鏡來研究生物學(xué)一樣,語言學(xué)家利用語料庫來研究語言學(xué),可以擴(kuò)展眼界,看得更遠(yuǎn),看得更細(xì),從而發(fā)現(xiàn)更多的語言現(xiàn)象,挖掘出更多的語言事實(shí),把語言學(xué)的研究推向一個新的階段,取得語言學(xué)研究中革命性的進(jìn)步(馮志偉2006)。
目前,語料庫語言學(xué)主要研究機(jī)器可讀自然語言文本的采集、存儲、檢索、統(tǒng)計(jì)并對之進(jìn)行詞性、語法、語義和語用等方面的標(biāo)注,建設(shè)各類語料庫并研究其在詞匯研究、語法研究、語域變異與體裁分析、方言特點(diǎn)與語言變體、語言比較與翻譯研究、語言歷時(shí)與語言變化研究、語言習(xí)得與語言教學(xué)、語義學(xué)、語用學(xué)、社會語言學(xué)、話語分析、文體學(xué)與文學(xué)研究、法律語言學(xué)(forensic linguistics)、詞典編纂、自然語言理解和機(jī)器翻譯等領(lǐng)域中應(yīng)用(McEnery,Xiao&Tonio 2006)。
“商務(wù)英語語料庫”作為針對于商務(wù)英語教學(xué)和商務(wù)英語研究專門用途英語(English for Specific Purposes,簡稱ESP)語料庫,由深圳職業(yè)技術(shù)學(xué)院應(yīng)用外國語學(xué)院于2006年3月,作為北京外國語大學(xué)中國外語教育基金項(xiàng)目啟動。該語料庫原始語料選自具有實(shí)用性和權(quán)威性的英語/英漢商務(wù)材料,包括國內(nèi)外商務(wù)企業(yè)商業(yè)信函、電子郵件、年度報(bào)告、國內(nèi)外商務(wù)書籍與教材及互聯(lián)網(wǎng)上的商務(wù)材料等。目前,該語料已近千萬形符數(shù)(tokens)。與國外著名的超大型語料庫,如英國國家語料庫(The British NationalCorpus,簡稱BNC)、美國國家語料庫(The American National Corpus,簡稱ANC)和“英語銀行”(Bank of English)相比,“商務(wù)英語語料庫”規(guī)模較小,但作為專門用途用語的專業(yè)語料庫,具有大型綜合性語料庫不具備的專業(yè)特性,“最為適合理解像商務(wù)英語之類的專門用途語言”(Flowerdew 2004),對于商務(wù)英語語言研究、教學(xué)與翻譯等具有重要意義。
該語料庫建設(shè)過程中涉及下列關(guān)鍵問題:1)總體規(guī)劃與設(shè)計(jì)——包括語料庫的類型、用途、規(guī)模、各類語料的平衡性及可語料庫擴(kuò)展性等;2)語料的采集——包括語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述等;3)語料的加工——包括標(biāo)記集和標(biāo)注規(guī)范標(biāo)注項(xiàng)目(詞語單位、詞性、句法、語義、語體和篇章結(jié)構(gòu)等);4)語料管理系統(tǒng)的建設(shè)——包括數(shù)據(jù)維護(hù)(語料輸入、校對、修改、存儲及語料描述信息管理)、語料自動加工(分詞、標(biāo)注、文本分割、合并等)和終端用戶功能(查詢、檢索、統(tǒng)計(jì)和打印等);5)語料庫的應(yīng)用——針對語言學(xué)理論和應(yīng)用領(lǐng)域中的各種問題,研究和開發(fā)處理語料的軟件工具及檢索平臺(query package)。
以下是該語料庫采用CLAWS7和USAS標(biāo)注系統(tǒng)(http://ucrel.lancs.ac.uk/wmatrix/)標(biāo)注詞性和語義附碼后的幾例樣本及說明:
1)附有詞性標(biāo)注的商務(wù)英語語料庫樣本
BLC3:05:00016 If_CS you_PPY need_VV0 any_RR help_NN1 or_CC resources_NN2,_,be_VB I sure_JJ to_TO let_VV I us_PP IO2 know_VV I._.
BLC3:02:03221 We_PPIS2 are_VBR proud_JJ of_ IO your_APPGE success_NN1 and_CC know_VV0 that_CST this_DD1 appoin tment_NN1 will_VM bring_VV I you_PPY much_RR personal_JJ satisfaction_NN1._.
這是從作了詞性標(biāo)記的商務(wù)英語語料庫選取的兩個片斷,其原始語料文字為:1)If you need any help or resources,be sure to let us know.2)We are proud of your success and know that this appointment will bring you much personal satisfaction.行首的BLC3:02和BLC3:05為語料庫分類號,03221和00016等為語句序號,每個單詞_之后的大寫字母為詞性的代碼,如CS表示從屬連詞,PPY表示第二人稱單數(shù),VV0表示動詞原形,NN表示普通名詞,CC為并列連詞,VB I表示be,VBR表示are,PP IO2表示第一人稱復(fù)數(shù)賓格等等。
2)附有語義標(biāo)注的商務(wù)英語語料庫樣本
BLC3:03:00254 Thanks_S1.2.4+for_Z5 responding_S1.1.2+to_Z5 my_Z8 voice_Q2.1 mail_Q1.2._PUNC The_Z5 new_T3-[i2.2.1 model_T3-[i2.2.2 year_T1.3 of_Z5 automobiles_M3 is_A3+only_A14 a_Z5 month_T1.3 away_M6[i3.2.1 from_M6[i3.2.2 being_Z5 released_A1.7-,_PUNC and_Z5 car_M3fn dealerships_I2.2 are_Z5 looking_X2.4[i4.2.1 for_X2.4[i4.2.2 ways_X4.2 to_Z5 make_A1.1.1 room_H2 for_Z5 the_Z5 new_T3-cars_M3fn and_Z5 trucks_M3fn that_Z8 are_A3+on_T1.1.3[i5.3.1 the_T1.1.3[i5.3.2 way_T1.1.3[i5.3.3!_PUNC
這是從作了語義標(biāo)記的商務(wù)英語語料庫選取的一個片斷,其原始語料文字為:Thanks for responding to my voice mail.The new model year of automobiles is only a month away from being released,and car dealerships are looking for ways to make room for the new cars and trucks that are on the way!其中,每個單詞_之后是語義標(biāo)注,如:S1.2.4+表示禮貌,Z5表示語法倉(Grammatical bin),S1.1.2+表示指向,Z8表示代詞,Q 2.1表示話語交流,Q1.2表示紙質(zhì)文件寫作,T3表示時(shí)間:新舊與幼長,A14表示排它詞/特定化詞(Exclusivizers/particularizers)。
Leech(1997)將語料庫在語言教學(xué)的應(yīng)用劃分為直接應(yīng)用和間接應(yīng)用。前者指語料庫能幫助確定教什么、何時(shí)教,后者指學(xué)生和教師在語言課堂上使用語料庫輔助教學(xué),從而影響教與學(xué)的方式。這兩種應(yīng)用圖示如下:
圖1 語料庫在語言學(xué)習(xí)與教學(xué)中的應(yīng)用
目前,“商務(wù)英語語料庫”作為商務(wù)英語專用語料庫,采用常用的語料庫軟件,如MonoConc Pro,ParaConc,WordSmith和Wmatrix等,可對該語料庫中大量商務(wù)英語語料,通過中心詞索引(concordancing)、關(guān)鍵詞分析(key word analysis)、語塊分析(cluster analysis)、詞匯-語法概況(lexical-grammatical profile)、語義韻律分析(semantic prosody analysis)等方法進(jìn)行詞語、詞頻、短語、搭配、句型、語義和語用等方面的研究,這些功能在商務(wù)英語語言大綱設(shè)計(jì)、教學(xué)、測試、教材編寫及教師發(fā)展等方面都可得到直接和間接的應(yīng)用。
1.大綱設(shè)計(jì)與教材開發(fā)
教學(xué)大綱的編寫應(yīng)當(dāng)以實(shí)證為依據(jù),而不是以直覺為基礎(chǔ)(Mindt 2001)。以語料庫中大量的實(shí)際語言使用的頻率數(shù)據(jù)可為大綱設(shè)計(jì)提供科學(xué)指導(dǎo),使教學(xué)內(nèi)容先后順序的安排更為合理。
通過檢索手段進(jìn)行頻率統(tǒng)計(jì)(Frequency Count),語料庫語言學(xué)將語言的不對稱性分布特征清楚地展現(xiàn)在人們面前:大部分書面文章的95%由4000-5000次高頻詞構(gòu)成,而在其中前1000個高頻詞又占據(jù)了文章的85%;在口語中,50個高頻功能詞就占據(jù)了60%。這種不對稱性分布特征也同樣表現(xiàn)在詞的多義、語法結(jié)構(gòu)、詞組和詞匯搭配等語言現(xiàn)象上。從統(tǒng)計(jì)學(xué)的觀點(diǎn)來看,頻率較高的語言項(xiàng)目一般都是學(xué)習(xí)者在語言使用中最有可能遇到和需要學(xué)習(xí)的語言項(xiàng)目。這就要求在教學(xué)中區(qū)別對待不同的語言現(xiàn)象,如高頻詞、高頻詞的低頻義、低頻詞的高頻義、高頻語法結(jié)構(gòu)和高頻詞匯搭配模式等等(肖忠華,許家金2008)。
“商務(wù)英語語料庫”可以對商務(wù)英語使用進(jìn)行描述,研究商務(wù)英語詞匯的詞頻、覆蓋面和分布情況,制定商務(wù)英語詞匯表,使之成為商務(wù)英語教學(xué)大綱設(shè)計(jì)、教材編寫的重要依據(jù)。運(yùn)用MonoConc Pro可以方便制作“商務(wù)英語語料庫”詞頻統(tǒng)計(jì)表,還可通過引入stop-list剔除其中的功能詞,得到實(shí)義詞(contentwords)詞頻表(Barlow 2004)。
2.語料庫與商務(wù)英語語言教學(xué)
“商務(wù)英語語料庫”除了可為大綱設(shè)計(jì)、教材開發(fā)提供依據(jù)之外,還可直接應(yīng)用到商務(wù)英語語言教學(xué)中去,其步驟主要有以下三個:
1)把“語料庫語言學(xué)”作為“教師發(fā)展”的一個重要內(nèi)容,通過辦進(jìn)修班、學(xué)術(shù)講座和網(wǎng)絡(luò)課程等形式,使教師掌握語料庫語言學(xué)理論與方法。這是其它三種途徑的前提條件,也是教師面臨的新挑戰(zhàn)。根據(jù)最近的一項(xiàng)調(diào)查,英語教師常常需要向以英語為母語者請教語言點(diǎn),而英語語料庫被形容為“孜孜不倦的告知者(informant[s]),語言知識比一般以英語為母語者潛力更大”(Lüdeling,Anke&Kyt,Merja.2008)。中心詞索引可以幫助教師創(chuàng)造一個數(shù)據(jù)豐富的學(xué)習(xí)環(huán)境,“豐富他們自身的語言知識”(Barlow 1996:30)及學(xué)生的語言知識。
2)向?qū)W生傳授語料庫使用的基本技能。這包括兩方面的技能,即語料庫、語料庫軟件工具的使用技能和使用語料庫進(jìn)行數(shù)據(jù)分析的能力。學(xué)生一旦掌握了語料庫研究的使用技能,就可通過語料庫進(jìn)行商務(wù)英語與通用英語詞匯、句法等方面的比較、進(jìn)行詞語搭配、主題分析、例句援引、詞素分析、詞匯語義學(xué)和話語分析等,從而自己駕馭語言學(xué)習(xí),將學(xué)習(xí)模式轉(zhuǎn)化為以學(xué)習(xí)者為中心,根據(jù)客觀語言事實(shí)來形成解決語言學(xué)習(xí)問題的方案。
3)將“商務(wù)英語語料庫”直接應(yīng)用到課堂上,即采用基于語料庫的語言教學(xué)法。首先,由學(xué)生運(yùn)用于語料庫軟件,觀察真實(shí)語料,從大量語料中看到對某一語言現(xiàn)象的呈示(Illustration),然后討論和分享在語料中的發(fā)現(xiàn),形成與語料庫的互動(Interaction),接著對某個語言現(xiàn)象的規(guī)則進(jìn)行歸納(Induction),并在教師的指導(dǎo)下通過觀察更多語料,逐步修正完善規(guī)則。這種“數(shù)據(jù)驅(qū)動學(xué)習(xí)(Data Driven Learning)”的教學(xué)模式,體現(xiàn)了建構(gòu)主義、人本主義教育思想,值得大力探索和提倡。例如,在商務(wù)英語中“appreciate”一詞用法甚多,可與不同的詞搭配使用,學(xué)生通過檢索語料庫即可清楚觀察到該詞搭配情況(表1),并對之進(jìn)行甄別、歸納。試題的代表性和真實(shí)性,使考題內(nèi)容即實(shí)際工作的內(nèi)容,保障試題的效度。以“market”一詞為例,表2顯示了該詞在“商務(wù)英語語料庫”中的44條語境共現(xiàn)例句。其中,有market充當(dāng)句子成分的分布、類聯(lián)接(colligation)、語義搭配(collocation)及強(qiáng)搭配、弱搭配和零搭配等搭配關(guān)系等信息。
表1 “appreciate”在商務(wù)書信的部分搭配情況
3.商務(wù)英語測試
語言測試是語料庫應(yīng)用的一個新領(lǐng)域。語料庫最強(qiáng)有力的工具——中心詞索引和詞頻統(tǒng)計(jì)工具,可展示“商務(wù)英語語料庫”中的詞匯在不同商務(wù)語境中的使用頻度極其豐富用例和細(xì)微差別,對一些疑難用法、慣用搭配和語篇結(jié)構(gòu)特征進(jìn)行排序、歸類,便捷地查找出編制試題所需要的真實(shí)素材,確保
表2 “market”一詞語境共現(xiàn)情況
語料庫已廣泛用于國際大型英語測試中,如美國教育考試服務(wù)中心(ETS)建立了The T2K-S WAL Corpus為托福、GRE、G MAT等考試服務(wù);英國劍橋大學(xué)英語認(rèn)證測試考試委員會(UCLES)建立了Cambridge Learner Corpus,Business English Text Corpus等,為劍橋大學(xué)英語認(rèn)證測試等服務(wù)。同樣,“商務(wù)英語語料庫”也擬用于設(shè)在深圳職業(yè)技術(shù)學(xué)院的“全國國際商務(wù)英語考試中心”主持的“全國國際商務(wù)英語考試”,為該考試發(fā)揮以下功能:1)用作測試文本庫,開發(fā)試題材料;2)從語料庫檢索商務(wù)英語搭配情況、真實(shí)的題干和合理的干擾項(xiàng)分析,提高測試的效度;3)使測試標(biāo)準(zhǔn)化和規(guī)范化,優(yōu)化測試流程,改善評分質(zhì)量;4)建立考生試卷語料庫,研究學(xué)生中介語特點(diǎn)。
4.商務(wù)英語語言研究
以往語料庫的應(yīng)用多局限在詞匯、語法研究方面。但近年來,已有極大的突破,利用語料庫對較大的語言單位的研究已相當(dāng)普遍(Biber,Connor&Upton 2007)。利用相關(guān)軟件,如MonoConc,可對“商務(wù)英語語料庫”中的商務(wù)信件、電子郵件、傳真、memo及商務(wù)報(bào)告等內(nèi)容進(jìn)行文體(style)、體裁(genre)、語步(moves)、語義關(guān)聯(lián)(semantics associations)、語義韻律(semantic prosody)、語篇構(gòu)建及禮貌策略等進(jìn)行分析,從而找出商務(wù)英語作為一種專門用途用語(ESP)的特點(diǎn)。
5.商務(wù)英語翻譯
20世紀(jì)90年代以來,基于語料庫的翻譯研究已成為翻譯研究領(lǐng)域中一種新的研究范式,發(fā)展勢頭迅猛,在理論、描寫和應(yīng)用等層面對翻譯研究和翻譯教學(xué)中發(fā)揮越來越重要的作用?!吧虅?wù)英語語料庫”平行語料庫部分可用于商務(wù)英語翻譯研究與教學(xué)。將國際商務(wù)英語放在翻譯語料庫層面上進(jìn)行研究,可為國際商務(wù)翻譯者提供一個學(xué)習(xí)的平臺,通過比較譯語文本和其對應(yīng)的母語中的語言特征及其出現(xiàn)的頻率來研究翻譯過程,對商務(wù)譯文風(fēng)格特點(diǎn)進(jìn)行量化分析,挖掘翻譯規(guī)律,促進(jìn)國際商務(wù)和對外貿(mào)易的發(fā)展。利用對應(yīng)語料庫還可搜尋大量的對應(yīng)詞語、短語,豐富商務(wù)英-漢、漢-英商務(wù)、貿(mào)易詞典的編纂,并為商務(wù)英語機(jī)器翻譯(Machine Translation)和機(jī)器助譯(Machine-aided Translation)等提供支持。
“商務(wù)英語語料庫”建設(shè)及其應(yīng)用是一項(xiàng)龐大、復(fù)雜和艱辛的工作,不可能一蹴而就,需要投入大量的時(shí)間和人力;也涉及到語料庫建設(shè)中普遍存在的版權(quán)等問題,包括語料庫采用的書刊的版權(quán)、第一手商務(wù)資料的保密、與語料庫配套使用的軟件的授權(quán)等,需要與相關(guān)出版商、開發(fā)商洽談版權(quán)等問題。
自1964年第一個可用計(jì)算機(jī)處理的語料庫Brown Corpus在美國Brown大學(xué)問世以來,經(jīng)過四十多年幾經(jīng)曲折的發(fā)展,語料庫正逐漸成為語言學(xué)理論研究、應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源。目前,世界各國許多語言學(xué)家和外語教師都在探求語料庫在各領(lǐng)域中的應(yīng)用,發(fā)展前景十分良好。始建于2003年的新加坡教育研究語料庫(Singapore Corpus of Research in Education,簡稱SCoRE),是一個對課堂師生互動、教材和學(xué)生作業(yè)等錄像、錄音和文字材料進(jìn)行了多模態(tài)、多層次(multimodal,multilevel)標(biāo)注的語料庫,代表了語料庫發(fā)展的新方向(Hong.2007)。在“商務(wù)英語語料庫”應(yīng)用中,既要注重發(fā)揮中心詞索引、關(guān)鍵詞分析等核心功能的作用,也需要向使之在多模態(tài)、多層次方向發(fā)展,只有這樣才能取得語料庫語言學(xué)作為語言學(xué)研究中革命性的進(jìn)步的成果。
[1]Barlow,Michael.Corpora for theory and practice[J].International Journal of Corpus Linguistics,1996,(1):1-37.
[2]Barlow,Michael.Software for corpus access and analysis,In:J.Sinclair(ed.),How to use corpora in language teaching[C].Amsterdam,John Ben jam ins,2004.
[3]Biber,Douglas,Susan Conrad,Randi Reppen.Corpus Linguistics:Investigating Language Structure And Use[M].Beijing:Foreign Language Teaching and Research Press,2000.
[4]Biber,Douglas,Ulla Connor and Thomas A.Upton,Discourse on the Move:Using corpus analysis to describe discourse structure[M].Amsterdam:John Ben jam ins Publishing Company,2007.
[5]Flowerdew,Lynne.The argument for using English specialized corpora[C].In:Ulla Connor Tho mas A.Upton(ed.),Discourse in the Professions:Perspectives from Corpus linguistics,Amsterdam:John Benjamins Publishing Company,2004.
[6]Hong,Huaqing.Score:A Multimodal Corpus Database of Education Discourse in Singapore Schools[EB/OL].http://www.corpus.bham.ac.uk/pclc/ScopeHong.pdf.2007.Accessed on Oct.10,2009.
[7]Leech,Geoffrey.Teaching and Language Corpora:A Convergence.In:W ichmann,A.Teaching and Language Corpora[M].London:Longman,1997.
[8]Lüdeling,Anke&Merja Kyt,Corpus linguistics:an international handbook[M].Berlin and New York:Walter de Gruyter,2008.
[9]McEnery,Tony.Richard Xiao,&Yukio Tonio,Corpus-based language studies:An advanced resource book[M].New York:Routledge,2006.
[10]Mindt,Dieter.English corpus linguistics and the foreign language teaching syllabus.In:Jenny Thomas&MichaelH.Short(eds.).U-sing Corpora for language Research[C].Beijing:Foreign Language Teaching and Research Press,2001.
[11]Svartvik,Jan.Corpora are becoming mainstream.In:Jenny Thomas&Michael H.Short(eds.).Using corpora for language research[C].Beijing:Foreign Language Teaching and Research Press,2001.
[12]馮志偉.《應(yīng)用語言學(xué)中的語料庫》導(dǎo)讀[A].Susan Hunston.Corpora in Applied Linguistics[C].北京:世界圖書出版公司,劍橋大學(xué)出版社,2006.
[13]肖忠華,許家金.語料庫與語言教育[J].中國外語教育,2008,(2).
2009-12-16
周玉林(1963-),男,江西信豐人,博士研究生,副教授。