黃立波 朱志瑜
(1 西安外國語大學,西安,710128;1、2香港理工大學,香港)
翻譯研究領域近二十年的一大進展就是語料庫翻譯學(也稱基于語料庫的翻譯研究)范式的建立和發(fā)展。1998年,薩拉·拉維歐薩(Sara Laviosa)在META(43/4)“語料庫翻譯研究”??兄赋觯按藢?袃芍啬康模阂皇菄L試來界定這一翻譯研究新領域的現(xiàn)有地盤;二是通過理論闡述與實證研究相結(jié)合,展示語料庫研究方法正在發(fā)展成為一種連貴、綜合、豐富的范式,正在著手于一系列與翻譯理論、描寫和實踐相關的問題探討”(Laviosa 1998:474)??梢?,語料庫起初只是作為一種研究途徑被引介到翻譯研究中,但在短短五年時間①這一研究途徑逐步建立和完善了自己的方法論體系,擁有了自己的研究團隊,開始發(fā)展為一種研究范式。一些有影響的平行語料庫,如加拿大議會會議錄英法平行語料庫(the Canadian Hansard Corpus)、克姆尼茨英-德翻譯語料庫(Chemnitz E-G Translation Corpus)、德-英文學文本平行語料庫(GEPCOLT)、英語-挪威語平行語料庫(ENPC)、英語-思大利語雙向平行語料庫(CEXI)、葡-英雙向平行語料庫(Compara)相繼建成,基于這些語料庫的翻譯研究成果大量涌現(xiàn)。
1998年,哈爾濱工業(yè)大學建成容量3萬句對的英漢雙語語料庫,并進行了詞性標注。同期有代表性的英漢平行語料庫還包括:北大計算語言學研究所雙語語料庫、東北大學英漢雙語語段庫、外研社英漢文學作品語料庫、馮友蘭《中國哲學史》漢英對照語料庫和李約瑟《中國科學技術史》英漢對照語料庫、國家語委語言文字所英漢雙語語料庫、中科院軟件所英漢雙語語料庫和中科院自動化所英漢雙語語料庫等(參見馮志偉2002:57)。國內(nèi)平行語料庫建設與國外相比,時間上不算太晚,但基于平行語料庫的翻譯研究起步較晚。據(jù)筆者調(diào)查,國內(nèi)最早關于語料庫與翻譯研究的學術文章是“語料庫與翻譯研究”一文(廖七一2000)。該文不僅介紹了與翻譯研究相關的平行、多語和可比三類語料庫以及英國的翻譯英語語料庫(TEC),而且對語料庫在翻譯實踐、翻譯規(guī)范、翻譯普遍性等研究中的應用做了說明。盡管此文只是一個介紹,卻為國內(nèi)的翻譯研究者打開了一條新思路。隨后的十多年中,一些有影響英漢平行語料庫相繼建成,產(chǎn)生出一大批相關的研究成果。通過綜述國內(nèi)近十多年來雙語平行語料庫的建構(gòu)及相關研究,并歸納這一方面的得失,可以對此領域未來的發(fā)展趨勢提出一些有思義的推斷和建議。
國內(nèi)的雙語平行語料庫大體可分為通用類和特定領域類兩種②,前者是指文學及非文學文本兼收的多文類語料庫,可用于多種類型的研究,如北京外國語大學“通用漢英對應語料庫”、南京國際關系學院“英漢平行語料庫”等;后者則是以某一(類)文本為收錄對象,如《紅樓夢》平行語料庫、法律法規(guī)語料庫等。
北京外國語大學中國外語教育研究中心王克非主持和研制的北外“通用漢英對應語料庫”是目前世界上最大的雙語平行語料庫,目前容量為3000萬字詞,并在進一步建設中。此語料庫的建庫理念是“語言與翻譯研究并重”,“可應用于語言研究、翻譯研究、教學研究、雙語詞典研編等”(王克非2004b:73)。該語料庫包括翻譯文本庫、百科語料庫、??普Z料庫和對譯語句庫四部分,并實現(xiàn)了漢英文本的句級對應,可進行基本語法標注和詞、詞頻、短語、句型、搭配等自動鏈接式檢索,即同一界面英漢語句子實現(xiàn)雙向?qū)R。此外,該語料庫中的漢語原文及其對應英語譯文和英語原文及其對應漢語譯文四類語料可在同一語料庫內(nèi)實現(xiàn)語際對比和語內(nèi)類比方面的研究。在此語料庫基礎上的實證研究主要包括翻譯單位(如王克非2003)、翻譯語言特征/翻譯共性(如秦洪武、王克非2004;王克非、胡顯耀2008;黃立波2007,2008;王克非、秦洪武2009;王克非、胡顯耀2010)、翻譯文體(如黃立波2009)、語言與翻譯教學(王克非2004a;秦洪武、王克非2007;王克非等2007;王克非、熊文新2009等)等方面的研究。并以此為基礎建成約一千萬字詞的“中英雙語在線”(Chinese-English Online,CEO)檢索平臺(參見http:∥www.fleric.org.cn/ceo/index1.html),供語言和翻譯學習者或研究者參考。相關的理論探討主要是對國外相關研究發(fā)現(xiàn),如翻譯共性特征在英漢語翻譯語境下的驗證,并提出新的研究課題。南京國際關系學院李德俊教授主持研制的“英漢平行語料庫”容量為對齊語料2000萬詞次(以漢語計算),采用句對齊為主、段落對齊為輔的原則,文類主要有散文、小說、時文、政論文、百科知識五大部分,其中英譯漢語料占60%,漢譯英語料占40%,可用于雙語詞典編纂、漢英對比研究、翻譯教學和實踐等領域(李德俊2008:73),但該語料庫主要以服務于雙語詞典編纂為目的。
比較有代表性的特定領域類語料庫包括燕山大學劉澤權(quán)主持研制的“《紅樓夢》中英文平行語料庫”、上海交通大學胡開寶主持研制的“莎士比亞戲劇英漢平行語料庫”等。這些語料庫在建庫方法上既有相似之處,又各自具有自己的特色?!啊都t樓夢》中英文平行語料庫”由一個原文及其三種譯文構(gòu)成,容量為約274萬字詞,以源文本為標準實現(xiàn)了句級對齊,在MMAX標注程序自動標注的基礎上,對句子類型、語域、語態(tài)、是否包含修辭、習語或諺語作了一定程度的手工標注,并已建成可用于局域網(wǎng)內(nèi)的網(wǎng)絡檢索平臺(劉澤權(quán)等2008)。目前在此基礎上的研究包括敘事標記語英譯(如劉澤權(quán)、田璐2009等)、稱謂翻譯(如肖家燕、劉澤權(quán)2009等);顏色詞語義分析(如劉澤權(quán)、苗海燕2010)、譯者風格(如劉澤權(quán)、閆繼苗2010;劉澤權(quán)等2011)等。該語料庫最大的特點是手工標注的介人,使得檢索數(shù)據(jù)可以從形式方面深人到語義、文體等層面。相關的研究成果在一定程度上證明了盡管前期的手工標注賈時賈力,但可以為后續(xù)的深人研究提供較大的方便。“莎士比亞戲劇英漢平行語料庫”容量為約600萬字詞,全庫由一種原文及其三種譯文組成,該語料庫在對漢語文本分詞的基礎上利用CLAWS和ICTCLAS 3.0分別對英、漢文本做了詞性標注,并在對話層面,即話輪層面上實現(xiàn)了對齊。在此語料庫基礎上可以開展英漢文本一對一和一對多的平行檢索,考察譯者風格、翻譯策略和翻譯語言特征等方面,具體如漢語翻譯文本中的顯化(如胡開寶、朱一凡2008;胡開寶、鄒頌兵2009)、漢語翻譯文本中特殊句式的使用(如胡開寶2009)等。該雙語庫語料庫同時可用來進行莎劇語言研究,并可將語言研究的發(fā)現(xiàn)應用于莎劇翻譯研究,實現(xiàn)以語言研究促進翻譯研究的新時期莎劇翻譯的特色。
還有一些可供在線檢索的雙語平行語料庫,如洪化清的在線“紅樓夢漢英平行語料庫”、紹興文理學院孫鴻仁主持研制的雙語平行語料庫系列,具體包括:“中國法律法規(guī)漢英平行語料庫”、“《毛澤東選集》漢英平行語料庫”、“《鄧小平文選》漢英平行語料庫”、“魯迅小說漢英平行語料庫”、“《紅樓夢》漢英平行語料庫”等。此外,一些自建的小型平行語料也被應用于基礎研究和應用研究中(如葉常青2003;于連江2004;肖維青2005;王正、孫東云2009等),相關的成果大量涌現(xiàn)。
現(xiàn)有的語料庫建設主要表現(xiàn)出以下共同特點:第一,句子層面實現(xiàn)對齊,方便了對特定語言轉(zhuǎn)換現(xiàn)象的大規(guī)模觀察與分析;第二,自動標注與人工標注相結(jié)合,使得相關研究得以從形式到語義、語用、文體等方面深人?;谄叫姓Z料庫的翻譯研究主要集中在三個方面:第一,語料庫建構(gòu)技術探索。主要探討如何運用計算機技術來研制語料庫,尤其是對漢語文本的加工、英漢對齊的處理以及手工標注介人等問題;第二,基于語料庫的實證研究和理論探討。以翻譯共性為例,相關的實證研究不僅關注單一類比模式(the comparable mode)下目標語中翻譯文本與非翻譯文本之間的差異,而且也將源文本作為分析和解釋翻譯文本中特定語言轉(zhuǎn)換現(xiàn)象的一個維度。既有對翻譯語言宏觀特征的探究,也有對具體語言轉(zhuǎn)換的考察。第三,平行語料庫在翻譯教學中的應用,具體包括網(wǎng)絡檢索平臺的輔助翻譯教學和自建語料庫在課堂教學中的運用等。2009年10月由北京外國語大學中國外語教育研究中心和上海交通大學外國語學院聯(lián)合舉辦的“全國首屆語料庫翻譯學研討會”在上海交通大學成功舉行。此次會議是對近年來國內(nèi)語料庫翻譯學的一次總結(jié)性交流,代表了國內(nèi)語料庫翻譯學的發(fā)展水平。
綜觀這些語料庫的建設及以此為基礎的研究可以發(fā)現(xiàn),十多年的時間,國內(nèi)平行語料庫已經(jīng)從介紹國外的相關研究,發(fā)展到創(chuàng)建自己的語料庫,再到對語料庫的開發(fā)和應用,取得了相當快的進步。但同時,在這一探索過程中也表現(xiàn)出一些問題,具體如下:
第一,語料庫建設各自為政,缺乏超大規(guī)模、綜合性、多用途的國家級平行語料庫。
盡管國內(nèi)現(xiàn)有的雙語平行語料庫各自已具備一定的規(guī)模,但缺乏上億詞容量,覆蓋面更寬,應用范圍更廣的超級語料庫(mega-corpus)。重復建設是一個突出的原因,以《紅樓夢》漢英平行語料庫為例,比較有代表性的至少就有三個。盡管語料庫可以為研究提供方便快捷的數(shù)據(jù)檢索服務,但語料庫建設本身卻是一項賈時、賈力的工作,從對語料的收集(包括掃描、識別、校對等)、預處理,到語料切分、標注、對齊,每一步的工作量都不小,而且需要做到盡可能的細致和精確,以保證后期語料處理和將來檢索的準確性。這樣一來,每一個具備一定規(guī)模、比較完善的語料庫的建設周期都不短,重復建設分散了力量,限制了語料庫的規(guī)模和加工深度。解決此問題的一種辦法就是各語料庫研制團隊之間加強交流與溝通,對現(xiàn)有資源進行整合,實現(xiàn)共享,并制定一定的發(fā)展計劃,分工合作,共同建設超大規(guī)模、綜合性、多用途的國家級平行語料庫。
第二,語料庫的深加工還不夠深人。
語料庫翻譯學發(fā)展的一大關鍵點就是“雙語庫的研制,它是技術手段,是基礎設施,也體現(xiàn)研制者的研究目的,其加工程度影響研究課題的選擇”(王克非、黃立波2008:10)。從語料的分類看,目前大多語料庫還僅限于文學和非文學兩種,一些專門類的語料庫規(guī)模還比較小。針對于此,在未來的分類中可以對文學和非文學語料作進一步的劃分,如文學文本之下可以包括小說、戲劇、散文、詩歌、傳記等,非文學文本可以包括新聞、科技、財經(jīng)、法律、歷史、農(nóng)林、醫(yī)藥等文類(genre)。從標注方面看,對標注技術的研究還不夠,現(xiàn)有的語料標注主要以詞類標注為主,句法、語義、修辭等方面的標注還要依靠手工來完成。通常,語料庫的建設與研究目標密不可分,對語料庫的加工標注也是以預期的研究目標為前提的,但大規(guī)模、綜合性、多用途的平行語料庫建設需要預先通盤考慮,標注的信息應當可支持將來的可持續(xù)的系統(tǒng)研究。以預期究目標為出發(fā)點,根據(jù)具體的研究對象設計軟件兼容的標注符,然后利用編輯軟件進行批量賦碼。
第三,從對語料庫的應用看,對語料庫的研究潛力開發(fā)還不夠。
通用型雙語平行語料庫一般包括四類語料:漢語原文及其對應英語譯文,和英語原文及其對應漢語譯文,可同時應用于英漢語言對比和翻譯研究,語際對比和語內(nèi)類比均可進行。但目前基于平行語料庫的語言對比研究還不足,翻譯研究也主要以共時的類比研究為主,根據(jù)時代、譯者、翻譯方向等參數(shù)研究不多。??祁愓Z料庫中的一對多模式,即一個原文對應兩個以上譯文的模式是其一大特色,不僅可應用于跨語際的語言轉(zhuǎn)換研究,還可進行不同翻譯方向上譯出與譯人文本的類比研究,以及翻譯語言與非翻譯語言的類比研究等。但目前此類研究主要局限于文學作品領域,對于非文學文本,如政論以及新聞、財經(jīng)、法律等實用文本的類似考察尚不多見。對語料庫潛力的開發(fā)應當以語料庫翻譯研究方法論的不斷完善為基礎,在英漢語對比研究的支持下發(fā)掘新的研究對象,提出新的研究模式,如在超大規(guī)模平行語料庫的支持下進行翻譯語言的歷時變化研究、翻譯語言與原創(chuàng)語言的歷時對比研究、不同時期翻譯文本所體現(xiàn)出的翻譯規(guī)范研究、不同文類翻譯策略的對比研究、不同翻譯方向的翻譯策略對比研究等等。
第四,相關學科之間的溝通與合作不夠。
語料庫翻譯學的發(fā)展離不開計算機統(tǒng)計分析手段的支持,反過來語料庫翻譯研究的深人又為語言統(tǒng)計分析提出了更高的要求。以漢英平行語料庫對齊技術為例,國內(nèi)關于此問題早在90年代初就已有討論(參見黃俊紅等2007:23),但關于此類探討在很長一段時間內(nèi)主要是在計算機專業(yè)或計算語言學領域,更側(cè)的是重于技術性的討論。近年來,語料庫語言學的發(fā)展為語言/翻譯研究與計算機技術的結(jié)合提供了很好的交流界面,語言研究者和翻譯研究者與計算機專業(yè)人士的合作不斷加強,前者為后者提出了新的研究課題,后者則為前者提供了研究手段的支持。以英漢平行語料庫為例,漢語的分詞與標注技術使得從詞匯或標注層面的自動檢索和數(shù)據(jù)提取成為可能,大規(guī)模平行語料庫的建立為網(wǎng)絡檢索平臺和翻譯軟件的發(fā)展提供了基礎,真正實現(xiàn)了語言學與計算機科學的有機結(jié)合。語料庫翻譯學是計算機技術為媒介的語料庫語言學與翻譯研究的結(jié)合,二者相互促進。
Labov認為,“語言學領域內(nèi)每一次重大的范式轉(zhuǎn)換大都由該學科領域?qū)緮?shù)據(jù)看法的改變而引發(fā)”(轉(zhuǎn)引自Stubbs 1993:24),這一論斷同樣適用于翻譯研究。正是大規(guī)模原文及其對應譯文的電子文本庫以及相關技術所提供的大規(guī)模數(shù)據(jù)檢索與提取為翻譯研究提供了新視角。然而,隨著計算機技術的發(fā)展和語料庫建設的進一步完善,更大規(guī)模雙語平行語料庫呈現(xiàn)給翻譯研究者的新型數(shù)據(jù)必將引發(fā)新的研究課題。在此背景下,國內(nèi)的平行語料庫建構(gòu)與研究呈現(xiàn)出如下一些趨勢:
首先,超級雙語平行語料庫建設勢在必行。這里所謂“超級平行語料庫”不僅指庫容上億字詞,而且在文類、時間跨度等方面都要具有一定的代表性。超大規(guī)模的雙語庫總體上可由人文、社會和自然科學的若干個子庫構(gòu)成,各庫可分可合。人文類語料又可包括文學、法律、歷史、哲學、宗教、藝術等若干次子庫;社會科學類語料可包括文化、地理、旅游、考古、心理、經(jīng)濟、政治、管理等若干次子庫;自然科學類語料可包括生物、化學、物理、天文、農(nóng)林、醫(yī)藥等若干次子庫。各類語料內(nèi)部可進行進一步的細分,在時間上也需要有一定的跨度,可進行歷時的對比與分析。這樣一來,語料庫的適用性將更強,既可同時用于各類學術研究和實際應用,也將擴大語料庫翻譯研究的視野。
第二,語料的加工標注研究將是語料庫語言/翻譯研究的基礎。計算機技術的發(fā)展為翻譯研究提供了極大的方便。對語料的加工不單單是對計算機軟件技術操作,而是建立在一定語言學理論基礎上,為一定的翻譯研究目標服務。標注的深人程度決定了未來研究的層次,現(xiàn)有的自動標注遠不能滿足實際研究與應用的需要。近年來,根據(jù)研究目標設定的手工標注在一些研究項目中開始應用(如英國蘭卡斯特大學語料庫文體學項目、燕山大學的《紅樓夢》平行語料庫項目等),取得了良好的效果。語料庫翻譯研究并非是一條捷徑,它只是為描寫研究提供了一個強有力的數(shù)據(jù)支持。自動標注的深度是有限的,手工標注對于大型平行語料庫建設來說盡管不太現(xiàn)實,但借助計算機程序?qū)崿F(xiàn)的人工賦碼可以大大減輕手工標注的工作量,為后期的多重數(shù)據(jù)提取與分析奠定基礎。人工賦碼主要有兩種途徑:第一,以文本為出發(fā)點,根據(jù)預設的標注符,在文本中找尋不同的語言現(xiàn)象,逐一進行賦碼;第二,首先建立研究對象與具體語言項之間的關系,制定具體語言項的詞表,對具體語言項按照一定的標準進行分類,給出特定的標注符,然后借助自設程序在文本中進行批量賦碼。相比較而言,后者的可操作性更高一些。需要指出的是,這里所說的“手工標注”,并非純粹思義上的人工操作,而是一定的小軟件設計編程為基礎的。
第三,軟件開發(fā)和網(wǎng)絡平臺的建設。語料庫是研究的工具,語料庫的建設也需要先進的工具。近年來,國內(nèi)外開發(fā)研制的Paraconc、Antconc、Trados、WordSmith,Claws、中科院的ICTCLAS漢語詞法分析系統(tǒng)、雅信CAT 等文本處理與分析或翻譯軟件,為研究者在標注、對齊、統(tǒng)計等方面提供極大的方便,使研究過程更具直觀性,研究結(jié)果更具信度與效度。但相比較而言,國內(nèi)在適用于漢英翻譯研究的相關軟件開發(fā)方面還要落后于其他國家。語料庫研究相關軟件的研制與開發(fā)將依然是今后語料庫翻譯研究的一個重點。另一方面,語料庫建設的最終目的是服務于理論研究與實際應用,大規(guī)模、綜合性、多用途的國家級平行語料庫可同時滿足這兩方面的需要。就實際應用而言,現(xiàn)有的方式主要是以語料庫為后臺運行的數(shù)據(jù)庫,建立網(wǎng)絡檢索平臺。數(shù)據(jù)庫的規(guī)模與加工深度決定了檢索信息的內(nèi)容與復雜程度。但現(xiàn)有的平臺僅能提供詞語、搭配、句對等簡單檢索,利用率不高。隨著今后語料標注與加工技術的發(fā)展,更加完善的檢索平臺應該能夠提供多重的檢索服務。
從語料庫翻譯研究方法被介紹到國內(nèi)至今已有十多年的時間,國內(nèi)的相關研究經(jīng)歷了從介紹綜述到理論探討與實證研究的快速發(fā)展。平行語料庫建設已經(jīng)具備一定規(guī)模,基于品行語料庫的語言對比與翻譯研究也取得了較為豐碩的成果。語料庫語言學的研究成果以及語料庫語言學與其他研究領域相結(jié)合的成果帶給翻譯研究的啟示必將促使雙語平行語料庫的進一步完善與發(fā)展。但必須注思的是,平行語料庫的建構(gòu)與基于語料庫的翻譯研究相對而言還是一個比較新的領域,方法論方面還需要進一步完善。
附注:
①通常認為莫娜·貝克(Mona Baker)1993年的“語料庫語言學與翻譯研究:啟示與應用”(Corpus Linguistics and Translation Studies:Implications and Applications)一文奠定了語料庫翻譯研究新途徑的基礎,通常被認為是這一新研究范式的宣言書。
②本文僅綜述有代表性的書面語英漢/漢英平行語料庫。限于篇幅,對口譯平行語料庫和可用于翻譯研究的類比語料庫,以及港、澳、臺地區(qū)的相關情況暫不做討論。