張緒華
(上海交通大學(xué),上海,200240)
由于能夠提供兩種語言之間豐富的匹配信息,平行語料庫已經(jīng)成為語料庫語言學(xué)研究的一個(gè)重點(diǎn),在語言對(duì)比研究、翻譯研究、外語教學(xué)、雙語詞典編纂以及機(jī)器翻譯等領(lǐng)域有著重要的應(yīng)用價(jià)值。國外已經(jīng)建成的大型平行語料庫有加拿大漢莎英—法平行語料庫、奧斯陸大學(xué)英語—挪威語平行語料庫等;國內(nèi)有中科院計(jì)算語言研究所的大規(guī)模漢—英對(duì)應(yīng)語料庫、北京大學(xué)計(jì)算語言學(xué)研究所等單位聯(lián)合開發(fā)可在線檢索的“BABLE漢—英平行語料庫”和北京外國語大學(xué)的“通用漢—英對(duì)應(yīng)語料庫”,以及上海交通大學(xué)在建的英漢雙向平行語料庫等。
建設(shè)平行語料庫面臨的瓶頸問題是語料庫文本語言單位對(duì)應(yīng)的精確性,這主要是不同的語言在語序、句子結(jié)構(gòu)和邏輯意義的表達(dá)方面都存在著明顯的差異(甄鳳超、張霞2004)。所謂平行語料庫的對(duì)齊指從源語言文本和翻譯文本中找出互譯片斷的過程,可實(shí)現(xiàn)為段落、句子、短語、單詞等不同級(jí)別的對(duì)齊。但目前研究者普遍采用的對(duì)齊方法或不適用于漢英語料的對(duì)齊或?qū)R精度不高。針對(duì)這些問題本文提出一種新的對(duì)齊方法:即“錨點(diǎn)②與重疊信息”(anchor and overlap)。這種方法能更大限度利用雙語文本中對(duì)譯的語言信息將文本對(duì)齊,避免了基于長度對(duì)齊方法的錯(cuò)誤蔓延問題和基于詞匯對(duì)齊方法中由于錨點(diǎn)不足導(dǎo)致的對(duì)齊效果不理想的問題,提高了平行語料庫對(duì)齊的效率。
本文首先簡述已有的句子對(duì)齊方法,然后結(jié)合語言樣本實(shí)例,介紹基于“錨點(diǎn)與重疊信息”漢英句子自動(dòng)對(duì)齊方法的步驟。
在平行語料庫句子級(jí)對(duì)齊(記作AS)方法中,一個(gè)句子級(jí)對(duì)齊單位是一個(gè)二元組,記作AS=
例1:1:1句對(duì):在這個(gè)美好的夜晚,我很高興同大家在這里相聚,參加2005年北京《財(cái)富》全球論壇的開幕式。
I am very delighted to be with you here to join in the opening ceremony of the 2005 Fortune Global Forum in Beijing on this beautiful evening.
例2:1:2句對(duì):北京就是一座有3000多年悠久歷史的文明古城,800多年前北京開始建都。
The city of Beijing, with its long history of over 3,000 years, stands testimony to that effort.
It became the nation’s capital over 800 years ago.
用手工完成庫容龐大的平行語料庫的句子對(duì)齊不太現(xiàn)實(shí),因此我們需要采用一定的方法,通過計(jì)算機(jī)程序?qū)崿F(xiàn)雙語文本的自動(dòng)對(duì)齊。90年代初期國外學(xué)者開始了平行語料庫句子層次自動(dòng)對(duì)齊的研究,并提出了幾種不同的方法,包括基于長度的對(duì)齊方法(length-based method)、基于詞匯的對(duì)齊方法(lexical-method)和基于長度和詞典相結(jié)合(the combination method)的對(duì)齊方法(黃俊紅、黃萍、范云2004)。
基于長度的對(duì)齊方法假定源語言文本的句子長度與譯文句子長度有很強(qiáng)的相關(guān)性,即源語言中的長句翻譯為目標(biāo)語時(shí)仍然是較長的句子,短句則翻譯為較短的句子。在基于長度的對(duì)齊方法中,有的研究以句子中的單詞數(shù)作為長度度量的方法(Brown 1991),有的以句子中的字符數(shù)作為長度度量的方法(Gale & Church 1993)。在語源相近的語言如英語和法語中,基于長度的對(duì)齊方法很有效。Brown和Gale分別用這兩種基于長度的方法對(duì)加拿大漢莎英—法雙語語料庫進(jìn)行自動(dòng)對(duì)齊處理,準(zhǔn)確率達(dá)到98%以上(轉(zhuǎn)引自王建新 2005:121)。基于長度對(duì)齊方法的特點(diǎn)是把句子對(duì)齊看作是句子長的函數(shù),并且不需要額外的詞典信息。缺點(diǎn)是一旦此方法偶然出錯(cuò),便不可能自動(dòng)糾正,致使錯(cuò)誤蔓延,對(duì)齊準(zhǔn)確率嚴(yán)重下降。
基于詞匯的對(duì)齊方法又被稱為基于詞典的對(duì)齊方法。Kay和R?scheisen(1993)最早提出基于雙語詞典的對(duì)齊方法,雙語詞典包含詞匯的對(duì)譯信息,是進(jìn)行詞對(duì)齊的重要資源。這種方法基于以下假設(shè),即包含最大數(shù)量對(duì)譯詞的一對(duì)句子是最佳對(duì)譯句?;谠~匯的對(duì)齊方法相對(duì)可靠準(zhǔn)確,但由于計(jì)算起來相當(dāng)復(fù)雜且速度較慢,目前還沒有充分證明基于詞匯的方法適合于大型語料庫(黃俊紅等 2004)。Church(1993)則采用同源詞法(cognate)進(jìn)行平行語料庫對(duì)齊。此方法假設(shè)兩種語言中有共同的前幾個(gè)字母的詞匯通常是互譯詞,并以這些互譯詞為錨點(diǎn)進(jìn)行對(duì)齊。由于英語和非印歐語系的漢語沒有同源詞根的存在,所以不可能將這種方法應(yīng)用于英漢平行語料的對(duì)齊。
以上兩種方法各有優(yōu)劣,研究人員試圖將它們結(jié)合起來使用,先利用雙語中對(duì)應(yīng)的詞匯信息對(duì)語料庫進(jìn)行對(duì)齊處理,無法對(duì)齊的部分再使用長度關(guān)系對(duì)齊或在基于長度對(duì)齊的基礎(chǔ)上,再利用詞匯對(duì)齊關(guān)系改進(jìn)對(duì)齊效果。Wu(1994,轉(zhuǎn)引自王建新 2005:122)用此方法對(duì)齊了相當(dāng)一部分漢英雙語的香港漢莎(Hong Kong Hansard)語料庫,準(zhǔn)確率達(dá)到92.1%。
各國學(xué)者陸續(xù)提出了各種對(duì)齊方法,但基本上多為以上三種方法的變形或改良,如McEnery和Oakes(2001)在CRATER項(xiàng)目中的對(duì)齊方法。針對(duì)漢英雙語對(duì)齊,國內(nèi)的劉昕等(1998),錢麗萍等(2000)研究者也進(jìn)行了一些改進(jìn)的對(duì)齊方法研究。目前很多學(xué)者在進(jìn)行雙語對(duì)齊研究時(shí),大多數(shù)都是在段落對(duì)齊的基礎(chǔ)上進(jìn)行句子對(duì)齊的研究。
英法等印歐語言之間存在巨大的相似性,已有專門軟件如Multiconcord對(duì)其進(jìn)行自動(dòng)句對(duì)齊處理,精準(zhǔn)度很高。漢語和英語隸屬于不同的語系,兩者之間由于標(biāo)點(diǎn)、句式和語篇上的明顯差異,實(shí)際翻譯中常不以句子為單位翻譯,自動(dòng)句對(duì)齊處理準(zhǔn)確度只有60%左右,因此這一工作仍需人工完成(Wang 2001)。北京大學(xué)計(jì)算語言學(xué)研究所同中國科學(xué)院計(jì)算技術(shù)研究所、清華大學(xué)智能技術(shù)國家重點(diǎn)實(shí)驗(yàn)室聯(lián)合開發(fā)的“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”的句子自動(dòng)對(duì)齊程序就是采用基于長度的方法,自動(dòng)對(duì)齊結(jié)果仍需要人工校對(duì)(柏曉靜等2002)。
目前漢語和英語之間進(jìn)行句子層次的對(duì)齊方法尚不完善,本文認(rèn)為應(yīng)該充分利用雙語中的對(duì)譯信息,突破以往著眼于英語的對(duì)齊方法,將漢語作為源語言,英語作為目標(biāo)參照語言進(jìn)行對(duì)齊研究,并提出一種新的平行語料庫的對(duì)齊方法,即“錨點(diǎn)與重疊信息”。
“錨點(diǎn)與重疊信息”主要是基于如下思路:擁有最多共同錨點(diǎn)和重疊信息的n個(gè)(n≥0)漢語句子和n個(gè)(n≥0)英語句子被認(rèn)為是平行句對(duì),并被整理為平行句對(duì)的形式。這種方法主要有五個(gè)步驟:
(1) 在漢英對(duì)譯文本中尋找對(duì)譯的錨點(diǎn);
(2) 回譯英文為漢語并尋找重疊信息;
(3) 給錨點(diǎn)和重疊信息賦值;
(4) 標(biāo)記句子邊界并完成句子級(jí)的雙語對(duì)齊;
(5) 對(duì)自動(dòng)對(duì)齊結(jié)果進(jìn)行人工校對(duì),得到在句子層次上對(duì)齊,并帶正確的句子邊界標(biāo)記和對(duì)齊標(biāo)記的雙語平行語料庫。
我們以2005年胡錦濤同志在北京《財(cái)富》全球論壇開幕式上的講話的中英文材料作為語料來說明該方法的對(duì)齊步驟。語料漢語部分為2078個(gè)漢字,45個(gè)句子;對(duì)應(yīng)的英文為1356個(gè)單詞,51個(gè)句子。
雙語文本的對(duì)齊由程序自動(dòng)實(shí)現(xiàn),然后由人工校對(duì)。我們的編程環(huán)境是Visual FoxPro 6.0。FoxPro具有軟件包和編程語言的特點(diǎn),有著與自然語言相似的指令和函數(shù),能夠?qū)ξ促x碼或已賦碼的語料進(jìn)行處理,適合語言學(xué)計(jì)量研究(Fan 2005)。步驟(2)中使用的翻譯軟件是Dr. eye譯典通。
Brown(1991)在對(duì)漢莎語料庫進(jìn)行對(duì)齊時(shí),引入了錨點(diǎn)的概念,認(rèn)為錨點(diǎn)的作用就是將整個(gè)語料庫分成一些小的對(duì)齊片斷。錨點(diǎn)的自動(dòng)提取算法已很完善,國內(nèi)外有很多學(xué)者做過大量的討論和嘗試,如K-vec算法和基于詞對(duì)匹配特征的DK-vec(Fung & McKeown,1994)算法,以及王斌(2000)針對(duì)以上方法的改進(jìn)算法等,在錨點(diǎn)的自動(dòng)提取上都有很好的效果,我們?cè)谶@里不再贅述。
現(xiàn)在假設(shè),我們有一個(gè)通過自動(dòng)提取算法提取的漢英對(duì)應(yīng)錨點(diǎn)表。當(dāng)然此表不可能將文本中所有對(duì)應(yīng)詞囊括在內(nèi),而只包含部分對(duì)應(yīng)詞語。我們將每一對(duì)對(duì)應(yīng)錨點(diǎn)編號(hào),號(hào)碼是不可譯的彼此相區(qū)別的符號(hào)。如圖1:
圖1 雙語對(duì)應(yīng)錨點(diǎn)及編號(hào)
既然在步驟(1)中得到的錨點(diǎn)不可能包括文本中所有對(duì)譯詞,為了確保自動(dòng)對(duì)齊的準(zhǔn)確率,應(yīng)該更大限度地利用漢英文本中的對(duì)譯信息資源,在漢英文本中尋找更多的對(duì)譯信息。具體做法是:將漢英文本中的對(duì)應(yīng)錨點(diǎn)用其相應(yīng)的編號(hào)依次代替(例1經(jīng)過替換成為例3),然后把替換后的英語文本用翻譯軟件Dr. Eye回譯成漢語(例4)。此時(shí),經(jīng)過回譯的文本中沒有被替換為錨點(diǎn)編號(hào)的詞語被回譯成漢語,而代表錨點(diǎn)的編號(hào)則與漢語文本(例3)中的一致。
例3:在這個(gè)a6的a5,我很高興同大家在這里相聚,a8 a9年a10《a11》全球a12的a13式。
I am very delighted to be with you here to a8 in the a13 ceremony of the a9 a11 Global a12 in a10 on this beautiful a5.
例4:我很高興能與你在這里a8在a13典禮,這個(gè)a9a11的全球a12在a10在這片美麗的a5。
不難發(fā)現(xiàn),例3和例4擁有相同的錨點(diǎn)a5、a8、a9、a11、a12和a13等,以及一些相同的詞語,如,“我”、“很”、“高興”以及“全球”等。這些詞語就是“錨點(diǎn)與重疊信息”中的重疊信息。重疊信息包含漢英文本中提取對(duì)應(yīng)錨點(diǎn)后剩下的對(duì)譯信息,如對(duì)譯的動(dòng)詞、形容詞、副詞,還包括在自動(dòng)提取錨點(diǎn)過程中漏掉的對(duì)譯的名詞等。重疊信息將在自動(dòng)對(duì)齊時(shí)對(duì)數(shù)量有限的錨點(diǎn)起到補(bǔ)充的作用,降低由于錨點(diǎn)不匹配造成的句對(duì)錯(cuò)誤對(duì)齊的幾率,提高對(duì)齊的準(zhǔn)確性。
接下來給錨點(diǎn)和重疊信息賦值。觀察經(jīng)過步驟(1)和(2)處理過的文本,我們發(fā)現(xiàn)重疊信息可靠性相對(duì)較低。原因在于英語自動(dòng)譯回漢語時(shí)很多句子中都出現(xiàn)了“的”、“了”或“是”等漢字,降低了其作為重疊信息的可靠性,因此我們賦予重疊信息低于錨點(diǎn)的權(quán)值,重疊信息賦值為1,錨點(diǎn)的權(quán)值賦為2。
此步驟要完成漢英文本句子邊界的標(biāo)記,以及句子級(jí)對(duì)齊。首先由程序自動(dòng)完成句子的邊界標(biāo)記,然后把替換了錨點(diǎn)的漢語文本和回譯為漢語的文本分別進(jìn)行詞類歸并(tokenization)。歸并后的漢語文本作為源語言,抽取其中第1句,與回譯的漢語文本的1~10句分別疊加(從回譯的漢語文本中抽取句子的具體數(shù)量需根據(jù)漢英文本間句對(duì)數(shù)差別而定。由于語料分別為45個(gè)漢語句子和51個(gè)英語句子,相差不到10個(gè)句子,所以我們把參數(shù)設(shè)為10),其中權(quán)值最高的就被確定為對(duì)應(yīng)句對(duì)(權(quán)值相同的句對(duì)需人工處理),并進(jìn)行對(duì)應(yīng)句對(duì)的記錄,以此類推。標(biāo)注后用同樣的方法處理沒有找到對(duì)應(yīng)漢語句的英語句,直到全部雙語句子找到相對(duì)應(yīng)的句子。
圖2 對(duì)應(yīng)句對(duì)記錄
圖2為對(duì)應(yīng)句對(duì)的記錄,豎列代表漢語,橫列代表英語。橫列和數(shù)列的交值為兩個(gè)句子的權(quán)值,Freq列為最大的權(quán)值,最后一列Sentali即為最高權(quán)值的句對(duì),S1代表漢語第一句,冒號(hào)后的S1表示對(duì)應(yīng)英語第一句。最后程序按照Sentali中對(duì)應(yīng)句對(duì)記錄抽取漢語原文和英語譯文句子進(jìn)行對(duì)齊實(shí)現(xiàn)(見圖3),自動(dòng)對(duì)齊的準(zhǔn)確率達(dá)到90%以上。
圖3 自動(dòng)對(duì)齊結(jié)果
通過對(duì)自動(dòng)對(duì)齊結(jié)果的人工校對(duì),我們得到了100%對(duì)齊的漢英平行語料庫(例5)。我們對(duì)語料庫進(jìn)行了簡單的對(duì)齊標(biāo)注,
例5:
本文介紹了一種以漢語作為源語,英語作為目標(biāo)參照語,利用漢英中的對(duì)譯信息進(jìn)行句子層次對(duì)齊的“錨點(diǎn)與重疊信息”方法。這種方法在處理漢英語料對(duì)齊時(shí)具有很好的效果,其基本思路為:擁有最多共同錨點(diǎn)和重疊信息的n個(gè)(n≥0)漢語句子和n個(gè)(n≥0)英語句子被認(rèn)為是平行句對(duì),并被整理為平行句對(duì)的形式。這種方法的不足之處在于過分依賴語言資源以及翻譯軟件,希望在后續(xù)的大型語料庫對(duì)齊研究中加強(qiáng)對(duì)齊算法本身的復(fù)雜性,以減輕對(duì)語言資源的依賴。與其他對(duì)齊方法相比,這種方法能更大限度地利用雙語文本中的對(duì)譯信息,避免基于長度的方法的錯(cuò)誤蔓延問題和基于詞匯方法的錨點(diǎn)不足導(dǎo)致的對(duì)齊效果不理想的問題,并且取得了很好的實(shí)踐應(yīng)用效果。
附注:
① 衷心感謝范鳳祥教授在筆者撰寫本文過程中給予的悉心指導(dǎo)。
② 錨點(diǎn)即在雙語文本中相似位置出現(xiàn)的詞匯對(duì)譯信息,是進(jìn)行對(duì)齊的重要資源,主要包括雙語對(duì)譯的專有名詞、普通名詞、數(shù)字和標(biāo)點(diǎn)符號(hào)等(McEnery & Oakes,2001:213)。
Brown P. F. 1991. Aligning sentences in parallel corpora [A].Proceedingsofthe29thAnnualMeetingoftheAssociationforComputationalLinguistics[C]. Berkeley, CA, USA: 169-176.
Church, L. W. 1993. Char_align: A program for aligning parallel texts at the character level [A].Proceedingsofthe31thAnnualMeetingoftheAssociationforComputationalLinguistics[C]. Columbus, Ohio: 1-8.
Fan Fengxiang. 2005. Quantitative linguistic computing with FoxPro [A]. In Kalius?enko, V, K?ehler R & V. Levickij (eds.).ProblemsofQuantitativeLinguistics:ACollectionofPapers[C].Chernivtsi: Ruta: 335-348.
Fung Pascale & Kenneth W. Church. 1994. K-vec: A new approach for aligning parallel texts [A].Proceedingsofthe15thInternationalConferenceonComputationalLinguistics[C]. Kyoto/Japan: 1096-1102.
Fung Pascale & Kathleen R. McKeown. 1994. Aligning noisy parallel corpora across language groups: Word pair feature matching by dynamic time warping [A].Proceedingsofthe1stConferenceoftheAMTA[C]. Columbia/Maryland, Association for Machine Translation in the Americas.
Gale, W. & K. Church. 1993. A program for aligning sentences in bilingual corpora [J].ComputationalLinguistics19 (1): 75-102.
Kay, Martin & Martin R?scheisen. 1993. Text-translation alignment [J].ComputationalLinguistics(19): 121-142.
Manning Christopher D. & H. Schütze. 2001.FoundationsofStatisticalNaturalLanguageProcessing[M]. Cambridge: MIT Press.
McEnery Tony & M. Oakes. 1996.SentenceandwordalignmentintheCRATERproject[A]. In Jenny Thomas & Mick Short (eds.).UsingCorporaforLanguageResearch[C]. London: Longman: 211-231.
Wang, L. X. 2001. Exploring parallel concordancing in English and Chinese [J].LanguageLearning&Technology(3): 174-178.
柏曉靜、常寶寶、詹衛(wèi)東.2002.構(gòu)建大規(guī)模的漢英雙語平行語料庫[A].黃河燕主編.2002全國機(jī)器翻譯研討會(huì)文集:機(jī)器翻譯研究進(jìn)展[C].北京:電子工業(yè)出版社:124-131.
黃俊紅、黃萍、范云.2004.專門用途語類翻譯平行語料庫研究述評(píng)[J].重慶大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)(6):91-94.
劉昕、周明、朱勝火、黃昌寧.1998.基于自動(dòng)抽取詞匯信息的雙語句子對(duì)齊[J].計(jì)算機(jī)學(xué)報(bào)(8):151-158.
錢麗萍、趙鐵軍、楊沐昀、高光來.2000.基于譯文的英漢雙語句于自動(dòng)對(duì)齊[J].計(jì)算機(jī)工程與應(yīng)用(12):59-61.
王斌.2000.基于未對(duì)齊漢英雙語庫的翻譯對(duì)抽取[J].中文信息學(xué)報(bào)(6):40-44.
王建新.2005.計(jì)算機(jī)語料庫的建設(shè)與應(yīng)用[M].清華大學(xué)出版社,北京.
王克非.2004.雙語對(duì)應(yīng)語料庫研制與應(yīng)用[M].外語教學(xué)與研究出版社,北京.
甄鳳超、張霞.2004.語料庫語言學(xué)發(fā)展趨勢(shì)瞻望——2003語料庫語言學(xué)國際會(huì)議綜述[J].外語界(4):74-76.