童毅見(jiàn)
(解放軍外國(guó)語(yǔ)學(xué)院,河南洛陽(yáng) 471003)
平行語(yǔ)料庫(kù)是一種特殊的語(yǔ)料庫(kù),主要是指雙語(yǔ)平行語(yǔ)料庫(kù),即語(yǔ)料庫(kù)中的兩種語(yǔ)言文本構(gòu)成互譯的關(guān)系。一般來(lái)說(shuō),只要兩種語(yǔ)言的語(yǔ)料達(dá)到篇章級(jí)譯文對(duì)應(yīng)就可以稱之為平行語(yǔ)料,但是在實(shí)際應(yīng)用中我們通常對(duì)平行語(yǔ)料庫(kù)有著更高的要求,例如要求題材分布大致平衡的雙語(yǔ)平衡語(yǔ)料庫(kù)、要求平行文本內(nèi)句子、短語(yǔ)或詞匯對(duì)齊的雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)等。
平行語(yǔ)料庫(kù)在機(jī)器翻譯中有重要的應(yīng)用。對(duì)于基于實(shí)例的機(jī)器翻譯(EBMT)而言,對(duì)齊的雙語(yǔ)平行語(yǔ)料庫(kù)構(gòu)成了其知識(shí)的主要部分。通過(guò)平行語(yǔ)料庫(kù)構(gòu)建實(shí)例庫(kù),對(duì)輸入的句子,在實(shí)例庫(kù)中檢索類似的翻譯實(shí)例,調(diào)整實(shí)例后生成譯文,此外還可以利用翻譯記憶庫(kù)構(gòu)成新的平行文本添加到實(shí)例庫(kù)中,提高譯文質(zhì)量。對(duì)于基于統(tǒng)計(jì)的機(jī)器翻譯(SBMT),句對(duì)齊的雙語(yǔ)平行語(yǔ)料庫(kù)通常被用來(lái)進(jìn)行參數(shù)訓(xùn)練,優(yōu)化翻譯模型(或?qū)R模型),同時(shí),通過(guò)平行語(yǔ)料庫(kù),還可以抽取如科技術(shù)語(yǔ)、命名實(shí)體等等價(jià)對(duì),將其補(bǔ)充到詞典中去,能有效地改善譯文的質(zhì)量。對(duì)基于轉(zhuǎn)換的機(jī)器翻譯而言,平行語(yǔ)料庫(kù)也能在詞法、句法分析過(guò)程中,發(fā)揮重要的作用。就漢、英兩種語(yǔ)言而言,盡管目前沒(méi)有漢英平行樹(shù)庫(kù)問(wèn)世,但是可以預(yù)見(jiàn),高質(zhì)量的漢英雙語(yǔ)平行樹(shù)庫(kù)的建設(shè)對(duì)漢語(yǔ)、英語(yǔ)信息處理,尤其是漢英機(jī)器翻譯有著巨大的推動(dòng)作用,而這一切的基礎(chǔ)就是構(gòu)建高質(zhì)量的漢英雙語(yǔ)平行語(yǔ)料庫(kù)。
此外,平行語(yǔ)料庫(kù)在雙語(yǔ)詞典編撰、術(shù)語(yǔ)庫(kù)的建立、多語(yǔ)信息抽取、詞義消歧等方的應(yīng)用也取得了豐碩的成果(孫樂(lè)等 2000)。除了自然語(yǔ)言處理領(lǐng)域,平行語(yǔ)料庫(kù)也是語(yǔ)言學(xué)研究的重要工具,在比較語(yǔ)言學(xué)、語(yǔ)言教學(xué)、第二外語(yǔ)習(xí)得等研究領(lǐng)域得到了廣泛的應(yīng)用。
歧義現(xiàn)象廣泛地存在于自然語(yǔ)言中,自然語(yǔ)言處理的關(guān)鍵在于消歧。關(guān)于消歧的研究成果眾多,但利用雙語(yǔ)平行語(yǔ)料庫(kù)自身特點(diǎn)來(lái)解決單語(yǔ)歧義問(wèn)題的研究卻少之又少。馮敏萱等提出平行語(yǔ)料庫(kù)的平行處理技術(shù),即在處理一種語(yǔ)言時(shí),盡量借助另一種語(yǔ)言來(lái)消除本語(yǔ)言的歧義。我們可以從Ido Dagan的研究中為這種方法找到理論依據(jù),Ido Dagan等(1991)認(rèn)為“兩種語(yǔ)言比一種語(yǔ)言蘊(yùn)含信息更多”。通常來(lái)說(shuō)兩種語(yǔ)言歧義的發(fā)生是交替的,中文發(fā)生歧義時(shí),英文可能沒(méi)有歧義,例如“雞不吃了”,我們很容易通過(guò)其英文翻譯得到其確定的語(yǔ)義信息;同理,當(dāng)英文發(fā)生歧義時(shí),中文也可能沒(méi)有歧義,例如英文詞匯“fly”,當(dāng)它做名詞時(shí),可表示“蒼蠅、門簾”等,可以借助其中文翻譯來(lái)消除詞匯層的歧義。這種歧義發(fā)生的交替性,使得利用雙語(yǔ)平行語(yǔ)料庫(kù)的平行處理技術(shù)進(jìn)行單語(yǔ)消歧是可行的。
利用平行處理技術(shù)解決單語(yǔ)層面的歧義問(wèn)題可以在詞法、句法、語(yǔ)義甚至語(yǔ)境等多個(gè)層面上展開(kāi)。本文利用漢英雙語(yǔ)語(yǔ)料庫(kù)來(lái)識(shí)別中文文本中的外國(guó)人名譯名,屬于平行語(yǔ)料庫(kù)的平行處理技術(shù)在詞法分析層面的利用。
漢語(yǔ)自動(dòng)分詞有兩個(gè)難點(diǎn),一是歧義切分的問(wèn)題,另一就是未登錄詞識(shí)別問(wèn)題。所謂未登錄詞是指分詞系統(tǒng)的詞典中沒(méi)有收錄的詞。外國(guó)譯名的識(shí)別屬于未登錄詞識(shí)別中的專有名詞識(shí)別。在漢語(yǔ)分詞過(guò)程中,如果文本中存在未被識(shí)別的外國(guó)譯名,則很容易造成分詞錯(cuò)誤。目前,我們常用的一些分詞工具如中科院詞法分析器(ICTCLAS)中尚無(wú)外國(guó)人名的漢譯名識(shí)別模塊。例如我們?cè)贗CTCLAS 2011中,輸入句子“國(guó)際田聯(lián)取消費(fèi)爾南多的參賽資格”,得到的切分結(jié)果如下:
國(guó)際/n田聯(lián)/n取/v消費(fèi)/v爾/y南/f多/a的/u參賽/v資格/n
可見(jiàn),外國(guó)人名譯名的識(shí)別對(duì)自動(dòng)分詞的重要性。
外國(guó)人名譯名相比于中國(guó)人名、地名而言,有自己的特點(diǎn),例如外國(guó)譯名用字比中國(guó)地名用字更有規(guī)律、譯文中通常含有多字詞等。對(duì)外國(guó)人名譯名的識(shí)別,通常采用統(tǒng)計(jì)的方法,在識(shí)別過(guò)程中,也可以利用上下文信息,這種上下文信息包括“總統(tǒng)”、“夫人”、“先生”等稱謂,也可以是諸如“約翰·史密斯”中間的符號(hào)“·”。對(duì)于上下文信息不明確的外國(guó)人名譯名,可以利用其自身的特點(diǎn),使用一個(gè)譯名表來(lái)統(tǒng)計(jì)譯名的用字特征,并根據(jù)詞串內(nèi)部特征確定譯名邊界(孫茂松,張維杰 1993)。此外,孫宏林(2001)利用《英語(yǔ)譯名手冊(cè)》來(lái)統(tǒng)計(jì)譯名首、中、末等位置信息的方法來(lái)識(shí)別英語(yǔ)人名譯名;方華等(2004)提出一種運(yùn)用改進(jìn)分詞方法進(jìn)行外國(guó)譯名識(shí)別的研究。值得說(shuō)明的是,這些方法都是基于單語(yǔ)種的。
考慮到我們采用的雙語(yǔ)平行語(yǔ)料庫(kù)均為英漢平行語(yǔ)料庫(kù),其中所涉及的外國(guó)人名多為英語(yǔ)人名,所以本文主要做英語(yǔ)人名譯名的識(shí)別。
我們利用平行語(yǔ)料庫(kù)進(jìn)行中文文本中英語(yǔ)人名譯名識(shí)別的基本思路是:首先從英語(yǔ)文本中找出可疑的英文詞匯,作為原英文人名候選集,然后利用英漢音字對(duì)應(yīng)表,對(duì)候選集中的每個(gè)詞匯進(jìn)行首音節(jié)和尾音節(jié)分析,并在中文文本中搜尋是否同時(shí)包含首音節(jié)和尾音節(jié)對(duì)應(yīng)的漢字,并且對(duì)其位置有一定的限制,找出譯名的邊界。將滿足要求的中文對(duì)應(yīng)結(jié)果存儲(chǔ)下來(lái),最后依據(jù)英漢音字對(duì)應(yīng)表中的頻率信息進(jìn)行篩選。
實(shí)驗(yàn)中用到的《英漢音字對(duì)應(yīng)表》是馮敏萱博士(2006)根據(jù)英漢發(fā)音規(guī)則,利用譯名庫(kù),記錄下的全部英語(yǔ)人名譯文用字的字形、頻率、可對(duì)應(yīng)的多種英語(yǔ)人名音節(jié)及漢語(yǔ)拼音的聲韻形式。將其轉(zhuǎn)換為ACESS數(shù)據(jù)表,如圖1所示。表中一共包含6個(gè)字段,其中ID為編號(hào),是該表的主鍵。CW是中文字、PY是拼音、EW是對(duì)應(yīng)的英文音節(jié)、count是頻數(shù)、ratio是頻率信息。
圖1:英漢音字對(duì)應(yīng)表
實(shí)驗(yàn)算法如下:
第一步:從英語(yǔ)文本中找出原英文人名候選集,首先將所有句子的首個(gè)單詞到常用詞詞典(不含人名)中去查找,如果包含在常用詞詞典中,則將其舍棄,否則加入候選集。其次將所有出現(xiàn)在句中的首字母大寫的詞匯加入候選集,最后去除諸如“Lady、Miss、Mr”等噪音詞匯。在加入候選集的過(guò)程中,我們還記錄了對(duì)應(yīng)句子的編號(hào),方便從對(duì)應(yīng)的中文句中找對(duì)應(yīng)字。實(shí)際上,我們也可以采用英文詞性標(biāo)注工具選出標(biāo)注為“/NNP”的英文詞作為候選集,不過(guò)我們的方法可以從一定程度上擴(kuò)展候選集,增加召回率。
第二步,對(duì)每一個(gè)候選人名,取出其所有可能的首音節(jié)及其對(duì)應(yīng)漢字,在去除相應(yīng)首音節(jié)后剩余的字符串中取出所有可能的尾音節(jié)及其對(duì)應(yīng)漢字。為了避免諸如“Ana:安娜”這種首尾音節(jié)共用一個(gè)字母的情況,我們將剩余字符串的長(zhǎng)度往左移一位。
第三步,在對(duì)應(yīng)的中文句中,找到首漢字和尾漢字出現(xiàn)的位置,并要求尾漢字在首漢字后面,總字符串長(zhǎng)度小于英文字母的個(gè)數(shù),兩個(gè)位置之間不允許出現(xiàn)非中文字符。將滿足條件的原英文人名和可能翻譯人名加入到詞典中,并去掉重復(fù)的結(jié)果。
第四步,利用頻率信息,進(jìn)行篩選。對(duì)于同一英文名對(duì)應(yīng)多個(gè)漢語(yǔ)詞的情況,利用首尾音節(jié)頻率的乘積,選出頻率最大的一個(gè)。
例如候選詞“Jupiter”,其首音節(jié)可能是“j”,對(duì)應(yīng)漢字包括“朱”、“吉”,也可能是“ju”,對(duì)應(yīng)的漢字包括“賈”、“朱”、“求”;其尾音節(jié)可能是“r”、“er”、“ter”,對(duì)應(yīng)的漢字包括“爾、勒、沃、魯、羅、雷、里、拉、賴、麗、落、利、亞、阿、厄、埃、歐、特、廷、得、塔”,在中文文本中進(jìn)行搜索,滿足條件的只有“朱庇特”。
利用上述算法,我們?cè)谥锌圃赫Z(yǔ)言資源平臺(tái)上下載的1500句對(duì)平行語(yǔ)料庫(kù)上進(jìn)行了測(cè)試。實(shí)驗(yàn)使用了窗口程序,結(jié)果顯示如下:
圖2:實(shí)驗(yàn)結(jié)果顯示窗口
按詞例數(shù)來(lái)計(jì)算召回率、正確率和調(diào)和平均值,得到的結(jié)果如下:
召回率=100%*識(shí)對(duì)的漢譯名/英文人名=88.4%
正確率=100%*識(shí)對(duì)的漢譯名/使出的漢譯名=97.4%
調(diào)和平均值(F-measure)=100%*(2*召回率 *正確率)/(召回率+正確率)=92.7%
從實(shí)驗(yàn)結(jié)果來(lái)看,召回率不是很理想,漏識(shí)的主要類別有:
第一,平行語(yǔ)料庫(kù)自身未匹配,如中文文本中的“埃米”,英文中用“she”來(lái)代替;
第二,有些人名直接以英語(yǔ)形式寫入到漢語(yǔ)中;
第三,“英漢音字對(duì)應(yīng)表”尚不完備,有一些音節(jié)和對(duì)應(yīng)字未加入表中;
第四,算法中對(duì)于如“潘”,這種單字情況沒(méi)有考慮;
不過(guò)通過(guò)實(shí)驗(yàn),我們也發(fā)現(xiàn),這種音字匹配的方法還召回了不少英文地名譯文,如“Rome(羅馬)”等。
基于平行語(yǔ)料庫(kù)的英語(yǔ)人名譯名識(shí)別,只是平行語(yǔ)料庫(kù)的平行處理技術(shù)在詞法層面的一個(gè)簡(jiǎn)單應(yīng)用。
就本實(shí)驗(yàn)而言,我們還需要在更大的數(shù)據(jù)上進(jìn)行測(cè)試,同時(shí)對(duì)算法進(jìn)行改進(jìn),以得出更好、更精確的結(jié)果,我們采用的平行語(yǔ)料庫(kù)是英語(yǔ)為原文而漢語(yǔ)為譯文的“英漢平行語(yǔ)料庫(kù)”,實(shí)際上如果采用漢語(yǔ)為原文、英語(yǔ)為譯文的“漢英平行語(yǔ)料庫(kù)”我們還可以研究中文人名翻譯成英文的特點(diǎn),從而進(jìn)行中文人名的識(shí)別。此外,我們還可以進(jìn)行其它國(guó)人名和音譯的地名、機(jī)構(gòu)名的識(shí)別。
就平行語(yǔ)料庫(kù)而言,我們可以在分詞、詞性標(biāo)注、語(yǔ)義標(biāo)注等多個(gè)層次的應(yīng)用上利用平行處理技術(shù),使之發(fā)揮更大的作用。
Dagan,I.&Itai,A.&Schwall,U.(1991).Two Languages Are More Informative Than One[A].Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics.
方華,王振華,陸汝占,劉紹明(2005).運(yùn)用改進(jìn)的分詞方法進(jìn)行外國(guó)譯名設(shè)別的研究 [J].計(jì)算機(jī)仿真(3)。
馮敏萱(2006).論漢英平行語(yǔ)料的平行處理 [D].南京師范大學(xué)博士學(xué)位論文。
孫宏林(2001).現(xiàn)代漢語(yǔ)非受限文本的實(shí)語(yǔ)塊分析 [D].北京大學(xué)博士論文。
孫樂(lè),金友兵,杜林,孫玉芳(2000).平行語(yǔ)料庫(kù)中雙語(yǔ)術(shù)語(yǔ)詞典的自動(dòng)提取 [J].中文信息學(xué)報(bào)(6)。
孫茂松,張維杰(1993).英語(yǔ)姓名譯名的自動(dòng)辨識(shí),計(jì)算語(yǔ)言學(xué)研究與應(yīng)用 [M].北京:北京語(yǔ)言大學(xué)出版社。