姚振軍, 鄭旭紅, 徐鵬濤, 王繼升
(1.河南大學(xué)外國語言文學(xué)博士后流動站,河南開封 475001/東北財經(jīng)大學(xué)國際商務(wù)外語學(xué)院,遼寧大連 116025; 2.大連外國語學(xué)院計算機教研部,遼寧大連 116002;3.東北財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,遼寧大連 116025)
面向《道德經(jīng)》英譯的基于短語的機器翻譯探析
姚振軍1, 鄭旭紅2, 徐鵬濤3, 王繼升3
(1.河南大學(xué)外國語言文學(xué)博士后流動站,河南開封 475001/東北財經(jīng)大學(xué)國際商務(wù)外語學(xué)院,遼寧大連 116025; 2.大連外國語學(xué)院計算機教研部,遼寧大連 116002;3.東北財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,遼寧大連 116025)
本文以《道德經(jīng)》現(xiàn)有英譯本為訓(xùn)練集,進行基于短語的面向古漢語到英語的統(tǒng)計機器翻譯研究。實驗分別以字為基本分詞單位和以短語為基本分詞單位對同一源文本進行處理,并對比兩次實驗所得機器翻譯的譯文評測的BLEU值,研究發(fā)現(xiàn):在《道德經(jīng)》英譯中,基于短語的統(tǒng)計機器翻譯的具有一定優(yōu)勢。
機器翻譯;中文分詞;道德經(jīng);古漢語;英譯
翻譯已經(jīng)成為現(xiàn)代社會中的一項重要的語言服務(wù)活動(徐彬、郭紅梅,2012:103),而機器翻譯是當(dāng)代科學(xué)技術(shù)的十大難題之一(馮志偉,2004)。現(xiàn)代的機器翻譯研究已有半個多世紀(jì)的歷史,其間產(chǎn)生過令人振奮的成果,也有過令人沮喪的時候,但無論多么艱深,人類對于機器翻譯的探索和渴求始終也沒有停止過。(王海峰,2011:72)
在國際上,機器翻譯已經(jīng)取得巨大的成就,設(shè)在美國俄亥俄州代頓的美國聯(lián)邦翻譯部和歐洲聯(lián)盟委員會設(shè)在盧森堡的翻譯中心每天都在用自動的機器翻譯進行著大規(guī)模的翻譯;成千上萬的商業(yè)機器翻譯系統(tǒng)在日本投入使用;每天世界各地的網(wǎng)民在使用著瀏覽器上提供“翻譯此頁面”的功能。(Wilks,2008)機器翻譯應(yīng)用領(lǐng)域從天氣預(yù)報翻譯到專利文獻的機器翻譯,涉及語種從俄、英到“谷歌翻譯”提供的多種語言之間的即時機器翻譯,使用人數(shù)超過1000萬的語言約有100種,而谷歌翻譯已經(jīng)實現(xiàn)了對其中58種語言的支持。(許磊,2011)
中文信息處理作為自然語言處理中的一個分支,近幾年來備受關(guān)注。(劉群,2011)機器翻譯研究是中文自然語言處理研究中的熱點和焦點之一,研究角度和方法不斷豐富。國內(nèi)機器翻譯研究從漢語與主要外語相互機譯擴展到漢語與國內(nèi)民族語言的多/雙語語料庫的建設(shè)和機譯。目前己經(jīng)開發(fā)并投入使用的翻譯系統(tǒng)和軟件通常側(cè)重于中英、中日、中俄等不同語種之間的互譯。
專門針對古代漢語與現(xiàn)代漢語之間機器互譯的研究還比較少,國內(nèi)學(xué)者在分析現(xiàn)有機器翻譯研究方法的基礎(chǔ)上,提出了一種基于實例的古今漢語機器翻譯系統(tǒng)并進行了設(shè)計與實現(xiàn)(王爽等,2009),目前國內(nèi)外專門的面向古代漢語與外語互譯的機器翻譯的研究仍處于探索階段。
本研究以王弼本的《道德經(jīng)》為訓(xùn)練集,探索面向古漢語英譯的機器翻譯的研究。古漢語仍以現(xiàn)代人書面和口頭引用方式出現(xiàn)在自然語言處理的實踐中,成為影響漢英機器翻譯譯文質(zhì)量的一個側(cè)面;同時,在對外文化交流和中國傳統(tǒng)文化外傳過程中,大量的古漢語典籍和相關(guān)研究文獻需要外譯,開展面向古漢語的機器外譯研究可在一定程度上解決專門翻譯人才不足的問題。
2.1 運行環(huán)境及相關(guān)開源工具
運行環(huán)境為 Centos 6.3版的 Linux平臺,在Linux平臺下利用開源工具Niutrans構(gòu)建《道德經(jīng)》統(tǒng)計機器翻譯系統(tǒng),該系統(tǒng)需要gcc、g++和GNU Make軟件的支持。采用Stanford漢語分詞工具得到漢語分詞,使用GIZA++進行詞語對齊訓(xùn)練,采用Niutrans工具包進行短語語法規(guī)則抽取、語言模型訓(xùn)練、重排序模型和生成模型的訓(xùn)練及解碼。
2.2 系統(tǒng)的整體框架
該系統(tǒng)包括數(shù)據(jù)預(yù)處理、詞對齊、短語規(guī)則抽取、短語規(guī)則打分、語言模型訓(xùn)練器、權(quán)重調(diào)優(yōu)和短語解碼器幾個模塊(銀花等,2011:92),所有這些模塊分為訓(xùn)練和解碼兩個階段。系統(tǒng)的整體框架如圖1所示:
圖1 《道德經(jīng)》英譯機器翻譯系統(tǒng)的整體框架
在訓(xùn)練階段,系統(tǒng)可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到模型和模型參數(shù),每個模塊功能如下:
數(shù)據(jù)預(yù)處理模塊:該模塊主要是完成對訓(xùn)練數(shù)據(jù)的加工處理,包括分詞、詞性標(biāo)注等。
詞對齊模塊:該模塊可以為雙語平行數(shù)據(jù)中的每一句對得到詞對齊之后的結(jié)果,使得源語言詞匯和目標(biāo)語言詞匯對應(yīng)起來。
短語規(guī)則抽取模塊:該模塊用于從包含詞對齊信息的雙語平行語料中抽取出短語翻譯規(guī)則。
短語規(guī)則打分模塊:該模塊用于對所抽取得到的規(guī)則進行概率估計和打分。
語言模型訓(xùn)練器模塊:該模塊用于從目標(biāo)語言的單語語料中學(xué)習(xí)從而得到語言模型。
權(quán)重調(diào)優(yōu)模塊:該模塊用于在數(shù)據(jù)集上對翻譯模型特征權(quán)重向量進行調(diào)優(yōu)。
解碼階段所包含的模塊功能如下:
解碼器模塊:該模塊主要功能是找出所有存在于搜索空間中的最佳目標(biāo)語言譯文,即完成測試數(shù)據(jù)的翻譯,得到目標(biāo)語言譯文。
2.3 系統(tǒng)翻譯過程流程
利用系統(tǒng)翻譯得到目標(biāo)語的過程主要包括:數(shù)據(jù)準(zhǔn)備、訓(xùn)練翻譯模型、訓(xùn)練N元語言模型、配置文件、權(quán)重調(diào)優(yōu)、解碼翻譯和評價幾個階段。具體流程如圖2所示:
圖2 《道德經(jīng)》英譯機器翻譯系統(tǒng)過程流程
在翻譯過程中,主要工作是為系統(tǒng)提供訓(xùn)練和測試所需數(shù)據(jù),包括目標(biāo)語(英語)句子集、源語(漢語)句子集以及雙語對齊的文件,此外還有測試數(shù)據(jù)和參考譯文,然后調(diào)用系統(tǒng)的工具包進行訓(xùn)練翻譯模型、權(quán)重調(diào)優(yōu)、解碼和評價等過程。
3.1 訓(xùn)練和測試數(shù)據(jù)
源語句子集:在對平行語料進行對齊之前,首先需要進行中文分詞,系統(tǒng)中使用Stanford NLP自然語言處理小組開發(fā)的中文分詞開源工具對文檔進行處理,分詞后的文件保持原文件名,同時產(chǎn)生原文件的備份文件。
目標(biāo)語句子集:對于平行語料中的目標(biāo)語句子集進行英文分詞。
詞對齊文件:為了獲得該文件,主要是利用GIZA++進行漢語到英語、英語到漢語兩個方向的訓(xùn)練,再對兩個方向的對齊結(jié)果進行優(yōu)化,GIZA++實現(xiàn)了IBM統(tǒng)計翻譯模型。
測試數(shù)據(jù):在該系統(tǒng)中,所使用的測試數(shù)據(jù)為《道德經(jīng)》古漢語的分詞結(jié)果。
參考譯文:在該系統(tǒng)中,所使用的參考文件為林語堂的《道德經(jīng)》英文譯本。
3.2 訓(xùn)練《道德經(jīng)》的翻譯模型和N元語言模型
訓(xùn)練翻譯模型:將分詞后的雙語語料進行短語抽取和調(diào)序,得到短語翻譯模型以及ME和MSD調(diào)序模型。
N元語言模型:本次實驗采用了3元文法語言建模。
3.3 權(quán)重調(diào)優(yōu)
利用開發(fā)集和之前得到的配置文件進行權(quán)重調(diào)優(yōu),并將結(jié)果重新記錄入配置文件。至此,基于短語的《道德經(jīng)》機器翻譯系統(tǒng)構(gòu)建完畢。
3.4 評測
解碼:利用配置文件對測試數(shù)據(jù)進行解碼操作,即完成對《道德經(jīng)》測試數(shù)據(jù)的翻譯。
評價:得到雙語評測的指標(biāo)BLEU值,比較翻譯結(jié)果的準(zhǔn)確性。
4.1 實驗數(shù)據(jù)
翻譯模型的訓(xùn)練實驗分兩次進行。鑒于先秦時期的古漢語基本上是以單字詞為基本詞匯單位,實驗1是將測試語料按字切分來進行《道德經(jīng)》的翻譯。實驗2是將測試語料按分詞切分(基于短語)進行《道德經(jīng)》的翻譯。訓(xùn)練數(shù)據(jù)采用《道德經(jīng)》的道經(jīng)部分的古文和林語堂翻譯的《道德經(jīng)》英文構(gòu)建的英漢平行語料??紤]到《道德經(jīng)》有道經(jīng)和德經(jīng)之分,本次實驗主要采用道經(jīng)的雙語平行語料。考慮到古文的特點,翻譯系統(tǒng)的輸入輸出文本文件采用UTF-8標(biāo)準(zhǔn)編碼方式。為了評測《道德經(jīng)》統(tǒng)計機器翻譯系統(tǒng),采用IBM公司提出的BLEU評測方法對系統(tǒng)進行評價。評價結(jié)果的BLEU值越高,翻譯效果越好。
4.2 實驗結(jié)果
1)實驗1,以分字結(jié)果為測試語料進行的《道德經(jīng)》的翻譯(見圖3):
圖3 將測試語料分字進行《道德經(jīng)》翻譯測得BLEU值
2)實驗2,以短語分詞結(jié)果為測試語料進行的《道德經(jīng)》的翻譯(見圖4):
圖4 將測試語料短語分詞進行《道德經(jīng)》翻譯測得BLEU值
4.3 實驗結(jié)果分析
從BLEU值來看,以短語分詞結(jié)果為測試語料的《道德經(jīng)》的翻譯結(jié)果明顯比以分字結(jié)果為測試語料的《道德經(jīng)》的翻譯結(jié)果要好。由此可見,在相同規(guī)模的平行語料的前提下,分詞結(jié)果對基于短語的機器翻譯系統(tǒng)有一定的影響。而在構(gòu)建機器翻譯模型中,雙語語料的構(gòu)建、權(quán)重調(diào)優(yōu)的開發(fā)集數(shù)據(jù)和作為參考標(biāo)準(zhǔn)的參考譯文也都與切詞密切相關(guān),因此,更準(zhǔn)確的古文切詞將會大幅提高《道德經(jīng)》機器翻譯結(jié)果的準(zhǔn)確率。
本文是面向漢語(古籍)英譯的機器翻譯研究的初步探索,對于古漢語的詞匯和語法的分析還有待于進一步深入研究,在語料訓(xùn)練和機器翻譯技術(shù)等方面尚有較大的提升空間。
[1]Wilks,Y.Machine Translation:Its Scope and Limits[M].Berlin:Springer,2008.
[2]馮志偉.機器翻譯研究[M].中國對外出版公司,2004.
[3]劉群.基于句法的統(tǒng)計機器翻譯模型與方法[J].中文信息學(xué)報,2011,(6):63-71.
[4]王海峰.互聯(lián)網(wǎng)機器翻譯[J].中文信息學(xué)報,2011,(12):72-80.
[5]王爽,熊德蘭,王曉霞.基于實例的古文機器翻譯設(shè)計與實現(xiàn)[J].許昌學(xué)院學(xué)報,2009,(5):88-91.
[6]徐彬,郭紅梅.計算機輔助翻譯環(huán)境下的質(zhì)量控制[J].山東外語教學(xué),2012,(5):103-108.
[7]許磊.谷歌翻譯憑啥跨越語言障礙[N].計算機世界,2011-03-28:016.
[8]銀花,王斯日古楞,艷紅.基于短語的蒙漢統(tǒng)計機器翻譯系統(tǒng)的設(shè)計與實現(xiàn)[J].內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版),2011,(1):91 -94.
An Exploration of Phrase-based SMT for English Translation of Tao Te Ching
YAO Zhen-jun1,ZHENG Xu-hong2,XU Peng-tao3,WANG Ji-sheng3
(1.Mobile Station for Post-doctoral Research of Foreign Language&Literature of Henan University,Kaifen 475001,China/ SIBC of Dongbei University of Finance,Dalian 116025,China;2.Computer Department of DUFL,Dalian 116002,China; 3.SMSE of Dongbei University of Finance,Dalian 116025,China)
With the existing English versions of Tao Te Ching as training sets,this research aims at exploring phrase-based SMT.By comparing the BLEU results of two experiments of word-for-word segmentation and phrasebased segmentation in the same source text,we find phrase-based SMT works better in English translation of Tao Te Ching.
machine translation;Chinese word segmentation;Tao Te Ching;old Chinese,English translation
TP391.2
A
1002-2643(2013)03-0109-04
2013-01-19
姚振軍(1972-),男,黑龍江肇東人,博士后在站,副教授。研究方向:翻譯學(xué)與計算機應(yīng)用技術(shù)。
鄭旭紅(1965-),女,四川眉山人,副教授。研究方向:計算機應(yīng)用技術(shù)。
徐鵬濤(1986-),男,山東煙臺人,研究生。研究方向:計算機應(yīng)用技術(shù)與電子商務(wù)。
王繼升(1988-),男,遼寧朝陽人,研究生。研究方向:計算機應(yīng)用技術(shù)與電子商務(wù)。