邢蕾
關(guān)鍵詞: 英漢機(jī)器翻譯; 譯文生成; 詞法分析; 解碼; 譯文規(guī)則; 系統(tǒng)設(shè)計
中圖分類號: TN911.23?34; TP391.02 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0086?04
Design of translation automatic generation system for
English?Chinese machine translation
XING Lei
(Shandong University of Technology, Zibo 255000, China)
Abstract: Since the traditional translation generation system has long?term existing problems of inaccurate translation generation results and little similarity with the original text in the process of English?Chinese machine translation, a translation automatic generation system based on double?layer analysis is proposed and designed for English?Chinese machine translation. The system is mainly composed of preprocessing module, lexical analysis and word segmentation module, part?of?speech tagging and phrase analysis module, translation rule establishment module, decoding module and translation generation module. Experimental analysis was carried out. The experimental results show that, in comparison with the traditional generation system, the translation generation accuracy and similarity (with the original text) of the improved generation system are increased respectively by about 34.8% and about 0.4, and the system has a certain advantage and high practicability.
Keywords: English?Chinese machine translation; translation generation; lexical analysis; decoding; translation rule; system design
當(dāng)下,互聯(lián)網(wǎng)得到了廣泛普及,經(jīng)濟(jì)全球化范圍不斷擴(kuò)大,推動了國際間的交流與協(xié)作不斷深入[1]。各個行業(yè)的人們每天都要與講不同語言的人進(jìn)行交流,瀏覽大量使用了他們不熟悉的語言所書寫的文檔資料,這使得人們的交流障礙越來越嚴(yán)重,對語言的翻譯需求越來越多,語言差異已經(jīng)成為國際間交流與合作的主要障礙[2]。由原始的人工翻譯到突破語言障礙的機(jī)器翻譯,加快了信息傳播的速度。如何在這種信息傳播方式下,快速地生成其譯文,成為該領(lǐng)域亟待解決的問題[3]。傳統(tǒng)的英漢機(jī)器翻譯譯文生成系統(tǒng),主要通過以短語中心點構(gòu)造短語結(jié)構(gòu),改進(jìn)標(biāo)準(zhǔn)GLR算法實現(xiàn)對英漢機(jī)器翻譯譯文自動生成,但存在生成結(jié)果準(zhǔn)確度低與原文的相關(guān)性差。對此,提出并設(shè)計基于雙層分析的英漢機(jī)器翻譯譯文自動生成系統(tǒng),并進(jìn)行實驗分析。
英漢機(jī)器翻譯譯文自動生成系統(tǒng)由以下模塊組成:預(yù)處理模塊、詞法分析及分詞模塊、詞類標(biāo)注及短語分析模塊、譯文規(guī)則建立模塊、解碼模塊、譯文生成模塊。
1.1 ?預(yù)處理模塊
在進(jìn)行英漢機(jī)器翻譯過程中,分隔單詞主要利用標(biāo)點符號或者是空格,不過在分詞過程中容易出現(xiàn)錯誤。雖然字典中助動詞通常被當(dāng)成是多字單詞的一部分,訂單在句子中還是要根據(jù)語法進(jìn)行形態(tài)的不規(guī)則變化[4],而預(yù)處理模塊就是針對這一變化做出相應(yīng)處理的模塊。預(yù)處理模塊的功能是對標(biāo)點符號和單詞連寫進(jìn)行特殊處理,并且對助動詞的不規(guī)則形態(tài)變化進(jìn)行規(guī)范處理,將空格當(dāng)作唯一的單詞分隔符,使英漢機(jī)器翻譯能夠在格式良好的字符串中對詞法進(jìn)行分析,降低詞法分析過程中出現(xiàn)分詞錯誤的概率。
中國國家標(biāo)準(zhǔn)總局頒布了一套標(biāo)準(zhǔn)的文檔格式,該標(biāo)準(zhǔn)總共收錄了6 763個漢字,還包含了希臘字母、拉丁字母、日語平假名及片假名字母等特殊字符[5]。目前該標(biāo)準(zhǔn)已經(jīng)滿足中文巨大部分的需要,國內(nèi)的中文系統(tǒng)和國際版本的系統(tǒng)都支持GB2312編碼格式。
1.2 ?詞法分析及分詞模塊
經(jīng)過預(yù)處理模塊的特殊處理后,由空格分開的字符串有4種表現(xiàn)形式:第1種是單詞;第2種是多字單詞的一部分;第3種是特殊符號;第4種是某個單詞的變形。通過對字符串的形態(tài)進(jìn)行分析,對比字典判斷字符串是否為變形單詞,再參照詞典中單詞的詞義等知識為后續(xù)處理進(jìn)行鋪墊[6]。詞法分析及分詞模塊主要包括單詞形態(tài)分析、未登錄詞的處理和多字單詞的切分三個部分。
在對詞法分析的基礎(chǔ)上對其進(jìn)行分詞處理,詞法分析及分詞模塊是系統(tǒng)的核心模塊,該模塊主要分為2個子模塊,最大匹配模塊和命名實體識別模塊見圖1。
1.3 ?詞類標(biāo)注及短語分析模塊
作為詞匯最重要的屬性之一,詞類能夠?qū)⒃~匯連接到句法。在自然語言中,單詞兼類普遍存在,但是在給定句子中兼類詞必須具有明確的詞類[7]。對于這種現(xiàn)象,詞類標(biāo)注模塊的主要任務(wù)就是給句子中的單詞確定一個最大可能性的詞類序列。起初,詞類標(biāo)注主要根據(jù)規(guī)則方法,之后慢慢發(fā)展為重點使用統(tǒng)計方法。在本文設(shè)計的系統(tǒng)中,詞類標(biāo)注模塊對兼類詞的詞類備注是依照基于單詞的兼類消歧的規(guī)則來進(jìn)行的。
短語分析模塊的功能是在短語層次識別出句子的短語結(jié)構(gòu),主要對名詞短語(NP)、動詞短語(VP)、副詞短語(ADVP)和形容詞短語(ADJP)進(jìn)行識別。短語分析模塊的主要任務(wù)是依據(jù)詞類信息對短語進(jìn)行識別,針對有歧義的并列結(jié)構(gòu)短語,則需要依照詞匯的語義信息和詞匯的搭配信息進(jìn)行識別[8]。如果有單詞不是以NP,VP,ADVP和ADJP四類短語組成,為了保證后續(xù)處理的統(tǒng)一性,都作為短語看待。依照短語在句子中的位置,生成相對應(yīng)的短語符號序列,方便后續(xù)分析過程的使用。
1.4 ?譯文規(guī)則建立模塊
譯文規(guī)則建立模塊的主要功能是選擇詞匯級語義、轉(zhuǎn)換短語級結(jié)構(gòu)、添加量詞和否定詞等。詞義選擇是語義消歧的具體實現(xiàn)部分,主要解決了多一次的譯文選擇問題[9]。詞義選擇主要依照詞典內(nèi)的信息對詞匯進(jìn)行約束,并參照詞匯的上下文,給出詞匯級譯文。如果是未登錄詞,則直接給出對應(yīng)的譯文即可。短語級結(jié)構(gòu)的轉(zhuǎn)換是在短語的內(nèi)部進(jìn)行詞匯的調(diào)整,調(diào)整是參照目標(biāo)語短語的結(jié)構(gòu)知識進(jìn)行的。在選擇詞義的基礎(chǔ)上,依據(jù)短語的結(jié)構(gòu)和短語的中心詞語義屬性來決定量詞和否定詞是否需要添加以及如何添加。
設(shè)立一種中間語言,將源語言轉(zhuǎn)換成中間語言,再將中間語言轉(zhuǎn)換成目標(biāo)語言,這種方法稱為中間語言法。理論上,中間語言法是比較方便的方法,但實際操作過程中,中間語言的設(shè)立是很困難的,中間語言獨立于各種自然語言,卻可以準(zhǔn)確表達(dá)出各種自然語言,因此尋找或創(chuàng)造一種中間語言是有很大難度的。譯文規(guī)則建立模塊如圖2所示。
中間語言法是一種更為徹底的源語言分析。中間語言法與直接翻譯法的不同之處主要表現(xiàn)在翻譯過程中,兩種方法對源語言的分析程度不同。直接翻譯法是不需要考慮源語言的語法結(jié)構(gòu),不需對源語言進(jìn)行深層次的分析,而中間語言法則需要對源語言的語法結(jié)構(gòu)進(jìn)行分析,并且將其轉(zhuǎn)換成相對應(yīng)的內(nèi)部表達(dá)[10]。
1.5 ?解碼模塊
解碼器是系統(tǒng)的核心模塊,通過解碼,將一個輸入的漢語句子翻譯成英語句子,流程圖如圖3所示。
1.6 ?譯文生成模塊
機(jī)器翻譯系統(tǒng)完成從源語言的翻譯過程,是一個復(fù)雜的整體過程,從功能上來講,系統(tǒng)的實現(xiàn)可分為源語分析和譯文生成兩部分,如圖4所示。
源語分析部分對源語言的詞法、形態(tài)、語義、語法依照語言學(xué)的知識分別進(jìn)行深層次的分析,分析結(jié)果用內(nèi)部表示形式表現(xiàn)出來[11]。這種內(nèi)部表示形式通過譯文生成部分轉(zhuǎn)化為目標(biāo)語中的合法語句,進(jìn)一步生成所需要的譯文。
由于英語中一個單詞往往對應(yīng)著多個漢語的多個譯文,因此在小句分析、短語分析和詞類標(biāo)注的基礎(chǔ)上,依照上下文進(jìn)行分析,確定單詞的譯文。
規(guī)則庫中的排序是依照優(yōu)先級的原則進(jìn)行的,這個優(yōu)先級在規(guī)則匹配的過程中起著主導(dǎo)作用。普遍而言,規(guī)則越是具體證明該規(guī)則的優(yōu)先級越高,規(guī)則越是抽象則代表該規(guī)則的優(yōu)先級越低。因此,在同一個規(guī)則庫下,結(jié)構(gòu)更長、約束更多、更具體的規(guī)則將被放在前面。語言規(guī)則是具有層次性的,規(guī)則的層次性有利于解決規(guī)則的沖突。本文采用如圖5所示的方法對譯文進(jìn)行轉(zhuǎn)換和生成。
2.1 ?開發(fā)技術(shù)及工具
本系統(tǒng)運(yùn)用工具及平臺設(shè)置如下:
操作系統(tǒng)為Windows 10,腳本語言為PHP,開發(fā)工具為Dreamweaver CS3,數(shù)據(jù)庫為MySQL,數(shù)據(jù)庫管理工具為Navicat for MySQL,軟件集成環(huán)境為XAMPP。
2.2 ?評估指標(biāo)
本文設(shè)置生成準(zhǔn)確率和本文相似度兩個指標(biāo)對翻譯結(jié)果進(jìn)行驗證。
生成準(zhǔn)確率指在基于模式方法中,相似度超過門限從而能夠進(jìn)行譯文輸出語句占總輸入譯文的比例,即:
[ξp=NAN×100%] ? ? ? ?(1)
式中:[ξp]表示基于模式的生成準(zhǔn)確率;[N]為輸入譯文總數(shù);[NA]表示譯文輸出語句量。
GTM(General Text Matcher)是基于調(diào)和平均值的文本相似度方法,計算公式如下:
[GTM=2·Precision·RecallPrecall+Recall] ? ? ? (2)
[Preision=MMS/Lsys,Recall=MMS/Lres]
式中:MMS為最大匹配長度;GTM得分范圍在0~1之間,分?jǐn)?shù)越高越好。
2.3 ?實驗結(jié)果分析
為了驗證本文改進(jìn)的生成系統(tǒng)在譯文生成準(zhǔn)確度方面具有優(yōu)勢,將傳統(tǒng)方法與本文方法進(jìn)行對比實驗,具體的實驗結(jié)果如圖6所示。
根據(jù)圖6分析能夠看出,隨著譯文量的不斷增加,傳統(tǒng)方法的準(zhǔn)確度圍繞著50%上下波動,最低為48%,最高僅為60%;相比之下,本文方法的準(zhǔn)確度從89%開始不斷上升,當(dāng)譯文量達(dá)到400時,準(zhǔn)確度為100%,并一直保持穩(wěn)定。由此可以說明,在進(jìn)行中英文翻譯時,本文方法在譯文生成時的準(zhǔn)確度穩(wěn)定,隨著譯文量的增加而不斷提高,并且高于傳統(tǒng)方法,具有一定的優(yōu)越性。
進(jìn)一步驗證采用本文方法改進(jìn)生成系統(tǒng)在譯文相似度方面具有優(yōu)越性,將本文方法與傳統(tǒng)方法進(jìn)行實驗對比,實驗結(jié)果見圖7。
由圖7分析可知,采用傳統(tǒng)方法,當(dāng)譯文量在0~40之間,GTM從0提升到0.4,在譯文量達(dá)到220時GTM僅達(dá)到0.8;相比之下,采用本文方法,譯文量在0~20之間,GTM有大幅度的提升,從0提升到0.78,當(dāng)譯文量達(dá)到220時,GTM達(dá)到1。由此可以說明,相較于傳統(tǒng)方法在進(jìn)行中英文翻譯時,本文方法在譯文生成時的相似度更高,具有一定的優(yōu)越性。
針對傳統(tǒng)自動生成系統(tǒng)一直存在生成準(zhǔn)確度低、相似度差的問題,提出并設(shè)計了基于雙層分析的英漢機(jī)器翻譯譯文自動生成系統(tǒng)。實驗結(jié)果表明,采用改進(jìn)系統(tǒng),其生成正確度較高,且譯文與原文的相似度較高,具有一定優(yōu)勢。
參考文獻(xiàn)
[1] 蔣向勇,邵娟萍.英漢借形縮略語生成的認(rèn)知闡釋[J].北京化工大學(xué)學(xué)報(社會科學(xué)版),2017(2):44?48.
JIANG Xiangyong, Shao Juanping. A cognitive exploration on the motivations of homographic abbreviations in English & Chinese [J]. Journal of Beijing University of Chemical Technology (Social sciences edition), 2017(2): 44?48.
[2] 范松.從商貿(mào)英漢翻譯看譯者主體性[J].昭通學(xué)院學(xué)報,2017,39(4):113?116.
FAN Song. An analysis of translator′s subjectivity in business and trade E?C translation [J]. Journal of Zhaotong University, 2017, 39(4): 113?116.
[3] 余碧燕.機(jī)器翻譯中的歧異性研究現(xiàn)狀綜述[J].蘭州文理學(xué)院學(xué)報(社會科學(xué)版),2017,33(5):106?111.
YU Biyan. Current studies on translation divergence in machine translation at home and abroad [J]. Journal of Lanzhou University of Arts and Science (Social sciences edition), 2017, 33(5): 106?111.
[4] 朱麗秋.英漢機(jī)器翻譯中的短語自動識別算法[J].現(xiàn)代電子技術(shù),2017,40(15):126?128.
ZHU Liqiu. Phrase automatic identification algorithm for English?Chinese machine translation [J]. Modern electronics technique, 2017, 40(15): 126?128.
[5] 仇蓓玲.術(shù)語生成原則視角下的文學(xué)術(shù)語翻譯新范式[J].中國科技術(shù)語,2017,19(4):24?28.
QIU Beiling. A new paradigm for translation of literary terms under the principle of terminology processing [J]. China terminology, 2017, 19(4): 24?28.
[6] 李洪政,趙凱,胡韌奮,等.面向?qū)@I(lǐng)域的漢英機(jī)器翻譯融合系統(tǒng)[J].情報工程,2017,3(3):105?115.
LI Hongzheng, ZHAO Kai, HU Renfen, et al. A hybrid system for Chinese?English patent machine translation [J]. Technology intelligence engineering, 2017, 3(3): 105?115.
[7] 孔金英,李曉,王磊,等.調(diào)序規(guī)則表的深度過濾研究[J].計算機(jī)科學(xué)與探索,2017,11(5):785?793.
KONG Jinying, LI Xiao, WANG Lei, et al. Research of deep filtering lexical reordering table [J]. Journal of frontiers of computer science & technology, 2017, 11(5): 785?793.
[8] 姚亮,洪宇,劉昊,等.基于語義分布相似度的翻譯模型領(lǐng)域自適應(yīng)研究[J].山東大學(xué)學(xué)報(理學(xué)版),2016,51(7):43?50.
YAO Liang, HONG Yu, LIU Hao, et al. Translation model adaptation based on semantic distribution similarity [J]. Journal of Shandong University (Natural science), 2016, 51(7): 43?50.
[9] 蔣宗禮,王威.融合檢索技術(shù)的譯文推薦系統(tǒng)[J].哈爾濱工程大學(xué)學(xué)報,2017,38(3):419?424.
JIANG Zongli, WANG Wei. Translation recommendation system with information retrieval technology [J]. Journal of Harbin Engineering University, 2017, 38(3): 419?424.
[10] 高恩婷,段湘煜.英漢機(jī)器音譯系統(tǒng)對比研究[J].北京大學(xué)學(xué)報(自然科學(xué)版),2017,53(2):287?294.
GAO Enting, DUAN Xiangyu. A comparative study on English?Chinese machine transliteration [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 287?294.
[11] 方芳.“翻譯能力”為核心的應(yīng)用型英語專業(yè)模塊化探索[J].應(yīng)用型高等教育研究,2017,2(1):58?62.
FANG Fang. The exploration of translation?ability?centered module course system for application?oriented English majors [J]. Application?oriented higher education research, 2017, 2(1): 58?62.