游新冬,楊海翔,陳海濤,孫 甜,,呂學(xué)強(qiáng)
(1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 北京信息科技大學(xué) 外國(guó)語(yǔ)學(xué)院, 北京 100192)
新能源領(lǐng)域是高新技術(shù)領(lǐng)域,各國(guó)都把發(fā)展新能源作為推進(jìn)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整的重要舉措,我國(guó)新能源專(zhuān)利申請(qǐng)量自2006年以來(lái)快速增長(zhǎng),每年專(zhuān)利申請(qǐng)量達(dá)5萬(wàn)件之多[1]。研究新能源專(zhuān)利文獻(xiàn)翻譯,不僅可以助力中國(guó)專(zhuān)利走向國(guó)際,推進(jìn)中國(guó)與其他國(guó)家間的交流合作,也可以借鑒國(guó)外優(yōu)秀專(zhuān)利技術(shù),推動(dòng)中國(guó)新能源專(zhuān)利產(chǎn)業(yè)發(fā)展。專(zhuān)利機(jī)器翻譯作為機(jī)器翻譯領(lǐng)域非常重要的一個(gè)研究方向,受到了人們的廣泛關(guān)注,比如亞洲專(zhuān)利機(jī)器翻譯協(xié)會(huì)WAT、歐洲專(zhuān)利機(jī)器翻譯協(xié)會(huì)WMT、機(jī)器翻譯峰會(huì)XIV[2]等比賽也會(huì)涉及相關(guān)專(zhuān)利機(jī)器翻譯的研究。
盡管神經(jīng)機(jī)器翻譯(NMT)質(zhì)量目前已經(jīng)很高,但對(duì)于特定領(lǐng)域的翻譯效果往往不佳。由于專(zhuān)利文本術(shù)語(yǔ)翻譯不準(zhǔn)確會(huì)對(duì)翻譯文本質(zhì)量產(chǎn)生很大影響,所以大多會(huì)由語(yǔ)言專(zhuān)家創(chuàng)建特定領(lǐng)域的術(shù)語(yǔ),對(duì)翻譯結(jié)果進(jìn)行譯后編輯以提高翻譯質(zhì)量。翻譯記憶庫(kù)被看作是一種訓(xùn)練數(shù)據(jù)的領(lǐng)域知識(shí),如何將雙語(yǔ)機(jī)器翻譯與雙語(yǔ)詞典相結(jié)合,將領(lǐng)域術(shù)語(yǔ)集成到NMT的實(shí)際應(yīng)用中仍是一個(gè)具有挑戰(zhàn)性的問(wèn)題[3]。
本文針對(duì)新能源領(lǐng)域?qū)@麢C(jī)器翻譯系統(tǒng)提出使用標(biāo)準(zhǔn)的Transformer NMT模型,混合輸入包含訓(xùn)練文本和術(shù)語(yǔ)信息,將雙語(yǔ)術(shù)語(yǔ)詞典融入到NMT訓(xùn)練過(guò)程中的方法,主要貢獻(xiàn)可以概括為以下幾個(gè)方面:
(1) 針對(duì)新能源領(lǐng)域?qū)@谋痉g的特點(diǎn),提出了融合術(shù)語(yǔ)信息的新能源專(zhuān)利神經(jīng)機(jī)器翻譯模型。
(2) 構(gòu)建了新能源領(lǐng)域約2.56萬(wàn)標(biāo)準(zhǔn)平行專(zhuān)利翻譯句對(duì)SP_Corpus, 2.56萬(wàn)WIPO翻譯的SP_Corpus_WIPO句對(duì),2.56萬(wàn)中國(guó)專(zhuān)利信息中心翻譯的SP_Corpus_CPIC句對(duì)、11.6萬(wàn)機(jī)器翻譯對(duì)照語(yǔ)料庫(kù)AP_Corpus、108萬(wàn)條單語(yǔ)語(yǔ)料ZHY_Corpus以及43 606個(gè)雙語(yǔ)術(shù)語(yǔ)詞對(duì)。
(3) 對(duì)不同量級(jí)語(yǔ)料庫(kù)數(shù)據(jù)規(guī)模下融合術(shù)語(yǔ)的不同方法的結(jié)果進(jìn)行對(duì)比分析。通過(guò)修改源數(shù)據(jù)復(fù)制嵌入或替換預(yù)先指定的翻譯,使模型學(xué)會(huì)“翻譯”這些術(shù)語(yǔ)。實(shí)驗(yàn)發(fā)現(xiàn),在小量級(jí)語(yǔ)料庫(kù)中,替換術(shù)語(yǔ)的方法效果更佳,在數(shù)據(jù)量稍大時(shí)增添術(shù)語(yǔ)的方法效果更優(yōu)。
(4) 探究了相同量級(jí)專(zhuān)利數(shù)據(jù)集下人工提供的中英專(zhuān)利文本、中國(guó)專(zhuān)利信息中心翻譯的中英專(zhuān)利文本以及世界知識(shí)產(chǎn)權(quán)局翻譯的中英專(zhuān)利文本的翻譯方式BLEU值的對(duì)比,得出WIPO網(wǎng)站對(duì)專(zhuān)利文本的翻譯質(zhì)量最高。
(5) 探究了融合術(shù)語(yǔ)的神經(jīng)機(jī)器翻譯模型,發(fā)現(xiàn)采用聯(lián)合詞表和非子詞切分的數(shù)據(jù)處理方法有助于翻譯模型質(zhì)量的提升。
早些年的專(zhuān)利機(jī)器翻譯研究大都以統(tǒng)計(jì)機(jī)器翻譯為主,比如2012年晉耀紅提出一種融合語(yǔ)義分析技術(shù)和基于規(guī)則的翻譯技術(shù)混合策略方法,來(lái)提高專(zhuān)利文本中復(fù)雜語(yǔ)句的翻譯效果[4]。2013年張冬梅等人制定了漢英要素句蛻的識(shí)別規(guī)則,在專(zhuān)利機(jī)器翻譯系統(tǒng)中提高了要素句蛻的翻譯效果[5]。2015年朱筠等人為使謂語(yǔ)動(dòng)詞有更準(zhǔn)確的翻譯,分類(lèi)梳理了復(fù)雜謂語(yǔ)的構(gòu)成方式并制定轉(zhuǎn)換規(guī)則,用于實(shí)際的漢英專(zhuān)利機(jī)器翻譯系統(tǒng)[6]。2015年胡韌奮針對(duì)專(zhuān)利文獻(xiàn)中介詞長(zhǎng)且復(fù)雜的問(wèn)題,根據(jù)介詞語(yǔ)義和特征信息,提出了一種識(shí)別策略[7]。2017年李洪政等人把翻譯系統(tǒng)和統(tǒng)計(jì)翻譯系統(tǒng)融合,搭建了一個(gè)面向?qū)@臐h英機(jī)器翻譯融合系統(tǒng)[8]。這些基于統(tǒng)計(jì)機(jī)器翻譯方法的專(zhuān)利系統(tǒng)需要人類(lèi)專(zhuān)家設(shè)計(jì)特征、隱式結(jié)構(gòu)及相應(yīng)翻譯過(guò)程,不僅耗時(shí)且成本昂貴,受不同領(lǐng)域和規(guī)則的影響,翻譯質(zhì)量也參差不齊。
隨著深度學(xué)習(xí)的發(fā)展,機(jī)器翻譯也開(kāi)始進(jìn)入神經(jīng)機(jī)器翻譯方面的研究。Raymond等人參加了2019年WAT的專(zhuān)利任務(wù),在JPO專(zhuān)利子任務(wù)中,利用基于Transformer模型的神經(jīng)機(jī)器翻譯方法在zh-ja,ja-zh,ja-en三個(gè)語(yǔ)言對(duì)中取得了第一名的成績(jī)[9]。Cheoneum等人也參加了2019年WAT 的專(zhuān)利翻譯任務(wù),使用了輸入元素之間成對(duì)關(guān)系的相對(duì)定位方法、用于數(shù)據(jù)增強(qiáng)的反向翻譯和多源翻譯方法、從右到左的重排序方法和集成模型4種方法,搭建的Transformer專(zhuān)利神經(jīng)機(jī)器翻譯系統(tǒng)在所有JPC2子任務(wù)中BLEU值得分均名列第一[10]。
與基于短語(yǔ)的機(jī)器翻譯系統(tǒng)相比,神經(jīng)機(jī)器翻譯系統(tǒng)可以得到更流暢的高質(zhì)量翻譯結(jié)果,但存在著失去對(duì)翻譯生成控制的弊端。如果在特定領(lǐng)域中沒(méi)有明確指出源詞匯表和目標(biāo)詞匯表之間的關(guān)系,對(duì)于NMT系統(tǒng)而言,執(zhí)行特定術(shù)語(yǔ)的翻譯會(huì)變得非常困難。目前已有許多專(zhuān)家和學(xué)者在神經(jīng)機(jī)器翻譯適應(yīng)特定領(lǐng)域術(shù)語(yǔ)方面做出了研究。
將術(shù)語(yǔ)信息融入神經(jīng)機(jī)器翻譯主要有以下兩種方法。一種是在解碼過(guò)程中使用約束譯碼來(lái)實(shí)現(xiàn)預(yù)先指定的翻譯,通過(guò)修改NMT譯碼過(guò)程使得解碼器在解碼時(shí)確保這些約束得到滿(mǎn)足,輸出預(yù)先指定的翻譯。典型代表性工作有: 2017年Hokamp和Liu[11]提出網(wǎng)格波束搜索,允許模型包含預(yù)先指定的詞法約束;2018年P(guān)ost和Vilar[12]提出的一種基于動(dòng)態(tài)波束分配的神經(jīng)網(wǎng)絡(luò)快速詞匯約束譯碼方法;2019年Hu等人[13]提出的改進(jìn)詞匯約束譯碼方法,雖然這種方法對(duì)約束項(xiàng)控制較強(qiáng),但解碼的速度卻顯著降低[14],且因?yàn)橥耆醇s束項(xiàng)強(qiáng)制執(zhí)行,并不適用于形態(tài)學(xué)的輸出結(jié)果,損害了翻譯質(zhì)量的保真度[15]。
另一種方法是使用占位符[16]標(biāo)記源和目標(biāo),在訓(xùn)練過(guò)程中,在源端和目標(biāo)端都進(jìn)行翻譯,這樣模型就可以學(xué)習(xí)翻譯占位符標(biāo)簽來(lái)翻譯這些單詞,并在后期處理步驟中將它們放回原位,但由于NMT模型無(wú)法訪問(wèn)術(shù)語(yǔ),這種方法對(duì)于預(yù)先指定的翻譯沒(méi)有完全保留原詞的意思,無(wú)法保證翻譯的充足性和流暢性,很難創(chuàng)建流暢的和形態(tài)學(xué)上的語(yǔ)義翻譯。2019年Song等人[17]提出將源短語(yǔ)替換為目標(biāo)翻譯混合訓(xùn)練數(shù)據(jù)方法,2019年Dinu等人[18]在源端使用目標(biāo)術(shù)語(yǔ)的內(nèi)聯(lián)注釋?zhuān)⒃谟?xùn)練和推理過(guò)程中使用源因子嵌入,不僅強(qiáng)制使用正確的術(shù)語(yǔ),而且學(xué)習(xí)上下文適當(dāng)?shù)淖兓?/p>
本文基于Transformer模型,提出一種帶有術(shù)語(yǔ)信息輸入流的神經(jīng)機(jī)器翻譯模型,在神經(jīng)機(jī)器翻譯訓(xùn)練中強(qiáng)制學(xué)習(xí)新能源領(lǐng)域的術(shù)語(yǔ)翻譯,這種方法能夠處理看不見(jiàn)的術(shù)語(yǔ),同時(shí)保留NMT生成中連貫輸出序列的能力,也不會(huì)大幅降低解碼速度。
2017年Vaswani等[19]首先提出Transformer的概念。與循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)不同的是,Transformer僅依賴(lài)自注意力機(jī)制就在許多任務(wù)方面取得了優(yōu)異的成績(jī)。我們?cè)跀?shù)據(jù)輸入模型之前進(jìn)行了融入術(shù)語(yǔ)的操作,嘗試了按照術(shù)語(yǔ)詞典對(duì)源句進(jìn)行分詞、替換和增添的操作,再將編碼后的句子輸入到模型中。在新能源領(lǐng)域?qū)@麢C(jī)器翻譯中,Transformer編碼器的主要功能是利用多頭自注意力機(jī)制和全連接的前饋神經(jīng)網(wǎng)絡(luò)編碼中文的新能源專(zhuān)利文本,解碼器則負(fù)責(zé)產(chǎn)出對(duì)應(yīng)英文專(zhuān)利的翻譯結(jié)果。兩者均使用了多頭自注意力機(jī)制來(lái)捕獲句子的內(nèi)部結(jié)構(gòu),學(xué)習(xí)文本之間的表示,并通過(guò)注意力機(jī)制連接來(lái)進(jìn)行對(duì)齊翻譯,整體模型結(jié)構(gòu)如圖1所示。
圖1 融合術(shù)語(yǔ)信息的神經(jīng)機(jī)器翻譯模型
(1)+Segmentation(術(shù)語(yǔ)分詞): 表示語(yǔ)料經(jīng)過(guò)術(shù)語(yǔ)詞典分詞處理之后訓(xùn)練的翻譯模型。利用新能源領(lǐng)域術(shù)語(yǔ)詞典,借助jieba分詞工具,對(duì)源語(yǔ)料以新能源領(lǐng)域術(shù)語(yǔ)為單位進(jìn)行分割。
(2)+Replace(術(shù)語(yǔ)替換): 表示目標(biāo)端術(shù)語(yǔ)替換了源端的術(shù)語(yǔ)。將源端的中文術(shù)語(yǔ)由目標(biāo)端的英文術(shù)語(yǔ)進(jìn)行替換,使得模型在訓(xùn)練時(shí)能直接學(xué)習(xí)對(duì)應(yīng)翻譯與源語(yǔ)句之間的語(yǔ)義關(guān)系。
(3)+Append(術(shù)語(yǔ)增添): 表示源端術(shù)語(yǔ)后添加了目標(biāo)端術(shù)語(yǔ)。將英文術(shù)語(yǔ)翻譯結(jié)果直接追加到中文術(shù)語(yǔ)后面,由于源訓(xùn)練語(yǔ)句中包含雙語(yǔ)術(shù)語(yǔ)的信息,使得attention機(jī)制在編碼句子信息時(shí)能更充分地學(xué)到術(shù)語(yǔ)詞語(yǔ)之間對(duì)應(yīng)的關(guān)系,進(jìn)一步提高術(shù)語(yǔ)翻譯結(jié)果的準(zhǔn)確性。
三種方法的示例如表1所示,其中,“0”表示源端的詞語(yǔ),“1”表示源端的術(shù)語(yǔ),“2”表示目標(biāo)端的術(shù)語(yǔ)。
表1 三種生成訓(xùn)練語(yǔ)料的方法
4.1.1 新能源專(zhuān)利平行語(yǔ)料庫(kù)和術(shù)語(yǔ)庫(kù)的構(gòu)建
新能源領(lǐng)域?qū)@叫姓Z(yǔ)料庫(kù)和術(shù)語(yǔ)庫(kù)來(lái)源于北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室(1)https://github.com/tian-guo-guo/ne_dataset。語(yǔ)料庫(kù)的構(gòu)建主要包括兩步,首先從互聯(lián)網(wǎng)上檢索并獲取大量雙語(yǔ)和單語(yǔ)專(zhuān)利文本,然后利用程序和人工兩種方式清洗語(yǔ)料。SP_Corpus是從 SooPAT網(wǎng)站(2)http://www.soopat.com/上獲取的人工翻譯中英雙語(yǔ)專(zhuān)利對(duì)照文本,經(jīng)過(guò)處理包含2.56萬(wàn)句對(duì),SP_Corpus_WIPO和SP_Corpus_CPIC分別是利用世界知識(shí)產(chǎn)權(quán)局(3)https://patentscope.wipo.int/translate/translate.jsf?interfaceLanguage=zh和中國(guó)專(zhuān)利信息中心(4)http://iptrans.cnpat.com.cn:90/提供的翻譯接口構(gòu)建的SP_Corpus雙語(yǔ)平行句對(duì)。AP_Corpus是從Actionable patent網(wǎng)站(5)https://www.actionablepatents.com/Search/SimpleSearch上獲的與新能源相關(guān)的專(zhuān)利文本,經(jīng)過(guò)規(guī)則等方法過(guò)濾處理,構(gòu)成約11.6萬(wàn)句對(duì)的機(jī)器翻譯語(yǔ)料庫(kù)。ZHY_Corpus來(lái)源于智慧芽專(zhuān)利網(wǎng)站(6)https://www.zhihuiya.com/,由中文專(zhuān)利文本構(gòu)成單語(yǔ)語(yǔ)料庫(kù),約108萬(wàn)句對(duì)。
專(zhuān)利術(shù)語(yǔ)庫(kù)主要由以下四部分組成,首先整理了新能源領(lǐng)域術(shù)語(yǔ)標(biāo)準(zhǔn)文件、專(zhuān)業(yè)詞典、權(quán)威網(wǎng)站等已有的雙語(yǔ)術(shù)語(yǔ),包括3 745個(gè)領(lǐng)域術(shù)語(yǔ)詞對(duì)。針對(duì)新能源專(zhuān)利文本中術(shù)語(yǔ)詞的特點(diǎn),我們訓(xùn)練了基于BERT-BiLSTM-CRF的新能源領(lǐng)域中文術(shù)語(yǔ)抽取模型[20]。之后抽取SP_Corpus的中文術(shù)語(yǔ),對(duì)抽取結(jié)果進(jìn)行過(guò)濾和校對(duì),一共獲得了39 861個(gè)術(shù)語(yǔ)詞。最后利用WIPO網(wǎng)站進(jìn)行翻譯,擴(kuò)充雙語(yǔ)術(shù)語(yǔ)詞對(duì),構(gòu)建了43 606個(gè)新能源專(zhuān)利雙語(yǔ)術(shù)語(yǔ)詞對(duì)具體語(yǔ)料統(tǒng)計(jì)信息如表2所示。
表2 新能源專(zhuān)利平行語(yǔ)料庫(kù)和術(shù)語(yǔ)庫(kù)統(tǒng)計(jì)信息
4.1.2 中英數(shù)據(jù)集的處理
對(duì)于實(shí)驗(yàn)中用到的所有英文數(shù)據(jù),本文使用Moses統(tǒng)計(jì)機(jī)器翻譯工具包[21]來(lái)對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理,對(duì)句子進(jìn)行標(biāo)準(zhǔn)化、小寫(xiě)化等操作。對(duì)于中文數(shù)據(jù),我們利用jieba分詞工具結(jié)合新能源專(zhuān)利詞典對(duì)語(yǔ)料進(jìn)行三種方法的詞級(jí)粒度切分,分別按照術(shù)語(yǔ)分詞的方法對(duì)訓(xùn)練語(yǔ)料進(jìn)行分詞,將源端的術(shù)語(yǔ)由目標(biāo)端的術(shù)語(yǔ)進(jìn)行替換以及將目標(biāo)端術(shù)語(yǔ)追加到源端術(shù)語(yǔ)后面,術(shù)語(yǔ)替換算法如算法1所示。在以下實(shí)驗(yàn)過(guò)程中不同語(yǔ)料庫(kù)之間隨機(jī)挑選2 000句對(duì)作為驗(yàn)證集,2 000句對(duì)作為測(cè)試集,剩余的句對(duì)作為訓(xùn)練集。此外,對(duì)經(jīng)過(guò)分詞處理的中英文句子進(jìn)行聯(lián)合訓(xùn)練,生成聯(lián)合詞匯表,在得到二值化數(shù)據(jù)后開(kāi)始訓(xùn)練模型。
算法1 新能源專(zhuān)利語(yǔ)料庫(kù)術(shù)語(yǔ)替換算法
4.2.1 硬件環(huán)境
為了驗(yàn)證本文的方法在新能源領(lǐng)域?qū)@麢C(jī)器翻譯的有效性,實(shí)驗(yàn)?zāi)P偷挠?xùn)練基于Linux Ubuntu 16.04,硬件環(huán)境為Intel(R) Xeon(R) Gold 5118 CPU @ 2.30GHz(12-Core),8*NVIDIA Tesla V100(16GB),64 GB內(nèi)存,利用Pytorch 1.7.1進(jìn)行神經(jīng)網(wǎng)絡(luò)的搭建,軟件環(huán)境為Python 3.6。
4.2.2 實(shí)驗(yàn)參數(shù)設(shè)置
本文實(shí)驗(yàn)采用了Facebook團(tuán)隊(duì)開(kāi)源的fairseq[22]代碼,選取Transformer作為所有實(shí)驗(yàn)的基礎(chǔ)架構(gòu),編碼器和解碼器均有6層,詞嵌入向量的維度為512,源端和目標(biāo)端的隱藏層的維度設(shè)置為512,采用Adam[23]優(yōu)化器更新翻譯模型,對(duì)訓(xùn)練過(guò)程中的學(xué)習(xí)率進(jìn)行調(diào)整。初始化學(xué)習(xí)率為1e-4,一二階矩陣系數(shù)β1、β2分別是0.9和0.98,并設(shè)置學(xué)習(xí)率更新步數(shù)為4 000步,每一次迭代設(shè)置4 096個(gè)詞進(jìn)行一次批處理。在訓(xùn)練期間,為了防止過(guò)擬合以及減少噪聲對(duì)語(yǔ)料的影響,本文所有實(shí)驗(yàn)的dropout均設(shè)置為0.3,并且設(shè)置標(biāo)簽平滑值為0.1。另外,在解碼的時(shí)候采用束搜索算法[24],搜索寬度設(shè)置為5,三種語(yǔ)料庫(kù)的詞表大小分別約為3.5萬(wàn)、5.1萬(wàn)和6.1萬(wàn),其他實(shí)驗(yàn)參數(shù)設(shè)置與Vaswani等人一致。
4.3.1 BLEU值
本研究采用BLEU[25]值來(lái)對(duì)神經(jīng)機(jī)器翻譯結(jié)果的翻譯質(zhì)量進(jìn)行評(píng)價(jià)。該評(píng)價(jià)指標(biāo)的原理是基于精確率來(lái)衡量參考譯文和模型翻譯結(jié)果的詞共現(xiàn)程度,整體計(jì)算如式(1)、式(2)所示。
4.3.2 人工評(píng)價(jià)
除BLEU值評(píng)價(jià)指標(biāo)以外,我們也采取了人工評(píng)價(jià)的方式來(lái)判斷專(zhuān)利文本翻譯質(zhì)量的好壞。共10名在讀研究生,分別對(duì)不同模型的50個(gè)翻譯句子打分并取平均值,要求遵循以下標(biāo)準(zhǔn)來(lái)評(píng)估專(zhuān)利文本的翻譯質(zhì)量: ①判斷翻譯語(yǔ)句語(yǔ)言表達(dá)是否流暢,貼合專(zhuān)利文本句式表達(dá)規(guī)范; ②判斷術(shù)語(yǔ)翻譯是否正確,源術(shù)語(yǔ)及其翻譯在詞典中有無(wú)匹配;③判斷術(shù)語(yǔ)形態(tài)是否根據(jù)上下文有適當(dāng)?shù)淖兓险_時(shí)態(tài)特性的翻譯規(guī)則。分值范圍為0~5,0表示翻譯結(jié)果完全不對(duì),5表示翻譯表達(dá)地道、準(zhǔn)確,可接受度高,符合專(zhuān)利文本特性,術(shù)語(yǔ)翻譯準(zhǔn)確。
5.1.1 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證所提出融合術(shù)語(yǔ)信息的新能源專(zhuān)利機(jī)器翻譯模型的有效性,除了前文所述三種融合術(shù)語(yǔ)方法的模型外,本文還設(shè)置了Transformer baseline模型,語(yǔ)料按照默認(rèn)jieba分詞進(jìn)行預(yù)處理。其他實(shí)驗(yàn)也均采用Transformer模型作為翻譯模型的基礎(chǔ)架構(gòu),在SP_Corpus、AP_Corpus和SP_Corpus混合AP_Corpus三種語(yǔ)料庫(kù)上訓(xùn)練150輪,經(jīng)過(guò)多輪參數(shù)的組合優(yōu)化,模型性能達(dá)到最優(yōu)且收斂后停止訓(xùn)練,模型訓(xùn)練的參數(shù)設(shè)置相同,統(tǒng)計(jì)的翻譯模型在測(cè)試集上的BLEU值及變化趨勢(shì)如表3和圖2所示。
表3 三種語(yǔ)料庫(kù)的四種方法BLEU值和人工評(píng)分
圖2 SP_Corpus、AP_Corpus、SP_Corpus+AP_Corpus 4種方法BLEU值折線圖
從表3可以看到,利用術(shù)語(yǔ)分詞的方法,在三種語(yǔ)料庫(kù)上的評(píng)分均比基線模型低,在SP_Corpus上,替換術(shù)語(yǔ)的方法比基線模型平均高出0.80個(gè)BLEU值,在epoch值為115時(shí)表現(xiàn)最好,此時(shí)BLEU值為29.91。在AP_Corpus和混合語(yǔ)料庫(kù)上,增添術(shù)語(yǔ)和替換術(shù)語(yǔ)的方法均取得了比Transformer基線模型更優(yōu)的結(jié)果,而且增添術(shù)語(yǔ)的方法要優(yōu)于替換術(shù)語(yǔ)的方法。在AP_Corpus語(yǔ)料庫(kù)上,平均高于基線模型2.08和1.08個(gè)BLEU值,epoch值為80時(shí)表現(xiàn)最好,BLEU值為74.14。在混合語(yǔ)料庫(kù)上,平均高于基線模型1.62和0.53個(gè)BLEU值,epoch值為120時(shí)表現(xiàn)最好,BLEU值為67.70,人工評(píng)價(jià)的結(jié)果也與之相符。
5.1.2 實(shí)驗(yàn)分析
(1) 小規(guī)模語(yǔ)料庫(kù)SP_Corpus的實(shí)驗(yàn)中達(dá)到了29.91的BLEU值,其是在僅有2.56萬(wàn)數(shù)據(jù)集上訓(xùn)練的結(jié)果。由于數(shù)據(jù)量太小,導(dǎo)致翻譯模型質(zhì)量不高。當(dāng)數(shù)據(jù)量增加到11.6萬(wàn)時(shí),在AP_Corpus上BLEU值能達(dá)到74.14,說(shuō)明增加數(shù)據(jù)量能明顯提高機(jī)器翻譯模型的質(zhì)量,而能達(dá)到70分以上,是由于在新能源專(zhuān)利這個(gè)特定領(lǐng)域中,句子間連接詞、專(zhuān)利句式表達(dá)方式近似,所以BLEU值較高。當(dāng)混合兩種數(shù)據(jù)集時(shí),結(jié)果反而下降,反映出人工構(gòu)建的數(shù)據(jù)集質(zhì)量欠佳的問(wèn)題。結(jié)合人工評(píng)價(jià),發(fā)現(xiàn)較大規(guī)模語(yǔ)料庫(kù)上的翻譯表達(dá)更加流暢,句式翻譯更加規(guī)范,更符合專(zhuān)利文本書(shū)寫(xiě)格式。
(2) 從圖2的折線圖可以很直觀地看出,Segmentation方法在三種語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果均比其他模型低,初步分析是因?yàn)榉衷~的粒度太大,因?yàn)樾履茉磳?zhuān)利術(shù)語(yǔ)具有術(shù)語(yǔ)密集且部分術(shù)語(yǔ)詞較長(zhǎng)的特點(diǎn),比如“新能源電動(dòng)汽車(chē)”,這樣詞表大小和覆蓋度較普通的分詞會(huì)少一些,模型在翻譯時(shí)選詞減少,導(dǎo)致BLEU值降低,翻譯效果不佳,且有論文表明,翻譯單元的大小對(duì)翻譯質(zhì)量有顯著影響,字級(jí)別的翻譯模型更能捕捉單元之間的語(yǔ)義聯(lián)系,提高翻譯性能[26]。
(3) 在同一規(guī)模語(yǔ)料庫(kù)中,對(duì)比Replace方法和Append方法,在小規(guī)模語(yǔ)料庫(kù)中Replace方法更好一些,據(jù)分析是因?yàn)樾∫?guī)模語(yǔ)料庫(kù)數(shù)據(jù)量太少,模型能學(xué)到的東西有限,直接將目標(biāo)術(shù)語(yǔ)注入到源語(yǔ)料中訓(xùn)練反而更有利于小規(guī)模語(yǔ)料庫(kù)在生成翻譯結(jié)果時(shí)將正確結(jié)果復(fù)制到翻譯中并輸出。而如果語(yǔ)料庫(kù)數(shù)據(jù)量更多時(shí),如AP_Corpus和混合語(yǔ)料,Append方法則有利于模型學(xué)習(xí)訓(xùn)練語(yǔ)句中源語(yǔ)言和目標(biāo)語(yǔ)言術(shù)語(yǔ)翻譯對(duì)之間的對(duì)應(yīng)關(guān)系,在翻譯新語(yǔ)句時(shí)根據(jù)詞語(yǔ)之間的語(yǔ)義關(guān)系把對(duì)應(yīng)的術(shù)語(yǔ)翻譯出來(lái),取得更好的表達(dá)能力,提高翻譯譯文術(shù)語(yǔ)表達(dá)效果。
除了探究不同量級(jí)語(yǔ)料庫(kù)下融合術(shù)語(yǔ)信息的對(duì)比實(shí)驗(yàn)之外,本文還比較了相同量級(jí)小規(guī)模語(yǔ)料庫(kù)下人工構(gòu)建的數(shù)據(jù)集、利用中國(guó)專(zhuān)利信息中心構(gòu)建的數(shù)據(jù)集以及通過(guò)世界知識(shí)產(chǎn)權(quán)局構(gòu)建的數(shù)據(jù)集三種翻譯方式的對(duì)比。圖2表明了Replace方法在SP_Corpus上效果最好,所以我們選擇了Replace方法對(duì)三種翻譯方式的訓(xùn)練文本進(jìn)行了處理,實(shí)驗(yàn)對(duì)比BLEU值如圖3所示。SP_Corpus的BLEU值較低,是因?yàn)檎Z(yǔ)料庫(kù)太小,翻譯模型質(zhì)量不高。而通過(guò)中國(guó)專(zhuān)利信息中心、世界知識(shí)產(chǎn)權(quán)局構(gòu)建的數(shù)據(jù)集BLEU值都達(dá)到了60多,且經(jīng)過(guò)人工評(píng)價(jià)之后,發(fā)現(xiàn)翻譯質(zhì)量也都很好,說(shuō)明上線的專(zhuān)利模型在翻譯文本方面可以基本滿(mǎn)足專(zhuān)利翻譯任務(wù)的需要。進(jìn)一步比較WIPO和CPIC時(shí),發(fā)現(xiàn)WIPO 的翻譯效果比CPIC好一些,因?yàn)樵摴ぞ呤腔诙喾N語(yǔ)言聯(lián)合學(xué)習(xí)訓(xùn)練的模型,而且內(nèi)部集成了來(lái)自國(guó)際專(zhuān)利分類(lèi)的32個(gè)技術(shù)領(lǐng)域,允許系統(tǒng)消除翻譯過(guò)程中的歧義,在翻譯特定句子時(shí)考慮特定的領(lǐng)域,從而產(chǎn)生更準(zhǔn)確的翻譯。
圖3 三種翻譯方式BLEU值結(jié)果
5.3.1 聯(lián)合詞表和獨(dú)立詞表
一般情況下,對(duì)于中英這種語(yǔ)種差異過(guò)大的語(yǔ)言對(duì),通常采用獨(dú)立詞表的方式,但是由于我們添加了術(shù)語(yǔ)信息到訓(xùn)練過(guò)程中,采用聯(lián)合詞表的方式可能更有助于模型學(xué)到詞匯之間的語(yǔ)義關(guān)系,比如原來(lái)基準(zhǔn)Transformer模型是中文-英文,語(yǔ)句對(duì)的差異性較大,但是融合術(shù)語(yǔ)之后是混合中文-英文,語(yǔ)句對(duì)之間的的差異性會(huì)減小,所以采用聯(lián)合詞表更適用于融合術(shù)語(yǔ)的神經(jīng)機(jī)器模型。
圖4是在AP_Corpus上進(jìn)行了聯(lián)合詞表和獨(dú)立詞表的對(duì)比實(shí)驗(yàn)結(jié)果,AP_Corpus為聯(lián)合詞表訓(xùn)練,AP_Corpus_iso為獨(dú)立詞表訓(xùn)練,對(duì)80輪到140輪的BLEU取了平均值,可以看到基準(zhǔn)的Transformer方法無(wú)論采用哪種方式均無(wú)明顯波動(dòng),而三種融合術(shù)語(yǔ)的方法,采用聯(lián)合詞表效果會(huì)優(yōu)于獨(dú)立詞表,并且術(shù)語(yǔ)增添的方法在聯(lián)合詞表上表現(xiàn)更為突出。
圖4 獨(dú)立詞表和聯(lián)合詞表BLEU值結(jié)果對(duì)比
5.3.2 BPE子詞切分
由于本文重點(diǎn)關(guān)注融合術(shù)語(yǔ)對(duì)翻譯質(zhì)量的影響,所以也探究了子詞切分?jǐn)?shù)據(jù)處理方式對(duì)翻譯質(zhì)量的影響。經(jīng)過(guò)對(duì)比試驗(yàn)分析,發(fā)現(xiàn)四種實(shí)驗(yàn)方法在AP_Corpus上BLEU值的增長(zhǎng)變化趨勢(shì)與圖2中BLEU值增長(zhǎng)趨勢(shì)大體一致,但是在相應(yīng)輪數(shù)的BLEU值均低1~3左右,說(shuō)明采用子詞切分并不適用于融合術(shù)語(yǔ)的方法,作者分析是因?yàn)樽釉~切分粒度會(huì)消耗掉加入術(shù)語(yǔ)的信息特征,所以本文采用非子詞切分的數(shù)據(jù)處理方式。
綜上所述,本文針對(duì)新能源領(lǐng)域?qū)@麢C(jī)器翻譯任務(wù),構(gòu)建了新能源領(lǐng)域?qū)@麧h英平行語(yǔ)料庫(kù)和術(shù)語(yǔ)庫(kù),并提出了一種融入術(shù)語(yǔ)信息的專(zhuān)利神經(jīng)機(jī)器翻譯模型,通過(guò)在不同量級(jí)語(yǔ)料庫(kù)上的對(duì)比實(shí)驗(yàn)可以看出,采用術(shù)語(yǔ)替換和術(shù)語(yǔ)添加的方法可以使模型學(xué)到更豐富的術(shù)語(yǔ)信息,提高翻譯模型對(duì)領(lǐng)域術(shù)語(yǔ)的學(xué)習(xí)能力和表達(dá)能力,優(yōu)于目前流行的Transformer基線模型。比較了三種翻譯方式結(jié)果的差異,利用WIPO網(wǎng)站翻譯專(zhuān)利文本表達(dá)較好。在具備相同領(lǐng)域翻譯平行語(yǔ)料庫(kù)和術(shù)語(yǔ)庫(kù)的前提下,融合術(shù)語(yǔ)信息的機(jī)器翻譯模型具有更強(qiáng)的領(lǐng)域適應(yīng)性,在翻譯特定術(shù)語(yǔ)時(shí)的表達(dá)效果比通用的神經(jīng)機(jī)器翻譯模型好,并且融入術(shù)語(yǔ)作為提升翻譯質(zhì)量的一種通用方法,可以靈活地運(yùn)用到其他領(lǐng)域的神經(jīng)機(jī)器翻譯系統(tǒng)中,還得出了采用聯(lián)合詞表和非子詞切分?jǐn)?shù)據(jù)處理方法更適用于融合術(shù)語(yǔ)的神經(jīng)機(jī)器翻譯模型的結(jié)論。
下一步可以嘗試?yán)脴?gòu)建的108萬(wàn)新能源單語(yǔ)語(yǔ)料庫(kù)作為實(shí)驗(yàn)數(shù)據(jù)基礎(chǔ),在語(yǔ)言模型更優(yōu)的基礎(chǔ)條件下進(jìn)一步探索對(duì)術(shù)語(yǔ)翻譯質(zhì)量的影響,將術(shù)語(yǔ)對(duì)照表當(dāng)作一個(gè)單獨(dú)的特征,訓(xùn)練詞向量,并融合進(jìn)模型里,結(jié)合其他語(yǔ)言對(duì)數(shù)據(jù),利用參數(shù)共享進(jìn)行多語(yǔ)言聯(lián)合訓(xùn)練,以期得到更好的翻譯質(zhì)量。