寧秋怡,史小靜,段湘煜
(蘇州大學,江蘇 蘇州 215006)
機器翻譯(machine translation,MT)[1-2]是基于自然語言數(shù)據(jù)研究的項目,近年來,機器翻譯的發(fā)展已經達到一個較高的水平,特別是基于編碼器和解碼器結構的神經機器翻譯系統(tǒng)(neural machine translation,NMT)[3-5]。但在現(xiàn)階段,不論是統(tǒng)計機器翻譯(statistical machine translation,SMT)[6]模型還是神經機器翻譯模型,它們的性能取決于語料庫的規(guī)模和質量。高質量的機器翻譯系統(tǒng)訓練都依賴于大規(guī)模的平行數(shù)據(jù),這些數(shù)據(jù)一般在通用領域中大量存在,如新聞領域。然而在一些不常用的低資源領域,往往只有小規(guī)模的平行語料,甚至在一些領域中不存在平行數(shù)據(jù),如電子商務領域。如今電子商務活動日益頻繁,隨之而來的電子商務平臺產品信息翻譯成為了一個突出的問題。通過人工進行產品信息翻譯將消耗大量的時間和資金,因此希望通過機器翻譯來輔助電商產品信息翻譯,構建電子商務翻譯系統(tǒng)。
通過利用其他通用領域訓練的翻譯系統(tǒng)進行稀缺領域資源的翻譯,但是兩個領域數(shù)據(jù)差異較大,翻譯效果不佳??梢岳觅Y源豐富的領域語料來幫助語料稀少的領域提升翻譯質量,稱為機器翻譯的領域適應(machine translation adaptation)[7]。在領域適應機器翻譯中,資源豐富的領域被稱為外領域(out-domain),資源稀缺的領域被稱為內領域(in-domain)。
在機器翻譯領域適應中,有監(jiān)督的領域適應要求內領域和外領域都具有平行語料,然而在電子商務領域,不存在公開的大規(guī)模平行數(shù)據(jù),并且構建電子商務平行語料是十分困難的,所以采用無監(jiān)督領域適應的方法,避免了對內領域平行語料的需求。目前無監(jiān)督領域適應中,提升模型翻譯效果主要有兩種方式。第一種方法是生成內領域的偽平行數(shù)據(jù)。最為顯著的方法是2015年Sennrich等人[8]通過將內領域目標語言反向翻譯來構建偽平行數(shù)據(jù)。反向翻譯(back-translation)是給定目標語言句子y,用訓練好的目標語言到源語言的翻譯模型得到偽句子對(x',y),訓練過程始終保持目標端的真實性。此外,2017年Anna Currey等人[9]復制內領域目標語言文本的方法都是不斷更新擴充領域內的數(shù)據(jù)。2019年Hu等人[10]通過詞庫歸納構建域內偽平行語料庫,大大提高了翻譯質量。第二種方法是在現(xiàn)有的網絡基礎上設計出新的網絡模型,Xia等人[11]在利用偽平行的數(shù)據(jù)的基礎上,提出雙向學習的方法提升模型的性能。2018年Zhen Yang等人[12]在翻譯模型中引入對抗分類器的方法實現(xiàn)無監(jiān)督的領域適應。2019年Dou等人[13]提出將領域特征嵌入到網絡中編碼端的無監(jiān)督領域適應方法,并通過多任務學習訓練了整個網絡。
為了解決內領域平行資源稀缺的問題,該文使用無監(jiān)督領域適應,并在迭代訓練的過程中,通過數(shù)據(jù)逐步混合訓練策略提升翻譯性能,充分利用單語數(shù)據(jù)。同時針對于無監(jiān)督領域適應過程中詞對匹配不佳的問題,提出短語后驗證的方法進一步強化。通過大量實驗對比,在電子商務領域上該方法超于現(xiàn)有的方法,較最強基線系統(tǒng)高出約1.5 Bleu點。
該文的貢獻包含以下幾點:
(1)獲取電子商務單語數(shù)據(jù),以無監(jiān)督領域適應方法搭建電子商務機器翻譯平臺;
(2)無監(jiān)督領域適應電商機器翻譯系統(tǒng)采用混合策略為主體框架,充分利用內領域數(shù)據(jù),探索內外領域混合比例,提升翻譯性能;
(3)提出短語后驗證的方法解決無監(jiān)督領域適應機器翻譯中詞對匹配不佳問題,同時最大化利用內領域數(shù)據(jù)。
首先介紹了近年在領域適應機器翻譯方面的相關研究以及工作,其次詳細描述無監(jiān)督領域適應電商機器翻譯的主體框架以及短語后驗證方法,再次介紹實驗設置和實驗結果,并對相關實驗進行詳細的分析,最后給出結論與未來工作計劃。
短語后驗證的無監(jiān)督領域適應電商機器翻譯是在混合策略基礎上實現(xiàn)的,它是訓練雙向翻譯過程,整個框架見圖1。從源端到目標端系統(tǒng),目標端到源端系統(tǒng),記做src→tgt和tgt→src。
圖1 基于混合策略的無監(jiān)督領域適應框架結構
首先由外領域翻譯模型獲得內領域的初始偽平行數(shù)據(jù),如圖1中的{src',tgt}和{tgt',src}。該過程是神經機器翻譯模型,它是一種非線性結構,其經典的架構是編碼器—解碼器(encoder—decoder)。編碼器首先將源端語句X={x1,x2,…,xn}輸入轉換成Eencoder={e1,e2,…,en}編碼,然后將其編碼成隱藏狀態(tài)h,并發(fā)送到解碼器decoder。解碼器類似,將目標端語言輸入Y={y1,y2,…,ym}轉換成Edecoder={e1,e2,…,em},然后給定輸入歷史和隱藏狀態(tài)h,生成Z,具體公式如下:
(1)
其中,θ是神經模型參數(shù),z≤i是歷史輸入。訓練過程的損失如公式(2):
(2)
混合策略的無監(jiān)督領域適應在訓練過程中通過數(shù)據(jù)混合充分利用了內領域單語數(shù)據(jù)以及外領域的平行語料,大大地提升了翻譯效果。但反向翻譯產生的偽平行語料質量難以保證,所以在混合策略訓練的前期始終保持目標語言的數(shù)據(jù)是真實的,避免因使用低質量的偽數(shù)據(jù)作為目標端,導致在神經網絡訓練過程中翻譯模型的偏離。但由外領域訓練產生的詞對存在匹配不佳的問題,通過引入短語后驗證方法解決該問題。
圖2 前向翻譯驗證示意圖
在混合訓練策略的無監(jiān)督領域適應框架結構基礎上加入前向翻譯驗證的方法,由于訓練開始產生的前向翻譯數(shù)據(jù)質量較低,為了保證訓練的新驗證短語質量, 每次迭代訓練后,增加c*i數(shù)量前向翻譯與反向翻譯學習校驗原句中源端數(shù)據(jù)的詞進行替換,從而產生新的偽語料繼續(xù)訓練,重復迭代訓練與前向翻譯驗證過程直至收斂。
該文所有實驗采用開源代碼Fairseq[15],將模型設置為Transformer[16],dropout設置為0.3,編碼器和解碼器層數(shù)均為6層,其他基本的超參數(shù)設置為Fairseq中的默認參數(shù)選項。解碼時,采用集束搜索(beam search),其中beam_size設置為5,其余參數(shù)采用默認設置。訓練和測試均基于GTX1080Ti。采用雙語互譯評估(bilingual evaluation understudy,BLEU)[17],它已經被廣泛應用于自然語言處理和機器翻譯任務。該文采用BLEU自動化腳本multi-bleu.perl。
在新聞領域,平行數(shù)據(jù)非常豐富,因此通常被用作域外領域數(shù)據(jù)。選擇linguistic data consortium (LDC)作為領域外的數(shù)據(jù)集,這是一個中英新聞語料,大約有125萬個平行句。領域內的數(shù)據(jù)是本節(jié)中獲取的電子商務領域數(shù)據(jù)。
目前,電子商務領域不存在公開的語料,為了構建電子商務翻譯系統(tǒng),在此之前首先構建一份電子商務語料。這是一份包含英文和中文的單語電商語料庫,分別通過中英電商平臺獲取產品文本信息。數(shù)據(jù)包含四類:男士服裝、女士服裝、食物和玩具。筆者構建了訓練集為單語數(shù)據(jù),平行數(shù)據(jù)分別為測試集和驗證集,數(shù)據(jù)的詳細數(shù)量見表1。表中數(shù)字為數(shù)據(jù)集的句子數(shù)量,其中訓練集是以百萬(M)為單位。
表1 電商領域數(shù)據(jù)統(tǒng)計
對訓練數(shù)據(jù)進行了預處理,去掉網絡中特殊字符,并且針對中文,由于字符之間沒有明顯的分割符號,一般采用中文分詞工具進行分詞,這里使用jieba分詞工具;針對英文,可以依據(jù)單詞之間的空格進行切分,同時進行詞串識別(tokenization)處理。為了去除分詞工具在模型評估中的影響,在測試過程中,在英文到中文方向上,以字級別文本文件作為參考譯文。
2.2.1 數(shù)據(jù)bpe設置
在神經機器翻譯的訓練中,使用了(byte pair encoder,BPE)[18]技術處理所有的數(shù)據(jù),進行了詞表的壓縮。使用所有的數(shù)據(jù)訓練得到bpe編碼,并且分別對不同大小的bpe進行了實驗,對源端與目標端分別做bpe和聯(lián)合源端與目標端做bpe進行了實驗。在外領域數(shù)據(jù)上訓練得到的內領域四類測試數(shù)據(jù)結果如表2所示,英—中和中—英方向均是64K bpe效果最佳,最終決定中英分別使用64K bpe編碼。
表2 不同bpe設置實驗對比
2.2.2 數(shù)據(jù)比例設置
為了探尋基于混合策略的無監(jiān)督訓練過程中,內領域和外領域數(shù)據(jù)在不同混合比例下的效果,在整個訓練前進行了不同比例的多組實驗。通過外領域平行句與內領域偽平行句不同比例組合,該偽語料是獲取的反向翻譯。實驗結果如表3所示。表中的混合比率表示域內數(shù)據(jù)和域外數(shù)據(jù)的比率。根據(jù)結果,當外部數(shù)據(jù)和內部數(shù)據(jù)以1∶1混合時,與Sennrich等人[19]得到的結論一致。
表3 不同的數(shù)據(jù)比例實驗結果
基于上述的實驗設置,采用中英分別64K bpe,內領域與外領域數(shù)據(jù)1∶1的設置,并且數(shù)據(jù)總量保持不變。分別訓練了混合策略的無監(jiān)督領域適應電商機器翻譯以及短語后驗證方法,此外在電子商務領域數(shù)據(jù)上分別采用了下面基準實驗進行性能的對比,實驗具體結果見表4。
表4 電子商務產品翻譯測試BLEU值
2.3.1 基準系統(tǒng)
為了更好地探索短語后驗證的無監(jiān)督在電商上的效果,利用以下多個無監(jiān)督基準系統(tǒng):
外領域nmt:在外領域平行語料上使用fairseq訓練神經網絡機器翻譯系統(tǒng)。
nmt反向翻譯:由外領域nmt系統(tǒng)進行反向翻譯,聯(lián)合外領域數(shù)據(jù)構成偽平行語料,訓練神經翻譯模型。
nmt反向翻譯+前向翻譯:在nmt反向翻譯的基礎上,前期融合前向翻譯數(shù)據(jù),聯(lián)合外領域數(shù)據(jù)構成偽平行語料,訓練神經翻譯模型。
目標端復制:在內領域,目標語言句子被直接復制到源語言,以構建偽平行語料。聯(lián)合外領域平行數(shù)據(jù),訓練新的神經翻譯模型。
DAFE反向翻譯:在內領域偽平行語料庫和外領域平行數(shù)據(jù)的組合上訓練神經翻譯系統(tǒng),在編碼器的每一層添加領域感知函數(shù)嵌入和任務特定函數(shù)嵌入。
無監(jiān)督詞歸納領域適應:通過所有領域單語數(shù)據(jù)訓練一個詞嵌入,使用最近鄰搜索獲得歸納詞,根據(jù)該詞表構建內領域偽平行數(shù)據(jù)。然后,將內領域偽數(shù)據(jù)和真實外領域數(shù)據(jù)結合起來訓練新模型。
監(jiān)督詞歸納領域適應:在無監(jiān)督詞歸納的基礎上用外領域詞典作為種子詞典來進行有監(jiān)督的詞匯歸納。
2.3.2 短語后驗證的無監(jiān)督領域適應
混合訓練:根據(jù)混合策略,先由外領域nmt模型獲得初始數(shù)據(jù),在迭代中逐步混合內領域和外領域數(shù)據(jù),其中常數(shù)c為50k,迭代訓練i經過6輪,最后混合前向翻譯訓練更新得到最佳模型,m∶n∶k=1∶1∶1,整個訓練過程數(shù)據(jù)總量保持不變。
混合訓練+短語后驗證:在混合訓練的每輪更新模型后,加上短語后驗證從而產生新的偽平行句對,代入繼續(xù)訓練。重復這個過程直至收斂。
通過基準實驗系統(tǒng)結果表明,nmt反向翻譯以及DAFE反向翻譯高于外領域nmt系統(tǒng),這表明內領域數(shù)據(jù)構建偽平行數(shù)據(jù)能夠提升翻譯性能。此外nmt反向翻譯+前向翻譯較外領域nmt系統(tǒng)有提升,但由于前向翻譯質量影響,在效果上低于反向翻譯方法。
詞歸納通過歸納詞構建初始數(shù)據(jù)進行訓練和通過目標端復制構建偽平行語料進行訓練,結果表現(xiàn)出較強的基準,這是因為電商數(shù)據(jù)包含大量的低頻詞,并且在相關產品的描述時,會存在短語的堆疊現(xiàn)象。例如:“尺碼:m x xl xxl”,“品牌:adidas”, 這體現(xiàn)了詞匹配優(yōu)化在電子商務中是具有一定效果。
混合訓練充分利用內領域與外領域數(shù)據(jù),采用漸進增加方法,避開了前期的前向翻譯質量較低問題,從而使得訓練能夠達到基準系統(tǒng)。通過加入短語的后驗證,在此基礎上,不僅最大化利用了內領域數(shù)據(jù),同時解決了無監(jiān)督領域適應的詞匹配問題,在中—英和英—中方向超過最強基線分別為1.54 Bleu點和1.78 Bleu點。
此外為了更好地驗證混合訓練與短語后驗證方法對數(shù)據(jù)質量的提升,在測試集進行單詞匹配驗證。通過fasttext[14]對測試集及參考譯文構建出內領域詞對,在構建內領域詞對過程中,若抽取的該領域內的詞對在外領域中存在則去除該詞對,剩余的對齊詞集合構成新詞對的參考集合。
根據(jù)該參考集合,在驗證集上分別測出其精確率、召回率和F值。其過程與構建內領域過程相同,分別對最強的基線系統(tǒng)、混合訓練+短語后驗證方法進行新詞對集合提取。
表5中顯示各方法驗證集的單詞配對三個值。其中混合訓練、混合訓練+短語后驗證方法在中—英和英—中兩個方向的召回率遠超于基準系統(tǒng)的召回率。而在精確率上英—中的基準系統(tǒng)偏高,中—英幾種模型之間差距較小。根據(jù)精確率以及召回率,綜合指標F值三者參考各方法產生的詞對質量,表明文中方法能夠改善詞對質量,提升翻譯性能。
表5 驗證集的單詞配對評分 %
在電子商務機器翻譯中,資源十分稀缺。獲取大量電子商務數(shù)據(jù),通過一系列預處理構建了電子商務中英單語語料庫。在此語料庫上構建短語后驗證的無監(jiān)督領域適應電商機器翻譯,通過無監(jiān)督領域適應避開了對電商平行資源的需求。并且該方法在混合策略的無監(jiān)督領域基礎上,充分利用內領域與外領域數(shù)據(jù),將短語后驗證方法融入該訓練,解決無監(jiān)督領域適應的詞對匹配不佳問題,使得電商產品信息翻譯模型性能夠得到進一步的提升。在未來將拓展更多的語言的電商產品數(shù)據(jù)信息,進行進一步的研究與創(chuàng)新。