孫李麗,郭 琳,文 旭,張文諾
(1.商洛學院人文學院,陜西 商洛 726000; 2.商洛學院電子信息與電氣工程學院,陜西 商洛 726000;3.西南大學外國語學院,重慶 400715)
機器翻譯隨著人工智能和深度學習技術應運而生,當前主要分為統(tǒng)計機器翻譯SMT和神經(jīng)機器翻譯NMT這2種,前者利用語料庫抽取跨語言詞匯片段單元,依賴于平行語料庫及大小,發(fā)展了基于詞、短語和句法3種類型[1-2];后者利用神經(jīng)網(wǎng)絡建立端到端翻譯模型,建立源語言和目標語言的直接映射,緩解了語料庫數(shù)據(jù)缺乏問題[3-4]。特別是近幾年融入注意力機制、門邏輯單元和長短時記憶單元之后[5],使得翻譯質(zhì)量顯著提升,成為翻譯研究與應用的主流。機器翻譯軟件陸續(xù)問世,例如百度2015年率先發(fā)布基于SMT的NMT神經(jīng)網(wǎng)絡機器翻譯系統(tǒng);谷歌作為翻譯領域龍頭,2016年發(fā)布系統(tǒng)之后開始致力于單模型多語言翻譯系統(tǒng)開發(fā)。有道擁有詞典搜索引擎和巨大用戶數(shù)據(jù),在新聞、英語學習和人機結(jié)合領域,具備強大競爭力;搜狗與清華大學建立天工智能計算研究院,依托搜索和輸入法語料庫,專注于中英翻譯領域[6-8]。關于文學作品的機器翻譯也開始出現(xiàn),但是由于文化、政治、創(chuàng)造性等語言特色[9]和語言高維度訴求,很難同時達到“信、達、雅”的目標要求,所以需要結(jié)合作品語言特點改進機器模型,幫助人們進行自動化翻譯工作。本文提出一種融合語義概念增強源端語言信息的方法,利用門控邏輯單元融合注意力機制,提高文學作品翻譯質(zhì)量。
本文以賈平凹的鄉(xiāng)土小說《高興》[10]為源語文本,以2017年英國翻譯家Nicky Harman的譯本HappyDreams為目標語文本[11]。賈平凹被我國讀者和媒體稱為頂級流量明星,作品翻譯的外文已有30多語種,已經(jīng)成為世界文學一部分。描寫農(nóng)村人進城的作品《高興》,有著復雜交織的人物感情和差異性地域特色。Nicky Harman認為,不僅要流暢地閱讀理解,還要吃透作品方言和充滿影射、隱晦的口語,最難的是賈平凹先生創(chuàng)造性的地方特色語言,包括人物對話、俚語、可信度和言外之意,需要協(xié)商折中找到精妙的翻譯方案。機器翻譯和人工翻譯類似,是對小說解碼和重新編碼的過程,并非機械化般無情,而是中西方語言文化的一次融合和訓練,真正找到小說的詞義、語義和語境。針對小說作品漢譯英任務,在有限語料或者零語料的情況下,如何提高機器翻譯性能質(zhì)量問題,現(xiàn)階段研究基于端到端的神經(jīng)機器翻譯方法,已有幾種可供參考的典型神經(jīng)網(wǎng)絡模型。
基本語言模型主要分為基于離散空間的統(tǒng)計學模型和連續(xù)空間的神經(jīng)網(wǎng)絡模型2大類[12],前者使用估計概率得分和數(shù)據(jù)平滑技術;后者使用文本向量輸入獲取詞特性和語義特征,捕捉字詞級、句子級和語料庫級的上下文信息。循環(huán)神經(jīng)網(wǎng)絡機器翻譯模型RNN-NMT,利用編碼器和解碼器網(wǎng)絡架構(gòu)以及分布式詞向量方法,組建目標語言向量集和源語言向量集,通過循環(huán)神經(jīng)元連接上下文信息、輸入層語句W={D1,D2,…,Dn}、輸出層語句Y={y1,y2,…,yn}和翻譯詞匯表中具有相同維度的隱含層與輸出層的權重矩陣V,組成相互疊加的RNN網(wǎng)絡結(jié)構(gòu)。
(1)
其中,P為概率分布。用公式(2)定義詞對(y′i,yi)的相似程度得分為:
(2)
用公式(3)求詞對(y′i,yi)在待選詞集S中與同義詞語義相似度最高的待選替換詞:
(3)
GRU門控循環(huán)單元作為LSTM長短期記憶網(wǎng)絡的簡明結(jié)構(gòu),包含重置門和更新門2個控制門限[15],可以自主選擇有用數(shù)據(jù)向下一時刻傳遞,用以控制歷史隱含層數(shù)據(jù)對下一時刻的影響。如圖1所示,如果在t時刻有一個樣本數(shù)為n、維度為x的文本特征向量x通過GRU時,隱含層長度為h,類似于長短期記憶,重置門和更新門可以用rt和zt表示,隱含層輸出用ht表示:
rt=σ(Wx,rxt+Wh,rht-1+br)
(4)
zt=σ(Wx,zxt+Wh,zht-1+bz)
(5)
ht=(1-zt)⊙ht-1+zt⊙tanh(Wx,hxt+rt⊙Wh,hht-1+bh)
(6)
式中,Wx,r和Wx,z分別為重置門和更新門的隱含層權重系數(shù);br和bz分別為重置門和更新門的隱含層偏置向量;Wh,r和Wh,z分別為重置門和更新門新引入的學習權重系數(shù);σ為隱含層的Sigmoid激活函數(shù);Wx,h和Wh,h為可學習權重系數(shù);bh為可學習偏置向量。
圖1 GRU-LM門控結(jié)構(gòu)圖
上述GRU-LM模型對輸入序列掃描并存儲,得到的文本向量僅包含單方向的前后文信息,所以有必要引入雙向BiGRU-LM模型,利用雙向循環(huán)神經(jīng)網(wǎng)絡[16],向左右方向掃描輸入的文本序列向量,同時得到2組隱含層向量序列,然后通過拼接得到一個文本向量序列。通過雙向網(wǎng)絡結(jié)構(gòu)組成一種新型交互結(jié)構(gòu)系統(tǒng),如圖2所示,包括1個向左解碼器、1個向右解碼器和1個共享編碼器,類似于多任務學習,模型需要建立目標函數(shù)進行訓練,其中{x,y}為交互前的向量序列,{x,y′}為交互后的翻譯序列,模型經(jīng)翻譯序列訓練學習重新生成語句{…,y′j-2,y′j-1,y′j,y′j+1,y′j+2,…},其中訓練目標函數(shù)L為:
L=LL+LR
(7)
式中,LL和LR為左右過程函數(shù),y′
圖2 雙向循環(huán)神經(jīng)網(wǎng)絡交互式系統(tǒng)示意圖
文學作品中語句長度是不固定的,很復雜的語句需拆分成若干短句,拆分后的短句采用相同維度向量進行編碼,關注程度無差別,所以拆分時的語義識別非常重要,前面所列模型無法完全識別源語言序列。另外,在特定文學作品語料極少的情況下,翻譯的替換詞很難同時保證源語言文本的詞義和句義質(zhì)量[17-18]。為了更好模仿人工翻譯小說,提高機器翻譯性能,本文在介紹的幾種模型的基礎上創(chuàng)建BiGRU-LM-Attention新模型,融合WordNet語義概念集外詞處理方法和注意力機制模型,利用雙向循環(huán)神經(jīng)網(wǎng)絡捕捉源語句語義信息,建立翻譯作品與已有翻譯作品集在語言文化、人物對話和專用俚語等方面的相似性聯(lián)系(語義相似度和匹配程度),計算語句級別獎勵值更新預訓練NMT模型參數(shù),提高此類鄉(xiāng)土小說的翻譯質(zhì)量。
模型結(jié)構(gòu)如圖3所示,主要由編碼器、解碼器和融合注意力機制組成。模型編碼時由多向量替代源語言的固定向量,生成目標序列時可以隨機選擇更加關注的背景向量,解碼時關注目標序列相關性最大的源語言向量,更好地解決復雜長句的語義翻譯問題。目標語序列的詞文本能找到一個模型背景向量Cj:
(8)
式中,hi為時刻i的隱含層狀態(tài),αij表示目標序列中第j個詞對源序列中第i個詞的注意力大小。αij值大小反映了源語言序列與目標序列的隱含層狀態(tài)之間的相關或者匹配程度,需要相關模型訓練學習。
圖3 BiGRU-LM-Attention模型結(jié)構(gòu)
本文選取LDA主題模型[19]生成小說段落、主題和詞的3層貝葉斯網(wǎng)絡結(jié)構(gòu),獲取代表作品文本主題注意力最高的概率信息,構(gòu)成注意力機制特征向量。假設一組n個特征詞組成的文本集W={d1,d2,…,dn},統(tǒng)計有K個注意力主題,記作zi(i=1,2,…,K),由LDA主題模型生成注意力主題概率分布:
(9)
式中,P(di|z=k)為詞di屬于第k個主題的概率,P(z=k|W)為第k個主題在文本W(wǎng)中的概率,由主題概率值構(gòu)成的向量序列就可以作為文學作品注意力機制特征向量,代入BiGRU-LM-Attention模型使用。選取鄉(xiāng)土小說《高興》中的n段原文輸入到模型中,初始時設定注意力主題個數(shù)K的范圍為0~50,輸出作品文檔主題概率分布向量矩陣如表1所示,行為文本W(wǎng)i,列為文本W(wǎng)j對應主題下的概率值。使用LSTM模型作為分類器開始訓練,當翻譯評價指標最高時對應的主題數(shù)作為最優(yōu)分類結(jié)果。
表1 注意力機制模型的主題矩陣
針對已有的4類機器翻譯模型和本文新建模型,進行機器翻譯BLEU值評價。神經(jīng)機器翻譯系統(tǒng)的基線系統(tǒng)選擇RNN-NMT,解碼采用柱搜索算法,工作參數(shù)設置如下:編碼器和解碼器隱藏神經(jīng)元為512個,詞向量維度為512,最大句長為80個詞,每批次訓練語句為128條,過擬合Dropout率設置為0.5,詞頻率閾值為400,解碼器Beam size設置為10。選擇鄉(xiāng)土小說《高興》漢語本作為測試集語料(1~60章),選擇Nicky Harman人工英譯本(1~60章)作為訓練集語料,選擇BLEU-4作為譯文自動評價方法[20],進行N-gram片段統(tǒng)計,然后量化為BLEU值得分。如表2所示,把小說文本分為4部分進行測試,本文建立的BiGRU-LM-Attention比基線系統(tǒng)高10.87個BLEU值,比其他模型分別高出8.71個、7.59個和5.41個BLEU值。
表2 機器翻譯模型的BLEU值評價
表3 機器翻譯結(jié)果示例
為了測試新建機器模型的翻譯性能,使用我國常用的4種在線翻譯工具(百度、谷歌、有道和搜狗)[21],與之做翻譯性能比較和質(zhì)量評估分析。摘選《高興》5段原文進行測試,機器翻譯結(jié)果的示例如表3所示,如專用名詞“漿水菜甕”,唯有新模型正確譯為“crock of vegetable pickles”;如“豆腐干”的翻譯,新模型和搜狗用“dried bean curd”,百度和谷歌用“dried tofu”,都是正確譯法,而有道錯譯為“dried milk”;如“熏肉”皆正確譯為“bacon”;如方言“嘴吊起來”,4種在線工具用“the mouth hang up”,而新模型翻譯為“mouth might be tied up”,形象表達了人物五富的語義“第二天即便沒錢吃飯了,寧愿把嘴綁起來”。
根據(jù)機器模型常見錯誤類型[22-23],建立翻譯質(zhì)量評估指標體系,包括3個類別和10個評估指標,每個指標最高賦值為10分,總計100分。將機器譯文與Nicky Harman的人工譯文一起做質(zhì)量評估,結(jié)果如表4所示,人工譯文的翻譯質(zhì)量評估得分為90,百度、谷歌、有道、搜狗和新建模型的評估得分為43、47、34、48和57,新模型翻譯質(zhì)量相對較好,模型在專用名詞識別、被動語態(tài)靈活識別和俚語識別等方面性能突出。如果把人工譯文作為翻譯質(zhì)量基準,4種在線翻譯工具和新建的模型正確率分別占47.8%、52.2%、37.8%、53.3%和63.3%。
表4 機器翻譯質(zhì)量結(jié)果比較
通過對神經(jīng)機器翻譯模型的研究,找出了不同翻譯模型的優(yōu)缺點,基于端到端的RNN神經(jīng)網(wǎng)絡框架,創(chuàng)建了新模型BiGRU-LM-Attention,以鄉(xiāng)土小說《高興》為訓練語料,進行了翻譯和質(zhì)量評估分析。提出的雙向門控循環(huán)加注意力機制模型,具有雙向掃描前后文本向量能力,編碼時可隨機選擇關注主題的背景向量,解碼時能關注相關性最大的源語言向量,更好地解決小說復雜長句的語義翻譯問題;通過BLEU值的評價結(jié)果,發(fā)現(xiàn)新建模型翻譯性能明顯高于其他4類模型;通過機器翻譯質(zhì)量評估對比,新模型優(yōu)于4種常用在線翻譯工具,在語義識別、方言、專用名詞、俚語和被動語態(tài)靈活識別方面性能突出。后續(xù)將繼續(xù)研究注意力機制中主題的優(yōu)化篩選方法,更好地獲取源語言的背景向量,同時還要建立小說作品的集外詞、歧義詞和專用名詞語料庫,提高鄉(xiāng)土小說的機器翻譯性能。