楊飛揚,趙亞慧,崔榮一,易志偉
(延邊大學 計算機科學與技術學院 智能信息處理研究室,吉林 延吉 133002)
統(tǒng)計機器翻譯的思想是從一個包含大量句子對齊的雙語平行語料中學習翻譯規(guī)則,實現(xiàn)從一種自然語言翻譯為另一種自然語言[1-2],詞對齊方法主要有: 基于統(tǒng)計方法、詞典的方法、語言特征的詞對齊方法等。找到單詞的翻譯是建立對齊關系的前提,而建立詞對齊關系是任何統(tǒng)計機器翻譯模型的基本步驟之一[3]。目前機器翻譯的性能很大程度上依賴于訓練語料的規(guī)模和質(zhì)量,訓練語料規(guī)模越大、質(zhì)量越好,則有效的翻譯知識越多,涵蓋的語言現(xiàn)象也越充分。然而在完成特定領域翻譯任務時,機器翻譯的性能往往偏低[4],原因在于通用領域翻譯系統(tǒng)無法針對特定領域的翻譯知識、句子表達方式以及語言風格等做出調(diào)整。因此針對特定領域以及低資源語言的翻譯,需要一種在沒有完整數(shù)據(jù)庫的情況下,能夠高效地做到詞的形式對應,做到有針對性的翻譯。IBM條件概率模型[5]采用句子級的劃分,用分數(shù)計數(shù)克服長短句帶來的誤差;用枚舉的方法降低對應停用詞的數(shù)學期望,克服語料預處理的誤差,但在實驗中發(fā)現(xiàn),預處理的權重是影響實驗結果的主要原因。在IBM的對齊模型中,彌補一對多情況的方法是對實驗結果進行對稱化,從兩個方向進行EM算法[6](expectation maximization)的訓練,但進行EM算法的訓練需要大規(guī)模的語料才能使結果準確。過去的幾年里,人們嘗試使用跨語言主題模型來獲得翻譯語料[7-8],構建主題作為雙語匹配的分布,其中匹配先驗可能來自不同的初始證據(jù),如機器可讀字典。
上述方法的主要缺點是需要引入了外部知識[9],本文在以往的研究基礎上,針對特定語料進行改進,不依賴字典及外部知識,不依賴大規(guī)模語料進行訓練,假設存在翻譯關系的詞之間具有明顯的共現(xiàn)關系,且在服從Zipf定律的低頻詞區(qū)域點互信息可以有效地被翻譯概率取代,通過對候選翻譯結果進行優(yōu)化,以更高的效率確定特定的雙語對齊單詞,并通過實驗驗證了本方法的有效性。
點互信息(pointwise mutual information,PMI)度量兩個隨機變量取特定值時的相互關聯(lián)程度[10-11]。在本文討論的單詞翻譯問題中,漢語單詞tS和對應的英文單詞tT之間的關聯(lián)強度可以用點互信息公式計算,如式(1)所示。
(1)
其中,P(tS,tT)是語料庫中源語言單詞tS及目標語言單詞tT共現(xiàn)的概率(漢譯英情況下,tS是漢語單詞,tT是英語單詞);P(tS)和P(tT)分別是語料庫中源語言單詞tS及目標語言單詞tT各自出現(xiàn)的概率。利用聯(lián)合概率的性質(zhì),式(1)可以寫成:
(2)
由此可見,PMI度量了當確定源語言單詞tS時,目標語言單詞tT出現(xiàn)的概率相比該目標語言單詞先驗概率的變化情況。這里存在3種可能的情況:
(1) 如果源語言單詞tS與目標語言單詞tT統(tǒng)計獨立,則tS的出現(xiàn)不會改變tT出現(xiàn)的概率,即:P(tT|tS)=P(tT),導致PMI(tS,tT)=0,從共現(xiàn)意義上這兩個詞之間沒有關聯(lián)性,不可能存在詞對齊關系。
(2) 當源語言單詞tS出現(xiàn)時目標語言單詞tT出現(xiàn)的概率減小,小于其先驗概率,則PMI(tS,tT)<0,二者之間存在相互抑制關系,但不存在對齊關系[12]。
(3) 只有當源語言單詞tS出現(xiàn)時目標語言單詞tT出現(xiàn)的概率增加,大于其先驗概率,則PMI(tS,tT)>0,二者之間才可能存在對齊關系。因此當給定源語言單詞tS時可通過考察與其點互信息大于零且超過一定閾值的若干目標語言單詞作為候選翻譯詞。
Zipf定律表明在英語單詞中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用。實際上,包括漢語、朝鮮語在內(nèi)的許多國家的語言都有這種特點[13]。在一個語料庫中,若將詞語出現(xiàn)的頻率(即詞頻)記作Pr,將該詞的詞頻排位記為r,則Zipf定律可表示為式(3):
C=Pr·r
(3)
其中,C為一個大于零的常數(shù)。式(3)表明某個詞匯出現(xiàn)的頻率和頻級的乘積是常數(shù)。這條定律說明,人們一般偏好比較常用的詞匯,而不是生僻的詞匯。若將Pr和r的關系表示在雙對數(shù)坐標系中,所繪制出的曲線幾乎為一條直線,并且斜率近似為-1。為了準確求解這一斜率,Zipf定律還可以推廣為:
C=Pr·ra
(4)
其中,a為待定常數(shù),r為頻級:r=1,2,…,n。對式(4)兩邊取對數(shù)后整理得式(5):
logPr=logC-alogr
(5)
這條定律說明,人們一般偏好比較常用的詞匯而不是生僻的詞匯。以英文為例,詞頻分布具有“長尾”特征,如圖1所示。本文將利用這一特性提出合理假設,簡化式(2)定義的單詞間關聯(lián)強度的計算方法。
圖1 文本詞匯頻次分布圖
Zipf定律表示在文檔語料中極少數(shù)詞匯高頻出現(xiàn),大多數(shù)詞匯出現(xiàn)的頻率很低。如果我們考慮普通頻級區(qū)域單詞對齊問題,源語言與目標語言單詞之間相關程度的度量可由式(3)改進為更高效的形式。從單詞對齊的目的和Zipf定律刻畫的普通頻級區(qū)域詞頻特性來看本文做如下假設是合理的。
假設1平行語料中不存在高頻詞;
假設2所考慮的目標語言單詞近似服從均勻分布。
(6)
(7)
(8)
翻譯概率的算法如下:
算法1 翻譯概率
利用算法1,通過設定概率閾值可對給定源語言單詞獲得若干候選目標單詞,這些單詞具有與源語言單詞對齊的可能性。對特定源語言單詞tS可按條件概率P(tT|tS)遞減方式給出候選目標語言單詞tT1,tT2,…,tTm。為保證翻譯關系的可信性,翻譯概率須超過一定的閾值,即滿足:
P(tT1|tS)≥P(tT2|tS)≥…≥P(tTm|tS)≥PTS
(9)
其中,PTS稱為翻譯概率閾值,是為保證詞對齊可信度的翻譯概率的下限值,低于PTS的翻譯詞可視作當前語料無法匹配到真正翻譯詞的情況,不納入計算。在滿足式(9)的m個目標詞中選取前k個作為單詞tS的翻譯候選單詞,其中PTS的取值根據(jù)源語言語料質(zhì)量與規(guī)模實驗確定。
源語言語料中出現(xiàn)次數(shù)過低的單詞,因為概率估計缺乏數(shù)據(jù),不能通過式(7)和算法1有效地計算其翻譯概率。但可以通過算法1計算其翻譯概率的源語言單詞tS的概率P(tS),判斷其是否也超過一定的閾值,如式(10)所示。
P(tS)≥PS
(10)
其中,PS稱為有效概率閾值,是可以通過平行語料技術進行詞對齊處理的源語言單詞在語料中應出現(xiàn)的最低概率。在進行單詞頻級計數(shù)時由高到低排序,根據(jù)語料規(guī)模視為低頻詞的單詞,不納入計算,滿足式(10)的源語言單詞tS稱為詞對齊有效源語言單詞。
通過研究擴大高頻詞的范圍發(fā)現(xiàn),在利用上述條件概率方法進行跨語言詞對齊處理時,通過以下措施可進一步提高對齊效果。
(1) 去除預處理過程中出現(xiàn)的病態(tài)分詞結果;
(2) 去除當前停用詞表中未登錄的停用詞;
(3) 對一詞多義(一個源語言單詞對應于相同語義的多個目標語言單詞)和組合詞(一個源語言單詞對應于多個目標語言單詞的組合)情況,進行如下處理: 利用式(9)、式(10)調(diào)整閾值,對組合詞的情況進行對稱化處理,使其重組成源語言對應翻譯詞組。
該方法彌補了語料針對性、分詞細粒度和語料規(guī)模不足帶來的誤差,從而提升了詞對齊的準確性。在分類一詞多義與組合詞時能夠完善特定語料的單詞義項。具體算法如下:
算法2 翻譯概率優(yōu)化算法
本文實驗語料為延邊州科技信息服務中心數(shù)據(jù)庫中的30 827條中、英、朝語科技類平行語料,滿足形式對應。語料預處理步驟如下:
(1) 使用jieba分詞工具對句子進行分詞;
(2) 對多語種互譯句子進行按行對齊,用|||符號隔開;
(3) 去除中、英、朝文本中的標點符號、數(shù)字、特殊符號、多余的空格,統(tǒng)一英文大小寫等;
(4) 對英語部分進行詞干還原,還原動詞原型,保留形容詞和副詞的詞根;
(5) 去除中、英、朝文本中的高頻停用詞。
因為語料樣本有限,所以在平行語料中選擇出現(xiàn)概率最高的100個詞對齊有效源語言單詞,通過算法1計算,列出與源語言單詞相關度最大的5個目標語言候選詞,并按翻譯概率從高到低排列[滿足式(9)];在此基礎上用優(yōu)化算法進行優(yōu)化處理。翻譯的準確率均達到94%以上,其中造成誤差的原因有預處理分詞的病態(tài)分詞、特定文本的停用詞無法去除、語料規(guī)模造成翻譯的局限性等。表1~表4是部分實驗結果展示。
表1 漢譯英翻譯概率(部分結果)
表2 英譯漢翻譯概率(部分結果)
表3 漢譯朝翻譯概率(部分結果)
續(xù)表
表4 雙向翻譯時前100高頻詞準確率對比
(1) 保持語料規(guī)模不變,將待處理源語言單詞范圍擴展,觀察算法的有效性。
(2) 保持待處理源語言單詞范圍不變,改變語料規(guī)模,觀察準確率的變化程度。
實驗分別控制語料不變高頻詞范圍擴展,觀察算法的有效性及可行域局限性;控制高頻詞范圍不變,改變語料規(guī)模,觀察準確率的變化程度。通過以上實驗過程,分析影響準確率的權重高低、預測算法可行范圍,配合翻譯概率優(yōu)化算法并統(tǒng)計,得出以下結論。
圖2 漢譯英、漢譯朝控制語料不變的翻譯準確率
圖3 英譯漢、英譯朝控制語料不變的翻譯準確率
圖4 朝譯漢、朝譯英控制語料規(guī)模不變的翻譯準確率
由圖2~圖4可知,保持語料不變,通過改變源語言普通高頻單詞取值范圍,在有效范圍內(nèi),對漢、英、朝進行翻譯時準確率在94%以上,使用翻譯概率優(yōu)化算法對朝鮮語進行翻譯,準確率與未優(yōu)化前對比提升了15%。因為朝鮮語的分詞效果不如英語和漢語好,停用詞表的構造不如英語和漢語成熟,所以優(yōu)化后提升效果最為明顯。
圖5 英譯漢、英譯朝控制高頻詞量不變的翻譯準確率
圖6 漢譯英、漢譯朝控制高頻詞量不變的翻譯準確率
圖7 朝譯英、朝譯漢控制高頻詞量不變的翻譯準確率
由圖5~圖7可知,保持源語言普通高頻單詞取值范圍不變,改變源語言語料規(guī)模范圍,在有效范圍內(nèi)雙語互譯的準確率均處于折線形上升的趨勢。實驗結果也印證了語料規(guī)模越大,翻譯的準確率越高這一特點,漢譯英優(yōu)化效果前后對比提升了3%左右。英譯漢優(yōu)化效果前后對比提升了2%左右。整體上漢譯英、朝的準確率高于其他情況,造成此情況的原因可能是因為漢字的信息熵本身較其他語言高,也可能是原文作者是漢語的母語者,漢語翻譯成其他語言的準確率最高,并且其他語言未優(yōu)化時,很多正確翻譯詞對應在翻譯概率第三列、第四列,而漢譯英、朝對應在非最高翻譯概率的詞卻很少,翻譯會產(chǎn)生噪聲,在雙向翻譯信源經(jīng)過有損信道時,降低了準確率。
在使用翻譯概率優(yōu)化算法時針對一對多的情況,分為源語言對應多個目標語言正確詞、源語言單詞由多個目標語言詞組成兩種情況,示例如表5、表6所示。
表5 源語言對應多個正確詞
表6 一個詞由多個詞組成
本文研究了一種基于共現(xiàn)關聯(lián)強度的單詞跨語言映射方法,以漢、英、朝語平行語料為素材,以簡化的點互信息準則即翻譯概率為核心算法,以實踐中總結歸納的翻譯概率優(yōu)化算法為后處理方法,可以在一個小規(guī)模語料中做到詞對齊。從實驗結果可看出,三種語言互譯優(yōu)化后都有較高的準確率,在實驗中發(fā)現(xiàn)了影響準確率的3個因素,按重要程度由高到低依次是:
(1) 分詞預處理的細粒度劃分(造成病態(tài)分詞是導致誤差的一個主要原因);
(2) 語料規(guī)模的大小;
(3) 選用的高頻詞數(shù)量。
語料規(guī)模越大,翻譯的準確率會越高,對應的準確翻譯詞也會越多,由于語料種類的不同,語料規(guī)模的不同會導致該閾值不具有普遍性,如需計算,應對語料進行分類,不同類別的語料有不同的高頻詞翻譯可行域,即不同的有效性閾值。
該方法對語料中部分法語、西班牙語詞也能夠做到詞對應,下一步工作將對其他語種進行實驗,以驗證準確性并加以推廣。