付曉寅,魏 瑋,盧世祥,徐 波
(中國科學(xué)院 自動化研究所 數(shù)字內(nèi)容技術(shù)與服務(wù)中心,北京 100190)
層次短語模型[1-2]是目前最為實(shí)用的統(tǒng)計(jì)機(jī)器翻譯模型之一。該模型采用單一的非終結(jié)符替換短語模型中的短語規(guī)則,不需要語言學(xué)上的標(biāo)注和假設(shè),具有良好的擴(kuò)展能力。和短語模型[3]相比,層次短語模型不僅可以用短語規(guī)則描述局部的翻譯信息,還可以利用層次短語規(guī)則進(jìn)行短語之間的調(diào)序,因此具有更強(qiáng)的表達(dá)能力和長距離調(diào)序的處理能力。目前,層次短語模型已經(jīng)被廣泛地應(yīng)用于構(gòu)建統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。
傳統(tǒng)訓(xùn)練層次短語模型的方法一般采用啟發(fā)式的訓(xùn)練方式[2]。該方法首先通過基于詞對齊的平行語料抽取短語規(guī)則,然后從短語規(guī)則中利用子短語替換短語規(guī)則獲取層次短語規(guī)則。這種啟發(fā)式的模型訓(xùn)練方式存在兩個(gè)主要問題。第一,啟發(fā)式的抽取生成了大量冗余的層次短語規(guī)則,并隨著語料規(guī)模的增加急劇膨脹。這樣不僅造成規(guī)則的過度生成,同時(shí)在解碼時(shí)容易引起搜索錯(cuò)誤。第二,這種啟發(fā)式的訓(xùn)練方式容易造成規(guī)則錯(cuò)誤抽取和規(guī)則概率估計(jì)偏差。首先,啟發(fā)式規(guī)則抽取僅僅依靠基于詞的對齊模型,當(dāng)詞對齊出現(xiàn)錯(cuò)誤時(shí),容易造成規(guī)則的錯(cuò)誤抽取。其次,啟發(fā)式抽取無法準(zhǔn)確統(tǒng)計(jì)規(guī)則的頻次,造成層次短語翻譯模型概率估計(jì)出現(xiàn)誤差。
針對上述層次短語模型中存在的問題,我們提出一種基于強(qiáng)制對齊的方法對層次短語翻譯模型規(guī)則進(jìn)行過濾和優(yōu)化。該方法首先使用傳統(tǒng)訓(xùn)練方式得到初始層次短語集合,然后采用強(qiáng)制對齊同時(shí)構(gòu)建源語言和目標(biāo)語言的雙語解析樹,并從中抽取出對齊的層次短語規(guī)則,最后利用這些規(guī)則重新估計(jì)翻譯模型的概率。一方面,強(qiáng)制對齊使用層次短語規(guī)則的后驗(yàn)概率統(tǒng)計(jì)雙語解析樹的對齊程度,能夠有效過濾層次短語中的冗余和錯(cuò)誤。另一方面,強(qiáng)制對齊通過解析樹統(tǒng)計(jì)層次短語規(guī)則頻次的這個(gè)訓(xùn)練過程與實(shí)際解碼過程相一致,從而更加準(zhǔn)確地估計(jì)規(guī)則的翻譯概率。該方法在過濾和優(yōu)化層次短語模型的過程中不需要引入語言學(xué)知識,適合大規(guī)模語料訓(xùn)練模型。大規(guī)模中英翻譯結(jié)果顯示,采用本文方法和傳統(tǒng)訓(xùn)練方法相比,不僅過濾了約50%層次短語規(guī)則,同時(shí)顯著提高了系統(tǒng)的翻譯性能。
文章的組織結(jié)構(gòu)如下: 第2節(jié)簡述層次短語模型過濾和優(yōu)化的相關(guān)工作。第3節(jié)詳細(xì)介紹基于強(qiáng)制對齊的層次短語模型過濾和優(yōu)化方法。首先介紹層次短語模型的基本概念,然后介紹強(qiáng)制對齊的方法,并介紹規(guī)則過濾以及概率重估的方法。第4節(jié)描述實(shí)驗(yàn)設(shè)置和實(shí)驗(yàn)結(jié)果。最后是總結(jié)和展望。
近年來,不少學(xué)者針對啟發(fā)式層次短語模型訓(xùn)練過程中存在的規(guī)則冗余和錯(cuò)誤,以及概率估計(jì)偏差等問題提出了各種方法進(jìn)行過濾和優(yōu)化。
為了減少層次短語規(guī)則中存在的冗余和錯(cuò)誤,He[4]等人使用源語言端的關(guān)鍵短語過濾層次短語,不需要利用任何的語言學(xué)信息。Iglesias[5]等根據(jù)層次短語中非終結(jié)符的數(shù)目和類型對層次短語規(guī)則進(jìn)行分類,并引入多種過濾策略提高翻譯規(guī)則的質(zhì)量。Shen[6]等人使用目標(biāo)語言端依存結(jié)構(gòu)大量過濾層次短語規(guī)則,造成翻譯性能的降低。Wang[7]等在采用源語言和目標(biāo)語言松弛依存結(jié)構(gòu)對層次短語進(jìn)行過濾,同時(shí)提高了系統(tǒng)的翻譯性能。但是該方法在過濾層次短語時(shí),依賴于雙語語料的依存句法分析。由于缺乏足夠的訓(xùn)練數(shù)據(jù),依存分析容易引入新的錯(cuò)誤。特別是對于訓(xùn)練大規(guī)模語料的翻譯模型。
本文通過強(qiáng)制對齊的方式同時(shí)對層次短語模型規(guī)則中存在的這兩個(gè)問題進(jìn)行有效處理。首先,強(qiáng)制對齊依靠翻譯規(guī)則的后驗(yàn)概率描述解析樹的對齊程度,在對齊過程中不需要引入語言學(xué)知識,同時(shí)有效過濾規(guī)則中的冗余和錯(cuò)誤,適合大規(guī)模語料訓(xùn)練模型。其次,強(qiáng)制對齊訓(xùn)練過程與實(shí)際解碼過程相一致,因此能夠更加準(zhǔn)確地估計(jì)層次短語規(guī)則的翻譯概率。與Blunsom[10]的方法不同,我們限定強(qiáng)制對齊同時(shí)匹配源語言和目標(biāo)語言片段,從而大大縮小訓(xùn)練過程的搜索空間,提高模型訓(xùn)練效率和準(zhǔn)確性。
層次短語模型是一種加權(quán)同步上下文無關(guān)文法(SCFG),其翻譯規(guī)則可以表示為式(1)。
其中,X表示非終結(jié)符,γ和α表示包含終結(jié)符或者非終結(jié)符的串,~表示γ和α中非終結(jié)符的對應(yīng)關(guān)系。
為了提高模型的魯棒性,層次短語規(guī)則中添加了兩個(gè)粘貼規(guī)則。這兩個(gè)規(guī)則使層次短語能夠以順序的方式進(jìn)行合并,其形式如式(2)。
在翻譯解碼過程中,對于給定的源語言f,層次短語規(guī)則一般會生成各種不同的解析樹D。這些解析樹分別對應(yīng)不同可能的目標(biāo)語言翻譯e。通常采用對數(shù)線性模型[12]對解析樹D的多個(gè)特征進(jìn)行融合。
金沙江地處滇西北三江并流區(qū),流域面積廣,海拔高差顯著,支流眾多,氣候濕熱,降水充沛,植被覆蓋率高。金沙江良好的氣候條件及多樣的植被類型造就了該區(qū)豐富的物種多樣性。淡水真菌作為水體微生態(tài)系統(tǒng)的重要組成部分,目前尚未有金沙江淡水真菌方面的相關(guān)研究。本項(xiàng)目采集金沙江不同海拔、不同河段的腐木進(jìn)行木生淡水真菌多樣性研究,了解該地區(qū)淡水真菌資源、多樣性特征及群落組成,為金沙江木生淡水真菌的保護(hù)與利用提供本底資料。
式(3)中φi表示定義在解析樹上的特征,λi表示特征的權(quán)重。常用的特征包括源語言到目標(biāo)語言以及目標(biāo)語言到源語言的雙向短語翻譯特征、雙向詞匯化特征、語言模型特征、單詞長度特征、規(guī)則數(shù)目特征等。
基于層次短語的強(qiáng)制對齊過程可以看作是一個(gè)利用層次短語規(guī)則對訓(xùn)練語料進(jìn)行雙語解析的過程。該過程根據(jù)層次短語具有的同步上下文無關(guān)文法特性對平行句對進(jìn)行解析,獲得能夠同時(shí)表示源語言和目標(biāo)語言的雙語解析樹,并從該解析樹中抽取得到相應(yīng)的層次短語規(guī)則。
圖1給出了一個(gè)在平行句子上利用強(qiáng)制對齊抽取層次短語的實(shí)例。假設(shè)層次短語集合中存在如圖1左側(cè)的層次短語規(guī)則,那么對于給定的源語言和目標(biāo)語言句子通過強(qiáng)制對齊能夠構(gòu)建一棵如圖1右側(cè)的解析樹。為了更清楚的說明,圖中目標(biāo)語言解析樹中父節(jié)點(diǎn)的非終結(jié)規(guī)則和子節(jié)點(diǎn)的翻譯假設(shè)進(jìn)行了合并。
根據(jù)圖中箭頭的方向可以看到,強(qiáng)制對齊的過程實(shí)際上是通過層次短語規(guī)則自底向上同時(shí)構(gòu)建源語言和目標(biāo)語言解析樹的過程。首先由于中文單詞“中國”和“經(jīng)濟(jì)”根據(jù)短語規(guī)則能夠被翻譯成英文“China”和“the economy”,而且這兩個(gè)翻譯片段能夠完全匹配目標(biāo)語言句子片段,因此我們保留這兩條規(guī)則作為雙語解析樹的節(jié)點(diǎn)。然后根據(jù)規(guī)則集合中的層次短語規(guī)則對翻譯片段組合,查看新的翻譯片段是否能夠匹配雙語片段并保留該規(guī)則生成父節(jié)點(diǎn)。該過程持續(xù)進(jìn)行直到雙語句對“發(fā)展 中國 的 經(jīng)濟(jì)”和“developing the economy of China”完全解析。最后,我們可以得到圖中所示的雙語解析樹。
圖1 強(qiáng)制對齊抽取層次短語規(guī)則實(shí)例
3.3.1 規(guī)則抽取
對于每一個(gè)雙語平行句對,強(qiáng)制對齊通常會生成大量不同的雙語解析樹。特別是對于存在大量冗余和錯(cuò)誤的層次短語規(guī)則,雙語解析樹的形式往往差別很大。為了更好地衡量雙語解析樹的對齊程度, 我們引入和翻譯解碼相似的對數(shù)線性模型對解析樹進(jìn)行打分。對于強(qiáng)制對齊形成的雙語解析樹,我們使用如下規(guī)則計(jì)算其權(quán)重。
當(dāng)雙語解析樹生成后,我們通過遞歸的方式自頂向下回溯解析樹上的每個(gè)節(jié)點(diǎn),并從節(jié)點(diǎn)上獲取用到的層次短語規(guī)則。抽取時(shí),我們對解析樹上的節(jié)點(diǎn)做如下約束:
1) 解析樹的節(jié)點(diǎn)打分大于閾值τ;
2) 解析樹的節(jié)點(diǎn)所表示的源語言跨度大于l。
由于層次短語規(guī)則中存在一定的對齊錯(cuò)誤,第一條約束要求強(qiáng)制對齊獲得的對齊片段擁有較高的對齊得分,從而在一定程度上減少規(guī)則錯(cuò)誤造成的誤差。實(shí)驗(yàn)中我們設(shè)定閾值τ為相同源語言跨度的n最優(yōu)結(jié)果,并且取n=6。第二條約束要求對齊的雙語片段具有一定的長度。我們認(rèn)為較長對齊片段的解析樹打分準(zhǔn)確性較高,實(shí)驗(yàn)中,我們?nèi)=2。通過這種方式,能夠有效過濾層次短語規(guī)則中的冗余和錯(cuò)誤規(guī)則。
3.3.2 概率重估
我們使用極大似然估計(jì)來重新計(jì)算層次短語翻譯概率。和啟發(fā)式的模型訓(xùn)練不同的是,短語規(guī)則的頻次的統(tǒng)計(jì)來自強(qiáng)制對齊的解析樹,而不是詞對齊信息。層次短語規(guī)則翻譯概率的計(jì)算公式如式(5)所示。
式中countFA(f,e)表示層次短語規(guī)則在訓(xùn)練語料所有雙語解析樹中出現(xiàn)的頻次。在強(qiáng)制對齊中,層次短語規(guī)則和短語規(guī)則的概率都統(tǒng)一采用相同的方式進(jìn)行估計(jì),規(guī)則的頻次的統(tǒng)計(jì)和實(shí)際解碼的使用方式一致,因此能夠有效避免啟發(fā)式的方式造成概率估計(jì)的偏差。
我們分別選取了口語和新聞兩個(gè)領(lǐng)域的中文—英文的翻譯任務(wù)來測試采用不同方法訓(xùn)練的層次短語模型及其翻譯性能。翻譯實(shí)驗(yàn)所用的語料規(guī)模如表1所示。我們使用SRILM[13]工具訓(xùn)練四元語言模型,并用Kneser-Ney平滑估計(jì)參數(shù)。對于口語領(lǐng)域,我們使用的開發(fā)集為IWSLT07,測試集為IWSLT08。對于新聞?lì)I(lǐng)域,我們使用的開發(fā)集為NIST06,測試集為NIST08。我們使用最小錯(cuò)誤率訓(xùn)練[14]優(yōu)化對數(shù)線性模型的各個(gè)參數(shù)。翻譯結(jié)果的評價(jià)標(biāo)準(zhǔn)采用的是大小寫不敏感BLEU-4[15]。實(shí)驗(yàn)中使用的解碼器是基于CKY方式解碼的層次短語翻譯系統(tǒng),并使用Cube-Pruning裁剪搜索空間。
表1 翻譯模型和語言模型訓(xùn)練語料統(tǒng)計(jì)
① BTEC(BasicTravelingExpressionCorpus)和CJK(China?Japan?Koreacorpus)雙語語料。
② BTEC+CJK+CWMT2008語料英文部分。
③ NIST08提供的LDC語料。包括LDC2002E18,LDC2002T01,LDC2003E07,LDC2003E14,LDC2003T17,LDC2004T07,LDC2004T08,LDC2005T06,LDC2005T10,LDC2005T34,LDC2006T04。LDC2007T09。
④ LDC2007T07語料英文部分。
我們首先采用傳統(tǒng)啟發(fā)式的方法訓(xùn)練得到初始層次短語翻譯模型,并將該模型作為基準(zhǔn)系統(tǒng)。訓(xùn)練過程中采用的約束條件與文獻(xiàn)[2]相同。然后用本文提出的方法通過訓(xùn)練語料強(qiáng)制對齊對這些規(guī)則對進(jìn)行過濾和優(yōu)化。
首先,我們分別統(tǒng)計(jì)基準(zhǔn)系統(tǒng)和強(qiáng)制對齊得到的層次短語模型規(guī)則數(shù)目,比較采用強(qiáng)制對齊的訓(xùn)練方式在模型過濾的方面性能。
從表2可以看出,雖然在啟發(fā)式的模型訓(xùn)練過程中對規(guī)則抽取進(jìn)行了約束,但是層次短語規(guī)則數(shù)目相比短語規(guī)則依然多出不少。而且在口語和新聞兩個(gè)領(lǐng)域,采用強(qiáng)制對齊均能夠有效過濾層次短語。和基準(zhǔn)系統(tǒng)相比, 口語和新聞?lì)I(lǐng)域規(guī)則總數(shù)目分別減少了46%和53%。值得注意的是,和短語規(guī)則過濾的數(shù)目相比,采用強(qiáng)制對齊的方式能夠過濾更多的層次短語規(guī)則。這在一定程度上反映出層次短語規(guī)則存在更多的冗余和錯(cuò)誤,通過強(qiáng)制對齊能夠有效過濾這些規(guī)則。
表2 基于強(qiáng)制對齊的層次短語模型過濾性能
為了分別比較強(qiáng)制對齊在模型過濾和優(yōu)化上的翻譯性能,我們首先僅僅對基準(zhǔn)系統(tǒng)的層次短語模型進(jìn)行過濾,解碼時(shí)規(guī)則的翻譯概率依然采用和基準(zhǔn)系統(tǒng)相同的概率進(jìn)行解碼。然后再對規(guī)則的翻譯概率根據(jù)強(qiáng)制對齊結(jié)果進(jìn)行重估。實(shí)驗(yàn)結(jié)果如表3所示,其中“**”表示在顯著性測試中p<0.01。
表3 基于強(qiáng)制對齊的層次短語模型翻譯性能
從實(shí)驗(yàn)結(jié)果可以看出,強(qiáng)制對齊在大量過濾層次短語規(guī)則的基礎(chǔ)上,顯著提高了系統(tǒng)翻譯性能。進(jìn)一步說明采用啟發(fā)式模型訓(xùn)練得到的層次短語規(guī)則存在較多的冗余和錯(cuò)誤,通過強(qiáng)制對齊能夠?qū)ζ溥M(jìn)行有效過濾。僅僅通過過濾錯(cuò)誤和冗余規(guī)則,翻譯性能就已經(jīng)得到顯著提高。此外,采用強(qiáng)制對齊重新估計(jì)規(guī)則的翻譯概率能夠進(jìn)一步提高系統(tǒng)的翻譯性能。在IWSLT08測試集上,BLEU值提高了1.2個(gè)點(diǎn);在NIST08測試集上,BLEU值提高了0.8個(gè)點(diǎn)。說明采用啟發(fā)式的方法統(tǒng)計(jì)和估計(jì)層次短語規(guī)則得到的翻譯概率并不準(zhǔn)確。通過強(qiáng)制對齊能夠有效估計(jì)層次短語翻譯概率,并提高系統(tǒng)翻譯性能。
本文提出一種基于強(qiáng)制對齊的層次短語規(guī)則過濾和優(yōu)化方法。該方法利用初步訓(xùn)練得到的層次短語規(guī)則對雙語語料進(jìn)行強(qiáng)制對齊,構(gòu)建源語言和目標(biāo)語言句子的解析樹,并從解析樹上統(tǒng)計(jì)得到層次短語規(guī)則的頻次,重估層次短語規(guī)則的翻譯概率。強(qiáng)制對齊在過濾和優(yōu)化層次短語規(guī)則的過程中不需要引入語言學(xué)知識,適合大規(guī)模語料訓(xùn)練模型。而且,強(qiáng)制對齊訓(xùn)練過程與解碼過程相一致,能夠更加準(zhǔn)確地估計(jì)層次短語規(guī)則的翻譯概率。實(shí)驗(yàn)結(jié)果顯示,該方法能夠過濾50%左右的層次短語規(guī)則,同時(shí)在測試集上獲得0.8~1.2 BLEU值的提高。
在目前工作的基礎(chǔ)上,我們將進(jìn)一步利用層次短語強(qiáng)制對齊從雙語語料的解析樹中獲得的層次短語規(guī)則之間的上下文信息,用來指導(dǎo)解碼過程中的規(guī)則選擇。
[1] David Chiang. A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting of the ACL. 2005: 263-270.
[2] David Chiang. Hierarchical phrase-based translation[J]. Computational Linguistics,2007, 33(2): 201-228.
[3] Philipp Koehn, Franz Joseph Och, Daniel Mareu. Statistical Phrase-Based Translation[C]//Proceedings of the 2003 Conference of the NAACL: HLT. 2003: 48-54.
[4] Zhongjun He, Yao Meng, Yajuan L, et al. Reducing smt rule table with monolingual key phrase[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. 2009: 121-124.
[5] Gonzalo Iglesias, Adri de Gispert, Eduardo R Banga, et al. Rule filtering by pattern for efficient hierarchical translation[C]//Proceedings of the 12th Conference of the EACL. 2009: 380-388.
[6] Libin Shen, Jinxi Xu, Ralph Weischedel. A new string-to-dependency machine translation algorithm with a target dependency language model[C]//Proceedings of ACL-08: HLT, 2008: 577-585.
[7] Zhiyang Wang, Yajuan L, Qun Liu, et al. Better filtration and augmentation for hierarchical phrase-based translation rules[C]//Proceedings of the ACL 2010 Conference Short Papers. 2010: 142-146.
[8] Joern Wuebker, Arne Mauser, Hermann Ney. Training phrase translation models with leaving-one-out[C]// Proceedings of the 48th Annual Meeting of the ACL. 2010: 475-484.
[9] Carmen Heger, Joern Wuebker, David Vilar, et al. A combination of hierarchical systems with forced alignments from phrase-based systems[C]//Proceeding of the IWSLT. 2010: 291-297.
[10] Phil Blunsom, Trevor Cohn, Miles Osborne. A discriminative latent variable model for statistical machine translation[C]//Proceedings of ACL-08: HLT. 2008: 200-208.
[12] Franz Josef Och, Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation [C]//Proceedings of the 40th Annual Meeting of the ACL. 2002: 295-302.
[13] Andreas Stolcke. SRILM an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing. 2002: 901-904.
[14] Franz Joseph Och.Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on ACL. 2003: 160-167.
[15] Kishore Papineni, Salim Roukos, Todd Ward, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting on ACL. 2002: 311-318.