高恩婷,段湘煜,巢佳媛,張 民
(1. 蘇州科技學院 電子與信息工程學院,江蘇 蘇州 215011;2. 蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
目前,統(tǒng)計機器翻譯(SMT)通常采用啟發(fā)式方法訓練翻譯模型。首先,利用啟發(fā)式方法(包括intersection, grow, grow-diagonal, grow-diagonal-final和union)在訓練數(shù)據(jù)上構建雙向詞對齊。然后,在詞對齊的基礎上抽取翻譯規(guī)則,抽取方法同樣也是利用啟發(fā)式方法,通過設置不同的剪枝閾值,例如,最大規(guī)則高度/寬度、每個跨度的最大規(guī)則數(shù)目、結點數(shù)量等,控制翻譯規(guī)則的數(shù)量。最后,對于抽取出的翻譯規(guī)則集進行概率計算,其概率通常定義為規(guī)則的相對頻率。啟發(fā)式方法的主要優(yōu)點在于它的簡潔性,便于理解和實現(xiàn)。因此,啟發(fā)式方法廣泛用于統(tǒng)計機器翻譯模型訓練中。
但是,啟發(fā)式方法的理論基礎不夠完善,訓練過程獨立于解碼和建模過程。因此,啟發(fā)式方法的翻譯模型非最優(yōu),且學習到的大量翻譯規(guī)則都是冗余規(guī)則。針對這兩個問題,本文采用變分貝葉斯EM算法(Variational Bayesian EM, VBEM)來訓練翻譯模型[1-4]。VBEM算法是傳統(tǒng)EM算法的擴展,且兩者的總體框架相似[5]。VBEM算法的E步對訓練集進行強制對齊,M步更新模型。VBEM算法和EM算法主要區(qū)別在于目標函數(shù),體現(xiàn)在M步如何對模型進行更新。VBEM算法的優(yōu)點在于,引入先驗知識克服EM算法過估計“大規(guī)則”而忽視“小規(guī)則”的過度擬合問題。與啟發(fā)式方法相比,VBEM算法能得到最終在翻譯派生路徑中實際使用的翻譯規(guī)則,可確保訓練過程更符合解碼和建模過程。因此,VBEM算法能兼顧小規(guī)則集,并且使翻譯概率更精確。在NIST漢英翻譯任務上的實驗結果顯示本文方法有效。
本節(jié)分別從兩個方面介紹相關工作: SMT模型剪枝和模型訓練。
SMT模型剪枝的相關研究[6-11]都采用基于某些統(tǒng)計量(或啟發(fā)式)的方法來實現(xiàn)模型剪枝,其所使用的剪枝策略與翻譯模型訓練和解碼相對獨立。與之相比,本文沒有利用啟發(fā)式方法,而是通過訓練過程和強制對齊來決定所需規(guī)則。由于使用了稀疏先驗分布,本文學得的翻譯規(guī)則較小,具有較強的泛化能力,并且因為強制對齊的應用,翻譯規(guī)則由實際派生路徑上抽取而得,與實際解碼過程在統(tǒng)計意義上一致。
SMT模型訓練的相關研究中,存在兩類方法不使用啟發(fā)式方法進行模型訓練。一類是基于EM算法的方法[12-16]。另一類是基于貝葉斯學習的方法[17-21]。這兩類方法與啟發(fā)式方法的主要區(qū)別是如何獲取對齊結構。啟發(fā)式方法第一步先獲得詞對齊信息,第二步再在詞對齊的基礎上抽取更高層次的結構對齊,這些結構對齊必須和詞對齊相一致,但無法保證合法的派生路徑(解碼路徑),從而使相對頻率的估計也不準確。這兩步之間在統(tǒng)計意義上相互獨立,對齊結構的獲取缺乏理論依據(jù),從而引起了放棄啟發(fā)式方法的研究,主要包括上述提及的基于EM算法的方法和基于貝葉斯學習的方法,這兩類方法直接學得結構對齊,不使用割裂的中間步驟。
基于EM算法的方法的首先提出者是Marcu和Wong[12],將詞對齊模型(IBM模型)擴展到短語對齊模型。但由于EM算法存在過度擬合問題,導致往往較長的短語對被抽取出來,在極端情況下整個句對會被作為一個短語對抽取出來。這個問題隨后被深入地進行分析[13],并先后有相應的方法加以解決,但都是在較小規(guī)模上進行實驗,沒有證據(jù)表明這些方法具備進行大規(guī)模應用的能力。因此,基于EM算法的方法不能有效解決基于啟發(fā)式方法的模型訓練存在的問題。
基于貝葉斯學習的方法可通過引入稀疏先驗分布調(diào)整過度擬合問題,得到的后驗分布往往比EM算法得到的分布更加稀疏,即只有較為常用的對齊結構的概率較大,出現(xiàn)稀疏的概率峰值,而不是EM算法得到的比較平均的概率值。其中代表性的方法有針對樹到串對齊結構的方法[21]和針對短語對齊結構的方法[18],實驗表明具有較強泛化能力的對齊結構可以通過貝葉斯學習的方法獲得。由于關注一步得到結構對齊,貝葉斯學習方法具有較高的復雜度。Blunsom等[18]提出了局部Gibbs抽樣方法,可以避免對整個平行句對進行計算的較高復雜度,但是局部Gibbs抽樣方法有較慢的混合(mixing)速度,即樣本抽樣會陷落在一個局部最優(yōu)點附近而不易產(chǎn)生新的抽樣。為克服混合速度慢的問題,塊化的Gibbs抽樣被應用于樹到串對齊結構抽樣上[21],使得整個平行句對同時被抽樣,易于脫離局部最優(yōu)點。
本文利用變分貝葉斯推理訓練翻譯模型,不僅克服了在結構對齊學習中容易出現(xiàn)的過度擬合問題,而且通過引入平均場(Mean Field)降低了推理算法的復雜度。本建模方法不依賴于啟發(fā)式方法(如限制規(guī)則數(shù)量,或通過詞法概率進行平滑)。相較于EM算法,變分貝葉斯推理可以獲得較為稀疏的對齊結構;相較于基于貝葉斯學習的抽樣方法,變分貝葉斯推理性能更好且容易實現(xiàn),能解決對大規(guī)模語料和長句進行參數(shù)估計時存在的問題。
本文所用方法的模型訓練框架概述如下:
1) 利用傳統(tǒng)的基于啟發(fā)式方法的模型作為初始Bootstrapping模型;
2) 用現(xiàn)有的模型對訓練語料進行強制解碼;
3) 利用步驟2中的訓練語料,更新現(xiàn)有的模型;
4) 在開發(fā)集上對模型權重調(diào)參,返回到步驟2直到收斂至最優(yōu)。
本文不使用額外的語言學資源,而是通過簡化訓練過程來獲得相應規(guī)則,并從訓練語料中獲得規(guī)則的相應概率。
變分貝葉斯推理根據(jù)先驗知識能解決傳統(tǒng)EM算法的過度擬合問題。變分貝葉斯推理尋找近似后驗概率的分布(用KL距離度量),便于計算后驗概率[22]。貝葉斯學習系統(tǒng)通常將Dirichlet分布作為先驗知識。因為貝葉斯學習系統(tǒng)簡易且有效,本文對Dirichlet先驗知識使用平均場變分貝葉斯EM算法來最大化后驗概率。平均場是一個近似完全分解的變分推理。平均場便于理解和實現(xiàn),包括兩個步驟[4]:
1) E步: 參照傳統(tǒng)EM算法計算期望值;
2) M步: 分為以下三步:
a. 加入Dirichlet 超參數(shù)α到期望Cr。
由上述步驟可知,平均場在使用digamma函數(shù)得到Dirichlet先驗知識的基礎上,重新計算期望值,動機來源于更有效的規(guī)則重用?;贓M算法的SMT模型訓練、翻譯規(guī)則(通常規(guī)模小)能提高最終翻譯概率,但難以泛化未知數(shù)據(jù)。平均場通過Dirichlet先驗知識對難以使用的規(guī)則進行懲罰,這是本文的核心思想,而另一個則是強制解碼。
本文的剪枝與訓練過程是強制解碼與平均場算法的融合。主要包含以下兩個步驟:
1) 使用啟發(fā)式方法抽取傳統(tǒng)模型進行自訓練;
2) E步:
a. 利用現(xiàn)有的模型對訓練語料進行強制解碼。
b. 根據(jù)傳統(tǒng)EM算法計算每個規(guī)則的期望值Cr。
3) M步
c. 計算規(guī)則r的翻譯概率如式(1)所示。
其中,α是Dirichlet的超參數(shù),參考本文中3.1節(jié)的2.b步驟的。
4) 在開發(fā)集上,對更新的模型權重調(diào)參,返回到步驟2直到收斂至最優(yōu)。
強制解碼主要分三個步驟: 首先訓練得到所有在標準翻譯系統(tǒng)中使用的模型,接著使用MERT[23]方法在開發(fā)集上進行模型參數(shù)調(diào)試以獲得良好的BLEU得分,再接著使用這些模型和參數(shù)在訓練集上進行解碼,解碼路徑包含著結構對齊信息。在這些結構對齊的基礎上,我們可以重新估計翻譯規(guī)則的概率,而使其他模型保持不變。上述三個步驟重復迭代,直至前后兩次迭代之間的解碼路徑不存在顯著差異。強制解碼的優(yōu)勢在于使得模型訓練和解碼過程一致,克服了啟發(fā)式方法的模型訓練與解碼過程割裂開來的缺點,具有統(tǒng)計意義上的理論基礎。
強制解碼也存在實際應用的不足: 往往較長的翻譯規(guī)則被保存在最終的解碼路徑上。這是因為解碼路徑上的分解的翻譯規(guī)則越少,解碼路徑的概率越高,從而使強制解碼傾向于使用較少的翻譯規(guī)則來完成解碼,導致較長的翻譯規(guī)則被最終保留。為克服這個不足,Wuebker等[16]使用leaving-one-out方法對各個結構對齊的概率進行平滑,以降低較長的對齊結構的概率,提高過低的泛化能力高的對齊結構的概率。本文使用另外一種方法來克服此種不足,通過3.1節(jié)所述的變分貝葉斯引入稀疏先驗分布,尋找泛化能力高的翻譯結構。
此外,強制解碼要求部分假設必須與參考相兼容,最終翻譯必須與參考相一致。但由于翻譯規(guī)則的抽取未必能覆蓋整個平行句對,導致某些平行句對不能產(chǎn)生有效的解碼路徑。與西方語言翻譯到英文相比,漢英翻譯中這個問題更加明顯,部分句對不能成功強制解碼。本文漢英實驗數(shù)據(jù)結果顯示,使用Moses[23]強制解碼的句對中只有72.2%能成功解碼。同樣,使用重新實現(xiàn)的基于森林的樹到串句法系統(tǒng)強制解碼,顯示只有31.4%句對能成功解碼。
為使強制解碼達到100%的成功率,且確保翻譯結果與參考盡量相似,本文采用半強制解碼的方法。該方法引入一個新的特征度量翻譯結果與參考譯文的相似性,這個特征可由WER(錯誤率)、PER(位置獨立的WER)或BLEU[24]表示,并在部分訓練集上調(diào)整特征權重。
本文在兩個SMT系統(tǒng)上進行評估,這兩個系統(tǒng)分別是基于短語的統(tǒng)計機器翻譯系統(tǒng)Moses[23]和重新實現(xiàn)的基于森林的樹到串系統(tǒng)[25-26],并在兩個解碼器上實現(xiàn)強制/半強制解碼功能。以下是兩個系統(tǒng)的實驗設置,NIST 2002測試集作為開發(fā)集,而NIST 2003和NIST 2005測試集作為測試集。GIZA++[27]和啟發(fā)式方法“grow-diag-final-and”被用于生成漢英雙語詞對齊,并在兩個系統(tǒng)中采用默認特征。本文利用改良后的Koehn’s MERT訓練器[23]作為MERT訓練器[28],使用Zhang[29]的實現(xiàn)進行顯著性實驗,并采用區(qū)分大小寫的BLEU-4[24]進行翻譯質(zhì)量評估。
對于基于句法的系統(tǒng),訓練數(shù)據(jù)來源于LDC NIST-MT的子集,包含3萬個句對。本文利用SRILM工具[30]和改良后的Knese-Ney平滑方法[31]在訓練數(shù)據(jù)的目標端建立三元語言模型,并在中文CTB5.0上訓練Charniak分析器[32],對分析器修改后使其輸出封裝后的森林。
基于短語的系統(tǒng),訓練數(shù)據(jù)是24萬個漢英句對(21萬個FBIS和3萬個NIST-MT數(shù)據(jù))。本文利用SRILM工具和改良后的Knese-Ney平滑算法,在訓練語料和英文Gigaword的新華社語料上,對目標端訓練得到四元語言模型。
為公平比較,本文首先用傳統(tǒng)模型的過濾技巧刪除部分規(guī)則,例如,每個源短語或樹保留20個目標翻譯,刪除非功能詞沒有被翻譯的語法規(guī)則等。上述技巧被廣泛用于當前系統(tǒng)[23],且被證明不會降低翻譯的精確性。
在基于句法的系統(tǒng)中,本文用到的規(guī)則剪枝如下:
1) 利用最優(yōu)維特比算法搜集所有規(guī)則來生成一個小規(guī)則集。
2) 在小規(guī)則集上重新調(diào)參和測試
表1 規(guī)則剪枝(基于句法的系統(tǒng))
表1顯示本文所用剪枝方法的有效性,可以看出,剪枝后的模型規(guī)模由856M減小到30M,縮小856/30=28.5倍(表明減少(856-30)/856=96.5%的冗余規(guī)則),且翻譯的精確性明顯提高(p<0.01)。主要原因是保留重要的規(guī)則同時刪除大量的不良規(guī)則(見表2和表3,主要是局部詞匯化規(guī)則)。這說明對于基于句法的機器翻譯系統(tǒng),局部詞匯化規(guī)則沒有其他規(guī)則重要。由于更大的搜索空間使解碼器能夠搜索到最優(yōu)的結果,所以最終導致搜索錯誤得到了減少。
表2顯示規(guī)則集中多數(shù)為局部詞匯化規(guī)則,而本文能夠?qū)⑵湟?guī)模降低約40倍。局部詞匯化規(guī)則由于具有較細的顆粒度,容易引起過適應問題,從而導致翻譯模型的泛化能力變?nèi)?。本文所用方法嘗試保留具有高度泛化能力的翻譯規(guī)則,因而傾向于使用具體的詞匯信息越少越好??梢钥吹?,通過本文中所提出的剪枝策略,低泛化能力的局部詞匯化信息被過濾掉。另外,不同類型的規(guī)則的減少率是不同的。這表明本文的方法能夠自動檢測不同類型的有用規(guī)則,并改變最終剪枝模型的分布。
表2 不同類型規(guī)則的減少率
表3中,F(xiàn)1K指從訓練集中前1 000句的統(tǒng)計信息。由于NIST 03和NIST 05句子數(shù)目分別為919和1 082,所以我們用F1K便于公平比較。N03和N05表示在測試集中有用規(guī)則的類型分布,可以看出,F(xiàn)1K、N03和N05的分布一致性高。這表明,本文所用方法選擇的規(guī)則與有用規(guī)則具有相同的分布。此外,非詞匯化規(guī)則只占剪枝規(guī)則的2.6%,而在測試集與F1K中的比重超過6%。這是因為非詞匯化規(guī)則是最泛化的規(guī)則,比其他兩種類型規(guī)則的頻率大。隨著語料規(guī)模的擴大,會出現(xiàn)比非詞匯規(guī)則更多的詞匯化規(guī)則,在這種情況下,非詞匯化規(guī)則的比重趨于減小??梢钥吹剑糁笠?guī)則類型的比例發(fā)生了顯著變化,非詞匯化規(guī)則所占比例在剪枝后上升,但由于顆粒度較粗,仍然只能占很小的一部分比例,占絕大多數(shù)比例的翻譯規(guī)則還是具有詞匯化信息的規(guī)則,體現(xiàn)了泛化能力和準確性的一種平衡。
表3 規(guī)則類型分布
表4為基于短語的SMT規(guī)則剪枝的實驗結果??梢钥闯觯?1)基于維特比路徑的剪枝方法能減少95.7%的翻譯規(guī)則,同時BLEU值沒有降低;2)基于100-best的剪枝方法能減少76%的翻譯規(guī)則,且顯著性提高(p<0.05);3)剪枝方法在基于句法的系統(tǒng)的性能優(yōu)于基于短語的系統(tǒng),主要因為基于句法的SMT產(chǎn)生大量的泛化的局部詞匯化規(guī)則。
表4 規(guī)則剪枝(基于短語的系統(tǒng))
注: 由于訓練數(shù)據(jù)和語言模型不同,表4中的BLEU值不同于表1中的BLEU值。
相較于基于啟發(fā)式規(guī)則剪枝方法,本文所用方法是基于模型的,實驗結果顯示對基于句法和基于短語的SMT都很有效。
本文在剪枝模型的基礎上,使用平均場和半強制解碼重新訓練模型,主要內(nèi)容參考3.2和3.3節(jié)。實驗結果如表5和表6所示。
從表5和表6可以看出,與初始模型與剪枝后的模型相比,重新訓練模型后的性能顯著提高(p<0.01),且模型規(guī)模與剪枝后的模型相差不多。表5和表6是關于剪枝后的模型,其所使用的概率仍為原始啟發(fā)式方法中的相對頻率,概率估計不準確。當重新訓練后,模型所使用的概率為從派生路徑中統(tǒng)計出的值,保證了統(tǒng)計量和派生路徑一致,最終實驗結果顯示翻譯質(zhì)量也由于概率估計得更加準確而得到顯著提升。
表5 重新訓練模型(基于句法的系統(tǒng))
表6 重新訓練模型(基于短語的系統(tǒng))
本文提出一個通用框架,該框架通過半強制解碼和變分貝葉斯EM對SMT模型進行剪枝和優(yōu)化。相較于啟發(fā)式方法和基于EM算法的框架,該方法在翻譯模型上的數(shù)學理論基礎更強。實驗結果顯示,該框架對模型的剪枝和優(yōu)化非常有效。以后的工作將致力于建立更完善的翻譯系統(tǒng),從而降低對啟發(fā)式方法[17]的依賴。
[1] Antoniak C E. Mixtures of Dirichlet processes with applications to Bayesian nonparametric problems[J]. The annals of statistics, 1974: 1152-1174.
[2] Blei D M, Jordan M I. Variational inference for Dirichlet process mixtures[J]. Bayesian analysis, 2006, 1(1): 121-143.
[3] Kurihara K, Welling M, Teh Y W. Collapsed Variational Dirichlet Process Mixture Models[C]Proceedings of the IJCAI, 2007, 7: 2796-2801.
[4] Mark Johnson, Sharon Goldwater. Improving nonparameteric Bayesian inference: experiments on unsupervised word segmentation with adaptor grammars[C]//Proceedings of the HLT-NAACL, 2009: 317-325.
[5] Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1977: 1-38.
[6] Gonzalo Iglesias, Adri`a de Gispert, Eduardo R. Banga, et al. Rule filtering by pattern for efficient hierarchical translation[C]Proccedings of the . EACL, 2009.380 388.
[7] Zhongjun He, Yao Meng, YajuanLj, et al. Reducing SMT Rule Table with Monolingual Key Phrase[C]//Proceedings of the ACL-IJCNLP (short paper), 2009: 121-1245.
[8] Katerina T. Frantzi, Sophia Ananiadou. Extracting nested collocations[C]Proceedings of the COLING, 1996: 41 46.
[9] Zhiyang Wang, YajuanLv, Qun Liu et al. Better Filtration and Augmentation for Hierarchical Phrase-Based Translation Rules[C]//Proceedings of the ACL (short paper), 2010: 142-146.
[10] Eck M, Vogel S, Waibel A. Translation model pruning via usage statistics for statistical machine translation[C]//Proceedings of the Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Companion Volume, Short Papers. Association for Computational Linguistics, 2007: 21-24.
[11] Howard Johnson, Joel Martin, George Foster et al. Improving translation quality by discarding most of the phrasetable[C]Proceedings of the EMNLP-CoNLL, 2007. 967 97
[12] Daniel Marcu, William Wong. A Phrase-based, Joint Probability Model for Statistical Machine Translation[C]//Proceedings of the EMNLP, 2002: 133-139.
[13] DeNero J, Gillick D, Zhang J, et al. Why generative phrase models underperform surface heuristics[C]//Proceedings of the Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2006: 31-38.
[14] Daniel Marcu, W. Wang, A. Echihabi et al. SPMT: Statistical Machine Translation with Syntactified Target Language Phrases[C]//Proceedings of the EMNLP, 2006: 44-52.
[15] May J, Knight K. Syntactic Re-Alignment Models for Machine Translation[C]//Proceedings of the EMNLP-CoNLL, 2007: 360-368.
[16] JoernWuebker, Arne Mauser, Hermann Ney. Training Phrase Translation Models with Leaving-One-Out[C]//Proceedings of the ACL, 2010: 475-484
[17] DeNero J, Bouchard-C t A, Klein D. Sampling alignment structure under a Bayesian translation model[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2008: 314-323.
[18] Blunsom P, Cohn T, Dyer C, et al. A Gibbs sampler for phrasal synchronous grammar induction[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Association for Computational Linguistics, 2009: 782-790.
[19] Blunsom P, Cohn T, Osborne M. A Discriminative Latent Variable Model for Statistical Machine Translation[C]Proceedings of the ACL. 2008: 200-208.
[20] Blunsom P, Osborne M. Probabilistic inference for machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2008: 215-223.
[21] Trevor Cohn, Phil Blunsom. A Bayesian Model of Syntax-Directed Tree to String Grammar Induction[C]//Proceedings of the EMNLP. 2009. 352-361.
[22] Percy Liang, Dan Klein. Structured Bayesian Nonparametric Models with Variational Inference[C]//Proceedings of the ACL Tutorial.-2007.
[23] Philipp Koehn, H. Hoang, A. Birch, et al. Moses: Open Source Toolkit for Statistical Machine Translation[C]Proceedings of the ACL (poster), 2007: 77-180
[24] Kishore Papineni, Salim Roukos, ToddWard et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the . ACL, 2002. 311-318.
[25] HaitaoMi, Liang Huang, Qun Liu. Forest-based translation[C]//Proceedings of the ACL-HLT, 2008: 192-199.
[26] Zhang H, Zhang M, Li H, et al. Forest-based tree sequence to string translation model[C]//Proceedings of the ACL, 2009: 172-180.
[27] Franz J. Och, Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of the ACL, 2002: 295-302.
[28] Franz J. Och. Minimum error rate training in statistical machine translation[C]//Proceedings of the . ACL、 2003: 160-167
[29] Min Zhang, Hongfei Jiang, Aiti Aw, Haizhou Li, Chew Lim Tan, Sheng Li. A Tree Sequence Alignment-based Tree-to-Tree Translation Model[C]//Proceedings of the ACL-HLT, 2008: 559-567
[30] Andreas Stolcke. SRILM - an extensible language modeling toolkit[C]//Proceedings of the . ICSLP, 2002: 901-904.
[31] Reinhard Kneser, Hermann Ney. Improved backing-off for M-gram language modeling[C]Proceedings of the ICASSP, 1995: 181-184
[32] Charniak E. A maximum-entropy-inspired parser[C]. Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference. Association for Computational Linguistics, 2000: 132-139.
[33] Yang Liu, Qun Liu, Shouxun Lin. Tree-to-String Alignment Template for Statistical Machine Translation[C]//Proceedings of the COLING-ACL, 2006: 609-616.
[34] Agresti, Alan. An introduction to categorical data analysis [M]. New York: Wiley, 1996.
[35] Birch A, Callison-Burch C, Osborne M, et al. Constraining the phrase-based, joint probability statistical translation model[C]//Proceedings of the workshop on statistical machine translation. Association for Computational Linguistics, 2006: 154-157.
[36] Peter F Brown, Stephen A Della Pietra, Vincent J. Della Pietra et al. The mathematics of statistical machine translation: Parameter estimation [J]. Computational Linguistics, 19(2): 263-311
[37] David Chiang. A hierarchical phrase-based model for SMT[C]//Proceedings of the ACL. 2005: 263-270
[38] Nicola Ehling, Richard Zens, Hermann Ney. Minimum bayes risk decoding for BLEU[C]//Proceedings of the ACL. 2007: 101 104.
[39] Jesus-Andres Ferrer, Alfons Juan. A phrase-based hidden semi-markov approach to machine translation[C]//Proceedings of the EAMT. 2009: 132-139.
[40] Ferguson T S. A Bayesian analysis of some nonparametric problems[J]. The annals of statistics, 1973: 209-230.
[41] Michel Galley, Mark Hopkins, Kevin Knight et al. What's in a translation rule?[C]Proceedings of the HLT-NAACL, 2004: 273-280.
[42] Michel Galley, J. Graehl, K. Knight, et al. Scalable Inference and Training of Context-Rich Syntactic Translation Models Proceedings of the COLING-ACL, 2006: 961-968.
[43] Abraham Ittycheriah, Salim Roukos. Direct translation model 2[C]//Proceedings of the HLT-NAACL, 2007: 57 64
[44] Mark Johnson. The DOP estimation is biased and inconsistent[J]. Computational Linguistics, 2002, 28(1): 71-76
[45] Dan Klein, Christopher D. Manning. Accurate Unlexicalized Parsing[C]Proceedings of the ACL, 2003: 423-430.
[46] Philipp Koehn, Franz J. Och, Daniel Marcu. Statistical phrase-based translation[C]Proceedings of the HLT-NAACL, 2003: 127-133
[47] Philipp Koehn. Statistical significance tests for machine translation evaluation[C]Proceedings of the EMNLP, 2004: 388-395
[48] Percy Liang, Alexandre Buchard-Cté, Dan Klein, et al. An End-to-End Discriminative Approach to Machine Translation[C]Proceedings of the COLING-ACL, 2006. 761 768
[49] HaitaoMi, Liang Huang. Forest-based Translation Rule Extraction[C]//Proceedings of the EMNLP, 2008: 206-214
[50] Franz J. Och, Hermann Ney. The alignment template approach to statistical machine translation [J]. Computational Linguistics, 2004, 30(4): 417-449
[51] Franz Josef Och, Daniel Gildea, Sanjeev Khudanpur, et al. A Smorgasbord of Features for Statistical Machine Translation[C]//Proceedings of the . HLT-NAACL, 2004: 161-168.
[52] ChristophTillmann, Tong Zhang. A block bigram prediction model for statistical machine translation[J]. ACM Transactions Speech Language Processing, 2007,4(3): 6.
[53] TaroWatanabe, Jun Suzuki, Hajime Tsukada, et al. Online large-margin training for statistical machine translation[C]//Proceedings of the EMNLP, 2007: 764 773.
[54] Dekai Wu. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora[J]. Computational Linguistics, 1997, 23(3): 377-403
[55] Kenji Yamada, Kevin Knight. A syntax-based statistical translation model[C]//Proceedings of the . ACL, 2001: 523-530