王 楠,徐金安,明 芳,陳鈺楓,張玉潔
(北京交通大學(xué) 計算與信息技術(shù)學(xué)院,北京 100044)
融合被動和可能態(tài)模型的日漢統(tǒng)計機器翻譯
王 楠,徐金安,明 芳,陳鈺楓,張玉潔
(北京交通大學(xué) 計算與信息技術(shù)學(xué)院,北京 100044)
日語中謂詞語態(tài)有不同的詞尾變形,其中被動態(tài)和可能態(tài)具有相同的詞尾變化,在統(tǒng)計機器翻譯中難以對其正確區(qū)分及翻譯。因此,該文提出一種利用最大熵模型有效地對日語可能態(tài)和被動態(tài)進行分類,然后把日語的可能態(tài)和被動態(tài)特征有效地融合到對數(shù)線性模型中改進翻譯模型的方法,以提高可能態(tài)和被動態(tài)翻譯規(guī)則選擇的準確性。實驗結(jié)果表明,該方法可以有效提升日語可能態(tài)和被動態(tài)句子的翻譯質(zhì)量,在大規(guī)模日漢語料上,最高翻譯BLEU值能夠由41.50提高到42.01,并在人工評測中,翻譯結(jié)果的整體可理解度得到了2.71%的提升。
被動態(tài);可能態(tài);統(tǒng)計機器翻譯;最大熵模型
日語的“態(tài)”是一種語言現(xiàn)象,指在謂語后加接尾辭,且補充語的格規(guī)則也相應(yīng)發(fā)生變化的情況。被動態(tài)與可能態(tài)是日語語態(tài)中的兩種典型形式。表示主體受到另一事物的動作時使用動詞的被動態(tài),而在表示主體具有某種能力、有條件進行某種行為時,使用動詞的可能態(tài)。這兩種語態(tài)多數(shù)情況是由動詞的未然形后加詞尾 “れる”“ られる”構(gòu)成的。例如,“吃”在日語中對應(yīng)的動詞未然型是“食べる”,其語態(tài)變化如表1所示。
現(xiàn)有研究大部分從語義及結(jié)構(gòu)上進行日語被動態(tài)與可能態(tài)的區(qū)分[1]。但在機器翻譯任務(wù)中,很難有效區(qū)分這兩種語態(tài),研究人員通過制訂翻譯規(guī)則對不同語態(tài)進行處理[2-3]。但基于規(guī)則的翻譯系統(tǒng)存在規(guī)則主觀性較強、對語種具有依存性且領(lǐng)域適應(yīng)能力差等問題,故研究逐漸轉(zhuǎn)向更易于推廣使用的統(tǒng)計機器翻譯方法。
表1 動詞“食べる”的不同語態(tài)
續(xù)表
類別動詞變化源語言句子參考譯文可能態(tài)食べられる私はリンゴが食べられますか我能吃蘋果嗎被動態(tài)食べられるリンゴは私に食べられた蘋果被我吃掉了
傳統(tǒng)統(tǒng)計機器翻譯方法利用統(tǒng)計翻譯模型和語言模型進行翻譯。層次短語翻譯模型是當(dāng)前應(yīng)用最廣泛的翻譯模型之一,其中源語言和目標語言所構(gòu)成的翻譯規(guī)則通常具有一對多的關(guān)系,當(dāng)解碼器按照概率進行規(guī)則選擇時,由于訓(xùn)練語料中可能態(tài)和被動態(tài)的數(shù)據(jù)稀疏問題嚴重、遠距離調(diào)序相對困難、難以有效利用句子的全局結(jié)構(gòu)特征實現(xiàn)全局優(yōu)化,導(dǎo)致其翻譯精度低下等問題。因此在翻譯過程中,如何正確選擇翻譯規(guī)則,實現(xiàn)語義消歧和調(diào)序的優(yōu)化,進而實現(xiàn)句子的全局優(yōu)化問題,是系統(tǒng)優(yōu)化的關(guān)鍵。
近年來關(guān)于構(gòu)建語態(tài)模型的統(tǒng)計機器翻譯研究不多,但很多研究者通過構(gòu)建分類模型提高規(guī)則選擇準確率。Xiong等[4]選取短語邊界詞信息構(gòu)建最大熵模型運用于短語排序,He等[5]利用非終結(jié)符的邊界詞信息建立最大熵規(guī)則選擇模型,Nguyen等[6]利用最大熵模型將位置信息等詞匯化特征融入層次短語模型。Iglesias等[7]使用非終結(jié)符的數(shù)目和類型對層次短語規(guī)則進行分類解決規(guī)則選擇問題。利用分類模型融合層次短語模型中缺失的上下文信息,可以有效提升翻譯質(zhì)量,但這種方法的不足在于詞匯化信息仍然缺少語言學(xué)句法的約束。
同時很多研究者引入語言學(xué)分析改進層次短語模型。Shen等[8]使用目標端的句法依存樹信息拓展層次短語模型,過濾了大量規(guī)則。Cmejrek等[9]對雙語語料進行解析后直接抽取層次短語規(guī)則,但沒有對冗余規(guī)則進行處理。Gao等[10]使用源端句子的依存結(jié)構(gòu)限制調(diào)序提升了翻譯性能,這些研究成果表明,將語言學(xué)分析融合入翻譯系統(tǒng)中可以有效地輔助翻譯過程。
本文在總結(jié)以上方法的基礎(chǔ)上,提出一種把日語的可能態(tài)和被動態(tài)特征融合入翻譯模型的方法。首先把語料分為被動態(tài)、可能態(tài)和其他語態(tài)三類,抽取相應(yīng)的句法特征構(gòu)建最大熵分類模型,并對其進行有效的分類。然后在抽取層次短語規(guī)則時同步抽取語態(tài)特征,使用最大熵模型將語態(tài)特征融合入翻譯模型。最終構(gòu)建出可能態(tài)和被動態(tài)的翻譯模型以提高這兩種語態(tài)的翻譯精度。該方法不僅使用最大熵模型融合了豐富的上下文信息,克服了層次短語模型中無法利用上下文信息的缺點,而且引入語態(tài)特征這一語言學(xué)約束指導(dǎo)解碼器根據(jù)不同語態(tài)選擇合適的規(guī)則。實驗表明,該方法獲得了0.1~0.5的BLEU值的提升,在人工評測中翻譯結(jié)果的整體可理解度也得到了2.71%的提升。
本文組織結(jié)構(gòu)如下: 第二節(jié)介紹層次短語翻譯模型,第三節(jié)對本文提出的融合被動和可能態(tài)的翻譯模型做出具體的闡述,第四節(jié)描述實驗設(shè)置及實驗結(jié)果,并針對實驗結(jié)果分析本文提出方法的有效性,最后進行總結(jié)和展望。
層次短語(Hierarchical Phrase Based)模型[11-12]可以從雙語句對中自動地抽取形式語法,不需要語言學(xué)上的標注和假設(shè),是當(dāng)前性能最好的統(tǒng)計機器翻譯系統(tǒng)之一。
2.1 規(guī)則抽取
層次短語模型使用上下文無關(guān)文法(SCFG)規(guī)則進行翻譯,其規(guī)則形式如式(1)所示。
其中,X是非終結(jié)符,α和γ分別為規(guī)則的源語言目標語言端,包含終結(jié)符和非終結(jié)符,非終結(jié)符的對應(yīng)關(guān)系由“~”表示。
層次短語規(guī)則的抽取過程如下: 基于雙語語料的詞對齊信息,按照從左至右的順序抽取短語規(guī)則。之后利用子短語替換短語規(guī)則,從而得到形式化的句法關(guān)系。雖然這種句法關(guān)系簡化了建模和解碼,但規(guī)則在泛化的過程中沒有保留上下文信息,導(dǎo)致了子短語可以匹配任何的句法成分,在翻譯時往往會產(chǎn)生錯誤。
2.2 翻譯模型
層次短語翻譯系統(tǒng)翻譯過程可以描述為對于給定的源語言句子f,從所有可能的翻譯結(jié)果e中,找到得分最高的翻譯結(jié)果。層次短語翻譯系統(tǒng)在翻譯過程中使用對數(shù)線性模型,其中組合了多個特征。對數(shù)線性模型每進行一次轉(zhuǎn)換,都會計算之前步驟的得分總和。式(2)為對數(shù)線性模型中的轉(zhuǎn)換得分,通常使用對數(shù)的形式表示,如式(3)所示。
其中φi為特征函數(shù),λi為對應(yīng)的特征權(quán)重,d表示每一步的翻譯過程。在層次短語翻譯模型中使用了以下特征: 正反向翻譯概率,P(e|f)和P(f|e),正反向詞匯化權(quán)重,Pw(e|f)和Pw(f|e),N元語言模型,plm(f),規(guī)則數(shù)量懲罰,exp(-1),長度懲罰,exp(|f|)。解碼器利用對數(shù)線性模型將上述特征組合,使用CYK形式的算法,利用抽取出的層次短語規(guī)則對測試集句子進行翻譯。
3.1 翻譯系統(tǒng)結(jié)構(gòu)
本文把語態(tài)分為被動態(tài)、可能態(tài)和其他語態(tài)三類,通過最大熵模型把語態(tài)信息融合入翻譯模型中,融合語態(tài)特征的翻譯系統(tǒng)流程如圖1所示。
圖1 融合語態(tài)特征的翻譯系統(tǒng)流程
首先對語料進行分類,人工抽取篩選出語料中的被動態(tài)與可能態(tài)句子,剩余句子歸為其他語態(tài);然后對訓(xùn)練語料進行句法分析,抽取出不同語態(tài)的特征以訓(xùn)練最大熵模型;在規(guī)則抽取過程中抽取出相應(yīng)特征,通過最大熵模型將語態(tài)特征融合到規(guī)則表中生成不同語態(tài)的翻譯模型。最后在翻譯過程中,首先判斷輸入句子的語態(tài),根據(jù)語態(tài)選擇相應(yīng)的翻譯模型,實現(xiàn)在解碼過程中的規(guī)則自動過濾。
本文主要論述基于最大熵模型的層次短語規(guī)則分類、分類特征的選擇及最大熵模型與翻譯模型的融合,對翻譯過程只做簡單敘述。
3.2 最大熵規(guī)則分類
最大熵(MaximumEntropy)模型能夠滿足所有已知的約束,對未知信息不做假設(shè),可以方便地融合多種上下文信息作為語態(tài)特征,因此本文選取最大熵模型作為分類模型。假設(shè)存在樣本集合T={(x1,V1),(x2,V2),…,(xn,Vn)},其中xi(1≤i≤n)是一個句子的上下文環(huán)境,Vi(1≤i≤n)表示句子的語態(tài)類別。最大熵的約束是通過特征函數(shù)實現(xiàn)的,對于句子語態(tài)分類問題,定義如式(4)所示。
建立語態(tài)的最大熵模型如式(5)所示。
其中H(P)是模型P的熵,C是滿足條件約束的模型集合。在給定文本集合和相關(guān)約束條件下,存在一個唯一概率模型P*,其熵值最大,如式(6)所示。
其中,Z(x)是歸一化常數(shù),fi即為模型特征,λi是模型的參數(shù),即特征函數(shù)的權(quán)重。通過在訓(xùn)練集上學(xué)習(xí)可以得出λi的具體值。
式(7)描述了句子的最大熵概率模型。對于每一條包含核心動詞的層次短語規(guī)則<α,γ>,可以構(gòu)建以下最大熵語態(tài)分類模型,如式(8)、式(9)所示。
其中,α為規(guī)則的源語言端,γ為目標語言端,V是規(guī)則對應(yīng)的語態(tài)類別。Xk表示其中包含的非終結(jié)符。一條規(guī)則中可能含有多個非終結(jié)符,k為非終結(jié)符對應(yīng)的編號。非終結(jié)符Xk中的源語言子短語為f(Xk),V(α)表示源語言短語中上下文的語態(tài)信息,fi(V(α),f(Xk))是一個二值的特征函數(shù),λi為該函數(shù)的特征權(quán)重。
3.3 特征選擇及規(guī)則抽取
特征函數(shù)的選取直接影響著分類性能。日本學(xué)者Kurohashi[13]利用大量網(wǎng)絡(luò)資源構(gòu)建了較為完備的日語格框架庫,并運用到句法分析中。Murata和Sasano[14-15]從大規(guī)模語料中抽取格框架特征,完成將被動態(tài)語句轉(zhuǎn)化為主動態(tài)的任務(wù)。其中對于被動態(tài)句子識別的精度很高,說明格框架可以有效區(qū)分句子的語態(tài)。對于上述最大熵規(guī)則分類模型,規(guī)定以下特征:
句子的中心結(jié)構(gòu)詞特征F1。日語句中謂語動詞及詞尾,即句法分析樹的根節(jié)點信息。
句子主干結(jié)構(gòu)特征F2,源語言端句法分析樹的第一層節(jié)點,即中心謂詞的格框架信息。被動態(tài)與可能態(tài)句子的謂語有區(qū)別于其他語態(tài)的變形,但許多動詞的被動態(tài)和可能態(tài)具有相同的形式,因此需要引入句子的結(jié)構(gòu)特征進行區(qū)分。
圖2以例句“地下鉄で私の財布は憎らしい泥棒に盜まれました(在地鐵上我的錢包被可惡的小偷偷走了)”說明,如何抽取句子及句子生成的層次規(guī)則中的對應(yīng)特征。
圖2 日語依存句法樹示例
首先在抽取前進行句法分析及標注。根據(jù)標注結(jié)果抽取句子特征如表2所示。
表2 例句中的特征抽取
以句中短語示例,抽取層次短語規(guī)則時,把對應(yīng)的最大熵特征也抽取出來。首先從詞對齊關(guān)系中抽取到下面三個短語規(guī)則:
X→ <れ, 被>
X→ <泥棒 に, 小偷>
X→ <泥棒 に 盜ま れ, 被 小偷 偷>
由上述規(guī)則可以得到含有兩個非終結(jié)符的層次短語規(guī)則:
X →
該規(guī)則中泛化的部分中含有根節(jié)點,即謂語動詞或詞尾信息,需對該規(guī)則進行特征抽取,即抽取其完整的根節(jié)點信息(抽取范圍包括規(guī)則、非終結(jié)符和邊界詞)及非終結(jié)符中的句子結(jié)構(gòu)信息。抽取上述規(guī)則的最大熵特征如表3所示。
表3 規(guī)則中的特征抽取
3.4 翻譯模型融合
將抽取出規(guī)則的最大熵特征使用最大熵模型進行分類,得出三種語態(tài)的最大熵概率值P(V1),P(V2),P(V3),分別對應(yīng)被動態(tài)、可能態(tài)和其他語態(tài)。規(guī)則表中還有一類不包含語態(tài)信息的規(guī)則,包括沒有非終結(jié)符的規(guī)則(即短語規(guī)則)和非終結(jié)符中不包含句子中心節(jié)點的規(guī)則。實驗中將這類規(guī)則歸到其他語態(tài)類別,即P(V1)=0,P(V2)=0,P(V3)=1。
然后將語態(tài)特征加入到上一節(jié)介紹的翻譯模型中,最終生成三個翻譯模型。例如,將P(V1)加入規(guī)則表生成被動態(tài)規(guī)則表,同理,分別加入P(V2)、P(V3)生成可能態(tài)和其他語態(tài)的規(guī)則表。最終每個單獨的翻譯模型包含以下特征: 正反向翻譯概率、正反向詞匯化權(quán)重、N元語言模型、規(guī)則數(shù)量懲罰、長度懲罰,及語態(tài)特征P(V)。新增的特征與原有特征地位相同,其權(quán)重可以在權(quán)重調(diào)優(yōu)的階段一并進行調(diào)節(jié)。
通過直接在翻譯模型中加入特征的方法,既保留了層次短語模型原有的特征,同時也融入了新的規(guī)則的語態(tài)特征,沒有增加解碼算法的復(fù)雜度。在解碼階段,首先對輸入的句子進行語態(tài)分類,根據(jù)分類結(jié)果選擇不同的翻譯模型進行翻譯。
4.1 實驗及工具準備
本文數(shù)據(jù)來源于從網(wǎng)頁端抽取整理的50萬句日漢日常會話信息,并人工分類抽取出其中的被動態(tài)語句及可能態(tài)語句。語料相關(guān)信息如表4所示。
表4 實驗所用語料信息
本文使用Juman*http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN、KNP*http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP作為對日語分詞及句法分析的工具,使用stanford-chinese-segmenter*http://nlp.stanford.edu/software/segmenter.shtml工具對中文句子進行分詞。使用張樂博士的最大熵工具包*http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html作為分類工具。詞對齊信息由GIZA++*https://code.google.com/p/giza-pp/獲得,在目標端句子上使用SRI語言模型工具*http://www.speech.sri.com/projects/srilm/訓(xùn)練出五元語言模型?;跂|北大學(xué)NiuTrans統(tǒng)計機器翻譯系統(tǒng)[16]進行層次規(guī)則的抽取和解碼,翻譯質(zhì)量的評價指標為BLEU-4[17],最后由五名同學(xué)對翻譯結(jié)果進行了人工評測。
4.2 測試集句子分類
首先測試最大熵模型的語態(tài)分類效果。因測試集在翻譯前需要進行語態(tài)識別和分類,最大熵模型的分類準確率直接影響到翻譯效果。訓(xùn)練語料使用翻譯訓(xùn)練集的50萬句日漢日常會話語料。從翻譯開發(fā)集和測試集中抽取1 500句作為分類測試集,其中500句為被動態(tài)句子、500句為可能態(tài)句子,剩余500句為其他語態(tài)。對訓(xùn)練集及測試集進行句法分析后抽取句子的中心結(jié)構(gòu)詞F1和句子主干結(jié)構(gòu)F2訓(xùn)練并測試最大熵模型。使用準確率對語態(tài)的識別進行評價。因F2為輔助特征,僅僅加入F2識別效率非常低,故不做對比。實驗結(jié)果如表5所示,結(jié)果表明加入句子的主干結(jié)構(gòu)特征和中心詞特征可以有效識別被動態(tài)和可能態(tài)。
表5 最大熵分類實驗結(jié)果
4.3 翻譯實驗結(jié)果
實驗中使用已分好類別的測試集進行翻譯,這樣可以排除分類錯誤的句子對翻譯結(jié)果的影響,更好的分析系統(tǒng)性能。BLEU實驗結(jié)果如表6所示。
表6 不同測試集的BLEU值
僅僅加入F1時被動態(tài)和其他語態(tài)的BLEU值較基線系統(tǒng)略有下降,可能態(tài)的BLEU值上升,但變化幅度很小。對比加入全部特征的翻譯結(jié)果,僅加入F1時部分歧義問題沒有得到改善。原因在于僅加入中心詞無法有效地區(qū)分出被動與可能態(tài)謂語動詞變形相同的情況。
由于BLEU值不能完整地體現(xiàn)語態(tài)信息的翻譯效果,所以本文以《機器翻譯評測大綱》中人工評測規(guī)范為標準,對加入全部特征后的測試集翻譯結(jié)果進行了人工評測。句子評分根據(jù)可理解度取0.0-5.0分不等,可含一位小數(shù),最后得分是所有打分的算術(shù)平均值。最后采用式(10)使用百分制換算評測結(jié)果。
總的可理解度=所有句子得分之和/總句數(shù)/5×100%
(10)
本文僅對加入全部特征的最優(yōu)結(jié)果進行了人工評測,評測結(jié)果如表7所示。
表7 不同測試集的人工評測
分析實驗結(jié)果可知,本文方法相較于層次短語模型,在被動測試集上BLEU值提升0.09,在可能態(tài)測試集上BLEU有0.51的提高,且沒有影響到其他語態(tài)的翻譯。由于BLEU采用N-gram的完全匹配,針對語態(tài)的處理對BLEU值的影響不大。分析人工評測結(jié)果可知,本文方法在被動態(tài)、可能態(tài)及其他語態(tài)測試集上相比于基線系統(tǒng)可理解度均有2.29%~3.11%的提高,在可理解度上優(yōu)于基線系統(tǒng)。
4.4 實驗結(jié)果分析
對比實驗結(jié)果發(fā)現(xiàn),相比傳統(tǒng)的層次短語翻譯模型,加入語態(tài)特征的翻譯模型在翻譯時消去了部分短語在規(guī)則選擇時的歧義。如表8所示例句,基線系統(tǒng)選擇了錯誤規(guī)則,翻譯出了可能態(tài)的含義。而融合句法特征后,解碼器在翻譯被動態(tài)句子時正確選擇了被動態(tài)的規(guī)則,對“把”字與主語的位置也進行了正確的調(diào)序。 表9所示例句是可能態(tài),在解碼過程中選擇了可能態(tài)的規(guī)則進行翻譯,沒有丟失詞匯信息,相較于基線系統(tǒng)得到了更好的翻譯結(jié)果。
表8 被動態(tài)句子翻譯結(jié)果
表9 可能態(tài)句子翻譯結(jié)果
對實驗結(jié)果進行分析時發(fā)現(xiàn),日語被動態(tài)句子對應(yīng)的參考譯文具有不同的語序。部分日語被動態(tài)句子對應(yīng)的參考譯文是被動句或把字句,另一部分對應(yīng)的參考譯文是主動句。如表10所示例句,在日語中屬于被動態(tài),但是對應(yīng)的參考譯文不是被動句。相比于翻譯成“連續(xù)記錄片在每天七點被直播”,這里使用主動句更符合語言習(xí)慣,在沒有融合語態(tài)信息時BLEU值更高。在融合語態(tài)特征的翻譯模型中,對于被動態(tài)的不同表達形式無法進行判斷分類,是實驗中被動態(tài)測試集的BLEU值沒有明顯提升的主要原因。
表10 被動態(tài)句子翻譯結(jié)果
本文提出了一種提高日漢統(tǒng)計機器翻譯的可能態(tài)和被動態(tài)的方法, 該方法可以提高規(guī)則選擇的準確性。首先,針對被動態(tài)與可能態(tài)句子構(gòu)建分類模型,利用最大熵模型把句子的語態(tài)特征融合入層次短語翻譯模型中,實現(xiàn)在解碼過程中對不同語態(tài)規(guī)則的自動過濾。最后,實驗結(jié)果顯示,本文提出的方法可以有效提高翻譯質(zhì)量。
今后的工作主要包括: 如何有效解決學(xué)習(xí)數(shù)據(jù)的不平衡問題,提高分類精度和翻譯性能;嘗試把可能態(tài)和被動態(tài)的翻譯方法融合到其他統(tǒng)計翻譯模型中,如樹到串模型;其次,在模型中加入句子的句法結(jié)構(gòu)及句子的全局特征、雙語特征,提高翻譯精度;再次,嘗試融合神經(jīng)網(wǎng)絡(luò)語言模型以提高翻譯精度。
[1] Nakamura H. Two Types of Complex Predicate Formation: Japanese Passive and Potential Verbs[C]//Proceedings of the Pacific Asia Conference on Languages, Information, and Computation. 2007: 340-348.
[2] Alam Y S. A Rule-based Morpho-semantic Analyzer of the Japanese Verb Phrases of Simple Sentences[C]//Proceedings of the PACLIC. 2008: 101-112.
[3] 卜,朝暉, 淺井,良信, 王,軼謳, et al. 日中機械翻訳における構(gòu)文上の対応のずれに関する考察 : 受動態(tài)と能動態(tài)のずれ、品詞のずれを中心に(翻訳)[J]. 情報処理學(xué)會研究報告: 自然言語処理研究會報告, 2006, 2006(124): 33-40.
[4] Xiong D, Liu Q, Lin S. Maximum entropy based phrase reordering model for statistical machine translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 521-528.
[5] He Z, Liu Q, Lin S. Improving statistical machine translation using lexicalized rule selection[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 321-328
[6] Van Nguyen V, Shimazu A, Le Nguyen M, et al. Improving a lexicalized hierarchical reordering model using maximum entropy[C]//Proceedings of the MT Summit XII, Ottawa, Canada, August, 2009.
[7] Iglesias G, de Gispert A, Banga E R, et al. Rule filtering by pattern for efficient hierarchical translation[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009: 380-388.
[8] Shen L, Xu J, Weischedel R M. A New String-to-Dependency Machine Translation Algorithm with a Target Dependency Language Model[C]//Proceedings of the ACL. 2008: 577-585.
[10] Gao Y, Koehn P, Birch A. Soft dependency constraints for reordering in hierarchical phrase-based translation[C]//proceedings of the conference on empirical methods in natural language processing. Association for Computational Linguistics, 2011: 857-868.
[11] Chiang D. A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 263-270.
[12] Chiang D. Hierarchical Phrase-Based Translation[J]. Computational Linguistics, 2007, 33(2): 201-228.
[13] Kawahara D, Kurohashi S. Case frame compilation from the web using high-performance computing[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation.2006: 1344-1347.
[14] Murata M, Shirado T, Kanamaru T, et al. Machine-learning-based transformation of passive Japanese sentences into active by separating training data into each input particle[C]//Proceedings of the COLING/ACL on Main conference poster sessions. Association for Computational Linguistics, 2006: 587-594.
[15] Sasano R, Kawahara D, Kurohashi S, et al. Automatic Knowledge Acquisition for Case Alternation between the Passive and Active Voices in Japanese[C]//Proceedings of the EMNLP. 2013: 1213-1223.
[16] Xiao T, Zhu J, Zhang H, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of the ACL 2012 System Demonstrations. 2012: 19-24.
[17] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 311-318.
Integration of Passive and Active Voice Model into Japanese-Chinese Statistical Machine Translation
WANG Nan,XU Jin’an,MING Fang,CHEN Yufeng ,ZHANG Yujie
(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)
The suffixes of Japanese predicates have complex formation of different voice. Both passive and potential predicates are formed with the same suffix which originated from the same stem, which cause mistranslation in statistical machine translation. In this paper, a new method has been proposed for rule selection among different voice. Maximum entropy models are built to effectively classify passive and potential voice, and then voice features are integrated into the log-linear model translation model. In Japanese to Chinese translation task, large scale experiment shows that our approach improves the translation performance from 41.50 to 42.01 in BLEU score, and the informativness is 2.71% higher according to the human evaluation results.
passive voice; active voice; statistical machine translation; maximum entropy models
王楠(1992—),碩士研究生,主要研究領(lǐng)域為統(tǒng)計機器翻譯。E-mail:14120428@bjtu.edu.cn徐金安(1970—),通信作者,副教授,主要研究領(lǐng)域為自然語言處理和機器翻譯。E-mail:jaxu@bjtu.edu.cn明芳(1991—),碩士研究生,主要研究領(lǐng)域為統(tǒng)計機器翻譯。E-mail:14120416@bjtu.edu.cn
1003-0077(2016)06-0201-07
2016-09-27 定稿日期: 2016-10-25
國家自然科學(xué)基金(61370130,61473294);中央高?;究蒲袠I(yè)務(wù)費專項資金資助(2015JBM033);國家國際科技合作專項資助(2014DFA11350)
TP391
A