吳培昊,徐金安,謝 軍,張玉潔
(1. 北京交通大學(xué) 計算機與信息技術(shù)學(xué)院,北京 100044;2. 三星中國通信研究院,北京 100028)
日語與漢語分別是黏著語和孤立語,兩者間存在顯著的句法結(jié)構(gòu)差異。如日語為主語—賓語—謂語(SOV)結(jié)構(gòu),漢語為主語—謂語—賓語(SVO)結(jié)構(gòu);日語通過詞尾變化表達各種時態(tài)和句法形式;日語的格助詞是顯性格等。上述句法結(jié)構(gòu)上的差異,是導(dǎo)致日漢統(tǒng)計機器翻譯質(zhì)量相對低下的重要原因。
為解決統(tǒng)計機器翻譯中句法結(jié)構(gòu)差異的問題,研究者提出了基于句法的統(tǒng)計機器翻譯模型,主要包括基于成分樹的短語樹到串模型[1-2]、森林到串模型[3-4]和基于依存樹的翻譯模型[5]。然而,上述模型在適用于日漢統(tǒng)計機器翻譯時,由于日漢句法結(jié)構(gòu)上的顯著性差異,使得翻譯模型需要進一步改良,以提高翻譯質(zhì)量。
傳統(tǒng)方法中與日語相關(guān)的統(tǒng)計機器翻譯模型中以日英為主,研究者提出了基于語塊的日英統(tǒng)計機器翻譯[6]?;舅悸肥窍葘υ凑Z言和目標(biāo)語言句子進行語塊劃分。然后,對語塊中的詞進行翻譯。最終,對語塊的順序詞序進行調(diào)整。但是,該方法沒有從日語的句法結(jié)構(gòu)層面入手解決日英統(tǒng)計機器翻譯的句法考慮在模型中使用語塊中的句法信息結(jié)構(gòu)性差異問題,翻譯性能仍有待改善提高。
為消除源語言與目標(biāo)語言的結(jié)構(gòu)性差異,研究人員針對機器翻譯中的調(diào)序問題提出了一種通過人工制定預(yù)調(diào)序規(guī)則,在解碼前將日語句子的結(jié)構(gòu)調(diào)整為目標(biāo)語言語序的日英統(tǒng)計機器翻譯方法[7]。此方法存在人工規(guī)則存在主觀性較強、對語種具有依存性及領(lǐng)域適應(yīng)能力差等問題,推廣使用上受到一定的制約。
解決調(diào)序問題的另一種思路是自動獲取預(yù)調(diào)序規(guī)則。其中一種思路是基于中心語驅(qū)動的短語結(jié)構(gòu)樹及英日雙語平行語料庫詞對齊信息的自動獲取預(yù)調(diào)序規(guī)則[8]。該方法使用線性時間復(fù)雜度算法抽取預(yù)調(diào)序規(guī)則,在解碼前使用自底向上的算法實現(xiàn)中心語驅(qū)動的短語結(jié)構(gòu)的轉(zhuǎn)換,然后把使用預(yù)調(diào)序規(guī)則把英語句子按照日語句子的語序進行調(diào)整,實驗結(jié)果證明可有效提高翻譯性能。該方法在日漢統(tǒng)計機器翻譯系統(tǒng)實現(xiàn)中,具有一定的可擴展性。但是,由于漢語是孤立語,是表義型語言,句子構(gòu)成要素的詞匯的自由度較大,因此,該方法很難從根本上解決日漢統(tǒng)計機器翻譯所面臨的語言結(jié)構(gòu)性差異懸殊的問題。
同時,研究者還提出了一種從基于語塊的依存樹自動獲取預(yù)調(diào)序規(guī)則的方法[9]。該方法首先把日語依存樹轉(zhuǎn)換為中心語驅(qū)動的短語結(jié)構(gòu)樹,然后抽取預(yù)調(diào)序規(guī)則,重構(gòu)日語句子順序,所實現(xiàn)的日英統(tǒng)計機器翻譯系統(tǒng)的性能有所改善。但是,該方法并沒有從基于句法的統(tǒng)計翻譯模型方面,結(jié)合句法結(jié)構(gòu)信息解決源語言和目標(biāo)語言間的結(jié)構(gòu)性差異問題。
一種使用謂語論元結(jié)構(gòu)將句法結(jié)構(gòu)要素作為語義信息應(yīng)用到統(tǒng)計機器翻譯中的方法[10],取得了較好的成果。該方法首先使用訓(xùn)練好的短語翻譯模型對原文進行翻譯。然后,對原文及翻譯結(jié)果進行謂語論元結(jié)構(gòu)的語義角色標(biāo)注。最后,通過雙語語義角色標(biāo)注的結(jié)果,對翻譯結(jié)果進行句法重排,獲得最終翻譯結(jié)果。此方法的問題在于其系統(tǒng)翻譯性能受到既有訓(xùn)練好的短語翻譯模型系統(tǒng)性能的制約。此方法在應(yīng)用于日漢統(tǒng)計機器翻譯時,由于日漢語言上的差異造成短語翻譯模型的性能相對低下的問題。因此,該方法在推廣到日漢統(tǒng)計機器翻譯時面臨諸多困難。
為解決上述問題,本文在總結(jié)相關(guān)研究成果的基礎(chǔ)上,提出了一種融合日語格框架的基于語塊的依存樹到串日漢統(tǒng)計機器翻譯模型。通過從日語依存分析樹獲取格框架,在翻譯模型的規(guī)則抽取及解碼中,以日語格框架作為約束條件,指導(dǎo)依存樹的句法結(jié)構(gòu)重排,調(diào)整日語和漢語的句法結(jié)構(gòu)差異,實現(xiàn)格框架與日漢依存樹到串模型的融合。實驗結(jié)果顯示,本文提出的方法可有效改善日漢統(tǒng)計機器翻譯的句法結(jié)構(gòu)調(diào)序,還可有效提高日漢統(tǒng)計機器翻譯的譯文質(zhì)量。
本文其他章節(jié)的組織結(jié)構(gòu)如下: 第2章闡述格語法和日語格框架的相關(guān)理論;第3章描述本文提出的翻譯模型及規(guī)則抽取方式;第4章介紹本文模型的解碼過程;第5章通過實驗驗證本文方法的有效性;最后對本文進行總結(jié)與展望。
格語法于1968年由美國語言學(xué)家菲爾墨在《TransformationGrammar》中提出,是一種著重探討句法結(jié)構(gòu)與語義之間關(guān)系的語法理論和語義學(xué)理論。菲爾墨提出的格框架文法認(rèn)為命題中需用的格包括:施事格、工具格、承受格、使成格、方位格、客體格等6種。之后,在語言分析時又加了受益格、源點格、終點格及伴隨格等。
格語法理論強調(diào)句子結(jié)構(gòu)由一個核心動詞以及多個名詞短語組成,每個短語與核心動詞均存在某種特定的格關(guān)系。即格框架文法中的格框架描述了自然語言句子的深層結(jié)構(gòu)和語義信息,在自然語言處理中起到十分重要的作用。但是,到目前為止,格框架還沒有在統(tǒng)計機器翻譯系統(tǒng)中得到有效地利用。
日語是黏著語,屬于典型的格框架文法語言。日語格助詞為顯性格,在句法分析中較易與其他句子成分區(qū)分。圖1(a)為句子“あなたのお母さんがレストランで美味しい壽司を食べる(你的母親在餐館吃美味的壽司)”的基于語塊的依存句法分析結(jié)果,圖1(b)為句子中動詞“食べる”的格框架在該句子中的形式。
其中,句子中心詞為動詞詞干“食べる”,其表層格框架由動詞以及3個名詞短語組成,施事格“お 母さん が”,場所格“レストラン で”以及對象格“壽司 を”。其深層格框架如圖1(b)所示的格助詞附加每個格所屬的語義信息形成語義約束關(guān)系,如格助詞“が”附帶的詞“お母さん(母親)”的語義信息可以是“人”,“で”的附屬詞“レストラン(餐館)”的語義信息可以是“場所”,“ヲ格”的附屬詞“壽司(壽司)”的語義信息可以是“食物”,則以動詞“食べる”為中心詞,“人”、“場所”和“食物”形成日語動詞“食べる”的具有語義約束關(guān)系的深層語義格框架。
日語格框架在日語的自然語言處理技術(shù)中技術(shù)成熟,在日語依存句法分析基于規(guī)則的機器翻譯等領(lǐng)域得到廣泛和成功的應(yīng)用[11]。日語格框架庫自動構(gòu)建方面,以互聯(lián)網(wǎng)為對象,基于半監(jiān)督機器學(xué)習(xí)方法的大規(guī)模詞匯化日語格框架自動獲取技術(shù)[12-14]取得了很大的成功。自動抽取的日語格框架庫還大大提升了日語依存句法分析的性能。
圖1 日語依存句法樹示例
本文使用三元組
V表示日語謂詞原型的集合,以區(qū)別于謂詞的活用形。
C表示日語謂詞的活用形集合,活用形描述謂詞在句子中的時態(tài)、意愿、假設(shè)、祈使、能動、被動等變化形式。表1所示以動詞“食べる”為例,例舉了部分活用形的變化。
表1 動詞“食べる”的部分活用形示例
R表示日語格助詞集合,日語格助詞集合如表2所示。除此以外,日語副助詞“は”、“では”和“には”等也具有格助詞的特性。
表2 日語部分格助詞集合
對于任意一個日語句子的中心謂詞,包括動詞、形容詞或形容動詞。其格框架(CF)可由三元組
h∈V為句子的中心謂詞的原型或詞干。
t∈C為句子的中心謂詞在句中的活用形。
φ∈R*表示句子的中心謂詞的格框架的各個格助詞,每一個格助詞的順序按照其在句子中的先后順序進行排序并進行標(biāo)號。
對于一個完成了日語依存句法分析的句子,其中心謂詞可從依存句法分析樹的根節(jié)點的語塊中獲取。該中心謂詞的格框架,可以由兩種方法得到。
1) 從既有日語依存分析樹自動抽取謂詞格框架。通過分析與句子中心謂詞所在節(jié)點有直接依存關(guān)系的日語格助詞與集合R中的元素進行模式匹配,得到該中心謂詞的格框架。如圖1(a)所示的日語依存樹,與動詞 “食べる”有依存關(guān)系的格助詞分別為“は”,“で”和“を”,對應(yīng)的表層格關(guān)系為“ガ格”,“デ格”以及“ヲ格”。
2) 另一種是使用日語格框架庫*http://nlp.ist.i.kyoto-u.ac.jp/,與日語句子的依存分析樹進行模式匹配獲取格框架的方法。該方法的優(yōu)點是可有效彌補日語句子中被省略的日語格助詞,使獲取的日語格框架成份具有完整性。該方法中使用的日語格框架庫的例子如表3所示。
表3 “食べる”的部分詞匯化日語格框架示例
格框架庫中,動詞“食べる”的部分詞匯化格框架,與句子中的中心詞和與之有依存關(guān)系的格助詞、及格助詞所依存的詞干進行模式匹配,可以獲取動詞“食べる”的格框架。
當(dāng)使用第2種方法抽取特定中心謂詞的格框架時,存在復(fù)數(shù)格框架選擇的可能性。在此情況下,本文結(jié)合第一種方法獲取的格框架,計算格框架的相似度,選取與第一種方法相似度最高的候選結(jié)果作為該中心謂詞的格框架。
依據(jù)上述格框架的定義
h:食べt:基本形φ:x1:が格,x2:ヲ格,x3:デ格
其格框架表現(xiàn)形式如下:
<食べ, 基本型, x1:が格,x2:ヲ格,x3:デ格>
本文提出的方法旨在將日語格框架融合到依存樹到串模型中的規(guī)則抽取及解碼過程中,將格框架作為約束條件,改善統(tǒng)計機器翻譯性能。
本文定義三元組
圖2 源語言依存樹與目標(biāo)語言串對齊示例
本文定義的依存樹到串模型中,翻譯規(guī)則包含兩部分:
詞匯化翻譯規(guī)則(LTR規(guī)則)。LTR規(guī)則的作用在于,將源端語塊或短語,轉(zhuǎn)化為目標(biāo)端對應(yīng)的翻譯結(jié)果。
格框架調(diào)序規(guī)則(CFR規(guī)則)。通過使用CFR規(guī)則,將源端依存樹結(jié)構(gòu)轉(zhuǎn)化為目標(biāo)端序列。
本文翻譯模型中,CFR規(guī)則的形式化定義為
翻譯模型的規(guī)則抽取包含如下3個步驟: 1) 依存樹標(biāo)記;2)CFR規(guī)則抽取子樹判定;3) 規(guī)則抽取。
定義依存樹T中的每個節(jié)點均包含兩個屬性: 1) 對齊跨度,2) 子樹對齊跨度。
定義1任意依存樹T中的節(jié)點n,該節(jié)點的對齊跨度hsp(n)為目標(biāo)端中與節(jié)點n存在詞對關(guān)系的目標(biāo)端詞集合。
如圖2所示,由于目標(biāo)端詞“在”與“餐館”與節(jié)點“レストラン で”中的詞存在對應(yīng)關(guān)系,因此hsp(レストラン で) ={4-5}。
定義2任意依存樹T中的節(jié)點n,若hsp(n)滿足如下條件,則認(rèn)為hsp(n)是獨立的。
?n′≠nhsp(n′)∩hsp(n)=?
定義3對于以節(jié)點n為根的子樹T′,子樹對齊跨度dsp(n)的定義如下:
例如,可以dsp(お母さんが)可以根據(jù)如下方法計算。
dsp(お母さんが)=hsp(あなたの) ∪(お母さんが) = {1-3}
根據(jù)上述定義,通過使用后序遍歷算法,依存樹T中的各個節(jié)點標(biāo)記對齊跨度以及子樹對齊跨度。
由于詞對齊錯誤、俚語等情況的存在,并非所有格框架均可以抽取CFR規(guī)則。因此,在規(guī)則抽取前,需要判定格框架是否可以抽取CFR規(guī)則。
定義4T’為T的子樹,若T’根節(jié)點存在中心謂詞,且可以抽取格框架,則子樹T’∈cft(T) 。
定義5在日語依存樹T中,可抽取CFR規(guī)則的子樹集合為adt(T)。對任意T’∈cft(T),若T’滿足如下條件,則T’∈adt(T):
條件1:hsp(chunk(h))≠?
條件2: ?n′依存于chunk(h)dsp(n’)≠?
條件3: 在該子樹中,dsp(chunk(h))獨立
其中,chunk(h)表示詞h所在語塊。
在圖2中以“食べる”為根的子樹T’∈cft(T),格框架為<食べ, 基本型, x1:が格,x2:ヲ格,x3:デ格>。依據(jù)上述條件可知:
hsp(chunk(食べる))=hsp(食べる) = {6}滿足條件1和條件3。
dsp(お母さん),dsp(レストランで)和dsp(壽司を)均不為?,滿足條件2。
因此,T’∈adt(T)可以抽取CFR規(guī)則。
本文使用自頂向下遍歷依存樹的方法抽取翻譯規(guī)則,具體抽取方法如下所述。
3.3.1 LTR規(guī)則抽取
依存樹的遍歷過程中,在下述兩種情況下,需要抽取LTR規(guī)則。
1) 依存樹節(jié)點的語塊。對于依存樹中每個節(jié)點的語塊,根據(jù)雙語詞對齊信息A及目標(biāo)語言端詞序列S,基于短語模型的規(guī)則抽取方法[15],抽取LTR規(guī)則。
2) 若子樹T’?adt(T),則將該子樹轉(zhuǎn)化為源端字符串序列,視作一個語塊,參照情況1規(guī)則抽取方法獲取LTR規(guī)則。
圖3為情況2下,對子樹抽取LTR規(guī)則的一個實例。
圖3 LTR規(guī)則抽取示例
3.3.2 CFR規(guī)則抽取
若子樹T’∈adt(T),則根據(jù)依存樹標(biāo)記信息,抽取CFR規(guī)則,具體方法如下所述。
首先,獲取任意格助詞φ’ ∈φ所在組塊的子樹對齊跨度dsp(お母さん),以及動詞h所在組塊的對齊跨度hsp(h)。
然后,根據(jù)獲取的dsp(φ’)及hsp(h)信息,確定在該句對中,子樹T’的格框架中格助詞及中心謂詞在目標(biāo)語言端的順序關(guān)系,記錄在ω中。獲取最終的CFR規(guī)則。
依據(jù)上述方法,圖2中動詞“食べる”的格框架在目標(biāo)端的調(diào)序后為ω=x1x2hx3。從而,該格框架的CFR規(guī)則如下。其中,h指代該格框架的中心謂詞:
<食べ, 基本型, x1:が格,x2:ヲ格,x3:デ格,x1x2hx3>
LTR規(guī)則的概率計算,參照(Kohen et al., 2003)的方法,計算方法如式(1)所示。
其中,P(s|t)為源語言短語s翻譯為目標(biāo)語言短語t的正向翻譯概率,count(s,t)為s和t在訓(xùn)練語料中出現(xiàn)的共現(xiàn)次數(shù)。
CFR規(guī)則的概率計算,本文使用最大似然估算方法,計算方法如式(2)所示:
其中,count(P(
京都大學(xué)日語格框架庫中,共收錄了34 059個日語動詞的格框架。由于訓(xùn)練語料規(guī)模限制,日語動詞格框架的CFR規(guī)則無法全部從訓(xùn)練語料中抽取,該問題的產(chǎn)生將導(dǎo)致解碼過程中CFR規(guī)則無法匹配的問題。
為解決數(shù)據(jù)稀疏問題造成的CFR規(guī)則缺失。本文基于日語中心謂詞的活用型,將日語中心謂詞進行分類。CFR規(guī)則形式化定義
依據(jù)上述修正,原有CFR規(guī)則<食べ, 基本型, x1:が格,x2:ヲ格,x3:デ格,x1x2hx3>中,日語動詞“食べる”的活用型為“母音動詞”。本文統(tǒng)計模型下,該CFR規(guī)則的最終表現(xiàn)形式為: <母音動詞, 基本型, x1:が格,x2:ヲ格,x3:デ格,x1x2hx3>
本文的解碼使用對數(shù)線性模型,對于給定的日語依存樹,從所有可能的結(jié)果D中,尋找出最優(yōu)結(jié)果d*。
假設(shè)d為源語言依存句法樹T轉(zhuǎn)化為目標(biāo)語言串e的可能方式。d的概率定義如式(4)所示。
其中,Φi為特征參數(shù),λi為特征參數(shù)的權(quán)重。本文模型中,包含了8個權(quán)重:
?CFR規(guī)則概率P(s|t)
?LTR規(guī)則概率P(s|t)和P(t|s)
? 詞匯化概率Plex(s|t)和Plex(t|s)
? 規(guī)則懲罰exp(-1)
? 字懲罰exp(|e|)
? 語言模型Plm(e)
本文使用最小錯誤率訓(xùn)練[16]對參數(shù)λi進行優(yōu)化。
本文使用自頂向下的方法進行解碼。圖4為本文方法解碼的一個示例。具體算法流程描述見算法1。
圖4 解碼流程示例
算法根據(jù)下述兩個要點進行解碼:
1) 若以當(dāng)前節(jié)點為根的子樹T’?adt(T),將該子樹轉(zhuǎn)化為源端字符串序列,視作一個語塊,使用LTR規(guī)則進行翻譯。
2) 若以當(dāng)前節(jié)點為根的子樹T’∈adt(T),使用LTR規(guī)則翻譯T’根節(jié)點的語塊,遞歸對依存于當(dāng)前節(jié)點的所有子樹進行解碼。最后,使用CFR規(guī)則對該節(jié)點及依存于該節(jié)點的子樹進行調(diào)序,合并子樹。
通過上述方法,最終獲取依存樹的最佳翻譯結(jié)果。
本文在日漢新聞與專利文獻兩個領(lǐng)域進行實驗,測試本文方法在日漢統(tǒng)計機器翻譯系統(tǒng)中的性能。其中,新聞使用CWMT2011*http://mt.xmu.edu.cn/cwmt2011/評測中的日漢新聞評測語料,專利文獻使用ASPEC*http://orchid.kuee.kyoto-u.ac.jp/ASPEC/的日漢專利文獻語料,語料相關(guān)信息如表4所示。
表4 實驗語料相關(guān)信息
算法1本文解碼算法
輸入: 源端依存結(jié)構(gòu)樹T,LTR規(guī)則集L,CFR規(guī)則集R
輸出: 翻譯結(jié)果
CFset←CaseFrame(T)
for chunk in T from top to bottom
ifchunk∈CFset:
then
translatechunkwithL
translateeverysubtreewhichrelatestochunk
reordersubtreesandchunkwithR
end
translatesubtreeasachunkwithL
returnthebestresultoftherootchunk
為比較本文方法在統(tǒng)計機器翻譯模型的有效性,本文使用層次短語模型(HPB)與本文方法(Cdep2str)進行比較。同時,為檢驗,實驗中使用基于詞的依存樹到串模型(dep2str)[5]與本文方法進行比較。在使用dep2str模型前,本文先將日語基于語塊的依存樹轉(zhuǎn)化為基于詞的依存樹。
本文實驗工具配置如下:
Juman7.0*http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?JUMAN: 日語分詞工具。
KNP4.0.1*http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?KNP: 日語依存句法分析工具。
Stanford Chinese Segmenter*http://nlp.stanford.edu/software/segmenter.shtml: 中文分詞工具,本文中文分詞使用ctb中文分詞標(biāo)準(zhǔn)。
GIZA++*http://code.google.com/p/giza-pp/: 進行雙語詞對齊計算,并使用“grow-diag-final-and”對雙向?qū)R結(jié)果進行融合。
SRL Language Modeling Toolkit*http://www.speech.sri.com/projects/srilm/: 構(gòu)建中文五元語言模型。
MOSES*http://www.statmt.org/moses/:訓(xùn)練本文的層次短語模型(HPB),短語模型中,最大短語長度設(shè)置為10。
MERT(Och, 2003):對模型參數(shù)進行優(yōu)化,在開發(fā)集上獲得較高的BLEU值。
實驗結(jié)果(表5)表明,在不同領(lǐng)域下,本文方法相對于層次短語模型, BLEU均有了一定的提高,同時,抽取的規(guī)則數(shù)量遠小于層次短語模型。雖然dep2str模型抽取的規(guī)則數(shù)量是3個模型中最少的,但是,其翻譯性能在3個模型中效果最差。
表5 實驗結(jié)果
與HPB模型相比,本文模型Cdep2str存在兩個方面的優(yōu)勢。
句法結(jié)構(gòu)調(diào)序。日語與漢語分別屬于黏著語系和孤立語系,兩者間存在顯著的句法結(jié)構(gòu)差異,句法結(jié)構(gòu)調(diào)序問題復(fù)雜。由于規(guī)則抽取的長度限制,HPB模型無法正確選擇長距離調(diào)序規(guī)則。與此同時,Cdep2str模型使用基于格框架的CFR規(guī)則,在句法層面對譯文進行調(diào)序,有效地解決了日漢統(tǒng)計機器翻譯中的句法結(jié)構(gòu)差異問題。如下例所示,Cdep2str模型對日語句子進行了正確的句法調(diào)序。
原句[翌年に]1[東京·那覇間の航海便を]2[やめたらしい。]3參考譯文[在第二年]1[取消了]3[東京那霸一線的班輪。]2HPB[第二年在]1[東京·那霸之間的航海航班]2[停止了似乎。]3Cdep2str[第二年]1[停止了]3[東京·那霸之間的航班。]2
詞匯翻譯。本文模型的規(guī)則抽取中,通過使用依存句法結(jié)構(gòu)限制,對詞匯化翻譯規(guī)則的抽取進行限制。與HPB模型相比,本文模型降低了詞匯化翻譯規(guī)則的噪聲。如下例所示,在翻譯“航空 便 で”的詞匯選擇上,本文方法的詞匯翻譯結(jié)果較好。
原句航空便でいくらぐらいかかりますか。參考譯文寄航空要多少錢?HPB用航空大約要多少錢?Cdep2str用航空郵寄要多少錢?
由于日漢句法結(jié)構(gòu)存在較大差異,導(dǎo)致訓(xùn)練語料的詞對齊效果較差。dep2str模型以詞作為規(guī)則抽取的基本單元,將導(dǎo)致大量的詞匯化翻譯規(guī)則無法抽取,因此,dep2str模型不適用于日漢統(tǒng)計機器翻譯。同時,dep2str模型在處理俚語方面,也存在不足。例如,“鬼の首を取ったよう(獲取寶藏)”無法抽取正確的譯文。本文方法以語塊作為詞匯化規(guī)則抽取的基本單元,相對于dep2str模型,能夠獲得更好的翻譯結(jié)果。
本文提出了一種格框架的基于語塊的依存樹到串日漢翻譯模型。通過從日語依存句法分析結(jié)果中獲取格框架,并使用格框架限制日漢語塊依存樹到串模型的規(guī)則抽取及解碼,有效的解決了黏著語系與孤立語系間的結(jié)構(gòu)調(diào)序問題。本文方法通過使用格框架,將應(yīng)用于日語規(guī)則翻譯系統(tǒng)的淺層語義信息應(yīng)用到統(tǒng)計機器翻譯中,是一種將規(guī)則翻譯系統(tǒng)的思想融合到統(tǒng)計機器翻譯中的思想。該思想對不同方法下的機器翻譯系統(tǒng)融合有一定的指導(dǎo)作用。
在今后的工作中,我們將對格框架在機器翻譯下的應(yīng)用進行深入研究,將格框架下的深層語義信息應(yīng)用到機器翻譯中,以期實現(xiàn)真正意義上的基于語義機器翻譯。本文方法并沒有深入研究格框架的中心謂詞時態(tài)對統(tǒng)計機器翻譯的影響,這是一個值得深入探討的問題。同時,在研究中心謂詞格框架的同時,對日語名詞格框架的研究,對機器翻譯也應(yīng)當(dāng)有一定的幫助。
[1] Yamada K, Knight K. A syntax-based statistical translation model[C]//Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2001: 523-530.
[2] Liu Y, Liu Q, Lin S. Tree-to-string alignment template for statistical machine translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 609-616.
[3] Liu Y, Huang Y, Liu Q, et al. Forest-to-string statistical translation rules[C]//Proceedings of ANNUAL MEETING-ASSOCIATION FOR COMPUTATIONAL LINGUISTICS. 2007, 45(1): 704.
[4] Mi H, Huang L, Liu Q. Forest-Based Translation[C]//Proceedings of ACL. 2008: 192-199.
[5] Xie J, Mi H, Liu Q. A novel dependency-to-string model for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 216-226.
[6] Watanabe T, Sumita E, Okuno H G. Chunk-based statistical translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Association for Computational Linguistics, 2003: 303-310.
[7] Hoshino S, Miyao Y, Sudoh K, et al. Two-Stage Pre-ordering for Japanese-to-English Statistical Machine Translation[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing. 2013.
[8] Wu X, Sudoh K, Duh K, et al. Extracting Pre-ordering Rules from Predicate-Argument Structures[C]//Proceedings of IJCNLP. 2011: 29-37.
[9] Wu X, Sudoh K, Duh K, et al. Extracting preordering rules from chunk-based dependency trees for Japanese-to-English translation[C]. Proceedings of the 13th Machine Translation Summit, 2011: 300-307.
[10] Wu D, Fung P. Semantic roles for smt: a hybrid two-pass model[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009: 13-16.
[12] Kawahara D, Kurohashi S. Case frame compilation from the web using high-performance computing[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation. 2006: 1344-1347.
[13] Kawahara D, Kurohashi S. A fully-lexicalized probabilistic model for Japanese syntactic and case structure analysis[C]//Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Association for Computational Linguistics, 2006: 176-183.
[14] Sasano R, Kurohashi S. A Discriminative Approach to Japanese Zero Anaphora Resolution with Large-scale Lexicalized Case Frames[C]//Proceedings of the IJCNLP. 2011: 758-766.
[15] Koehn P, Och F J, Marcu D. Statistical phrase-based translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics, 2003: 48-54.
[16] Och F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Association for Computational Linguistics, 2003: 160-167.