曹 杰,呂雅娟,蘇勁松,劉 群
(中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,中國(guó)科學(xué)院 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190)
近年來(lái),統(tǒng)計(jì)機(jī)器翻譯研究得到了迅猛的發(fā)展,提出了很多新的模型和方法并取得了很好的效果[1-3]。一些先進(jìn)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)已經(jīng)得到了實(shí)際應(yīng)用,如Google的在線翻譯和跨語(yǔ)言信息檢索系統(tǒng)。統(tǒng)計(jì)機(jī)器翻譯的實(shí)用價(jià)值逐漸得到體現(xiàn)。
當(dāng)前主流的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)都需要在大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練得到翻譯模型和語(yǔ)言模型。訓(xùn)練得到的模型在翻譯同一領(lǐng)域的文本時(shí)通常會(huì)得到質(zhì)量較高的譯文,但翻譯其他領(lǐng)域文本時(shí),翻譯質(zhì)量明顯下降。對(duì)于某些領(lǐng)域而言,獲取大規(guī)模的平行語(yǔ)料是非常困難的。研究有效的領(lǐng)域自適應(yīng)策略是一個(gè)可行辦法。
一般說(shuō)來(lái),獲取某個(gè)領(lǐng)域的單語(yǔ)語(yǔ)料庫(kù)比雙語(yǔ)平行的語(yǔ)料庫(kù)要容易很多,而不同領(lǐng)域的單語(yǔ)上下文中包含著與領(lǐng)域相關(guān)的信息,有效利用這些領(lǐng)域信息會(huì)對(duì)統(tǒng)計(jì)機(jī)器翻譯自適應(yīng)研究有所幫助。
本文提出了一種領(lǐng)域特征計(jì)算方法,領(lǐng)域特征的計(jì)算中引入了單語(yǔ)上下文信息。相比于基于短語(yǔ)的模型而言,能夠利用詞性信息、長(zhǎng)距離上下文等更豐富的上下文信息。
領(lǐng)域自適應(yīng)問(wèn)題在語(yǔ)音識(shí)別領(lǐng)域已有較多研究,但由于機(jī)器翻譯問(wèn)題的復(fù)雜性,在機(jī)器翻譯模型尚不完善的階段,領(lǐng)域自適應(yīng)的研究較少。隨著近幾年統(tǒng)計(jì)機(jī)器翻譯模型的不斷完善,越來(lái)越多的學(xué)者注意到領(lǐng)域自適應(yīng)問(wèn)題在機(jī)器翻譯中的重要性,相關(guān)研究也開(kāi)始增多。
目前在機(jī)器翻譯領(lǐng)域,自適應(yīng)的研究按照自適應(yīng)對(duì)象模型的不同可以分為翻譯模型自適應(yīng)和語(yǔ)言模型自適應(yīng)。
對(duì)語(yǔ)言模型自適應(yīng)的研究思路基本上都是采取構(gòu)建信息檢索模型,從單語(yǔ)語(yǔ)料庫(kù)中檢索與待翻譯領(lǐng)域相似的句子,用這些句子構(gòu)建自適應(yīng)的語(yǔ)言模型以提高翻譯效果。語(yǔ)言模型自適應(yīng)先是被應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,并取得了一定的效果,Eck et al.和Zhao et al.等人將這一思想引入統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域[4-5],將首次翻譯的得到的候選翻譯結(jié)果視為信息檢索模型中的查詢(xún),在海量的單語(yǔ)語(yǔ)料庫(kù)中檢索出相似的數(shù)據(jù),根據(jù)檢索數(shù)據(jù)訓(xùn)練得到自適應(yīng)的語(yǔ)言模型,可以明顯的提高統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量。
翻譯模型的自適應(yīng)研究中,Hildebrand et al.提出一種方法,從雙語(yǔ)平行語(yǔ)料庫(kù)中檢索與測(cè)試集相似的句子,在檢索返回的句子上訓(xùn)練自適應(yīng)的翻譯模型,將自適應(yīng)的翻譯模型與原翻譯模型聯(lián)合使用將會(huì)提高翻譯質(zhì)量[6]。Ueffing et al.提出一種在機(jī)器翻譯中使用半監(jiān)督學(xué)習(xí)的算法[7]:首先利用雙語(yǔ)語(yǔ)料庫(kù)訓(xùn)練一個(gè)初始的翻譯系統(tǒng),然后對(duì)in-domain的源語(yǔ)言單語(yǔ)進(jìn)行翻譯并對(duì)翻譯結(jié)果進(jìn)行打分,選擇分?jǐn)?shù)較高的譯文與源語(yǔ)言單語(yǔ)構(gòu)成人工構(gòu)造的雙語(yǔ)語(yǔ)料庫(kù),將構(gòu)造出的雙語(yǔ)語(yǔ)料庫(kù)與原平行語(yǔ)料庫(kù)合并進(jìn)行訓(xùn)練,重復(fù)該過(guò)程,直到到達(dá)一定的輪數(shù)。這時(shí)候得到的增強(qiáng)的模型翻譯效果比初始翻譯系統(tǒng)要好。Yajuan Lü et al.[8]提出通過(guò)離線的數(shù)據(jù)選擇和在線的模型優(yōu)化的策略進(jìn)行翻譯模型的自適應(yīng)。本質(zhì)上看,模型優(yōu)化是對(duì)多個(gè)短語(yǔ)表的插值使用,插值的系數(shù)由檢索到的隸屬子模型的句子在整個(gè)檢索結(jié)果集中的比例決定。
綜上所述,當(dāng)前統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)的研究主要集中在利用信息檢索工具或者半監(jiān)督等學(xué)習(xí)方法擴(kuò)大訓(xùn)練集規(guī)模上,而對(duì)單語(yǔ)信息的利用并不充分。目前對(duì)單語(yǔ)的使用方式主要有以下兩種:一是作為查詢(xún)條件從雙語(yǔ)語(yǔ)料庫(kù)中檢索相似句子作為自適應(yīng)訓(xùn)練集,另外一種是用于半監(jiān)督學(xué)習(xí),通過(guò)初始系統(tǒng)對(duì)源語(yǔ)言翻譯,然后選擇較好的譯文得到人工構(gòu)造的雙語(yǔ),與原有的訓(xùn)練數(shù)據(jù)一起訓(xùn)練新的模型。
我們認(rèn)為以上兩種使用單語(yǔ)的方法沒(méi)有充分挖掘單語(yǔ)內(nèi)部包含的領(lǐng)域信息,本文提出一種有效利用單語(yǔ)上下文信息引入領(lǐng)域相關(guān)(Domain-specific)特征的方法。主要包括兩步:一是從領(lǐng)域混雜的語(yǔ)料庫(kù)中檢索出與待翻譯文本領(lǐng)域上接近的平行句對(duì)以擴(kuò)大訓(xùn)練集規(guī)模,一是挖掘該領(lǐng)域的單語(yǔ)上下文信息,作為新特征引入對(duì)數(shù)模型框架內(nèi),使得與該領(lǐng)域相關(guān)的短語(yǔ)譯文更有可能在機(jī)器翻譯解碼過(guò)程中被選擇到。
領(lǐng)域自適應(yīng)問(wèn)題研究中,領(lǐng)域的表示是一個(gè)重要問(wèn)題。我們認(rèn)為,領(lǐng)域單語(yǔ)中包含著領(lǐng)域信息,上下文信息可以認(rèn)為是表示領(lǐng)域的一個(gè)重要特征。如果能有效的融合領(lǐng)域信息和翻譯模型,那么對(duì)領(lǐng)域自適應(yīng)的研究將是很有幫助的。下面的例子顯示了單語(yǔ)上下文信息對(duì)機(jī)器翻譯的幫助。
我們要翻譯關(guān)于功夫電影的文本,但我們只有經(jīng)濟(jì)領(lǐng)域的雙語(yǔ)語(yǔ)料來(lái)訓(xùn)練翻譯系統(tǒng),此外,我們還有大量關(guān)于功夫電影領(lǐng)域的單語(yǔ)文本。假設(shè)語(yǔ)料如表1所示,詞對(duì)齊后,中國(guó)分別對(duì)齊到China和Chinese。
表1 包含“中國(guó)”一詞的平行句對(duì)和單語(yǔ)句子
在經(jīng)濟(jì)領(lǐng)域語(yǔ)料中,不考慮短語(yǔ)擴(kuò)展的情況下,“中國(guó)”一詞的翻譯概率如表2所示。
我們要翻譯來(lái)自功夫電影領(lǐng)域的漢語(yǔ)句子“我 喜歡 中國(guó) 功夫”, 由經(jīng)濟(jì)領(lǐng)域的平行語(yǔ)料訓(xùn)練的翻譯系統(tǒng),將“中國(guó)”翻譯為China的概率要大于Chinese,翻譯結(jié)果可能是“I love China Gongfu”。
表2 “中國(guó)”一詞的翻譯概率
在功夫電影領(lǐng)域的源語(yǔ)言單語(yǔ)中,“中國(guó)”一詞出現(xiàn)時(shí),后面經(jīng)常接“人”這個(gè)詞,這就提供了有用的領(lǐng)域信息:在功夫的電影領(lǐng)域,“中國(guó)”后面經(jīng)常接“人”這個(gè)詞。本文提出的方法可以將上下文信息轉(zhuǎn)化為領(lǐng)域特征引入翻譯模型中,提高“中國(guó)”翻譯為Chinese的概率,在翻譯“我 喜歡 中國(guó) 功夫”一句時(shí),可以翻譯得到“I love Chinese Gongfu”。翻譯效果要好于直接使用經(jīng)濟(jì)領(lǐng)域雙語(yǔ)訓(xùn)練出的模型。
統(tǒng)計(jì)機(jī)器翻譯的對(duì)數(shù)線性模型中,翻譯的過(guò)程被建模為尋找最大概率譯文ebest的過(guò)程:
(1)
其中,h1(e,f)…h(huán)m(e,f)是建立在源語(yǔ)言f和目標(biāo)語(yǔ)言e上的m個(gè)特征函數(shù),λ1...λm是其對(duì)應(yīng)的特征值。對(duì)數(shù)線性模型中可以方便的擴(kuò)充新的特征,在此,我們引入帶上下文信息的領(lǐng)域翻譯概率PD(e|f),其計(jì)算公式為:
(2)
在PD(e|f)的計(jì)算過(guò)程中,我們引入了隱變量context,代表上下文特征。其中,PD(context|f)可以從領(lǐng)域D的單語(yǔ)計(jì)算得到,代表了一定的領(lǐng)域信息。對(duì)于PD(e|f,context),缺乏D的雙語(yǔ)語(yǔ)料,無(wú)法準(zhǔn)確計(jì)算,我們采用信息檢索的辦法從大規(guī)模的混合領(lǐng)域雙語(yǔ)中檢索出與領(lǐng)域D接近的語(yǔ)料作為雙語(yǔ)訓(xùn)練語(yǔ)料。檢索得到的雙語(yǔ)語(yǔ)料在領(lǐng)域上與D接近,從近似語(yǔ)料中計(jì)算的概率分布PD-similar(e|f,context)與領(lǐng)域D上的概率分布PD(e|f,context)比較接近。在此,我們用PD-similar(e|f,context)代替PD(e|f,context),得公式(3):
PD(e|f)
(3)
總結(jié)起來(lái),領(lǐng)域特征的計(jì)算過(guò)程可分為以下四步:1) 從領(lǐng)域單語(yǔ)中抽取領(lǐng)域相關(guān)的單語(yǔ)上下文信息。2) 檢索出一批領(lǐng)域接近的雙語(yǔ)語(yǔ)料作為新的訓(xùn)練語(yǔ)料 3) 從訓(xùn)練語(yǔ)料的雙語(yǔ)詞對(duì)齊結(jié)果中抽取帶上下文信息的短語(yǔ)翻譯對(duì)。4) 用1)和3)的結(jié)果計(jì)算領(lǐng)域特征。
下面以3.1節(jié)的例子為例,說(shuō)明本方法起作用的原因。這里,我們?nèi)ontext為下文第一個(gè)詞,下面以3.1節(jié)中的“中國(guó)”一詞為例,分別計(jì)算PD-similar(e|f,context)和PD(context|f)。在經(jīng)濟(jì)領(lǐng)域中,帶有Context的翻譯概率如表3所示。
表3 經(jīng)濟(jì)領(lǐng)域雙語(yǔ)中“中國(guó)”下文詞的統(tǒng)計(jì)信息
在功夫電影領(lǐng)域單語(yǔ)中,“中國(guó)”的下文詞統(tǒng)計(jì)信息如表4所示。
取Context為下文第一個(gè)詞時(shí),根據(jù)表3,4的統(tǒng)計(jì)信息,使用功夫電影領(lǐng)域單語(yǔ)進(jìn)行自適應(yīng)后的領(lǐng)域特征的計(jì)算如表5所示。
表4 功夫電影領(lǐng)域“中國(guó)”下文詞的統(tǒng)計(jì)信息
表5 領(lǐng)域特征的計(jì)算
表5中,“中國(guó)”翻譯為Chinese領(lǐng)域特征值大于翻譯為China。加入新特征后的模型將“我 喜歡 中國(guó) 功夫”翻譯為“I love Chinese Gongfu”,與正確譯文更加接近。
上述推導(dǎo)過(guò)程可以看出本方法充分利用了單語(yǔ)體現(xiàn)出的“中國(guó)”后面經(jīng)常接“人”這個(gè)詞的特征。本例子用到的特征是源語(yǔ)言單語(yǔ)的下文第一個(gè)詞,同理,其他上下文特征也能起類(lèi)似作用。
基于短語(yǔ)的翻譯模型本身具備一定的上下文翻譯能力,但對(duì)于詞性等上下文信息沒(méi)有處理能力,本文的方法可以應(yīng)用詞、詞性、長(zhǎng)距離上下文等多種上下文信息,比短語(yǔ)內(nèi)部包含的上下文要豐富很多。而且,這里的上下文來(lái)源于領(lǐng)域單語(yǔ),這也是與短語(yǔ)模型上下文的區(qū)別。
理論上,任何能有效表示該領(lǐng)域上下文的特征都可以轉(zhuǎn)化為領(lǐng)域特征融入對(duì)數(shù)線性模型,本文提出的模型在上下文特征的選擇上具有很強(qiáng)的擴(kuò)展性。
我們采用著名的開(kāi)源工具M(jìn)oses*http://www.statmt.org/moses/作基線系統(tǒng),所使用的特征如表6所示。
表6 對(duì)數(shù)線性模型的特征
語(yǔ)言模型訓(xùn)練工具采用SRILM Toolkit[9],評(píng)測(cè)工具使用mteval-v11b.pl*http://www.nist.gov/speech/tests/mt/resources/scoring.htm,評(píng)測(cè)指標(biāo)采用BLEU4[10],大小寫(xiě)不敏感。另外,使用了Lemur作為檢索語(yǔ)料的工具。
在IWSLT*http://www.is.cs.cmu.edu/iwslt2005/評(píng)測(cè)的漢英翻譯任務(wù)上進(jìn)行實(shí)驗(yàn),IWSLT評(píng)測(cè)語(yǔ)料主要由面向旅游領(lǐng)域的口語(yǔ)對(duì)話組成,領(lǐng)域特征比較明顯,適合進(jìn)行領(lǐng)域自適應(yīng)的研究。實(shí)驗(yàn)語(yǔ)料詳見(jiàn)表7。
實(shí)驗(yàn)中,我們?cè)O(shè)置了三組baseline:以FBIS做訓(xùn)練集的Baseline1、以混合語(yǔ)料做訓(xùn)練集的Baseline2、FBIS與混合語(yǔ)料合并后的Baseline3。采用本文第3節(jié)提出方法利用上下文信息進(jìn)行領(lǐng)域自適應(yīng),具體做法分如下步驟:
1. 合并FBIS語(yǔ)料和領(lǐng)域混雜語(yǔ)料,記為T(mén),用信息檢索工具Lemur在T上建索引。
2. 計(jì)算T中的每個(gè)句子與開(kāi)發(fā)測(cè)試集合每個(gè)句子的相似度分?jǐn)?shù),并按照相似度分?jǐn)?shù)對(duì)T進(jìn)行排序。這一步耗時(shí)較長(zhǎng),尤其當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模較大時(shí)。數(shù)據(jù)選擇的策略還有很多,不是本文研究的重點(diǎn),這里我們采用了這種比較簡(jiǎn)單的方式。
3. 從T(共700k)中選取topN(N=100k,200k,300k,…)平行句對(duì)作為新的訓(xùn)練集,進(jìn)行詞對(duì)齊,并抽取帶上下文特征的短語(yǔ)表,即公式(3)中的PD-similar(e|f,context)。
4. 根據(jù)領(lǐng)域單語(yǔ)語(yǔ)料,計(jì)算PD(context|f)。
5. 根據(jù)公式(3),計(jì)算的得到領(lǐng)域特征PD(e|f),重新訓(xùn)練并記錄翻譯BLEU值。
采用本文提出的方法進(jìn)行領(lǐng)域自適應(yīng)的實(shí)驗(yàn)結(jié)果如表8所示。
表7 實(shí)驗(yàn)語(yǔ)料情況
表8 IWSLT上的實(shí)驗(yàn)結(jié)果
表8說(shuō)明以下問(wèn)題:
1. Baseline1的訓(xùn)練語(yǔ)集是FBIS語(yǔ)料,屬于新聞?lì)I(lǐng)域,而開(kāi)發(fā)測(cè)試集屬于旅游領(lǐng)域,領(lǐng)域差別較大,所以翻譯效果較差。這也說(shuō)明了進(jìn)行領(lǐng)域自適應(yīng)研究的必要性。
2. Baseline2的訓(xùn)練集是各領(lǐng)域混雜的語(yǔ)料,其中也包括了旅游領(lǐng)域的語(yǔ)料。語(yǔ)料規(guī)模較大,所以開(kāi)發(fā)測(cè)試集的許多短語(yǔ)能在混合語(yǔ)料中找到正確的譯文,BLEU值比Baseline1要高很多。將兩者混合后的Baseline3因?yàn)檎Z(yǔ)料規(guī)模的增大比Baseline1、Baseline2都要好。
3. 自適應(yīng)模型的BLEU值隨著選取語(yǔ)料規(guī)模N的變化而變化?;镜淖兓?guī)律是:當(dāng)N較小時(shí),隨著N的增大,BLEU一直增大,增大到一定程度后,再繼續(xù)增大N,BLEU值不穩(wěn)定,且有下降的趨勢(shì)。
我們分析其原因是:當(dāng)N較小時(shí),有許多短語(yǔ)沒(méi)有學(xué)習(xí)過(guò),解碼器找不到對(duì)應(yīng)的譯文,增大語(yǔ)料規(guī)模,可以使得更多的本領(lǐng)域短語(yǔ)被學(xué)習(xí)到。增大到一定程度以后,繼續(xù)增大N,排名靠后的語(yǔ)料與開(kāi)發(fā)測(cè)試集合的領(lǐng)域差別較大,對(duì)譯文選擇起到干擾作用。
N=500k時(shí),在開(kāi)發(fā)集上BLEU值最高(0.195 362),在測(cè)試集IWSLT07上面BLEU值也是最高的。我們以N=500k作為實(shí)驗(yàn)結(jié)果。自適應(yīng)模型相比Baseline2在三個(gè)測(cè)試集合都有不同程度的提高:IWSLT05上提高0.84個(gè)點(diǎn),IWSLT06上提高0.73個(gè)點(diǎn),IWSLT07上提高0.42個(gè)點(diǎn)。相比Baseline1,自適應(yīng)模型提高效果更加顯著。
為了進(jìn)一步分析領(lǐng)域特征帶來(lái)的影響,我們?cè)趖opN=500k的基礎(chǔ)上分別對(duì)詞特征、詞性特征進(jìn)行實(shí)驗(yàn)對(duì)比。
當(dāng)不使用單語(yǔ)領(lǐng)域信息時(shí),自適應(yīng)模型退化為標(biāo)準(zhǔn)的基于短語(yǔ)的翻譯模型,我們以此為Baseline。加入不同特征時(shí)的翻譯BLEU對(duì)比見(jiàn)表9。其中W-1代表下文第一個(gè)詞、W+1代表上文第一個(gè)詞、POS-1代表下文第一個(gè)詞的詞性、POS+1代表上文第一個(gè)詞的詞性。
表9 采用不同上下文特征對(duì)自適應(yīng)效果的影響
表9中第二行是不使用任何上下文的Baseline值,第三到第六行代表分別加入不同的上下文特征進(jìn)行自適應(yīng),第七行是加入所有特征的結(jié)果。從表9可以看出:
1. 使用多個(gè)上下文特征要好于使用單個(gè)特征。
使用多個(gè)上下文特征可以產(chǎn)生多個(gè)領(lǐng)域特征,短語(yǔ)譯文選擇時(shí)候可以利用更多的信息源,從而做出更加正確的判斷。
2. 詞性特征作為上下文要明顯好于詞特征。
從BLEU值看,在三個(gè)測(cè)試集上,使用上下文詞性特征普遍比使用上下文詞特征效果要好。我們分析原因是使用詞特征時(shí),數(shù)據(jù)稀疏問(wèn)題影響要比使用詞性特征嚴(yán)重。我們使用的判別式詞性標(biāo)記工具采用了北大語(yǔ)料庫(kù)加工規(guī)范標(biāo)準(zhǔn),詞性集有40多個(gè)[11]。
為了比較詞特征與詞性特征的作用,我們統(tǒng)計(jì)了短語(yǔ)表中分別被詞特征和詞性特征賦予領(lǐng)域概率的短語(yǔ)對(duì)數(shù)目,如表10所示。
表10 使用詞和詞性特征被賦予領(lǐng)域特征的短語(yǔ)對(duì)數(shù)目比較
從表10可以看出,被詞性特征賦予領(lǐng)域概率的短語(yǔ)對(duì)數(shù)目要大于被詞特征賦予領(lǐng)域概率的短語(yǔ)對(duì)數(shù)目。以詞性作為上下文信息,數(shù)據(jù)稀疏問(wèn)題遠(yuǎn)沒(méi)有以詞為特征時(shí)嚴(yán)重。
圖1是在topN=500k的自適應(yīng)實(shí)驗(yàn)中只改變單語(yǔ)數(shù)量,保持其他因素不變的情況下比較翻譯結(jié)果??梢钥闯?,隨著單語(yǔ)規(guī)模的增大,自適應(yīng)效果會(huì)越來(lái)越好,各個(gè)測(cè)試集的BLEU值一直處于上升趨勢(shì)。
圖1 單語(yǔ)規(guī)模與BLEU值關(guān)系
領(lǐng)域特征的計(jì)算受單語(yǔ)規(guī)模影響較大。當(dāng)單語(yǔ)規(guī)模較小時(shí),數(shù)據(jù)稀疏問(wèn)題會(huì)變得非常嚴(yán)重,這時(shí)只能對(duì)較少的部分短語(yǔ)對(duì)賦予領(lǐng)域翻譯概率,翻譯質(zhì)量的改善將很不明顯。如果單語(yǔ)數(shù)量變?yōu)?,則所有短語(yǔ)對(duì)的領(lǐng)域概率將變?yōu)?,領(lǐng)域特征將不起作用,自適應(yīng)模型變退化為標(biāo)準(zhǔn)的基于短語(yǔ)的翻譯模型。
對(duì)某個(gè)領(lǐng)域來(lái)說(shuō),單語(yǔ)的獲取要比雙語(yǔ)獲取容易得多,數(shù)量也大得多,本文提出的利用單語(yǔ)進(jìn)行自適應(yīng)的方法有應(yīng)用價(jià)值。利用單語(yǔ)進(jìn)行自適應(yīng)研究的方法可以充分挖掘單語(yǔ)內(nèi)部的領(lǐng)域信息,隨著單語(yǔ)規(guī)模的增大,我們相信該方法會(huì)起到更大的作用。
本文提出了一種基于單語(yǔ)上下文信息的自適應(yīng)方法,在對(duì)數(shù)線性模型框架內(nèi)引入領(lǐng)域特征。領(lǐng)域特征的計(jì)算中,一方面利用檢索模型從混合語(yǔ)料中檢索領(lǐng)域類(lèi)似語(yǔ)料以更準(zhǔn)確的估計(jì)本領(lǐng)域的翻譯概率,另一方面從領(lǐng)域單語(yǔ)中挖掘單語(yǔ)的上下文信息并用來(lái)計(jì)算領(lǐng)域特征。
從實(shí)驗(yàn)結(jié)果與分析可以看出,利用單語(yǔ)上下文信息能夠?qū)y(tǒng)計(jì)機(jī)器翻譯領(lǐng)域自適應(yīng)有所幫助的。從理論上,該方法既可以使用上下文詞、詞性等局部上下文信息,也可以使用長(zhǎng)距離的上下文信息。如果不考慮任何上下文信息,所有短語(yǔ)對(duì)的領(lǐng)域特征值變?yōu)?,便退化為標(biāo)準(zhǔn)的基于短語(yǔ)的翻譯模型。
當(dāng)單語(yǔ)規(guī)模較小時(shí),新模型會(huì)存在數(shù)據(jù)稀疏的問(wèn)題。這時(shí)用單語(yǔ)上下文信息的方法只能對(duì)較少的短語(yǔ)對(duì)賦予領(lǐng)域特征。隨著單語(yǔ)規(guī)模的增大,自適應(yīng)的短語(yǔ)會(huì)越來(lái)越多,新模型的效果會(huì)越來(lái)越好。一般而言,單語(yǔ)的獲取要比雙語(yǔ)容易得多,本文的方法是有應(yīng)用價(jià)值的。
下一步工作我們將尋找解決數(shù)據(jù)稀疏問(wèn)題的辦法,并嘗試引入更多的上下文特征,還將考慮多元的上下文特征。
[1] Peter. F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra,Vincent J. Della Pietra, Robert L. Mercer, The Mathematics of Statistical Machine Translation:Parameter Estimation[J]. Computational Linguisitics, 1993,19(2):263-312.
[2] Philipp Koehn, Franz Josef Och, and Daniel Marcu.2003. Statistical phrase-based translateion[C]//Proceedings of HLT-NAACL 2003: 127-133.
[3] Franz Josef Och and Hermann Ney. Discrimitive training and maximum entropy models for statistical machine translation[C]//Proceedings of ACL 2002, 2002: 295-302.
[4] Matthias Eck, Stephan Vogel, Alex Waibel. Language model adaptation for statistical machine translation based on information retrieval[C]//International Conference on Language Resources and Evaluation,2004.
[5] Bing Zhao, Matthias Eck, Stephan Vogel. Language Model Adaptation for Statistical Machine Translation ria structured query modes[C]//Proc. of COLING, 2004: 411-417.
[6] Almut Silja Hildebrand et al, Adaptation of the Translation Model for Statistical Machine Translation based on Information Retrieval [C]//Proc. of EAMT 2005, 2005: 133-142.
[7] Nicola Ueffing, Gholamreza Haffari and Anoop Sarkar. Semi-superivesed Model Adaptation for Statistical Machine Translation[J]. Machine Translation, 2008, 21(2):77-94.
[8] Yajuan Lü, Jin Huang. Improving Statistical Machine Translation Performance by Training Data Selection and Optimization[C]//International Conference on Empirical Methods in Natural Language Processing (EMNLP), 2007: 343-350.
[9] A.Stolcke. 2002. SRILM-an extensible language modeling toolkit[C]//Proc. of ICSLP, 2002:901-904.
[10] Papinensi, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU:A Method for Automatic Evaluation of Machine Translation[C]//Proc. of the 40th Annual Meeting of the Association of Computational Linguistics, 2002: 311-318.
[11] 俞士汶,段慧明,朱學(xué)鋒,孫斌,常寶寶. 北大語(yǔ)料庫(kù)加工規(guī)范:分詞 詞性標(biāo)注 注音[J]. Journal of Chinese Language and Computing, 2002, 13(2):121-158.