翁 貞,李茂西,王明文
(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)
?
利用Markov網(wǎng)絡(luò)抽取復(fù)述增強(qiáng)機(jī)器譯文自動(dòng)評(píng)價(jià)方法
翁 貞,李茂西,王明文
(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)
在機(jī)器譯文自動(dòng)評(píng)價(jià)中,匹配具有相同語義、不同表達(dá)方式的詞或短語是其中一個(gè)很大的挑戰(zhàn)。許多研究工作提出從雙語平行語料或可比語料中抽取復(fù)述來增強(qiáng)機(jī)器譯文和人工譯文的匹配。然而雙語平行語料或可比語料不僅構(gòu)建成本高,而且對(duì)少數(shù)語言對(duì)難以大量獲取。我們提出通過構(gòu)建詞的Markov網(wǎng)絡(luò),從目標(biāo)語言的單語文本中抽取復(fù)述的方法,并利用該復(fù)述提高機(jī)器譯文自動(dòng)評(píng)價(jià)方法與人工評(píng)價(jià)方法的相關(guān)性。在WMT’14 Metrics task上的實(shí)驗(yàn)結(jié)果表明,我們從單語文本中提取復(fù)述方法的性能與從雙語平行語料中提取復(fù)述方法的性能具有很強(qiáng)的可比性。因此,該文提出的方法可在保證復(fù)述質(zhì)量的同時(shí),降低復(fù)述抽取的成本。
復(fù)述;機(jī)器譯文自動(dòng)評(píng)價(jià);Markov網(wǎng)絡(luò);相關(guān)性
機(jī)器譯文自動(dòng)評(píng)價(jià)方法不僅能給出表征翻譯系統(tǒng)翻譯質(zhì)量?jī)?yōu)劣程度的定量指標(biāo),而且能在統(tǒng)計(jì)翻譯系統(tǒng)開發(fā)時(shí)指導(dǎo)其參數(shù)優(yōu)化。因此,它推動(dòng)了機(jī)器翻譯技術(shù)的快速發(fā)展。
近幾年來,許多機(jī)器譯文自動(dòng)評(píng)價(jià)方法相繼被提出,包括被研究者廣泛使用的BLEU[1],NIST[2],METEOR[3],TER[4],MAXSIM[5]等。其中,BLEU和NIST是基于n元文法匹配準(zhǔn)確率的評(píng)價(jià)指標(biāo);METEOR和MAXSIM是考慮準(zhǔn)確率和召回率的評(píng)價(jià)指標(biāo);而TER是基于翻譯錯(cuò)誤率的指標(biāo)。在譯文評(píng)價(jià)過程中,它們均遵循BLEU的主要思路“機(jī)器譯文越接近人工參考譯文,機(jī)器譯文的質(zhì)量越好?!边@些評(píng)價(jià)方法將機(jī)器譯文中的詞語與人工參考譯文中的詞語進(jìn)行比較,詞形相同的詞被看作表達(dá)了同一含義,即認(rèn)為是一個(gè)匹配,而詞形不同的詞語被看作表達(dá)不同的含義,即認(rèn)為沒有匹配。然而,由于語言現(xiàn)象的多樣性,同義詞、近義詞和不同的表達(dá)方式等現(xiàn)象在評(píng)價(jià)時(shí)大量存在。因此,如何準(zhǔn)確地進(jìn)行詞語匹配是機(jī)器譯文自動(dòng)評(píng)價(jià)時(shí)的一個(gè)難題。
針對(duì)這個(gè)問題,許多機(jī)器譯文評(píng)測(cè)嘗試提供更多的人工參考譯文來提高機(jī)器譯文和人工參考譯文的匹配。比如在NIST評(píng)測(cè)中,測(cè)試集中每個(gè)待翻譯的源語言句子就提供了四個(gè)人工參考譯文;而IWSLT評(píng)測(cè)中,有的翻譯方向甚至提供了16個(gè)人工參考譯文。毫無疑問,人工參考譯文越多,覆蓋的語言現(xiàn)象就越全面,機(jī)器譯文中的詞語就能得到更準(zhǔn)確的匹配,但是,這也意味著構(gòu)建參考譯文的費(fèi)用越高,而且再多的人工參考譯文也不能窮盡所有的語言現(xiàn)象。這種方法的一個(gè)改進(jìn)是自動(dòng)生成參考譯文以覆蓋更多的語言現(xiàn)象,王博等通過句法結(jié)構(gòu)知識(shí)來對(duì)人工參考譯文進(jìn)行擴(kuò)展,衍生出更多的參考譯文以供機(jī)器譯文匹配,從而提高自動(dòng)評(píng)價(jià)結(jié)果的相關(guān)性[6]。Kauchak和Barzilay提出使用復(fù)述改寫人工參考譯文,以使參考譯文接近于機(jī)器譯文,提高自動(dòng)評(píng)價(jià)方法的準(zhǔn)確性[7]。
另外一種方法是,機(jī)器譯文中的詞和人工參考譯文中的詞比較時(shí),放松詞語匹配的條件,即不再限定匹配的詞語僅是詞形完全相同的詞語,還應(yīng)包括同根詞、近義詞、同義詞和復(fù)述等等。這種方法使用語言學(xué)知識(shí)和語料資源來獲取相同語義、不同表達(dá)方式的詞或短語以供匹配,因此,它容易獲取,便于擴(kuò)展,而且構(gòu)建費(fèi)用低廉。它的一個(gè)典型例子是METEOR工具包。METEOR最初的版本只支持完全匹配,在后續(xù)的版本里,它相繼地?cái)U(kuò)充了詞干匹配、同義詞匹配和復(fù)述匹配等模塊,并且匹配是分階段進(jìn)行,每一階段只匹配上一階段沒有得到匹配的詞語[8]。與此相應(yīng)的,TER自動(dòng)評(píng)價(jià)方法也由最初的完全匹配版本Tercom發(fā)展到后續(xù)的采用完全匹配和復(fù)述匹配的Terp版本[9]。
本文研究利用機(jī)器學(xué)習(xí)方法和詞的Markov網(wǎng)絡(luò),從目標(biāo)語言的單語文本中抽取復(fù)述,來替換傳統(tǒng)的從雙語文本中抽取復(fù)述的方法。然后將抽取的復(fù)述應(yīng)用在機(jī)器譯文的自動(dòng)評(píng)價(jià)方法METEOR和TER上以增強(qiáng)詞語之間的有效匹配,并通過實(shí)驗(yàn)驗(yàn)證我們的方法盡管只使用單語文本,但是并沒有降低譯文自動(dòng)評(píng)價(jià)結(jié)果與人工評(píng)價(jià)結(jié)果之間的相關(guān)性。
復(fù)述是指在某一種語言中,語義相同而內(nèi)容和表達(dá)形式不同的詞、短語、句子和段落[10]。復(fù)述知識(shí)已經(jīng)成功地應(yīng)用到自然語言處理的多個(gè)任務(wù)中,包括信息檢索[11]、自動(dòng)文摘[12]和機(jī)器翻譯[13-15]等等。
在復(fù)述的抽取技術(shù)方面,Barzilay和 McKeown 提出了利用非監(jiān)督學(xué)習(xí)的方法從同一個(gè)源語言句子的不同英文譯文中抽取詞和短語的復(fù)述[16]。Bannard和Callison-Burch提出利用統(tǒng)計(jì)機(jī)器翻譯中的詞對(duì)齊技術(shù)從雙語平行語料中抽取復(fù)述,在他們的方法中由于一種語言的詞或短語,被用作待抽取的另一種語言復(fù)述中的樞軸(pivot),因此它也被稱為樞軸法[17]。不同于從雙語語料中抽取復(fù)述的方法,Shinyama等提出一種使用命名實(shí)體識(shí)別特征從單語的新聞文章中抽取復(fù)述的方法,這些來源不同的新聞文章在同一時(shí)期報(bào)道了同一件新聞事件[18]。Barzilay和Lee提出使用多個(gè)文本串對(duì)齊算法從未標(biāo)注的可比語料庫中學(xué)習(xí)句子級(jí)別的復(fù)述[19]。盡管后面兩種方法從單語文本中抽取復(fù)述,但是它們對(duì)使用的單語文本語料仍然有較大的限制。而本文提出的利用詞的Markov網(wǎng)絡(luò)抽取復(fù)述的方法對(duì)單語文本無任何限制。
在機(jī)器譯文自動(dòng)評(píng)價(jià)方面,Kauchak和Barzilay提出使用句子級(jí)別的復(fù)述改寫人工參考譯文,類似于Barzilay和Lee的方法,以使參考譯文中的詞語與機(jī)器譯文中詞語最大程度的相同,并通過實(shí)驗(yàn)驗(yàn)證了使用改寫的人工參考譯文進(jìn)行評(píng)價(jià)改善了自動(dòng)評(píng)價(jià)的準(zhǔn)確性[7]。Zhou等提出使用詞或短語的復(fù)述來增強(qiáng)機(jī)器譯文和人工參考譯文之間的匹配,他們使用Bannard和Callison-Burch提出的樞軸法從雙語平行語料中抽取復(fù)述,然后通過兩步法進(jìn)行詞語匹配,首先使用復(fù)述知識(shí)進(jìn)行匹配,然后使用詞形進(jìn)行完全匹配[20]。沿著Zhou等方法的思路,Denkowski和Lavie也使用樞軸法從雙語平行語料中抽取目標(biāo)語言的復(fù)述,并使用復(fù)述來增強(qiáng)METEOR方法中詞語的匹配,但是,在他們方法中,詞語的匹配順序與前者相反[8]。與此類似,Snover等也在TER最初的完全匹配的基礎(chǔ)上增加了復(fù)述匹配[9],他們抽取復(fù)述和匹配的順序與METEOR相同,而且他們均對(duì)復(fù)述匹配和完全匹配設(shè)置了不同的權(quán)重。
3.1 Markov網(wǎng)絡(luò)
Markov網(wǎng)絡(luò)是一種描述知識(shí)關(guān)聯(lián)關(guān)系的工具。由于構(gòu)建Markov網(wǎng)絡(luò)時(shí)不考慮邊的方向,因此我們可以很容易地利用Markov網(wǎng)絡(luò)從實(shí)例數(shù)據(jù)中建立知識(shí)關(guān)聯(lián)。一個(gè)Markov網(wǎng)絡(luò)可以表示為一個(gè)二元組(V,E),V為節(jié)點(diǎn)集合,E為一組無向邊的集合,E={(vi,vj)|vi≠vj∧vi,vj∈V},E中的邊表示節(jié)點(diǎn)之間的依賴關(guān)系。在Markov網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)v條件獨(dú)立于其非鄰居節(jié)點(diǎn)。
通過詞間相關(guān)性得出的Markov 網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)詞為一個(gè)節(jié)點(diǎn),連接兩個(gè)節(jié)點(diǎn)的邊表示這兩個(gè)詞之間的關(guān)系,用權(quán)重表示其相關(guān)性。有些詞節(jié)點(diǎn)和彼此相連的邊構(gòu)成了一個(gè)完全子圖,即任意兩個(gè)節(jié)點(diǎn)之間都有邊相連,我們把這樣的完全子圖稱作詞團(tuán)C,包含n個(gè)詞節(jié)點(diǎn)且含有節(jié)點(diǎn)詞ti的詞團(tuán)記為Cn(ti),由Cn(ti)構(gòu)成的集合記為S(Cn(ti))。圖1給出了一個(gè)詞的Markov網(wǎng)絡(luò)結(jié)構(gòu)圖示例,其中,詞“mining”,“data”,“math”構(gòu)成一個(gè)三階詞團(tuán),詞“compute”,“data”,“internet”,“l(fā)aptop”構(gòu)成一個(gè)四階詞團(tuán)。我們利用Markov網(wǎng)絡(luò)中的詞團(tuán)信息來構(gòu)建復(fù)述。
圖1 詞的Markov網(wǎng)絡(luò)結(jié)構(gòu)圖
3.2 構(gòu)建詞的Markov網(wǎng)絡(luò)
本文采用詞的共現(xiàn)性來計(jì)算詞間的關(guān)系,計(jì)算詞共現(xiàn)詞頻時(shí)一般可以以整個(gè)文檔、段落或是一個(gè)固定長(zhǎng)度的文本為窗口[11]。出于考慮效率方面的因素,本文選用固定長(zhǎng)度的一段文本作為窗口單位。鑒于Markov網(wǎng)絡(luò)的無向性,在構(gòu)造詞的Markov網(wǎng)絡(luò)時(shí),采用兩個(gè)詞的綜合共現(xiàn)性來計(jì)算,如公式(1)~(3)所示。
(1)
(2)
(3)
其中,ti和tj指兩個(gè)詞,C(ti,tj)指在訓(xùn)練語料中詞ti和tj在同一個(gè)窗口中同時(shí)出現(xiàn)的頻率,C(ti)和C(tj)分別表示在訓(xùn)練語料中詞ti和tj出現(xiàn)的頻率,R(ti,tj)表示詞ti和tj之間的相關(guān)性,R值越大,兩個(gè)詞的相關(guān)性就越高。當(dāng)R值大于給定的閾值時(shí),則詞ti和tj相互依賴,即在詞的Markov網(wǎng)絡(luò)中有邊相連。
3.3 詞團(tuán)的提取
構(gòu)成詞團(tuán)的詞彼此相互依賴,即存在某種語義關(guān)聯(lián),可以認(rèn)為他們表達(dá)了同一個(gè)概念或主題。如圖1中的詞“compute”,“data”,“internet”,“l(fā)aptop”構(gòu)成了一個(gè)四階詞團(tuán)。根據(jù)離散數(shù)學(xué)中定理:C是一個(gè)團(tuán),那么必存在一個(gè)最大團(tuán)Cmax使得C?Cmax。假設(shè)在一個(gè)Markov網(wǎng)絡(luò)中的節(jié)點(diǎn)集合T={t1,t2,...tn}構(gòu)造團(tuán)序列C0?C1?C2?...其中C0=C且Ci+1=Ci∪{tj},j滿足tj?Ci,tj與Ci中各節(jié)點(diǎn)都有邊相連。由于T的詞節(jié)點(diǎn)個(gè)數(shù)|T|=n,所以最多經(jīng)過n-|C|步,就使得這個(gè)過程終止,此序列的最后一個(gè)團(tuán),就是所要找的最大團(tuán)。根據(jù)上述思想,本文從詞的Markov網(wǎng)絡(luò)中提取詞的詞團(tuán),即在Cn(ti)的基礎(chǔ)上獲取Cn+1(ti)。實(shí)現(xiàn)算法如算法1所示,其中S(Ck(ti))表示詞ti的k階詞團(tuán)集合,S(Ck+1(ti))表示ti的k+1階詞團(tuán)集合,set1、set2、set3、set4是定義的四個(gè)集合,算法1第6行表示取出S(Ck(ti))中的一個(gè)詞團(tuán),算法1第10-12行說明set1和set2 這兩個(gè)詞團(tuán)只有兩個(gè)不同的詞,且這兩個(gè)詞有邊相連。我們用公式(4)計(jì)算每個(gè)詞團(tuán)的權(quán)重。其中,n表示詞團(tuán)中的節(jié)點(diǎn)個(gè)數(shù),R(ti,tj)表示詞ti,tj的相關(guān)性。
(4)
3.4 復(fù)述構(gòu)建
傳統(tǒng)詞的Markov網(wǎng)絡(luò)節(jié)點(diǎn)的粒度都是單詞級(jí)別的[11]。本文為了抽取不同粒度的復(fù)述對(duì),首先統(tǒng)計(jì)每個(gè)句子中的n元文法在整個(gè)語料中出現(xiàn)的次數(shù),次數(shù)超過預(yù)先設(shè)置閾值的語塊視為該句子中的短語(并非語言學(xué)意義上的短語),然后將這些短語看成一個(gè)整體,并以它們?yōu)榱6葘?duì)該句子進(jìn)行切分,得到詞或短語用于構(gòu)建Markov網(wǎng)絡(luò)的節(jié)點(diǎn),利用這種方法抽取單詞或短語級(jí)別的復(fù)述實(shí)例。在后續(xù)的實(shí)驗(yàn)中,我們把在語料中出現(xiàn)次數(shù)超過三次的語塊視為短語,并經(jīng)驗(yàn)性的設(shè)置短語抽取長(zhǎng)度不超過兩個(gè)單詞。
在Markov網(wǎng)絡(luò)中構(gòu)成詞團(tuán)的詞項(xiàng)存在的語義相關(guān)包括語義相同和主題相關(guān)但語義不同。如果直接用詞團(tuán)的權(quán)重度量?jī)蓚€(gè)詞項(xiàng)互為復(fù)述的可能性,會(huì)存在大量相關(guān)而不相似的詞對(duì)。本文采用兩個(gè)詞項(xiàng)的n階詞團(tuán)集合的相似性度量這兩個(gè)詞項(xiàng)互為復(fù)述的可能性,其本質(zhì)是通過除這兩個(gè)節(jié)點(diǎn)以外的其他鄰居節(jié)點(diǎn)來計(jì)算這兩個(gè)節(jié)點(diǎn)的關(guān)系。因此,詞團(tuán)的節(jié)點(diǎn)個(gè)數(shù)必須大于2,考慮到可以通過合并詞項(xiàng)的三階詞團(tuán)得到該詞項(xiàng)的任何一個(gè)更高階的詞團(tuán),本文的后續(xù)實(shí)驗(yàn)中通過計(jì)算兩個(gè)詞項(xiàng)的三階詞團(tuán)集合的相似性,來度量這兩個(gè)詞項(xiàng)互為復(fù)述的可能性。如圖2中每個(gè)詞項(xiàng)的三階詞團(tuán)集合分別是S(C3(t1))={t1,t2,t4},S(C3(t2))={{t1,t2,t4},{t2,t3,t4}},S(C3(t3)={t2,t3,t4},S(C3(t4))={{t1,t2,t4},{t2,t3,t4}}因此,詞t2和t4更有可能互為復(fù)述。我們用公式(5)和(6)來計(jì)算詞ti,tj互為復(fù)述的可能性prob(ti,tj),其中W3(ti,tj)表示所有同時(shí)包含詞項(xiàng)ti和tj的三階詞團(tuán)的權(quán)重和,W3(ti)表示所有包含詞項(xiàng)ti的三階詞團(tuán)的權(quán)重和,W3(tj)表示所有包含詞項(xiàng)tj的三階詞團(tuán)的權(quán)重和:
(5)
(6)
圖2 三階詞團(tuán)
4.1 實(shí)驗(yàn)數(shù)據(jù)
為了比較利用Markov網(wǎng)絡(luò)提取的復(fù)述和基于樞軸法提取的復(fù)述在機(jī)器譯文自動(dòng)評(píng)價(jià)方法上的性能,我們將提取的復(fù)述應(yīng)用在機(jī)器譯文自動(dòng)評(píng)價(jià)開源工具包terp-v1*http://www.umiacs.umd.edu/~snover/terp/和meteor-1.5*http://www.cs.cmu.edu/~alavie/METEOR/,并在WMT’14Metricstask上進(jìn)行對(duì)比實(shí)驗(yàn)。該評(píng)測(cè)包含10種不同的翻譯方向的任務(wù),其中包含五種目標(biāo)語言是英語的任務(wù),五種源語言為英語,目標(biāo)語言是其他歐洲語言的任務(wù),每個(gè)任務(wù)的人工參考譯文只有一個(gè),所提交的機(jī)器翻譯系統(tǒng)一共有110個(gè)。為了提取五種語言的復(fù)述,我們選用五個(gè)不同語言對(duì)的雙語平行語料進(jìn)行提取復(fù)述表,其中本文的方法只用雙語平行語料的目標(biāo)語言端文本,而基于“樞軸法”則需要包含源語言端和目標(biāo)語言端的雙語平行語料。實(shí)驗(yàn)中我們選用WMT’14和WMT’15的機(jī)器翻譯訓(xùn)練語料Europarlv8、NewsCommentary*http://www.statmt.org/wmt15translation-task.html和Europarlv7*http://www.statmt.org/wmt14/translation-task.html進(jìn)行提取復(fù)述表。語料的統(tǒng)計(jì)數(shù)據(jù)見表1。
表1 提取復(fù)述的語料
續(xù)表
4.2 實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)中,分別用本文的方法和基于樞軸法的方法提取五種語言的復(fù)述,分別是英語、法語、德語、俄語、捷克語。由于利用樞軸法提取復(fù)述必須在雙語平行語料上完成,為了更準(zhǔn)確地比較兩個(gè)方法,本實(shí)驗(yàn)在提取復(fù)述時(shí)選用同一個(gè)雙語平行語料,但本文的方法只用雙語平行語料中的目標(biāo)語言端。獲取到了復(fù)述后,我們將其應(yīng)用在METEOR和TER上,對(duì)WMT’14 Metrics task的10個(gè)任務(wù)進(jìn)行評(píng)測(cè)。
為了比較不同的復(fù)述抽取方法在機(jī)器譯文自動(dòng)評(píng)價(jià)上的性能,我們利用皮爾森相關(guān)系數(shù)計(jì)算自動(dòng)評(píng)價(jià)結(jié)果和人工評(píng)價(jià)結(jié)果的系統(tǒng)級(jí)別相關(guān)性:
(7)
同時(shí),我們利用Kendall’sτ相關(guān)系數(shù)計(jì)算自動(dòng)評(píng)價(jià)結(jié)果和人工評(píng)價(jià)結(jié)果的句子級(jí)別相關(guān)性:
(8)
在公式(8)中,Concordant表示人工評(píng)價(jià)與自動(dòng)評(píng)價(jià)排名一致的集合,Discordant表示人工評(píng)價(jià)與自動(dòng)評(píng)價(jià)排名不一致的集合。
4.3 實(shí)驗(yàn)結(jié)果
我們提取了五種語言的復(fù)述表,表2是用本文的方法獲取的英語復(fù)述表的一部分實(shí)例。其中第一列為兩個(gè)詞互為復(fù)述的可能性,第二列和第三列分別是互為復(fù)述的兩個(gè)詞。本文提取的復(fù)述包含單詞級(jí)別和短語級(jí)別的復(fù)述。
表3和表5給出了機(jī)器譯文自動(dòng)評(píng)價(jià)方法METEOR和TER在WMT’14Metricstask目標(biāo)語言為英語的任務(wù)上與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)性和句子級(jí)別相關(guān)性,表4和表6給出了其在目標(biāo)語言為其他歐洲語言的任務(wù)上與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)性和句子級(jí)別相關(guān)性。這四張表的第一列表示使用不同復(fù)述資源的METEOR和TER,其中“METEOR”和“TER”表示只做詞形上的完全匹配,不做復(fù)述匹配,“METEOR-Markov”和“TER-Markov”表示METEOR和TER使用基于Markov網(wǎng)絡(luò)模型提取的復(fù)述表進(jìn)行復(fù)述匹配,“METEOR-Pivot”,“TER-Pivot”表示 METEOR和TER使用基于樞軸法提取的復(fù)述表進(jìn)行復(fù)述匹配。
表2 基于本文方法提取的英文復(fù)述表的一些例子
從表3給出的數(shù)據(jù)可以看出,METEOR和TER在源語言分別為法語和德語的任務(wù)上,“METEOR-Markov”與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)系數(shù)最大;“TER-Markov”在源語言為印度語的任務(wù)上,與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)系數(shù)最大,且五個(gè)任務(wù)的系統(tǒng)級(jí)別相關(guān)系數(shù)的平均值與基于樞軸法的相等。從表5給出的數(shù)據(jù)可以看出,“METEOR-Markov”與人工評(píng)價(jià)的句子級(jí)別相關(guān)系數(shù)的平均值最大。這
表3 各自動(dòng)評(píng)價(jià)方法在WMT2014上目標(biāo)語言是英文的任務(wù)上的評(píng)價(jià)結(jié)果與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)系數(shù)
Meterics系統(tǒng)級(jí)別相關(guān)系數(shù)fr-ende-enhi-encs-enru-enAverageTER0.9520.7750.6180.9760.8090.826TER-Pivot0.9580.7840.7190.9900.8110.852TER-Markov0.9570.7750.7290.9880.8110.852Meteor0.9690.8890.4840.9850.7860.823Meteor-Pivot0.9720.9080.4590.9750.8000.823Meteor-Markov0.9750.9180.4510.9690.7980.822
表4 各自動(dòng)評(píng)價(jià)方法在WMT2014上源語言是英文的任務(wù)上的評(píng)價(jià)結(jié)果與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)系數(shù)
Meterics系統(tǒng)級(jí)別相關(guān)系數(shù)en-fren-deen-hien-csen-ruAverageTER0.9570.3990.7720.9730.9300.806TER-Pivot0.9590.4220.7720.9690.9340.811TER-Markov0.9580.4400.7720.9640.9280.812Meteor0.9390.2400.9240.9790.9320.803Meteor-Pivot0.9420.2610.9240.9770.9330.807Meteor-Markov0.9410.2800.9240.9750.9310.810
表5 各自動(dòng)評(píng)價(jià)方法在WMT2014上目標(biāo)語言是英文的任務(wù)上的評(píng)價(jià)結(jié)果與人工評(píng)價(jià)的句子級(jí)別相關(guān)系數(shù)
Meterics句子級(jí)別一致性fr-ende-enhi-encs-enru-enAverageTER0.3710.2530.2650.1920.2660.269TER-Pivot0.3790.2600.2740.1980.2730.277TER-Markov0.3710.2530.2650.1920.2660.269Meteor0.4010.3190.3980.2670.3110.339Meteor-Pivot0.4140.3300.4160.2650.3260.350Meteor-Markov0.4040.3240.4210.2740.3280.351
表6 各自動(dòng)評(píng)價(jià)方法在WMT2014上源語言是英文的任務(wù)上的評(píng)價(jià)結(jié)果與人工評(píng)價(jià)的句子級(jí)別相關(guān)系數(shù)
Meterics句子級(jí)別一致性en-fren-deen-hien-csen-ruAverageTER0.2460.2060.1460.2800.3580.247TER-Pivot0.2470.2150.1460.2850.3920.257TER-Markov0.2420.2160.1460.2820.3950.256Meteor0.2750.2120.3030.3100.4070.301Meteor-Pivot0.2800.2270.3030.3190.4230.310Meteor-Markov0.2760.2320.3030.3140.4260.310
可以說明利用Markov網(wǎng)絡(luò)模型構(gòu)造的英語復(fù)述表不僅可以增強(qiáng)除詞形完全匹配外的有效匹配,而且在機(jī)器譯文自動(dòng)評(píng)價(jià)方法METEOR和TER上的性能比基于樞軸法提取的復(fù)述表略好。
從表4給出的數(shù)據(jù)可以看出,“TER-Markov”在目標(biāo)語言為德語的任務(wù)上,與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)系數(shù)最大,且五個(gè)任務(wù)的系統(tǒng)級(jí)別相關(guān)系數(shù)的平均值最大。從表6給出的數(shù)據(jù)可以看出,“METEOR-Markov”在目標(biāo)語言為德語和俄語的任務(wù)上,與人工評(píng)價(jià)的句子級(jí)別相關(guān)性最大,且與人工評(píng)價(jià)的句子級(jí)別相關(guān)系數(shù)的平均值與“METEOR-Pivot”相等。在這五個(gè)任務(wù)中目標(biāo)語言為德語的任務(wù)參加翻譯的系統(tǒng)數(shù)量最多。這可以說明利用Markov網(wǎng)絡(luò)模型構(gòu)造的其他歐洲語言的復(fù)述表在機(jī)器譯文自動(dòng)評(píng)價(jià)方法METEOR和TER上的性能并沒有低于基于樞軸法提取的復(fù)述表,甚至還略有提升。
總之,實(shí)驗(yàn)結(jié)果表明: 我們提出的利用Markov網(wǎng)絡(luò)構(gòu)建復(fù)述表的方法不僅降低了對(duì)訓(xùn)練語料的要求,而且還驗(yàn)證了所提取的復(fù)述表在機(jī)器譯文自動(dòng)評(píng)價(jià)方法上的性能不低于前人的方法。
利用Markov網(wǎng)絡(luò)在語義推理方面的優(yōu)勢(shì),本文提出了一種從單語文本中抽取復(fù)述的方法,并將其成功應(yīng)用在機(jī)器譯文自動(dòng)評(píng)價(jià)中,以有效的進(jìn)行語義相同表達(dá)不同的詞或短語的匹配。與從雙語平行語料和單語可比語料抽取復(fù)述方法相比,該方法抽取復(fù)述時(shí)對(duì)單語文本沒有任何限制,因此它有很好的推廣性。在以后的研究中,我們將嘗試將其應(yīng)用在機(jī)器翻譯短語表的擴(kuò)展、自動(dòng)文摘中近義詞的生成以及信息檢索中相關(guān)搜索的構(gòu)建上,以豐富復(fù)述的研究。
[1] Papineni K, Roukos S, Ward T, et al. BLEU: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 311-318.
[2] Doddington G. Automatic Evaluation of Machine Translation Quality Using N-gram Cooccurrence Statistics[C]//Proceedings of the 2nd International Conference on Human Language Technology Research, 2002:138-145.
[3] Banerjee S, Lavie A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005:65-72.
[4] Snover M, Dorr B, Schwartz R, et al. A Study of Translation Edit Rate with Targeted Human Annotation[C]//Proceedings of the Association for Machine Translation in the Americas, 2006:223-231.
[5] Chan Y S, Ng H T. MAXSIM: A Maximum Similarity Metric for Machine Translation Evaluation[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics, 2008: 55-62.
[6] Wang B, Zhao T, Yang M, et al. References Extension for the Automatic Evaluation of MT by Syntactic Hybridization[C]//Proceedings of the 3rd Workshop on Syntax and Structure in Statistical Translation, 2009: 37-44.
[7] Kauchak D, Barzilay R. Paraphrasing for automatic evaluation[C]//Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, 2006: 455-462.
[8] Lavie M D A. Meteor Universal: Language Specific Translation Evaluation for Any Target Language[J]. Proceedings of the 9th Workshop on Statistical Machine Translation, 2014: 376-380.
[9] Snover M G, Madnani N, Dorr B, et al. TER-Plus: paraphrase, semantic, and alignment enhancements to Translation Edit Rate[J]. Machine Translation, 2009, 23(2-3): 117-127.
[10] 趙世奇,劉挺,李生. 復(fù)述技術(shù)研究[J]. 軟件學(xué)報(bào),2009, 20(8):2124-2137.
[11] 洪歡,王明文,萬劍怡, 等. 基于迭代方法的多層Markov網(wǎng)絡(luò)信息檢索模型[J]. 中文信息學(xué)報(bào),2013,27(5):122-128.
[12] Zhou L, Lin C Y, Munteanu D S, et al. ParaEval: Using Paraphrases to Evaluate Summaries Automatically [C]//Proceedings of the Human Language Technology Conference of the NAACL, 2006: 447-454.
[13] 胡金銘,史曉東,蘇勁松, 等. 引入復(fù)述技術(shù)的統(tǒng)計(jì)機(jī)器翻譯研究綜述[J]. 智能系統(tǒng)學(xué)報(bào),2013,8(3):199-207.
[14] 李莉,劉知遠(yuǎn),孫茂松. 基于中英平行專利語料的短語復(fù)述自動(dòng)抽取研究[J]. 中文信息學(xué)報(bào),2013,27(6):151-157.
[15] 蘇晨,張玉潔,郭振, 等. 使用源語言復(fù)述知識(shí)改善統(tǒng)計(jì)機(jī)器翻譯性能[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(2):342-348.
[16] Barzilay R, McKeown K R. Extracting Paraphrases from a Parallel Corpus[C]//Proceedings of 39th Annual Meeting of the Association for Computational Linguistics, 2001: 50-57.
[17] Bannard C, Callison-Burch C. Paraphrasing with Bilingual Parallel Corpora[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, 2005: 597-604.
[18] Shinyama Y, Sekine S, Sudo K. Automatic Paraphrase Acquisition from News Articles[C]//Proceedings of the 2nd International Conference on Human Language Technology Research, 2002: 313-318.
[19] Barzilay R, Lee L. Learning to Paraphrase: An Unsupervised Approach Using Multiple-Sequence Alignment[C]//Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, 2003: 16-23.
[20] Zhou L, Lin C Y, Hovy E. Reevaluating Machine Translation Results with Paraphrase Support[C]// Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006: 77-84.
[21] 甘麗新. 基于 Markov 概念的信息檢索模型 [D]. 江西師范大學(xué)碩士學(xué)位論文, 2007.
Enhance Automatic Evaluation of Machine Translation by Markov Network Based Paraphrases
WENG Zhen, LI Maoxi, WANG Mingwen
(School of Computer Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China)
It is a challenge to match the different expressions (words or phrases) which have the same meanings in the automatic evaluation of machine translation. Many researchers proposed to enhance the matches between the words in machine translation and in human references by extracting paraphrases from bilingual parallel corpus or comparable corpus. However, the cost of constructing the bilingual parallel corpus or the comparable corpus is high; furthermore, it is difficult to obtain a large corpus between some language pairs. In this paper, the paraphrases are extracted from the monolingual texts in the target language by constructing the Markov networks of words, and applied to improve the correlation between the results of automatic evaluation and the human judgments of machine translation. The experimental results on WMT14 Metrics task showed that the performances of the proposed approach of extracting paraphrase from monolingual text are comparable to that of extracting paraphrase from bilingual parallel corpus.
paraphrase; automatic evaluation of machine translation; Markov network; correlation
翁貞(1991—),碩士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯。E-mail:wengzhen186@hotmail.com李茂西(1977—),博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理和機(jī)器翻譯。E-mail:mosesli@jxnu.edu.cn王明文(1964—),博士,教授,主要研究領(lǐng)域?yàn)樾畔z索、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。E-mail:mwwang@jxnu.edu.cn
1003-0077(2015)05-0136-07
2015-07-10 定稿日期: 2015-09-30
國(guó)家自然科學(xué)基金(61163006,61203313,61462044,61272212);國(guó)家語委“十二五”規(guī)劃(YB125-99);江西省自然科學(xué)基金(20132BAB201030,20151BAB207025);江西省研究生創(chuàng)新基金(YC2014-S149)
TP391
A