趙紅梅,呂雅娟,賁國生,黃 云,劉 群
(中國科學院 計算技術研究所 中國科學院 智能信息處理重點實驗室,北京 100190)
中國中文信息學會主辦的第七屆全國機器翻譯研討會(CWMT2011)于2011年9月23~24日在廈門召開。為了全面了解國內外機器翻譯技術的現狀,促進機器翻譯技術的研究,按照慣例,本屆機器翻譯研討會繼續(xù)組織了統(tǒng)一的機器翻譯評測,以推進參評單位的實質性交流和機器翻譯技術的發(fā)展。
本次評測由中國科學院計算技術研究所組織,評測重點關注各種語言(包括我國蒙古族、藏族、維吾爾族、哈薩克族、柯爾克孜族的民族語言)到漢語的翻譯,評測共包含7個語言對,9個評測項目和4個評測領域(新聞、科技、政府文獻和日常用語)。在漢英—英漢新聞方向的評測中,除了英漢新聞的當前(current)評測外,還設置了英漢和漢英新聞的進展(progress)評測。
本次評測采用以下流程:通過網絡,評測組織方在評測前一個月向參評單位提供評測訓練語料和開發(fā)語料,評測時再統(tǒng)一發(fā)放測試語料,參評單位在測試語料發(fā)放后約三天之內提交系統(tǒng)翻譯結果,組織方對翻譯結果進行統(tǒng)一測評后,向所有參評單位公布評測結果。
此次評測主要的自動評測指標為BLEU-SBP(Chiang et al.,2008),在漢英方向還采用了WoodPecker評測(Zhou et al.,2008)。
本次評測吸引了國內外19家教育科研機構和企業(yè)單位參加,在9個評測項目上共提交了165個系統(tǒng)的翻譯結果。為了加強技術交流的效果,評測要求每個參評單位撰寫一份評測技術報告。技術上有特點的參評單位在CWMT2011研討會上就本單位的評測技術情況進行了口頭報告。另外,研討會還設置了評測的海報展示環(huán)節(jié),每個參評單位都以海報的形式展示了自己參評系統(tǒng)的技術情況。評測組織方的總結報告(包括各參評單位主系統(tǒng)的系統(tǒng)描述)、各參評單位的技術報告以及研討會錄用的其它論文都被收錄進研討會的論文集并發(fā)放給大家。
本次評測在語料提供方面得到了新疆大學等多家單位(詳細語料提供單位參見表4.1和表4.2)的鼎立支持。多名業(yè)內專家在評測準備會上為CWMT2011評測提出了很多很好的設想和建議。
本文給出了此次評測的組織準備過程、評測結果和分析。文中將列出所有參評單位的名稱,但在評測結果中,不會給出對應的單位名稱,而是代之以單位的匿名代號。
本文內容僅供研究使用,可以在研究論文中引用,但不可用于任何出于商業(yè)目的的宣傳活動。在研究論文中引用時,如果沒有得到其他單位的許可,不得公開其他單位的評測結果。
CWMT2011評測項目的設置如表2.1所示。
表2.1 CWMT2011評測項目
本次評測共設置了9個評測項目,涉及到7個語言對,4個評測領域(新聞、科技、政府文獻和日常用語)。與往屆評測不同的是,本次評測重點關注了各種語言到漢語的翻譯,除了漢英、英漢、日漢三個曾經評測過的語言對以外,評測首次增加了民族語言(藏語、蒙語、維語、哈薩克語、柯爾克孜語)到漢語的翻譯評測。在漢英—英漢新聞方向的評測中,除了英漢新聞的當前(current)評測外,還設置了英漢和漢英新聞的進展(progress)評測。
本次評測共有19個單位報名參加,其中國內單位15家,國外單位4家,教育和科研機構16家,企業(yè)單位3家。參評單位名單如下:
CNGL,School of Computing,Dublin City University
NTT Communication Science Laboratories
SYSTRAN Software,Inc.
北京航空航天大學計算機學院智能所
北京交通大學
東北大學自然語言處理實驗室
富士通研究開發(fā)中心有限公司
哈爾濱工業(yè)大學機器智能與翻譯研究室
內蒙古師范大學
南京大學
西安理工大學
廈門大學
新疆大學
中國科學技術信息研究所
中國科學院合肥物質科學研究院智能機械研究所
中國科學院計算技術研究所智能信息重點實驗室
中國科學院軟件研究所基礎軟件國家工程研究中心
中國科學院新疆理化技術研究所
中國科學院自動化研究所
19家單位在9個不同的項目和語言方向共提交了165個系統(tǒng)的翻譯結果。表3.1給出了本次評測每個項目的參評單位和系統(tǒng)的數量。
表3.1 參評單位和系統(tǒng)數量
評測采用目前國際上普遍采用的評測方式:由評測的組織方提供訓練和測試數據,參評單位在給定時間內返回翻譯結果,再由評測組織方進行評價。
所有評測項目都是對譯文質量進行評測,采用自動評測方法。主要評測指標為BLEU-SBP (Chiang et al.,2008),其他自動評測指標包括:BLEU、NIST、GTM、mWER、mPER、ICT,漢英方向還采用了Woodpecker評測 (Zhou et al.,2008)。自動評測的算法(包括WoodPecker)都是大小寫敏感的,中文的評測是基于字的,而不是基于詞的。
對于每個評測項目,參評單位必須提交一個基本結果(Primary Result),最多可以提交三個對比結果(Contrast Results)。產生基本結果的系統(tǒng)稱為參評單位的基本系統(tǒng)或主系統(tǒng)(Primary System),產生對比結果的系統(tǒng)稱為參評單位的對比系統(tǒng)(Contrast System)。基本系統(tǒng)中,對于采用基于實例的機器翻譯技術或者統(tǒng)計機器翻譯技術實現的模塊或系統(tǒng),所使用的訓練數據必須限制在評測組織方指定的數據范圍之內,不允許使用任何外部數據;對于采用基于規(guī)則的機器翻譯技術實現的模塊或系統(tǒng),允許采用通過人工方式構造的翻譯知識(例如,規(guī)則、模板、詞典等),但是要在系統(tǒng)描述和技術報告中對于所使用的翻譯知識的規(guī)模、構造和使用方式等進行說明。對比系統(tǒng)則可以使用任何數據進行訓練。參評系統(tǒng)也可以采用系統(tǒng)融合技術,但要求在系統(tǒng)描述中進行明確說明,并在技術報告中給出系統(tǒng)融合前單系統(tǒng)的運行結果。評測組織方在發(fā)布評測結果時,也會對采用了系統(tǒng)融合技術的系統(tǒng)進行標注。
本次機器翻譯的評測語料涉及8個語言方向(漢英、英漢、日漢、蒙漢、藏漢、維漢、哈漢和柯漢)、4個領域(新聞、科技、政府文獻和日常用語)。根據國外相關評測及具體分析,我們制訂了相應的語料規(guī)模。在評測中輸入輸出文件均采用UTF-8編碼(有BOM)以及嚴格的XML格式。
訓練語料中,英文單語語料為路透社的RCV1語料,漢語單語語料為搜狗實驗室的搜狗全網新聞語料庫SogouCA,雙語語料情況見表4.1;開發(fā)和測試語料情況見表4.2。
測試語料包括真實測試集及干擾集兩部分,干擾集的結果在評判時被舍棄。
所有開發(fā)集和測試集均為一份原文、四份參考答案。每份參考答案的原始文本均由四名經驗豐富的專業(yè)翻譯人員各自獨立翻譯而成。
表4.2 CWMT2011機器翻譯評測開發(fā)集和測試集情況
為了了解各參評單位的系統(tǒng)進步情況,今年漢英新聞和英漢新聞方向均設置了進展(progress)項目(使用的是CWMT2009的評測語料),另外,英漢新聞方向還設置了當前(current)項目(使用的是2011年新制作的語料),我們在評測結果中對比了進展項目中兩年評測的系統(tǒng)變化情況。另外,在漢英新聞方向,我們繼續(xù)進行了WoodPecker評測,該評測全部采用CWMT2009中WoodPecker評測的測試數據和相關參數。有關WoodPecker評測的詳細情況,請參見CWMT2009機器翻譯評測報告,該評測報告以及計算所組織的歷屆全國機器翻譯評測的相關資料可參考以下評測網頁及相關鏈接:
http://nlp.ict.ac.cn/new/CWMT/index.php
本次評測中所有項目的參考譯文均不提供給參評單位,而是留到下次評測時繼續(xù)使用,以便了解各參評單位在這一段時間間隔內的技術進步。在參評單位提交評測結果之后、研討會開始之前這段時間,我們向各參評單位開放了在線評測打分網站,供參評單位進行機器翻譯實驗時打分使用。
本次CWMT評測采用了網上評測的方式,表4.3 給出了此次評測的流程。
表4.3 CWMT2011評測流程
續(xù)表
本節(jié)給出各評測項目主系統(tǒng)在主要評測指標BLEU-SBP上的評測結果,并對評測結果進行了分析。我們在BLEU-SBP的基礎上,針對各主系統(tǒng)的翻譯結果,進行了結果之間差異的顯著性檢驗——符號檢驗(Collins et al.,2005),總的做法是:分別以每個主系統(tǒng)為基準系統(tǒng),測試了所有其他主系統(tǒng)與基準系統(tǒng)結果差異的顯著性程度,以此構造了所有主系統(tǒng)翻譯結果的差異顯著性矩陣,因篇幅有限,本文僅顯示漢英新聞進展(progress)評測的差異顯著性結果(圖1)。詳細的評測結果參見CWMT2011機器翻譯評測報告(http://nlp.ict.ac.cn/new/CWMT/CWMT2011.php)。
在下面評測結果的圖表中,橫坐標是該項目各參評單位提交的主系統(tǒng)(用各單位代號來表示),縱坐標是主要評測指標的得分。橫坐標中出現的“◆”代表其左邊的系統(tǒng)采用了系統(tǒng)融合技術。
圖1 CWMT2011漢英新聞(progress)評測結果
表5.1.1 漢英新聞(progress)各主系統(tǒng)2009年與2011年評測結果對比
表5.1.2 漢英新聞(progress)各主系統(tǒng)BLEU4-SBP差異顯著性檢驗結果表(顯著標志●,不顯著標志○,p<0.05)
分析:從表5.1.1中可以看出,既參加了CWMT2009又參加了CWMT2011漢英新聞評測的單位中,有一半單位的成績有所提高,例如S5的BLEU-SBP值提升了2.3個百分點,有一半單位因各種緣故成績有所下降??偟膩碚f,參加評測的漢英新聞評測系統(tǒng)的差異性不大,排在第1名和第9名的系統(tǒng)的BLEU-SBP值的差異只有3個百分點,很多系統(tǒng)間的差異性不顯著(表5.1.2)。從評測報告和評測結果來看,絕大多數參評單位采用的漢英機器翻譯技術差異不大,各單位系統(tǒng)之間的差距在逐漸縮小。
表5.2.1 英漢新聞(progress)各主系統(tǒng)2009年與2011年評測結果對比
分析:從表5.2.1可以看出,在進展(progress)項目中,與2009年相比,2011年英漢新聞領域的BLEU值除個別單位(S7)略有下降外,其他四個單位均有提高。當前(current)項目的評測結果中,橫坐標上,除了前兩個單位和后兩個單位外,中間單位的BLEU值差異基本上不明顯(詳情可參考CWMT2011評測報告中的顯著性檢驗結果,如圖2、圖3所示)。
圖2 CWMT2011英漢新聞(progress)評測結果(BLEU5-SBP)
圖3 WMT2011英漢新聞(current)評測結果(BLEU5-SBP)
圖4 CWMT2011英漢科技評測結果(BLEU5-SBP)
分析:從圖4可以看出,英漢科技領域的BLEU值比較高,這可能與領域比較集中(主要集中在計算機和通訊兩個領域),測試集與開發(fā)集、訓練集的語料內容比較一致,訓練語料規(guī)模比較大(表4.1)有關。
圖5 CWMT2011日漢新聞評測結果(BLEU5-SBP)
分析:從上圖可以看出,日漢新聞領域的BLEU值比較高,各系統(tǒng)間的差異比較顯著。此次日漢新聞項目提供的訓練語料規(guī)模比較大,但內容比較龐雜,與開發(fā)集和測試集語料(內容都集中在新聞領域)的相似度并不高,然而,筆者通過對比原文和參考譯文發(fā)現:日文和中文這兩種語言的相似程度非常高,這可能是該項目BLEU值較高的主要原因。
例如,原文:國家開発銀行が今回香港で発行したCDは、主に機関投資家を対象としたもので、個人投資家は購入できない。
參考譯文之一:中國開發(fā)銀行這次在香港發(fā)行的CD,主要以集團投資家為對象,個人投資家不得購入。
分析:
從圖6可以看出,藏漢政府文獻領域的BLEU值很高,各系統(tǒng)間的差異很顯著。我們分析BLEU值偏高的原因,發(fā)現:1)評測語料主要來源于政府文獻,領域相對集中,固定表達多,且使用頻率高;2)相對于其它民語來說,訓練語料較多(表4.1)。這兩個原因有可能是藏漢政府文獻BLEU值偏高的主要原因。
從圖7可以看出,蒙漢日常用語領域的BLEU值很低,各系統(tǒng)間的差異不太顯著。我們考察了一下各參評單位提交的翻譯結果,從翻譯質量上來看,各個系統(tǒng)還很不成熟,譯文中漏譯現象比較嚴重,命名實體普遍沒有翻譯出來,譯文長度偏短。
圖8 CWMT2011維漢新聞評測結果(BLEU5-SBP)
分析:從圖8可以看出,維漢新聞領域的BLEU值較高,各系統(tǒng)間的差異比較顯著。我們考察了評測語料及翻譯結果,發(fā)現和藏漢政府文獻翻譯的情形類似,維漢新聞的測試語料和訓練語料主要來源于中國政府發(fā)布的官方新聞,領域比較集中,固定表達多且使用頻率高,而且測試語料與訓練語料相似程度高,從而導致系統(tǒng)譯文的質量比較好,BLEU值比較高。
分析:從圖9和圖10可以看出,哈漢和柯漢新聞領域的BLEU值也比較高,各系統(tǒng)間的差異不太顯著。與維漢新聞翻譯的情形類似,哈漢新聞和柯漢新聞的測試語料和訓練語料主要來源于中國政府發(fā)布的官方新聞,而且測試語料與訓練語料相似程度比較高,所以得分較高,而且柯漢新聞更有相當一部分(超過1/3)的測試語料和訓練語料來源于政府頒布的一些法規(guī)和條例,領域更加集中,這也許可以說明為什么柯漢新聞的翻譯效果更好。
圖11 CWMT2011各評測項目對比
圖10橫坐標中從左至右分別對應著表2.1中從上到下九個評測項目,其中英漢新聞包括兩個子項目:英漢新p代表進展(progress)項目,英漢新c代表當前(current)項目??v坐標為BLEU-SBP的數值,其中漢英的評測指標是BLEU4-SBP,其他是BLEU5-SBP。
總的來看,評測BLEU-SBP得分比較高的項目有:臧漢政府文獻、維漢新聞、日漢新聞、柯漢新聞、英漢科技和哈漢新聞;評測得分比較低的項目有:漢英新聞和蒙漢新聞。
通過對參評系統(tǒng)所采用的技術以及翻譯結果的分析,我們發(fā)現:
1)統(tǒng)計機器翻譯技術在本次參評的系統(tǒng)中占主流地位。參評系統(tǒng)絕大多數采用了統(tǒng)計機器翻譯技術(66個主系統(tǒng)中有62個采用的是純統(tǒng)計機器翻譯技術)。與以往相比,本次評測更多單位采用了基于句法的統(tǒng)計機器翻譯模型(包括基于形式句法的層次短語模型),這表明更多的單位掌握了這項技術。
2)規(guī)則和統(tǒng)計相結合的系統(tǒng)在評測中表現出一定的優(yōu)勢。參評系統(tǒng)中只有少量系統(tǒng)(4個主系統(tǒng))結合了規(guī)則式方法和統(tǒng)計式方法,但是均取得了不錯的效果。例如,S18采用的是在比較成熟的規(guī)則式系統(tǒng)的翻譯結果上運用統(tǒng)計式方法進行后編輯,在漢英新聞的評測項目中其BLEU值排名第一;S11采用的方法是,在基于統(tǒng)計和基于規(guī)則這兩類機器翻譯多引擎的翻譯輸出的基礎上,進行系統(tǒng)融合,其在英漢科技領域提交的翻譯結果BLEU值排名第一。(另外還有一個單純的規(guī)則系統(tǒng)作為對比系統(tǒng),在其所在的評測項目組中成績不太理想。)
3)系統(tǒng)的翻譯質量取決于多種因素??傮w來說,源語言與目標語言相似程度越高(如日漢新聞),評測的領域越集中,測試語料與訓練語料/開發(fā)語料的相似程度越高(如藏漢政府文獻、維漢新聞、柯漢新聞、英漢科技等),訓練語料規(guī)模越大(如英漢科技、藏漢政府文獻),參評系統(tǒng)采用的技術越先進,參評系統(tǒng)的成熟度越好(包括對一些細節(jié)問題的處理,如:對評測語料的前期處理、對翻譯結果的譯后處理、對命名實體的處理,以及系統(tǒng)開發(fā)者的技術熟練程度等),系統(tǒng)表現越好。
CWMT2011評測主要側重于其他語種到漢語的評測,共設立了9個評測項目,其中包括漢英雙向的進展性評測,新增了五個語言對的評測,新增的評測主要是民族語言到漢語的評測。此次評測的評測項目和參評單位的數量都位居歷屆全國機器翻譯評測之首。
從評測結果來看,雖然一些項目的語種和領域是參評單位從未接觸過的,但不論是從自動評測的結果(BLEU值等)還是從筆者人工考察的譯文質量來看,機器翻譯的效果都超過了我們的預期,這充分證明了統(tǒng)計式機器翻譯技術強大的適應性。但是也存在著一些問題,例如,漢英新聞的翻譯,通過進展性評測,我們發(fā)現結果喜憂參半(大約有一半單位成績有所提高,還有大約一半的單位在后退或者止步不前),希望這個問題引起大家的重視。
評測的成績取決于多種因素,包括源語言與目標語言的相似程度、評測領域的集中程度、測試語料與訓練/開發(fā)語料的相似程度、訓練語料的規(guī)模以及參評系統(tǒng)采用的技術和成熟度等。但是評測的結果不是我們評測的真正目的,我們的目的是通過評測這個手段,給大家提供一個技術交流的平臺,讓大家及時發(fā)現問題,跟蹤最新的機器翻譯技術,互幫互學,共同前進,推動我國機器翻譯事業(yè)穩(wěn)步向前發(fā)展,最終達到利益大眾的目的。
CWMT2011機器翻譯評測能得以順利進行,得益于各同行單位和同仁的大力支持,沒有大家在評測語料上的無私奉獻和在評測組織上的寶貴意見,這么大規(guī)模評測的實施是無法想象的。我們在此對所有為CWMT2011評測提供評測語料、參加CWMT2011評測、關心和支持CWMT2011評測的單位和同仁表示最誠摯的感謝!
CWMT2011研討會已初步確定了以后CWMT機器翻譯評測每隔兩年舉行一次,下一次機器翻譯評測的時間定在2013年,我們熱忱地歡迎各同行單位屆時踴躍報名參加評測,也期待著各參評單位在CWMT2013中再創(chuàng)佳績,將我國機器翻譯的研究和開發(fā)應用推向一個新的高潮!
[1]劉群,趙紅梅.第五屆全國機器翻譯研討會(CWMT2009)評測報告[R].第五屆全國機器翻譯研討會(CWMT2009),2009年10月16~17日,南京.
[2]趙紅梅,呂雅娟,賁國生,等.第七屆全國機器翻譯研討會(CWMT2011)評測報告[R].第七屆全國機器翻譯研討會(CWMT2011),2011年9月23~24日,廈門.
[3]David Chiang,Steve DeNeefe,Yee Seng Chan,et al.2008.Decomposability of translation metrics for improved evaluation and efficient algorithms[C]//Proc.EMNLP 2008,pages 610-619.
[4]Michael Collins,Philipp Koehn,Ivona Kuerová.2005.Clause restructuring for statistical machine translation[C]//Proc.ACL 2005,pages 531-540.
[5]Ming Zhou,Bo Wang,Shujie Liu,et al.2008.Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points[C]//Proc.Coling 2008,pages 1121-1128.