張霄軍, 劉 群
(1. 都柏林城市大學 CNGL研究中心,都柏林 愛爾蘭;2. 陜西師范大學 外國語學院,陜西 西安 710062;3. 中國科學院 計算技術研究所,北京 100190)
?
第十四屆機器翻譯峰會(MT Summit XIV)綜述
張霄軍1,2, 劉 群1,3
(1. 都柏林城市大學 CNGL研究中心,都柏林 愛爾蘭;2. 陜西師范大學 外國語學院,陜西 西安 710062;3. 中國科學院 計算技術研究所,北京 100190)
2013年9月2日至9月6日,第十四屆機器翻譯峰會(Machine Translation Summit XIV,以下簡稱“峰會”)在風景優(yōu)美的法國南部海濱城市尼斯(Nice)舉行,會議議程為: 9月2日至9月3日為專題講座(Tutorial)和專題研討會(Workshop),9月4日至9月6日為主會議(Main Conference),詳見http://www.mtsummit2013.info/index.asp。峰會吸引來自世界各地的機器翻譯研究者、用戶和企業(yè)代表、科研項目負責人和參與者等會議代表300余人,筆者作為愛爾蘭科學基金(Science Funding of Ireland, SFI)項目CNGL(Centre for Next Generation Localisation)的代表參加了此次峰會。
峰會共舉辦了6場專題講座和4場專題研討會,并行進行,強度非常密集。
6場專題講座分別為:
(1) 開源統(tǒng)計機器翻譯(Open Source Statistical Machine Translation)。開源代碼共享是統(tǒng)計機器翻譯快速發(fā)展的基礎,越來越多的機器翻譯研究者已經樂于公開自己的源代碼。在這場講座中Moses研發(fā)者Philipp Koehn和Hieu Hoang就這款被廣泛采用的統(tǒng)計機器翻譯的基礎性開源工具進行了詳細講解。
(2) 機器翻譯中的領域自適應(Domain Adaptation in Machine Translation)。領域自適應是機器翻譯系統(tǒng)研發(fā)的一個熱點。在這場講座中,來自德國漢堡大學的專家從Domain的定義出發(fā),詳細講解了如何實現機器翻譯系統(tǒng)的領域自適應。
(3) 從科學研究到成功開辦公司,一種商業(yè)模式的產生(From Research to Successful Start-up: a Business Model Generation)。在這場報告中,tauyou
(4) MateCat: 一種用于機器翻譯后編輯的開源計算機輔助翻譯工具(MateCat: an Open Source CAT Tool for MT Post-Editing)。這場講座所介紹的MateCat是在歐盟項目支持下開發(fā)的一款企業(yè)級的計算機輔助翻譯工具,它能夠提供一種基于網絡的專業(yè)翻譯環(huán)境,將翻譯記憶和Moses機器翻譯系統(tǒng)結合起來,而且是以開源的形式發(fā)布的。
(5) 通過標準實現本地化和翻譯流程中的互用性。Linport方法(Enabling Interoperability in Localization and Translation Workflows through Standards- The Linpot Approach),互用性也已成為本地化產業(yè)的行業(yè)準則,良好的互用性可以確保本地化和翻譯供應鏈中信息傳遞的完整性。TBX、TMX、ITS和 XLIFF等都是語言資源格式互用性的標準,Linport就致力于這種語言資源無縫互用的標準創(chuàng)制。這場講座圍繞Linport的工作開啟了本地化數據標準化之旅 。
(6) 一種基于Web Services快速構建機器翻譯工作流程的架構(An Architecture based on Web Services for the Rapid Development of Workflows for Machine Translation)。這場講座也是有關領域自適應的,講者主要講解了他們正在從事的一項歐盟項目PANACEA,該項目致力于整合不同語言資源、技術和網絡服務快速構建領域自適應的機器翻譯系統(tǒng)。
4場專題研討會分別為:
(1) 第5屆專利翻譯研討會(The 5th Workshop on Patent Translation) : 從2005年第十屆機器翻譯峰會(泰國)開始,每屆機器翻譯峰會都有一次專利翻譯的專題研討會,迄今已是第五次,顯示了機器翻譯在專利翻譯領域應用的廣泛性,體現了機器翻譯技術在專業(yè)翻譯領域的優(yōu)勢。日本、韓國、中國、歐盟和美國是世界上專利翻譯需求最為突出的國家和地區(qū),加強各個國家專利翻譯領域的交流也是此次峰會的貢獻之一。
(2) 第二屆后編輯技術與實踐研討會(The 2nd Workshop on Post-Editing Technologies and Practice): 去年(2012年)美洲機器翻譯會議(AMTA2012)上舉辦了第一次后編輯技術與實踐專題研討會,這次是第二次。與上次不同的是,本次研討會突出了后編輯的“技術”特征,特別關注翻譯過程中的人機交互方式(human-machine collaborations)。
(3) 以用戶為中心的機器翻譯及評價(User Centric Machine Translation & Evaluation): 從用戶的角度看機器翻譯是機器翻譯走向實用的必經之路。歐洲機器翻譯發(fā)展既重視技術創(chuàng)新,又關注產品應用,將二者緊密結合起來。因此,從用戶的視角去評價機器翻譯技術也是目前的研究方向之一。為此,歐盟立項資助科研項目QTLaunchPad,筆者也參與了該項目,以用戶為中心的機器翻譯及評價專題研討會也可以說是QTLaunchPad項目的小峰會。
(4) 機器翻譯與翻譯技術中的多詞單元(Multi-word Units in Machine Translation and Translation Technology): 多詞單元(MWUs)是一個復雜的語言學現象,指的是一些固化或者半固化的詞匯序列,如命名實體、短語動詞等。在機器翻譯中,多詞單元的自動識別和翻譯問題尚未完全解決。此次專題研討會將多詞單元問題置于語言研究、翻譯研究和自然語言處理研究多元背景下,探討了該問題的解決方案。
峰會主會議有兩位邀請發(fā)言(Invited Speaker)和4位用戶代表發(fā)言(User presentation),分會(Session)共有12場。期間還進行了一場張貼海報分會(Research Poster Session)、一場項目展示(Project Village)、一場企業(yè)展覽(Exhibition Opportunity)和一場圓桌討論(Panel Discussion)。
邀請發(fā)言人之一為德國慕尼黑大學教授、著名機器翻譯專家Hinrich Schuetze,他做了題為“操作序列模型: 在單一自左至右模型中融入翻譯與調序操作(The operation sequence model: Integrating translation and reordering operations in a single left-to-right model)”的主旨報告,講解了操作序列模型(OSM)在機器翻譯中的應用,該模型目前已經在開源的Moses系統(tǒng)中實現,并且可以在原有的短語模型基礎上顯著而穩(wěn)定地提高系統(tǒng)的性能,受到了很多的關注;另一位邀請發(fā)言人做了題為“揭去機器翻譯的神秘面紗: 從真實世界中學習(Demystifying Machine Translation: Learning from the Real Word)”的主旨報告,以通俗的語言講解了外部世界知識對統(tǒng)計機器翻譯的重要影響。4位受邀做大會報告的用戶分別來自Adobe、LionBridge、IBM Germany和Microsoft Research四家跨國語言服務客戶或供應商。
12場分會又劃分為兩類(Track)——研發(fā)類(R&D Track)和用戶類(User Track)”,共收錄報告論文36篇。研發(fā)類的八場分會分別圍繞“自適應與翻譯類型(Adaptation and Genre)”、“質量評估與機器翻譯應用(Quality Estimation and MT Application)”(兩場分會)、“語義消歧、語義相關度與在線自適應(WSDs, Semantic-relatedness and Online Adaptation)”、“后編輯與術語(Post-editing and Terminologies)”、“對齊與詞序(Alignment and Word order)”、“自調參與自動歸納(Self-Tuning and Automatic Induction)”、“資源貧乏的機器翻譯及其應用(Resource Poor MT and MT Applications)”等主題展開。用戶類的4場分會也就翻譯市場、翻譯工具使用、機器翻譯后編輯標準化、用戶評價、翻譯與大數據等與翻譯行業(yè)發(fā)展密切的話題進行了討論。
張貼海報分會共收錄張貼海報論文13篇,峰會也給了海報論文作者們充足的時間(12:30-16:00,9月 3日)向參會代表介紹他們的研究成果。
項目展示和企業(yè)展覽精彩紛呈,共有24個項目組和8家公司展示他們的研究內容和產品開發(fā)。峰會特意為參展的歐盟及政府項目組提供了一分鐘的口頭宣傳時間,劉群教授代表愛爾蘭科學基金項目CNGL上臺發(fā)言。
峰會行將閉幕之前還舉辦了一場別開生面的圓桌討論,以“機器翻譯巴別塔(The MT Translation Tower Babel)”為主題,討論了機器翻譯中研究、教育、開發(fā)、服務和使用之間的關系和障礙,機器翻譯發(fā)展的未來、機器翻譯在經濟社會中的作用等話題,參加圓桌討論的代表們暢所欲言,臺下的聽眾也能隨時提問,圓桌討論氣氛融洽。
峰會閉幕前頒發(fā)了最佳論文獎(Best Paper Award)、歐洲機器翻譯協(xié)會終身成就獎(EAMT Lifetime Achievement Award)和2013年國際機器翻譯協(xié)會榮譽獎(IAMT Award of Honor 2013)。
本屆峰會最佳論文獎頒給了George Foster、Boxing Chen和Roland Kuhn合寫的“統(tǒng)計機器翻譯線性融合自適應的模擬判別訓練(Simulating Discriminative Training for Linear Mixture Adaptation in Statistical Machine Translation)”。該文在線性融合模型上做了兩點改進,一是對短語表進行了預處理以取得更優(yōu)的最大似然估計權重,二是在統(tǒng)計機器翻譯訓練模型中選擇使用了恰當的線性融合判別訓練特征。這兩點改進使得系統(tǒng)的BLEU值大為提高,能夠滿足領域自適應的需要。
本屆峰會將2013年國際機器翻譯協(xié)會榮譽獎授予RWTH的Hermann Ney教授。Ney教授回憶說,二十世紀90年代后期,全世界做統(tǒng)計機器翻譯的研究組只剩下包括他們和香港科技大學吳德凱在內的少數幾個研究組,連IBM自己都不做了,而現在統(tǒng)計機器翻譯已經成為機器翻譯的研究主流。
本屆峰會將歐洲機器翻譯協(xié)會終身成就獎授予John Hutchins博士。John Hutchins本人并不做機器翻譯的開發(fā)研究,但他是機器翻譯研究領域的忠實記錄者和評論家,數十年如一日記錄機器翻譯研究取得的成果并發(fā)表了大量評論文章著作,整理和維護了機器翻譯論文庫和資源工具清單,為這個領域做出了特別的貢獻。
峰會期間還召開了各大洲機器翻譯協(xié)會會議(EAMT/AMMT/AAMT Separate Meetings)。
峰會最后由新上任的IAMT主席Alon Lavie宣布,AMTA2014在加拿大溫哥華舉行,MT Summit 2015在佛羅里達的邁阿密舉行。
由于此次會議在歐洲進行,國內與會代表不多。為了讓國內學者及時了解和掌握峰會動態(tài),在峰會現場,筆者分別通過新浪微博(@劉群MT-to-Death)和 網 易 博客(http://blog.163.com/andy_zxj@126/)進行了會議直播,此舉得到國內廣大網友和機器翻譯研究者的熱烈歡迎。
筆者體會,除了通常機器翻譯研究所關注的學術研究問題,此次峰會也非常關注機器翻譯的實際應用,其熱點可以用3個關鍵詞加以概括: (1)領域自適應;(2)交互式后編輯;(3)評測指標。以下是筆者對這些關鍵詞的思考。
(1) 領域自適應研究得到了極大重視。從專題講座開始,“領域自適應”就成了峰會的一個熱點詞匯。實際上這是兩個關鍵詞,一是“領域”,什么是領域?有哪些領域?二是“自適應”,如何自適應?怎樣評價自適應的效果?這些問題自始至終都是峰會代表們探討的核心問題,也是日后機器翻譯研究要解決的問題。
(2) 交互式后編輯方法研究方興未艾。ALPAC報告之后,后編輯一直是機器翻譯研究不可或缺的一項內容,但長期以來,后編輯都被視為是翻譯人員(或專業(yè)后編輯人員)的人工作業(yè)。本次峰會上著重討論了交互式后編輯方法,也有學者提出了通過錯誤驅動的方法實現自動后編輯的方法?!皩嶋H上,交互式后編輯能夠將機器翻譯和翻譯記憶有效地整合在一起?!睂崿F智能的后編輯既是提高機器翻譯質量的有效途徑,又是提高用戶翻譯效率的便利方式。
(3) 機器翻譯評測指標呈多樣性態(tài)勢。長期以來研究者們提到的“評測”都集中在機器翻譯的譯文質量評測上,傳統(tǒng)的人工打分評測方法或是BLEU,METEOR等自動評測指標都是面向機器翻譯研究的,其目的都是為了改進機器翻譯系統(tǒng)。然而,對于機器翻譯產品的用戶而言,什么是他們期待的評測指標?上述評測數據對他們有沒有用?
還有一點,MT Summit與ACL的明顯不同之處在于: MT Summit除了有學術界代表參會以外,還有大量機器翻譯用戶代表參加,并專門為用戶類論文設立分會場,鼓勵用戶一起討論在機器翻譯應用中遇到的問題和交流經驗,在關注機器翻譯研究的同時,更加注重機器翻譯的實際應用,更加貼近機器翻譯用戶。此次峰會傳承了這樣的傳統(tǒng),并且到會的用戶類代表人數首次超過了到會總人數的一半,科研工作者與企業(yè)客戶的互動非常密切。
本文工作受愛爾蘭科學基金(資助編號: No.12/CE/I2267)資助。愛爾蘭都柏林城市大學吳曉鋒博士、博士生李良友和張健審閱了本文初稿并提出修改意見。在此一并感謝。
[1] 米海濤,趙紅梅,劉群. 第十二屆機器翻譯峰會和NIST2009機器翻譯評測研討會簡介[J]. 中文信息學報,2009,23(6): 122-125.
[2] 張霄軍,賀鶯. 翻譯的技術轉向.中國翻譯,2014(6): 74-77.
張霄軍(1978—),博士,副教授,碩士生導師,主要研究領域為現代翻譯技術。E?mail:xzhang@computing.dcu.ie劉群(1966—),博士,研究員,博士生導師,主要研究領域為機器翻譯。E?mail:qliu@computing.dcu.ie
1003-0077(2015)01-0203-04
2013-09-26 定稿日期: 2013-10-30