劉琢
摘 要:語言在溝通中所起到的重要作用已是世所公認的事實。在這種情況下,能夠兼顧高質(zhì)量與高速度的翻譯需求開始日益迫切,而機器翻譯的出現(xiàn)就很好地滿足了這種需求。機器翻譯的設(shè)想被提出,并且在時間的推移與技術(shù)的變革中不斷衍進。本文將主要探討機器翻譯研究的起源和發(fā)展與展望機器翻譯的未來發(fā)展趨勢。
關(guān)鍵詞:機器翻譯;機器翻譯研究
1 引言
機器翻譯(Machine Translation)想必是大家最耳熟能詳?shù)娜斯ぶ悄軕?yīng)用之一了,它不僅是計算語言學(Computational Linguistics)的瑰寶,同時也是居家旅行的必需品。機器翻譯,又稱計算機翻譯,是指利用計算機將一種語言符號轉(zhuǎn)換成另一種語言符號。(胡開寶、李翼,2016)
機器翻譯的雛形最早可以追溯到1933年,一位蘇聯(lián)科學家利用卡片、打字機和舊式膠片相機發(fā)明了一個簡易的機械式翻譯器。然而,這個發(fā)明并沒有引起任何人的注意,也沒有留下實物或照片。1946年,第一臺電子計算機 ENIAC 誕生之后,美國科學家 Warren Weaver 就開始思考如何更好地利用計算機“為人民服務(wù)”。圖靈在二戰(zhàn)期間利用機器破譯密文的事跡給了他機器翻譯的靈感,即翻譯也可以看成是一種編碼和解碼的過程。
而機器翻譯(machine translation,MT)的研究始于20世紀50年代,其目的是自動翻譯俄美文本,以便在冷戰(zhàn)中快速獲取對方的科學情報。恰逢冷戰(zhàn)初期,翻譯外文(尤其是俄文)的情報與文獻是美國的一個剛性需求。在政治與科技的歷史進程的雙重推動之下,1949年,Warren 正式在《翻譯備忘錄》中提出機器翻譯的思想。1954年,美國 Georgetown-IBM 實驗室成功利用 IBM 701 計算機將60句俄文句子翻譯成了英文。彼時計算機的運算能力和存儲能力相對較弱,美國、俄羅斯、法國、德國、意大利和日本的研究人員花費了30年時間為它奠定計算基礎(chǔ),而它現(xiàn)在正在改變世界的交流。自20世紀80年代開始,機器翻譯在快速處理海量翻譯內(nèi)容上的作用日益突顯出來。
2 機器翻譯的發(fā)展
此后機器翻譯的發(fā)展,大體可分為四個階段:基于規(guī)則的機器翻譯(Rule-Based Machine Translation,RBMT)、基于例句的機器翻譯(Example-Based Machine Translation, EBMT)、統(tǒng)計機器翻譯(Statistical Machine Translation, SMT)、神經(jīng)機器翻譯(Neural Machine Translation, NMT)。
基于規(guī)則的機器翻譯以源語的分析規(guī)則、源語和目的語之間的轉(zhuǎn)換規(guī)則以及目的語語言的生成規(guī)則的描寫為基礎(chǔ)。這些規(guī)則的分析涉及詞匯、語法、語義等語言層面。(胡開寶、李翼,2016)
基于短語的統(tǒng)計機器翻譯模型具有原理簡單、性能優(yōu)異、魯棒性高等諸多特點, 受到研究與應(yīng)用人員的廣泛青睞, 在當今真實的翻譯任務(wù)中得到廣泛應(yīng)用。 短語翻譯系統(tǒng)使用短語對作為翻譯的基本單元, 傳統(tǒng)的啟發(fā)式短語對抽取算法抽取所有與詞對齊保持一致的短語對。(李強、李沐、張冬冬、朱靖波,2016)基于統(tǒng)計的機器翻譯方法建立在大規(guī)模雙語及單語語料的基礎(chǔ)上。
在2017年的《機器翻譯市場報告》中,我們著眼于機器翻譯市場中不同類型的參與者,特別關(guān)注了新近出現(xiàn)的神經(jīng)機器翻譯。神經(jīng)機器翻譯是近幾年興起的機器翻譯方法。(Koehn P, Och F J, Marcu D.,2003)神經(jīng)機器翻譯的核心思想是使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)將源語言句子編碼為一個稠密向量,然后從該向量解碼出目標語言句子。(哈里旦木·阿布都克里木、劉洋、孫茂松,2017)盡管面臨很多挑戰(zhàn),機器翻譯乃是大勢所趨,我們依然期待這項技術(shù)被廣泛應(yīng)用。
3 總結(jié)與展望
當然,任何一個成熟的機器翻譯工業(yè)產(chǎn)品都不可能只靠一種模型,而應(yīng)該是多種策略組合的結(jié)果。機器翻譯相關(guān)的研究一直以來都是推動計算語言學發(fā)展的最主要的動力之一,這四個階段的發(fā)展與計算語言學整體的走向也是一脈相承。盡管機器翻譯有時的效果不盡如人意,但是忽視或否認它所帶來的積極作用是不明智的。現(xiàn)在,機器翻譯已成為人工翻譯過程中的一環(huán),用來補充或替代過去的翻譯記憶工具。而近期出現(xiàn)的神經(jīng)機器翻譯則更向前邁進了一步,將機器學習的潛能與現(xiàn)存數(shù)據(jù)量和計算速度相互融合,以期達到完美的翻譯效果。最后,引用報告中的一段話:機器翻譯正在商品化,而影響商品化經(jīng)濟增長的主要因素則體現(xiàn)在語言數(shù)據(jù)上。機器翻譯是“使能者”,也是“融合時代”的重要組成部分。機器翻譯賦予了溝通交流以全新的展現(xiàn)形式,包括可穿戴技術(shù)、搜索、社交媒體、物聯(lián)網(wǎng)、聊天機器人等等,當然還有更多的其他應(yīng)用領(lǐng)域。
參考文獻
[1]胡開寶,李翼.機器翻譯特征及其與人工翻譯關(guān)系的研究[J].中國翻譯,2016(5)
[2]李強,李沐,張冬冬,朱靖波. 統(tǒng)計機器翻譯中實例短語對研究[J].北京大學學報(自然科學版),2016(1)
[3]Koehn P, Och F J, Marcu D. Statistical phrase-based translation //Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Edmonton: Association for Computational Linguistics, 2003
[4]哈里旦木·阿布都克里木,劉洋,孫茂松.神經(jīng)機器翻譯系統(tǒng)在維吾爾語-漢語翻譯中的性能對比[J].清華大學學報 (自然科學版),2017(8)