摘要:簡(jiǎn)要述評(píng)了機(jī)器翻譯的起源和發(fā)展,實(shí)現(xiàn)機(jī)器翻譯的原理方法分類,包括基于規(guī)則、基于統(tǒng)計(jì)法、基于實(shí)例、混合法等。同時(shí)介紹了機(jī)器翻譯應(yīng)用的主要場(chǎng)合和應(yīng)用的前提條件。
關(guān)鍵詞:機(jī)器翻譯;神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
機(jī)器翻譯Machine Translation(簡(jiǎn)稱為MT)屬于計(jì)算語(yǔ)言學(xué)的分支,主要是研究如何使用計(jì)算機(jī)軟件將一種語(yǔ)言文本或語(yǔ)音從翻譯成另一種語(yǔ)言。
一般來(lái)講,機(jī)器翻譯指的是使用計(jì)算機(jī)軟件機(jī)械地用將某種語(yǔ)言的詞匯替換成另一種語(yǔ)言(比如,“dog”轉(zhuǎn)為“狗”),但是,不難想象,僅憑這種方式很難產(chǎn)生好的翻譯,因?yàn)橛?jì)算機(jī)還需要能夠識(shí)別目標(biāo)語(yǔ)中的整個(gè)短語(yǔ)、句子甚至是語(yǔ)篇,然后找出最接近的意思。比如“l(fā)uckydog”直接翻譯成“幸運(yùn)的狗”難免讓人啼笑皆非。
1. 發(fā)展歷程
機(jī)器翻譯淵源可以追溯到9世紀(jì)一位叫Al-Kindi的阿拉伯密碼學(xué)家的研究,他開(kāi)發(fā)的一些技術(shù)可以用于系統(tǒng)語(yǔ)言翻譯,包括密碼分析、頻度分析、概率和統(tǒng)計(jì),這些技術(shù)后來(lái)被用于機(jī)器翻譯。而機(jī)器翻譯的想法則出現(xiàn)在17世紀(jì)。在1629年,René Descartes提出了一種通用語(yǔ)—在不同的語(yǔ)言中,相同的思想用同一個(gè)符號(hào)來(lái)表示。
早在1946年就由洛克菲勒基金會(huì)的A.D. Booth和Warren Weaver就同時(shí)提出了使用數(shù)字計(jì)算機(jī)翻譯自然語(yǔ)言的想法?!癢arren Weaver在1949年撰寫(xiě)的備忘錄,可能是機(jī)器翻譯早期最具影響力的出版物?!?1954年,ji在倫敦大學(xué)伯克貝克學(xué)院的APEXC機(jī)器上進(jìn)行了英語(yǔ)翻譯的初步演示。
Yehoshua Bar-Hillel于1951年在麻省理工學(xué)院開(kāi)始了機(jī)器翻譯的研究。由Michael Zarechnak教授領(lǐng)導(dǎo)的MT研究小組,隨后也開(kāi)始了研究,并在在1954年公開(kāi)展示了其Georgetown-IBM翻譯實(shí)驗(yàn)系統(tǒng)。MT研究項(xiàng)目隨后在日本和俄羅斯出現(xiàn)(1955年),并于1956年第一次在倫敦舉行MT會(huì)議。David G. Hays早在1957年就寫(xiě)了關(guān)于計(jì)算機(jī)輔助語(yǔ)言處理的文章,他于1955年到1968年作為Rand公司計(jì)算語(yǔ)言學(xué)的項(xiàng)目負(fù)責(zé)人。
在1962年,機(jī)器翻譯和計(jì)算語(yǔ)言學(xué)協(xié)會(huì)在美國(guó)成立。1964年美國(guó)國(guó)家科學(xué)院成立自動(dòng)語(yǔ)言處理咨詢委員會(huì)(ALPAC)來(lái)研究機(jī)器翻譯。隨后,越來(lái)越多的研究人員繼續(xù)加入該領(lǐng)域。雖如此,該領(lǐng)域真正的進(jìn)展要慢得多。在1966年,據(jù)ALPAC報(bào)告稱,長(zhǎng)達(dá)10年的研究未能達(dá)到預(yù)期,隨后,資金大大減少。但并非一無(wú)所獲,根據(jù)國(guó)防研究和工程主任1972年的一份報(bào)告,Logos MT系統(tǒng)成功地將軍事手冊(cè)翻譯成越南語(yǔ),從而重新確立了大規(guī)模MT的可行性。在1970年,法國(guó)紡織學(xué)會(huì)也使用機(jī)器翻譯將摘要翻譯成法語(yǔ)、英語(yǔ)、德語(yǔ)和西班牙語(yǔ));楊百翰大學(xué)(Brigham Young University)啟動(dòng)了一個(gè)自動(dòng)翻譯摩門(mén)教文本的項(xiàng)目。
SYSTRAN在1978年被施樂(lè)公司用來(lái)翻譯技術(shù)手冊(cè)。從20世紀(jì)80年代末開(kāi)始,隨著計(jì)算能力的提高和成本的降低,人們對(duì)機(jī)器翻譯的統(tǒng)計(jì)模型表現(xiàn)出了更多的興趣。計(jì)算機(jī)出現(xiàn)后使得MT變得更受歡迎。SYSTRAN的第一個(gè)應(yīng)用案例是在1988年由法國(guó)郵政提供的的Minitel在線服務(wù)。逐漸出現(xiàn)了各種以計(jì)算機(jī)為基礎(chǔ)的翻譯公司,比如Trados。
到1998年,“只要29.95美元”,就可以“買(mǎi)到一個(gè)程序,讓你迅速在英語(yǔ)和主要?dú)W洲語(yǔ)言之間實(shí)現(xiàn)單向翻譯”。
網(wǎng)絡(luò)上的MT始于SYSTRAN在1996年提供小文本的免費(fèi)翻譯,它是通過(guò)AltaVista Babelfish提供這一服務(wù)的,每天累積了50萬(wàn)次請(qǐng)求。網(wǎng)上第二個(gè)免費(fèi)翻譯服務(wù)是Lerout 和 Hauspie的GlobaLink.
Franz Josef Och (谷歌未來(lái)的翻譯開(kāi)發(fā)負(fù)責(zé)人)在2003年贏得了DARPA的速度MT競(jìng)賽。在2007年出現(xiàn)了MOSES,一種開(kāi)源統(tǒng)計(jì)MT引擎。在2008年在日本出現(xiàn)了手機(jī)文本/短信翻譯服務(wù),以及2009年出現(xiàn)的內(nèi)置英語(yǔ)、日語(yǔ)和中文語(yǔ)音轉(zhuǎn)換功能的手機(jī)。2012年,谷歌宣布谷歌Translate在一天內(nèi)翻譯的文本大約足夠填滿100萬(wàn)本書(shū)。
2. 方法原理
機(jī)器翻譯可以使用基于語(yǔ)言規(guī)則linguistic rules的方法,這意味著單詞將以語(yǔ)言的方式進(jìn)行翻譯—目標(biāo)語(yǔ)言中最合適的單詞將取代源語(yǔ)言中的單詞。
基于規(guī)則rule-based的機(jī)器翻譯模式包括基于遷移transfer-based的機(jī)器翻譯、語(yǔ)際interlingual機(jī)器翻譯和基于詞典dictionary-based的機(jī)器翻譯。這種類型的翻譯主要依靠詞典和語(yǔ)法程序的創(chuàng)建。
統(tǒng)計(jì)Statistical機(jī)器翻譯嘗試使用基于雙語(yǔ)文本語(yǔ)料庫(kù)的統(tǒng)計(jì)方法生成翻譯,如加拿大Hansard語(yǔ)料庫(kù)、加拿大議會(huì)的英法記錄和歐洲議會(huì)的EUROPARL記錄。如果有這樣的語(yǔ)料庫(kù),可以在翻譯相似文本時(shí)取得良好的效果,但在其他許多語(yǔ)言對(duì)中,這樣的語(yǔ)料庫(kù)仍然很少。
基于實(shí)例example-based的機(jī)器翻譯(EBMT)方法是由Makoto Nagao于1984年提出的?;趯?shí)例的機(jī)器翻譯是基于類比的思想。在這種方法中,所使用的語(yǔ)料庫(kù)包含已經(jīng)翻譯過(guò)的文本。
混合機(jī)器翻譯(HMT)利用了統(tǒng)計(jì)和基于規(guī)則的翻譯方法的優(yōu)勢(shì),一些MT組織提出了一種混合的方法,它同時(shí)使用了規(guī)則和統(tǒng)計(jì)數(shù)據(jù)。
神經(jīng)機(jī)器翻譯是一種基于深度學(xué)習(xí)的MT方法,近年來(lái)取得了快速進(jìn)展,谷歌宣布其翻譯服務(wù)現(xiàn)在優(yōu)先使用該技術(shù),而不是以前的統(tǒng)計(jì)方法。
3. 應(yīng)用領(lǐng)域
雖然還沒(méi)有任何翻譯系統(tǒng)能夠完成隨意文本的高質(zhì)量自動(dòng)翻譯,但許多自動(dòng)翻譯系統(tǒng)能夠已經(jīng)能夠完成合理的翻譯任務(wù)。如果對(duì)源文本進(jìn)行適當(dāng)?shù)南拗坪涂刂?,機(jī)器翻譯的質(zhì)量將大大提高。
所以,MT翻譯程序在世界各地都在使用。這其中最大的機(jī)構(gòu)使用者可能是歐盟委員會(huì)。例如,由哥德堡大學(xué)參與的MOLTO項(xiàng)目從歐盟獲得了237.5萬(wàn)歐元的項(xiàng)目支持,用以創(chuàng)建一個(gè)涵蓋歐盟大多數(shù)語(yǔ)言的可靠翻譯工具機(jī)器翻譯系統(tǒng)。人工翻譯預(yù)算的削減可能增加歐盟對(duì)優(yōu)秀機(jī)器翻譯程序的依賴。歐盟委員會(huì)(通過(guò)ISA計(jì)劃)出資307.2萬(wàn)歐元?jiǎng)?chuàng)建MT@EC,這是一個(gè)為歐盟管理需求量身定制的統(tǒng)計(jì)機(jī)器翻譯程序,以取代以前基于規(guī)則的機(jī)器翻譯系統(tǒng)。
機(jī)器翻譯在社交網(wǎng)絡(luò)上也有用武之地,在諸如Facebook等社交軟件或像Skype,Google Talk,MSN等的即時(shí)通訊軟件在,機(jī)器翻譯程序允許用戶用不同的語(yǔ)言相互交流。另外,機(jī)器翻譯應(yīng)用程序也已經(jīng)部署到大多數(shù)移動(dòng)設(shè)備上,包括移動(dòng)電話、掌上電腦、PDA等。由于它們的便攜性,這些工具已被作為移動(dòng)翻譯工具來(lái)使用,允許使用不同語(yǔ)言的合作伙伴之間可以移動(dòng)網(wǎng)絡(luò)進(jìn)行交流,也促進(jìn)外語(yǔ)學(xué)習(xí)和無(wú)需人工翻譯的出國(guó)旅行。
目前的機(jī)器翻譯軟件大多被用于按領(lǐng)域進(jìn)行定制翻譯,如天氣報(bào)告,通過(guò)控制輸入語(yǔ)言的范圍來(lái)提高輸出質(zhì)量。這種技術(shù)在使用正式語(yǔ)言或公式化語(yǔ)言的領(lǐng)域尤其有效。因此,機(jī)器翻譯比較擅長(zhǎng)翻譯在政府和法律文件。
4. 結(jié)語(yǔ)
隨著計(jì)算機(jī)技術(shù)和大數(shù)據(jù)的發(fā)展以及深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的成熟,機(jī)器翻譯會(huì)越來(lái)越智能。在學(xué)校教育中,也可以利用機(jī)器翻譯促進(jìn)教育工作的開(kāi)展。
參考文獻(xiàn)
[1]林倩,劉慶,蘇勁松,林歡,楊靜,羅斌.神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯研究熱點(diǎn)與前沿趨勢(shì)分析[J].中文信息學(xué)報(bào),2019,33(11):1-14.
[2]侯強(qiáng),侯瑞麗.機(jī)器翻譯方法研究與發(fā)展綜述[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(10):30-35+66.
[3]胡開(kāi)寶,李翼.機(jī)器翻譯特征及其與人工翻譯關(guān)系的研究[J].中國(guó)翻譯,2016,37(05):10-14.
[4]蔣銳瀅,崔磊,何晶,周明,潘志庚.基于主題模型和統(tǒng)計(jì)機(jī)器翻譯方法的中文格律詩(shī)自動(dòng)生成[J].計(jì)算機(jī)學(xué)報(bào),2015,38(12):2426-2436.
[5]楊南. 基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的統(tǒng)計(jì)機(jī)器翻譯研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2014.
作者簡(jiǎn)介
朱世衛(wèi)(1990—),男,漢族,河南汝陽(yáng)人,研究生學(xué)歷,廣東信息工程職業(yè)學(xué)院專任教師。研究方向:英語(yǔ)教育,翻譯教學(xué)等。