朱杰 古明
摘要:機器翻譯在計算機科學突飛猛進的今天吸引了大批科學家的關注和研究,其理論方法也呈現(xiàn)出多樣性,而語料庫的發(fā)展給機器翻譯注入了新的活力,基于此的機器翻譯便一躍成為主流。通過對機器翻譯的理論支撐和發(fā)展歷史做以綜合概述,然后運用機器翻譯工具——谷歌翻譯進行實例對比研究,其結果顯示了機器翻譯相對于人工翻譯的不足之處,但也展現(xiàn)了光明的發(fā)展前景。
關鍵詞:機器翻譯 語料庫 谷歌翻譯
中圖分類號:H085? 文獻標識碼:A? 文章編號:1009—5349(2019)17—0100—02
在計算機還未普及之前,人們的視野、獲取信息的渠道都是有限的,獲得信息的廣度和深度都受到束縛。各個民族、種族、國度或者地區(qū)的人們說著各自的語言,難以交流,這限制了信息的及時傳播。計算機的飛速發(fā)展,讓世界成為了一個小小的地球村。信息傳播的速度和數(shù)量呈現(xiàn)幾何級數(shù)增長,這就需要精準而快速的翻譯。但是,傳統(tǒng)的人工翻譯的方式已經(jīng)不能滿足信息化社會的需求。傳統(tǒng)的人工翻譯往往意味著昂貴的勞務費,而且人工翻譯也就意味著時間的耗費,尤其是目標信息涉及較多專業(yè)性知識的時候,比如心理學、哲學、政治學等,翻譯所要耗費的時間就更長。
為了滿足及時翻譯的需要,機器翻譯應運而生。翻譯軟件的開發(fā)和應用,化解了信息傳播的語言障礙。人們足不出戶,坐在電腦前,動動鼠標,點點圖標,就可以將源語言翻譯為目標語。
一、機器翻譯
機器翻譯,又被稱為計算機翻譯或自動翻譯,是一門多學科融合的綜合學科。這些學科包括:語言學、數(shù)學和電腦科學。它也是自然語言處理研究的一個分支。1947年,美國著名的科學家Warren Weaver首先提出了用電子計算機將不同的語言進行轉換翻譯的可能性,并在1949年正式提出了機器翻譯的觀點。從那以后,機器翻譯給世界帶來了意想不到的巨大變化。在眾多學者的研究和貢獻之下,機器翻譯領域也取得了跨時代的發(fā)展。
(一)機器翻譯方法
以翻譯策略所反映的哲學背景為分類準則,人們常把機器翻譯方法劃分為理性主義方法和經(jīng)驗主義方法兩大類。理性主義方法一般指基于規(guī)則的方法;經(jīng)驗主義方法一般指基于語料庫的方法。
1.基于規(guī)則的機器翻譯
在生活中應用非常廣泛的是使用規(guī)則制定的機器翻譯系統(tǒng),不同系統(tǒng)有很多的共同點:第一,每個翻譯系統(tǒng)都擁有一個表達語言學的符號系統(tǒng);第二,翻譯系統(tǒng)在特定的規(guī)則下完成翻譯內(nèi)容。換而言之,單詞對單詞的對等翻譯、直接的轉化翻譯以及運用中間語的翻譯都可以納入基于規(guī)則的翻譯方法中來。
雖然基于規(guī)則的機器翻譯發(fā)展迅猛,但其翻譯的質(zhì)量不太令人滿意,其可懂性及效度也很不充分。隨著對機器翻譯的深入研究,現(xiàn)存的基于規(guī)則的翻譯方式的很多問題凸顯出來,如:翻譯質(zhì)量低、人力耗費高、語法規(guī)則僵硬等。單單只依賴語法規(guī)則和語法結構的翻譯是遠遠滿足不了當代社會的需要的。于是,另一種主流的機器翻譯理論便逐漸抓取了專家學者的眼球,這便是經(jīng)驗主義方法,即基于語料庫的方法。
2.基于語料庫的機器翻譯
基于語料庫的機器翻譯就是利用數(shù)據(jù)庫中的語言信息來創(chuàng)造新的翻譯?;谡Z料庫的機器翻譯雖然在機器翻譯的早期就已經(jīng)有所萌芽,但其真正地開始抓取公眾的眼球還是始于20世紀90年代。它包括兩種方式:一是統(tǒng)計機器翻譯方法,另一個是實例機器翻譯方法。根據(jù)Carl(2000)所言,所有的基于語料庫的機器翻譯都會運用一系列的所謂的“指稱翻譯”(包括源文本和其翻譯)來做翻譯。這其中源文本和目標文本是平行的,通過分析這樣的平行結構,從語料庫中分離出對等的翻譯。Hutchins(1992)認為基于語料庫的翻譯為僵化、復雜的基于規(guī)則的翻譯在分析和產(chǎn)出階段提供了另一種選擇。
(1)基于統(tǒng)計的機器翻譯
數(shù)據(jù)統(tǒng)計可以為機器翻譯提供大量的素材,也是目前非限定領域機器翻譯中使用廣泛的方法之一。此方法主要是利用大量的平行語料庫提取大量素材并對其進行統(tǒng)計分析、建立模型,并利用模型進行新材料的翻譯。利用語料庫進行素材統(tǒng)計的要務是能夠為語言的生成建構合理的統(tǒng)計模型。模型建好后,還需對模型里的參數(shù)進行定義。早期的統(tǒng)計模型主要是采用噪聲信道模型,近年來,將區(qū)分性訓練方法融入機器翻譯越來越常見。
(2)基于實例的機器翻譯
除了上述機器翻譯模型外,使用實例進行機器翻譯也是十分常見的翻譯方法。該方法由日本翻譯專家長尾提出,其核心原理如下:將實例放入實例庫,并對實例進行標注,主要標注為兩個字段,其中一個字段保留源語言句子,另一個字段保留目的語句子,當要進行翻譯時,機器會將輸入的句子與實例庫的源語言進行對比,找出最相似的句子,從而匹配最佳的目的語翻譯,并進行輸出。
與傳統(tǒng)的基于規(guī)則的機器翻譯相比較,基于語料庫的機器翻譯有著其獨特的優(yōu)勢。為了更直接地呈現(xiàn)其優(yōu)越性,本文將選取一段文本,用谷歌在線翻譯系統(tǒng)進行翻譯,然后將源文本與目標文本進行對比,分析其翻譯狀況,來展示其可行性。
二、例證
(一)谷歌翻譯
谷歌翻譯是一項美國谷歌公司提供的翻譯文段和網(wǎng)頁的服務,其采用的翻譯方法就是基于統(tǒng)計的機器翻譯。谷歌的機器翻譯方法主要是基于2003年Franz Josef Och在美國國防部高級研究項目局(DARPA)的機器速度翻譯比賽時獲獎的研究成果Och指出,若想要開發(fā)一個可用于翻譯一對全新語言的統(tǒng)計機器翻譯系統(tǒng),必須做好以下的數(shù)據(jù)基礎搜集工作:一個擁有百萬詞匯量的雙語文本語料庫和屬于這兩種語言的單語語料庫,各自得擁有十億數(shù)量級以上的單詞。
谷歌翻譯有其非常強大的語言學數(shù)據(jù),這些數(shù)據(jù)內(nèi)容主要來源于聯(lián)合國文檔。一般來講,聯(lián)合國的文檔都會有至少六種聯(lián)合國官方語言的譯本。因此,谷歌的翻譯語料庫數(shù)據(jù)是非??煽考昂A康?,相當于擁有了經(jīng)人工翻譯了兩三百萬單詞并由不同語言構成的語料庫。
(二)源文本
源文本選自熱門美劇《摩登家庭》(Modern Family)劇本,第一季第七集最后結尾處旁白的一段總結性的話語。
Jay①:We tell our kids it doesn't matter if you win or lose,but let's be honest,winning feels pretty great.There's nothing like that golden moment in the sun.I think every parent probably wants that for their child.So,sometimes,we push too hard.And that leads to a lot of resentment and guilt.So,how much is too much? Here's where I come out.Guilt fades.Hardware is forever.
(三)谷歌翻譯文本
我們將源文本粘貼至谷歌翻譯②頁面處,點擊翻譯,生成了譯本。
“我們告訴我們的孩子,無論你輸贏都沒關系,但說實話,勝利感覺非常棒。在陽光下沒有像那個黃金時刻。我想每個父母都可能想要他們的孩子。所以,有時候,我們太過努力。這導致了很多怨恨和內(nèi)疚。那么,多少錢太多了?這是我出來的地方。內(nèi)疚消退。硬件是永恒的?!?/p>
(四)分析
源文本屬于比較口語化的內(nèi)容,因此整體的翻譯難度不太高。譯文的第一句,整體上翻譯得比較出色,沒有出現(xiàn)句法的問題。譯文的第二句則出現(xiàn)了比較明顯的句法錯誤?!癷n the sun”應該是介詞短語作后置定語修飾“golden moment”,而譯文則將“in the sun”當成了整個句子的地點狀語,并且在詞匯“golden”的翻譯上,谷歌比較直接地翻譯為了“黃金”,而更為雅致的翻譯則為輝煌的或者光輝的。第三句的翻譯,谷歌則出現(xiàn)了漏翻的現(xiàn)象:that沒有在譯文中體現(xiàn)出來。第四句同樣出現(xiàn)了詞義理解的差異。push在文本情境中的意思應該為把……逼太緊,而不是努力的意思。第五句句子較短,句法簡單,因此谷歌翻譯未出現(xiàn)錯誤。而第六句中谷歌翻譯則將“how much”粗暴地翻譯成了“多少錢”,而忽略了語境,此處“how much”就理解為多少的意思。倒數(shù)第二句的翻譯中,“come out”此短語也被直接翻譯為了“出來”,實際上為“得出結論”的意思。最后部分的翻譯內(nèi)容沒有問題,但翻譯得比較生硬,讀起來很不符合中文的習慣,因此在人工翻譯中通常會結合語境,將詞句翻譯為“內(nèi)疚會消退,但是硬件才是永恒的”。
通過實例的分析,我們可以總結出基于語料庫的機器翻譯的最大優(yōu)勢就是其翻譯內(nèi)容的準確性和易理解性。其在處理歧義句上表現(xiàn)出了強大的能力,更別提基于數(shù)據(jù)庫的常識的豐富性。
當然,我們也不可否認,機器翻譯與人腦翻譯相比還存在著巨大的差距,谷歌翻譯的上述文本也顯示出其在句式結構處理上還有所欠缺,亟待完善。
三、結語
機器翻譯的歷史曲折而坎坷,機器翻譯依據(jù)的理論和方式也紛繁復雜,基于數(shù)據(jù)庫的機器翻譯方式在多年的實證中體現(xiàn)出了自身價值,博得了商業(yè)公司的青睞。但機器翻譯畢竟是隨著計算機的發(fā)展才發(fā)展起來的一門科學,其后續(xù)的發(fā)展和完善還需要依賴于科技的進步、軟件的設計開發(fā)。
注釋:
①摩登家庭主角之一,年紀最大。
②見http://translate.google.cn/?hl=zh—CN&tab=wT#。
參考文獻:
[1]Carl,M.Combining invertible example—based machine translation with translation memory technology[A].Proceedings of the 4th Conference of the Association for Machine Translation in the Americas,Mexico,2000.
[2]Hutchins,J and Somers,H.An Introduction to Machine Translation[M].London:Academic Press,1992.
[3]馮志偉.機器翻譯研究[M].北京:中國對外翻譯出版公司,2004.
[4]俞士文.計算語言學概論[M].北京:商務印書館,2007.
責任編輯:景辰