1954年1月7日,美國IBM公司與喬治敦大學(xué)合作,成功地進(jìn)行了世界上第一次機(jī)器翻譯試驗。今年是2014年,是第一次機(jī)器翻譯試驗60周年。第一次機(jī)器翻譯試驗是計算語言學(xué)發(fā)展史上的大事,也是當(dāng)代語言學(xué)發(fā)展史上的大事。在本文中,我們回顧一下第一次機(jī)器翻譯試驗的前前后后,作為對于機(jī)器翻譯60年的紀(jì)念。
用機(jī)器來進(jìn)行翻譯的想法,早在古希臘時代就有人提出過了。當(dāng)時,人們曾經(jīng)試圖設(shè)計出一種理想化的語言來代替種類繁多、形式各異的自然語言,以利于不同民族的人進(jìn)行思想交流。曾提出過不少方案,其中一些方案已經(jīng)考慮到了如何用機(jī)械手段來分析語言的問題。
17世紀(jì),一些有識之士提出了采用機(jī)器詞典來克服語言障礙的想法。
笛卡兒(Descartes)和萊布尼茲(Leibniz)都試圖在統(tǒng)一的數(shù)字代碼的基礎(chǔ)上編寫詞典。
17世紀(jì)中葉,貝克(Cave Beck)、基爾施(Athanasius Kircher)和貝希爾(Johann Joachim Becher)等人都出版過這類詞典。由此開展了關(guān)于“普遍語言”的運動,一些人試圖在邏輯原則和圖形符號的基礎(chǔ)上,創(chuàng)造出一種無歧義的語言,這樣一來,人們就不會再由于誤解而產(chǎn)生交際方面的困難了。
維爾金斯(John Wilkins)(1668)在《關(guān)于真實符號和哲學(xué)語言的論文》(An Essay towards a Real Character and Philosophical Language)中提出的“中介語”(Interlingua)是這方面最著名的成果,這種中介語的設(shè)計試圖將世界上所有的概念和實體都加以分類和編碼,有規(guī)則地列出并描述所有的概念和實體,并根據(jù)它們各自的特點和性質(zhì),給予不同的記號和名稱。
1903年,古圖拉特(Couturat)和洛(Leau)在《通用語言的歷史》一書中指出,德國學(xué)者里格(W.Rieger)曾經(jīng)提出過一種“數(shù)字語法”(Zifferngrammatik),這種語法加上詞典的輔助,可以利用機(jī)械將一種語言翻譯成其他多種語言,首次使用了“機(jī)器翻譯”(德文是“ein mechanisches Uebersetzen”)這個術(shù)語。
20世紀(jì)30年代初,亞美尼亞裔的法國工程師阿爾楚尼(G.B. Artsouni)提出了用機(jī)器來進(jìn)行語言翻譯的想法,并在1933年7月22日獲得了一項“翻譯機(jī)”的專利,叫作“機(jī)械腦”(mechanical brain)。這種機(jī)械腦的存儲裝置可以容納數(shù)千個字元,通過鍵盤后面的寬紙帶,進(jìn)行資料的檢索。阿爾楚尼認(rèn)為它可以用來記錄火車時刻表和銀行的帳戶,尤其適合作機(jī)器詞典。在寬紙帶上面,每一行記錄了源語言的一個詞項以及這個詞項在多種目標(biāo)語言中的對應(yīng)詞項。在另外一條紙帶上對應(yīng)的每個詞項處,記錄著相應(yīng)的代碼,這些代碼以打孔來表示。要查詢的詞項也利用鍵盤打孔來表示,檢索一個詞項的時間大約是10到15秒。阿爾楚尼的原型機(jī)于1937年正式展出,引起了法國郵政、電信部門的興趣。但是,由于不久爆發(fā)了第二次世界大戰(zhàn),阿爾楚尼的機(jī)械腦無法投入使用。
1933年,蘇聯(lián)發(fā)明家特洛揚斯基(П.П.ТРОЯНСКИЙ)設(shè)計了用機(jī)械方法把一種語言翻譯為另一種語言的機(jī)器,并在同年9月5日登記了他的發(fā)明。特洛揚斯基認(rèn)為翻譯可以分為三個階段,第一階段由只懂源語言的編輯,將輸入的原文分析成特定的邏輯形式,將帶有屈折詞尾的變形詞還原成原形詞,并分析出各個單詞的句法功能。為此,他創(chuàng)造了一套邏輯分析符號。第二階段是利用他的翻譯機(jī),把源語言的原形詞和邏輯符號轉(zhuǎn)換成目標(biāo)語言的原形詞和符號。第三階段由只懂目標(biāo)語言的編輯,把目標(biāo)語言的原形詞和符號轉(zhuǎn)換成目標(biāo)語言。特洛揚斯基認(rèn)為,他的翻譯機(jī)只能在第二階段作為自動詞典來使用。不過他相信,只要能夠建造出一部專門處理邏輯分析過程的機(jī)器,總有一天,上述的整個翻譯程序都能夠用機(jī)器來實現(xiàn)。特洛揚斯基的這種認(rèn)識,已經(jīng)超越了“機(jī)器詞典”的簡單想法,比阿爾楚尼又邁進(jìn)了一步。1939年,特洛揚斯基在他的翻譯機(jī)上增加了一個用“光元素”操作的存儲裝置;1941年5月,這部實驗性的翻譯機(jī)已經(jīng)可以運作;1948年,他計劃在此基礎(chǔ)上研制一部“電子機(jī)械機(jī)”(electro-mechanical machine)。但是,由于當(dāng)時蘇聯(lián)的科學(xué)家和語言學(xué)家對此反應(yīng)十分冷淡,特洛揚斯基的翻譯機(jī)沒有得到支持,最后以失敗告終。
1946年,美國賓夕法尼亞大學(xué)的??颂兀↗.P. Eckert)和莫希萊(J.W.Mauchly)設(shè)計并制造出了世界上第一臺電子計算機(jī)“ENIAC”。電子計算機(jī)驚人的運算速度,啟示著人們考慮翻譯技術(shù)的革新問題。因此,在電子計算機(jī)問世的同一年,英國工程師布斯(A.D. Booth)和美國洛克菲勒基金會副總裁韋弗(W. Weaver)在討論電子計算機(jī)的應(yīng)用范圍時,就提出了利用計算機(jī)進(jìn)行語言自動翻譯的想法。
1947年3月6日,布斯與韋弗在紐約的洛克菲勒中心會面,韋弗提出,“如果將計算機(jī)用在非數(shù)值計算方面,是比較有希望的”。
在韋弗與布斯會面之前,韋弗于在1947年3月4日給控制論學(xué)者維納(N. Wiener)寫信,討論了機(jī)器翻譯的問題,韋弗說:“我懷疑是否真的建造不出一部能夠作翻譯的計算機(jī)?即使只能翻譯科學(xué)性的文章(在語義上問題較少),或是翻譯出來的結(jié)果不怎么優(yōu)雅(但能夠理解),對我而言都值得一試?!笨墒牵S納給韋弗潑了一瓢冷水,他在4月30日給韋弗的回信中寫道:“老實說,恐怕每一種語言的詞匯,范圍都相當(dāng)模糊;而其中表示的感情和言外之意,要以類似機(jī)器翻譯的方法來處理,恐怕不是很樂觀的?!?/p>
不過,韋弗仍然堅持自己的意見。1949年,韋弗發(fā)表了一份以《翻譯》為題的備忘錄,正式提出了機(jī)器翻譯問題。在這份備忘錄中,他除了提出各種語言都有許多共同特征這一論點之外,還有兩點值得我們注意:
第一,他認(rèn)為翻譯類似于解讀密碼的過程。他說:“當(dāng)我閱讀一篇用漢語寫的文章的時候,我可以說,這篇文章實際上是用英語寫的,只不過它是用另外一種奇怪的符號編了碼而已,當(dāng)我在閱讀時,我是在進(jìn)行解碼?!彼倪@段話非常重要,廣為流傳,我們把英文原文寫在下面:
I have a text in front of me which is written in Chinese but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.
這段話中,韋弗首先提出了用解讀密碼的方法進(jìn)行機(jī)器翻譯的想法,這種想法成為后來噪聲信道理論的濫觴。
備忘錄中還記載了一個有趣的故事,布朗大學(xué)數(shù)學(xué)系的吉爾曼(R. E. Gilmam)曾經(jīng)解讀了一篇長約一百個詞的土耳其文密碼,而他既不懂土耳其文,也不知道這篇密碼是用土耳其文寫的。韋弗認(rèn)為,吉爾曼的成功足以證明解讀密碼的技巧和能力不受語言的影響,因而可以用解讀密碼的辦法來進(jìn)行機(jī)器翻譯。
第二,他認(rèn)為原文與譯文“說的是同樣的事情”,因此,把語言A翻譯為語言B,就意味著從語言A出發(fā),經(jīng)過某一“通用語言”(Universal Language)或“中間語言”(Interlingua),然后轉(zhuǎn)換為語言B,這種“通用語言”或“中間語言”,可以假定是全人類共同的。
可以看出,韋弗把機(jī)器翻譯僅僅看成一種機(jī)械地解讀密碼的過程,他遠(yuǎn)遠(yuǎn)沒有看到機(jī)器翻譯在詞法分析、句法分析以及語義分析等方面的復(fù)雜性。
早期機(jī)器翻譯系統(tǒng)的研制受到韋弗的上述思想的很大影響,許多機(jī)器翻譯研究者都把機(jī)器翻譯的過程與解讀密碼的過程相類比,試圖通過查詢詞典的方法來實現(xiàn)詞對詞的機(jī)器翻譯,因而譯文的可讀性很差,難于付諸實用。
由于學(xué)者的熱心倡導(dǎo),實業(yè)界的大力支持,美國的機(jī)器翻譯研究一時興盛起來。1954年,美國喬治敦大學(xué)在國際商用機(jī)器公司(IBM公司)的協(xié)助下,用IBM-701計算機(jī),進(jìn)行了世界上第一次機(jī)器翻譯試驗,把幾個簡單的俄語句子翻譯成英語;接著,蘇聯(lián)、英國、日本也進(jìn)行了機(jī)器翻譯試驗,機(jī)器翻譯出現(xiàn)熱潮。
這里,我們向讀者展示第一次機(jī)器翻譯試驗的一些珍貴的圖片。這是當(dāng)代語言學(xué)發(fā)展史上重要事件的回憶,是歷史的記錄,是科學(xué)的檔案,值得我們永久珍藏。
圖1:第一次機(jī)器翻譯試驗的設(shè)計者Hurd,Dostert和Watso
圖2:提出了機(jī)器翻譯中的“支點分析法”(fulcrum analysis)的語言學(xué)家Garvin
圖3:第一次機(jī)器翻譯使用的計算機(jī)IBM-701
圖4:第一次機(jī)器翻譯在鍵盤上使用穿孔卡片輸入
圖5:穿孔卡片上的數(shù)據(jù)樣本(72行卡片,1分鐘可轉(zhuǎn)寫為150個二進(jìn)制代碼)
圖6:第一次機(jī)器翻譯使用光電管讀入數(shù)據(jù)
圖7:第一次機(jī)器翻譯的程序流程圖
圖8:第一次機(jī)器翻譯試驗所用的詞典
圖9:第一次機(jī)器翻譯在寬行打印機(jī)上輸出英文
在1954年1月7日向公眾表演的時候,他們把俄語句子用英文字母進(jìn)行轉(zhuǎn)寫,使用穿孔卡片輸入數(shù)據(jù),這樣,就可以便于不懂俄語的操作員進(jìn)行操作了。
我們把第二天(1954年1月8日)《紐約時報》(New York Times),標(biāo)題為《翻譯者701》(701 translator)報道的英文原文抄錄如下:
In the demonstration,a girl operator typed out on a keyboard the following Russian text in English characters:“Mi pyeryedayem mislyi posryedstvom ryechi”(Мы передаем мысли посреством речи).The machine printed a translation almost simultaneously:“We transmit thoughts by means of speech.”The operator did not know Russian. Again she types out the meaningless(to her)Russian words:“Vyelyichyina ugla opryedyelyayatsya otnoshyenyiyem dlyini dugi k radyiusu.”(величина угла определяется отношением длины дугы к радиусу)And the machine translated it as:“Magnitude of angle is determined by the relation of length of arc to radius.”
這段英文的漢語譯文如下:
在演示時,一個女操作員在鍵盤上使用穿孔卡片輸入轉(zhuǎn)寫成英文字母的俄語句子“Mi pyeryedayem mislyi posryedstvom ryechi”,盡管她對于俄語一無所知,可是計算機(jī)很快就輸出了英語譯文:“We transmit thoughts by means of speech.”接著,她又在鍵盤上使用穿孔卡片輸入她完全不懂的另一個俄語句子:“Vyelyichyina ugla opryedyelyayatsya otnoshyenyiyem dlyini dugi k radyiusu.”(величина угла определяется отношением длины дугы к радиусу),計算機(jī)幾乎同時輸出了相應(yīng)的英語譯文“Magnitude of angle is determined by the relation of length of arc to radius.”
第一次機(jī)器翻譯取得了很大的成功。但是,很快就受到了保守分子的攻擊。
1962年8月號的《哈潑雜志》(Harper’s Magazine)發(fā)表了古溫豪芬(John A. Kouwenhoven)的題為《翻譯的困擾》(The trouble with translation)的文章,文章中編造了如下故事:
有幾個電子工程師設(shè)計了一部自動翻譯機(jī),這部機(jī)器的詞典包含1500個基礎(chǔ)英語詞匯和相對應(yīng)的俄語詞匯。他們宣稱這部機(jī)器可以馬上進(jìn)行翻譯,而且不會犯人工翻譯的錯誤。第一次試驗時,觀眾要求翻譯“Out of sight, out of mind”(眼不見,心不煩)這個句子,燈光一陣閃動之后,翻譯出來的俄語句子的意思竟然是“看不見的瘋子”(Invisible idiot)。他們覺得這樣的諺語式的句子比較難以翻譯,于是又給機(jī)器翻譯系統(tǒng)翻譯另一個出自《圣經(jīng)》的句子“The spirit is willing, but the flesh is weak”(心有余而力不足),機(jī)器翻譯出來的俄語句子的意思卻是“酒保存得很好,但肉已經(jīng)腐爛”(The liquor is holding out all right, but the meat has spoiled)。
這樣的故事顯然是憑空捏造的。我們知道,當(dāng)時美國只研究過把俄語翻譯成英語的機(jī)器翻譯系統(tǒng),根本沒有研究過把英語翻譯為俄語的機(jī)器翻譯系統(tǒng)。這說明文章作者對于美國機(jī)器翻譯的歷史一無所知。盡管這是無中生有編造出來的虛假故事,但是,從中我們可以感覺到當(dāng)時美國的許多人對機(jī)器翻譯強(qiáng)烈的不滿情緒。
早在機(jī)器翻譯剛剛問世的時候,美國著名數(shù)理邏輯學(xué)家Bar-Hillel在1959年就指出,全自動高質(zhì)量的機(jī)器翻譯(Fully Automatic,High Quality,MT,簡稱“FAHQMT”)是不可能的。
Bar-Hillel說明,“FAHQMT”不僅在當(dāng)時的技術(shù)水平下是不可能的,而且在理論原則上也是不可能的。
他舉出了如下簡單的英語片段,說明要在上下文中發(fā)現(xiàn)多義詞“pen”的正確譯文是非常困難的事情:
John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.
他的理由如下:
1.“pen”在這里只能翻譯為“play-pen”(“游戲的圍欄”),而絕對不能翻譯為書寫工具“鋼筆”。
2.要確定“pen”的這個正確的譯文是翻譯好這段短文的關(guān)鍵所在。
3.而要確定這樣的正確譯文依賴于計算機(jī)對于周圍世界的一般知識。
4.但是我們沒有辦法把這樣的知識加到計算機(jī)中去。
在機(jī)器翻譯的早期,Bar-Hillel就科學(xué)地預(yù)見到了機(jī)器翻譯將會遇到的困難,顯示了他的遠(yuǎn)見卓識。
1964年,美國科學(xué)院成立語言自動處理咨詢委員會(Automatic Language Processing Advisory Committee,簡稱“ALPAC”),調(diào)查機(jī)器翻譯的研究情況,并于1966年11月公布了一個題為《語言與機(jī)器》的報告,簡稱“ALPAC”報告,對機(jī)器翻譯采取否定的態(tài)度,報告宣稱:“在目前給機(jī)器翻譯以大力支持還沒有多少理由”;報告還指出,機(jī)器翻譯研究遇到了難以克服的“語義障礙”(semantic barrier)。
在“ALPAC”報告的影響下,許多國家的機(jī)器翻譯研究陷入低潮,許多已經(jīng)建立起來的機(jī)器翻譯研究單位遇到了行政上和經(jīng)費上的困難,在世界范圍內(nèi),機(jī)器翻譯的熱潮突然消失了,出現(xiàn)了空前蕭條的局面。
從第一次機(jī)器翻譯實驗的前前后后可以看出,人類為了克服語言障礙進(jìn)行了艱苦的探索。至今這個問題仍然沒有得到很好的解決。
參考文獻(xiàn):
[1]馮志偉.機(jī)器翻譯研究[M].北京:中國對外翻譯出版公司,
2004.
[2]馮志偉.應(yīng)用語言學(xué)新論——語言應(yīng)用研究的三大支柱[M].北
京:當(dāng)代世界出版社,2003.
(馮志偉 馮紹鋒 浙江杭州 杭州師范大學(xué)外國語學(xué)院 311121)