文|張嘉琪
作為中國(guó)計(jì)算語言學(xué)的開拓者之一、世界上第一個(gè)漢語到多種外語機(jī)器翻譯系統(tǒng)的研制者,年過八旬的馮志偉仍然緊跟技術(shù)前沿,活躍在語言學(xué)跨學(xué)科研究領(lǐng)域。
“巴別塔,是人類聯(lián)合起來興建希望能通往天堂的高塔;為了阻止人類的計(jì)劃,上帝讓人類說不同的語言,‘翻譯’就此產(chǎn)生。”在2018年的一場(chǎng)機(jī)器翻譯論壇上,馮志偉用《圣經(jīng)》故事作為他演講的開頭。
四年后的今天,年過八旬、滿頭銀發(fā)的他依舊容光煥發(fā)。作為中國(guó)計(jì)算語言學(xué)的開拓者之一、世界上第一個(gè)漢語到多種外語機(jī)器翻譯系統(tǒng)的研制者,他仍然緊跟技術(shù)前沿,活躍在語言學(xué)跨學(xué)科研究領(lǐng)域。
在參加2022年9月7日首屆人工智能與國(guó)際傳播高層論壇前夕,國(guó)家教育部語言文字應(yīng)用研究所研究員、博士生導(dǎo)師、學(xué)術(shù)委員會(huì)委員馮志偉回顧了他運(yùn)用技術(shù)賦能語言學(xué)研究、探索機(jī)器翻譯促進(jìn)國(guó)際交流的不凡之路。
2022年9月5日,國(guó)家教育部語言文字應(yīng)用研究所研究員、博士生導(dǎo)師、學(xué)術(shù)委員會(huì)委員馮志偉接受中國(guó)網(wǎng)專訪圖/中國(guó)網(wǎng) 汪 瑋
“計(jì)算語言學(xué)我已經(jīng)做了很多年,我原來是學(xué)理工科的,在北大讀的是地球化學(xué)專業(yè),當(dāng)時(shí)看到美國(guó)在搞機(jī)器翻譯,我覺得很奇怪,文科現(xiàn)象怎么能夠用機(jī)器來做,當(dāng)時(shí)我覺得這個(gè)很有意思。另外我也覺得語言的障礙是人類一個(gè)很重要的問題,所以能夠用機(jī)器來做挺好,后來就改行了,學(xué)語言學(xué)?!?/p>
這還要從1957年說起—當(dāng)時(shí)18歲的馮志偉考入北京大學(xué)地球化學(xué)專業(yè),課余時(shí)間喜歡鉆進(jìn)北大圖書館探尋學(xué)術(shù)前沿。有一次,他在外文圖書室看到了美國(guó)語言學(xué)家喬姆斯基的論文《語言描寫的三個(gè)模型》。一篇語言學(xué)論文發(fā)表在自然科學(xué)的信息論雜志上,這讓馮志偉感到特別好奇。他懷著極大的興趣通讀了全文,認(rèn)識(shí)到這是喬氏應(yīng)用數(shù)學(xué)中的“馬爾科夫鏈”來描述自然語言的生成過程,為語言建立了一套獨(dú)特的數(shù)學(xué)模型。
憑著滿腔熱愛,身為家中長(zhǎng)子的馮志偉不顧家人盼著他早日工作賺錢的期望,幾經(jīng)波折于1959年成功轉(zhuǎn)到了中文系語言學(xué)專業(yè),在這個(gè)文科一年級(jí)從頭學(xué)起,開始了小規(guī)模的基于規(guī)則的機(jī)器翻譯研究。
如今備受推崇的跨學(xué)科研究,在當(dāng)時(shí)讓馮志偉成了別人眼中的“怪人”:一個(gè)學(xué)中文的去研究數(shù)學(xué)?一個(gè)讀中文系的在忙著看外文書?考取北大研究生后,馮志偉想研究數(shù)學(xué)方法在語言學(xué)中的應(yīng)用,連導(dǎo)師一開始都不太同意這既不是理工科又不像文科的論文選題;不僅如此,這位中學(xué)積極上進(jìn)的團(tuán)支部書記還被當(dāng)成了北大的“落后分子”。
早期的困難和“文革”的沖擊并沒有沖淡馮志偉的熱愛。1967年北大研究生畢業(yè)后,他到天津、昆明的中學(xué)任教,期間盡管工作不涉及語言學(xué),但馮志偉仍是研究不輟,通過手工計(jì)算估測(cè)出漢字的“熵”。原理上講,計(jì)算出漢字的“熵”,才能給漢字編碼,才能在計(jì)算機(jī)上自由地輸入、輸出和傳輸漢字。他的這些努力為20世紀(jì)80年代漢字的雙字節(jié)編碼提供了可靠的語言學(xué)理論支持。
“國(guó)際計(jì)算語言學(xué)會(huì)議20世紀(jì)60年代就開始了,1982年我們才首次出席……現(xiàn)在情況不太一樣,特別是進(jìn)入21世紀(jì)以后,我們這個(gè)學(xué)科發(fā)展很快,一些文科單位、科學(xué)院、高等學(xué)校有好多人做,一些公司也開始做,也做得不錯(cuò),所以到了21世紀(jì)以后,中國(guó)人在國(guó)際計(jì)算語言學(xué)上的發(fā)言權(quán)是很大的,我們中國(guó)人可以說現(xiàn)在已經(jīng)進(jìn)入了世界計(jì)算語言學(xué)的前列?!?/p>
1982年去布拉格出席國(guó)際計(jì)算語言學(xué)會(huì)議的中國(guó)學(xué)者正是時(shí)任中國(guó)科學(xué)技術(shù)信息研究所計(jì)算中心軟件工程師的馮志偉。
時(shí)間回溯到四年前的1978年—全國(guó)科學(xué)大會(huì)召開,在“尊重知識(shí)、尊重人才”口號(hào)的感召下,馮志偉又歷經(jīng)一番努力考入中國(guó)科技大學(xué)研究生院。當(dāng)年,才39歲頭發(fā)卻已白的他又爭(zhēng)取到了留法的機(jī)會(huì),學(xué)習(xí)數(shù)理語言學(xué)和機(jī)器翻譯。師從國(guó)際計(jì)算語言學(xué)學(xué)會(huì)首任主席沃古瓦,他倍加珍惜寶貴的學(xué)習(xí)研究機(jī)會(huì),給自己規(guī)定了“887工作制”:每天8點(diǎn)上班,晚上8點(diǎn)下班,一周7天工作無休。留法期間,他利用當(dāng)時(shí)先進(jìn)的大型計(jì)算機(jī)進(jìn)行了大規(guī)模的基于規(guī)則的語言學(xué)研究,提出了多叉多標(biāo)記樹形圖模型,并在此基礎(chǔ)上研制出了世界上第一個(gè)從漢語到多種外語的機(jī)器翻譯系統(tǒng)—“漢-法、英、日、俄、德”多語種翻譯系統(tǒng)。在布拉格的會(huì)議上,馮志偉介紹的正是這一具有里程碑意義的研究成果。
幾年后,馮志偉調(diào)入國(guó)家語委語言文字應(yīng)用研究所(現(xiàn)屬教育部)擔(dān)任計(jì)算語言學(xué)研究室主任,同時(shí)在中國(guó)科學(xué)院軟件研究所擔(dān)任兼職研究員;后又赴德國(guó)從事術(shù)語數(shù)據(jù)庫(kù)研究,研制成世界上第一個(gè)中文術(shù)語數(shù)據(jù)庫(kù)。
1998年退休后,馮志偉仍心系學(xué)術(shù)研究、胸懷國(guó)際交流。2000-2002年,他赴韓國(guó)科學(xué)技術(shù)院擔(dān)任客座教授、為博士生授課;2005年,與人合譯出版《自然語言處理綜論》;2011-2015年,參與修訂漢語拼音出海的國(guó)際標(biāo)準(zhǔn)《中文羅馬字母拼寫法》ISO-7098;他還對(duì)國(guó)內(nèi)外自然語言處理的研究成果進(jìn)行了系統(tǒng)梳理,寫成了基于規(guī)則與基于統(tǒng)計(jì)的自然語言處理方法的專著《自然語言計(jì)算機(jī)形式分析的理論與方法》,后又應(yīng)世界上最大的科技出版社之一—德國(guó)斯普林格出版社邀約,將這本書譯成英文出版。
如今,一直致力于利用跨專業(yè)之磚砌筑“巴別塔”的馮老也沒有忘記溝通中外的初心。“面對(duì)新技術(shù)帶來的新形勢(shì)和新變化,應(yīng)當(dāng)學(xué)習(xí)翻譯技術(shù),把新技術(shù)也納入到翻譯工作中。人工智能翻譯成績(jī)巨大,應(yīng)當(dāng)提倡‘機(jī)器翻譯+譯后編輯’,加強(qiáng)譯后編輯的作用,實(shí)現(xiàn)機(jī)器翻譯與人工翻譯和諧共處、相得益彰。”馮老還提出建議,作為國(guó)際傳播的一部分,有必要加強(qiáng)古代典籍漢譯外語資料庫(kù)建設(shè)。
在講述自己擔(dān)任ISO-7098國(guó)際標(biāo)準(zhǔn)國(guó)際工作組組長(zhǎng)和應(yīng)邀出版譯作的經(jīng)歷時(shí),馮老還不忘感慨和叮囑幾句:“做國(guó)際傳播,一定要知己知彼,了解對(duì)方的情況”“要尊重對(duì)方的意愿,不要強(qiáng)加于對(duì)方”……
“中國(guó)的計(jì)算語言學(xué)早期做的人少。我是愛好,做這個(gè)是屬于散兵游勇似的,也得不到什么好處。這件事完全是興趣,好奇心大于功利心,基本上功利心就是政府供我吃飯就行了,但是我好奇,我得到精神上的滿足?!?/p>
如今再回憶起崢嶸歲月,這位“巴別塔”上的中國(guó)計(jì)算語言學(xué)先鋒只字未提自己曾經(jīng)榮獲的多個(gè)國(guó)內(nèi)外重量級(jí)獎(jiǎng)項(xiàng),他面帶滿足、眼里閃著光的講述中提到最多的詞就是“興趣”和“愛好”。
談起人工智能大模型和Transformer一統(tǒng)自然語言處理等最新發(fā)展,這位中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員表示自己一直都在密切關(guān)注和學(xué)習(xí)領(lǐng)域內(nèi)的最新發(fā)展成果,還立馬分享了一篇帶著期刊清樣修改痕跡的論文,表示這篇關(guān)于“記憶負(fù)擔(dān)最小化機(jī)制”的論文就是關(guān)于輕量化發(fā)展趨勢(shì)的。
中國(guó)計(jì)算語言學(xué)經(jīng)歷了基于規(guī)則、基于統(tǒng)計(jì)和基于神經(jīng)網(wǎng)絡(luò)的三個(gè)時(shí)期,馮老站在學(xué)科發(fā)展的角度總結(jié)道。他表示,從準(zhǔn)確率角度來看,新方法效果不錯(cuò),但由于基于大量語言數(shù)據(jù)和參數(shù),未來應(yīng)在輕量化方向上著力,同時(shí)也要重視語言知識(shí)規(guī)則、兼顧理性主義研究來確??煽啃?、增強(qiáng)解釋性。
他還表示,雖然如今中國(guó)在該領(lǐng)域國(guó)際地位很高,但目前的研究基本上是跟蹤性的,缺乏創(chuàng)新,應(yīng)加強(qiáng)創(chuàng)新性的研究。
馮老坦言,現(xiàn)在條件更好了,不只是物質(zhì)層面,更有國(guó)家層面的支持和提倡。
“過去我是在研究當(dāng)中得到樂趣,但我這個(gè)樂趣別人也不知道;現(xiàn)在情況不一樣了,現(xiàn)在政府公開提倡文理結(jié)合,再也不會(huì)給你戴什么帽子,也不會(huì)說你是‘落后分子’?,F(xiàn)在年輕人條件好,只要努力,前途光明。”
他寬慰年輕學(xué)子不必?fù)?dān)心人工翻譯會(huì)被機(jī)器翻譯取代。在馮老看來,對(duì)于普通的文本,“機(jī)器翻譯+譯后編輯”可以提供助力,但是,對(duì)于優(yōu)秀的文學(xué)作品、國(guó)家重要文獻(xiàn)、領(lǐng)導(dǎo)人的著作,還是需要人工翻譯才能保證傳播質(zhì)量。
同時(shí),他也勸勉年輕學(xué)子們“要進(jìn)行知識(shí)革新的再學(xué)習(xí),使自己成為一個(gè)文理都懂的人”。
“這個(gè)也是國(guó)家對(duì)你們的希望,新文科就是這樣,我覺得是前途光明的?!瘪T老語重心長(zhǎng)地說。