穆軍芳, 張麗鑫
(河北大學(xué) 外國語學(xué)院, 河北 保定 071002)
機(jī)器翻譯也被稱作自動(dòng)翻譯,指利用計(jì)算機(jī)將一種語言文本(源語言:Source Language)轉(zhuǎn)換為另一種語言文本(目標(biāo)語言:Target Language)的翻譯過程[1]。自德國學(xué)者里格將數(shù)學(xué)語法與詞典結(jié)合首次提出“機(jī)器翻譯”這一概念以來,機(jī)器翻譯經(jīng)過初創(chuàng)期、萌芽期、平臺(tái)期、繁榮期和新熱潮階段,如今已取得顯著成果[2]。隨著主流翻譯技術(shù)的進(jìn)步,機(jī)器翻譯在提高翻譯效率、提升翻譯品質(zhì)、推動(dòng)翻譯智能化,以及促進(jìn)語言服務(wù)行業(yè)發(fā)展中發(fā)揮了至關(guān)重要作用;同時(shí),機(jī)器翻譯作為典型的跨學(xué)科和超學(xué)科研究,涉及語言學(xué)、翻譯學(xué)、數(shù)學(xué)、工程學(xué)和計(jì)算機(jī)科學(xué)等學(xué)科,拓寬了傳統(tǒng)翻譯的研究領(lǐng)域和研究視野[3],助推了機(jī)器翻譯在日常翻譯領(lǐng)域的普及和優(yōu)化。
隨著科技的進(jìn)步,近10年來,機(jī)器翻譯研究不僅在傳統(tǒng)研究課題上拓展深化,同時(shí)其翻譯方法、翻譯技術(shù)也在不斷革新。從最初基于規(guī)則的機(jī)器翻譯,到基于統(tǒng)計(jì)的機(jī)器翻譯,再到今天基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯,翻譯技術(shù)與翻譯模型的優(yōu)化使機(jī)器翻譯領(lǐng)域煥然一新[4]。
近年來,國際學(xué)術(shù)領(lǐng)域關(guān)于機(jī)器翻譯呈現(xiàn)多種視角,總體可分為語言學(xué)角度和非語言學(xué)角度。首先,就語言學(xué)角度而言,研究多聚焦于機(jī)器翻譯技術(shù)的落地應(yīng)用,如Bowker、Ciro基于機(jī)器翻譯的視角,通過系統(tǒng)評(píng)估、社區(qū)調(diào)查和受眾評(píng)估,深入探究了渥太華西班牙移民對(duì)渥太華公共圖書館網(wǎng)站4種翻譯文本所持的態(tài)度,研究表明機(jī)器翻譯和譯后編輯的結(jié)合更易被移民言語社區(qū)認(rèn)同[5];同時(shí)隨著機(jī)器翻譯技術(shù)的革新,機(jī)器翻譯在語言教育中的應(yīng)用愈加普遍,Kelly、Hou聚焦于北愛爾蘭5所中學(xué)的EAL學(xué)生(English as an additional language,英語作為附加語言),通過小組訪談深入探究了機(jī)器翻譯對(duì)EAL學(xué)生學(xué)習(xí)和生活的影響,研究發(fā)現(xiàn)機(jī)器翻譯可用于跨語言教學(xué)中,如指導(dǎo)EAL學(xué)習(xí)者參與日常學(xué)習(xí)和交際互動(dòng)[6]。其次,就非語言學(xué)視角而言,國際研究立足于機(jī)器翻譯技術(shù)的優(yōu)化對(duì)機(jī)器翻譯展開探究,如Zhang、Zong立足于神經(jīng)機(jī)器翻譯(Neural Machine Translation,簡稱為NMT)視角,深入剖析了其基本框架架構(gòu)、最新進(jìn)展、面臨挑戰(zhàn)與未來研究趨勢(shì),對(duì)于挖掘NMT的知識(shí)基礎(chǔ)具有建設(shè)性意義[7]。此外,雙語翻譯實(shí)踐的實(shí)證研究逐步成為國際學(xué)者的研究熱點(diǎn),如Tran、Huang等為提升中越機(jī)器翻譯質(zhì)量,基于詞語對(duì)齊、詞語的從屬關(guān)系對(duì)漢語進(jìn)行預(yù)排序、構(gòu)建算法模型,極大優(yōu)化了傳統(tǒng)的基于短語的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,簡稱為SMT)質(zhì)量[8];Jassem、Dwojak圍繞著具體領(lǐng)域建構(gòu)的英、波雙語語料庫,分別評(píng)估了NMT和SMT兩種模型在處理翻譯文本、輸出流暢度的特性[9]。
由此可見,就研究方法而言,國際學(xué)者對(duì)機(jī)器翻譯的探究更傾向于實(shí)證研究,就將科學(xué)計(jì)量法用于綜述機(jī)器翻譯研究歷程而言,鮮有國外學(xué)者立足于此;但國內(nèi)不少學(xué)者作出嘗試,如刁洪基于CNKI關(guān)于翻譯技術(shù)研究的文獻(xiàn),運(yùn)用數(shù)據(jù)統(tǒng)計(jì)和CiteSpace對(duì)國內(nèi)該領(lǐng)域的發(fā)展脈絡(luò)、研究現(xiàn)狀及未來研究走向進(jìn)行可視化分析,系統(tǒng)梳理了國內(nèi)翻譯技術(shù)研究的進(jìn)展[10];李晗佶、陳海慶借助CiteSpace深度剖析了國內(nèi)有關(guān)機(jī)器翻譯的兩類期刊2007—2016年收錄的文獻(xiàn),并基于生成的知識(shí)圖譜,分別指出了語言學(xué)界和計(jì)算機(jī)科學(xué)界在機(jī)器翻譯領(lǐng)域研究的異同[11]。
總體來講,目前關(guān)于機(jī)器翻譯的研究仍存在兩方面局限性:一是大多數(shù)研究聚焦于微觀或中觀角度,未能從宏觀上審視機(jī)器翻譯的現(xiàn)狀及發(fā)展走向;二是國內(nèi)學(xué)者的研究語料數(shù)據(jù)多源于中文數(shù)據(jù)庫,視角聚焦于國內(nèi)機(jī)器翻譯的研究動(dòng)態(tài),難以洞察國際機(jī)器翻譯的研究進(jìn)程。
目前,機(jī)器翻譯已經(jīng)成為國際前沿研究熱點(diǎn),逐漸拓展出本領(lǐng)域的專業(yè)期刊,如:ComputerSpeechandLanguage,ComputationalLinguistics,NaturalLanguageEngineering。此外,國際計(jì)算語言學(xué)協(xié)會(huì)每年舉辦WMT國際機(jī)器翻譯大賽,歐洲機(jī)器翻譯協(xié)會(huì)、中國機(jī)器翻譯大會(huì)及國際頂級(jí)口語機(jī)器翻譯評(píng)測(cè)等機(jī)構(gòu)持續(xù)召開年度峰會(huì),國際機(jī)器翻譯會(huì)議的增多顯示出機(jī)器翻譯在國際上獲得了更廣泛的關(guān)注。為深入探究國際機(jī)器翻譯的研究動(dòng)態(tài),本文綜合科學(xué)計(jì)量法和文本分析法,系統(tǒng)梳理2012—2021年Web of Science核心數(shù)據(jù)庫中有關(guān)機(jī)器翻譯的文獻(xiàn),對(duì)整體發(fā)文趨勢(shì)、核心作者、研究機(jī)構(gòu)、作者共被引分析、高頻關(guān)鍵詞共現(xiàn)及關(guān)鍵詞突現(xiàn)進(jìn)行可視化分析,以期為國內(nèi)學(xué)者探索國際機(jī)器翻譯研究歷程提供參考。
1. 研究問題
通過對(duì)Web of Science核心數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行計(jì)量可視化分析,本研究將具體回答以下問題:①近10年國際機(jī)器翻譯研究整體呈現(xiàn)什么態(tài)勢(shì)?②分別從微觀和中觀角度探究國際機(jī)器翻譯研究高產(chǎn)作者與科研結(jié)構(gòu)分布顯現(xiàn)出什么特征?③國際機(jī)器翻譯研究主要圍繞哪些研究議題展開?④國際機(jī)器翻譯未來研究走向呈現(xiàn)出怎樣的特點(diǎn)?
2. 數(shù)據(jù)來源
為了獲得全面、準(zhǔn)確且權(quán)威性的語料,本研究數(shù)據(jù)來源于Web of Science核心合集(簡稱為WOS),同時(shí)設(shè)置精確檢索主題為“machine translation”。自定義檢索公式為: Keyword=“machine translation”;Time=2012.01.01—2021.12.31;Access Dataspace=SCI:SSCI:A&HCI:CPCI-S:CPCI-SSH;將語種定義為“English”,文獻(xiàn)的檢索類型限定為Article、Review與Proceeding paper3類。經(jīng)篩選后共得到有效文獻(xiàn)4 469篇。
3. 分析工具
本文基于可視化分析軟件呈現(xiàn)科學(xué)知識(shí)圖譜,并輔以文本分析,揭示國際機(jī)器翻譯研究的動(dòng)態(tài)進(jìn)程??茖W(xué)知識(shí)圖譜側(cè)重知識(shí)的可視化,兼具圖和譜的雙重特性,既顯示了知識(shí)聚類間的網(wǎng)絡(luò)、結(jié)構(gòu)、互動(dòng)、交叉、演化或衍生等關(guān)系,也揭示出復(fù)雜的知識(shí)關(guān)系孕育的前沿知識(shí)[12]242。具體而言,本文分別以CiteSpace[13]與VOSviewer[14]軟件作為分析工具。二者的交叉使用互為補(bǔ)充,一方面,CiteSpace可利用名詞性術(shù)語找出文獻(xiàn)中的突現(xiàn)詞,洞察學(xué)科在一段時(shí)間內(nèi)呈現(xiàn)的變化和動(dòng)態(tài)趨勢(shì),探索學(xué)科領(lǐng)域的研究熱點(diǎn)與未來發(fā)展趨勢(shì)[13];另一方面,VOSviewer基于關(guān)聯(lián)強(qiáng)度的算法,通過標(biāo)簽視圖、密度視圖與集群密度視圖可以處理大量語料,清晰展現(xiàn)大型圖譜網(wǎng)絡(luò)[14]。因此,本文將兩者結(jié)合,以期更好地厘清近10年國際機(jī)器翻譯的研究動(dòng)態(tài)。
1. 年度發(fā)文趨勢(shì)
某一領(lǐng)域的發(fā)文數(shù)量是判斷其發(fā)展趨勢(shì)的重要指標(biāo), 能直觀反映出該領(lǐng)域在不同階段的研究態(tài)勢(shì)與研究熱度[15]。 根據(jù)近10年國際機(jī)器翻譯研究成果的發(fā)表情況, 國際機(jī)器翻譯領(lǐng)域年度發(fā)文量趨勢(shì)見圖1。
圖1 國際機(jī)器翻譯研究年度發(fā)文量趨勢(shì)圖(2012—2021)
從圖1可知,近10年國際機(jī)器翻譯研究整體呈現(xiàn)出波動(dòng)式上升、穩(wěn)中求進(jìn)的發(fā)展態(tài)勢(shì),可以看出近年來國際學(xué)界對(duì)機(jī)器翻譯的研究熱度、關(guān)注度持續(xù)上升,機(jī)器翻譯成為學(xué)界的熱門研究領(lǐng)域,并且該領(lǐng)域的研究步入成熟階段。具體而言,可分為3個(gè)階段:波動(dòng)發(fā)展階段(2012—2017)、快速發(fā)展階段(2017—2019)和穩(wěn)步發(fā)展階段(2019—2021)。值得注意的是,自2017年以來,國際機(jī)器翻譯研究發(fā)文量顯著增加,這與機(jī)器翻譯技術(shù)的優(yōu)化、人工智能的快速發(fā)展及國際學(xué)界對(duì)機(jī)器翻譯的關(guān)注密切相關(guān)。例如,谷歌于2016年基于人的神經(jīng)網(wǎng)絡(luò)開發(fā)出Google神經(jīng)機(jī)器翻譯系統(tǒng)(簡稱為GNMT),實(shí)現(xiàn)機(jī)器翻譯技術(shù)的重大突破。新的機(jī)器翻譯技術(shù)路徑帶來2017年之后研究的快速發(fā)展,其中2019年,發(fā)文量達(dá)到近10年峰值,研究文獻(xiàn)高達(dá)700篇,2020年和2021年分別產(chǎn)出論文651和515篇,相較于2019年的發(fā)文數(shù)量,雖有小幅下滑,但文章基數(shù)大,研究熱度仍保持高漲。
2. 高產(chǎn)作者分析
系統(tǒng)分析施引文獻(xiàn)的作者不僅能了解該學(xué)科領(lǐng)域的核心研究者、基礎(chǔ)文獻(xiàn)的組成與學(xué)科前沿發(fā)展趨勢(shì),也有助于基于作者共現(xiàn)圖譜揭示不同作者之間的合作關(guān)系。通過VOSviewer可視化分析軟件,本文將發(fā)文數(shù)量的閾值設(shè)為10,經(jīng)篩選后,共有119位作者滿足既定閾值條件。基于VOSviewer的聚類功能,近10年在國際機(jī)器翻譯領(lǐng)域有較高影響力的作者合作網(wǎng)絡(luò)圖譜見圖2。
圖2 國際機(jī)器翻譯研究作者合作網(wǎng)絡(luò)圖(2012—2021)
圖中節(jié)點(diǎn)及字體大小與作者發(fā)文量呈正向相關(guān)關(guān)系,節(jié)點(diǎn)越大,代表該作者在國際機(jī)器翻譯領(lǐng)域影響力越高;節(jié)點(diǎn)間的線條粗細(xì)與機(jī)構(gòu)之間的合作發(fā)文量也呈正比關(guān)系,線條越粗,反映出學(xué)者之間的合作程度越緊密[16]。
由圖2可知,國際機(jī)器翻譯研究形成了顯著合作群體,整體科研合作緊密,顯現(xiàn)出了四大緊密合作的學(xué)術(shù)共同體。首先是以日本情報(bào)通信研究機(jī)構(gòu)Sumita及其團(tuán)隊(duì)成員Utiyama,上海交通大學(xué)的王瑞、趙海,哈爾濱工業(yè)大學(xué)的趙鐵軍和楊沐昀等學(xué)者為代表的合作圈,該合作群體由中國和日本學(xué)者構(gòu)成,科研產(chǎn)出成果多,在自然語言處理(Natural Language Processing,簡稱為NLP)和機(jī)器翻譯模型改進(jìn)研究中構(gòu)成了穩(wěn)固、緊密的學(xué)術(shù)共同體。第二大合作團(tuán)隊(duì)是以清華大學(xué)學(xué)者劉洋為核心的合作團(tuán)隊(duì),具體而言,該學(xué)術(shù)共同體還包括中國科學(xué)院學(xué)者宗成慶和張家俊、清華大學(xué)的張敏、天津大學(xué)學(xué)者熊德意、廈門大學(xué)的蘇勁松、澳門大學(xué)學(xué)者Wong與Chao等。該合作團(tuán)隊(duì)主要由中國學(xué)者構(gòu)成,科研力量雄厚且研究結(jié)構(gòu)多為國內(nèi)高等研究所、高校的重點(diǎn)NLP實(shí)驗(yàn)室,同時(shí)從圖2節(jié)點(diǎn)的連線可見,該合作團(tuán)隊(duì)中高校學(xué)者間的合作極其頻繁。第三大研究團(tuán)隊(duì)是圍繞著美國卡內(nèi)基·梅隆大學(xué)學(xué)者Neubig建構(gòu)起學(xué)術(shù)合作圈,與日本學(xué)者 Nakamura、Utiyama也開展學(xué)術(shù)合作,同時(shí)該合作群體還包含愛丁堡大學(xué)NLP研究學(xué)者Heafield,第三大研究團(tuán)體以日本學(xué)者為主,美國、英國與日本科研機(jī)構(gòu)就機(jī)器翻譯展開了密切合作。此外,西班牙加泰羅尼亞理工大學(xué)機(jī)器翻譯研究者Costa-Jussà與愛沙尼亞塔爾圖大學(xué)的Mark、捷克布拉格查理大學(xué)的Ondej及德國人工智能研究中心的Van Genabith等學(xué)者也共同組成共現(xiàn)網(wǎng)絡(luò)。
國際機(jī)器翻譯研究領(lǐng)域十大高產(chǎn)作者(見表1)多來自上述四大合作群體,整體而言,從作者合作網(wǎng)絡(luò)圖譜與高產(chǎn)作者發(fā)文表可以看出,一方面,國際機(jī)器翻譯研究呈現(xiàn)積極發(fā)展態(tài)勢(shì),科研機(jī)構(gòu)間作者合作密切,合作程度高,愈加趨向形成一種長期穩(wěn)定且緊密的合作關(guān)系;另一方面,不同的學(xué)術(shù)團(tuán)隊(duì)已經(jīng)形成了以某一領(lǐng)軍人物為核心的學(xué)術(shù)架構(gòu),學(xué)術(shù)團(tuán)隊(duì)中既有引領(lǐng)發(fā)展的中堅(jiān)力量也有不斷創(chuàng)新的青年團(tuán)隊(duì),團(tuán)隊(duì)可塑性和創(chuàng)造力不斷提升。
表1 國際機(jī)器翻譯研究前10位高產(chǎn)作者(2012—2021)
3. 研究機(jī)構(gòu)分析
本節(jié)將從中觀層面對(duì)所選語料的發(fā)文機(jī)構(gòu)進(jìn)行探究,詳細(xì)分析不同國家研究機(jī)構(gòu)在機(jī)器翻譯這一學(xué)科領(lǐng)域的研究能力。在生成圖譜時(shí),利用VOSviewer將閾值設(shè)為30,展現(xiàn)當(dāng)前國際機(jī)器翻譯研究的主要研究力量,經(jīng)統(tǒng)計(jì)分析,國際機(jī)器翻譯研究發(fā)文前20的研究機(jī)構(gòu)主要集中在中國、美國、英國、日本、印度、德國、西班牙與瑞士等國家,具體分布見表2。
表2 國際機(jī)器翻譯研究發(fā)文前20位科研機(jī)構(gòu)(2012—2021)
根據(jù)表2可得,國際從事機(jī)器翻譯研究的中國科研機(jī)構(gòu),節(jié)點(diǎn)顯著性較強(qiáng)的有中國科學(xué)院、中國科學(xué)院大學(xué)、蘇州大學(xué)、北京大學(xué)、清華大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)等高等院校。此外,處于前沿科技領(lǐng)域的NLP實(shí)驗(yàn)室也與部分高校開展合作,如華為諾亞方舟實(shí)驗(yàn)室、騰訊人工智能實(shí)驗(yàn)室、百度研究院和阿里巴巴人工實(shí)驗(yàn)室等。
與此同時(shí),美國高??▋?nèi)基·梅隆大學(xué)、斯坦福大學(xué)、約翰斯·霍普金斯大學(xué)、華盛頓大學(xué)、賓西法尼亞大學(xué)及谷歌的人工智能實(shí)驗(yàn)室、微軟亞洲研究院等科研機(jī)構(gòu)也處在機(jī)器翻譯前沿研究領(lǐng)域;愛爾蘭的都柏林城市大學(xué)、英國的愛丁堡大學(xué)、謝菲爾德大學(xué)與日本情報(bào)通信研究機(jī)構(gòu)、京都大學(xué),還有印度理工學(xué)院在機(jī)器翻譯領(lǐng)域收獲頗豐,且跨學(xué)科、跨校、跨地域與跨國的合作趨勢(shì)日益顯著。
從研究機(jī)構(gòu)性質(zhì)來看,在機(jī)器翻譯領(lǐng)域取得重大進(jìn)展的多為理工類科研院校的NLP實(shí)驗(yàn)室或綜合類院校的計(jì)算機(jī)學(xué)院、人工智能學(xué)院或信息學(xué)院,院校的相互合作更易于開展對(duì)機(jī)器翻譯的多領(lǐng)域、多角度和多學(xué)科的探究與應(yīng)用。前沿科技公司微軟、谷歌、Facebook、騰訊、阿里及百度在機(jī)器NLP層面已經(jīng)有所建樹,研究熱度持續(xù)高漲,如谷歌于2016年基于人的神經(jīng)網(wǎng)絡(luò)推出的GNMT系統(tǒng),大大提高了翻譯的流暢度和準(zhǔn)確性,提升了機(jī)器翻譯的質(zhì)量,并引發(fā)機(jī)器翻譯領(lǐng)域的新一輪革新。
整體而言,基于微觀與中觀角度,學(xué)界在機(jī)器翻譯領(lǐng)域已經(jīng)形成了穩(wěn)定的合作團(tuán)隊(duì),核心作者、領(lǐng)軍機(jī)構(gòu)共現(xiàn)知識(shí)網(wǎng)絡(luò)密度較高;且研究多以機(jī)構(gòu)某一代表性人物為核心組建團(tuán)隊(duì)、成立科研實(shí)驗(yàn)室進(jìn)而展開團(tuán)隊(duì)合作,規(guī)模較大、學(xué)術(shù)底蘊(yùn)深厚的科研機(jī)構(gòu)更易于開展跨學(xué)科、跨校與跨區(qū)域的項(xiàng)目研究,這與國家的政策導(dǎo)向、信息化建設(shè)的戰(zhàn)略定位、人工智能的發(fā)展、科研結(jié)構(gòu)的優(yōu)化合作及人才的聚集有密切關(guān)聯(lián)。同時(shí),需要注意的是,機(jī)器翻譯雖為熱點(diǎn)研究領(lǐng)域,但仍有不少科研結(jié)構(gòu)處于自創(chuàng)自研的初級(jí)階段,還未形成緊密的合作團(tuán)隊(duì),它們的進(jìn)一步發(fā)展,仍需充足時(shí)間和空間來推動(dòng)合作,以此深化機(jī)器翻譯研究的廣度。
1. 作者共被引分析
就被引文獻(xiàn)而言,作者共被引分析能夠揭示該學(xué)科領(lǐng)域具有核心影響力的奠基者及該領(lǐng)域?qū)W科知識(shí)基礎(chǔ)的構(gòu)成。具體而言,通過追蹤相關(guān)被引文獻(xiàn)作者,可以厘清機(jī)器翻譯研究的整體進(jìn)程與核心人物。將語料導(dǎo)入CiteSpace,閾值設(shè)為200,即檢索出文獻(xiàn)共被引次數(shù)大于200的作者,繪制的作者共被引共現(xiàn)網(wǎng)絡(luò)圖譜見圖3。
圖3 國際機(jī)器翻譯研究作者共被引網(wǎng)絡(luò)圖(2012—2021)
基于生成的網(wǎng)絡(luò)圖譜,研究發(fā)現(xiàn)共被引頻次位居前列的學(xué)者包含Papineni(1 463次)、Koehn(1 450次)、Vaswani(895次),以及Sennrich(753次)等,這些國際學(xué)者在機(jī)器翻譯研究領(lǐng)域具有強(qiáng)大的影響力,某種程度上奠定了機(jī)器翻譯產(chǎn)生的知識(shí)基礎(chǔ)。
在圖3中,Sennrich作為NMT的領(lǐng)軍人物,主要研究高質(zhì)量機(jī)器翻譯,包括基于語法的SMT和NMT,于2016年率先提出運(yùn)用分析算法構(gòu)建雙字節(jié)編碼將單詞分割成子詞單元序列;Koehn作為約翰斯·霍普金斯大學(xué)的教授,早年提出的基于短語的統(tǒng)計(jì)翻譯模型極大促進(jìn)了SMT領(lǐng)域的發(fā)展,同時(shí)又助推學(xué)界開啟了NMT的研究歷程,成為國際機(jī)器翻譯研究的奠基人物,其經(jīng)典論文ConvergenceofTranslationMemoryandStatisticalMachineTranslation及著作StatisticalMachineTranslation、NeuralMachineTranslation已經(jīng)成為研究者探索機(jī)器翻譯的必備讀物。
除了高校學(xué)者外,不少科研機(jī)構(gòu)的研究人員在NMT領(lǐng)域也取得了突破性進(jìn)展,例如谷歌公司的研究人員Vaswani及其同事在2017年發(fā)表論文AllAttentionisAllYouNeed,首次提出運(yùn)用基于自注意力機(jī)制的Transformer模型代替?zhèn)鹘y(tǒng)RNN模型(Recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡(luò))來建構(gòu)序列數(shù)據(jù),這一深度學(xué)習(xí)模型的革新引發(fā)國際學(xué)界的轟動(dòng)。至今,Transformer模型仍在NLP領(lǐng)域占有舉足輕重的位置。先后在谷歌、微軟任職的科研專家Papineni提出的基于特征的自然語言理解方法及用于評(píng)估翻譯文本質(zhì)量的Bleu評(píng)分,直接影響了SMT模型的產(chǎn)生。
表3 國際機(jī)器翻譯研究高頻被引作者熱點(diǎn)研究議題(2012—2021)
高頻次被引學(xué)者的研究關(guān)注點(diǎn)主要聚焦于機(jī)器翻譯的編碼與解碼、翻譯質(zhì)量的評(píng)估與優(yōu)化、注意力機(jī)制、預(yù)訓(xùn)練語言模型Bert、雙重語料對(duì)比以及多模態(tài)翻譯如discourse(話語)、speech translation(語音翻譯)和image captioning(圖像翻譯)等方面(見表3)。通過將被引作者的熱點(diǎn)研究進(jìn)一步歸類可以發(fā)現(xiàn),國際學(xué)界對(duì)機(jī)器翻譯的關(guān)注呈現(xiàn)以下特點(diǎn): ①關(guān)注翻譯模型的改善以優(yōu)化翻譯質(zhì)量; ②聚焦時(shí)代需求,著力探索融合圖像、文本、口語、音頻與視頻等模態(tài)信息的多模態(tài)機(jī)器翻譯; ③多語種機(jī)器翻譯得到重視,尤其是多語言翻譯能力的提升。
2. 關(guān)鍵詞共現(xiàn)分析
關(guān)鍵詞共現(xiàn)作為文獻(xiàn)計(jì)量的重要研究方法,常用以剖析某領(lǐng)域的研究熱點(diǎn)與前沿,盡管這種基于單詞的孤立分析會(huì)破壞原有的知識(shí)結(jié)構(gòu),但關(guān)鍵詞共現(xiàn)分析能夠高度顯現(xiàn)某一動(dòng)態(tài)研究領(lǐng)域的研究議題[17]。通過VOSviewer對(duì)關(guān)鍵詞進(jìn)行統(tǒng)計(jì),將關(guān)鍵詞共現(xiàn)次數(shù)閾值設(shè)為15,為保證分析結(jié)果的準(zhǔn)確性,對(duì)提取的高頻關(guān)鍵詞進(jìn)行二次檢索,去除重復(fù)詞匯(首字母縮略詞與單復(fù)數(shù)同現(xiàn)詞)及頻率最高但無意義的關(guān)鍵詞machine translation,共得到83個(gè)共現(xiàn)關(guān)鍵詞,共現(xiàn)網(wǎng)絡(luò)圖譜如圖4所示。
通過對(duì)比呈現(xiàn)的關(guān)鍵詞頻次和連接強(qiáng)度,發(fā)現(xiàn)近10年國際機(jī)器翻譯研究主要聚焦在以下4個(gè)研究議題。
研究熱點(diǎn)1: 自然語言處理
NLP作為計(jì)算機(jī)科學(xué)與語言學(xué)的交叉研究領(lǐng)域,它的興起與機(jī)器翻譯息息相關(guān),主要通過計(jì)算機(jī)來處理、理解及運(yùn)用人類語言。由圖4可見,圖中左側(cè)節(jié)點(diǎn)圍繞著NLP組成了第一大聚類,從該聚類的共現(xiàn)關(guān)鍵詞recognition(識(shí)別)、bleu(自動(dòng)評(píng)估機(jī)器翻譯的方法)、hybrid machine translation(混合機(jī)器翻譯)及computational linguistics(計(jì)算語言學(xué))等可以看出,NLP近年來主要致力于通過bleu算法提高翻譯質(zhì)量,同時(shí)也借助多種翻譯策略如混合翻譯策略提升譯文結(jié)果的準(zhǔn)確性。此外,NLP展開多語種的翻譯實(shí)踐研究并顯現(xiàn)出學(xué)科交叉融合的研究趨勢(shì)。
研究熱點(diǎn)2: 統(tǒng)計(jì)機(jī)器翻譯
SMT基于規(guī)模宏大的語料庫,用統(tǒng)計(jì)學(xué)方法建立機(jī)器自動(dòng)翻譯系統(tǒng),一方面有效減少了對(duì)人工的依賴;另一方面,可以借助形式化語法的翻譯模型靈活處理語言結(jié)構(gòu)。圖4中下方節(jié)點(diǎn)以SMT為核心主題形成了第二大聚類,該聚類還包括lexicon(詞匯)、parallel corpus(平行語料庫)、multilingual(多語言的)和domain adaptation(領(lǐng)域自適應(yīng))等詞。由此可見,在SMT研究領(lǐng)域,學(xué)界充分利用雙語平行語料庫資源,從基于單詞的機(jī)器翻譯逐步過渡到基于短語的翻譯;如何提高SMT系統(tǒng)的領(lǐng)域自適應(yīng)能力也一度成為學(xué)界的研究熱點(diǎn)。
研究熱點(diǎn)3: 神經(jīng)機(jī)器翻譯
NMT是近年來一種新興的機(jī)器翻譯技術(shù),隨著翻譯模型的不斷發(fā)展,逐漸成為語言翻譯行業(yè)的主流翻譯技術(shù)。作為一種全新機(jī)器翻譯模型,NMT通過使用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)獲取自然語言之間的映射關(guān)系,實(shí)現(xiàn)源語言到目標(biāo)語言的直接翻譯[18],有效避免了傳統(tǒng)SMT翻譯中繁雜的轉(zhuǎn)化過程,NMT也因其簡潔、高質(zhì)高效和良好翻譯性能得到學(xué)界廣泛認(rèn)可。
從NMT為核心聚類共現(xiàn)的高頻詞quality estimation(質(zhì)量評(píng)估)、reinforcement learning(強(qiáng)化學(xué)習(xí))、low resource language(低資源語言)、post-editing(譯后編輯)與translation technology(翻譯技術(shù))等可以看出,NMT的近年研究進(jìn)展側(cè)重于翻譯質(zhì)量的提升、人機(jī)交互尤其是譯后編輯的交替應(yīng)用、提高NMT在目標(biāo)域數(shù)據(jù)準(zhǔn)確性和性能等方面。隨著NMT在高資源語言翻譯任務(wù)(如英法翻譯、英漢翻譯)取得的突破性進(jìn)展,學(xué)界還將關(guān)注點(diǎn)聚焦在如何提升低資源語言情況下機(jī)器翻譯的任務(wù),例如加泰隆語—漢語翻譯實(shí)踐的質(zhì)量[19]。
研究熱點(diǎn)4: 深度學(xué)習(xí)
深度學(xué)習(xí)憑借龐大的數(shù)據(jù)集和強(qiáng)大的計(jì)算能力建立深層神經(jīng)網(wǎng)絡(luò),并基于其深度、隱性學(xué)習(xí)與算法正則化的顯性特征模擬人腦機(jī)制完成對(duì)數(shù)據(jù)的分析,進(jìn)而提高不同層次上對(duì)數(shù)據(jù)的解釋能力[20]。為了進(jìn)一步提高傳統(tǒng)機(jī)器翻譯的質(zhì)量,深度學(xué)習(xí)廣泛應(yīng)用于機(jī)器翻譯語言處理中,深度學(xué)習(xí)基于Seq2Seq(序列到序列)模型,由encoder和decoder(編碼器和解碼器)及連接二者的向量組成。由圖4可知,該聚類圍繞著深度學(xué)習(xí),從多角度展開對(duì)語言模型的研究,如解碼器和編碼器依托的RNN模型和long short-term memory(長短時(shí)記憶神經(jīng)網(wǎng)絡(luò));利用Transformer模型推廣attention mechanism(注意力機(jī)制)以得到更優(yōu)質(zhì)的翻譯成果;通過convolutional neural networks(卷積神經(jīng)網(wǎng)絡(luò))和RNN模型提升的潛在翻譯效果。同時(shí),深度學(xué)習(xí)也被用于多模態(tài)翻譯實(shí)踐中,如speech recognition(聲音識(shí)別)。
綜上所述,國際機(jī)器翻譯的研究熱點(diǎn)主要聚焦于機(jī)器翻譯技術(shù)的革新、語言模型的研究、翻譯質(zhì)量的提升、高資源和低資源語言翻譯任務(wù)的執(zhí)行等方面,這些研究熱點(diǎn)凸顯了機(jī)器翻譯跨學(xué)科的研究趨勢(shì)。同時(shí),研究熱點(diǎn)與被引文獻(xiàn)的作者共被引分析顯現(xiàn)的知識(shí)基礎(chǔ)具有一致性。由此可見,隨著人工智能的迭代發(fā)展,機(jī)器翻譯技術(shù)、模型與質(zhì)量等將在批判的繼承中不斷優(yōu)化,推動(dòng)NLP的革新。
3. 機(jī)器翻譯前沿趨勢(shì)
突現(xiàn)詞檢索(Burst words detection,簡稱為BWD)逐漸成為內(nèi)容分析的重要途徑,在CiteSpace中陳超美引入Kleinberg的BWD算法以期探索學(xué)科領(lǐng)域的前沿發(fā)展趨勢(shì)與交互關(guān)系[13]。具體而言,突現(xiàn)詞是指一個(gè)變量在某一時(shí)間發(fā)生顯著變化(如圖5所示),其中的起始年份和突現(xiàn)強(qiáng)度可以直觀展示出研究前沿之間的變化路徑。通過CiteSpace對(duì)關(guān)鍵詞進(jìn)行分析得到近10年國際機(jī)器翻譯研究突現(xiàn)的關(guān)鍵詞分布。
突現(xiàn)關(guān)鍵詞揭示了近10年國際機(jī)器翻譯領(lǐng)域的演進(jìn)路徑,凸顯了不同階段機(jī)器翻譯研究主題的變化情況及該領(lǐng)域研究的前沿趨勢(shì)。在波動(dòng)發(fā)展階段(2012—2017),SMT成為該階段的研究熱點(diǎn),研究成果主要圍繞著SMT模型參數(shù)的設(shè)置、翻譯質(zhì)量的提升及翻譯技術(shù)的優(yōu)化展開;而在快速發(fā)展階段(2017—2019),突現(xiàn)的關(guān)鍵詞為image captioning(圖像描述或看圖說話)、low-resource language pair(低資源語言配對(duì)),體現(xiàn)了機(jī)器翻譯中人機(jī)交互和多模態(tài)機(jī)器翻譯得到突破性進(jìn)展;在穩(wěn)定發(fā)展階段(2019—2021),學(xué)界研究的著力點(diǎn)聚焦于NMT、Transformer模型、遷移學(xué)習(xí)及無監(jiān)督機(jī)器翻譯。
圖5 國際機(jī)器翻譯研究突現(xiàn)關(guān)鍵詞檢測(cè)圖(2012—2021)
本研究借助科學(xué)計(jì)量軟件CiteSpace和VOSviewer呈現(xiàn)的知識(shí)圖譜對(duì)WOS核心數(shù)據(jù)庫中2012—2021年10年間以“機(jī)器翻譯”為主題的文獻(xiàn)進(jìn)行可視化分析,研究發(fā)現(xiàn):①近年來國際機(jī)器翻譯研究呈現(xiàn)出波動(dòng)式上升、穩(wěn)中求進(jìn)的發(fā)展態(tài)勢(shì),研究熱度、學(xué)界關(guān)注度穩(wěn)步上升,國際機(jī)器翻譯研究步入成熟發(fā)展階段;②從微觀和中觀視角探究施引文獻(xiàn)學(xué)科力量分布,可以得出,國際機(jī)器翻譯研究形成了四大顯著的合作群體,科研高產(chǎn)結(jié)構(gòu)集中分布在中國、美國、英國、日本、印度、德國、西班牙和瑞士等國家??傮w而言,機(jī)器翻譯的整體科研合作緊密,已經(jīng)形成了規(guī)?;暮献鲌F(tuán)隊(duì),規(guī)模較大、學(xué)術(shù)底蘊(yùn)深厚的科研機(jī)構(gòu)更易于開展跨學(xué)科、跨校、跨區(qū)域與跨國合作研究;③國際機(jī)器翻譯研究熱點(diǎn)主要集中在NLP、SMT、NMT與Deep learning的深度研究上,這些議題凸顯了機(jī)器翻譯研究跨學(xué)科的趨勢(shì),融合了計(jì)算機(jī)科學(xué)、翻譯學(xué)、語言學(xué)及工程學(xué)等知識(shí);④機(jī)器翻譯的前沿趨勢(shì)主要集中在計(jì)算機(jī)視覺和自然語言處理的有機(jī)融合、NMT、無監(jiān)督翻譯與基于Transformer模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
隨著人工智能的快速發(fā)展,2012—2021年10年間國際機(jī)器翻譯研究取得了豐碩成果,中國、美國、英國、日本和西班牙等國家形成了穩(wěn)固的學(xué)術(shù)共同體,國際合作密切,但還有待提高;部分科研機(jī)構(gòu)形成了以學(xué)術(shù)領(lǐng)軍人物為中心的單核心發(fā)展模式,新興科研力量勢(shì)單力薄。因此,未來應(yīng)該更加側(cè)重研發(fā)結(jié)構(gòu)之間的合作及新興研發(fā)人才的培養(yǎng),從而助推科研創(chuàng)新并拓寬機(jī)器翻譯的內(nèi)核研究。
沈陽大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2022年6期