摘 要:本研究以體育科技英語文本為例,探討新興人工智能翻譯系統(tǒng)ChatGPT與傳統(tǒng)計(jì)算機(jī)輔助翻譯系統(tǒng)谷歌翻譯器在特定文本翻譯中的效度差異。研究采用人工評測和自動評測相結(jié)合的定量研究方法,對120組體育科技英語測試句群進(jìn)行全面評測。結(jié)果顯示,在翻譯體育科技英語文本時(shí),ChatGPT的翻譯效度整體優(yōu)于谷歌翻譯器。兩類翻譯系統(tǒng)在一般語境下的翻譯效度均優(yōu)于專業(yè)語境,且二者相比,ChatGPT仍略勝一籌。研究發(fā)現(xiàn),即使如ChatGPT這樣的新興人工智能翻譯系統(tǒng),在專業(yè)領(lǐng)域的文本翻譯中也仍需要人工校對和修訂。這說明完全依靠計(jì)算機(jī)翻譯處理體育科技類文本的效度并不理想,翻譯系統(tǒng)的智能水平需要進(jìn)一步優(yōu)化。本研究為推動人工智能翻譯技術(shù)在專業(yè)領(lǐng)域的應(yīng)用提供了啟示與借鑒。
關(guān)鍵詞:ChatGPT 谷歌 計(jì)算機(jī)輔助翻譯 翻譯效度 體育科技英語
隨著社會的進(jìn)步與科技的發(fā)展,多語言溝通交流的需求與日俱增。傳統(tǒng)的人工翻譯在速度和數(shù)量上均有一定的局限性,不能完全滿足日益增長的翻譯市場需求。因此,依靠信息技術(shù)的支撐,計(jì)算機(jī)輔助翻譯(Computer Aided Translation,縮寫為CAT)為語言的溝通交流提供了便利,同時(shí),也大大提升了人工翻譯速度,使翻譯操作更加簡易。
近年來,人工智能的發(fā)展正深刻地塑造著翻譯新貌。2023年3月15日,美國開放人工智能研究中心OpenAI
宣布正式推出GPT-4,它是OpenAI努力擴(kuò)展深度學(xué)習(xí)的最新里程碑。ChatGPT語言模型的崛起,引領(lǐng)人工智能走向了新的發(fā)展階段,為語言文化及翻譯研究帶來了巨大變革。[1]與統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,縮寫為SMT)系統(tǒng)——谷歌翻譯器(Google Translate)相比,ChatGPT翻譯不再單一依靠傳統(tǒng)算法,而是通過大量語料庫翻譯學(xué)習(xí)與訓(xùn)練[2],以高度精確和靈活的方式處理翻譯任務(wù),使譯文翻譯更加貼近人工翻譯風(fēng)格。但由于語言本身的復(fù)雜性和文化背景的差異,ChatGPT作為新興人工智能產(chǎn)物,在應(yīng)對專業(yè)領(lǐng)域特定文本翻譯時(shí),譯文效度仍有待驗(yàn)證。[3]
體育科技英語作為專門用途英語(English for Special Purpose,縮寫為ESP)的一個(gè)重要分支,一直以來都是翻譯的重點(diǎn)和難點(diǎn)。一是由于體育國際交流的日益豐富,語言障礙成為國家間切磋體育技能、發(fā)展體育產(chǎn)業(yè)、開拓體育科學(xué)時(shí)的首要壁壘,亟須通過翻譯行為促進(jìn)國家間體育對話的順利開展[4];二是由于體育科技英語涉及的知識面及題材非常廣泛,結(jié)合了運(yùn)動、生理、心理、管理、訓(xùn)練、歷史、分析等自然科學(xué)及社會科學(xué)知識,翻譯此類文本需要譯者同時(shí)具備英語水平、漢語水平及體育專業(yè)知識,因此這類文本也被視為最難翻譯的文本類型之一。能精準(zhǔn)翻譯體育科技英語文本,即使對于經(jīng)驗(yàn)豐富的譯員來說,也是不小的挑戰(zhàn)。然而,不可否認(rèn)的是,隨著翻譯語料庫及人工智能技術(shù)的逐步完善,計(jì)算機(jī)輔助翻譯工具在一定程度上能夠輔助甚至自主進(jìn)行諸如體育科技英語等較大難度的文本翻譯,從而提高人工翻譯的效率。
翻譯系統(tǒng)對于大量平行語料統(tǒng)計(jì)分析的準(zhǔn)確性,統(tǒng)計(jì)翻譯模型的構(gòu)建完善度,基于短語翻譯的句法信息融合能力,都將直接或間接影響最終輸出的譯文效度。不同翻譯平臺對于不同領(lǐng)域、不同類型的文本翻譯輸出也極有可能存在顯著差異。本研究以體育科技英語文本為例,將ChatGPT翻譯功能與傳統(tǒng)CAT系統(tǒng)——谷歌翻譯器生產(chǎn)的譯文進(jìn)行對比,評估二者在特定體育科技文本翻譯中的效度。
一、研究設(shè)計(jì)
(一)研究對象及目的
常用翻譯系統(tǒng)獨(dú)立進(jìn)行翻譯活動時(shí),在不同場合、不同文本語境下能否準(zhǔn)確地表達(dá)源語意義,傳遞信息的效度如何,對翻譯系統(tǒng)智能化的完善有著重要意義。本研究旨在通過譯本評測,對比在體育科技英語文本情境中兩種翻譯系統(tǒng)——谷歌翻譯器與ChatGPT翻譯功能的翻譯效度。本研究在測試時(shí)均使用其免費(fèi)版本的在線翻譯器。
(二)研究方法
為了保證表達(dá)的豐富性與研究結(jié)果的客觀性,本研究的測試選擇了兩類體育科技英語文本。一是現(xiàn)有教材《體育英語》中與體育科技相關(guān)的文本句群,二是國際奧委會《賽事手冊》中與體育科技相關(guān)的文本句群。兩類文本均為英文,并附有官方中文譯本,旨在兼顧書本理論與實(shí)踐運(yùn)用,以確保兩種翻譯系統(tǒng)輸出的譯文有較為有效權(quán)威的參考標(biāo)準(zhǔn)。
在對譯文效度的分析上,本研究采用兩種分析方法:人工評測與自動評測,并將兩者的分析數(shù)據(jù)相結(jié)合,從多個(gè)角度對比論證ChatGPT與谷歌翻譯器在體育科技英語文本中翻譯效度的差異,力求取得相對客觀、更有說服力的測試結(jié)果。
(三)測試過程
1. 嚔句群篩選
在熟悉教材《體育英語》與《賽事手冊》內(nèi)容與架構(gòu)的基礎(chǔ)上,為了保證測試句群兼?zhèn)涞湫托耘c客觀性,本研究的備選測試句群均從材料各章正文部分隨機(jī)均勻抽取,中英對照,并保證每組測試對象均包含體育科技英語關(guān)聯(lián)性內(nèi)容。
從備選測試句群中進(jìn)一步進(jìn)行篩選,本研究將描述性較強(qiáng)的句群歸為一般語境文本,此類句群更偏向日常表達(dá),通常以傳遞社會科學(xué)類的體育科技信息為主;將專業(yè)性較強(qiáng)的句群歸為專業(yè)語境文本類,此類句群用詞表達(dá)更為學(xué)術(shù)化,通常包含自然科學(xué)信息或是體育專業(yè)術(shù)語。
經(jīng)過分析、篩選,本研究最終確定測試句群共計(jì)120組。其中一般語境文本類60組,專業(yè)語境文本類60組。
2. 嚔翻譯處理
測試句群中的英文為測試源語言,中文為標(biāo)準(zhǔn)目標(biāo)語言,筆者將源語言句群一一輸入ChatGPT聊天界面與谷歌翻譯器中,下達(dá)翻譯指令,收集即時(shí)翻譯的譯文,記為測試目標(biāo)語言句群,共計(jì)120組。翻譯及收集過程中,筆者不會對輸出句群的字、詞、標(biāo)點(diǎn)、內(nèi)容等做任何修改。
二、譯本評測
翻譯是一種促進(jìn)溝通交流的語言轉(zhuǎn)換行為,因此想要對譯文進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化的評判較為困難。即使是同一譯本,在不同的時(shí)間、情境下,由不同身份的表述者傳遞,所產(chǎn)生的語言效度也可能千差萬別。因此,本研究將不同語境下譯本的忠實(shí)度、流暢度視為評判其效度的主要因素,譯本的忠實(shí)度、流暢度越高,說明其翻譯效度越強(qiáng)。
為了盡量確保測試結(jié)果的客觀性,筆者會采取兩種評測標(biāo)準(zhǔn)對120組目標(biāo)語言句群進(jìn)行效度評測:人工評測及自動評測。筆者將收集的120組測試目標(biāo)語言與120組標(biāo)準(zhǔn)目標(biāo)語言一一進(jìn)行比對,并采用計(jì)算效度得分的方式,從多角度對ChatGPT翻譯功能及谷歌翻譯器的翻譯效度進(jìn)行對比評測,力求量化測評結(jié)果。
(一)人工評測
人工評測是一種個(gè)人主觀評價(jià)翻譯文本的行為,其優(yōu)勢是更加智能化,在對表達(dá)方式的合理性、信息傳遞的有效性等方面的評價(jià)更加細(xì)致靈活。人工評測不足之處在于不同評價(jià)者對于同一譯本的評價(jià)可能存在一定差異。為了盡量減少因個(gè)人因素而造成的結(jié)果誤差,本研究在人工評測部分引入了兩大類得分細(xì)則,要求同一評測者分別為同一譯本的效度進(jìn)行忠實(shí)度及流暢度兩方面的評價(jià)。具體評測標(biāo)準(zhǔn)如下表1和表2所示。
基于以上兩類評分細(xì)則,筆者對120組測試目標(biāo)語言分別進(jìn)行人工評分計(jì)算:
Ph=(f+t)/2
(其中Ph為人工評測綜合得分,f為人工評測忠實(shí)度得分,t為人工評測流暢度得分)
(二)自動評測
自動評測相較于人工評測更具有客觀性,但就評測靈活性而言稍有欠缺。本研究中的自動評測部分采用雙語互譯質(zhì)量評估輔助工具(Bilingual Evaluation Understudy,縮寫為BLEU)的基本算法作為評分標(biāo)準(zhǔn),
該方法是2002年美國國家標(biāo)準(zhǔn)與技術(shù)研究所采納
國際商業(yè)機(jī)器公司(International Business Machines "Corporation,縮寫為IBM)提出的基于詞的N元模型的評價(jià)方法。
本文通過對比標(biāo)準(zhǔn)目標(biāo)語言與測試目標(biāo)語言中的共現(xiàn)詞頻率,選取BLEU算法多元精度標(biāo)準(zhǔn)(N-gram)中一元組(Uni-gram)與二元組(Bi-gram)的得分均值作為測試目標(biāo)語言自動評測的最終得分,具體算法如下。
一元組BLEU得分算法:
其中,一元組算法以單字為單位,將測試目標(biāo)語言輸出的每一個(gè)字與標(biāo)準(zhǔn)目標(biāo)語言進(jìn)行逐一比對,從而進(jìn)一步計(jì)算測試目標(biāo)語言與標(biāo)準(zhǔn)目標(biāo)語言的單字匹配比率。一元組算法可較為客觀地評測譯文的精確度,與人工評測中的忠實(shí)度具有一定的關(guān)聯(lián)性。
二元組算法以相鄰兩個(gè)單字組成的詞組為單位,將測試目標(biāo)語言輸出的每一個(gè)詞組與標(biāo)準(zhǔn)目標(biāo)語言進(jìn)行逐一比對,從而進(jìn)一步計(jì)算測試目標(biāo)語言與標(biāo)準(zhǔn)目標(biāo)語言的詞組匹配比率。二元組算法可較為客觀地評測譯文的可讀性,與人工評測中的流暢度相呼應(yīng)。
基于一元組和二元組算法,筆者對120組測試目標(biāo)語言分別進(jìn)行自動評分計(jì)算:
Pa=(P1+P2)/2
(其中Pa為自動評測綜合得分,P1為一元組得分,P2為二元組得分)
(三)綜合效度評測
基于人工評測和自動評測法,對120組測試目標(biāo)語言分別進(jìn)行綜合效度P評分計(jì)算:
P=(Ph+Pa)/2
三、評測結(jié)果
(一)綜合效度評測結(jié)果
基于以上評測方法,表3為ChatGPT翻譯功能與谷歌翻譯器在體育科技英語文本背景下的總體翻譯效度量化數(shù)據(jù)。
(二)專業(yè)語境中效度評測結(jié)果
基于對60組專業(yè)語境文本句群的譯文評測,研究得出在體育科技英語專業(yè)語境中,ChatGPT翻譯功能與谷歌翻譯器的翻譯效度量化數(shù)據(jù)(見表4)。
(三)一般語境中效度評測結(jié)果
基于對60組一般語境文本句群的譯文評測,研究得出在體育科技英語一般語境中,ChatGPT翻譯功能與谷歌翻譯器的翻譯效度量化數(shù)據(jù)(見表5)。
(四)宏觀測評結(jié)果
基于以上評測結(jié)果,筆者將分值0.60定義為“合格”,記為“Q(Qualified)”;將分值在0.60以下定義為“不合格”,記為“F(Failed)”;可得出表6中的宏觀測評結(jié)果。
四、分析與結(jié)論
(一)評測結(jié)果分析
從對120組體育科技英語相關(guān)句群的研究測評數(shù)據(jù)來看,在翻譯效度綜合分值、專業(yè)語境中分值以及一般語境中分值等方面,無論是以人工、自動還是總體作為評分標(biāo)準(zhǔn),ChatGPT翻譯功能均占有一定優(yōu)勢。其中,在專業(yè)語境翻譯的輸出表現(xiàn)方面,ChatGPT翻譯效度優(yōu)勢更為明顯;在一般語境翻譯的輸出表現(xiàn)方面,兩者的差距稍有縮小。從宏觀測評結(jié)果來看,ChatGPT翻譯的表現(xiàn)明顯優(yōu)于谷歌翻譯器,前者在綜合效度、專業(yè)語境效度、一般語境效度的人工評測結(jié)果中均為合格,且綜合測評結(jié)果也為合格;而后者并未產(chǎn)生任何合格項(xiàng)目。
1. 嚔人工評測效度與自動評測效度對比分析
在對語句進(jìn)行逐一比對核算時(shí),本研究發(fā)現(xiàn),無論是在綜合還是在特定語境下,對120個(gè)檢測句群的人工評分大多高于自動評分,如句群18“There will be medical rooms in MMC and the IOC Headquarters Hotel to provide medical services needed by the media, members of the Olympic Family, and staff”。標(biāo)準(zhǔn)目標(biāo)語言為“主媒體中心、國際奧委會賓館設(shè)醫(yī)療室,負(fù)責(zé)為媒體、奧林匹克大家庭成員和工作人員等提供合適的醫(yī)療服務(wù)”。谷歌翻譯器給出的譯文為“MMC和IOC總部酒店將設(shè)有醫(yī)療室,以提供媒體,奧林匹克大家庭成員和員工所需的醫(yī)療服務(wù)”。ChatGPT給出的譯文為“在主媒體中心(MMC)和國際奧委會總部酒店將設(shè)有醫(yī)務(wù)室,為媒體、奧林匹克家庭成員和工作人員提供所需的醫(yī)療服務(wù)”。
在此句群評測中,
兩類翻譯器在人工評測結(jié)果中均表現(xiàn)合格,而在自動評測結(jié)果中兩類均不合格。造成如此差異的原因一定程度上是由于在人工參與評測時(shí),能夠識別相關(guān)的同義、近義詞,更加注重句子的整體表達(dá)以及信息傳達(dá)的有效性,因而即使與標(biāo)準(zhǔn)目標(biāo)語言的結(jié)構(gòu)、用詞略有差別,人工測評也能夠相對靈活地進(jìn)行評分;而在自動測評中,評測結(jié)果完全按照BLEU算法機(jī)械識別標(biāo)準(zhǔn)目標(biāo)語言與測試目標(biāo)語言的精準(zhǔn)匹配率,而不能對可以傳達(dá)源語言信息的同義詞或是相似結(jié)構(gòu)進(jìn)行識別。因此,兩類翻譯器的人工評測得分明顯高于自動評測得分。然而在少部分句群中,也出現(xiàn)了自動評分高于人工評分的現(xiàn)象。按照BLEU算法中一元組、二元組進(jìn)行計(jì)算時(shí),測試目標(biāo)語言的單詞、詞組得到了精準(zhǔn)匹配,但由于詞序顛倒或是句法結(jié)構(gòu)錯(cuò)誤等問題,目標(biāo)語言并不能忠實(shí)、流暢地傳達(dá)源語言信息,因此在人工評分時(shí),相應(yīng)分?jǐn)?shù)自然較低。
2. 嚔專業(yè)語境與一般語境評測效度對比分析
從測評數(shù)據(jù)可以明顯看出,兩類翻譯器在進(jìn)行體育科技英語類文本翻譯時(shí),對一般語境下的源語翻譯效度明顯高于專業(yè)語境中的效度。其中,ChatGPT翻譯一般語境的效度甚至達(dá)到了在所有測評標(biāo)準(zhǔn)下全部合格的佳績。但在專業(yè)語境中,兩者的翻譯效度均不甚理想。例如句群37“Putting a net in the middle of court, the bladder was to be a ball, pushing it over here to there, not allowed to fall it onto the ground”。標(biāo)準(zhǔn)目標(biāo)語言為“在場地中間掛一張網(wǎng),利用球膽當(dāng)球,在網(wǎng)上托來托去,不讓球落地”。谷歌翻譯器給出的譯文為“把球放在球場中間,膀胱是一個(gè)球,把它推到那里,不允許它落到地上”。而ChatGPT翻譯給出的譯文為“在球場中央放置了一張網(wǎng),使用的是一個(gè)充氣球作為球,將球從這里推到那里,不允許它落到地面上”。
在此句群評測中,谷歌翻譯器人工評測得分為0分,譯文完全無法傳達(dá)源語言信息,甚至完全曲解句群含義,ChatGPT也僅獲得0.2的低分。而自動評測得分中,谷歌翻譯器和ChatGPT也分別獲得了0.19和0.23的低分。在此句群中,“bladder”是傳達(dá)句意的關(guān)鍵詞。在體育科技英語的專業(yè)語境中,“bladder”一詞意為“球膽”。從測試目標(biāo)語言中可以看出,谷歌將“bladder”一詞譯為其常見義“膀胱”,導(dǎo)致整句句意全錯(cuò)。造成此類錯(cuò)譯的原因很大程度上與谷歌翻譯器的翻譯原理有關(guān)。由于其為基于統(tǒng)計(jì)的語料庫翻譯系統(tǒng),在語料庫的存儲容量上,一般語境語料遠(yuǎn)遠(yuǎn)超過專業(yè)語境語料。因此在
翻譯處理
體育科技英語等專業(yè)類文本時(shí),由于相應(yīng)語料庫素材的限制,翻譯器很大程度上會優(yōu)先在一般語境語料庫中進(jìn)行范本查找比對,并從中抽取譯文,從而導(dǎo)致無法正確翻譯專業(yè)術(shù)語,造成歧義或重大錯(cuò)誤。而ChatGPT在翻譯過程中,盡管依靠自身語料學(xué)習(xí)能力,已經(jīng)能將“bladder”一詞譯為與上下文較為貼合的“球類”,但就準(zhǔn)確性而言,依然存在較為嚴(yán)重的語義損耗,加之后文“從這里推到那里”,使體育英語的專業(yè)表達(dá)無從體現(xiàn),嚴(yán)重影響語言的傳遞與理解,違背源語、目標(biāo)語力求“動態(tài)對等”的翻譯初衷。
(二)研究結(jié)論
經(jīng)過對120組體育科技英語測試句群的全面評測、分析研究,可以看出,在翻譯體育科技英語文本時(shí),ChatGPT翻譯效度整體優(yōu)于谷歌翻譯器的效度。兩類翻譯器在翻譯一般語境下的體育科技類文本時(shí),翻譯效度均優(yōu)于專業(yè)語境下的體育科技類文本翻譯效度,但相比而言,ChatGPT翻譯的表現(xiàn)仍略勝一籌。
在宏觀評測中,ChatGPT和谷歌翻譯器均有不合格項(xiàng)目,且谷歌翻譯器數(shù)量居多。但并不意味著這兩類翻譯器不是合格的計(jì)算機(jī)輔助翻譯工具,而是客觀說明了在進(jìn)行體育科技文本類型的翻譯時(shí),單獨(dú)依靠計(jì)算機(jī)翻譯處理譯文的效度并不十分理想,需要進(jìn)一步進(jìn)行人工校對和修訂。[5]
(三)研究局限
在對ChatGPT及谷歌兩類翻譯器進(jìn)行翻譯效度對比分析時(shí),本研究存在著一定的局限性。首先,由于體育科技英語涵蓋范圍廣、專業(yè)性強(qiáng),本研究在測試文本類型和樣本量的選擇上具有一定的局限性。其次,在測評方式上,自動測評中利用了BLEU算法多元精度中最為基礎(chǔ)的一元組和二元組算法,而忽略了長度懲罰因子等方面因素,一定程度上可能造成測評結(jié)果的誤差。再次,人工測評參與者的數(shù)量也可能影響測評結(jié)果。
因此,之后的研究者在對此進(jìn)行進(jìn)一步深入研究時(shí),應(yīng)盡量克服以上限制條件對測評的干擾,以確保測評結(jié)果更加客觀精確。
參考文獻(xiàn)
[1]文旭,田亞靈.ChatGPT應(yīng)用于中國特色話語翻譯的有效性研究[J].上海翻譯,2024(2):27-34,94-95.
[2]薛健.ChatGPT對人工智能輔助翻譯的影響[J].英語廣場,2024(6):27-30.
[3]顧文昊,冷冰冰.ChatGPT在科技翻譯應(yīng)用中的四種術(shù)語誤譯類型——以機(jī)械工程術(shù)語為例[J].中國科技翻譯,2024(1):24-27.
[4]閻姍.多種翻譯工具在科技英語翻譯中的運(yùn)用[D].上海:上海外國語大學(xué),2012.
[5]莊小萍.論機(jī)器翻譯與人工翻譯的結(jié)合[J].宜賓學(xué)院學(xué)報(bào),2007(8):97-99.