侯鈺濤,阿布都克力木·阿布力孜,史亞慶,馬依拉木·木斯得克,哈里旦木·阿布都克里木
(新疆財(cái)經(jīng)大學(xué)信息管理學(xué)院,新疆 烏魯木齊 830012)
截至2023年6月,中國已經(jīng)同152個(gè)國家和32個(gè)國際組織簽署200余份共建“一帶一路”合作文件?!耙粠б宦贰毙枰Z言鋪路[1]。然而,語言多樣性和稀缺性所產(chǎn)生的語言障礙問題被看作是妨礙各國之間深層次交流的主要挑戰(zhàn)之一。自然語言處理(NLP)技術(shù)是推進(jìn)文化交流的重要手段,借助NLP技術(shù)研究語言障礙問題為我國“一帶一路”倡議的深度實(shí)施和廣泛推廣提供了重要的技術(shù)支持。
機(jī)器翻譯(MT)是NLP領(lǐng)域重要的研究內(nèi)容,也被看作是突破語言障礙的“金鑰匙”。VASWANI等[2]提出基于自注意力機(jī)制的Transformer模型,從而引領(lǐng)神經(jīng)機(jī)器翻譯(NMT)步入高速發(fā)展階段。NMT模型的訓(xùn)練通常需要大量的雙語平行語料,然而,對(duì)于大多數(shù)語言,獲取高質(zhì)量的雙語數(shù)據(jù)是極其困難的。據(jù)調(diào)研,世界上97%以上的語言都是無資源或者是資源稀缺的語言[3],這無疑為NMT模型的訓(xùn)練和優(yōu)化帶來巨大的挑戰(zhàn)。目前,機(jī)器翻譯任務(wù)正經(jīng)歷著巨大變革,多語言預(yù)訓(xùn)練模型技術(shù)發(fā)展迅速,并在機(jī)器翻譯任務(wù)中取得了重大突破。2022年底,以ChatGPT模型為代表的大語言模型(LLM)在NLP領(lǐng)域中取得了顯著進(jìn)步,同時(shí)也為低資源語言機(jī)器翻譯研究提供了新的可能性,極大地緩解了數(shù)據(jù)稀缺所帶來的挑戰(zhàn)。
“一帶一路”倡議沿線國家眾多,涵蓋了多種語言。受資源的限制,本文采用CCMT2023提供的4種“一帶一路”低資源語言(越南語、老撾語、蒙語以及捷克語)作為研究對(duì)象,以深入探究其與漢語之間的翻譯能力。本文在低資源語言上應(yīng)用一種多語言預(yù)訓(xùn)練模型NLLB,該模型是在200多種語言的數(shù)據(jù)集上訓(xùn)練而成。在低資源語言數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)的方法已被證明比從頭開始訓(xùn)練效果更好[4]。在此基礎(chǔ)上,本文提出一種基于NLLB模型改進(jìn)的低資源語言機(jī)器翻譯訓(xùn)練方法,該方法主要在數(shù)據(jù)增強(qiáng)的基礎(chǔ)上,對(duì)損失函數(shù)進(jìn)行優(yōu)化,從而有效提高低資源語言的機(jī)器翻譯效果。此外,本文使用LLM模型初步探索其在低資源語言機(jī)器翻譯上的性能,主要使用ChatGPT以及ChatGLM[5]模型分別評(píng)估老撾語-漢語以及越南語-漢語的翻譯能力。
隨著NMT技術(shù)的發(fā)展,以Transformer為代表的神經(jīng)網(wǎng)絡(luò)模型逐漸被應(yīng)用到低資源語言的機(jī)器翻譯任務(wù)中[6-9]。2018年,以BERT和GPT為代表的預(yù)訓(xùn)練模型引領(lǐng)機(jī)器翻譯領(lǐng)域逐漸進(jìn)入預(yù)訓(xùn)練模型時(shí)代,出現(xiàn)許多將預(yù)訓(xùn)練模型應(yīng)用到機(jī)器翻譯任務(wù)中的工作,其研究主要分為2個(gè)方面:1)將預(yù)訓(xùn)練模型與NMT模型結(jié)合討論[10-12];2)專門構(gòu)建端到端的機(jī)器翻譯模型[13-15]。由于語料資源的稀缺,NMT模型的訓(xùn)練受到限制,因此無法獲得足夠的訓(xùn)練數(shù)據(jù)以實(shí)現(xiàn)更優(yōu)的翻譯性能。為了應(yīng)對(duì)這一挑戰(zhàn),大多數(shù)研究者采用各種數(shù)據(jù)增強(qiáng)技術(shù)以解決低資源語言數(shù)據(jù)不足的問題,從而提高翻譯質(zhì)量和性能[16]。其中,被研究者廣泛使用的方法是反向翻譯(BT)技術(shù),然而,僅使用反向翻譯技術(shù)生成的偽平行語料庫質(zhì)量往往不佳。因此,反向翻譯通常與其他技術(shù)(模型集成、模型融合、知識(shí)蒸餾及低頻詞替換等方法)結(jié)合使用[17-22]。此外,部分學(xué)者開始嘗試?yán)枚嗾Z言預(yù)訓(xùn)練模型來緩解低資源語言語料稀缺的問題[23-25],借助多語言預(yù)訓(xùn)練模型中所包含豐富的語言學(xué)知識(shí),從而遷移到低資源語言翻譯過程中。因此,在處理語料資源稀缺的低資源語言時(shí),多語言預(yù)訓(xùn)練模型仍然能夠顯示出優(yōu)秀的翻譯性能。
“一帶一路”倡議中大多數(shù)國家的語言都屬于低資源語言,研究相對(duì)較少,令人欣喜的是2022年Meta AI團(tuán)隊(duì)[26]提出了支持202種語言之間任意互譯的大規(guī)模多語言機(jī)器翻譯模型NLLB。202種語言中包含部分“一帶一路”上的低資源語言,為低資源語言機(jī)器翻譯研究帶來了巨大突破,然而該模型在本文所研究的語言對(duì)上的翻譯效果還有待進(jìn)一步提高。此外,他們創(chuàng)建了1個(gè)多語言數(shù)據(jù)集FLORES-200,該數(shù)據(jù)集允許衡量任意方向的翻譯性能,為構(gòu)建通用機(jī)器翻譯模型奠定了堅(jiān)實(shí)的基礎(chǔ)。
隨著模型參數(shù)量的不斷增大,LLM逐漸顯露出小型模型中不具有的能力,被稱為涌現(xiàn)能力[27]。同時(shí)LLM在機(jī)器翻譯領(lǐng)域表現(xiàn)出驚人的能力,其原因可能是大規(guī)模訓(xùn)練數(shù)據(jù)中存在的偶然雙語性使得LLM具備翻譯能力[28]。LLM在機(jī)器翻譯任務(wù)中的分析工作主要從Prompt的選擇[29]、任務(wù)信息、領(lǐng)域信息、參數(shù)設(shè)置[30-31]等方面進(jìn)行考慮。通過上下文學(xué)習(xí)(ICL)[32-33]、融入詞性(POS)[31]以及結(jié)合翻譯記憶[34]等方法進(jìn)一步研究LLM在多語言、多領(lǐng)域、少樣本中的翻譯能力。PENG等[30]提出2種提示策略:任務(wù)特定提示(TSP)和領(lǐng)域特定提示(DSP),并簡單分析了ChatGPT使用ICL和思維鏈(CoT)方法在機(jī)器翻譯任務(wù)上的有效性。CoT方法已被證明在激發(fā)LLM方面的推理能力是有效的[35],而且可以提高ChatGPT在自然語言理解任務(wù)中的性能[36]。然而,研究人員發(fā)現(xiàn),將CoT方法應(yīng)用到機(jī)器翻譯中會(huì)出現(xiàn)逐字翻譯的現(xiàn)象,導(dǎo)致翻譯能力退化。目前,使用CoT方法在機(jī)器翻譯中的研究尚未得到充分的探索。TAN等[37]在mGPT模型基礎(chǔ)上研究不同的Prompt策略對(duì)翻譯的影響,并提出MSP(Multi-Stage Prompting)方法來緩解預(yù)訓(xùn)練和翻譯之間的差距。此外,JIAO等[38]針對(duì)遠(yuǎn)距離語言提出一種基于樞軸語言的提示方法?,F(xiàn)有研究大多針對(duì)高資源或者較為常用的幾種低資源語言,未來將進(jìn)一步探究LLM在“一帶一路”低資源語言的翻譯能力。
為提高低資源語言機(jī)器翻譯的效果,本文通過2種方法來探索低資源語言機(jī)器翻譯的能力。第1種是基于NLLB模型改進(jìn)的方法,底層模型選用NLLB-200-distilled-600M模型,翻譯過程主要分為2個(gè)階段,首先在CCMT 2023提供的數(shù)據(jù)基礎(chǔ)上使用反向翻譯技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng),然后使用NLLB模型對(duì)合成數(shù)據(jù)進(jìn)一步微調(diào),考慮到合成數(shù)據(jù)集中存在一定的噪聲數(shù)據(jù),本文使用HUANG等[39]提出的不完全信任(In-trust)損失函數(shù)進(jìn)行優(yōu)化,該損失函數(shù)可以防止模型在訓(xùn)練過程中過度擬合噪聲數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,該方法可以有效提高低資源語言的翻譯效果。第2種是使用LLM模型初步評(píng)估低資源語言的翻譯結(jié)果,該方法分為2種類型:1)ChatGPT模型使用ICL和CoT方法對(duì)越南語-漢語以及老撾語-漢語的翻譯任務(wù)進(jìn)行直接評(píng)估;2)使用基于LoRA的ChatGLM模型對(duì)越南語-漢語的翻譯任務(wù)進(jìn)行高效微調(diào)。
2.1.1 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)是對(duì)原有訓(xùn)練語料庫進(jìn)行擴(kuò)充或修改的一種方法。機(jī)器翻譯領(lǐng)域中經(jīng)典的數(shù)據(jù)增強(qiáng)方法是反向翻譯技術(shù),如圖1所示。該方法是由SENNRICH等[40]提出的,一種利用單語數(shù)據(jù)對(duì)原有訓(xùn)練語料庫進(jìn)行擴(kuò)充或修改的方法。反向翻譯的核心思想主要有:1)在真實(shí)平行語料庫上訓(xùn)練1個(gè)反向翻譯模型(目標(biāo)語言-源語言);2)利用第1步訓(xùn)練好的反向翻譯模型在單語語料(目標(biāo)語言)上訓(xùn)練生成偽源語言,得到偽平行語料庫(偽源語言-額外源目標(biāo)語言);3)將生成的偽平行語料庫和真實(shí)的平行語料庫混合,訓(xùn)練最終正向翻譯模型(源語言-目標(biāo)語言)。
圖1 反向翻譯Fig.1 Back translation
2.1.2 NLLB模型
NLLB模型[26]主體架構(gòu)是在Pre-LN結(jié)構(gòu)的Transformer模型基礎(chǔ)上融入稀疏門控混合專家(MoE)模塊。圖2所示為Transformer Encoder融入MoE結(jié)構(gòu)示意圖,解碼器修改也類似。MoE是一種條件計(jì)算模型,通過門控機(jī)制激活部分神經(jīng)網(wǎng)絡(luò)參數(shù),而不是所有參數(shù),以此來提高模型計(jì)算效率,同時(shí)也是一種擴(kuò)大模型規(guī)模的方法。NLLB模型將原始Transformer模型編碼器和解碼器中的單個(gè)前饋神經(jīng)網(wǎng)絡(luò)(FFN)模塊替換為e個(gè)FFN模塊(FFN1,FFN2,… ,FFNe),FFN模塊表示專家模塊,通過MoE門控機(jī)制計(jì)算輸入文本進(jìn)入不同專家模塊的概率,決定前K個(gè)專家模塊進(jìn)行工作。具體計(jì)算如式(1)~式(5)所示:
圖2 融入MoE層的Transformer Encoder 示意圖Fig.2 Schematic diagram of the Transformer Encoder integrated into the MoE layer
ReLU(x)=max(0,x)
(1)
(2)
Gt=Softmax(xt·Wg)
(3)
gt=Top_K_Gating(Gt)
(4)
(5)
然而,這種方法在低資源語言機(jī)器翻譯領(lǐng)域中的效果不佳,因此研究人員提出2種方法來解決該問題:1)EOM(Experts Output Masking)方法,該方法是對(duì)部分專家模塊的輸出進(jìn)行隨機(jī)掩碼,之后對(duì)多個(gè)專家模塊的輸出進(jìn)行加權(quán)求和,通過這種掩碼方法可以防止模型過多依賴某個(gè)專家模塊,提高模型的魯棒性;2)CMR(Conditional MoE Routing)方法,具體結(jié)構(gòu)對(duì)比見圖2,該方法設(shè)置了1個(gè)二進(jìn)制門控機(jī)制讓模型自行決定哪些Token進(jìn)行MoE訓(xùn)練。具體計(jì)算如式(6)和式(7)所示:
G(xt)=Sigmoid(xt,WCMR)
(6)
CCMR(xt)=
(1-G(xt))·FFFNshared(xt)·MMoE(xt)
(7)
其中:WCMR是CMR門控機(jī)制的權(quán)重矩陣,CMR分為共享密集的FFN子層(FFNshared)和具有不同專家模塊(FFNi)MoE子層(MMoE(xt))2個(gè)分支。
2.1.3 In-trust損失函數(shù)
由于低資源語言存在語料資源稀缺的問題,因此大部分研究均會(huì)進(jìn)行數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)。數(shù)據(jù)增強(qiáng)生成的偽數(shù)據(jù)質(zhì)量參差不齊,存在一定的噪聲數(shù)據(jù)。受LI等[23]的啟發(fā),本文使用In-trust損失函數(shù)代替以往的交叉熵?fù)p失函數(shù),幫助模型在存在噪聲的情況下進(jìn)行訓(xùn)練,防止模型過度擬合噪聲數(shù)據(jù)。In-trust損失函數(shù)如式(8)和式(9)所示:
LDCE=-tloga(δt+(1-δ)l)
(8)
LIn-trust=αLCE+βLDCE
(9)
其中:δ是超參數(shù),決定是否信任模型輸出;t表示翻譯模型的輸出;l表示真實(shí)的翻譯標(biāo)簽;當(dāng)δ較大時(shí),模型將更多地相信預(yù)測(cè)值,相反,模型將更信任真實(shí)標(biāo)簽;LCE表示交叉熵?fù)p失函數(shù);LDCE是一種加速度調(diào)節(jié)項(xiàng);α和β是超參數(shù);LIn-trust可以有效緩解噪聲數(shù)據(jù)的過擬合現(xiàn)象。
2.2.1 基于ChatGPT的模型
基于ChatGPT模型進(jìn)行低資源語言機(jī)器翻譯任務(wù)時(shí)主要使用ICL和CoT 2種方法。ICL是指無須對(duì)模型進(jìn)行參數(shù)調(diào)整,而是直接通過Prompt對(duì)下文進(jìn)行預(yù)測(cè)的過程,根據(jù)Prompt中示例的數(shù)量,ICL可以分為Zero-shot和Few-shot 2種類型。CoT是使用自然語言的表達(dá)形式,利用有邏輯的提示模型一步一步完成任務(wù)的推理,相較于ICL,該方法不是直接給出翻譯結(jié)果,而是預(yù)測(cè)翻譯的“思維過程”。CoT同樣分為Zero-shot和Few-shot進(jìn)行實(shí)驗(yàn)。簡單的CoT提示策略是在普通Prompt后加入“Let’s think step by step.”來實(shí)現(xiàn)翻譯過程的一步步推理。
2.2.2 基于LoRA微調(diào)的ChatGLM模型
鑒于ChatGPT模型無須微調(diào)即可進(jìn)行評(píng)估,本文進(jìn)一步探索微調(diào)LLM的機(jī)器翻譯方法。然而,隨著LLM參數(shù)量越來越大,在消費(fèi)級(jí)GPU(例如RTX 3090或4090)對(duì)模型進(jìn)行全部參數(shù)的微調(diào)變得難以負(fù)擔(dān)。近年來,研究者提出多種參數(shù)高效微調(diào)方法來解決上述問題。參數(shù)高效微調(diào)是指微調(diào)少量或額外的模型參數(shù),固定大部分預(yù)訓(xùn)練模型參數(shù),從而大幅降低計(jì)算和存儲(chǔ)成本,基于LoRA[41]微調(diào)的方法是對(duì)模型中的一部分參數(shù)進(jìn)行低秩適應(yīng),在凍結(jié)原模型參數(shù)的情況下,僅訓(xùn)練新添加的網(wǎng)絡(luò)層,有效提高模型的微調(diào)效率,節(jié)省顯存占用,同時(shí),也能實(shí)現(xiàn)與全參數(shù)量微調(diào)相當(dāng)?shù)男阅堋?/p>
本文采用CCMT 2023“一帶一路”低資源語言機(jī)器翻譯任務(wù)中提供的4種語言和漢語之間的平行語料作為訓(xùn)練數(shù)據(jù),采用FLORES-200 提供的驗(yàn)證和測(cè)試數(shù)據(jù)作為本實(shí)驗(yàn)的驗(yàn)證集和測(cè)試集。具體數(shù)據(jù)規(guī)模見表1,基于NLLB改進(jìn)的模型和ChatGLM模型的實(shí)驗(yàn)采用全部的實(shí)驗(yàn)數(shù)據(jù)完成,基于ChatGPT的實(shí)驗(yàn)隨機(jī)選擇FLORES-200測(cè)試數(shù)據(jù)集的100條數(shù)據(jù)。本實(shí)驗(yàn)僅是前期的簡單探索,未來將進(jìn)一步深入研究基于LLM的低資源語言機(jī)器翻譯任務(wù)。
表1 數(shù)據(jù)集信息Table 1 Datasets information 單位:個(gè)
為評(píng)估基于NLLB模型改進(jìn)方法的有效性,本實(shí)驗(yàn)選取了2個(gè)基線模型進(jìn)行對(duì)比:MBART和MT5。這2種模型與NLLB模型類似,同樣是序列到序列的多語言預(yù)訓(xùn)練模型。
MBART 模型[13]是1個(gè)基于BART預(yù)訓(xùn)練的跨語言序列到序列的降噪自編碼模型,其訓(xùn)練數(shù)據(jù)源自大規(guī)模多語言單語語料庫。在此模型中,輸入文本通過掩碼和句子置換的方式進(jìn)行噪聲化處理,然后利用預(yù)訓(xùn)練的自回歸模型在多語言環(huán)境的噪聲干擾下,實(shí)現(xiàn)完整文本的重構(gòu)。
MT5 模型[14]是T5模型的1個(gè)多語言版本,該模型在覆蓋101種語言的新數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,主要采取了T5模型的訓(xùn)練方法。預(yù)訓(xùn)練過程主要基于“跨度破壞”的掩碼語言模型目標(biāo),其中連續(xù)輸入的標(biāo)記被替換為掩碼標(biāo)記,然后訓(xùn)練模型以重建這些被掩碼的標(biāo)記。
本實(shí)驗(yàn)采用自動(dòng)評(píng)估方法,使用Sacrebleu工具包開源的BLEU[42]、chrF++[43]進(jìn)行評(píng)估,所有評(píng)估都區(qū)分大小寫,并使用基于字符的評(píng)估方法。
基于NLLB模型改進(jìn)方法的實(shí)驗(yàn)環(huán)境為Ubuntu20.04 的Linux操作系統(tǒng),GPU為RTX 3090,顯存為24 GB,內(nèi)存為43 GB,實(shí)驗(yàn)架構(gòu)基礎(chǔ)為PyTorch,編程語言為Python3.8,模型選擇Meta AI Research在Huggingface上開源NLLB-200-Distilled-600 M模型實(shí)現(xiàn)。實(shí)驗(yàn)參數(shù)設(shè)置如下:Transformer層數(shù)為12層,Batch_size設(shè)置為8,句子最大長度設(shè)置為128,優(yōu)化函數(shù)使用AdamW優(yōu)化算法,學(xué)習(xí)率設(shè)置為1×10-5,In-trust損失函數(shù)超參數(shù)設(shè)置為Alpha=1,Beta=0.8,Delta=0.5。
基于ChatGPT的機(jī)器翻譯任務(wù)主要通過調(diào)用GPT-3.5-Turbo模型的API完成,溫度參數(shù)設(shè)置為0,以確保生成結(jié)果的準(zhǔn)確性。在ICL和CoT實(shí)驗(yàn)中,Zero-shot實(shí)驗(yàn)主要評(píng)估不同模板對(duì)老撾語-漢語翻譯任務(wù)的影響,并選擇其中最好的模板進(jìn)行Few-shot實(shí)驗(yàn)。受ChatGPT模型最大Token數(shù)的限制,ICL的Few-shot實(shí)驗(yàn)最大進(jìn)行15-shot,CoT的Few-shot實(shí)驗(yàn)最大10-shot。
基于ChatGLM模型微調(diào)實(shí)驗(yàn)GPU為A40,顯存為48 GB,內(nèi)存為56 GB,模型選擇清華大學(xué)在Huggingface上開源的ChatGLM-6B模型實(shí)現(xiàn)。實(shí)驗(yàn)參數(shù)設(shè)置如下:Batch_size設(shè)置為8,Max_len設(shè)置為768,LoRA_r設(shè)置為8。
4.1.1 對(duì)比實(shí)驗(yàn)
本實(shí)驗(yàn)對(duì)比分析了MT5、MBART、NLLB模型以及本文使用的改進(jìn)方法在“一帶一路”低資源語言到漢語數(shù)據(jù)集上的翻譯能力。表2所示為BLEU和chrF++的評(píng)估結(jié)果,加粗表示最優(yōu)數(shù)據(jù)。此外,考慮到NLLB原始論文中54B版本的模型報(bào)告了他們的翻譯結(jié)果,且本文使用的測(cè)試數(shù)據(jù)集和評(píng)估指標(biāo)chrF++與原論文一致,具有一定的可比性。因此,表2中除基線模型實(shí)驗(yàn)對(duì)比以外,也說明了NLLB-54B參數(shù)量的模型在這4種語言對(duì)上的翻譯結(jié)果。
表2 4種低資源語言到漢語的翻譯結(jié)果Table 2 Translation results from four low-resource languages to Chinese
從表2可以看出,本文模型在4種低資源語言到漢語的翻譯任務(wù)中均取得了最佳結(jié)果,而且使用NLLB模型直接微調(diào)的翻譯效果優(yōu)于MBART-large和MT5-base模型,其原因?yàn)镹LLB模型是在包含大量低資源語言的數(shù)據(jù)集上訓(xùn)練而成,具有較強(qiáng)的語言遷移能力。從平均值來看,相較于直接微調(diào)的NLLB-600M模型,本文模型提升了1.33個(gè)BLEU值和0.82個(gè)chrF++值。此外,在蒙語、捷克語到漢語的翻譯任務(wù)上,本文方法僅以600×106參數(shù)量的模型超越了NLLB-54B參數(shù)量模型的翻譯結(jié)果,而且本文模型的翻譯效果與NLLB-54B參數(shù)量的模型效果相當(dāng)。因此,本文模型在低資源語言機(jī)器翻譯上具有一定的有效性。
4.1.2 消融實(shí)驗(yàn)
為驗(yàn)證本文模型的有效性,本實(shí)驗(yàn)在“一帶一路”4種低資源語言到漢語的翻譯任務(wù)上設(shè)置了2組消融實(shí)驗(yàn):只進(jìn)行損失函數(shù)的改進(jìn)和只融入數(shù)據(jù)增強(qiáng)的實(shí)驗(yàn)。數(shù)據(jù)增強(qiáng)部分首先訓(xùn)練反向翻譯模型,選擇20 萬條的漢語數(shù)據(jù)(此處選擇的是CCMT2023提供的漢語數(shù)據(jù)作為額外的目標(biāo)端單語數(shù)據(jù))生成對(duì)應(yīng)的偽數(shù)據(jù)(偽源語言),之后在合成的數(shù)據(jù)集(偽源語言-額外目標(biāo)語言)上進(jìn)行訓(xùn)練。表3給出了消融實(shí)驗(yàn)的結(jié)果,其中-In-trust loss表示去掉改進(jìn)的損失函數(shù),只進(jìn)行數(shù)據(jù)增強(qiáng)的方法,-DA表示去掉數(shù)據(jù)增強(qiáng)部分,只進(jìn)行In-trust損失函數(shù)的方法。從表3可以看出,去掉這2種任何一種方法,均會(huì)導(dǎo)致翻譯效果變差,而且在沒有額外數(shù)據(jù)增強(qiáng)的情況下,模型在訓(xùn)練期間可能仍然會(huì)接觸到一些噪聲數(shù)據(jù),In-trust損失函數(shù)仍有助于模型處理這些噪聲數(shù)據(jù),從而提高性能。因此,本文模型將數(shù)據(jù)增強(qiáng)技術(shù)與損失函數(shù)改進(jìn)相結(jié)合有效提高了低資源語言翻譯能力。
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiment results
4.1.3 實(shí)例分析
針對(duì)源語言“2013 онд Шарк Танк нэвтр??лэгт ороход шоуны ш??гчид т??ний стартапыг санх??ж??лэхээс татгалзсаны дараа борлуулалт нь нэмэгдсэн гэж Симинофф хэллээ.”,目標(biāo)語言“西米諾夫說,2013年他在《創(chuàng)智贏家》節(jié)目中露面后,公司的銷售額大增,當(dāng)時(shí)節(jié)目組拒絕向這家初創(chuàng)公司投資?!??;€模型與本文模型在蒙語-漢語方向的翻譯對(duì)比示例如表4所示,此外,表4中NLLB-54B給出了原論文提供的翻譯結(jié)果。
表4 不同模型的譯文示例Table 4 Translation examples among different models
從表4可以看出,本文模型學(xué)習(xí)到的源語言信息更多,雖然與目標(biāo)語言的排序有所變化,但并沒有改變?cè)?。針?duì)目標(biāo)語言中出現(xiàn)的人名“西米諾夫”,MT5模型的譯文完全沒有翻譯該詞;MBART模型的譯文翻譯成“辛諾夫”;NLLB-54B模型的譯文并沒有翻譯成漢語,而是用英文人名表示,出現(xiàn)此問題的原因是NLLB-54B模型中包含大量的英文語料,模型翻譯時(shí)可能不會(huì)翻譯成漢語,但學(xué)習(xí)到了如何翻譯成英文的情況。而本文模型翻譯為“司米諾夫”,雖然與目標(biāo)語言“西米諾夫”不完全一致,但是更接近目標(biāo)語言,而且通過在蒙語-漢語的雙語平行語料庫中查找,源語言的訓(xùn)練語料中并沒有“Симинофф”西米諾夫這一人名,本文模型通過訓(xùn)練后可得到較為正確的翻譯,可能有關(guān)該詞的知識(shí)是由NLLB-54B模型引入的。然而,所有模型均沒有翻譯出《創(chuàng)智贏家》這一節(jié)目名稱,原因是該節(jié)目名稱在訓(xùn)練語料中也沒有出現(xiàn)過,并且模型難以學(xué)習(xí)到這種復(fù)雜信息。以上實(shí)例表明,本文模型雖然存在一定的局限性,但相較于基線模型能生成更好的譯文。
4.2.1 ICL Zero-shot實(shí)驗(yàn)結(jié)果分析
為更好地激發(fā)ChatGPT模型在低資源語言上的翻譯潛力,本實(shí)驗(yàn)首先判斷3種不同的Prompt模板在老撾語-漢語Zero-shot的翻譯性能,如表5所示。
表5 不同Prompt模板的翻譯結(jié)果Table 5 Translation results among different Prompt templates
從表5可以看出,模板T3獲得最好的翻譯結(jié)果,在沒有其他任何翻譯示例的情況下,ChatGPT在老撾語-漢語上已具備一定的翻譯能力,但比本文模型低16.08個(gè)BLEU值和8.95個(gè)chrF++值。雖然ChatGPT沒有超越本文方法的翻譯結(jié)果,但是在沒有任一訓(xùn)練數(shù)據(jù)提示的情況下已經(jīng)取得了不錯(cuò)的翻譯效果。
此外,本實(shí)驗(yàn)使用T3模板評(píng)估ChatGPT模型在越南語-漢語上的翻譯結(jié)果,BLEU值為33.56,chrF++為21.73,與本文方法相比提高了9.28個(gè)BLEU值和3.12個(gè)chrF++值。由此可見ChatGPT模型在機(jī)器翻譯任務(wù)上具有強(qiáng)大能力,在高資源以及部分低資源語言上翻譯效果已超越傳統(tǒng)的NMT模型,然而在類似老撾語等極低資源且形態(tài)復(fù)雜的語言上,翻譯性能有待進(jìn)一步提高。
4.2.2 ICL Few-shot實(shí)驗(yàn)結(jié)果分析
本節(jié)選擇3種模板中的最好模板T3進(jìn)行后續(xù)的Few-shot實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見圖3。
圖3 ICL Few-shot實(shí)驗(yàn)結(jié)果Fig.3 Experimental results of ICL Few-shot
從圖3可以看出,隨著示例數(shù)的增加,翻譯效果整體呈現(xiàn)先升高后下降的趨勢(shì),在10-shot達(dá)到最佳效果。雖然BLEU值有所降低,但是chrF++值一直保持上升趨勢(shì),在Few-shot翻譯過程中,有時(shí)候會(huì)在輸出翻譯結(jié)果的同時(shí)輸出示例句子,因此需要手動(dòng)刪除多余的示例,確保輸出結(jié)果的準(zhǔn)確性。此外,隨著示例數(shù)的增多,模型可能更容易過度擬合,導(dǎo)致在Few-shot情況下出現(xiàn)性能下降。然而,在10-shot時(shí),模型能夠更好地利用示例信息,獲得更準(zhǔn)確的翻譯結(jié)果。因此,找到適當(dāng)?shù)氖纠龜?shù)量對(duì)于實(shí)現(xiàn)高質(zhì)量的Few-shot翻譯至關(guān)重要。
4.2.3 CoT Zero-shot實(shí)驗(yàn)結(jié)果分析
本實(shí)驗(yàn)將進(jìn)一步使用CoT方法深入探索ChatGPT模型的翻譯能力。本節(jié)選取了3種典型的CoT Prompt模板來評(píng)估ChatGPT的翻譯能力,實(shí)驗(yàn)結(jié)果見表6。
表6 不同CoT Prompt模板的翻譯結(jié)果Table 6 Translation results among different CoT Prompt templates
然而,從表6可以看出,CoT2取得最好結(jié)果,相較于ICL Zero-shot中的T3模板提升了1.19個(gè)BLEU值,然而在使用CoT方法翻譯的過程中,翻譯結(jié)果較為雜亂,存在部分翻譯結(jié)果不完整、直接輸出老撾語而不翻譯漢語或者翻譯成英語等多種問題,導(dǎo)致翻譯結(jié)果并不理想。因此在CoT Few-shot實(shí)驗(yàn)過程中,通過提供模板的示例來規(guī)范CoT的輸出結(jié)果。
4.2.4 CoT Few-shot實(shí)驗(yàn)結(jié)果分析
本節(jié)主要評(píng)估CoT2方法在Few-shot情況下對(duì)老撾語-漢語機(jī)器翻譯任務(wù)的影響。受CoT Zero-shot翻譯結(jié)果的啟發(fā)以及ChatGPT在英語上的響應(yīng)能力更加準(zhǔn)確,Few-shot示例主要分為3個(gè)部分完成:1)確定所翻譯文本屬于何種語言;2)將源語言翻譯成英語;3)將英語翻譯成漢語。此外,受ChatGPT模型最大Token數(shù)的限制,本節(jié)最多進(jìn)行10-shot的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見圖4。
圖4 CoT Few-shot實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of CoT Few-shot
從圖4可以看出,使用CoT方法進(jìn)一步提高了ChatGPT模型在老撾語-漢語的翻譯能力,而且通過模板示例的提示,模型輸出的翻譯結(jié)果明顯變得更為整潔,而且最高可提升1.24個(gè)BLEU值以及0.28個(gè)chrF++值。由于ChatGPT受最大Token的限制,因此只進(jìn)行了10-shot的翻譯實(shí)驗(yàn),翻譯性能整體呈上升趨勢(shì),說明ChatGPT模型在老撾語-漢語的翻譯能力有待進(jìn)一步提高。
4.2.5 基于LoRA微調(diào)的ChatGLM模型
上述基于ChatGPT模型并沒有進(jìn)行微調(diào)實(shí)驗(yàn),而是直接在Prompt指令下進(jìn)行翻譯任務(wù)的評(píng)估,為了進(jìn)一步了解微調(diào)LLM模型在低資源語言機(jī)器翻譯上的能力,本實(shí)驗(yàn)選取ChatGLM模型進(jìn)行實(shí)驗(yàn)。由于越南語-漢語在ChatGPT模型上表現(xiàn)優(yōu)異,因此本節(jié)主要使用ChatGLM模型評(píng)估其在越南語-漢語的翻譯能力。ChatGLM是1個(gè)開源的支持中英雙語的對(duì)話語言模型,在大量中文語料上訓(xùn)練而成,具備一定的漢語理解能力。鑒于直接微調(diào)ChatGLM模型所耗費(fèi)的資源巨大,本實(shí)驗(yàn)選取LoRA高效微調(diào)方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見圖5。
圖5 基于ChatGLM的越南語-漢語翻譯結(jié)果Fig.5 Vietnamese-Chinese translation results based on ChatGLM
從圖5可以看出,隨著運(yùn)行步數(shù)的不斷提高,翻譯效果也在同步提升。雖然性能仍有進(jìn)一步提高的可能,但是提升過于緩慢且運(yùn)行時(shí)間長,因此本實(shí)驗(yàn)只進(jìn)行了599 982步的運(yùn)行。此時(shí)使用ChatGLM翻譯效果比本文方法低了8.53個(gè)BLEU值以及7.27個(gè)chrF++值,可能的原因是ChatGLM雖然擁有一定的漢語理解能力,但是并沒有見過越南語或者類似語言,所以翻譯效果不佳。
此外,基于ChatGLM所耗費(fèi)的時(shí)間和計(jì)算成本均高于基于NLLB模型的改進(jìn)方法。本實(shí)驗(yàn)總計(jì)運(yùn)行599 982步,在單卡A40上運(yùn)行時(shí)長133 h左右。因此,即便使用高效微調(diào)LLM的方法也需要耗費(fèi)一定的資源和時(shí)間成本,仍需要探索更有效的適用于低資源語言機(jī)器翻譯的LLM微調(diào)方法。
低資源語言因語料稀缺導(dǎo)致翻譯性能不佳,本文使用多語言預(yù)訓(xùn)練模型以及LLM方法來分析其在低資源語言機(jī)器翻譯任務(wù)上的能力。該方法在數(shù)據(jù)增強(qiáng)的基礎(chǔ)上,對(duì)損失函數(shù)進(jìn)行優(yōu)化,旨在提升低資源語言的機(jī)器翻譯效果。實(shí)驗(yàn)結(jié)果表明,本文方法在低資源語言上具有較優(yōu)的翻譯性能。受資源的限制,本文研究尚存在一定局限性,在選擇越南語、老撾語、蒙語(西里爾)以及捷克語等4種語言時(shí),并未全面考慮其他低資源語言的通用性。后續(xù)將進(jìn)一步更有效地將LLM引入到低資源語言機(jī)器翻譯任務(wù)中,為解決低資源語言翻譯難題提供更具普適性的解決方案。