占思琦 徐志展 楊威 謝搶來
摘 要:神經(jīng)機器翻譯(NMT)在多個領(lǐng)域應(yīng)用中已取得顯著成效,在大規(guī)模語料庫上已充分論證其優(yōu)越性。然而,在語料庫資源不足的情形下,仍存在較大的改進空間。由于漢語-馬來語(漢-馬)平行語料的匱乏,直接導(dǎo)致了漢-馬機器翻譯的翻譯效果不佳。為解決漢-馬低資源機器翻譯不理想的問題,提出了一種基于深度編碼注意力和漸進式解凍的低資源神經(jīng)機器翻譯方法。首先,利用XLNet預(yù)訓(xùn)練模型重構(gòu)編碼器,在編碼器中使用了XLNet動態(tài)聚合模塊替代了傳統(tǒng)編碼層的輸出方式,有效彌補了低資源漢-馬語料匱乏的瓶頸;其次,在解碼器中使用并行交叉注意力模塊對傳統(tǒng)編碼-解碼注意力進行了改進,提升了源詞和目標詞的潛在關(guān)系的捕獲能力;最后,對提出模型采用漸進式解凍訓(xùn)練策略,最大化釋放了模型的性能。實驗結(jié)果表明,提出方法在小規(guī)模的漢-馬數(shù)據(jù)集上得到了顯著的性能提升,驗證了方法的有效性,對比其他的低資源NMT方法,所提方法結(jié)構(gòu)更為精簡,并改進了編碼器和解碼器,翻譯效果提升更加顯著,為應(yīng)對低資源機器翻譯提供了有效的策略與啟示。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò); 漢-馬機器翻譯; 低資源; 漸進式解凍; 預(yù)訓(xùn)練
中圖分類號:TP391?? 文獻標志碼:A
文章編號:1001-3695(2024)03-022-0799-06
doi:10.19734/j.issn.1001-3695.2023.08.0331
XLNet-Transformer optimization method for Chinese-Malay low-resource
neural machine translation based on deep coded attention
Zhan Siqia, Xu Zhizhana, Yang Weib, Xie Qianglaib
(a.College of Information Engineering, b.Big Data Laboratory of Collaborative Innovation Center, Jiangxi University of Technology, Nanchang 330098, China)
Abstract:Neural machine translation(NMT) has achieved remarkable results in applications in many fields, and it has fully demonstrated its superiority on large-scale corpora. However, there is still a huge room for improvement when there are insufficient corpus resources. The lack of a Chinese-Malay parallel corpus directly affects the translation effect of Chinese-Malay machine translation. In order to solve the problem of unsatisfactory Chinese-Malay low-resource machine translation, this paper proposed a low-resource neural machine translation method based on deep encoded attention and progressive unfreezing. Firstly, this method reconstructed the encoder using the XLNet pre-training model and replaced the output mode of the traditional encoding layer with the XLNet dynamic aggregation module in order to effectively compensate for the bottleneck caused by the lack of Chinese-Malay corpus. Secondly, it improved the traditional encoding-decoding attention by using a parallel cross-attention module in the decoder, which enhanced the ability to capture the potential relationship between the source word and the target word. Finally, it adopted a progressive unfreezing training strategy to maximize the release of the models perfor-mance. The experimental results demonstrate that the proposed method significantly improves the performance on a small-scale Chinese-Malay dataset, thus confirming its effectiveness. Compared with other low-resource NMT methods, this method had a simpler structure, and improved the encoder and decode, resulting in a more significant enhancement in the translation effect. The approach provides effective strategies and insights to cope with low-resource machine translation.
Key words:neural network; Chinese-Malay machine translation; low resource; progressive unfreezing; pre-training
0 引言
隨著“一帶一路”倡議的提出和中國-東盟自貿(mào)區(qū)的不斷發(fā)展,中國和東盟國家之間的經(jīng)貿(mào)及文化交流日益頻繁[1]。據(jù)統(tǒng)計,“一帶一路”沿線連接了64個國家和地區(qū),使用了約1/3的全球語言種類,包括許多小語種和方言[2]。由于這些語言的復(fù)雜性和多樣性,人工翻譯已經(jīng)無法滿足當(dāng)前規(guī)模巨大的翻譯需求,機器翻譯已成為自然語言處理(NLP)領(lǐng)域備受關(guān)注的研究領(lǐng)域。為了更好地支持漢語-馬來語的跨語言溝通和合作,小語種漢-馬機器翻譯技術(shù)變得尤為重要。
機器翻譯經(jīng)歷了從規(guī)則到統(tǒng)計再到深度學(xué)習(xí)的多次迭代,相對于傳統(tǒng)的基于規(guī)則或統(tǒng)計模型的機器翻譯方法,神經(jīng)機器翻譯模型具有更高的自適應(yīng)性、更強的上下文理解能力以及更高的翻譯質(zhì)量。當(dāng)前,基于神經(jīng)網(wǎng)絡(luò)的機器翻譯技術(shù)成為了機器翻譯領(lǐng)域的研究熱點。
NMT是一種數(shù)據(jù)驅(qū)動的機器翻譯方法,隨著訓(xùn)練數(shù)據(jù)規(guī)模的增大,通??梢垣@得更好的翻譯效果。然而,當(dāng)神經(jīng)機器翻譯模型的訓(xùn)練數(shù)據(jù)規(guī)模較小時,其翻譯效果并不佳,特別是對于一些資源稀缺型語言對(如漢語-馬來語)。由于缺乏充足的訓(xùn)練數(shù)據(jù),漢-馬神經(jīng)機器翻譯面臨著重大挑戰(zhàn),導(dǎo)致目前漢-馬機器翻譯的翻譯效果受到了很大的限制,所以,研究如何改進神經(jīng)機器翻譯技術(shù)以提高其在低資源場景下的翻譯效果是該領(lǐng)域亟待解決的問題之一。
基于此,針對低資源場景下的漢-馬神經(jīng)機器翻譯的譯文質(zhì)量不理想的問題,本文利用Transformer[3]和XLNet[4]預(yù)訓(xùn)練模型提出了一種基于深度編碼注意力(XLNet-Transformer)和漸進式解凍的神經(jīng)機器翻譯方法,該方法在少量漢-馬語料對(低資源)上表現(xiàn)出良好的性能。本文主要貢獻如下:a)提出使用XLNet重構(gòu)Transformer編碼器,在長距離依賴建模方面相對于傳統(tǒng)Transformer模型,能學(xué)習(xí)到源語句的更多依賴關(guān)系,同時使用了預(yù)訓(xùn)練權(quán)重初始化編碼器參數(shù),能明顯提升漢-馬低資源機器翻譯的性能;b)提出動態(tài)聚合XLNet編碼模塊,能動態(tài)聚合XLNet各個編碼層的編碼信息,充分捕獲到源語言文本各個層面的信息,從而為解碼器提供更豐富的編碼特征;c)提出并行交叉注意力模塊,能夠有效地學(xué)習(xí)上下文特征,從而捕捉到源句子和目標句子之間潛在的語義關(guān)聯(lián);d)提出“漸進式解凍”訓(xùn)練優(yōu)化策略,可以穩(wěn)定模型的訓(xùn)練過程,能更充分地整合源句子和目標句子的特征,提高了模型在編碼-解碼任務(wù)中的效果。
1 相關(guān)工作
機器翻譯已成為NLP備受關(guān)注的研究領(lǐng)域,然而在漢語-馬來語低資源神經(jīng)翻譯領(lǐng)域,由于缺乏足夠的訓(xùn)練數(shù)據(jù),漢-馬神經(jīng)機器翻譯模型的翻譯效果面臨嚴峻的挑戰(zhàn)。
當(dāng)前,漢語-馬來語低資源神經(jīng)機器翻譯領(lǐng)域所能夠依據(jù)的參考文獻相對匱乏,但是相對于其他語種低資源神經(jīng)機器翻譯方法卻積累了大量的研究成果與經(jīng)驗。文獻[5~8]通過實驗表明,相比傳統(tǒng)的基于大量平行語料訓(xùn)練的機器翻譯方法(如基于RNN[9]、CNN[10]和Transformer等結(jié)構(gòu)的神經(jīng)機器翻譯),基于預(yù)訓(xùn)練模型的低資源機器翻譯是一種有效且高效的方法。文獻[11,12]利用BERT[13]預(yù)訓(xùn)練模型對Transformer進行改進,實驗結(jié)果顯示這種新架構(gòu)比基線有明顯的提升。Wang等人[14]提出SimCSE和注意力學(xué)習(xí)句子嵌入和相應(yīng)詞嵌入的關(guān)系,在低資源語料對的實驗表明了該方法的可行性。Guo等人[15]通過將源語言和目標語言領(lǐng)域的兩個預(yù)訓(xùn)練BERT模型集成到一個序列到序列模型中,提出的模型在實驗結(jié)果中明顯優(yōu)于基線模型。文獻[16,17]利用不同組合的BERT和GPT[18]改進編碼器和解碼器,實驗結(jié)果表現(xiàn)出良好的翻譯效果。文獻[19,20]利用BERT分別融合到編碼器和解碼器的特征表示,結(jié)果顯示均能顯著提升翻譯性能,表明了預(yù)訓(xùn)練模型獲取知識表示的有效性。文獻[21,22]利用BERT和階段優(yōu)化策略逐步解凍網(wǎng)絡(luò),驗證了預(yù)訓(xùn)練結(jié)合分步訓(xùn)練的有效性。文獻[23~26]利用XLNet預(yù)訓(xùn)練模型在各種NLP單語言任務(wù)中獲得了良好的表現(xiàn),但XLNet應(yīng)用在NMT的研究相對匱乏。
以上工作為本文研究如何改善漢-馬低資源機器翻譯性能不佳的現(xiàn)狀提供了理論和實驗基礎(chǔ)?;诖耍疚奶岢隽艘环N基于深度編碼注意力和“漸進式解凍”的漢-馬低資源神經(jīng)機器翻譯方法,采用性能優(yōu)于BERT的XLNet預(yù)訓(xùn)練模型,模型性能明顯優(yōu)于文獻[22]提出的低資源NMT方法。相較于文獻[19,20]的方法,本文方法的結(jié)構(gòu)更為精簡,并改進了編碼器和解碼器,翻譯的性能也得到了提升,最終的實驗驗證了本文方法在提升漢-馬低資源神經(jīng)機器翻譯質(zhì)量方面的有效性。
2 基于深度編碼注意力和漸進式解凍的XLNet-Transformer神經(jīng)機器翻譯方法
本文提出的XLNet-Transformer模型的整體架構(gòu)如圖1所示,從圖中可以直觀地理解本文方法的結(jié)構(gòu)和各個組件之間的關(guān)系。模型由XLNet完全重構(gòu)Transformer編碼器的六層堆疊,利用XLNet編碼器直接對源語言句子進行編碼,使得模型相對于傳統(tǒng)Transformer可以更好地捕捉源語言文本的信息,提高了其對輸入文本的表示能力。為了充分地利用XLNet模型中不同編碼層的特征,通過編碼動態(tài)聚合模塊有效地將各編碼層的深度編碼特征信息聚合,增強模型的表征能力。同時,在解碼器中,將第二個注意力子層改進為并行交叉注意力模塊,模型能夠更加關(guān)注源語言句子的上下文信息,從而更準確地捕捉句子的語義。本文模型的偽代碼如算法1所示。
3.4 不同學(xué)習(xí)率對本文模型的影響
本文提出的XLNet-Transformer模型在不同學(xué)習(xí)率下直接微調(diào)的對比結(jié)果如表4所示,粗體值表示最佳結(jié)果,#表示模型epoch數(shù)。
從實驗結(jié)果可以看出,直接采用XLNet默認的動態(tài)學(xué)習(xí)率進行訓(xùn)練,BLEU為0,這反映了動態(tài)學(xué)習(xí)率在當(dāng)前情景下未能充分發(fā)揮作用,由此對XLNet-Transformer模型的收斂性造成了限制。當(dāng)學(xué)習(xí)率為5×10-5時,BLEU分數(shù)在第70個epoch達到最優(yōu)23.92,自此之后,提高學(xué)習(xí)率反而導(dǎo)致分數(shù)下降。當(dāng)學(xué)習(xí)率為1.5×10-4之后,學(xué)習(xí)率過大導(dǎo)致模型發(fā)生了梯度爆炸現(xiàn)象,模型無法收斂;設(shè)置學(xué)習(xí)率為1×10-5時,模型的BLEU分數(shù)比學(xué)習(xí)率為5×10-5時低6.80,說明學(xué)習(xí)率過小可能使模型發(fā)生局部最優(yōu)和過擬合的現(xiàn)象,進而導(dǎo)致模型翻譯質(zhì)量下降。因此,給予合適的學(xué)習(xí)率時,直接微調(diào)模型也可以得到較理想的翻譯性能。故在后續(xù)實驗中,將本文模型在未采用漸進式解凍策略訓(xùn)練的學(xué)習(xí)率默認設(shè)置為5×10-5。
3.5 漢-馬低資源神經(jīng)機器翻譯的對比實驗
為了驗證本文方法的有效性,進行了如表5所示的模型方法對比實驗,表中“+、-”表示相對于傳統(tǒng)Transformer模型的BLEU差值,粗體值表示最佳結(jié)果。其中:
a)XLNet-Decoder,本文提出的編碼器完全由XLNet(12-layer,768-hidden,12-heads)模型重構(gòu),解碼器為Transformer結(jié)構(gòu)的參照模型。
b)BERT-Encoder[22],編碼器完全由BERT(12-layer,768-hidden,12-heads)模型重構(gòu),解碼器為Transformer結(jié)構(gòu)。
c)PhoBERT[20],編碼器和解碼器分別融合了BERT(12-layer,768-hidden,12-heads)的輸出特征。
d)XLNet-Transformer,即XLNet-Decoder+編碼動態(tài)聚合模塊+并行交叉注意力模塊。
從表5可以看出,利用預(yù)訓(xùn)練做編碼器的BERT-Encoder和XLNet-Decoder在低資源數(shù)據(jù)集上相比于傳統(tǒng)的Transformer模型,均有明顯提升,而本文模型相較于Transformer模型的BLEU可以達到6.41的提升;相較于BERT-Encoder和PhoBERT方法,本文模型也分別提升了0.97和0.25。通過實驗結(jié)果表明,本文方法在結(jié)構(gòu)更加精簡的前提下,能夠在漢-馬低資源數(shù)據(jù)集上實現(xiàn)更好的低資源翻譯性能,也充分證明了通過引入XLNet預(yù)訓(xùn)練模型、動態(tài)聚合編碼信息以及并行交叉注意力等關(guān)鍵組件,可以較好地克服低資源條件下的翻譯困難,實現(xiàn)了性能改進。
3.6 漢-馬低資源神經(jīng)機器翻譯的消融實驗
為探究本文方法使用XLNet重構(gòu)編碼器后使用編碼動態(tài)聚合模塊和在解碼器融合并行交叉注意力模塊的模型對翻譯模型性能的影響,進行了如表6所示的消融實驗。其中:
a)Transformer with XLNet size。Transformer的網(wǎng)絡(luò)結(jié)構(gòu),僅結(jié)構(gòu)參數(shù)大小與XLNet一致(12-layer,768-hidden,12-heads)。
b)XLNet-Decoder+編碼動態(tài)聚合。在XLNet-Decoder的基礎(chǔ)上只對編碼器進行了動態(tài)聚合模塊改進。
c)XLNet-Decoder+并行交叉注意力。在XLNet-Decoder的基礎(chǔ)上只對解碼器進行了并行交叉注意力模塊的改進。
根據(jù)表6的實驗結(jié)果可知,雖然Transformer with XLNet size模型參數(shù)量有所增加,但最優(yōu)BLEU仍比Transformer base size模型少1.56,說明模型容量對翻譯質(zhì)量的影響不大,增加參數(shù)的數(shù)量并沒有帶來更好的翻譯質(zhì)量,這也反映了XLNet-Transformer模型的優(yōu)勢是模型的學(xué)習(xí)性能而不是模型參數(shù)的數(shù)量。
將編碼動態(tài)聚合模塊和并行交叉注意力模塊分別應(yīng)用XLNet-Decoder模型后,均比XLNet-Decoder模型的BLEU值有一定的提高。當(dāng)編碼動態(tài)聚合模塊與并行交叉注意力模塊同時應(yīng)用于XLNet-Decoder模型(即XLNet-Transformer)后,實驗結(jié)果優(yōu)于其他實驗組,比傳統(tǒng)Transformer模型提高了6.41,說明兩個模塊在聯(lián)合使用時的有效性,表明了編碼動態(tài)聚合模塊和并行交叉注意力模塊在低資源數(shù)據(jù)集下對提高翻譯模型性能都起到了重要的作用。
3.7 “漸進式解凍”策略的優(yōu)化訓(xùn)練
為探索提出的XLNet-Transformer模型在訓(xùn)練過程中使用提出的“漸進式解凍”優(yōu)化策略對翻譯模型性能的影響,設(shè)計了如表7所示的實驗。由表4可以得出,提出的XLNet-Transformer模型直接微調(diào)的較優(yōu)學(xué)習(xí)率為5×10-5,基線模型Transformer的原始學(xué)習(xí)率為3×10-4,因此本文實驗主要對比的學(xué)習(xí)率為5×10-5和3×10-4。使用“漸進式解凍”的策略訓(xùn)練XLNet-Transformer模型的實驗結(jié)果如表7所示,粗體值表示最佳結(jié)果,#表示epoch數(shù)。
由實驗結(jié)果可以看出,XLNet-Transformer模型先設(shè)置學(xué)習(xí)率為5×10-5進行凍結(jié)編碼器訓(xùn)練模型至收斂,BLEU分數(shù)可以達到11.64,再設(shè)置學(xué)習(xí)率為3×10-4進行解凍微調(diào),卻發(fā)現(xiàn)BLEU分數(shù)為0.21,模型不收斂,說明需要梯度更新的參數(shù)太多而不適合太大的學(xué)習(xí)率。而將學(xué)習(xí)率對調(diào),先設(shè)置學(xué)習(xí)率為3×10-4進行凍結(jié)編碼器訓(xùn)練模型至收斂得到10.98的BLEU,再設(shè)置學(xué)習(xí)率為5×10-5進行解凍微調(diào),XLNet-Transformer的BLEU達到了23.78,而直接采用3×10-4進行訓(xùn)練模型不收斂,這體現(xiàn)了在不同訓(xùn)練階段需要適合的學(xué)習(xí)率,證明了使用漸進式解凍方法的有效性。當(dāng)凍結(jié)或者解凍學(xué)習(xí)率都設(shè)置為5×10-5時,在第59(27+32)個epoch達到了最優(yōu)的24.26,比直接微調(diào)減少了11個epoch,BLEU還提升了0.34。這表明在模型的分階段訓(xùn)練中,經(jīng)過逐步解凍凍結(jié)層,本文方法的性能得到了更為充分的釋放,驗證了“漸進式解凍”方法的有效性。
3.8 漢-馬機器翻譯在不同規(guī)模語料上的翻譯質(zhì)量對比
為了研究本文方法在不同數(shù)量的漢-馬數(shù)據(jù)集上的翻譯質(zhì)量,本文從現(xiàn)有17.4 W訓(xùn)練集中分別隨機地抽取8W、11W、14W條漢-馬數(shù)據(jù)集作為獨立的實驗數(shù)據(jù)集,對比實驗結(jié)果如圖6所示。其中驗證集和測試集均保持一致。
從圖6不難看出,相較于基線Transformer模型,隨著訓(xùn)練集數(shù)量的減少,本文方法提升的幅度越明顯,翻譯質(zhì)量越高。證明通過本文方法能夠更好地補充在少量數(shù)據(jù)場景下缺乏的特征表示,從而提升了漢-馬低資源神經(jīng)機器翻譯的性能,驗證了本文模型在低資源場景下的漢-馬NMT任務(wù)中的有效性。
3.9 模型翻譯效果的案例分析
為了更直觀地比較各個模型的翻譯效果,本實驗選取一個漢語和馬來語的待翻譯語句和參考譯文作為案例分析的實驗樣本。各個模型的翻譯效果對比如表8所示。其中,相同顏色的標注代表句子的語義相近(參見電子版)。
通過表8的案例分析可以清晰地看到各個模型的翻譯效果。RNN-NMT出現(xiàn)了重復(fù)翻譯(如perlu、enaman等)和大部分的少翻譯問題,導(dǎo)致翻譯結(jié)果不準確;CNN-NMT出現(xiàn)了少翻譯的問題(如缺少“健康的生活方式”和“共同影響”等翻譯),未能準確傳達句子的完整含義;Transformer基線模型雖然能產(chǎn)生大致準確的翻譯,但在表達流暢性上存在問題(如未表達出對“情緒健康”的影響);PhoBERT與本文方法的翻譯效果相似,但在流暢性和完整性方面略有不足;本文方法在案例中幾乎能夠準確、流暢地傳達句子的含義(如相比PhoBERT表達出了“健康”是“一種生活方式”),在整體翻譯的流暢和完整性上具備優(yōu)勢,充分驗證了本文方法在漢-馬低資源神經(jīng)機器翻譯場景下的可行性和有效性。
4 結(jié)束語
本文介紹了一種基于深度編碼注意力和“漸進式解凍”的XLNet-Transformer漢-馬神經(jīng)機器翻譯方法,旨在解決漢-馬低資源翻譯任務(wù)中性能不佳的問題。通過重構(gòu)Transformer編碼器和動態(tài)聚合XLNet編碼模塊,有效地整合了各編碼層的特征,增強了模型的表征能力。在解碼器方面,引入了并行交叉注意力模塊進一步提高了對上下文信息的關(guān)注,從而改善了翻譯結(jié)果的語義準確性。此外,還采用“漸進式解凍”優(yōu)化訓(xùn)練策略穩(wěn)定了模型的訓(xùn)練過程,優(yōu)化了源句和目標句特征的整合。實驗結(jié)果表明,本文方法在漢-馬低資源翻譯任務(wù)中性能提升顯著,驗證了本文方法的有效性和創(chuàng)新性。
為了更好地應(yīng)對低資源語言對的挑戰(zhàn),在未來的工作中將從探索預(yù)訓(xùn)練模型和無監(jiān)督進行有效結(jié)合,從而更進一步提升漢-馬神經(jīng)機器翻譯模型的性能,為漢-馬低資源神經(jīng)機器翻譯領(lǐng)域的發(fā)展帶來更多的貢獻。
參考文獻:
[1]黃家裕, 劉連芳, 鄧姿嫻, 等. 東南亞語言及信息處理研究進展[J]. 廣西科學(xué)院學(xué)報, 2018, 34(1): 27-31. (Huang Jiayu, Liu Lianfang, Deng Zixian, et al. Progress of studies on southeast Asian languages and information processing thereof[J]. Journal of Guangxi Academy of Sciences, 2018,34(1): 27-31.)
[2]王銘玉. “一帶一路”建設(shè)與語言戰(zhàn)略構(gòu)建[J]. 中國外語教育, 2017(1): 3-7,99. (Wang Mingyu. “Belt and Road” construction and language strategy construction[J]. Foreign Language Education in China, 2017(1): 3-7,99. )
[3]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[4]Yang Zhilin, Dai Zihang, Yang Yiming, et al. XLNet: generalized autoregressive pretraining for language understanding[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 5753-5763.
[5]Hujon A V, Singh T D, Amitab K. Transfer learning based neural machine translation of English-Khasi on low-resource settings[J]. Procedia Computer Science, 2023,218: 1-8.
[6]Xing Xiaolin, Hong Yu, Xu Minhan, et al. Taking actions separately: a bidirectionally-adaptive transfer learning method for low-resource neural machine translation[C]//Proc of the 29th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2022: 4481-4491.
[7]Li Zhaocong, Liu Xuebo, Wong D F, et al. ConsistTL: modeling consistency in transfer learning for low-resource neural machine translation[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2022: 8383-8394.
[8]Zhuang Yimeng, Tu Mei. Pretrained bidirectional distillation for machine translation[C]//Proc of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2023:1132-1145.
[9]Bahdanau D, Cho K H, Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL]. (2016-05-19). https://arxiv.org/pdf/1409.0473.pdf.
[10]Gehring J, Auli M, Grangier D, et al. Convolutional sequence to sequence learning[C]//Proc of the 34th International Conference on Machine Learning.[S.l.]: JMLR.org, 2017: 1243-1252.
[11]Chen Xi, Wu Linhui, Zhang Yuanhao. Enhancing use of BERT information in neural machine translation with masking-BERT attention[C]//Proc of the 3rd International Conference on Artificial Intel-ligence, Automation, and High-Performance Computing.[S.l.]: SPIE, 2023: 795-808.
[12]Liu H I, Chen Weilin. X-Transformer: a machine translation model enhanced by the self-attention mechanism[J]. Applied Sciences, 2022,12(9): 4502.
[13]Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL]. (2019-05-24). https://arxiv.org/pdf/1810.04805.pdf.
[14]Wang Dongsheng, Wang Shaoyong. SE-Former: incorporating sentence embeddings into Transformer for low-resource NMT[J]. Electronics Letters, 2023,59(11): e12840.
[15]Guo Junliang, Zhang Zhirui, Xu Linli, et al. Adaptive adapters: an efficient way to incorporate BERT into neural machine translation[J]. IEEE/ACM Trans on Audio, Speech, and Language Proces-sing, 2021, 29: 1740-1751.
[16]Weng Rongxiang, Yu Heng, Huang Shujian, et al. Acquiring know-ledge from pre-trained model to neural machine translation[C]//Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 9266-9273.
[17]Rothe S, Narayan S, Severyn A. Leveraging pre-trained checkpoints for sequence generation tasks[J]. Trans of the Association for Computational Linguistics, 2020, 8: 264-280.
[18]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[EB/OL]. (2019).https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.
[19]Zhu Jinhua, Xia Yingce, Wu Lijun, et al. Incorporating BERT into neural machine translation[EB/OL]. (2020-02-17). https://arxiv.org/pdf/2002.06823.pdf.
[20]Vu V H, Nguyen Q P, Tunyan E V, et al. Improving the perfor-mance of Vietnamese-Korean neural machine translation with contextual embedding[J]. Applied Sciences, 2021,11(23): 11119.
[21]Yan Rong, Li Jiang, Su Xiangdong, et al. Boosting the Transformer with the BERT supervision in low-resource machine translation[J]. Applied Sciences, 2022,12(14): 7195.
[22]Imamura K, Sumita E. Recycling a pre-trained BERT encoder for neural machine translation[C]//Proc of the 3rd Workshop on Neural Generation and Translation. Stroudsburg, PA: Association for Computational Linguistics, 2019: 23-31.
[23]Shi Fan, Kai Shaofeng, Zheng Jinghua, et al. XLNet-based prediction model for CVSS metric values[J]. Applied Sciences, 2022,12(18): 8983.
[24]Wang Chenglong, Zhang Fenglei. The performance of improved XLNet on text classification[C]//Proc of the 3rd International Confe-rence on Artificial Intelligence and Electromechanical Automation.[S.l.]: SPIE, 2022: 154-159.
[25]Zamani N A M, Liew J S Y, Yusof A M. XLNET-GRU sentiment regression model for cryptocurrency news in English and Malay[C]//Proc of the 4th Financial Narrative Processing Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2022: 36-42.
[26]Mohtaj S, Mller S. On the importance of word embedding in automated harmful information detection[C]//Proc of the 25th International Conference on Text, Speech, and Dialogue. Berlin: Springer-Verlag, 2022: 251-262.