邱石貴,章化奧,段湘煜,張 民
(蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
神經(jīng)機(jī)器翻譯(neural machine translation,NMT)將機(jī)器翻譯任務(wù)視為一種序列到序列轉(zhuǎn)化問題,其端到端的建模過程在2014年由Sutskever等[1]提出,該方法采用編碼器解碼器框架,不依賴人工定義的特征,在短句上的性能十分優(yōu)越.2015年Bahdanau等[2]在此基礎(chǔ)上引入注意力機(jī)制,使得翻譯性能獲得顯著提升,并且超越了傳統(tǒng)的統(tǒng)計機(jī)器翻譯(statistical machine translation,SMT).2017年,由Vaswani等[3]提出的Transformer模型更是在翻譯性能和速度上進(jìn)一步得到提升;該模型僅通過注意力機(jī)制進(jìn)行建模,將輸入的源語言句子通過編碼器編碼成上下文內(nèi)容的中間表示,基于這些句子的中間表示,解碼器逐詞地生成目標(biāo)語言的譯文.
相比于傳統(tǒng)的SMT,NMT是端到端的訓(xùn)練,全局只優(yōu)化一個目標(biāo),并且不需要人工定義特征的過程,對于上下文信息的學(xué)習(xí)和利用更加充分,深度神經(jīng)網(wǎng)絡(luò)對于文本特征強大的學(xué)習(xí)能力很大程度上得益于網(wǎng)絡(luò)模型的大規(guī)??蓪W(xué)習(xí)參數(shù),但正因為其龐大的網(wǎng)絡(luò)結(jié)構(gòu)帶來的擬合能力造成了NMT模型在訓(xùn)練數(shù)據(jù)規(guī)模遠(yuǎn)小于模型復(fù)雜度的場景下,容易出現(xiàn)過擬合的現(xiàn)象,導(dǎo)致模型的泛化能力不足,進(jìn)而影響其翻譯性能[4].
為了有效阻止NMT過擬合,提升模型泛化能力,比較簡單直接的做法為增加訓(xùn)練數(shù)據(jù),但高質(zhì)量的平行語料的獲取費時費力,因此考慮通過數(shù)據(jù)增強技術(shù)來對原始數(shù)據(jù)進(jìn)行擴(kuò)展.這在圖像處理領(lǐng)域的應(yīng)用是比較常見的,但對于文本數(shù)據(jù)而言,其離散的特性以及句法上的約束,導(dǎo)致文本處理的方式不能直接借鑒諸如圖片裁剪、圖片旋轉(zhuǎn)等方式,否則句子本身的信息會被破壞,因此,文本數(shù)據(jù)的增強技術(shù)還需要更多地探索和實踐[5].除了數(shù)據(jù)增強,正則化技術(shù)也是有效阻止過擬合,提高模型泛化能力的方法.正則化技術(shù)通常是在兼顧模型性能的前提下約束模型復(fù)雜度的一種技術(shù),模型對于訓(xùn)練數(shù)據(jù)的細(xì)節(jié)過度學(xué)習(xí)主要是因為模型過于復(fù)雜,所以通過一定的技術(shù)來削弱模型的學(xué)習(xí)能力或者簡化模型的結(jié)構(gòu)是合理的[6].正則化技術(shù)的實現(xiàn)可以從兩個角度進(jìn)行考慮:1) 通過簡化模型結(jié)構(gòu)獲得一個對數(shù)據(jù)稍微欠擬合的模型,以此保證模型的泛化能力并且防止過擬合,類似的方法有Srivastava等[7]提出的失活率(dropout)方法.dropout方法通過隨機(jī)地把網(wǎng)絡(luò)中的部分神經(jīng)元的輸出置為0來簡化網(wǎng)絡(luò),從而減少模型對于某些特征的依賴,使得模型的泛化性更強,現(xiàn)已成為訓(xùn)練深度網(wǎng)絡(luò)的通用技術(shù).2) 通過減少數(shù)據(jù)的細(xì)節(jié)或者削弱監(jiān)督約束來干擾模型對于數(shù)據(jù)特定細(xì)節(jié)的學(xué)習(xí),如Szegedy等[8]提出對輸入數(shù)據(jù)信息進(jìn)行加噪或者采用標(biāo)簽平滑(label smoothing,LS)的技術(shù)[8],通過對多分類任務(wù)中的監(jiān)督標(biāo)簽進(jìn)行加噪,減少真實標(biāo)簽類別在計算損失函數(shù)時的權(quán)重,這樣模型就不會過度地向正向標(biāo)簽和負(fù)向標(biāo)簽差值最大的方向?qū)W習(xí),尤其在訓(xùn)練數(shù)據(jù)較少的情況下,能夠有效抑制過擬合問題.Cheng等[9]提出在模型輸入上添加小干擾,進(jìn)行對抗穩(wěn)定訓(xùn)練來提高模型泛化能力;Wang等[10]提出通過對模型源端和目標(biāo)端輸入句子的單詞位置采樣后,采用隨機(jī)單詞替換的方法來進(jìn)行干擾.
由于文本數(shù)據(jù)離散的特性,每個單詞在句子中扮演著不同的語義角色,所以相比于對句子整體進(jìn)行干擾,對單詞進(jìn)行干擾會更加靈活并且更具針對性;此外,詞級別干擾可與采樣機(jī)制結(jié)合,使干擾更具隨機(jī)性.因此本研究采用詞級別正則化(word-level regularization,WR)技術(shù).具體地,通過對NMT模型的編碼器和解碼器兩端的輸入句子進(jìn)行詞粒度級別的干擾,減少訓(xùn)練數(shù)據(jù)的細(xì)節(jié),并且削弱監(jiān)督信號的約束,從而抑制模型對訓(xùn)練數(shù)據(jù)的過度學(xué)習(xí)、防止過擬合,并重點研究如何給予輸入句子單詞合適的干擾.
本節(jié)介紹WR的整體框架和3種干擾策略.WR的目標(biāo)是通過干擾策略,對NMT編碼端和解碼端的輸入句子造成干擾,其總體框架如圖1所示.其中,X是輸入到編碼器中的源語言句子的向量表示,Z是輸入到解碼器的翻譯過程中已經(jīng)生成的目標(biāo)單詞序列的向量表示(在訓(xùn)練階段作為監(jiān)督信號,是目標(biāo)句子y右移一個單詞的單詞序列),Y是目標(biāo)句子的向量表示.
圖1 WR的結(jié)構(gòu)示意圖Fig.1 Structure diagram of WR
對于模型的輸入句子X=[x1,x2,…,xn],定義一個句子長度n的概率向量r,服從概率為p的多元伯努利分布,與句子長度無關(guān).在訓(xùn)練過程中,若單詞對應(yīng)的rw為1則對該單詞進(jìn)行正則化操作,若為0則不執(zhí)行任何操作,解碼端輸入Z的操作同理.計算過程如下:
rw~B(1,p),
(1)
(2)
大量文獻(xiàn)表明在神經(jīng)網(wǎng)絡(luò)中加入隨機(jī)噪聲是減輕過擬合、提升泛化能力的有效方法[11-13].由于本研究關(guān)注的是WR方法,所以考慮在輸入單詞的詞嵌入上加入噪聲來模擬輸入干擾:
(3)
其中:e(xi)代表單詞xi的詞嵌入向量,向量是以均值為0、標(biāo)準(zhǔn)差為σ采樣的高斯噪聲,是加噪后的詞嵌入向量.使用這個方法既可以限制輸入文本的信息量,又可以保留大部分語義信息;但是考慮到深度神經(jīng)網(wǎng)絡(luò)強大的建模能力,其本身具有很強的抗干擾能力,因此加入高斯噪聲對模型產(chǎn)生的干擾程度比較小.
受隨機(jī)單詞替換方法[9-10]的啟示,本研究采用相似詞替換進(jìn)行語料擴(kuò)充,在訓(xùn)練過程中動態(tài)地進(jìn)行采樣和替換,替換候選詞也隨著參數(shù)更新的過程不斷變化.給定單詞xi,計算xi與詞表中其他單詞的余弦距離作為相似度:
(4)
(5)
其中:?為服從均勻分布的采樣函數(shù),即從若干候選單詞中等概率地選擇一個單詞;T表示選擇相似度最高的k個候選單詞;S表示計算給定單詞和詞表其他任意單詞的相似度;cos(e(xi),e(x))表示xi與x之間的余弦相似度;Vxi是去除xi的詞表.詞表大小一般是幾萬,在這樣大的空間內(nèi)采樣相似詞的不確定性很高,因此計算相似度最高的前k個候選詞,然后根據(jù)均勻分布采樣一個候選詞進(jìn)行替換.SSR采樣與候選詞列表如表1和2所示,可以看出:通過本方法計算的相似詞與原詞的關(guān)聯(lián)性較高,替換之后不會對句子的句法結(jié)構(gòu)造成很大影響;但會出現(xiàn)個別不相關(guān)的干擾詞,如候選詞gement與his完全不相似.
表1 SSR示例Tab.1 Example of SSR
表2 候選詞列表示例Tab.2 Example of candidates list
高斯噪聲和相似詞替換都面臨著搜索空間大、干擾不確定性高的問題,因此提出了一種更為軟性的干擾策略,即用
(6)
其中,R為替換函數(shù),即將給定單詞替換成
表3 SUM示例Tab.3 Example of SUM
WR對編碼器和解碼器的輸入進(jìn)行干擾,減輕過擬合,但由于干擾程度的隨機(jī)性和不確定性,容易破壞句子的語義信息.為了使模型學(xué)習(xí)到更好的句子表征,本研究引入生成對抗(GAN)思想,使用一個線性判別器C, 對中間狀態(tài)H(x)進(jìn)行判別是否被正則化.此處H相當(dāng)于GAN中的生成器,生成模型輸入對應(yīng)的中間狀態(tài),也對應(yīng)本文中的編碼器和解碼器.整體框架如圖2所示.判別器C的目的是區(qū)分被正則化和未被正則化的單詞,而生成器H的目的則是制造難以被C區(qū)分的中間狀態(tài).對抗損失的計算方法如下:
圖2 對抗優(yōu)化目標(biāo)的結(jié)構(gòu)示意圖Fig.2 Structure diagram of adversarial optimization
(7)
其中,θmt為翻譯模型的參數(shù),θC是判別器的參數(shù).在訓(xùn)練過程中判別器和生成器可以相互得到提升,這樣NMT模型可以獲得更好的表征能力,并且即使被干擾,生成的中間表示依然能夠保留原句的大部分信息.最終的損失函數(shù)是翻譯和對抗目標(biāo)的線性組合,使用參數(shù)λ控制兩個損失比例,如式(8).
L(θmt,θC)=Lmt(θmt)+λLadv(θmt,θC).
(8)
Lmt(θmt)=L(X,Y;θmt)=
-∑(X,Y)∈SlogP(Y|X,Z),
(9)
其中,Lmt為NMT模型的損失函數(shù),P表示概率.
為了驗證WR方法的有效性,選擇標(biāo)準(zhǔn)的Transformer模型分別在小規(guī)模、中小規(guī)模和標(biāo)準(zhǔn)規(guī)模數(shù)據(jù)集上進(jìn)行實驗.因為導(dǎo)致過擬合的主要因素是模型復(fù)雜度和數(shù)據(jù)規(guī)模,其中模型參數(shù)規(guī)模在應(yīng)用詞正則化后并無明顯差距,所以通過控制數(shù)據(jù)規(guī)模進(jìn)行方法驗證,分別選擇小規(guī)模、中小規(guī)模和標(biāo)準(zhǔn)規(guī)模數(shù)據(jù)集進(jìn)行實驗.不選擇大規(guī)模數(shù)據(jù)集,一方面可以更好地觀察WR方法對性能的影響;另一方面,大規(guī)模數(shù)據(jù)下模型不易甚至不會出現(xiàn)過擬合問題,這樣可以避免失去過擬合問題的研究對象.此外,為了驗證WR在更多網(wǎng)絡(luò)層數(shù)和參數(shù)的模型上是否有效,本研究設(shè)計了12層編碼解碼結(jié)構(gòu)的Transformer模型實驗.
小規(guī)模數(shù)據(jù)集選自IWSLT’14(2014 International Workshop on Spoken Language Translation,http:∥workshop2014.iwslt.org/)德語-英語平行數(shù)據(jù)集訓(xùn)練德語-英語和英語-德語兩個翻譯系統(tǒng),包含平行語料17萬句,利用MOSES(http:∥www.statmt.org/moses/)的處理腳本(https:∥github.com/moses-smt/mosesdecoder/scripts/tokenizer/tokenizer.perl,https:∥github.com/moses-smt/mosesdecoder/scripts/training/clean-corpus-n.perl)進(jìn)行分詞和過濾句子長度超過175的句子,得到16萬句的平行數(shù)據(jù),按照22∶1 的比例劃分訓(xùn)練集和驗證集,測試集則取自IWSLT14.TED.dev2010、IWSLT14.TED.tst2010、IWSLT14.TED.tst2011、IWSLT14.TED.tst2012、IWSLT14.TEDX.dev2012,共6 750句.并對英語和德語數(shù)據(jù)進(jìn)行聯(lián)合字節(jié)對編碼(byte pair encoding,BPE),獲得聯(lián)合詞表,詞表大小為1萬.
中小規(guī)模數(shù)據(jù)集選自WMT’18(2018 Third Conference on Machine Translation,http:∥www.statmt.org/wmt18/)英語-土耳其語平行數(shù)據(jù)集訓(xùn)練英語-土耳其語和土耳其語-英語兩個翻譯系統(tǒng),包含訓(xùn)練語料21萬句,同樣進(jìn)行分詞和過濾處理,驗證集為newstest2016,測試集為newstest2017.英語語料和土耳其語料使用聯(lián)合BPE處理,獲得大小為4.9萬的聯(lián)合詞表.
標(biāo)準(zhǔn)規(guī)模數(shù)據(jù)集選自語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium, LDC)的中文-英語平行數(shù)據(jù)集訓(xùn)練中文-英語翻譯系統(tǒng),其中訓(xùn)練集包含125萬句,使用NIST06(1 664句)作為驗證集,使用NIST02、NIST03、NIST04、NIST05和NIST08(分別包含平行句對878,919,1 788,1 082,1 357句)作為測試集.同樣采用BPE技術(shù)限制詞表的大小,不同的是中文和英文語料是分開處理,其中中文詞表為4.2萬,英文詞表為3.1萬.
實驗采用的是基于Pytorch實現(xiàn)的fairseq[16]框架,使用Transformer作為基準(zhǔn)系統(tǒng),其結(jié)構(gòu)包含6(或12)層編碼器和6(或12)層解碼器,前饋層和中間層分別為512維和2 048維.對于正則化技術(shù),采用標(biāo)準(zhǔn)dropout方法和LS方法進(jìn)行模型訓(xùn)練,并將對應(yīng)參數(shù)設(shè)置為0.3和0.1.對于本研究提出的WR方法,源端和目標(biāo)端采樣概率分別為ps=0.1和pt=0.3,SNP策略使用高斯噪聲的標(biāo)準(zhǔn)差σ=1,SSR策略的候選詞數(shù)量k=20.在3種干擾策略上均應(yīng)用對抗訓(xùn)練,其中SNP與SSR的λ=1,SUM的λ=0.01.
LDC中-英的測試集包含4個參考譯文,因此本文使用腳本multibleu.pl(https:∥github.com/moses-smt/mosesdecoder/scripts/generic/multi-bleu.perl)測試其雙語互譯評估(bilingual evaluation understudy,BLEU)值,而對于IWSLT’14英語-德語、IWSLT’14德語-英語、WMT’18英語-土耳其語、WMT’18土耳其語-英語系統(tǒng),則使用SacreBLEU計算BLEU值.在解碼時,集束搜索的大小均設(shè)為10.
采用6層編碼解碼結(jié)構(gòu)的Transformer作為基準(zhǔn)系統(tǒng),在應(yīng)用不同的干擾策略后,小規(guī)模數(shù)據(jù)集英語-德語和德語-英語兩個翻譯方向的實驗結(jié)果如表4第2和3列所示.可見模型在不同的干擾策略下BLEU值都有不同程度的提升,其中SSR策略和SUM策略的提升最為明顯,這兩種策略在英語-德語翻譯語向的BLEU值分別有0.95和1.00個百分點的提升,在德語-英語翻譯語句上分別為1.25和1.44個百分點的提升.
表4 不同干擾策略下6層編碼解碼結(jié)構(gòu)的Transformer的BLEU值Tab.4 BLEU values of Transformer with 6-layer encoding and decoding seructure using different disturbance strategies %
中小規(guī)模數(shù)據(jù)集英語-土耳其語和土耳其語-英語兩個翻譯方向的實驗結(jié)果如表5第4和5列所示.和英語-德語和德語-英語實驗結(jié)果類似,SUM策略的提升最為明顯,在英語-土耳其語上和土耳其語-英語任務(wù)上BLEU值分別有0.98和1.55個百分點的提升.在標(biāo)準(zhǔn)規(guī)模數(shù)據(jù)集的中文-英語任務(wù)上,3種策略同樣給系統(tǒng)帶來了類似的提升,尤其是SUM策略使BLEU值獲得了平均1.42個百分點的提升,其結(jié)果如表5所示.
表5 不同干擾策略在中文-英語任務(wù)中的BLEU值Tab.5 BLEU values on Chinese-English task using different disturbance strategies %
上述結(jié)果表明:1) WR方法針對過擬合問題導(dǎo)致的泛化能力不足,在數(shù)據(jù)規(guī)模以及語言類型上具有通用性,即不管是小規(guī)模、中小規(guī)模和標(biāo)準(zhǔn)規(guī)模數(shù)據(jù)集都能夠起到積極的正向作用;同時對相似語種的翻譯任務(wù)(如英語和德語)或者不相似語種的翻譯任務(wù)(如中文和英語),WR方法都具有相當(dāng)充分的包容性.2) WR方法的3種干擾策略的干擾程度是SUM>SSR>SNP,本研究通過實驗驗證了SUM策略可以擴(kuò)展到其他任意特定符號,并不僅限于
12層的Transformer模型的英語-土耳其語和土耳其語-英語實驗結(jié)果如表6所示,相比于6層編碼解碼結(jié)構(gòu)的Transformer模型,需要訓(xùn)練的參數(shù)更多,模型復(fù)雜度更高,而英語-土耳其語平行數(shù)據(jù)集是中小規(guī)模數(shù)據(jù)集,即模型復(fù)雜度和數(shù)據(jù)規(guī)模,相比于標(biāo)準(zhǔn)Transformer更加不匹配,也就意味著模型更容易出現(xiàn)過擬合問題.從表6的結(jié)果可以看到,WR依然能夠有效緩解過擬合問題,提升模型泛化能力.這也更加有力地驗證了以上關(guān)于WR方法的3個結(jié)論.
表6 不同干擾策略下12層編碼解碼結(jié)構(gòu)Transformer的BLEU值Tab.6 BLEU values of Transformer with 12-layer encodingand decoding structure using different disturbance strategies %
本研究旨在設(shè)計一種如dropout和LS一樣簡單且通用的正則化方法,為此設(shè)計在英語-土耳其語平行數(shù)據(jù)集上的對比實驗.Baseline系統(tǒng)是沒有應(yīng)用dropout、LS以及WR的fairseq框架實現(xiàn)的Transformer模型,討論3種正則化方法對模型的影響,結(jié)果如表7所示.Baseline系統(tǒng)和標(biāo)準(zhǔn)Transformer(含dropout和LS)的BLEU值(英語-土耳其語)相差7.23個百分點,不同的正則化技術(shù)對系統(tǒng)的性能有不同程度的貢獻(xiàn),dropout>WR>LS.dropout和LS能成為網(wǎng)絡(luò)訓(xùn)練的標(biāo)準(zhǔn)配置也體現(xiàn)了其不可替代性,但是不管是單獨的WR,還是配合dropout和LS的WR都能夠?qū)ο到y(tǒng)起到積極的影響,進(jìn)一步提升了系統(tǒng)性能.這是因為WR的干擾策略能夠給予模型類似于dropout和LS的影響:WR對于NMT模型編碼端輸入的干擾提升了模型對文本的表征能力;而對于解碼端輸入的干擾則同LS一樣,削弱了監(jiān)督信號的影響,提升了模型的泛化能力.
表7 dropout、LS和WR消融實驗的BLEU值Tab.7 BLEU values of dropout,LS,WR ablation experiments %
困惑度(perplexity,PPL)是衡量語言模型收斂情況以及模型好壞的指標(biāo)之一.它的主要思想是通過一句話中所有單詞的聯(lián)合概率來估計這句話的合理性.計算公式如下:
(10)
其中,P(S)是計算給定句子S的困惑度函數(shù),S=[w1,w2,…,wN]代表一個句子,N是句子長度.模型在給定測試集上的句子獲得的概率越大,說明模型對于測試集的結(jié)果越準(zhǔn)確,相應(yīng)的PPL越小,可以有效地反映模型是否出現(xiàn)過擬合.圖3(a)~(c)分別為模型在訓(xùn)練過程中所有輪次的損失變化曲線、驗證集的PPL變化曲線和BLEU值變化曲線.相比于Baseline系統(tǒng)(標(biāo)準(zhǔn)的Transformer),采用WR的模型在訓(xùn)練過程中,損失不會下降到Baseline水平,同時在驗證集上獲得更低的PPL,其中SUM和SSR策略隨著訓(xùn)練進(jìn)程的推進(jìn),不會出現(xiàn)和Baseline一樣的回升趨勢,并且BLEU值也高于Baseline,證明本研究提出的WR干擾策略SUM和SSR更不容易出現(xiàn)過擬合的情況,且模型的泛化能力得到了提升.
圖3 土耳其語-英語翻譯任務(wù)所有輪次的訓(xùn)練損失(a)、驗證集PPL(b)、驗證集BLEU值(c)Fig.3 Training loss (a),valid PPL (b),and valid BLEU values (c) over epochs on the Turkish-English translation task
NMT模型包含編碼器和解碼器,編碼器端和解碼器端的采樣概率ps和pt是影響模型性能的重要因素.為了分析兩端的采樣概率對模型的影響,進(jìn)行不同采樣概率的對比實驗,Baseline系統(tǒng)選擇標(biāo)準(zhǔn)的Transformer模型.
固定目標(biāo)端采樣概率pt=0.3,控制不同源端采樣概率ps(0,0.05,0.10,0.15,0.20,0.25)進(jìn)行實驗,結(jié)果如圖4(a)所示.
固定源端采樣概率ps=0.1,控制不同的目標(biāo)端采樣概率pt(0,0.1,0.2,0.3,0.4,0.5,0.6,0.7)進(jìn)行實驗,結(jié)果如圖4(b)所示.
從圖4可以看出:1) 源端對于采樣概率的變化相比于目標(biāo)端更加敏感;2) 采樣概率并不是越大越好,模型的性能整體上均隨著目標(biāo)端和源端概率的增加呈現(xiàn)先增后降的趨勢;3) 對于不同的干擾策略,最佳的采樣概率也不一樣,三者對于模型的干擾程度也決定了最佳采樣概率的峰值;4) SUM策略隨目標(biāo)端采樣概率增加呈現(xiàn)最明顯的下降趨勢,SSR策略隨源端采樣概率增加呈現(xiàn)最明顯的下降趨勢,因此在3種策略中SUM策略和SSR策略的干擾程度明顯大于SNP策略.
圖4 源端和目標(biāo)端采樣概率對翻譯性能的影響
在訓(xùn)練的過程中,本研究應(yīng)用對抗損失目標(biāo),見式(8).為了分析對抗損失對模型性能的影響,本研究對含有對抗目標(biāo)的模型和不含對抗目標(biāo)的模型進(jìn)行對比實驗,結(jié)果如圖5所示.其中,Baseling為標(biāo)準(zhǔn)的Transformer,NoLadv和withLadv分別表示標(biāo)準(zhǔn)的Transformer+WR不采用和采用對抗損失的方法.可以看出:在WR的3個干擾策略上應(yīng)用對抗優(yōu)化目標(biāo)都獲得了BLEU分?jǐn)?shù)的提升,證明了該損失目標(biāo)的有效性.其中SSR受到對抗目標(biāo)的影響最大,BLEU差值在0.7個百分點左右;而SNP和SUM相較于沒有使用對抗損失的模型BLEU值均提升了約0.2個百分點.
圖5 對抗優(yōu)化目標(biāo)的影響Fig.5 Impact of adversarial objective
針對NMT模型因為數(shù)據(jù)規(guī)模和模型復(fù)雜度不匹配造成的過擬合和模型泛化能力不足問題,本研究提出了WR技術(shù),并采用不同的干擾策略SNP、SSR和SUM.該方法具有簡單和通用的特性,通過在小規(guī)模、中小規(guī)模、標(biāo)準(zhǔn)規(guī)模數(shù)據(jù)集上設(shè)計的實驗,以及針對模型泛化能力和性能等方面的分析實驗驗證了該方法的有效性,即WR能夠有效地防止模型過擬合,提升模型的泛化能力,并進(jìn)一步提升模型性能.與已有研究工作相比,本研究提出的WR方法能夠給予模型源端和目標(biāo)端更有針對性的干擾策略,主要體現(xiàn)在詞級別的干擾對于兩端的影響各不相同,并通過添加對抗目標(biāo)來提高模型的在干擾情況下的表征能力.而在未來的工作中,將更多考慮干擾策略中結(jié)合語言學(xué)知識,達(dá)到對特定單詞的針對性干擾,同時提高方法的可解釋性.