龔龍超,郭軍軍*,余正濤
基于源語言句法增強(qiáng)解碼的神經(jīng)機(jī)器翻譯方法
龔龍超1,2,郭軍軍1,2*,余正濤1,2
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650504; 2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),昆明 650504)(?通信作者電子郵箱guojjgb@163.com)
當(dāng)前性能最優(yōu)的機(jī)器翻譯模型之一Transformer基于標(biāo)準(zhǔn)的端到端結(jié)構(gòu),僅依賴于平行句對,默認(rèn)模型能夠自動(dòng)學(xué)習(xí)語料中的知識(shí);但這種建模方式缺乏顯式的引導(dǎo),不能有效挖掘深層語言知識(shí),特別是在語料規(guī)模和質(zhì)量受限的低資源環(huán)境下,句子解碼缺乏先驗(yàn)約束,從而造成譯文質(zhì)量下降。為了緩解上述問題,提出了基于源語言句法增強(qiáng)解碼的神經(jīng)機(jī)器翻譯(SSED)方法,顯式地引入源語句句法信息指導(dǎo)解碼。所提方法首先利用源語句句法信息構(gòu)造句法感知的遮擋機(jī)制,引導(dǎo)編碼自注意力生成一個(gè)額外的句法相關(guān)表征;然后將句法相關(guān)表征作為原句表征的補(bǔ)充,通過注意力機(jī)制融入解碼,共同指導(dǎo)目標(biāo)語言的生成,實(shí)現(xiàn)對模型的先驗(yàn)句法增強(qiáng)。在多個(gè)IWSLT及WMT標(biāo)準(zhǔn)機(jī)器翻譯評(píng)測任務(wù)測試集上的實(shí)驗(yàn)結(jié)果顯示,與Transformer基線模型相比,所提方法的BLEU值提高了0.84~3.41,達(dá)到了句法相關(guān)研究的最先進(jìn)水平。句法信息與自注意力機(jī)制融合是有效的,利用源語言句法可指導(dǎo)神經(jīng)機(jī)器翻譯系統(tǒng)的解碼過程,顯著提高譯文質(zhì)量。
自然語言處理;神經(jīng)機(jī)器翻譯;句法信息;Transformer;增強(qiáng)解碼;外部知識(shí)融入
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)方法的神經(jīng)機(jī)器翻譯系統(tǒng)取得了顯著的效果[1-3],成為機(jī)器翻譯任務(wù)的新范式。神經(jīng)機(jī)器翻譯任務(wù)旨在將給定的源語言句子轉(zhuǎn)換為目標(biāo)語言句子,其核心思想是使用神經(jīng)網(wǎng)絡(luò)將源語言句子編碼為一個(gè)稠密向量,然后從該向量解碼出目標(biāo)語言句子,通常依賴端到端的編碼器?解碼器結(jié)構(gòu)實(shí)現(xiàn)這種序列轉(zhuǎn)換[4-5]。
先驗(yàn)的語言知識(shí),特別是句法,是一種預(yù)先定義的語言規(guī)則。圖1給出一個(gè)句法依賴關(guān)系的實(shí)例,詞語之間通過特定的關(guān)系連接構(gòu)建成一個(gè)句子。無論是理解語義(對應(yīng)于編碼)還是構(gòu)建語言(對應(yīng)于解碼),這種蘊(yùn)含于詞語與詞語之間的“主謂賓”等關(guān)系都作為一種重要依據(jù)而必不可少。但由于其本身的復(fù)雜性和語言的多樣性,如何有效學(xué)習(xí)和理解更深層的蘊(yùn)含關(guān)系和預(yù)定規(guī)則,仍是目前自然語言處理任務(wù)亟需和正努力解決的根本問題。
圖1 句法依賴關(guān)系的實(shí)例
一方面,基于Transformer[3]的編碼器?解碼器結(jié)構(gòu)舍棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[2]層和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[6]層,僅利用注意力機(jī)制[5]并行地執(zhí)行序列轉(zhuǎn)換,大幅地提高了建模的效率,成為機(jī)器翻譯任務(wù)的基線模型。然而,盡管自注意力機(jī)制通過并行的方式將輸入語句中的每個(gè)詞語都表示為包含其上下文信息的表征,但由于模型僅依賴于平行語料,而沒有使用先驗(yàn)的語言知識(shí),這種方式不可避免地會(huì)造成編碼和解碼過程中語句表征質(zhì)量的下降。圖1展示了Transformer在編碼句子“The monkey eats a banana.”過程中為根節(jié)點(diǎn)詞“eats”分配的注意力權(quán)重。直觀上,在翻譯詞語“eats”時(shí),其主語“monkey”和賓語“banana”應(yīng)得到更多的關(guān)注,但從注意力權(quán)重的分配上看,Transformer模型顯然沒有區(qū)分出這種句法上的差別。相關(guān)研究也表明Transformer的確不能有效挖掘這種深層的語言信息,特別是在低資源環(huán)境下[8-9]。筆者認(rèn)為,從注意力的角度來看,Transformer的軟注意力方式適用于更廣的范圍,保證了模型的泛化能力;在此基礎(chǔ)上,顯式地添加句法以硬約束注意力則傾向于句子本身的差異性。將兩者結(jié)合,則可在不損害模型泛化性的同時(shí)優(yōu)化語句的表征。
另一方面,相關(guān)研究也表明在機(jī)器翻譯系統(tǒng)中融入句法信息是有效的[10-14]。在模型淺層,Saunders等[10]將句法表征穿插在單詞之間;Zhang等[11]將句法解析模型的表征與翻譯模型的詞嵌入表征相結(jié)合。在改變模型中間表征方面,Bugliarello等[12]根據(jù)詞語之間的句法距離調(diào)節(jié)編碼源語句時(shí)的注意力權(quán)重。在模型結(jié)構(gòu)方面,Wu等[13]引入額外的編碼器和解碼器將句法關(guān)系融入機(jī)器翻譯系統(tǒng)中,并利用目標(biāo)端的句法信息;Currey等[14]提出適用于低資源的句法解析——機(jī)器翻譯多任務(wù)模型,和適用于富資源的混合編碼模型。這些方法雖然在基線模型的基礎(chǔ)上提高了性能,但僅在編碼器中利用源語言句法信息,或是在解碼器中利用目標(biāo)語言句法信息,并沒有研究源語言句法信息對解碼過程的影響。
針對以上問題,本文在Transformer模型的基礎(chǔ)上:1)優(yōu)化編碼器中的自注意力機(jī)制,引入句法感知的遮擋機(jī)制,在原注意力的基礎(chǔ)上生成一個(gè)額外的句法相關(guān)表征,與原注意力表征互補(bǔ),明確使用源語言的句法信息;2)增強(qiáng)解碼器,使用句法注意力將編碼端生成的句法相關(guān)表征融入解碼過程,指導(dǎo)目標(biāo)語言的生成,實(shí)現(xiàn)源語言句法信息對機(jī)器翻譯系統(tǒng)的增強(qiáng)。本文的主要工作包括:
1)提出一種基于源語言句法增強(qiáng)解碼的神經(jīng)機(jī)器翻譯方法SSED(Source Syntax Enhancing Decoding),引入句法信息補(bǔ)充優(yōu)化源語言表征,探索結(jié)合源語言句法信息作用于解碼過程對翻譯系統(tǒng)性能的影響;
2)將源語言句法信息作為優(yōu)化模型的依據(jù),而不是簡單地作為額外特征輸入模型,且適配于子詞單元;
3)使用不同方法在解碼端融合源語言句法信息,探索在不同融合方式下源語言句法信息對模型性能的影響;
4)在幾個(gè)標(biāo)準(zhǔn)機(jī)器翻譯數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法在幾乎不引入額外的訓(xùn)練參數(shù)和計(jì)算開銷的情況下顯著提高了基線模型的性能,并取得了句法相關(guān)工作的最好結(jié)果。
在基于RNN模型的句法信息增強(qiáng)機(jī)器翻譯方法中,Sennrich等[15]將源語言句子的語法依賴標(biāo)簽作為額外特征輸入翻譯系統(tǒng)中,以提高譯文質(zhì)量;Eriguchi等[16]將解碼器與一個(gè)基于句法的語言模型[17]結(jié)合,通過共享句法解析與翻譯任務(wù)將語言先驗(yàn)納入機(jī)器翻譯系統(tǒng);Chen等[18]采用自底向上和自頂向下兩個(gè)方向的樹結(jié)構(gòu)編碼,有效利用源端句法信息;Chen等[19]基于句法距離構(gòu)造一個(gè)句法感知的局部注意力機(jī)制,根據(jù)句法距離調(diào)節(jié)注意力權(quán)重,選擇性地加強(qiáng)對句法相關(guān)詞的注意。
基于Transformer的序列轉(zhuǎn)換模型大幅提升了神經(jīng)機(jī)器翻譯的并行性和譯文質(zhì)量,一些研究也在Transformer模型的基礎(chǔ)上對句法增強(qiáng)的方法進(jìn)行了探索。Wu等[13]為將由RNN構(gòu)建的依賴解析樹融入Transformer結(jié)構(gòu)中,使用一個(gè)具有三個(gè)編碼器和兩個(gè)解碼器的大模型,且需要目標(biāo)端的依賴關(guān)系;Zhang等[11]從更淺的詞嵌入層著手,將句法解析器生成的隱狀態(tài)與翻譯模型的詞嵌入向量拼接,以一種更隱式的方式集成源語言句法。與本文的方法相比,這種方法無法適配子詞切分,會(huì)誘發(fā)詞表過大和未登錄詞的問題。Currey等[14]基于數(shù)據(jù)增強(qiáng)技術(shù)提出兩種分別適用于低資源和富資源的方法;Saunders等[10]致力于將目標(biāo)語言的句法信息融入機(jī)器翻譯系統(tǒng),但將句法表征穿插入詞語表征之間的方式帶來長序列的問題,需要累積梯度才能進(jìn)行有效的訓(xùn)練。最近,Bugliarelllo等[12]基于自注意力強(qiáng)大的表征能力將句法信息與自注意力網(wǎng)絡(luò)相結(jié)合,通過詞與詞之間的句法距離重新分配注意力權(quán)重,實(shí)現(xiàn)對句法相關(guān)部分的強(qiáng)調(diào)。然而,這種僅依賴調(diào)整后表征的方式容易引入噪聲。
不同于以往基于Transformer的工作,本文根據(jù)源語句的句法依賴關(guān)系,在編碼自注意力的基礎(chǔ)上利用遮蔽機(jī)制生成一個(gè)額外的句法相關(guān)表征作為原表征的補(bǔ)充,進(jìn)而在解碼過程融合源端的句法知識(shí),共同指導(dǎo)目標(biāo)語言的生成,以實(shí)現(xiàn)對解碼過程的句法約束,提高機(jī)器譯文質(zhì)量。
為使用句法信息增強(qiáng)神經(jīng)機(jī)器翻譯,同時(shí)探索源語言句法對解碼過程的影響,本文在Transformer模型的基礎(chǔ)上提出基于句法增強(qiáng)的神經(jīng)機(jī)器翻譯模型SSED,在編碼過程中提取和轉(zhuǎn)換源端句法知識(shí),并將其融入解碼過程。
本章介紹了SSED模型的整體結(jié)構(gòu)、處理流程和框架中主要模塊的設(shè)計(jì)和細(xì)節(jié),包括獲取并向量化源語句句法關(guān)系以將其適配至編碼器,句法感知在多頭注意力中的實(shí)現(xiàn),以及如何將句法增強(qiáng)適配到解碼器的不同層。
圖2中展示了SSED模型的結(jié)構(gòu),與Transformer模型相比,主要改動(dòng)包括:1)編碼器中,優(yōu)化自注意力,使其利用源語句的句法依賴關(guān)系生成句法相關(guān)的表征;2)解碼器中,添加句法?解碼交互注意力和整合機(jī)制用于融合源語言句法,實(shí)現(xiàn)句法增強(qiáng)。
圖2 SSED模型總體結(jié)構(gòu)
2.1.1句法感知的編碼器
由此,除原本的注意力表征之外,句法感知的自注意力還額外生成一個(gè)句法相關(guān)的注意力表征,式(1)變?yōu)椋?/p>
值得注意的是,由于本文并沒有額外初始化一個(gè)前饋網(wǎng)絡(luò),而是僅使用原本的前饋網(wǎng)絡(luò),因此,相較于傳統(tǒng)的Transformer編碼器,句法感知的編碼器并沒有引入額外的訓(xùn)練參數(shù)。
2.1.2句法增強(qiáng)的解碼器
社會(huì)治理在鄉(xiāng)鎮(zhèn)土地管理中的運(yùn)用(李昊 ) ..................................................................................................2-31
為緩解詞表過大和詞匯稀疏問題,本文將句法感知適配到子詞單元,定義由同一原詞語切分而成的子詞之間的關(guān)系為句法相關(guān),并作為整體與句子中的其他詞語相互關(guān)聯(lián),以適應(yīng)子詞切分技術(shù)。
具體到本文,源語句的句法關(guān)系被作為調(diào)整編碼自注意力進(jìn)而生成句法相關(guān)表征的依據(jù),而不是簡單地作為語言特征輸入模型。這種對注意力權(quán)重的調(diào)整是建立在多頭基礎(chǔ)上的,保留了多頭表征的多樣性,使得所生成的句法相關(guān)表征蘊(yùn)含來自不同表示子空間的信息,避免了由于僅保留句法相關(guān)部分而可能帶來的局部偏差。從局部建模的角度考慮,基于多頭的方式完善了可能忽略全局信息的句法感知建模方式。因此,作為補(bǔ)充信息,由局部建模得到的句法相關(guān)表征沒有引入額外的噪聲,相反,它在引入句法信息的同時(shí)也豐富了源語句表征的多樣性。3.3.4節(jié)中的實(shí)驗(yàn)結(jié)果也表明,句法相關(guān)表征為模型解碼提供了有效信息。
最近的研究表明,Transformer不同的層傾向于捕捉不同的特征。Anastasopoulos等[20]的研究表明,相較于低層,較高層更具有代表性;Peters等[21]以及Raganato等[22]指出,低層傾向于學(xué)習(xí)更多的句法知識(shí),而較高的層則傾向于編碼更多的語義?;诖?,本文在編碼器輸出層中生成句法相關(guān)表征,并研究了解碼器哪些層從源語言句法中受益最大。
為測試本文SSED模型的性能,在通用的NC11(News Commentary v11)英德、德英和IWSLT14(International Conference on Spoken Language Translation 2014)德英,以及標(biāo)準(zhǔn)低資源WMT18(Conference on Machine Translation 2018)英土、IWSLT15(International Conference on Spoken Language Translation 2015)英越翻譯任務(wù)上進(jìn)行實(shí)驗(yàn)。為便于與句法相關(guān)的工作進(jìn)行比較,NC11與WMT18英土兩個(gè)任務(wù)的數(shù)據(jù)設(shè)置與Bugliarello等[12]相同;對IWSLT14德英任務(wù),跟Edunov等[23]的設(shè)置相同;在IWSLT15英越任務(wù)中使用tst2012作為驗(yàn)證集,tst2013作為測試集。表1統(tǒng)計(jì)了實(shí)驗(yàn)使用的語料規(guī)模。語料中的句子都進(jìn)行了規(guī)范化(normalize)、符號(hào)化(tokenize)以及BPE(Byte Pair Encoding)[24]子詞切分等處理;使用Stanford CoreNLP[25]工具對英語和德語端句子進(jìn)行句法解析,得到對應(yīng)的句法關(guān)系。
表1 實(shí)驗(yàn)使用的語料規(guī)模統(tǒng)計(jì)
在譯文質(zhì)量評(píng)價(jià)方面,本文使用開源腳本multi?bleu.Perl計(jì)算機(jī)器譯文的BLEU(BiLingual Evaluation Understudy)值,對所有機(jī)器譯文均采用大小寫敏感的BLEU值。為保證結(jié)果的有效性,平均最后5個(gè)檢查點(diǎn)作為評(píng)估模型,波束搜索大小設(shè)為5。
首先,與已有的句法相關(guān)工作進(jìn)行比較,包括:Currey等[14]提出的共享機(jī)器翻譯和句法解析任務(wù)的Multi?Task方法,以及混合編碼的Mixed Enc.模型;Bugliarello等[12]提出的句法增強(qiáng)的最好方法PASCAL(Parent?Scaled Self?Attention);參數(shù)優(yōu)化的Multi?Task;將句法信息以依賴標(biāo)簽的形式加入到Transformer編碼器詞嵌入矩陣中的S&H(Sennrich and Haddow)[15];被遷移到機(jī)器翻譯任務(wù)中,將自注意力與句法解析相結(jié)合的LISA(Linguistically?Informed Self?Attention)[27]。
其次,在通用的IWSLT(International Conference on Spoken Language Translation)任務(wù)上與其他機(jī)器翻譯方法進(jìn)行比較,包含:基于傳統(tǒng)RNN和CNN的ELMo(Embeddings from Language Models)[28]、CVT(Cross?View Training)[28],SAWR(Syntax?Aware Word Representations)[11]和Dynamic Conv[29];改進(jìn)Transformer模型結(jié)構(gòu)的Tied?Transform[30]和Macaron[31];融合預(yù)訓(xùn)練模型的C?MLM(Conditional?Masked Language Modeling)[32]和BERT?fused(Bidirectional Encoder Representations from Transformers?fused)[33]。
實(shí)驗(yàn)結(jié)果如表2所示,可以看到:對于句法增強(qiáng)的神經(jīng)機(jī)器翻譯方法,在詞嵌入表征中加入依賴標(biāo)簽(+S&H)以及簡單地共享模型的多任務(wù)方法(+Multi?Task)相較于基線模型并沒有明顯的提升;相比之下,改變注意力機(jī)制,在其中融入句法信息以輔助機(jī)器翻譯的方法(+LISA)有了明顯的提升,說明了句法信息對提高譯文質(zhì)量的有效性,以及將其與注意力網(wǎng)絡(luò)結(jié)合的可行性。
表2 不同機(jī)器翻譯方法在各數(shù)據(jù)集上的BLEU值
進(jìn)一步地,根據(jù)源語句句法信息對編碼自注意力進(jìn)行調(diào)整,而不是簡單地將其作為額外的特征輸入模型(+PASCAL),取得了更好的優(yōu)化效果,證明了這種調(diào)整優(yōu)化方式的效力。與此不同,本文在此方法的基礎(chǔ)上進(jìn)一步改進(jìn),在不改變原注意力表征的情況下使用源句句法信息引導(dǎo)自注意力生成一個(gè)額外的句法相關(guān)表征,將其作為原表征的補(bǔ)充信息,有效緩解調(diào)整自注意力過程中可能會(huì)引入的噪聲偏差,在保證注意力表征有效性的同時(shí),也增加了其豐富性。此外,本文采用更直接的解碼端融入方式,將句法信息直接作用于目標(biāo)語言的生成過程。實(shí)驗(yàn)結(jié)果表明,本文的方法取得了最好的效果,BLEU值在基線模型的基礎(chǔ)上取得了+0.97到+3.41的提升,且始終優(yōu)于當(dāng)前句法相關(guān)的最先進(jìn)方法PASCAL。這驗(yàn)證了SSED模型的有效性,在解碼過程中使用源語言句法信息指導(dǎo)目標(biāo)語言的生成能夠大幅提高機(jī)器譯文質(zhì)量。
另一方面,在通用的IWSLT任務(wù)上,本文方法同樣表現(xiàn)優(yōu)異,能取得與其他精心設(shè)計(jì)的機(jī)器翻譯模型相當(dāng)或更好的BLEU值。其中,Tied?Transform通過共享編解碼器實(shí)現(xiàn)了一個(gè)輕量型的模型,但需要更強(qiáng)的調(diào)參技巧以及更長的訓(xùn)練時(shí)間來使模型收斂。相比之下,本文方法SSED在不需要額外訓(xùn)練時(shí)間的情況下達(dá)到了與Tied?Transform相當(dāng)?shù)男阅堋acaron通過在每層的注意力網(wǎng)絡(luò)之前增加前饋網(wǎng)絡(luò)使Transformer模型更稠密,但模型參數(shù)量也隨之大幅增加,而本文所提方法僅在單層操作,在僅引入少量參數(shù)的情況下表現(xiàn)出更好的性能。
此外,借助預(yù)訓(xùn)練語言模型的C?MLM和BERT?fused方法將預(yù)訓(xùn)練語言模型BERT的表征融入翻譯系統(tǒng),使模型包含更大規(guī)模的訓(xùn)練參數(shù),也需要更長的訓(xùn)練時(shí)間,而基于輕量模型的SSED在IWSLT15英越任務(wù)上取得了高于C?MLM的BLEU得分,表現(xiàn)出強(qiáng)大的翻譯性能。
為探究模型不同組件和方法的具體效用,本文進(jìn)行了一系列的消融實(shí)驗(yàn)。首先,在解碼端通過不同的方式融合句法信息;之后,使用不同的方法整合編碼?解碼注意力和句法?解碼注意力表征;然后,研究解碼器中哪些層從源語言句法中受益最大;最后,具體驗(yàn)證句法相關(guān)表征的有效性。
3.3.1不同融合方式對模型性能的影響
本文基于注意力機(jī)制在解碼端自適應(yīng)地提取原語句表征與句法相關(guān)表征中的信息。在解碼端使用注意力機(jī)制融入額外信息輔助神經(jīng)機(jī)器翻譯的方法通??煞譃閮深悾捍蟹绞胶筒⑿蟹绞?。串行方式即依次執(zhí)行編碼注意力或額外信息注意力,后一注意力的查詢向量為前一注意力的輸出[34-36];并行方式即分別執(zhí)行編碼注意力和額外信息注意力,兩種注意力的查詢向量相同,之后再對輸出結(jié)果進(jìn)行整合[37-40]。
圖3在本文的基礎(chǔ)上對串行方式進(jìn)行了簡單示例。本文進(jìn)行了不同的實(shí)驗(yàn)以探究將源語句句法信息融入解碼過程的最有效方法,實(shí)驗(yàn)結(jié)果展示在表3中。其中:“Enc+Syn”和“Syn+Enc”分別表示在解碼自注意力后依次執(zhí)行編碼、句法注意力及句法、編碼注意力的串行方式;“Enc//Syn”表示并行執(zhí)行編碼、句法注意力。實(shí)驗(yàn)中將并行輸出的兩個(gè)表征進(jìn)行拼接,之后經(jīng)線性層整合為一個(gè)整體。所有方式均在所有解碼層中執(zhí)行。
圖3 串行融合的簡單示例
表3 IWSLT15英越任務(wù)上不同融合方式的BLEU值
從表3可以看出,串行執(zhí)行注意力的方式并不能有效提升模型性能,反而會(huì)造成譯文質(zhì)量的大幅下降。與之前串行處理的工作相比,本文認(rèn)為造成這種結(jié)果的原因是:當(dāng)額外特征提供給模型的是與編碼輸出的源語句表征差別較大的不同類型信息,且擁有全局屬性時(shí),遞進(jìn)的方式能夠?yàn)槟P吞峁└玫囊?guī)范性信息,進(jìn)而有效提升模型性能,相反則不能。本文方法是用句法感知的方式在原編碼輸出表征的基礎(chǔ)上進(jìn)行局部建模,得到額外的句法相關(guān)表征,與原表征有較高的相似性,可以作為原語句表征的補(bǔ)充信息,而不適合單獨(dú)作為全局信息提供給解碼器。并行執(zhí)行注意力的實(shí)驗(yàn)結(jié)果驗(yàn)證了這一猜想。將所生成的句法相關(guān)表征以輔助信息的形式整合到模型中,而不是以包含的形式,這種融合方式有效強(qiáng)化了原表征的特征多樣性,進(jìn)而提升模型性能。
在之后的實(shí)驗(yàn)中,本文在解碼端采用并行執(zhí)行的方式,并進(jìn)一步實(shí)驗(yàn)了不同的整合方式對模型性能的影響。
3.3.2不同整合方式對模型性能的影響
1)平均池化(Average):將兩個(gè)注意力輸出表征經(jīng)平均池化層求平均值,結(jié)果送入下游模塊。
2)門控單元(Gate):將兩個(gè)注意力表征進(jìn)行拼接,之后經(jīng)門控單元生成一個(gè)門控變量,控制兩個(gè)注意力表征在整合過程中所占權(quán)重??捎霉奖硎緸椋?/p>
3)高速網(wǎng)絡(luò)(Highway):拼接后的注意力表征分別經(jīng)過兩個(gè)不同的線性變化和非線性激活,生成一個(gè)控制變量和一個(gè)輸入變量,之后借助控制變量控制拼接變量和輸入變量的權(quán)重,生成最終表示。
4)線性變換(Linear):拼接后的注意力表征僅經(jīng)過線性變化層生成下游模塊的輸入變量。
根據(jù)表4可以看到,使用平均池化和高速網(wǎng)絡(luò)整合注意力表征時(shí),不管是在驗(yàn)證集還是測試集,不僅在基線模型上沒有所提升,反而損害了模型性能。而門控單元和線性變換在測試集上表現(xiàn)出同等的效力,都有效改善了譯文質(zhì)量,但其中門控單元在驗(yàn)證集上表現(xiàn)不佳。有關(guān)這點(diǎn),本文在后續(xù)實(shí)驗(yàn)中進(jìn)一步探索了門控單元的有效性。
表4 IWSLT15英越任務(wù)上不同整合方式的BLEU值
本文將表4的結(jié)果歸因于:簡單地對兩個(gè)表征求均值并不能有效區(qū)分并整合有效信息,反而會(huì)損害多個(gè)表征中所包含的特有信息,使其失去多樣性,甚至?xí)谠⒁饬Ρ碚髦幸朐肼?,造成質(zhì)量下降,導(dǎo)致模型表現(xiàn)不佳。同樣地,高速網(wǎng)絡(luò)并沒有有效識(shí)別出拼接后的表征中哪些部分需要經(jīng)過激活,哪些部分需要保持不變。相反,門控單元和線性層則有效篩選出了有效信息,實(shí)現(xiàn)了句法增強(qiáng)表征的有效融合,從而優(yōu)化了模型表征,進(jìn)一步實(shí)現(xiàn)對譯文質(zhì)量的提升。在接下來的實(shí)驗(yàn)中,本文使用線性層作為整合方式,并進(jìn)一步驗(yàn)證門控單元的效力。
3.3.3不同解碼層引入句法信息對模型性能的影響
針對已有研究指出的不同層捕捉不同特征的現(xiàn)象,一個(gè)自然的問題是:是否需要在所有解碼層中增強(qiáng)句法?為解答該問題,本文在不同層的基礎(chǔ)上進(jìn)行了一系列實(shí)驗(yàn),結(jié)果如表5所示。其中:“Base”表示Transformer基線模型;“Gate5”表示使用門控單元作為整合機(jī)制,在解碼器第5層中利用注意力機(jī)制引入句法信息。
表5中結(jié)果顯示:1)所有方法的BLEU值相較于Transformer基線模型都有不同程度的提升,其中在第5層中融合句法信息效果最好,BLEU值在基線模型的基礎(chǔ)上取得了+0.84的提升。這驗(yàn)證了基于句法增強(qiáng)的神經(jīng)機(jī)器翻譯模型的有效性。2)相較于僅在單一層中融合句法信息增強(qiáng)解碼,在多個(gè)層中融合并沒有明顯的提升;且隨著自底向上增加融合層數(shù),機(jī)器譯文的評(píng)分整體上并沒有明顯的變化,反而會(huì)有所下降。這表明,多層融合并不能在模型性能方面帶來增益,相反,增加過多的線性層會(huì)引入更多的訓(xùn)練參數(shù),造成模型結(jié)構(gòu)的冗余,不利于充分挖掘語料中蘊(yùn)含的信息。此外,多層融合一定程度上也更容易造成信息的重復(fù)和冗余。結(jié)合Raganato等[20]有關(guān)低層偏向注意語義,高層偏向注意上下文信息的發(fā)現(xiàn),包含局部信息的句法相關(guān)表征并不適宜于被作為補(bǔ)充信息提供給所有層,而是適合作為上下文信息與源語言表征形成互補(bǔ),在較高層中發(fā)揮更大的效益,完善源語言表征的信息完整性。3)較高的層更能從源語言句法增強(qiáng)中受益。相較于在第1~4層中融合句法信息,在第5、6層中融合句法信息使模型性能有很大幅度的提升。這一定程度上與之前有關(guān)不同層的研究相符合,即在較高層中額外引入的句法相關(guān)表征與原本包含更多語義的表征互為補(bǔ)充,使整合后的表征含有更為全面的信息,且較高層生成的表征更具代表性。此外,擁有較好效果的較高層在堆疊融合的情況下(表5中的4-6、5-6)性能依然不佳,說明文中基于句法增強(qiáng)的方法的確不適用于多層融合。4)使用線性層整合的方式更適用于模型。盡管使用門控單元作為整合方式在第5層中融合句法知識(shí)取得了很好的效果,但仍差于基于線性變換的方法。
基于以上實(shí)驗(yàn)結(jié)果,本文在主實(shí)驗(yàn)中基于編碼器輸出層生成句法相關(guān)表征,并僅在解碼器第5層中使用線性層作為整合方式融合句法信息。
3.3.4不同整合方式對模型性能的影響
為排除在解碼器中增加線性層所帶來的干擾,證明模型性能的提升僅來自句法相關(guān)表征,使用原始的編碼器輸出替換句法相關(guān)表征,將其作為句法?解碼注意力的輸出與編碼?解碼注意力輸出進(jìn)行整合,結(jié)果如表5的“Enc5”。Enc5的結(jié)果表明,雖然線性層提升了基線模型的性能,但與基于句法相關(guān)表征的結(jié)果相比仍有很大差距,說明SSED模型的性能改善得益于源端句法信息,驗(yàn)證了本文方法的有效性。另一方面,結(jié)合3.3.2節(jié)中的結(jié)果,從高速網(wǎng)絡(luò)到門控單元,再到線性層,隨著模型復(fù)雜度的遞減,模型性能呈現(xiàn)遞增的趨勢,簡單的線性層就能明顯提升模型性能,本文認(rèn)為這與Transformer模型結(jié)構(gòu)的稀疏稠密度有關(guān),具體原因?qū)⒃谖磥砉ぷ髦羞M(jìn)一步研究。
表5 IWSLT15英越任務(wù)上不同解碼層引入句法信息的BLEU值
為了定性揭示基于句法增強(qiáng)的神經(jīng)機(jī)器翻譯方法的有效性,表6給出了在IWSLT14德英任務(wù)上,Transformer?base模型生成的原機(jī)器譯文以及利用本文方法增強(qiáng)句法后生成的譯文示例。與參考譯文對比發(fā)現(xiàn),句法增強(qiáng)的方法能夠有效借助源語言句法信息對原模型解碼時(shí)的句法錯(cuò)誤進(jìn)行校正。在第一個(gè)例子中,解碼“one”時(shí)應(yīng)更多地注意其指代主語“my supermarket”,而不是“this is my supermarket”,加入句法信息使模型在解碼該位置時(shí)有傾向地指向“supermarket”,可有效避免指代主語不明確的問題。同樣,在第二個(gè)例子中模型有效糾正了錯(cuò)誤的謂語,保證了翻譯過程中語意表達(dá)的準(zhǔn)確性。
表6 原機(jī)器譯文與句法增強(qiáng)的機(jī)器譯文的對比示例
為緩解低資源場景下神經(jīng)機(jī)器翻譯模型缺乏先驗(yàn)約束、句法信息表征不足等問題,同時(shí)探索在解碼過程中有效利用源語言句法信息指導(dǎo)目標(biāo)語言生成,本文提出了基于Transformer的源語言句法信息增強(qiáng)解碼的神經(jīng)機(jī)器翻譯模型。該模型通過改進(jìn)Transformer結(jié)構(gòu),實(shí)現(xiàn)了句法感知的編碼和句法增強(qiáng)的解碼。使用并行注意力的方式分別從源語句表征和局部建模的源語句句法相關(guān)表征中提取信息,能夠有效提升模型表征能力,融合句法信息指導(dǎo)解碼端目標(biāo)語言的生成。在幾個(gè)通用機(jī)器翻譯任務(wù)上的實(shí)驗(yàn)結(jié)果表明,所提方法顯著提高了機(jī)器譯文質(zhì)量,達(dá)到了句法相關(guān)研究的最先進(jìn)水平,證明了使用源語言句法信息指導(dǎo)解碼對增強(qiáng)機(jī)器翻譯模型性能的有效性。
[1] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 3104-3112
[2] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[EB/OL]. (2016-05-19)[2021-08-11].https://arxiv.org/pdf/1409.0473v7.pdf.
[3] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017:6000-6010.
[4] 李亞超,熊德意,張民. 神經(jīng)機(jī)器翻譯綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(12): 2734-2755.(LI Y C, XIONG D Y, ZHANG M. A survey of neural machine translation[J]. Chinese Journal of Computers, 2018, 41(12): 2734-2755.)
[5] 劉洋. 神經(jīng)機(jī)器翻譯前沿進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2017, 54(6): 1144.(LIU Y. Recent advances in neural machine translation[J]. Journal of Computer Research and Development, 2017, 54(6): 1144.)
[6] GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 1243-1252.
[7] LUONG M T, PHAM H, MANNIN C D. Effective approaches to attention?based neural machine translation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015:1412-1421.
[8] ERIGUCHI A, HASHIMOTO K, TSURUOKA Y. Tree?to?sequence attentional neural machine translation[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2016: 823-833.
[9] NGUYAN X P, JOTY S, HOI S C H, et al. Tree?structured attention with hierarchical accumulation[EB/OL]. (2020-02-19)[2021-08-11].https://arxiv.org/pdf/2002.08046.pdf.
[10] SAUNDERS D, STAHLBERG F, DE GISPERT A, et al. Multi?representation ensembles and delayed SGD updates improve syntax based NMT[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 319-325.
[11] ZHANG M S, LI Z H, FU G H, et al. Syntax?enhanced neural machine translation with syntax?aware word representations[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 1151-1161.
[12] BUGLIARELLO E, OKAZAKI N. Enhancing machine translation with dependency?aware self?attention[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1618-1627.
[13] WU S Z, ZHANG D D, ZHANG Z R, et al. Dependency?to? dependency neural machine translation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing,2018, 26(11): 2132-2141.
[14] CURREY A, HEAFIELD K. Incorporating source syntax into transformer?based neural machine translation[C]// Proceedings of the 4th Conference on Machine Translation (Volume 1: Research Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 24-33.
[15] SENNRICH R, HADDOW B. Linguistic input features improve neural machine translation[C]// Proceedings of the 1st Conference on Machine Translation: Volume 1, Research Papers. Stroudsburg, PA: Association for Computational Linguistics , 2016: 83-91.
[16] ERIGUCHI A, TSURUOKA Y, CHO K. Learning to parse and translate improves neural machine translation[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 72-78.
[17] DYER C, KUNCORO A, BALLESTEROS M, et al. Recurrent neural network grammars[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 199-209.
[18] CHEN H D, HUANG S J, CHIANG D, et al. Improved neural machine translation with a syntax?aware encoder and decoder[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 1936-1945.
[19] CHEN K H, WANG R, UTIYAMA M, et al. Syntax?directed attention for neural machine translation[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 4792-4799.
[20] ANASTASOPOULOS A, CHIANG D. Tied multitask learning for neural speech translation[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 82-91.
[21] PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 2227-2237.
[22] RAGANATO A, TIEDEMANN J. An analysis of encoder representations in transformer?based machine translation[C]// Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA: Association for Computational Linguistics, 2018: 287-297.
[23] EDUNOV S, OTT M, AULI M, et al. Classical structured prediction losses for sequence to sequence learning[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 355-364.
[24] SENNRICH R, HADDOW B, BIRCH A. Neural machine translation of rare words with subword units[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2015: 1715-1725.
[25] MANNING C D, SURDEANU M,BAUER J, et al. The Stanford CoreNLP natural language processing toolkit[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2014:55-60.
[26] OTT M, EDUNOV S, BAEVSKI A, et al. FAIRSEQ: a fast, extensible toolkit for sequence modeling[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Demonstrations). Stroudsburg, PA: Association for Computational Linguistics, 2019: 48-53.
[27] STRUBELL E, VERGA P, ANDOR D, et al. Linguistically? informed self?attention for semantic role labeling[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 5027-5038.
[28] CLARK K, LUONG M T, MANNING C D, et al. Semi?supervised sequence modeling with cross?view training[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1914-1925.
[29] WU F, FAN A, BAEVSKI A, et al. Pay less attention with lightweight and dynamic convolutions[EB/OL]. (2019-02-22)[2021-08-11].https://arxiv.org/pdf/1901.10430.pdf.
[30] XIA Y C, HE T Y, TAN X, et al. Tied Transformers: neural machine translation with shared encoder and decoder[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 5466-5473.
[31] LU Y P, LI Z H, HE D, et al. Understanding and improving Transformer from a multi?particle dynamic system point of view[EB/OL]. (2019-06-06)[2021-08-11].https://arxiv.org/pdf/1906.02762.pdf.
[32] CHEN Y C, GAN Z, CHENG Y, et al. Distilling knowledge learned in BERT for text generation[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 7893-7905.
[33] ZHU J H, XIA Y C, WU L J, et al. Incorporating BERT into neural machine translation[EB/OL]. (2020-02-17)[2021-08-18].https://arxiv.org/pdf/2002.06823.pdf.
[34] TU Z P, LIU Y, SHI S M, et al. Learning to remember translation history with a continuous cache[J]. Transactions of the Association for Computational Linguistics, 2018, 6: 407-420.
[35] ZHANG J C, LUAN H B, SUN M S, et al. Improving the Transformer translation model with document?level context[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 533-542.
[36] MSRUF S, MARTINS A F T, HAFFARI G. Selective attention for context?aware neural machine translation[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 3092-3102.
[37] CAO Q, XIONG D Y. Encoding gated translation memory into neural machine translation[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 3042-3047.
[38] KUANG S H , XIONG D Y. Fusing recency into neural machine translation with an inter?sentence gate model[C]// Proceedings of the 27th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 607-617.
[39] STOJANOVSKI D, FRASER A. Coreference and coherence in neural machine translation: a study using oracle experiments[C]// Proceedings of the 3rd Conference on Machine Translation: Research Papers. Stroudsburg, PA: Association for Computational Linguistics, 2018: 49-60.
[40] VOITA E, SERDYUKOV P, SENNRICH R, et al. Context?aware neural machine translation learns anaphora resolution[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 1264-1274.
Neural machine translation method based on source language syntax enhanced decoding
GONG Longchao1,2, GUO Junjun1,2*, YU Zhengtao1,2
(1,,650504,;2(),650504,)
Transformer, one of the best existing machine translation models, is based on the standard end?to?end structure and only relies on pairs of parallel sentences, which is believed to be able to learn knowledge in the corpus automatically. However, this modeling method lacks explicit guidance and cannot effectively mine deep language knowledge, especially in the low?resource environment with limited corpus size and quality, where the sentence encoding has no prior knowledge constraints, leading to the decline of translation quality. In order to alleviate the issues above, a neural machine translation model based on source language syntax enhanced decoding was proposed to explicitly use the source language syntax to guide the encoding, namely SSED (Source language Syntax Enhanced Decoding). A syntax?aware mask mechanism based on the syntactic information of the source sentence was constructed at first, and an additional syntax?dependent representation was generated by guiding the encoding self?attention. Then the syntax?dependent representation was used as a supplement to the representation of the original sentence and the decoding process was integrated by attention mechanism, which jointly guided the generation of the target language, realizing the enhancement of the prior syntax. Experimental results on several standard IWSLT (International Conference on Spoken Language Translation) and WMT (Conference on Machine Translation) machine translation evaluation task test sets show that compared with the baseline model Transformer, the proposed method obtains a BLEU score improvement of 0.84 to 3.41 respectively, achieving the state?of?the?art results of the syntactic related research. The fusion of syntactic information and self?attention mechanism is effective, the use of source language syntax can guide the decoding process of the neural machine translation system and significantly improve the quality of translation.
Natural Language Processing (NLP); neural machine translation; syntactic information; Transformer; enhanced decoding; external knowledge incorporation
This work is partially supported by National Natural Science Foundation of China (61866020, 61732005), Science and Technology Innovation 2030 — "New Generation of Artificial Intelligence" Major Project (2020AAA0107904), Yunnan Applied Basic Research Program (2019FB082).
GONG Longchao, born in 1997, M. S. candidate. His research interests include natural language processing, machine translation.
GUO Junjun, born in 1987, Ph. D., associate professor. His research interests include machine learning, natural language processing, machine translation.
YU Zhengtao, born in 1970, Ph. D., professor. His research interests include machine learning, natural language processing, machine translation, information retrieval.
1001-9081(2022)11-3386-09
10.11772/j.issn.1001-9081.2021111963
2021?11?19;
2021?11?25;
2021?12?06。
國家自然科學(xué)基金資助項(xiàng)目(61866020, 61732005);科技創(chuàng)新2030—“新一代人工智能”重大項(xiàng)目(2020AAA0107904);云南省應(yīng)用基礎(chǔ)研究計(jì)劃項(xiàng)目(2019FB082)。
TP391.1
A
龔龍超(1997—),男,河南南陽人,碩士研究生,CCF會(huì)員,主要研究方向:自然語言處理、機(jī)器翻譯;郭軍軍(1987—),男,山西呂梁人,副教授,博士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、自然語言處理、機(jī)器翻譯;余正濤(1970—),男,云南曲靖人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、自然語言處理、機(jī)器翻譯、信息檢索。