張樂(lè)樂(lè),郭軍軍,王 繁
(1.昆明理工大學(xué),云南 昆明 650504;2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650504)
神經(jīng)機(jī)器翻譯模型的性能依賴大量高質(zhì)量平行數(shù)據(jù),主流語(yǔ)言對(duì)如英-德、英-法等已有豐富的平行語(yǔ)料庫(kù),因此在這些語(yǔ)言對(duì)上,機(jī)器翻譯性能較高,已接近人類譯者的水平[1]。然而,對(duì)于大量的非主流語(yǔ)言對(duì),由于其不具備大規(guī)模高質(zhì)量的平行句對(duì)資源,因此嚴(yán)重制約了機(jī)器翻譯模型的性能[1-4]。此外,大量的工作證明了涵蓋各種應(yīng)用領(lǐng)域的網(wǎng)絡(luò)資源可以作為擴(kuò)展低資源平行數(shù)據(jù)的有效來(lái)源[5-11]。通過(guò)維基百科、影視字幕、雙語(yǔ)新聞、同一結(jié)構(gòu)的網(wǎng)頁(yè)等可以獲取大量在內(nèi)容和形式上都具有可比性的可比語(yǔ)料。從可比語(yǔ)料中獲取高質(zhì)量的平行數(shù)據(jù)是緩解低資源平行數(shù)據(jù)稀疏的有效方法之一。近年來(lái),大量針對(duì)低資源可比語(yǔ)料庫(kù)的平行句對(duì)抽取方法取得了很好的效果[12-14],證明了從中提取的平行數(shù)據(jù)可以有效地提高機(jī)器翻譯的性能。
平行句對(duì)抽取任務(wù)基于語(yǔ)義相似性實(shí)現(xiàn)兩種語(yǔ)言的匹配,核心在于實(shí)現(xiàn)雙語(yǔ)語(yǔ)義空間的對(duì)齊,從而判別語(yǔ)義一致性,目的在于使用抽取到的平行句對(duì)作為訓(xùn)練數(shù)據(jù),提升機(jī)器翻譯等自然語(yǔ)言處理任務(wù)的性能。網(wǎng)絡(luò)爬取的數(shù)據(jù)極其復(fù)雜,而且可比的數(shù)據(jù)并不一定都是直譯的,需要根據(jù)句子的深層語(yǔ)義一致性實(shí)現(xiàn)平行句對(duì)的抽取。如表1 所示,越南語(yǔ)1 和越南語(yǔ)2 在詞級(jí)方面有極高的相似性,但存在巨大的語(yǔ)義偏差,基于統(tǒng)計(jì)的傳統(tǒng)方法很難區(qū)分,因此基于語(yǔ)義空間對(duì)齊的方法應(yīng)運(yùn)而生。
表1 雙語(yǔ)可比數(shù)據(jù)樣例
傳統(tǒng)的語(yǔ)義空間對(duì)齊方法使用不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)不同語(yǔ)言句子的向量表示,并將其映射到一個(gè)共享的向量空間中,以判斷跨語(yǔ)言句對(duì)的語(yǔ)義相似性;但是在解決存在大量噪聲的網(wǎng)絡(luò)資源數(shù)據(jù)時(shí),受限于訓(xùn)練數(shù)據(jù)的數(shù)量和覆蓋領(lǐng)域,傳統(tǒng)的方法難以生成好的語(yǔ)義表征,進(jìn)而影響語(yǔ)義對(duì)齊的效果。相反融合跨語(yǔ)言預(yù)訓(xùn)練語(yǔ)義表征可以很好地實(shí)現(xiàn)公共語(yǔ)義空間上雙語(yǔ)語(yǔ)義的對(duì)齊,大量有關(guān)預(yù)訓(xùn)練的工作表明預(yù)先訓(xùn)練的模型有利于下游自然語(yǔ)言處理任務(wù)[15,16]。平行句對(duì)雙語(yǔ)語(yǔ)義表征一般分為詞級(jí)粒度語(yǔ)義表征和句子級(jí)粒度語(yǔ)義表征。針對(duì)詞級(jí)表征,預(yù)先訓(xùn)練的詞嵌入模型包括Word2vec[17]和GloVe[18],以及包含上下文信息的語(yǔ)境話模型CoVe[19]和ELMo[20]。針對(duì)句子級(jí)表征,主要的預(yù)訓(xùn)練語(yǔ)言模型包括OpenAI GPT[21]、ULMFiT[22]和BERT[15]。在大規(guī)模數(shù)據(jù)上預(yù)先訓(xùn)練的模型已經(jīng)被證明可以學(xué)習(xí)通用語(yǔ)言表示,從而避免模型因?yàn)閿?shù)據(jù)不足而引起的性能不佳的問(wèn)題,同時(shí)因?yàn)椴挥脧念^訓(xùn)練模型,進(jìn)一步解放了計(jì)算資源。本文使用預(yù)訓(xùn)練語(yǔ)言模型作為先驗(yàn)知識(shí),對(duì)獲得的語(yǔ)義表征基于雙向交互注意力機(jī)制進(jìn)行語(yǔ)義對(duì)齊。
為了解決包含噪聲數(shù)據(jù)的語(yǔ)義表征和深層語(yǔ)義對(duì)齊問(wèn)題,本文提出了基于預(yù)訓(xùn)練語(yǔ)言模型及雙向交互注意力的跨語(yǔ)言文本語(yǔ)義匹配方法。該方法首先利用預(yù)訓(xùn)練語(yǔ)言模型的語(yǔ)義捕獲能力,為輸入的跨語(yǔ)言句子對(duì)生成更好的語(yǔ)境化語(yǔ)義表征,其次經(jīng)過(guò)跨語(yǔ)言語(yǔ)義對(duì)齊層學(xué)習(xí)跨語(yǔ)言句子對(duì)的依賴關(guān)系,再次在跨語(yǔ)言語(yǔ)義融合層從多視角比較句子對(duì)的特征表示,最后經(jīng)過(guò)語(yǔ)義預(yù)測(cè)層實(shí)現(xiàn)跨語(yǔ)言句對(duì)的關(guān)系判定。為驗(yàn)證本文方法的有效性,本文在人工構(gòu)建的漢-越可比語(yǔ)料庫(kù)上進(jìn)行了實(shí)驗(yàn),并且為了進(jìn)一步驗(yàn)證模型對(duì)平行句對(duì)的捕獲能力,在由IWSLT15 英-越公共數(shù)據(jù)集構(gòu)造的英-越可比語(yǔ)料庫(kù)上進(jìn)行了平行句抽取實(shí)驗(yàn),驗(yàn)證了模型提取真實(shí)數(shù)據(jù)的有效性。實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于已有平行句對(duì)抽取方法。最后,本文將提取的平行數(shù)據(jù)添加到機(jī)器翻譯語(yǔ)料中用于訓(xùn)練神經(jīng)機(jī)器翻譯模型,其性能獲得很大的提升,證明所抽取數(shù)據(jù)可以有效提升下游任務(wù)的性能。
平行句對(duì)抽取是緩解低資源機(jī)器翻譯數(shù)據(jù)匱乏的主要手段之一,目前雙語(yǔ)平行句抽取方法可以集中地分為基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法。
基于統(tǒng)計(jì)的方法依賴文檔內(nèi)部結(jié)構(gòu)信息或語(yǔ)言學(xué)知識(shí),包括文件出版日期、文件標(biāo)題或文件結(jié)構(gòu)等。Munteanu 等人[23]提出使用出版日期和信息檢索系統(tǒng)對(duì)齊報(bào)紙文章中的相似文檔,通過(guò)單詞重疊和句子長(zhǎng)度比例選擇候選句子對(duì),再通過(guò)分類器從候選句子對(duì)中識(shí)別平行句對(duì)。Chuang 等人[24]提出了基于標(biāo)點(diǎn)符號(hào)統(tǒng)計(jì)和詞匯信息對(duì)齊雙語(yǔ)平行文本的新方法。Peng 等人[25]結(jié)合了基于長(zhǎng)度和基于詞匯的算法,將雙語(yǔ)文本切分為小塊,優(yōu)化句子的對(duì)齊效果。Rauf 等人[26]提出使用統(tǒng)計(jì)機(jī)器翻譯可比語(yǔ)料庫(kù)的源語(yǔ)言,被翻譯的部分作為查詢從目標(biāo)語(yǔ)言進(jìn)行信息檢索抽取平行句對(duì),顯著提高了統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。
基于深度學(xué)習(xí)的方法利用雙語(yǔ)句對(duì)的語(yǔ)義一致性實(shí)現(xiàn)平行句對(duì)抽取。Francis 等人[27]首次提出應(yīng)用雙向遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的通用表示,以及利用端到端的深度神經(jīng)網(wǎng)絡(luò)檢測(cè)兩種不同語(yǔ)言句子之間的翻譯對(duì)等的方法來(lái)提取平行句對(duì)。Bouamor 等人[1]通過(guò)混合多語(yǔ)種句子級(jí)嵌入、神經(jīng)機(jī)器翻譯和監(jiān)督分類,從可比語(yǔ)料庫(kù)中提取平行句子。Hangya等人[28]檢測(cè)候選句子對(duì)的連續(xù)平行片段,基于源語(yǔ)言單詞和目標(biāo)語(yǔ)言單詞的余弦相似性挖掘平行句對(duì)。Zhu 等人[6]結(jié)合連續(xù)詞嵌入和深度學(xué)習(xí)方法,引入跨語(yǔ)言語(yǔ)義表示來(lái)誘導(dǎo)雙語(yǔ)信號(hào),從多語(yǔ)種網(wǎng)站抽取平行句對(duì)。Lison 等人[29]提出了結(jié)合語(yǔ)言和非語(yǔ)言的特征組合自動(dòng)檢測(cè)在線電影和電視字幕方法,從在線電影和電視字幕庫(kù)中提取平行語(yǔ)料庫(kù)。Bartholomaus[30]通過(guò)分析主題和子主題的鏈接拓?fù)?,檢查維基百科多語(yǔ)言內(nèi)容的哪一部分對(duì)于獲取雙語(yǔ)數(shù)據(jù)是可行的,并從中抽取平行句對(duì)構(gòu)建平行語(yǔ)料庫(kù)和特定領(lǐng)域的詞匯表。
不同于以上方法,本文將預(yù)訓(xùn)練語(yǔ)言模型融入平行句對(duì)抽取過(guò)程中,借助預(yù)訓(xùn)練語(yǔ)言模型強(qiáng)大的表征能力獲得更好的雙語(yǔ)語(yǔ)義表征。受Grégoire 等人[27]和Yang 等人[31]的啟發(fā),本文提出了基于預(yù)訓(xùn)練語(yǔ)言模型及雙向交互注意力的跨語(yǔ)言文本語(yǔ)義匹配方法,實(shí)現(xiàn)了公共語(yǔ)義空間中,跨語(yǔ)言句對(duì)的語(yǔ)義對(duì)齊,并利用跨語(yǔ)言句對(duì)的語(yǔ)義一致性判定抽取平行句對(duì),并使用提取的平行句作為訓(xùn)練神經(jīng)機(jī)器翻譯模型的訓(xùn)練數(shù)據(jù),有效改善低資源下神經(jīng)機(jī)器翻譯的性能。
針對(duì)包含噪聲數(shù)據(jù)的語(yǔ)義表征和深層語(yǔ)義對(duì)齊問(wèn)題,本文提出一種基于預(yù)訓(xùn)練語(yǔ)言模型及雙向交互注意力的跨語(yǔ)言文本語(yǔ)義匹配模型(Pretrained Encoder Aligned Fusion Prediction Model,EAFP)。該模型主要包括基于預(yù)訓(xùn)練語(yǔ)言模型的跨語(yǔ)言文本編碼模塊、跨語(yǔ)言文本語(yǔ)義匹配模塊、跨語(yǔ)言文本語(yǔ)義融合模塊和跨語(yǔ)言語(yǔ)義預(yù)測(cè)模塊這4 個(gè)部分,模型結(jié)構(gòu)體系如圖1 所示。
圖1 基于預(yù)訓(xùn)練語(yǔ)言模型雙向交互注意力的跨語(yǔ)言文本語(yǔ)義匹配模型
跨語(yǔ)言文本語(yǔ)義編碼層分別對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行編碼,長(zhǎng)度為s的源語(yǔ)言句子序列表示為Sm={x1,x2,…,xs},m∈M,長(zhǎng)度為t的目標(biāo)語(yǔ)言句子序列表示為Tn={y1,y2,…,yt},n∈N,M和N表示句子總數(shù)。使用預(yù)訓(xùn)練的多語(yǔ)言BERT 作為雙語(yǔ)編碼器,源語(yǔ)言和目標(biāo)語(yǔ)言經(jīng)過(guò)語(yǔ)義編碼層分別表示為:
式中:vSm∈Rs×d,m∈M為經(jīng)過(guò)編碼后源語(yǔ)言的向量表示;vTn∈Rt×d,n∈N為經(jīng)過(guò)編碼后目標(biāo)語(yǔ)言的向量表示;d為源語(yǔ)言和目標(biāo)語(yǔ)言句子中單詞的詞向量維度,生成的向量作為下一層跨語(yǔ)言語(yǔ)義對(duì)齊層的輸入。
受不同語(yǔ)言的特性影響,兩種語(yǔ)言的語(yǔ)序并不是完全對(duì)應(yīng)的??紤]到自注意力機(jī)制不受單詞間的所在位置影響,直接計(jì)算單詞對(duì)之間的語(yǔ)義相關(guān)性。本文在此基礎(chǔ)上采用改進(jìn)的雙向交互注意力機(jī)制捕獲跨語(yǔ)言文本間的語(yǔ)義交互關(guān)系,將源語(yǔ)言與目標(biāo)語(yǔ)言映射到公共語(yǔ)義空間進(jìn)行空間語(yǔ)義對(duì)齊。與Vaswani 等人[32]的工作一樣,本文使用并行的多個(gè)注意力頭使模型關(guān)注不同層面的語(yǔ)義信息。
式中:i代表第i個(gè)注意力頭;為第i個(gè)頭對(duì)應(yīng)的參數(shù)矩陣;h為注意力頭的個(gè)數(shù),在本文中設(shè)置為8,每個(gè)注意力頭的維度為64;W o為最后拼接所有注意力頭結(jié)果做線性投影的參數(shù)矩陣;vs′為源語(yǔ)言編碼向量經(jīng)過(guò)跨語(yǔ)言語(yǔ)義對(duì)齊層的輸出。
目標(biāo)語(yǔ)言到源語(yǔ)言的注意力計(jì)算過(guò)程:
式中:vt′為目標(biāo)語(yǔ)言編碼向量經(jīng)過(guò)跨語(yǔ)言語(yǔ)義對(duì)齊層的輸出。
跨語(yǔ)言語(yǔ)義融合層從多個(gè)視角比較語(yǔ)義向量的全局表示以及對(duì)齊表示的相似性。本文設(shè)計(jì)3 種不同的融合策略,分別為對(duì)原始語(yǔ)義信息和對(duì)齊后的語(yǔ)義信息進(jìn)行拼接、按位相減、按位相乘,得到3個(gè)不同的語(yǔ)義特征向量,然后將所有的向量矩陣投影到同一空間,得到最終的語(yǔ)義融合層輸出。源語(yǔ)言經(jīng)過(guò)語(yǔ)義融合層輸出Vs計(jì)算過(guò)程:
式中:G1、G2、G3和G分別為具有獨(dú)立參數(shù)的單層前饋神經(jīng)網(wǎng)絡(luò);⊙代表對(duì)應(yīng)元素相乘。特征向量之間的差異性由兩者的差值衡量,乘法運(yùn)算用以突出兩者的相似性。目標(biāo)語(yǔ)言經(jīng)過(guò)語(yǔ)義融合輸出結(jié)果Vt的計(jì)算與此一致,故省略其公式。
語(yǔ)義融合層的輸出經(jīng)過(guò)最大池化操作進(jìn)行特征壓縮,獲得的源語(yǔ)言和目標(biāo)語(yǔ)言向量表示Os,Ot作為語(yǔ)義預(yù)測(cè)層的輸入。得到跨語(yǔ)言句子對(duì)的語(yǔ)義相關(guān)性概率分布:
式中:H代表多層前饋神經(jīng)網(wǎng)絡(luò);代表所有類別的概率分?jǐn)?shù);C為類別的數(shù)量。之后,根據(jù)概率分布區(qū)分輸入的源語(yǔ)言和目標(biāo)語(yǔ)言句子對(duì)是否為平行句子。訓(xùn)練目標(biāo)是最小化訓(xùn)練數(shù)據(jù)集的交叉熵:
式中:yi為真實(shí)標(biāo)簽;為預(yù)測(cè)結(jié)果。最后,在得到跨語(yǔ)言句子對(duì)的預(yù)測(cè)結(jié)果后,將最小化預(yù)測(cè)結(jié)果和真實(shí)結(jié)果之間的交叉熵作為損失函數(shù)來(lái)訓(xùn)練模型。
本文使用自行構(gòu)建的漢語(yǔ)-越南語(yǔ)可比語(yǔ)料庫(kù)和IWSLT15 英文-越南語(yǔ)可比語(yǔ)料庫(kù)訓(xùn)練模型。本節(jié)內(nèi)容安排:3.1 節(jié)介紹數(shù)據(jù)集;3.2 節(jié)介紹負(fù)采樣細(xì)節(jié);3.3 節(jié)介紹評(píng)價(jià)指標(biāo);3.4 節(jié)介紹實(shí)驗(yàn)參數(shù)設(shè)置;3.5 節(jié)介紹實(shí)驗(yàn)結(jié)果;3.6 節(jié)介紹消融實(shí)驗(yàn);3.7節(jié)介紹案例分析。
網(wǎng)絡(luò)爬取的漢-越可比語(yǔ)料庫(kù),目前在漢語(yǔ)到越南語(yǔ)低資源語(yǔ)言對(duì)上,缺乏公開(kāi)使用的漢-越數(shù)據(jù)集?;诖?,本文收集并構(gòu)建了一個(gè)漢-越平行語(yǔ)料庫(kù)。數(shù)據(jù)來(lái)源包括維基百科、雙語(yǔ)新聞網(wǎng)站、電影字幕等,在經(jīng)過(guò)數(shù)據(jù)清洗和對(duì)齊后,用作模型訓(xùn)練的正樣本。在訓(xùn)練模型時(shí),為了保持樣本數(shù)量的平衡,為每個(gè)正樣本構(gòu)造一個(gè)對(duì)應(yīng)的負(fù)樣本,由正負(fù)樣本構(gòu)成的可比語(yǔ)料庫(kù)用來(lái)訓(xùn)練模型。同時(shí)為了驗(yàn)證本文提出的平行句對(duì)抽取模型的性能,本文在構(gòu)建漢-越語(yǔ)料庫(kù)中手動(dòng)選擇日常表達(dá)和新聞文本數(shù)據(jù)作為測(cè)試集和驗(yàn)證集。表2 為實(shí)驗(yàn)的語(yǔ)料規(guī)模。
IWSLT15 英語(yǔ)-越南語(yǔ)可比語(yǔ)料庫(kù):本文使用標(biāo)準(zhǔn)的英語(yǔ)-越南語(yǔ)機(jī)器翻譯數(shù)據(jù)集來(lái)驗(yàn)證本文方法在公共數(shù)據(jù)集上提取真實(shí)平行句的性能。在原始數(shù)據(jù)集的基礎(chǔ)上,為訓(xùn)練集、驗(yàn)證集、測(cè)試集按照1 ∶1 的比例構(gòu)造負(fù)樣本。擴(kuò)充后的數(shù)據(jù)集作為完整的可比語(yǔ)料庫(kù)。可比語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明,該方法可以有效地識(shí)別數(shù)據(jù)集中的平行句對(duì)。具體的數(shù)據(jù)規(guī)模如表2 所示。
表2 實(shí)驗(yàn)數(shù)據(jù)集規(guī)模
在訓(xùn)練過(guò)程中,本文使用包含n個(gè)平行句對(duì)的平行語(yǔ)料庫(kù)。這些平行句作為本文訓(xùn)練集中的正樣本,對(duì)于每對(duì)平行句,本文隨機(jī)抽樣生成負(fù)樣本,因此本文的訓(xùn)練數(shù)據(jù)由2n個(gè)三元組組成(Sis,SiT,yi)。Sis代表源語(yǔ)言句子,SiT代表目標(biāo)語(yǔ)言句子。yi是表示Sis和SiT之間翻譯關(guān)系的標(biāo)簽。當(dāng)源語(yǔ)言句與目標(biāo)語(yǔ)言句為平行句時(shí),yi為1,反之為0。
平行句對(duì)抽取任務(wù)可以看作自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)基礎(chǔ)問(wèn)題,即文本二元分類問(wèn)題。使用精度(Precision,P)、召回率(Recall,R)和F1 值作為分類模型的評(píng)價(jià)指標(biāo)。精度代表平行句子在所有提取的句子中所占的比例。召回率表示在所有平行句子中所占的被分類正確的平行句子的比例。F1值代表精度和召回率的調(diào)和平均值。具體公式為:
式中:TP為提取出來(lái)真正平行句的數(shù)量;FP為被錯(cuò)認(rèn)為平行句的數(shù)量;FN為被錯(cuò)認(rèn)為非平行句的數(shù)量。
本文中的模型使用Pytorch 框架編寫(xiě)實(shí)現(xiàn),BERT 使用12 層每層768 維隱藏單元的隱藏層。注意頭的數(shù)量是12。模型訓(xùn)練了10 個(gè)時(shí)期。在訓(xùn)練過(guò)程中使用Adam[33]作為優(yōu)化器,批次大小設(shè)置為128,學(xué)習(xí)率是0.000 5,設(shè)置dropout 為0.2 來(lái)防止過(guò)擬合。
為了測(cè)試基于預(yù)訓(xùn)練語(yǔ)言模型及雙向交互注意力的平行句抽取模型的性能,本文進(jìn)行了一系列實(shí)驗(yàn),本節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行展示和分析,內(nèi)容安排為:第3.5.1節(jié)分析不同編碼方式對(duì)模型性能的影響,第3.5.2 節(jié)分析真實(shí)場(chǎng)景下的平行句對(duì)抽取結(jié)果,第3.5.3 節(jié)分析不同數(shù)據(jù)規(guī)模下的抽取效果,第3.5.4 節(jié)分析將所抽取數(shù)據(jù)使用到機(jī)器翻譯任務(wù)中對(duì)譯文質(zhì)量的影響。
3.5.1 不同編碼方式的實(shí)驗(yàn)結(jié)果及分析
為了研究不同編碼方式對(duì)模型性能的影響,驗(yàn)證文中所用預(yù)訓(xùn)練語(yǔ)言模型的有效性,在本節(jié)中使用不同的網(wǎng)絡(luò)作為編碼層,比較不同編碼方式下模型平行句對(duì)抽取的效果。首先,使用傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)、門控循環(huán)單元(Gate Recurrent Unit,,GRU)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),以及雙向網(wǎng)絡(luò)(BiRNN、BiLSTM、BiGRU)等替換模型中的預(yù)訓(xùn)練語(yǔ)言模型作為模型編碼層。其次,在編碼中引入注意力機(jī)制,包括將經(jīng)雙向網(wǎng)絡(luò)BIGRU生成的源語(yǔ)言和目標(biāo)語(yǔ)言表征通過(guò)注意力機(jī)制進(jìn)行特征交互的BIGRU+ATT,以及基于自注意力網(wǎng)絡(luò)的Transformer。最后,使用其他多語(yǔ)言預(yù)訓(xùn)練模型進(jìn)行平行句對(duì)抽取,包括針對(duì)跨語(yǔ)言相似表征的Sentence-BERT[34]和解決多語(yǔ)言句子嵌入表征的LASER。在保持其他設(shè)置不變的情況下,使用包含28 萬(wàn)正負(fù)樣本的漢-越數(shù)據(jù)分別訓(xùn)練不同的對(duì)比模型,并通過(guò)精度(P),召回率(R)和F1 值比較不同模型的性能。具體實(shí)驗(yàn)結(jié)果如表3 所示,其中,對(duì)比模型均使用獲得最佳性能的參數(shù)。
表3 不同模型在漢-越小規(guī)??杀日Z(yǔ)料庫(kù)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果 %
表3 中的實(shí)驗(yàn)結(jié)果表明,雙向網(wǎng)絡(luò)結(jié)構(gòu)在性能上優(yōu)于單向網(wǎng)絡(luò)結(jié)構(gòu)的模型,原因在于雙向網(wǎng)絡(luò)可以更好地表征輸入文本的上下文信息?;赥ransformer 的模型F1 值比基于RNN 模型下降了1.92%,筆者認(rèn)為是因?yàn)槠鋸?fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致模型參數(shù)過(guò)多,受限于訓(xùn)練數(shù)據(jù)的規(guī)模,模型并沒(méi)有得到充分訓(xùn)練,尚未達(dá)到擬合?;陬A(yù)訓(xùn)練模型的性能大幅優(yōu)于其他模型的性能,筆者將這歸因于數(shù)據(jù)規(guī)模對(duì)神經(jīng)網(wǎng)絡(luò)的性能起著至關(guān)重要的作用。預(yù)訓(xùn)練語(yǔ)言模型使用了海量的數(shù)據(jù)為單詞表示學(xué)習(xí)更好的語(yǔ)境化向量表示,從而為輸入文本生成更好的語(yǔ)義表征。與預(yù)訓(xùn)練模型Sentencebert 和Laser 相比,本文的模型有較為明顯的優(yōu)勢(shì),主要原因在于本文方法在得到預(yù)訓(xùn)練語(yǔ)義表征后,進(jìn)一步進(jìn)行了語(yǔ)義的對(duì)齊和融合,因此取得了更好的結(jié)果。
3.5.2 真實(shí)場(chǎng)景下的抽取結(jié)果
為驗(yàn)證模型與下游任務(wù)的適配能力,本文在包含26 萬(wàn)句對(duì)的英-越公共數(shù)據(jù)集上模擬真實(shí)的應(yīng)用場(chǎng)景,進(jìn)一步鑒別模型識(shí)別平行句對(duì)的能力。具體實(shí)驗(yàn)結(jié)果如表4 所示。
表4 不同模型在英-越可比語(yǔ)料庫(kù)實(shí)驗(yàn)結(jié)果 %
從表4 的實(shí)驗(yàn)結(jié)果可以看出,在英-越可比語(yǔ)料中,本文模型依然優(yōu)于其他方法,取得了最好的效果。這說(shuō)明本文模型擁有較強(qiáng)的語(yǔ)義信息捕獲能力,可有效捕獲平行句對(duì)。值得注意的是,在數(shù)據(jù)規(guī)模相似的情況下,表4 中的結(jié)果明顯優(yōu)于表3。筆者推測(cè),相較于中-越句對(duì),英語(yǔ)與越南語(yǔ)同屬一個(gè)語(yǔ)系,擁有更相近的語(yǔ)言形式,使得語(yǔ)義空間的對(duì)齊擁有更強(qiáng)的可操作性。結(jié)合表3 可知,本文模型在不同語(yǔ)言環(huán)境中表現(xiàn)出更強(qiáng)的魯棒性,擁有更強(qiáng)的泛化能力。
3.5.3 不同數(shù)據(jù)規(guī)模對(duì)比實(shí)驗(yàn)
為了進(jìn)一步研究數(shù)據(jù)規(guī)模對(duì)模型性能的影響,本文在漢-越語(yǔ)言對(duì)的數(shù)據(jù)集中添加了20 萬(wàn)的訓(xùn)練數(shù)據(jù)重新訓(xùn)練各模型,表5 的實(shí)驗(yàn)結(jié)果顯示了各模型在較大規(guī)模數(shù)據(jù)集下的性能。
表5 不同模型在漢-越較大規(guī)??杀日Z(yǔ)料庫(kù)的實(shí)驗(yàn)結(jié)果 %
實(shí)驗(yàn)結(jié)果表明,各種模型的性能都有了不同程度的提高,其中,基于Transformer 等復(fù)雜結(jié)構(gòu)的模型提升效果更加明顯,超越了基于循環(huán)神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu)簡(jiǎn)單的模型,這證明了本文在3.5.1 節(jié)中關(guān)于復(fù)雜模型對(duì)數(shù)據(jù)規(guī)模依賴性的猜想,即結(jié)構(gòu)復(fù)雜的模型因參數(shù)量更大而對(duì)訓(xùn)練數(shù)據(jù)的規(guī)模更加敏感,在小規(guī)模數(shù)據(jù)的情況下難以達(dá)到理想的效果。相反,其在大規(guī)模數(shù)據(jù)下則能實(shí)現(xiàn)更好的擬合,學(xué)習(xí)更多的上下文信息,從而生成更好的文本表征。與其他模型的提升幅度相比,這種模型顯示出更強(qiáng)的穩(wěn)健性,究其原因是其在小規(guī)模數(shù)據(jù)中表現(xiàn)出的強(qiáng)競(jìng)爭(zhēng)力,證明基于預(yù)訓(xùn)練模型方法對(duì)數(shù)據(jù)規(guī)模的魯棒性,可以在更少的數(shù)據(jù)量上達(dá)到理想的效果。
3.5.4 機(jī)器翻譯性能評(píng)估
本文的目標(biāo)是通過(guò)過(guò)濾網(wǎng)絡(luò)數(shù)據(jù)來(lái)擴(kuò)展平行語(yǔ)料庫(kù)的規(guī)模,擴(kuò)寬覆蓋領(lǐng)域,從而提高低資源機(jī)器翻譯模型的性能。為了驗(yàn)證通過(guò)本文的方法提取的平行句對(duì)機(jī)器翻譯模型性能的影響,本文在兩個(gè)低資源語(yǔ)言對(duì)上構(gòu)建了神經(jīng)機(jī)器翻譯模型,分別為漢語(yǔ)-越南語(yǔ)和英語(yǔ)-越南語(yǔ)。本文使用Facebook開(kāi)源的pytorch 版本的fairseq 框架訓(xùn)練神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)模型,并通過(guò)NMT模型的雙語(yǔ)互譯質(zhì)量輔助工具(Bilingual evaluation understudy,BLEU)評(píng)分來(lái)評(píng)估其質(zhì)量。翻譯模型由6 層編碼器-解碼器的序列到序列結(jié)構(gòu)組成。
表6 中的結(jié)果顯示了不同規(guī)模的訓(xùn)練數(shù)據(jù)下的BLEU 得分。實(shí)驗(yàn)結(jié)果表明,加入提取到的25 萬(wàn)平行句后,漢-越機(jī)器翻譯系統(tǒng)的BLEU 分?jǐn)?shù)從20.21 增加到22.32。英-越機(jī)器翻譯系統(tǒng)的BLEU分?jǐn)?shù)從30.86 增加到32.34。這進(jìn)一步證明了本文的方法可以有效地提取平行句對(duì),可以用于擴(kuò)展多語(yǔ)言平行語(yǔ)料庫(kù)。本文方法為緩解資源緊缺的神經(jīng)機(jī)器翻譯系統(tǒng)缺乏訓(xùn)練數(shù)據(jù)的問(wèn)題提供了有效的解決方案,提取出的語(yǔ)義一致的平行句對(duì)有利于神經(jīng)機(jī)器翻譯系統(tǒng)性能的提升。
表6 數(shù)據(jù)規(guī)模對(duì)機(jī)器翻譯性能的影響
為了分析模型不同模塊對(duì)抽取結(jié)果的影響,更好地理解不同部分在模型中的具體效用,本文進(jìn)行了一系列消融實(shí)驗(yàn)。實(shí)驗(yàn)中,本文針對(duì)不同的組件對(duì)主模型進(jìn)行刪除簡(jiǎn)化,或改變某一模塊的策略得到不同的變種模型。實(shí)驗(yàn)結(jié)果展示在表7 中。表7中的幾類模型為改變部分主模型結(jié)構(gòu)得到的消融模型,具體細(xì)節(jié)介紹如下文所述。
表7 消融模型實(shí)驗(yàn)結(jié)果 %
(1)EP 模型:刪除語(yǔ)義對(duì)齊層和語(yǔ)義融合層,具體研究核心組件語(yǔ)義對(duì)齊層和語(yǔ)義融合層對(duì)模型性能的影響。輸入的跨語(yǔ)言文本經(jīng)過(guò)語(yǔ)義編碼層之后,將生成的語(yǔ)句表征直接送入語(yǔ)義預(yù)測(cè)層,僅利用多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型自身對(duì)不同語(yǔ)言的表征差異性完成對(duì)跨語(yǔ)言句對(duì)的分類。
(2)EAP 模型:刪除語(yǔ)義融合層,具體研究從多視角融合編碼層和對(duì)齊層語(yǔ)義信息,全局比較特征向量的相似性和差異性的語(yǔ)義融合層對(duì)模型性能的影響。輸入的跨語(yǔ)言文本首先經(jīng)過(guò)語(yǔ)義編碼層得到語(yǔ)義表征,并進(jìn)一步經(jīng)語(yǔ)義對(duì)齊層進(jìn)行交叉表征,學(xué)習(xí)相互之間的依賴關(guān)系,最后進(jìn)入語(yǔ)義預(yù)測(cè)層進(jìn)行分類。
(3)EAFP-A 模型:與本文方法不同的是,將語(yǔ)義對(duì)齊層的學(xué)習(xí)策略替換為遵循Parikh 等人[35]方法的一種簡(jiǎn)單的注意力機(jī)制,在更少的模型參數(shù)下學(xué)習(xí)跨語(yǔ)言文本的相互依賴關(guān)系。
(4)EAFP-B 模型:與本文方法不同的是,語(yǔ)義對(duì)齊層的學(xué)習(xí)策略替換為自注意力(selfattention)機(jī)制,加強(qiáng)跨語(yǔ)言文本本身的語(yǔ)義表征,不考慮彼此之間的文本交互關(guān)系。
從表7 中的結(jié)果可以看出,文中所用方法在精確率、召回率和F1 值方面均優(yōu)于其他變種模型,證明了基于預(yù)訓(xùn)練語(yǔ)言模型及雙向交互注意力的平行句對(duì)抽取方法的有效性。其中,刪除語(yǔ)義對(duì)齊層和語(yǔ)義融合層之后的EP 相較于本文模型EAFP,模型精確率下降了12.28%,F(xiàn)1 值下降了8.98%。精確率的大幅下降表明,在原始語(yǔ)義特征相差較大時(shí),被區(qū)分為負(fù)類的樣本數(shù)大幅增加,說(shuō)明僅使用原始預(yù)訓(xùn)練語(yǔ)言模型輸出的語(yǔ)義表征對(duì)深層語(yǔ)義特征的區(qū)分效果不佳,并不能有效區(qū)分不同語(yǔ)言之間的語(yǔ)義差異性,需要對(duì)其進(jìn)行進(jìn)一步的對(duì)齊融合。與此相比,當(dāng)添加了語(yǔ)義對(duì)齊層和語(yǔ)義融合層之后,模型性能有了顯著的提高。EAP 模型相比于EP,F(xiàn)1值有了明顯的提升,原因在于語(yǔ)義融合層從多視角比較語(yǔ)義的局部表示和對(duì)齊表示,可以更好地區(qū)分語(yǔ)義特征的相似性和差異性,保證了結(jié)果的準(zhǔn)確性。最后,改變語(yǔ)義對(duì)齊層學(xué)習(xí)策略后的EAFP-A 和EAFP-B 相較于本文模型,F(xiàn)1 值分別下降了1.79%和2.19%,表明基于雙向交互的注意力機(jī)制可以更好地學(xué)習(xí)跨語(yǔ)言句子之間的交互信息,且較大模型有助于語(yǔ)言特征的準(zhǔn)確表達(dá)。
總的來(lái)說(shuō),模型各模塊在保證模型性能方面發(fā)揮著不同的作用,對(duì)語(yǔ)義的表達(dá)和最終有效抽取句對(duì)都必不可少,也再次說(shuō)明本文所提出的基于預(yù)訓(xùn)練語(yǔ)言模型及雙向交互注意力的平行句對(duì)抽取方法的強(qiáng)大效果。
本文提出一個(gè)具體的實(shí)例分析,來(lái)展示序列間的結(jié)果在本模型中的演變過(guò)程。依據(jù)注意力權(quán)重體現(xiàn)模型所學(xué)習(xí)的語(yǔ)義交互關(guān)系,從漢-越驗(yàn)證集中選擇一對(duì)例句。源語(yǔ)言句是“當(dāng)你打開(kāi)開(kāi)關(guān)時(shí),燈會(huì)亮起。”,目標(biāo)句是.”。圖2 顯示了跨語(yǔ)言對(duì)齊層中注意力分布的可視化結(jié)果(方程3)。圖中顏色的深淺代表了詞與詞的語(yǔ)義的相關(guān)程度。語(yǔ)義相關(guān)性越強(qiáng)的兩個(gè)單詞對(duì)應(yīng)的顏色越深。
圖2 注意力權(quán)重可視化結(jié)果
在網(wǎng)絡(luò)資源存在大量噪聲數(shù)據(jù)的前提下,本文提出了一種基于預(yù)訓(xùn)練語(yǔ)言模型及雙向交互注意力的跨語(yǔ)言文本語(yǔ)義匹配方法。使用預(yù)訓(xùn)練語(yǔ)言模型,在資源有限的情況下,為跨語(yǔ)言句對(duì)生成語(yǔ)境化的語(yǔ)義表示。利用雙向交互注意力在公共語(yǔ)義空間中對(duì)跨語(yǔ)言句對(duì)進(jìn)行語(yǔ)義對(duì)齊,最后得到跨語(yǔ)言句對(duì)的關(guān)系判定,實(shí)現(xiàn)了從可比語(yǔ)料庫(kù)中提取深層語(yǔ)義一致的雙語(yǔ)平行句子擴(kuò)充雙語(yǔ)平行語(yǔ)料庫(kù),進(jìn)而緩解了資源匱乏的語(yǔ)言對(duì)缺乏訓(xùn)練數(shù)據(jù)的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于其他模型,本文提取的平行句對(duì)進(jìn)一步提高了低資源神經(jīng)機(jī)器翻譯的性能。在未來(lái)的工作中,筆者希望將此方法擴(kuò)展到其他非主流語(yǔ)言的研究中。