李笑萌,張亞飛,郭軍軍,高盛祥,余正濤
(昆明理工大學信息工程與自動化學院,云南省人工智能重點實驗室,云南 昆明 650500)
跨語言摘要任務旨在為給定的一篇源語言文本生成另一種語言的摘要.跨語言摘要的傳統(tǒng)方法是將源語言文本翻譯到目標語言,然后對翻譯后的文本進行摘要[1-2];或者先對源語言文本進行摘要,然后將源語言摘要翻譯到目標語言[3-5].然而,目前機器翻譯(MT)性能仍不能達到預期效果,存在結(jié)果錯誤傳播的問題,尤其針對越南語等低資源語言,錯誤傳播的問題更為顯著.
近年來,跨語言摘要任務的研究方法主要是基于端到端的跨語言摘要方法.Zhu等[6]基于端到端的模型,利用大規(guī)??缯Z言摘要數(shù)據(jù)來實現(xiàn)跨語言摘要性能的提升,這也是第一個使用大規(guī)模的平行語料訓練端到端跨語言摘要模型的方法,但是目前缺乏大規(guī)模高質(zhì)量的跨語言摘要數(shù)據(jù)集.為了在少量的標注數(shù)據(jù)下使得端到端的跨語言摘要模型獲得更好的性能:Yana等[7]基于訓練后的MT模型和單語摘要(MS)模型,將兩者作為教師模型來教授跨語言摘要的學生模型;后來,Duan等[8]將Transformer模型作為MS教師模型和學生模型的主干,進一步提升摘要的質(zhì)量.但是這種教師-學生模型只能把有限的知識傳遞給學生模型.因此,為了使模型具備更好的跨語言學習的能力,基于預訓練語言模型的跨語言摘要方法被提出,該方法通過預訓練語言模型,使模型提前具備跨語言學習的能力,從而使模型獲得更好的性能.Xu等[9]提出了一種混合語言預訓練模型,通過掩碼語言模型(MLM)、MS等進行預訓練,為了提高模型跨語言學習的能力,預先訓練的模型基于MT模型等提前從大量MT標注數(shù)據(jù)中學習語言知識.以上跨語言摘要任務主要是在漢英等富資源情況下進行,對于越南語等低資源語言情況并不適用.
目前,也有少量的研究是基于知識增強的方法來獲得較好的低資源跨語言摘要效果.Li等[10]提出自動摘要的正確性問題,通過聯(lián)合學習摘要生成和文本隱含知識,提出了隱含感知解碼器,通過用隱含信息豐富的編碼器和解碼器,來提高摘要的準確性.該研究結(jié)果表明:通過文本隱含知識增強模型的表征可提高摘要的準確性,這也說明將基于知識的學習融入摘要模型對于摘要模型性能的提升非常重要.傳統(tǒng)的基于知識增強的跨語言摘要方法是通過構建雙語詞典,將作為輸入的源語言文本和目標語言的參考摘要通過對齊的雙語詞典映射至同一語義空間,實現(xiàn)跨語言摘要.但是對于越南語等低資源來講,獲取對齊的雙語詞典數(shù)據(jù)十分困難,較難實現(xiàn)跨語言語義對齊,而漢越概率映射對是一種針對語料庫級別的全局知識,能夠盡可能地反映雙語之間的對應關系.基于數(shù)據(jù)驅(qū)動的端到端的跨語言摘要模型在低資源情況下由于沒有先驗知識指導,不能有效關注到源語言文本中的核心內(nèi)容,導致生成的摘要出現(xiàn)內(nèi)容偏差的問題,而關鍵詞包含了源文的重要內(nèi)容,是對源文的有效增強,因此從源語言文本中挖掘關鍵詞信息并映射至目標語言生成相關的上下文,對于生成簡潔、語義正確的跨語言摘要尤為重要.2017年,See等[11]提出指針生成器網(wǎng)絡,實現(xiàn)了從源文本復制單詞.受See等[11]的啟發(fā),本文認為通過指針生成器網(wǎng)絡實現(xiàn)關鍵詞的概率映射作為先驗知識,可以增強模型跨語言表征的能力,指導摘要的生成.因此,針對標注數(shù)據(jù)稀缺導致的跨語言對齊困難等問題,本文提出了關鍵詞概率映射,不僅關注了文本中的重要信息,且在一定程度上解決了跨語言對齊困難的問題.總體來說,本文的主要貢獻包括以下兩個方面:
1) 提出了融合關鍵詞概率映射的漢越低資源跨語言摘要方法(low resource cross-language summarization of Chinese-Vietnamese combined with keyword probability mapping,C-Vcls),通過獲取關鍵詞的概率映射信息來改善漢越低資源跨語言摘要較難實現(xiàn)跨語言語義對齊,摘要質(zhì)量差的問題;
2) 在構建的10萬漢越低資源跨語言摘要數(shù)據(jù)集上進行對比實驗,結(jié)果證明本文所提模型在漢越低資源跨語言摘要任務上的有效性和優(yōu)越性.
本文C-Vcls模型基于Transformer框架,由融合關鍵詞概率映射的文本表征和融合關鍵詞概率映射的解碼端構成,模型框架如圖1所示.首先,獲取源語言文本的關鍵詞G,與源語言文本X的隱狀態(tài)表征Z通過編解碼注意力機制獲取第s個關鍵詞與源語言文本的聯(lián)合表征?s,查詢得到每一個關鍵詞對應漢越概率映射對中的源語言詞,通過注意力機制獲得第s個關鍵詞(詞向量表示為ws)對應到目標語言詞(詞向量表示為w)的概率P(ωs?ω),最后通過指針網(wǎng)絡,結(jié)合解碼端生成的目標詞的概率大小PN(ω)獲得最后的分布P(ω).
給定一組跨語言摘要數(shù)據(jù)集D:D={X,Y},其中X為源語言文本輸入序列,即X={x1,x2,…,xn},Y為目標語言參考摘要輸入序列,即Y={y1,y2,…,ym}.n,m跟隨源序列長度變化,n>m.
編碼端輸入的源語言文本通過編碼器得到輸出的隱狀態(tài)表征Z,如式(1)所示.
Z=[z1,z2,…,zl,…,zn].
(1)
本文使用的關鍵詞抽取方法為關鍵詞提取算法TextRank[12].基于此算法,對每篇源語言文本提取q個最重要的關鍵詞,即關鍵詞集合G由式(2)所示:
G={g1,g2,…,gs,…,gq}=
TextRank(x1,x2,…,xn).
(2)
然后,通過編解碼注意力機制對關鍵詞和源語言文本進行聯(lián)合表征,構建關鍵詞到源語言文本的注意力,計算第s個關鍵詞gs對于源語言文本的注意力得分,如式(3)所示.
(3)
為了對關鍵詞信息進行跨語言對齊,映射至目標語言,本文采用漢越概率映射對進行實現(xiàn).漢越概率映射對的構建在本文構建的漢越跨語言摘要數(shù)據(jù)集D上進行.設C={c1,c2,…,ci,…,cj}為D中源語言詞的集合,V={v1,v2,…,vk,…,vr}為D中相對應的目標語言的映射候選詞的集合,j,r表示集合的大小.如圖1中概率映射對構建模塊可知,在對應關系中,可以映射為源語言詞“我”的映射候選詞有“Chúng”“ti”,其中“我→ti”表示一個映射對,利用統(tǒng)計的思想,即“我”映射為“Chúng”的概率為1/3,映射為“ti”的概率為2/3.為了實現(xiàn)這一功能,本文利用Dyer等[13]提出的快速對齊方法和統(tǒng)計的思想,通過快速對齊方法得到每一個源語言詞ci映射為目標語言vk的概率為:
(4)
其中,ci→vk表示一個映射對,‖{ci|ci→vk}‖表示數(shù)據(jù)集D中源語言集合中所有滿足映射關系ci→vk的詞ci的個數(shù),‖{vk|ci→vk}‖表示滿足映射關系ci→vk的映射候選詞vk的個數(shù),PMP表示漢越概率映射對在數(shù)據(jù)集D中源語言詞可以映射為滿足映射關系的映射候選詞的概率.
為了將關鍵詞映射到目標語言,本文使用了編解碼注意力機制查詢得到每一個關鍵詞對應漢越映射對中的源語言詞,進而得到該關鍵詞的映射候選詞.如圖1所示,為了將關鍵詞“我”映射至目標語言,首先查詢得到“我”在漢越概率映射對中對應的源語言詞的位置,進而得到對應的映射候選詞“Chúng”“ti”等,然后利用編解碼注意力機制,構建關鍵詞到映射候選詞的注意力,即計算出每一個關鍵詞對應其漢越映射概率對的映射概率,取其映射概率最大的映射候選詞“ti”作為目標語言關鍵詞.具體如公式(5)所示.
圖1 融合關鍵詞概率映射的漢越低資源跨語言摘要方法框架Fig.1 Low resource cross-language summarization of Chinese-Vietnamese combined with Kp-mapping
(5)
在得到關鍵詞的概率映射信息后,融合模塊的功能是將關鍵詞概率映射信息融合到跨語言摘要生成過程中,指導摘要的生成.本文利用See等[11]提出的指針網(wǎng)絡,通過生成概率Pgen來確定最后生成的摘要詞匯分布.
使用O作為解碼器在時刻t的隱狀態(tài),計算時刻t的生成概率Pgen,Pgen∈(0,1),如式(6)所示.
Pgen=δ(W2(W1O+b1)+b2),
(6)
其中,W1∈Rdmodel×dmodel、W2∈R1×dmodel是學習矩陣,b1∈Rdmodel、b2∈R是偏置向量,dmodel表示此時隱狀態(tài)的維度,δ是sigmoid函數(shù).本文中,Pgen被用作一個軟開關,用于選擇從解碼端生成一個單詞,或者選擇從關鍵詞中復制一個單詞.那么,生成一個單詞的概率P(ω)如式(7)所示.
P(ω)=Pgen∑s?sP(ωs?ω)+
(1-Pgen)PN(ω),
(7)
其中,P(ωs?ω)表示關鍵詞ωs映射到詞ω的概率大小,PN(ω)表示本模型的解碼端生成的詞ω的概率大小,P(ω)是通過生成概率Pgen決定的最終生成摘要的詞匯分布.
本文數(shù)據(jù)來自互聯(lián)網(wǎng)爬取,基于Zhu等[6]提出的往返翻譯的策略,獲得了質(zhì)量較高的10萬漢越、漢英跨語言摘要數(shù)據(jù)集(https:∥github.com/Lxmllx/C-Vcls-dataset/tree/master),其中有效詞數(shù)為數(shù)據(jù)集文本分詞去重后的剩余詞數(shù).表1中列出了本文數(shù)據(jù)集的統(tǒng)計信息.分詞處理過程中,漢語使用結(jié)巴分詞,越南語使用Vu等[14]提出的VnCoreNLP進行分詞,英語采用其本身的詞級結(jié)構.
表1 數(shù)據(jù)集統(tǒng)計結(jié)果
本文利用自動摘要中常用的ROUGE(recall-oriented understudy for gisting evaluation)值作為評價指標[15],它通過比較候選摘要與參考摘要中共現(xiàn)的n元詞組(n-gram)來評價候選摘要的質(zhì)量,其計算方法為:
ROUGE-N=
(8)
其中,n-gram表示n元詞組,AR表示標準的參考摘要,As表示生成摘要句,N(n-gram)表示參考摘要中n元詞組的個數(shù),Nmatch(n-gram)表示生成摘要句與參考摘要句共同包含的n元詞組的個數(shù).根據(jù)n-gram的不同,本文采用ROUGE-1(一元組、RG-1),ROUGE-2(二元組、RG-2),ROUGE-L(最長子序列、RG-L)來評價參考摘要的好壞.
本文所有實驗均基于Transformer架構,采用Adam優(yōu)化器,其中,β1=0.9,β2=0.998,ε=1×10-9.在訓練過程中使用的標簽平滑率els=0.1.在驗證時使用波束大小為4且長度罰分α=0.6的波束搜索.本文采用的學習率lr=0.1,批次大小設為2 048,dropout為0.1,編碼器和解碼器層數(shù)、模型隱層大小、前饋隱層大小和頭數(shù)分別為6,1 024,2 048和8.本文設置編解碼器詞表大小為:漢語10萬,英語和越南語均為1萬,未登錄詞使用
本文選擇TETran、TLTran、NCLS模型作為基準模型,所有基準模型的訓練集、驗證集和測試集劃分均與本文模型相同.
1) TETran模型和TLTran模型為傳統(tǒng)的跨語言摘要模型,其中TETran模型表示先利用MT模型將源語言文本翻譯到目標語言,然后使用LexRank[16]模型對翻譯后的源文檔進行摘要.TLTran模型表示先利用MS模型對源語言文本進行摘要,然后利用翻譯模型將生成的源語言摘要翻譯至目標語言.
2) NCLS[6]模型是一種基于Transformer的端到端的跨語言摘要模型.
3) C-Vcls模型是本文實現(xiàn)的基于Transformer的序列到序列模型.此模型引入關鍵詞的概率映射信息作為先驗知識.
2.5.1 實驗結(jié)果
為了證明本文融合關鍵詞概率映射方法在漢越低資源跨語言摘要任務上的優(yōu)勢,將本文模型與現(xiàn)有基準模型在漢越跨語言摘要數(shù)據(jù)集上進行實驗對比,表2給出了本文模型與基準模型在漢越跨語言摘要測試集上的RG-1,RG-2和RG-L的對比結(jié)果.
表2 漢越跨語言摘要模型的實驗結(jié)果對比
由表2可知:TLTran優(yōu)于TETran,說明先翻譯后摘要的方法更容易受MT性能的影響,發(fā)生錯誤傳播.C-Vcls模型與傳統(tǒng)的TLTran、TETran模型相比,在RG-1,RG-2和RG-L上分別取得了1.10,0.07,1.51和6.03,2.30,4.71個百分點的提升,這也說明了不僅關鍵詞概率映射的策略可以有效緩解越南語MT性能不佳引起的摘要質(zhì)量差的問題,通過獲得源文關鍵詞的聯(lián)合表征還可以獲得更好的上下文表示,使生成的摘要更精準.另外,C-Vcls模型與端到端的NCLS模型相比,在RG-1,RG-2和RG-L上取得了3.85,0.89,2.83個百分點的提升,相較于需要大規(guī)模語料的端到端的NCLS模型,本文構建源文關鍵詞的聯(lián)合表征并融入關鍵詞的概率映射,通過先驗知識增強模型的跨語言表征能力,降低了模型對語料規(guī)模的要求,從而取得了更優(yōu)的性能.因此,通過以上分析,可以得出明確結(jié)論:本文提出的關鍵詞概率映射方法是一種有效的方法,可以有效提高端到端模型的性能.
2.5.2 融合關鍵詞概率映射方法的有效性分析
在2.5.1節(jié)中,融合關鍵詞概率映射方法能有效提高端到端模型的性能.為了進一步證明本文融合關鍵詞概率映射模塊在漢越低資源跨語言摘要任務上的合理性,本文設置了多組實驗進行驗證.
1) 關鍵詞融入的有效性
表3中給出了關鍵詞個數(shù)q不同時,C-Vcls模型在漢越跨語言摘要測試集上的RG-1,RG-2,RG-L的比對結(jié)果.
表3 關鍵詞個數(shù)對C-Vcls模型的影響
分析表3可知,q=5時,模型取得了更優(yōu)的性能.隨著q從0增加到5,C-Vcls模型在漢越跨語言摘要測試集上指標RG-1、RG-2和RG-L不斷增加.與q=0相比,q=5時在指標RG-1、RG-2和RG-L上分別獲得了3.85、0.89、2.83個百分點的性能提升.原因可能是隨著關鍵詞個數(shù)的增多,獲得的文本關鍵信息越多,對摘要的指導性越強,獲得的摘要越可靠.綜上,表明了關鍵詞等先驗知識對摘要模型的指導可以有效提升低資源摘要模型的性能.
2) 概率映射策略的有效性
為驗證概率映射策略的有效性,本文在概率映射詞典的大小上進行相關實驗.根據(jù)詞頻設置概率映射詞典大小為25 087,36 368,39 311,42 399,表4中給出了本文模型在漢越跨語言摘要數(shù)據(jù)集上的RG-1、RG-2、RG-L的比對結(jié)果,其中覆蓋率為概率映射詞典相對于關鍵詞詞數(shù)的占比(此處由TextRank得到的關鍵詞未進行去重,故覆蓋率的分母不一樣).
表4 概率映射詞典對模型的影響
分析表4可知,概率映射詞典大小為39 311是性能最好的,在指標RG-1、RG-2和RG-L上,相較概率映射詞典大小為25 087,36 368,42 339時分別有6.09,2.27,4.46,3.73,2.01,1.91;0.03,-0.01,0.04個百分點的提升.概率映射詞典大小為25 087時的漢越跨語言摘要效果較差,主要原因可能是覆蓋率僅有52.37%,此時詞典的噪聲較大,覆蓋率較低,在進行映射時不能對關鍵詞進行有效映射,導致部分關鍵詞不起作用,相對于其它模型的結(jié)果(表2),甚至會降低摘要的效果;但是在概率映射詞典為39 311和42 339時,摘要效果相對于其它模型的結(jié)果(表2),仍有提升,但是兩者相差不大,這是由于最終生成摘要的單詞分布由概率映射詞典、翻譯概率、神經(jīng)網(wǎng)絡模型生成單詞的分布共同決定,可能產(chǎn)生的不確定性較大.綜上,說明了概率映射詞典這一策略在漢越跨語言摘要任務上的有效性,但是概率映射詞典對于關鍵詞的覆蓋率在一定程度上影響了模型的性能.
3) 概率映射以及指針網(wǎng)絡對于C-Vcls模型的有效性
為驗證本文所結(jié)合的概率映射以及指針網(wǎng)絡策略的作用,本文在漢越低資源跨語言摘要數(shù)據(jù)集上進行相關實驗.其中,C-Vcls-MP模型是在C-Vcls模型的基礎上減少概率映射模塊,C-Vcls-PN模型是在C-Vcls模型的基礎上減少指針網(wǎng)絡模塊而選擇直接拼接Pgen∑s?sp(ws?w)與(1-Pgen)pN(w)的方式進行關鍵詞的融合.
分析表5可知,C-Vcls模型取得了更好的效果.C-Vcls模型較C-Vcls-MP模型在指標RG-1、RG-2和RG-L上取得了4.77,4.52和3.21個百分點的提升,該結(jié)果表明當關鍵詞不進行概率映射時,摘要結(jié)果下降最為嚴重且摘要性能低于NCLS模型,可能是由于關鍵詞不進行映射時,會給模型引入更多的噪聲,說明關鍵詞概率映射模塊在模型中起著至關重要的作用,能夠建模關鍵詞映射到目標語言作為先驗知識指導跨語言摘要的生成.而C-Vcls-PN模型相對于C-Vcls模型,在指標RG-1、RG-2和RG-L上的性能分別下降了2.45,2.74和2.26個百分點;但是相較NCLS模型,RG-L指標上仍然取得了0.57個百分點的增幅,這也說明,盡管融合的方式不同,但是融入關鍵詞概率映射信息到端到端的模型中確實對模型性能的提升是有幫助的,而且指針網(wǎng)絡的融合方式優(yōu)于直接拼接的融合方式.綜合以上分析,本文所提概率映射以及指針網(wǎng)絡進行融合的方式對模型的性能提升是有益的.
表5 概率映射、指針網(wǎng)絡對C-Vcls模型的影響
4) C-Vcls模型與基準模型在漢英跨語言摘要測試集上的對比
為了驗證本文所提模型的泛化性,本文在漢英跨語言摘要數(shù)據(jù)集上進行實驗.表6給出了本文模型與基準模型在漢英跨語言摘要數(shù)據(jù)集上的RG-1、RG-2和RG-L的比對結(jié)果.
表6 漢英跨語言摘要模型的實驗結(jié)果對比
分析表6可知,本文模型的指標均優(yōu)于基準模型.C-Vcls模型較TLTran模型和TETran模型在指標RG-1、RG-2、RG-L上分別有1.56,0.67,2.30和6.22,3.83,4.57個百分點的提升;較NCLS模型有5.30,3.67,2.98個百分點的提升.根據(jù)表2和6可以看出,同樣數(shù)量級的數(shù)據(jù)在同樣的基準模型上,不同的數(shù)據(jù)集取得的結(jié)果有所差異,且在漢英跨語言摘要數(shù)據(jù)集上的實驗結(jié)果低于漢越跨語言摘要數(shù)據(jù)集.主要原因是因為雖然越南語和英文構造的詞典均為1萬,但根據(jù)越南語和英文文本構造特點及本文數(shù)據(jù)集的有效詞數(shù)來看,越南語詞典對于測試集文本的覆蓋率高于英文詞典對于測試集文本的覆蓋率,即漢越跨語言摘要的實驗結(jié)果沒有大量未登錄詞
為了進一步驗證算法的有效性,本文列舉了不同模型的摘要結(jié)果.具體如表7所示,源語言文本與標準摘要都來自漢越跨語言摘要數(shù)據(jù)集.本文列舉出了所有基準模型的輸出結(jié)果作為對比,為了便于理解,本文給出了對應漢語的翻譯結(jié)果.
分析表7可知,源語言文本主要講述19名前往張家口的驢友被困海坨山,其中15名驢友失去聯(lián)系的事實.由于模型限制,傳統(tǒng)模型TETran模型表達出了19名來自河北石家莊的朋友,但是并沒有表述出15名前往張家口的朋友在河北失去聯(lián)系的關鍵信息;TLTran模型表現(xiàn)相對較好,但是仍然沒有表輸出“張家口”的關鍵事實.而對于端到端的C-Vcls模型和NCLS模型均能表達出“15名驢友”的主要信息,但是NCLS模型,并沒有體現(xiàn)出其“失去聯(lián)系”的關鍵信息,且內(nèi)容過于冗雜,而本文提出的融合關鍵詞概率映射的策略,獲取源文中的關鍵詞“北京”“失去”“聯(lián)系”等映射至目標語言,通過有關鍵詞概率映射信息等具有引導性信息的融入增強了模型的跨語言表征能力,提高了摘要的信息覆蓋度以及事實性,生成質(zhì)量更高的文本摘要.
表7 不同模型生成摘要樣例
針對漢越低資源跨語言摘要,本文在Transformer框架下,提出關鍵詞概率映射方法.通過實驗證明,在低資源情況下,通過獲取源語言文本的關鍵詞信息映射至目標語言指導摘要生成的方式,對漢越低資源跨語言摘要任務存在一定的提升,通過實驗也可以證明,利用關鍵詞概率映射信息可以為跨語言摘要模型提供更豐富的指導信息,也證明本文提出的方法對低資源跨語言摘要任務可能是更加有效的.多模態(tài)等多源信息是對文本內(nèi)容的高度概括,可以很好的對文本內(nèi)容進行信息補充.因此,如何利用多模態(tài)信息對跨語言摘要進行指導是下一步研究的重點.