唐嘉蕊,劉美玲,趙鐵軍,周繼云
(1. 東北林業(yè)大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,黑龍江 哈爾濱 150006;2. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)系,黑龍江 哈爾濱 150001;3. 約翰斯·霍普金斯大學(xué) 利伯研究所,USA Baltimore MD21218)
多文檔摘要指的是在保留關(guān)鍵信息的情況下從同一主題相關(guān)的多個(gè)文檔集合中生成簡(jiǎn)潔的摘要,其各個(gè)文檔包含的信息雖屬于同一個(gè)主題卻并不相同。近年來(lái),互聯(lián)網(wǎng)科技迅速發(fā)展,使得我們能夠在各種社交媒體上迅速獲得大量的數(shù)據(jù)信息,同時(shí)隨著新聞的快速傳播,從同一主題的新聞中獲取關(guān)鍵信息顯得至關(guān)重要。隨著深度學(xué)習(xí)技術(shù)在多文檔摘要方面的廣泛應(yīng)用以及大規(guī)模數(shù)據(jù)集的發(fā)布,如WikiSum[1]、MultiNews[2],生成式的多文檔摘要取得了突破性進(jìn)展。
隨著B(niǎo)ERT[3]等預(yù)訓(xùn)練語(yǔ)言模型的提出,將大規(guī)模語(yǔ)料庫(kù)訓(xùn)練好的語(yǔ)言模型應(yīng)用于下游NLP任務(wù),對(duì)BERT模型進(jìn)行微調(diào),使其能夠更好地編碼文本的上下文信息,捕捉到更深層的語(yǔ)義信息。最近在文本摘要方面,很多工作加入了預(yù)訓(xùn)練語(yǔ)言模型,Liu等人[4]首先提出將BERT模型作為預(yù)訓(xùn)練模型應(yīng)用于文本摘要任務(wù),作者通過(guò)對(duì)BERT模型進(jìn)行微調(diào),通過(guò)將文檔中的句子用[CLS]符號(hào)分割來(lái)學(xué)習(xí)句子表征,并且更改了區(qū)間分割嵌入來(lái)區(qū)分不同句子,作者還提出通過(guò)對(duì)編碼器和解碼器選取不同的優(yōu)化器來(lái)解決預(yù)訓(xùn)練模型編碼器和解碼器不匹配的問(wèn)題。目前在多文檔摘要方面,雖然有加入預(yù)訓(xùn)練模型來(lái)提高模型性能的工作,但是并沒(méi)有考慮帶有事實(shí)信息的預(yù)訓(xùn)練模型來(lái)提升模型生成的事實(shí)一致性的工作。
對(duì)于生成式的多文檔摘要,獲取文本中豐富的語(yǔ)義信息對(duì)于生成連貫的摘要是非常重要的。以往的工作中,大部分生成式模型采用詞級(jí)語(yǔ)言生成,也有采用詞級(jí)與句子級(jí)進(jìn)行信息融合的摘要模型,以及應(yīng)用段落級(jí)和篇章級(jí)的生成模型,能夠充分獲得豐富的文本信息。但在目前的工作中缺乏實(shí)體級(jí)的語(yǔ)義信息與其他語(yǔ)義單元的信息融合的生成式模型,從而無(wú)法獲得豐富層次化的具有結(jié)構(gòu)信息的自然語(yǔ)言文本。
在本文中,我們針對(duì)具有結(jié)構(gòu)化的實(shí)體信息可以增強(qiáng)生成式摘要的事實(shí)一致性,并且融合了實(shí)體-關(guān)系信息的預(yù)訓(xùn)練語(yǔ)言模型,能夠使文本獲得更高層級(jí)的語(yǔ)義表征。本文提出了基于實(shí)體信息增強(qiáng)以及多粒度融合的多文檔摘要模型,它采用了融合了實(shí)體-關(guān)系結(jié)構(gòu)化信息的ERNIE預(yù)訓(xùn)練模型[5]來(lái)訓(xùn)練文本,來(lái)實(shí)現(xiàn)信息增強(qiáng),將結(jié)構(gòu)化的帶有實(shí)體-關(guān)系的知識(shí)圖通過(guò)transE算法[6]嵌入到預(yù)訓(xùn)練模型中,并實(shí)現(xiàn)了實(shí)體對(duì)齊,獲得摘要所需的實(shí)體信息。同時(shí)我們還采用了多粒度信息融合,將詞信息、實(shí)體信息和句子信息進(jìn)行交互融合,從而獲得多文檔中更具層次化的文本語(yǔ)義信息。針對(duì)上文中提出的現(xiàn)有研究的問(wèn)題,本文的貢獻(xiàn)如下:
(1) 本文提出了一個(gè)基于實(shí)體信息增強(qiáng)的多文檔摘要模型,采用具有結(jié)構(gòu)化的實(shí)體-關(guān)系的知識(shí)圖通過(guò)transE算法將結(jié)構(gòu)化的圖信息嵌入到ERNIE預(yù)訓(xùn)練模型中,使用實(shí)體鏈接工具TAGME來(lái)對(duì)文本中提及的實(shí)體進(jìn)行提取,并進(jìn)行訓(xùn)練從而在豐富上下文信息的基礎(chǔ)上進(jìn)一步加入實(shí)體信息實(shí)現(xiàn)信息增強(qiáng)。
(2) 本文提出多個(gè)粒度的信息來(lái)對(duì)原文本進(jìn)行豐富的語(yǔ)義信息提取,我們將實(shí)體信息與詞信息進(jìn)行實(shí)體對(duì)齊,并通過(guò)句子信息和實(shí)體信息的融合對(duì)詞token信息進(jìn)行更新從而指導(dǎo)解碼生成。
(3) 本文提出的模型在大規(guī)模數(shù)據(jù)集MultiNews上進(jìn)行實(shí)驗(yàn)并取得了先進(jìn)結(jié)果,表明了模型的有效性和可行性,并進(jìn)行了對(duì)多粒度信息,以及是否加入融合實(shí)體信息的預(yù)訓(xùn)練模型進(jìn)行了消融實(shí)驗(yàn),說(shuō)明實(shí)體信息增強(qiáng)的有效性。
以往的多文檔摘要是基于特征工程和主題模型的[7-9],通過(guò)特征增強(qiáng)和語(yǔ)義增強(qiáng)來(lái)提升模型性能。Zheng等人[10]提出從文檔視圖和子主題視圖中共同生成基礎(chǔ)主題表示,作者考慮了上下文信息、子主題顯著性和相對(duì)句子顯著性,并且以分級(jí)的方式來(lái)估計(jì)句子的顯著性,從而抽取排名最高的句子作為摘要。Alambo等人[11]提出基于中心性聚類的方法,使用相關(guān)參考分解從原文檔中提取句子集合并且保持它們相互依賴,并且采用增強(qiáng)的多句壓縮算法生成主題信息和摘要。其中還有依據(jù)數(shù)據(jù)增強(qiáng)的多文檔摘要,Pasunuru等人[12]提出了構(gòu)建兩個(gè)新的針對(duì)以查詢?yōu)橹行牡亩辔臋n摘要數(shù)據(jù)集來(lái)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),這兩個(gè)數(shù)據(jù)集是互補(bǔ)的,并提出采用分層編碼的方式來(lái)進(jìn)行編碼,同時(shí)對(duì)局部信息以及全局信息進(jìn)行了編碼,還加入了排序組件和查詢組件。
BERT等預(yù)訓(xùn)練語(yǔ)言模型的提出,促進(jìn)了多文檔摘要任務(wù)的發(fā)展,Li等人[13]提出利用圖對(duì)文檔進(jìn)行編碼,能更好地捕捉跨文檔的關(guān)系,基于圖來(lái)指導(dǎo)摘要生成,還提出了將BERT模型與作者提出的基于圖指導(dǎo)的摘要模型結(jié)合起來(lái),以更有效地處理長(zhǎng)輸入文本。針對(duì)事實(shí)一致性問(wèn)題,提出的大多數(shù)方法是在評(píng)估指標(biāo)方面對(duì)生成摘要的事實(shí)一致性進(jìn)行評(píng)估,Zhang等人[14]采用了一種弱監(jiān)督的方法構(gòu)造訓(xùn)練集,通過(guò)構(gòu)造的句子文檔對(duì)來(lái)判斷是否具有事實(shí)一致性。近年來(lái)提出了通過(guò)外部知識(shí)庫(kù)來(lái)提升生成文本的忠實(shí)性,Dong等人[15]把不在原文本中但在與原文本鏈接的外部知識(shí)庫(kù)中的實(shí)體視為對(duì)世界知識(shí)的忠實(shí),原文本具有提取性,世界知識(shí)具有生成性,與之前通過(guò)過(guò)濾訓(xùn)練實(shí)例的只包含提取性的實(shí)體來(lái)提高事實(shí)一致性的工作相反,作者通過(guò)提供與來(lái)源相關(guān)的額外事實(shí),從生成式的角度來(lái)提高生成實(shí)體的忠實(shí)性。
對(duì)于生成式的多文檔摘要,獲取文本中豐富的語(yǔ)義信息對(duì)于生成連貫的摘要是非常重要的。在以往的工作中,有采用單詞級(jí)語(yǔ)言生成的摘要模型、采用詞級(jí)與句子級(jí)進(jìn)行信息融合的摘要模型,以及應(yīng)用段落級(jí)和篇章級(jí)的生成模型,從而獲得豐富的文本信息。而在目前的工作中缺乏實(shí)體級(jí)的語(yǔ)義信息與其他語(yǔ)義單元的信息融合從而無(wú)法獲得豐富層次化的具有結(jié)構(gòu)信息的自然語(yǔ)言文本。
在近些年的工作中,隨著深度學(xué)習(xí)的快速發(fā)展,對(duì)于多文檔摘要的研究,更加側(cè)重于多個(gè)粒度方面,大多數(shù)工作是采用單詞級(jí)的文本嵌入表征來(lái)獲得上下文信息,也將其他粒度的信息如段落、文檔進(jìn)行融合來(lái)輸入表征。Li等人[13]提出了一種神經(jīng)生成式多文檔摘要模型,該模型利用段落級(jí)和詞級(jí)的圖表示結(jié)構(gòu),如相似圖和篇章圖,來(lái)有效地處理多個(gè)輸入文檔并產(chǎn)生生成式摘要。Transformer[16]的提出使得生成式文本摘要取得了突破性進(jìn)展。Zhao等人[17]提出SummPip模型是第一種結(jié)合語(yǔ)義知識(shí)和深度神經(jīng)表示構(gòu)造句子圖的無(wú)監(jiān)督摘要方法,Jin等人[18]提出采用文檔、句子、詞多粒度信息交互網(wǎng)絡(luò),在不同語(yǔ)義粒度信息表征進(jìn)行交互。Yasunaga等人[9]提出在關(guān)系圖上使用圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks, GCN),并將從遞歸神經(jīng)網(wǎng)絡(luò)中獲得的句子嵌入作為輸入節(jié)點(diǎn)特征。通過(guò)多層分層傳播,GCN生成高級(jí)隱藏句特征以進(jìn)行顯著性估計(jì)。
以上這些已提出的方法雖然在一定程度上解決了多文檔摘要生成的事實(shí)一致性以及缺乏豐富的文本語(yǔ)義信息特征提取問(wèn)題,但是針對(duì)通過(guò)預(yù)訓(xùn)練模型嵌入結(jié)構(gòu)化的實(shí)體信息來(lái)進(jìn)行信息增強(qiáng)的多文檔摘要模型還很少,通過(guò)實(shí)驗(yàn)我們發(fā)現(xiàn)將實(shí)體信息融入文本單元中進(jìn)行特征融合對(duì)于生成式文本摘要性能的提升具有有效性。
本節(jié)詳細(xì)描述了本文提出的模型,模型的結(jié)構(gòu)如圖1所示。在本文中,首先使用transE算法將結(jié)構(gòu)化的實(shí)體信息嵌入ERNIE預(yù)訓(xùn)練模型中,我們使用TAGME實(shí)體鏈接工具來(lái)提取文本中提及的實(shí)體,來(lái)對(duì)原文本進(jìn)行實(shí)體信息融合的預(yù)訓(xùn)練,從而得到預(yù)訓(xùn)練后的詞嵌入信息和實(shí)體嵌入信息,同時(shí)通過(guò)對(duì)句子進(jìn)行編碼獲得句子嵌入信息,輸入到Transformer編碼層進(jìn)行融合,最后通過(guò)句子信息和實(shí)體信息的融合對(duì)詞token信息進(jìn)行更新從而指導(dǎo)解碼生成。
圖1 基于實(shí)體信息增強(qiáng)及多粒度融合的多文檔摘要模型MGNIE
本文通過(guò)加入知識(shí)圖結(jié)構(gòu)來(lái)增強(qiáng)預(yù)訓(xùn)練模型的事實(shí)一致性,采用transE算法將Wikidata知識(shí)圖的實(shí)體-關(guān)系信息輸入到ERNIE模型進(jìn)行訓(xùn)練,然后將帶有實(shí)體信息的原文本輸入到預(yù)訓(xùn)練模型中進(jìn)行預(yù)訓(xùn)練,從而得到詞嵌入和實(shí)體嵌入。
我們將詞序列集合定義為W={w1,w2,…,wn},其中n表示詞序列的長(zhǎng)度,將實(shí)體序列定義為E={e1,e2,…,em},其中m為實(shí)體序列的長(zhǎng)度,將句子序列表示為S={s1,s2,…,so},其中o為句子序列的長(zhǎng)度。知識(shí)圖KGs中的所有實(shí)體表示為E,我們將源文本中的實(shí)體與KGs中的實(shí)體對(duì)齊。
在預(yù)訓(xùn)練模型中,我們將詞信息與KGs中的實(shí)體信息分別進(jìn)行編碼,然后輸入到前饋神經(jīng)網(wǎng)絡(luò)層,進(jìn)行異質(zhì)信息融合。首先對(duì)詞序列進(jìn)行編碼,將詞嵌入ew和段嵌入sw以及位置嵌入pw相加獲得最終詞嵌入,如工(1)所示。
(1)
同樣的,實(shí)體嵌入可計(jì)算為:
(2)
原文本中的詞嵌入包含實(shí)體信息,與KGs中的實(shí)體對(duì)齊,并將實(shí)體信息融入到詞序列中進(jìn)行異質(zhì)信息融合,實(shí)現(xiàn)了外部實(shí)體嵌入的信息增強(qiáng)。源文本詞序列包含實(shí)體的表示為hw,KGs中的實(shí)體在源文本序列中有對(duì)應(yīng)的表示為he,則可以表示為he=f(hw),融合后的表征為:
本文將外部知識(shí)圖中的實(shí)體信息融入到源文本中,通過(guò)掩碼表示實(shí)體的詞token,通過(guò)上下文對(duì)進(jìn)行實(shí)體預(yù)測(cè)來(lái)預(yù)訓(xùn)練模型,使模型獲得更豐富以及更高語(yǔ)義的信息,從而能夠生成更好的表征。預(yù)訓(xùn)練模型掩碼實(shí)體自動(dòng)編碼過(guò)程的損失函數(shù)可以用式(8)來(lái)計(jì)算:
(8)
其中,linear表示一個(gè)線性層。
本文采用多粒度信息,包括詞嵌入、實(shí)體嵌入和句子嵌入,在預(yù)訓(xùn)練模型階段,我們將外部的實(shí)體信息與原文本包含的實(shí)體信息進(jìn)行融合,從而獲得實(shí)體級(jí)的信息增強(qiáng),在摘要模型輸入階段,我們分別將源文本劃分為詞序列、實(shí)體序列和句子序列,并對(duì)不同粒度的信息進(jìn)行信息融合,從而獲得包含更加豐富語(yǔ)義的語(yǔ)言模型表征。
(9)
(10)
對(duì)多粒度信息進(jìn)行融合以獲得對(duì)源文本更加豐富的特征,實(shí)體信息的融合體現(xiàn)了生成摘要過(guò)程中對(duì)事實(shí)的準(zhǔn)確性。我們加入的實(shí)體特征是在源文本中出現(xiàn)的,且能夠鏈接到外部知識(shí)的結(jié)構(gòu)化的實(shí)體關(guān)系。我們使用融合函數(shù)進(jìn)行融合,首先獲得詞表示與實(shí)體表示的融合信息hw。
融合后的實(shí)體信息與詞信息表示為部分詞表示融入了實(shí)體的嵌入信息,再將融合后的詞序列信息與句子序列信息進(jìn)行融合,得到融合后的詞向量h′w,如式(11)、式(12)所示。
將獲得的融合的詞表征進(jìn)一步送入前饋神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)一步地轉(zhuǎn)化豐富的語(yǔ)義信息,如式(13)、式(14)所示。
FFN是兩層前饋網(wǎng)絡(luò),采用ReLU隱藏激活函數(shù),其中LayerNorm是層規(guī)范化。hl表示編碼器的輸出。將經(jīng)過(guò)編碼器融合的輸入向量hl以及隱藏狀態(tài)輸入到transformer解碼器中進(jìn)行逐詞解碼,編碼器輸出作為key和value,將輸入嵌入和詞位置編碼輸入到解碼器中經(jīng)過(guò)多頭注意力機(jī)制以及前饋神經(jīng)網(wǎng)絡(luò)層,得到上下文表征作為Query輸入多頭注意力機(jī)制中,得到輸出gl,最后送入Softmax來(lái)計(jì)算目標(biāo)詞匯生成分布,如式(15)所示。
Pt=Softmax(glWg+bg)
(15)
其中,Wg、bg為可訓(xùn)練的參數(shù)。本文使用的交叉熵?fù)p失函數(shù)如式(16)所示。
(16)
我們采用外部知識(shí)圖來(lái)對(duì)文本的實(shí)體信息進(jìn)行增強(qiáng),采用transE算法將Wikidata知識(shí)圖的實(shí)體-關(guān)系信息輸入到ERNIE模型進(jìn)行訓(xùn)練。Wikidata知識(shí)圖是一個(gè)開(kāi)放的多關(guān)系知識(shí)圖譜,它包含了維基百科的結(jié)構(gòu)化的數(shù)據(jù),我們從Wikidata知識(shí)圖抽取實(shí)體-關(guān)系三元組,并且通過(guò)transE算法學(xué)習(xí)實(shí)體嵌入。該算法將關(guān)系數(shù)據(jù)中的實(shí)體和關(guān)系嵌入低維向量空間。給定一個(gè)實(shí)體-關(guān)系三元組(h,l,t),它們由h頭實(shí)體、t尾實(shí)體、l關(guān)系組成,通過(guò)模型學(xué)習(xí)實(shí)體和關(guān)系的嵌入向量,算法的原理就是通過(guò)邊所對(duì)應(yīng)的關(guān)系對(duì)應(yīng)于嵌入的轉(zhuǎn)換,當(dāng)(h,l,t)成立時(shí),使得頭實(shí)體向量和關(guān)系向量盡可能地靠近尾實(shí)體向量,并計(jì)算(h,l)和t之間的距離。
transE訓(xùn)練模型原理是從實(shí)體矩陣和關(guān)系矩陣中各自抽取一個(gè)向量,進(jìn)行運(yùn)算得到的結(jié)果近似等于實(shí)體矩陣中另一個(gè)實(shí)體的向量,從而達(dá)到通過(guò)詞向量表示知識(shí)圖中已存在的三元組。transE的損失函數(shù)為,如式(17)、式(18)所示。
其中,S′表示頭實(shí)體或尾實(shí)體被替換的負(fù)采樣三元組。
MultiNews數(shù)據(jù)集由Fabbri等人[2]在2019年提出,MultiNews數(shù)據(jù)集由新聞文章和人工撰寫(xiě)的摘要組成。該數(shù)據(jù)集來(lái)自不同的新聞來(lái)源(超過(guò) 1 500個(gè)網(wǎng)站)。MultiNews更類似于傳統(tǒng)的多文檔摘要數(shù)據(jù)集,如DUC,但規(guī)模更大。正如Fabbri等人所述,數(shù)據(jù)集分為44 972個(gè)用于訓(xùn)練的實(shí)例,5 622個(gè)用于驗(yàn)證的實(shí)例和 5 622個(gè)用于測(cè)試的實(shí)例。源文檔和輸出摘要的平均長(zhǎng)度分別為2 103.5個(gè)標(biāo)記和263.7個(gè)標(biāo)記。我們將源文檔截?cái)酁榫渥覵,并按照原始順序?qū)⒕渥有蛄羞B成一個(gè)序列。我們使用Stanford coreNLP工具對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,并采用TAGME實(shí)體鏈接工具提取源文檔中的實(shí)體序列。本文使用F1 ROUGE對(duì)生成摘要與標(biāo)準(zhǔn)摘要進(jìn)行評(píng)估。
在對(duì)比實(shí)驗(yàn)中,本文將提出的模型與現(xiàn)有幾種先進(jìn)的方法進(jìn)行了比較: Lead是連接標(biāo)題和排序的段落,并提取前k個(gè)標(biāo)記;LexRank[7]是一個(gè)廣泛使用的基于圖形的抽取式摘要,類似PageRank的算法來(lái)排列和選擇段落;MMR[20]提取具有排序列表的句子、基于相關(guān)性的候選句子和冗余;TIBERT[14]提出用BERT模型對(duì)句子進(jìn)行預(yù)訓(xùn)練,然后對(duì)整個(gè)文檔進(jìn)行編碼;PGN[21]是一個(gè)基于RNN的模型,具有注意力機(jī)制,允許系統(tǒng)通過(guò)指向從源文本復(fù)制來(lái)的單詞進(jìn)行抽象概括;HT(Hierarchical Transformer,HT)[4]模型將標(biāo)題和段落作為輸入來(lái)產(chǎn)生目標(biāo)摘要;Hi-MAP[2]將指針生成器網(wǎng)絡(luò)模型擴(kuò)展為分層網(wǎng)絡(luò),并集成MMR模塊來(lái)計(jì)算句子級(jí)得分;FT(Flat Transformer,FT)是將基于轉(zhuǎn)換器的編碼器-解碼器模型應(yīng)用于平面令牌序列的基線模型;MGSum[18]是一個(gè)用于抽取式和生成式多文檔摘要網(wǎng)絡(luò),聯(lián)合學(xué)習(xí)了單詞、句子和文檔的語(yǔ)義表示。CTF+DPP[22]提出基于DPP的注意力模型,將注意力權(quán)重用行列式點(diǎn)過(guò)程(Determinantal Point Process,DPP)給出的概率來(lái)計(jì)算,并將注意力機(jī)制與已有的模型相結(jié)合。
本文使用PyTorch來(lái)實(shí)現(xiàn)提出的模型,使用Stanford coreNLP工具對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。優(yōu)化器是Adam[23],學(xué)習(xí)率為2e-5,β1=0.9,β2=0.998。所有模型都在1個(gè)GPU上進(jìn)行500 000步的訓(xùn)練。模型中的所有線性層之前應(yīng)用概率為0.1的下降。最大序列長(zhǎng)度設(shè)置為256,batch size大小為32,模型中的隱藏單元的數(shù)量被設(shè)置為256,前饋隱藏大小為1 024,頭的數(shù)量為8。
我們?cè)贛ultiNews數(shù)據(jù)集上與幾種先前的模型進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示,MGNIE表示本文提出的模型,它包含嵌入了實(shí)體信息的預(yù)訓(xùn)練模型,以及多粒度融合信息的摘要模型。MGNIE-BERT將預(yù)訓(xùn)練模型換成BERT模型,表明預(yù)訓(xùn)練模型中不包含實(shí)體關(guān)系。MGNIE模型在無(wú)論是在ROUGE-1,ROUGE-2還是ROUGE-L上,較先前的工作都取得了優(yōu)秀的性能,并有所提升。
表1 在MultiNews數(shù)據(jù)集上抽取式模型的對(duì)比實(shí)驗(yàn)
表1是本文提出的模型與抽取式模型在MultiNews數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果,根據(jù)結(jié)果我們可以發(fā)現(xiàn),本文提出的模型較先前提出的基于抽取式的模型有較大性能提升。與HIBERT模型相比,我們采用BERT模型作為預(yù)訓(xùn)練模型,同時(shí)采用多粒度信息融合的方法,較HIBERT模型提升了1.89,表明我們對(duì)多粒度信息進(jìn)行融合的方法對(duì)生成式模型的摘要生成有提升作用。與MGSum-ext模型相比,本文提出的模型在多粒度信息融合的基礎(chǔ)上,加入了BERT預(yù)訓(xùn)練語(yǔ)言模型,較沒(méi)有預(yù)訓(xùn)練模型的摘要模型提升了1.0,同時(shí)本文提出的模型在預(yù)訓(xùn)練模型中加入了來(lái)自知識(shí)圖的實(shí)體信息,進(jìn)一步取得了模型性能的提升。
表2是本文提出的模型與生成式模型在MultiNews數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果,根據(jù)結(jié)果我們可以發(fā)現(xiàn)本文提出的模型較先前的具有先進(jìn)性的生成式模型取得了更好的效果。本文的模型相比于MGSum-abs模型提升了0.8,這表明在多粒度信息融合方面,本文的模型加入了實(shí)體信息,并將知識(shí)圖的實(shí)體信息與文本中的實(shí)體信息進(jìn)行融合做預(yù)訓(xùn)練,更加豐富了文本的上下文表征,從而增強(qiáng)模型理解能力,對(duì)模型性能的提升有更好的影響。可以觀察到,在多粒度的基礎(chǔ)上將預(yù)訓(xùn)練模型換成BERT模型,較先前的工作有部分提升,而在預(yù)訓(xùn)練模型的基礎(chǔ)上,不僅對(duì)原文本進(jìn)行模型訓(xùn)練,還加入了外部知識(shí)的實(shí)體信息,使得預(yù)訓(xùn)練獲得文本向量表示的效果更加好。進(jìn)一步展開(kāi)分析,在ROUGE分?jǐn)?shù)評(píng)估下,MGNIE以及MGNIE-BERT模型都優(yōu)于現(xiàn)有的工作模型表現(xiàn),說(shuō)明我們采用多粒度的方法進(jìn)行信息提取獲得語(yǔ)義表征,能夠挖掘到更多信息特征,從而獲得更好的生成摘要效果。
表2 在MultiNews上生成式模型的對(duì)比實(shí)驗(yàn)
通過(guò)觀察表1和表2可以發(fā)現(xiàn),本文提出的模型對(duì)比先前的抽取式模型的提升效果比生成式模型好,因?yàn)槲覀兪褂昧巳诤狭素S富知識(shí)圖信息的預(yù)訓(xùn)練模型對(duì)原文本進(jìn)行訓(xùn)練,并且采用的多粒度信息融合來(lái)對(duì)文本的長(zhǎng)距離信息進(jìn)行了交互,實(shí)現(xiàn)了實(shí)體的信息增強(qiáng),對(duì)于關(guān)鍵詞的解碼生成有重要的影響,本文提出的模型生成的摘要文本比抽取式模型生成的摘要更具有連貫性,同時(shí)說(shuō)明了實(shí)體信息對(duì)于摘要生成的有效性。
本文通過(guò)引入實(shí)體信息增強(qiáng)來(lái)實(shí)現(xiàn)對(duì)摘要性能的提升。為了探究實(shí)體信息對(duì)摘要性能的影響,本文做了相關(guān)的消融對(duì)比實(shí)驗(yàn)。表3給出了不同粒度對(duì)實(shí)驗(yàn)結(jié)果的影響,其中without sent representation表示在多粒度融合中包含詞信息和實(shí)體信息融合的模型,without entity representation表示在多粒度融合中包含詞信息和句子信息融合的模型,其中MGNIE-BERT表示將預(yù)訓(xùn)練模型換成BERT模型,不加入外部實(shí)體信息的模型。MGNIE表示我們?cè)谖闹刑岢龅哪P?加入外部實(shí)體信息增強(qiáng)的多粒度融合模型。
表3 消融實(shí)驗(yàn)對(duì)比
從表3的結(jié)果中我們可以發(fā)現(xiàn),without entity representation不加入實(shí)體信息表現(xiàn)不佳,表明加入實(shí)體表征是非常有效的。MGNIE的表現(xiàn)比MGNIE-BERT要好,表明在預(yù)訓(xùn)練模型過(guò)程中進(jìn)行外部實(shí)體信息嵌入對(duì)預(yù)訓(xùn)練模型的效果有重要提升。通過(guò)在預(yù)訓(xùn)練模型中加入外部知識(shí)圖譜的結(jié)構(gòu)化的實(shí)體關(guān)系信息,以及在自然語(yǔ)言編碼對(duì)加入實(shí)體表征可以充分挖掘文本中的實(shí)體信息以及上下文語(yǔ)義信息,從而使模型獲得更好的效果。
由于評(píng)估摘要生成的流暢性以及事實(shí)一致性在摘要生成中是十分重要的,所以進(jìn)行人工評(píng)測(cè)是必不可少的。具體來(lái)說(shuō),本文選擇5名研究生來(lái)對(duì)本文生成的摘要進(jìn)行評(píng)估,在MultiNews數(shù)據(jù)集中隨機(jī)選擇50個(gè)樣本,為了評(píng)估模型的質(zhì)量,本文選擇MGSum模型作為基線模型來(lái)進(jìn)行對(duì)比,并從三個(gè)方面來(lái)進(jìn)行評(píng)估: 流暢性(fluency),信息量(Informativeness)及對(duì)原文本的忠實(shí)度(faithfulness)。流暢性是指文本的可讀性,包括語(yǔ)法、名詞短語(yǔ)和邏輯上的一致性。信息量表示摘要與原文包含的關(guān)鍵內(nèi)容相關(guān)性的數(shù)量。忠實(shí)度是指摘要與原文的事實(shí)一致的相關(guān)性。本文選取的評(píng)分標(biāo)準(zhǔn)為1~5分,分?jǐn)?shù)越大說(shuō)明性能越好。
表4是在MGSum模型與本文模型的人工評(píng)估結(jié)果,從表中可以觀察到,本文模型在流暢性、信息量以及忠實(shí)度方面較MGSum都有提升,尤其在忠實(shí)度方面,評(píng)估結(jié)果表明本文提出的基于實(shí)體信息增強(qiáng)來(lái)提升生成摘要的事實(shí)一致性是有效的。
表4 人工評(píng)測(cè)結(jié)果
表5展示了在MGNIE模型上摘要生成的實(shí)例與原文本以及標(biāo)準(zhǔn)摘要的對(duì)比,加粗的文字表示與原文的關(guān)鍵內(nèi)容重合的部分。從表中我們可以觀察到,本文模型在重合度方面與原文內(nèi)容高度重合,在信息量方面也提取了大量關(guān)鍵信息,捕捉到了“three hours thursday afternoon”這個(gè)時(shí)間點(diǎn),以及“the glitch”這個(gè)信息點(diǎn)。與標(biāo)準(zhǔn)摘要進(jìn)行對(duì)比可以發(fā)現(xiàn),本文模型生成的摘要的內(nèi)容信息量以及內(nèi)容重合度都很高。在事實(shí)一致性方面,本文模型生成的摘要無(wú)論是與原文對(duì)比,還是與標(biāo)準(zhǔn)摘要對(duì)比,都是保持事實(shí)一致的。在摘要的流暢度方面,本文模型生成的文本是可讀的,并且句子之間的連接詞使得文本在承接上下文對(duì)具有連貫性及邏輯性。
表5 MGNIE模型摘要生成實(shí)例
在本文中,我們針對(duì)生成式多文檔摘要中存在的缺乏結(jié)構(gòu)化信息的嵌入以及生成摘要的事實(shí)不一致性提出了基于實(shí)體信息增強(qiáng)以及多粒度信息融合的多文檔摘要模型。具體來(lái)說(shuō),我們加入了預(yù)訓(xùn)練模型ERNIE并且將外部知識(shí)圖中的實(shí)體-關(guān)系信息嵌入預(yù)訓(xùn)練模型以豐富語(yǔ)義信息,與此同時(shí),我們還獲取了詞信息、實(shí)體信息以及句子信息層面的信息融合來(lái)編碼語(yǔ)言表征,實(shí)現(xiàn)了更深層次的信息挖掘,實(shí)現(xiàn)了信息增強(qiáng)。最后進(jìn)行了大量的對(duì)比實(shí)驗(yàn),表明本文提出的方法在多文檔摘要中取得了有效影響,在一定程度上實(shí)現(xiàn)了信息增加解決了事實(shí)一致性問(wèn)題。
在未來(lái)的工作中,我們將考慮把文本與外部知識(shí)圖結(jié)構(gòu)進(jìn)行相互融合,將文本轉(zhuǎn)換為結(jié)構(gòu)化的圖與外部知識(shí)圖相連,從而獲得結(jié)構(gòu)化的信息,來(lái)實(shí)現(xiàn)基于圖結(jié)構(gòu)的多文檔摘要模型的性能提升。