摘要: 針對現(xiàn)有生成式摘要模型生成過程中存在原文本關(guān)鍵信息缺失和內(nèi)容難控制的問題, 提出一種結(jié)合抽取方法引導(dǎo)的生成式文本摘要方法. 該方法首先通過抽取模型從原文本中獲取關(guān)鍵句, 然后采用雙編碼策略, 分別編碼關(guān)鍵句和新聞文本, 使關(guān)鍵信息在解碼過程中引導(dǎo)生成摘要, 最后引入專家網(wǎng)絡(luò)在解碼時篩選信息, 以進一步引導(dǎo)摘要生成. 在數(shù)據(jù)集CNN/Daily Mail和XSum上的實驗結(jié)果表明, 該模型可有效改進生成式文本摘要的性能." 該方法在一定程度上提高了生成摘要對原文本關(guān)鍵信息的包含量, 同時緩解了生成內(nèi)容難控制的問題.
關(guān)鍵詞: 生成式文本摘要; 雙編碼器; 關(guān)鍵信息; 專家網(wǎng)絡(luò); 引導(dǎo)感知
中圖分類號: TP391" 文獻標志碼: A" 文章編號: 1671-5489(2024)04-0951-09
Fusing Key Information and Expert Networkfor Abstractive Text Summarization
WEI Panli, WANG Hongbin
(Yunnan Key Laboratory of Artificial Intelligence, Faculty of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650500, China)
Abstract: Aiming at the problems of missing key information and difficult control of content in the original text during the generation process of existing generative summary models, we proposed a generative text summarization method guided by extraction methods. This method first obtained key sentences from the original text through an extraction model, and then adopted dual encoding strategy to encode key sentences and news text respectively, so that key information was guided to generate a summary during the decoding process. Finally, expert network was introduced to screen information during decoding to further guide the generation of summary. The experimental results on CNN/Daily Mail and XSum datasets show that the proposed model can effectively improve the performance of abstractive text summarization.
This method improves the content of key information in the original text for generating summary to a certain extent, while alleviating the problem of" difficult" control of generated content.
Keywords: abstractive text summarization; double encoder; key information; expert network; guided perception
隨著互聯(lián)網(wǎng)產(chǎn)生的文本數(shù)據(jù)越來越多, 文本信息過載問題日益嚴重, 如新聞、 微博等, 因此對各類文本進行降維處理非常必要, 自動文本摘要是其中一種重要方法. 自動文本摘要的主要目的是將一個較長的文檔壓縮為較短的文本, 以便于用戶在互聯(lián)網(wǎng)海量數(shù)據(jù)中快速獲取有用信息.
自動文本摘要旨在從輸入文檔中生成一個精煉、 簡潔的摘要, 同時保留輸入文檔的關(guān)鍵信息. 自動文本摘要任務(wù)主要可分為抽取式摘要和生成式摘要. 抽取式摘要是從輸入文檔中識別出最合適的單詞或句子, 并將它們連接成摘要. 神經(jīng)網(wǎng)絡(luò)模型將抽取式摘要視為句子分類問題, 首先創(chuàng)建輸入文本的適當表示, 以方便文本分析, 然后進行句子評分, 根據(jù)輸入的文本表示對句子進行排序, 最后從文檔中選擇評分較高的語句, 并將其連接形成摘要. 生成式摘要能對原文進行理解生成新的句子和單詞, 可自由地生成摘要, 所以可能包含原文本中未出現(xiàn)過的表達. 因此, 與抽取式摘要相比, 生成式摘要更靈活, 能產(chǎn)生流暢、 連貫的摘要.
目前, 基于循環(huán)神經(jīng)網(wǎng)絡(luò) (recurrent neural networks, RNN)的序列到序列(sequence to sequence, seq2seq)模型在機器翻譯領(lǐng)域取得了很好的效果. 自動文本摘要問題也可視為原文本到目標文本的映射, 因此可通過該方法解決. 近年來, Wang等[1]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的seq2seq框架, 并引入了注意力機制和基于主題信息的強化學(xué)習(xí), 以幫助模型生成連貫和信息豐富的摘要. 為解決摘要生成內(nèi)容重復(fù)的問題, See等[2]提出了指針網(wǎng)絡(luò)和覆蓋機制, 指針網(wǎng)絡(luò)在保留新詞內(nèi)容的同時從原文本中抽取內(nèi)容, 以生成更準確的摘要; 覆蓋機制用于在解碼器中記錄已經(jīng)生成的內(nèi)容, 以減少生成內(nèi)容的重復(fù). Narayan等[3]概念化抽取式摘要作為句子排序任務(wù), 提出了一種新的訓(xùn)練算法, 通過強化學(xué)習(xí)系統(tǒng)優(yōu)化ROUGE評估指標進行全局訓(xùn)練, 以生成含有豐富信息的摘要. 隨著BERT(bidirectional encoder representation from transformers)[4]等一系列預(yù)訓(xùn)練模型的發(fā)展, 預(yù)訓(xùn)練模型在自然語言處理領(lǐng)域被廣泛應(yīng)用, 可在簡化模型的同時取得更好的效果. Liu等[5]提出了一種基于對比學(xué)習(xí)的打分模型, 通過訓(xùn)練無參考摘要的打分模型近似需要參考摘要的評價指標, 直接學(xué)習(xí)評價指標本身的打分模式, 在一定程度上緩解目標函數(shù)與評價指標不一致的問題, 從而在候選摘要中選出性能更高的摘要. Su等[6]提出了一種兩階段的變長生成文本摘要方法, 其由一個文本分割模塊和一個基于兩級轉(zhuǎn)換器的摘要模塊組成, 在捕捉句子之間的關(guān)系方面取得了良好的效果. Zhong等[7]將文檔摘要作為語義匹配任務(wù), 并使用Siamese|BERT作為匹配模型. Jin等[8]和Zhu等[9]從原文檔中提取(主題、 關(guān)系、 對象)形式的關(guān)系三元組, 并用圖神經(jīng)網(wǎng)絡(luò)進行表示, 然后由解碼器負責(zé)處理所提取的關(guān)系, 以生成更帖合原文檔的摘要. Dou等[10]提出了一種基于BERT的雙編碼器引導(dǎo)模型, 通過使用各種類型的引導(dǎo)信號更好地處理摘要生成內(nèi)容難控制的問題, 同時也使摘要內(nèi)容與原文檔偏離更小, 更具可控性. Jiang等[11]提出了基于圖的主題感知生成文本框架GTASum, 無縫地集成了一個神經(jīng)主題模型尋找文本中潛在的主題信息, 通過維護文檔級特征生成摘要. Cui等[12]提出了一種混合文本摘要模型, 該模型使用神經(jīng)主題模型(neural topic model, NTM)推斷潛在主題作為一種全局信息, 以此提高生成摘要的準確度. 由于生成式摘要比較靈活, 因此如何確保生成的摘要相對原文檔的事實一致性至關(guān)重要. Ravaut等[13]提出了基于專家混合架構(gòu)的多任務(wù)學(xué)習(xí)框架SummaReranker, 其是第一個用于生成摘要的多任務(wù)重新排序框架, 可在多個措施上進行聯(lián)合優(yōu)化. Zhou等[14]提出了一種選擇性門控網(wǎng)絡(luò), 旨在使生成的文本摘要中保留更多的關(guān)鍵信息. 但由輸入文本表示控制的選擇性門控網(wǎng)絡(luò)只控制一次從編碼器到解碼器的信息流, 如果某些關(guān)鍵信息未通過網(wǎng)絡(luò), 則很難出現(xiàn)在摘要中, 從而導(dǎo)致生成的摘要缺乏關(guān)鍵內(nèi)容, 甚至還可能導(dǎo)致事實性錯誤.
由于序列到序列模型的廣泛應(yīng)用, 生成式摘要模型可生成較高ROUGE分數(shù)的摘要, 雖然這些模型已被證明可以捕捉到自動文本摘要的規(guī)律性, 但對摘要的內(nèi)容在生成過程中卻很難控制, 有時生成摘要的內(nèi)容不符合原文事實, 易導(dǎo)致事實性錯誤. 例如, 對原文本“The classic video game ‘Space Invaders’ was developed in Japan back in the late 1970’s”, 生成的摘要卻為“Video game ‘Space Invaders’ was developed in Japan back in 1970”. 錯誤地將原文本中所表示的“在20世紀70年代”表達為“在1970年”. 針對這種問題, 如果除編碼原文檔外, 再加以外部的引導(dǎo)信號, 不僅能獲取輸入原文本的上下文內(nèi)容, 還可以得到外部知識, 在摘要生成過程中對生成內(nèi)容進行控制, 減少事實性錯誤, 從而緩解生成摘要準確率較低的問題. 雖然現(xiàn)有的注意力機制會注意到文本中的一些信息, 但對部分關(guān)鍵信息的識別不足, 仍會在解碼過程中丟失關(guān)鍵信息, 使生成摘要的內(nèi)容不準確, 不能完全概括原文的主旨.
為解決上述問題, 本文提出一種融合關(guān)鍵信息與專家網(wǎng)絡(luò)的生成式文本摘要方法, 使用抽取式摘要模型抽取的語句作為關(guān)鍵信息引導(dǎo)生成摘要, 使模型輸出摘要內(nèi)容與原文檔的偏差更小, 并可使生成摘要的內(nèi)容存在一定的可解釋性. 本文模型將預(yù)先選擇的關(guān)鍵信息添加到注意力機制中, 使模型更關(guān)注原文本的關(guān)鍵內(nèi)容, 在解碼生成輸出時用關(guān)鍵句引導(dǎo)模型傾向于關(guān)注原文本中的主旨內(nèi)容, 然后使用專家選擇網(wǎng)絡(luò)進一步篩選信息, 以提高生成摘要的準確性和可讀性, 有效減少冗余的生成. 本文的主要貢獻如下:
1) 基于改進的Transformer架構(gòu), 采用雙編碼策略, 引入豐富的文本語義表征; 在解碼端引入專家網(wǎng)絡(luò)篩選信息, 減少冗余內(nèi)容的生成.
2) 關(guān)鍵信息作為一種附加知識融入到解碼過程中, 約束文本摘要的生成過程, 使輸出內(nèi)容忠于原文, 有效保持摘要和原文檔事實一致.
3) 在數(shù)據(jù)集CNN/DM和XSum上的實驗結(jié)果表明, 本文模型改進有效, 該方法在ROUGE-1,ROUGE-2,ROUGE-L評估指標上準確率均有提升.
1 方法設(shè)計
與基于RNN的體系架構(gòu)相比, Transformer的編碼器和解碼器采用注意力機制作為其主要架構(gòu), 能更好地編碼文本的上下文語義信息, 提取文本語義表征, 所以本文采用Transformer模型作為文本摘要模型的基本架構(gòu). 首先使用微調(diào)的BERT預(yù)訓(xùn)練模型分別編碼輸入的文檔x={x1,x2,…,xn}和預(yù)先選擇的關(guān)鍵信息文本h={h1,h2,…,hn}, 然后映射到序列連續(xù)表示X=(X1,X2,…,Xn)和H=(H1,H2…,Hn)中. 為使模型在解碼過程中更好地獲取到原文本的關(guān)鍵信息, 本文將關(guān)鍵信息向量H=(H1,H2,…,Hn)輸入到Transformer解碼器的底層編解碼注意力層中, 注意力機制首先關(guān)注關(guān)鍵信息, 通知解碼器應(yīng)該關(guān)注原文檔的哪一部分, 然后解碼器基于引導(dǎo)感知的表示處理整個原文檔, 在生成目標摘要y={y1,y2,…,yn}的標記過程中通過專家網(wǎng)絡(luò)篩選信息, 最后模型以一種自回歸的方式建模條件概率p=(y1,y2…,ynx1,x2…,xn), 根據(jù)詞表生成相對應(yīng)的摘要. 模型總體框架如圖1所示.
1.1 關(guān)鍵信息表示模塊
僅編碼原文本的模型局限于關(guān)注文本的上下文信息, 很難凸顯原文本的顯著特征, 即關(guān)鍵信息, 因此本文引入關(guān)鍵信息作為一種外部知識, 增強語義特征, 使生成摘要內(nèi)容忠于原文事實.
抽取式文本摘要方法從原文檔中抽取文本的子集形成摘要, 因此, 原文檔中的重要語句對生成式摘要會起關(guān)鍵的引導(dǎo)作用, 故本文選擇使用抽取的語句作為關(guān)鍵信息確切地告知模型應(yīng)該重點關(guān)注原文檔的哪一部分, 使生成內(nèi)容更貼合文本主旨. 與輸入關(guān)鍵字作為輔助信息相比, 關(guān)鍵字可能會丟失上下文信息之間的聯(lián)系, 例如實體之間的關(guān)聯(lián)情況等, 關(guān)鍵句抽取模塊采用抽取摘要模型Match-Sum[7]或Bertext[15]實現(xiàn)自動預(yù)測.
由于BERT通過聯(lián)合調(diào)節(jié)上下文生成文本的雙向表示, 可更好地表示關(guān)鍵信息, 因此本文采用微調(diào)的BERT預(yù)訓(xùn)練模型對關(guān)鍵句編碼:
H=BERT(h1,h2,…,hn),(1)
其中hi表示預(yù)選擇的第i個關(guān)鍵句.
在訓(xùn)練時, 為使模型更密切地關(guān)注關(guān)鍵信息, 本文使用貪婪搜索算法訓(xùn)練模型在原文檔中找到一組ROUGE得分最高的句子, 視為能較好傳達文本主旨的語句, 將其作為關(guān)鍵引導(dǎo)句. 在測試時, 本文使用抽取摘要模型Match-Sum[7]或Bertext[15]實現(xiàn)關(guān)鍵句的自動預(yù)測, 以約束模型的輸出, 如圖2所示. 在解碼階段模型會首先關(guān)注關(guān)鍵信息并產(chǎn)生相應(yīng)的表示, 關(guān)鍵信息再通知解碼器應(yīng)該重點關(guān)注原文檔的哪一部分.
1.2 原文檔編碼表示模塊
對原文檔的編碼表示, 本文同樣采用微調(diào)的BERT預(yù)訓(xùn)練模型編碼, 與Transformer模型類似, BERT預(yù)訓(xùn)練模型的每層包含一個多頭自注意力模塊和一個前向反饋層, 兩個子層之間用殘差連接, 然后進行層歸一化, 用公式表示為
X=LN(X+SELFATTN(X)),(2)
X=LN(X+FEEDFORWARD(X)),(3)
其中LN為層歸一化表示.
在多頭自注意力模塊中, 使用放縮點積注意力函數(shù), 輸入由維度為dk的查詢向量和鍵向量以及維度為dv的值向量組成, 然后計算所有鍵查詢的點積, 用Softmax函數(shù)輸出分布在值向量V上的注意力權(quán)重, 輸出矩陣為
Attention(Q,K,V)=SoftmaxQKTdkV,(4)
其中Q,K,V分別表示查詢向量、 鍵向量和值向量, dk表示鍵向量K的維度. Attention(Q,K,V)是V的加權(quán)和向量, 表示當前的上下文信息. 對Transformer中的注意力機制采用多頭實現(xiàn), 但Q,K,V較小, 其維數(shù)分別為原始維數(shù)的1/h, 來自h頭的注意力拼接在一起, 通過線性投影形成最終的注意力, 這樣多頭注意力機制提供了一個有利于最終性能的注意行為的多個視角, 用公式表示為
MultiHead(Q,K,V)=Concat(head1,…,headh),(5)
其中headi=Attention(QWQi,KWKi,VWVi),
WQi,WKi,WVi是可學(xué)習(xí)的參數(shù)矩陣.
在前向反饋層中, 由兩個線性轉(zhuǎn)換和中間的ReLU激活函數(shù)組成, 其作用是增加模型的非線性擬合能力, 用公式表示為FFN(x)=max{0,xW2+b2}W3+b3,(6)
其中W2,W3為線性轉(zhuǎn)換, b2,b3為偏置.
1.3 帶有專家網(wǎng)絡(luò)的解碼器
傳統(tǒng)的Transformer解碼器每層末尾都有一個前饋網(wǎng)絡(luò)層, 用于聚合來自注意力模塊多個頭的輸出, 即所有的參數(shù)全部參與計算, 但并非模型中存儲的所有信息都與特定的輸入有關(guān), 為篩選模型中與特定輸入有關(guān)的信息, 本文使用專家網(wǎng)絡(luò)層, 如圖3所示. 該層從專家集合{Ei(zt)}Ni=1中選擇將特定輸入路由給最優(yōu)的專家, 進一步篩選信息.
本文將解碼器中編-解碼注意力模塊的輸出zt作為專家網(wǎng)絡(luò)層的輸入, 在每個步驟t中, 經(jīng)過編-解碼注意力模塊輸出, 用公式表示為
zt=LN(zt+SELFATTN(zt)),(7)
zt=LN(zt+CROSSATTN(zt,H)),(8)
zt=LN(zt+CROSSRATTN(zt,X)),(9)
其中LN為層歸一化表示.
編-解碼注意力模塊輸出zt進入專家網(wǎng)絡(luò)層后先乘以路由矩陣Wr, 得到各專家對于特定輸入的得分, 即w=Wr·zt, 然后由Softmax函數(shù)歸一化為概率分布, 專家i的門控值計算如下:
pi(zt)=ewi∑Nj=1ewj.(10)
參考Fedus等[16]的工作, 與選擇多個專家相比, 本文采用一種簡化策略, 在每層對特定的輸入, 模型只激活一個專家, 因此輸入zt會選擇最高的概率通過專家網(wǎng)絡(luò), 被選擇的專家i的概率分布如下:
P(zt)=max{pi(zt)}.(11)
專家網(wǎng)絡(luò)層的輸出由專家產(chǎn)生激活, 并通過其概率得分加權(quán), 計算公式如下:
Y=P(zt)Ei(zt),(12)
其中Ei(zt)表示對給定輸入zt第i個專家的輸出. 在模型解碼器的頂部, 用Softmax層將解碼器的輸出轉(zhuǎn)換為摘要字生成概率.
1.4 損失函數(shù)
在訓(xùn)練過程中采用交叉熵損失函數(shù), 用標簽平滑策略, 從而提高神經(jīng)網(wǎng)絡(luò)的泛化能力和學(xué)習(xí)速度, 防止模型過擬合. 標簽平滑可降低經(jīng)過集束搜索后的單詞錯誤率, 經(jīng)過標簽平滑過后的樣本交叉熵損失不僅考慮了訓(xùn)練樣本中one-hot標簽為1位置的損失, 也考慮了到one-hot標簽為0位置的損失, 在一定程度上通過標簽平滑策略可緩解模型“盲目自信”的問題, 從而提高模型的學(xué)習(xí)能力. 經(jīng)過標簽平滑后的交叉熵損失可表示為
Loss=-∑Ni=1LS(one_hot)×log(Softmax(logiti)),(13)
其中one_hot表示樣本標簽轉(zhuǎn)化的獨熱向量, LS(one_hot)表示標簽平滑操作后的樣本標簽, logiti表示解碼器經(jīng)過全連接層后的輸出.
2 實驗與分析
2.1 實驗數(shù)據(jù)集
實驗采用新聞自動文本摘要數(shù)據(jù)集CNN/DM和XSum, 各數(shù)據(jù)集信息列于表1. 數(shù)據(jù)集CNN/DM包含從美國有限新聞網(wǎng)(CNN)和每日郵報網(wǎng)(Daily Mail)上收集的新聞文章及對應(yīng)的摘要. 本文采用Hermann等[17]處理后的版本, 其中包含287 226組數(shù)據(jù)用于訓(xùn)練, 13 368組數(shù)據(jù)用于驗證, 11 490組數(shù)據(jù)用于測試, 用于訓(xùn)練的原文檔每條新聞平均包含760個單詞, 共29.74句組成; 其對應(yīng)的摘要由53個單詞, 共3.72句組成. 數(shù)據(jù)集XSum中每篇新聞文章對應(yīng)的摘要僅為一句話, 其中新單詞占83.71%, 因此是高度抽象的. 本文使用Stanford CoreNLP工具包分割文本語句, 并對實驗數(shù)據(jù)集進行預(yù)處理, 輸入文檔被截斷為512個令牌.
2.2 評價指標
自動文本摘要的評估方法可分為內(nèi)部評估方法和外部評估方法兩類. 內(nèi)部評估方法提供摘要, 并基于參考摘要評估生成摘要的質(zhì)量; 外部評估方法并未提供參考摘要. 本文使用Lin[18]提出的內(nèi)部評價方法ROUGE指標評估生成摘要的質(zhì)量. ROUGE指標主要評估生成摘要與參考摘要之間的共現(xiàn)信息, 共現(xiàn)信息量越多, 評價指標分數(shù)越高, 則表明模型生成的摘要質(zhì)量越高. ROUGE評價指標按信息共現(xiàn)量分為ROUGE-1,ROUGE-2和ROUGE-L, 其中ROUGE-1,ROUGE-2分別表示生成摘要與參考摘要中詞和二元詞語的重合程度, ROUGE-L表示生成摘要與參考摘要中最長公共子序列的重合程度, 其計算方法如下:
ROUGE-N=∑S∈{Ref}∑n-grams∈SCount
match(n-gram)∑S∈{Ref}∑n-grams∈SCount(n-gram),(14)
其中n-gram表示n個單詞, {Ref}表示參考摘要, Countmatch(n-gram)表示生成摘要與參考摘要中同時出現(xiàn)n-gram的數(shù)量, Count(n-gram)表示參考摘要中出現(xiàn)n-gram的數(shù)量.
2.3 參數(shù)設(shè)置
本文用預(yù)訓(xùn)練BERT-base-uncased模型初始化文檔編碼器, 并隨機初始化解碼器. 由于隨機梯度下降在整個訓(xùn)練過程中保持單一學(xué)習(xí)率更新所有權(quán)重, 而Adam優(yōu)化算法通過計算梯度的一階矩估計和二階矩估計為不同的參數(shù)設(shè)計獨立的自適應(yīng)學(xué)習(xí)率, 因此在解碼階段使用Adam優(yōu)化算法默認學(xué)習(xí)率設(shè)為2×10-3, 動量參數(shù)β1=0.9, β2=0.999. 為解決編碼器與解碼器不匹配的問題, 采用新的微調(diào)計劃, 分離編碼器和解碼器的優(yōu)化器:
lrENC=2×10-3·min{step-0.5,step·warmup-1.5ENC},(15)
lrDEC=0.1·min{step-0.5,step·warmup-1.5DEC},(16)
其中: 編碼器學(xué)習(xí)率為0.002, warmupENC=20 000; 解碼器學(xué)習(xí)率為0.1, warmupDEC=10 000. 為防止模型過擬合, 將非專家網(wǎng)絡(luò)層的Dropout設(shè)為0.2, 專家網(wǎng)絡(luò)層的Dropout設(shè)為0.5, 專家層個數(shù)設(shè)為4. 在測試階段使用集束搜索算法進行解碼, 大小設(shè)為5. 實驗采用單張GTX3090Ti(GPU)進行訓(xùn)練.
2.4 實驗結(jié)果分析
2.4.1 對比實驗
為證明本文方法的有效性, 將對比以下基準模型并直接從原文獻中抽取實驗結(jié)果.
1) RNN-Ext-Abs+RL[19]: 基于強化學(xué)習(xí)的句子級的文本摘要生成模型. 先對選取的句子進行重寫, 并根據(jù)強化學(xué)習(xí)中的梯度策略, 提出將句子選擇與句子摘要連接起來的方法, 在一定程度上減少了冗余內(nèi)容的生成.
2) Bert-Abs[15]: 先通過BERT預(yù)訓(xùn)練模型編碼原文檔, 再將原文檔的上下文表示輸入到Transformer解碼器中生成摘要.
3) Bert-Hybrid[20]: 其為一種新的抽取與生成混合框架, 先由抽取模型選擇語句, 生成模型根據(jù)所選句子重寫摘要, 再通過聯(lián)合學(xué)習(xí)選擇語句和重寫摘要完成文本摘要任務(wù).
4) Bert-Ext-Abs+RL[21]: 基于BERT的抽取體系架構(gòu)生成摘要, 直接最大化通過強化學(xué)習(xí)獲得的概要級ROUGE評分, 優(yōu)化獲取的摘要.
5) Bert-Ext-Abs[15]: 先由抽取式摘要模型BertExt抽取摘要, 再將抽取的摘要作為唯一輸入到生成式摘要模型BertAbs中, 重新編碼生成摘要.
6) ESCA-BERT[22]: 其為一種新的抽取-生成框架, 該框架側(cè)重于可解釋性, 配備了成對排序抽取模型, 與配備句子級注意指針的生成式摘要模型無縫連接.
7) Bert-Copy/Rewrite+HRL[23]: 基于分層強化學(xué)習(xí), 提出一種端到端的強化方法, 將抽取模塊和重寫模塊連接在一起, 根據(jù)冗余度靈活地在復(fù)制和重寫句子之間切換, 提高摘要性能.
8) T-BERTSum[24]: 先通過神經(jīng)主題模型(NTM)將編碼的潛在主題表示與嵌入的BERT表示進行匹配, 指導(dǎo)主題的生成, 然后通過Transformer網(wǎng)絡(luò)學(xué)習(xí)長期依賴關(guān)系, 以端到端的方式共同探索主題推理和文本摘要.
上述各自動文本摘要模型在數(shù)據(jù)集CNN/DM上的實驗結(jié)果列于表2.
由表2可見, 本文方法在ROUGE-1,ROUGE-2和ROUGE-L評價指標上優(yōu)于其他對比方法. 對比RNN-Ext-Abs+RL,Bert-Ext-Abs+RL,Bert-Copy/Rewrite+HRL模型等使用強化學(xué)習(xí)或復(fù)制機制的摘要生成方法, 本文在各項評價指標上的實驗效果仍有所提升, 表明在不使用復(fù)雜算法的情況下, 用文本關(guān)鍵信息有效引導(dǎo), 模型仍可學(xué)習(xí)到文本的主旨內(nèi)容, 提高了生成摘要的精確度. 與使用RNN編碼的模型RNN-Ext-Abs+RL相比, 本文模型的實驗效果也有一定提升, 表明使用BERT預(yù)訓(xùn)練模型編碼, 不僅可提高模型的并行能力, 而且可提高模型的文本語義特征提取能力. 本文方法優(yōu)于其他方法的關(guān)鍵原因是首先使用關(guān)鍵句作為引導(dǎo)信息, 可在一定程度上引導(dǎo)解碼器關(guān)注原文檔的重要內(nèi)容, 使生成的摘要與原文檔的內(nèi)容偏差較?。?另一方面, 本文在注意力層后加入了專家網(wǎng)絡(luò)層進一步篩選信息, 可有效減少冗余內(nèi)容的生成. 實驗結(jié)果表明, 本文方法在自動文本摘
要生成任務(wù)上有效. 此外, 本文也在相對較抽象的數(shù)據(jù)集XSum上進行了實驗驗證, 實驗結(jié)果列于表3. 由表3可見, 本文模型性能優(yōu)異, 但相對于偏抽取的數(shù)據(jù)集CNN/DM性能欠佳.
2.4.2 顯著性分析
本文選擇從原文檔中提取的信息作為引導(dǎo)信號, 但尚不清楚模型是否會過度擬合或者生成新的表達式. 為此, 計算數(shù)據(jù)集CNN/DM中生成文本摘要的重復(fù)率, 結(jié)果如圖4所示. 由圖4可見, 本文模型相比于基線模型重復(fù)率明顯降低. 結(jié)果表明, 本文使用原文檔中的重要句子作為關(guān)鍵信息引導(dǎo)模型可以生成新的表達式, 并且沒有過于依賴輸入的引導(dǎo)信息.
2.4.3 消融實驗
為驗證本文方法中各模塊的重要性, 在數(shù)據(jù)集CNN/DM上進行消融實驗, 實驗結(jié)果列于表4. 由表4可見, 加入關(guān)鍵句后的模型與基線模型相比, 在評價指標ROUGE上分別提升1.64,1.21,1.53個百分點, 表明關(guān)鍵句的確可以有效引導(dǎo)模型, 本文模型學(xué)會了如何依賴關(guān)鍵引導(dǎo)信號獲取文本的主旨內(nèi)容. 在加入專家網(wǎng)絡(luò)后, 本文模型又取得了更高的準確率, 表明了各模塊在模型中的重要性.
2.4.4 案例分析
表5列出了數(shù)據(jù)集CNN/DM中不同模型的輸出結(jié)果. 由表5可見, 本文模型在數(shù)據(jù)集CNN/DM輸出的摘要準確概括了文本所表達的主旨, 如示例中文本的主要思想是“田納西州默弗里斯伯勒里弗韋爾高中勇士隊教練羅恩·艾德洛特在襲擊中面部嚴重受傷”. 生成摘要的話語表達與關(guān)鍵句的表達相似, 表明本文模型學(xué)會了依賴本文所提供的關(guān)鍵句信息, 關(guān)鍵句確實在模型解碼生成摘要時對生成的內(nèi)容起到了引導(dǎo)作用. 此外, 本文生成的摘要相對較簡潔, 表明專家網(wǎng)絡(luò)在生成摘要字時進一步篩選信息, 在一定程度上減少了冗余內(nèi)容的生成, 提高了生成摘要的簡潔性.
綜上所述, 針對現(xiàn)有生成式摘要模型生成過程中存在原文本關(guān)鍵信息缺失和內(nèi)容難控制的問題, 本文提出了一種融合關(guān)鍵信息與專家網(wǎng)絡(luò)的生成式文本摘要模型, 該模型采用雙編碼策略, 使用BERT預(yù)訓(xùn)練模型分別編碼原文檔和關(guān)鍵句, 以更好地獲得文本語義表征. 用關(guān)鍵信息在解碼階段引導(dǎo)生成摘要的內(nèi)容, 并采用專家網(wǎng)絡(luò)進一步篩選信息, 不僅使生成的摘要更精煉、 簡潔地概括文本的中心要義, 而且使自動文本摘要的生成過程有一定的可解釋性. 在數(shù)據(jù)集CNN/DM和XSum上的實驗結(jié)果表明, 本文模型對生成式摘要的準確度有明顯提升.
參考文獻
[1] WANG L, YAO J L, TAO Y Z, et al. A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization [C]//Proceedings of the International Joint Conference on Artificial Intelligence. New York: ACM, 2018: 4453-4460.
[2] SEE A, LIU P, MANNINIG C. Get to the Point: Summarization with Pointer-Generator Networks [C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2017: 1073-1083.
[3] NARAYAN S, COHEN S, LAPATA M. Ranking Sentences for Extractive Summarization with Reinforcement Learning [C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics. [S.l.]: ACL, 2018: 1747-1759.
[4] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l.]: ACL, 2019: 4171-4186.
[5] LIU Y X, LIN P F. Simcls: A Simple Framework for Contrastive Learning of Abstractive Summarization [C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. [S.l.]: ACL, 2021: 1065-1072.
[6] SU M H, WU C H, CHENG H T. A Two-Stage Transformer-Based Approach for Variable-Length Abstractive Summarization [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 2061-2072.
[7] ZHONG M, LIU P F, CHEN Y R, et al. Extractive Summarization as Text Matching [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2020: 6197-6208.
[8] JIN H Q, WANG T M, WAN X J. Semsum: Semantic Dependency Guided Neural Abstractive Summarization [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI, 2020: 8026-8033.
[9] ZHU C G, HINTHORN W, XU R C, et al. Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph [EB/OL]. (2020-03-19)[2023-03-23]. https://arxiv.org/abs/2003.08612.
[10] DOU Z Y, LIU P F, HAYASHI H, et al. GSum: A General Framework for Guided Neural Abstractive Summarization [C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics. [S.l.]: ACL, 2021: 4830-4842.
[11] JIANG M, ZOU Y F, XU J, et al. GATSum: Graph-Based Topic-Aware Abstract Text Summarization [J]. Information Technology and Control, 2022, 51(2): 345-355.
[12] CUI P, HU L, LIU Y C. Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Networks [C]//Proceedings of the 28th International Conference on Computational Linguistics. [S.l.]: ACL, 2020: 5360-5371.
[13] RAVAUT M, JOTY S, CHEN N. SummaReranker: A Multi-task Mixture-of-Experts Re-ranking Framework for Abstractive Summarization [C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2022: 4504-4524.
[14] ZHOU Q Y, YANG N, WEI F R, et al. Selective Encoding for Abstractive Sentence Summarization [C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2017: 1095-1104.
[15] LIU Y, LAPATA M. Text Summarization with Pretrained Encoders [C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. [S.l.]: ACL, 2019: 3730-3740.
[16] FEDUS W, ZOPH B, SHAZEER N. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity [J]. The Journal of Machine Learning Research, 2021, 23(1): 5232-5270.
[17] HERMANN K M, KOCISKY T, GREFENSTETTE E, et al. Teaching Machines to Read and Comprehend [C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. New York: ACM, 2015: 1693-1701.
[18] LIN C Y. Rouge: A Package for Automatic Evaluation of Summaries [C]//Proceedings of the ACL Workshop: Text Summarization Braches Out. [S.l.]: ACL, 2004: 74-81.
[19] CHEN Y C, BANSAL M. Fast Abstractive Summarization with Reinforce-Selected Sentence Rewriting [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2018: 675-686.
[20] WEI R, HUANG H Y, GAO Y. Sharing Pre-trained BERT Decoder for a Hybrid Summarization [C]//Proceedings of Chinese Computational Linguistics: 18th China National Conference. New York: ACM, 2019: 169-180.
[21] BAE S, KIM T, KIM J, et al. Summary Level Training of Sentence Rewriting for Abstractive Summarization [C]//Proceedings of the 2nd Workshop on New Frontiers in Summarization. [S.l.]: ACL, 2019: 10-20.
[22] WANG H N, GAO Y, BAI Y, et al. Exploring Explainable Selection to Control Abstractive Summarization [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI, 2021: 13933-13941.
[23] XIAO L Q, WANG L, HE H, et al. Copy or Rewrite: Hybrid Summarization with Hierarchical Reinforcement Learning [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI, 2020: 9306-9313.
[24] MA T H, PAN Q, RONG H, et al. T-BERTSum: Topic-Aware Text Summarization Based on BERT [J]. IEEE Transactions on Computational Social Systems, 2022, 9(3): 879-890.
(責(zé)任編輯: 韓 嘯)