陳共馳,榮 歡+,馬廷淮
1.南京信息工程大學 人工智能學院(未來技術(shù)學院),南京210044
2.南京信息工程大學 計算機學院(軟件學院、網(wǎng)絡(luò)空間安全學院),南京210044
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)中蘊含了基數(shù)龐大、形式多樣的數(shù)據(jù)內(nèi)容,從中迅速定位關(guān)鍵信息是高效信息檢索面臨的首要問題。對于文本數(shù)據(jù)而言,自動摘要技術(shù)能夠從給定語料中提取核心內(nèi)容,以篇幅相對較短的摘要文本描述原文主旨,有利于降低文本數(shù)據(jù)的存儲成本,是提高文本數(shù)據(jù)檢索效率的必要手段,對進一步實現(xiàn)信息集成有著重要的現(xiàn)實意義與應用價值。
現(xiàn)有自動文本摘要方法可從原文中直接選取重要語句或語段,按語句抽取方式產(chǎn)生摘要文本;另一方面,為加大對原文的信息表示、內(nèi)容凝練和語義轉(zhuǎn)述,近年來生成型文本摘要方法已成為文本摘要領(lǐng)域的研究熱點。一般而言,生成型文本摘要方法首先對給定原文進行編碼,從詞、句層面獲得能夠涵蓋原文信息的向量(嵌入)表示;其次,從已有編碼表示中進一步識別并提煉重要信息,解析出與原文主旨更為相關(guān)的特征編碼;最后,對上述特征編碼進行解碼,即根據(jù)解碼結(jié)果從給定詞表(詞典)中選擇相應詞匯,以形成摘要文本,重新由文字形式表述原文主旨。由此可見,相較于抽取型方法,生成型文本摘要實施難度更大,但其產(chǎn)生的摘要文本在詞匯表述上更加靈活豐富,對原文關(guān)鍵信息的凝練效果更加理想。
然而,所面臨的問題是,生成型文本摘要方法需經(jīng)過原文編碼、編碼解析和特征解碼過程,由更豐富的詞匯組織語句以轉(zhuǎn)述原文主旨,故易導致所產(chǎn)生摘要語句的連貫性(coherence)欠佳,摘要文本可讀性不理想;此外,現(xiàn)階段生成型文本摘要方法涉及人工標注的摘要真值進行有監(jiān)督訓練,致使現(xiàn)有生成型文本摘要方法常面臨摘要真值資源稀缺問題,故僅依靠事先標注語句連貫性較強的“摘要真值”,按有監(jiān)督訓練方式提升模型所生成摘要的語句連貫性,在實際應用中或阻力較大。因此,本文立足于生成型文本摘要模型,尋求在無事先已標注摘要真值介入的前提下(即無真值依賴),仍能夠提升摘要生成模型語句連貫性的有效機制,從而改善摘要文本語句流暢度,增加摘要文本可讀性。
針對上述問題,本文遵循“先抽取、再生成”的原理,提出一種面向連貫性強化的無真值依賴文本摘要模型(abstractive text summarization model with coherence reinforcement and no ground truth dependency,ATS_CG);該模型由編碼器(模塊A)、連貫性度量模塊(模塊B)和解碼器(模塊C)三部分組成,按兩階段生成摘要文本。
具體而言,一方面,在摘要文本生成階段,編碼器(模塊A)首先對給定原文本(source document)進行編碼,獲取原文本的嵌入表示;在此基礎(chǔ)上,連貫性度量模塊(模塊B)采用Transformer-XL編碼器對原文本的嵌入表示做進一步編碼處理,解析與上下文相關(guān)的內(nèi)容特征,并在連貫性度量模塊的頂層設(shè)置“關(guān)鍵語句分類層”,產(chǎn)生語句抽取標識,以篩選出(或為關(guān)鍵的)語句編碼結(jié)果,從而通過連貫性度量模塊刻畫出從原文抽取關(guān)鍵語句的過程;最終,解碼器(模塊C)基于連貫性度量模塊輸出的關(guān)鍵語句編碼,初步產(chǎn)生針對所“抽取”關(guān)鍵語句的解碼結(jié)果,即原始詞匯分布。
另一方面,在語句連貫性強化階段,模型ATS_CG首先取得上一階段解碼器(模塊C)輸出的原始詞匯分布,通過“按概率選擇”與“按Softmax-貪婪選擇”產(chǎn)生兩類摘要文本,并由編碼器(模塊A)對兩類摘要進行重新編碼;之后,由連貫性度量模塊(模塊B)解析兩類摘要的重編碼結(jié)果,以模塊B 頂層Transformer-XL 編碼器中內(nèi)嵌的基于語義段(segment)的循環(huán)自注意力權(quán)重作為摘要語句的連貫性收益;以所生成摘要文本與“偽摘要真值”的ROUGE評分,作為摘要語句的內(nèi)容收益,從而由上述兩收益之和,通過連貫性度量模塊計算兩類摘要文本各自對應的總體收益;此處,“偽摘要真值”為通過ROUGE 評分從原文抽取的最優(yōu)語句集合。其次,構(gòu)建兩類摘要的“交叉熵損失”,采用強化學習中的“自評判策略梯度”(selfcritical policy gradient),以兩類摘要的“總體收益差值”對模型參數(shù)梯度進行獎勵或懲罰,迫使“按Softmax-貪婪選擇”所生成摘要的總體收益向“按概率選擇”所生成摘要的總體收益逼近,通過“概率探索”提升“Softmax-貪婪選擇”的整體基線水平,進而提升模型ATS_CG 所生成摘要文本在語句連貫性與語句內(nèi)容方面的收益取值。最終,在無摘要真值介入的前提下,生成語句連貫性高、內(nèi)容質(zhì)量好的摘要文本。
綜上所述,本文提出了一種面向連貫性強化的無真值依賴文本摘要模型(ATS_CG),該方法按照“抽取與生成”相結(jié)合的方式,基于從原文提取的關(guān)鍵語句集合產(chǎn)生摘要內(nèi)容;同時,通過對初步生成的摘要文本進行重編碼、連貫性與內(nèi)容收益計算,在解碼器原始詞匯分布基礎(chǔ)上,獲取“按概率選擇”相較于“按Softmax-貪婪選擇”所取得的“收益優(yōu)勢”,通過最大化該“收益優(yōu)勢”指導模型梯度更新,以產(chǎn)生語句連貫性較高的摘要文本。實驗結(jié)果表明,即便在僅給定原文本的限制條件下,模型ATS_CG的ROUGE、METEOR評分指標上總體上仍優(yōu)于現(xiàn)有文本摘要方法;與此同時,模型ATS_CG 所生成的摘要文本在語句連貫性、內(nèi)容重要性、信息冗余性、詞匯新穎度和摘要困惑度等方面亦優(yōu)于現(xiàn)有方法。
目前,基于“編碼-解碼”思想的序列到序列(sequence to sequence,Seq2Seq)結(jié)構(gòu)是處理生成型文本摘要任務(wù)的主要方法。傳統(tǒng)Seq2Seq 結(jié)構(gòu)中的編碼器和解碼器常采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)和雙向LSTM 網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM),為了產(chǎn)生語句質(zhì)量更優(yōu)的摘要文本,眾多學者對上述基于循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體的摘要生成模型做了相關(guān)改進。Cohan 等提出一種可從詞語和語段兩個層面捕捉輸入文本語篇結(jié)構(gòu)的層次型編碼器,并將語篇結(jié)構(gòu)特征注入解碼器,輔助解碼器生成摘要文本,該工作已在學術(shù)論文摘要生成任務(wù)上取得了較高的ROUGE評分;Paulus 等在解碼器端引入內(nèi)部注意力機制(intra-decoder attention),即在第位解碼時觀察前-1 位解碼結(jié)果,由注意力權(quán)重防止解碼器生成重復內(nèi)容,有效降低了摘要文本語句內(nèi)容的冗余度;同時,該工作結(jié)合Teacher Forcing 算法和自評判策略梯度構(gòu)建混合強化學習目標,使模型在處理原文本時有效避免了曝光偏差(exposure bias),并生成具有較高評估精度的摘要文本;Celikyilmaz 等首先將輸入的原文本劃分為多個語段,并基于Bi-LSTM 模型構(gòu)建多個代理(agent);之后,各代理對所分配的語段進行解析,并根據(jù)多代理通信機制在代理間傳遞所屬語段的解析結(jié)果,最終形成原文本的“全局觀察”,由“全局觀察”按“編碼-解碼”思想生成摘要文本。
盡管上述模型都在摘要生成的精度上取得了提升,但其所采用的循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體均為基于時間步的序列結(jié)構(gòu),嚴重妨礙了模型的并行訓練,致使模型在訓練和推理過程中受到內(nèi)存限制,導致摘要生成模型編碼與解碼速度降低,訓練開銷增大。另一方面,上述工作均以最大化ROUGE 指標或極大似然為目標來優(yōu)化模型,未涉及對摘要語句連貫性或流暢度的考慮,且均依賴事先標注的摘要文本真值進行有監(jiān)督訓練,模型訓練所涉及的數(shù)據(jù)成本較高。因此,仍需對基于循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體的摘要生成模型做進一步改進。
為此,Vaswani 等提出的Transformer 模型采用一種全新結(jié)構(gòu),其完全依靠自注意力機制來刻畫輸入和輸出間的全局依賴關(guān)系,避免了時序性循環(huán)結(jié)構(gòu)的引入;該結(jié)構(gòu)可使摘要模型進行充分的并行化訓練,訓練速度和推理速度得到顯著提升。因此,將Transformer和自注意力機制引入上述“編碼-解碼”結(jié)構(gòu)是目前生成式摘要的研究熱點。具體而言,Liu 等提出的BERTSUMEXTABS 模型將已預訓練的BERT作為編碼器獲取輸入文本編碼表示,6 層Transformer 作為解碼器生成摘要內(nèi)容;特別地,該工作在編碼器之后引入2 層Transformer組成的抽取器,負責從編碼器輸出的編碼表示中抽取重要句子以讓解碼器關(guān)注原文重要內(nèi)容,由此產(chǎn)生質(zhì)量較高的摘要內(nèi)容。Zhang 等提出PEGASUS 模型利用空白句子生成(gap sentences generation,GSG)的自監(jiān)督預訓練目標,結(jié)合由定量指標ROUGE-F1 抽取的偽摘要訓練基于Transformer 的摘要生成模型,實驗結(jié)果表明模型經(jīng)過預訓練之后,僅需少量摘要真值數(shù)據(jù)進行微調(diào)即可產(chǎn)生評估精度較高的摘要文本,有效降低了模型訓練的數(shù)據(jù)成本。王侃等在原文本預處理過程中向Transformer 引入與文本內(nèi)容相關(guān)的先驗知識,通過自注意力機制結(jié)合ELMO(embeddings from language models)模型獲取輸入的動態(tài)文本矩陣,將該矩陣輸入到基于Transformer 的編碼-解碼結(jié)構(gòu)中,最終產(chǎn)生連貫摘要語句。此外,Pilault等在應用Transformer 對重新組織后的長文本(如論文)進行摘要生成后,發(fā)現(xiàn)該模型即便不采用Copy機制仍能保證摘要語句的連貫性,但其內(nèi)容關(guān)聯(lián)程度欠佳。
針對摘要語句連貫性方面的工作還包括:Chu等通過對原文本進行編碼、解碼和重編碼,構(gòu)建摘要相似性損失和文本重構(gòu)損失來優(yōu)化模型,該模型在評估階段采用已訓練好的語言模型計算生成摘要文本的負對數(shù)似然,以此衡量語句連貫性;Li 等利用BERTSCORE指標構(gòu)建分布式語義收益,將該收益結(jié)合自評判策略梯度對模型進行優(yōu)化。人工評估結(jié)果表明該收益能使得模型摘要更連貫;Chen 等在對解碼器進行預訓練后,通過在句子級別上應用優(yōu)勢動作評判(advantage actor-critic,A2C)對抽取器進行優(yōu)化,以保證模型轉(zhuǎn)述正確的關(guān)鍵語句從而生成連貫流暢的摘要。
上述模型對摘要連貫性的優(yōu)化均以最小化所生成摘要文本困惑度(perplexity)為目標。然而,值得注意的是,現(xiàn)有工作在對摘要語句連貫性進行評估時均采用人工評估方法,即在摘要生成模型內(nèi)部缺少一種對語句連貫性進行自動度量的機制或方法。
綜上所述,現(xiàn)階段生成型文本摘要方法應該滿足或解決以下問題:第一,能夠根據(jù)給定原文本生成語句連貫且可讀性高的摘要文本;第二,摘要生成模型內(nèi)部應包含對所生成摘要語句進行自動連貫性度量的處理機制;第三,應盡量減少模型訓練過程對摘要真值數(shù)據(jù)的標注依賴,以降低模型訓練成本。
如圖1 所示,ATS_CG 模型主要分為兩個階段:
第一,摘要文本生成階段(圖1 中①至⑥,藍色線條標識)。首先,編碼器(模塊A)采用AL-BERT 組件獲取原文本集的編碼表示E,由連貫性度量模塊(模塊B,頂層為Sigmoid 分類層)獲取輔助信息并抽取關(guān)鍵語句集合;此處,輔助信息與關(guān)鍵語句集合視為對編碼表示E的特征解析結(jié)果;接著,由解碼器(模塊C)對和進行解碼、查詞后初步產(chǎn)生針對關(guān)鍵語句內(nèi)容的摘要文本。
值得注意的是,如圖1 所示,摘要文本生成階段中由解碼器(模塊C)對和進行解碼時,需基于原始詞匯分布,采取“按概率選擇”與“按Softmax-貪婪選擇”兩類策略進行詞匯選擇,從而產(chǎn)生不同選擇策略下的摘要文本。
第二,語句連貫性強化階段(圖1 中⑦至?,橙色線條標識)。首先,模型ATS_CG 將階段1(“按概率選擇”或“按Softmax-貪婪選擇”)初步生成的摘要文本重新遞交給AL-BERT 編碼器(模塊A),進行“摘要重編碼”;其次,基于重編碼結(jié)果,取得連貫性度量模塊(模塊B)中第層編碼組件(Transformer XLEncoder)內(nèi)嵌的基于語義段的循環(huán)自注意力權(quán)重,以此作為階段1 所生成摘要文本的語句連貫性評分,記為連貫性收益(),從而在模型內(nèi)部引入語句連貫性度量機制;再者,計算階段1 所生成摘要文本與偽摘要的ROUGE 評分,記為內(nèi)容收益();此處,“偽摘要”是通過計算原文各語句與原文整體的ROUGE 評分后取得分最高的前條語句組成的。最終,以摘要文本的語句連貫性收益與摘要文本的語句內(nèi)容收益構(gòu)成模型ATS_CG 摘要生成的總體收益(記為),采用強化學習中的自評判策略梯度,遵循“最大化收益”原則,由總體收益(包含內(nèi)容與連貫性兩方面)更新模型ATS_CG參數(shù)梯度,從而引導模型在無人工標注的摘要真值介入的前提下(如僅依靠偽摘要),產(chǎn)生語句連貫性高且內(nèi)容質(zhì)量好的摘要文本。
圖1 ATS_CG 模型總體架構(gòu)Fig.1 Architecture of ATS_CG model
圖2 階段1:模型ATS_CG 摘要文本生成具體流程Fig.2 Stage 1:detailed process of summary generation of ATS_CG
如圖2 所示,在摘要文本生成階段中,連貫性度量模塊(頂層為Sigmoid 分類層)負責解析AL-BERT編碼器輸出的文本編碼表示E,以提取跨語義片段的上下文信息;此外,頂層Sigmoid 分類器從上下文信息中判別關(guān)鍵語句以產(chǎn)生抽取標識,進而輸出關(guān)鍵語句集合(編碼)。特別地,可在后續(xù)解碼過程中為關(guān)鍵語句集合提供對應的上下文信息,進而輔助解碼器產(chǎn)生概括原文主旨的摘要文本。
抽取輸入文本集對應的偽摘要集合
其次,區(qū)別于現(xiàn)有工作,如圖3 所示,解碼器(模塊C)解析獲得摘要文本的原始詞匯分布(observation distribution),記 為=[,,…,obs_dis];其中,obs_dis為第篇文本D對應摘要的原始詞匯分布。在此基礎(chǔ)上,一方面,模型ATS_CG 采用基于概率的詞匯選擇方法,產(chǎn)生每篇文本所對應摘要的詞匯分布,記為=[,,…,act_dis];其中,act_dis表示第篇文本D對應摘要的詞匯分布;特別地,此處基于概率的詞匯選擇方法表示“若存在詞匯分布[0.7,0.2,0.1],則即便某個詞匯被選中的概率較低(如0.1),但依舊有可能被選中”。相反,另一方面,當模型ATS_CG 采用基于貪婪策略(greedy selection)的詞匯選擇方法時,由“Softmax”固定選取概率最高的詞匯(如0.7),記該情形下摘要的詞匯分布為=[,,…,greedy_dis]。最終,根據(jù)上述詞匯選擇策略生成相應詞匯分布后,模型ATS_CG采用波束搜索(beam search)算法,依據(jù)詞匯分布(或)查詢字典,獲得對應的摘要文本。
圖3 模型ATS_CG 摘要文本生成階段中的關(guān)鍵語句解碼與相關(guān)分布生成Fig.3 ATS_CG decoding key sentences and generating related distribution in summary generation stage
如圖4 所示,在摘要語句連貫性強化階段中,模型ATS_CG 首先針對階段1“按概率選擇”與“按Softmax-貪婪選擇”初步產(chǎn)生的摘要文本,從語句連貫性與語句內(nèi)容兩方面對摘要文本進行評分以得到總體收益,記為。將輸入文本集中所有文本對應摘要的總體收益表示為=[,,…,reward];一般而言,語句連貫性需通過文本內(nèi)容反映出來,故在本文中,將針對摘要內(nèi)容的評分亦歸屬至語句連貫性范疇。
圖4 階段2:模型ATS_CG 摘要語句連貫性強化階段具體流程Fig.4 Stage 2:detailed process of coherence reinforcement of summary sentences generated by ATS_CG
值得注意的是,如圖5 所示,若兩詞間的自注意力權(quán)重越高,則該詞對的語義聯(lián)系越緊密;進一步地,若語義段之間自注意力權(quán)重越高,則認為兩個語義段的語義更加相關(guān),出現(xiàn)位置不應相隔較遠,從而體現(xiàn)語義上的連貫性。
圖5 語義段劃分與基于語義段的循環(huán)自注意力Fig.5 Segment partition and recurrent self-attention mechanism based on segment
按式(9)將上述語句連貫性收益()與語句內(nèi)容收益()進行合并,獲得模型ATS_CG 摘要生成的總體收益,即;其中,,,∈(0,1)為平衡參數(shù)。
基于模型ATS_CG 摘要生成的總體收益(,含語句連貫性與語句內(nèi)容兩方面),如圖4所示,在摘要語句連貫性強化階段的最后,采用強化學習自評判策略梯度,由模型總體收益()指導各模塊參數(shù)梯度更新。最終,提高解碼器(模塊C)所產(chǎn)生的原始詞匯分布()整體“基線”水平,以在無摘要真值介入的前提下,產(chǎn)生語句連貫性高的摘要文本。
本章對本文所提出面向連貫性強化的無真值依賴文本摘要模型(ATS_CG)進行一系列實驗分析,分別從摘要生成過程與摘要生成質(zhì)量兩方面討論模型的有效性。本文采用Python 3.7 與Tensorflow-1.15 實現(xiàn)模型,實驗運行環(huán)境為GPU,NVIDIA GeForce GTX 1080Ti,11 GB。
首先,本文采用CNN/Daily Mail 與XSum 兩個典型自動文本摘要數(shù)據(jù)集進行實驗,二者均以新聞報道作為文本數(shù)據(jù),并包含對應的“金標準”摘要真值文檔。本文將原始數(shù)據(jù)集劃分為訓練集、驗證集與測試集,訓練集用于模型訓練,驗證集用于模型參數(shù)選擇,測試集用于模型評估。特別地,“金標準”摘要不參與模型ATS_CG 訓練過程,僅用于摘要生成質(zhì)量評估。如表1 所示,CNN/Daily Mail 所包含的原文本與摘要文本的平均長度均大于XSum;XSum 由人工書寫的1 句話作為摘要真值。相較于CNN/Daily Mail,XSum 中摘要真值的新穎度(Novelty)更高,包含更多原文中未出現(xiàn)的字詞。
表1 本文實驗所采用數(shù)據(jù)集CNN/Daily Mail與XSum 的相關(guān)信息Table 1 Statistical information of CNN/Daily Mail and XSum datasets
其次,在模型設(shè)置方面,令詞向量維度為,隱層單元個數(shù)為,自注意力頭數(shù)為,前饋層維度大小為,ATS_CG模型采用AL-BERT(=128,=1 024,=16,=4 096)作為編碼器,連貫性度量模塊由=3 層Transformer-XL Encoder(=1 024,=2 048,=32,=4 096)組成,解碼器由=6 層Transformer-XL Decoder(=1 024,=2 048,=32,=4 096)構(gòu)成。在摘要文本生成階段,采用寬度為4 的波束搜索算法進行詞匯選擇,所生成摘要的最大長度由數(shù)據(jù)集原文檔與摘要文檔的平均壓縮率確定(文檔長度之比),且丟棄單詞個數(shù)低于3 的語句;連貫性度量模塊與解碼器分別采用學習率為1E-3、0.05 的Adam 優(yōu)化器,且兩者學習率隨迭代次數(shù)的增加而減小。批處理樣本數(shù)(,即輸入文本集大小)為16。在語句連貫性強化階段,式(8)所示文本內(nèi)容收益中取=0.3,=0.2,式(9)總收益中=0.7。模型利用CNN/Daily Mail 數(shù)據(jù)集進行訓練時,輸入文本集在一次迭代中取前=8條最優(yōu)記錄用于連貫性強化階段時的“經(jīng)驗回放”;利用XSum 進行訓練時,在一次迭代中取前=4條最優(yōu)記錄。
接著,在對比方法方面,將本文所提出摘要生成模型ATS_CG 與現(xiàn)有抽取型和生成型自動摘要方法相比較。其中,對于抽取型方法,選用MMS_Text、SummaRuNNer、Refresh和HSSAS;對于生成型方法,選用Pointer-Generator+Coverage、Bottom-up、DCA(deep communicating agents)、BERTSUMEXTABS和PEGASUS。
最后,對于評估指標,本文采用ROUGE-N(包括ROUGE-1 和ROUGE-2,式(12))、ROUGE-L(式(13))和METEOR(式(14))指標評估生成文本內(nèi)容質(zhì)量,同時配合人工評價對相關(guān)模型所生成的摘要文本在語句連貫性、內(nèi)容冗余度及內(nèi)容重要性三方面進行評估。此處,ROUGE-N 中,表示元(gram)長度,{RS}表示參考摘要,(gram)表示生成摘要中與參考摘要中相同元數(shù)目,(gram)為參考摘要中總的元數(shù)目;ROUGE-L中,為生成摘要,為參考摘要,(,)表示生成摘要與參考摘要的最長公共子序列長度,為生成摘要長度,為參考摘要長度;METEOR 中,為生成摘要中與參考摘要相匹配的一元組數(shù)目,為參考摘要長度,為生成摘要長度,、、為平衡參數(shù),為生成摘要中與參考摘要中公共子序列數(shù)目。
為探究模型ATS_CG 中不同模塊對實驗結(jié)果的影響,本文實現(xiàn)了如表2 所示的六種消融性組合。具體而言,組合1 采用模塊A(AL-BERT 編碼器)與不含有可替換頂層的模塊B(連貫性度量模塊,僅為Transformer-XL Encoder)進行編碼,再利用模塊C(解碼器)進行解碼以產(chǎn)生摘要。組合2 在組合1 的基礎(chǔ)上為模塊B 添加了Sigmoid 分類層,旨在對文本編碼表示進行關(guān)鍵語句選擇后再生成摘要。組合3 與組合2 結(jié)構(gòu)相同,但其對模塊B 進行了預訓練;特別地,上述3 個組合均采用訓練集“金標準”作為真值進行有監(jiān)督訓練。組合4 采用組合3 的結(jié)構(gòu),除了對模塊B 進行預訓練外,僅通過最大化連貫性收益進行連貫性強化,強化過程中采用抽取的偽摘要作為可替代真值;組合5 與組合4類似,但其僅通過最大化內(nèi)容收益進行連貫性強化;組合6即為圖1中完整的ATS_CG模型,此時仍采用抽取的偽摘要作為可替代真值。
表2 與圖1 對應的ATS_CG 模型消融性組合Table 2 Ablation combinations of ATS_CG corresponding to Fig.1
分別運用CNN/Daily Mail、XSum 驗證集對上述六種消融性組合進行評估,實驗結(jié)果如表3、表4 所示。首先,組合2 評估結(jié)果均優(yōu)于組合1,這表明模塊B 對關(guān)鍵語句進行抽取后能使解碼器對重點內(nèi)容進行解碼進而產(chǎn)生更高質(zhì)量摘要。其次,組合3 優(yōu)于組合2,表明預訓練能使模塊B 參數(shù)配置更加合理,進而更合理地選擇關(guān)鍵語句。接著,組合4 和組合5 評估結(jié)果均優(yōu)于組合3,表明本文構(gòu)建的收益與語句連貫性強化方法能有效提升摘要內(nèi)容質(zhì)量。特別地,組合4 的ROUGE-L 與METEOR 指標優(yōu)于組合3,可反映出本文連貫性度量與強化對語句連貫性的提升。最后,融合所有機制的組合6 評估結(jié)果最優(yōu),反映出本文所提出模型ATS_CG 各模塊在摘要生成上的有效性。
表3 消融性組合評估結(jié)果(CNN/Daily Mail數(shù)據(jù)集)Table 3 Evaluation results of ablation combinations on CNN/Daily Mail dataset %
表4 消融性組合評估結(jié)果(XSum 數(shù)據(jù)集)Table 4 Evaluation results of ablation combinations on XSum dataset %
綜上可知,對于ATS_CG 模型而言,其一,通過比較組合2 與組合3,可發(fā)現(xiàn)由偽摘要對連貫性度量模塊預訓練后,更能從文本編碼表示中識別出重要語句和上下文語義信息,從而為解碼器提供語義基準和輔助信息以生成能確切概括原文主旨的摘要內(nèi)容;其二,通過比較組合3 與組合4,可發(fā)現(xiàn)通過自注意力權(quán)重對連貫性進行度量,并以此作為摘要收益進行強化訓練,可有效提升模型所生成摘要語句質(zhì)量;其三,通過比較組合1~5 與組合6,可以發(fā)現(xiàn)通過構(gòu)建文本內(nèi)容收益和文本連貫性收益對模型進行強化訓練(組合6),能促使模型生成ROUGE 評分與METEOR評分(基于“金標準”摘要)更高的摘要內(nèi)容。
本節(jié)中將ATS_CG 模型分別與現(xiàn)有的抽取式方法和生成式方法在測試集上進行精度比較以評估其摘要生成質(zhì)量。首先,ATS_CG 模型與對比方法在CNN/Daily Mail 數(shù)據(jù)集上的評估結(jié)果(3 次平均)具體如表5 所示(ROUGE-AVG 為ROUGE-1、ROUGE-2和ROUGE-L 三者均值),相應柱狀圖如圖6,其中(a)是ATS_CG 與抽取型基線模型對比結(jié)果圖,(b)是ATS_CG 與生成型基線模型對比結(jié)果圖。
表5 生成摘要評估結(jié)果(CNN/Daily Mail數(shù)據(jù)集)Table 5 Evalution results of generated summarization on CNN/Daily Mail dataset %
一方面,如圖6(a)所示,ATS_CG 模型的評估結(jié)果總體優(yōu)于現(xiàn)有抽取型方法。該模型在ROUGE-1、ROUGE-2 指標優(yōu)于其余抽取型基線模型,表明其能有效地獲取原文主旨信息。同時,其在ROUGE-L 和METEOR 指標上的評分均高于其余抽取型基線模型,這說明該模型在對所獲取關(guān)鍵句進行轉(zhuǎn)述時能保證生成語句的連貫性。所比較的抽取型方法(MMS_Text、SummaRuNNer、Refresh和HSSAS)核心思想可歸結(jié)為三類:一是將文本轉(zhuǎn)為圖結(jié)構(gòu)(如MMS_Text),通過為節(jié)點(句子)打分從而抽取重要語句以形成摘要文本;二是通過編碼器挖掘文本潛在特征,以概率矩陣或語句排列順序抽取摘要語句(如SummaRuNNer和HSSAS);三是借助強化學習構(gòu)建質(zhì)量收益,以最大化收益為目標更新語句選擇策略后,對原文檔抽取摘要文本(如Refresh)。然而,對于本文提出的ATS_CG 模型而言,其核心思想為“先抽取,再生成”,該模型的連貫性度量模塊在預訓練后能識別并抽取原文關(guān)鍵語句,從而促使解碼器關(guān)注重點內(nèi)容;此外,在解碼生成時,ATS_CG 模型將含有上下文語義的輔助信息輸出到解碼器,進一步豐富了模型內(nèi)部的文本特征信息,最終使模型ATS_CG 所產(chǎn)生摘要文本質(zhì)量優(yōu)于“單一”的抽取型模型。
圖6 CNN/Daily Mail數(shù)據(jù)集上實驗結(jié)果(對應表5)Fig.6 Experimental results on CNN/Daily Mail dataset corresponding to Table 5
另一方面,如圖6(b)所示,ATS_CG模型和現(xiàn)有生成型方法相比(Pointer-Generator+Coverage、Bottomup、DCA、BERTSUMEXTABS和PEGASUS)總體上亦取得了較優(yōu)精度。該模型在ROUGE-1、ROUGE-2 指標優(yōu)于其余生成型基線模型,表明其能對獲取到的原文主旨信息進行正確的轉(zhuǎn)述。同時,其在ROUGE-L 和METEOR 指標上的評分均高于其余生成型基線模型,這說明該模型更能生成連貫流暢的摘要內(nèi)容。其性能提升可歸因為:第一,如圖2所示摘要生成過程中,模型ATS_CG 在預訓練組件基礎(chǔ)上(如AL-BERT 編碼器和預訓練連貫性度量模塊),針對文本編碼結(jié)果進一步以語義段為劃分單元,并由=3 層Transformer-XL 組件通過基于語義段的循環(huán)自注意力機制進行額外編碼,加大特征解析力度。第二,如圖4 所示連貫性強化過程,模型ATS_CG 對已生成的摘要文本進行重編碼以計算連貫性收益;與此同時,由抽取的偽摘要對生成摘要計算內(nèi)容收益,通過最大化兩收益加權(quán)和,對模型摘要文本生成過程進行強化,從內(nèi)容層面與語句連貫性層面進一步提升模型文本生成質(zhì)量。
其次,ATS_CG 模型與所對比方法在XSum 數(shù)據(jù)集上的評估結(jié)果(3 次平均)具體如表6,相應柱狀圖如圖7??傮w上,該模型仍取得最優(yōu)結(jié)果。特別地,由于XSum 數(shù)據(jù)集對應“金標準”摘要新穎度較高,故僅將其用于測試生成型方法。表6 和圖7 所示結(jié)果進一步說明,模型ATS_CG 所遵循的“先抽取,再生成”設(shè)計原理、基于語義段的循環(huán)自注意力權(quán)重和基于內(nèi)容收益與連貫性收益的強化過程,能有效地提升摘要生成質(zhì)量。
表6 生成摘要評估結(jié)果(XSum 數(shù)據(jù)集)Table 6 Evaluation results of generated summarization on XSum dataset %
圖7 XSum 數(shù)據(jù)集上實驗結(jié)果(對應表6)Fig.7 Experimental results on XSum dataset corresponding to Table 6
本節(jié)中,與現(xiàn)有生成型方法(Pointer-Generator+Coverage、Bottom-up、DCA、BERTSUMEXTABS和PEGASUS)進行對比。首先,通過人工評估,對ATS_CG 模型語句連貫性、內(nèi)容冗余性和內(nèi)容重要性三方面進行度量,結(jié)果如表7 所示。接著,利用元新穎度和摘要困惑度對ATS_CG 模型產(chǎn)生摘要的內(nèi)容豐富性及語句連貫性進行評估,結(jié)果如表8 所示。
具體而言,對于人工評估,將所選生成型對比方法和ATS_CG 所生成摘要文本提供給10 名具備自然語言生成研究經(jīng)驗的人員進行[1,5]范圍評分,取各維度均值作為最終結(jié)果,如表7 所示。其中,語句連貫性指標越高,則表明摘要在語句連貫性方面的質(zhì)量越佳;內(nèi)容冗余性指標表示摘要語句所描述內(nèi)容的重復性,其指標越高意味著摘要冗余度越低;內(nèi)容重要性指標表示摘要所描述內(nèi)容是否有效反映了原文主旨信息,其指標越高,則表明所生成摘要涵蓋的原文關(guān)鍵信息越多。對于元新穎度,采用摘要中新出現(xiàn)的N-gram 與原文總N-gram 數(shù)之比進行計算。元新穎度越高,代表生成的摘要內(nèi)容詞匯相較于原文更加豐富,模型產(chǎn)生新詞的能力更強。而摘要困惑度則對摘要語句的連貫性進行了評估,其值越低,表明摘要語句越流暢。
如表7 所示,模型ATS_CG 所生成摘要文本在語句連貫性上取得最優(yōu)結(jié)果。相應地,如表8 所示,該模型摘要困惑度亦得到最優(yōu)結(jié)果。該現(xiàn)象可歸因為:第一,模型ATS_CG 連貫性度量模塊采用的Transformer-XL Encoder 基于語義段的循環(huán)自注意力機制,使文本編碼表示有效學習到更長范圍的依賴關(guān)系并且避免了上下文碎片化問題,進而讓輔助信息中包含更長范圍內(nèi)的上下文語義信息以幫助解碼器產(chǎn)生質(zhì)量更高的摘要。第二,連貫性度量模塊利用已生成摘要的基于語義段的循環(huán)自注意力權(quán)重構(gòu)建文本連貫性收益,可有效度量摘要文本間的聯(lián)系性。第三,模型ATS_CG 采用如圖4 所示的連貫性強化過程,通過構(gòu)建如式(7)所示的摘要文本連貫性收益,如式(8)所示的摘要文本內(nèi)容收益,從而讓模型以最大化如式(9)所示的總收益為目標進行學習,保證模型生成摘要內(nèi)容與原文主旨更加相關(guān),內(nèi)容更加連貫。此外,如表7 所示,模型ATS_CG 生成摘要在內(nèi)容冗余度與內(nèi)容重要性方面也表現(xiàn)最優(yōu),這得益于經(jīng)過預訓練的連貫性度量模塊能對原文關(guān)鍵信息選擇,從而使解碼器對重點內(nèi)容進行解碼。
表7 摘要質(zhì)量人工評估結(jié)果(CNN/Daily Mail 數(shù)據(jù)集)Table 7 Manual evaluation results of summary quality on CNN/Daily Mail dataset
表8 N-gram 新穎度與困惑度結(jié)果(CNN/Daily Mail 數(shù)據(jù)集)Table 8 Results of N-gram novelty and perplexity on CNN/Daily Mail dataset
如表8所示,模型ATS_CG相比于所對比方法,在摘要文本內(nèi)容新穎度方面亦達到最優(yōu)。更為重要的是,通過表8 可以發(fā)現(xiàn),即便本文所提出的模型ATS_CG為提高語句連貫性需重新組織或表述語句,但所產(chǎn)生摘要文本的困惑度相較于其他現(xiàn)有方法而言依舊較低,即在產(chǎn)生新詞匯的同時仍能夠確保語義連貫性。
綜上所述,本文提出的面向連貫性強化的無真值依賴文本摘要模型(ATS_CG)在無摘要真值介入的前提下,利用抽取的偽摘要進行連貫性度量模塊的預訓練,從文本編碼表示中有效識別重要語句作為抽取標識,通過提取上下文語義信息作為輔助信息幫助解碼器生成貼近原文主旨的摘要內(nèi)容。與此同時,連貫性度量模塊利用自注意力權(quán)重對經(jīng)“重編碼”后的摘要進行度量,計算連貫性收益并應用至模型連貫性強化訓練過程中,生成更加連貫可讀的摘要文本內(nèi)容。
利用自動文本摘要技術(shù)凝練文本核心內(nèi)容是減小文本數(shù)據(jù)存儲成本、提高信息檢索效率的必要手段。為了能對文本快速地生成質(zhì)量高、可讀性強的摘要,同時又避免模型訓練的真值依賴,本文提出的面向連貫性強化的無真值依賴文本摘要模型(ATS_CG)利用基于循環(huán)片段自注意力機制的Transformer-XL 構(gòu)建連貫性度量模塊,并采用抽取的偽摘要對其進行預訓練,其能有效識別和抽取文本重要信息。此外,其還能在重編碼過程中對已生成的摘要進行自動的連貫性度量并產(chǎn)生文本連貫性收益,將該收益引入到模型的連貫性強化過程中,可促使模型生成更貼近原文主旨、連貫性更強的摘要內(nèi)容。實驗表明,引入了連貫性度量和連貫性強化的ATS_CG 模型在多組實驗中的評估精度均優(yōu)于其他現(xiàn)有方法。
本文未來工作將進一步提高自注意力權(quán)重對連貫性度量的有效性,通過構(gòu)建多種度量方式,多角度地對語義聯(lián)系性、語法規(guī)則性、共指消歧等連貫性因素進行考量,從而提高文本生成模型的語句連貫性。