魏媛媛,倪建成,高 峰,吳俊清
(曲阜師范大學(xué) 軟件學(xué)院,山東 濟寧 272000)
在當(dāng)今信息爆炸的時代,人們在享受數(shù)據(jù)共享便利的同時,也被越來越多的數(shù)據(jù)困擾,如何利用計算機技術(shù)幫助用戶在最短的時間內(nèi)了解最多最有用的信息成為一個研究熱點,因此自動文本摘要技術(shù)應(yīng)運而生。自動文本摘要是利用計算機按照某種規(guī)則自動地將文本或文本集轉(zhuǎn)換成簡短摘要的一種信息壓縮技術(shù)。按應(yīng)用技術(shù)的不同,可分為抽取式和生成式。抽取式文本摘要是利用計算機技術(shù)從原文中抽取出一些關(guān)鍵的詞或句子,根據(jù)其重要程度組合成摘要;生成式摘要技術(shù)要求計算機對文本進行理解,將原文本的語義和內(nèi)容進行壓縮轉(zhuǎn)述、總結(jié)為摘要,生成的詞匯可能不屬于源文本,其生成方式更接近于人類思維。近年來,深度神經(jīng)網(wǎng)絡(luò)在機器翻譯、圖像處理等領(lǐng)域不斷發(fā)展且趨于成熟,自動文本摘要技術(shù)因此得到啟發(fā),借助于深度神經(jīng)網(wǎng)絡(luò)的生成式文本摘要技術(shù)上取得了突破性的進展。
綜合當(dāng)前研究發(fā)現(xiàn)抽取式摘要實現(xiàn)簡單、主題不易偏離、適應(yīng)性廣,但其靈活性差且在語義理解方面考慮較少,無法建立文本段落中完整的語義信息。生成式文本摘要擁有更強理解和生成文本的能力,但存在信息編碼不充分、摘要生成過程缺乏關(guān)鍵信息的控制和指導(dǎo)、摘要偏離主題等問題。針對這一系列的問題,該文將傳統(tǒng)的抽取式文本摘要方法與基于深度學(xué)習(xí)的生成式文本摘要方法相結(jié)合,采用結(jié)合主題信息的方式來更好地輔助摘要的生成。本模型在哈爾濱工業(yè)大學(xué)深圳研究生院智能計算研究中心提供的大型中文短文本摘要數(shù)據(jù)集(LCSTS)[1]上進行實驗,并在Rouge標(biāo)準(zhǔn)評價體系下對模型生成的摘要進行評估,實驗結(jié)果表明本模型能夠有效地提升摘要質(zhì)量。
傳統(tǒng)的抽取式文本摘要技術(shù)從20世紀(jì)50年代開始興起,以統(tǒng)計學(xué)為支撐,依靠文章中的詞頻、位置等信息生成摘要。最為經(jīng)典的摘要算法有基于統(tǒng)計的Lead-3算法、TextRank[2]算法和Padmakumar and Saran提出的以聚類的方式完成摘要。其中聚類生成摘要的方法是以句子為單位進行編碼得到句向量,使用K均值聚類[3]與Mean-Shift聚類進行關(guān)鍵句聚類,將距離各質(zhì)心最近的N個句子作為摘要。
從2013年起,基于深度神經(jīng)網(wǎng)絡(luò)的生成式文本摘要研究興起,機器翻譯等領(lǐng)域的序列到序列(seq2seq)模型[4]被應(yīng)用到文本摘要的研究中。最初摘要模型中的編碼解碼器均采用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[5],并起到了一定的作用??紤]到RNN不能處理長期依賴的問題,后期摘要模型改進大都采用RNN的變體,如基于長短時記憶網(wǎng)絡(luò)(LSTM)或門控制循環(huán)單元(GRU)網(wǎng)絡(luò)的編碼器解碼器模型。
基于seq2seq模型的生成式文本摘要基本模式是先將源句子編碼成一個固定維度的向量C,然后通過解碼器逐個字符解碼生成目標(biāo)句子。其中,編碼到解碼的信息是由中間語義向量C傳遞,過長的文本會導(dǎo)致模型編碼過程中對文章信息的記憶損失,進而無法完全地表示整個序列的信息[6],因此Rush等人[7]將注意力機制引入到文本摘要模型,對句子的不同部分賦予不同的權(quán)重來生成目標(biāo)序列。引入注意力機制的編碼解碼模型,使得生成新序列的準(zhǔn)確度提高,解碼端在生成新的目標(biāo)序列時,可參照編碼階段的隱藏向量。
而后,Zhou等人[8]發(fā)現(xiàn)單純引入注意力機制的seq2seq摘要模型中存在生成摘要與原文本的對應(yīng)關(guān)系弱、摘要偏離主題等問題。
基于上述研究,該文構(gòu)建了一種結(jié)合主題信息聚類編碼的文本摘要生成模型。模型使用雙向長短時記憶(Bi-LSTM)神經(jīng)網(wǎng)絡(luò)作為編碼器,使用常規(guī)的長短時記憶(LSTM)網(wǎng)絡(luò)作為解碼器,在seq2seq模型的基礎(chǔ)上引入主題信息對注意力機制的權(quán)重進行修正,通過對非關(guān)鍵詞進行降權(quán)來生成包含段落/文檔主題信息的語義向量表示,使生成的摘要更貼合主題。
結(jié)合主題信息聚類編碼的文本摘要生成模型包含三大部分,編碼層、解碼層與修正注意力機制層。模型主要架構(gòu)及圖形說明如圖1所示。
圖1 結(jié)合主題注意力機制的編碼解碼模型
對實驗數(shù)據(jù)進行預(yù)處理,將數(shù)據(jù)預(yù)處理階段得到的數(shù)據(jù){wi|i=1,2,…,l}使用word2vec訓(xùn)練,得到其向量表示e(wi),將其作為模型輸入。
模型使用雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long short-term memory networks,Bi-LSTM)作為編碼器,依次從源文本接收每個單詞的嵌入表示編碼得到各時間步的隱藏層向量hi,以計算注意力矩陣Wa和上下文信息Ct。
圖2 編碼層結(jié)構(gòu)
(1)
(2)
(3)
(4)
st=LSTM(e(yt-1),st-1,Ct)
(5)
當(dāng)解碼出時,停止解碼。解碼層結(jié)構(gòu)如圖3所示。
圖3 解碼層結(jié)構(gòu)
為使生成的語義編碼Ct包含確切的主題信息,該文將主題信息引入到模型中,計算輸入層隱藏狀態(tài)向量hi的主題相關(guān)性大小。模型中注意力矩陣Wa由Bahdanua注意力[9]權(quán)重矩陣Wa'與主題權(quán)重矩陣Wa''計算得到。
2.3.1 Bahdanua注意力機制
(6)
eit=a(st-1,hi)
(7)
其中,st-1為解碼器第t-1時刻的隱藏向量,Wa為引入主題信息修正后得到的權(quán)重矩陣。
2.3.2 主題信息聚類編碼
主題注意力機制的關(guān)鍵思想是通過加強關(guān)鍵詞對生成句子、文檔表示過程的影響,來降低生成摘要偏離主題的概率。計算模型輸入與主題信息kj,j=(1,N)的相關(guān)性得到主題權(quán)重矩陣Wa'',將主題信息聯(lián)合注意力機制納入到模型中,對非關(guān)鍵信息降權(quán),定位于主題相關(guān)的輸入,生成上下文信息Ct。
高度凝練文本的主題,快速獲取文本的核心內(nèi)容,首先需要對輸入數(shù)據(jù)進行關(guān)鍵信息提取。聚類是發(fā)現(xiàn)數(shù)據(jù)內(nèi)在關(guān)聯(lián)結(jié)構(gòu)的一種技術(shù),該文利用詞向量聚類[10]的方式,根據(jù)詞向量之間的相似度進行主題信息聚類,將文本中的詞作為一個節(jié)點,模型對輸入數(shù)據(jù)編碼后得到隱藏向量hi,使用K均值聚類計算輸入文本的質(zhì)心[11],質(zhì)心對應(yīng)的向量為該輸入文本的主題信息。具體步驟如下:
(1)預(yù)訓(xùn)練期間,利用Stanford corenlp對數(shù)據(jù)分句分詞處理,通過word2Vec得到其向量表示si=(e(wi1),e(wi2),…,e(wim)),其中m為句子中的詞語數(shù),i為句子數(shù)i=[1,n]。
(2)實驗將單個文本D作為聚類對象,進行詞向量聚類,根據(jù)文本中詞向量之間的相似度聚為若干簇,使用K均值聚類計算輸入文本的質(zhì)心??紤]到實驗數(shù)據(jù)集給定的摘要對長度大小,實驗設(shè)置主題聚類的類別N=5。將得到的質(zhì)心K={k1,k2,…,k5}對應(yīng)的向量為該輸入文本的主題信息,代表句子的整體表達方向。
文本向量間的相關(guān)性可通過向量夾角的余弦值表示,模型將余弦相似度[12]作為主題相關(guān)性度量方式,將輸入文本與主題信息K在詞向量空間中的余弦相似度值作為該輸入的主題相關(guān)性權(quán)重。利用余弦相似度將輸入詞的隱層向量與主題信息kj,j=[1,5]進行相似度計算,取其平均值作為該輸入詞的臨時權(quán)重,即:
(8)
(9)
(10)
模型在LCSTS數(shù)據(jù)集上進行實驗,該數(shù)據(jù)集是從新浪微博中爬取過濾得到的,已被廣泛應(yīng)用于文檔摘要。數(shù)據(jù)集為人工標(biāo)記過的短文本-摘要對,得分范圍為1到5,得分高低代表短文本與相應(yīng)摘要之間的相關(guān)性大小。數(shù)據(jù)集可分三部分,第一部分有2 400 591對短文本-摘要數(shù)據(jù);第二部分有10 666對,是從第一部分中隨機抽取得到的;第三部分有1 106對,這部分?jǐn)?shù)據(jù)不包含在第一部分和第二部分中。
本實驗遵循Hu[1]實驗中的數(shù)據(jù)集設(shè)置,選用第一部分的數(shù)據(jù)作為訓(xùn)練集,第三部分的3分以上數(shù)據(jù)作為測試集,第二部分的3分以上數(shù)據(jù)作為驗證集。
在數(shù)據(jù)預(yù)處理階段,詞之間用空格隔開,將實驗數(shù)據(jù)轉(zhuǎn)化為模型可理解的形式,并加入四種字符,其中
實驗使用ROUGE工具包進行模型評估,該方法是當(dāng)前使用最廣泛的摘要評價標(biāo)準(zhǔn)??紤]到本實驗的摘要類型,選用ROUGE-N和ROUGE-L進行摘要效果評價。ROUGE-N是一種面向n元詞召回率的評價方法,是由一系列的評價方法組成,根據(jù)該文的研究內(nèi)容選取其中的ROUGE-1和ROUGE-2作為評價標(biāo)準(zhǔn)。Rouge-L則考慮參考摘要與模型生成摘要的最長公共子序列的匹配度。
實驗詳情如表1所示,其中:
RNN和RNN-context是Hu等提出的基于RNN的seq2seq模型,其中RNN為未引入注意機制,使用編碼器的最后一個隱藏向量作為解碼器的輸入的seq2seq模型。RNN-context為在RNN的基礎(chǔ)上引入注意機制將所有的隱藏狀態(tài)相結(jié)合作為解碼器的輸入,兩組模型均采用GRU網(wǎng)絡(luò)。
CopyNet[14]是基于注意力具有拷貝模式的seq2seq模型,將傳統(tǒng)的生成模式和拷貝模式混合起來構(gòu)建了新的模型。
Seq2seq+CGU是Lin等[13]提出的帶卷積門控單元(CGU)的seq2seq模型。
TICTS為文中模型,引入主題信息對編碼階段的注意力機制進行權(quán)重修正,編碼端采用Bi-LSTM網(wǎng)絡(luò),解碼端采用LSTM網(wǎng)絡(luò)。
表1中的結(jié)果為ROUGE-1、ROUGE-2與ROUGE-L的Average-F分?jǐn)?shù),從表中可看出該模型在ROUGE評價指標(biāo)上的得分均優(yōu)于其他對比模型,表明引入主題注意力機制可提高文檔摘要性能,生成的摘要與參考摘要的相似程度更高。結(jié)合主題注意力機制的seq2seq模型在生成中間語義向量時對輸入數(shù)據(jù)進行主題相關(guān)性加權(quán)求和,彌補了編碼時主題信息不足的問題,實驗說明增加主題信息含量能夠有效提高摘要效果,更貼近參考摘要。
表1 實驗結(jié)果
表2為模型摘要樣例,從表中可以看出,本模型生成的摘要對原文信息進行了較為完整的關(guān)鍵信息提取,主題信息表述完整,摘要質(zhì)量更高,使得摘要內(nèi)容更加豐富。
表2 模型摘要樣例
通過生成式文本摘要任務(wù)的學(xué)習(xí)與研究,針對當(dāng)前文本摘要生成模型中存在的上下文語義信息利用不充分、主題相關(guān)度不高等問題,將生成式文本摘要和傳統(tǒng)的抽取式文本摘要方法的各自優(yōu)勢相結(jié)合,提出一種結(jié)合主題信息聚類編碼的文本摘要生成模型,通過融合主題信息以提高模型生成摘要的主題相關(guān)性,實驗在一定程度上優(yōu)于基線模型。但模型仍存在改進空間,如在今后的工作中可采用BERT[14]對詞向量進行預(yù)訓(xùn)練,增強對文本信息的編碼[15-18]利用以生成更好的摘要;解碼部分可結(jié)合拷貝機制[19]以解決摘要生成過程存在的未登錄詞問題。