謝涵 朱逸青
摘要:以往人們都是手動寫摘要,手動寫摘要既不能省時省力,摘要的水平有時候會也受到寫摘要的人寫作水平的影響。隨著自然語言處理在國內(nèi)的興起,相關(guān)的文本摘要數(shù)據(jù)集也可以被整理和獲取。本文通過基于深度學(xué)習(xí)的技術(shù)自動生成文本摘要,使用海量樣本訓(xùn)練生成相應(yīng)領(lǐng)域的自動文本摘要器。在生活和生產(chǎn)中使用能夠提取有用信息的自動文本摘要器,可以篩選出不必要且無關(guān)緊要的數(shù)據(jù),實現(xiàn)摘要可以增強文檔的可讀性,減少研究信息所花費的時間。在本文中,我們構(gòu)建seq2seq的框架并結(jié)合attention機制,比較基于RNN、LSTM和GRU的神經(jīng)單元對社交媒體數(shù)據(jù)的中文文本摘要的處理情況。實驗表明,引入分層注意力機制的Seq2Seq+ Hierarchical Attention+basedGRU模型可以從原文中生成較高質(zhì)量的摘要。
關(guān)鍵詞:自動摘要;深度學(xué)習(xí);Seq2Seq;注意力機制
0 引言
隨著網(wǎng)絡(luò)媒體的飛速發(fā)展,微信、論壇、博客、微博等新媒體平臺深深地影響著人們的閱讀方式,相對于報紙、雜志,越來越多的人們選擇從各新媒體平臺上獲取更方便、簡潔的新聞資訊及其他信息。然而,人們在享受信息獲取的便利性的同時面臨著信息爆炸所帶來的困擾。在各大媒體平臺中,文本信息呈現(xiàn)出指數(shù)級別的增長,使得人們無法迅速從海量的信息中獲取所需的資訊。文本摘要作為文本內(nèi)容的縮影,概括了文章的主要內(nèi)容和核心觀點。因此,為了快速獲得文章的主要信息,節(jié)省訪問時間,提高閱讀效率,自動摘要技術(shù)應(yīng)運而生。
1958年,美國IBM公司(International Business Machines Corporation,國際商業(yè)機器公司)的Luhn提出了自動文摘的概念,并對此進行了研究,他提出利用文本中詞頻信息來統(tǒng)計文本中的高頻詞,然后以高頻詞作為特征進行加權(quán),從而 提取出文章中的關(guān)鍵句作為摘要。盡管這種方法在當(dāng)時已經(jīng)非常超前,但也存在一定的缺陷,一些低頻但重要的詞信息經(jīng)常會被忽略,從而使得摘要質(zhì)量差強人意。
1969年,Edmundson利用標題詞、線索詞、句子位置以及關(guān)鍵詞頻等計算每個句子的權(quán)重[1],取得分最高的幾個句子作為文章的摘要。
1995年,Kupiec提出了使用樸素貝葉斯分類模型來判定句子是否應(yīng)該抽取為摘要[2],計算每個句子成為摘要的概率,取得分最高的幾個句子作為文章的摘要。
1999年,Lin等人假設(shè)文章中用于摘要抽取的各種特征是相互關(guān)聯(lián)的,并使用決策樹對句子進行打分[3],取得分最高的幾個句子作為文章的摘要。
2001年,Conroy與O'leary使用隱馬爾可夫模型進行摘要抽取[4]。該方法也使用句子位置、句內(nèi)詞數(shù)以及句內(nèi)詞語與文章詞語的相似度等一些文章的特征來確定句子的得分。
2004年,Mihalcea等人使用pageRan算法抽取關(guān)鍵句子生成文檔摘要[5]。先把文章分解成若干個句子,每個句子對應(yīng)一個圖的頂點,句子間的關(guān)系作為邊,最后通過pageRan算法得出各頂點的得分并生成文本摘要。
2014年,Kageback M等人首次引入深度學(xué)習(xí)方法完成摘要任務(wù)[6],利用語義表示的相似度,并采用次優(yōu)化選擇適合的句子作為摘要。
2016年,Cheng和Lapata等人提出了一種基于序列到序列(Seq2Seq)的通用自動摘要框架[7],采用層次文檔編譯器和注意力機制抽取文摘句。
2017年,Abigail See等在序列到序列(Seq2Seq)的通用自動摘要框架上結(jié)合copy機制建立指針網(wǎng)絡(luò)結(jié)構(gòu)[8],將生成式文本與抽取式文本有機結(jié)合起來。同年,Google的團隊提出了Transformer模型,該模型僅僅采用了Attention(注意力)機制[9],并不像傳統(tǒng)的Seq2Seq那樣需要結(jié)合RNN (Recurrent Neural Network,反饋神經(jīng)網(wǎng)絡(luò))或者CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))才能使用,這個模型對谷歌翻
譯的發(fā)展起到了巨大的推動作用,而且文本摘要生成與機器翻譯有一些相似之處,在2018年Arman Cohan等基于Attention機制更進一步,提出根據(jù)文章語篇結(jié)構(gòu)和句子結(jié)構(gòu),建立句子注意力機制,使得自動文本摘要取得當(dāng)時最好的效果[10],這個注意力機制有可以被本研究借鑒的地方。
文本摘要技術(shù)可分為抽取式和生成式兩種,通過提取或生成一段短文本,總結(jié)和表達原文的主要信息。抽取式文本摘要是從文檔中抽取已有句子形成摘要,而生成式文本摘要則是在理解原文意思的基礎(chǔ)上,通過轉(zhuǎn)述、同義替換、句子縮寫等技術(shù),生成更簡潔、更流暢的摘要。與抽取式摘要相比,生成式摘要更接近人工摘要的效果。隨著深度神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展以及基于注意力機制的端到端模型的提出,基于神經(jīng)網(wǎng)絡(luò)的生成式文本摘要的應(yīng)用迅速發(fā)展,它在一些上百萬的數(shù)據(jù)集中的表現(xiàn)已經(jīng)超越了抽取式文本摘要,可以取得不錯的效果。
相對于機器翻譯、情感分析、知識圖譜等領(lǐng)域,自動文本摘要在國內(nèi)起步較晚。然而基于Attention的Seq2Seq模型的提出以及Hu等人提出了一個新的中文文本摘要數(shù)據(jù)集LCSTS[11],使得中文文本摘要得到了一定的發(fā)展。此外,中文相比于英文,在數(shù)據(jù)處理方面更加復(fù)雜。第一,中文不存在天然的分隔符,正確的根據(jù)語義對句子進行分詞具有一定的挑戰(zhàn)性。第二,中文具有一詞多義的特點,很多詞匯在不同的語境下具有不同的解釋。第三,中文語法較英語而言更加靈活,時常導(dǎo)致歧義的出現(xiàn)。
Matthew等人于2018年提出了一種新型深度語境化詞表征的EMLO (Embeddings from Language Models,語言模型嵌入)預(yù)訓(xùn)練模型[12],用于對多義詞進行建模。接著,Open AI 團隊提出了GPT模型[13],一種基于Transformer的可遷移到多種NLP(Natural Language Processing,自然語言處理)任務(wù)的神經(jīng)語言模型;此外,Google團隊提出的BERT(Bidirectional Encoder Representation from Transformers)模型[14],刷新了NLP11個方向的記錄,于是2019年Yang Liu等專門基于BERT模型構(gòu)建自動文本摘要模型,在數(shù)據(jù)集上實現(xiàn)當(dāng)時最優(yōu)效果[15]。
2020年,Jingqing Zhang等人提出了一種新的自監(jiān)督預(yù)訓(xùn)練目標:GSG (Gap Sentences Generation),以適配Transformer-based的encoder-decoder模型在海量文本語料上預(yù)訓(xùn)練,用PEGASUS 模型進行全面測試,結(jié)果PEGASUS 刷新12個數(shù)據(jù)集的ROUGE得分記錄,結(jié)果表明PEGASUS模型在多個數(shù)據(jù)集上達到與人工摘要相媲美的性能[16]。
目前國內(nèi)研究文本摘要技術(shù)的中堅力量在高校,主要包括哈爾濱工業(yè)大學(xué)信息檢索實驗室、清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室、北京大學(xué)計算科學(xué)技術(shù)研究所等。有國內(nèi)學(xué)者通過融合TextRank算法,利用其實現(xiàn)簡單、無監(jiān)督學(xué)習(xí)、語言弱相關(guān)、既適用單文本也適用于多文本的特點,但發(fā)現(xiàn)它易受詞頻影響,在提取摘要的準確度上不盡人意;綜合考慮文章的結(jié)構(gòu)、標題、句子位置、句子長度等多種統(tǒng)計特征,提出了一種改進的iTextRank算法,通過改進中文文檔中句子相似度的計算方法,得到的文本摘要比TextRank的質(zhì)量更好。
盡管這種方法通過權(quán)重控制了識別文本的精確度,但沒有考慮社交媒體的特征與語義的信息,僅依照詞匯的共現(xiàn)特征規(guī)則無法將互動關(guān)聯(lián)的文本當(dāng)成一個整體,無法解釋相關(guān)的文本是否表示共同的主題。直接將整個語料集的句子獨立地進行排序,可能導(dǎo)致生成的摘要意思太模糊,無法衡量其覆蓋了哪些話題或社交實體。因此,本研究在進行模型生成摘要前采用了多種分類方法將文本進行分類。
1數(shù)據(jù)預(yù)處理與數(shù)據(jù)標定
1.1數(shù)據(jù)來源
哈爾濱工業(yè)大學(xué)深圳研究院的教授,通過爬取新浪微博的短文本數(shù)據(jù)構(gòu)建了LCSTS數(shù)據(jù)集。LCSTS是一個超過200萬數(shù)據(jù)的中文短文本摘要數(shù)據(jù)集,由短文本及其對應(yīng)的摘要組成。數(shù)據(jù)收集方法:首先收集來自多個領(lǐng)域的50個流行的官方組織用戶作為種子,再從種子用戶中抓取他們關(guān)注的用戶,然后選取新浪微博粉絲大于100萬的大V用戶,最后抓取候選用戶的微博內(nèi)容進行清洗過濾,得到純文本數(shù)據(jù)。
1.2數(shù)據(jù)預(yù)處理
首先,隨機選取LSCTS數(shù)據(jù)集中的一個子集作為訓(xùn)練集,用于訓(xùn)練模型。
第二,數(shù)據(jù)標定。選取5名志愿者對數(shù)據(jù)集中的文本數(shù)據(jù)和對應(yīng)摘要進行打分,分數(shù)為1、2、3、4、5,用來表示文本與相應(yīng)摘要之間的相關(guān)性,其中“1”表示“最不相關(guān)”,“5”表示“最相關(guān)”。用于打分的數(shù)據(jù)是從訓(xùn)練集中隨機抽取的,以此來描述訓(xùn)練集的分布。圖1說明了不同分數(shù)的例子。從例子中我們可以看出,評分為3、4或5的文本與相應(yīng)摘要非常相關(guān),這些摘要內(nèi)容準確且簡潔;而評分為1或2的摘要高度抽象,相對較難從文本中總結(jié)出來,它們更有可能是標題或評論,而不是摘要。
第三,統(tǒng)計數(shù)據(jù)顯示,1分和2分的百分比小于總數(shù)據(jù)的20%,可以通過使用經(jīng)過訓(xùn)練的分類器進行篩除。最后將得到的分數(shù)為3、4、5且具有共同分數(shù)的文本作為測試集。
2 模型構(gòu)建
2.1數(shù)據(jù)的清洗和整合
文本是非結(jié)構(gòu)化數(shù)據(jù),將其輸入神經(jīng)網(wǎng)路首先要給文本建立一個語料庫,根據(jù)詞頻排序,使得每個詞語或短語都可以用一個One-Hot(獨熱)向量表示。
為了提取到每個詞語或短語的特征,也為了加速網(wǎng)絡(luò)的收斂,引入了詞嵌入向量。首先,對下載的數(shù)據(jù)集進行清洗和分詞,通過Word2vec得到Word embedding(詞嵌入)向量。
Word2vec解決了以往One-Hot Encoder中由于字詞數(shù)量過大而造成維度災(zāi)難的問題,能夠?qū)ne-Hot Encoder轉(zhuǎn)化成低緯度的連續(xù)值,而且向量中意思相近的詞也會被映射到向量空間中的相近位置。
Word2vec由兩種訓(xùn)練方式,分別是CBOW(Continuous Bag of Words,連續(xù)詞袋)模型和Skip-Gram模型。CBOW模型又被稱為連續(xù)詞袋模型,其結(jié)構(gòu)是一個單層神經(jīng)網(wǎng)絡(luò)。特點是輸入已知的上下文,輸入對當(dāng)前單詞的預(yù)測。Skip-Gram模型則與之相反,只是對CBOW模型的因果關(guān)系進行了逆轉(zhuǎn),即用當(dāng)前的詞語來預(yù)測上下文。
兩種模型具體如下圖:
2.2構(gòu)建Seq2seq模型
Seq2seq模型有一個Encoder(編碼器)和一個Decoder(解碼器),將一個輸入的句子編碼成一個固定大小的state,然后作為Decoder的初始狀態(tài)(當(dāng)然也可以作為每一時刻的輸入),但這個狀態(tài)對于Decoder中的所有時刻都是一樣的。
2.3構(gòu)建加入Attention機制的Seq2seq模型
Attention即為注意力,人腦在對于不同部分的注意力是不同的。需要Attention的原因是非常直觀的,如當(dāng)我們看一張照片時,照片上有一個人,我們的注意力會集中在這個人身上,而它身邊的花草藍天,可能就不會得到太多的注意力。也就是說,普通的模型可以看成所有部分的Attention都是一樣的,而這里的Attention-Based Model(基于注意力的模型)對于不同的部分,重要的程度則不同,Decoder中每一個時刻的狀態(tài)是不同的。
而沒有Attention機制的Encoder-Decoder結(jié)構(gòu)通常把Encoder的最后一個狀態(tài)作為Decoder的輸入(可能作為初始化,也可能作為每一時刻的輸入),但是Encoder的state(狀態(tài))畢竟是有限的,存儲不了太多的信息,對于Decoder過程,每一個步驟都和之前的輸入都沒有關(guān)系了,只與這個傳入的state有關(guān)。Attention機制的引入之后,Decoder根據(jù)時刻的不同,讓每一時刻的輸入都有所不同。簡而言之,使用Attention機制的Seq2Seq模型可以更好的把握文本的整體意向[8]。具有注意機制的Seq2seq模型如圖4所示。
其中ci的計算公式如方程(1)。
在預(yù)測時刻輸出時,Attention結(jié)構(gòu)會將每個輸入與當(dāng)前時刻的輸出匹配,然后自動計算每個注意概率的分布值。αij的計算公式如方程(2),sj表示輸入部分中隱藏神經(jīng)元的激活值。
2.3.1 RNN-based
RNN是比較早期的循環(huán)神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)相對簡單,其結(jié)構(gòu)如下圖所示:
Encoder-Decoder結(jié)構(gòu)中以RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))神經(jīng)單元作為基本單元。
2.3.2 LSTM-based
傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 容易出現(xiàn)梯度消失與梯度爆炸的問題,因此目前比較常用的一般是 LSTM 及其變種。Encoder-Decoder結(jié)構(gòu)中以LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡(luò))神經(jīng)單元作為基本單元[18]。在使用基于LSTM的Seq2Seq文本摘要生成模型生成文本摘要時,具體過程如下:
(1)首先對文本進行矢量化,并將其輸入到模型中;
(2)使用LSTM獲得文章的分布式表示;
(3)使用注意機制獲得更準確的表達式;
(4)將文章的分布式表達式輸入LSTM單元以預(yù)測摘要的分布式表達式;
(5)將摘要的分布式表示轉(zhuǎn)換為文本形式以獲得摘要。
2.3.3 GRU-based
Encoder-Decoder結(jié)構(gòu)中以GRU(Gate Recurrent Unit,門控循環(huán)單元)作為基本單元,GRU是LSTM的一種變種,結(jié)構(gòu)比LSTM簡單一點。GRU 只有兩個門 (更新門update,重置門reset)。
2.4構(gòu)建分層Attention機制的Seq2seq模型
字詞作為文章的基本組成單元,通過普通的注意力機制能夠較好的體現(xiàn)出文章中不同的字詞對于文章的重要性,但是句子同樣作為文章的組成部分,仍然值得關(guān)注。為了生成質(zhì)量更高的摘要,在計算字詞注意力基礎(chǔ)上,引入句子級Attention機制,計算每個句子對于文章的重要性。其結(jié)構(gòu)如圖8。
具體來說,表示源文檔的上下文向量的計算公式為:
其中,N表示句子個數(shù),M表示句子中的字詞數(shù),表示編碼部分第j句話中第k個字詞的隱藏狀態(tài),表示第j句話中第k個字詞的注意力權(quán)重。計算公式為:
2.5經(jīng)典模型
(一)TF-IDF詞頻統(tǒng)計[19]
①關(guān)鍵詞提?。?/p>
對每一篇短文進行分詞,除去文章的停用詞,例如“的”、“是”和“在”等毫無幫助卻最常見的詞和一些標點符號,進而構(gòu)建一個詞庫。如果某個詞很重要,那么它應(yīng)該多次出現(xiàn)在這篇文章,因而要統(tǒng)計詞頻TF:
即為第i個單詞出現(xiàn)在第j篇文章的次數(shù)。
然而,有的單詞在所有的文檔中出現(xiàn)的次數(shù)都多,這就不一定是必須的關(guān)鍵詞;有的單詞在所有文檔中出現(xiàn)的次數(shù)少,但在這篇文章出現(xiàn)的次數(shù)較多,可能恰好反應(yīng)了這篇文章的主題,正是這篇文章所需要的關(guān)鍵詞。對此,引入了逆文檔頻率IDF:
其中分子為語料庫的文檔總數(shù),分母為包含第i個單詞的文檔數(shù)加上偏置項1。
綜合考慮詞頻和逆文檔頻率,TF-IDF統(tǒng)計量可定義為兩者相乘,即:
TF-IDF=TF×IDF
②基于TF-IDF的文本摘要提取
首先將短文進行分詞,然后去掉停用詞,計算出每個詞語的TF-IDF值并找出關(guān)鍵詞,將短文中距離相近(一般為4或5)的關(guān)鍵詞分為一類,找出包含分支最高的類的句子,然后將他們合在一起,即構(gòu)成文本的摘要。
(二)Textrank算法[20]
Textrank算法的模型可以簡單表示為一個有向權(quán)圖G=(V,E),由點集合V個邊集合E組成,Textrank算法的計算公式為:
①Textrank關(guān)鍵詞提取
(1)把短文按照完整文本進行分割
(2)對于分割的句子進行分詞和詞性標注處理,并過濾掉停用詞,只保留指定詞性的單詞,如名詞、動詞、形容詞等。
(3)構(gòu)建候選關(guān)鍵詞圖G=(V,E),其中V為節(jié)點集,由生成的候選關(guān)鍵詞組成,然后采用共線關(guān)系構(gòu)造任意兩點之間的邊,兩個節(jié)點之間存在邊僅當(dāng)它們對應(yīng)的詞匯在長度為K的窗口中共現(xiàn),K表示窗口大小,即最多共現(xiàn)K個單詞。
(4)根據(jù)得分公式,迭代傳播各個節(jié)點的權(quán)重,直至收斂。
(5)對節(jié)點權(quán)重進行倒序排序,從而得到最重要的T個單詞,作為候選關(guān)鍵詞。
(6)由上述得到最重要的T個單詞,在原短文中進行標記,若形成相鄰詞組,則組合成多次關(guān)鍵詞。
②基于Textrank的自動文摘
基于Textrank的自動文摘屬于自動文摘,通過選取短文中重要度較高的句子形成文摘。
(1)預(yù)處理:將短文內(nèi)容分割成句子得
構(gòu)建圖G=(V,E),其中V為句子集,對句子進行分詞、去除停用詞得:
其中,是保留后得候選關(guān)鍵詞。
(2)句子相似度計算:構(gòu)建圖G中得邊集E,基于句子間得內(nèi)容覆蓋率,給定兩個句子
利用如下公式計算:
若兩個句子之間的相似度大于給定的閾值,就認為這兩個句子語義相關(guān)并將他們連接起來,即邊的權(quán)值
(3)句子權(quán)重計算:根據(jù)公式,迭代傳播權(quán)重計算各句子的得分;
(4)抽取文摘句:將(3)得到的句子得分進行倒序排序,抽取重要度最高的T個句子作為候選文摘句。
(5)形成文摘:根據(jù)字數(shù)或句子數(shù)要求,從候選文摘句中抽取句子組成文本摘要。
3 實驗
首先,文本收集。獲取LCSTS數(shù)據(jù)集用于模型訓(xùn)練。利用Python抓取環(huán)球網(wǎng)、南方都市報、中國新聞網(wǎng)等網(wǎng)站新聞的標題與內(nèi)容數(shù)據(jù)作為測試數(shù)據(jù)。
第二步,文本處理。對爬取的數(shù)據(jù)進行預(yù)處理,文本清洗與分割,結(jié)構(gòu)劃分、分詞、去除停用詞、標點符號,獲取詞向量并作詞頻統(tǒng)計等。
第三步,文本分類。使用用主題相似或主題相同的預(yù)料進行訓(xùn)練,可以更好、更快地訓(xùn)練出適用的文摘網(wǎng)絡(luò),因而,本研究在訓(xùn)練網(wǎng)絡(luò)前先對文本進行主題分類。嘗試多種文本的分類算法,如傳統(tǒng)的文本分類算法樸素貝葉斯,K最近鄰,支持向量機,如機器學(xué)習(xí)TextCNN、FastText、RCNN等文本的分類算法,對它們的分類結(jié)果做比較,選取最適合的文本分類算法進行分類,分類完的原始數(shù)據(jù)用于下一步的研究。
第四步,摘要生成。用訓(xùn)練好的模型對文本數(shù)據(jù)做摘要生成處理。首先用基于深度學(xué)習(xí)的方法,在Seq2Seq框架下,加入句子級Attention機制,分別用RNN,LSTM,GRU神經(jīng)網(wǎng)絡(luò)模型對文本提取摘要;然后用傳統(tǒng)的TF-IDF詞頻統(tǒng)計、Textrank算法對文本提取摘要。具體實驗設(shè)置:首先使用兩個雙向RNN(LSTM,GRU),cell大小為256,embedding嵌入尺寸為128,embedding是從頭開始訓(xùn)練的,不使用與訓(xùn)練的,embedding。我們使用批處理填充和動態(tài)展開在LSTM中處理可變的序列長度,每一個batch的大小為16。訓(xùn)練時使用Adagrad優(yōu)化器,學(xué)習(xí)率設(shè)置為0.15。
第五步,模型比較。以下是隨機選取的一則新聞利用訓(xùn)練好的模型進行摘要生成的結(jié)果,新聞內(nèi)容如下:
山東省有關(guān)部門在6月11日和12日就媒體報道部分果農(nóng)使用違禁藥袋問題回應(yīng)稱已派出調(diào)查組調(diào)查棲霞、招遠有果農(nóng)使用藥袋套蘋果一事。早在2018年9月底,山東省農(nóng)業(yè)廳就得知有果園使用藥袋套果實并進行過抽檢。
結(jié)果如下:
第六步,效果評價與模型優(yōu)化。構(gòu)建效果評價指標,對于評估,我們使用了(Lin和Hovy,2003)提出的Rouge評價指標[21]。與包含各種n-gram匹配的BLEU不同,有幾種不同匹配長度的ROUGE度量方法:ROUGE-1、ROUGE-2和ROUGE-L。
在測試集中隨機選取200個樣本進行測試,并將三種基于深度學(xué)習(xí)模型的預(yù)測摘要與參考摘要進行對比。根據(jù)Rouge-L計算公式,得到評價值,得到的結(jié)果如下表所示:
根據(jù)評測結(jié)果對模型進行微調(diào)改進。把調(diào)試好的模型運用于新抓取文檔自動摘要生成。對文本生成效果做出預(yù)判,并與傳統(tǒng)的提取方法做比較。對算法做優(yōu)化,對產(chǎn)生的摘要進行一定的數(shù)據(jù)平滑和修正,構(gòu)建最優(yōu)生成模型最后以一定的用戶界面形式將提取的內(nèi)容顯示出來。
將Seq2Seq+Hierarchical Attention+basedGRU模型,設(shè)置了100次迭代,得到訓(xùn)練集與測試集的模型損失函數(shù)如圖9所示,從圖中看來這一個模型收斂效果較好。
4 結(jié)語
本文通過對生成式文本摘要的研究,針對中文中長文本的摘要生成問題,使用LSCTS數(shù)據(jù)集,并在該數(shù)據(jù)集上采用基于神經(jīng)網(wǎng)絡(luò)的方法,用Python抓取環(huán)球網(wǎng)、南方都市報、中國新聞網(wǎng)等網(wǎng)站新聞的標題與內(nèi)容數(shù)據(jù)作為測試數(shù)據(jù)取得了良好的效果。在編碼器和解碼器中分別使用了RNN、LSTM、GRU,以充分利用上下文信息來理解語義特征,并且在LSCTS數(shù)據(jù)集上進行訓(xùn)練。并與傳統(tǒng)的TF-IDF、Texrank模型進行比較和分析。我們最終得出結(jié)論:在中長文本摘要生成中,加入分層注意力機制的GRU+Seq2Seq模型具有更高的ROUGE指數(shù)值,表明這個方法可以保留核心信息,過濾輔助信息與真實摘要的相似度更高,預(yù)測摘要更準確、更真實。但這只是一個深入模型的開始,還有很大的改進空間。
參考文獻
[1]Edmundson,H P.New Methods in Automatic Extracting[ j] . Journal of the ACM,1969,16(2):264
[2]Kupiec,J,Pedersen,J,Chen,F(xiàn). A Trainable Document Summarizer[C]. ACM SIGIR New York USA,1995
[3]Lin CY. Training a Selection Function for Extraction[C].the Eighth ACM Conference on Information and Knowledge Management,Kansas City,Missouri,USA,1999
[4]Conroy J M,O'leary D P. Text Summarization Via Hidden Markov Models[C].ACM SIGIR New Orleans,Louisiana,USA,2001
[5]Rada Mihalcea.Graph-based Ranking Algorithms for Sentence extraction,Applied to Text summarization [C].the ACL 2004 on Interactive Poster and Demonstration Sessions.Barcelona,Spain,2004
[6]Lin,Junyang,et al. “Global Encoding for Abstractive Summariza- tion.” ACL 2018:56th Annual Meeting of the Association for Computational Linguistics,vol. 2,2018,pp. 163-169.
[7]Sutskever,Ilya,et al. “Sequence to Sequence Learning with Neural Networks.” Advances in Neural Information Processing Systems 27,2014,pp. 3104–3112.
[8]Abigail See,Christopher Manning,and Peter Liu. Get to the point:Summarization with pointer generator networks. In Association for Computational Linguistics. 2017. https://arxiv.org/abs/ 1704.04368.
[9]Bahdanau,Dzmitry,et al. “Neural Machine Translation by Jointly Learning to Align and Translate.” ICLR 2015:International Conference on Learning Representations 2015,2015.
[10]Arman Cohan Franck Dernoncourt,et al. A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents. 2017. https://arXiv:1804.05685v2
[11]Hu,Baotian,et al. “LCSTS:A Large Scale Chinese Short Text Summarization Dataset.” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015,pp. 1967–1972.
[12]Peters,Matthew E.,et al. “DEEP CONTEXTUALIZED WORD REPRESENTATIONS.” NAACL HLT 2018:16th Annual Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,vol. 1,2018,pp. 2227–2237.
[13]Radford,A. & Salimans,T. Improving Language Understanding by Generative Pre-Training. (2018)
[14]Yang Liu,Mirella Lapata.Text Summarization with Pretrained Encoders. 2019. https://arXiv:1908.08345v2
[15]Jingqing Zhang,Yao Zhao,et al. PEGASUS:Pre-training with Extracted Gap-sentences for Abstractive Summarization. LCML 2020.
[16]Radford,A. & Salimans,T. Improving Language Understanding by Generative Pre-Training. (2018)
[17]Vaswni,Ashish,et al. “Attention Is All You Need.” Proceedings of the 31st International Conference on Neural Information Processing Systems,2017,pp. 5998–6008.
[18]Hochreiter,Sepp,and Jürgen Schmidhuber. “Long Short-Term Memory.” Neural Computation,vol. 9,no. 8,1997,pp. 1735–1780.
[19]Jia,LV. “Improvement and Application of TFIDF Method Based on Text Classification.” Computer Engineering,2006.
[20]Mihalcea,Rada,and Paul Tarau. “TextRank:Bringing Order into Texts.” Proc. 2004 Conference on Empirical Methods in Natural Language Processing,Barcelona,Spain,July,2004,pp. 404–411.
[21]Chin-Yew Lin and Eduard H. Hovy. 2003. Automatic evaluation of summaries using n-gram cooccurrence statistics. In Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,HLTNAACL 2003,Edmonton,Canada,May 27 - June 1,2003 評價指標