高陽 閆仁武 袁雙雙
摘 要:為解決海量數(shù)據(jù)導致用戶信息過載問題,通過分析人民網(wǎng)、新浪網(wǎng)等網(wǎng)站的新聞網(wǎng)頁數(shù)據(jù),將傳統(tǒng)方法與深度學習方法相結合,提出基于特征融合、CNN和GRU的多文檔摘要方法(M-C-G)。首先對30種不同主題的新聞網(wǎng)頁進行數(shù)據(jù)清洗,使用word2vec工具訓練詞向量模型,根據(jù)多種特征計算得到初步摘要結果;然后把8.3萬條搜狐新聞語料文本數(shù)據(jù)輸入帶有CNN和GRU的Seq2Seq模型上訓練;最后把初步摘要結果輸入模型進行測試,得到最終摘要結果。實驗結果表明,在ROUGE評測體系中采用該方法比現(xiàn)有方法準確率至少提高約2%,可有效幫助用戶尋找有價值的文本信息。
關鍵詞:特征融合;深度學習;Seq2Seq;CNN;GRU;文本摘要
DOI:10. 11907/rjdk. 201249
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)010-0039-07
Abstract: In order to solve the problem of user information overload caused by massive data, this paper analyzed news data from news websites such as Peoples Daily and Sina.com. After combining traditional methods and deep learning methods, multi-document summarization method(named M-C-G) based on multi-feature fusion, convolutional neural networks(CNN) and gated recurrent unit(GRU) was proposed. First, the news text data of 30 different topics was cleaned. And the word2vec was used to train the word vector model. The preliminary summary results were calculated based on various characteristics. Then 83,000 SOHU news text data were used into a Seq2Seq model with CNN and GRU for training. Finally, the final summary results were obtained based on the preliminary summary results which were tested into the model. Experimental results show that the method in the ROUGE evaluation system is at least about 2% higher than existing methods and can effectively help users find valuable text information.
Key Words: multi-feature fusion; deep learning; Seq2Seq; CNN; GRU; test summarization
0 引言
根據(jù)中國互聯(lián)網(wǎng)協(xié)會2019年發(fā)表的《互聯(lián)網(wǎng)發(fā)展報告》,截至2018 年底,我國網(wǎng)站總數(shù)達523 萬個,網(wǎng)頁數(shù)量2 816 億個。CNNIC研究資料顯示,截至2019年6月,我國網(wǎng)絡新聞用戶規(guī)模達6.86億。網(wǎng)絡在帶給人們豐富信息資源的同時,也帶來大量冗余及片面信息。除此之外,部分網(wǎng)絡媒體通過制造“標題黨”以達到提升點擊率的目的,使用戶難以從中獲得正確信息。在用戶信息過載情況下,如何有效篩選出重要信息成為當今熱點話題,從海量信息中獲取關鍵信息的效率成為關鍵問題。文本摘要需求的增長,使自然語言處理(NLP)技術不可或缺,具有十分重要的研究意義和實用價值。
摘要在日常生活中經(jīng)常使用,比如常見的電視新聞頭條、書評等[1]。自動摘要是自然語言處理技術的一個分支,它可優(yōu)化文檔格式[2]。在信息過度飽和的今天,人們可以使用文本摘要技術從海量文本信息中提取重要部分,實現(xiàn)文本信息的提煉與總結[3],更好地解決用戶信息過載問題,提高用戶獲取關鍵信息效率。隨著計算機軟硬件的更新?lián)Q代,神經(jīng)網(wǎng)絡在自然語言處理領域突飛猛進,基于深度學習的模型方法在NLP取得非常好的實驗效果。
1958年Luhn[4]提出自動摘要技術概念,利用文檔中詞的詞頻和詞的分布得到相關句子,從而實現(xiàn)自動摘要技術;1961年Edmundson等 [5]在統(tǒng)計基礎上加入詞性、句子位置和文章標題等因素,提出基于綜合因素的自動摘要,指出線索詞[6]對句子的重要性,包括“幾乎不、不可能、顯著地”等等;1994年復旦大學吳立德教授等在分析篇章段落之間的語義聯(lián)系后,通過建立語義網(wǎng)提出基于統(tǒng)計分析思想的FDASCT系統(tǒng);1997年上海交通大學王永成等[7]提出OA中文文獻自動摘要系統(tǒng),根據(jù)文獻主題及特點獲得摘要,該系統(tǒng)應用廣、限制少、速度快、功能多、靈活性強;2007年徐永東等 [8]提出基于修辭結構理論的多文檔表示結構(Multiple Document Framework,MDF),描述不同層面文本單元之間的相互關系以及事件在時間上的發(fā)生及演變。
2015年Rush等 [9]利用編碼器-解碼器模型首次將神經(jīng)網(wǎng)絡用于文本摘要,并嘗試詞袋模型、卷積神經(jīng)網(wǎng)絡和基于注意力機制的3種編碼方式;同年,哈爾濱工業(yè)大學戶保田等 [10]利用遞歸神經(jīng)網(wǎng)絡在超百萬的短文本數(shù)據(jù)集上生成文摘,取得良好成果;2018年哈爾濱工業(yè)大學喻麗[11]提出基于LSTM和CNN的深度學習方法,實現(xiàn)對中文長文本自動獲取文摘;2019年周才東等 [12]提出局部注意力與CNN結合模型,該模型可提取文本的高層次特征。
傳統(tǒng)的多文檔摘要方法存在冗余現(xiàn)象,且可讀性較差。針對上述問題,本文對傳統(tǒng)的多文檔摘要模型進行改進:①融合多特征抽取初始摘要,并結合MMR與LD算法消除冗余;②改進傳統(tǒng)的編碼器-解碼器模型,使用帶有注意力機制的CNN與GRU模型;③將傳統(tǒng)方法與深度學習方法結合,提出基于多特征融合、CNN和GRU的多文檔自動摘要方法。實驗結果表明,該方法在ROUGE評測體系中表現(xiàn)良好。
1 多文檔文本摘要方法
自動摘要按技術可分為抽取式摘要和生成式摘要,按文本范圍分為單文檔摘要和多文檔摘要,按文本語言分為中文文檔和英文文檔[13]。
1.1 抽取式自動摘要方法
抽取式即對已有句子進行排序和選擇,在原文檔基礎上抽取關鍵句作為文本摘要句。生成式即在抽象語義表示模型基礎上生成摘要[14]。
(1) 基于詞頻特征方法。TF-IDF中TF是詞頻,IDF是逆文檔頻率。TF-IDF實際上就是[TF×IDF],常用來提取重要詞語。在高詞頻率和低文檔頻率兩個條件下,詞語的TF-IDF權重會很高。計算公式如下:
(2) 基于LDA主題模型方法。LDA的全稱是Latent Dirichlet Allocation,中文解釋為潛在狄利克雷分布,是一種文檔主題生成模型,也是一種三級分層貝葉斯模型[15]。其中,文檔[D]到主題[T]服從多項式分布,主題[T]到詞[W]服從多項式分布。以文檔集合[D]作為輸入,每個[D]中的文檔都對應有不同主題概率,每個主題有不同的單詞概率。這樣形成兩個矩陣,一個是文檔到主題,另一個是詞到主題。
(3) 基于圖模型方法。TextRank等[16]在谷歌的PageRank算法上改進,首先把文本分割構建圖模型[G=V,E],由點集合[V]和邊集合[E]組成,[E]是[V×V]的子集。把每個句子當作頂點,句子之間的關系當作邊(可加權也可不加權),然后計算每個頂點[Vi]的權重[SVi]或[WSVi],最后根據(jù)句子權重排序得到摘要。如果不使用加權的邊則需要設定閾值,定義超過這個閾值就有邊。[InVi]表示指向[Vi]的點集合,[OutVi]表示點[Vi]指向點的集合,非加權邊和加權邊計算公式如下:
其中,[d]為阻尼系數(shù),代表從圖中某點指向其它點的概率,大小一般為0.85。
如果使用加權邊,那么任意兩點[Vi]和[Vj]之間邊的權重是[Wji],則加權邊頂點[Vi] 的權重[WSVi]計算公式如下:
1.2 生成式自動摘要方法
自動摘要技術多用抽取式方法,但該方法面對長且復雜的文本存在缺陷。
隨著深度學習發(fā)展到NLP領域,關于神經(jīng)網(wǎng)絡的各種模型也逐漸應用于NLP?;谘h(huán)神經(jīng)網(wǎng)絡RNN的Seq2Seq模型[17-18]是自然語言處理文本摘要研究熱點。該模型基于Encoder-Decoder框架實現(xiàn)[19],在兩段文本序列之間架設一條文本表示與語言生成模型的橋梁[20]。Bahdanau等在該方法基礎上又增加一種注意力機制,并取得較好的實驗效果。Seq2Seq是典型的端到端模型[21],這種方法使摘要的準確率顯著提高。
(1) 基于編碼器-解碼器方法。Seq2Seq屬于Encoder-Decoder模型,能使用特定方法把給定的序列生成另一個序列。最簡單的Seq2Seq模型由Encoder、Decoder和中間狀態(tài)向量C三個部分組成。Encoder部分負責將輸入序列壓縮成指定長度的向量,即編碼;Decoder部分負責根據(jù)語義向量生成指定序列,即解碼;中間語義向量C可看作是所有輸入內(nèi)容的集合。編碼器-解碼器模型如圖1所示。
對于Encoder的每個隱藏層[hi]都有一個得分,計算包括3種方法:
此外,Seq2Seq模型一般與Attention注意力機制搭配使用。Attention可以和遠距離詞語保持聯(lián)系,進而解決向量保存信息不足的問題。在Decoder的每個步驟進行注意力機制計算。首先在Decoder state與Encoder中對所有的source state進行softmax,計算出attention weights,然后通過加權平均的source state計算出上下文向量attention output,最后合并計算attention output和Decoder的hidden state值。帶有注意力機制的編碼器-解碼器模型如圖2所示。
(2) 基于CNN的方法。CNN類似于生物神經(jīng)網(wǎng)絡[22],是一種特殊的深層神經(jīng)網(wǎng)絡模型。CNN屬非全連接和權值共享,也就是說CNN神經(jīng)元之間的連接是非全連接的,而且同一層中某些神經(jīng)元之間的連接權重可共享。
卷積神經(jīng)網(wǎng)絡開始是根據(jù)視覺神經(jīng)機制設計的,目的是識別二維形狀[23],主要用作圖像處理[24],因為這種多層感知器的網(wǎng)絡結構對平移、比例縮放、傾斜或其它形式的變形具有高度不變性。另外,卷積神經(jīng)網(wǎng)絡可通過層級結構提取數(shù)據(jù)的高層語義特征,解決因人工選擇特征導致信息丟失的問題。
訓練模型Encoder編碼器中的CNN[25]將訓練數(shù)據(jù)與卷積核相互運算,計算公式如下:
池化層和卷積層一樣有滑動窗口,不同的是池化層通常不帶參數(shù)進行數(shù)據(jù)遴選工作。本文用到的池化方法是max-pooling。
(3) 基于LSTM的方法。GRU全稱是Gated Recurrent Unit,中文解釋是門控循環(huán)單元,可認為是長期短期記憶網(wǎng)絡LSTM的簡化版,在資源消耗和運行時間上更小,但性能卻和LSTM旗鼓相當[26]。GRU改變長期短期記憶網(wǎng)絡的門,將遺忘門、輸入門和輸出門變成更新門[r]和重置門[z],在保留基本思想(遺忘和更新機制)基礎上簡化網(wǎng)絡結構。同時利用更新門使每個單元學習長短期特征,減小梯度彌散的風險。
(4) 基于指針網(wǎng)絡的方法。指針網(wǎng)絡也稱為Pre-Net模型,如圖4所示,主要用來解決Seq2Seq模型中由輸入數(shù)據(jù)決定字典大小的問題。
指針網(wǎng)絡來源于注意力機制,通過編碼器端的隱藏層信息與解碼器端的隱藏層信息得到最終輸出。
2 多文檔自動摘要方法
本文提出一種結合多特征融合、CNN和GRU神經(jīng)網(wǎng)絡(M-C-G)的復合模型方法,將抽取式與生成式兩部分結合進行多文檔自動摘要生成。
2.1 相關概念
定義1 (新聞網(wǎng)站摘要清洗語料集):
CleaningWebCorpus={
定義2(新聞網(wǎng)站摘要主題數(shù)據(jù)集):
TopicsData={
u∈[1…topicsum]},其中,topicsum為新聞網(wǎng)站摘要主題數(shù)據(jù)集的數(shù)據(jù)條數(shù),topicIDu為第u條主題編號,topicNameu為第u條主題名稱。
定義3(哈工大停用詞有序列表):
StopWordsList=[
u∈[1…stopsum]],其中,stopsum為停用詞列表數(shù)量,stopWordsu為第u個停用詞。
定義4(近義詞數(shù)據(jù)集):
SynonymsData={
定義5(同主題新聞網(wǎng)站摘要語料集):
SameTopicCorpus={ sameTopicContentu}> | u∈[1…sametopicsum]},其中,sametopicsum為同主題新聞網(wǎng)站摘要語料集的數(shù)據(jù)條數(shù),sameTopicTitleu為第u條語料標題,sameTopicContentu為第u條語料正文。 定義6(斷句符號有序列表): BreakPointsList=[ | u∈[1…breaksum]],其中,breaksum為斷句符號列表數(shù)量,breakPointsu為第u個斷句符號。 定義7(同主題新聞網(wǎng)站摘要斷句語料集): SameTopicStopSentenceCorpus={ 定義8(同主題新聞網(wǎng)站摘要斷詞語料集): SameTopicStopWordCorpus={ 定義9(關鍵詞有序列表): KeyWordsList=[ 定義10(在融合多特征后的摘要結果有序列表): FirstResultsList=[ u∈[1…firstsum]],其中,firstsum為摘要長度,firstSentenceu為第u個摘要句。 定義11(預選摘要結果有序列表): SecondResultsList=[ u∈[1…secondsum]],其中,secondsum為摘要長度,secondSentenceu為第u個摘要句。 定義12(同主題下切分詞字典數(shù)據(jù)集): TokenizeWordsData={ 定義13(最終摘要結果有序列表): LastResultsList=[ u∈[1…lastsum]],其中,lastsum為摘要長度,lastSentenceu為第u篇文章的摘要句。 此外,本文方法還包括一些專有名詞,主要用于表示基于特征融合的抽取式自動摘要方法專有名詞,如表1所示。 2.2 數(shù)據(jù)預處理 與純文本文檔相比,HTML網(wǎng)頁會插入大量的非文本信息,如圖片、Flash等,這些非文本對文檔摘要貢獻不大, HTML網(wǎng)頁的其它文本信息才需要重點關注。因此,在去除噪聲數(shù)據(jù)的同時,需要充分挖掘網(wǎng)頁結構信息的價值。 在開始本文處理方法之前需要對HTML網(wǎng)頁進行爬蟲處理,挖掘出標題和正文信息,根據(jù)這些信息人工分為30種不同主題并將其標記,以便進行后續(xù)操作。實驗步驟如下:①對CleaningWebCorpus進行文本預處理,包括Hanlp中文分詞、根據(jù)停用詞列表StopWordsList去停用詞、根據(jù)近義詞數(shù)據(jù)集SynonymsData替換詞語等等;②使用word2vec工具訓練詞向量模型W,并以。model文件形式存儲在自定義路徑下;③在每個主題下對SameTopicCorpus進行文本預處理,包括Hanlp中文分詞、停用詞列表、StopWordsList去停用詞、根據(jù)近義詞數(shù)據(jù)集SynonymsData替換詞語等;④計算相同主題下每個詞語的TF-IDF值,加載詞向量模型W,將原詞向量乘以TF-IDF的值作為該詞語新的詞向量;⑤根據(jù)斷句符號列表BreakPointsList把所有斷句符號替換成“|”,再以“|”符號進行斷句操作,去除所有空字符串;⑥為保證長句不會比短句得分高,計算一個句子中所有詞向量的加權之和的平均值作為句子向量,然后計算文檔中所有句子向量的加權之和平均值作為文檔向量;⑦獲取主題新聞網(wǎng)站摘要斷句語料集SameTopicStopSentenceCorpus。 2.3 多文檔摘要算法流程 本文將抽取式與生成式兩部分結合生成多文檔自動摘要?;贛-C-G神經(jīng)網(wǎng)絡的多文檔摘要方法算法流程如圖5所示。 抽取式部分實驗步驟如下:①將SameTopicStopWordCorpus詞語去重放入LDA主題模型中訓練,并設置num_topics值為1,得到同主題下句子的主題信息權重ZT;②用余弦公式計算句子向量與文檔向量之間的夾角余弦值,得到余弦信息權重YX;③利用TextRank算法得到KeyWordsList,然后計算關鍵詞個數(shù)/句子長度,得到一個句子的關鍵字權重GJ;④根據(jù)公式計算得到位置信息權重WZ;⑤由句子長度和目標長度的差別計算長度信息權重CD;⑥獲取每個句子最終權重值:stopValue=ZT*YX*GJ*WZ* CD;⑦根據(jù)stopValue對SameTopicStopSentenceCorpus進行排序,選取TOP3*sametopicsum得到融合多特征之后的摘要結果列表FirstResultsList;⑧挑選出權重最大的句子作為最終摘要列表首句,利用MMR算法計算待選取摘要句子與已選取摘要句子的相似度[S1],利用FuzzyWuzzy工具中LD算法計算待選取摘要句子和已選取摘要句子的相似度[S2],根據(jù)每個句子[S1+S2]的平均值排序,選取TOPsametopicsum,以保證句子多樣性;⑨按照SameTopicStopSentenceCorpus的stopPosition對句子進行排序,得到預選摘要結果列表SecondResultsList。 根據(jù)公式(9)計算得到位置信息權重: [pos]為句子[P]在文檔[D]中的位置順序,例如[P]為文檔的第1句話,那么[pos]的值就是1。[lenD]表示文檔[D]所包含的句子數(shù)量。 由句子在文中位置,根據(jù)公式計算長度信息權重,流程如圖6所示。 把抽取式部分生成的初始摘要結果輸入生成式方法部分,生成式部分實驗步驟如下:①對SecondResultsList進行文本預處理,包括Hanlp中文分詞、根據(jù)停用詞列表StopWordsList去停用詞、根據(jù)近義詞數(shù)據(jù)集SynonymsData替換詞語等,得到同主題下切分詞字典數(shù)據(jù)集TokenizeWordsData;②基于PyTorch框架構建Seq2Seq模型,由Encoder-Decoder組成并添加注意力機制Attention,使用CNN和GRU訓練模型的Encoder。先利用CNN卷積核進行相互運算,然后進行最大池化層操作,再進行GRU, 使用LuongAttention訓練模型的Attention,使用GRU訓練模型的Decoder;③用80%搜狗數(shù)據(jù)集訓練得到seq2seq訓練模型M,用20%搜狗數(shù)據(jù)集做驗證,預測摘要和實際摘要,與反向調(diào)整模型參數(shù)對比;④在模型M下訓練摘要結果預選列表SecondResultsList,得到最終摘要結果列表LastResultsList,并把摘要句子用逗號拼接。 基于M-C-G神經(jīng)網(wǎng)絡的生成式部分操作流程如圖7所示。 3 實驗分析 3.1 數(shù)據(jù)準備 為驗證本文提出方法的有效性,首先爬取人民網(wǎng)、新浪網(wǎng)的新聞文本數(shù)據(jù)(主要包括標題和正文),經(jīng)過數(shù)據(jù)清洗和預處理得到初步的摘要結果。由于多文檔摘要沒有可供深度學習模型訓練的大規(guī)模數(shù)據(jù)集,而深度學習方法需要大量數(shù)據(jù)集支撐,因此采用8.3萬條搜狐新聞語料文本數(shù)據(jù)預先訓練模型,同時解決OOV等問題,最后把初步摘要結果輸入模型進行測試。 3.2 評價標準 文本摘要評價方法分為內(nèi)部評價和外部評價兩種。內(nèi)部評價需提供參考摘要計算所生成摘要的質量,而外部評價不需要提供參考摘要,只需根據(jù)檢索的準確度、文摘的分類等指標進行評價,是一種間接的評價方法。 內(nèi)部評價是最直接也是學術界最常用的文本摘要評價方法,因此在比較模型性能時本文采用內(nèi)部評價方法。內(nèi)部評價又分為自動評測和人工評測,人工評測費時費力,容易受干擾,故本文采用自動評測,將ROUGE作為指標進行度量。 ROUGE是一種面向N元詞召回率的評價方法[13],使用生成摘要中N元詞(N-gram)與參考摘要共同評價摘要。其由一系列評價方法組成,包括ROUGE-N、ROUGE-L等等。ROUGE-N中的N代表基于N元詞的N-gram模型,計算公式如下: 其中,[refsummaries]指參考摘要,[N_gram]指N元詞,[countmatchN_gram]指生成摘要及參考摘要中同時出現(xiàn)[N_gram]的數(shù)目,[countN_gram]指參考摘要中出現(xiàn)的[N_gram]數(shù)目。 ROUGE-L是基于最長公共子串的方法,如參考句子[S=W1W2W3W4W5]及系統(tǒng)句子[C=W1W2W3W7W8], [S]和[C]的最長公共子串就是[W1W2W3]。 3.3 實驗結果分析 實驗在一臺筆記本和一臺臺式機同步進行,筆記本配置為Windows7、i5-4210CPU、12G內(nèi)存,臺式機配置為Ubuntu16.04、i7-5700CPU、GTX1080GPU、CUDA10、8G顯存、16G內(nèi)存。 針對1_澳門回歸_train數(shù)據(jù),將幾種方法在原始數(shù)據(jù)集得到的摘要結果在ROUGE評測體系進行比較,可見本文方法相比其它幾種方法更優(yōu)。 為更好地說明本文方法的普遍性,對30種不同主題數(shù)據(jù)進行測試,圖8是本文方法針對不同數(shù)據(jù)的對比結果。 4 結語 本文研究了多文檔摘要存在的信息冗余問題,將傳統(tǒng)方法與深度學習方法相結合,創(chuàng)造性地提出基于M-C-G的多文檔摘要方法。首先從人民網(wǎng)、新浪網(wǎng)等獲取30種不同主題的新聞網(wǎng)頁數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗和數(shù)據(jù)預處理得到初步摘要結果。將8.3萬條搜狐新聞語料文本數(shù)據(jù)在Seq2Seq模型上進行訓練,使用初步摘要結果進行測試得到最終摘要結果。實驗結果表明,該方法在ROUGE評測體系中表現(xiàn)良好,可有效幫助用戶尋找有價值的文本信息。但本文方法還存在多文檔摘要語料集規(guī)模不大;生成的摘要句子來源于不同文檔,導致摘要不夠連貫,影響摘要可讀性的缺陷。后續(xù)要針對大規(guī)模多文檔語料及提升摘要連貫性進行深入研究,以便摘要更加貼近生活。 參考文獻: [1] AL SALEH A B,MENAI M E B.? Automatic arabic text summarization: a survey[J].? Artificial Intelligence Review, 2015, 45(2):1102-1121. [2] REN M A F F.? Automatic text summarization[J].? Digithum, 2008, 4(3):82-83. [3] ALLAHYARIM,POURIYEH S, ASSEFI M, et al. Text summarization techniques: a brief survey[J].? International Journal of Advanced Computer Science & Applications, 2017, 8(10):397-405. [4] LUHN H P.? The Automatic creation of literature abstracts[J].? IBM Journal of Research and Development, 1958, 2(2):159-165. [5] EDMUNDSON H P,WYLLYS R E.? Automatic abstracting and indexing survey and recommendations[J].? Communications of the ACM, 1961, 4(5):226-234. [6] EDMUNDSON H P. New methods in automatic extracting[J]. Journal of the ACM, 1969, 16(2):264-285. [7] 王永成,許慧敏. OA中文文獻自動摘要系統(tǒng)[J].? 情報學報,1997,45(2):92-97. [8] 徐永東, 徐志明,王曉龍, 等.? 基于信息融合的多文檔自動文摘技術[J].? 計算機學報,2007,30(11):2048-2054. [9] RUSH A M, CHOPRA S,WESTON J. A neural attention model for abstractive sentence summarization[C]. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:379-389. [10] HU B T, CHEN Q, ZHU F. LCSTS: A large scale chinese short text summarization dataset[J].? Computer Science,2015(9):2667-2671. [11] 喻麗.? 基于卷積神經(jīng)網(wǎng)絡的中文自動文摘方法[D]. 哈爾濱:哈爾濱工業(yè)大學,2017. [12] 周才東,曾碧卿,王盛玉,等.? 結合注意力與卷積神經(jīng)網(wǎng)絡的中文摘要研究[J].? 計算機工程與應用, 2019, 55(8):138-143. [13] 高揚. 智能摘要與深度學習[M]. 北京:北京理工大學出版社, 2019. [14] GAMBHIRM, GUPTA V.? Recent automatic text summarization techniques: a survey[J].? Artificial Intelligence Review, 2017, 47(1):1-66. [15] MARTINEZ A M,KAK A C.? PCA versus LDA[J].? IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(2):228-233. [16] MIHALCEAR,TARAU P. Textrank: bringing order into texts[J].? Emnlp, 2004(11):404-411. [17] 董晨西.? 基于深度學習的短文本自動摘要方法研究[D]. 北京:北京郵電大學,2019. [18] 賈星宇.? 基于深度學習的短文自動摘要生成算法研究[D]. 西安:西安科技大學,2019. [19] YAO K, ZHANG L, DU D, et al. Dual encoding for abstractive text summarization[J].? IEEE Transactions on Cybernetics, 2018(124):1241-1249. [20] 王帥, 趙翔, 李博, 等.? TP-AS: 一種面向長文本的兩階段自動摘要方法[J].? 中文信息學報, 2018, 32(6):391-301. [21] YU L,BANSAL M, BERG T L.? Hierarchically-attentive RNN for album summarization and storytelling[EB/OL].? http://blog.sina.com.cn/s/blog_eaaaa9620102ywsg.html 2017. [22] SHIH CHUNG B LO. A multiple circular path convolution neural network system for detection of mammographic masses[J].? IEEE Transactions on Medical Imaging, 2002, 21(2):150-158. [23] PEDRAMGHAMISI. A self-improving convolution neural network for the classi?cation of hyperspectral data[J].? IEEE Geoscience and Remotesensing Letters, 2016, 13 (10):1537-1541. [24] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE Computer Society, 2016. [25] 王瑋. 基于C-R神經(jīng)網(wǎng)絡的生成式自動摘要方法[J]. 計算機與數(shù)字工程,2020,48(1):112-118. [26] RANAR. Gated recurrent unit (GRU) for emotion classification from noisy speech[EB/OL]. http://www.doc88.com/p-6803897867028.html, 2016. (責任編輯:杜能鋼)