謝鳴元
摘要:目前大部分基于序列到序列生成模型的生成式摘要研究未充分考慮文本類別對(duì)于最終摘要結(jié)果的影響。然而往往同一類別的文本的摘要具有類似的格式與措辭。因此該文提出基于文本類別的文本自動(dòng)摘要模型,先利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類,然后在傳統(tǒng)的序列到序列模型的基礎(chǔ)上結(jié)合文本的類別特征進(jìn)行摘要生成。實(shí)驗(yàn)結(jié)果表明,基于文本類別的文本自動(dòng)摘要模型相對(duì)于傳統(tǒng)的文本自動(dòng)摘要模型取得了更好的ROUGE值。
關(guān)鍵詞: seq2seq;神經(jīng)網(wǎng)絡(luò);文本自動(dòng)摘要;文本分類
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)01-0206-03
1 概述
隨著大數(shù)據(jù)時(shí)代的來臨,如何對(duì)大量信息進(jìn)行壓縮表示,解決信息過載問題已成為一個(gè)迫在眉睫的需求,而文本自動(dòng)摘要無(wú)疑是一個(gè)高效的解決方法。文本自動(dòng)摘要旨在捕獲原文的中心思想,生成覆蓋原文重要信息但又盡可能簡(jiǎn)短的自然語(yǔ)言表示。大部分的文本自動(dòng)摘要研究可以歸為抽取式和生成式兩類。其中抽取式為簡(jiǎn)單的從原文中抽取部分句子組合形成新的摘要;而生成式則是用自然語(yǔ)言加以概括精煉,相對(duì)來講質(zhì)量更高但研究難度也相對(duì)較大。如今絕大部分生成式摘要的研究基于序列到序列模型[1](sequence to sequence,以下簡(jiǎn)稱seq2seq),并已經(jīng)取得了一定的效果。例如:Loptrev.K[2]等人在傳統(tǒng)的傳統(tǒng)的seq2seq模型上引入不同的注意力機(jī)制已改善效果;Alexander[3]等人使用卷積神經(jīng)網(wǎng)絡(luò)替換編碼器部分常規(guī)的循環(huán)神經(jīng)網(wǎng)絡(luò)。JiaoTao.Gu[4]用拷貝機(jī)制解決文本摘要問題中出現(xiàn)的未登錄詞現(xiàn)象。但是以上的研究均存在著一些不足,其中一點(diǎn)就是未充分利用文本本身的類別信息。例如對(duì)于新聞文本,大部分具有明確的類別標(biāo)簽,例如體育新聞、軍事新聞或者財(cái)經(jīng)新聞。同一類的新聞通常具有類似的新聞格式和措辭。例如體育類新聞的摘要通常是“某某隊(duì)以幾比幾的比分戰(zhàn)勝了某某隊(duì)”,事故類新聞通常包含事件的時(shí)間、地點(diǎn)、原因等。因此在本文中,我們提出了類別相關(guān)的文本摘要模型(Topic Senstive Seq2seq,簡(jiǎn)稱TS-seq2seq)。首先我們利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入的文本進(jìn)行分類,得到文本的類別;然后在編碼器端利用文本類別進(jìn)行編碼,最終生成文本類別相關(guān)的摘要。本文選用大規(guī)模中文文本摘要數(shù)據(jù)集LCSTS[5] 作為實(shí)驗(yàn)語(yǔ)料,通過實(shí)驗(yàn)發(fā)現(xiàn)我們的模型較之傳統(tǒng)的文本自動(dòng)摘要模型取得了更好的ROUGE值。證明了方案的可行性。
2 背景
2.1 長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)
長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)[6](Long Short Term Memory,以下簡(jiǎn)稱LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種特殊類型,可以很方便地學(xué)習(xí)長(zhǎng)距離依賴信息。其神經(jīng)單元由一個(gè)輸入門、一個(gè)記憶門以及一個(gè)輸出門所構(gòu)成,我們分別使用,,表示時(shí)間步時(shí)三個(gè)門的輸出向量。另外使用和分別表示神經(jīng)單元的輸入和輸出,向量的維度設(shè)置為。那么的計(jì)算公式如下:
2.2 編碼器-解碼器模型
Sutskever等人在2014年提出seq2seq模型,即編碼器-解碼器(Encoder-Decoder)模型。用以解決對(duì)話生成,文本摘要,機(jī)器翻譯等序列到序列生成問題。
seq2seq模型使用兩個(gè)神經(jīng)網(wǎng)絡(luò),通常是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來分別構(gòu)建編碼器與解碼器。給定輸入序列,在編碼器部分逐個(gè)讀入詞語(yǔ),經(jīng)過循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),最終轉(zhuǎn)化成固定長(zhǎng)度的中間語(yǔ)義向量;解碼器部分在中間語(yǔ)義向量的基礎(chǔ)上進(jìn)行解碼并生成目標(biāo)序列。其中編碼器生成第t個(gè)詞的生成概率如下:
其中為softmax激活函數(shù),為t時(shí)刻編碼器的隱藏層狀態(tài),計(jì)算公式如下:
2.3 注意力機(jī)制
Bahdanau[7]在2014年提出了注意力機(jī)制,使得解碼器在t時(shí)刻,能動(dòng)態(tài)并線性的組合輸入序列中的不同部分來構(gòu)建中間語(yǔ)義向量:,其中表達(dá)了b編碼器在第階段的和解碼器第階段的相關(guān)性。計(jì)算公式為:
確切說,我們首先將輸入詞語(yǔ)的最后隱藏層狀態(tài)通過單層MLP獲得,然后通過softmax函數(shù),得到歸一化的注意力權(quán)重。因此式(6),式(7)變?yōu)椋?/p>
3 基于文本類別的文本自動(dòng)摘要模型
文本類別相關(guān)的文本自動(dòng)摘要模型分為兩部分:文本分類模型與文本摘要模型。給定文本,假設(shè)表示全部可能的類別集合。在文本分類模型中,通過基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型得到輸入文本的分類。然后在文本摘要模型中,基于類別生成與文本類別相關(guān)的摘要。
3.1 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型
目前,使用基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)的文本分類模型已經(jīng)取得了較好的效果[8]。本文同樣在此基礎(chǔ)上,使用CNN構(gòu)建簡(jiǎn)易的文本分類模型。
具體來說,我們使用表示對(duì)于句子中第個(gè)詞的維向量表示,表示第個(gè)詞到第個(gè)詞的詞向量集合,使用卷積窗口矩陣(為卷積核個(gè)數(shù),為卷積窗口大?。┻M(jìn)行卷積操作后得到在該卷積窗口下的特征向量。具體計(jì)算公式如下:
然后使用最大池化得到每句句子的特征向量表示,希望捕獲句子中的關(guān)鍵位置信息:
文本由句子構(gòu)成,我們?cè)诘玫骄渥犹卣飨蛄康幕A(chǔ)上,進(jìn)行均值池化,得到文本的特征向量表示:
最后通過softmax分類器得到最終的文本類別。
3.2 基于文本類別的文本自動(dòng)摘要模型
基于文本類別的文本自動(dòng)摘要模型基于經(jīng)典的seq2seq模型,結(jié)合注意力機(jī)制。不同在于編碼器部分結(jié)合了文本的類別特征。
具體的結(jié)構(gòu)如圖1所示。我們將每個(gè)類別轉(zhuǎn)化成維向量,即。然后在標(biāo)準(zhǔn)的seq2seq模型中,編碼器與解碼器部分均采用LSTM,在解碼器部分的每個(gè)時(shí)間步上結(jié)合前一時(shí)間步的隱藏層輸出,當(dāng)前時(shí)間步的輸入以及文本類別。因此式(1)-(4)變?yōu)槿缦滦问剑篹ndprint
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)數(shù)據(jù)集描述
實(shí)驗(yàn)數(shù)據(jù)集的選取分為文本分類模型的訓(xùn)練數(shù)據(jù)集以及文本摘要模型的數(shù)據(jù)集。首先對(duì)于文本分類的數(shù)據(jù)集,我們使用搜狗中文分類語(yǔ)料庫(kù)[9]。選取其中教育、體育、政治、科技、軍事、財(cái)經(jīng)6個(gè)類別。每個(gè)部分選取500篇新聞作為訓(xùn)練語(yǔ)料。考慮到每篇新聞字?jǐn)?shù)較長(zhǎng),因此每篇新聞均截取前兩句話(以句號(hào)分隔)作為訓(xùn)練語(yǔ)料。
其次對(duì)于文本摘要模型的數(shù)據(jù)集,我們使用大規(guī)模的中文短文本摘要語(yǔ)料LCST0S作為訓(xùn)練集和測(cè)試集[5]。LCSTS分為三部分:其中第二部分和第三部分根據(jù)摘要質(zhì)量,人工評(píng)為了1-5分。我們使用第一部分作為訓(xùn)練集,選取第二、三部分中分?jǐn)?shù)大于等于3分的作為測(cè)試集。各部分的文本-摘要對(duì)個(gè)數(shù)如表1所示:
4.2 實(shí)驗(yàn)參數(shù)設(shè)置
在文本分類模型中,我們?cè)O(shè)置卷積窗口的大小設(shè)置為8,卷積核個(gè)數(shù)設(shè)置為128;在文本摘要模型中,編碼器和譯碼器使用500個(gè)LSTM單元,詞表大小設(shè)置為10000。另外使用word2vec生成詞向量,維度數(shù)固定為300維,激活函數(shù)采用RelU,梯度算法使用均方根傳播,使模型能夠在訓(xùn)練過程中自適應(yīng)的調(diào)整學(xué)習(xí)速率。
4.3 實(shí)驗(yàn)結(jié)果
首先是利用文本分類模型進(jìn)行文本分類,分類結(jié)果如表2所示:
文本摘要模型部分我們采用ROUGE-1、ROUGE-2、ROUGE-L作為評(píng)價(jià)指標(biāo)?;鶞?zhǔn)系統(tǒng)我們選取基本的帶有注意力機(jī)制的seq2seq模型與jiatao.Gu[4]等人在2016年提出的帶有拷貝機(jī)制的文本自動(dòng)摘模型,分別用seq2seq+context和copyNet進(jìn)行表示。我們的類別相關(guān)的文本自動(dòng)摘要模型使用TS-seq2seq進(jìn)行表示。實(shí)驗(yàn)結(jié)果如表3所示:
我們可以看出,基于文本類別的文本自動(dòng)摘要模型取得了比基準(zhǔn)系統(tǒng)更好的指標(biāo)效果。證明了文本類別對(duì)于摘要效果改善的作用。
5 結(jié)束語(yǔ)
本篇文章在傳統(tǒng)的seq2seq模型結(jié)合注意力機(jī)制的基礎(chǔ)上,針對(duì)文本摘要的特點(diǎn):大部分文本有明確的類別特征,并且同一類的文本的摘要格式,措辭也大致相似。提出基于文本類別的文本自動(dòng)摘要模型,先對(duì)文本進(jìn)行分類;然后在編碼階段引入文本類別特征,最終生成類別相關(guān)的摘要。當(dāng)然模型還存著一些不足:由于LCSTS數(shù)據(jù)集的新聞文本較短,使用本文的基于CNN的文本分類器進(jìn)行分類的效果并不是很理想;另外本文的做法實(shí)在編碼器階段直接在每個(gè)時(shí)間步上注入文本類別向量,如何更合理地將文本的類別信息與seq2seq模型相互結(jié)合也將成為后續(xù)的研究重點(diǎn)。
參考文獻(xiàn):
[1] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. 2014, 4:3104-3112.
[2] Lopyrev K. Generating News Headlines with Recurrent Neural Networks[J]. Computer Science, 2015.
[3] Rush A M, Chopra S, Weston J. A Neural Attention Model for Abstractive Sentence Summarization[J]. Computer Science, 2015.
[4] Gu J, Lu Z, Li H, et al. Incorporating Copying Mechanism in Sequence-to-Sequence Learning[J]. 2016:1631-1640.
[5] Hu B, Chen Q, Zhu F. LCSTS: A Large Scale Chinese Short Text Summarization Dataset[J]. Computer Science, 2015.
[6] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735.
[7] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.
[8] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
[9] http://www.sogou.com/labs/resource/list_news.phpendprint