張克君 李偉男 錢(qián)榕 史泰猛 焦萌
摘 要:針對(duì)自然語(yǔ)言處理(NLP)生成式自動(dòng)摘要領(lǐng)域的語(yǔ)義理解不充分、摘要語(yǔ)句不通順和摘要準(zhǔn)確度不夠高的問(wèn)題,提出了一種新的生成式自動(dòng)摘要解決方案,包括一種改進(jìn)的詞向量生成技術(shù)和一個(gè)生成式自動(dòng)摘要模型。改進(jìn)的詞向量生成技術(shù)以Skip-Gram方法生成的詞向量為基礎(chǔ),結(jié)合摘要的特點(diǎn),引入詞性、詞頻和逆文本頻率三個(gè)詞特征,有效地提高了詞語(yǔ)的理解;而提出的Bi-MulRnn+生成式自動(dòng)摘要模型以序列映射(seq2seq)與自編碼器結(jié)構(gòu)為基礎(chǔ),引入注意力機(jī)制、門(mén)控循環(huán)單元(GRU)結(jié)構(gòu)、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRnn)、多層循環(huán)神經(jīng)網(wǎng)絡(luò)(MultiRnn)和集束搜索,提高了生成式摘要準(zhǔn)確性與語(yǔ)句流暢度。基于大規(guī)模中文短文本摘要(LCSTS)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該方案能夠有效地解決短文本生成式摘要問(wèn)題,并在Rouge標(biāo)準(zhǔn)評(píng)價(jià)體系中表現(xiàn)良好,提高了摘要準(zhǔn)確性與語(yǔ)句流暢度。
關(guān)鍵詞:自然語(yǔ)言處理;生成式文本自動(dòng)摘要;序列映射;自編碼器;詞向量;循環(huán)神經(jīng)網(wǎng)絡(luò)
中圖分類(lèi)號(hào): TP181; TP391.1
文獻(xiàn)標(biāo)志碼:A
Abstract: Aiming at the problems of inadequate semantic understanding, improper summary sentences and inaccurate summary in the field of Natural Language Processing (NLP) abstractive automatic summarization, a new automatic summary solution was proposed, including an improved word vector generation technique and an abstractive automatic summarization model. The improved word vector generation technology was based on the word vector generated by the skip-gram method. Combining with the characteristics of abstract, three word features including part of speech, word frequency and inverse text frequency were introduced, which effectively improved the understanding of words. The proposed Bi-MulRnn+ abstractive automatic summarization model was based on sequence-to-sequence (seq2seq) framework and self-encoder structure. By introducing attention mechanism, Gated Recurrent Unit (GRU) gate structure, Bi-directional Recurrent Neural Network (BiRnn) and Multi-layer Recurrent Neural Network (MultiRnn), the model improved the summary accuracy and sentence fluency of abstractive summarization. The experimental results of Large-Scale Chinese Short Text Summarization (LCSTS) dataset show that the proposed scheme can effectively solve the problem of abstractive summarization of short text, and has good performance in Rouge standard evaluation system, improving summary accuracy and sentence fluency.
Key words: Natural Language Processing (NLP); abstractive automatic text summarization; sequence to sequence (seq2seq); self-encoder; word vector;Recurrent Neural Network (RNN)
0 引言
在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,文本信息的數(shù)量已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工處理的極限,自動(dòng)摘要技術(shù)的研究顯得越發(fā)迫切和重要。自動(dòng)摘要技術(shù)可應(yīng)用在廣泛的領(lǐng)域內(nèi),如推薦系統(tǒng)、新聞行業(yè);特別是在信息安全領(lǐng)域,輿情監(jiān)控系統(tǒng)直接處理社交平臺(tái)的評(píng)論信息會(huì)給系統(tǒng)帶來(lái)極大的壓力,如果在保持原有主要信息不變的情況下,經(jīng)過(guò)信息壓縮后再交給監(jiān)控系統(tǒng),就能適當(dāng)?shù)販p輕監(jiān)控系統(tǒng)的計(jì)算負(fù)擔(dān)。
自動(dòng)摘要問(wèn)題按照實(shí)現(xiàn)方式可以分為抽取式和生成式。抽取式是將原文中已存在的重要句子抽取出來(lái)拼湊在一起作為摘要;生成式則是要通過(guò)語(yǔ)義理解技術(shù)理解文章主旨,再使用自然語(yǔ)言技術(shù)生成新的句子作為摘要??梢?jiàn),抽取式摘要的特點(diǎn)是實(shí)現(xiàn)難度低、摘要句的生成過(guò)程簡(jiǎn)單,但摘要句可能出現(xiàn)上下文不匹配的問(wèn)題;而生成式摘要雖然實(shí)現(xiàn)難度高,但其生成摘要句的過(guò)程更加擬人化,生成的摘要自然、質(zhì)量高、語(yǔ)句通順。
本文將深度學(xué)習(xí)的相關(guān)技術(shù)融入自動(dòng)摘要問(wèn)題中,提出一種新的生成式自動(dòng)摘要問(wèn)題的解決方案,以提高生成式自動(dòng)摘要的質(zhì)量,完善生成式自動(dòng)摘要在核心信息檢索領(lǐng)域的應(yīng)用。
自動(dòng)摘要任務(wù)的過(guò)程又可以被轉(zhuǎn)化成從一個(gè)輸入詞序列到另一個(gè)輸出詞序列的映射過(guò)程,這個(gè)過(guò)程被稱(chēng)作序列映射,因此可以使用序列到序列建模的方法來(lái)解決。sequence-to-sequence(seq2seq)框架就是用來(lái)解決序列映射問(wèn)題的,目前這個(gè)框架已經(jīng)很好地解決了一部分自然語(yǔ)言處理(Natural Language Processing, NLP)問(wèn)題,如機(jī)器翻譯[1]、語(yǔ)音識(shí)別[2]和視頻字幕[3]。
Facebook公司的Rush等[4]率先將深度學(xué)習(xí)相關(guān)技術(shù)用于生成式自動(dòng)摘要的研究,采用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)編碼原文信息,利用上下文相關(guān)的注意力前饋神經(jīng)網(wǎng)絡(luò)生成摘要。他們的分析表明采用序列映射框架來(lái)解決自動(dòng)摘要問(wèn)題是切實(shí)可行的。
IBM公司的Nallapati等[6]采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)原文進(jìn)行編碼,同時(shí)對(duì)詞特征、停用詞、文檔結(jié)構(gòu)等有用信息進(jìn)行利用,實(shí)驗(yàn)結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于單純使用深度神經(jīng)網(wǎng)絡(luò)的效果。這表明深度神經(jīng)網(wǎng)絡(luò)并沒(méi)有充分挖掘到文章的全部特征,如果能針對(duì)所研究的問(wèn)題將相應(yīng)的特征加入到研究范圍內(nèi),會(huì)極大地改善方案的效果。
谷歌公司在2016年開(kāi)源了其自動(dòng)摘要模塊的項(xiàng)目Textsum[7],該模塊同樣使用了RNN對(duì)原文進(jìn)行編碼,并采用另一個(gè)RNN生成摘要,在摘要生成的最后階段還使用了集束搜索(beam-search)策略來(lái)提高摘要準(zhǔn)確度。Britz等[8]對(duì)序列映射模型進(jìn)行了一定的實(shí)驗(yàn)與分析,結(jié)果表明集束搜索對(duì)摘要質(zhì)量的影響非常大。
2017年Facebook的AI實(shí)驗(yàn)室公布了它的最新模型[9],該模型采用卷積神經(jīng)網(wǎng)絡(luò)作為編碼器,在詞向量中加入詞語(yǔ)的位置信息,采用線性門(mén)控單元(Gated Linear Unit, GLU)作為門(mén)結(jié)構(gòu),并在自動(dòng)摘要數(shù)據(jù)集上刷新了記錄,但這并不能說(shuō)明基于CNN的序列映射模型就一定要比RNN的好。雖然CNN效率高,但參數(shù)多,且CNN無(wú)法像RNN一樣對(duì)詞語(yǔ)的序列敏感,必須向詞向量中引入詞語(yǔ)的位置信息來(lái)模擬RNN的時(shí)序特性,可見(jiàn)RNN在處理序列化信息時(shí)有著其天生的優(yōu)勢(shì)。
以上工作已經(jīng)在自動(dòng)摘要問(wèn)題上取得了一定的成果,但還是有一些問(wèn)題,例如:詞特征提取不充分、摘要句不準(zhǔn)確、流暢度不夠高。本文針對(duì)以上情況進(jìn)行了以下兩個(gè)方面的工作:1)引入注意力機(jī)制、門(mén)控循環(huán)單元(Gated Recurrent Unit, GRU)結(jié)構(gòu)、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、多層循環(huán)神經(jīng)網(wǎng)絡(luò)和集束搜索,構(gòu)建了一種新的模型Bi-MulRnn來(lái)處理生成式摘要問(wèn)題;2)在詞特征提取方面,基于Skip-Gram方法生成詞向量,引入詞性(Part Of Speech, POS)、詞頻(Term Frequency, TF)和逆文本頻率詞特征(Inverse Document Frequency, IDF)以提高模型對(duì)詞語(yǔ)的理解能力。最后通過(guò)兩組基于大規(guī)模中文短文本摘要(Large-Scale Chinese Short Text Summarization, LCSTS)數(shù)據(jù)集的實(shí)驗(yàn),在Rouge標(biāo)準(zhǔn)評(píng)價(jià)體系下對(duì)方案生成的摘要作了一定的評(píng)估,結(jié)果表明該方案能夠有效提升摘要質(zhì)量。
1 基于深度學(xué)習(xí)的自動(dòng)摘要模型的構(gòu)建
本文設(shè)計(jì)的模型是基于自編碼器結(jié)構(gòu)的。自編碼器結(jié)構(gòu)是sequence-to-sequence框架中最常用的結(jié)構(gòu),它包括一個(gè)編碼器和一個(gè)解碼器。本文使用兩個(gè)獨(dú)立的RNN。
隨著深度學(xué)習(xí)的相關(guān)技術(shù)在自然語(yǔ)言處理方面的廣泛應(yīng)用,開(kāi)始有研究人員將注意力機(jī)制引入自編碼器結(jié)構(gòu)。
注意力機(jī)制是一種聚焦的思想,使神經(jīng)網(wǎng)絡(luò)具備重組輸入信息的能力,即根據(jù)問(wèn)題的需要,將原始數(shù)據(jù)的每一項(xiàng)做一個(gè)放大或縮小的變換,與問(wèn)題無(wú)關(guān)的部分縮小,反之則放大。本文的設(shè)計(jì)也引入了這種注意力機(jī)制。任務(wù)處理流程如圖1所示,具體包括以下四個(gè)步驟:
1)文本預(yù)處理階段。通過(guò)將原文信息分詞后,再進(jìn)行詞向量化處理,這個(gè)過(guò)程還包括詞性、詞頻、逆文本頻率的計(jì)算,最終形成一個(gè)詞向量序列作為下一個(gè)階段的輸入。然后統(tǒng)計(jì)語(yǔ)料中高頻詞匯的鄰近詞匯,并形成一個(gè)鄰近詞表,協(xié)助解碼器詞匯表的生成。
2)語(yǔ)義理解階段。循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶功能,將上一階段的詞向量序列依次輸入編碼器,編碼器會(huì)在每個(gè)時(shí)間步生成一個(gè)當(dāng)前時(shí)間步的語(yǔ)義向量,最后將這些語(yǔ)義向量合并在一起形成全文的語(yǔ)義向量,并傳給下一個(gè)階段。
3)信息重組過(guò)程:注意力機(jī)制根據(jù)解碼器反饋的中間狀態(tài)(中間狀態(tài)即已經(jīng)生成的詞語(yǔ))重組出最適合當(dāng)前時(shí)間步的全文語(yǔ)義信息,并將重組后的中間語(yǔ)義信息傳回解碼器用于當(dāng)前時(shí)間步的詞語(yǔ)預(yù)測(cè)。
4)摘要生成階段。在這個(gè)階段循環(huán)神經(jīng)網(wǎng)絡(luò)每個(gè)時(shí)間步預(yù)測(cè)出一個(gè)詞,并根據(jù)之前預(yù)測(cè)出的詞與概括全文的中間語(yǔ)義共同預(yù)測(cè)下一個(gè)詞語(yǔ),最終形成一個(gè)詞序列即摘要句。
2 基于深度學(xué)習(xí)的自動(dòng)摘要模型關(guān)鍵問(wèn)題
2.1 基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRnn)的編碼器
本文編碼器的設(shè)計(jì)引入了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)偏重于記憶最后時(shí)刻的信息,而對(duì)最開(kāi)始的輸入信息不敏感。為了解決這一問(wèn)題,本文采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。在這種結(jié)構(gòu)中,網(wǎng)絡(luò)分別從正向和反向閱讀原文,在每個(gè)時(shí)刻都會(huì)生成一個(gè)該方向下的隱層信息,結(jié)合該時(shí)刻下兩個(gè)方向的隱層信息就能得到該時(shí)刻下的語(yǔ)義向量。
在網(wǎng)絡(luò)的門(mén)結(jié)構(gòu)中,我們使用了GRU結(jié)構(gòu)。GRU比長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)參數(shù)更少,并且更加不易過(guò)擬合,這一點(diǎn)在Chung等[11]的研究中可以得出結(jié)論,因此本文在循環(huán)神經(jīng)網(wǎng)絡(luò)的門(mén)結(jié)構(gòu)中引入了GRU。
2.2 基于多層循環(huán)神經(jīng)網(wǎng)絡(luò)(MulRnn)的解碼器
解碼器的設(shè)計(jì)引入了多層循環(huán)神經(jīng)網(wǎng)絡(luò),這種結(jié)構(gòu)在Lopyrev[12]的論文中被單純地用以解決自動(dòng)摘要問(wèn)題,其結(jié)論表明該結(jié)構(gòu)在一定程度上提高了摘要的準(zhǔn)確度。本文使用了三層循環(huán)神經(jīng)網(wǎng)絡(luò),期望提升模型的泛化能力,讓它更好地?cái)M合原文到摘要的映射關(guān)系,使摘要更加準(zhǔn)確。
圖3是多層循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖,其中只有第三層會(huì)與注意力機(jī)制交互。在第i時(shí)刻下,解碼器接收注意力機(jī)制傳來(lái)的第i時(shí)刻下的原文語(yǔ)義向量ci與i時(shí)刻下隱層狀態(tài)向量si,第i-1時(shí)刻的輸出yi共同預(yù)測(cè)出i時(shí)刻的輸出yi+1與i+1時(shí)刻下的狀態(tài)向量si+1。
2.3 帶有注意力機(jī)制的自編碼器
注意力機(jī)制首先是在圖像處理領(lǐng)域嶄露頭角[13],其核心思想是,在處理圖像中的一小部分時(shí),不再對(duì)整個(gè)圖片做處理,而是使用注意力機(jī)制,只集中資源在最關(guān)鍵的部分。實(shí)驗(yàn)結(jié)果表明該方法可以有效提高程序的運(yùn)行效率。
隨后注意力機(jī)制被引入自然語(yǔ)言處理領(lǐng)域。本文的循環(huán)神經(jīng)網(wǎng)絡(luò)自編碼器模型也引入了注意力機(jī)制。注意力機(jī)制對(duì)摘要任務(wù)的執(zhí)行效率有很大的幫助。摘要的生成是輸出一個(gè)詞序列形成摘要句的模式,注意力機(jī)制會(huì)在預(yù)測(cè)某個(gè)位置的詞匯時(shí),偏向注意那些與該位置有緊密聯(lián)系的原文信息。如果沒(méi)有注意力機(jī)制,那么每次預(yù)測(cè)時(shí),關(guān)注的內(nèi)容都是整個(gè)文章,而有些詞語(yǔ)可能因?yàn)槌霈F(xiàn)頻率很高,導(dǎo)致關(guān)鍵性明顯高于其他詞語(yǔ),最終連續(xù)預(yù)測(cè)出同一個(gè)詞,從而毀掉整個(gè)摘要。圖4是一個(gè)帶有注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)自編碼器模型。
注意力機(jī)制:ci表示第i時(shí)刻下的原文語(yǔ)義向量。αij是表示解碼器當(dāng)前時(shí)刻原文中的輸入詞與當(dāng)前要預(yù)測(cè)的位置之間的關(guān)聯(lián)程度;eik是對(duì)解碼器當(dāng)前時(shí)刻下某個(gè)編碼器隱層輸出的評(píng)分,評(píng)價(jià)標(biāo)準(zhǔn)是當(dāng)前預(yù)測(cè)位置與該隱層輸出的關(guān)聯(lián)程度,具體評(píng)價(jià)方式由score函數(shù)確定。由于本文是針對(duì)短文本的摘要,所以使用全局注意力機(jī)制與局部注意力機(jī)制的區(qū)別不大,而且使用局部的方法更加復(fù)雜,所以本文使用了全局注意力機(jī)制的一般方法[14]。
2.4 解碼器詞匯表的構(gòu)建
編碼器在使用softmax層計(jì)算每個(gè)詞的概率時(shí)非常消耗時(shí)間,也是整個(gè)任務(wù)計(jì)算速度的瓶頸。為了解決這個(gè)問(wèn)題,可以重新劃定解碼器的詞匯表。傳統(tǒng)方法是使用目標(biāo)語(yǔ)言的整個(gè)詞匯表,進(jìn)一步的方法是僅僅使用待處理句子的詞匯與目標(biāo)語(yǔ)言中的高頻詞匯,極大地減少了計(jì)算成本[15]。
本文在傳統(tǒng)方法的基礎(chǔ)上作了一定的改進(jìn),提出了鄰近詞表技術(shù),加入了原文詞表中屬于高頻詞匯的鄰近詞匯,鄰近度是在詞向量空間中體現(xiàn)的,即余弦值越高相似度越低。即解碼器的詞匯表由三部分組成:原文詞匯、高頻詞匯和鄰近詞匯。自動(dòng)摘要任務(wù)與機(jī)器翻譯任務(wù)有所不同,機(jī)器翻譯任務(wù)不需要過(guò)多的新詞匯,而自動(dòng)摘要任務(wù)需要更多新穎有意義的詞匯來(lái)形成更優(yōu)的候選句,并且鄰近詞匯也能進(jìn)一步提升句子的連貫程度。經(jīng)過(guò)修改,本文提出的鄰近詞表技術(shù)不僅能夠減少計(jì)算成本,提高收斂速度,還更加適應(yīng)摘要任務(wù)。
2.5 改進(jìn)的詞嵌入技術(shù)
傳統(tǒng)的詞嵌入技術(shù)主要采用兩種方法:連續(xù)詞袋模型(Continuous Bag-of-Words, CBOW)與Skip-Gram方法。CBOW是根據(jù)某個(gè)位置上下文的詞匯而推出這個(gè)位置的詞,Skip-Gram是根據(jù)某個(gè)詞推出該詞所在位置上下文的詞語(yǔ)??梢钥闯鲞@兩種方法都只關(guān)注詞語(yǔ)間的位置關(guān)系,而沒(méi)有關(guān)注詞的其他特性,例如詞性、詞頻和逆文本頻率。
本文將詞匯的POS、TF、IDF值離散化后樸素連接在原來(lái)的詞向量后端形成一個(gè)新的詞向量作為編碼器的輸入,用來(lái)生成語(yǔ)義編碼。
摘要往往是中性的句子,很少附帶情感詞匯,一般只描述事實(shí),所以摘要任務(wù)的詞語(yǔ)選擇應(yīng)該重點(diǎn)在名詞和動(dòng)詞上,而不是形容詞和副詞。而詞頻與逆文本頻率能夠反映詞匯的重要性與代表性。詞頻表示詞匯在原文出現(xiàn)的次數(shù),逆文本頻率表示詞匯在語(yǔ)料庫(kù)中出現(xiàn)的頻率。詞語(yǔ)的關(guān)鍵性會(huì)隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。這些信息都是摘要任務(wù)所需要的重要信息,期望加入這些信息能夠提高摘要質(zhì)量。
3 實(shí)驗(yàn)與分析
3.1 LCSTS數(shù)據(jù)集
本文實(shí)驗(yàn)使用了LCSTS數(shù)據(jù)集,所采用數(shù)據(jù)的具體情況如表1所示,該數(shù)據(jù)集包含三個(gè)部分,其中:
3.2 實(shí)驗(yàn)設(shè)置
將Part1作為訓(xùn)練集,訓(xùn)練樣例的選取是隨機(jī)的。通過(guò)jieba工具對(duì)文本進(jìn)行分詞,之后,從中選取60000個(gè)高頻詞作為編碼器的詞匯表,不在詞匯表內(nèi)的詞語(yǔ)使用“UNK”表示。本文設(shè)計(jì)的解碼器詞匯表大小[16]為4000,先將原文詞匯加入詞匯表,然后取它們的鄰近詞匯,最后用編碼器詞匯表中的高頻詞匯填充剩下的位置。把鄰近度設(shè)定為3,即取余弦值最接近的3個(gè)詞為鄰近詞匯。詞向量維度為250,批尺寸大小為50,學(xué)習(xí)率初始化為1.0,其他參數(shù)均隨機(jī)初始化。本文采用Adadelta方法來(lái)更新學(xué)習(xí)率。在解碼器輸出端采用集束搜索(beam-search)方法,束大小設(shè)定為7。所有模型的訓(xùn)練過(guò)程都在Tesla P4上完成,整個(gè)過(guò)程持續(xù)了將近一周的時(shí)間。
選取Part3中評(píng)分在3以及3以上的原文摘要組合作為測(cè)試集。摘要評(píng)價(jià)采用了Rouge評(píng)價(jià)體系[17]。該評(píng)價(jià)體系自提出以來(lái)被廣泛應(yīng)用于自動(dòng)摘要任務(wù)的評(píng)價(jià)當(dāng)中,目前已成為世界公認(rèn)的評(píng)價(jià)標(biāo)準(zhǔn)。該體系的思路是分析比較候選摘要集與專(zhuān)家摘要集的相似程度來(lái)評(píng)價(jià)摘要質(zhì)量。本文采用該體系中的Rouge-1、Rouge-2和Rouge-L三種方式對(duì)模型進(jìn)行測(cè)試評(píng)價(jià),這三種方式分別從字的相似度、詞的相似度和句子的流暢度三個(gè)方面來(lái)評(píng)價(jià)摘要質(zhì)量。
由于標(biāo)準(zhǔn)的Rouge工具包通常只能用來(lái)評(píng)價(jià)英文,所以將中文字符編碼成了英文字符串,這樣就可以把中文字符與英文單詞對(duì)應(yīng)起來(lái),可以說(shuō)本文對(duì)系統(tǒng)的評(píng)價(jià)是基于“字”為單位進(jìn)行的[18]。
3.3 實(shí)驗(yàn)分析
從表2中可以看出,引入了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、多層神經(jīng)網(wǎng)絡(luò)、改進(jìn)的詞嵌入技術(shù)與鄰近詞表技術(shù)后, Bi-MulRnn+模型在測(cè)試中的表現(xiàn)略?xún)?yōu)于Bi-MulRnn模型與RNN context模型。這說(shuō)明Bi-MulRnn+模型在生成摘要的正確性、連貫性和表達(dá)性上都有了一定的提升。
導(dǎo)致這種情況的原因有三個(gè):
一是引入了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)與多層循環(huán)神經(jīng)網(wǎng)絡(luò),雙向循環(huán)神經(jīng)網(wǎng)絡(luò)能夠克服傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)注意力偏后的缺陷,多層循環(huán)神經(jīng)網(wǎng)絡(luò)能夠提升循環(huán)神經(jīng)網(wǎng)絡(luò)的泛化能力。從第二、三組的實(shí)驗(yàn)對(duì)比中可以表明這兩者確實(shí)對(duì)摘要任務(wù)有所提升。
二是鄰近詞表技術(shù),加入了鄰近詞。在一些情況下,標(biāo)準(zhǔn)摘要中有可能出現(xiàn)原文中不存在的詞匯,例如像在原文中可能出現(xiàn)“在排名中最高”這種表達(dá),但在標(biāo)準(zhǔn)摘要中有可能是“居榜首”這種表達(dá),兩者都表達(dá)了同一個(gè)意思,但后者明顯簡(jiǎn)練一些。鄰近詞的擴(kuò)充可以使解碼器詞匯表中出現(xiàn)這類(lèi)意思相近的詞語(yǔ),使得摘要句子的詞匯豐富性與準(zhǔn)確性得以增強(qiáng)。
三是改進(jìn)的詞嵌入技術(shù),加入了POS、TF和IDF三個(gè)特征。這三個(gè)特征加強(qiáng)了模型對(duì)名詞、關(guān)鍵詞的認(rèn)識(shí),摘要句往往是陳述句,其中形容詞和副詞較少,經(jīng)過(guò)學(xué)習(xí),模型會(huì)自動(dòng)增強(qiáng)對(duì)動(dòng)詞與名詞的選擇,進(jìn)一步加強(qiáng)摘要的準(zhǔn)確性。
4 結(jié)語(yǔ)
本文對(duì)生成式自動(dòng)摘要技術(shù)進(jìn)行了深入的分析與研究,提出了一種生成式自動(dòng)摘要問(wèn)題解決方案。該方案構(gòu)建了一種新型自編碼器模型,并對(duì)詞義表示進(jìn)行了改進(jìn)。模型的編碼器與解碼器部分采用了一種新型的組合方式,編碼器采用雙層循環(huán)神經(jīng)網(wǎng)絡(luò),解碼器采用多層循環(huán)神經(jīng)網(wǎng)絡(luò),通過(guò)對(duì)比分析實(shí)驗(yàn)結(jié)果可以得出結(jié)論:這種組合提高了模型對(duì)文章的理解能力和模型生成的摘要質(zhì)量。在詞義表示方面,本文采用了Skip-Gram方法生成詞向量,并引入了詞性、詞頻和逆文本頻率這三個(gè)特征,通過(guò)對(duì)比分析實(shí)驗(yàn)結(jié)果可以得出結(jié)論:改進(jìn)的詞向量技術(shù)能進(jìn)一步地提高摘要質(zhì)量。在Rouge標(biāo)準(zhǔn)評(píng)價(jià)體系下,本文模型與單純使用深度神經(jīng)網(wǎng)絡(luò)的模型相比有更好的表現(xiàn)。
生成式自動(dòng)摘要技術(shù)可應(yīng)用于新聞行業(yè)、推薦系統(tǒng)以及信息檢索等領(lǐng)域,具有良好的應(yīng)用價(jià)值。但是該模型在對(duì)一部分特有名詞處理時(shí)無(wú)法識(shí)別這些信息,最終會(huì)導(dǎo)致摘要生成不準(zhǔn)確,所以在后續(xù)的研究中將針對(duì)這一問(wèn)題作進(jìn)一步的研究。
參考文獻(xiàn):
[1] BAHDANAU D, CHO K H, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. [2018-03-20]. https://arxiv.org/pdf/1409.0473v7.pdf.
[2] BAHDANAU D, CHOROWSKI J, SERDYUK D, et al. End-to-end attention-based large vocabulary speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 4945-4949.
[3] VENUGOPALAN S, ROHRBACH M, DONAHUE J, et al. Sequence to sequence — video to text [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015:4534-4542.
[4] RUSH A M, CHOPRA S, WESTON J. A neural attention model for abstractive sentence summarization [EB/OL]. [2018-02-23]. https://arxiv.org/pdf/1509.00685.pdf.
[5] CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks [EB/OL]. [2018-03-21] http://aclweb.org/anthology/N/N16/N16-1012.pdf.
[6] NALLAPATI R, ZHOU B W, dos SANTOS C N, et al. Abstractive text summarization using sequence-to-sequence RNNs and beyond [C]// Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Stroudsburg, PA: ACL, 2016:280-290.
[7] ABADI M, BARHAM P, CHEN J M, et al. Tensor flow: a system for large-scale machine learning [C]// Proceedings of the 12th USENIX conference on Operating Systems Design and Implementation. Berkeley, CA: USENIX, 2016: 265-283.
[8] BRITZ D,GOLDIE A, LUONG M-T, et al. Massive exploration of neural machine translation architectures [EB/OL]. [2018-04-05]. https://arxiv.org/pdf/1703.03906.pdf.
[9] GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning [EB/OL]. [2018-04-23]. https://arxiv.org/pdf/1705.03122.pdf.
[10] LI P J, LAM W, BING L D, et al. Cascaded attention based unsupervised information distillation for compressive summarization [C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017:2081-2090.
[11] CHUNG J Y, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [EB/OL]. [2018-04-23]. https://arxiv.org/pdf/1412.3555v1.pdf.
[12] LOPYREV K. Generating news headlines with recurrent neural networks [EB/OL]. [2018-03-20]. https://arxiv.org/pdf/1512.01712.pdf.
[13] MNIH V, HEESS N, GRAVES A. Recurrent models of visual attention[EB/OL]. [2018-04-08]. https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf.
[14] LUONG M-T, PHAM H, MANNING C D. Effective approaches to attention-based neural machine translation [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015: 1412-1421.
[15] JEAN S, CHO K H, MEMISEVIC R, et al. On using very large target vocabulary for neural machine translation [C]// Proceedings of the 53rd Annual Meeting of the ACL and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL, 2015:1-10.
[16] AYANA, SHEN S Q, ZHAO Y, et al. Neural headline generation with sentence-wise optimization [EB/OL]. [2018-03-23]. https://arxiv.org/pdf/1604.01904.pdf.
[17] LIN C Y, HOVY E. Automatic evaluation of summaries using n-gram co-occurrence statistics [C]// Proceedings of the 2003 Conference of the North American Chapter of the ACL on Human Language Technology. Stroudsburg, PA: ACL, 2003: 71-78.
[18] 戶(hù)保田.基于深度神經(jīng)網(wǎng)絡(luò)的文本表示及其應(yīng)用[D].哈爾濱:哈爾濱工業(yè)大學(xué),2016:91-94. (HU B T. Deep neural networks for text representation and application[D]. Harbin: Harbin Institute of Technology, 2016: 91-94.)
[19] HU B T, CHEN Q C, ZHU F Z. LCSTS: A large scale Chinese short text summarization dataset [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015:1967-1972.