梁媛 王東波 黃水清
1.南京農(nóng)業(yè)大學(xué)信息管理學(xué)院 南京 210095
2.南京農(nóng)業(yè)大學(xué)人文與社會計算研究中心 南京 210095
網(wǎng)絡(luò)信息的爆炸式增長在使人們獲取信息更加便利的同時,也帶來了信息利用效率低、閱讀成本過高等問題,而自動摘要技術(shù)通過對信息的壓縮和精煉,為提高知識獲取效率提供了輔助手段[1],該技術(shù)的產(chǎn)生和發(fā)展使解決上述問題成為可能。目前,自動摘要的主要方式有抽取式和生成式兩種,抽取式自動摘要起步較早,經(jīng)過許多學(xué)者多年研究,該技術(shù)已較為成熟,而隨著機(jī)器學(xué)習(xí)引入到自動摘要領(lǐng)域,生成式自動摘要再一次迎來了發(fā)展的可能。
新聞是記錄社會問題、傳播時代信息、獲取時事熱點的重要途徑,而《人民日報》是中國共產(chǎn)黨中央委員會機(jī)關(guān)報,是國家與人民溝通的主要媒介,也是國內(nèi)外文化交流的橋梁,因此,人民日報語料的研究具有重要意義。本文實驗語料來自新時代人民日報語料庫(New Era People’s Daily Segmented Corpus,簡稱NEPD)[2],NEPD中收錄的《人民日報》文章經(jīng)過人工分詞和校對,是具有良好可用性的精語料[3]。通過NEPD中的語料可快速便捷地計算詞語及其頻次,進(jìn)而進(jìn)行后續(xù)的數(shù)據(jù)預(yù)處理,完成相應(yīng)的文本處理任務(wù)。
筆者結(jié)合人們新聞瀏覽趨勢的變化,針對大量新聞文本需要精煉的特征,面向人民日報語料,實現(xiàn)抽取式新聞自動摘要算法和生成式自動摘要模型的構(gòu)建,并對摘要結(jié)果進(jìn)行評價,進(jìn)而提高新聞信息使用效率,節(jié)省用戶閱讀成本,為文本自動摘要技術(shù)及其評價方法提供思路。
早期,莫燕[4]和王永成[5]介紹了自動文獻(xiàn)摘要和自動提取知識的思想和算法。之后,王永成和許慧敏[6]、王知津[7]分別提出并設(shè)計了OA中文文獻(xiàn)自動摘要系統(tǒng)和基于句子選擇的自動文本摘要系統(tǒng),并對中文文獻(xiàn)自動摘要的歷史、發(fā)展和意義進(jìn)行了概述。史磊和王永成[8]則對英文文獻(xiàn)自動摘要系統(tǒng)進(jìn)行了研究。
在前人研究的基礎(chǔ)上,文本自動摘要研究得以快速發(fā)展,各類算法推陳出新。熊嬌等[9]、張筱丹和胡學(xué)鋼[10]、劉星含和霍華[11]、紀(jì)文倩等[12]、曾哲軍[13]、劉靜和肖璐[14]分別采用圖模型、向量空間模型、互信息、連續(xù)LexRank算法、依存句法分析圖模型對文本進(jìn)行自動摘要處理。王帥等[15]采用基于圖模型和循環(huán)神經(jīng)網(wǎng)絡(luò)模型兩階段的長文本自動摘要方法,在大規(guī)模金融長文本數(shù)據(jù)上進(jìn)行了摘要生成實驗;吳云等[16]提高與標(biāo)題相似的特征詞的詞頻,進(jìn)而計算詞頻矩陣和句子相似度,得到了詞句協(xié)同的自動摘要提取算法;陳晨等[17]應(yīng)用詞句協(xié)同排序提出了基于圖模型的自動摘要算法;丁建立等[18]采用多維度詞嵌入模式,基于雙編碼器融入雙通道語義對短文本進(jìn)行自動摘要任務(wù);馮讀娟等[19]同樣基于雙編碼器網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建了CGAtten-GRU模型,并在大規(guī)模中文短文本摘要中取得良好的效果;廖濤等[20]參考圖結(jié)構(gòu)表示提出了事件網(wǎng)絡(luò)表示文本中的事件關(guān)系,進(jìn)而進(jìn)行文本自動摘要;徐馨韜等[21]改進(jìn)了TextRank算法,將Doc2Vec模型和K-means算法融入其中,優(yōu)化了主題句提取生成摘要的效果;陳海華等[22]將引文上下文內(nèi)容特征與支持向量機(jī)(support vector machine, SVM)模型融合,對學(xué)術(shù)文本進(jìn)行自動摘要;黃水清等[23]根據(jù)計算機(jī)類文獻(xiàn)設(shè)計了該領(lǐng)域自動文本摘要系統(tǒng);張晗和趙玉虹[24]則針對醫(yī)學(xué)文本,對文本及語義關(guān)系進(jìn)行規(guī)范化抽取和語義圖的構(gòu)建,以實現(xiàn)句子主題歸類,進(jìn)而生成摘要;陳志敏等[25]、李芳和何婷婷[26]則從信息檢索方面入手,基于用戶查詢擴(kuò)展及查詢文檔集合輔助生成摘要。
在這些算法中,采用主題劃分、多特征融合算法的自動摘要研究尤為突出。張哲銘等[27]提出了結(jié)合主題感知與通信代理的高質(zhì)量長文本摘要模型,能夠生成主題突出的摘要結(jié)果;陳燕敏等[28]提出了一種融合主題與內(nèi)容的自動摘要方法,并通過指代消解獲得具有良好的連貫性和流暢性的自動摘要結(jié)果;羅芳等[29]改進(jìn)了圖模型方法,基于隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型挖掘出的主題語義信息,將主題特征、統(tǒng)計特征和句間相似度等多維度對文本進(jìn)行度量和抽取,最終達(dá)到深層主題語義挖掘利用的目的,實現(xiàn)自動摘要;杜秀英[30]針對大規(guī)模多文本摘要,構(gòu)建了基于聚類與語義相似分析的MapReduce自動摘要架構(gòu),在時間性能、壓縮效果和摘要質(zhì)量上都有一定的提升。但以上方法和模型主要集中于抽取式自動摘要的研究,而對于生成式自動摘要仍有較大的研究空間。
隨著大數(shù)據(jù)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)自動文摘研究正朝著從抽取式摘要到生成式摘要的方向演化,從而達(dá)到生成更高質(zhì)量的自然流暢的文摘的目的。近年來,深度學(xué)習(xí)技術(shù)逐漸被應(yīng)用于生成式摘要研究中。吳世鑫等[31]基于帶注意力、Pointer機(jī)制和Coverage機(jī)制的Sequence-to-Sequence模型引入語義對齊的神經(jīng)網(wǎng)絡(luò),實現(xiàn)生成式自動摘要模型的構(gòu)建;方旭等[32]提出了一種結(jié)合核心詞修正的長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)算法自動生成中文短文本摘要;唐曉波和翟夏普[33]改進(jìn)了PageRank算法,并采用句子向量化、分類器分類、句群劃分和句子重組混合機(jī)器學(xué)習(xí)模型進(jìn)行多文檔自動摘要研究;譚金源等[34]和張克君等[35]融合多個深度學(xué)習(xí)模型分別提出了Bi-MulRnn+和BERT-指針生成網(wǎng)絡(luò)BERT-PGN生成式自動摘要模型,有效改善了生成式摘要的準(zhǔn)確性和流暢度;李維勇等[36]、肖元君和吳國文[37]也都進(jìn)行了基于深度學(xué)習(xí)的中文生成式自動摘要模型的研究與實現(xiàn)。
逐漸加快的生活節(jié)奏不斷改變著人們的閱讀習(xí)慣,人們從紙質(zhì)書籍、報刊轉(zhuǎn)向電子化閱讀,閱讀的新聞也逐漸轉(zhuǎn)為短文本,因此,新聞媒體以及讀者對于新聞?wù)詣踊男枨笠搽S之增大。官禮和[38]分析了中文網(wǎng)絡(luò)新聞自動摘要的思路和流程,并通過實驗進(jìn)行了分析佐證;韓永峰等[39]探討了自動摘要中信息冗余的問題,并提出了基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動摘要的改進(jìn)方法;沈洲等[40]建立了新聞文獻(xiàn)主題提取規(guī)則庫,構(gòu)建了面向新聞文獻(xiàn)基于規(guī)則的自動摘要系統(tǒng);李孟爽等[41]提出的自動摘要算法是基于互信息對文本詞句語義特征的計算結(jié)果,并據(jù)此進(jìn)行主題劃分,抽取出關(guān)鍵句生成最終的文本摘要;王凱祥和任明[42]為滿足用戶查詢的信息需求,設(shè)計了基于查詢的新聞自動摘要算法,還與TFIDF、TextRank、LDA等6種方法進(jìn)行了對比實驗;黃小江等[43]基于協(xié)同圖排序模型自動生成了新聞話題的對比摘要,具有很強(qiáng)的新穎性;柯修和王惠臨[44]則融合多種算法,包括指代消解、文本外部特征和圖排序方法,實現(xiàn)了漢語、英語、孟加拉語3個語種的多文檔新聞自動摘要;葉雷等[45]同樣采用圖排序方法,提出了多特征融合的漢越雙語新聞?wù)椒ǎ軌蜃詣荧@取同一事件的漢越雙語新聞?wù)?。除新聞外,如微博、論壇等用戶自主生成?nèi)容中的信息也擁有巨大的研究價值,而自動摘要是獲取這類重要信息的一種手段,但這些短文本高冗余、高噪聲等特征對于自動摘要造成較大的影響[46],學(xué)者們[47-50]也在為解決這一問題作出不懈努力。
通過對上述文獻(xiàn)的梳理可以發(fā)現(xiàn),從基于規(guī)則、基于統(tǒng)計到后來的深度學(xué)習(xí),從普通文本到動態(tài)視頻,自動摘要技術(shù)的研究正隨著技術(shù)的進(jìn)步和用戶的需求不斷更迭發(fā)展著。而新聞自動摘要一直具有重要意義,其能夠在很大程度上滿足人們快節(jié)奏生活中的新聞獲取。但目前新聞自動摘要的應(yīng)用型研究主要集中在新聞的抽取式自動摘要上,而對于生成式自動摘要尚未有領(lǐng)域性、準(zhǔn)確性較強(qiáng)的模型和系統(tǒng)。因此,筆者面向人民日報語料展開自動摘要的研究,通過傳統(tǒng)算法和深度學(xué)習(xí)算法完成自動摘要任務(wù),旨在根據(jù)當(dāng)前主流新聞媒體的文本特征構(gòu)建自動摘要模型,解決用戶閱讀長文本新聞耗時長、信息利用率低的問題,同時也為新聞媒體的知識聚合服務(wù)提供幫助,為新聞傳播、文化傳承提供新思路。
自然語言處理(natural language processing,NLP)作為一個傳統(tǒng)研究領(lǐng)域,自其產(chǎn)生始終熱度不減,其中緣由不只是新技術(shù)的誕生和引入,也因NLP有“最困難的人工智能子領(lǐng)域”之名。其中的自動摘要任務(wù)也是研究者們不斷研究、突破的主要難點之一,特別是在快速閱讀成為人們生活中非常重要的閱讀方式的前提下。目前,自動摘要方法按生成方式主要分為抽取式自動摘要和生成式自動摘要,抽取式自動摘要主要應(yīng)用關(guān)鍵詞句排序的思想,而生成式自動摘要更多是基于深度學(xué)習(xí)模型來完成。在本文的實驗中,抽取式自動摘要主要運用了關(guān)鍵詞確定句子權(quán)重和TextRank等傳統(tǒng)算法的思想,生成式自動摘要則參考了基于指針生成網(wǎng)絡(luò)構(gòu)建的面向中文的Text-Summarizer-Pytorh-Chinese模型[50]及其思路。
本研究中的抽取式自動摘要主要采用的是按詞頻和簇確定關(guān)鍵詞,再通過關(guān)鍵詞對所在句打分,分?jǐn)?shù)排序確定最終生成摘要的句子。這種方法源自IBM公司H. P. Luhn的一篇文章The Automatic Creation of Literature Abstracts[51],他提出用簇(cluster)表示關(guān)鍵詞的聚類結(jié)果,這里的簇即包含多個關(guān)鍵詞的句子片段,如圖1所示:
圖1 關(guān)鍵詞簇聚類示意圖
簇權(quán)重的計算公式[52]如下:
其中,簇長指句子片段中所包含詞語的數(shù)量,以本研究中的部分人民日報語料為例:
“經(jīng)過全國各族人民共同努力,‘十二五’規(guī)劃圓滿收官,廣大人民群眾有了更多獲得感”,
分詞后語料實例為:
“經(jīng)過/全國/各族/人民/共同/努力/,/‘/十二五/’/規(guī)劃/圓滿/收官/,/廣大/人民/群眾/有/了/更/多/獲得感”,
設(shè)“‘十二五’規(guī)劃圓滿收官”為一簇,簇長為6,“十二五”“規(guī)劃”“收官”為關(guān)鍵詞,“廣大人民群眾有了更多獲得感”為另一簇,簇長為8,關(guān)鍵詞為“人民”“群眾”“獲得感”,則兩簇權(quán)重分別為32/6=1.5和32/8=1.125。按權(quán)重對文本包含的句子進(jìn)行排序,確定抽取閾值(本文設(shè)定的閾值為10,即抽出重要性最高的前10個句子),將這10個句子整合,即為該文本的自動摘要。類似TextRank算法,該算法源于PageRank算法,相當(dāng)于將網(wǎng)頁替換為句子,通過句子相似度矩陣以及設(shè)定的閾值來獲得得分較高的句子作為自動摘要結(jié)果,這是一種無監(jiān)督的抽取式自動摘要。
指針生成網(wǎng)絡(luò)(pointer-generator network)的自動摘要任務(wù)原理見圖2。該模型能夠通過自注意力機(jī)制集中于文本中的重要詞匯,并由此生成新詞匯。同時,它不是通過復(fù)制原詞來生成摘要,而是權(quán)衡詞表中詞匯的概率、詞匯分布以及注意力分布來確定候選詞的權(quán)重并獲得最終分布情況。
圖2 指針生成網(wǎng)絡(luò)自動摘要原理圖示[53]
目前,面向中文的基于指針生成網(wǎng)絡(luò)自動摘要的模型較少,因此,筆者參考Text-Summarizer-Pytorch-Chinese的 構(gòu) 建 思 路,將預(yù)訓(xùn)練語料調(diào)整為NEPD語料,詞表也針對NEPD語料進(jìn)行了更新,之后再進(jìn)行預(yù)訓(xùn)練和模型構(gòu)建。
“《人民日報》是一張權(quán)威、嚴(yán)肅的綜合性日報,憑借其采編力量對新聞事件做出反應(yīng),報道國內(nèi)外重大事件”[54]。作為耳目與喉舌、橋梁和紐帶的主流媒體,其文本信息價值不言而喻,人民日報語料一直以來也是研究者們的重要數(shù)據(jù)來源,其中,北京大學(xué)計算語言學(xué)研究所構(gòu)建的人民日報語料庫[55]是我國第一個大型的現(xiàn)代漢語標(biāo)注語料庫,之后,南京農(nóng)業(yè)大學(xué)人文與社會計算研究中心在2019年對2015年至2018年《人民日報》發(fā)表的文章進(jìn)行加工處理,構(gòu)建了新時代人民日報語料庫(NEPD)[56]。本研究以NEPD中2015年1月、2015年6月和2016年1月3個月的語料為實驗對象展開研究,原始語料如圖3所示:
圖3 NEPD原始語料截圖示例
根據(jù)本研究需要,筆者將每篇新聞從源語料中分割出來,處理后的文本見圖4,為之后的摘要抽取和生成做準(zhǔn)備。經(jīng)過數(shù)據(jù)清洗(同時清洗了未生成標(biāo)準(zhǔn)摘要的數(shù)據(jù)),獲得2015年1月新聞2 628條、2015年6月新聞916條、2016年1月新聞2 748條,共計6 292條數(shù)據(jù),本研究將以上述數(shù)據(jù)作為研究對象進(jìn)行自動摘要研究。
圖4 單篇新聞截圖示例
本實驗中生成式自動摘要模型訓(xùn)練及測試時采用的操作系統(tǒng)為ubuntu 16.04,內(nèi)存為16GB DDR4,顯 存 為4GB GDDR5,CPU為Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz,GPU型號為NVIDIA Quadro K1200。生成式自動摘要模型參數(shù)設(shè)置如表1所示。
表1 生成式自動摘要模型參數(shù)設(shè)置
本研究主要分為兩個部分:面向人民日報語料的新聞抽取式自動摘要算法(以下簡稱“抽取式自動摘要算法”)研究,以及面向人民日報語料的新聞生成式自動摘要模型(以下簡稱“生成式自動摘要模型”)構(gòu)建。
在抽取式自動摘要算法實驗中,主要包括以下8個步驟:①人民日報分詞語料獲??; ②待摘要文本預(yù)處理:包括去除特殊字符和空格空行等;③去停用詞和詞頻統(tǒng)計:由于本研究選用的NEPD語料為精校過的分詞語料,因此,不需要進(jìn)行分詞處理,在去停用詞后直接進(jìn)行詞頻統(tǒng)計即可;④計算句子權(quán)重:參考特征包括標(biāo)題關(guān)鍵詞信息、句子長度等特征; ⑤根據(jù)權(quán)重對句子進(jìn)行排序;⑥選定合適的閾值提取摘要句;⑦生成摘要;⑧根據(jù)標(biāo)準(zhǔn)摘要對自動摘要進(jìn)行評價(評價指標(biāo)包括Rouge-1、Rouge-2和Rouge-L)。
生成式自動摘要模型構(gòu)建過程主要包括以下7個步驟:①人民日報分詞語料獲?。虎诖谋绢A(yù)處理:去除特殊字符和空格空行等,并根據(jù)模型要求調(diào)整訓(xùn)練語料格式;③預(yù)訓(xùn)練模型構(gòu)建:將步驟②中的語料進(jìn)行預(yù)訓(xùn)練,得到具有《人民日報》特色的預(yù)訓(xùn)練模型;④加入特征:根據(jù)NEPD分詞語料統(tǒng)計關(guān)鍵詞,并作為自定義詞表引入到模型訓(xùn)練中,同時加入標(biāo)題特征;⑤生成式自動摘要模型訓(xùn)練:根據(jù)訓(xùn)練過程及結(jié)果調(diào)整參數(shù)并進(jìn)行迭代訓(xùn)練;⑥根據(jù)最終模型生成摘要;⑦根據(jù)標(biāo)準(zhǔn)摘要對自動摘要進(jìn)行評價(評價指標(biāo)包括Rouge-1、Rouge-2和Rouge-L)。
由于目前尚無針對人民日報語料的摘要標(biāo)準(zhǔn)語料庫,因此,筆者在對自動摘要實驗結(jié)果進(jìn)行評價時,分別以關(guān)鍵詞詞頻抽取式自動摘要結(jié)果和百度智能云的新聞?wù)涌诘姆治鼋Y(jié)果作為標(biāo)準(zhǔn)摘要集合。百度智能云的新聞?wù)腔谏疃日Z義分析模型自動抽取文本,能夠根據(jù)文本中的關(guān)鍵信息進(jìn)一步生成指定長度的新聞?wù)猍57]。
以本文選取的人民日報語料為例:
標(biāo)準(zhǔn)摘要(關(guān)鍵詞詞頻抽取式自動摘要):
“恐怖主義是國際社會公敵,中國歷來反對一切形式的恐怖主義,積極參與國際反恐合作。軍隊和武警部隊出境執(zhí)行反恐任務(wù),要遵守《聯(lián)合國憲章》的宗旨和原則,遵循國際關(guān)系準(zhǔn)則,并充分尊重當(dāng)事國的主權(quán)。至于今后軍隊和武警部隊是否赴境外反恐,將根據(jù)國家統(tǒng)一部署作出安排?!?/p>
自動摘要(面向人民日報語料的抽取式自動摘要):
“中國軍隊和武警部隊赴境外反恐將根據(jù)國家統(tǒng)一部署作出安排,軍隊和武警部隊出境執(zhí)行反恐任務(wù),要遵守《聯(lián)合國憲章》的宗旨和原則,遵循國際關(guān)系準(zhǔn)則,并充分尊重當(dāng)事國的主權(quán)。至于今后軍隊和武警部隊是否赴境外反恐,將根據(jù)國家統(tǒng)一部署作出安排?!?/p>
標(biāo)準(zhǔn)摘要(百度智能云新聞?wù)?/p>
“據(jù)報道,在河南省南陽市鎮(zhèn)平縣城郊鄉(xiāng)的大劉營村,因當(dāng)?shù)匚廴緡?yán)重,懷孕的村民只能離村待產(chǎn)。媒體曝光之后,當(dāng)?shù)匾呀?jīng)責(zé)令涉事企業(yè)停產(chǎn)整治,并且問責(zé)環(huán)保部門領(lǐng)導(dǎo)。村民以這種方式遠(yuǎn)離環(huán)境污染,映射出對美好生態(tài)環(huán)境的要求底線,更映射出惡意排污的現(xiàn)實和環(huán)保執(zhí)法的缺位。讓我們的后代成長在美好的環(huán)境中,這是我們對子孫后代的責(zé)任?!?/p>
自動摘要(面向人民日報語料的生成式自動摘要):
“重慶的不會愿意折騰到外村村民村民以這種方式遠(yuǎn)離環(huán)境污染映射出對美好的生態(tài)環(huán)境?!?/p>
Rouge(recall-oriented understudy for gisting evaluation)是評估自動摘要、機(jī)器翻譯等自然語言處理任務(wù)的常用指標(biāo),它是將標(biāo)準(zhǔn)摘要和自動生成摘要進(jìn)行相似度計算,得到的數(shù)值即為評價結(jié)果,計算公式如下[58]:
其中,分母為n-gram個數(shù),分子為標(biāo)準(zhǔn)摘要和自動摘要共有的n-gram個數(shù)。例如,Rouge-1中的分子是自動摘要和標(biāo)準(zhǔn)摘要中均出現(xiàn)的1-gram的個數(shù),分子是標(biāo)準(zhǔn)摘要的1-gram個數(shù)。筆者選取的評價指標(biāo)為Rouge-1、Rouge-2和Rouge-L,Rouge-L是 指 運 用LCS(longest common subsequence,最長公共子序列)計算的Rouge評測指標(biāo),計算公式分別為:
其中,LCS(X,Y)是X和Y的最長公共子序列的長度,m和n分別表示標(biāo)準(zhǔn)摘要和自動摘要的長度(通常為詞語個數(shù)),Rlcs和Plcs分別表示召回率和準(zhǔn)確率。B的數(shù)值通常較大,導(dǎo)致Rouge-L幾乎只考慮召回率Rlcs,這與Rouge-N相同。
此外,上述3種Rouge評測指標(biāo)內(nèi)部運用的P、R、F為準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)。具體計算公式分貝如下:
在抽取式自動摘要實驗中,本研究分別通過詞頻和簇聚類抽取關(guān)鍵詞的方式對句子進(jìn)行打分,并按分?jǐn)?shù)對句子進(jìn)行排序,進(jìn)而抽取出相應(yīng)的摘要結(jié)果。將詞頻抽取式自動摘要結(jié)果作為標(biāo)準(zhǔn)摘要,將簇聚類抽取式自動摘要作為自動摘要結(jié)果并與標(biāo)準(zhǔn)摘要進(jìn)行Rouge評測,部分摘要結(jié)果截圖如圖5所示:
圖5 自動摘要實驗結(jié)果示例
全部自動摘要的綜合評測結(jié)果見表2。通過表2可以看出,整體上抽取式自動摘要實驗結(jié)果抽取效果良好(均值:Rouge-1=0.8447,Rouge-2=0.8257,Rouge-L=0.8446),能夠?qū)υ颊Z料進(jìn)行大致概括。由于在抽取式自動摘要實驗中,標(biāo)準(zhǔn)摘要同樣為自動生成,且在Rouge指標(biāo)計算相似度的過程中,一旦抽取出的語句與標(biāo)準(zhǔn)摘要不同,則兩個對應(yīng)的完整長句相似度將會極低,這可能會導(dǎo)致Rouge指標(biāo)明顯偏低的問題出現(xiàn)。因此,筆者將會在未來的研究中一方面調(diào)整標(biāo)準(zhǔn)摘要的準(zhǔn)確度,另一方面完善自動摘要的評價方法。
表2 抽取式自動摘要實驗評測結(jié)果
在生成式自動摘要實驗中,本研究將全部新聞?wù)Z料進(jìn)行預(yù)處理,接入百度智能云新聞?wù)涌冢@取相應(yīng)的自動摘要結(jié)果,由于該平臺輸入文本長度有限,因此,筆者經(jīng)過代碼篩選,共獲得7 967條符合文本長度限制的新聞文本。另外,由于本文擬構(gòu)建的指針生成網(wǎng)絡(luò)模型需要大規(guī)模訓(xùn)練語料,遂將2015年1月、2015年6月和2016年1月3個月的原始語料合并后再繼續(xù)進(jìn)行實驗。
對語料進(jìn)行預(yù)處理后,將原始文本和標(biāo)準(zhǔn)摘要(百度智能云生成摘要)匹配并輸入指針生成網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練和測試。筆者在模型訓(xùn)練過程中引入了自定義詞表,該詞表由NEPD分詞語料生成,能夠提高自動摘要模型的訓(xùn)練效果,以及生成摘要的流暢度和貼合度。在結(jié)果評價階段,筆者在生成式自動摘要實驗中采用的同樣是Rouge指標(biāo)進(jìn)行評價,評測結(jié)果如表3所示:
表3 生成式自動摘要實驗評測結(jié)果
以本研究生成結(jié)果的其中一組數(shù)據(jù)為例(見表4),不同算法或模型生成的摘要內(nèi)容有一定的差別,但總體上流暢度問題較小,可讀性有一定的差別。抽取式自動摘要由于單句抽取自人民日報原文,因此句子內(nèi)部可讀性高于生成式摘要,句間連貫性低于生成式摘要。從摘要內(nèi)容整體上看,抽取式摘要包含的內(nèi)容更豐富,但概括能力較差,內(nèi)容冗余,句子間關(guān)聯(lián)度較低;而生成式自動摘要有一定的語義理解能力,生成的摘要內(nèi)容更簡練,相對比較符合新聞?wù)奶卣鳎瑢υ颊Z料的總結(jié)更靈活,但會出現(xiàn)個別詞匯重復(fù)、摘要內(nèi)容不全面等問題。
表4 面向《人民日報》的新聞自動摘要生成結(jié)果樣例
本研究選用的評測指標(biāo)為Rouge指標(biāo),這種評價方式雖然直觀簡潔并且能夠在一定程度上反映詞序和摘要效果,但該指標(biāo)區(qū)分度不高,特別是Rouge-N中N>3時,指標(biāo)數(shù)值通常較小[58],對結(jié)果評價有較大影響。除此之外,Rouge指標(biāo)主要是根據(jù)文本相似度對標(biāo)準(zhǔn)摘要和自動摘要進(jìn)行對比,同時,它具有一定的獎勵機(jī)制,會給予原始表達(dá)(詞匯)更高的分?jǐn)?shù)[53],這就導(dǎo)致在同一篇新聞中,通常抽取式自動摘要的分?jǐn)?shù)會高于生成式自動摘要。因此,這種計算方式有一定的局限性,特別是對于生成式自動摘要而言更是如此。筆者將在后續(xù)研究中嘗試多種評價方式對實驗結(jié)果進(jìn)行綜合測評,主要包括人工生成摘要數(shù)據(jù),將其作為標(biāo)準(zhǔn)摘要數(shù)據(jù)集,或通過對生成的自動摘要人工打分的方式進(jìn)行評價,以求得到更準(zhǔn)確的評價結(jié)果。
自動摘要是將長文本提煉為簡潔精煉的短文本的過程,能夠幫助人們快速瀏覽文本資源并知曉文章大意,節(jié)省閱讀成本的同時,也提高了知識利用效率,特別是在信息資源日益龐大的當(dāng)下,自動摘要技術(shù)的需求更是與日俱增。筆 者 以NEPD中2015年1月、2015年6月 和2016年1月3個月的人民日報分詞語料作為實驗語料,根據(jù)新聞文本特征,面向人民日報語料設(shè)計了基于關(guān)鍵詞詞頻排序和關(guān)鍵詞簇排序的抽取式自動摘要算法,并構(gòu)建了基于指針生成網(wǎng)絡(luò)的生成式自動摘要模型,均在Rouge測評中取得了良好的實驗結(jié)果,生成的摘要結(jié)果具有較好的完整性。筆者將在接下來的研究中完善算法,改進(jìn)模型,增強(qiáng)模型的復(fù)用性,并對評價方法做出改進(jìn),加入文本內(nèi)外部多個特征,增加人工生成標(biāo)準(zhǔn)摘要數(shù)據(jù)集和人工打分的環(huán)節(jié),以提高自動摘要的流暢性和可讀性。