• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      使用關(guān)鍵詞擴(kuò)展的新聞文本自動(dòng)摘要方法*

      2016-06-13 00:17:08黃金柱李舟軍楊偉銘
      計(jì)算機(jī)與生活 2016年3期
      關(guān)鍵詞:評(píng)測(cè)語(yǔ)料文摘

      李 峰,黃金柱,李舟軍,楊偉銘

      1.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京1001912.中國(guó)人民解放軍后勤科學(xué)研究所,北京1001663.中國(guó)人民解放軍外國(guó)語(yǔ)學(xué)院語(yǔ)言工程系,河南洛陽(yáng)471003

      ISSN 1673-9418 CODEN JKYTA8

      Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0372-09

      ?

      使用關(guān)鍵詞擴(kuò)展的新聞文本自動(dòng)摘要方法*

      李峰1,2+,黃金柱3,李舟軍1,楊偉銘2

      1.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京100191
      2.中國(guó)人民解放軍后勤科學(xué)研究所,北京100166
      3.中國(guó)人民解放軍外國(guó)語(yǔ)學(xué)院語(yǔ)言工程系,河南洛陽(yáng)471003

      ISSN 1673-9418 CODEN JKYTA8

      Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0372-09

      E-mail: fcst@vip.163.com

      http://www.ceaj.org

      Tel: +86-10-89056056

      * The National Natural Science Foundation of China under Grant Nos. 61170189, 61370126, 61202239 (國(guó)家自然科學(xué)基金); the National High Technology Research and Development Program of China under Grant No. 2015AA016004 (國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)); the Fund of the State Key Laboratory of Software Development Environment under Grant No. SKLSDE-2015ZX-16(軟件開發(fā)環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室探索性自主研究課題基金).

      Received 2015-08,Accepted 2015-10.

      CNKI網(wǎng)絡(luò)優(yōu)先出版: 2015-10-30, http://www.cnki.net/kcms/detail/11.5602.TP.20151030.1605.002.html

      Key words: keyword expansion; similar topic text; automatic summarization; graph algorithm; system implementation

      摘要:提出了使用關(guān)鍵詞擴(kuò)展的新聞文本自動(dòng)摘要方法。該方法從大規(guī)模的語(yǔ)料中提取與輸入文檔相近主題的文本組成背景語(yǔ)料,并基于背景語(yǔ)料進(jìn)行關(guān)鍵詞的擴(kuò)展,強(qiáng)化關(guān)鍵詞對(duì)文摘句的指示作用,從而提高新聞文本摘要抽取質(zhì)量。研究和實(shí)驗(yàn)表明,該方法在Rouge-1、Rouge-2評(píng)測(cè)中取得了優(yōu)于基于關(guān)鍵詞、基于TextRank和基于Manifold Ranking方法的結(jié)果。在研究中組織制定了100篇新聞文本的4份中文新聞文本標(biāo)準(zhǔn)評(píng)價(jià)集,研制了基于關(guān)鍵詞擴(kuò)展的中文新聞文本自動(dòng)摘要系統(tǒng),開發(fā)了面向中文的基于ROUGE原理的新聞文本摘要結(jié)果自動(dòng)評(píng)測(cè)系統(tǒng),初步實(shí)現(xiàn)了從理論到實(shí)踐的轉(zhuǎn)化。

      關(guān)鍵詞:擴(kuò)展;相近文本;自動(dòng)摘要;圖算法;系統(tǒng)實(shí)現(xiàn)

      1 研究背景

      自2001年美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(National Institute of Standards and Technology,NIST)舉辦文檔理解會(huì)議(Document Understanding Conference,DUC)以來(lái),文本自動(dòng)摘要研究得到了越來(lái)越多的關(guān)注。對(duì)于通用型自動(dòng)文摘系統(tǒng)而言,Nenkova[1]研究發(fā)現(xiàn),單文檔摘要自動(dòng)生成的難度往往與人們的直覺(jué)相反,要難于多文檔摘要的自動(dòng)生成。其根本原因是單文本自動(dòng)摘要文檔信息較少,可以利用的支撐信息不足,增加了單文本摘要句的判斷難度[2-3]。

      針對(duì)支撐信息不足的問(wèn)題,近年來(lái)研究者們從兩個(gè)方面進(jìn)行了深入的研究:

      一種是深入考察文本內(nèi)部多種不同單元的相互關(guān)系,如詞-句關(guān)系[4]、句-段關(guān)系[5]等,并通過(guò)圖來(lái)表示這種關(guān)系,用迭代算法來(lái)確定文摘句,代表性的算法主要有TextRank[6]、LexRank[7]、Manifold Ranking[8]、GRASSHOPPER[9]等,這些算法根據(jù)PageRank[10]的思想,通過(guò)投票得分的多少來(lái)確定候選文摘句的重要程度。為取得更好的效果,也有學(xué)者嘗試了基于多層圖排序[4-5,11]的算法,并取得了相對(duì)較好的實(shí)驗(yàn)結(jié)果。

      另一種是通過(guò)引入第三方資源,如領(lǐng)域語(yǔ)料[12-13]、維基百科[14]、超鏈接信息和網(wǎng)頁(yè)點(diǎn)擊日志[15-16]等來(lái)豐富文本信息,提高文摘句計(jì)算的準(zhǔn)確度。如Louis[12]使用貝葉斯分類算法按照預(yù)先設(shè)定的領(lǐng)域語(yǔ)料,判斷輸入文檔中詞的新穎度,并據(jù)此進(jìn)行更新式摘要文摘句的抽?。籇elort[15]使用網(wǎng)頁(yè)超鏈接數(shù)據(jù)信息來(lái)提高單個(gè)網(wǎng)頁(yè)文本自動(dòng)摘要的準(zhǔn)確度;Sun等人[16]使用用戶點(diǎn)擊數(shù)據(jù)來(lái)進(jìn)行網(wǎng)頁(yè)文本的自動(dòng)摘要生成。第三方資源的引入擴(kuò)展了輸入文檔的可計(jì)算信息,單文本自動(dòng)摘要的質(zhì)量也隨之得到了提升。

      本文的研究屬于引入第三方資源擴(kuò)展的方法,不同的是本文提出的方法是從關(guān)鍵詞指示作用入手,通過(guò)擴(kuò)展并強(qiáng)化這種作用來(lái)提高文摘抽取的質(zhì)量。在方法中,首先使用關(guān)鍵詞抽取組件抽取輸入文檔的關(guān)鍵詞,并與標(biāo)題詞合并生成關(guān)鍵詞列表;其次依據(jù)抽取的關(guān)鍵詞列表從大規(guī)模語(yǔ)料中抽取與輸入文本主題相近的N篇語(yǔ)料組成一個(gè)臨時(shí)的背景語(yǔ)料庫(kù),然后基于該背景語(yǔ)料庫(kù)抽取與主題相關(guān)詞;最后進(jìn)行兩級(jí)關(guān)鍵詞的融合,再采用相關(guān)算法進(jìn)行文摘句的抽取。本文方法的價(jià)值和創(chuàng)新主要有:

      (1)設(shè)計(jì)了一套基于關(guān)鍵詞擴(kuò)展的中文新聞文本自動(dòng)摘要抽取算法,通過(guò)基于Rouge的實(shí)驗(yàn)表明,本文算法在中文新聞文本自動(dòng)摘要場(chǎng)景下能夠取得較好的文摘質(zhì)量。

      (2)在中文文本自動(dòng)摘要領(lǐng)域,尚沒(méi)有一份公開的標(biāo)準(zhǔn)參考摘要,一定程度上延緩了面向中文的自動(dòng)摘要研究。本文從多家媒體挑選了100篇覆蓋多個(gè)主題的新聞文本,并制定了4份共400篇人工摘要,實(shí)驗(yàn)表明參考摘要具備較好的參考價(jià)值。

      (3)實(shí)現(xiàn)了基于關(guān)鍵詞、基于TextRank[6]和基于Manifold Ranking[8]的文摘抽取算法;實(shí)現(xiàn)了基于關(guān)鍵詞擴(kuò)展方法的中文新聞文本自動(dòng)摘要系統(tǒng),實(shí)現(xiàn)了面向評(píng)測(cè)集的人工摘要制定輔助工具;研制了基于Rouge評(píng)測(cè)原理的中文新聞文本自動(dòng)摘要評(píng)價(jià)系統(tǒng)。

      2 基于關(guān)鍵詞擴(kuò)展的中文新聞文本自動(dòng)摘要相關(guān)算法

      本文設(shè)計(jì)的新聞文本自動(dòng)摘要方法可分解為兩部分:一是利用大規(guī)模語(yǔ)料進(jìn)行關(guān)鍵詞擴(kuò)展;二是利用擴(kuò)展后的關(guān)鍵詞來(lái)抽取文摘??傮w流程如圖1所示。

      Fig.1  Flow-process diagram of method圖1 方法流程圖

      主要步驟為:

      (1)使用關(guān)鍵詞抽取組件從輸入文檔中抽取關(guān)鍵詞,得到一級(jí)關(guān)鍵詞集={k1,k2,…,ki}。

      2.1基于相近語(yǔ)料的關(guān)鍵詞擴(kuò)展算法

      基于相近語(yǔ)料的關(guān)鍵詞擴(kuò)展算法包括兩個(gè)部分:一是基于大規(guī)模語(yǔ)料的主題相近文本的提??;二是基于提取的文本進(jìn)行關(guān)鍵詞擴(kuò)展。

      2.1.1基于大規(guī)模語(yǔ)料的主題相近文本提取

      一般而言,文本的關(guān)鍵詞能夠較大程度上承載文本的主題,兩篇文本的關(guān)鍵詞重疊度越高,則可以認(rèn)為兩者表述的主題可能就越相近。基于此,本文設(shè)計(jì)了一種從大規(guī)模語(yǔ)料提取主題相近文本的方法。該方法通過(guò)考察輸入文檔關(guān)鍵詞在語(yǔ)料中的分布來(lái)獲取相近文檔,主要涉及關(guān)鍵詞抽取以及基于關(guān)鍵詞分布的主題相近文本獲取。在關(guān)鍵詞抽取部分,本文直接利用NLPIR2015(http://ictclas.nlpir.org/ downloads)關(guān)鍵詞抽取組件抽取關(guān)鍵詞,并使用關(guān)鍵詞作為倒排索引項(xiàng)對(duì)大規(guī)模語(yǔ)料庫(kù)進(jìn)行倒排。在倒排索引構(gòu)建完成后,對(duì)于輸入的任意一篇文檔,使用如下算法從大規(guī)模語(yǔ)料庫(kù)中提取主題相近的文本:

      算法1主題相近文本提取算法

      輸入:輸入文檔;要提取的主題相近文本個(gè)數(shù)n。

      輸出:n篇與輸入文檔主題最為相近的文檔列表。

      算法1中,mergedKeyWordsToDict函數(shù)用于合并正文關(guān)鍵詞與標(biāo)題關(guān)鍵詞,在合并前先為標(biāo)題關(guān)鍵詞分配正文關(guān)鍵詞的平均得分值,合并時(shí)選擇正文關(guān)鍵詞中沒(méi)有的或者得分高于正文關(guān)鍵詞的標(biāo)題詞加入列表,作為合并結(jié)果。由于每篇新聞的關(guān)鍵詞集元素不重復(fù),輸入文檔中的關(guān)鍵詞集元素也保持了唯一性,在文檔長(zhǎng)度差異不大時(shí),包含輸入文檔的關(guān)鍵詞個(gè)數(shù)越多,即關(guān)鍵詞交疊次數(shù)越多,則可認(rèn)為其與輸入文檔主題越相近。為降低計(jì)算復(fù)雜度,在建立索引和處理輸入文檔時(shí),算法進(jìn)行了粗略處理,統(tǒng)一把內(nèi)容關(guān)鍵詞抽取個(gè)數(shù)限制為8個(gè)。

      2.1.2基于主題相近文本的關(guān)鍵詞擴(kuò)展

      文本中距離越相近的實(shí)詞往往語(yǔ)義越相關(guān),主題越相近的文本中相關(guān)詞同現(xiàn)的可能性越高。例如“根據(jù)救災(zāi)需要不斷增加救援隊(duì)伍、醫(yī)療專家、機(jī)械裝備、物資藥品和應(yīng)急資金等”這句話中,“醫(yī)療”、“專家”、“裝備”、“物資”、“藥品”這些詞,因在同一個(gè)句子中共現(xiàn)而具有一定的相關(guān)性;在描述救災(zāi)主題的文本中這些詞中的幾個(gè)或全部也經(jīng)常出現(xiàn),即這些詞對(duì)“救災(zāi)”亦有指示作用。根據(jù)這一思路,本文設(shè)計(jì)了一種基于主題相近文本的關(guān)鍵詞擴(kuò)展方法。該方法在同一相近主題文本集合中,通過(guò)考察輸入關(guān)鍵詞左右一定跨距內(nèi)的實(shí)詞相關(guān)程度來(lái)進(jìn)行擴(kuò)展,在測(cè)量實(shí)詞與輸入關(guān)鍵詞的相關(guān)程度時(shí),主要考查其出現(xiàn)的頻數(shù)以及與關(guān)鍵詞間的距離?;谙嘟谋镜年P(guān)鍵詞擴(kuò)展算法如下:

      算法2基于相近文本的關(guān)鍵詞擴(kuò)展算法

      輸入:輸入文檔,關(guān)鍵詞集topKeyWords,相近文本集similarDocuments,要提取的相關(guān)詞個(gè)數(shù)為x,關(guān)鍵詞相關(guān)詞允許的最大跨距為p。

      輸出:帶有相關(guān)度得分值的相關(guān)詞表。

      算法2中,computeKeyWords函數(shù)負(fù)責(zé)為關(guān)鍵詞從相近文檔中提取相關(guān)詞,其通過(guò)統(tǒng)計(jì)關(guān)鍵詞在相近文檔中p個(gè)跨距范圍內(nèi)的實(shí)詞作為候選相關(guān)詞,在統(tǒng)計(jì)結(jié)束后,對(duì)于每個(gè)相關(guān)詞而言,若其出現(xiàn)的頻率為f,與ki的距離算術(shù)均值為g,則使用式(1)計(jì)算其與關(guān)鍵詞的相關(guān)度得分s:得到當(dāng)前關(guān)鍵詞的相關(guān)詞列表后,按得分值倒序排列,依次取x個(gè)詞組成最終相關(guān)詞列表并進(jìn)行分值歸一化處理后返回。在遍歷完關(guān)鍵詞集后,可以得到所有關(guān)鍵詞的相關(guān)詞集合。

      因每個(gè)關(guān)鍵詞在輸入文檔中的關(guān)鍵程度不同,則其相關(guān)詞對(duì)輸入文檔摘要句的指示作用也應(yīng)存在差異,在算法中使用關(guān)鍵詞與相關(guān)詞得分的乘積作為相關(guān)詞的最終得分。

      2.2基于關(guān)鍵詞擴(kuò)展的文摘句抽取

      在獲取輸入文檔的關(guān)鍵詞集K及其相關(guān)詞集T后,基于這些詞對(duì)文摘句的指示作用來(lái)抽取文摘句,具體方法是:通過(guò)計(jì)算句子S包含關(guān)鍵詞及擴(kuò)展詞的個(gè)數(shù)以及這些詞的得分來(lái)確定文摘候選句權(quán)重的大小。句子S的權(quán)重值Sscore計(jì)算公式如下:

      其中,lw為關(guān)鍵詞或擴(kuò)展詞詞長(zhǎng);ls為當(dāng)前句長(zhǎng);vw為關(guān)鍵詞或擴(kuò)展詞的得分值。

      3 系統(tǒng)實(shí)現(xiàn)與實(shí)驗(yàn)分析

      3.1中文新聞文本自動(dòng)摘要系統(tǒng)的實(shí)現(xiàn)

      基于前文描述的思路及相關(guān)算法,本文采用C# 4.0編程語(yǔ)言實(shí)現(xiàn)了一套中文新聞文本自動(dòng)摘要系統(tǒng),主界面如圖2所示。

      Fig.2  Automatic summarization system for Chinese news text圖2 中文新聞文本自動(dòng)摘要系統(tǒng)

      3.2實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      3.2.1參與評(píng)測(cè)的文摘抽取算法

      為檢驗(yàn)算法的有效性以及最終抽取的摘要結(jié)果質(zhì)量,選取基于關(guān)鍵詞的文摘抽取算法、TextRank算法和Manifold Ranking算法作為實(shí)驗(yàn)的Baseline。其中,基于關(guān)鍵詞的算法根據(jù)句子包含關(guān)鍵詞數(shù)目的多少來(lái)確定文摘句,是一種機(jī)械式方法;TextRank算法為無(wú)指導(dǎo)的圖排序方法;Manifold Ranking算法為有指導(dǎo)的圖排序方法。后兩種算法具備較好的代表性,取得了相對(duì)較好的實(shí)驗(yàn)結(jié)果[6,8]。

      3.2.2實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)以新浪2012年共150 366篇新聞?wù)Z料作為語(yǔ)料支撐(http://news.sina.com.cn),采用NLPIR2015分詞和抽取關(guān)鍵詞。在評(píng)測(cè)過(guò)程中,為保證數(shù)據(jù)的科學(xué)性,從23家網(wǎng)絡(luò)或報(bào)紙媒體采集了2014年10月27日至11月4日期間共341篇新聞文本作為候選參評(píng)語(yǔ)料,在剔除句子總數(shù)小于5個(gè)以及一些視頻、訪談或花邊娛樂(lè)新聞后,取100篇新聞參與文本摘要自動(dòng)摘取測(cè)試,這100篇新聞涉及政治、法律、反恐、環(huán)境治理、自然災(zāi)害、官員貪腐、疾病防治等多個(gè)主題。在實(shí)驗(yàn)之前,對(duì)這100篇新聞進(jìn)行了預(yù)處理,包括去除網(wǎng)絡(luò)標(biāo)記符、統(tǒng)一編碼格式和人工輔助的文本校對(duì)與斷句等。之后,組織了4位具有碩士以上學(xué)歷的不同領(lǐng)域人員對(duì)上述100篇新聞抽取摘要。在摘要處理時(shí),根據(jù)中文新聞撰寫風(fēng)格要求盡量保留新聞首句作為文摘句,且不允許對(duì)摘錄的句子進(jìn)行人工修改,經(jīng)測(cè)試后確定摘要句抽取比例為原文句子數(shù)的30%,當(dāng)句子數(shù)不是整數(shù)時(shí),取其整數(shù)的上邊界數(shù)為摘要句個(gè)數(shù)。最后得到了4份共400篇摘要結(jié)果作為參考摘要。

      3.2.3評(píng)測(cè)方法及工具

      文本自動(dòng)摘要結(jié)果的評(píng)價(jià),比較著名的是由Lin[17]提出的基于n-gram共現(xiàn)的ROUGE(recall oriented understudy for gisting evaluation)評(píng)測(cè)方法。該方法的評(píng)測(cè)結(jié)果與人工評(píng)測(cè)結(jié)果具有良好的相關(guān)性,并且更加客觀,已成為文摘評(píng)價(jià)技術(shù)的通用標(biāo)準(zhǔn)之一[18]。目前基于ROUGE的文本自動(dòng)摘要評(píng)價(jià)對(duì)象以及相應(yīng)的參考摘要集多為基于英文的文本,還沒(méi)有一個(gè)公開可用的中文新聞文本評(píng)價(jià)工具和評(píng)價(jià)集,也沒(méi)有一個(gè)適用于中文文摘評(píng)價(jià)的ROUGE工具集。而如果使用人工打分的方式進(jìn)行摘要結(jié)果的評(píng)測(cè),不可避免地會(huì)帶來(lái)較大的主觀性。

      本文在深入研究ROUGE評(píng)價(jià)原理及工具的基礎(chǔ)上,開發(fā)了相應(yīng)的中文新聞文本ROUGE評(píng)價(jià)工具,如圖3所示。

      Fig.3  ROUGE evaluation tool for Chinese news text automatic summarization圖3 中文新聞文本自動(dòng)摘要ROUGE評(píng)價(jià)工具

      在評(píng)測(cè)過(guò)程中,使用Rouge-1、Rouge-2兩種評(píng)價(jià)指標(biāo)來(lái)考察每種算法抽取文摘的質(zhì)量。在計(jì)算得分值時(shí),實(shí)驗(yàn)以是否包含新聞首句,是否以實(shí)詞(詞性標(biāo)注結(jié)果為動(dòng)詞、名詞或形容詞的詞)為統(tǒng)計(jì)指標(biāo)進(jìn)行組合,從4個(gè)角度對(duì)比考察各種方法的實(shí)際效果。在基于TextRank和Manifold Ranking算法中,依據(jù)句子間重疊的實(shí)詞個(gè)數(shù)來(lái)測(cè)量相似度大小[19],其中在TextRank算法中圖節(jié)點(diǎn)間插入邊的條件是句子相似度值大于0.05[4];在Manifold Ranking算法中,取新聞文本的首句作為流形排序的指導(dǎo)句。

      3.2.4評(píng)測(cè)結(jié)果分析

      在新聞文本中,首句往往是新聞的導(dǎo)語(yǔ),涵蓋相對(duì)較多的新聞要素,并對(duì)全文起著提綱挈領(lǐng)的作用;同時(shí),在句子中實(shí)詞相對(duì)而言更能表達(dá)文本的意義。在實(shí)驗(yàn)評(píng)測(cè)中,基于上述評(píng)測(cè)數(shù)據(jù)和方法,以是否包含首句,是否僅統(tǒng)計(jì)實(shí)詞作為分類方法,將所有機(jī)器摘要與人工摘要的Rouge-1、Rouge-2得分情況數(shù)據(jù)進(jìn)行匯總。其中,KW-Based、KWE-Based、TRBased和MFR-Based分別代表基于關(guān)鍵詞、基于關(guān)鍵詞擴(kuò)展、基于TextRank和基于Manifold Ranking的方法,Refer-1、Refer-2、Refer-3、Refer-4分別代表4份人工制定的參考摘要。下文首先針對(duì)參考摘要進(jìn)行評(píng)測(cè),以確保參考摘要的質(zhì)量;其次分析基于關(guān)鍵詞擴(kuò)展方法取得的摘要結(jié)果;最后分別就該方法與其他3種方法進(jìn)行對(duì)比實(shí)驗(yàn),并進(jìn)行總結(jié)。

      (1)對(duì)參考摘要的評(píng)測(cè)。文本的難度以及人們不同的認(rèn)知背景會(huì)對(duì)參考摘要的質(zhì)量帶來(lái)較大的影響,為確保參考摘要集具備較好的穩(wěn)定性和參考價(jià)值,分別選取4份參考摘要以全部參考摘要集為對(duì)象,進(jìn)行Roug-1和Rouge-2的評(píng)測(cè)。從表1的數(shù)據(jù)可以看出,4份摘要在不同的測(cè)試條件和評(píng)測(cè)指標(biāo)中,均保持了較好的穩(wěn)定性,表明了本文人工制定的4份中文新聞文本摘要具備較好的參考價(jià)值。

      (2)基于關(guān)鍵詞擴(kuò)展的方法。本文方法取得的文摘質(zhì)量評(píng)測(cè)結(jié)果如表2所示。從結(jié)果來(lái)看,在摘要結(jié)果中包含首句,當(dāng)不考慮詞性時(shí),兩種評(píng)測(cè)指標(biāo)均取得了較好的得分值,而當(dāng)去除虛詞時(shí),得分出現(xiàn)較為明顯的跌落。同時(shí),在不同條件下采用不同的評(píng)測(cè)方式,最高得分與最低得分之間差距十分明顯,高達(dá)約33.0個(gè)百分點(diǎn),約占最高得分值的42.8%,并接近于最低得分值。

      (3)與基于關(guān)鍵詞的方法相比。基于關(guān)鍵詞的方法是一種簡(jiǎn)單的未經(jīng)擴(kuò)展的文摘抽取方法,其各項(xiàng)評(píng)測(cè)分值如表3所示。可以看出,基于關(guān)鍵詞的方法得分要低于表2中基于關(guān)鍵詞擴(kuò)展方法的各項(xiàng)得分,且當(dāng)采用不同的條件及評(píng)測(cè)方式時(shí),基于關(guān)鍵詞的方法最高得分與最低得分值間的差異高達(dá)38.6個(gè)百分點(diǎn),這種方式抽取的摘要在穩(wěn)定性上表現(xiàn)較差,摘要結(jié)果與人工摘要結(jié)果差異較大。不難發(fā)現(xiàn),基于關(guān)鍵詞擴(kuò)展的方法要明顯優(yōu)于僅基于關(guān)鍵詞的方法。

      (4)與基于TextRank的方法相比。基于TextRank的方法取得的結(jié)果如表4所示。與基于關(guān)鍵詞擴(kuò)展的方法相比,兩者各項(xiàng)得分值相差不大,但基于關(guān)鍵詞擴(kuò)展的方法要略優(yōu)。在不同的條件下采用不同的評(píng)測(cè)方式,TextRank方法最高值與最低值間的差異約為34.2個(gè)百分點(diǎn),在穩(wěn)定性上比基于關(guān)鍵詞擴(kuò)展的方法低1.2個(gè)百分點(diǎn)。

      (5)與基于Manifold Ranking的方法相比?;贛anifold Ranking的方法取得的文摘評(píng)測(cè)結(jié)果如表5所示。在Rouge-1和Rouge-2評(píng)測(cè)中,該方法得分值均低于基于關(guān)鍵詞擴(kuò)展的方法。在不同的條件下采用不同的評(píng)測(cè)方式,Manifold Ranking方法最高值與最低值間的差異約為31.0個(gè)百分點(diǎn),在整體穩(wěn)定性上表現(xiàn)最佳。經(jīng)仔細(xì)分析發(fā)現(xiàn),在實(shí)驗(yàn)中基于Manifold Ranking的方法選擇了新聞的首句作為指導(dǎo)句,而新聞首句往往對(duì)全文起著提綱挈領(lǐng)的作用,在Manifold Ranking迭代計(jì)算時(shí)無(wú)論是否要求在結(jié)果中包含首句,總會(huì)受到新聞首句的影響,這就保證了不會(huì)出現(xiàn)極差的文摘抽取結(jié)果,從而在穩(wěn)定性上表現(xiàn)較好。

      Table 1  ROUGE evaluation score of four reference summaries表1  4份參考摘要的ROUGE評(píng)測(cè)得分

      Table 2  Evaluation results of KWE-Based表2 基于關(guān)鍵詞擴(kuò)展方法的摘要評(píng)測(cè)結(jié)果

      Table 3  Evaluation results of KW-Based表3 基于關(guān)鍵詞方法的摘要結(jié)果評(píng)測(cè)

      Table 4  Evaluation results of TR-Based表4 基于TextRank方法的摘要評(píng)測(cè)結(jié)果

      Table 5  Evaluation results of MFR-Based表5 基于Manifold Ranking方法的摘要評(píng)測(cè)結(jié)果

      3.2.5結(jié)論

      本文采用不同的方法作為對(duì)比參考,使用多個(gè)評(píng)測(cè)指標(biāo)對(duì)基于關(guān)鍵詞擴(kuò)展的方法進(jìn)行了全面的測(cè)試。從評(píng)測(cè)結(jié)果可以得到以下結(jié)論:

      (1)基于關(guān)鍵詞擴(kuò)展的文本自動(dòng)摘要方法在Rouge-1、Rouge2評(píng)測(cè)中,取得了優(yōu)于基于關(guān)鍵詞、TextRank和Manifold Ranking方法的結(jié)果;在穩(wěn)定性上,得益于新聞首句的指導(dǎo)作用,Manifold Ranking方法略占優(yōu)勢(shì),但本文方法與基于關(guān)鍵詞和基于Text-Rank方法相比依然較好。

      (2)首句對(duì)新聞文本的摘要質(zhì)量影響較大,是否包含首句會(huì)為各種方法的文摘評(píng)測(cè)結(jié)果帶來(lái)至少10個(gè)百分點(diǎn)的得分差異;在Rouge-1、Rouge-2評(píng)測(cè)中,是否僅考慮實(shí)詞也會(huì)為評(píng)測(cè)結(jié)果帶來(lái)5到10個(gè)百分點(diǎn)的得分差異??梢哉J(rèn)為,新聞文本首句對(duì)文摘質(zhì)量影響較大,同時(shí)是否考慮詞性也會(huì)影響對(duì)文摘結(jié)果的評(píng)測(cè)。

      (3)無(wú)論采用何種評(píng)測(cè)方式,機(jī)器摘要與人工摘要間的差距還是比較明顯的,幾種算法在抽取文摘結(jié)果質(zhì)量的穩(wěn)定性上還需要進(jìn)一步加強(qiáng)。

      4 結(jié)束語(yǔ)

      本文設(shè)計(jì)了一種快速提取相近文本的方法,設(shè)計(jì)了基于背景語(yǔ)料的關(guān)鍵詞擴(kuò)展及融合方法,并基于關(guān)鍵詞的擴(kuò)展實(shí)現(xiàn)了一套中文新聞文本自動(dòng)摘要系統(tǒng);為評(píng)測(cè)方法抽取文摘的有效性,為100篇新聞制定了4份標(biāo)準(zhǔn)的人工摘要作為評(píng)測(cè)集,并設(shè)計(jì)開發(fā)了適用于中文新聞文本摘要的ROUGE評(píng)價(jià)工具,最后進(jìn)行了文摘抽取實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比分析。研究表明,通過(guò)從大規(guī)模語(yǔ)料中提取與輸入文檔主題相近的文本組成背景語(yǔ)料,并基于這些背景語(yǔ)料對(duì)輸入文檔的關(guān)鍵詞進(jìn)行擴(kuò)展融合,能夠進(jìn)一步增強(qiáng)關(guān)鍵詞對(duì)文摘句的指示作用,并取得相對(duì)較好的文摘結(jié)果。下一步,將在各種方法的融合上開展進(jìn)一步的研究,并嘗試在短文本摘要領(lǐng)域以及其他語(yǔ)種文本自動(dòng)摘要領(lǐng)域進(jìn)行新的探索。

      References:

      [1] Nenkova A. Automatic text summarization of newswire: lessons learned from the document understanding conference[C]//Proceedings of the 20th National Conference on Artificial Intelligence and the 17th Innovative Applications of Artificial Intelligence Conference, Pittsburgh, USA, Jul 9-13, 2005. Cambridge, USA: MIT Press, 2005: 1436-1441.

      [2] Jones K S. Automatic summarizing: the state of the art[J]. Information Processing and Management, 2007, 43(6): 1449-1481.

      [3] Elfayoumy S, Thoppil J. A survey of unstructured text summarization techniques[J]. International Journal of Advanced Computer Science and Applications, 2014, 5(4): 149-154.

      [4] Wan Xiaojun, Yang Jianwu, Xiao Jianguo. Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, Prague, Czech Republic, Jun 23-30, 2007. Stroudsburg, USA:ACL, 2007: 552-559.

      [5] Xie Hao, Sun Wei. Paragraph-sentence mutual reinforcement based automatic summarization algorithm[J]. Computer Science, 2013, 40(11A): 246-250.

      [6] Mihalcea R, Tarau P. TextRank: bringing order into texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain, Jul 25-26, 2004. Stroudsburg, USA:ACL, 2004: 404-411.

      [7] Gunes E, Radev D R. LexRank: graph-based lexical centrality as salience in text summarization[J]. Journal of Artificial Intelligence Research, 2004, 22(1): 457-479.

      [8] Wan Xiaojun, Yang Jianwu, Xiao Jianguo. Manifold-ranking based topic-focused multi-document summarization[C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad, India, Jan 6-12, 2007. Berlin, Heidelberg: Springer, 2007: 2903-2908.

      [9] Zhu Xiaojin, Goldberg A, van Gael J, et al. Improving diversity in ranking using absorbing random walks[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, New York, USA, Apr 22-27, 2007. Stroudsburg, USA:ACL, 2007: 97-104.

      [10] Liu Tongtong. The research and implementation of the Page-Rank algorithm with the correlation[D]. Haikou: Hainan University, 2009.

      [11] Deng Hongbo, Lyu M R, King I.Ageneralized co-HITS algorithm and its application to bipartite graphs[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, Jun 28-Jul 1, 2009. New York, USA:ACM, 2009: 239-248.

      [12] Louis A. A Bayesian method to incorporate background knowledge during automatic text summarization[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, USA, Jun 22-27, 2014. Stroudsburg, USA:ACL, 2014: 333-338.

      [13] Reddy P V, Vardhan B V, Govardhan A A. Corpus based extractive document summarization for indic script[C]//Proceedings of the 2011 International Conference on Asian Lan-guage Processing, Penang, Malaysia, Nov 15- 17, 2011. Washington, USA: IEEE Computer Society, 2011: 154-157.

      [14] Pourvali M. A new graph based text segmentation using Wikipedia for automatic text summarization[J]. International Journal of Advanced Computer Science and Applications, 2012, 3(1): 35-39.

      [15] Delort J Y, Bouchon-Meunier B, Rifqi M. Enhanced Web document summarization using hyperlinks[C]//Proceedings of the 14th ACM Conference on Hypertext and Hypermedia, Nottingham, UK, Aug 26-30, 2003. New York, USA: ACM, 2003: 208-215.

      [16] Sun Jiantao, Shen Dou, Zeng Huajun, et al. Web-page summarization using clickthrough data[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Salvador, Brazil, Aug 15-19, 2005. New York, USA:ACM, 2005:194-201.

      [17] Lin C Y. ROUGE: a package for automatic evaluation of summaries[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, Jul 21-26, 2004. Stroudsburg, USA:ACL, 2004: 74-81.

      [18] Ng J P, Bysani P, Lin Ziheng, et al. Exploiting categoryspecific information for multi-document summarization[C]// Proceedings of the 24th International Conference on Computational Linguistics, Mumbai, India, Dec 8-15, 2012: 2093-2108.

      [19] Zhang Peiying. Model for sentence similarity computing based on multi-features combination[J]. Computer Engineering and Applications, 2010, 46(26): 136-137.

      附中文參考文獻(xiàn):

      [5]謝浩,孫偉.基于段落-句子互增強(qiáng)的自動(dòng)文摘算法[J].計(jì)算機(jī)科學(xué), 2013, 40(11A): 246-250.

      [10]劉彤彤.融入了相關(guān)性的PageRank算法的研究與實(shí)現(xiàn)[D].???海南大學(xué), 2009.

      [19]張培穎.多特征融合的語(yǔ)句相似度計(jì)算模型[J].計(jì)算機(jī)工程與應(yīng)用, 2010, 46(26): 136-137.

      LI Feng was born in 1982. He received the Ph.D. degree in computational linguistics from PLA University of Foreign Languages in 2012. Now he is a postdoctoral fellow at School of Computer Science and Engineering, Beihang University. His research interests include natural language processing, big data analytics and corpus linguistics, etc.李峰(1982—),男,河南固始人,2012年于解放軍外國(guó)語(yǔ)學(xué)院計(jì)算語(yǔ)言學(xué)專業(yè)獲得博士學(xué)位,現(xiàn)為北京航空航天大學(xué)計(jì)算機(jī)學(xué)院博士后,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,大數(shù)據(jù)分析,語(yǔ)料庫(kù)語(yǔ)言學(xué)等。

      HUANG Jinzhu was born in 1980. He is a Ph.D. candidate at PLA University of Foreign Languages. His research interests include natural language processing and knowledge base construction, etc.黃金柱(1980—),男,新疆鄯善人,解放軍外國(guó)語(yǔ)學(xué)院博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,知識(shí)庫(kù)建設(shè)等。

      LI Zhoujun was born in 1963. He received the Ph.D. degree in computer science and technology from National University of Defense Technology in 1999. Now he is a professor and Ph.D. supervisor at Beihang University, and the member of CCF, EATCS, IEEE and ACM. His research interests include natural language processing, information security and big dada analysis, etc.李舟軍(1963—),男,湖南湘鄉(xiāng)人,1999年于國(guó)防科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)獲得博士學(xué)位,現(xiàn)為北京航空航天大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員、歐洲理論計(jì)算機(jī)科學(xué)學(xué)會(huì)(EATCS)會(huì)員、IEEE會(huì)員、ACM會(huì)員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,信息安全,大數(shù)據(jù)分析等。

      YANG Weiming was born in 1982. He received the M.S. degree in human geography from PLA Information Engineering University in 2006. His research interests include knowledge base construction and geospatial data mining, etc.楊偉銘(1982—),男,江西鷹潭人,2006年于解放軍信息工程大學(xué)獲得人文地理學(xué)碩士學(xué)位,主要研究領(lǐng)域?yàn)橹R(shí)庫(kù)建設(shè),地理信息數(shù)據(jù)挖掘等。

      Automatic Summarization Method of News Texts Using Keywords Expansion?

      LI Feng1,2+, HUANG Jinzhu3, LI Zhoujun1, YANG Weiming2
      1. School of Computer Science and Engineering, Beihang University, Beijing 100191, China
      2. Logistics Science Research Institute of PLA, Beijing 100166, China
      3. Department of Language Engineering, PLAUniversity of Foreign Languages, Luoyang, Henan 471003, China
      + Corresponding author: E-mail: li_bopr@126.com

      LI Feng, HUANG Jinzhu, LI Zhoujun, et al. Automatic summarization method of news texts using keywords expansion. Journal of Frontiers of Computer Science and Technology, 2016, 10(3): 372-380.

      Abstract:This paper proposes an automatic summarization method of news texts using keywords expansion. This method extracts texts with similar topics from large-scale data for input text to form background data, and based on background data this method makes keywords expansion so that keywords can play more important role in guiding summary sentences and consequently improves the quality of news text summarization. The study and experiments show that the results obtained in Rouge-1 and Rouge-2 evaluations are better than those of methods based on keyword, TextRank and Manifold Ranking. This paper constructs a Chinese evaluation set which covers 100 news texts divided into 4 groups, and also develops keyword-based Chinese news text automatic summarization system and Chinese news text automatic evaluation system based on ROUGE theory. Through these systems, the theory put forward in the paper is realized and tested successfully.

      doi:10.3778/j.issn.1673-9418.1509085

      文獻(xiàn)標(biāo)志碼:A

      中圖分類號(hào):TP391

      猜你喜歡
      評(píng)測(cè)語(yǔ)料文摘
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
      IAPA文摘
      攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
      Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
      文摘
      寶藏(2017年2期)2017-03-20 13:16:46
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      会同县| 阳西县| 咸阳市| 宜宾县| 清新县| 五原县| 祁连县| 玛曲县| 定南县| 台北市| 济宁市| 金平| 分宜县| 岑巩县| 怀柔区| 沛县| 东乡县| 天等县| 西畴县| 海淀区| 石狮市| 通城县| 南江县| 犍为县| 金堂县| 大英县| 云阳县| 定安县| 五华县| 海南省| 客服| 兴海县| 牟定县| 甘肃省| 浦县| 永修县| 崇阳县| 南阳市| 冀州市| 会宁县| 桂阳县|