侯圣巒,張書涵,費(fèi)超群
(1. 中國科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049)
文本摘要任務(wù)旨在從一篇或多篇相同主題的文本中抽取能夠反映主題的精簡壓縮版本[1-2],可以幫助用戶快速形成對(duì)特定主題文本內(nèi)容的全面了解,提高瀏覽信息和獲取知識(shí)的效率。隨著互聯(lián)網(wǎng)上文本數(shù)量的爆炸式增長,對(duì)文本摘要的需求也越來越大,近十幾年來,許多準(zhǔn)確而高效的文本摘要算法被提出。
文本摘要方法的分類方式有多種。根據(jù)輸入文本的數(shù)量,文本摘要方法可以分為單文本摘要方法和多文本摘要方法。根據(jù)不同的標(biāo)準(zhǔn),文本摘要方法又有不同的分類體系。表1總結(jié)了現(xiàn)有的主流文本摘要方法分類體系,可以看出,針對(duì)不同的文本摘要任務(wù)需求可以使用不同的方法,以達(dá)到更好的效果。
已有工作都通過特定數(shù)據(jù)集來訓(xùn)練和評(píng)估提出方法的性能,有些使用公用數(shù)據(jù)集,有些數(shù)據(jù)集則是作者根據(jù)互聯(lián)網(wǎng)上的文本資源自建的。目前關(guān)于文本摘要綜述的文獻(xiàn)較多[2-4],但多是針對(duì)不同類別方法,從不同維度的分析,缺少對(duì)方法用到的實(shí)驗(yàn)數(shù)據(jù)集的總結(jié)描述。另一方面,雖然已有少量工作面向跨語言的文本摘要方法研究[5],但仍處于初步階段。已有綜述文獻(xiàn)主要是對(duì)于英文文本摘要方法的總結(jié)綜述,缺少對(duì)中文文本摘要方法的綜述和面向英文文本摘要方法對(duì)中文文本的可適用性分析。
表1 主流文本摘要方法分類體系
本文從文本摘要相關(guān)技術(shù)和所用到的數(shù)據(jù)集出發(fā),對(duì)已有工作進(jìn)行調(diào)研,總結(jié)了目前常用的數(shù)據(jù)集和方法。我們將文本摘要常用數(shù)據(jù)集分為兩種,一種是公用的、專門用于測試文本摘要方法性能的數(shù)據(jù)集,我們稱之為公用數(shù)據(jù)集;另一種是在文獻(xiàn)中作者為驗(yàn)證方法獨(dú)立構(gòu)建的數(shù)據(jù)集,我們稱之為自建數(shù)據(jù)集。本文內(nèi)容主要包括以下幾個(gè)方面:
(1) 文本摘要常用數(shù)據(jù)集總結(jié)。
? 對(duì)于公用數(shù)據(jù)集,包括來源、語言、規(guī)模和獲取方式等;
? 對(duì)于自建數(shù)據(jù)集,包括來源、規(guī)模、獲取方式和標(biāo)注方法。
(2) 對(duì)于每一種公用數(shù)據(jù)集,給出了文本摘要問題的形式化定義,并對(duì)經(jīng)典和最新方法進(jìn)行綜述。選定一種數(shù)據(jù)集,對(duì)已有方法在該數(shù)據(jù)集上的實(shí)驗(yàn)效果進(jìn)行了總結(jié)分析。
(3) 總結(jié)了現(xiàn)有常用數(shù)據(jù)集和對(duì)應(yīng)方法的研究現(xiàn)狀、存在的問題。
本文剩余部分組織結(jié)構(gòu)如下: 第1節(jié)是文本摘要常用數(shù)據(jù)集總體概覽;第2~8節(jié)是常用公用數(shù)據(jù)集的介紹及在該數(shù)據(jù)集上幾種典型方法的詳述;第9節(jié)是對(duì)自建數(shù)據(jù)集及對(duì)應(yīng)方法的綜述;第10節(jié)總結(jié)了經(jīng)典算法和最新方法用到的數(shù)據(jù)集;第11節(jié)分析了經(jīng)典方法在數(shù)據(jù)集上的實(shí)驗(yàn)效果;最后一節(jié)總結(jié)了發(fā)展趨勢,指出了存在的問題。
文本摘要常用數(shù)據(jù)集包括兩部分: 一是公用數(shù)據(jù)集,二是作者自建數(shù)據(jù)集。本節(jié)總結(jié)了中英文文本摘要中常用公用數(shù)據(jù)集,這些數(shù)據(jù)集的概覽如表2所示。
表2 中英文文本摘要方法中常用公用數(shù)據(jù)集概覽
從表2可知,面向英文的文本摘要方法中用到的公用數(shù)據(jù)集較多,面向中文文本摘要方法的公用數(shù)據(jù)集包括兩個(gè): LCSTS和NLPCC,且都是用于生成式摘要方法的性能測評(píng)。
從適用方法來看,已有公用數(shù)據(jù)集大都用于單文本摘要方法。DUC/TAC可以用于普通文本的多文本摘要方法,Amazon SNAP Review Dataset常用于評(píng)論和情感的多文本摘要方法。
就摘要方式來說,用于生成式摘要方法的數(shù)據(jù)集較多。為了解決抽取式摘要方法缺少訓(xùn)練數(shù)據(jù)的問題,已有方法通常將用于生成式文本摘要的數(shù)據(jù)集進(jìn)行簡單轉(zhuǎn)換,例如,Cheng等[6]將CNN/Daily Mail數(shù)據(jù)集中的每篇文本中句子與生成式摘要句計(jì)算匹配度,匹配度較高的句子作為抽取式摘要句,構(gòu)成抽取式摘要方法的數(shù)據(jù)集。
諸多工作嘗試深度神經(jīng)網(wǎng)絡(luò)模型在文本摘要中的應(yīng)用。但由于深度學(xué)習(xí)模型復(fù)雜,待學(xué)習(xí)參數(shù)較多,因此需要較大規(guī)模的訓(xùn)練數(shù)據(jù)。Gigaword、CNN/Daily Mail、LCSTS等都是十萬級(jí)規(guī)模,可滿足深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的需求。
文本理解會(huì)議(Document Understanding Conference,DUC)[注]http://duc.nist.gov/主要面向英文文本摘要的評(píng)估,從2001年到2007年每年發(fā)布1次測評(píng)數(shù)據(jù)集。從2008年開始,DUC成為了文本分析會(huì)議(Text Analysis Conference,TAC)[注]http://www.nist.gov/tac/中的一個(gè)文本摘要任務(wù)。自2003年起,DUC/TAC主要面向多文本摘要任務(wù),所以對(duì)單文本摘要方法來說,測試數(shù)據(jù)集更少。
TAC2014提出了面向生物醫(yī)學(xué)領(lǐng)域的科技文獻(xiàn)文本摘要任務(wù),其余DUC/TAC數(shù)據(jù)集面向新聞?lì)愇谋菊蝿?wù)。此處我們隨機(jī)選擇DUC2004和TAC2009數(shù)據(jù)集進(jìn)行分析: DUC2004包括單文本摘要和多文本摘要兩個(gè)任務(wù),其中單文本摘要任務(wù)包括500篇文本;多文本摘要任務(wù)包括50個(gè)文本簇,每一個(gè)文本簇中有10篇文本。TAC2009中的多文本摘要任務(wù)數(shù)據(jù)集包括44個(gè)主題,每個(gè)主題有兩個(gè)文本集,分別包括10篇新聞文本,用于文本摘要生成。
從以上分析可知,DUC/TAC是人工標(biāo)注的生成式摘要數(shù)據(jù)集。由于DUC/TAC數(shù)據(jù)集在百篇規(guī)模,不適用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,常用于傳統(tǒng)文本摘要方法的性能評(píng)估。
定義1 DUC/TAC數(shù)據(jù)集上的文本摘要
給定k(0 (1) 單文本摘要。對(duì)于Ti中的每一篇文本Dj(0 (2) 多文本摘要。對(duì)于每一個(gè)Ti,生成內(nèi)容覆蓋Ti中所有重要文本信息,并且長度限制在L_m的摘要。 (3) 面向查詢的摘要。對(duì)于每一個(gè)Ti,生成可以回答問題Q并且長度限制在L_q的摘要。其中Q是例如“Who is X?”形式的問題。 □ 經(jīng)典的DUC/TAC數(shù)據(jù)集上的方法主要包括基于圖模型的方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法。 基于圖模型的方法是將文本單元(如句子或者詞)作為節(jié)點(diǎn),文本單元間關(guān)系作為邊構(gòu)建圖模型,通過圖挖掘等算法從圖中抽取重要成分組成摘要。典型方法包括LexRank[1]和TextRank[7]。 LexRank將句子作為節(jié)點(diǎn)、句子間的語義相似關(guān)系作為邊構(gòu)建圖模型。從圖模型中根據(jù)節(jié)點(diǎn)間的邊及權(quán)重抽取重要句子作為摘要句。LexRank在DUC2003和DUC2004上測試了方法的性能。 TextRank的基本思想則是PageRank[8],通過對(duì)待處理文本建立圖模型,利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序。TextRank可以用于關(guān)鍵詞提取和摘要句的抽取。其優(yōu)點(diǎn)是簡潔高效,不需要事先對(duì)模型進(jìn)行訓(xùn)練,屬于一種無監(jiān)督方法。Text-Rank在DUC2002上驗(yàn)證了方法的有效性。 Baralis等[9]提出了一種改進(jìn)的算法GraphSum。GraphSum利用關(guān)聯(lián)規(guī)則挖掘來計(jì)算句子間的相似度,然后構(gòu)建文本摘要圖模型,利用PageRank算法迭代計(jì)算得到摘要句。在DUC2004數(shù)據(jù)集上取得了更好的效果。 雖然LexRank和TextRank在英文文本數(shù)據(jù)集上進(jìn)行了性能評(píng)估,但同樣適用于中文文本摘要的提取。由于缺少面向中文的公用數(shù)據(jù)集,面向中文的基于圖模型的方法都采用自建數(shù)據(jù)集進(jìn)行方法測評(píng),具體方法將在第9節(jié)詳述。 隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展和在自然語言處理等各個(gè)領(lǐng)域的成功應(yīng)用,越來越多的工作將機(jī)器學(xué)習(xí)算法應(yīng)用到文本摘要中。本文將利用樸素貝葉斯、支持向量機(jī)等理論的文本摘要方法歸為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,將利用深度神經(jīng)網(wǎng)絡(luò)模型的文本摘要方法歸為基于深度學(xué)習(xí)的方法。其中,基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本摘要方法效果取決于特征提取、模型選擇及訓(xùn)練數(shù)據(jù)規(guī)模。 Gillick和Favre[10]將多文本摘要看成優(yōu)化問題,利用整數(shù)線性規(guī)劃構(gòu)建文本摘要模型。實(shí)驗(yàn)結(jié)果表明,在TAC2008數(shù)據(jù)集上利用二元詞組(bigram)特征較利用一元詞組(unigram)和三元詞組(trigram)特征的效果更好。 為了取得更好效果,F(xiàn)attah[11]結(jié)合多種機(jī)器學(xué)習(xí)模型,考慮以下幾種特征: 詞的相似度、文本格式、中心段、整篇文本中詞頻統(tǒng)計(jì)分值、標(biāo)題、句子位置和無關(guān)信息是否出現(xiàn)等,并利用這些特征提出了一種結(jié)合最大熵、樸素貝葉斯分類器和支持向量機(jī)三種模型的多文本摘要方法。由于每個(gè)模型都可以看成是一個(gè)二分類器,通過引入聯(lián)合概率分布函數(shù)來判斷句子的重要程度,最后實(shí)現(xiàn)了一種基于混合機(jī)器學(xué)習(xí)模型的多文本摘要方法。方法在DUC2001和DUC2002數(shù)據(jù)集上取得了較好效果,但缺點(diǎn)在于方法的復(fù)雜度太高。 Gigaword[注]https://catalog.ldc.upenn.edu/ldc2003t05是一個(gè)由英文新聞文章組成的數(shù)據(jù)集,共包括接近950萬來自紐約時(shí)報(bào)(New York Times)等多個(gè)新聞源的新聞?wù)Z料,其中部分文章包含一句話的簡短新聞提要(headline)。將新聞提要與文章的首句話組成生成式摘要平行語料庫,用于深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練與測試。Gigaword用于生成式文本摘要方法的數(shù)據(jù)規(guī)模見表3。 表3 Gigaword數(shù)據(jù)集規(guī)模 定義2 Gigaword數(shù)據(jù)集上的文本摘要 給定文本集D,包含k個(gè)英文新聞?lì)愇谋菊獙?duì) □ 在Gigaword數(shù)據(jù)集上,Rush等[12]首次將神經(jīng)網(wǎng)絡(luò)用于生成式文本摘要,利用了“編碼器—解碼器”(encoder-decoder)模型,作者嘗試了三種“編碼”的方式: 分別是“詞袋”(bag-of-words)模型、卷積神經(jīng)網(wǎng)絡(luò)和基于“注意力”(attention)機(jī)制的方式。在Gigaword和DUC2004數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于“注意力”機(jī)制的“編碼器”效果最好。方法取得的效果使得基于深度神經(jīng)網(wǎng)絡(luò)的模型成為可能,后續(xù)工作大都基于此方法。 Chopra等[13]同樣利用“編碼器—解碼器”模型,在“解碼器”中使用一種條件循環(huán)神經(jīng)網(wǎng)絡(luò)(Conditional RNN),在Gigaword和DUC2004數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果要優(yōu)于Rush等的方法。 為進(jìn)一步提升效果,Nallapati等[14]引入了TF-IDF、命名實(shí)體等語言學(xué)特征來強(qiáng)化句子中的關(guān)鍵信息。將這些特征顯式地作為神經(jīng)網(wǎng)絡(luò)的輸入,在Gigaword和DUC2004數(shù)據(jù)集上提高了生成式文本摘要效果。同時(shí),作者在CNN/Daily Mail數(shù)據(jù)集上也進(jìn)行了方法的性能測試。 Zhou等[15]提出了一種“選擇性編碼”(selective encoding)模型,將文本摘要問題看成是一個(gè)序列標(biāo)注的任務(wù),建模的方法是基于一個(gè)已經(jīng)“編碼”好的句子,利用句子信息來判斷句中的詞是否重要,由此來構(gòu)建一個(gè)輸入句子中詞的新的表示。在Gigaword數(shù)據(jù)集上得到了較已有工作更好的效果。 Cao等[16]認(rèn)為已有方法得到的結(jié)果雖然測評(píng)結(jié)果較高,但是不夠可靠(faithful),往往無法直接用于實(shí)際應(yīng)用。為此,提出了一種提升信息量的方法: 利用Stanford CoreNLP[17]提取“主謂賓”三元組作為輸入。論文中的“編碼器—解碼器”模型包括兩個(gè)“編碼器”和一個(gè)“雙注意力”機(jī)制的“解碼器”,兩個(gè)“編碼器”分別用于句子本身和三元組的語義表示。在Gigaword數(shù)據(jù)集上的結(jié)果表明,該方法在提高“可靠性”的同時(shí),準(zhǔn)確率較已有方法也有所提升。 受傳統(tǒng)的基于模板的生成式文本摘要的啟發(fā),Cao等[18]提出了一種新的“端到端”的模型。將已有的摘要句看作是“軟模板”(soft template),作為參考來指導(dǎo)摘要的生成。提出的模型包括檢索(retrieving)、重排序(reranking)和重寫(rewriting)三個(gè)模塊,稱之為Re3Sum。 Gigaword數(shù)據(jù)集的特點(diǎn)在于原句和摘要句都是單個(gè)句子,而在實(shí)際應(yīng)用中,除了對(duì)單個(gè)句子生成摘要的情形之外,還存在對(duì)由多個(gè)句子組成的整篇文本生成摘要的情形。 與Gigaword和部分DUC/TAC數(shù)據(jù)集只包含單句話的摘要不同,CNN/Daily Mail(簡稱CNN/DM)作為單文本摘要語料庫,每篇摘要包含多個(gè)摘要句。CNN/DM最初是Hermann等[19]發(fā)布的機(jī)器閱讀理解語料庫。作者從美國有線新聞網(wǎng)(CNN)[注]https://edition.cnn.com/和每日郵報(bào)網(wǎng)(Daily Mail)[注]http://www.dailymail.co.uk/home/index.html中收集了約100萬條新聞數(shù)據(jù)作為機(jī)器閱讀理解語料庫。在CNN和Daily Mail的新聞數(shù)據(jù)中,每篇新聞包括一條或者多條人工要點(diǎn),將隱藏一個(gè)命名實(shí)體的要點(diǎn)作為填空題的問題,將新聞內(nèi)容作為回答填空題的閱讀文字。表4是語料庫的詳細(xì)統(tǒng)計(jì)信息。 表4 Hermann等[19]文獻(xiàn)中CNN/DM數(shù)據(jù)規(guī)模 Nallapati等[14]進(jìn)行簡單改動(dòng),形成用于單文本生成式摘要的語料庫。將每篇新聞的要點(diǎn)按原文中出現(xiàn)的順序組成多句的摘要,每個(gè)要點(diǎn)看成是一個(gè)句子。表5給出了用于單文本摘要的CNN/DM[注]https://github.com/deepmind/rc-data數(shù)據(jù)集規(guī)模。 表5 用于單文本摘要的CNN/DM數(shù)據(jù)集規(guī)模 定義3 CNN/DM數(shù)據(jù)集上的文本摘要 給定文本集D,包含k個(gè)文本摘要對(duì) □ 在CNN/DM數(shù)據(jù)集上,See等[20]認(rèn)為傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)用于文本摘要,在執(zhí)行序列數(shù)據(jù)計(jì)算時(shí),會(huì)存在兩個(gè)問題: 一是摘要不能準(zhǔn)確復(fù)制事實(shí)細(xì)節(jié),二是存在多次重復(fù)同樣內(nèi)容。作者提出用指針生成網(wǎng)絡(luò)(pointer-generator network)來解決問題一,利用匯聚(coverage)技術(shù)來解決問題二。這種方法在CNN/DM數(shù)據(jù)集上取得了較好的效果。 典型方法還包括Cheng和Lapata的方法[6],即一種數(shù)據(jù)驅(qū)動(dòng)的基于深度神經(jīng)網(wǎng)絡(luò)的摘要句抽取方法。這種方法面向單文本抽取式摘要任務(wù),包括一個(gè)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)的“編碼器”和基于“注意力”機(jī)制的“解碼器”,也稱為摘要提取器?;诰矸e神經(jīng)網(wǎng)絡(luò)得到句子的表示,將句子的表示作為輸入,基于循環(huán)神經(jīng)網(wǎng)絡(luò)得到文本的表示。 作者將CNN/DM數(shù)據(jù)集中的Daily Mail部分進(jìn)行了轉(zhuǎn)換,計(jì)算原文中句子與已有生成式摘要的匹配度,匹配度較高的句子作為抽取式摘要句。通過這種方式將已有數(shù)據(jù)集轉(zhuǎn)換為用于抽取式摘要的數(shù)據(jù)集。利用轉(zhuǎn)換后的數(shù)據(jù)集進(jìn)行模型訓(xùn)練和測試,同時(shí)在DUC2002數(shù)據(jù)集上進(jìn)行了方法測評(píng),取得了更好的效果。 紐約時(shí)報(bào)標(biāo)注數(shù)據(jù)集(New York Times Annotated Corpus,NYTAC)[注]https://catalog.ldc.upenn.edu/LDC2008T19/包括了從1987年1月到2007年6月的《紐約時(shí)報(bào)》大約180萬篇英文文章,其中65萬篇文章包括人工摘要。NYTAC可用于文本摘要、信息檢索和信息抽取等自然語言處理任務(wù)。 定義4 NYTAC數(shù)據(jù)集上的文本摘要 NYTAC數(shù)據(jù)集中的文本與CNN/DM數(shù)據(jù)集中的文本類似: 每篇文本對(duì)應(yīng)的摘要對(duì) □ 在NYTAC數(shù)據(jù)集上的代表性方法是Durrett等[21]的方法,即一種用于單文本摘要的判別式模型,模型基于結(jié)構(gòu)化支持向量機(jī)(structured SVM)。作者考慮了比以往方法更多的特征,通過豐富的稀疏特征來提取文本摘要。作者在兩個(gè)數(shù)據(jù)集上進(jìn)行方法訓(xùn)練和測試,從NYTAC中選取了3 000 篇文本進(jìn)行方法模型的訓(xùn)練,然后在英文修辭結(jié)構(gòu)理論標(biāo)注數(shù)據(jù)集(RST Discourse Treebank,RST-DT)[注]RST-DT是人工標(biāo)注的篇章結(jié)構(gòu)樹,共包括385篇來自華爾街日?qǐng)?bào)(Wall Street Journal,WSJ)的新聞文章,具體數(shù)據(jù)在https://catalog.ldc.upenn.edu/LDC2002T07。上進(jìn)行測試。 亞馬遜在線評(píng)論數(shù)據(jù)集(Amazon SNAP Review Dataset,ASNAPR)[注]http://snap.stanford.edu/data/web-Amazon.html包括從1995年到2013年接近0.35億用戶的評(píng)論數(shù)據(jù),每條評(píng)論數(shù)據(jù)包括用戶ID、評(píng)論內(nèi)容、評(píng)論摘要和評(píng)論時(shí)間等內(nèi)容。由于ASNAPR是商品評(píng)論數(shù)據(jù),因此都是短文本。ASNAPR數(shù)據(jù)集的特點(diǎn)是文本篇幅較短,常用于評(píng)論和情感的多文本摘要。 定義5 ASNAPR數(shù)據(jù)集上的文本摘要 給定數(shù)據(jù)集D,包含k組亞馬遜英文在線評(píng)論數(shù)據(jù)(x,y,l),其中x表示評(píng)論原文,y表示評(píng)論的摘要,l表示商品的情感標(biāo)簽。將D分成訓(xùn)練集Dtrain、驗(yàn)證集Dvalidation和測試集Dtest三部分。從Dtrain和Dvalidation中學(xué)習(xí)評(píng)論原文到評(píng)論摘要及評(píng)論原文到情感標(biāo)簽的映射,在Dtest上驗(yàn)證方法的有效性。 在ASNAPR數(shù)據(jù)集上,經(jīng)典方法包括Ma等[22]的方法。作者認(rèn)為文本摘要和情感分析都是提取文章中的主要內(nèi)容,只是提取的層次不同,他們提出了一種分層式“端到端”模型,整合文本摘要和情感分類。模型包括一個(gè)摘要層(將源文本壓縮成短句子)和一個(gè)情感分類層(給文本打一個(gè)情感類別標(biāo)簽)。這種分層結(jié)構(gòu)會(huì)使兩個(gè)任務(wù)彼此提升: 通過摘要層壓縮文本,情感分類器可以更加輕松地預(yù)測情感標(biāo)簽;同時(shí)文本摘要還能標(biāo)記出重要和有信息的詞,并移除對(duì)預(yù)測情感有害的冗余和誤導(dǎo)性信息,提升文本摘要的性能。作者從ASNAPR中選取了部分?jǐn)?shù)據(jù)(約110萬條評(píng)論),用到了每條評(píng)論中的摘要和情感標(biāo)簽元數(shù)據(jù)。 隨著微博等社交媒體軟件的普及,部分工作提出了面向社交媒體文本的文本摘要算法。由于中文社交媒體文本大都是短文本,具有篇幅較短、存在較多噪聲等特點(diǎn),傳統(tǒng)的文本摘要方法在這類文本上往往效果較差。 LCSTS(large scale Chinese short text summarization dataset)[注]http://icrc.hitsz.edu.cn/Article/show/139.html是Hu等[23]從新浪微博[注]http://weibo.com/獲取的短文本新聞?wù)獢?shù)據(jù)庫,規(guī)模超過200萬。詳細(xì)數(shù)據(jù)規(guī)模見表6。圖1是一個(gè)數(shù)據(jù)樣例,將中括號(hào)中的要點(diǎn)看成是后面一段文本新聞的摘要。 表6 LCSTS數(shù)據(jù)規(guī)模 圖1 LCSTS數(shù)據(jù)樣例 對(duì)于驗(yàn)證集和測試集,作者手工標(biāo)注了正文和標(biāo)題之間的相關(guān)性,相關(guān)性分值區(qū)間是[1,5],分值越高表示越相關(guān)。LCSTS數(shù)據(jù)集的特點(diǎn)是文本篇幅較短,并且存在噪聲。 在發(fā)布LCSTS中文數(shù)據(jù)集的同時(shí),作者提出了一種利用循環(huán)神經(jīng)網(wǎng)絡(luò)提取生成式摘要的方法,給出了在LCSTS數(shù)據(jù)集上的基準(zhǔn)方法,后續(xù)相關(guān)工作都將該方法作為基準(zhǔn)方法進(jìn)行方法效果的比較。 定義6 LCSTS數(shù)據(jù)集上的文本摘要 給定文本集D,包含k個(gè)中文短文本新聞?wù)獙?duì) □ Ma等[24]提出了一種面向中文社交媒體短文本摘要的方法。這是一種基于深度學(xué)習(xí)的抽取式摘要方法,他們提出的模型基于循環(huán)神經(jīng)網(wǎng)絡(luò)的“編碼器—解碼器”和“注意力”機(jī)制。這種方法在LCSTS數(shù)據(jù)集上的效果較Hu等[23]的方法有所提升。 自然語言處理與中文計(jì)算會(huì)議(CCF Conference on Natural Language Processing & Chinese Computing,NLPCC)是由中國計(jì)算機(jī)學(xué)會(huì)(CCF)舉辦的自然語言文本測評(píng)會(huì)議,包括文本摘要、情感分析、自動(dòng)問答等任務(wù)。NLPCC于2012年開始舉辦,每年一屆。在過去的NLPCC測評(píng)任務(wù)中, NLPCC 2015[注]http://tcci.ccf.org.cn/conference/2015/pages/page05_evadata.html、NLPCC 2017[注]http://tcci.ccf.org.cn/conference/2017/taskdata.php和NLPCC 2018[注]http://tcci.ccf.org.cn/conference/2018/taskdata.php包括文本摘要任務(wù),且都是單文本抽取式摘要。NLPCC數(shù)據(jù)集的特點(diǎn)是新聞文本不分領(lǐng)域、不分類型,篇幅相對(duì)較長。 定義7 NLPCC數(shù)據(jù)集上的文本摘要 給定文本集D,包含k個(gè)中文新聞?lì)愇谋菊獙?duì) 在NLPCC數(shù)據(jù)集上,與經(jīng)典圖模型的方法不同,莫鵬等[25]提出了一種基于超圖的文本摘要和關(guān)鍵詞生成方法。將句子作為超邊(hyperedge),將詞作為節(jié)點(diǎn)(vertice)構(gòu)建超圖(hypergraph)。利用超圖中句子與詞之間的高階信息來生成摘要和關(guān)鍵詞。方法在NLPCC2015數(shù)據(jù)集上取得較好效果。 Xu等[26]針對(duì)已有的利用極大似然估計(jì)來優(yōu)化的生成式摘要模型存在的準(zhǔn)確率低的問題,提出了一種基于對(duì)抗增強(qiáng)學(xué)習(xí)的中文文本摘要方法,提升了基于深度學(xué)習(xí)方法在中文文本摘要上的準(zhǔn)確率。方法在LCSTS和NLPCC2015數(shù)據(jù)集上進(jìn)行了測評(píng)。 LCSTS和NLPCC是目前面向中文的文本摘要公用數(shù)據(jù)集??梢宰鳛槲磥砀嗟拿嫦蛑形牡奈谋菊椒ǖ挠?xùn)練和測試數(shù)據(jù)集,同時(shí),可以在LCSTS數(shù)據(jù)集上驗(yàn)證已有面向英文的基于深度學(xué)習(xí)的方法對(duì)中文文本摘要的適用性。 由于文本摘要公用數(shù)據(jù)集較少,除了上述在公用數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試的工作之外,還有大量自建數(shù)據(jù)集的方法。對(duì)于用戶自建數(shù)據(jù)集的文本摘要任務(wù),常用方法可分為基于統(tǒng)計(jì)的方法、基于圖模型的方法、基于詞法鏈的方法、基于篇章結(jié)構(gòu)的方法和基于機(jī)器學(xué)習(xí)的方法,本節(jié)對(duì)每種類別的幾種典型方法中作者自建的數(shù)據(jù)集和方法進(jìn)行總結(jié)。 基于統(tǒng)計(jì)的方法通過一些統(tǒng)計(jì)特征來輔助摘要句的選取,常用的特征包括句子所在的位置、TF-IDF、n-gram等。這種方法不需要額外的語言學(xué)知識(shí)和復(fù)雜的自然語言處理技術(shù),實(shí)現(xiàn)較為簡單。已有方法的主要區(qū)別在于特征類型和特征數(shù)量的選取。 Ko和Seo[27]提出一種基于上下文特征和統(tǒng)計(jì)特征的摘要句提取方法,將每兩個(gè)相鄰的句子合并為一個(gè)二元語言模型偽句子(Bi-Gram pseudo sentence,BGPS),BGPS包含比單個(gè)句子更多的特征。根據(jù)統(tǒng)計(jì)方法對(duì)BGPS進(jìn)行重要程度打分,選取分值較高的BGPS對(duì)應(yīng)的句子作為摘要句。 對(duì)于單文本摘要,作者用到了韓國研究與發(fā)展信息中心的(KOrea Research and Development Information Center,KORDIC)數(shù)據(jù),包括841篇新聞文章,手工標(biāo)注壓縮率為10%和30%的摘要句;對(duì)于多文本摘要,作者選取了5個(gè)主題共55篇新聞文章自建數(shù)據(jù)集,手工標(biāo)注摘要句。方法在兩個(gè)數(shù)據(jù)集上都取得了較好的結(jié)果。 基于統(tǒng)計(jì)的文本摘要方法較為直觀,抽取的特征相對(duì)簡單,因此方法較易實(shí)現(xiàn),但準(zhǔn)確率較低。這類方法同樣適用于中文文本摘要任務(wù)。 部分基于圖模型的方法也在自建數(shù)據(jù)集上進(jìn)行了測試。Hu等[28]認(rèn)為,對(duì)于Web文本來說,讀者的評(píng)論對(duì)于文本摘要等信息檢索任務(wù)是有價(jià)值的。提出的方法不僅考慮文本內(nèi)容本身,還將讀者的評(píng)論信息加入文本摘要抽取中,將評(píng)論作為節(jié)點(diǎn),將評(píng)論之間的關(guān)系作為邊,利用圖模型對(duì)評(píng)論的重要程度進(jìn)行打分。他們提出了兩種文本摘要方法: 一種通過評(píng)論中的關(guān)鍵詞來對(duì)候選摘要句進(jìn)行打分;另一種將原文本和評(píng)論組成一個(gè)“偽文本”,對(duì)該“偽文本”進(jìn)行摘要句的抽取。作者從兩大英文博客網(wǎng)站Cosmic Variance[注]http://blogs.discovermagazine.com/cosmicvariance#.Wy-yfqadLjIU/和IEBlog[注]https://blogs.msdn.microsoft.com/ie/中分別獲取了50篇文章作為實(shí)驗(yàn)語料,4個(gè)標(biāo)注者人工標(biāo)注摘要句。由于他們的方法結(jié)合了文章的評(píng)論,因此要求標(biāo)注者分別讀取博文和評(píng)論后再標(biāo)注出摘要句。 Lin等[29]提出了一種基于情感信息的Page-Rank多文本情感摘要方法,作者同時(shí)考慮了情感和主題這兩方面的信息,提升了算法的準(zhǔn)確率。由于針對(duì)中文文本情感摘要的研究較少,公共語料缺乏,作者從亞馬遜中文網(wǎng)[注]https://www.amazon.cn中收集了15個(gè)產(chǎn)品的評(píng)論語料,每個(gè)產(chǎn)品包括200條評(píng)論,自建了包括15個(gè)主題的多文本摘要數(shù)據(jù)集。挑選出3名標(biāo)注者從每個(gè)主題的評(píng)論中抽取48個(gè)句子作為該主題的摘要句。 詞法鏈(lexical chain)[30]是一種描述篇章銜接性的理論體系,常用于文本摘要、情感分析等自然語言處理應(yīng)用中。Chen等[31]首次將詞法鏈方法應(yīng)用到中文文本摘要中,提出了一種基于詞法鏈的中文文本摘要方法。首先利用HowNet作為詞法鏈構(gòu)建知識(shí)庫,然后識(shí)別強(qiáng)詞法鏈,最后基于啟發(fā)式規(guī)則選取摘要句。從互聯(lián)網(wǎng)上隨機(jī)選取100篇中文新聞?wù)Z料自建數(shù)據(jù)集。對(duì)每篇文本,標(biāo)注壓縮率分別為10%和20%的摘要句。 Yu等[32]在詞法鏈的基礎(chǔ)上,結(jié)合一些結(jié)構(gòu)特征,提出了一種基于詞法鏈和結(jié)構(gòu)特征的中文文本摘要方法。同樣利用HowNet構(gòu)建詞法鏈,結(jié)構(gòu)特征包括句子的位置(如是否是首句)等。利用詞法鏈特征和結(jié)構(gòu)特征進(jìn)行加權(quán)對(duì)句子重要程度進(jìn)行打分,選取摘要句。作者從互聯(lián)網(wǎng)上隨機(jī)選取50篇不同類別的中文新聞?wù)Z料自建數(shù)據(jù)集。對(duì)每篇文本,標(biāo)注壓縮率分別為10%,20%和30%的摘要句。 Wu等[33]提出了個(gè)性化Web新聞的過濾和摘要系統(tǒng)PNFS。PNFS的新聞?wù)强偨Y(jié)并提取能夠刻畫新聞主題的關(guān)鍵詞。關(guān)鍵詞的提取是利用基于詞法鏈的方法[34],利用詞之間的語義相關(guān)性進(jìn)行詞義消歧并構(gòu)建詞法鏈。構(gòu)建的關(guān)鍵詞一方面可以提供給用戶一種精簡的閱讀形式,節(jié)省閱讀時(shí)間,另一方面可以用于構(gòu)建用戶興趣模型。作者從163新聞網(wǎng)站[注]http://news.163.com獲取了120篇中文新聞文章自建數(shù)據(jù)集,然后利用ICTCLAS[注]http://ictclas.nlpir.org進(jìn)行中文分詞。 傳統(tǒng)詞法鏈主要由名詞和名詞短語構(gòu)成,缺少了動(dòng)詞等所包含的語義信息。Hou等[35]提出了全息詞法鏈(holographic lexical chain)并將其應(yīng)用到中文的單文本摘要中。全息詞法鏈包括名詞、動(dòng)詞和形容詞三類詞法鏈,這三類詞法鏈包括了文章的主要語義信息,因此稱為全息詞法鏈。根據(jù)句子中包含全息詞法鏈中詞的特征,利用Logistic回歸、支持向量機(jī)等機(jī)器學(xué)習(xí)方法學(xué)習(xí)摘要句。作者從互聯(lián)網(wǎng)上選取159篇外貿(mào)領(lǐng)域中文新聞?wù)Z料自建數(shù)據(jù)集。對(duì)每篇文本,人工標(biāo)注摘要句,進(jìn)行模型的訓(xùn)練和測試。 基于篇章結(jié)構(gòu)的方法是利用篇章結(jié)構(gòu)信息指導(dǎo)文本摘要的生成,典型方法包括Cheng等[36]提出的中文Web文本自動(dòng)摘要方法。作者首先分析段落之間的語義關(guān)聯(lián),將語義相近的段落合并,劃分出主題層次,進(jìn)而得到篇章結(jié)構(gòu)。在篇章結(jié)構(gòu)的指導(dǎo)下,使用統(tǒng)計(jì)方法,結(jié)合一些啟發(fā)式規(guī)則進(jìn)行關(guān)鍵詞和關(guān)鍵句子的提取,最終生成中文Web文本的摘要。作者從新浪[注]http://www.sina.com.cn、計(jì)算機(jī)世界報(bào)[注]http://www.ccw.com.cn等網(wǎng)站獲取了IT類文章,隨機(jī)選取了228篇文本自建語料庫。人工對(duì)其理解和分析,得到文本包含的主題及子主題、關(guān)鍵詞。作者認(rèn)為此方法人工分析工作量大,僅能選取少量文本進(jìn)行方法驗(yàn)證。 這類方法利用了篇章結(jié)構(gòu)的信息,可以得到結(jié)構(gòu)上連貫、準(zhǔn)確率相對(duì)較高的結(jié)果。但是模型復(fù)雜度較高,并且缺少規(guī)模較大的篇章結(jié)構(gòu)數(shù)據(jù)集來進(jìn)行機(jī)器學(xué)習(xí)模型的訓(xùn)練和測試,已有方法都是在自建數(shù)據(jù)集上進(jìn)行提出方法的測評(píng)。 大部分基于機(jī)器學(xué)習(xí)的文本摘要方法是有監(jiān)督的方法,即需要有標(biāo)注的訓(xùn)練集和測試集。Hu等[37]提出了一種基于主題的中文單文本摘要方法。首先通過段落聚類發(fā)現(xiàn)文本所反映的主題,然后從每一個(gè)主題中選取與主題語義相關(guān)性最大的一句話作為摘要句,最后根據(jù)選取的摘要句在原文本中的順序組成最終的摘要。隨機(jī)選取200篇不同類型的中文文章自建語料庫,進(jìn)行提出方法的效果評(píng)估。 Baumel等[38]提出了一種基于LDA主題模型(topic model)[39]的新型文本摘要任務(wù): 面向查詢的更新摘要方法(query-chain focused summarization)。更新摘要是假設(shè)已經(jīng)提取出部分摘要句,在避免冗余的前提下,將新內(nèi)容加入摘要中;而面向查詢的摘要是提取出與查詢相關(guān)的重要句子作為摘要句。結(jié)合這兩種任務(wù),將用戶多次查詢的結(jié)果生成更新摘要。也就是說,用戶的第n條查詢語句得到的結(jié)果要在前n-1條查詢語句結(jié)果摘要基礎(chǔ)上進(jìn)行更新摘要,最終生成的摘要是所有查詢語句得到的結(jié)果的摘要。 選取來自“消費(fèi)者健康(consumer health)”領(lǐng)域的語料自建數(shù)據(jù)集。針對(duì)面向查詢的摘要,首先從PubMed[注]醫(yī)學(xué)、生命科學(xué)領(lǐng)域的科研文獻(xiàn)檢索數(shù)據(jù)庫,https://www.ncbi.nlm.nih.gov/pmc/中選取包括“氣喘(asthma)”、 “肺癌(lung cancer)”、 “肥胖癥(obesity)”和“老年癡呆(alzheimer)”四個(gè)關(guān)鍵詞的查詢語句,然后從英文Wiki[注]https://en.wikipedia.org/wiki/Wiki,WebMD[注]https://www.webmd.com等網(wǎng)上資源中獲取與查詢語句相關(guān)的文本,找醫(yī)學(xué)專業(yè)學(xué)生標(biāo)注文本摘要。最終得到人工標(biāo)注摘要186篇,作為訓(xùn)練和測試數(shù)據(jù)集。 龐超等[40]結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的“編碼器—解碼器”結(jié)構(gòu)和基于分類的結(jié)構(gòu),提出一種理解式文本摘要方法。同時(shí),在“編碼器—解碼器”結(jié)構(gòu)中使用了“注意力”機(jī)制,提升了模型對(duì)于文本內(nèi)容的表達(dá)能力,進(jìn)一步提升了文本摘要的性能。作者從中國新聞網(wǎng)[注]http://www.chinanews.com獲取新聞內(nèi)容,自建語料庫。共包括120萬條語料,其中訓(xùn)練集90萬條,驗(yàn)證集20萬條,測試集10萬條。每條語料包括新聞標(biāo)題、新聞內(nèi)容和新聞?lì)悇e(分時(shí)政、國際、社會(huì)、財(cái)經(jīng)、金融、汽車、能源、文化、娛樂、體育、健康共11個(gè)類別)。 本節(jié)調(diào)研了ACL、AAAI、EMNLP、ICJNLP和COLING等自然語言處理相關(guān)國際會(huì)議和部分期刊中的文本摘要方法相關(guān)文獻(xiàn),表7總結(jié)了經(jīng)典算法和最新方法相關(guān)文獻(xiàn)中用到的數(shù)據(jù)集。 從表7可知,經(jīng)典算法和最新方法大都是基于深度學(xué)習(xí)的方法,也包括LexRank、TextRank等經(jīng)典方法。 已有工作提出面向中英文文本摘要的通用方法,Lin等[43]的工作分別在LCSTS和Gigaword數(shù)據(jù)集上進(jìn)行了測評(píng)。 當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)模型中,最常用的數(shù)據(jù)集是Gigaword、CNN/DM和LCSTS等大規(guī)模數(shù)據(jù)集。文本摘要數(shù)據(jù)集DUC/TAC的規(guī)模較小,但不適用于深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,已有深度神經(jīng)網(wǎng)絡(luò)模型通常在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。模型訓(xùn)練完成后,DUC/TAC數(shù)據(jù)集也是重要的測評(píng)標(biāo)準(zhǔn)。因此,DUC/TAC也是一種常用的文本摘要方法測評(píng)數(shù)據(jù)集。 表7 文獻(xiàn)用到的數(shù)據(jù)集總結(jié) 續(xù)表 為了對(duì)比經(jīng)典方法在數(shù)據(jù)集上的實(shí)驗(yàn)效果,本節(jié)以Gigaword數(shù)據(jù)集為例,分析對(duì)比了如下7種單文本生成式文本摘要方法在Gigaword數(shù)據(jù)集的訓(xùn)練集上進(jìn)行模型訓(xùn)練,在測試集上進(jìn)行測試的結(jié)果。 ABS: Rush等[12]的基于“注意力”機(jī)制的“編碼器”和基于標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)的“解碼器”。 ABS+: Rush等[12]在ABS的基礎(chǔ)上進(jìn)行了模型改進(jìn),利用DUC 2003數(shù)據(jù)集進(jìn)一步調(diào)整了參數(shù)。 Luong-NMT: Chopra等[13]在ABS和ABS+基礎(chǔ)上進(jìn)行了改進(jìn),同樣利用了“編碼器—解碼器”模型,只是在“解碼器”中使用了一種條件循環(huán)神經(jīng)網(wǎng)絡(luò)。 Feats2s: Nallapati等[14]在ABS+和Luong-NMT的基礎(chǔ)上,引入了傳統(tǒng)的TF-IDF、命名實(shí)體等語言學(xué)特征作為神經(jīng)網(wǎng)絡(luò)的輸入。 SeqCopyNet: Zhou等[15]提出的“選擇性編碼”模型,基于一個(gè)已經(jīng)“編碼”好的句子,利用句子信息來判斷句中的詞是否重要,由此來構(gòu)建一個(gè)輸入句子中詞的新的表示。 FTSum: Cao等[16]提出的提升信息量的 “編碼器—解碼器”模型,兩個(gè)“編碼器”分別用于句子本身和“主謂賓”結(jié)構(gòu)三元組的語義表示。 Re3Sum: Cao等[18]提出的新的“端到端”的模型,將已有的摘要句看作是“軟模板”(soft tem-plate),作為參考來指導(dǎo)摘要的生成。 表8是各種經(jīng)典模型在Gigaword數(shù)據(jù)集上的實(shí)驗(yàn)效果,其中評(píng)估標(biāo)準(zhǔn)采用ROUGE[74],一種通用的文本摘要評(píng)估標(biāo)準(zhǔn)。ROUGE計(jì)算模型輸出的摘要與參考摘要之間的一元詞、二元詞、三元詞及最長公共子串(longest common subsequence,LCS)等字符串的重合度。單文本摘要中常用的有ROUGE-1、ROUGE-2和ROUGE-L,分別表示模型輸出的摘要和參考摘要的一元詞、二元詞和LCS之間的重合度,本文也采用了這三種標(biāo)準(zhǔn)。 從實(shí)驗(yàn)效果看,在大規(guī)模訓(xùn)練數(shù)據(jù)上,基于“注意力”機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型體現(xiàn)出了在單文本生成式文本摘要方面的有效性,在引入了傳統(tǒng)的人工語義特征后, 效果進(jìn)一步提升。為了進(jìn)一步提升生成摘要的質(zhì)量,已有方法在網(wǎng)絡(luò)結(jié)構(gòu)及信息輸入上進(jìn)行了改進(jìn)。例如,“SeqCopyNet”提出了選擇性門網(wǎng)絡(luò),可以選擇輸入句子中的重要部分?!癋TSum”引入了“主謂賓”結(jié)構(gòu),在ROUGE-1指標(biāo)上取得了當(dāng)前最好的結(jié)果。Re3Sum受傳統(tǒng)的基于模板的生成式摘要的啟發(fā),將已有的摘要句作為參考來指導(dǎo)摘要的生成,在ROUGE-2和ROUGE-L這兩個(gè)指標(biāo)上都取得了最好的效果。 表8 經(jīng)典方法在Gigaword上的實(shí)驗(yàn)效果 在文本摘要領(lǐng)域,目前已有多個(gè)公用數(shù)據(jù)集可用于方法的訓(xùn)練、驗(yàn)證和測試。通過對(duì)常用數(shù)據(jù)集的分析,可以得到如下結(jié)論: (1) 英文數(shù)據(jù)集較多,既包括百篇規(guī)模的DUC/TAC數(shù)據(jù)集,可以用于單文本摘要、多文本摘要等多種任務(wù),又包括Gigaword和CNN/DM等大規(guī)模數(shù)據(jù)集。中文數(shù)據(jù)集較少,目前中文只有LCSTS和NLPCC,并且LCSTS是短文本數(shù)據(jù)集,NLPCC規(guī)模較小,不適用于神經(jīng)網(wǎng)絡(luò)方法的訓(xùn)練。因此,缺少大規(guī)模中文長文本數(shù)據(jù)集。 (2) 已有數(shù)據(jù)集中,除了DUC/TAC數(shù)據(jù)集可用于多文本摘要任務(wù)之外,其他數(shù)據(jù)集只適用于單文本摘要任務(wù)。 (3) 就摘要方式來說,大部分?jǐn)?shù)據(jù)集只適用于生成式摘要方法的訓(xùn)練和測試,只有CNN/DM和DUC2002可用于抽取式摘要任務(wù)。 (4) 隨著文本數(shù)量的激增,各領(lǐng)域?qū)ξ谋菊男枨笠苍絹碓蕉?。已有?shù)據(jù)集中,除ASNAPR和TAC2014,其余都是新聞?lì)愇谋?。因此,未來?yīng)有更多其他領(lǐng)域的文本摘要數(shù)據(jù)集被提出。 從提出的文本摘要方法來看,除了已有的基于統(tǒng)計(jì)的方法、基于圖模型的方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法之外,隨著對(duì)神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的研究不斷深入,越來越多的工作提出了基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的方法。但由于深度學(xué)習(xí)模型相對(duì)復(fù)雜,待學(xué)習(xí)參數(shù)較多,因此需要在大規(guī)模數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,這類方法對(duì)于數(shù)據(jù)集的規(guī)模要求較高。 對(duì)于Gigaword和LCSTS等大規(guī)模數(shù)據(jù)集,雖然在這些數(shù)據(jù)集上訓(xùn)練出的模型顯示出較好的效果,但是這些方法是數(shù)據(jù)驅(qū)動(dòng)的,對(duì)于數(shù)據(jù)的依賴性較強(qiáng)。未來研究中,不依賴訓(xùn)練數(shù)據(jù)特點(diǎn)的通用方法將更具實(shí)用性和可擴(kuò)展性。 由于公用數(shù)據(jù)集較少,并且不同的任務(wù)需要有不同的數(shù)據(jù)集。對(duì)于一些特定任務(wù)(例如,對(duì)于評(píng)論的文本摘要,基于篇章結(jié)構(gòu)的文本摘要)的公用數(shù)據(jù)集更少。部分面向中英文的文本摘要方法通過自建數(shù)據(jù)集進(jìn)行方法的訓(xùn)練和測試,尤其是面向中文的文本摘要方法。 隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的不斷深入,對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的需求和依賴也越來越高。不單單是對(duì)文本摘要任務(wù),對(duì)于其他自然語言處理任務(wù)如命名實(shí)體識(shí)別、情感分析,甚至計(jì)算機(jī)視覺領(lǐng)域,標(biāo)注數(shù)據(jù)也是不可或缺的。在缺少公用數(shù)據(jù)集的情況下,除了在自建數(shù)據(jù)集上進(jìn)行性能測試之外,半自動(dòng)的數(shù)據(jù)集構(gòu)建方法[75]會(huì)成為一個(gè)新的研究方向。2.1 基于圖模型的方法
2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法
3 Gigaword
4 CNN/Daily Mail
5 NYTAC
6 Amazon SNAP Review Dataset
7 LCSTS
8 NLPCC
9 自建數(shù)據(jù)集及其對(duì)應(yīng)方法
9.1 基于統(tǒng)計(jì)的方法
9.2 基于圖模型的方法
9.3 基于詞法鏈的方法
9.4 基于篇章結(jié)構(gòu)的方法
9.5 基于機(jī)器學(xué)習(xí)的方法
10 經(jīng)典算法和最新方法用到的數(shù)據(jù)集
11 經(jīng)典方法在數(shù)據(jù)集上的實(shí)驗(yàn)效果分析
12 結(jié)論