• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    文本摘要常用數(shù)據(jù)集和方法研究綜述

    2019-06-03 11:14:06侯圣巒張書涵費(fèi)超群
    中文信息學(xué)報(bào) 2019年5期
    關(guān)鍵詞:文本方法模型

    侯圣巒,張書涵,費(fèi)超群

    (1. 中國科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049)

    0 引言

    文本摘要任務(wù)旨在從一篇或多篇相同主題的文本中抽取能夠反映主題的精簡壓縮版本[1-2],可以幫助用戶快速形成對(duì)特定主題文本內(nèi)容的全面了解,提高瀏覽信息和獲取知識(shí)的效率。隨著互聯(lián)網(wǎng)上文本數(shù)量的爆炸式增長,對(duì)文本摘要的需求也越來越大,近十幾年來,許多準(zhǔn)確而高效的文本摘要算法被提出。

    文本摘要方法的分類方式有多種。根據(jù)輸入文本的數(shù)量,文本摘要方法可以分為單文本摘要方法和多文本摘要方法。根據(jù)不同的標(biāo)準(zhǔn),文本摘要方法又有不同的分類體系。表1總結(jié)了現(xiàn)有的主流文本摘要方法分類體系,可以看出,針對(duì)不同的文本摘要任務(wù)需求可以使用不同的方法,以達(dá)到更好的效果。

    已有工作都通過特定數(shù)據(jù)集來訓(xùn)練和評(píng)估提出方法的性能,有些使用公用數(shù)據(jù)集,有些數(shù)據(jù)集則是作者根據(jù)互聯(lián)網(wǎng)上的文本資源自建的。目前關(guān)于文本摘要綜述的文獻(xiàn)較多[2-4],但多是針對(duì)不同類別方法,從不同維度的分析,缺少對(duì)方法用到的實(shí)驗(yàn)數(shù)據(jù)集的總結(jié)描述。另一方面,雖然已有少量工作面向跨語言的文本摘要方法研究[5],但仍處于初步階段。已有綜述文獻(xiàn)主要是對(duì)于英文文本摘要方法的總結(jié)綜述,缺少對(duì)中文文本摘要方法的綜述和面向英文文本摘要方法對(duì)中文文本的可適用性分析。

    表1 主流文本摘要方法分類體系

    本文從文本摘要相關(guān)技術(shù)和所用到的數(shù)據(jù)集出發(fā),對(duì)已有工作進(jìn)行調(diào)研,總結(jié)了目前常用的數(shù)據(jù)集和方法。我們將文本摘要常用數(shù)據(jù)集分為兩種,一種是公用的、專門用于測試文本摘要方法性能的數(shù)據(jù)集,我們稱之為公用數(shù)據(jù)集;另一種是在文獻(xiàn)中作者為驗(yàn)證方法獨(dú)立構(gòu)建的數(shù)據(jù)集,我們稱之為自建數(shù)據(jù)集。本文內(nèi)容主要包括以下幾個(gè)方面:

    (1) 文本摘要常用數(shù)據(jù)集總結(jié)。

    ? 對(duì)于公用數(shù)據(jù)集,包括來源、語言、規(guī)模和獲取方式等;

    ? 對(duì)于自建數(shù)據(jù)集,包括來源、規(guī)模、獲取方式和標(biāo)注方法。

    (2) 對(duì)于每一種公用數(shù)據(jù)集,給出了文本摘要問題的形式化定義,并對(duì)經(jīng)典和最新方法進(jìn)行綜述。選定一種數(shù)據(jù)集,對(duì)已有方法在該數(shù)據(jù)集上的實(shí)驗(yàn)效果進(jìn)行了總結(jié)分析。

    (3) 總結(jié)了現(xiàn)有常用數(shù)據(jù)集和對(duì)應(yīng)方法的研究現(xiàn)狀、存在的問題。

    本文剩余部分組織結(jié)構(gòu)如下: 第1節(jié)是文本摘要常用數(shù)據(jù)集總體概覽;第2~8節(jié)是常用公用數(shù)據(jù)集的介紹及在該數(shù)據(jù)集上幾種典型方法的詳述;第9節(jié)是對(duì)自建數(shù)據(jù)集及對(duì)應(yīng)方法的綜述;第10節(jié)總結(jié)了經(jīng)典算法和最新方法用到的數(shù)據(jù)集;第11節(jié)分析了經(jīng)典方法在數(shù)據(jù)集上的實(shí)驗(yàn)效果;最后一節(jié)總結(jié)了發(fā)展趨勢,指出了存在的問題。

    1 文本摘要常用數(shù)據(jù)集總體概況

    文本摘要常用數(shù)據(jù)集包括兩部分: 一是公用數(shù)據(jù)集,二是作者自建數(shù)據(jù)集。本節(jié)總結(jié)了中英文文本摘要中常用公用數(shù)據(jù)集,這些數(shù)據(jù)集的概覽如表2所示。

    表2 中英文文本摘要方法中常用公用數(shù)據(jù)集概覽

    從表2可知,面向英文的文本摘要方法中用到的公用數(shù)據(jù)集較多,面向中文文本摘要方法的公用數(shù)據(jù)集包括兩個(gè): LCSTS和NLPCC,且都是用于生成式摘要方法的性能測評(píng)。

    從適用方法來看,已有公用數(shù)據(jù)集大都用于單文本摘要方法。DUC/TAC可以用于普通文本的多文本摘要方法,Amazon SNAP Review Dataset常用于評(píng)論和情感的多文本摘要方法。

    就摘要方式來說,用于生成式摘要方法的數(shù)據(jù)集較多。為了解決抽取式摘要方法缺少訓(xùn)練數(shù)據(jù)的問題,已有方法通常將用于生成式文本摘要的數(shù)據(jù)集進(jìn)行簡單轉(zhuǎn)換,例如,Cheng等[6]將CNN/Daily Mail數(shù)據(jù)集中的每篇文本中句子與生成式摘要句計(jì)算匹配度,匹配度較高的句子作為抽取式摘要句,構(gòu)成抽取式摘要方法的數(shù)據(jù)集。

    諸多工作嘗試深度神經(jīng)網(wǎng)絡(luò)模型在文本摘要中的應(yīng)用。但由于深度學(xué)習(xí)模型復(fù)雜,待學(xué)習(xí)參數(shù)較多,因此需要較大規(guī)模的訓(xùn)練數(shù)據(jù)。Gigaword、CNN/Daily Mail、LCSTS等都是十萬級(jí)規(guī)模,可滿足深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的需求。

    2 DUC/TAC

    文本理解會(huì)議(Document Understanding Conference,DUC)[注]http://duc.nist.gov/主要面向英文文本摘要的評(píng)估,從2001年到2007年每年發(fā)布1次測評(píng)數(shù)據(jù)集。從2008年開始,DUC成為了文本分析會(huì)議(Text Analysis Conference,TAC)[注]http://www.nist.gov/tac/中的一個(gè)文本摘要任務(wù)。自2003年起,DUC/TAC主要面向多文本摘要任務(wù),所以對(duì)單文本摘要方法來說,測試數(shù)據(jù)集更少。

    TAC2014提出了面向生物醫(yī)學(xué)領(lǐng)域的科技文獻(xiàn)文本摘要任務(wù),其余DUC/TAC數(shù)據(jù)集面向新聞?lì)愇谋菊蝿?wù)。此處我們隨機(jī)選擇DUC2004和TAC2009數(shù)據(jù)集進(jìn)行分析: DUC2004包括單文本摘要和多文本摘要兩個(gè)任務(wù),其中單文本摘要任務(wù)包括500篇文本;多文本摘要任務(wù)包括50個(gè)文本簇,每一個(gè)文本簇中有10篇文本。TAC2009中的多文本摘要任務(wù)數(shù)據(jù)集包括44個(gè)主題,每個(gè)主題有兩個(gè)文本集,分別包括10篇新聞文本,用于文本摘要生成。

    從以上分析可知,DUC/TAC是人工標(biāo)注的生成式摘要數(shù)據(jù)集。由于DUC/TAC數(shù)據(jù)集在百篇規(guī)模,不適用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,常用于傳統(tǒng)文本摘要方法的性能評(píng)估。

    定義1 DUC/TAC數(shù)據(jù)集上的文本摘要

    給定k(0

    (1) 單文本摘要。對(duì)于Ti中的每一篇文本Dj(0

    (2) 多文本摘要。對(duì)于每一個(gè)Ti,生成內(nèi)容覆蓋Ti中所有重要文本信息,并且長度限制在L_m的摘要。

    (3) 面向查詢的摘要。對(duì)于每一個(gè)Ti,生成可以回答問題Q并且長度限制在L_q的摘要。其中Q是例如“Who is X?”形式的問題。

    經(jīng)典的DUC/TAC數(shù)據(jù)集上的方法主要包括基于圖模型的方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法。

    2.1 基于圖模型的方法

    基于圖模型的方法是將文本單元(如句子或者詞)作為節(jié)點(diǎn),文本單元間關(guān)系作為邊構(gòu)建圖模型,通過圖挖掘等算法從圖中抽取重要成分組成摘要。典型方法包括LexRank[1]和TextRank[7]。

    LexRank將句子作為節(jié)點(diǎn)、句子間的語義相似關(guān)系作為邊構(gòu)建圖模型。從圖模型中根據(jù)節(jié)點(diǎn)間的邊及權(quán)重抽取重要句子作為摘要句。LexRank在DUC2003和DUC2004上測試了方法的性能。

    TextRank的基本思想則是PageRank[8],通過對(duì)待處理文本建立圖模型,利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序。TextRank可以用于關(guān)鍵詞提取和摘要句的抽取。其優(yōu)點(diǎn)是簡潔高效,不需要事先對(duì)模型進(jìn)行訓(xùn)練,屬于一種無監(jiān)督方法。Text-Rank在DUC2002上驗(yàn)證了方法的有效性。

    Baralis等[9]提出了一種改進(jìn)的算法GraphSum。GraphSum利用關(guān)聯(lián)規(guī)則挖掘來計(jì)算句子間的相似度,然后構(gòu)建文本摘要圖模型,利用PageRank算法迭代計(jì)算得到摘要句。在DUC2004數(shù)據(jù)集上取得了更好的效果。

    雖然LexRank和TextRank在英文文本數(shù)據(jù)集上進(jìn)行了性能評(píng)估,但同樣適用于中文文本摘要的提取。由于缺少面向中文的公用數(shù)據(jù)集,面向中文的基于圖模型的方法都采用自建數(shù)據(jù)集進(jìn)行方法測評(píng),具體方法將在第9節(jié)詳述。

    2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

    隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展和在自然語言處理等各個(gè)領(lǐng)域的成功應(yīng)用,越來越多的工作將機(jī)器學(xué)習(xí)算法應(yīng)用到文本摘要中。本文將利用樸素貝葉斯、支持向量機(jī)等理論的文本摘要方法歸為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,將利用深度神經(jīng)網(wǎng)絡(luò)模型的文本摘要方法歸為基于深度學(xué)習(xí)的方法。其中,基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本摘要方法效果取決于特征提取、模型選擇及訓(xùn)練數(shù)據(jù)規(guī)模。

    Gillick和Favre[10]將多文本摘要看成優(yōu)化問題,利用整數(shù)線性規(guī)劃構(gòu)建文本摘要模型。實(shí)驗(yàn)結(jié)果表明,在TAC2008數(shù)據(jù)集上利用二元詞組(bigram)特征較利用一元詞組(unigram)和三元詞組(trigram)特征的效果更好。

    為了取得更好效果,F(xiàn)attah[11]結(jié)合多種機(jī)器學(xué)習(xí)模型,考慮以下幾種特征: 詞的相似度、文本格式、中心段、整篇文本中詞頻統(tǒng)計(jì)分值、標(biāo)題、句子位置和無關(guān)信息是否出現(xiàn)等,并利用這些特征提出了一種結(jié)合最大熵、樸素貝葉斯分類器和支持向量機(jī)三種模型的多文本摘要方法。由于每個(gè)模型都可以看成是一個(gè)二分類器,通過引入聯(lián)合概率分布函數(shù)來判斷句子的重要程度,最后實(shí)現(xiàn)了一種基于混合機(jī)器學(xué)習(xí)模型的多文本摘要方法。方法在DUC2001和DUC2002數(shù)據(jù)集上取得了較好效果,但缺點(diǎn)在于方法的復(fù)雜度太高。

    3 Gigaword

    Gigaword[注]https://catalog.ldc.upenn.edu/ldc2003t05是一個(gè)由英文新聞文章組成的數(shù)據(jù)集,共包括接近950萬來自紐約時(shí)報(bào)(New York Times)等多個(gè)新聞源的新聞?wù)Z料,其中部分文章包含一句話的簡短新聞提要(headline)。將新聞提要與文章的首句話組成生成式摘要平行語料庫,用于深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練與測試。Gigaword用于生成式文本摘要方法的數(shù)據(jù)規(guī)模見表3。

    表3 Gigaword數(shù)據(jù)集規(guī)模

    定義2 Gigaword數(shù)據(jù)集上的文本摘要

    給定文本集D,包含k個(gè)英文新聞?lì)愇谋菊獙?duì),其中h表示單句話的新聞提要,由新聞作者給出,first表示新聞?wù)牡氖拙湓?。將D分成三份,分別是訓(xùn)練集Dtrain、驗(yàn)證集Dvalidation和測試集Dtest。將h作為摘要句,first作為原句子,在Dtrain和Dvalidation上訓(xùn)練方法提出的模型,在Dtest上測試方法的性能。

    在Gigaword數(shù)據(jù)集上,Rush等[12]首次將神經(jīng)網(wǎng)絡(luò)用于生成式文本摘要,利用了“編碼器—解碼器”(encoder-decoder)模型,作者嘗試了三種“編碼”的方式: 分別是“詞袋”(bag-of-words)模型、卷積神經(jīng)網(wǎng)絡(luò)和基于“注意力”(attention)機(jī)制的方式。在Gigaword和DUC2004數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于“注意力”機(jī)制的“編碼器”效果最好。方法取得的效果使得基于深度神經(jīng)網(wǎng)絡(luò)的模型成為可能,后續(xù)工作大都基于此方法。

    Chopra等[13]同樣利用“編碼器—解碼器”模型,在“解碼器”中使用一種條件循環(huán)神經(jīng)網(wǎng)絡(luò)(Conditional RNN),在Gigaword和DUC2004數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果要優(yōu)于Rush等的方法。

    為進(jìn)一步提升效果,Nallapati等[14]引入了TF-IDF、命名實(shí)體等語言學(xué)特征來強(qiáng)化句子中的關(guān)鍵信息。將這些特征顯式地作為神經(jīng)網(wǎng)絡(luò)的輸入,在Gigaword和DUC2004數(shù)據(jù)集上提高了生成式文本摘要效果。同時(shí),作者在CNN/Daily Mail數(shù)據(jù)集上也進(jìn)行了方法的性能測試。

    Zhou等[15]提出了一種“選擇性編碼”(selective encoding)模型,將文本摘要問題看成是一個(gè)序列標(biāo)注的任務(wù),建模的方法是基于一個(gè)已經(jīng)“編碼”好的句子,利用句子信息來判斷句中的詞是否重要,由此來構(gòu)建一個(gè)輸入句子中詞的新的表示。在Gigaword數(shù)據(jù)集上得到了較已有工作更好的效果。

    Cao等[16]認(rèn)為已有方法得到的結(jié)果雖然測評(píng)結(jié)果較高,但是不夠可靠(faithful),往往無法直接用于實(shí)際應(yīng)用。為此,提出了一種提升信息量的方法: 利用Stanford CoreNLP[17]提取“主謂賓”三元組作為輸入。論文中的“編碼器—解碼器”模型包括兩個(gè)“編碼器”和一個(gè)“雙注意力”機(jī)制的“解碼器”,兩個(gè)“編碼器”分別用于句子本身和三元組的語義表示。在Gigaword數(shù)據(jù)集上的結(jié)果表明,該方法在提高“可靠性”的同時(shí),準(zhǔn)確率較已有方法也有所提升。

    受傳統(tǒng)的基于模板的生成式文本摘要的啟發(fā),Cao等[18]提出了一種新的“端到端”的模型。將已有的摘要句看作是“軟模板”(soft template),作為參考來指導(dǎo)摘要的生成。提出的模型包括檢索(retrieving)、重排序(reranking)和重寫(rewriting)三個(gè)模塊,稱之為Re3Sum。

    Gigaword數(shù)據(jù)集的特點(diǎn)在于原句和摘要句都是單個(gè)句子,而在實(shí)際應(yīng)用中,除了對(duì)單個(gè)句子生成摘要的情形之外,還存在對(duì)由多個(gè)句子組成的整篇文本生成摘要的情形。

    4 CNN/Daily Mail

    與Gigaword和部分DUC/TAC數(shù)據(jù)集只包含單句話的摘要不同,CNN/Daily Mail(簡稱CNN/DM)作為單文本摘要語料庫,每篇摘要包含多個(gè)摘要句。CNN/DM最初是Hermann等[19]發(fā)布的機(jī)器閱讀理解語料庫。作者從美國有線新聞網(wǎng)(CNN)[注]https://edition.cnn.com/和每日郵報(bào)網(wǎng)(Daily Mail)[注]http://www.dailymail.co.uk/home/index.html中收集了約100萬條新聞數(shù)據(jù)作為機(jī)器閱讀理解語料庫。在CNN和Daily Mail的新聞數(shù)據(jù)中,每篇新聞包括一條或者多條人工要點(diǎn),將隱藏一個(gè)命名實(shí)體的要點(diǎn)作為填空題的問題,將新聞內(nèi)容作為回答填空題的閱讀文字。表4是語料庫的詳細(xì)統(tǒng)計(jì)信息。

    表4 Hermann等[19]文獻(xiàn)中CNN/DM數(shù)據(jù)規(guī)模

    Nallapati等[14]進(jìn)行簡單改動(dòng),形成用于單文本生成式摘要的語料庫。將每篇新聞的要點(diǎn)按原文中出現(xiàn)的順序組成多句的摘要,每個(gè)要點(diǎn)看成是一個(gè)句子。表5給出了用于單文本摘要的CNN/DM[注]https://github.com/deepmind/rc-data數(shù)據(jù)集規(guī)模。

    表5 用于單文本摘要的CNN/DM數(shù)據(jù)集規(guī)模

    定義3 CNN/DM數(shù)據(jù)集上的文本摘要

    給定文本集D,包含k個(gè)文本摘要對(duì),其中H表示新聞提要,S表示新聞?wù)摹分成三份,分別是訓(xùn)練集Dtrain、驗(yàn)證集Dvalidation和測試集Dtest。將H作為摘要句集合,S作為原文本,在Dtrain和Dvalidation上訓(xùn)練方法提出的模型,在Dtest上進(jìn)行方法的性能測試。

    在CNN/DM數(shù)據(jù)集上,See等[20]認(rèn)為傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)用于文本摘要,在執(zhí)行序列數(shù)據(jù)計(jì)算時(shí),會(huì)存在兩個(gè)問題: 一是摘要不能準(zhǔn)確復(fù)制事實(shí)細(xì)節(jié),二是存在多次重復(fù)同樣內(nèi)容。作者提出用指針生成網(wǎng)絡(luò)(pointer-generator network)來解決問題一,利用匯聚(coverage)技術(shù)來解決問題二。這種方法在CNN/DM數(shù)據(jù)集上取得了較好的效果。

    典型方法還包括Cheng和Lapata的方法[6],即一種數(shù)據(jù)驅(qū)動(dòng)的基于深度神經(jīng)網(wǎng)絡(luò)的摘要句抽取方法。這種方法面向單文本抽取式摘要任務(wù),包括一個(gè)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)的“編碼器”和基于“注意力”機(jī)制的“解碼器”,也稱為摘要提取器?;诰矸e神經(jīng)網(wǎng)絡(luò)得到句子的表示,將句子的表示作為輸入,基于循環(huán)神經(jīng)網(wǎng)絡(luò)得到文本的表示。

    作者將CNN/DM數(shù)據(jù)集中的Daily Mail部分進(jìn)行了轉(zhuǎn)換,計(jì)算原文中句子與已有生成式摘要的匹配度,匹配度較高的句子作為抽取式摘要句。通過這種方式將已有數(shù)據(jù)集轉(zhuǎn)換為用于抽取式摘要的數(shù)據(jù)集。利用轉(zhuǎn)換后的數(shù)據(jù)集進(jìn)行模型訓(xùn)練和測試,同時(shí)在DUC2002數(shù)據(jù)集上進(jìn)行了方法測評(píng),取得了更好的效果。

    5 NYTAC

    紐約時(shí)報(bào)標(biāo)注數(shù)據(jù)集(New York Times Annotated Corpus,NYTAC)[注]https://catalog.ldc.upenn.edu/LDC2008T19/包括了從1987年1月到2007年6月的《紐約時(shí)報(bào)》大約180萬篇英文文章,其中65萬篇文章包括人工摘要。NYTAC可用于文本摘要、信息檢索和信息抽取等自然語言處理任務(wù)。

    定義4 NYTAC數(shù)據(jù)集上的文本摘要

    NYTAC數(shù)據(jù)集中的文本與CNN/DM數(shù)據(jù)集中的文本類似: 每篇文本對(duì)應(yīng)的摘要對(duì)中,新聞提要H包含多句,S表示整篇新聞?wù)模皇莵碜圆煌男侣勗?。因此在NYTAC數(shù)據(jù)集上的文本摘要問題定義同定義3。

    在NYTAC數(shù)據(jù)集上的代表性方法是Durrett等[21]的方法,即一種用于單文本摘要的判別式模型,模型基于結(jié)構(gòu)化支持向量機(jī)(structured SVM)。作者考慮了比以往方法更多的特征,通過豐富的稀疏特征來提取文本摘要。作者在兩個(gè)數(shù)據(jù)集上進(jìn)行方法訓(xùn)練和測試,從NYTAC中選取了3 000 篇文本進(jìn)行方法模型的訓(xùn)練,然后在英文修辭結(jié)構(gòu)理論標(biāo)注數(shù)據(jù)集(RST Discourse Treebank,RST-DT)[注]RST-DT是人工標(biāo)注的篇章結(jié)構(gòu)樹,共包括385篇來自華爾街日?qǐng)?bào)(Wall Street Journal,WSJ)的新聞文章,具體數(shù)據(jù)在https://catalog.ldc.upenn.edu/LDC2002T07。上進(jìn)行測試。

    6 Amazon SNAP Review Dataset

    亞馬遜在線評(píng)論數(shù)據(jù)集(Amazon SNAP Review Dataset,ASNAPR)[注]http://snap.stanford.edu/data/web-Amazon.html包括從1995年到2013年接近0.35億用戶的評(píng)論數(shù)據(jù),每條評(píng)論數(shù)據(jù)包括用戶ID、評(píng)論內(nèi)容、評(píng)論摘要和評(píng)論時(shí)間等內(nèi)容。由于ASNAPR是商品評(píng)論數(shù)據(jù),因此都是短文本。ASNAPR數(shù)據(jù)集的特點(diǎn)是文本篇幅較短,常用于評(píng)論和情感的多文本摘要。

    定義5 ASNAPR數(shù)據(jù)集上的文本摘要

    給定數(shù)據(jù)集D,包含k組亞馬遜英文在線評(píng)論數(shù)據(jù)(x,y,l),其中x表示評(píng)論原文,y表示評(píng)論的摘要,l表示商品的情感標(biāo)簽。將D分成訓(xùn)練集Dtrain、驗(yàn)證集Dvalidation和測試集Dtest三部分。從Dtrain和Dvalidation中學(xué)習(xí)評(píng)論原文到評(píng)論摘要及評(píng)論原文到情感標(biāo)簽的映射,在Dtest上驗(yàn)證方法的有效性。

    在ASNAPR數(shù)據(jù)集上,經(jīng)典方法包括Ma等[22]的方法。作者認(rèn)為文本摘要和情感分析都是提取文章中的主要內(nèi)容,只是提取的層次不同,他們提出了一種分層式“端到端”模型,整合文本摘要和情感分類。模型包括一個(gè)摘要層(將源文本壓縮成短句子)和一個(gè)情感分類層(給文本打一個(gè)情感類別標(biāo)簽)。這種分層結(jié)構(gòu)會(huì)使兩個(gè)任務(wù)彼此提升: 通過摘要層壓縮文本,情感分類器可以更加輕松地預(yù)測情感標(biāo)簽;同時(shí)文本摘要還能標(biāo)記出重要和有信息的詞,并移除對(duì)預(yù)測情感有害的冗余和誤導(dǎo)性信息,提升文本摘要的性能。作者從ASNAPR中選取了部分?jǐn)?shù)據(jù)(約110萬條評(píng)論),用到了每條評(píng)論中的摘要和情感標(biāo)簽元數(shù)據(jù)。

    7 LCSTS

    隨著微博等社交媒體軟件的普及,部分工作提出了面向社交媒體文本的文本摘要算法。由于中文社交媒體文本大都是短文本,具有篇幅較短、存在較多噪聲等特點(diǎn),傳統(tǒng)的文本摘要方法在這類文本上往往效果較差。

    LCSTS(large scale Chinese short text summarization dataset)[注]http://icrc.hitsz.edu.cn/Article/show/139.html是Hu等[23]從新浪微博[注]http://weibo.com/獲取的短文本新聞?wù)獢?shù)據(jù)庫,規(guī)模超過200萬。詳細(xì)數(shù)據(jù)規(guī)模見表6。圖1是一個(gè)數(shù)據(jù)樣例,將中括號(hào)中的要點(diǎn)看成是后面一段文本新聞的摘要。

    表6 LCSTS數(shù)據(jù)規(guī)模

    圖1 LCSTS數(shù)據(jù)樣例

    對(duì)于驗(yàn)證集和測試集,作者手工標(biāo)注了正文和標(biāo)題之間的相關(guān)性,相關(guān)性分值區(qū)間是[1,5],分值越高表示越相關(guān)。LCSTS數(shù)據(jù)集的特點(diǎn)是文本篇幅較短,并且存在噪聲。

    在發(fā)布LCSTS中文數(shù)據(jù)集的同時(shí),作者提出了一種利用循環(huán)神經(jīng)網(wǎng)絡(luò)提取生成式摘要的方法,給出了在LCSTS數(shù)據(jù)集上的基準(zhǔn)方法,后續(xù)相關(guān)工作都將該方法作為基準(zhǔn)方法進(jìn)行方法效果的比較。

    定義6 LCSTS數(shù)據(jù)集上的文本摘要

    給定文本集D,包含k個(gè)中文短文本新聞?wù)獙?duì),其中h表示單句話的新聞提要,由新聞作者給出,S表示短文本的新聞?wù)?,由多個(gè)短句子組成。將D分成三份,分別是訓(xùn)練集Dtrain、驗(yàn)證集Dvalidation和測試集Dtest。將h作為摘要句,S作為原文本,在Dtrain和Dvalidation上訓(xùn)練方法提出的模型,在Dtest上測試方法的性能。

    Ma等[24]提出了一種面向中文社交媒體短文本摘要的方法。這是一種基于深度學(xué)習(xí)的抽取式摘要方法,他們提出的模型基于循環(huán)神經(jīng)網(wǎng)絡(luò)的“編碼器—解碼器”和“注意力”機(jī)制。這種方法在LCSTS數(shù)據(jù)集上的效果較Hu等[23]的方法有所提升。

    8 NLPCC

    自然語言處理與中文計(jì)算會(huì)議(CCF Conference on Natural Language Processing & Chinese Computing,NLPCC)是由中國計(jì)算機(jī)學(xué)會(huì)(CCF)舉辦的自然語言文本測評(píng)會(huì)議,包括文本摘要、情感分析、自動(dòng)問答等任務(wù)。NLPCC于2012年開始舉辦,每年一屆。在過去的NLPCC測評(píng)任務(wù)中, NLPCC 2015[注]http://tcci.ccf.org.cn/conference/2015/pages/page05_evadata.html、NLPCC 2017[注]http://tcci.ccf.org.cn/conference/2017/taskdata.php和NLPCC 2018[注]http://tcci.ccf.org.cn/conference/2018/taskdata.php包括文本摘要任務(wù),且都是單文本抽取式摘要。NLPCC數(shù)據(jù)集的特點(diǎn)是新聞文本不分領(lǐng)域、不分類型,篇幅相對(duì)較長。

    定義7 NLPCC數(shù)據(jù)集上的文本摘要

    給定文本集D,包含k個(gè)中文新聞?lì)愇谋菊獙?duì),其中H表示新聞提要,由新聞作者給出,S表示新聞?wù)?。通常情況下,H包含多個(gè)摘要句,S是整篇新聞文本,新聞源自頭條新聞、財(cái)經(jīng)網(wǎng)等中文新聞網(wǎng)站。學(xué)習(xí)由S到H的映射,在測試集Dtest(Dtest?D)上測試方法的有效性。

    在NLPCC數(shù)據(jù)集上,與經(jīng)典圖模型的方法不同,莫鵬等[25]提出了一種基于超圖的文本摘要和關(guān)鍵詞生成方法。將句子作為超邊(hyperedge),將詞作為節(jié)點(diǎn)(vertice)構(gòu)建超圖(hypergraph)。利用超圖中句子與詞之間的高階信息來生成摘要和關(guān)鍵詞。方法在NLPCC2015數(shù)據(jù)集上取得較好效果。

    Xu等[26]針對(duì)已有的利用極大似然估計(jì)來優(yōu)化的生成式摘要模型存在的準(zhǔn)確率低的問題,提出了一種基于對(duì)抗增強(qiáng)學(xué)習(xí)的中文文本摘要方法,提升了基于深度學(xué)習(xí)方法在中文文本摘要上的準(zhǔn)確率。方法在LCSTS和NLPCC2015數(shù)據(jù)集上進(jìn)行了測評(píng)。

    LCSTS和NLPCC是目前面向中文的文本摘要公用數(shù)據(jù)集??梢宰鳛槲磥砀嗟拿嫦蛑形牡奈谋菊椒ǖ挠?xùn)練和測試數(shù)據(jù)集,同時(shí),可以在LCSTS數(shù)據(jù)集上驗(yàn)證已有面向英文的基于深度學(xué)習(xí)的方法對(duì)中文文本摘要的適用性。

    9 自建數(shù)據(jù)集及其對(duì)應(yīng)方法

    由于文本摘要公用數(shù)據(jù)集較少,除了上述在公用數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試的工作之外,還有大量自建數(shù)據(jù)集的方法。對(duì)于用戶自建數(shù)據(jù)集的文本摘要任務(wù),常用方法可分為基于統(tǒng)計(jì)的方法、基于圖模型的方法、基于詞法鏈的方法、基于篇章結(jié)構(gòu)的方法和基于機(jī)器學(xué)習(xí)的方法,本節(jié)對(duì)每種類別的幾種典型方法中作者自建的數(shù)據(jù)集和方法進(jìn)行總結(jié)。

    9.1 基于統(tǒng)計(jì)的方法

    基于統(tǒng)計(jì)的方法通過一些統(tǒng)計(jì)特征來輔助摘要句的選取,常用的特征包括句子所在的位置、TF-IDF、n-gram等。這種方法不需要額外的語言學(xué)知識(shí)和復(fù)雜的自然語言處理技術(shù),實(shí)現(xiàn)較為簡單。已有方法的主要區(qū)別在于特征類型和特征數(shù)量的選取。

    Ko和Seo[27]提出一種基于上下文特征和統(tǒng)計(jì)特征的摘要句提取方法,將每兩個(gè)相鄰的句子合并為一個(gè)二元語言模型偽句子(Bi-Gram pseudo sentence,BGPS),BGPS包含比單個(gè)句子更多的特征。根據(jù)統(tǒng)計(jì)方法對(duì)BGPS進(jìn)行重要程度打分,選取分值較高的BGPS對(duì)應(yīng)的句子作為摘要句。

    對(duì)于單文本摘要,作者用到了韓國研究與發(fā)展信息中心的(KOrea Research and Development Information Center,KORDIC)數(shù)據(jù),包括841篇新聞文章,手工標(biāo)注壓縮率為10%和30%的摘要句;對(duì)于多文本摘要,作者選取了5個(gè)主題共55篇新聞文章自建數(shù)據(jù)集,手工標(biāo)注摘要句。方法在兩個(gè)數(shù)據(jù)集上都取得了較好的結(jié)果。

    基于統(tǒng)計(jì)的文本摘要方法較為直觀,抽取的特征相對(duì)簡單,因此方法較易實(shí)現(xiàn),但準(zhǔn)確率較低。這類方法同樣適用于中文文本摘要任務(wù)。

    9.2 基于圖模型的方法

    部分基于圖模型的方法也在自建數(shù)據(jù)集上進(jìn)行了測試。Hu等[28]認(rèn)為,對(duì)于Web文本來說,讀者的評(píng)論對(duì)于文本摘要等信息檢索任務(wù)是有價(jià)值的。提出的方法不僅考慮文本內(nèi)容本身,還將讀者的評(píng)論信息加入文本摘要抽取中,將評(píng)論作為節(jié)點(diǎn),將評(píng)論之間的關(guān)系作為邊,利用圖模型對(duì)評(píng)論的重要程度進(jìn)行打分。他們提出了兩種文本摘要方法: 一種通過評(píng)論中的關(guān)鍵詞來對(duì)候選摘要句進(jìn)行打分;另一種將原文本和評(píng)論組成一個(gè)“偽文本”,對(duì)該“偽文本”進(jìn)行摘要句的抽取。作者從兩大英文博客網(wǎng)站Cosmic Variance[注]http://blogs.discovermagazine.com/cosmicvariance#.Wy-yfqadLjIU/和IEBlog[注]https://blogs.msdn.microsoft.com/ie/中分別獲取了50篇文章作為實(shí)驗(yàn)語料,4個(gè)標(biāo)注者人工標(biāo)注摘要句。由于他們的方法結(jié)合了文章的評(píng)論,因此要求標(biāo)注者分別讀取博文和評(píng)論后再標(biāo)注出摘要句。

    Lin等[29]提出了一種基于情感信息的Page-Rank多文本情感摘要方法,作者同時(shí)考慮了情感和主題這兩方面的信息,提升了算法的準(zhǔn)確率。由于針對(duì)中文文本情感摘要的研究較少,公共語料缺乏,作者從亞馬遜中文網(wǎng)[注]https://www.amazon.cn中收集了15個(gè)產(chǎn)品的評(píng)論語料,每個(gè)產(chǎn)品包括200條評(píng)論,自建了包括15個(gè)主題的多文本摘要數(shù)據(jù)集。挑選出3名標(biāo)注者從每個(gè)主題的評(píng)論中抽取48個(gè)句子作為該主題的摘要句。

    9.3 基于詞法鏈的方法

    詞法鏈(lexical chain)[30]是一種描述篇章銜接性的理論體系,常用于文本摘要、情感分析等自然語言處理應(yīng)用中。Chen等[31]首次將詞法鏈方法應(yīng)用到中文文本摘要中,提出了一種基于詞法鏈的中文文本摘要方法。首先利用HowNet作為詞法鏈構(gòu)建知識(shí)庫,然后識(shí)別強(qiáng)詞法鏈,最后基于啟發(fā)式規(guī)則選取摘要句。從互聯(lián)網(wǎng)上隨機(jī)選取100篇中文新聞?wù)Z料自建數(shù)據(jù)集。對(duì)每篇文本,標(biāo)注壓縮率分別為10%和20%的摘要句。

    Yu等[32]在詞法鏈的基礎(chǔ)上,結(jié)合一些結(jié)構(gòu)特征,提出了一種基于詞法鏈和結(jié)構(gòu)特征的中文文本摘要方法。同樣利用HowNet構(gòu)建詞法鏈,結(jié)構(gòu)特征包括句子的位置(如是否是首句)等。利用詞法鏈特征和結(jié)構(gòu)特征進(jìn)行加權(quán)對(duì)句子重要程度進(jìn)行打分,選取摘要句。作者從互聯(lián)網(wǎng)上隨機(jī)選取50篇不同類別的中文新聞?wù)Z料自建數(shù)據(jù)集。對(duì)每篇文本,標(biāo)注壓縮率分別為10%,20%和30%的摘要句。

    Wu等[33]提出了個(gè)性化Web新聞的過濾和摘要系統(tǒng)PNFS。PNFS的新聞?wù)强偨Y(jié)并提取能夠刻畫新聞主題的關(guān)鍵詞。關(guān)鍵詞的提取是利用基于詞法鏈的方法[34],利用詞之間的語義相關(guān)性進(jìn)行詞義消歧并構(gòu)建詞法鏈。構(gòu)建的關(guān)鍵詞一方面可以提供給用戶一種精簡的閱讀形式,節(jié)省閱讀時(shí)間,另一方面可以用于構(gòu)建用戶興趣模型。作者從163新聞網(wǎng)站[注]http://news.163.com獲取了120篇中文新聞文章自建數(shù)據(jù)集,然后利用ICTCLAS[注]http://ictclas.nlpir.org進(jìn)行中文分詞。

    傳統(tǒng)詞法鏈主要由名詞和名詞短語構(gòu)成,缺少了動(dòng)詞等所包含的語義信息。Hou等[35]提出了全息詞法鏈(holographic lexical chain)并將其應(yīng)用到中文的單文本摘要中。全息詞法鏈包括名詞、動(dòng)詞和形容詞三類詞法鏈,這三類詞法鏈包括了文章的主要語義信息,因此稱為全息詞法鏈。根據(jù)句子中包含全息詞法鏈中詞的特征,利用Logistic回歸、支持向量機(jī)等機(jī)器學(xué)習(xí)方法學(xué)習(xí)摘要句。作者從互聯(lián)網(wǎng)上選取159篇外貿(mào)領(lǐng)域中文新聞?wù)Z料自建數(shù)據(jù)集。對(duì)每篇文本,人工標(biāo)注摘要句,進(jìn)行模型的訓(xùn)練和測試。

    9.4 基于篇章結(jié)構(gòu)的方法

    基于篇章結(jié)構(gòu)的方法是利用篇章結(jié)構(gòu)信息指導(dǎo)文本摘要的生成,典型方法包括Cheng等[36]提出的中文Web文本自動(dòng)摘要方法。作者首先分析段落之間的語義關(guān)聯(lián),將語義相近的段落合并,劃分出主題層次,進(jìn)而得到篇章結(jié)構(gòu)。在篇章結(jié)構(gòu)的指導(dǎo)下,使用統(tǒng)計(jì)方法,結(jié)合一些啟發(fā)式規(guī)則進(jìn)行關(guān)鍵詞和關(guān)鍵句子的提取,最終生成中文Web文本的摘要。作者從新浪[注]http://www.sina.com.cn、計(jì)算機(jī)世界報(bào)[注]http://www.ccw.com.cn等網(wǎng)站獲取了IT類文章,隨機(jī)選取了228篇文本自建語料庫。人工對(duì)其理解和分析,得到文本包含的主題及子主題、關(guān)鍵詞。作者認(rèn)為此方法人工分析工作量大,僅能選取少量文本進(jìn)行方法驗(yàn)證。

    這類方法利用了篇章結(jié)構(gòu)的信息,可以得到結(jié)構(gòu)上連貫、準(zhǔn)確率相對(duì)較高的結(jié)果。但是模型復(fù)雜度較高,并且缺少規(guī)模較大的篇章結(jié)構(gòu)數(shù)據(jù)集來進(jìn)行機(jī)器學(xué)習(xí)模型的訓(xùn)練和測試,已有方法都是在自建數(shù)據(jù)集上進(jìn)行提出方法的測評(píng)。

    9.5 基于機(jī)器學(xué)習(xí)的方法

    大部分基于機(jī)器學(xué)習(xí)的文本摘要方法是有監(jiān)督的方法,即需要有標(biāo)注的訓(xùn)練集和測試集。Hu等[37]提出了一種基于主題的中文單文本摘要方法。首先通過段落聚類發(fā)現(xiàn)文本所反映的主題,然后從每一個(gè)主題中選取與主題語義相關(guān)性最大的一句話作為摘要句,最后根據(jù)選取的摘要句在原文本中的順序組成最終的摘要。隨機(jī)選取200篇不同類型的中文文章自建語料庫,進(jìn)行提出方法的效果評(píng)估。

    Baumel等[38]提出了一種基于LDA主題模型(topic model)[39]的新型文本摘要任務(wù): 面向查詢的更新摘要方法(query-chain focused summarization)。更新摘要是假設(shè)已經(jīng)提取出部分摘要句,在避免冗余的前提下,將新內(nèi)容加入摘要中;而面向查詢的摘要是提取出與查詢相關(guān)的重要句子作為摘要句。結(jié)合這兩種任務(wù),將用戶多次查詢的結(jié)果生成更新摘要。也就是說,用戶的第n條查詢語句得到的結(jié)果要在前n-1條查詢語句結(jié)果摘要基礎(chǔ)上進(jìn)行更新摘要,最終生成的摘要是所有查詢語句得到的結(jié)果的摘要。

    選取來自“消費(fèi)者健康(consumer health)”領(lǐng)域的語料自建數(shù)據(jù)集。針對(duì)面向查詢的摘要,首先從PubMed[注]醫(yī)學(xué)、生命科學(xué)領(lǐng)域的科研文獻(xiàn)檢索數(shù)據(jù)庫,https://www.ncbi.nlm.nih.gov/pmc/中選取包括“氣喘(asthma)”、 “肺癌(lung cancer)”、 “肥胖癥(obesity)”和“老年癡呆(alzheimer)”四個(gè)關(guān)鍵詞的查詢語句,然后從英文Wiki[注]https://en.wikipedia.org/wiki/Wiki,WebMD[注]https://www.webmd.com等網(wǎng)上資源中獲取與查詢語句相關(guān)的文本,找醫(yī)學(xué)專業(yè)學(xué)生標(biāo)注文本摘要。最終得到人工標(biāo)注摘要186篇,作為訓(xùn)練和測試數(shù)據(jù)集。

    龐超等[40]結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的“編碼器—解碼器”結(jié)構(gòu)和基于分類的結(jié)構(gòu),提出一種理解式文本摘要方法。同時(shí),在“編碼器—解碼器”結(jié)構(gòu)中使用了“注意力”機(jī)制,提升了模型對(duì)于文本內(nèi)容的表達(dá)能力,進(jìn)一步提升了文本摘要的性能。作者從中國新聞網(wǎng)[注]http://www.chinanews.com獲取新聞內(nèi)容,自建語料庫。共包括120萬條語料,其中訓(xùn)練集90萬條,驗(yàn)證集20萬條,測試集10萬條。每條語料包括新聞標(biāo)題、新聞內(nèi)容和新聞?lì)悇e(分時(shí)政、國際、社會(huì)、財(cái)經(jīng)、金融、汽車、能源、文化、娛樂、體育、健康共11個(gè)類別)。

    10 經(jīng)典算法和最新方法用到的數(shù)據(jù)集

    本節(jié)調(diào)研了ACL、AAAI、EMNLP、ICJNLP和COLING等自然語言處理相關(guān)國際會(huì)議和部分期刊中的文本摘要方法相關(guān)文獻(xiàn),表7總結(jié)了經(jīng)典算法和最新方法相關(guān)文獻(xiàn)中用到的數(shù)據(jù)集。

    從表7可知,經(jīng)典算法和最新方法大都是基于深度學(xué)習(xí)的方法,也包括LexRank、TextRank等經(jīng)典方法。

    已有工作提出面向中英文文本摘要的通用方法,Lin等[43]的工作分別在LCSTS和Gigaword數(shù)據(jù)集上進(jìn)行了測評(píng)。

    當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)模型中,最常用的數(shù)據(jù)集是Gigaword、CNN/DM和LCSTS等大規(guī)模數(shù)據(jù)集。文本摘要數(shù)據(jù)集DUC/TAC的規(guī)模較小,但不適用于深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,已有深度神經(jīng)網(wǎng)絡(luò)模型通常在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。模型訓(xùn)練完成后,DUC/TAC數(shù)據(jù)集也是重要的測評(píng)標(biāo)準(zhǔn)。因此,DUC/TAC也是一種常用的文本摘要方法測評(píng)數(shù)據(jù)集。

    表7 文獻(xiàn)用到的數(shù)據(jù)集總結(jié)

    續(xù)表

    11 經(jīng)典方法在數(shù)據(jù)集上的實(shí)驗(yàn)效果分析

    為了對(duì)比經(jīng)典方法在數(shù)據(jù)集上的實(shí)驗(yàn)效果,本節(jié)以Gigaword數(shù)據(jù)集為例,分析對(duì)比了如下7種單文本生成式文本摘要方法在Gigaword數(shù)據(jù)集的訓(xùn)練集上進(jìn)行模型訓(xùn)練,在測試集上進(jìn)行測試的結(jié)果。

    ABS: Rush等[12]的基于“注意力”機(jī)制的“編碼器”和基于標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)的“解碼器”。

    ABS+: Rush等[12]在ABS的基礎(chǔ)上進(jìn)行了模型改進(jìn),利用DUC 2003數(shù)據(jù)集進(jìn)一步調(diào)整了參數(shù)。

    Luong-NMT: Chopra等[13]在ABS和ABS+基礎(chǔ)上進(jìn)行了改進(jìn),同樣利用了“編碼器—解碼器”模型,只是在“解碼器”中使用了一種條件循環(huán)神經(jīng)網(wǎng)絡(luò)。

    Feats2s: Nallapati等[14]在ABS+和Luong-NMT的基礎(chǔ)上,引入了傳統(tǒng)的TF-IDF、命名實(shí)體等語言學(xué)特征作為神經(jīng)網(wǎng)絡(luò)的輸入。

    SeqCopyNet: Zhou等[15]提出的“選擇性編碼”模型,基于一個(gè)已經(jīng)“編碼”好的句子,利用句子信息來判斷句中的詞是否重要,由此來構(gòu)建一個(gè)輸入句子中詞的新的表示。

    FTSum: Cao等[16]提出的提升信息量的 “編碼器—解碼器”模型,兩個(gè)“編碼器”分別用于句子本身和“主謂賓”結(jié)構(gòu)三元組的語義表示。

    Re3Sum: Cao等[18]提出的新的“端到端”的模型,將已有的摘要句看作是“軟模板”(soft tem-plate),作為參考來指導(dǎo)摘要的生成。

    表8是各種經(jīng)典模型在Gigaword數(shù)據(jù)集上的實(shí)驗(yàn)效果,其中評(píng)估標(biāo)準(zhǔn)采用ROUGE[74],一種通用的文本摘要評(píng)估標(biāo)準(zhǔn)。ROUGE計(jì)算模型輸出的摘要與參考摘要之間的一元詞、二元詞、三元詞及最長公共子串(longest common subsequence,LCS)等字符串的重合度。單文本摘要中常用的有ROUGE-1、ROUGE-2和ROUGE-L,分別表示模型輸出的摘要和參考摘要的一元詞、二元詞和LCS之間的重合度,本文也采用了這三種標(biāo)準(zhǔn)。

    從實(shí)驗(yàn)效果看,在大規(guī)模訓(xùn)練數(shù)據(jù)上,基于“注意力”機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型體現(xiàn)出了在單文本生成式文本摘要方面的有效性,在引入了傳統(tǒng)的人工語義特征后, 效果進(jìn)一步提升。為了進(jìn)一步提升生成摘要的質(zhì)量,已有方法在網(wǎng)絡(luò)結(jié)構(gòu)及信息輸入上進(jìn)行了改進(jìn)。例如,“SeqCopyNet”提出了選擇性門網(wǎng)絡(luò),可以選擇輸入句子中的重要部分?!癋TSum”引入了“主謂賓”結(jié)構(gòu),在ROUGE-1指標(biāo)上取得了當(dāng)前最好的結(jié)果。Re3Sum受傳統(tǒng)的基于模板的生成式摘要的啟發(fā),將已有的摘要句作為參考來指導(dǎo)摘要的生成,在ROUGE-2和ROUGE-L這兩個(gè)指標(biāo)上都取得了最好的效果。

    表8 經(jīng)典方法在Gigaword上的實(shí)驗(yàn)效果

    12 結(jié)論

    在文本摘要領(lǐng)域,目前已有多個(gè)公用數(shù)據(jù)集可用于方法的訓(xùn)練、驗(yàn)證和測試。通過對(duì)常用數(shù)據(jù)集的分析,可以得到如下結(jié)論:

    (1) 英文數(shù)據(jù)集較多,既包括百篇規(guī)模的DUC/TAC數(shù)據(jù)集,可以用于單文本摘要、多文本摘要等多種任務(wù),又包括Gigaword和CNN/DM等大規(guī)模數(shù)據(jù)集。中文數(shù)據(jù)集較少,目前中文只有LCSTS和NLPCC,并且LCSTS是短文本數(shù)據(jù)集,NLPCC規(guī)模較小,不適用于神經(jīng)網(wǎng)絡(luò)方法的訓(xùn)練。因此,缺少大規(guī)模中文長文本數(shù)據(jù)集。

    (2) 已有數(shù)據(jù)集中,除了DUC/TAC數(shù)據(jù)集可用于多文本摘要任務(wù)之外,其他數(shù)據(jù)集只適用于單文本摘要任務(wù)。

    (3) 就摘要方式來說,大部分?jǐn)?shù)據(jù)集只適用于生成式摘要方法的訓(xùn)練和測試,只有CNN/DM和DUC2002可用于抽取式摘要任務(wù)。

    (4) 隨著文本數(shù)量的激增,各領(lǐng)域?qū)ξ谋菊男枨笠苍絹碓蕉?。已有?shù)據(jù)集中,除ASNAPR和TAC2014,其余都是新聞?lì)愇谋?。因此,未來?yīng)有更多其他領(lǐng)域的文本摘要數(shù)據(jù)集被提出。

    從提出的文本摘要方法來看,除了已有的基于統(tǒng)計(jì)的方法、基于圖模型的方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法之外,隨著對(duì)神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的研究不斷深入,越來越多的工作提出了基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的方法。但由于深度學(xué)習(xí)模型相對(duì)復(fù)雜,待學(xué)習(xí)參數(shù)較多,因此需要在大規(guī)模數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,這類方法對(duì)于數(shù)據(jù)集的規(guī)模要求較高。

    對(duì)于Gigaword和LCSTS等大規(guī)模數(shù)據(jù)集,雖然在這些數(shù)據(jù)集上訓(xùn)練出的模型顯示出較好的效果,但是這些方法是數(shù)據(jù)驅(qū)動(dòng)的,對(duì)于數(shù)據(jù)的依賴性較強(qiáng)。未來研究中,不依賴訓(xùn)練數(shù)據(jù)特點(diǎn)的通用方法將更具實(shí)用性和可擴(kuò)展性。

    由于公用數(shù)據(jù)集較少,并且不同的任務(wù)需要有不同的數(shù)據(jù)集。對(duì)于一些特定任務(wù)(例如,對(duì)于評(píng)論的文本摘要,基于篇章結(jié)構(gòu)的文本摘要)的公用數(shù)據(jù)集更少。部分面向中英文的文本摘要方法通過自建數(shù)據(jù)集進(jìn)行方法的訓(xùn)練和測試,尤其是面向中文的文本摘要方法。

    隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的不斷深入,對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的需求和依賴也越來越高。不單單是對(duì)文本摘要任務(wù),對(duì)于其他自然語言處理任務(wù)如命名實(shí)體識(shí)別、情感分析,甚至計(jì)算機(jī)視覺領(lǐng)域,標(biāo)注數(shù)據(jù)也是不可或缺的。在缺少公用數(shù)據(jù)集的情況下,除了在自建數(shù)據(jù)集上進(jìn)行性能測試之外,半自動(dòng)的數(shù)據(jù)集構(gòu)建方法[75]會(huì)成為一個(gè)新的研究方向。

    猜你喜歡
    文本方法模型
    一半模型
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    可能是方法不對(duì)
    3D打印中的模型分割與打包
    用對(duì)方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    久久狼人影院| 亚洲色图 男人天堂 中文字幕| 狂野欧美激情性xxxx| 精品国产乱子伦一区二区三区| 老熟妇乱子伦视频在线观看| 中文字幕人成人乱码亚洲影| 国产高清有码在线观看视频 | 可以免费在线观看a视频的电影网站| 99国产精品99久久久久| 久久久久久九九精品二区国产 | 制服诱惑二区| 啦啦啦观看免费观看视频高清| 亚洲成人免费电影在线观看| 免费电影在线观看免费观看| 国产色视频综合| 老司机福利观看| 搡老熟女国产l中国老女人| 亚洲 国产 在线| 老汉色av国产亚洲站长工具| 99久久国产精品久久久| 久久热在线av| 欧美乱码精品一区二区三区| 在线观看www视频免费| 久久精品人妻少妇| 亚洲av电影在线进入| 99精品久久久久人妻精品| 黄色a级毛片大全视频| 一级黄色大片毛片| 草草在线视频免费看| а√天堂www在线а√下载| 十分钟在线观看高清视频www| 波多野结衣巨乳人妻| 欧美一区二区精品小视频在线| 亚洲国产欧洲综合997久久, | 自线自在国产av| 99在线人妻在线中文字幕| 青草久久国产| 可以在线观看毛片的网站| 亚洲精品在线美女| 国产一区二区激情短视频| 亚洲色图 男人天堂 中文字幕| 黄片播放在线免费| 国产高清视频在线播放一区| 90打野战视频偷拍视频| 亚洲成a人片在线一区二区| 亚洲中文日韩欧美视频| 久久婷婷成人综合色麻豆| 久久人人精品亚洲av| 男女床上黄色一级片免费看| 久久久精品欧美日韩精品| 男女之事视频高清在线观看| 亚洲国产欧美一区二区综合| 91国产中文字幕| 久9热在线精品视频| 老司机午夜十八禁免费视频| www国产在线视频色| 国产人伦9x9x在线观看| 最新美女视频免费是黄的| 精品国内亚洲2022精品成人| 欧美日本视频| 国产黄片美女视频| 妹子高潮喷水视频| 中文字幕人成人乱码亚洲影| 亚洲精品国产精品久久久不卡| 69av精品久久久久久| 亚洲av电影不卡..在线观看| 亚洲中文字幕日韩| 一进一出好大好爽视频| 99在线视频只有这里精品首页| 黄色a级毛片大全视频| 麻豆久久精品国产亚洲av| www.999成人在线观看| 两性夫妻黄色片| 人人澡人人妻人| 妹子高潮喷水视频| 日韩视频一区二区在线观看| 精品久久久久久成人av| 一区二区三区激情视频| 国产av不卡久久| 亚洲成人久久爱视频| 99国产精品99久久久久| 悠悠久久av| 哪里可以看免费的av片| 三级毛片av免费| 亚洲av成人一区二区三| 午夜福利欧美成人| 国产精品久久视频播放| 99精品在免费线老司机午夜| av中文乱码字幕在线| 叶爱在线成人免费视频播放| 国内久久婷婷六月综合欲色啪| 色老头精品视频在线观看| av在线播放免费不卡| 一个人观看的视频www高清免费观看 | 成人国产综合亚洲| 国产精品免费一区二区三区在线| 日韩av在线大香蕉| 在线av久久热| 亚洲国产欧洲综合997久久, | 午夜久久久在线观看| 黄色a级毛片大全视频| 欧美乱码精品一区二区三区| 一二三四在线观看免费中文在| 国产高清视频在线播放一区| 国产野战对白在线观看| 日韩精品免费视频一区二区三区| 亚洲国产欧洲综合997久久, | 色婷婷久久久亚洲欧美| 亚洲欧美精品综合一区二区三区| 久久精品人妻少妇| 国产精品久久久人人做人人爽| 最近最新中文字幕大全免费视频| 成人18禁在线播放| www.自偷自拍.com| 最近最新中文字幕大全免费视频| 国产片内射在线| 亚洲 欧美 日韩 在线 免费| 国产精品爽爽va在线观看网站 | 久久精品91蜜桃| 天堂√8在线中文| 国产成人av教育| 黑人操中国人逼视频| 天天躁狠狠躁夜夜躁狠狠躁| 91国产中文字幕| 精品久久久久久久人妻蜜臀av| 人人妻人人澡欧美一区二区| 最近最新免费中文字幕在线| 脱女人内裤的视频| 日韩 欧美 亚洲 中文字幕| 99riav亚洲国产免费| 免费观看精品视频网站| 美女大奶头视频| 夜夜爽天天搞| 波多野结衣巨乳人妻| 国产精品久久久av美女十八| 1024视频免费在线观看| 中文字幕av电影在线播放| 国产三级在线视频| 嫁个100分男人电影在线观看| 免费在线观看日本一区| 男人舔女人下体高潮全视频| 久9热在线精品视频| 久久精品国产综合久久久| 国产在线观看jvid| 国产av又大| 91在线观看av| 国产97色在线日韩免费| 久久精品亚洲精品国产色婷小说| 香蕉av资源在线| 久9热在线精品视频| 在线观看舔阴道视频| 午夜a级毛片| 一本一本综合久久| 欧美绝顶高潮抽搐喷水| 国产精品二区激情视频| 国产亚洲欧美98| 亚洲午夜精品一区,二区,三区| 1024香蕉在线观看| 女人被狂操c到高潮| 侵犯人妻中文字幕一二三四区| 十八禁网站免费在线| 精品无人区乱码1区二区| 日韩精品中文字幕看吧| 女生性感内裤真人,穿戴方法视频| 成年免费大片在线观看| 精品国产亚洲在线| 成在线人永久免费视频| 中文在线观看免费www的网站 | 精品久久久久久久毛片微露脸| 婷婷丁香在线五月| 男人舔女人的私密视频| 午夜福利在线观看吧| 日日摸夜夜添夜夜添小说| 亚洲国产精品sss在线观看| 高清毛片免费观看视频网站| 成人永久免费在线观看视频| 亚洲av成人av| 亚洲av电影不卡..在线观看| 亚洲av成人不卡在线观看播放网| 99riav亚洲国产免费| 色播在线永久视频| 国产成年人精品一区二区| 亚洲免费av在线视频| 变态另类成人亚洲欧美熟女| 亚洲九九香蕉| 怎么达到女性高潮| 草草在线视频免费看| 欧美日韩一级在线毛片| 黑人巨大精品欧美一区二区mp4| 国产精品日韩av在线免费观看| 色av中文字幕| av天堂在线播放| 中亚洲国语对白在线视频| 成人一区二区视频在线观看| 国产精品久久久久久精品电影 | 久久狼人影院| 97超级碰碰碰精品色视频在线观看| 久久国产精品影院| 男女之事视频高清在线观看| 精品高清国产在线一区| 亚洲成av片中文字幕在线观看| 久久久久久亚洲精品国产蜜桃av| 久久久久久九九精品二区国产 | 国内久久婷婷六月综合欲色啪| 天天躁夜夜躁狠狠躁躁| 又大又爽又粗| 成人国产综合亚洲| 香蕉丝袜av| 亚洲在线自拍视频| 亚洲欧美日韩无卡精品| 久久久精品国产亚洲av高清涩受| 国产乱人伦免费视频| 国产精品九九99| 99久久综合精品五月天人人| 国产精品久久久久久亚洲av鲁大| 亚洲成av人片免费观看| 午夜激情av网站| 久久久久久国产a免费观看| 国产精品久久电影中文字幕| 亚洲国产日韩欧美精品在线观看 | 热re99久久国产66热| 久久99热这里只有精品18| 久久这里只有精品19| 少妇熟女aⅴ在线视频| 欧美又色又爽又黄视频| 精品福利观看| 亚洲真实伦在线观看| 国产欧美日韩精品亚洲av| 午夜福利在线观看吧| 十分钟在线观看高清视频www| 熟妇人妻久久中文字幕3abv| 国产亚洲精品第一综合不卡| 听说在线观看完整版免费高清| 国产国语露脸激情在线看| 久久 成人 亚洲| 男人舔女人的私密视频| 久久久精品欧美日韩精品| 女人被狂操c到高潮| 岛国在线观看网站| 国内揄拍国产精品人妻在线 | 亚洲人成伊人成综合网2020| 女人爽到高潮嗷嗷叫在线视频| 国产精品久久久av美女十八| 69av精品久久久久久| 亚洲天堂国产精品一区在线| 自线自在国产av| 亚洲国产欧美一区二区综合| 国产人伦9x9x在线观看| 国产又色又爽无遮挡免费看| 国产单亲对白刺激| 久久久久亚洲av毛片大全| 亚洲五月婷婷丁香| 亚洲精品一卡2卡三卡4卡5卡| 亚洲人成77777在线视频| 九色国产91popny在线| 美女免费视频网站| 女人被狂操c到高潮| 老熟妇仑乱视频hdxx| 成人午夜高清在线视频 | 两个人视频免费观看高清| 99国产精品99久久久久| 久久久水蜜桃国产精品网| 亚洲第一电影网av| 一a级毛片在线观看| 免费在线观看亚洲国产| 18禁观看日本| 在线观看日韩欧美| 亚洲一区二区三区色噜噜| 国产精品久久久久久人妻精品电影| 一级毛片高清免费大全| 亚洲熟妇中文字幕五十中出| svipshipincom国产片| 国产三级在线视频| 免费在线观看成人毛片| 老熟妇仑乱视频hdxx| 日韩大码丰满熟妇| 日本成人三级电影网站| 人成视频在线观看免费观看| 不卡av一区二区三区| 十八禁网站免费在线| 国产私拍福利视频在线观看| 亚洲人成77777在线视频| av片东京热男人的天堂| 成人精品一区二区免费| 亚洲精品一区av在线观看| 免费女性裸体啪啪无遮挡网站| 看免费av毛片| 中文字幕人妻丝袜一区二区| xxx96com| 在线免费观看的www视频| 免费看日本二区| 亚洲av成人不卡在线观看播放网| 女警被强在线播放| 久久久久久人人人人人| 久久香蕉激情| 亚洲一区二区三区色噜噜| 中国美女看黄片| 色老头精品视频在线观看| 欧美性猛交╳xxx乱大交人| 脱女人内裤的视频| 亚洲精品美女久久av网站| 级片在线观看| 精品国产美女av久久久久小说| 91麻豆av在线| 精品国产一区二区三区四区第35| 欧美一级毛片孕妇| 丁香欧美五月| 免费看日本二区| 国产男靠女视频免费网站| 日本一区二区免费在线视频| 亚洲专区中文字幕在线| 日韩有码中文字幕| 好男人电影高清在线观看| 久久性视频一级片| 久久精品91蜜桃| 亚洲精品久久国产高清桃花| 亚洲五月色婷婷综合| 免费搜索国产男女视频| 国产精品99久久99久久久不卡| 久久中文字幕人妻熟女| 国产成+人综合+亚洲专区| or卡值多少钱| 色播在线永久视频| 听说在线观看完整版免费高清| 看免费av毛片| 一二三四社区在线视频社区8| 欧洲精品卡2卡3卡4卡5卡区| 美女免费视频网站| aaaaa片日本免费| 国产高清视频在线播放一区| 99在线视频只有这里精品首页| 亚洲三区欧美一区| 国产成人影院久久av| 欧美国产精品va在线观看不卡| 黑丝袜美女国产一区| 成人欧美大片| 日韩三级视频一区二区三区| 亚洲在线自拍视频| 日本精品一区二区三区蜜桃| 九色国产91popny在线| 一区二区日韩欧美中文字幕| 日韩欧美在线二视频| 亚洲第一av免费看| 精品午夜福利视频在线观看一区| 18禁黄网站禁片免费观看直播| 非洲黑人性xxxx精品又粗又长| 国产一区二区三区视频了| 这个男人来自地球电影免费观看| 变态另类成人亚洲欧美熟女| 一边摸一边抽搐一进一小说| 久热爱精品视频在线9| 亚洲av第一区精品v没综合| 国产亚洲精品av在线| 国产精品日韩av在线免费观看| 精品国产乱子伦一区二区三区| 国产免费av片在线观看野外av| 亚洲av电影不卡..在线观看| 男女下面进入的视频免费午夜 | 国产亚洲精品av在线| 黄色视频不卡| 国产1区2区3区精品| 老汉色av国产亚洲站长工具| 欧美最黄视频在线播放免费| 欧美激情极品国产一区二区三区| 免费一级毛片在线播放高清视频| 亚洲成av片中文字幕在线观看| 制服人妻中文乱码| 国产主播在线观看一区二区| www.精华液| 精华霜和精华液先用哪个| 日韩一卡2卡3卡4卡2021年| 一进一出抽搐gif免费好疼| 午夜免费激情av| 婷婷精品国产亚洲av| 大型av网站在线播放| 不卡av一区二区三区| 亚洲av第一区精品v没综合| 欧美乱色亚洲激情| 亚洲欧美一区二区三区黑人| 在线十欧美十亚洲十日本专区| 久久中文字幕人妻熟女| 熟妇人妻久久中文字幕3abv| 搡老妇女老女人老熟妇| 又黄又爽又免费观看的视频| 69av精品久久久久久| 欧美国产精品va在线观看不卡| 免费看美女性在线毛片视频| 久99久视频精品免费| 欧美一区二区精品小视频在线| 久9热在线精品视频| 12—13女人毛片做爰片一| 1024手机看黄色片| 亚洲专区中文字幕在线| 亚洲成a人片在线一区二区| 亚洲精品在线观看二区| 97超级碰碰碰精品色视频在线观看| 亚洲精品在线观看二区| 首页视频小说图片口味搜索| 搡老岳熟女国产| 国产成人欧美在线观看| 日韩 欧美 亚洲 中文字幕| 亚洲avbb在线观看| 久久中文看片网| 午夜免费鲁丝| 免费高清在线观看日韩| 亚洲最大成人中文| 在线观看午夜福利视频| 麻豆久久精品国产亚洲av| 操出白浆在线播放| 精品久久久久久,| 特大巨黑吊av在线直播 | 伦理电影免费视频| 亚洲成av片中文字幕在线观看| 日日夜夜操网爽| 视频区欧美日本亚洲| 在线观看舔阴道视频| 黄频高清免费视频| 国产黄片美女视频| 香蕉国产在线看| 精品电影一区二区在线| xxxwww97欧美| 一区福利在线观看| 黄片播放在线免费| or卡值多少钱| 亚洲一区中文字幕在线| 这个男人来自地球电影免费观看| 日韩欧美 国产精品| x7x7x7水蜜桃| 国产一区在线观看成人免费| 国产aⅴ精品一区二区三区波| 亚洲av成人av| 好看av亚洲va欧美ⅴa在| 日日干狠狠操夜夜爽| 国产黄片美女视频| tocl精华| 亚洲精品在线观看二区| 熟女少妇亚洲综合色aaa.| 午夜免费观看网址| 亚洲av中文字字幕乱码综合 | 在线十欧美十亚洲十日本专区| 天天添夜夜摸| e午夜精品久久久久久久| 曰老女人黄片| 久久久国产精品麻豆| 我的亚洲天堂| 草草在线视频免费看| 国产单亲对白刺激| 日韩欧美国产一区二区入口| 亚洲色图 男人天堂 中文字幕| 在线观看免费视频日本深夜| 啪啪无遮挡十八禁网站| 精品第一国产精品| 亚洲电影在线观看av| а√天堂www在线а√下载| 欧美乱码精品一区二区三区| 19禁男女啪啪无遮挡网站| 久久国产精品人妻蜜桃| 午夜a级毛片| 成人亚洲精品av一区二区| 久久国产乱子伦精品免费另类| 女警被强在线播放| 国产一区二区三区视频了| 中国美女看黄片| 婷婷精品国产亚洲av| 免费搜索国产男女视频| 日本熟妇午夜| 亚洲精华国产精华精| 国产一区二区三区视频了| 麻豆国产av国片精品| 欧美日本亚洲视频在线播放| 国产久久久一区二区三区| 日韩欧美三级三区| 9191精品国产免费久久| 人成视频在线观看免费观看| 国产成人欧美| 少妇的丰满在线观看| 在线永久观看黄色视频| 一级毛片高清免费大全| 日韩av在线大香蕉| 12—13女人毛片做爰片一| 欧美丝袜亚洲另类 | 在线观看66精品国产| 午夜精品久久久久久毛片777| av中文乱码字幕在线| 午夜成年电影在线免费观看| 免费高清视频大片| 不卡av一区二区三区| 嫁个100分男人电影在线观看| 韩国精品一区二区三区| 国产极品粉嫩免费观看在线| 国产三级在线视频| 午夜久久久久精精品| 国产亚洲欧美在线一区二区| 少妇熟女aⅴ在线视频| 久久性视频一级片| 午夜影院日韩av| 正在播放国产对白刺激| 色综合站精品国产| 午夜激情av网站| 别揉我奶头~嗯~啊~动态视频| 欧美日本亚洲视频在线播放| 久久午夜综合久久蜜桃| 免费高清在线观看日韩| 少妇 在线观看| 人人妻人人澡人人看| 精华霜和精华液先用哪个| 国产精品一区二区免费欧美| 香蕉丝袜av| 熟女电影av网| 桃色一区二区三区在线观看| 国产私拍福利视频在线观看| 韩国av一区二区三区四区| 中国美女看黄片| 欧美+亚洲+日韩+国产| 欧美中文综合在线视频| 亚洲中文av在线| 老熟妇乱子伦视频在线观看| 亚洲成人久久爱视频| 男女下面进入的视频免费午夜 | 久久天堂一区二区三区四区| 亚洲av成人一区二区三| 久久精品成人免费网站| 精品人妻1区二区| 在线播放国产精品三级| 久久久精品欧美日韩精品| 国产精品免费视频内射| 精品一区二区三区四区五区乱码| 在线永久观看黄色视频| 欧美日本视频| 国产精华一区二区三区| 在线视频色国产色| 精品国产乱子伦一区二区三区| 搡老妇女老女人老熟妇| 亚洲精品中文字幕在线视频| 精品欧美一区二区三区在线| 久久久水蜜桃国产精品网| 日韩精品中文字幕看吧| 可以在线观看的亚洲视频| 男人舔女人下体高潮全视频| 久久国产亚洲av麻豆专区| 久久久久久久精品吃奶| 国产精品综合久久久久久久免费| 欧美另类亚洲清纯唯美| 国产精品九九99| 少妇熟女aⅴ在线视频| 国产色视频综合| 在线视频色国产色| 免费在线观看日本一区| 欧美zozozo另类| 老熟妇仑乱视频hdxx| 午夜久久久在线观看| av有码第一页| 亚洲av五月六月丁香网| 在线观看日韩欧美| 国产av一区二区精品久久| 看黄色毛片网站| 午夜福利在线观看吧| 女人高潮潮喷娇喘18禁视频| 日本一本二区三区精品| 亚洲七黄色美女视频| 午夜视频精品福利| 精品久久久久久成人av| 国产精品爽爽va在线观看网站 | 欧美zozozo另类| 男人舔女人的私密视频| www.熟女人妻精品国产| 亚洲性夜色夜夜综合| 在线观看www视频免费| 91麻豆av在线| 琪琪午夜伦伦电影理论片6080| 侵犯人妻中文字幕一二三四区| 99热6这里只有精品| 久久婷婷人人爽人人干人人爱| 在线观看舔阴道视频| 欧美成狂野欧美在线观看| 精品国产一区二区三区四区第35| 日日摸夜夜添夜夜添小说| 18美女黄网站色大片免费观看| 国产野战对白在线观看| 看免费av毛片| cao死你这个sao货| 久久久久亚洲av毛片大全| 黑人欧美特级aaaaaa片| 亚洲aⅴ乱码一区二区在线播放 | 黑丝袜美女国产一区| 欧美又色又爽又黄视频| xxx96com| 亚洲aⅴ乱码一区二区在线播放 | 香蕉丝袜av| 少妇粗大呻吟视频| 欧美国产日韩亚洲一区| 俄罗斯特黄特色一大片| 免费在线观看影片大全网站| 成人18禁在线播放| 少妇裸体淫交视频免费看高清 | 精品国产一区二区三区四区第35| 波多野结衣巨乳人妻| 男人的好看免费观看在线视频 | av超薄肉色丝袜交足视频| 国产精品久久久久久亚洲av鲁大| 日本一本二区三区精品| 亚洲黑人精品在线| 婷婷精品国产亚洲av在线| 欧美一级a爱片免费观看看 | 亚洲欧洲精品一区二区精品久久久| 国产亚洲精品久久久久5区| 日本免费一区二区三区高清不卡| 丰满人妻熟妇乱又伦精品不卡| 91av网站免费观看| 999久久久国产精品视频| 成人18禁高潮啪啪吃奶动态图| 亚洲欧美一区二区三区黑人| 欧美亚洲日本最大视频资源| 成人18禁在线播放| 亚洲av第一区精品v没综合|