羅文娟,馬慧芳,何 清,史忠植
(1.中國科學(xué)院計(jì)算技術(shù)研究所,北京100190;2.中國科學(xué)院 研究生院,北京100190;3.西北師范大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,甘肅蘭州730070)
自動摘要技術(shù)作為一種典型的文本抽取技術(shù),是自然語言處理、信息檢索、文本挖掘等文檔信息處理技術(shù)的有益補(bǔ)充[1]。自動摘要技術(shù)興起于20世紀(jì)60年代[2],主要目的在于幫助用戶花很少的代價(jià)去獲取文檔的主要信息[3]。根據(jù)產(chǎn)生摘要目的的不同,自動摘要技術(shù)分為基于查詢的摘要技術(shù)和通用摘要技術(shù)[4]。
其中,基于查詢的摘要技術(shù)強(qiáng)調(diào)根據(jù)查詢條件生成摘要,而通用摘要技術(shù)更側(cè)重于掌握文章大意,獲得文章的概要描述。另一方面,根據(jù)是否生成新的語句,自動摘要技術(shù)分為基于抽取的摘要技術(shù)和基于概括的摘要技術(shù)?;诔槿〉恼夹g(shù)直接從文章中抽取完整的語句作為摘要,而基于概括的摘要技術(shù)在理解文章的基礎(chǔ)上重新組織語句生成摘要[5]。
特別地,對于基于抽取的自動摘要技術(shù),主要有三類不同的抽取方法:(1)自然語言理解方法(Natural Language Processing Approach);(2)知識工程方法(Knowledge Engineering Approach);(3)機(jī)器學(xué)習(xí)方法(Machine Learning Approach)。自然語言理解方法主要采用自然語言處理技術(shù)對文章理解、歸納后進(jìn)行信息抽取;知識工程方法依靠人工編寫抽取模式,使系統(tǒng)能處理特定知識領(lǐng)域的信息抽取問題。機(jī)器學(xué)習(xí)方法利用機(jī)器學(xué)習(xí)技術(shù)通過訓(xùn)練文本來進(jìn)行摘要預(yù)測[1]。在本文中,我們主要采用機(jī)器學(xué)習(xí)方法從文檔中抽取句子進(jìn)而生成通用摘要。
一般而言,用于文檔摘要技術(shù)的機(jī)器學(xué)習(xí)方法分為有監(jiān)督和無監(jiān)督兩大類[6]。典型的無監(jiān)督自動摘要技術(shù)如潛在語義分析(Latent Semantic Analysis)[7]、非負(fù)矩陣分解(Non-negative Matrix Factorizatoin)[8]通過對文檔詞頻矩陣的分解得到文檔更簡練的表達(dá)方式進(jìn)而抽取摘要。此外,無監(jiān)督自動摘要技術(shù)還包括基于圖的排序算法,如 HITS[9]、PageRank[10]以及Manifold-Ranking[11]等。此類算法從圖的角度理解文檔,采用點(diǎn)表示文檔中的句子,采用邊描述句子之間的相似度,最后運(yùn)用特定的排序算法對句子進(jìn)行排序進(jìn)而抽取摘要[10]。
有監(jiān)督自動摘要技術(shù)采取特征向量表示句子,把摘要抽取問題看作分類或回歸問題,通過有監(jiān)督的機(jī)器學(xué)習(xí)方法學(xué)習(xí)文檔,生成摘要預(yù)測模型[12]。因此,如何從句子中抽取有利于摘要生成的啟發(fā)式特征,成為有監(jiān)督自動摘要技術(shù)發(fā)展的一個(gè)難題。
我們認(rèn)為,高質(zhì)量的文檔摘要應(yīng)該滿足以下兩點(diǎn)要求:(1)緊湊——文檔摘要應(yīng)該是原始文檔的無冗余信息抽取;(2)高覆蓋率——盡可能多地覆蓋原始文檔涉及的主題,這保證生成的文檔摘盡量少的丟失信息。特別地,我們認(rèn)為緊湊是句子之間相關(guān)關(guān)系的一種度量,而覆蓋率是句子自身信息含量的一種度量。我們的目的在于生成最大限度覆蓋文檔所有主題的簡約摘要。不難發(fā)現(xiàn),為擴(kuò)大摘要的覆蓋率,增加摘要信息含量的同時(shí)可能帶來信息的冗余,而為了獲得簡約摘要又有可能以降低覆蓋率為代價(jià)。故而,高質(zhì)量的摘要是緊湊性和覆蓋率的完美權(quán)衡。
在本文中,我們定義了熵用以度量句子自身的覆蓋率,定義了相關(guān)度用以度量句子之間的相關(guān)關(guān)系。具體地,我們定義了絕對熵、平均熵、TFISF(Term Frequency-Inverse Sentence Frequency)熵、平均TFISF熵和相對熵以度量文檔的覆蓋率;前向、后向和對稱相關(guān)度以度量文檔的緊湊性。我們采用線性回歸和 ELM(Extreme Learning Machine)回歸對上述特征及特征組合的效果進(jìn)行了系統(tǒng)的實(shí)驗(yàn),單文檔摘要和多文檔摘要的實(shí)驗(yàn)結(jié)果表明權(quán)衡熵和相關(guān)度能有效地提高摘要的質(zhì)量。
本文的結(jié)構(gòu)如下:第2節(jié)給出各種特征抽取的定義和計(jì)算公式;第3節(jié)給出問題的形式化定義和基于回歸的有監(jiān)督摘要技術(shù)的相關(guān)算法;第4節(jié)給出實(shí)驗(yàn)結(jié)果用以驗(yàn)證特征抽取的有效性;第5節(jié)對整篇文章進(jìn)行了總結(jié)。
有監(jiān)督的自動摘要技術(shù)通過把語句表示成特征向量,運(yùn)用機(jī)器學(xué)習(xí)方法選擇句子作為文檔摘要。在本文中,除了熵和相關(guān)度以外,我們還采用到的其他典型的句子特征[7]包括:句子位置、句子長度、句子的似然值、句子主題詞個(gè)數(shù)、句子中低頻詞的個(gè)數(shù)、句子中兩項(xiàng)關(guān)鍵詞個(gè)數(shù)以及句子和其他句子共有的詞數(shù)。
為度量句子本身的信息含量,我們引入信息論中的熵用以度量句子的覆蓋率。特別地,根據(jù)句子詞頻向量矩陣的不同表示,我們定義了以下五種熵。
2.1.1 絕對熵
由于詞頻向量中非零詞頻多為1,故而較長的句子對應(yīng)較大的絕對熵。該特征會傾向于選擇較長的句子作為摘要。
2.1.2 平均熵
為了減少絕對熵對長句的傾向,我們提出平均熵,它是對絕對熵的平均,它的計(jì)算公式如下:
由上式可知,平均熵加入了對句子長度的懲罰,會傾向于選擇較短的句子作為摘要。
假設(shè)句子xi長度為n,句中單詞詞頻均為1,代入絕對熵的計(jì)算公式,可得E(xi)=log(n);代入平均熵的計(jì)算公式,可得E(xi)=log(n)/n。不難看出,當(dāng) n>e時(shí),平均熵為句子長度的減函數(shù),故而相較于絕對熵,平均熵引入對句子長度的懲罰,使得抽取的特征轉(zhuǎn)為傾向于選擇短句。
2.1.3 TFISF熵
TFISF熵的計(jì)算公式與絕對熵的計(jì)算公式相似,它們的區(qū)別在于絕對熵采用文檔詞頻矩陣,而TFISF熵采用TFISF矩陣。給定文檔的TFISF詞頻矩陣表示B,對于B中一個(gè)行向量Bi代表第i個(gè)句子,f1j表示單詞j在句子i中的句子逆句子頻數(shù),fij的計(jì)算公式如下:
其中,nij代表單詞j在句i中出現(xiàn)的次數(shù),|S|代表文檔中的句子總數(shù),代表所有包含單詞j的句子總數(shù)。
相對于絕對熵,TFISF熵對句子的詞頻考慮更加合理,對高頻詞的懲罰一定程度上考慮了句子中單詞的新穎性。
2.1.4 平均TFISF熵
由TFISF熵的計(jì)算公式可以看出,相比于絕對熵,它對每一個(gè)高頻的詞給出一個(gè)對數(shù)懲罰項(xiàng)。與平均熵的想法類似,我們對TFISF熵加入一個(gè)對句子長度的懲罰項(xiàng),進(jìn)而得到平均TSISF熵的計(jì)算公式:
其中,pij的定義和TFISF熵中的pij一致,可以看出,這個(gè)特征在一定程度上考慮了句子中單詞的新穎性,并且傾向于選擇短句。
2.1.5 相對熵
我們認(rèn)為句子的信息量只與它含有的不同單詞個(gè)數(shù)有關(guān),重復(fù)單詞不增加句子的信息量。單詞的信息量僅與它在文檔中出現(xiàn)的概率相關(guān)。按照信息論的相關(guān)內(nèi)容,單詞出現(xiàn)的概率越小,它的信息量越高。
相對熵的計(jì)算公式與絕對熵的計(jì)算公式相似,它們的區(qū)別在于絕對熵的計(jì)算基于文檔詞頻矩陣,而相對熵的計(jì)算則基于文檔的相對詞頻矩陣。給定文檔的相對詞頻表示C,對于C中的一個(gè)行向量Ci=[fi1,fi2,fi3,…,fin],Ci代表第i個(gè)句子,f1j表示單詞j在句子i中的相對詞頻,fij的計(jì)算公式如下:
其中,nij代表單詞j在句子i中出現(xiàn)的次數(shù),從上述相對詞頻的計(jì)算公式中,我們可以看到句子的詞頻表示不再統(tǒng)計(jì)單詞在句子中出現(xiàn)的次數(shù),僅依賴于單詞在整篇文檔中的相對詞頻。因此,相對詞頻從文檔全局角度對單詞的信息量進(jìn)行統(tǒng)計(jì)。相對熵的計(jì)算公式如下:
在相對熵這樣一種度量框架下,一個(gè)包含大量高頻詞的句子會比一個(gè)包含大量低頻詞的句子具有更小的相對熵。注意到過量選擇含有大量高頻詞的句子可能會導(dǎo)致信息冗余,而采用相對熵則有利于選擇文檔中比較新穎的句子。
相對熵的計(jì)算僅從句子中的單詞在全文中出現(xiàn)的概率出發(fā),在這種度量下,句子的長短不再直接影響到相對熵,故而,本文沒有引入對平均相對熵的討論。
為度量句子之間的緊湊關(guān)系,我們提出相關(guān)度這一概念。我們利用句子之間的相似度來統(tǒng)計(jì)句子的相關(guān)度,計(jì)算公式如下:
其中,x代表文檔,xi和xj分別代表第i和第j個(gè)句子。R(xi)代表xi的相關(guān)度,S(xi,xj)代表xi和xj之間的相似度。特別地,根據(jù)句子之間相似度的不同計(jì)算公式,我們定義了以下三種相關(guān)度。
2.2.1 前向相關(guān)度
前向相關(guān)度是指相似度的計(jì)算基于前向圖的相關(guān)度,其中,前向相似度的計(jì)算如下:
其中,Overlap(xi,xj)代表xi和xj之間共有的單詞個(gè)數(shù),length(xj)指的是xj的長度。
2.2.2 后向相關(guān)度
后向相關(guān)度是指相似度基于后向圖的相關(guān)度,其中,后向相似度的計(jì)算如下:
其中,Overlap(xi,xj)和length(xi)與前向相關(guān)度中的定義一致。
2.2.3 對稱相關(guān)度
對稱相關(guān)度是指相似度基于對稱圖的相關(guān)度,其中,后向相似度的計(jì)算如下:其中,Overlap(xi,xj)和length(xi)與前向相關(guān)度中的定義一致。
從以上相關(guān)度的計(jì)算公式中,我們可以看出各種相關(guān)度的計(jì)算基于句子之間相似度,因而該特征度量的是句子之間的相關(guān)關(guān)系。
在本文中,我們采用基于回歸的模型對訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),生成的模型將用于目標(biāo)摘要預(yù)測,我們選擇預(yù)測得分高的句子作為最終摘要。下面先給出問題的形式化定義。
在回歸模型框架下,對每一個(gè)句子 xi,都有一個(gè)對應(yīng)的yi表示xi是否屬于摘要。特別地,在本文中,假定句子抽取的特征共m維,對于文檔中的句子 xi形式化表示為:2,…,n},其中 xij表示句i的特征j,yi表示的是句子i的 ROUGE-2-P得分,關(guān)于ROUGE得分,我們會在實(shí)驗(yàn)部分給出說明。通過回歸模型,我們構(gòu)造以下的判別函數(shù):
目標(biāo)是使解得的φT具有最小預(yù)測誤差。我們按照以下公式選擇句子作為摘要:
對于線性回歸模型[13],假定:
使用最小二乘誤差估計(jì)β,可得:
極小化最小二乘誤差,對上式中的β求導(dǎo),可得:
根據(jù)產(chǎn)生的β*,按照下式選擇摘要:
ELM回歸模型[14]和線性回歸模型的區(qū)別在于β的求解方法不同。對于有M個(gè)隱層神經(jīng)元的單隱層前饋網(wǎng)絡(luò)(SLFNs),ELM優(yōu)化目標(biāo)可表示為:
其中
在上式當(dāng)中,函數(shù)g(?)的目標(biāo)是盡量逼近訓(xùn)練數(shù)據(jù),使得訓(xùn)練誤差為0。在ELM 模型下,問題可以形式化為:
Hβ =Y,其中
上式的求解用到了Moore-Penrose的廣義逆矩陣[14],β的一種解為:
其中,H+就是矩陣H的Moore-Penrose廣義逆矩陣。最后,我們按照式(16)選擇摘要。
我們給出基于回歸的自動摘要算法,假定訓(xùn)練文檔集共有n條語句,測試文檔集共有m條語句,算法流程如下:
算法1:基于回歸的自動摘要算法
輸入:訓(xùn)練文檔集 X=[x1,…,xn;y1,…,yn],其中 xi是句子i的特征向量表示,yi是xi的 ROUGE得分;測試文檔集 T=[t1,…,tm];摘要句數(shù) K。
輸出:文檔集T的摘要集S。
步驟1:把X作為輸入,對于線性回歸模型,采用式(15)解得 β*,對于 ELM 回歸模型,采用式(19)解得β*;
步驟2:O=β*?T,得到文檔集 T的回歸得分O;
步驟3:對于 T中每篇文檔,根據(jù)(16)式選擇得分最高的K條句子作為摘要S。
為了權(quán)衡覆蓋率和緊湊性,我們采用了不同的特征及特征組合進(jìn)行了系統(tǒng)的實(shí)驗(yàn),用以驗(yàn)證權(quán)衡熵和相關(guān)度對于摘要質(zhì)量的影響。
我們把特征抽取用于單文檔和多文檔摘要,采用的標(biāo)準(zhǔn)數(shù)據(jù)是公測數(shù)據(jù)DUC2001和DUC 2005,其中DUC2001用于測試單文檔摘要,DUC2005用于測試多文檔摘要。
為了驗(yàn)證抽取特征的有效性,我們對所有抽取的特征都進(jìn)行了實(shí)驗(yàn),并且采用了線性回歸和ELM回歸,與沒有加入抽取特征的實(shí)驗(yàn)結(jié)果進(jìn)行對比,對抽取特征的有效性進(jìn)行了驗(yàn)證。
同時(shí),為了驗(yàn)證驗(yàn)證算法的有效性,對于同樣的數(shù)據(jù)集,我們也實(shí)現(xiàn)了一些經(jīng)典算法如LSA,HITS和RANDOM[12]等,分別用于單文檔和多文檔摘要,用于驗(yàn)證算法的有效性。
4.1.1 數(shù)據(jù)預(yù)處理
我們首先把文檔分解成句子集合,進(jìn)而進(jìn)行特征抽取,并且采用了Porter Stemming[16]工具對單詞進(jìn)行了處理。其中,單文檔摘要數(shù)據(jù)集包含147個(gè)文件合計(jì)6721條語句,多文檔摘要數(shù)據(jù)集包含50個(gè)主題,1593個(gè)文件,合計(jì)48109條語句。
4.1.2 度量標(biāo)準(zhǔn)
我們采用ROUGE[15]工具包對摘要質(zhì)量進(jìn)行評測。在ROUGE評測標(biāo)準(zhǔn)里,有以下幾項(xiàng)評測度量:1.ROUGE-N-R,它是以長度為N的單詞串為計(jì)算單元的摘要的召回率:
2.ROUGE-N-R,它是以長度為N的單詞串為計(jì)算單元的摘要的準(zhǔn)確率:
3.ROUGE-N-F,它是 ROUGE-N-R 和 ROUGEN-R的F度量:
在上述度量公式中,N是gramn中的單詞串長度,s代表摘要中的句子,y*代表用本文的方法生成的摘要,y代表文檔的標(biāo)準(zhǔn)摘要。Countmatch(gramn)代表y和y*共有的長度為N的詞組數(shù),Count(gramn)代表的是相應(yīng)的摘要中的長度為N的單詞串總數(shù)。
4.2.1 單文檔摘要實(shí)驗(yàn)結(jié)果
單一特征抽取的實(shí)驗(yàn)結(jié)果詳見表1。抽取特征組合的實(shí)驗(yàn)結(jié)果詳見表2。本文方法與其他摘要算法的比較詳見表3。
表1的結(jié)果表明對于線性回歸和ELM回歸,熵和相關(guān)度的加入使得各項(xiàng) ROUGE得分有所變化。從表2中,我們可以看出熵和相關(guān)度的組合基本上提高了兩種回歸方法的ROUGE-1-R得分。這表明,權(quán)衡熵和相關(guān)度使得生成的摘要在緊湊性和覆蓋率之間取得了更好的平衡。對于同一種回歸方法,不同的熵和相關(guān)度組合導(dǎo)致不同的覆蓋率和緊湊性的權(quán)衡進(jìn)而影響摘要質(zhì)量。此外,對于同一種特征組合,線性回歸和ELM回歸生成摘要質(zhì)量的不同表明不同的回歸方法在覆蓋率和緊湊性之間的權(quán)衡也不相同。特別地,對于同一種熵,后向相關(guān)度的表現(xiàn)優(yōu)于其他相關(guān)度,這一結(jié)果和Rada M.[9]的實(shí)驗(yàn)結(jié)果一致,即:在文檔的圖表示中,后向圖表示最為有效。上述實(shí)驗(yàn)結(jié)果表明權(quán)衡熵和相關(guān)度能有效地提高摘要質(zhì)量。
表1 線性回歸和ELM回歸特征抽取各項(xiàng)ROUGE得分——單文檔摘要
表2 線性回歸和ELM回歸特征組合ROUGE-1-R得分——單文檔摘要
表3 線性回歸和ELM回歸與其他算法結(jié)果比較——單文檔摘要
表3給出了線性回歸和ELM回歸在DUC01數(shù)據(jù)集上的結(jié)果與其他典型摘要算法的結(jié)果對比,結(jié)果表明本文算法有效地提高了摘要質(zhì)量。其中,Indstr-SVM[12]算法是到本文算法提出為止對于DUC01數(shù)據(jù)集表現(xiàn)最好的算法。相較于此算法,可以看出,權(quán)衡熵和相關(guān)度能更有效地提高摘要質(zhì)量。
圖1給出了各種特征組合的ROUGE-1-R得分,從圖中我們可以看出,加入相關(guān)度和熵的特征組合后,ROUGE-1-R得分基本優(yōu)于僅采用基本特征的ROUGE-1-R得分,這證明了權(quán)衡熵和相關(guān)度的有效性,進(jìn)一步驗(yàn)證了高質(zhì)量的摘要是覆蓋率和緊湊性的完美平衡。
圖1 線性回歸和ELM回歸特征組合ROUGE-1-R得分——單文檔摘要
4.2.2 多文檔摘要實(shí)驗(yàn)結(jié)果
單文檔摘要的實(shí)驗(yàn)結(jié)果表明,有效地權(quán)衡熵和相關(guān)度能提高生成摘要的質(zhì)量,為進(jìn)一步驗(yàn)證這一觀點(diǎn),我們采用DUC2005的多文檔摘要數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。相較于DUC2001的有標(biāo)注摘要,DUC2005的數(shù)據(jù)缺乏對句子的標(biāo)注信息,為此我們采用DUC2001的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),DUC2005作為測試數(shù)據(jù),具體實(shí)驗(yàn)結(jié)果詳見表4。本文算法與其他經(jīng)典摘要算法的比較詳見表5。
表4 線性回歸和ELM回歸特征組合ROUGE-2-R得分——多文檔摘要
表5 線性回歸和ELM回歸與其他算法結(jié)果比較——多文檔摘要
從表4中我們可以看出,對于線性回歸和ELM回歸,相對于僅采用基本特征的情況,抽取的特征組合基本使得 ROUGE得分有所提高。與單文檔摘要一致,對于同一種熵,后向相關(guān)度的表現(xiàn)也優(yōu)于其他相關(guān)度。而對于同一種相關(guān)度,不同的熵對應(yīng)的特征組合產(chǎn)生的摘要質(zhì)量不盡相同。這進(jìn)一步說明了不同的特征組合是對覆蓋率和緊湊性的不同權(quán)衡。另外,不同的回歸方法對應(yīng)的最佳特征組合并不相同,證明了對熵和相關(guān)度的不同權(quán)衡會對摘要質(zhì)量產(chǎn)生的影響不同。上述實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了有效的采用特征組合對摘要的緊湊性和覆蓋率進(jìn)行權(quán)衡能夠提高摘要質(zhì)量,高質(zhì)量的摘要是緊湊性和高覆蓋率的最佳權(quán)衡。
表5給出了對于多文檔摘要,本文提出線性回歸和ELM回歸與其他經(jīng)典摘要算法生成摘要質(zhì)量的對比結(jié)果。多文檔摘要實(shí)驗(yàn)結(jié)果證明了權(quán)衡熵和相關(guān)度能更有效地提高摘要質(zhì)量。
本文提出了高質(zhì)量摘要的兩個(gè)要求——緊湊和高覆蓋率,針對這兩個(gè)要求,本文從文檔特征抽取的角度出發(fā),采用基于回歸的有監(jiān)督摘要技術(shù),對單文檔摘要和多文檔摘要進(jìn)行實(shí)驗(yàn),研究了不同的特征組合對于摘要質(zhì)量的影響。實(shí)驗(yàn)結(jié)果表明不同的特征組合影響的是覆蓋率和緊湊性之間的權(quán)衡,進(jìn)而影響生成摘要的質(zhì)量。同時(shí),與其他經(jīng)典摘要算法的比較結(jié)果也證明了有效的權(quán)衡熵和相關(guān)度能夠提高生成摘要的質(zhì)量。
[2]仇晶.基于機(jī)器學(xué)習(xí)的文本信息抽取技術(shù)的研究[D].北京:北京理工大學(xué)博士學(xué)位論文,2009.
[3]H.P.L..The automatic creation of literature abstracts[J].IBM Journal of Research and Development,1958.
[4]Dou S.,Jian-Tao S.,Hua L.,Qiang Y.,et al.Document summmarization using conditional random fields[C]//Proceedings of International Joint Conference On Artificial Intelligence,pp.2862-2867,2007.
[5]John M.C.,Dianne P.O..Text summarization via hidden markov models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Developmentin Information Retrieval,2001.
[6]Shafiq R.J..Automatic Annotation Techniques for Supervised and Semi-supervised Query-focused Summarization[C]//Proceedings of ACL09,2009.
[7]Karen S.J..Automatic summarizing:The state of the art[J].Information processingand M anagement,2007,43:1449-1481.
[8]Yihong G.,X.Liu.Generic text summarization using relevance measure and latent semantic analysis[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2001.
[8]Ju-Hong L.,Sun P.,Chan-Min A.,Daeho K..Automatic generic document summarization based on nonnegative matrix factorization[J].Information Processing and Management,45:22-34,2009.
[9]Rada M..Language independent extractive summarization[C]//Proceedings of the 20th national conference on Artificial Intelligence,Vol.4,pp.1688-1689,2005.
[10]Dou S.,QiangY.,Zheng C..Noise reduction through summariation for web-page classification[J].Information Processing and Management,42:1735-1747,2007.
[11]Xiaojun W.Jianwu Y.Jianguo X..Manifol-d-Ranking Based Topic-Focused M ulti-Document Summarization[C]//Proceedings ofIJCAI07, pp.2903-2908,2007.
[12]Liangda L.,Ke Z.,Gui-Rong X.,Hongyuan Z.,et al.Enhancing diversity,coverage and balance for summarization through structure learning[C]//Proceedings ofWWW '09,Vol.4825,pp.71-80,2009.
[13]Douglas C.M.,Elizabeth A.P.,Geoffery G V..Introduction to linear regression analysis[M].Wiley,2nd edition,1992.
[14]Guang-Bin H.,Qin-Yu Z.,Chee-Kheong S..Extreme learning machine:A new learning scheme of feedforward neural networks[C]//Proceedings of International Joint Conference on Neural Networks,vol.2,pp.985-990,2004.
[15]Chin Y.L.,Eduard H..Automatic evaluation of summaries using n-gram co-occurrence statistics[C]//Proceedings of HLT-NAACL2003,pp.71-78,2003.
[16]Martin F.P..An algorithm for suffix stripping[J].Program,1980,14(3):130-137.