葉 娜,蔡?hào)|風(fēng)
(沈陽(yáng)航空航天大學(xué) 知識(shí)工程研究中心, 遼寧 沈陽(yáng) 110136)
多文檔自動(dòng)摘要(Multi-Document Summarization)的任務(wù)是識(shí)別多篇同主題文檔中的有用信息,壓縮其中的冗余信息,生成一篇簡(jiǎn)短、流暢的摘要。該技術(shù)可以幫助用戶快速形成對(duì)特定主題的全面了解,提高獲取信息的效率。
多文檔摘要可分為一般性摘要(General Summarization)和面向查詢的摘要(Query-Focused Summarization)。與一般性摘要不同,面向查詢的多文檔摘要允許用戶提交當(dāng)前主題下自己最為關(guān)心的問(wèn)題,并根據(jù)問(wèn)題的要求生成摘要,為用戶帶來(lái)更大的便利。
在面向查詢的多文檔摘要領(lǐng)域,研究人員已經(jīng)做了許多工作。Goldstein[1]將文檔切分為基本片段,過(guò)濾掉與查詢相關(guān)度低的片段,利用MMR(Maximum Marginal Relevance)技術(shù)消除信息冗余,生成摘要。Pingali[2]設(shè)計(jì)了基于句子與查詢的相關(guān)度和無(wú)關(guān)度兩方面因素的打分函數(shù)進(jìn)行內(nèi)容選擇。NeATS系統(tǒng)[3]利用WordNet[4]進(jìn)行查詢擴(kuò)展,并根據(jù)文檔句里的基本要素[5](Basic Elements)數(shù)目對(duì)句子排序,作為選擇摘要內(nèi)容的依據(jù),并使用簡(jiǎn)化的MMR技術(shù)來(lái)消除冗余。GISTexter系統(tǒng)[6]用句法分析器對(duì)查詢進(jìn)行分解,將分解后的查詢送入文檔集檢索,識(shí)別出相關(guān)的句子,并對(duì)句子進(jìn)行聚類,從每個(gè)簇選擇文本以消除冗余。Filippova[7]利用相關(guān)網(wǎng)頁(yè)資源對(duì)查詢進(jìn)行擴(kuò)展,過(guò)濾掉與查詢匹配度低的句子,并依據(jù)新穎度(Novelty)對(duì)余下的句子進(jìn)行排序。
從上述研究現(xiàn)狀來(lái)看,目前面向查詢的多文檔摘要技術(shù)存在兩個(gè)問(wèn)題。第一,為了保證所生成的摘要與查詢密切相關(guān),現(xiàn)有方法通常選取與查詢之間相似度較高的句子加入摘要。但是這種策略容易造成摘要句之間的內(nèi)容重復(fù),影響摘要的全面性。雖然一些研究人員采用了冗余消除技術(shù)[1,3,6]來(lái)提高摘要的覆蓋率,但仍然無(wú)法很好地解決這個(gè)問(wèn)題。實(shí)際上,與查詢的相關(guān)程度只是影響內(nèi)容選擇的一個(gè)因素,除此之外,還應(yīng)該從整個(gè)文檔集的角度出發(fā),盡量全面地選擇信息。第二,在計(jì)算文檔句與查詢的相關(guān)度時(shí),僅使用原始查詢難以準(zhǔn)確地描述用戶的隱含意圖,需進(jìn)行查詢擴(kuò)展。而現(xiàn)有方法多依賴語(yǔ)義詞典[3,6]和大規(guī)模語(yǔ)料庫(kù)[7]等外部知識(shí)和資源,來(lái)識(shí)別詞語(yǔ)之間的深層語(yǔ)義關(guān)系,在一定程度上受限于具體領(lǐng)域。
針對(duì)以上問(wèn)題,本文提出一種基于主題分析的面向查詢的多文檔摘要方法。其基本思想是,同一主題下的文檔集包含多個(gè)子主題,分別論述主題的不同側(cè)面。子主題信息將為摘要提供有價(jià)值的線索。文獻(xiàn)[8-10]曾提出基于子主題的多文檔摘要方法,但這些算法適用于一般性摘要任務(wù),而本文的研究重點(diǎn)是面向查詢的摘要。
本文利用主題分析技術(shù),識(shí)別出子主題,并綜合考慮子主題與查詢的相關(guān)度以及子主題在當(dāng)前主題下的重要度兩方面因素,對(duì)子主題進(jìn)行打分排序,從排序靠前的子主題中選取句子形成摘要,使得摘要在符合查詢要求的前提下,覆蓋更多的子主題,更全面地反映文檔集的主要內(nèi)容。另外,本文認(rèn)為,詞語(yǔ)在不同子主題下的共現(xiàn)越頻繁,其語(yǔ)義相關(guān)性越強(qiáng)。通過(guò)選取與查詢?cè)~的子主題分布最為相似的詞語(yǔ),可以在不依賴外部語(yǔ)義資源和知識(shí)的情況下,對(duì)查詢進(jìn)行擴(kuò)展。在DUC2006評(píng)測(cè)語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,與Baseline系統(tǒng)相比,本系統(tǒng)取得了更高的ROUGE評(píng)價(jià)值,基于子主題的查詢擴(kuò)展方法則進(jìn)一步提高了摘要的質(zhì)量。
圖1為本文提出的SEG_SUM摘要方法的系統(tǒng)流程圖??梢钥闯?,系統(tǒng)主要分為主題分析、查詢擴(kuò)展、子主題篩選排序和摘要生成等階段。
圖1 SEG_SUM摘要系統(tǒng)流程圖
本文先對(duì)文檔進(jìn)行了預(yù)處理,包括去除html標(biāo)記、分句、禁用詞過(guò)濾和詞根還原等。為了識(shí)別當(dāng)前主題下的子主題,對(duì)目標(biāo)文檔集進(jìn)行了主題分析,包括主題分割和語(yǔ)義段落聚類兩個(gè)步驟。
1) 主題分割
主題分割是一項(xiàng)較為成熟的技術(shù),其任務(wù)是自動(dòng)識(shí)別出一篇文本內(nèi)部不同子主題的邊界,并將其線性分割開(kāi)來(lái),形成多個(gè)語(yǔ)義段落,其中相鄰的語(yǔ)義段落論述不同的子主題。目前方法[11-13]主要是利用一些語(yǔ)言學(xué)線索,如新詞出現(xiàn)、重現(xiàn)特性、命名實(shí)體和代詞使用、線索短語(yǔ)等來(lái)判斷文本的主題連貫性,從而識(shí)別子主題邊界。本文使用C99算法[12]進(jìn)行主題分割。該算法不需外部資源,僅利用文檔內(nèi)部的詞匯重現(xiàn)信息,分割效果較好,并且可以自動(dòng)確定語(yǔ)義段落數(shù)目。
2) 語(yǔ)義段落聚類
對(duì)文檔集內(nèi)每篇文檔進(jìn)行主題分割后,需要對(duì)全部語(yǔ)義段落進(jìn)行聚類,得到子主題集合。本文采用自底向上的聚類方法,其基本過(guò)程如下:
設(shè)語(yǔ)義段落集合Ω= {S1,S2, …,Sn}
STEP1:計(jì)算n個(gè)語(yǔ)義段落兩兩之間的相似度Sim(Si,Sj),記為初始相似度矩陣。
STEP2:初始構(gòu)造n個(gè)簇,每個(gè)語(yǔ)義段落自成一簇。
STEP3:尋找相似度矩陣中的最小元素,合并相似度最小的兩簇形成一個(gè)新語(yǔ)義段落簇。
STEP4:計(jì)算新簇與當(dāng)前各簇的相似度,更新相似度矩陣。若矩陣中的最大值高于閾值threshold,則跳至步驟3,否則跳至步驟5。
STEP5:輸出聚類結(jié)果,即子主題集合Φ={T1,T2, …,TN}。
在聚類過(guò)程中,涉及到兩個(gè)相似度計(jì)算過(guò)程,一是語(yǔ)義段落之間的相似度,二是語(yǔ)義段落簇之間的相似度。語(yǔ)義段落之間的相似度通過(guò)向量余弦來(lái)計(jì)算。語(yǔ)義段落簇之間的相似度計(jì)算方法是,將兩個(gè)簇內(nèi)語(yǔ)義段落之間的最小相似度作為兩個(gè)簇的相似度。
假設(shè)兩個(gè)語(yǔ)義段落詞頻向量分別為x=(x1,x2,…,xn) 和y=(y1,y2,…,yn),則其相似度為:
(1)
假設(shè)兩個(gè)語(yǔ)義段落簇分別為Ti={Si1,Si2, …,Sin} 和Tj={Sj1,Sj2, …,Sjn},則其相似度為:
(2)
首先識(shí)別出原始查詢中的關(guān)鍵詞,將查詢表示為關(guān)鍵詞集合Q={w1,w2, …,wt}。
為了進(jìn)行查詢擴(kuò)展,需要找到與查詢關(guān)鍵詞語(yǔ)義最為相關(guān)的詞語(yǔ)。本文認(rèn)為,詞語(yǔ)的主題相關(guān)性可以反映其語(yǔ)義相關(guān)性。如果兩個(gè)詞wi和wj同時(shí)出現(xiàn)于子主題T內(nèi),那么這兩個(gè)詞具有一定的主題相關(guān)性,也就是可以反映同一個(gè)子主題的內(nèi)容,說(shuō)明它們?cè)谝欢ǔ潭壬险Z(yǔ)義相關(guān)。兩個(gè)詞共現(xiàn)的子主題越多,即在子主題之間的分布越相似,表示它們的語(yǔ)義相關(guān)性越強(qiáng)。
本文將詞語(yǔ)表示為子主題向量w=(t1,t2, …,tN)。其中如果詞w在子主題Ti中出現(xiàn)過(guò),那么ti取值為1,否則取值為0。通過(guò)向量余弦來(lái)計(jì)算兩個(gè)詞之間的主題相關(guān)度。
假設(shè)詞x和詞y的子主題向量分別為x=(x1,x2,…,xN) 和y=(y1,y2,…,yN),則它們之間的主題相關(guān)度為:
(3)
對(duì)于每個(gè)查詢關(guān)鍵詞wi,選取文檔集里與之主題相關(guān)度最大的詞來(lái)進(jìn)行擴(kuò)展,形成擴(kuò)展詞集合Q′,則擴(kuò)展后的查詢Qs=Q∪Q′。
面向查詢的多文檔摘要系統(tǒng)中,為保證摘要內(nèi)容與查詢密切相關(guān),需要對(duì)子主題進(jìn)行篩選,過(guò)濾掉與查詢無(wú)關(guān)或相關(guān)度低的子主題。同時(shí)由于摘要長(zhǎng)度的限制,摘要應(yīng)盡量覆蓋當(dāng)前主題下的重要子主題,因此還需根據(jù)重要度對(duì)相關(guān)子主題進(jìn)行排序。
1) 子主題篩選
本文過(guò)濾掉與查詢之間相關(guān)度為0的子主題,得到與查詢相關(guān)的子主題。相關(guān)度計(jì)算方法是,將查詢與子主題內(nèi)每個(gè)句子之間的最大相似度值作為查詢與子主題的相關(guān)度。其中查詢與子主題句之間的相似度通過(guò)向量余弦來(lái)計(jì)算。
假設(shè)查詢和子主題句的詞頻向量分別為q=(q1,q2,…,qn) 和s=(s1,s2,…,sn),則它們之間的相似度為:
(4)
假設(shè)子主題T有m個(gè)句子,則子主題可表示為句子集合T={t1,t2,…,tm},查詢q與子主題T之間的相關(guān)度為:
(5)
2) 子主題排序
本文認(rèn)為,子主題的重要程度可以根據(jù)其大小來(lái)度量。包含句子個(gè)數(shù)較多的子主題由于在原始文本中所占的篇幅比例較大,可認(rèn)為是描述了當(dāng)前主題下較為重要的側(cè)面,應(yīng)優(yōu)先予以涵蓋。因此本文將子主題所包含的句子數(shù)目m作為子主題的重要度,對(duì)相關(guān)子主題進(jìn)行排序,選擇前K個(gè)子主題,用于最終的摘要生成。
至此得到了與查詢相關(guān)的K個(gè)重要的子主題有序序列。從第一個(gè)子主題開(kāi)始,循環(huán)選取其中與查詢相似度最大的句子作為摘要句,連接起來(lái)形成摘要,直到摘要長(zhǎng)度達(dá)到最大長(zhǎng)度限制為止。其中重要度較高的子主題可能貢獻(xiàn)出多個(gè)摘要句,這是符合實(shí)際情況的,即對(duì)于較重要的主題側(cè)面,摘要應(yīng)涵蓋其中的更多內(nèi)容。
本文使用DUC2006評(píng)測(cè)中用于面向查詢的多文檔摘要任務(wù)的語(yǔ)料來(lái)評(píng)價(jià)摘要系統(tǒng)的性能。該語(yǔ)料共包含50個(gè)測(cè)試文檔集,均為英文語(yǔ)料。語(yǔ)料中的文章來(lái)自美聯(lián)社(Associated Press)、《紐約時(shí)報(bào)》(New York Times)和新華美通(Xinhua Newswire)的新聞報(bào)道。每個(gè)文檔集里面有25篇文檔和一個(gè)topic statement,其中指出了文檔集的主題和需要回答的問(wèn)題。每個(gè)文檔集由4名評(píng)委分別做出人工摘要,作為標(biāo)準(zhǔn)答案。系統(tǒng)提交的摘要規(guī)定為250個(gè)詞。
實(shí)驗(yàn)使用DUC2006會(huì)議提供的ROUGE-1.5.5工具包[14]對(duì)摘要進(jìn)行評(píng)價(jià)。該工具包用多個(gè)評(píng)價(jià)指標(biāo)實(shí)現(xiàn)了對(duì)摘要的自動(dòng)評(píng)價(jià)。評(píng)價(jià)指標(biāo)包括:ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4、ROUGE-L、ROUGE-W、ROUGE-S和ROUGE-SU。對(duì)于多文檔摘要的評(píng)價(jià)來(lái)講,ROUGE-1、ROUGE-2、ROUGE-S4、ROUGE-SU4等幾個(gè)指標(biāo)的評(píng)價(jià)效果較好。
為了進(jìn)行對(duì)比實(shí)驗(yàn),本文構(gòu)建了一個(gè)Baseline系統(tǒng),系統(tǒng)的設(shè)計(jì)遵循面向查詢的多文檔摘要系統(tǒng)的一般框架。首先,利用2.2小節(jié)的公式(1)計(jì)算文檔集里的每個(gè)句子與查詢的相似度,據(jù)此對(duì)句子進(jìn)行排序,選取相似度較高的句子,作為摘要的候選句;然后,為了減少摘要中的冗余,使用了一個(gè)簡(jiǎn)化的MMR方法,即計(jì)算句子與當(dāng)前摘要的重復(fù)度,若重復(fù)度低于閾值t,則將句子加入摘要,直至達(dá)到最大字?jǐn)?shù)為止。
本文在DUC2006評(píng)測(cè)語(yǔ)料上對(duì)Baseline系統(tǒng)、未進(jìn)行查詢擴(kuò)展的SEG_SUM_NE系統(tǒng),以及SEG_SUM系統(tǒng)的摘要結(jié)果進(jìn)行了對(duì)比。
SEG_SUM_NE和SEG_SUM系統(tǒng)有兩個(gè)參數(shù),即聚類的閾值threshold和子主題的個(gè)數(shù)K。Baseline系統(tǒng)也有一個(gè)參數(shù),即摘要重復(fù)度的閾值t。參數(shù)的選擇對(duì)于摘要系統(tǒng)的性能有一定影響。為得到系統(tǒng)的最優(yōu)參數(shù),本文進(jìn)行了5重交叉檢驗(yàn)。將全部測(cè)試語(yǔ)料隨機(jī)分為5部分,每次選取4部分作為訓(xùn)練語(yǔ)料,余下的1部分作為測(cè)試語(yǔ)料。表1為進(jìn)行5重交叉檢驗(yàn)后選擇的各個(gè)系統(tǒng)的最優(yōu)參數(shù)值。
表1 交叉檢驗(yàn)估計(jì)出的系統(tǒng)參數(shù)值
表2給出了各個(gè)摘要系統(tǒng)的對(duì)比實(shí)驗(yàn)結(jié)果。
表2 與Baseline系統(tǒng)的對(duì)比實(shí)驗(yàn)結(jié)果
對(duì)比實(shí)驗(yàn)結(jié)果表明,與baseline系統(tǒng)相比,基于主題分析的SEG_SUM系統(tǒng)取得了更好的評(píng)價(jià)結(jié)果,ROUGE-1、ROUGE-2、ROUGE-S4和ROUGE-SU4召回率分別提高了9.2%、18.7%、16.0%和15.8%。
從表2中還可以看出,進(jìn)行查詢擴(kuò)展后,生成的摘要質(zhì)量有所提高,ROUGE-1、ROUGE-2、ROUGE-S4和ROUGE-SU4召回率與未擴(kuò)展時(shí)相比,分別提高了2.3%、7.3%、5.3%和4.9%。這表明基于子主題分布的查詢擴(kuò)展方法是有效的。詞語(yǔ)之間的子主題相關(guān)度能夠從一定程度上反映其語(yǔ)義相關(guān)度。
通過(guò)分析SEG_SUM系統(tǒng)和Baseline系統(tǒng)生成的摘要,我們發(fā)現(xiàn),前者所涉及的方面較廣,涵蓋了文檔集內(nèi)與查詢相關(guān)的多個(gè)事件或論點(diǎn)。而B(niǎo)aseline系統(tǒng)主要根據(jù)句子與查詢的相似度來(lái)生成摘要,并不考慮摘要中的子主題分布情況,經(jīng)常造成大量摘要句來(lái)自同一子主題的現(xiàn)象,雖然Baseline系統(tǒng)通過(guò)計(jì)算文本重復(fù)度,盡量防止加入內(nèi)容重復(fù)的摘要句,從一定程度上緩解了這個(gè)問(wèn)題,但仍難以保證摘要中信息的全面性。
以評(píng)測(cè)語(yǔ)料中的D0603C文檔集為例,該文檔集的主題和查詢描述如圖2所示。
圖2 D0603C評(píng)測(cè)文檔集的主題和查詢描述
對(duì)于上述文檔集,DUC提供的標(biāo)準(zhǔn)摘要的內(nèi)容涉及濕地對(duì)于生態(tài)環(huán)境的重要作用、濕地受到威脅和破壞的原因、濕地的衰竭現(xiàn)狀、保護(hù)濕地的拉姆薩爾公約、世界各國(guó)(包括烏干達(dá)、中國(guó)、美國(guó)等)為保護(hù)和管理濕地采取的措施、濕地保護(hù)受到的阻礙等多個(gè)方面??梢?jiàn)人工書(shū)寫的摘要涵蓋的信息極為廣泛,內(nèi)容豐富多樣。
而B(niǎo)aseline系統(tǒng)生成的摘要中,有3個(gè)句子都是關(guān)于中國(guó)保護(hù)濕地的信息,可以歸為同一個(gè)子主題。該子主題占據(jù)了摘要中將近一半的篇幅。來(lái)自相同子主題的句子多次出現(xiàn),一方面增加了摘要的冗余度,另一方面使得摘要不得不丟棄了其余的重要信息,降低了摘要的覆蓋度。實(shí)際上,Baseline系統(tǒng)主要通過(guò)句子與查詢的相關(guān)度來(lái)提取摘要,雖然系統(tǒng)也考慮了降低摘要句之間的重復(fù)度,但實(shí)驗(yàn)結(jié)果表明,這個(gè)問(wèn)題仍無(wú)法很好地解決。
在SEG_SUM系統(tǒng)中,主題分析模塊將中國(guó)保護(hù)濕地的相關(guān)信息合并為一個(gè)子主題,從該子主題內(nèi)僅提取1個(gè)代表句,同時(shí)兼顧其余重要子主題,生成了冗余度低、覆蓋度高的摘要,取得了更好的性能。
本文也與系統(tǒng)DUC2006參賽系統(tǒng)[15]的評(píng)測(cè)性能進(jìn)行了比較。DUC2006評(píng)測(cè)還提供了一個(gè)Baseline系統(tǒng)。其實(shí)現(xiàn)方法是從最新的文檔里抽取前250個(gè)詞作為摘要。實(shí)驗(yàn)也引用了該系統(tǒng)的性能作為對(duì)比。DUC2006采用ROUGE-2和ROUGE-SU4的召回率作為主要評(píng)價(jià)指標(biāo)。
表3 與DUC參賽系統(tǒng)的對(duì)比實(shí)驗(yàn)結(jié)果
與DUC2006參賽系統(tǒng)相比,SEG_SUM系統(tǒng)的性能高于參賽系統(tǒng)的總體平均性能,其中ROUGE-2召回率高出7.6%,ROUGE-SU4召回率高出0.5%。但是,大部分參賽系統(tǒng)都利用了語(yǔ)言工具、外部語(yǔ)料和人工構(gòu)造的知識(shí)庫(kù)等資源的幫助,以實(shí)現(xiàn)對(duì)文檔內(nèi)容的深層理解。而SEG_SUM系統(tǒng)僅對(duì)文檔進(jìn)行淺層分析,利用詞匯分布和文檔結(jié)構(gòu)特點(diǎn)進(jìn)行主題分析,進(jìn)而根據(jù)子主題的詞匯使用和大小等表層信息,識(shí)別出與查詢相關(guān)的重要子主題,生成摘要。系統(tǒng)不依賴于任何外部資源,是一種獨(dú)立于具體領(lǐng)域的方法。
本文提出了一種面向查詢的多文檔摘要方法。該方法利用主題分析技術(shù)所提供的子主題信息,綜合考慮子主題與查詢的相關(guān)度及其在當(dāng)前主題下的重要度,對(duì)子主題進(jìn)行篩選和排序,并從中分別選取代表句生成摘要。由于涵蓋了與查詢相關(guān)的多個(gè)重要子主題,因此摘要在符合查詢要求的前提下,更全面地覆蓋了當(dāng)前主題下的重要信息。本文還利用詞語(yǔ)在子主題之間的分布情況,提出了不依賴任何外部語(yǔ)義資源的查詢擴(kuò)展方法。在DUC2006評(píng)測(cè)語(yǔ)料上進(jìn)行的對(duì)比實(shí)驗(yàn)結(jié)果表明,查詢擴(kuò)展是有效的,同時(shí)與baseline系統(tǒng)相比,SEG_SUM系統(tǒng)取得了更好的摘要性能。
在未來(lái)的工作中,我們將考慮對(duì)摘要句進(jìn)行修剪,削除其中的修飾性成分,以進(jìn)一步提高摘要的覆蓋率。語(yǔ)義分析、指代消解和語(yǔ)言生成技術(shù)也將進(jìn)一步改善摘要質(zhì)量。
[1] Jade Goldstein, Mark Kantrowitz, Vibhu Mittal, et al. Summarizing Text Documents:Sentence Selection and Evaluation Metrics[C]//Proceedings of SIGIR-99. Berkeley, CA. 1999:121-128.
[2] Prasad Pingali, Rahul K and Vasudeva Varma. IIIT Hyderabad at DUC 2007[C]//Proceedings of DUC 2007. 2007.
[3] Liang Zhou, Chin-Yew Lin, and Eduard Hovy. A BE-based Multi-document Summarizer with Query Interpretation[C]//Proceedings of DUC 2005. B.C. Canada. 2005.
[4] G.A. Miller. WordNet:A Lexical Databases for English. Communications of the ACM[J]. New York. 1995:39-41.
[5] Eduard Hovy, Chin-Yew Lin, Junichi Fukumoto. Automated Summarization Evaluation With Basic Elements[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation. 2006.
[6] Finley Lacatusu, Andrew Hickl. LCC’s GISTexter at DUC 2006:Multi-Strategy Multi-Document Summarization[C]//Proceedings of DUC 2006. 2006.
[7] Katja Filippova, Mihai Surdeanu, Massimiliano Ciaramita, et al. Company-Oriented Extractive Summarization of Financial News[C]//Proceedings of the 12th Conference of the European Chapter of the ACL, Athens, Greece. 2009:246-254.
[8] 秦兵, 劉挺, 陳尚林,等. 多文檔文摘中句子優(yōu)化選擇方法研究[J].計(jì)算機(jī)研究與發(fā)展, 2006, 43(6):1129-1134.
[9] 鄭義, 黃萱菁, 吳立德. 文本自動(dòng)綜述系統(tǒng)的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2003, 40(11):1606-1611.
[10] Kathleen R. McKeown, Judith L. Klavans, Vasileios Hatzivassiloglou, et al. Towards multi-document summarization by reformulation:Progress and prospects[C]//Proceedings of the 17th National Conference on Artificial Intelligence. 1999.
[11] Olivier Ferret. Finding document topics for improving topic segmentation[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic. 2007:480-487.
[12] Freddy Y. Y. Choi. Advances in domain independent linear text segmentation[C]//Proceedings of North American chapter of the Association for Computational Linguistics annual meeting. Seattle. 2000.
[13] Fragkou Pavlina, Petridis Vassilios, Kehagias Athanasios. A Dynamic Programming Algorithm for Linear Text Segmentation[J]. Journal of Intelligent Information Systems. 2004, 23(2):179-197.
[14] Chin-Yew Lin. Looking for a few good metrics:ROUGE and its evaluation[C]//Proceedings of NTCIR Workshop. Tokyo, Japan. 2004.
[15] Hoa Trang Dang. Overview of DUC 2006[C]//Proceedings of DUC 2006. 2006