熊 嬌,王明文,李茂西,萬(wàn)劍怡
(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)
多文檔自動(dòng)摘要通過(guò)給人們提供簡(jiǎn)潔全面的多文檔信息來(lái)提高人們獲取信息的效率。多文檔自動(dòng)摘要的主要方法分為兩種: 抽取式摘要和生成式摘要。前者主要從多篇原始文檔中抽取出一些重要的句子來(lái)組成最后的摘要;后者則需要計(jì)算機(jī)在理解原文的基礎(chǔ)上,重新組織能夠表達(dá)文本主要信息的句子,作為摘要句[1-3]。本文針對(duì)抽取式多文檔自動(dòng)摘要方法進(jìn)行研究。
近年來(lái),許多研究方法被應(yīng)用到文檔摘要系統(tǒng)上,其中以基于質(zhì)心[4-5]和基于圖模型[6-9]的兩種方法尤為突出?;谫|(zhì)心的方法主要是從文檔集中選擇一些比較重要的質(zhì)心詞(每個(gè)詞的tf*idf值在給定的閾值范圍內(nèi))構(gòu)成一個(gè)能代表文檔的中心句子,然后將文檔中所有句子同生成的中心句子進(jìn)行相似度比較,挑選出與中心句子相似度較高的句子作為文檔的摘要。Radev提出的MEAD[10]就是一個(gè)基于質(zhì)心的摘要系統(tǒng),對(duì)于相關(guān)文檔類中的每一個(gè)句子,MEAD分別計(jì)算質(zhì)心得分、位置信息以及同第一個(gè)句子(可能是文檔的標(biāo)題)的重復(fù)率這3個(gè)特征,然后將其線性組合起來(lái)確定出得分最高的句子。
而基于圖模型的方法則主要是將文檔集構(gòu)建成一個(gè)以句子為頂點(diǎn),各頂點(diǎn)句子之間的余弦相似度構(gòu)成邊關(guān)系的圖模型。Radev在2004年提出的LexRank[6]就是這樣的一個(gè)模型,基于這個(gè)基礎(chǔ)再利用類似PageRank[11]算法對(duì)這個(gè)圖模型各頂點(diǎn)求出一個(gè)排序得分,然后在規(guī)定的摘要長(zhǎng)度內(nèi)挑選出得分排在前面的句子組成摘要,但是這種模型僅僅只是考慮了句子之間的關(guān)系。Wei等人提出將文檔信息也加入到圖模型中,構(gòu)建文檔敏感圖模型(Document-Sensitive Ranking model,DsR),利用文檔集的全局信息對(duì)多文檔內(nèi)的句子的影響,將句子與句子之間的關(guān)系分為跨文檔關(guān)系與同一文檔內(nèi)關(guān)系,從而將文檔之間的相關(guān)信息融合到句子之間的信息中,達(dá)到提高系統(tǒng)摘要質(zhì)量的目的[12]。但是文檔所包含的信息太寬泛,對(duì)于句子信息的影響不是很大,因此可以嘗試融合更多的文本信息,從而使得生成的摘要更為準(zhǔn)確。
在信息檢索相關(guān)工作中,Blanco和Lioma采取固定滑動(dòng)窗口大小的方法得到詞項(xiàng)間的共現(xiàn)關(guān)系,若兩個(gè)詞項(xiàng)同時(shí)出現(xiàn)在窗口內(nèi),則可以看作這兩詞項(xiàng)之間有邊相連,構(gòu)建詞項(xiàng)的無(wú)向無(wú)權(quán)圖,然后采用類似PageRank算法的隨機(jī)游走方法根據(jù)詞項(xiàng)頂點(diǎn)的入度和出度計(jì)算詞項(xiàng)在文檔中的權(quán)重[13-14]。Rousseau等也是通過(guò)同樣的方法得到詞項(xiàng)的共現(xiàn)關(guān)系,同時(shí)還根據(jù)詞項(xiàng)出現(xiàn)的位置關(guān)系得到詞項(xiàng)間的順序關(guān)系,從而構(gòu)造出關(guān)于文檔詞項(xiàng)的有向無(wú)權(quán)圖,不同于Blanco等確定邊的權(quán)重方法,這里的邊的權(quán)重僅僅由該詞項(xiàng)節(jié)點(diǎn)的入度數(shù)來(lái)確定[15]。雖然這些研究確定詞項(xiàng)的權(quán)重方式不同,但是它們的共同點(diǎn)都是首先構(gòu)造出文檔的詞項(xiàng)圖,然后借助詞項(xiàng)圖來(lái)確定詞項(xiàng)的權(quán)重。這些研究都是從詞項(xiàng)權(quán)重信息角度出發(fā),可以看出詞項(xiàng)權(quán)重信息對(duì)文檔的自動(dòng)摘要有著很大的影響。
總之,現(xiàn)有基于圖模型的多文檔自動(dòng)摘要研究工作只考慮了句子層面的信息。盡管Wei等人提出的DsR模型[12]考慮了文檔層面信息,但也只利用了文檔和句子的信息來(lái)確定句子最后的得分,并沒有充分利用文檔中詞項(xiàng)的信息。因此本文在前人工作基礎(chǔ)上,融合詞項(xiàng)權(quán)重信息和文檔信息,構(gòu)建了基于詞項(xiàng)—句子—文檔的3層圖模型(Term-Sentence-Document Graph Model,TSDM),進(jìn)行多文檔的自動(dòng)摘要。
TSDM分為3層,分別是詞項(xiàng)圖、句子圖以及文檔圖。詞項(xiàng)圖是對(duì)文檔集內(nèi)所有詞項(xiàng)構(gòu)建一個(gè)無(wú)向帶權(quán)圖,頂點(diǎn)表示各詞項(xiàng),邊用來(lái)刻畫兩詞項(xiàng)的共現(xiàn)關(guān)系,通過(guò)它們的共現(xiàn)句子數(shù)來(lái)確定邊的權(quán)重,從而構(gòu)建出一個(gè)關(guān)于詞項(xiàng)的共現(xiàn)矩陣,再通過(guò)馬爾科夫鏈計(jì)算方法確定詞項(xiàng)在當(dāng)前文檔集中的權(quán)重;文檔圖通過(guò)計(jì)算文檔間的概率轉(zhuǎn)移矩陣構(gòu)造文檔關(guān)系矩陣;而句子圖則是通過(guò)結(jié)合文檔關(guān)系矩陣構(gòu)造句子相似度矩陣,再通過(guò)馬爾科夫鏈預(yù)測(cè)過(guò)程確定句子權(quán)重,最后再將句子權(quán)重和其所包含的詞項(xiàng)權(quán)重線性組合,將它作為最終的句子權(quán)重。
LexRank模型根據(jù)句子與句子之間的關(guān)系構(gòu)建句子級(jí)別的關(guān)系網(wǎng)絡(luò),以實(shí)現(xiàn)文檔摘要;DsR模型在LexRank模型的基礎(chǔ)上,根據(jù)文檔與文檔之間的相關(guān)性構(gòu)建文檔級(jí)別的關(guān)系圖模型,再結(jié)合句子的圖模型構(gòu)成句子-文檔雙層圖模型。受它們的啟發(fā),本文考慮信息粒度更小的詞匯信息,在原有的句子-文檔兩層圖模型基礎(chǔ)上,根據(jù)詞項(xiàng)與詞項(xiàng)之間的關(guān)系構(gòu)建詞項(xiàng)關(guān)系網(wǎng)絡(luò),從而構(gòu)建詞項(xiàng)—句子—文檔3層圖模型TSDM。
圖1為詞項(xiàng)—句子—文檔3層圖模型的一個(gè)簡(jiǎn)單示例,第1層為文檔圖,每篇文檔都被看作是一個(gè)頂點(diǎn),兩篇文檔相關(guān)時(shí),兩頂點(diǎn)有邊相連,并且邊的權(quán)重由這兩篇文檔之間的相關(guān)性刻畫;第2層為句子圖,同文檔層構(gòu)建方法類似,句子看作頂點(diǎn),句子之間的相似度看成是邊的權(quán)重,通過(guò)第1層和第2層,可以獲得文檔和句子之間的從屬關(guān)系,借助這個(gè)關(guān)系,可以將句子之間的邊分為跨文檔之間的邊和同一文檔內(nèi)的邊,然后區(qū)別處理這兩種邊;第3層為詞項(xiàng)圖,構(gòu)建詞項(xiàng)之間的關(guān)系圖,文檔中的每個(gè)詞項(xiàng)作為該層圖的頂點(diǎn),頂點(diǎn)之間邊的權(quán)重表示詞項(xiàng)與詞項(xiàng)之間的共現(xiàn)句子數(shù)。
圖1 Term-Sentence-Document 3層圖模型的簡(jiǎn)單示例
2.2.1 詞項(xiàng)圖構(gòu)建
詞項(xiàng)圖是由文檔集中所有的詞項(xiàng)ti構(gòu)成頂點(diǎn),設(shè)定當(dāng)且僅當(dāng)兩個(gè)詞項(xiàng)至少在文檔集的某一句話中同時(shí)出現(xiàn)時(shí),這兩個(gè)詞項(xiàng)之間才有邊相連,并且邊的權(quán)重為它們的共現(xiàn)次數(shù),即同時(shí)包含這兩個(gè)詞項(xiàng)的句子個(gè)數(shù)。不同于Blanco和Lioma工作中選擇以滑動(dòng)窗口為單位,本文固定以句子為度量單位,這是因?yàn)樵~項(xiàng)—句子—文檔3層圖模型通過(guò)句子的權(quán)重來(lái)確定當(dāng)前句子是否為摘要內(nèi)容,采用這種方式句子中的語(yǔ)義信息能完整的保存,詞項(xiàng)之間的關(guān)系能夠較好的體現(xiàn)。在圖1所示的例子中共有s1、s2、s3、s4四句話,它們的內(nèi)容依次是{t1t2t4}、{t3t4t5}、{t2t4t5}、{t4t5t6},構(gòu)建出的詞項(xiàng)圖中,t4、t5因?yàn)樵趕2、s3、s4三句話中都出現(xiàn),所以它們的共現(xiàn)次數(shù)是3,t2、t4在s1、s3中共現(xiàn)2次,而其他詞項(xiàng)之間均只共現(xiàn)1次,從而得到該文檔集的詞項(xiàng)共現(xiàn)矩陣Mt={mij}Nt×Nt,Nt為詞項(xiàng)總數(shù),mij為同時(shí)出現(xiàn)了詞項(xiàng)i和詞項(xiàng)j的句子個(gè)數(shù)。
2.2.2 詞項(xiàng)權(quán)重計(jì)算
根據(jù)得到的詞項(xiàng)共現(xiàn)矩陣Mt生成詞項(xiàng)間的概率轉(zhuǎn)移矩陣Pt,如式(1)所示。
(1)
式(1)計(jì)算概率轉(zhuǎn)移矩陣Pt時(shí)只考慮了詞項(xiàng)在同一句話中的共現(xiàn)關(guān)系,它僅僅表示出局部關(guān)系,為了考慮詞項(xiàng)在該文檔集內(nèi)的全局關(guān)系,采用類似PageRank算法加入阻尼因子的方法,將式(1)修正如式(2)所示。
(2)
算法1 馬爾科夫鏈預(yù)測(cè)過(guò)程
續(xù)表
Wei提出的DsR模型[12]在生成文檔摘要時(shí)把文檔信息也添加進(jìn)來(lái)了,但是DsR模型中只對(duì)可以直接轉(zhuǎn)移的文檔間的關(guān)系進(jìn)行處理,卻忽略了可以間接轉(zhuǎn)移的文檔間的關(guān)系,所以本文還將通過(guò)馬爾科夫隨機(jī)游走算法同時(shí)捕獲可以直接轉(zhuǎn)移和間接轉(zhuǎn)移的文檔間的關(guān)系,得到更完整的文檔間信息。
2.3.1 文檔圖構(gòu)建
文檔圖中的頂點(diǎn)為每篇文檔,頂點(diǎn)與頂點(diǎn)之間邊的權(quán)重刻畫文檔之間的關(guān)系,這部分主要介紹如何定義文檔間關(guān)系。DsR模型在處理文檔信息時(shí),僅僅對(duì)文檔間的相似度做了歸一化處理,這樣處理只能捕獲可以直接轉(zhuǎn)移的文檔間的關(guān)系,因此,本文采用馬爾科夫隨機(jī)游走的方法對(duì)文檔相似度進(jìn)行一次隨機(jī)游走用于捕獲可以間接轉(zhuǎn)移的文檔間的關(guān)系。
首先對(duì)文檔間相似度進(jìn)行歸一化處理,構(gòu)建文檔間概率轉(zhuǎn)移矩陣Pd,如式(3)所示。
(3)
其中,di表示第i篇文檔,sim(di,dj)表示兩篇文檔的余弦相似度。再對(duì)其進(jìn)行馬爾科夫隨機(jī)游走,Pdk=Pdk-1·Pd,然后構(gòu)建文檔關(guān)系矩陣Wd,對(duì)于同一篇文檔,其自身與自身的關(guān)系看成1,不同的文檔間關(guān)系則在1的基礎(chǔ)上再加上對(duì)應(yīng)文檔間的轉(zhuǎn)移概率,Wd具體定義見式(4)。
(4)
通過(guò)上述處理,文檔關(guān)系矩陣Wd便得到了文檔信息,這部分信息可以為接下來(lái)度量句子間相似度時(shí)提供參考。
2.4.1 句子圖構(gòu)建
句子圖是以文檔集中每個(gè)句子為頂點(diǎn),句子之間的相似度看做是邊的權(quán)重。本文采用余弦相似度來(lái)計(jì)算句子相似度,構(gòu)建句子相似矩陣Ms為式(5)~(6)。
(5)
(6)
tfw,Si表示詞項(xiàng)w在句子Si中出現(xiàn)的次數(shù),idSw是逆句子頻率,類似于逆文檔頻率,Ns表示句子總數(shù),Nk表示包含詞項(xiàng)w的句子數(shù)。
(7)
2.4.2 句子權(quán)重計(jì)算
句子圖建好之后,再計(jì)算各句子權(quán)重,計(jì)算句子權(quán)重過(guò)程如下:
(8)
根據(jù)得到的鄰接矩陣A,再求解句子的概率轉(zhuǎn)移矩陣Ps為式(9)。
(9)
建立了TSDM的3層結(jié)構(gòu)后,本小節(jié)介紹如何利用它來(lái)確定摘要句。摘要里的句子必定是最能夠反映多個(gè)文檔中心主題的句子,同時(shí)這些句子之間相互重復(fù)要小,即低冗余,評(píng)判依據(jù)就是句子的權(quán)重以及句子之間的相似關(guān)系。通過(guò)文檔圖和句子圖,可以得到結(jié)合文檔信息和句子信息的表示句子權(quán)重的特征向量,但是這種方法并沒有考慮詞項(xiàng)權(quán)重信息。
(10)
式(10)得出的結(jié)果即句子權(quán)重最終結(jié)果,根據(jù)這個(gè)結(jié)果,按照權(quán)重由高到低的順序挑選句子組成摘要,同時(shí)為保證摘要的冗余度足夠小,在選擇候選句子加入到摘要前,將其權(quán)重同其所有鄰接的句子的權(quán)重進(jìn)行對(duì)比,只有該句子的權(quán)重最大時(shí),才能把當(dāng)前句子加入摘要,直到達(dá)到規(guī)定的摘要長(zhǎng)度。
本文的實(shí)驗(yàn)數(shù)據(jù)采用了DUC’2003*http://www-nlpir.nist.gov/projects/duc/data/2003_data.html和DUC’2004*http://www-nlpir.nist.gov/projects/duc/data/2004_data.html任務(wù)2的數(shù)據(jù)集。DUC’2003數(shù)據(jù)集包含了30個(gè)主題類,除去個(gè)別主題類,每個(gè)主題都含10篇文檔,而DUC’2004有50個(gè)主題類,每個(gè)主題下包含10篇文檔。對(duì)于每一個(gè)文檔集,都給出了4個(gè)對(duì)應(yīng)的專家摘要作為判斷標(biāo)準(zhǔn),來(lái)評(píng)價(jià)系統(tǒng)生成的摘要。數(shù)據(jù)集的統(tǒng)計(jì)信息見表1。
表1 實(shí)驗(yàn)使用數(shù)據(jù)集的統(tǒng)計(jì)信息
為了評(píng)價(jià)多文檔自動(dòng)摘要的結(jié)果,我們采用DUC評(píng)測(cè)官方評(píng)價(jià)指標(biāo)Rouge[16]來(lái)測(cè)量不同方法的優(yōu)劣。Rouge指標(biāo)通過(guò)計(jì)算系統(tǒng)摘要同專家摘要的N元組(連續(xù)的N個(gè)單詞組成)重復(fù)率來(lái)對(duì)摘要結(jié)果進(jìn)行評(píng)價(jià)的。根據(jù)定義的N值和計(jì)算策略的不同,Rouge指標(biāo)可以進(jìn)一步細(xì)化為ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S、ROUGE-SU等指標(biāo)。ROUGE-N計(jì)算兩個(gè)摘要里的N元詞的匹配率,計(jì)算公式如式(1)所示。
(11)
N表示N-gram的長(zhǎng)度,Count(N-gram)表示專家摘要中N-grams的個(gè)數(shù)。在實(shí)驗(yàn)中,我們采用ROUGE 1.5.5和DUC官方提供的ROUGE參數(shù)進(jìn)行結(jié)果評(píng)估,包含ROUGE-1、ROUGE-2、ROUGE-W這3個(gè)指標(biāo),其中以ROUGE-2指標(biāo)為主,且實(shí)驗(yàn)結(jié)果都是采用這3個(gè)指標(biāo)的平均F值。
在文本預(yù)處理過(guò)程中,我們實(shí)驗(yàn)對(duì)比了許多常用的自然語(yǔ)言處理工具,發(fā)現(xiàn)德雷塞爾大學(xué)提供的開源的文本檢索與挖掘工具包(Dragon Toolkit)*http://dragon.ischool.drexel.edu/license.asp在處理英文文本分句結(jié)果上相對(duì)最優(yōu),因此在實(shí)驗(yàn)預(yù)處理中采用了該工具包提供的分句程序。另外,我們發(fā)現(xiàn)對(duì)文檔集分句后進(jìn)行去停用詞、詞干化等操作會(huì)影響詞項(xiàng)權(quán)重結(jié)果,降低自動(dòng)摘要的效果,所以,實(shí)驗(yàn)中未對(duì)數(shù)據(jù)集進(jìn)行任何去停用詞以及詞干化等操作。
在詞項(xiàng)圖構(gòu)建過(guò)程中求解詞項(xiàng)概率轉(zhuǎn)移矩陣Pt時(shí),根據(jù)經(jīng)驗(yàn)本文設(shè)置阻尼因子d為0.15,通過(guò)馬爾科夫鏈預(yù)測(cè)過(guò)程求解詞項(xiàng)權(quán)重向量Bt時(shí),誤差μ取0.000 01;構(gòu)建句子鄰接矩陣A時(shí),句子相似度閾值ε的值與文獻(xiàn)[6]中的相同,均為0.1,求解句子權(quán)重向量Bs時(shí),誤差μ取0.001。
對(duì)比實(shí)驗(yàn)選擇了LexRank模型和DsR模型,為了驗(yàn)證詞項(xiàng)權(quán)重信息和文檔信息對(duì)摘要結(jié)果的影響,實(shí)驗(yàn)嘗試了不同的方案,實(shí)驗(yàn)結(jié)果見表2和表3。實(shí)驗(yàn)中,還對(duì)比了進(jìn)行1次隨機(jī)游走后的文檔關(guān)系的摘要結(jié)果和不進(jìn)行游走的文檔關(guān)系的摘要結(jié)果,對(duì)于公式(10)中ω對(duì)結(jié)果的影響將在圖2中展示。
表2 DUC’2003數(shù)據(jù)集對(duì)比結(jié)果
表3 DUC’2004數(shù)據(jù)集對(duì)比結(jié)果
圖2 各數(shù)據(jù)集上ω對(duì)ROUGE-2的影響(上圖DUC’2003數(shù)據(jù)集,下圖DUC’2004數(shù)據(jù)集)
圖2分別給出了參數(shù)ω在DUC’2003數(shù)據(jù)集和DUC’2004數(shù)據(jù)集上對(duì)ROUGE-2的影響。上圖表明,在DUC’2003數(shù)據(jù)集上當(dāng)ω取值為0.7時(shí),ROUGE-2取得相對(duì)最高值,而下圖表明,在DUC’2004數(shù)據(jù)集上當(dāng)ω取值為0.5時(shí),ROUGE-2取得相對(duì)最高值。ω在兩個(gè)數(shù)據(jù)集上的較優(yōu)值不一致,這跟數(shù)據(jù)集本身的特性有關(guān)。所以實(shí)驗(yàn)中ω都是取其對(duì)應(yīng)數(shù)據(jù)集上的較優(yōu)值,即在DUC’2003數(shù)據(jù)集中ω的值為0.7,在DUC’2004數(shù)據(jù)集中ω的值為0.5。
表2和表3分別表示不同模型在DUC’2003和DUC’2004數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。其中DsRM模型為對(duì)文檔轉(zhuǎn)移概率矩陣進(jìn)行1次隨機(jī)游走后的方法,LexRankTerm模型為不考慮文檔信息只把詞項(xiàng)權(quán)重信息同句子權(quán)重進(jìn)行線性結(jié)合的方法,通過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)在DUC’2003數(shù)據(jù)集上將LexRank得到的句子權(quán)重與詞項(xiàng)權(quán)重比值設(shè)為1∶1,在DUC’2004數(shù)據(jù)集上該比值設(shè)為9∶1時(shí),效果最好。
DsR模型較LexRank模型在DUC’2003數(shù)據(jù)集和DUC’2004數(shù)據(jù)集上各項(xiàng)指標(biāo)均有較大提升。因?yàn)?,如果兩篇文檔相似度較高,那么在這兩篇不同文檔中的兩個(gè)句子之間的主題關(guān)聯(lián)度更高。對(duì)比DsR模型原文的實(shí)驗(yàn)結(jié)果,在DUC’2004數(shù)據(jù)集上的DsR模型較LexRank模型的提升效果同DsR模型原文的比較接近,但是在DUC’2003數(shù)據(jù)集上卻提升很多,這可能與系統(tǒng)生成的摘要長(zhǎng)度有關(guān),2003年的系統(tǒng)摘要長(zhǎng)度規(guī)定是100個(gè)單詞左右,2004年的系統(tǒng)摘要長(zhǎng)度規(guī)定為665個(gè)字節(jié)左右。
實(shí)驗(yàn)數(shù)據(jù)表明,DsRM模型相比DsR模型在DUC’2003數(shù)據(jù)集上ROUGE-2提升3.12%,在DUC’2004數(shù)據(jù)集上ROUGE-2提升1.50%。DsR模型在構(gòu)建文檔轉(zhuǎn)移概率矩陣時(shí),只考慮了可以直接相關(guān)的文檔間關(guān)系,而DsRM通過(guò)一次隨機(jī)游走,把文檔之間的間接關(guān)系也結(jié)合進(jìn)來(lái),使得文檔之間的語(yǔ)義關(guān)系更加完整,從而進(jìn)一步提升系統(tǒng)自動(dòng)生成的摘要的質(zhì)量。
對(duì)比LexRank模型和LexRankTerm模型,LexRankTerm模型在DUC’2003數(shù)據(jù)集上ROUGE-2提升12.42%,在DUC’2004數(shù)據(jù)集上ROUGE-2提升1.27%。LexRank模型只考慮了句子之間的關(guān)系,而忽略了粒度更小的詞項(xiàng)權(quán)重信息,本文還通過(guò)構(gòu)建詞項(xiàng)圖計(jì)算詞項(xiàng)的重要性,最后將詞項(xiàng)的權(quán)重與句子的權(quán)重結(jié)合。從實(shí)驗(yàn)結(jié)果上來(lái)看,結(jié)合詞項(xiàng)權(quán)重信息后,實(shí)驗(yàn)的各項(xiàng)指標(biāo)整體上都有提升。然而,結(jié)合詞項(xiàng)權(quán)重信息的模型沒有結(jié)合文檔信息的效果好,這是因?yàn)樵~項(xiàng)所包含的信息比較少,由于數(shù)據(jù)集中的文檔長(zhǎng)度都較短,詞項(xiàng)權(quán)重信息的噪聲相對(duì)文檔信息要大,所以結(jié)合詞項(xiàng)權(quán)重信息后的提升效果沒有結(jié)合文檔信息后的效果好。
在這兩個(gè)數(shù)據(jù)集上,本文提出的融合詞項(xiàng)和文檔信息后的TSDM模型在各項(xiàng)評(píng)價(jià)指標(biāo)上均有良好的表現(xiàn)。在DUC’2003數(shù)據(jù)集上相比DsR模型,指標(biāo)ROUGE-1提升2.06%,指標(biāo)ROUGE-2提升3.25%,指標(biāo)ROUGE-W提升1.34%;在DUC’2004數(shù)據(jù)集上相比DsR模型,ROUGE-1提升0.32%,ROUGE-2提升4.19%,ROUGE-W則略有下降。這表明詞項(xiàng)權(quán)重信息、文檔信息能夠顯著提高多文檔自動(dòng)摘要的質(zhì)量。然而,在DUC’2003數(shù)據(jù)集上,ROUGE-1、ROUGE-2和ROUGE-W各項(xiàng)指標(biāo)相比于DsRM算法提升并不明顯,對(duì)比DUC’2004數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn)這與數(shù)據(jù)集自身特性有關(guān)。在DUC’2003數(shù)據(jù)集中,每個(gè)主題下的所有文章所包含的句子長(zhǎng)度分布不均衡,這會(huì)導(dǎo)致部分句子長(zhǎng)度較長(zhǎng)但實(shí)際中相對(duì)不重要的句子的得分相應(yīng)提高,因此使得部分實(shí)驗(yàn)結(jié)果略有下降。
本文提出了基于詞項(xiàng)—句子—文檔三層圖模型的多文檔自動(dòng)摘要方法。它不僅利用句子之間的相似度,而且考慮了句子所屬的文檔之間的關(guān)系以及句子所包含的詞項(xiàng)權(quán)重信息來(lái)生成文檔摘要。實(shí)驗(yàn)結(jié)果表明本文提出的模型能顯著的提高自動(dòng)摘要的質(zhì)量。
在計(jì)算詞項(xiàng)權(quán)重信息時(shí),本文只利用了詞項(xiàng)間的共現(xiàn)關(guān)系,未考慮詞項(xiàng)間存在的語(yǔ)義關(guān)系以及句子間的句法、語(yǔ)義關(guān)系,因此未來(lái)的工作包括進(jìn)一步研究如何深層次的利用詞項(xiàng)間的語(yǔ)義關(guān)系以及句子間句法、語(yǔ)義關(guān)系來(lái)提高自動(dòng)摘要的效果。
[1] 劉挺, 王開鑄. 自動(dòng)文摘的四種主要方法[J]. 情報(bào)學(xué)報(bào), 1999, 18(1): 11-19.
[2] 秦兵, 劉挺, 李生. 多文檔自動(dòng)文摘綜述[J]. 中文信息學(xué)報(bào), 2005, 19(6):13-20.
[3] E padma lahari, D V N Siva Kumar. A Comprehensive Survey on Feature Extraction in Text Summarization[J]. Computer Technology and Applications, 2014, 5(1): 248-256.
[4] Radev D, Winkel A, Topper M. Multi document centroid-based text summarization[C]//Proceedings of ACL'2002 Demo Session. ACL, 2002.
[6] Erkan G, Radev D R. LexRank: Graph-based lexical centrality as salience in text summarization[J]. Journal of Artificial Intelligence Research (JAIR), 2004, 22(1): 457-479.
[7] Chen H, Jin H, Zhao F. PSG: a two-layer graph model for document summarization[J]. Frontiers of Computer Science, 2014, 8(1): 119-130.
[8] Canhasi E, Kononenko I. Weighted archetypal analysis of the multi-element graph for query-focused multi-document summarization[J]. Expert Systems with Applications, 2014, 41(2): 535-543.
[9] 紀(jì)文倩, 李舟軍, 巢文涵, 等. 一種基于LexRank 算法的改進(jìn)的自動(dòng)文摘系統(tǒng)[J]. 計(jì)算機(jī)科學(xué), 2010, 37(5): 151-154.
[10] Radev D, Allison T, Blair-Goldensohn S, et al. MEAD-a platform for multidocument multilingual text summarization[C]//Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'2004). LREC, 2004.
[11] Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bringing order to the web[R]. California: Stanford InfoLab, 1999.
[12] Wei F, Li W, Lu Q, et al. A document-sensitive graph model for multi-document summarization[J]. Knowledge and information systems, 2010, 22(2): 245-259.
[13] Blanco R, Lioma C. Random walk term weighting for information retrieval[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2007: 829-830.
[14] Blanco R, Lioma C. Graph-based term weighting for information retrieval[J]. Information retrieval, 2012, 15(1): 54-92.
[15] Rousseau F, Vazirgiannis M. Graph-of-word and TW-IDF: new approach to ad hoc IR[C]//Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. ACM, 2013: 59-68.
[16] Lin C Y. Rouge: a package for automatic evaluation of summaries[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation. ACL, 2005: 74-81.