羅森林, 白建敏, 潘麗敏, 韓磊, 孟強(qiáng)
(北京理工大學(xué) 信息與電子學(xué)院,北京 100081)
?
融合句義特征的多文檔自動(dòng)摘要算法研究
羅森林, 白建敏, 潘麗敏, 韓磊, 孟強(qiáng)
(北京理工大學(xué) 信息與電子學(xué)院,北京 100081)
多文檔自動(dòng)摘要研究是自然語(yǔ)言處理領(lǐng)域的關(guān)鍵問(wèn)題之一,為使抽取的摘要更能體現(xiàn)多文檔主題,本文在子主題劃分的基礎(chǔ)上,提出了一種融合句義特征的句子優(yōu)化選擇方法. 該方法基于句義結(jié)構(gòu)模型,提取句義結(jié)構(gòu)中的話題、謂詞等特征,并融合統(tǒng)計(jì)特征構(gòu)造特征向量計(jì)算句子權(quán)重,最后采用綜合加權(quán)選取法和最大邊緣相關(guān)相結(jié)合的方法抽取摘要. 選取不同主題的文本集進(jìn)行實(shí)驗(yàn)和評(píng)價(jià),在摘要壓縮比為15%情況下,系統(tǒng)摘要平均準(zhǔn)確率達(dá)到66.7%,平均召回率達(dá)到65.5%. 實(shí)驗(yàn)結(jié)果表明句義特征的引入可以有效提升多文檔摘要的效果.
多文檔自動(dòng)摘要;句義結(jié)構(gòu)模型;句義特征;自然語(yǔ)言處理
多文檔自動(dòng)摘要是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要問(wèn)題. 它的目的是從主題相同或相似的文檔集合中抽取重要信息生成信息豐富、語(yǔ)言簡(jiǎn)潔并且符合壓縮比要求的摘要,從而提供一種快速瀏覽和獲取信息的手段[1]. 多文檔自動(dòng)摘要技術(shù)經(jīng)過(guò)多年的發(fā)展出現(xiàn)了很多方法和技術(shù),比較有代表性的有:美國(guó)密歇根大學(xué)的Radev等[2]提出的MEAD多文檔自動(dòng)摘要系統(tǒng),抽取句子生成文摘;Erkan等[3]提出了一種LexPageRank算法,并將其成功應(yīng)用到了Google PageRank中. 近年來(lái),有些學(xué)者通過(guò)概率淺層語(yǔ)義分析(probabilistic latent semantic analysis,PLSA)及淺層狄利克雷分布(latent Dirichlet allocation,LDA)[4]來(lái)生成多文檔摘要,都取得了較好的效果.
中文多文檔自動(dòng)摘要相比于英文而言起步較晚,比較有代表性的有:哈工大王曉龍等[5]提出了一種面向多文檔自動(dòng)摘要任務(wù)的多文本框架(multiple document framework,MDF),該框架在生成摘要中獲得較好的結(jié)果. 山東大學(xué)馬軍等[6]提出了一種基于LDA的多文檔自動(dòng)文摘方法,該方法在ROUGE的各個(gè)評(píng)測(cè)標(biāo)準(zhǔn)上均優(yōu)于SumBasic方法.
多文檔自動(dòng)摘要過(guò)程可以分解為3個(gè)任務(wù):主題識(shí)別、主題說(shuō)明、摘要提取. 句子重要程度的衡量在摘要提取中起著十分關(guān)鍵的作用. 目前,句子重要程度的表述大多采用統(tǒng)計(jì)特征,導(dǎo)致所選摘要句與主題容易產(chǎn)生偏差. 針對(duì)特征向量的局限性本文提出了一種融合句義特征的文摘句抽取策略,通過(guò)構(gòu)建句義結(jié)構(gòu)模型,提取有效句義特征,進(jìn)而根據(jù)綜合加權(quán)選取法和最大邊緣相關(guān)(maximal marginal relevance,MMR)[7]方法抽取摘要. 本文在多個(gè)文本集上進(jìn)行實(shí)驗(yàn)驗(yàn)證了句義特征的有效性,并與兩個(gè)參照系統(tǒng)進(jìn)行對(duì)比驗(yàn)證了系統(tǒng)的優(yōu)良性能.
目前自然語(yǔ)言處理中對(duì)句子主要是從詞法和語(yǔ)法兩個(gè)層次上進(jìn)行分析,但是無(wú)論是詞法理解還是語(yǔ)法理解都屬于形式上的理解,沒(méi)有深入到語(yǔ)義,不能反映句子所表達(dá)的真正含義.
句義結(jié)構(gòu)模型是句義中的成分以及成分之間組合關(guān)系的形式化表達(dá),不同于以往對(duì)句義的理解方法,目的是幫助計(jì)算機(jī)從深層的語(yǔ)義角度去理解漢語(yǔ)句子. 通過(guò)該模型將抽象的句義形式化表達(dá)為成分之間的數(shù)理結(jié)構(gòu). 句義結(jié)構(gòu)模型包含的要素包括:句義的類型、句義中的話題和述題、構(gòu)成句義的成分、成分之間的組合關(guān)系等[8].
句義特征是能夠表述句子語(yǔ)義的特征,句義結(jié)構(gòu)模型中的句義特征包括句義成分以及成分之間的關(guān)系. 其中,話題和述題是句義說(shuō)明的對(duì)象以及對(duì)該對(duì)象的說(shuō)明,是對(duì)句義結(jié)構(gòu)的第一層劃分;基本格與謂詞結(jié)合,體現(xiàn)了謂詞在搭配上的要求,并以謂詞為中心組成了句義的框架;一般格和謂詞或者其他的項(xiàng)結(jié)合,但不與謂詞構(gòu)成句義的框架,而只是說(shuō)明、描述這框架. 本文利用上述句義特征構(gòu)建文本句子的特征向量.
本文提出的融合句義特征的多文檔自動(dòng)摘要算法是在子主題劃分的基礎(chǔ)上提取相關(guān)的統(tǒng)計(jì)特征,同時(shí)進(jìn)行句義分析,提取相應(yīng)的句義特征,最后根據(jù)綜合加權(quán)選取法和MMR方法相結(jié)合的策略選取文摘句[9]. 算法原理框架如圖 1所示.
系統(tǒng)主要包括:預(yù)處理、子主題劃分、特征提取、文摘生成4個(gè)模塊. 各個(gè)模塊的具體算法和過(guò)程如下.
2.1 預(yù)處理
生成摘要的第一步是對(duì)多文檔集合進(jìn)行預(yù)處理,預(yù)處理模塊的輸入是多文檔集合,首先進(jìn)行段落切分,以段落為子主題劃分模塊的聚類單元,之后對(duì)文本進(jìn)行分詞和詞性標(biāo)注,并去除停用詞.
2.2 子主題劃分
多文檔集合中子主題是對(duì)中心主題不同側(cè)面的描述. 子主題的引入可以提高多文檔摘要的信息覆蓋率,去除與中心主題不相關(guān)的信息. 子主題劃分就是把內(nèi)容相似的文本單元聚合在一起. 本文采用層次聚類和K-means聚類相結(jié)合的方法. 首先通過(guò)層次聚類進(jìn)行大體的子主題劃分,確定文本的聚類數(shù)目K和聚類集合C1,C2,…,Ck. 聚類后得到子主題,通過(guò)特征線性加權(quán)和組合詞生成與過(guò)濾的方法提取關(guān)鍵詞得到子主題的主題詞[10].
本文采用凝聚方式的層次聚類方法,為了避免最終聚為一類,加入一個(gè)閾值s作為停止條件,當(dāng)類間距離大于閾值時(shí)就停止合并,閾值的選擇為
(1)
式中:a為常數(shù),經(jīng)實(shí)驗(yàn)分析,a為0.8時(shí)聚類數(shù)目較為合理;N為文檔中所包含的所有段落數(shù);段落Pi=(Wi1,Wi2,…,Win),Pj=(Wj1,Wj2,…,Wjn),W為段落中的有效詞;sim(Pi,Pj)為文檔中兩個(gè)段落之間的相似度,用向量間的余弦值表示相似度.
2.3 特征提取
句子是人理解語(yǔ)言含義的基本單元,也是摘要抽取的基本單元. 特征提取模塊分別對(duì)句子的統(tǒng)計(jì)特征和句義特征進(jìn)行提取,最后依據(jù)特征向量計(jì)算句子權(quán)重.
2.3.1 統(tǒng)計(jì)特征提取
本文提取句子的統(tǒng)計(jì)特征如表1所示.
表1 句子統(tǒng)計(jì)特征
2.3.2 句義特征提取
針對(duì)統(tǒng)計(jì)特征的局限性,本文引入句義特征增強(qiáng)特征向量的表述能力,句義特征的提取采用課題組的研究成果[11]. 經(jīng)分析,從句義結(jié)構(gòu)模型中得到的句義特征如表2所示.
表2 句子句義特征
實(shí)驗(yàn)選取同一主題多文檔集合(全國(guó)眾志成城抗凍災(zāi))作為語(yǔ)料,實(shí)驗(yàn)設(shè)置摘要壓縮比為15%. 為了衡量句義特征的有效性,假設(shè)每個(gè)特征同等重要,然后依次去除句義特征得到相應(yīng)的評(píng)價(jià)結(jié)果. 特征篩選實(shí)驗(yàn)采用準(zhǔn)確率、召回率、F值對(duì)摘要進(jìn)行評(píng)價(jià),計(jì)算方法如下:
式中:K為系統(tǒng)生成的摘要句包含在標(biāo)準(zhǔn)摘要中的數(shù)目;N為系統(tǒng)生成的摘要所包含的句子數(shù)目;M為標(biāo)準(zhǔn)摘要所包含的句子數(shù)目.
實(shí)驗(yàn)中,首先考慮所有特征,然后按照特征編號(hào)從高到低的順序依次去除句義特征,實(shí)驗(yàn)結(jié)果如圖2所示.
由圖2可知,在不斷去除句義特征后,摘要的效果越來(lái)越差,在去除F_COMMARG特征和F_COMMENT特征后,系統(tǒng)性能基本不變;在去除F_PREDICATE特征后,摘要準(zhǔn)確率下降了5.3%,召回率下降5.6%;去除F_TOPIC特征后,摘要準(zhǔn)確率下降了近9%,召回率下降8.8%. 由此可得,去除F_COMMARG特征及F_COMMENT特征在現(xiàn)有的數(shù)據(jù)源下并沒(méi)有影響,因此可以去除這兩個(gè)特征,最終保留F_TOPIC特征(用FTC表示)及F_PREDICATE特征(用FPE表示).
2.3.3 句子權(quán)值計(jì)算
由于不同特征的重要程度是不一樣的,所以特征提取后要根據(jù)每個(gè)特征的重要程度獲取特征向量的權(quán)向量,本文通過(guò)層次分析法獲取權(quán)向量[12]. 首先建立層次分析模型,然后通過(guò)對(duì)語(yǔ)言學(xué)的分析與實(shí)驗(yàn),構(gòu)造成對(duì)比較矩陣A,本文中構(gòu)造的成對(duì)比較矩陣如下所示
經(jīng)過(guò)分析Α具有滿意的一致性. 當(dāng)矩陣為一致性矩陣時(shí),矩陣的主特征向量就是特征的權(quán)向量. 以此求得權(quán)向量為:
U=
[0.061 0.202 0.106 0.271 0.180 0.180],
設(shè)為U=[u1u2u3u4u5u6],各個(gè)特征的相對(duì)重要性由權(quán)向量U的各分量所確定.
本文假定各個(gè)特征相互獨(dú)立,將句子的統(tǒng)計(jì)特征和句義特征構(gòu)成特征向量
F=[FAFWFTFKFTCFPE],
各個(gè)特征的加權(quán)系數(shù)構(gòu)成權(quán)向量U,句子權(quán)值如式(2)所示
(2)
式中:Wi為第i個(gè)句子的權(quán)值;Fi為第i個(gè)句子的特征向量.
2.4 文摘生成
文摘生成模塊首先根據(jù)句子的權(quán)值以及子主題內(nèi)的句子數(shù)目等因素對(duì)子主題進(jìn)行排序,確定摘要抽取的順序[13],之后采取一定策略抽取文摘句,最后進(jìn)行后處理生成可讀性較高的摘要. 本文采用綜合加權(quán)選取法和MMR方法相結(jié)合的方法進(jìn)行句子抽取. 具體步驟如下:
① 文摘句抽取前對(duì)句子進(jìn)行過(guò)濾,將祈使句、問(wèn)句等不適合作為文摘句的句子去掉,將長(zhǎng)度系數(shù)CL>0.8及<0.2的句子去掉. 句子長(zhǎng)度系數(shù)定義如下所示
(3)
式中:L為句子的長(zhǎng)度;Lm為最長(zhǎng)句子的長(zhǎng)度;
② 根據(jù)有效子主題的權(quán)值高低依次選取子主題內(nèi)權(quán)值最高的句子;
③ 檢查候選文摘句與已選文摘句話題和謂詞是否一致,如果一致,候選文摘句換為該子主題中的下一個(gè)候選句子,如果不相同則轉(zhuǎn)步驟④;
④ 檢查是否滿足文摘壓縮比要求,如果沒(méi)有達(dá)到壓縮比要求轉(zhuǎn)步驟②,如果滿足壓縮比要求轉(zhuǎn)步驟⑤;
⑤ 停止選取句子,輸出初始文摘進(jìn)行后處理.
得到初始文摘后首先進(jìn)行句子排序,然后進(jìn)行指代消解和平滑潤(rùn)色,本文根據(jù)文獻(xiàn)[14]所述方法進(jìn)行了文摘句的后處理,進(jìn)一步提高文摘的可讀性.
3.1 實(shí)驗(yàn)數(shù)據(jù)源
實(shí)驗(yàn)數(shù)據(jù)來(lái)自北京理工大學(xué)信息系統(tǒng)及安全對(duì)抗實(shí)驗(yàn)中心多文檔摘要語(yǔ)料庫(kù)(Beijing forest studio-multi-document summarization,BFS-MDS). 該語(yǔ)料庫(kù)主要來(lái)自2009年熱點(diǎn)新聞事件的網(wǎng)絡(luò)新聞報(bào)道,包括90個(gè)主題,每個(gè)主題包含20~50篇不等數(shù)量的新聞?wù)Z料,每篇新聞?wù)Z料包含20~80個(gè)句子,同時(shí)每個(gè)主題包含壓縮比為5%,10%,15%的3篇標(biāo)準(zhǔn)摘要.
本文從語(yǔ)料庫(kù)中隨機(jī)選取6個(gè)話題進(jìn)行實(shí)驗(yàn).
3.2 評(píng)價(jià)方法
3.3 結(jié)果及分析
為了驗(yàn)證本文提出的多文檔自動(dòng)摘要系統(tǒng)的有效性,依據(jù)當(dāng)前多文檔自動(dòng)摘要研究方法,建立了兩個(gè)對(duì)照系統(tǒng)與本文方法進(jìn)行對(duì)比實(shí)驗(yàn).
第1個(gè)對(duì)照系統(tǒng)是基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動(dòng)摘要系統(tǒng)(multi-document summarization based on event extraction,MSBEE)[15],該系統(tǒng)引入事件抽取技術(shù),通過(guò)主旨事件抽取及后續(xù)處理生成摘要. 本文系統(tǒng)與MSBEE系統(tǒng)對(duì)比結(jié)果如表3所示.
表3 本文系統(tǒng)與MSBEE系統(tǒng)對(duì)比結(jié)果
第2個(gè)對(duì)照系統(tǒng)是基于統(tǒng)計(jì)特征的多文檔自動(dòng)摘要系統(tǒng)(multi-document summarization based on statistical features,MSBSF)[16],該系統(tǒng)通過(guò)聚類進(jìn)行子主題劃分,然后對(duì)子主題內(nèi)句子進(jìn)行加權(quán)求和,根據(jù)句子的權(quán)值大小進(jìn)行文摘句抽取. 本文系統(tǒng)與MSBSF系統(tǒng)對(duì)比結(jié)果如表4所示.
表4 本文系統(tǒng)與MSBSF系統(tǒng)對(duì)比結(jié)果
由本文系統(tǒng)和MSBSF系統(tǒng)在不同壓縮比下的效果可知,在一定范圍內(nèi)壓縮比越大系統(tǒng)的性能越好,原因在于人工抽取標(biāo)準(zhǔn)摘要的隨機(jī)性比較大,而壓縮比提高、數(shù)據(jù)量變大在一定程度上克服了這種隨機(jī)性,使得最終得到的摘要更加合理而使評(píng)價(jià)效果有所提高.
目前,信息社會(huì)對(duì)多文檔自動(dòng)摘要技術(shù)有著迫切的需求,它能對(duì)文本形式自然語(yǔ)言進(jìn)行深層次知識(shí)挖掘,通過(guò)閱讀其生成的摘要可以在短時(shí)間內(nèi)了解事件的發(fā)生、發(fā)展和結(jié)束的全過(guò)程,同時(shí)有效地解決了數(shù)據(jù)的冗余問(wèn)題,具有重要的現(xiàn)實(shí)意義.
針對(duì)當(dāng)前多文檔自動(dòng)摘要方法中句子特征選取的局限性,提出一種融合句義特征的多文檔自動(dòng)摘要方法,該方法在傳統(tǒng)句子統(tǒng)計(jì)特征的基礎(chǔ)上加入句義特征,增加了句子的分析深度,使特征向量更能表達(dá)句子的含義,使抽取的文摘句更能體現(xiàn)主題含義,實(shí)驗(yàn)結(jié)果表明本文提出的文摘方法比MSBEE系統(tǒng)和MSBSF系統(tǒng)的綜合性能更加優(yōu)良,在平衡準(zhǔn)確率和召回率方面更加優(yōu)秀. 綜上,句義結(jié)構(gòu)模型在多文檔自動(dòng)摘要中的應(yīng)用是有效的,為多文檔文摘提出了一種新的思路和方向. 下一步研究的重點(diǎn)是構(gòu)建基于句義結(jié)構(gòu)模型的篇章語(yǔ)義表達(dá),通過(guò)篇章結(jié)構(gòu)得到文摘的語(yǔ)義結(jié)構(gòu),從而改善文摘的邏輯性和可讀性,從而生成更高質(zhì)量的文本摘要.
[1] Wang D, Li T. Weighted consensus multi-document summarization[J]. Information Processing & Management, 2012,48(3):513-523.
[3] Erkan G, Radev D R. Lexpagerank: prestige in multi-document text summarization[C]∥Proceedings of EMNLP.[S.l.]: EMNLP, 2004:365-371.
[4] Arora R, Ravindran B. Latent dirichlet allocation based multi-document summarization[C]∥Proceedings of the Second Workshop on Analytics for Noisy Unstructured Text Data. [S.l.]: ACM, 2008:91-97.
[5] 徐永東,徐志明,王曉龍.基于信息融合的多文檔自動(dòng)文摘技術(shù)[J].計(jì)算機(jī)學(xué)報(bào),2007,30(11):2048-2054.
Xu Yongdong, Xu Zhiming, Wang Xiaolong. Multi-document automatic summarization technique based on information fusion[J]. Chinese Journal of Computers, 2007,30(11):2048-2054. (in Chinese)
[6] 楊瀟,馬軍,楊同峰,等.主題模型LDA的多文檔自動(dòng)文摘[J].智能系統(tǒng)學(xué)報(bào),2010,5(2):169-176.
Yang Xiao, Ma Jun, Yang Tongfeng, et al. Automatic multi-document summarization based on the latent Dirichlet topic allocation model[J]. Caai Transactions on Intelligent Systems, 2010,5(2):169-176. (in Chinese)
[7] Carbonell J, Goldstein J. The use of MMR, diversity-based reranking for reordering documents and producing summaries[C]∥Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. [S.l.]: ACM, 1998:335-336.
[8] 馮揚(yáng).漢語(yǔ)句義模型構(gòu)建及若干關(guān)鍵技術(shù)研究[D].北京:北京理工大學(xué),2010.
Feng Yang. Research on Chinese sentential semantic mode and some key problems[D]. Beijing: Beijing Institute of Technology, 2010. (in Chinese)
[9] 羅森林,劉盈盈,馮揚(yáng),等.BFS-CTC漢語(yǔ)句義結(jié)構(gòu)標(biāo)注語(yǔ)料庫(kù)構(gòu)建方法[J].北京理工大學(xué)學(xué)報(bào),2012,32(3):311-315.
Luo Senlin, Liu Yingying, Feng Yang, et al. Method of building BFS-CTC a Chinese tagged corpus of sentential semantic structure[J]. Journal of Beijing Institute of Technology, 2012,32(3):311-315. (in Chinese)
[10] 蘇凱.中文文本關(guān)鍵詞提取與自動(dòng)摘要技術(shù)研究[D].北京:北京理工大學(xué),2008.
Su Kai. Chinese text keyword extraction and automatic summarization technology[D]. Beijing: Beijing Institute of Technology, 2008. (in Chinese)
[11] 羅森林,韓磊,潘麗敏,等.漢語(yǔ)句義結(jié)構(gòu)模型及其驗(yàn)證[J].北京理工大學(xué)學(xué)報(bào),2013,33(2):166-171.
Luo Senlin, Han Lei, Pan Limin, et al. Chinese sentential semantic mode and verification[J]. Beijing Institute of Technology, 2013,33(2):166-171. (in Chinese)
[12] Saaty T L. Decision making with the analytic hierarchy process[J]. International Journal of Services Sciences, 2008,1(1):83-98.
[13] He R, Qin B, Liu T. A novel approach to update summarization using evolutionary manifold-ranking and spectral clustering[J]. Expert Systems with Applications, 2012,39(3):2375-2384.
[14] Heu J U, Jeong J W, Qasim I, et al. Multi-document summarization exploiting semantic analysis based on tag cluster[M]. Advances in Multimedia Modeling. Heidelberg Berlin:Springer, 2013:479-489.
[15] 韓永峰,許旭陽(yáng),李弼程,等.基于事件抽取的網(wǎng)絡(luò)新聞多文檔自動(dòng)摘要[J].中文信息學(xué)報(bào),2012(1):58-66.
Han Yongfeng, Xu Xuyang, LI Bicheng, et al. Web news multi-document summarization based on event extraction[J]. Journal of Chinese Information Processing, 2012 (1):58-66. (in Chinese)
[16] 熊穎.中文多文檔摘要關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2011.
Xiong Ying. Research on key technologies of Chinese multi-document summarization[D]. Beijing: Beijing University of Posts and Telecommunications, 2011. (in Chinese)
(責(zé)任編輯:李兵)
Research on Multi-Document Summarization Merging the Sentential Semantic Features
LUO Shen-lin, BAI Jian-min, PAN Li-min, HAN Lei, MENG Qiang
(School of Information and Electronics, Beijing Institute of Technology, Beijing 100081, China)
Multi-document summarization (MDS) is one of the key issues in the field of natural language processing. In order to extract compendious sentences to reflect more accurate theme of the multi-document, a new method was proposed to retrieve terse sentences. At first, some sentential semantic features (SSF), for example topic and predicate, were extracted based on a sentential semantic model (SSM). Then the sentence weight was calculated by building feature vector merging statistical features and SSF. Finally, sentences were extracted according to the feature weighting and maximal marginal relevance (MMR). A set of experiment show that the new method is effective, the average precision rate of summary can reach 66.7%, and the average recall rate can reach 65.5% when the compression ratio of summary is 15%. The results of experiments show that the SSF are effective on upgrading the affection of MDS.
multi-document summarization; sentential semantic model; sentential semantic feature; natural language processing
2013-04-11
國(guó)家“二四二”資助項(xiàng)目(2005C48);北京理工大學(xué)科技創(chuàng)新計(jì)劃重大項(xiàng)目培育專項(xiàng)資助項(xiàng)目(2011CX01015)
羅森林(1968—),男,教授,博士生導(dǎo)師,E-mail:luosenlin@bit.edu.cn.
TP 391; TP 18
A
1001-0645(2016)10-1059-06
10.15918/j.tbit1001-0645.2016.10.014