王青松,張 衡,李 菲
(遼寧大學(xué) 信息學(xué)院,沈陽(yáng) 110036)
隨著社會(huì)進(jìn)入信息時(shí)代,互聯(lián)網(wǎng)上的數(shù)據(jù)呈爆炸式增長(zhǎng)趨勢(shì),數(shù)據(jù)量不僅龐大,而且數(shù)據(jù)維度過(guò)高,有效解決信息過(guò)載并從海量的數(shù)據(jù)中挖掘有用的信息變得至關(guān)重要。網(wǎng)絡(luò)數(shù)據(jù)大部分以文本形式存在,因此,文本摘要生成技術(shù)是人們從大量文本信息中快速獲取價(jià)值信息的關(guān)鍵。
現(xiàn)有的摘要方法基本都是從詞與句子的特征入手。文獻(xiàn)[1]利用詞項(xiàng)的詞頻構(gòu)建詞句矩陣,通過(guò)詞句協(xié)同過(guò)濾算法(TSCF)排列句子,根據(jù)均值移位聚類算法優(yōu)化摘要句子排序。文獻(xiàn)[2]通過(guò)計(jì)算句子關(guān)鍵詞的TF-IDF值對(duì)句子進(jìn)行排序,利用句子相似度評(píng)價(jià)句子間的銜接度,選取銜接度高的句子作為摘要。然而,上述統(tǒng)計(jì)學(xué)的方法主要適用于結(jié)構(gòu)比較規(guī)范的文本,且只考慮了單詞和句子的頻率影響度,并沒(méi)有考慮到詞匯間的語(yǔ)義關(guān)系。文獻(xiàn)[3]通過(guò)提取關(guān)鍵詞構(gòu)造詞匯鏈,獲取中間語(yǔ)義元素,進(jìn)而提取句子生成摘要。文獻(xiàn)[4]應(yīng)用文本處理算法LSA分析文本的潛在主題,然后從文本中抽取對(duì)應(yīng)這些主題的句子生成摘要。此類方法雖然考慮到了文本的整體語(yǔ)義層次,但忽略了句子語(yǔ)義結(jié)構(gòu)對(duì)摘要生成的影響。文獻(xiàn)[5]利用深度神經(jīng)網(wǎng)絡(luò) Encoder-Decoder 基本框架,通過(guò)引入注意力模型,提出文本摘要的深層學(xué)習(xí)模型——AM-BRNN來(lái)獲取句子語(yǔ)義特征。文獻(xiàn)[6]提出一種基于LSTM-CNN的ATSDL框架,利用短語(yǔ)提取方法MOSP從文本中提取關(guān)鍵短語(yǔ),通過(guò)LSTM訓(xùn)練獲取句子的語(yǔ)義信息和句法結(jié)構(gòu)?;谏疃葘W(xué)習(xí)的摘要生成方法通過(guò)訓(xùn)練語(yǔ)料庫(kù)能充分獲得詞和句子的語(yǔ)義信息,但此類方法過(guò)于依賴包含多目標(biāo)詞的語(yǔ)料庫(kù),且適用于處理短文本,過(guò)長(zhǎng)的文本輸入序列會(huì)導(dǎo)致學(xué)習(xí)框架無(wú)法準(zhǔn)確地獲取句子的語(yǔ)義信息。
近年來(lái),適用于處理長(zhǎng)文本的基于圖排序的摘要生成方法受到研究學(xué)者的廣泛關(guān)注,文獻(xiàn)[7]使用PageRank算法的改進(jìn)算法TextRank生成摘要,將文本看成圖結(jié)構(gòu),句子作為頂點(diǎn),句子間的相似度作為邊權(quán)重,迭代計(jì)算頂點(diǎn)權(quán)重,根據(jù)權(quán)重得分生成文本摘要。文獻(xiàn)[8]提出了基于WMD語(yǔ)義度的TextRank改進(jìn)摘要算法,依據(jù)文本語(yǔ)義特征對(duì)句子進(jìn)行評(píng)分。文獻(xiàn)[9]提出了一種將BM25算法融合到TextRank算法中的摘要生成算法,強(qiáng)化了文本詞頻特征對(duì)摘要生成的影響。此類方法將摘要生成問(wèn)題轉(zhuǎn)化為圖排序問(wèn)題,降低了傳統(tǒng)算法的復(fù)雜性,考慮到了上下文之間的聯(lián)系,但是由于句子結(jié)構(gòu)表征過(guò)于單一,導(dǎo)致摘要生成的準(zhǔn)確率低。
本文針對(duì)上述長(zhǎng)文本摘要生成算法中的不足,綜合考慮句子的詞頻、語(yǔ)義和句法特征,利用樸素貝葉斯方法,以圖集成的方式對(duì)句子多維特征進(jìn)行融合,從而準(zhǔn)確地描述文本句子間的關(guān)聯(lián)關(guān)系,生成圖集成模型GIMFS,得到文本集成相似度圖,同時(shí)利用基于文本上下文句子聯(lián)系的TextRank算法對(duì)圖節(jié)點(diǎn)進(jìn)行排序,以提高摘要生成的質(zhì)量。
詞頻分析是利用詞頻特征來(lái)確定詞語(yǔ)對(duì)文本的重要性。特征詞集中的特征詞TF-IDF[10]值的計(jì)算公式為:
(1)
其中,wij表示第j個(gè)句子中第i個(gè)特征詞的權(quán)重,tfij為詞語(yǔ)ti在句子dj中出現(xiàn)的頻率,N為文本句子集中句子的個(gè)數(shù),ni為文本句子集中包含詞語(yǔ)ti的句子個(gè)數(shù)。
對(duì)于文本集合D中的每個(gè)句子可用其向量表示為si=[w1i,w2i,…,wmi],m為特征詞的數(shù)量,若句中含有特征詞,對(duì)應(yīng)位置值為特征詞權(quán)重wij,否則值為0,則2個(gè)句子si=(w1i,w2i,…,wmi)和sj=(w1j,w2j,…,wmj)之間的相似度計(jì)算公式為:
(2)
潛在語(yǔ)義分析 (Latent Semantic Analysis,LSA)利用文本中詞與詞之間在潛在語(yǔ)義結(jié)構(gòu)中的關(guān)聯(lián)性建立語(yǔ)義概念模型來(lái)表示文本。借助矩陣的奇異值分解(SVD),將文本中的詞向量和句子向量映射到一個(gè)低維的潛在語(yǔ)義空間,去除了原始文本空間中的一些“噪聲”,從而更精確地獲取文本的語(yǔ)義結(jié)構(gòu)。
SVD是將文本矩陣Dm×n分解為正交矩陣U、VT和對(duì)角矩陣Σ的乘積,即:
D=UΣVT
(3)
取對(duì)角矩陣Σ的前k個(gè)奇異值Σk,并相應(yīng)地保留左奇異矩陣U前k個(gè)列向量UK和右奇異矩陣VT的前k個(gè)行向量Vk,即對(duì)矩陣D進(jìn)行k維空間壓縮處理,其分解過(guò)程如圖1所示。
圖1 矩陣的SVD分解示意圖Fig.1 Schematic diagram of SVD decomposition of matrix
文本矩陣D的k維近似矩陣Dk為:
(4)
其中,Dk保持了D中詞與句子的關(guān)聯(lián)模型,維度k值的選取可以通過(guò)多次實(shí)驗(yàn)手動(dòng)確定適當(dāng)?shù)膮?shù)值,也可以通過(guò)取值分析比較,但必須滿足式(5):
(5)
其中,θ可以取70%、80%、90%,則2個(gè)句子si=(wi1,wi2,…,wik)和sj=(wj1,wj2,…,wjk)之間的語(yǔ)義相似度用潛在語(yǔ)義空間VkΣk向量之間的余弦值來(lái)表示:
(6)
句法相似度主要衡量文本中句子之間在語(yǔ)法層面上的相似度,本文采用依存句法分析方法,以依存語(yǔ)法為基礎(chǔ)對(duì)句子進(jìn)行結(jié)構(gòu)分析。2個(gè)集合的相似度依賴于2個(gè)集合所含元素的相似度,句法相似度的計(jì)算采用文獻(xiàn)[11]中的計(jì)算方法,依存句法采用五元組表示:
P=(H/H-POS,C/C-POS,D)
(7)
其中,P表示詞語(yǔ)C依賴于詞語(yǔ)H,H-POS是詞語(yǔ)H的詞性,C-POS是詞語(yǔ)C的詞性,D代表詞語(yǔ)C和H的依存關(guān)系。這5個(gè)元素在集合相似度的計(jì)算中具有不同的權(quán)重次序。
根據(jù)依存句法理論,一個(gè)詞語(yǔ)只能依賴一個(gè)具體的詞語(yǔ),但可能有很多詞語(yǔ)依賴于具體的詞語(yǔ),因此在P中,詞語(yǔ)C的重要程度大于詞語(yǔ)H的重要程度。另一方面,一個(gè)詞語(yǔ)可以有多種詞性,同時(shí)一種詞性又可能包含多個(gè)詞語(yǔ),因此,很明顯詞語(yǔ)比它本身的詞性更重要。另外,依存關(guān)系D不僅依賴于詞語(yǔ),也依賴于詞性,所以依存關(guān)系D的重要度介于詞語(yǔ)和詞性之間。最終得到這5個(gè)特征的重要度排序如下:
C>H>D>C-POS>H-POS
(8)
假定有2個(gè)依存關(guān)系P1=(H1/H1-POS,C1/C1-POS,D1)和P2=(H2/H2-POS,C2/C2-POS,D2),對(duì)2個(gè)依存關(guān)系中5個(gè)相對(duì)應(yīng)位置的特征,用1表示相同,0表示不同。然后根據(jù)它們的重要度順序即式(8)排列,得到一個(gè)二進(jìn)制數(shù)字(bbbbb)2,它的大小范圍為0~31,0代表2個(gè)依存關(guān)系完全不相似,31代表2個(gè)依存關(guān)系完全相似。定義2個(gè)依存關(guān)系的相似度計(jì)算公式為:
(9)
假定2個(gè)句子的依存關(guān)系集合分別為:si={a1,a2,…,an}和sj={b1,b2,…,bm},定義2個(gè)句子的句法相似度為:
(10)
當(dāng)句子間的關(guān)聯(lián)關(guān)系被更多類型的聯(lián)系所支持時(shí),句子間的關(guān)聯(lián)呈現(xiàn)出更高的置信度[12],即句子多種特征之間的集成要比簡(jiǎn)單的權(quán)重相加擁有更高的置信度,也就是句子之間相似計(jì)算擁有更高的準(zhǔn)確性。由于每個(gè)維度的子圖都是獨(dú)立的,因此使用樸素貝葉斯方法集成來(lái)自各個(gè)維度的無(wú)向圖,集成相似度矩陣計(jì)算公式為:
(11)
圖2 圖集成模型總體結(jié)構(gòu)Fig.2 Overall structure of diagram integration model
圖集成模型GIMFS通過(guò)3步對(duì)文本多維特征進(jìn)行集成,得到文本集成相似度無(wú)向圖。
第1步對(duì)文本進(jìn)行預(yù)處理,得到用特征詞集表示的句子節(jié)點(diǎn)。
對(duì)輸入的文本進(jìn)行必要的預(yù)處理工作,這樣不僅能減少冗余信息,減輕計(jì)算量,而且還有助于提高相似度計(jì)算的準(zhǔn)確性。對(duì)文本進(jìn)行分段分句處理是文本預(yù)處理的基礎(chǔ),將“?!薄?”“?”“…”作為一個(gè)句子的結(jié)束符,把文本分解成句子集合,然后以句子為單位進(jìn)行分詞、詞性標(biāo)記、去停用詞、去低頻詞和詞義消歧工作。假定給定文本D有n個(gè)句子組成,則文本集合表示為D={s1,s2,…,sn},其中每一個(gè)句子sj(1≤j≤n)是按原文中出現(xiàn)的順序排列,經(jīng)過(guò)文本預(yù)處理以后,得到文本集合D′={s′1,s′2,…,s′n}。D′中所有詞組成的特征詞集為CW={y1,y2,…,ym},其中,m為文本集合D′中特征詞的數(shù)量,特征詞的順序按原文出現(xiàn)的順序排列。對(duì)于文本集合D′中的每個(gè)句子可表示為s′j=[y1,y2,…,ym],若句子中對(duì)應(yīng)位置不含有特征詞則用0表示。
第2步計(jì)算文本3種特征維度的相似度,分別構(gòu)建每個(gè)維度的無(wú)向加權(quán)圖。
利用式(2)計(jì)算文本句子間的詞頻相似度,并構(gòu)建文本詞頻特征相似矩陣A1,利用式(6)計(jì)算文本句子間語(yǔ)義相似度,并構(gòu)建文本語(yǔ)義特征相似度矩陣A2,利用式(10)計(jì)算文本句子間句法相似度,并構(gòu)建文本句法特征相似度矩陣A3。如果句子間的相似度為aij,則文本特征相似矩陣可表示為:
(12)
以句子為節(jié)點(diǎn),句子間的相似關(guān)系為邊,相似度值為邊的權(quán)重,利用文本的3種特征相似矩陣A1、A2、A3分別構(gòu)建3種維度的無(wú)向加權(quán)圖A′1、A′2和A′3。
第3步對(duì)文本三種維度的特征圖進(jìn)行集成。
文本每一個(gè)維度的無(wú)向加權(quán)圖可以看作是子圖,通過(guò)圖的集成式(11)完成對(duì)子圖的集成,得到文本多維特征的集成相似度圖A′,其對(duì)應(yīng)文本集成相似度矩陣為A,圖中句子間的集成相似度一般大于每個(gè)子圖中對(duì)應(yīng)句子間的相似度,且句子間的相似關(guān)系具有更高的置信度,即句子間的相似關(guān)系的計(jì)算具有更高的準(zhǔn)確性,文本多維特征的集成相似度圖更能準(zhǔn)確地描述文本句子間的關(guān)聯(lián)關(guān)系。
根據(jù)圖集成模型GIMFS計(jì)算文本集成相似度矩陣的算法描述如下:
算法文本集成相似度矩陣計(jì)算算法
輸入待處理文本D
輸出文本集成相似度矩陣A
1.BEGIN
2.DivideCW from D;//文本預(yù)處理得到特征詞集
3.FOR each sjdo //對(duì)于文本中的每一個(gè)句子sj
4.s′j=[CW]; //用特征詞集表示句子
5.s′j(I)=IF-IDF(CW); //使用IF-IDF方法計(jì)算句子的
//詞頻特征值
6.s′j(W)=word2vec(CW); //使用word2vec完成詞向量的
//訓(xùn)練
7.s′j(P)=P(CW); //使用依存句法分析計(jì)算句子的句
//法特征值
8.END
9.FOR each si,sjdo //對(duì)于文本中的任意一對(duì)句子si,sj
10.A1=Sim1(s′i (I),s′j(I)); //計(jì)算文本詞頻相似度并構(gòu)建
//文本詞頻相似度矩陣
11.A3=Sim3(s′i(P),s′j(P)); //計(jì)算文本句法特征相似度
//并構(gòu)建文本句法相似度矩陣
12.END
13.D′k=SVD(D′[ s′j]);//對(duì)文本D′進(jìn)行奇異值分解
14.FOR each si,sjdo //對(duì)于語(yǔ)義空間Vk∑k中的任意一對(duì)句
//子si,sj
15.A2=Sim2(s′i (W),s′j(W)); //計(jì)算文本語(yǔ)義特征相似度
//并構(gòu)建文本語(yǔ)義相似度矩陣
16.END
17.A=1-(1-A1)(1-A2)(1-A3); //計(jì)算文本的
//集成相似度矩陣
18.END
對(duì)文本集成相似度矩陣計(jì)算算法進(jìn)行性能分析,該算法所消耗的時(shí)間復(fù)雜度包括以下7種:
1)對(duì)文本進(jìn)行預(yù)處理,設(shè)其時(shí)間復(fù)雜度為T預(yù)。
2)計(jì)算特征詞集CW中特征詞的TF-IDF值,時(shí)間復(fù)雜度為O(m×n),m為特征詞的個(gè)數(shù),n為文本中句子的個(gè)數(shù)。
3)使用依存句法分析完成文本中句子的句法結(jié)構(gòu)表示,時(shí)間復(fù)雜度為O(m×n)。
4)計(jì)算文本中句子的詞頻相似度、句法相似度,其時(shí)間復(fù)雜度分別為O(n2)、O(n2)。
5)利用word2vec完成特征詞向量的訓(xùn)練,設(shè)其時(shí)間復(fù)雜度為Tword2vec;對(duì)其構(gòu)建文本矩陣D′進(jìn)行奇異值分解,時(shí)間復(fù)雜度設(shè)為TSVD。
6)計(jì)算語(yǔ)義空間VkΣk中句子的語(yǔ)義相似度,時(shí)間復(fù)雜度為O(k2),k為保留的奇異值的數(shù)量。
7)使用樸素貝葉斯方法計(jì)算文本集成相似度矩陣的時(shí)間復(fù)雜度為O(n2)。
因此,圖集成模型GIMFS計(jì)算文本集成相似度矩陣的總的時(shí)間復(fù)雜度T為:
T=T預(yù)+O(m×n)+O(m×n)+O(n2)+O(n2)+
TSVD+O(k2)+O(n2)=T預(yù)+TSVD+
2O(m×n)+3O(n2)+O(k2)
(13)
TextRank算法是一種基于圖的無(wú)監(jiān)督的排序算法,采用“投票”或“推薦”機(jī)制[13],將詞或句子之間的相似關(guān)系看成一種推薦關(guān)系,節(jié)點(diǎn)的重要性不僅取決于投票和邊的數(shù)量,還取決于節(jié)點(diǎn)的重要性,這有助于確定每個(gè)頂點(diǎn)的分?jǐn)?shù)或等級(jí)。
通過(guò)圖集成模型GIMFS得到文本集成相似度圖之后,利用TextRank算法的迭代收斂方法對(duì)圖節(jié)點(diǎn)進(jìn)行排序。句子節(jié)點(diǎn)權(quán)重迭代計(jì)算公式為:
(14)
其中,WS(Vi)是節(jié)點(diǎn)Vi的權(quán)重值,d為阻尼系數(shù),一般取0.85,圖中某一節(jié)點(diǎn)跳轉(zhuǎn)到另一節(jié)點(diǎn)的概率為(1-d),in(Vi)是out(Vj)指向節(jié)點(diǎn)Vi的所有節(jié)點(diǎn)集合,表示節(jié)點(diǎn)Vj指向的所有節(jié)點(diǎn)集合,Wij是節(jié)點(diǎn)Vi和節(jié)點(diǎn)Vj之間邊的權(quán)重。式(14)的左邊為Vi的權(quán)重,右邊表示每個(gè)相鄰節(jié)點(diǎn)對(duì)本節(jié)點(diǎn)的貢獻(xiàn)程度。整個(gè)公式是一個(gè)迭代的過(guò)程,各個(gè)節(jié)點(diǎn)的初始權(quán)重一般設(shè)置為1,當(dāng)經(jīng)過(guò)迭代計(jì)算到圖中任意一節(jié)點(diǎn)迭代前后權(quán)值差值小于0.000 1時(shí),迭代停止,最終得到各候選句的權(quán)值集合。將候選句按權(quán)值進(jìn)行由大到小排序,然后根據(jù)提取率選取權(quán)值較大的幾個(gè)句子為摘要句。
提取率=生成摘要的句子個(gè)數(shù)/文本句子總數(shù)
(15)
其中,提取率取常規(guī)閾值0.1。
本文方法的總體流程如圖3所示。
圖3 基于文本多維度特征的自動(dòng)摘要生成方法流程Fig.3 Procedure of automatic summary generation methodbased on text multi dimensional feature
實(shí)驗(yàn)使用Python語(yǔ)言3.6版本實(shí)現(xiàn)本文的自動(dòng)摘要系統(tǒng),采用NLTK組件進(jìn)行文本的預(yù)處理,在CNN/Daily Mail語(yǔ)料庫(kù)上使用genism模塊的word2vec模型訓(xùn)練詞向量,在斯坦福推理語(yǔ)料庫(kù)(SNLI)數(shù)據(jù)集上實(shí)現(xiàn)對(duì)本文方法句子集成相似度的評(píng)測(cè)任務(wù),在CNN/Daily Mail數(shù)據(jù)集上實(shí)現(xiàn)摘要的自動(dòng)評(píng)估任務(wù)。
實(shí)驗(yàn)1句子集成相似度評(píng)測(cè)
數(shù)據(jù)集:SNLI數(shù)據(jù)集[14]是一個(gè)人工評(píng)測(cè)句子相似度計(jì)算的英文語(yǔ)料庫(kù),包含570 000對(duì)人工標(biāo)注的句子對(duì),其中有550 153對(duì)訓(xùn)練句子和10 000對(duì)測(cè)試句子,針對(duì)推理前提和推理假設(shè)之間是否存在邏輯關(guān)系,人工標(biāo)注了entailment(蘊(yùn)含,推理)、contradiction(矛盾,對(duì)立)、neutral(無(wú)關(guān)) 3種標(biāo)簽。本文在實(shí)驗(yàn)中選擇標(biāo)簽為entailment的句子對(duì)為語(yǔ)義相似樣本,標(biāo)簽為contradiction的句子對(duì)為語(yǔ)義不相似樣本,最終得到含有366 603對(duì)句子的訓(xùn)練集和含有6 605對(duì)句子的測(cè)試集。
評(píng)價(jià)指標(biāo):本文通過(guò)準(zhǔn)確率A、精確率P、召回率R及F1值4個(gè)評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)測(cè),這4個(gè)評(píng)價(jià)指標(biāo)的定義如下:
(16)
(17)
(18)
(19)
其中,TP是預(yù)測(cè)為相似且在數(shù)據(jù)集中也是相似的句子對(duì)的數(shù)量,TN是預(yù)測(cè)為不相似且在數(shù)據(jù)集中也是不相似的句子對(duì)的數(shù)量,FP是預(yù)測(cè)為相似但在數(shù)據(jù)集中為不相似的句子對(duì)的數(shù)量,FN是預(yù)測(cè)為不相似但在數(shù)據(jù)集中為相似的句子對(duì)的數(shù)量。
將本文基于圖集成模型GIMFS計(jì)算句子集成相似度方法分別與基于IF-IDF詞頻相似度方法、基于LSA語(yǔ)義相似度方法、基于依存句法相似度方法和文獻(xiàn)[15]方法進(jìn)行實(shí)驗(yàn)對(duì)比,相似度閾值取0.6,結(jié)果如圖4所示。
圖4 SNLI數(shù)據(jù)集中評(píng)價(jià)指標(biāo)的對(duì)比Fig.4 Comparison of evaluation indicators inSNLI dataset
從圖4的實(shí)驗(yàn)結(jié)果對(duì)比可以看出,本文圖集成模型GIMFS計(jì)算句子相似度的方法具有較高的準(zhǔn)確率、召回率和F1值,證明本文句子集成相似度的計(jì)算方法在預(yù)測(cè)句子相似問(wèn)題上具有較好的準(zhǔn)確性。其原因在于:相比句子單一特征的IF-IDF、LSA和依存句法方法,本文方法綜合考慮文本句子中的詞頻、語(yǔ)義和句法3種特征,圖集成模型GIMFS有效強(qiáng)化了句子特征之間的關(guān)聯(lián)性,而文獻(xiàn)[15]基于句子多種特征相似度的計(jì)算方法只是將句子多種特征相似度權(quán)值簡(jiǎn)單相加,其性能相比本文方法明顯較差。召回率表示樣本中的相似句與預(yù)測(cè)準(zhǔn)確比例。精確率表示預(yù)測(cè)為相似的句子集中真正相似句子的比例,在一般情況下,精確率和召回率是相互矛盾的,一個(gè)數(shù)值高對(duì)應(yīng)著另一個(gè)數(shù)值低,很少有方法能使兩者同時(shí)獲得較好的數(shù)值,本文方法在保證高精確率的同時(shí),召回率明顯高于其他方法,而且兩者的綜合評(píng)價(jià)指標(biāo)F1值達(dá)到最高。綜合結(jié)果表明,相比其他方法,本文基于圖集成模型GIMFS的句子集成相似度計(jì)算方法在預(yù)測(cè)句子相似方面取得了更好的效果。
實(shí)驗(yàn)2摘要評(píng)估
數(shù)據(jù)集:本文的研究是基于長(zhǎng)文本的單文檔自動(dòng)摘要生成技術(shù),實(shí)驗(yàn)采用基于單文本自動(dòng)文本摘要語(yǔ)料庫(kù)CNN/Daily Mail,該數(shù)據(jù)集是從美國(guó)有線新聞網(wǎng)(CNN)和每日郵報(bào)網(wǎng)(Daily Mail)收集了100多萬(wàn)條新聞數(shù)據(jù)[16]。使用文獻(xiàn)[16]提供的腳本下載數(shù)據(jù)集,使用文獻(xiàn)[17]提供的腳本獲得了數(shù)據(jù)集未標(biāo)記版本,即包含每個(gè)新聞故事的原始文本,其中,訓(xùn)練集286 817對(duì),驗(yàn)證集13 368對(duì),測(cè)試集11 487對(duì),使用訓(xùn)練集作為摘要評(píng)估的數(shù)據(jù)集,訓(xùn)練集中文檔平均包含833個(gè)詞,約27個(gè)句子,對(duì)應(yīng)的摘要平均包含53個(gè)詞和3.72個(gè)句子。
評(píng)價(jià)指標(biāo):對(duì)實(shí)驗(yàn)結(jié)果評(píng)測(cè)時(shí),采用評(píng)測(cè)工具ROUGE來(lái)進(jìn)行評(píng)測(cè),計(jì)算ROUGE中ROUGE-1、ROUGE-2、ROUGE-L值作為最后的評(píng)價(jià)指標(biāo)。ROUGE-N定義公式為:
ROUGE-N=
(20)
其中,n表示n-gram的長(zhǎng)度,{ReferenceSummaries}表示事先獲得的人工標(biāo)準(zhǔn)摘要,Countmatch(gramn)表示候選摘要和標(biāo)準(zhǔn)摘要中同時(shí)出現(xiàn)n-gram的個(gè)數(shù),Count(gramn)則表示標(biāo)準(zhǔn)摘要中出現(xiàn)的n-gram個(gè)數(shù)。
ROUGE-L是計(jì)算生成摘要和標(biāo)準(zhǔn)摘要的最長(zhǎng)公共子序列(Longest Common Subsequence,LCS),其優(yōu)點(diǎn)在于自動(dòng)匹配最長(zhǎng)公共子序列,不需要預(yù)先定義n-gram的長(zhǎng)度[18]。
將本文提出的基于圖集成模型GIMFS的自動(dòng)摘要方法分別與TextRank方法、基于RNNseq2seq生成式文本摘要方法[19]、基于句子多特征融合的TextRankExt[20]方法、基于詞句協(xié)同過(guò)濾的摘要提取方法TSCF-Mean[1]、基于深度學(xué)習(xí)自動(dòng)抽取模型AM-BRNN方法[6]、基于IF-IDF和K-Means的文本摘要提取方法[21]進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表1所示。
表1 CNN/Daily Mail中各方法的評(píng)價(jià)指標(biāo)得分結(jié)果Table 1 Evaluation index score results of each methodin CNN/Daily Mail %
通過(guò)表1的實(shí)驗(yàn)結(jié)果對(duì)比可知,本文方法針對(duì)長(zhǎng)文本表現(xiàn)出較好的處理能力,各個(gè)評(píng)價(jià)指標(biāo)均取得了較好的結(jié)果。對(duì)比RNNseq2seq在3個(gè)摘要評(píng)價(jià)指標(biāo)上大約提高了9%,由于RNNseq2seq是基于seq2seq模型的生成式摘要方法,適用于處理短文本,過(guò)長(zhǎng)的文本輸入序列會(huì)導(dǎo)致編碼器端無(wú)法準(zhǔn)確地提取文本的語(yǔ)義信息,產(chǎn)生長(zhǎng)距離依賴問(wèn)題,導(dǎo)致模型無(wú)法收斂,進(jìn)而影響到摘要生成的準(zhǔn)確度。對(duì)比基線TextRank方法,從3個(gè)評(píng)價(jià)指標(biāo)上可以看出,本文方法摘要生成的質(zhì)量平均提高了約7%,表明文本的多維特征在摘要生成上起到了關(guān)鍵作用。
TextRankExt方法將句法、語(yǔ)義和統(tǒng)計(jì)方法應(yīng)用于文本表征上,共同作用于摘要提取的過(guò)程中,效果優(yōu)于文本單一特征的方法,但只是將文本的多種特征的權(quán)值簡(jiǎn)單相加,其性能相比本文方法明顯較差,說(shuō)明本文方法對(duì)文本多維特征進(jìn)行集成的方式有效強(qiáng)化了文本多維特征之間的關(guān)聯(lián)性,進(jìn)而提高了摘要生成的準(zhǔn)確性。AM-BRNN方法雖然考慮了句子的多維度特征,通過(guò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)BiRNN捕獲上下文信息,但并沒(méi)有對(duì)句子特征進(jìn)行關(guān)聯(lián)整合,導(dǎo)致在神經(jīng)網(wǎng)絡(luò)中注意力機(jī)制不能有效獲取語(yǔ)義信息。TSCF-Mean方法利用詞句協(xié)同過(guò)濾算法預(yù)測(cè)和計(jì)算句子權(quán)值,通過(guò)Mean Shift算法優(yōu)化句子排序,雖然充分考慮了文本的詞頻特征,但在文本語(yǔ)義表征上存在嚴(yán)重不足。IF-IDF&K-Means方法通過(guò)IF-IDF算法獲取文本的詞頻特征,然后根據(jù)K-Means聚類得到文本的主題分布,但此方法過(guò)于依賴文本的詞頻特征,同樣存在語(yǔ)義信息表示不足的問(wèn)題。本文方法從詞和句子的多角度特征出發(fā),利用句子多維特征之間的關(guān)聯(lián)關(guān)系,構(gòu)建圖集成模型GIMFS,從而提高了文本句子之間相似計(jì)算的準(zhǔn)確性,最后通過(guò)基于文本上下文信息關(guān)系的TextRank算法生成高質(zhì)量的文本摘要。其實(shí)驗(yàn)評(píng)價(jià)指標(biāo)得分均優(yōu)于其他方法,表明了本文摘要生成方法的優(yōu)越性。
本文研究長(zhǎng)文本的自動(dòng)摘要生成技術(shù),綜合考慮句子的詞頻、語(yǔ)義和句法特征,利用樸素貝葉斯方法對(duì)文本多維度特征進(jìn)行集成,構(gòu)建圖集成模型GIMFS,提高句子間相似特征的置信度,強(qiáng)化文本特征之間的關(guān)聯(lián)性,并通過(guò)基于上下文信息的TextRank算法對(duì)候選句進(jìn)行排序,提高摘要生成的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)基于句子單一特征的長(zhǎng)文本摘要生成方法,本文圖集成模型GIMFS能夠提高句子間相似計(jì)算的準(zhǔn)確性,有效強(qiáng)化文本多維特征之間的關(guān)聯(lián)性,提出的摘要生成方法對(duì)長(zhǎng)文本中的語(yǔ)義單元具有較強(qiáng)的抓取能力,準(zhǔn)確性更高。下一步將研究圖集成模型GIMFS的可擴(kuò)展性,以增強(qiáng)句子多維度特征之間的關(guān)聯(lián)。