曾昭霖 嚴(yán)馨 余兵兵 周楓 徐廣義
摘 要:為了解決傳統(tǒng)多文檔抽取式摘要方法無法有效利用文檔之間的語義信息、摘要結(jié)果存在過多冗余內(nèi)容的問題,提出了一種基于分層最大邊緣相關(guān)的柬語多文檔抽取式摘要方法。首先,將柬語多文檔文本輸入到訓(xùn)練好的深度學(xué)習(xí)模型中,抽取得到所有的單文檔摘要;然后,依據(jù)類似分層瀑布的方式,迭代合并所有的單文檔摘要,通過改進(jìn)的最大邊緣相關(guān)算法合理地選擇摘要句,得到最終的多文檔摘要。結(jié)果表明,與其他方法相比,通過使用深度學(xué)習(xí)方法并結(jié)合分層最大邊緣相關(guān)算法共同獲得的柬語多文檔摘要,R1,R2,R3和RL值分別提高了4.31%,5.33%,6.45%和4.26%?;诜謱幼畲筮吘壪嚓P(guān)的柬語多文檔抽取式摘要方法在保證摘要句子多樣性和差異性的同時(shí),有效提高了柬語多文檔摘要的質(zhì)量。
關(guān)鍵詞: 自然語言處理;柬語;抽取式摘要;深度學(xué)習(xí);瀑布法;最大邊緣相關(guān)
中圖分類號:TP391文獻(xiàn)標(biāo)識碼: A
doi:10.7535/hbkd.2020yx06005
Khmer multi-document extractive summarization method
based on hierarchical maximal marginal relevance
ZENG Zhaolin1,2, YAN Xin1,2, YU Bingbing1,2, ZHOU Feng1,2, XU Guangyi3
(1.Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming,Yunnan 650500,China;2.Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming, Yunnan 650500,China;3. Yunnan Nantian Electronic Information Industry Company Limited, Kunming,Yunnan 650040,China)
In order to solve the problem of ineffective utilization of the semantic information between documents in the traditional multi-document extractive summarization method and the excessive redundant content in the summary result, a Khmer multi-document extractive summarization method based on hierarchical maximal marginal relevance(MMR)was proposed. Firstly, the Khmer multi-document text was input into the trained deep learning model to extract all the single-document summaries. Then, all single document summaries were iteratively merged according to a similar hierarchical waterfall method, and the improved MMR algorithm was used to reasonably select summary sentences to obtain the final multi-document summary. The experimental results show that the R1, R2, R3, RL values of the Khmer multi-document summary obtained by using the deep learning method combined with the hierarchical MMR algorithm increases by 4.31%, 5.33%, 6.45% and 4.26% respectively compared with other methods. The Khmer multi-document extractive summarization method based on hierarchical MMR can effectively improve the quality of Khmer multi-document summary while ensuring the diversity and difference of the summary sentences.
Keywords:
natural language processing;Khmer; extractive summarization;deep learning;waterfall method;maximal marginal relevance(MMR)
隨著“一帶一路”倡議的實(shí)施,中國和柬埔寨作為重要的雙邊貿(mào)易國家和友好合作伙伴,交流與往來日益增加,有關(guān)柬埔寨語(簡稱柬語,下同)的自然語言處理技術(shù)[1]研究變得尤為重要。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展、信息的增加以及傳播和交互速度的迅速加快,人們對互聯(lián)網(wǎng)的需求正在發(fā)生變化[2]。如何從大量冗余信息中快速得到主要內(nèi)容已成為當(dāng)前研究的熱點(diǎn)。簡短的摘要可以幫助人們快速獲取信息,加快信息傳播速度。根據(jù)待觀察文檔數(shù)量的多少,可以將文檔摘要的形式分為單文檔摘要[3]和多文檔摘要[4]。前者是對一個(gè)文檔內(nèi)容進(jìn)行提取生成一篇摘要,后者是從一個(gè)話題下的多篇相關(guān)文檔中生成一篇摘要。單文檔摘要技術(shù)主要面向單個(gè)文檔,隨著時(shí)代的發(fā)展,多文檔摘要技術(shù)逐漸得到重視。迄今為止,已經(jīng)有很多方法被應(yīng)用到多文檔摘要技術(shù)中,主要分為基于特征的方法、基于聚類的方法、基于圖模型的方法和基于深度學(xué)習(xí)的方法。
基于特征的方法即對語料進(jìn)行特征構(gòu)造,轉(zhuǎn)化為句子排序問題,依據(jù)句子的重要性挑選摘要句,組合形成摘要。常用的句子特征如句子位置、句子長度、線索詞等[5]。常用于基于特征的多文檔摘要方法還有基于中心性(Centrality)[6]相關(guān)方法,其是在識別輸入源中心通道的基礎(chǔ)上檢測出最顯著的信息,用于生成通用的摘要;而基于覆蓋率(Coverage)[7]的方法則產(chǎn)生由單詞、主題、時(shí)間驅(qū)動的摘要?;谔卣鞯亩辔臋n摘要方法雖然已得到廣泛研究,但該方法無法理解文檔的上下文信息,僅在句子級別對句子進(jìn)行評分。
基于聚類的方法即將句子集進(jìn)行歸類。盡管多文檔包含多個(gè)主題且各文檔內(nèi)容通常有所不同,但是通過聚類方法可以提取出在聚類簇中表達(dá)主題信息的句子形成摘要[8]。RADEV等[9]提出了基于質(zhì)心代表文檔集合的邏輯主題的抽取式摘要方法;MCKEOWN等[10]開發(fā)了基于片斷聚類方法的多文檔摘要系統(tǒng)MultiGen,識別出不同文件間的相似之處和不同之處,通過語義相似度提取主題,從主題中抽取交集作為關(guān)鍵詞,生成連貫的摘要。但是,基于聚類的方法需要事先知道聚類的類別數(shù)。
基于圖模型的方法廣泛用于多文檔摘要任務(wù)中,把諸如句子和段落之類的文本單元集成到基于圖的結(jié)構(gòu)中,使用類似投票機(jī)制提取文本摘要[11]。典型的圖模型為PageRank算法[12], 初始時(shí)為每個(gè)頁面分配相同的重要性評分,根據(jù)算法迭代更新每個(gè)頁面的PageRank評分,直至評分穩(wěn)定。TextRank是在PageRank算法基礎(chǔ)上,對每個(gè)詞節(jié)點(diǎn)附上權(quán)值,構(gòu)建關(guān)于詞的無向帶權(quán)圖,建立圖模型,利用投票機(jī)制對文本的重要成分進(jìn)行排序,生成摘要[13]。YASUNAGA等[14]提出了GCN(graph convolutional network)模型,將句子關(guān)系圖融入到神經(jīng)網(wǎng)絡(luò)模型中,得到句子的重要性,利用依此產(chǎn)生的句子高維表征,通過重要性估計(jì)提取摘要句。
基于深度學(xué)習(xí)的方法即利用深度學(xué)習(xí)訓(xùn)練出詞、句子等級別具有上下文信息、語義關(guān)系的表征,以便更好地生成摘要[15]。CAO等[16]針對基于查詢的多文檔摘要任務(wù),提出了AttSum模型,采用聯(lián)合學(xué)習(xí)的方法結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制對句子進(jìn)行建模表示,能夠有效學(xué)習(xí)到文檔主旨和摘要句子之間的相關(guān)性;NALLAPATI等[17]提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的SummaRuNNer模型,從文本的重要性和新穎性等角度出發(fā),解釋文本摘要的生成過程;NARAYAN等[18]利用基于Encoder-Decoder框架的分層文檔編碼器和基于注意力的解碼器結(jié)構(gòu),結(jié)合附帶信息的關(guān)注來更好地選擇摘要句。但是單純的基于深度學(xué)習(xí)的方法需要大量數(shù)據(jù)對模型進(jìn)行訓(xùn)練。
目前柬語自然語言處理研究的基礎(chǔ)較為薄弱,且主要集中在命名實(shí)體識別與可比語料方面,關(guān)于多文檔摘要方面的研究十分稀少,領(lǐng)域?qū)<胰斯?biāo)注的代價(jià)十分昂貴,柬語多文檔摘要語料較為匱乏。已有多文檔抽取式摘要方法大多使用的是有監(jiān)督的學(xué)習(xí)方法,不太適用于柬語多文檔摘要。本文利用無監(jiān)督學(xué)習(xí)方法,在不依賴任何標(biāo)注數(shù)據(jù)的情況下,通過對多文檔內(nèi)在特征的挖掘,找到文檔間的關(guān)系,使用類似瀑布分層的方式,結(jié)合改進(jìn)的最大邊緣相關(guān)算法MMR[19],基于句子特征的5種評估方法的綜合得分決定摘要句的重要性,依據(jù)ROUGE-L[20]召回率評估候選摘要句與已選摘要句之間內(nèi)容的冗余關(guān)系,迭代合并通過深度學(xué)習(xí)模型得到的單文檔摘要集,有效提高柬語多文檔摘要的質(zhì)量,保證摘要結(jié)果的多樣性和差異性。
1 多文檔抽取式摘要的主要內(nèi)容
在通過訓(xùn)練好的CNN-LSTM-LSTM深度學(xué)習(xí)模型得到柬語單文檔摘要集的基礎(chǔ)上,添加一種分層最大邊緣相關(guān)算法,迭代合并所有單文檔摘要作為最終的多文檔摘要。考慮到多文本摘要任務(wù)中存在較多的冗余內(nèi)容,本文用于抽取單文檔摘要的深度學(xué)習(xí)模型參數(shù)無法識別多文檔文本中較多的冗余內(nèi)容,于是提出了一種基于分層最大邊緣相關(guān)算法的柬語多文檔抽取式摘要方法。該方法分2步完成:第1步,將每個(gè)單文檔文本輸入到已經(jīng)訓(xùn)練好的CNN-LSTM-LSTM深度學(xué)習(xí)模型中,獲取所有的單文檔摘要;第2步,依據(jù)類似瀑布的方式,將按新聞時(shí)序排序的單文檔摘要集通過改進(jìn)的最大邊緣相關(guān)算法,迭代合并所有單文檔摘要,得到最終的多文檔摘要。過程如圖1所示。
本文中的CNN-LSTM-LSTM深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的輸入層為已經(jīng)過分詞、詞性標(biāo)注、去噪等預(yù)處理之后的柬語多文檔新聞?wù)Z料。在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,先使用卷積神經(jīng)網(wǎng)絡(luò)CNN對輸入文檔D中的n個(gè)句子進(jìn)行編碼,獲得所有句子S的句子表征{S1,S2,…,Sn},將其作為長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM(long short-term memory)[21]的輸入。根據(jù)CNN-LSTM-LSTM網(wǎng)絡(luò)結(jié)構(gòu)可知,文檔編碼器LSTM的隱藏狀態(tài)為{h1,h2,…,hi,…,hn},其中hi表示文檔D中第i個(gè)句子對應(yīng)的文檔編碼器LSTM中的隱藏狀態(tài),通過文檔編碼器LSTM得到該輸入文檔的表征hn,hn為包含文檔D中所有句子信息的最后一個(gè)隱藏狀態(tài)。句子提取器LSTM作為另外一種循環(huán)神經(jīng)網(wǎng)絡(luò),初始的隱藏狀態(tài)的輸入為與其相連的文檔編碼器LSTM中的最后一個(gè)隱藏狀態(tài)hn,也是輸入文檔的表征。句子提取器LSTM中的隱藏狀態(tài)表示為
t=LSTM(pt-1St-1,t-1) 。
式中:t表示在第t個(gè)時(shí)間步句子提取器LSTM的隱藏狀態(tài);pt-1表示句子提取器認(rèn)為前一句應(yīng)該被提取的概率;St-1表示前一句的句子表征。
結(jié)合注意力機(jī)制[22]的句子提取器在處理第t個(gè)時(shí)間步的句子時(shí),通過將其當(dāng)前的隱藏狀態(tài)t與其在文檔編碼器中的隱藏狀態(tài)ht相關(guān)聯(lián),經(jīng)過以下處理得到該句子為摘要句標(biāo)簽的概率:
P(yL=1|St)=σ(MLP([t;ht]))。
式中:yL∈{0,1}為文檔D中的句子是否為摘要句的標(biāo)簽,1表示該句為摘要句;MLP是一個(gè)多層神經(jīng)網(wǎng)絡(luò),輸入為[t;ht],“;”表示連接;σ表示Sigmoid激活函數(shù)。CNN-LSTM-LSTM神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖如圖2所示。
1.1 從單文檔摘要到多文檔摘要
通常將包含多個(gè)單文檔文本摘要的集合稱為多文檔摘要,與單文檔摘要相比,多文檔摘要包含眾多的冗余內(nèi)容,同一話題在不同摘要中重復(fù)出現(xiàn)。如何將單文檔摘要集轉(zhuǎn)化為更為高效的多文檔摘要是本文解決的問題。傳統(tǒng)的多文檔摘要方法[23]是將所有單文檔文本連接起來,看成一個(gè)文檔,再使用單文檔摘要方法生成最終的多文檔摘要。當(dāng)單文檔文本數(shù)目較少時(shí),該方法表現(xiàn)出良好的效果,但隨著文檔數(shù)量的逐漸增加,該方法的性能逐漸下降,在識別冗余內(nèi)容時(shí)具有局限性。另外,該方法也忽略了事件發(fā)生的時(shí)間信息。為了克服該方法的局限性,一種可能的策略是先逐個(gè)抽取出單文檔摘要,并將它們有規(guī)則地迭代組合在一起。為了迭代組合單文檔摘要,筆者提出瀑布法,如圖3所示。瀑布法包含2步。首先,將柬語多文檔文本通過CNN-LSTM-LSTM深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,獲得關(guān)于每篇文檔的單文檔摘要集{S1,S2,…,Sj,…,Sn},Sn假設(shè)為最后一篇單文檔摘要;其次,將第1個(gè)單文檔摘要S1和第2個(gè)單文檔摘要S2連接在一起,合并為一個(gè)輸入摘要,通過改進(jìn)的MMR算法和句子的重要性得分評估對2個(gè)單文檔摘要的句子進(jìn)行排序,挑選前若干個(gè)MMR總得分最高的句子進(jìn)行合并,作為該階段合并后的文檔摘要S1,2,再采取同樣方法,將合并得到的文檔摘要S1,2與第3個(gè)單文檔摘要S3連接合并,得到該階段合并后的文檔摘要S1,2,3。重復(fù)上述方法,直到迭代完成所有抽取出來的單文檔摘要,得到一個(gè)最終的柬語多文檔摘要。
該方法對輸入文檔摘要的時(shí)間順序較為敏感,在每次迭代過程中,候選摘要都要與已選摘要合并,所以初始文檔的摘要比后面文檔的摘要更有可能被刪除。由于較新的新聞內(nèi)容更符合人們的信息需求,因此本文依據(jù)新聞文檔的時(shí)間順序?qū)挝臋n摘要集進(jìn)行排序后再進(jìn)行合并。通過實(shí)驗(yàn)表明,摘要中包含的句子個(gè)數(shù)為20的時(shí)候,效果最好,因此把20設(shè)為本文摘要包含的句子個(gè)數(shù)參數(shù)。這種方法可以很好地解決每個(gè)文檔內(nèi)與每個(gè)文檔之間的信息冗余問題,在保證多文本摘要多樣性的同時(shí),可以保證多文檔摘要的差異性。
1.2 分層最大邊緣相關(guān)算法
最大邊緣相關(guān)算法MMR(maximal marginal relevance),是一種用于實(shí)現(xiàn)文檔摘要的方法。新聞文本中包含許多重復(fù)的背景信息。MMR的主要思想是使所選的摘要句與文檔主旨高度相關(guān),在確保摘要多樣性的同時(shí),使候選摘要句與已選摘要句之間的差異性盡可能大,最終摘要結(jié)果僅有較低冗余信息,達(dá)到平衡摘要句之間多樣性和差異性的目的。
本文使用改進(jìn)的MMR算法,在句子重要性評估得分上,使用基于句子特征的5種評估方法的綜合得分表示句子和文檔主旨的相似性得分,以便更好地選擇摘要句子;在句子的差異性比較上,利用ROUGE-L召回率進(jìn)行評估,依據(jù)候選摘要句子與已選摘要句子之間的差異性得分,降低多文檔摘要內(nèi)容的冗余。首先,在已按新聞時(shí)序排好的單文檔摘要集D中,利用句子重要性評估方法選擇得分排在最前的摘要句Sj作為初始摘要句子,將其添加到已選摘要句集S中,初選摘要句子Sj是單文檔摘要集D中重要性得分最高的一句,同時(shí)也是當(dāng)前已選摘要句集中內(nèi)容重疊最少的;然后,通過MMR算法計(jì)算剩余摘要句的得分值,決定是否將其添入已選摘要句集S中。不斷迭代計(jì)算單文檔摘要集D中的剩余摘要句子,直至已選摘要句集S達(dá)到摘要長度的限制。改進(jìn)的MMR算法計(jì)算公式表示為
MMR=arg max[DD(X]Si∈D\S
[λsim1(Si,D)[TXX}-*2][DD(X] 重要性
-(1-λ)max[DD(X]Sj∈S sim2(Si,Sj)][TXX}]
冗余性。
式中:D為單文檔摘要的結(jié)果文檔集,由所有抽取出來的單文檔摘要按新聞時(shí)序排列組成;S為當(dāng)前已選摘要句集;Si表示候選摘要句;Sj表示已選摘要句集S中的已選摘要句;λ是平衡因子;λsim1(Si,D)表示候選摘要句Si與單文檔摘要集D的相似度,作為該句重要性的評估,其值越大,表明句子Si與文檔主旨的相關(guān)度越緊密,包含重要的文檔主旨信息,適合作為摘要句;(1-λ)max[DD(X]Sj∈S sim2(Si,Sj)表示候選摘要句Si與已選摘要句Sj之間的相似性,作為句子Si的冗余性評估,其值越小,表明該句與已選摘要集S之間的差異性越大,兩者間的冗余內(nèi)容越少。迭代計(jì)算能使重要性和差異性之間平衡最大的候選摘要句加入已選摘要句集S。通過實(shí)驗(yàn)調(diào)整λ值,達(dá)到摘要句多樣性和差異性之間的平衡。 分層最大邊緣相關(guān)算法描述如表1所示。
1.2.1 句子的重要性評估
為了評估摘要句子的重要性sim1(Si,D),選取若干關(guān)于句子不同特征的比較方法,通過計(jì)算基于句子不同特征的綜合得分,用來代表摘要句子與文檔之間的重要性得分。本文使用基于句子5種不同特征的得分評估摘要句的重要性,包括基于句子中關(guān)鍵詞的得分、基于句子與多文檔標(biāo)題相似性的得分、基于句子中線索詞的得分、基于句子長度的得分以及基于句子位置的得分。
1)基于句子中關(guān)鍵詞的得分
關(guān)鍵詞是反映文章中主題的詞語,句子包含的關(guān)鍵詞越多,其包含文檔主題的信息量就越大,句子就越重要。關(guān)鍵詞的提取,首先要將分詞后的單文檔摘要文本過濾掉無意義的停用詞,然后使用TF-IDF(term frequency-inverse document frequency, 詞頻-逆文本頻率)算法計(jì)算出每個(gè)詞語的權(quán)重,最后根據(jù)詞語的權(quán)重提取出關(guān)鍵詞。詞語TF-IDF權(quán)重的計(jì)算公式為
Wi,j=tfi,j×logNnj+1。 (1)
式中:Wi,j表示特征詞的TF-IDF權(quán)重;tfi,j表示詞語wi在當(dāng)前文本dj中出現(xiàn)的頻率;N表示抽取出的單文檔摘要集的文本總數(shù);nj為單文檔摘要集合中包含詞語wi的單文檔摘要文本數(shù)目;nj+1中的+1為拉普拉斯平滑,防止當(dāng)nj為0時(shí)出現(xiàn)分母為0的非法情況。
計(jì)算得到每個(gè)詞語的權(quán)重是出于關(guān)鍵詞得分對句子重要性的影響考慮,挑選出詞語權(quán)重排在前面的若干實(shí)詞作為關(guān)鍵詞短語(通常為5~10個(gè))。研究發(fā)現(xiàn),抽取出權(quán)重最大的前8個(gè)實(shí)詞作為關(guān)鍵詞較為合適?;陉P(guān)鍵詞的得分計(jì)算公式為
WX(Si)=∑8k=1W(Si,k)。
式中:WX(Si)表示句子Si基于關(guān)鍵詞的得分;∑8k=1W(Si,k)表示句子Si包含的關(guān)鍵詞得分之和;Si,k表示句子Si中所包含的關(guān)鍵詞;W(Si,k)表示句子Si中包含的關(guān)鍵詞所對應(yīng)的權(quán)重大小。
由于柬語句子長度變化較大,為了避免因?yàn)榫渥娱L度差距導(dǎo)致的句子間重要性得分差距過大,在句子包含TF-IDF關(guān)鍵詞權(quán)重的基礎(chǔ)上進(jìn)行歸一化處理,使不同長度的句子基于關(guān)鍵詞權(quán)重值處于同一數(shù)值范圍,計(jì)算公式為
W1(Si)=(WX(Si)-min WX(S))(max WX(S)-min WX(S))。
式中:W1(Si)為句子Si歸一化后基于關(guān)鍵詞的句子得分;WX(Si)為句子Si歸一化前基于關(guān)鍵詞的句子得分;max W(S)為所有句子中得分的最大值;min W(S)為所有句子中得分的最小值。
2)基于句子與標(biāo)題相似度的得分
新聞文本標(biāo)題通常能反映該文本的主題,對摘要句的重要性評估具有很大影響。通過計(jì)算摘要句和標(biāo)題之間的相似度得分來評估單文檔摘要集中摘要句子的重要性,相似度越大,則該句就越重要,被選中的可能性就越大。在向量空間模型VSM中通過余弦相似度計(jì)算,句子Si和標(biāo)題C以包含關(guān)鍵詞的得分作為特征的向量表示之間的相似度得分,表示摘要句和標(biāo)題的整體相似度得分。本文中Si=(WSi,1,
WSi,2,…,WSi,8),
C=(WC1,WC2,…,WC8)。基于句子和標(biāo)題的余弦相似度得分計(jì)算公式為
W2(Si)=
∑8k=1W(Ck)×W(Si,k)
∑8k=1W(Ck)2×
∑8k=1W(Si,k)2。
式中:W2(Si)表示句子Si與標(biāo)題C的相似度得分,分值越高,與文本主旨的相關(guān)度越高,句子Si越應(yīng)該被選取;W(Si,k)表示句子Si中所包含的由式(1)得出的第k個(gè)關(guān)鍵詞權(quán)重;Ck表示標(biāo)題C中所包含8個(gè)關(guān)鍵詞中的第k個(gè)關(guān)鍵詞;W(Ck)表示標(biāo)題C中所包含的第k個(gè)關(guān)鍵詞得分。
3)基于句子中線索詞的得分
句子中某些詞語并不是關(guān)鍵詞,但是依然可以起到提示性的作用,如“綜上所述”“總而言之”“說明”等具有對文本主旨內(nèi)容牽引的指示詞,會包含更多的信息,應(yīng)該給予較大權(quán)重。句子Si基于是否包含線索詞WC的得分規(guī)則如式(2)所示:
W3(Si)= 1, WCSi,
0, WCSi。(2)
4)基于句子長度的得分
過短的句子通常沒有實(shí)際意義,并且包含文檔主旨的信息很少;過長的句子雖然包含了更多語義信息,但是內(nèi)容過于繁雜,通常不屬于摘要。因此,摘要句的選擇應(yīng)該選擇長度適中的句子。句子Si基于句子長度LSi的得分規(guī)則如式(3)所示:
W4(Si)=
1, 15≤LSi≤25,
0.5, 5≤LSi<15 or 25 0, others 。 (3) 5)基于句子位置的得分 大部分柬語新聞文本結(jié)構(gòu)的特點(diǎn)會在首段或者首句對該篇新聞報(bào)道的主題核心進(jìn)行說明。通過閱讀大量新聞報(bào)道發(fā)現(xiàn),為了吸引讀者的閱讀興趣以及方便讀者能夠快速了解所報(bào)道的事件,新聞報(bào)道文章往往會在首段的首句引出新聞主題核心,在首段的非首句仍然是對新聞報(bào)道的總結(jié)性描述。因此應(yīng)該給予句子Si位于首段 Pfirst首句Sf和首段非首句更高的權(quán)重,計(jì)算規(guī)則如式(4)所示: W5(Si)= 1, SiPfirst and Si=Sf, 0.5, SiPfirst and Si≠Sf, 0, SiPfirst。[JB)][JY] (4) 通過計(jì)算上述基于句子5種不同特征重要性得分的組合,對單文檔摘要集中每個(gè)摘要句子的相關(guān)度和重要度進(jìn)行綜合評分?;诰渥泳C合特征的重要性得分計(jì)算式如(5)所示: Score(Si)=∑5n=1(γn×Wn(Si)) 。 (5) 式中: Score(Si)表示句子Si的綜合評估得分;Wn(Si)表示第i個(gè)句子基于第n項(xiàng)句子特征的重要性得分;γn表示關(guān)于上述5項(xiàng)基于句子不同特征得分在綜合得分中的比例因子系數(shù),且∑5n=1 γn=1,1≤n≤5,且n為整數(shù)。通過計(jì)算Score(Si)得到每個(gè)摘要句Si的sim1(si,D)的重要性得分。 1.2.2 句子的冗余性評估 為了評估候選摘要句與已選摘要句之間的差異性得分 max Sj∈S sim2(Si,Sj),Si表示候選摘要句,Sj表示已經(jīng)被選中的摘要句,S表示已選摘要句集,利用ROUGE-L召回率評估,通過計(jì)算候選句子和已選摘要句子之間的最長公共子序列長度,除以已被選中摘要語句的長度,作為候選摘要句子的差異性得分。產(chǎn)生較高ROUGE-L精度的候選語句認(rèn)為與已選摘要有著顯著的內(nèi)容重疊,它將獲得較低的MMR分?jǐn)?shù),因此不太可能作為摘要句,達(dá)到去除多文檔摘要內(nèi)容冗余的目的。計(jì)算式如式(6)所示: Rlcs=LCS(X,Y)m 。 (6) 式中:X表示候選摘要句;Y表示已經(jīng)被選中的摘要句;LCS表示X與Y的最長公共子序列的長度; m表示已被選中的摘要句的長度;Rlcs表示候選摘要句與已選摘要句的內(nèi)容重疊率,即冗余程度。通過計(jì)算ROUGE-L的值,得到max[DD(X]Sj∈S sim2(Si,Sj)得分。 2 實(shí)驗(yàn)數(shù)據(jù)分析 2.1 實(shí)驗(yàn)數(shù)據(jù) 本文中所使用的柬語多文檔實(shí)驗(yàn)語料主要來源于柬埔寨新聞日報(bào)網(wǎng)、Koh Santepheap以及柬埔寨MYTV等網(wǎng)站,通過人工收集和網(wǎng)頁爬取方法獲得相關(guān)主題新聞文檔,再進(jìn)行分詞、詞性標(biāo)注等預(yù)處理,所采集到的語料涵蓋了政治、體育、娛樂和軍事等眾多領(lǐng)域。利用實(shí)驗(yàn)室分詞平臺進(jìn)行分詞預(yù)處理,得到大約700個(gè)新聞標(biāo)題,5 000篇左右的新聞文檔,每個(gè)新聞標(biāo)題下大約包含7篇新聞報(bào)道,每篇文檔中包含30個(gè)左右的句子,每個(gè)新聞標(biāo)題下的所有新聞文本按照新聞時(shí)間順序排列成1份柬語多文檔語料。該多文檔摘要系統(tǒng)的任務(wù)是從包含7篇新聞文檔的單文檔摘要結(jié)果中合并抽取生成1份簡潔、流暢、涵蓋主題內(nèi)容的多文檔摘要。 2.2 評價(jià)指標(biāo) 自動文本摘要質(zhì)量的評估是一項(xiàng)比較困難的任務(wù),通常選取1個(gè)或多個(gè)指標(biāo)對生成摘要和參考摘要進(jìn)行內(nèi)部評價(jià),內(nèi)部評價(jià)比較的是摘要內(nèi)容的信息覆蓋率。在本實(shí)驗(yàn)中,對摘要結(jié)果的評價(jià)通過與專家標(biāo)注的參考摘要進(jìn)行對比,實(shí)驗(yàn)數(shù)據(jù)經(jīng)過專業(yè)人員審核,參考摘要通過多個(gè)專家標(biāo)注,準(zhǔn)確性高。目前較為廣泛使用的摘要評價(jià)指標(biāo)為ROUGE指標(biāo),其評測原理采用召回率作為指標(biāo)。ROUGE-N基于摘要中N元詞的共現(xiàn)信息評價(jià)摘要,通過比較生成摘要中包含的基本語義單元數(shù)目在專家標(biāo)注參考摘要數(shù)目的占比衡量摘要質(zhì)量,是一種面向N元詞召回率的評價(jià)方法。ROUGE-L基于抽取出的摘要與參考摘要匹配到的最長公共子序列的占比評價(jià)摘要質(zhì)量,能在一定程度上反映摘要的質(zhì)量,其值越高,表示抽取出來的摘要質(zhì)量越高。本文采用一元召回率(R1)、二元召回率(R2)、三元召回率(R3)和最長公共子序列的召回率(RL)作為摘要評價(jià)指標(biāo)。計(jì)算公式表示為 ROUGE-N=∑S∈RS∑n-gram∈SCountmatch(n-gram) ∑S∈RS∑n-gram∈SCountmatch(n-gram) , 式中: RS表示參考摘要;Countmatch(n-gram)表示在生成摘要與標(biāo)準(zhǔn)參考摘要中匹配到的共現(xiàn)n-gram數(shù)量之和;Count(n-gram)表示標(biāo)準(zhǔn)參考摘要中的n-gram數(shù)量。 2.3 實(shí)驗(yàn)結(jié)果與討論 2.3.1 最大邊緣相關(guān)算法中λ因子系數(shù)的選擇 為了選取最佳λ因子系數(shù),保證多文檔摘要句子相關(guān)性和差異性的平衡,進(jìn)行了30組實(shí)驗(yàn)對比。研究發(fā)現(xiàn),當(dāng)選取λ值以小于0.1的級數(shù)增加時(shí),摘要結(jié)果得分變化并不明顯,所以以0.1的倍數(shù)增加選擇了11 組實(shí)驗(yàn)進(jìn)行對比,實(shí)驗(yàn)結(jié)果見表2。 由表2可知,當(dāng)λ值為0或者為1.0時(shí),在R1,R2,R3,RL上的得分很低,主要是因?yàn)楫?dāng)λ值為0或者為1時(shí),僅僅考慮了摘要句子之間的相關(guān)性或差異性,沒有綜合考慮。隨著λ值的增加,R1,R2,R3,RL的得分也呈現(xiàn)增加的趨勢,當(dāng)λ值為0.5時(shí)得分最高,展現(xiàn)出很好的性能,故將其作為MMR算法的平衡因子系數(shù)值。由表2還可以看出,當(dāng)λ值超過0.5時(shí),ROUGE各項(xiàng)評估得分開始下降,原因是閾值設(shè)置過大,導(dǎo)致許多重要性得分很高的句子不能滿足冗余性約束而無法加入到摘要中。 2.3.2 摘要中包含句子個(gè)數(shù)參數(shù)的選擇 為了選取合并摘要中句子個(gè)數(shù)參數(shù)的最優(yōu)值,使用本文方法分別進(jìn)行了30組實(shí)驗(yàn)。研究發(fā)現(xiàn),當(dāng)設(shè)置的摘要中句子個(gè)數(shù)參取值以小于2的級數(shù)增加或者減少時(shí),R1,R2,R3和RL的得分變化不太明顯,所以每次在選取摘要中包含句子個(gè)數(shù)參數(shù)的取值時(shí),選取2的整數(shù)倍值增加或者減少進(jìn)行實(shí)驗(yàn)。初步選取摘要中句子的個(gè)數(shù)為16,在此基礎(chǔ)上進(jìn)行增加或遞減實(shí)驗(yàn)。選取相同的λ=0.5,在相同的語料集下使用瀑布法結(jié)合本文中的MMR算法合并單文檔摘要,挑選了有代表性的8組實(shí)驗(yàn)結(jié)果進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表3所示。 由表3可知,隨著摘要中包含句子個(gè)數(shù)的增加,在R1,R2,R3,RL上的得分呈現(xiàn)遞增趨勢,體現(xiàn)了自動文本摘要包含信息的多樣性??梢钥闯?,當(dāng)摘要中句子的個(gè)數(shù)值為20時(shí),在R1,R2,R3和RL上的得分最高,效果最好。隨著摘要中包含句子個(gè)數(shù)繼續(xù)增加,R1,R2,R3和RL的值呈現(xiàn)下降趨勢,主要是由于當(dāng)摘要中句子的個(gè)數(shù)值過大時(shí),存在較多的冗余內(nèi)容,無法保證摘要的差異性。所以,本文選取摘要中句子的個(gè)數(shù)值為20,作為最終的多文檔摘要長度。 2.3.3 改進(jìn)MMR算法的重要性驗(yàn)證 在句子重要性評估上,使用了基于摘要句5種特征的綜合句子得分表示句子和文檔主旨之間的相關(guān)性,效果理想。采用本文中改進(jìn)的MMR算法與基于單純余弦相似度計(jì)算的MMR算法,在進(jìn)行單文檔摘要合并為多文檔摘要時(shí)進(jìn)行了對比,實(shí)驗(yàn)結(jié)果見表4。 由表4可知,與基于單純余弦相似度計(jì)算方法的MMR算法相比,本文中使用改進(jìn)的MMR方法合并摘要的效果更好,R1,R2,R3和RL都要比前一種方法要高,證明了本文使用方法的有效性。這主要是由于本文使用的MMR方法可以更好地利用句子的特征信息綜合評估句子的重要性,在保證多文本摘要準(zhǔn)確性的同時(shí)也可以保證多文檔摘要的信息豐富多樣性,提高了柬語多文本摘要的質(zhì)量。 2.3.4 基于分層最大邊緣相關(guān)方法抽取多文檔摘要的優(yōu)越性驗(yàn)證 將本文基于分層最大邊緣相關(guān)的多文檔摘要方法與另外3種對多文檔進(jìn)行摘要的無監(jiān)督方法,在使用相同訓(xùn)練集時(shí)進(jìn)行R1,R2,R3和RL結(jié)果的對比。3種對比方法包括:1)基于文檔中詞的TF-IDF特征的方法[24],聯(lián)合句子的長度、位置等表面特征進(jìn)行摘要句的選擇;2)基于圖的排序模型TextRank用于文本處理,構(gòu)建關(guān)于詞的無向帶權(quán)圖,利用投票機(jī)制提取關(guān)鍵詞;3)基于MMR的方法。結(jié)果見表5。 由表5結(jié)果可知,相比于其他3種對比方法,本文提出的基于分層最大邊緣相關(guān)的多文檔抽取式摘要方法,在R1,R2,R3和RL上取得了最高的得分。利用本文中的改進(jìn)方法抽取出來的多文檔摘要與專家人工標(biāo)注的參考摘要更加吻合,深度挖掘了文本之間的語義關(guān)系,并且有效減少了多文檔摘要中的內(nèi)容冗余,抽取出的柬語多文檔摘要質(zhì)量更高,也進(jìn)一步說明本文所提方法的有效性。 3 結(jié) 語 1)提出了一種基于分層最大邊緣相關(guān)的柬語多文檔抽取式摘要方法。首先,將收集來的柬語多文檔語料輸入到已經(jīng)訓(xùn)練好的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,獲得單文檔摘要集合;然后,依據(jù)類似瀑布的方式,將單文檔摘要結(jié)果通過改進(jìn)的最大邊緣相關(guān)算法,迭代合并所有單文檔摘要作為最終的多文檔摘要結(jié)果。 2)與直接對多文檔文本進(jìn)行自動摘要相比,該方法深度挖掘了文本間的語義關(guān)系,在保證摘要句多樣性的同時(shí),也降低了多文檔摘要的內(nèi)容冗余,提高了柬語多文檔摘要的質(zhì)量。 3)由于柬語多文檔摘要語料較為匱乏,因此本文采用的是無監(jiān)督學(xué)習(xí)方法,導(dǎo)致抽取出來的多文檔摘要不如半監(jiān)督和有監(jiān)督的學(xué)習(xí)方法效果好。下一步工作將嘗試探討使用半監(jiān)督的學(xué)習(xí)方法,解決柬語多文檔摘要標(biāo)注語料匱乏的問題,提高多文檔摘要的流暢性。 參考文獻(xiàn)/References: [1]HIRSCHBERG J, MANNING C D. Advances in natural language processing[J]. Science, 2015, 349(6245): 261-266. [2]秦兵,劉挺,李生.多文檔自動文摘綜述[J].中文信息學(xué)報(bào),2005,19(6):13-22. QIN Bing,LIU Ting,LI Sheng.Summary of multi-document automatic summarization[J].Journal of Chinese Information Processing, 2005,19(6):13-22. [3]ISONUMA M, MORI J, SAKATA I. Unsupervised neural single-document summarization of reviews via learning latent discourse structure and its ranking[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.[S.l.]: Association for Computational Linguistics, 2019:2142-2152. [4]MOHAMMED D A, KADHIM N J. Extractive multi-document summarization model based on different integrations of double similarity measures[J]. Iraqi Journal of Science, 2020, 61(6):1498-1511. [5]程園,吾守爾·斯拉木,買買提依明·哈斯木.基于綜合的句子特征的文本自動摘要[J].計(jì)算機(jī)科學(xué),2015,42(4):226-229. CHENG Yuan, WUSHOUER Slam, MAIMAITIYIMING Hasim. Automatic text summarization based on comprehensive sentence features[J].Computer Science,2015,42(4):226-229. [6]GUPTA A, KAUR M. Text summarisation using laplacian centrality-based minimum vertex cover[J]. Journal of Information & Knowledge Management, 2019, 18(4):1-20. [7]李強(qiáng),王玫,劉爭紅.基于RFID覆蓋掃描的標(biāo)簽定位方法[J].計(jì)算機(jī)工程,2017,34(3):294-298. LI Qiang, WANG Mei, LIU Zhenghong. Label positioning method based on RFID overlay scanning[J].Computer Engineering, 2017, 34(3):294-298. [8]BLISSETT K, JI H. Cross-lingual NIL entity clustering for low-resource languages[C]//Proceedings of the Second Workshop on Computational Models of Reference, Anaphora and Coreference.[S.l.]: Association for Computational Linguistics, 2019:20-25. [9]RADEV D R, JING H. Centroid-based summarization of multiple documents[J]. Information Processing & Management, 2004, 40(6):919-938. [10]MCKEOWN K, RADEV D R. Generating summaries of multiple news articles[C]//Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]: Association for Computational Linguistics,1995:74-82. [11]PAUL C, RETTINGER A, MOGADALA A, et al. Efficient graph-based document similarity[C]//European Semantic Web Conference: Springer Cham.[S.l.]:[s.n.],2016:334-349. [12]LANGVILLE A N, MEYER C D,F(xiàn)ERNNDEZ P. Google's pagerank and beyond: The science of search engine rankings[J]. The Mathematical Intelligencer, 2008, 30(1):68-69. [13]WEN Y, YUAN H, ZHANG P. Research on keyword extraction based on word2vec weighted Textrank[C]//2016 2nd IEEE International Conference on Computer and Communications (ICCC).[S.l.]: IEEE, 2016:2109-2113. [14]YASUNAGA M, ZHANG R, MEELU K, et al. Graph-based neural multi-document summarization[C]//Proceedings of the 21st Conference on Computational Natural Language Learning.[S.l.]: Association for Computational Linguistics, 2017:452-462. [15]江躍華,丁磊,李嬌娥,等.融合詞匯特征的生成式摘要模型[J].河北科技大學(xué)學(xué)報(bào),2019,40(2):152-158. JIANG Yuehua, DING Lei, LI Jiao′e, et al. A generative summary model incorporating lexical features[J]. Journal of Hebei University of Science and Technology,2019,40(2):152-158. [16]CAO Z, LI W, LI S, et al. Attsum: Joint learning of focusing and summarization with neural attention[C]// Proceedings of Coling 2016, the 26th International Conference on Computational Linguistics.[S.l.]:Technical Papers, 2016:547-556. [17]NALLAPATI R, ZHAI F, ZHOU B. SummaRuNNer: A recurrent neural network based sequence model for extractive summarization of documents[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.[S.l.]: AAAI Press, 2017:3075-3081. [18]NARAYAN S, PAPASARANTOPOULOS N, COHEN S B, et al. Neural Extractive Summarization with Side Information[EB/OL]. [2017-09-10].https://arxiv.org/abs/1704.04530v2. [19]BOUDIN F, TORRES-MORENO J M. A scalable MMR approach to sentence scoring for multi-document update summarization[C]//Companion Volume: Posters and Demonstrations.[S.l.]: [s.n.],2008:23-26. [20]SCHLUTER N. The limits of automatic summarisation according to rouge[C]//Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:Sociation for Computational Linguistics, 2017:41-45. [21]RAO G, HUANG W, FENG Z, et al. LSTM with sentence representations for document-level sentiment classification[J]. Neurocomputing, 2018, 308(25):49-57. [22]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing System.[S.l.]: Curran Associates Inc, 2017:6000-6010. [23]ZHANG Y, ER M J, ZHAO R, et al. Multiview convolutional neural networks for multidocument extractive summarization[J]. IEEE Transactions on Cybernetics, 2017, 47(10): 3230-3242. [24]CHRISTIAN H, AGUS M P, SUHARTONO D. Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF)[J]. ComTech: Computer, Mathematics and Engineering Applications, 2016, 7(4):285-294.