李 剛,余正濤,黃于欣
1.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500
2.昆明理工大學(xué) 云南省人工智能重點實驗室,昆明 650500
隨著互聯(lián)網(wǎng)的快速發(fā)展,與案件相關(guān)的輿情信息越來越多,從案件相關(guān)的輿情新聞中生成簡短的摘要對于快速了解案情,掌握和監(jiān)控輿情的發(fā)展態(tài)勢有著重要的作用。
案件輿情摘要可以看作一個面向特定領(lǐng)域的摘要,目前針對該任務(wù)主要有抽取式和生成式兩種方法。抽取式摘要指直接從原文中抽取重要的句子作為摘要句,摘要句來自于原文,流暢性好,忠實度高,在實際場景下能達到很好的效果。傳統(tǒng)的抽取式摘要方法包括基于主題模型的方法和基于圖排序的方法。基于主題模型的方法指通過隱含狄利克雷分布(latent Dirichlet allocation,LDA)模型得到文本主題,采用不同的算法來計算句子和主題的相似度,從而得到摘要句。例如劉娜等[1]將LDA 建立的主題分成重要和非重要兩類,并根據(jù)詞頻、位置等統(tǒng)計特征和LDA 特征一起計算句子權(quán)重。吳仁守等[2]提出在時間演化的基礎(chǔ)上同時考慮主題的演化,最后將標題作為摘要輸出?;趫D排序的方法是指將句子作為頂點,句子之間的相似度作為邊的權(quán)重,根據(jù)頂點的權(quán)重分數(shù)來確定關(guān)鍵句。例如Mihalcea等[3]通過TextRank 圖排序算法抽取文本中重要性較高的句子形成摘要。另一類抽取式摘要方法主要是基于深度神經(jīng)網(wǎng)絡(luò),把抽取式摘要任務(wù)看作句子分類任務(wù),通過給每個句子打標簽來確定其是否屬于摘要句,其核心在于如何更好地生成句子的表征。Nallapati等[4]首次提出將抽取式摘要看作序列分類問題,構(gòu)建SummaRuNNer 文本分類模型,用門控循環(huán)單元(gated recurrent unit,GRU)作為序列分類器的模塊,結(jié)合詞和句子兩層編碼特征來判斷句子是否是摘要句。Zhang等[5]提出一種把抽取的句子標簽作為隱藏變量的抽取式摘要模型,將句子和原始摘要進行對比來對句子進行分類,得到摘要。
以上的研究工作大多集中在開放領(lǐng)域,與通用摘要數(shù)據(jù)相比,案件相關(guān)的輿情新聞通常包含“被害人、犯罪嫌疑人、案發(fā)地點”等信息,這些信息是輿情新聞中的重要部分,同時對于摘要生成也具有重要意義。
如圖1 所示,描述了“新晃操場埋尸案”(鄧世平被殺案)的相關(guān)內(nèi)容,在摘要和正文中都包含“鄧世平、杜少平、黃炳松,新晃操場”等案件要素,因此本文認為包含案件要素的句子更易成為摘要句,在句子的建模過程中應(yīng)該考慮案件要素信息?;诖思僭O(shè),韓鵬宇等[6]提出一種基于案件要素增強的涉案輿情文本摘要方法,通過對案件要素進行獨立編碼,然后基于注意力機制融入到詞和句子的編碼層中,取得了很好的效果。但是該方法將案件要素看作一個序列,基于雙向GRU 網(wǎng)絡(luò)來生成帶有上下文信息的案件要素編碼。這種編碼方式可能會帶來不必要的噪聲信息,從而影響模型的性能。另外,該方法通過引入基于句子的位置信息、顯著性信息及新穎性信息的多特征分類層來建模句子之間的關(guān)聯(lián)關(guān)系。而本文認為,建模不同句子之間的關(guān)聯(lián)關(guān)系對于摘要抽取有著重要的作用,應(yīng)該被更充分地利用。
圖1 案件輿情文本數(shù)據(jù)示例Fig.1 Example of case public opinion text data
基于圖結(jié)構(gòu)的方法能夠更直接地表達不同節(jié)點之間的關(guān)聯(lián)關(guān)系,近年來在文本分類、閱讀理解、文本摘要等任務(wù)上取得了很好的效果。如Hu 等[7]針對短文本分類任務(wù),提出一種主題-實體異構(gòu)神經(jīng)圖,通過構(gòu)造短文本和主題、實體等信息之間的關(guān)聯(lián)關(guān)系來增強短文本的表示,取得了很好的效果。Tu 等[8]針對閱讀理解任務(wù),引入包含文檔、實體及候選對象的異構(gòu)圖網(wǎng)絡(luò),完成跨文檔的多跳閱讀理解任務(wù)。在文本摘要任務(wù)方面,Tan等[9]提出一種基于句子注意力機制的摘要方法,在序列到序列的框架中,引入基于句子重要性的圖注意力機制對句子進行編碼,更好地建模句子之間的關(guān)系,提高了摘要的質(zhì)量。Liu等[10]提出一種基于BERT(bidirectional encoder representations from transformers)[11]預(yù)訓(xùn)練語言模型的抽取式摘要方法,利用BERT 生成句子表示,在此基礎(chǔ)上構(gòu)造分類器,實現(xiàn)摘要的生成。Zhong 等[12]提出將抽取式摘要任務(wù)轉(zhuǎn)化為語義文本匹配問題的模型,把文檔和候選摘要采用BERT映射到同一個語義空間中,通過語義文本匹配方法生成摘要。本文提出基于句子、詞和案件要素的異構(gòu)圖神經(jīng)網(wǎng)絡(luò),在句子學(xué)習(xí)過程中引入案件要素作為額外的詞級節(jié)點,通過建模詞及案件要素等詞級節(jié)點到句子節(jié)點的關(guān)聯(lián)關(guān)系來更好地建模句子信息,從而生成更具客觀性與概括性的案件輿情摘要。
本文提出基于案件要素異構(gòu)圖的案件輿情文本摘要方法。模型包括三個主要部分,分別是異構(gòu)圖構(gòu)建模塊(包括句子節(jié)點表示、案件要素節(jié)點表示和邊權(quán)重表示)、融合案件要素圖注意力模塊和句子抽取模塊,本節(jié)分別對以上部分進行詳細介紹。具體模型結(jié)構(gòu)如圖2所示。
為了建模句子之間的關(guān)聯(lián)關(guān)系,本文采用一個包含不同粒度信息的異構(gòu)圖表示一篇文檔,如圖2所示。在這個圖中,有詞、案件要素、句子三種類型的節(jié)點。詞節(jié)點是最基本的節(jié)點,代表文檔的詞級信息。每個句子節(jié)點對應(yīng)文檔中一個句子,代表一個句子的全局信息。還定義了兩種類型的邊來表示圖中的兩類結(jié)構(gòu)信息:一是如果詞出現(xiàn)在這個句子中,就將詞節(jié)點與句子節(jié)點連接;二是將句子節(jié)點與所有案件要素節(jié)點連接。這兩種類型的邊用TFIDF計算得到。
圖2 案件要素異構(gòu)圖的案件輿情抽取式摘要模型Fig.2 Case public opinion extractive summary model based on heterogeneous graphs of case elements
圖的拓撲結(jié)構(gòu)用鄰接矩陣A表示,因為包含兩種邊結(jié)構(gòu)信息,故分為兩種類型的圖:詞-句子圖,案件要素-句子圖。因此本文定義兩種鄰接矩陣:Aw-s由詞、句子節(jié)點與之間的權(quán)重構(gòu)成;Ac-s由案件要素、句子節(jié)點以及權(quán)重構(gòu)成。
1.1.1 句子節(jié)點表示
為了更好地獲得句子表征,使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[13]得到句子局部詞級信息特征,再通過雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)[14]獲得句子級全局特征,最后拼接局部和全局特征,得到句子的特征表示。
輸入序列D={s1,s2,…,sn}是含有n個句子的一篇文檔,si={w1,w2,…,wm}表示第i個句子中含有m個詞,m個詞的局部特征用ls表示,句子全局特征采用gs表示,最后將ls與gs拼接得到句子特征表示:
式(1)中n表示正文中句子的數(shù)目,ds是每個句子輸入時的特征維數(shù)。
1.1.2 案件要素節(jié)點表示
在案件要素編碼中,案件要素通過預(yù)訓(xùn)練詞向量得到每一個要素的特征表示。
式(2)中p表示案件要素的數(shù)目,dc是輸入案件要素c的特征矩陣維數(shù)。
同理,將文檔中的句子通過分詞后使用預(yù)訓(xùn)練詞向量得到詞的特征表示。
式(3)中m表示句子經(jīng)過分詞后詞的數(shù)目,dw表示詞w輸入的特征維數(shù)。
1.1.3 邊權(quán)重表示
本文定義了兩種類型的邊:一是詞、句子邊權(quán)重值,用ww,s表示,得到詞、句子節(jié)點權(quán)重構(gòu)成的鄰接矩陣Aw,s;二是案件要素、句子邊權(quán)重值,用cc,s表示,得到案件要素、句子節(jié)點權(quán)重構(gòu)成的鄰接矩陣Ac,s。這兩種邊的權(quán)重值通過TFIDF計算得到。
經(jīng)過以上步驟,得到詞節(jié)點矩陣Xw,案件要素矩陣Xc,句子節(jié)點矩陣Xs,邊權(quán)重cc,s、ww,s。得到異構(gòu)圖G={V,E},V=W∪C∪S,E=ww,s∪cc,s。
為了更新圖的鄰接矩陣A和節(jié)點信息X,本文通過引入圖注意力網(wǎng)絡(luò)(graph attention networks,GAT)[15]聚合要素節(jié)點信息來學(xué)習(xí)每個節(jié)點的特征表示,具體如圖3所示。
圖3 融入案件要素的圖注意力模型Fig.3 Graph attention model incorporating case elements
式(4)中Wa、Wq、Wk是可訓(xùn)練參數(shù),zic表示節(jié)點i與要素節(jié)點c之間的注意力系數(shù)。
式(5)是對通過式(4)得到的zic進行歸一化操作,Ni是指在鄰接矩陣Ac,s中節(jié)點i的鄰居節(jié)點集合,c∈Ni是指要素節(jié)點c包含在節(jié)點i的所有鄰居節(jié)點集合Ni中,αic是節(jié)點i與c的注意力權(quán)重。
圖3 中左邊是通過單層圖注意力計算句子與要素節(jié)點權(quán)重,右邊是通過多頭注意力機制(圖中K=3)計算句子與要素節(jié)點權(quán)重,具體過程如下所示:
式(6)得到了句子節(jié)點i學(xué)習(xí)到的特征,是第k組注意力機制計算出的權(quán)重系數(shù),指句子節(jié)點i融合案件要素節(jié)點信息并經(jīng)過GAT后學(xué)到的特征。
在每個圖注意力層后,引入一個前饋網(wǎng)絡(luò)(feed forward networks,F(xiàn)FN)層,對要素與句子雙向更新,得到從要素節(jié)點更新句子節(jié)點的特征表示。
同理在鄰接矩陣Aw,s中,得到經(jīng)過詞節(jié)點更新后的句子節(jié)點表示,然后兩者拼接得到最終的句子節(jié)點表示,具體表示如下:
式(8)中pi表示句子節(jié)點i經(jīng)過圖注意力后被標注為候選摘要的概率,W是訓(xùn)練參數(shù)。
對于輸入文檔樣本D={s1,s2,…,sn},對應(yīng)的句子真實標簽y={y1,y2…,yn}(yi∈{0,1}),yi=1 表示第i個句子應(yīng)該包含在摘要中。最終的句子被分為兩種,即摘要句和非摘要句,采用交叉熵作為損失函數(shù):
式(9)中I是訓(xùn)練集中所有句子的集合,yi表示句子i的標簽,pi表示對應(yīng)句子yi=1 時的概率。
使用爬蟲程序基于百度百科搜集相關(guān)案件輿情新聞。首先構(gòu)造一個案件庫,案件庫中包含著大量的案件名稱,根據(jù)案件名稱在百度百科中去搜索相關(guān)的案件輿情新聞,搜索結(jié)果以網(wǎng)頁的形式展現(xiàn)。數(shù)據(jù)集中定義的案件要素是百度百科網(wǎng)站自帶的對案件不同側(cè)面的描述,案件要素在正文及摘要中都會出現(xiàn),這些信息是輿情新聞中的重要部分,同時對于摘要生成也具有重要意義,因此定義的案件要素是具有科學(xué)性與準確性的。
進行人工校準、清洗,刪除非案件的數(shù)據(jù),去除例如“ ”等噪聲數(shù)據(jù),最后構(gòu)建出案件輿情摘要數(shù)據(jù)集,有效數(shù)據(jù)14 214對。數(shù)據(jù)集的統(tǒng)計結(jié)果如表1所示。
表1 數(shù)據(jù)集統(tǒng)計Table 1 Data set statistics
采用Word2vec 工具,聯(lián)合搜狗新聞數(shù)據(jù)集[16]和本文案件輿情數(shù)據(jù)集預(yù)先訓(xùn)練詞向量,來表示案件輿情文本中的一個字(詞)。每個GAT層頭注意力數(shù)目為8,隱藏層維度大小dh=64,采用ds=128 和de=50 進行初始化。采用ROUGE(recall-oriented understudy for gisting evaluation)[17]中的RG-1、RG-2 和RG-L 的F 值作為評價指標,訓(xùn)練參數(shù)設(shè)置如表2所示。
表2 模型訓(xùn)練參數(shù)設(shè)置Table 2 Model training parameter settings
本節(jié)選擇了5個模型作為基準模型,分別在案件輿情摘要數(shù)據(jù)集上進行實驗,基準模型為LEAD-3、TetxRank、MMR、SummaRuNNer、BERT(BertSum+Classifier,BertSum+Transformer)。
(1)LEAD-3 是一種依靠句子在文章中的位置來抽取摘要的方法,文檔的重要信息易出現(xiàn)在文章開頭部分,抽取文檔前三句作為摘要。
(2)TextRank 是一種基于圖的摘要提取算法,將句子視為節(jié)點,通過計算圖中每個節(jié)點的得分,來選擇得分最高的幾個句子作為摘要。
(3)MMR(maximal marginal relevance)[18]最大邊界相關(guān)算法,是用于計算查詢文本與被搜索文檔之間的相似度,再對文檔進行排序,最后選取句子的算法。
(4)SummaRuNNer[4]是基于序列分類器的循環(huán)神經(jīng)網(wǎng)絡(luò)對句子分類訓(xùn)練模型,采用兩層雙向GRU 和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來對句子進行編碼,得到每一個句子是否為摘要句的分類結(jié)果,最后得到由分類結(jié)果組成的摘要。
(5)基于BERT[11]預(yù)訓(xùn)練詞向量模型中,“BertSum+Classifier”采用BertSum[10]對句子進行表征,在BERT 輸出句子向量后,增加一個線性分類層,使用sigmoid函數(shù)提取摘要;“BertSum+Transformer”采用BertSum 對句子進行特征表示,并運用多層Transformer[19]從BertSum 輸出的句子向量中提取特征,最后通過sigmoid 分類器輸出摘要。
(6)MatchSum[12]是把抽取式摘要任務(wù)轉(zhuǎn)化為一個語義文本匹配問題的模型,主要是將文檔和候選摘要采用BERT映射到同一個語義空間中,通過語義文本匹配方法生成摘要。
第一組實驗是本文模型和5 個基線模型在案件輿情摘要數(shù)據(jù)集上的對比實驗,結(jié)果如表3所示。
表3 基線模型對比實驗Table 3 Baseline models comparison experiment 單位:%
從表3實驗結(jié)果可以看出:(1)本文模型與LEAD-3模型相比,LEAD-3模型效果較差,這是由于在案件輿情文本中,前幾個句子中不全是對案件的描述,而是對文本的發(fā)布來源、時間等與案件信息無關(guān)的描述,這樣的句子不能表達文本主題,因此文檔中的前三句話不能作為摘要。(2)本文模型與TextRank 模型相比,RG-1 和RG-2 的值分別提升3.19 個百分點和3.06 個百分點,是因為本文模型融入案件要素抽取的句子與主題語義相關(guān),而TextRank 的方法沒有考慮與文本之間的語義關(guān)系,生成的摘要不能包含文章的主題信息。(3)本文模型與MMR 模型相比,RG-1 和RG-2 值有2.87 個百分點和3.62個百分點的提升,原因是本文模型引入基于案件要素異構(gòu)圖更直觀地表征句子之間的關(guān)聯(lián)關(guān)系,本文模型比僅考慮句子相似度的MMR 方法更能全面地捕捉到文檔中的句子信息,有利于生成結(jié)構(gòu)清晰、語義完整的摘要。(4)本文模型與SummaRuNNer相比,RG-1和RG-2分別提升了6.26 個百分點和1.8 個百分點,結(jié)果表明本文提出將案件要素作為外部知識融入的異構(gòu)圖摘要模型,可以有效地提高模型的摘要性能,抽取出的摘要更能貼近案件輿情文本主題,相關(guān)性更高。(5)本文模型與采用Classifier 和Transformer 作為解碼器的模型相比,在RG-1和RG-2上分別提升了1.39個百分點、3.22個百分點和1.34個百分點、3.09個百分點,基于BERT的編碼方式忽略文本的上下文信息,從而無法找到與主題相關(guān)的句子,生成摘要。而本文模型相比于BertSum模型的實驗結(jié)果,說明融入案件要素構(gòu)建異構(gòu)圖的方法是有效的,能夠全面地表征文檔跨句子之間的關(guān)聯(lián)關(guān)系,對于抽取出更貼近文檔主題的句子有著重要的指導(dǎo)作用。(6)本文模型與MatchSum模型相比,在RG-1和RG-2上分別提升了5.09 個百分點、2.42 個百分點,說明運用圖結(jié)構(gòu)表征文檔跨句子之間的關(guān)聯(lián)關(guān)系,融入案件要素作為輔助信息的方法是有效的,對于抽取出更貼近文檔主題的句子有著重要的指導(dǎo)作用。
第二組實驗主要驗證采用不同方法獲取案件要素對摘要生成的影響,用TFIDF、TextRank 和命名實體識別(named entity recognition,NER)抽取關(guān)鍵詞或?qū)嶓w充當(dāng)案件要素,融入到本文模型中生成摘要,“句子+詞+GAT”表示未融入案件要素的異構(gòu)圖方法,基于圖注意力實現(xiàn)摘要生成,結(jié)果如表4所示。
從表4 可以看出:(1)本文模型與“句子+詞+GAT”未融入案件要素模型相比,RG-1和RG-2值提升1.35個百分點、1.68 個百分點,驗證了融入案件要素能提高摘要生成的效果。(2)“句子+詞+GAT”、NER 和抽取關(guān)鍵詞方法相比,使用NER 方法的效果比抽取關(guān)鍵詞和未使用要素的方法差,因為NER 識別文本中具有特定意義的人名、地名、機構(gòu)名三種實體,得到大量的冗余信息,不利于圖注意力的學(xué)習(xí),導(dǎo)致摘要效果下降。(3)TFIDF、TextRank 抽取關(guān)鍵詞與NER 的方法相比,抽取關(guān)鍵詞的實驗效果在RG-1上分別提高了1.48個百分點和1.39個百分點,證明使用關(guān)鍵詞比實體效果更好,使用關(guān)鍵詞的方法能減少NER 造成摘要性能下降的不利影響。在文中關(guān)鍵詞能更加全面地表達文章主題信息,從而提高摘要性能。(4)本文模型與TFIDF、TextRank抽取關(guān)鍵詞方法相比,在RG-1和RG-2上分別提升了0.57個百分點和0.66 個百分點,可以看出差距很小。在實際應(yīng)用中,當(dāng)只有正文而沒有案件要素時,可以借助關(guān)鍵詞輔助摘要的生成。(5)證明本文數(shù)據(jù)集的案件要素具有科學(xué)性,更能全面地體現(xiàn)文檔的主題信息,包含的案件信息更完整,能生成更加接近案件主題的摘要。
表4 不同案件要素抽取方法對比實驗Table 4 Comparative experiment on extraction methods of different case elements 單位:%
第三組實驗為了進一步驗證本文模型的泛化能力,分別在韓鵬宇等[6]提出的涉案輿情新聞文本(涉案新聞數(shù)據(jù)集)、NLPCC2017 數(shù)據(jù)集上進行實驗,其中NLPCC2017 是新聞文本數(shù)據(jù)集,選取15 000 條數(shù)據(jù)進行實驗。相比本文的數(shù)據(jù)集,NLPCC2017 中缺失案件要素,根據(jù)3.2節(jié)中驗證,采用TFIDF抽取關(guān)鍵詞充當(dāng)要素,實驗結(jié)果如表5所示。
表5 不同數(shù)據(jù)集對比分析Table 5 Comparative analysis of different data sets 單位:%
從表5 可以看出:(1)本文數(shù)據(jù)集與涉案新聞數(shù)據(jù)集的實驗結(jié)果相比,RG-1 和RG-2 值提升2.56 個百分點、1.05 個百分點,本文模型采用異構(gòu)圖構(gòu)建句子之間的關(guān)聯(lián)關(guān)系,通過聚合鄰居節(jié)點信息來更新句子表示,得到與主題相關(guān)的句子,生成更具客觀性與概括性的案件輿情摘要,驗證了本文模型采用異構(gòu)圖構(gòu)建文本句子關(guān)系的準確性與有效性;在NLPCC2017 數(shù)據(jù)集上結(jié)果較差,NLPCC2017數(shù)據(jù)集是一般性的新聞文本,句子間的關(guān)聯(lián)性不強,無法捕捉句子之間的關(guān)聯(lián)關(guān)系,生成的摘要效果較差。(2)本實驗通過在不同的數(shù)據(jù)集上進行實驗,驗證了本文模型的泛化能力,可以看出本文模型可以很好地遷移到其他的數(shù)據(jù)集上,使用范圍廣,對于在沒有案件要素的情況下,可以采用TFIDF等方法抽取關(guān)鍵詞作為案件要素,最后得到摘要。
第四組實驗與文獻[6]提出的基于案件要素指導(dǎo)的涉案輿情新聞文本模型進行對比,模型中分別在詞、句子編碼層融入案件要素注意力機制。GRU表示不引入任何案件要素和關(guān)鍵詞信息的注意力機制,GRUcase_Attnall表示使用案件要素和關(guān)鍵詞共同作為注意力機制。結(jié)果如圖4所示。
圖4 不同案件要素融入方法分析Fig.4 Analysis of integration methods of elements of different cases
從圖4可以看出,本文模型與GRU和GRUcase_Attnall模型相比,RG-L 值分別有16.57 個百分點和14.22 個百分點的提升,本文模型優(yōu)于通過注意力機制將案件要素信息融入詞、句子雙層編碼的方法。(1)文獻[6]定義“案件名、案發(fā)地、涉案人員、案件描述”四個案件要素,主要是從文本中抽取得到,使用雙向GRU編碼對句子編碼,獲得句子和文本的特征,然后通過注意力機制將案件要素信息融入文本的詞、句子雙層編碼中。這種方法把每個句子看作相互獨立的關(guān)系,側(cè)重關(guān)注句子、詞和句子、案件要素之間的關(guān)系,對于案件長文本數(shù)據(jù)還應(yīng)該考慮句子之間的關(guān)聯(lián)關(guān)系。(2)在本文模型中,基于案件要素異構(gòu)圖的方法能有效地表示句子間的關(guān)聯(lián)關(guān)系,融入案件要素的圖注意力機制,能捕捉與案件要素相關(guān)的句子,生成內(nèi)容更加凝練、簡潔的摘要。(3)本文模型引入異構(gòu)圖能包含更多豐富的節(jié)點信息和語義信息,將多種類型的節(jié)點與邊信息整合,突出與每個句子節(jié)點相關(guān)聯(lián)的異構(gòu)屬性、異構(gòu)內(nèi)容,包含的節(jié)點類型更廣,語義更豐富。
為進一步驗證本文模型的有效性,列舉了不同方法獲取案件要素實現(xiàn)抽取式摘要的結(jié)果。首先,選取“新晃操場埋尸案”案件的相關(guān)文本,針對該案件,采用兩種抽取關(guān)鍵詞方法得到案件要素,對輸出摘要進行實例分析,具體如圖5所示。
圖5 不同方法抽取關(guān)鍵詞生成摘要對比示例Fig.5 Comparative example of different methods of extracting keywords to generate abstracts
根據(jù)圖5可以看出,“新晃操場埋尸案”中案件輿情文本主要描述嫌疑人杜少平及其同伙羅光忠對被害人鄧世平實施犯罪,以及對該案件的起因、經(jīng)過和案發(fā)后所牽連人員的處置等多個不同層次信息的描述:(1)基于TFIDF 的方法專注于描述嫌疑人杜少平審判結(jié)果的細節(jié),基于TextRank的方法專注杜少平及其同伙羅光忠被依法逮捕并進行審判這一細節(jié)信息,都沒有關(guān)注到被害人鄧世平相關(guān)的具體內(nèi)容,偏離原文主旨。(2)本文構(gòu)建案件輿情摘要數(shù)據(jù)集中的案件要素包含案件名、案件時間、地點等信息,這些關(guān)鍵信息在摘要和正文文本中都包含,能對案件進行詳盡描述,這也驗證了本文構(gòu)建數(shù)據(jù)集時,定義案件要素的科學(xué)性與準確性。在構(gòu)圖的過程中,把案件要素融入到異構(gòu)圖注意力過程中,盡可能地關(guān)注到與案件要素相關(guān)的句子。(3)TFIDF和TextRank兩種方法獲得的摘要都沒有體現(xiàn)原文的主題信息。相反,本文定義的案件要素能較全面地概括案件的細節(jié)信息,融入到圖注意力機制中并篩選出與主題關(guān)聯(lián)性強的句子,能關(guān)注不同層次的不同細節(jié)信息,多維度把握文章的主題,擴大摘要信息的覆蓋面,生成質(zhì)量更高的文本摘要,從而驗證了案件要素對案件輿情文本摘要生成具有重要的指導(dǎo)作用。
本文針對案件輿情摘要任務(wù),提出一種基于異構(gòu)圖注意力機制融入案件要素的抽取式摘要模型。將句子、詞及案件要素構(gòu)建為異構(gòu)圖,并基于異構(gòu)圖注意力網(wǎng)絡(luò)進行編碼。實驗結(jié)果表明,針對案件輿情這一特定領(lǐng)域的摘要任務(wù),案件要素的融入能夠提高句子的表示效果,生成更高質(zhì)量的摘要。另外也驗證了利用異構(gòu)圖來建模詞、案件要素及句子之間的關(guān)系,相比直接使用注意力機制來融入案件要素效果更好。
在下一步的研究中,擬繼續(xù)探索在同一案件下的多文檔輿情新聞?wù)蝿?wù)中,如何利用案件要素來建??缇渥印⒖缥臋n的關(guān)聯(lián)關(guān)系以及如何更好地表征這些關(guān)聯(lián)關(guān)系,從而提升案件輿情多文檔摘要任務(wù)的性能。