韓鵬宇,余正濤,高盛祥,黃于欣,郭軍軍
1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650504)
2(云南省人工智能重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),云南 昆明 650504)
案件輿情是指與案件相關(guān)的互聯(lián)網(wǎng)輿情,與一般的新聞?shì)浨橄啾?案件輿情具有敏感性、特殊性,有著更大的社會(huì)影響.案件輿情摘要能夠從案件相關(guān)新聞文本中摘取重要信息,從而簡(jiǎn)化新聞文本長(zhǎng)度,幫助用戶在大量的輿情數(shù)據(jù)中獲取輿情事件的關(guān)鍵信息,對(duì)于案件輿情的監(jiān)控與及時(shí)處理有著重要的作用.
案件輿情摘要本質(zhì)上是一種特定領(lǐng)域的多文檔摘要任務(wù),在多文檔摘要的研究中,關(guān)鍵問(wèn)題是對(duì)句子的重要性進(jìn)行評(píng)價(jià),并以此抽取摘要句子.傳統(tǒng)方法有基于統(tǒng)計(jì)的摘要方法[1-4]、基于主題模型的摘要方法[5-7]和基于圖的摘要方法[8-11]等.基于統(tǒng)計(jì)的方法一般通過(guò)詞頻、句子位置、句子相似度等這類特征來(lái)評(píng)價(jià)句子的重要程度,然后通過(guò)一定的策略選取重要句子得到摘要,其中具有代表性的方法有基于詞頻-逆文檔頻率(TF-IDF)的統(tǒng)計(jì)方法[1].Hong 等人[4]提出了一種簡(jiǎn)單的多文檔摘要方法,用詞的概率作為輸入,然后選擇平均詞概率較高的句子作為摘要.基于主題模型的方法一般采用狄利克雷分布(LDA)的方法得到文本簇中預(yù)設(shè)數(shù)量的主題,然后采用不同的算法計(jì)算句子和主題的相似度來(lái)得到摘要句.例如:劉娜等人[6]引入主題重要性的概念,將LDA 建立的主題分成重要和非重要兩類,并使用詞頻、位置等統(tǒng)計(jì)特征和LDA 特征一起計(jì)算句子權(quán)重;吳仁守等人[7]提出一種方法將新聞事件劃分為多個(gè)不同的子主題,在考慮時(shí)間演化的基礎(chǔ)上同時(shí)考慮子主題之間的主題演化,最后將新聞標(biāo)題作為摘要輸出.還有很多研究者提出了一些基于圖的方法[8-11],將文本表征成一張圖,圖中使用句子或其他單元作為頂點(diǎn),用邊連接兩個(gè)有相似性或者關(guān)聯(lián)關(guān)系的頂點(diǎn),使用各種方法計(jì)算句子相似度或關(guān)聯(lián)關(guān)系來(lái)構(gòu)建邊.典型的有Mani 等人在1997 年最早使用圖模型進(jìn)行多文檔摘要任務(wù)的研究[8].Mihalcea 等人在基于PageRank 算法的基礎(chǔ)上,提出了一種基于圖排序的TextRank 模型[9].Li 等人[10]利用主題和句子之間的關(guān)系,將主題模型集成到圖排序中.Yasunaga 等人[11]提出一種圖卷積的多文檔摘要方法,統(tǒng)計(jì)句子中出現(xiàn)的動(dòng)名詞組合數(shù)、位置信息等特征來(lái)進(jìn)行構(gòu)圖,然后用圖卷積的方法對(duì)句子進(jìn)行分類.
基于統(tǒng)計(jì)的摘要方法雖然實(shí)現(xiàn)簡(jiǎn)單且有一定效果,但對(duì)于句子的打分一般都是比較孤立的,忽略了文本結(jié)構(gòu)信息、尤其是句子與句子之間的關(guān)聯(lián)關(guān)系.基于主題模型的方法一般針對(duì)沒(méi)有特定主題的多文檔摘要任務(wù),不適合主題明確的案件輿情摘要.基于圖的方法雖然可以較好地表征句子間的關(guān)聯(lián)關(guān)系,但構(gòu)圖方法一般是通用方法,不涉及特定要素或關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系.
以上方法無(wú)論是基于統(tǒng)計(jì)、主題模型和圖模型的,多是通用領(lǐng)域的無(wú)監(jiān)督多文檔摘要方法.針對(duì)案件輿情這一特定領(lǐng)域問(wèn)題,需要更好地考慮案件主題的相關(guān)信息以及跨文檔句子之間的關(guān)聯(lián)關(guān)系.同一案件相關(guān)的多篇新聞文本構(gòu)成一個(gè)文本簇,具有與特定案件相關(guān)的主題,這一主題可以通過(guò)一些案件要素來(lái)進(jìn)行表征.如表1所示,在“奔馳女車主維權(quán)案”中,案發(fā)地、涉案主體、案件描述:“西安、奔馳4s 店、女車主、利之星、發(fā)動(dòng)機(jī)漏油、消費(fèi)者維權(quán)”等關(guān)鍵詞就是該案件的案件要素,代表其主題信息.可以看出:這些案件要素貫穿于多篇新聞文本,共現(xiàn)于和案件主題相關(guān)的句子當(dāng)中,并且集中出現(xiàn)在參考摘要中,對(duì)于句子關(guān)系的表征和摘要生成的準(zhǔn)確性都有著重要的作用.又因?yàn)榫渥佣际窃~的集合,因此在抽取句子形成摘要的過(guò)程中,需考慮異構(gòu)的句子關(guān)聯(lián)圖特征:借鑒基于統(tǒng)計(jì)的方法,引入詞節(jié)點(diǎn)來(lái)得到句子的特征表示,借助案件要素節(jié)點(diǎn)來(lái)加強(qiáng)與案件主題相關(guān)的句子間的關(guān)聯(lián)關(guān)系,然后再學(xué)習(xí)這些關(guān)系來(lái)對(duì)句子的重要性進(jìn)行評(píng)價(jià).在如何對(duì)圖進(jìn)行學(xué)習(xí)方面,借鑒Yao 等人提出的一種基于圖卷積的文本分類方法[12]使用兩層圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)圖中節(jié)點(diǎn)的特征進(jìn)行學(xué)習(xí),可以很好地學(xué)習(xí)到圖中的結(jié)構(gòu)信息.針對(duì)以上分析,本文探索在句子關(guān)聯(lián)圖中用詞節(jié)點(diǎn)和案件要素節(jié)點(diǎn)強(qiáng)化句子間關(guān)聯(lián)關(guān)系的表征,研究使用圖卷積的方法預(yù)測(cè)句子的得分,然后經(jīng)過(guò)去重和重排序進(jìn)而得到摘要.
本文的主要貢獻(xiàn)總結(jié)如下:
1) 提出在案件輿情領(lǐng)域進(jìn)行多文檔摘要的研究探索,創(chuàng)新性地引入案件要素信息來(lái)指導(dǎo)摘要句的抽取;
2) 提出一種基于案件要素句子關(guān)聯(lián)圖卷積的摘要模型,融入案件要素節(jié)點(diǎn)、詞節(jié)點(diǎn),并構(gòu)造異構(gòu)圖來(lái)對(duì)文本簇進(jìn)行建模,有效利用了文本語(yǔ)義特征、句子與案件要素之間的關(guān)聯(lián)關(guān)系等特征;
3) 與多種多文檔摘要方法進(jìn)行比較評(píng)估,在收集的案件輿情摘要數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了本文方法的有效性.
Table 1 Case analysis of case-related public opinion表1 案件輿情實(shí)例分析
本文提出一種基于圖卷積的案件輿情摘要方法,融合句子、詞和案件要素共同構(gòu)建跨文檔的句子關(guān)聯(lián)圖,再用圖卷積的方法得到每個(gè)句子的重要性得分,經(jīng)過(guò)去重和重排序得到文本摘要.模型部分參考了Yao 等人2019 年在文本分類領(lǐng)域有關(guān)圖卷積的相關(guān)工作[12],將其應(yīng)用于多文檔摘要領(lǐng)域,并進(jìn)行了改進(jìn),具體結(jié)構(gòu)如圖1所示(圖中展示了一個(gè)案件對(duì)應(yīng)的文本簇的核心處理過(guò)程,圓角矩形節(jié)點(diǎn)表示句子,矩形節(jié)點(diǎn)表示詞,菱形節(jié)點(diǎn)表示案件要素,圓形節(jié)點(diǎn)表示句子的分類),其中,S1.2表示第1 個(gè)文本中的第2 個(gè)句子,W表示詞,C表示案件要素.
Fig.1 Case-related public opinion summarization method based on graph convolution of sentence association graph with case elements圖1 基于案件要素句子關(guān)聯(lián)圖卷積的案件輿情摘要模型
模型包括3 個(gè)主要部分,分別是融合案件要素的句子關(guān)聯(lián)圖模塊、基于圖卷積的句子分類模塊、摘要生成模塊.下面分別對(duì)以上部分進(jìn)行介紹.
案件輿情文本摘要可以看作特定領(lǐng)域的摘要問(wèn)題,同一案件相關(guān)的多篇新聞構(gòu)成一個(gè)文本簇,這些文本具有相同的案件相關(guān)信息.通過(guò)對(duì)案件本身和新聞?shì)浨榈奶攸c(diǎn)進(jìn)行分析,定義了一些案件要素來(lái)表征案件的主題信息,包括“案件名、案發(fā)地、涉案人員、案件描述”這4 個(gè)要素作為案件要素,具體實(shí)例見(jiàn)表2.
Table 2 Case elements表2 案件要素表
表2 中以南京摩托車飆車案為例,“案發(fā)地”包括案發(fā)的城市地區(qū)和案發(fā)的具體場(chǎng)所,例如“江蘇、南京、高速公路”等.“涉案主體”不僅僅局限于受害人、嫌疑人和其代稱,還包括關(guān)鍵證人,相關(guān)家屬等所有與案件相關(guān)人員.“案件描述”是指發(fā)生的是什么事情以及一些其他案件關(guān)鍵詞,例如“飆車、危險(xiǎn)駕駛”等.通過(guò)對(duì)每一個(gè)案件構(gòu)建一組案件要素,來(lái)表征案件相關(guān)信息.共構(gòu)建了50 組案件要素.
本節(jié)引入詞節(jié)點(diǎn)來(lái)得到句子的特征表示、句子間的關(guān)聯(lián)關(guān)系,借助案件要素節(jié)點(diǎn)來(lái)加強(qiáng)與案件主題相關(guān)的句子間的關(guān)聯(lián)關(guān)系.使用詞頻-逆文檔頻率(TF-IDF)、互信息(PMI)、同屬關(guān)系、包含關(guān)系等方法來(lái)計(jì)算邊的權(quán)重,構(gòu)建了一個(gè)包含句子、詞和案件要素這3 種節(jié)點(diǎn)的句子關(guān)聯(lián)圖:
其中,集合V表示圖中節(jié)點(diǎn)的集合,由3 部分構(gòu)成:句子集合S、詞集合W和案件要素集合C.
? 句子集合s={s1,s2,…,sl}里共有l(wèi)個(gè)句子,是不同文本簇的所有文檔經(jīng)過(guò)去除特殊字符、分句、去除短句子等預(yù)處理之后的句子總和.其中,s2表示第2 個(gè)句子,l表示句子集合的大小;
? 詞集合w={w1,w2,…,wm}是對(duì)所有文本簇使用jieba 分詞工具進(jìn)行分詞以及去停用詞等操作后得到的詞表,其中,m表示詞表大小;
? 案件要素集合c={c1,c2,…,cn}共有n個(gè)案件要素,包括所有不同案件的案件要素,其中,c2表示第2 個(gè)案件要素.E表示圖中邊的集合:E={(vi,vj)|v∈V},其中,vi表征圖中第i個(gè)節(jié)點(diǎn).
因?yàn)閳D中有3 種節(jié)點(diǎn),所以圖的鄰接矩陣A 由9 個(gè)分塊矩陣構(gòu)成,見(jiàn)公式(3).其中,ASS表示句子和句子 節(jié)點(diǎn)的關(guān)系矩陣,ASW表示句子和詞節(jié)點(diǎn)的關(guān)系矩陣,表示句子和案件要素關(guān)系矩陣的轉(zhuǎn)置:
共有6 種邊,每種邊的定義和計(jì)算見(jiàn)公式(4):
其中,Aij表示第i和第j兩個(gè)節(jié)點(diǎn)之間邊的權(quán)值.這6 種關(guān)系的具體計(jì)算方法是:
(1) 對(duì)于句子與句子關(guān)系矩陣ASS,使用同屬關(guān)系來(lái)計(jì)算:當(dāng)一個(gè)句子和另一個(gè)句子同屬于一個(gè)文本時(shí),在它們之間連接一條邊;
(2) 對(duì)于句子與詞關(guān)系矩陣ASW:使用詞頻-逆文檔頻率(TF-IDF)的方法來(lái)計(jì)算詞節(jié)點(diǎn)wj和句子節(jié)點(diǎn)si之間邊的權(quán)重,見(jiàn)公式(5):
其中,si表示第i個(gè)句子節(jié)點(diǎn),wj表示第j個(gè)詞節(jié)點(diǎn),TF表示詞在句子中的詞頻,IDF表示詞在所有文本中出現(xiàn)的頻率.當(dāng)一個(gè)像“的”這樣的高頻詞在所有文本中出現(xiàn)的頻率越多,其IDF值就越低.通過(guò)在句子和大量詞之間構(gòu)建關(guān)聯(lián)關(guān)系,可以用詞來(lái)表征句子的特征,同時(shí)也在所有句子之間構(gòu)建了一層關(guān)聯(lián)關(guān)系;
(3) 對(duì)于句子與案件要素關(guān)系矩陣ASC,使用包含關(guān)系來(lái)計(jì)算:當(dāng)一個(gè)案件要素出現(xiàn)在某個(gè)句子中時(shí),在它們之間連接一條邊;
(4) 對(duì)于詞與詞關(guān)系矩陣AWW:使用互信息(PMI)來(lái)計(jì)算兩個(gè)詞節(jié)點(diǎn)之間邊的權(quán)重,見(jiàn)公式(6):
其中,wi和wj表示第i和第j個(gè)詞節(jié)點(diǎn),兩個(gè)詞的相關(guān)性越大,其PMI值也就越大.當(dāng)PMI的值小于0時(shí),表示兩個(gè)詞相關(guān)性為負(fù),也就是互斥的,此時(shí),兩個(gè)詞之間邊權(quán)重為0;
(5) 對(duì)于詞與案件要素關(guān)系矩陣AWC:案件要素會(huì)出現(xiàn)和某一個(gè)詞相同的情況,當(dāng)案件要素和某一個(gè)詞恰好相同時(shí),在它們之間連接一條權(quán)重為1 的邊;
(6) 對(duì)于案件要素與案件要素關(guān)系矩陣ACC,使用同屬關(guān)系來(lái)計(jì)算:當(dāng)一個(gè)案件要素和另一個(gè)案件要素同屬一個(gè)案件時(shí),在它們之間連接一條邊.
通過(guò)以上方法,可以構(gòu)建一個(gè)融合案件要素的句子關(guān)聯(lián)圖.下一步,在此基礎(chǔ)上使用圖卷積的方法得到每個(gè)句子的重要性評(píng)價(jià).
圖卷積網(wǎng)絡(luò)(GCN)是一種在圖上學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),可以直接處理圖,并利用圖的結(jié)構(gòu)信息.圖卷積網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力,研究表明:兩層的GCN 即可以得到很好的學(xué)習(xí)效果,過(guò)多的層數(shù)可能導(dǎo)致節(jié)點(diǎn)之間更加趨同.因此,在本文實(shí)驗(yàn)中也采用兩層的GCN.
在第2.2 節(jié)構(gòu)造的句子關(guān)聯(lián)圖G中,節(jié)點(diǎn)總數(shù)size=l+m+n.因?yàn)槊恳粋€(gè)節(jié)點(diǎn)在進(jìn)行圖卷積的時(shí)候,既要包含周圍節(jié)點(diǎn)的特征,又要包含自身的特征,所以每個(gè)節(jié)點(diǎn)還應(yīng)該有一個(gè)連接到其自身的閉環(huán),還需要將鄰接矩陣A 對(duì)角線上元素初始化為1,即Aij=1,最后構(gòu)成一個(gè)大小為size×size的圖的鄰接矩陣A:
令圖的度矩陣為D,表示每一個(gè)節(jié)點(diǎn)和多少個(gè)其他節(jié)點(diǎn)相連,其中,度矩陣對(duì)角線上元素為
根據(jù)公式(7)和公式(8),可以得到可以進(jìn)行圖卷積操作的規(guī)范化的矩陣:
將節(jié)點(diǎn)的特征矩陣X 初始化為一個(gè)和鄰接矩陣A 一樣大小的單位矩陣,相當(dāng)于使用one-hot向量表示節(jié)點(diǎn)的特征.
在第1 層圖卷積網(wǎng)絡(luò)中:
其中,L(1)表示第1 層的輸出,是規(guī)范化的鄰接矩陣,X 是特征矩陣,W1是參數(shù)矩陣,激活函數(shù)使用ReLU.在第2 層圖卷積網(wǎng)絡(luò)中,使用softmax進(jìn)行分類,如公式(11)所示:
采用交叉熵作為模型的損失函數(shù):
其中,s是訓(xùn)練集中參與計(jì)算損失的所有句子,yi表示第i個(gè)句子的標(biāo)簽,表示第i個(gè)句子的預(yù)測(cè)結(jié)果.通過(guò)兩 次圖卷積操作后,可以得到每一個(gè)句子節(jié)點(diǎn)的分類結(jié)果,表示每一個(gè)句子的得分.
摘要句既要反映文檔的中心思想,又要具有低冗余性和一定的時(shí)序關(guān)系.通過(guò)前面的方法得到每一個(gè)句子評(píng)分之后,需要從中選取得分最高的幾個(gè)句子,對(duì)其進(jìn)行去重和排序,具體流程如下所示.
(1) 對(duì)于測(cè)試集中不同的文本簇,分別進(jìn)行摘要生成;
(2) 對(duì)于一個(gè)文本簇,首先選取一個(gè)得分最高的句子加入候選摘要句集合中;
(3) 然后選取下一個(gè)句子和候選摘要句集合中的每一個(gè)句子計(jì)算相似性,其值若小于相似性閾值,則將該句子加入候選摘要句集合中;
(4) 重復(fù)第(2)步的操作,直到候選摘要句集合長(zhǎng)度超過(guò)摘要預(yù)期長(zhǎng)度;
(5) 最后再對(duì)候選摘要句集合中的句子按照文檔的爬取順序(代表文章發(fā)表的時(shí)序)以及句子在文檔中出現(xiàn)的順序排序,得到最終的多文檔摘要.
本文針對(duì)50 個(gè)案件,構(gòu)造50 組案件要素,使用爬蟲(chóng)程序從互聯(lián)網(wǎng)上搜集相關(guān)新聞,對(duì)數(shù)據(jù)清洗去噪,得到50個(gè)文本簇.每個(gè)文本簇包含10 篇文檔.對(duì)每個(gè)文本簇人工撰寫(xiě)摘要,最終構(gòu)建出案件輿情摘要數(shù)據(jù)集.見(jiàn)表3.
Table 3 Dataset表3 數(shù)據(jù)集
本文采用自動(dòng)摘要任務(wù)中常用的一種評(píng)價(jià)指標(biāo)ROUGE 來(lái)作為介紹評(píng)價(jià)指標(biāo).ROUGE 是基于摘要中n元語(yǔ)法(n-gram)的共現(xiàn)信息來(lái)評(píng)價(jià)摘要的一種方法,包括ROUGE-1,ROUGE-2 等.ROUGE-L 和ROUGE-N 相似,是一種基于最長(zhǎng)公共子序列的評(píng)價(jià)方法.ROUGE 值越高,說(shuō)明摘要效果越好.例如,ROUGE-N 的一般計(jì)算方法見(jiàn)公式(13):
其中,分子表示模型輸出的摘要和參考摘要中同共現(xiàn)的n-gram 的個(gè)數(shù),分母則表示參考摘要中的n-gram 個(gè)數(shù).
實(shí)驗(yàn)采用2 層圖卷積網(wǎng)絡(luò),特征矩陣每一行使用one-hot向量來(lái)初始化,第1 層輸出的節(jié)點(diǎn)特征向量為200維,第2 層輸出的節(jié)點(diǎn)分類向量為10 維.Dropout設(shè)置為0.5,學(xué)習(xí)率設(shè)置為0.02,訓(xùn)練輪次設(shè)置為400,提前截至的容忍度設(shè)置為12,摘要預(yù)期長(zhǎng)度設(shè)置為200.
本文共設(shè)置了3 組對(duì)比實(shí)驗(yàn)和1 個(gè)實(shí)例分析.
? 第1 組對(duì)比實(shí)驗(yàn)對(duì)比了本文模型和10 個(gè)基準(zhǔn)模型的性能,其中包括未融入案件要素的消融實(shí)驗(yàn):“句子+詞+GCN”;
? 第2 組對(duì)比實(shí)驗(yàn)研究了不同句子分類數(shù)目對(duì)生成摘要質(zhì)量的影響,設(shè)置2,5,10 和20 等4 種不同的分類數(shù)目,使用本文模型分別進(jìn)行實(shí)驗(yàn);
? 第3 組實(shí)驗(yàn)研究了去冗余步驟中,不同相似度計(jì)算方法對(duì)摘要的影響,其中,rouge 方法閾值設(shè)置為0.8、jaccard 方法閾值設(shè)置為0.8、tf-idf 方法閾值設(shè)置為0.8 和word2vec 方法閾值設(shè)置為0.9;
? 實(shí)例分析選取了針對(duì)“快遞員遭投訴自殺”案件的摘要實(shí)例進(jìn)行對(duì)比分析.
本文共選擇了10 個(gè)基準(zhǔn)模型,分別在案件輿情摘要數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),得到ROUGE-1,ROUGE-2 和ROUGE-L 這3 種評(píng)分.基準(zhǔn)模型包括LEAD,Centroid,LexPageRank,TextRank,Submodular,ClusterCMRW,Query+ MR,LDA,Manifold-Ranking 和“句子+詞+GCN”,其中,部分代碼由開(kāi)源工具包PKUSUMSUM 提供.
? LEAD 是一種依靠句子在文章中的位置來(lái)抽取摘要的方法,研究表明,文章中的重要信息很大概率會(huì)出現(xiàn)在文章開(kāi)頭部分;
? Manifold-Ranking[13]是一種類似PageRank 的方法,利用流行排序進(jìn)行多文檔摘要;
? Query+MR 在Manifold-ranking 模型的基礎(chǔ)上增加了一個(gè)案件要素集合作為查詢句,來(lái)對(duì)句子節(jié)點(diǎn)之間的權(quán)重進(jìn)行調(diào)整,然后得到摘要;
? LDA 方法通過(guò)使用LDA 對(duì)文本簇進(jìn)行主題聚類,然后尋找含有主題信息最多的句子作為摘要;
? Centroid[14]是一種基于質(zhì)心的多文檔摘要方法,通過(guò)尋找中心詞最多的句子來(lái)得到摘要;
? ClusterCMRW[15]是一種基于馬爾科夫鏈和隨機(jī)游走的多文檔摘要方法,利用文檔集中句子之間的鏈接關(guān)系來(lái)生成摘要;
? Submodular[16]利用次模函數(shù)的單調(diào)遞減特性來(lái)抽取句子作為摘要;
? LexPageRank[17]和TextRank[9]都是一種基于圖的關(guān)鍵詞提取算法,將句子視為節(jié)點(diǎn),通過(guò)計(jì)算圖中每個(gè)節(jié)點(diǎn)的得分,來(lái)選擇得分最高的幾個(gè)句子作為摘要;
? “句子+詞+GCN”表示未融入案件要素的圖卷積神經(jīng)網(wǎng)絡(luò)方法.
第1 組實(shí)驗(yàn)為了驗(yàn)證本文模型的有效性,與10 個(gè)基準(zhǔn)模型進(jìn)行了對(duì)比實(shí)驗(yàn),其中,和“句子+詞+GCN”對(duì)比以驗(yàn)證融入案件要素的有效性.選取ROUGE-1,ROUGE-2 和ROUGE-L 這3 種評(píng)分,實(shí)驗(yàn)結(jié)果見(jiàn)表4.
根據(jù)表4 的實(shí)驗(yàn)結(jié)果可以看出:
1) 在采用ROUGE-1 的評(píng)價(jià)方法中,本文模型和其他基準(zhǔn)模型相比,有0.43~6.07 的提升,說(shuō)明了本文模型的優(yōu)越性;
2) 對(duì)比TextRank,LexPageRank 和本文模型,雖然同為基于圖的方法,但是圖卷積比這兩種方法具有顯著的效果提升,充分說(shuō)明了圖卷積方法在多文檔摘要任務(wù)上的優(yōu)越性;
3) 對(duì)比“Manifold-Ranking”和“Query+MR”的結(jié)果可以看出,引入案件要素作為查詢條件來(lái)指導(dǎo)摘要生成是有作用的;
4) 對(duì)比“句子+詞+GCN”和本文模型的ROUGE-1 和ROUGE-2,本文模型分別提升了3.37 和2.92,說(shuō)明在案件輿情領(lǐng)域,融合案件要素構(gòu)建句子關(guān)聯(lián)圖的方法是有效的,能夠很好地表征跨文檔句子之間的關(guān)聯(lián)關(guān)系,對(duì)于指導(dǎo)抽取出更貼近多文檔主題的摘要句有著重要作用.
Table 4 Comparison of experimental results between our model and the baselines表4 本文模型與基準(zhǔn)模型實(shí)驗(yàn)對(duì)比結(jié)果
第2 組實(shí)驗(yàn)研究了使用圖卷積進(jìn)行句子分類時(shí),句子的不同分類數(shù)目對(duì)于摘要質(zhì)量的影響.設(shè)置2,5,10和20 等4 種不同的句子分類數(shù)目,選取ROUGE-1,ROUGE-2 和ROUGE-L 作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見(jiàn)表5.
Table 5 Comparison experiments of different classification numbers表5 不同分類數(shù)目對(duì)比實(shí)驗(yàn)
根據(jù)表5 的實(shí)驗(yàn)結(jié)果可以看出:在句子分類數(shù)目為10 的時(shí)候取得的摘要效果最好,分類數(shù)目較低會(huì)略微降低摘要質(zhì)量,分類數(shù)目過(guò)高會(huì)嚴(yán)重降低摘要的質(zhì)量.分析可能是因?yàn)榉诸悢?shù)目的不同導(dǎo)致了句子分類準(zhǔn)確率的不同.
第3 組實(shí)驗(yàn)研究了不同相似度計(jì)算方法對(duì)摘要性能的影響,分別使用rouge(0.8),jaccard(0.8),tf-idf(0.8)和word2vec(0.9)等4 種.其中,基于word2vec 使用詞向量+average pooling 來(lái)表示句子信息.選取ROUGE-1,ROUGE-2 和ROUGE-L 作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見(jiàn)表6.
Table 6 Comparison experiments of different similar computing methods表6 不同相似度計(jì)算方法對(duì)比實(shí)驗(yàn)
根據(jù)表6 的實(shí)驗(yàn)結(jié)果可以看出:前3 種相似度計(jì)算方法得到的結(jié)果一致.可能的原因是:在本實(shí)驗(yàn)中,得分較高的幾個(gè)句子之間的差異性是比較大的,這3 種方法對(duì)句子差異性的敏感程度是相似的.Word2vec 的方法效果略好一點(diǎn).
如表7 的實(shí)例分析中,從測(cè)試集中選取了“快遞員遭投訴自殺”案件,針對(duì)該案件的部分基準(zhǔn)模型生成的摘要進(jìn)行實(shí)例分析.
根據(jù)表7 可以看出:
1) 對(duì)比TextRank 和本文模型,本文結(jié)果在事件表述的完整性上有著較好的效果;
2) 對(duì)比Centroid 模型結(jié)果,本文模型摘要更加貼近文本簇的中心思想;
3) 對(duì)比“句子+詞+GCN”的結(jié)果可以看出本文模型在連貫性和可讀性上有一定的優(yōu)勢(shì).
Table 7 Example of summary comparison of “courier suicide”表7 “快遞員遭投訴自殺”案摘要對(duì)比實(shí)例
針對(duì)案件輿情摘要任務(wù),本文提出一種融合案件要素關(guān)聯(lián)和句子關(guān)聯(lián)的構(gòu)圖方法,有效地通過(guò)案件要素融入了案件主題信息,很好地表征了跨文檔的句子關(guān)聯(lián)關(guān)系.使用圖卷積的方法充分學(xué)習(xí)到了圖中的結(jié)構(gòu)信息,抽取的摘要句和基準(zhǔn)模型相比取得了一定的效果提升.
在下一步的工作中,擬更多地去探索上下文關(guān)系、語(yǔ)義關(guān)系、篇章結(jié)構(gòu)關(guān)系和邏輯關(guān)系等其他關(guān)系對(duì)摘要生成的作用.