徐子路,朱睿莎,余敦輝,2,邢賽楠
1(湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,武漢 430062) 2(湖北省教育信息化工程技術(shù)中心,武漢 430062)
在日常生活中,交通事故、自然災(zāi)害、衛(wèi)生安全等突發(fā)社會(huì)事件經(jīng)常發(fā)生,這些事件對(duì)我們的生命、健康或生態(tài)環(huán)境會(huì)造成大規(guī)模的破壞,因而受到社會(huì)各階層人員的廣泛關(guān)注.特別是在當(dāng)前的互聯(lián)網(wǎng)時(shí)代,以社交網(wǎng)絡(luò)或新聞網(wǎng)站為傳播載體的突發(fā)社會(huì)事件在經(jīng)過(guò)傳播發(fā)酵以后會(huì)產(chǎn)生社會(huì)熱點(diǎn)事件.年初“豐縣生育8孩女子”事件不僅在網(wǎng)上掀起軒然大波,廣大網(wǎng)友參與其中發(fā)表個(gè)人的觀點(diǎn),還引發(fā)了相關(guān)法律界人士對(duì)拐賣婦女兒童“買賣同罪”的探討.如何自動(dòng)從文本中提取此類事件,準(zhǔn)確快速地抽取出事件觸發(fā)詞及其事件元素,有助于決策者分析輿情態(tài)勢(shì)、引導(dǎo)社會(huì)輿論.
突發(fā)熱點(diǎn)事件提取(Eventextraction,EE)分為2個(gè)子任務(wù)[1-3]:1)事件觸發(fā)詞(trigger,用來(lái)標(biāo)識(shí)事件的謂語(yǔ),一般以動(dòng)詞和名詞居多)提取,即通過(guò)觸發(fā)詞判斷事件的種類和子種類;2)論元抽取,其目標(biāo)是將事件的參與者和屬性(包括事件發(fā)生的時(shí)間、地點(diǎn)、人物等信息)標(biāo)注在已識(shí)別事件中.
目前突發(fā)熱點(diǎn)事件抽取所針對(duì)的對(duì)象包含簡(jiǎn)單事件和復(fù)雜事件,對(duì)于部分的簡(jiǎn)單事件可以直接從一句話中抽取出事件相關(guān)信息.如例1所示.
例1.6月10日(A1,Time),河北省唐山市路北區(qū)某燒烤店(A2,Location)多名男子(A3,Object1)毆打(EM1,Denoter:Judicial)女生(A4,Object2)事件引發(fā)關(guān)注.
觸發(fā)詞抽取主要從文本中抽取事件的觸發(fā)詞實(shí)例并判定其事件類型.從例1中可抽取一個(gè)由觸發(fā)詞“毆打”觸發(fā)、事件類型為Judicial(司法行為)的事件實(shí)例EM1.論元抽取主要抽取特定類型事件的論元并判定其角色.從例1中可抽取事件實(shí)例EM1的4個(gè)論元A1、A2、A3和A4,并識(shí)別其角色分別為Time(時(shí)間)、Location(地點(diǎn))、Object1(事件參與者客體1)和Object2(事件參與者客體2).
而對(duì)于事件相關(guān)信息包含在多個(gè)句子中的部分復(fù)雜事件而言,事件抽取任務(wù)存在一定的挑戰(zhàn),此時(shí)句子級(jí)事件抽取將無(wú)法抽取出全部論元.如例2所示.
例2.(S1:19日17時(shí)(A1,Time)許,三門峽市義馬市氣化廠一車間(A2,Location)發(fā)生爆炸(EM2,Denoter:Disaster/Accident).)(S2:應(yīng)急管理部官方微信20日發(fā)布通報(bào)稱,截至20日16時(shí),事故造成12人死亡(A3,Object1),3人失聯(lián),13人重傷(A4,Object2).)
在例2中,S1包含了事件的觸發(fā)詞(“爆炸”)、事件的論元角色Time和Location,但是只抽取出了部分事件論元.在S2中補(bǔ)充了事件實(shí)例EM2的論元角色Object1(12人死亡)和Object2(13人重傷).S1和S2組合將事件中包含的事件論元和在事件中所發(fā)揮的作用全部提取出來(lái),構(gòu)成一個(gè)完整的事件.
針對(duì)現(xiàn)有研究主要聚焦簡(jiǎn)單事件抽取,而突發(fā)熱點(diǎn)事件往往屬于復(fù)雜事件——其事件論元分散存在于多個(gè)句子之中,從而導(dǎo)致簡(jiǎn)單事件抽取方法不再適用的問(wèn)題,本文提出了一種基于圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[4]的突發(fā)熱點(diǎn)事件聯(lián)合抽取方法.該方法通過(guò)抽取出新聞主旨事件以后對(duì)整篇新聞做事件抽取,利用候選事件與新聞主旨事件的事件向量相似度以及事件論元相似度對(duì)該新聞主旨事件進(jìn)行補(bǔ)全從而完成抽取工作.實(shí)驗(yàn)結(jié)果表明,該方法在篇章級(jí)事件觸發(fā)詞抽取和論元角色抽取任務(wù)上的F1指標(biāo)分別達(dá)到83.2%、59.1%,驗(yàn)證了該方法在突發(fā)熱點(diǎn)新聞數(shù)據(jù)集上的合理性和有效性.
事件抽取主要有基于模式匹配的方法、基于機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法[5].當(dāng)前主流的方法是基于深度學(xué)習(xí)的方法,文獻(xiàn)[6]使用卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network,CNN)自動(dòng)挖掘事件隱含特征,并取得了良好的效果.文獻(xiàn)[7]針對(duì)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型可能會(huì)在捕捉句子中最重要信息的同時(shí)忽略一些次重要的信息的情況,提出了一種動(dòng)態(tài)多池化的卷積神經(jīng)網(wǎng)絡(luò)模型,使該模型可以在中英兩種語(yǔ)言的事件中抽取多個(gè)事件并獲得更好的表現(xiàn).文獻(xiàn)[8]針對(duì)漢語(yǔ)中詞匯間沒(méi)有自然的分隔符所導(dǎo)致的觸發(fā)詞抽取不完整這一客觀問(wèn)題,提出NPN模型(Nugget Proposal Networks).該模型將字級(jí)別信息和詞級(jí)別信息進(jìn)行融合,從而提升中文事件檢測(cè)的效果.文獻(xiàn)[9]是循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)在事件抽取中的首次應(yīng)用,設(shè)計(jì)了一種基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的聯(lián)合框架,該聯(lián)合框架結(jié)合詞向量、實(shí)體類型嵌入向量等來(lái)表征句子級(jí)特征,并將結(jié)果送到事件聯(lián)合抽取模型中進(jìn)行訓(xùn)練,實(shí)現(xiàn)觸發(fā)詞和論元角色的聯(lián)合抽取.文獻(xiàn)[10]針對(duì)前人在設(shè)計(jì)模型結(jié)構(gòu)時(shí)沒(méi)有用好句法的特點(diǎn),以及對(duì)潛在論元元間的關(guān)系沒(méi)有很好的建模,提出了可將依存關(guān)系融入框架的 Dependency-Bridge RNN 結(jié)構(gòu),將依存關(guān)系編碼到RNN的輸出中,同時(shí)提出了關(guān)于論元元素間關(guān)系建模的Tensor-BasedArgumentInteraction方法.文獻(xiàn)[11]將生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[12]融入到事件抽取領(lǐng)域中,利用生成模塊和對(duì)抗模塊相互博弈學(xué)習(xí)的零和博弈思想,通過(guò)生成一些虛假的特征信息來(lái)提高模型的學(xué)習(xí)效果.分析不難看出,受限于需要大量的人工操作,上述方法無(wú)法完全發(fā)揮出模型的性能.同時(shí),句子級(jí)順序建模的方法在捕捉特征遠(yuǎn)距離上的依賴時(shí),效果不是很好.相對(duì)于順序建模,通過(guò)句法弧來(lái)建模的方法,可以使觸發(fā)詞與論元角色在一個(gè)句子中的距離縮短.
為此,近年來(lái)很多學(xué)者陸續(xù)利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[13],通過(guò)引入句法弧信息來(lái)進(jìn)行建模.文獻(xiàn)[14]提出了JMEE(Jointly Multiple Events Extraction)模型,該模型使用單詞的向量表示作為圖結(jié)構(gòu)中的節(jié)點(diǎn),通過(guò)圖卷積網(wǎng)絡(luò)來(lái)聚合節(jié)點(diǎn)之間的特征.通過(guò)句子中字段的語(yǔ)義依存關(guān)系與圖結(jié)構(gòu)(Graph)的聯(lián)系,將其用圖來(lái)表示,同時(shí)將GCN方法應(yīng)用在該圖上,捕捉了更為深層次的語(yǔ)義特征.文獻(xiàn)[15]為了解決當(dāng)前用于事件檢測(cè)的神經(jīng)網(wǎng)絡(luò)模型只考慮了句子的序列表示,沒(méi)有考慮句子中句法表示的問(wèn)題,提出了一種集成語(yǔ)法信息的實(shí)體提及池化機(jī)制.這些研究讓GCN大放光彩的同時(shí),也放大了它的局限性:對(duì)于不同的鄰居節(jié)點(diǎn)難以實(shí)現(xiàn)分配不同的學(xué)習(xí)權(quán)重,同時(shí)也難以處理有向圖.
在中文突發(fā)熱點(diǎn)事件抽取中,文獻(xiàn)[16]提出了一種將Lattice(點(diǎn)陣)機(jī)制與雙向長(zhǎng)短期記憶(BiLSTM)網(wǎng)絡(luò)結(jié)合的模型,通過(guò)命名實(shí)體識(shí)別任務(wù)反饋增強(qiáng)事件抽取模型性能.文獻(xiàn)[17]提出一種基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)(BiLSTM-CRF)的事件抽取模型,在學(xué)習(xí)字粒度語(yǔ)義信息的基礎(chǔ)上結(jié)合序列標(biāo)注來(lái)對(duì)中文突發(fā)熱點(diǎn)事件進(jìn)行抽取.
基于現(xiàn)有的研究近況來(lái)看,對(duì)突發(fā)熱點(diǎn)新聞的事件抽取仍有如下問(wèn)題:1)事件抽取仍以單句提取事件為主,無(wú)法抽取分布在多句里的復(fù)雜事件;2)已有的事件聯(lián)合抽取工作大多以ACE2005數(shù)據(jù)集為基礎(chǔ)進(jìn)行實(shí)驗(yàn),但該數(shù)據(jù)集的標(biāo)注樣例過(guò)于陳舊,且標(biāo)注數(shù)據(jù)僅限于句子級(jí)別,無(wú)法滿足中文突發(fā)熱點(diǎn)事件常存在于篇章級(jí)文本里的特點(diǎn).
本文提出了一種基于圖注意力網(wǎng)絡(luò)的篇章級(jí)突發(fā)熱點(diǎn)事件抽取方法.該方法的總體架構(gòu)分為3個(gè)階段,如圖1所示.1)事件句抽取.通過(guò)TextRank算法將包含新聞主旨的事件句提取出來(lái),作為整篇新聞的代表事件;2)篇章級(jí)事件抽取.通過(guò)Stanford Parser工具對(duì)語(yǔ)料進(jìn)行預(yù)處理,自動(dòng)獲取語(yǔ)料的詞性標(biāo)注、依存句法解析等信息.利用詞向量訓(xùn)練工具對(duì)事件文本進(jìn)行詞向量的學(xué)習(xí),將得到的詞向量結(jié)合詞性標(biāo)記向量作為輸入,通過(guò)Bi-LSTM模型得到句子的強(qiáng)化特征.然后將通過(guò)NLP工具得到的依存句法樹引入到圖注意力網(wǎng)絡(luò)中,將學(xué)習(xí)得到的隱藏特征用于觸發(fā)詞分類和事件論元抽取;3)突發(fā)熱點(diǎn)事件補(bǔ)全.將事件句里抽取出來(lái)的事件信息作為主事件,抽取該篇突發(fā)熱點(diǎn)新聞里的次要事件.通過(guò)次要事件和主事件之間的論元相關(guān)性,對(duì)主事件進(jìn)行補(bǔ)充.
圖1 基于圖注意力網(wǎng)絡(luò)的突發(fā)熱點(diǎn)事件聯(lián)合抽取框架Fig.1 Model framework
本文的貢獻(xiàn)如下:
1)提出一種基于圖注意力網(wǎng)絡(luò)(GAT)突發(fā)熱點(diǎn)事件抽取方法,利用句子成分之間的依存關(guān)系進(jìn)行事件聯(lián)合抽取.在抽取出新聞主旨事件以后對(duì)整篇新聞做事件抽取,利用候選事件與新聞主旨事件的事件向量相似度以及事件論元相似度對(duì)該新聞主旨事件進(jìn)行補(bǔ)全.
2)通過(guò)句子成分之間的依存關(guān)系以及句子之間的潛在聯(lián)系,結(jié)合序列標(biāo)注的思想設(shè)計(jì)了一個(gè)中文事件字級(jí)別的建模方法,進(jìn)而獲取到更加全面的事件信息.
3)該方法在DUEE1.0數(shù)據(jù)集上進(jìn)行觸發(fā)詞抽取和論元角色抽取任務(wù)時(shí)的F1指標(biāo)分別達(dá)到83.2%、59.1%;在中文突發(fā)事件語(yǔ)料庫(kù)上進(jìn)行觸發(fā)詞抽取和論元角色抽取任務(wù)時(shí)的F1指標(biāo)分別達(dá)到82.7%、58.7%,驗(yàn)證了該方法在突發(fā)熱點(diǎn)新聞數(shù)據(jù)集上的有效性.
由于事件句包含了該事件的觸發(fā)詞和事件論元角色,通常作為整篇新聞文章的摘要出現(xiàn)在文本的段首或段尾里.為了自動(dòng)的從大量新聞文本里找出事件句,這里使用TextRank算法來(lái)進(jìn)行識(shí)別.TextRank是利用投票機(jī)制實(shí)現(xiàn)對(duì)文本重要成分排序的方法,通過(guò)將文本單元分割成若干個(gè)組成單元(單詞或句子)來(lái)建立圖模型的一種基于圖的排序算法.主要有以下幾個(gè)步驟:
1)將一個(gè)含有n個(gè)句子的文本或文本集定義為S=[s1,s2,s3,…,sn],構(gòu)造關(guān)于S的圖GTextRank=(V,E),其中V中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)句子集S中的一個(gè)句子.
2)對(duì)句子進(jìn)行分詞、去除停用詞以后得到si=[wi1,wi2,wi3,…,wim],其中wij是保留后的候選關(guān)鍵詞.
3)對(duì)給定的兩個(gè)句子si、sj,根據(jù)句間的內(nèi)容覆蓋程度計(jì)算相似度,如果相似度大于給定閾值,認(rèn)為兩句話語(yǔ)義相關(guān),就把兩句話連起來(lái),也就是邊的權(quán)值.
4)不斷迭代傳播權(quán)重計(jì)算各句子的得分,由此得到圖GTextRank中的邊集E.
將所有的句子得分進(jìn)行倒序排序,抽取重要度最高的T個(gè)句子作為新聞的事件句.
3.3.1 數(shù)據(jù)預(yù)處理
通過(guò)引言里的例1、例2不難看出,中文突發(fā)熱點(diǎn)事件的事件文本通常是由長(zhǎng)句子組成的.此時(shí)繼續(xù)使用常規(guī)的句子級(jí)順序建模方法在捕捉特征遠(yuǎn)距離上的依賴時(shí)無(wú)法產(chǎn)生很好的效果,但依存句法樹中蘊(yùn)含的句法信息能夠捕捉單詞間的長(zhǎng)距離關(guān)系.通過(guò)對(duì)依存句法樹建模,學(xué)習(xí)文本的句法依存特征,能夠幫助關(guān)系抽取模型更準(zhǔn)確地理解實(shí)體對(duì)之間的語(yǔ)義關(guān)系[18].因此在開始抽取中文突發(fā)熱點(diǎn)事件之前,需要先對(duì)事件文本進(jìn)行依存句法分析,獲取語(yǔ)料的詞性標(biāo)注、依存句法樹等信息.
但依存句法分析得到的是只能從父節(jié)點(diǎn)指向子節(jié)點(diǎn)且節(jié)點(diǎn)本身無(wú)法指向自身的樹形結(jié)構(gòu),這時(shí)的依存關(guān)系是單向的.針對(duì)樹形結(jié)構(gòu)存在的問(wèn)題,將根據(jù)如下的規(guī)則來(lái)將依存句法樹擴(kuò)充依存句法圖:以句中的詞為圖中的節(jié)點(diǎn),忽略句法分析中“Root”指向根節(jié)點(diǎn)的弧,以詞與詞之間的依存關(guān)系生成圖中的邊.由于依存句法圖關(guān)注的是詞與詞之間的依存關(guān)系,不關(guān)注句法結(jié)構(gòu)(如主謂等結(jié)構(gòu)關(guān)系),故在依存句法樹中不需要存儲(chǔ)弧的標(biāo)簽信息(如“nsubj”等)[19].
首先,將事件文本s的依存句法樹定義為無(wú)向圖G=(V,E).其中V是依存句法樹中節(jié)點(diǎn)的集合,節(jié)點(diǎn)個(gè)數(shù)為n,節(jié)點(diǎn)集合V中每個(gè)vi對(duì)應(yīng)事件文本s中的單詞表示wi.E是邊的集合,每條邊(vi,vj)∈E來(lái)自于詞wi和詞wj的有向句法弧,這個(gè)句法弧(vi,vj)的標(biāo)簽類型是K(wi,wj).在原有的依存句法樹的基礎(chǔ)上,通過(guò)添加具有類型標(biāo)簽K′(wi,wj)且和原來(lái)的有向句法弧方向相反的反向弧(vj,vi),以及對(duì)所有的vi添加一個(gè)自循環(huán)弧(vi,vi)來(lái)實(shí)現(xiàn)對(duì)無(wú)向圖G=(V,E)的擴(kuò)充.此時(shí)的無(wú)向圖G代表了事件文本中觸發(fā)詞和論元之間的依賴關(guān)系.
之后,為了減少圖注意力網(wǎng)絡(luò)的參數(shù)量,在得到無(wú)向圖時(shí)需要將其分解為3種類型標(biāo)簽type(vi,vj)的參數(shù)矩陣:1)E中存在的原始邊K;2)自環(huán);3)E中原始邊的反向弧K′.同時(shí),由于形容詞、副詞等詞性對(duì)于事件觸發(fā)詞和論元的影響較小,而名詞等詞性對(duì)于事件觸發(fā)詞和論元的影響較大.為了體現(xiàn)不同邊關(guān)系的詞對(duì)當(dāng)前詞的重要性不同,在構(gòu)建參數(shù)矩陣時(shí)為不同邊關(guān)系的相鄰詞賦予不同的權(quán)重.
3.3.2 文本特征提取
為了將事件觸發(fā)詞以及論元從事件文本中抽取出來(lái),需要把事件文本轉(zhuǎn)換特征向量表示.為此,使用ERNIE預(yù)訓(xùn)練模型[20]將輸入的事件文本轉(zhuǎn)換成定長(zhǎng)的向量表示.為將一個(gè)含有n個(gè)詞的事件文本定義為s=[w1,w2,…,wn],其中wi表示事件文本中的第i個(gè)詞.
同時(shí),由于不同的詞性在事件文本中代表著不同的組成部分.結(jié)合事件抽取而言,作為觸發(fā)詞抽取出來(lái)的文本絕大多數(shù)是動(dòng)詞(例1里的“毆打”、例2里的“爆炸”),但作為論元角色抽取出來(lái)的文本通常是數(shù)量詞、名詞等組成的詞組(例2里的論元角色“死亡人數(shù)”——“12人死亡”、“受傷人數(shù)”——“13人重傷”).合理的運(yùn)用詞性與句子之間的依賴關(guān)系有助于縮小觸發(fā)詞和論元角色的抽取范圍,故除了詞向量之外,本層的輸入還包括詞性向量.通過(guò)使用Stanford Parser工具來(lái)獲得事件文本中每個(gè)詞的詞性標(biāo)簽,之后在隨機(jī)初始化的詞性POS標(biāo)記標(biāo)簽嵌入矩陣中查找對(duì)應(yīng)的嵌入向量,得到句子中每個(gè)詞的詞性向量.
最后,通過(guò)將上述的兩種向量連接得到事件文本中每一個(gè)詞token轉(zhuǎn)換為實(shí)值向量后的xi,輸入向量表示為X=[x1,x2,…,xn].之后,由于Bi-LSTM模型可以更好地捕捉句子中的上下文關(guān)系,便利用Bi-LSTM模型來(lái)編碼得到的輸入向量X.將事件文本表示X編碼為:
(1)
(2)
3.3.3 突發(fā)熱點(diǎn)事件抽取
(3)
在節(jié)點(diǎn)更新完畢以后,為了實(shí)現(xiàn)事件觸發(fā)詞與論元的聯(lián)合抽取,需對(duì)觸發(fā)詞抽取和論元抽取模塊進(jìn)行聯(lián)合訓(xùn)練.由于兩個(gè)模塊不存在明顯的主、輔任務(wù)之間的區(qū)別,本模型采用了較為樸素的聯(lián)合學(xué)習(xí)思想.通過(guò)將兩個(gè)模塊的損失函數(shù)進(jìn)行直接相加,形成聯(lián)合損失函數(shù).
(4)
f是一個(gè)非線性激活函數(shù).之后,接上一個(gè)softmax層將得到的類別向量歸一化進(jìn)行類別分類:
(5)
對(duì)于每個(gè)觸發(fā)詞-元素對(duì),本文將通過(guò)特征提取后的觸發(fā)詞向量和元素向量進(jìn)行拼接,經(jīng)過(guò)一層全連接網(wǎng)絡(luò),最終同樣使用softmax函數(shù)進(jìn)行元素角色分類.其計(jì)算如公式(6)所示:
yoi=softmax(Wo[T,Ei]+bo)
(6)
其中,T表示觸發(fā)詞,Ei表示第i個(gè)候選元素,yoi表示第i個(gè)元素在觸發(fā)詞觸發(fā)的事件中角色類別輸出,Wo和bo是輸出層的權(quán)值向量和偏置項(xiàng).
3.3.4 算法執(zhí)行過(guò)程
給定基于依存句法樹擴(kuò)充的依存句法圖G=(V,E),V表示點(diǎn),E表示邊,節(jié)點(diǎn)的個(gè)數(shù)|V|=N為句子中字的個(gè)數(shù)N
算法1.基于圖注意力網(wǎng)絡(luò)的篇章級(jí)事件聯(lián)合抽取
輸出:觸發(fā)詞的分類結(jié)果yt,論元分類結(jié)果yo.
for(每篇文本s∈D)
Step1.執(zhí)行ERNIE預(yù)訓(xùn)練模型,得到s=[w1,w2,…,wn]
Step2.結(jié)合每個(gè)詞的詞性向量,連接s得到實(shí)值向量序列X=[x1,x2,…,xn]
Step4.通過(guò)依存句法分析得到文本的依存句法樹DPTree
Step5.得到文本的依存句法圖G=(V,E)←DPTree
Step6.生成詞之間的鄰接矩陣∑Mt=G,t∈type(vi,vj)
Step11.將通過(guò)特征提取后的觸發(fā)詞向量和元素向量進(jìn)行拼接,經(jīng)過(guò)一層全連接網(wǎng)絡(luò),最終同樣使用Softmax函數(shù)進(jìn)行元素角色分類:yoi=softmax(Wo[T,Ei]+bo)
end for
一篇突發(fā)熱點(diǎn)新聞文本可能包含很多個(gè)事件,但不是所有的事件都是圍繞新聞主旨來(lái)描述的.因此,這一階段在將該篇新聞文本里的所有事件抽取出來(lái)以后,需要對(duì)每個(gè)事件進(jìn)行分析以判斷其是否屬于當(dāng)前新聞主旨的事件鏈集合.將一篇新聞文本抽取出來(lái)的所有事件定義為事件集合:
Events={E,E1,E2,E3,…,En}
(7)
對(duì)于其中任意一個(gè)事件Ei以及新聞主旨事件E,其事件相關(guān)性計(jì)算如公式(8)所示:
score=sim(Ei,E)=cos(SVi,SV)+cos(Ei,E)
(8)
式(8)中,sim(Ei,E)取決于事件Ei、E的向量相似度(事件向量化表示以后的余弦相似度)與論元相似度(事件論元在該新聞文本里的TF-IDF余弦相似度)之和,表示事件Ei與新聞主旨事件E存在于同一個(gè)事件鏈里的可能性.計(jì)算事件Ei、E的向量相似度時(shí),先通過(guò)預(yù)訓(xùn)練詞向量模型獲取兩個(gè)事件文本的句向量SVi和SV,之后對(duì)句向量求余弦相似度.在得到所有事件Ei對(duì)于新聞主旨事件E的相似度得分score以后,保留其中高于平均值的得分事件作為新聞主旨事件E的補(bǔ)全事件.
由于突發(fā)熱點(diǎn)事件多出現(xiàn)于微博、知乎等社交媒體上,參考國(guó)務(wù)院頒布的《國(guó)家突發(fā)公共事件總體應(yīng)急預(yù)案》,并結(jié)合實(shí)驗(yàn)所用數(shù)據(jù)集自身的數(shù)據(jù)特征,將突發(fā)熱點(diǎn)事件大致分為5大類,即災(zāi)害/事故類、衛(wèi)生安全類、司法行為類、金融類、競(jìng)賽類.為了評(píng)估該聯(lián)合抽取方法在中文事件抽取上的有效性,將分別在DuEE1.0數(shù)據(jù)集和中文突發(fā)事件數(shù)據(jù)集(ChineseEmergenciesCorpus,CEC)上進(jìn)行實(shí)驗(yàn).DUEE1.0是百度發(fā)布的包含65個(gè)事件類型的1.7萬(wàn)個(gè)具有事件信息句子(2萬(wàn)個(gè)事件)的中文事件抽取數(shù)據(jù)集,事件類型以具有較強(qiáng)代表性的百度風(fēng)云榜熱點(diǎn)榜單為評(píng)選對(duì)象確定.中文突發(fā)事件數(shù)據(jù)集(ChineseEmergenciesCorpus,CEC)從網(wǎng)絡(luò)上采集5類(地震、火災(zāi)、交通事故、恐怖襲擊、食物中毒)突發(fā)事件的新聞報(bào)道合計(jì)332篇.
由于DuEE1.0只包含句子級(jí)以及篇章級(jí)的事件句,不包含對(duì)熱點(diǎn)事件的補(bǔ)充新聞文本或者與熱點(diǎn)事件無(wú)關(guān)的新聞文本.而CEC的每個(gè)事件語(yǔ)料都是包含該事件的新聞報(bào)道,因此選擇在DuEE1.0訓(xùn)練集上進(jìn)行模型訓(xùn)練,在DuEE1.0測(cè)試集和CEC數(shù)據(jù)集上驗(yàn)證事件抽取模型的效果.
本文實(shí)驗(yàn)中文本特征提取層使用的ERNIE詞向量為PaddlePaddle官方提供的預(yù)訓(xùn)練模型ERNIE 1.0 Base,包含12層的transformer,隱藏層維度為768維.使用的依存句法分析工具為斯坦福大學(xué)自然語(yǔ)言處理組開發(fā)的深度學(xué)習(xí)NLP工具包:Stanza.利用Stanza來(lái)進(jìn)行分詞、詞性標(biāo)注和生成依存句法分析樹的工作.實(shí)驗(yàn)在判斷觸發(fā)詞檢測(cè)預(yù)測(cè)的正確性方面遵循了已有研究工作的標(biāo)準(zhǔn).對(duì)所有實(shí)驗(yàn)而言,在文本特征提取層中,ERNIE詞向量的維度是768維,單詞位置嵌入的維度是50維.在事件聯(lián)合抽取模塊中,單層的Bi-LSTM網(wǎng)絡(luò)輸入維度為768+50=818,輸出維度為300,丟失率dropout=0.5;GAT層數(shù)n=1,輸入特征維度為300,輸出特征維度為50,多頭注意力機(jī)制的個(gè)數(shù)k=4.在實(shí)驗(yàn)中,batch的大小為64,模型的非線性激活函數(shù)采用ReLU,優(yōu)化器采用結(jié)合了隨機(jī)梯度下降的更新規(guī)則來(lái)反向傳播來(lái)計(jì)算梯度.
和通常的中文信息抽取任務(wù)一樣,本文在事件抽取任務(wù)和事件補(bǔ)全任務(wù)上通過(guò)準(zhǔn)確率P(precision)、召回率R(recall)和F1值來(lái)匯報(bào)模型性能.
4.3.1 事件抽取對(duì)比實(shí)驗(yàn)
本實(shí)驗(yàn)的目的在于驗(yàn)證聯(lián)合模型在提取句子級(jí)別特征時(shí)的有效性.為了驗(yàn)證聯(lián)合模型在篇章級(jí)事件抽取的效果,將其與以下5種主流的事件抽取算法進(jìn)行比較.
1)DMCNN[7]:使用了pipeline方法,加入了位置特征向量、事件類型特征向量來(lái)加強(qiáng)句子整體感知.
2)JRNN[9]:首次將RNN模型應(yīng)用到事件聯(lián)合抽取任務(wù).并進(jìn)一步強(qiáng)化了句子中的各種事件元素等依賴關(guān)系感知,如使用觸發(fā)詞記憶向量、論元記憶矩陣等特征.
3)dbRNN[10]:提出能將依存關(guān)系融入框架的Dependency-Bridge RNN結(jié)構(gòu),并同時(shí)提出Tensor-Based Argument Interaction方法來(lái)建模論元元素間的關(guān)系.
4)JMEE[14]:用圖卷積網(wǎng)絡(luò)(GCN)模型生成每個(gè)單詞(圖中節(jié)點(diǎn))的向量表示并完成對(duì)句法樹對(duì)建模的同時(shí),通過(guò)使用句法上的捷徑弧(shotcutarcs)來(lái)解決對(duì)句子中的長(zhǎng)距離依賴.
5)GCN-ED[15]:利用句子中句法表示,提出了一種集成語(yǔ)法信息的實(shí)體提及池化機(jī)制.
表1 本文聯(lián)合抽取模型與其它模型的整體性能比較Table 1 Comparison of overall performance between the model in this paper and other models
表1列出了幾個(gè)模型在測(cè)試集上的性能.由于實(shí)驗(yàn)數(shù)據(jù)集使用的是中文數(shù)據(jù)集DuEE1.0和CEC,故所有對(duì)比模型中的詞向量都替換為了ERNIE詞向量,在相同的實(shí)驗(yàn)環(huán)境下實(shí)驗(yàn).從表中可以看出,與其他方法相比較.本文的聯(lián)合模型在觸發(fā)詞抽取時(shí),F1值平均提升了4.5%.在論元抽取時(shí),F1值平均提升了3.4%.對(duì)比其他使用了句法信息的方法,聯(lián)合模型在將句法樹擴(kuò)充為了句法圖的同時(shí)還對(duì)不同詞性鄰居節(jié)點(diǎn)的權(quán)重進(jìn)行了調(diào)整.不僅優(yōu)化了句子之間的結(jié)構(gòu)信息,還利用了圖注意力網(wǎng)絡(luò)可以更好聚合帶權(quán)節(jié)點(diǎn)信息的特點(diǎn).
4.3.2 事件抽取消融實(shí)驗(yàn)
1)不同詞向量對(duì)聯(lián)合模型分類效果的影響
詞向量作為作為深度學(xué)習(xí)模型的初始特征輸入,很多模型的最終效果很大程度上取決于詞向量的效果.本文為了驗(yàn)證ERNIE預(yù)訓(xùn)練模型在中文詞向量訓(xùn)練上的有效性,分別使用了Word2Vec[22]、GloVe[23]、BERT[24]預(yù)訓(xùn)練模型以及ERNIE預(yù)訓(xùn)練模型對(duì)輸入的原始句子進(jìn)行編碼.之后將編碼后的句子送入到后續(xù)模塊中以完成分類任務(wù),作為對(duì)比實(shí)驗(yàn)的靜態(tài)詞向量Word2Vec、GloVe的向量維度均為300維.不同詞向量的實(shí)驗(yàn)效果如表2所示.
表2 不同詞向量對(duì)實(shí)驗(yàn)效果的影響Table 2 Effects of different word vectors on experimental results
根據(jù)表2中的數(shù)據(jù)所示,BERT預(yù)訓(xùn)練模型和ERNIE預(yù)訓(xùn)練模型所展現(xiàn)出來(lái)的模型效果均優(yōu)于傳統(tǒng)的Word2Vec和GloVe方法.傳統(tǒng)的Word2Vec和GloVe方法都是靜態(tài)的詞向量,然后根據(jù)文本來(lái)獲取詞嵌入矩陣,在觸發(fā)詞抽取任務(wù)和論元抽取任務(wù)上的表現(xiàn)差別不大.而同樣為transformer類型的BERT預(yù)訓(xùn)練模型和ERNIE預(yù)訓(xùn)練模型,ERNIE預(yù)訓(xùn)練模型的實(shí)驗(yàn)效果則優(yōu)于BERT預(yù)訓(xùn)練模型.相較于BERT預(yù)訓(xùn)練模型,ERNIE預(yù)訓(xùn)練模型通過(guò)對(duì)先驗(yàn)語(yǔ)義知識(shí)單元進(jìn)行建模,在一定程度上增強(qiáng)了模型語(yǔ)義表示能力.本實(shí)驗(yàn)表明,ERNIE預(yù)訓(xùn)練模型可以有效的提升聯(lián)合模型的觸發(fā)詞和論元抽取效果.
2)強(qiáng)化特征對(duì)聯(lián)合模型分類效果的影響
由于本文在使用圖注意力網(wǎng)絡(luò)之前先將詞向量送入到一個(gè)Bi-LSTM模型中進(jìn)行強(qiáng)化訓(xùn)練得到強(qiáng)化特征.為了驗(yàn)證Bi-LSTM模型捕捉的句子中上下文關(guān)系對(duì)聯(lián)合模型的必要性,本文與直接使用詞向量作為節(jié)點(diǎn)特征來(lái)進(jìn)行對(duì)比.不同節(jié)點(diǎn)特征的實(shí)驗(yàn)效果如圖2所示.
圖2 強(qiáng)化特征對(duì)聯(lián)合模型分類效果的影響Fig.2 Influence of reinforcement features on classification effect of joint model
根據(jù)圖2中的數(shù)據(jù)所示,在加入強(qiáng)化特征以后聯(lián)合模型的分類效果取得了一個(gè)較大的提升,但是將Bi-LSTM模型不斷堆疊以后的效果并不理想,甚至模型效果反而變差了.雖然Bi-LSTM模型得到的強(qiáng)化特征可以很好的捕捉句子中的上下文關(guān)系,從而使傳入GAT模型中的初始節(jié)點(diǎn)特征優(yōu)于僅使用詞向量的初始節(jié)點(diǎn)特征.但是不斷堆疊的Bi-LSTM模型也會(huì)使聯(lián)合抽取模型的參數(shù)量不斷增加,從而導(dǎo)致在優(yōu)化模型參數(shù)時(shí)的效果并沒(méi)有一層的Bi-LSTM模型效果好.
3)分詞結(jié)果對(duì)聯(lián)合模型分類效果的影響
與以往研究的事件抽取模型不同,本文模型主要針對(duì)的是中文數(shù)據(jù)集.中文與英文的一個(gè)基本差異在于,中文的基本構(gòu)成單位是字,每個(gè)字都是獨(dú)立的意義單元;而英文的基本單位是字母,字母不是意義單元,只用來(lái)拼寫,完全沒(méi)有意義,只有詞才是獨(dú)立的意義單元.為了驗(yàn)證分詞結(jié)果是否會(huì)對(duì)聯(lián)合抽取模型的分類效果產(chǎn)生影響,下面將對(duì)按照字向量的模型與按照分詞結(jié)果組合詞向量的模型進(jìn)行比較.不同分詞方式的實(shí)驗(yàn)效果如圖3所示.
根據(jù)圖3中的數(shù)據(jù)所示,基于字的中文NLP任務(wù)可以得到比基于詞更好的結(jié)果.這是因?yàn)镋RNIE模型在對(duì)詞、實(shí)體等語(yǔ)義單元的進(jìn)行掩碼以后,模型學(xué)習(xí)到了概念更為完整的語(yǔ)義表示,實(shí)現(xiàn)了同一詞在不同上下文環(huán)境下的不同語(yǔ)義表示.從而使同一個(gè)字出現(xiàn)不同的場(chǎng)和會(huì)產(chǎn)生不同語(yǔ)義的詞向量.同時(shí)由于聯(lián)合抽取模型使用了基于依存句法分析的圖注意力網(wǎng)絡(luò),故即便不進(jìn)行分詞也能通過(guò)依存句法樹之間的關(guān)系正確找到觸發(fā)詞和論元.
圖3 分詞結(jié)果對(duì)聯(lián)合模型分類效果的影響Fig.3 Influence of word segmentation results on classification effect of joint model
4)不同邊關(guān)系矩陣對(duì)聯(lián)合模型分類效果的影響
由于聯(lián)合抽取模型的依存句法圖是由依存句法樹擴(kuò)充而來(lái)的,依存句法圖中的邊就是依存句法樹里的句法弧.而不同類型句法弧連接的鄰居節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的重要程度是不一樣的,所以為不同的鄰居賦予不同的權(quán)重.為了驗(yàn)證權(quán)重矩陣的有效性,下面將句法弧類型權(quán)重矩陣與普通權(quán)重矩陣進(jìn)行比較.不同權(quán)重矩陣的實(shí)驗(yàn)效果如圖4所示.
圖4 不同邊關(guān)系矩陣對(duì)聯(lián)合模型分類效果的影響Fig.4 Influence of different edge relation matrices on classification effect of joint model
普通權(quán)重矩陣采取的是只要存在句法弧便將權(quán)重設(shè)置為1.而這樣的方法可能會(huì)因?yàn)殄e(cuò)誤的句法邊導(dǎo)致聯(lián)合抽取模型的分類效果變差.根據(jù)圖4中的數(shù)據(jù)所示,句法弧類型權(quán)重矩陣不僅可以體現(xiàn)不同類型的鄰居節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的重要性,還有助于減輕錯(cuò)誤的句法邊對(duì)模型的影響.
4.3.3 突發(fā)熱點(diǎn)事件補(bǔ)全結(jié)果
在通過(guò)DuEE1.0數(shù)據(jù)集訓(xùn)練好聯(lián)合抽取模型以后,將在CEC數(shù)據(jù)集上驗(yàn)證聯(lián)合抽取模型的有效性,同時(shí)對(duì)事件抽取結(jié)果進(jìn)行補(bǔ)全.按照模型框架里的3階段,對(duì)CEC數(shù)據(jù)集中的每一篇新聞報(bào)道,先抽取新聞主旨的事件句.之后對(duì)整篇新聞文本做事件抽取,按照第3章提出的補(bǔ)全規(guī)則對(duì)新聞主旨事件做補(bǔ)全.由于CEC數(shù)據(jù)集已有對(duì)事件關(guān)系的標(biāo)注,在補(bǔ)全時(shí)認(rèn)定與已知新聞主旨事件存在關(guān)系的事件為候選補(bǔ)全事件.補(bǔ)全的評(píng)價(jià)標(biāo)準(zhǔn)采用了精準(zhǔn)度(P)、召回率(R)和F1-measure(F1值),表3列出了本文方法的事件抽取結(jié)果在CEC數(shù)據(jù)集中不同事件類型語(yǔ)料上的性能.
從表3中可以看出,聯(lián)合模型在CEC數(shù)據(jù)集中不同事件類型語(yǔ)料上的性能與在DUEE1.0數(shù)據(jù)集上的性能基本持平.在觸發(fā)詞抽取任務(wù)上的精準(zhǔn)度、召回率、F1值平均為81.3%、84.0%、82.7%;在論元抽取任務(wù)上的精準(zhǔn)度、召回率、F1值平均為55.2%、62.7%、58.7%;在事件補(bǔ)全任務(wù)上的精準(zhǔn)度、召回率、F1值平均為92.6%、91.1%、91.8%.由于在事件補(bǔ)全任務(wù)上的良好性能,驗(yàn)證了該3階段事件抽取方法在突發(fā)事件新聞文本里信息聚合的有效性.
表3 聯(lián)合模型在CEC數(shù)據(jù)集上的性能表現(xiàn)Table 3 Performance of joint models on CEC datasets
本文實(shí)現(xiàn)了一個(gè)基于3階段的篇章級(jí)事件抽取方法,方法首先通過(guò)TextRank算法將包含新聞主旨的事件句提取出來(lái),作為整篇新聞的代表事件.然后通過(guò)將依存句法樹擴(kuò)充成圖,得到節(jié)點(diǎn)之間的鄰接矩陣.使用圖注意力網(wǎng)絡(luò)(GAT)對(duì)每個(gè)節(jié)點(diǎn)的特征進(jìn)行訓(xùn)練,將得到的特征分別送入到觸發(fā)詞分類器和論元分類器中分類,實(shí)現(xiàn)篇章級(jí)事件的聯(lián)合抽取任務(wù).最后,對(duì)整篇新聞文本做事件抽取,利用候選事件與新聞主旨事件的事件向量相似度以及事件論元相似度對(duì)該新聞主旨事件進(jìn)行補(bǔ)全.通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性,在未來(lái)的事件抽取研究中可以圍繞以下兩個(gè)方面展開:1)針對(duì)論元抽取,可以進(jìn)一步研究中文事件論元抽取存在的難點(diǎn),解決中文事件論元抽取性能低的問(wèn)題;2)針對(duì)事件補(bǔ)全,現(xiàn)階段只是判斷了事件之間是否存在聯(lián)系進(jìn)行了簡(jiǎn)單的補(bǔ)全.下一階段可對(duì)事件關(guān)系進(jìn)一步劃分,總結(jié)事件的前因后果,使事件的相關(guān)信息更全面且直觀.