鄭志蘊,裴曉波,李 鈍,張行進,王軍鋒
(鄭州大學 計算機與人工智能學院,鄭州 450001)
事件檢測(Event Detection,ED)[1]作為信息抽取的子任務,旨在從非結(jié)構(gòu)化的文本中自動抽取用戶感興趣的事件信息并以結(jié)構(gòu)化的形式展示.由此產(chǎn)生的語義理解已應用于廣泛應用在信息搜索[2]、金融分析[3]、自動摘要[4]等領(lǐng)域.
事件檢測任務是從自然語言文本識別事件的觸發(fā)詞(Event Trigger),并將它們分類為特定的類型.事件的觸發(fā)詞是喚起相應事件的關(guān)鍵詞[5],一般為動詞或名詞.如例句S1:“They killed a lot of our people in Chamchamal but I feel bad for them too.”中,事件檢測的任務即為識別觸發(fā)詞為“killed”并對應事件類型“Life:Die”.
現(xiàn)有研究表明使用圖神經(jīng)網(wǎng)絡模型(Graph Neural Network,GNN)[6]進行事件檢測能有效提高總體性能,具體方法為根據(jù)依存句法解析將依存句法樹轉(zhuǎn)換為圖,句子中的每個單詞都作為一個節(jié)點,有向邊體現(xiàn)的是從當前詞到其依賴詞的語法依存關(guān)系.依存句法解析的目標是分析句子的語法結(jié)構(gòu)并描述各詞語之間的依存關(guān)系,例句S1的依存句法解析如圖1所示.利用圖特性,可以規(guī)范化文本中許多的詞匯和語法變化[7],使得圖信息更容易被建模,有助于有效地捕捉每個候選觸發(fā)詞與其它相關(guān)實體之間的相互關(guān)系.
圖注意力網(wǎng)絡模型(Graph Attention Network,GAT)是具有注意力機制的GNN,能夠更好地學習到圖的全局特征之間的依賴關(guān)系,在GNN家族中有不可或缺的優(yōu)勢.GAT利用掩蔽的自注意力層聚合鄰居節(jié)點,實現(xiàn)對不同鄰居的權(quán)值自適應匹配,從而提高模型的準確率.
然而現(xiàn)有的GAT模型,存在以下問題:①忽略單詞之間的依存標簽信息,而依存標簽可以作為一個單詞是否是觸發(fā)詞的重要指標,能有效提高事件檢測準確率.例如S1中,從依存邊“nsubj”(名詞主語)和“dobj”(直接賓語)可以看出“They”和“people”分別是“killed”的主語和賓語,邊“nmod”(名詞修飾語)指出“Chamchamal”是“killed”事件的地點,這些依存關(guān)系對識別出觸發(fā)詞“killed”提供了有效幫助.②在使用循環(huán)神經(jīng)網(wǎng)絡模型捕獲句子中每個單詞的上下文信息時,現(xiàn)有模型都選擇長短期記憶網(wǎng)絡模型(Long Short-Term Memory,LSTM),計算量大、結(jié)構(gòu)復雜導致模型內(nèi)存空間占用多.
為了解決上述問題,本文提出依存邊信息嵌入的圖注意力網(wǎng)絡模型(Graph Attention Network with Dependency Edge Information Embedding,EIEGAT)用于事件檢測.①為了充分挖掘隱藏在依存邊中的信息,在圖注意力網(wǎng)絡模型的基礎(chǔ)上,設計依存邊信息嵌入模塊,將依存邊的標簽信息嵌入到圖的鄰接矩陣中,使鄰接矩陣等價于加入了依存邊標簽信息的圖結(jié)構(gòu).使得模型在構(gòu)造圖時不僅考慮了節(jié)點表示,且考慮了依賴邊的表示,提高事件檢測準確率.②使用結(jié)構(gòu)和計算更簡單的循環(huán)神經(jīng)網(wǎng)絡變種模型——門控循環(huán)單元結(jié)構(gòu)(Gated Recurrent Unit,GRU),自適應累計上下文信息流,在獲得比LSTM相當甚至更佳性能的同時,達到簡化網(wǎng)絡結(jié)構(gòu),節(jié)省內(nèi)存空間的目標.
本文貢獻概述如下:
1.提出EIEGAT事件檢測模型.在圖注意力網(wǎng)絡模型中嵌入依存邊信息,即同時利用了句法結(jié)構(gòu)、注意力權(quán)重信息及依存邊標簽信息來實現(xiàn)事件檢測任務.
2.在ACE2005語料集上的實驗表明本模型優(yōu)于基線模型,有效提高了事件檢測的總體性能.
本文其余部分的結(jié)構(gòu)如下:第2章介紹隨著發(fā)展進程的用于事件檢測任務的相關(guān)算法,第3章介紹本文提出的基于依存句法和圖注意力網(wǎng)絡的事件檢測模型,第4章介紹數(shù)據(jù)集和評價指標,及針對本文模型與相關(guān)研究設計的各種實驗,第5章對整篇論文所做的工作進行總結(jié).
事件檢測的方法隨著發(fā)展進程,主要分為基于模式匹配、基于機器學習和基于深度學習3類.
早期的事件檢測主要是基于模式匹配的方法,核心是事件檢測模板的構(gòu)建,再將待識別的句子與對應模板進行匹配.該方法能較好地應用于特定領(lǐng)域,但可移植性和靈活性較差.當跨域使用時,需要重新花費大量的時間和人力構(gòu)建模型.
利用機器學習提取事件,本質(zhì)上就是將事件檢測作為一個分類問題來處理.其主要任務是選擇合適的特征并構(gòu)造合適的分類器,分類器通常基于統(tǒng)計模型構(gòu)建,例如最大熵模型、條件隨機場模型[8]等.與模式匹配方法相比,機器學習方法可以跨域使用,具有較高的可移植性和靈活性.但該方法需要大規(guī)模標注訓練語料庫,語料庫的建設不僅需要大量人力和時間,同時存在著數(shù)據(jù)稀疏和數(shù)據(jù)不平衡.這兩種情況導致訓練語料庫不夠或類別單一,都將嚴重影響事件檢測的效果.
深度學習是機器學習領(lǐng)域研究的新方向,它可以學習更抽象的數(shù)學特征,使數(shù)據(jù)具有更好的特征表達,從而高質(zhì)量地實現(xiàn)事件檢測任務.目前,深度學習神經(jīng)網(wǎng)絡已成為事件檢測的主流研究方法.
如何設計高效的神經(jīng)網(wǎng)絡模型是深度學習方法的主要挑戰(zhàn)之一.現(xiàn)有的神經(jīng)網(wǎng)絡事件檢測模型主要包括基于序列和基于GNN兩種方法:
基于序列的方法:將事件檢測問題作為序列標記任務來處理,包括卷積神經(jīng)網(wǎng)絡模型(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡模型(Recurrent Neural Network,RNN).Chen等分別采用動態(tài)多池化卷積[9]及使用FreeBase大型知識庫進行遠程動態(tài)多池化卷積[10],提取詞匯級和句子級特征的動態(tài)多池層來評估句子的各個部分.CNN結(jié)構(gòu)以單詞嵌入的拼接作為輸入,對連續(xù)單詞進行卷積操作,捕捉當前單詞與相鄰單詞的上下文關(guān)系.因此,不能很好地捕捉到遙遠單詞之間的一些潛在的依存關(guān)系,從而利用整個句子的信息來提取觸發(fā)詞.
RNN結(jié)構(gòu)具有時間連續(xù)特性[11],可以通過在句子中按照單詞的順序(向前或向后)輸入單詞,直接或間接利用任意兩個單詞之間的潛在依賴關(guān)系.Nguyen等[12]使用雙向RNN和人工設計的特征聯(lián)合提取事件觸發(fā)詞和事件元素.
自然語言的內(nèi)部實際是極為復雜的樹形結(jié)構(gòu),也即圖結(jié)構(gòu).基于序列的方法無法利用句子豐富的語法結(jié)構(gòu),因此存在捕獲句子長期依賴關(guān)系時效率低下、忽略句法結(jié)構(gòu)等問題從而影響事件檢測性能.
基于GNN的方法:在圖結(jié)構(gòu)上運行神經(jīng)網(wǎng)絡.傳統(tǒng)的神經(jīng)元操作,如在CNN和RNN中廣泛使用的卷積核和遞歸核,可以應用于圖結(jié)構(gòu)中,從而學習圖中所嵌入的各種深度特征用于特定的任務.因此,使用GNN模型利用依存句法結(jié)構(gòu)迅速成為事件檢測領(lǐng)域的研究熱點.
現(xiàn)有GNN方法用于事件檢測的方法基本都是在圖上進行卷積操作,即在圖上運行圖卷積神經(jīng)網(wǎng)絡模型(Graph Convolutional network,GCN).Nguyen等[13]、Liu等[14]和Cui等[15]根據(jù)句法連通性將依存句法樹轉(zhuǎn)換為圖,對GCN進行不同的改進以更好地建模圖信息,在ACE語料集[16]上效果良好.但GCN模型結(jié)合鄰近節(jié)點特征的方式依賴特定圖結(jié)構(gòu),限制訓練所得模型在其他圖結(jié)構(gòu)上的泛化能力.
GAT[17]利用自注意力機制[18]通過直接計算圖中任意兩個節(jié)點之間的關(guān)系,能夠獲取圖結(jié)構(gòu)的全局特征,擁有全圖訪問的優(yōu)點;GAT使當前節(jié)點只與相鄰節(jié)點有關(guān)而無需得到整張圖的信息,擁有泛化性高的優(yōu)點.Yan等[19]使用GNN對句法依存樹建模,并加入注意力機制聚合句中多階的句法信息.但現(xiàn)有GAT往往忽視豐富的依存邊標簽信息,而依存邊標簽信息能為識別事件提供十分實用的幫助.
針對依存邊標簽信息對模型的重要性及GRU的優(yōu)勢,本文提出基于依存句法和圖注意力網(wǎng)絡的事件檢測模型,將依存邊信息嵌入到圖注意力網(wǎng)絡上.模型總體結(jié)構(gòu)如圖2所示,包含5個模塊:1)嵌入層,將輸入的句子編碼成向量序列;2)Bi-GRU層,捕獲每個單詞的上下文信息;3)依存邊信息嵌入模塊,將依存邊的標簽信息嵌入至圖的鄰接矩陣中;4)圖注意力網(wǎng)絡層,對依存邊信息嵌入后的依存句法圖進行圖注意力卷積;5)觸發(fā)詞分類層,預測事件觸發(fā)詞標簽作為分類結(jié)果.
圖2 模型結(jié)構(gòu)圖Fig.2 Structure of the proposed method
使用神經(jīng)網(wǎng)絡模型處理數(shù)據(jù)之前,數(shù)據(jù)需要經(jīng)過嵌入層進行向量化處理.將輸入嵌入層含有n個單詞的句子表示為S={w1,w2,…,wn},wi為句子中第i個單詞.首先將句子S經(jīng)過下列4個嵌入轉(zhuǎn)換為特征向量:
wi的詞嵌入向量wordi:用以捕捉單詞wi隱藏的句法和語義屬性.詞嵌入通常是在大型未標注語料庫上進行預訓練.
wi的詞性標注嵌入向量posi:用以捕捉單詞wi的詞性屬性.詞性標注嵌入通過查找隨機初始化的詞性標注嵌入表生成.
wi的位置嵌入向量psi:如果wc是當前單詞,通過查找隨機初始化的位置嵌入表,將wi到wc的相對距離i-c編碼為一個實值向量.
wi的實體類型標簽嵌入向量eti:使用BIO標注模式[20]對句子中的實體進行標注(BIO即:B是實體開頭的字段,I是指實體除了開頭的字段,O是指非實體的部分),并通過查找實體類型嵌入表將實體類型標簽轉(zhuǎn)換為實值向量.
嵌入層將句子中每個單詞wi轉(zhuǎn)換成實值向量xi=(wordi,posi,psi,eti),向量中包含了語義信息、詞性信息、位置信息和實體信息等.將上述4個嵌入向量進行連接后,實現(xiàn)將輸入句子S轉(zhuǎn)換成一個向量序列X={x1,x2,…,xn},并作為下一層Bi-GRU層的輸入.
使用GNN捕獲依存句法樹中節(jié)點之間的依賴關(guān)系時,GNN的層數(shù)限制了捕獲局部圖信息的能力.因此需要采用自適應累積上下文的機制——RNN,利用本地順序上下文有助于在不增加GNN層數(shù)的情況下擴展信息流.
但是傳統(tǒng)RNN模型在訓練時存在梯度消失或梯度爆炸問題,故需要使用傳統(tǒng)RNN模型的變體,即LSTM[21]或GRU[22].GRU既能達到LSTM有效捕捉長序列之間的語義關(guān)聯(lián)、緩解梯度消失或爆炸現(xiàn)象的功能,且具有比LSTM更簡單的結(jié)構(gòu)和計算.考慮到GRU不能編碼句子從后到前的信息,因此本文最終使用雙向門控循環(huán)單元(Bi-GRU)沿著節(jié)點的兩個方向捕獲信息,獲得單詞的上下文信息,減少來自圖神經(jīng)網(wǎng)絡模型的限制并提高整個圖上的長期信息傳播.
Bi-GRU層將嵌入層輸出的向量序列X編碼為H={h1,h2,…,hn},公式如式(1)所示.
(1)
每個依存句法樹都可以轉(zhuǎn)換為一個n×n的鄰接矩陣A表示單詞節(jié)點間的連通性.構(gòu)造A時僅使用單向依賴邊體現(xiàn)句法結(jié)構(gòu),能更好地將注意力集中在觸發(fā)詞處.則A中數(shù)值設置為如果節(jié)點hi和節(jié)點hj之間存在語法依存邊,則Aij=1;否則,Aij=0.此時鄰接矩陣A為二進制矩陣,但這種二進制鄰接矩陣忽略了單詞之間豐富的語法依賴標簽.
為了充分挖掘隱藏在依賴邊中的線索,設計了依存邊信息嵌入模塊(Dependency Edge Information Embedding Module,DEIEM).該模塊的作用是將節(jié)點之間的語法依存標簽關(guān)系注入到鄰接矩陣A中,形成依存邊矩陣E.E不再是二進制矩陣而等價于加入了依存邊標簽信息的圖結(jié)構(gòu).如果節(jié)點hi到節(jié)點hj之間邊的標簽信息為r,則對應E中表示為eij=r.對應的鄰接矩陣變化如圖3所示.
圖3的輸入為依存句法解析后的例句S2:“He was born on November 4th”,左側(cè)為網(wǎng)絡模型的層次結(jié)構(gòu),右側(cè)為S2經(jīng)過DEIEM的處理從鄰接矩陣(A)到依存邊矩陣(E)的變化.
DEIEM具體操作為將Bi-GRU層輸出的節(jié)點hi和節(jié)點hj,與兩節(jié)點的依賴邊dep進行連接,使節(jié)點表示中表達的潛在關(guān)系信息能夠被有效挖掘并注入到依存邊矩陣E中.計算如式(2)所示.
eij=DEIEM(hi,hj,dep)=Wu[hi⊕hj⊕dep]
(2)
其中,⊕表示連接操作,Wu是一個可學習的變換矩陣.DEIEM通過連接節(jié)點信息,動態(tài)地優(yōu)化依賴邊的表示,更新句子中的的鄰接矩陣,使邊的表示更具信息量.
attij=a(Whi,Whj,eij)
(3)
注意力機制a(·)是計算兩個節(jié)點注意力系數(shù)的函數(shù),得到的結(jié)果表示節(jié)點vj的特征對節(jié)點vi的重要性.為了簡化計算,將這種注意力系數(shù)的計算限制在一階鄰居內(nèi).此函數(shù)具體計算如式(4)所示.
(4)
(5)
將計算所得的注意力系數(shù)αij存入矩陣中,稱為注意力矩陣T,為鄰接矩陣的最終形式.例句S2經(jīng)過圖注意力網(wǎng)絡層鄰接矩陣的變化如圖4所示.
圖4 圖注意力網(wǎng)絡對鄰接矩陣的影響Fig.4 Effect of Graph Attention Network on adjacency matrix
(6)
其中,σ為ELU激活函數(shù)[24].
(7)
Oi=Wth′+bt
(8)
其中,Wt為將單詞表示h′映射到每個事件類型的特征得分,bt是偏差.在softmax操作之后,選擇概率最大的事件觸發(fā)詞標簽作為分類結(jié)果.
由于數(shù)據(jù)中“O”標簽的數(shù)量遠大于事件標簽的數(shù)量,本文使用偏差損失函數(shù)[25]來增強事件標簽在訓練中的影響,偏差損失函數(shù)的表示如式(9)所示.
(9)
其中,Ns為句子數(shù),Ni,w是句子si的單詞數(shù),I(O)是區(qū)分標簽為“O”或事件類型的切換函數(shù).單詞的標簽不為事件類型時,表示為“O”,此時I(O)=1;否則0.λ是大于1的權(quán)重參數(shù),λ值越大,表示事件類型標簽對模型的影響越大.
本文的評測語料為ACE2005中英文數(shù)據(jù)集(https://catalog.ldc.upenn.edu/LDC2006T06),是目前使用最為廣泛的事件檢測數(shù)據(jù)集.該數(shù)據(jù)集共標注8個事件類型、33個事件子類型,如表1所示,這些子類型與NONE類一起,作為該數(shù)據(jù)集的34分類問題的預定義標簽集.
表1 ACE 事件類型及子類型Table 1 ACE event type and subtype
為了確保與之前在該數(shù)據(jù)集上的工作進行兼容比較,在ACE2005英文數(shù)據(jù)集上,沿用文獻[25,26]的數(shù)據(jù)分割方式.將數(shù)據(jù)集分割為用于測試集的40篇新聞文章(881句子),用于驗證集的30個其他文檔(1087句子),以及用于訓練集的529個剩余文檔(21090句子).
在ACE2005中文數(shù)據(jù)集上,沿用文獻[27]的語料分割方式,從633篇標注文檔中隨機抽取534篇作為實驗的訓練集、33篇作為驗證集、66篇作為測試集.
采用精確率(Precision,P)、召回率(Recall,R)和綜合評價指標(F1-Measure,F1)作為評價標準.P反映了模型預測為正例的樣本中識別正確的比例,R反映了所有正例樣本中識別正確的比例,F1是對兩者的綜合度量.這3個指標根據(jù)以下兩條標準進行計算:1)觸發(fā)詞識別:當模型預測出的觸發(fā)詞與語料庫中一致則為正確;2)觸發(fā)詞分類:當模型預測出的觸發(fā)詞類型與語料庫中一致則為正確.P、R和F1的計算公式如式(10)、(11)所示.
(10)
(11)
其中,TP(True Positive)為與真實樣本相同的真正例;FP(False Positive)、FN(False Negative)分別是與真實樣本不同的假正例和假反例.
借助Stanford coreNLP工具包(http://stanfordnlp.github.io/ CoreNLP/)對數(shù)據(jù)進行預處理,對ACE2005數(shù)據(jù)集進行分句、分詞、詞性標注、詞元化、依賴解析等處理.對ACE2005中文數(shù)據(jù)集的分詞工作基于詞語而不是字符,這能夠使分詞后的數(shù)據(jù)與數(shù)據(jù)集中的標注相互匹配.本文詞嵌入向量[28]使用Skip-gram算法[29]在紐約時報語料庫上預訓練獲得.
實驗相關(guān)超參數(shù)的設置如表2所示.
表2 模型的超參數(shù)設置Table 2 Hyperparameters of our model
將本文模型在ACE2005英文數(shù)據(jù)集上與下列兩類基線模型進行對比:
1)基于序列的模型:
? DMCNN模型[9]由Chen等人提出,采用動態(tài)多池化卷積模型來保存多事件的信息;
? JRNN模型[12]由Nguyen等人提出,使用雙向RNN和人工設計的特征聯(lián)合提取觸發(fā)詞和事件元素;
? DMCNN-DS模型[10]由Chen等人提出,使用FreeBase大型知識庫通過遠程監(jiān)督來標記無監(jiān)督語料庫中的潛在事件.
2)基于GNN的模型:
? GCN-ED模型[13]由Nguyen和Grishman提出,使用基于GCN的參數(shù)池機制進行事件檢測;
? JMEE模型[14]由Liu等人利用自注意力和高速網(wǎng)絡(Highway Network)增強GCN,提高GCN的事件檢測性能;
? EEGCN模型[15]由Cui等人提出的一種新的邊緣增強圖卷積網(wǎng)絡體系結(jié)構(gòu)同時利用了句法結(jié)構(gòu)和類型依賴標簽信息來實現(xiàn)事件檢測;
? MOGANED模型[19]由Yan等人利用基于依賴樹的具有聚合注意力的圖卷積網(wǎng)絡顯式建模和聚合句子中的多階句法表示.
本模型與上述模型在ACE2005英文數(shù)據(jù)集上的實驗結(jié)果如表3所示.
根據(jù)表3可以得出以下結(jié)論:
1)使用基于GNN的模型在數(shù)據(jù)集上的分類結(jié)果明顯高于基于序列的模型,這表明了在句子上運行圖算法的有效性.
2)在同樣借助了圖特性的前提下,本文模型在觸發(fā)詞識別和觸發(fā)詞分類上要優(yōu)于文獻[13-15,19],這是因為文獻[13-15]僅僅使用基礎(chǔ)GCN模型,使得模型分配給句子中不同鄰居單詞的權(quán)重是完全相同的,忽略了觸發(fā)詞等關(guān)鍵節(jié)點的重要性,本文模型可以給句子結(jié)構(gòu)不同單詞節(jié)點指定不同權(quán)重,使觸發(fā)詞分類的F1值平均提升3.7%.
3)本文基于文獻[19]的優(yōu)點則是在GAT的基礎(chǔ)上加入了DEIEM,使得本文模型在構(gòu)造圖時額外考慮了依賴邊標簽信息的表示,提高了模型的性能,其中觸發(fā)詞分類的F1值提升2.8%.
將本文模型在ACE2005中文數(shù)據(jù)集上與下列模型進行對比:
? 文獻[9]的DMCNN模型應用在中文時,模型包括對中文數(shù)據(jù)集上基于字的CDMCNN模型和基于詞的WDMCNN模型;
? NPN模型[27]是由Lin等人提出的結(jié)合字和詞嵌入表示的方法,先進性特征信息抽取再做信息融合,以學習觸發(fā)詞內(nèi)部結(jié)構(gòu)組成,解決觸發(fā)詞不匹配的問題;
? TLNN模型[30]是由Ding等人針對觸發(fā)詞不匹配問題,提出觸發(fā)詞感知的Lattice LSTM網(wǎng)絡;同時針對一詞多義問題,利用外部知識庫HowNet補充詞級別語義信息;
? MTL CRF模型[31]是賀等人提出的使用分類訓練的策略為每類事件分別訓練一個基于CRF的事件聯(lián)合抽取模型,解決事件元素多標簽的問題.
本文模型與上述模型在ACE2005中文數(shù)據(jù)集上的實驗結(jié)果如表4所示.
根據(jù)表4可以得出以下結(jié)論:
1)EIEGAT模型在ACE2005中文數(shù)據(jù)集的實驗結(jié)果依舊能夠高于基線模型,這表明EIEGAT模型的創(chuàng)新點對中文同樣適用.
2)對中文數(shù)據(jù)集做分字操作的CDMCNN模型的觸發(fā)詞識別與分類結(jié)果明顯低于分詞操作的WDMCNN模型,這證明在對中文進行預處理階段時,針對中文語言的特殊性,分詞操作是必不可少的步驟.
以往GNN模型中構(gòu)造鄰接矩陣時通常使用依賴邊+逆向邊+自環(huán)邊[14,15],逆向邊為依賴邊的反向邊,即令Aji=Aij;自環(huán)即鄰接矩陣中對角線位置,即令Aii=1.而本文初始鄰接矩陣的構(gòu)建僅使用單向依賴邊還原句法結(jié)構(gòu),本節(jié)設計對比實驗驗證選取不同邊信息構(gòu)建鄰接矩陣對最終結(jié)果的影響.實驗結(jié)果如表5所示.
表5 鄰接矩陣中的邊信息選取實驗結(jié)果Table 5 Experimental results of edge information selection in adjacency matrix %
由表5可得,鄰接矩陣中僅使用單向依賴邊的最終事件檢測F1值結(jié)果最優(yōu),為了探究其原因,本文將由鄰接矩陣經(jīng)過EIEGAT操作后的注意力矩陣T可視化,以句子S2為例,圖5為鄰接矩陣中加入不同的邊得到的注意力矩陣T的熱力圖.
圖5 注意力矩陣熱力圖Fig.5 Attention matrix heat map
圖5(a)為鄰接矩陣中僅加入有向依賴邊經(jīng)過EIEGAT模型后的注意力矩陣,可以看到注意力矩陣與初始句法依存圖十分對應,注意力聚焦在觸發(fā)詞“born”處;圖5(b)的初始鄰接矩陣中為依賴邊+逆向邊,事件觸發(fā)詞“born”回饋了依賴它的單詞節(jié)點;圖5(c)的初始鄰接矩陣中為依賴邊+自環(huán)邊,注意力更集中于注意力矩陣的對角線;圖5(d)的初始鄰接矩陣中為依賴邊+逆向邊+自環(huán)邊,此時注意力矩陣中含有較多信息.
由此可得,鄰接矩陣僅體現(xiàn)依存句法圖中的依賴邊時,最終模型會擬合句法圖結(jié)構(gòu),給予事件觸發(fā)詞更高的注意力系數(shù),隨著加入更多的信息,觸發(fā)詞的高注意力分值會被逐漸稀釋,反而降低最終結(jié)果.
本節(jié)將評估不同的模型體系結(jié)構(gòu),以實驗RNN變種模型的選擇、GAT與GCN差別以及添加DEIEM與否對總體性能的影響.事件分類任務的消融實驗結(jié)果如表6所示.
表6 模型的事件分類消融實驗結(jié)果Table 6 Experimental results of event classification ablation of the model %
從表6可以看出,當RNN變種模型的選擇為Bi-GRU、圖神經(jīng)網(wǎng)絡選擇為GAT以及添加DEIEM,事件檢測模型的性能最好.由表6可得出以下結(jié)論.
1)當RNN變種模型選擇Bi-LSTM時,模型的F1性能下降1.1%,且實驗發(fā)現(xiàn)于內(nèi)存占用也比Bi-GRU多約2000MB,由此表明在捕獲單詞上下文信息方面,使用GRU模型能利用比LSTM更為簡單的結(jié)構(gòu)和計算獲取更佳的性能.
2)為了驗證GAT模型對事件檢測整體性能的影響,將GAT模型換成基礎(chǔ)GCN模型,F1值下降4.6%,實驗表明GAT模型分配句子中不同單詞以不同的權(quán)重這一功能,能有效提升事件檢測性能.
去除DEIEM后,模型的F1值下降4.3%,這足以表明聚合依賴邊的信息,對于獲得更全面的圖信息、提升對于觸發(fā)詞的檢測與分類是切實可行的改進.
本文提出依存邊信息嵌入的圖注意力網(wǎng)絡模型用于事件檢測,將依存句法樹轉(zhuǎn)化為圖,利用圖特性規(guī)范化文本中的詞匯和語法變化.為了充分利用隱藏在依賴邊中的信息,在圖注意力網(wǎng)絡的基礎(chǔ)上設計依存邊信息嵌入模塊,將依存邊的標簽信息嵌入到圖的鄰接矩陣中,使模型在構(gòu)造圖時同時考慮了節(jié)點和依賴邊的表示,提高模型事件檢測的準確率.在獲取上下文信息的RNN變種模型中,選擇門控循環(huán)單元,簡化計算、節(jié)省內(nèi)存空間.在ACE2005中英文語料集上進行事件識別與事件分類的實驗表明本模型具有效性和優(yōu)越性.