王曉霞,錢雪忠,宋 威
(江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,江蘇無錫 214122)
(*通信作者電子郵箱17854265793@163.com)
關(guān)系抽取(Relation Extraction,RE)是自然語言處理領(lǐng)域的一項(xiàng)重要子任務(wù),是對非結(jié)構(gòu)化文本進(jìn)行大規(guī)模關(guān)系理解應(yīng)用的基石,它在信息抽取、問答系統(tǒng)和知識圖譜等領(lǐng)域有著廣泛的應(yīng)用[1]。關(guān)系抽取是根據(jù)預(yù)先定義的關(guān)系類型來識別文本中標(biāo)記實(shí)體對之間的語義關(guān)系。例如,“The train <e1>crash</e1>was caused by terrorist <e2>attack</e2>.”,根據(jù)給定的句子以及標(biāo)記的實(shí)體對判定“crash”與“attack”之間的關(guān)系為Cause-Effect(e1,e2)。
現(xiàn)有的關(guān)系抽取模型可以大致分為兩類:基于序列的模型和基于依賴關(guān)系的模型?;谛蛄械哪P椭粚卧~序列進(jìn)行編碼,使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)將句子序列編碼為語境化的潛在特征;基于依賴關(guān)系的模型則將輸入語句的依存樹納入模型中,通過沿著依存樹形成的計(jì)算圖來構(gòu)建句子的分布式表示。與基于序列的模型相比,基于依賴關(guān)系的模型能夠捕獲單獨(dú)從詞嵌入序列中無法學(xué)習(xí)到的長期句法關(guān)系。但是,依存樹中并不是所有信息都對關(guān)系抽取任務(wù)有用,為了能夠排除依存樹中的干擾信息,現(xiàn)有方法通過對依存樹進(jìn)行剪枝操作,選取依存樹中的部分結(jié)構(gòu)進(jìn)行編碼以獲取句子的語義特征。這種基于硬剪枝的策略過于激進(jìn)地修剪依存樹而忽略了相關(guān)信息,降低了依存樹中的信息利用率。其次,現(xiàn)有模型中的特征提取器效果不佳,無法同時提取依存樹中的局部與非局部依賴特征,從而不能有效學(xué)習(xí)到句子的高階語義特征。針對以上問題,本文所提出的基于注意力與圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的關(guān)系抽取模型能夠利用基于注意力機(jī)制的軟剪枝策略來挖掘依存樹中的有效信息,同時過濾無用信息;其次,通過門控感知圖卷積網(wǎng)絡(luò)作為特征提取器,能有效提取依存樹中的局部與非局部依賴特征,獲取句子中的高階語義特征。
傳統(tǒng)的關(guān)系抽取主要是基于特征[2]或基于核函數(shù)[3]構(gòu)造分類模型,這種方法確實(shí)可行且有效,但依賴于選擇的特征集或設(shè)計(jì)的核函數(shù),容易引入人為誤差,很大程度上限制了關(guān)系抽取模型的性能。
目前,基于深度學(xué)習(xí)的方法被廣泛用于關(guān)系抽取任務(wù)中。文獻(xiàn)[4]和文獻(xiàn)[5]分別利用CNN 和RNN 提取句子序列特征,并通過Softmax 分類器實(shí)現(xiàn)關(guān)系分類;針對數(shù)據(jù)不平衡帶來的噪聲問題,文獻(xiàn)[6]提出了一種排序損失函數(shù)來替代交叉熵,對other 類進(jìn)行特殊處理從而減少噪聲的影響;文獻(xiàn)[7]則將注意力機(jī)制引入關(guān)系抽取模型中,通過注意力機(jī)制重點(diǎn)關(guān)注句子中的有效信息,從而提高模型的性能;考慮到句子的局部特征和上下文特征對關(guān)系抽取任務(wù)具有一定貢獻(xiàn),文獻(xiàn)[8]和文獻(xiàn)[9]利用聯(lián)合神經(jīng)網(wǎng)絡(luò)的方法,將RNN 與CNN 結(jié)合來共同獲取句子的局部特征和上下文特征,進(jìn)而改善模型關(guān)系抽取性能。上述工作中的模型,直接將原始語句作為輸入構(gòu)建端到端的模型,取得了不錯的效果。
此外,研究者為充分挖掘句子中的深層語義信息,將句子的依存關(guān)系樹導(dǎo)入模型中,構(gòu)建基于依賴關(guān)系的模型。為充分利用依存樹中的有效信息,排除干擾特征,研究者提出了多種剪枝策略來選取依存樹中的有利信息。文獻(xiàn)[10]通過剪枝選取實(shí)體之間的最短依賴路徑(Shortest Dependency Path,SDP),應(yīng)用于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),推廣了基于依賴關(guān)系的思想;文獻(xiàn)[11]在循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Network,RCNN)模型中加入基于最短依賴路徑的注意力機(jī)制來強(qiáng)化關(guān)鍵詞和句子特征;文獻(xiàn)[12]則應(yīng)用剪枝策略將整棵樹縮減為實(shí)體最低公共祖先(Lowest Common Ancestor,LCA)下的子樹,并通過雙向樹狀結(jié)構(gòu)的LSTM-RNN 捕獲子樹中的結(jié)構(gòu)信息;文獻(xiàn)[13]在LCA 規(guī)則的基礎(chǔ)上提出改進(jìn),保留實(shí)體對的LCA 子樹上K距離內(nèi)的節(jié)點(diǎn),并引入圖卷積網(wǎng)絡(luò)進(jìn)行關(guān)系抽取。以上研究表明依存樹中含有豐富的對關(guān)系抽取任務(wù)有利的信息,對于提高關(guān)系抽取模型的性能有一定作用;但基于規(guī)則的硬剪枝策略容易導(dǎo)致過剪枝或欠剪枝,從而降低依存樹中信息的利用率,并且大多數(shù)模型選取CNN 或RNN 作為特征提取器,無法充分學(xué)習(xí)到依存關(guān)系樹中的非局部依賴特征。
本文針對上述問題,提出一種基于注意力引導(dǎo)的門控感知圖卷積網(wǎng)絡(luò)(Attention-guided Gate preceptual Graph Convolutional Network,Att-Gate-GCN)關(guān)系抽取模型。首先,為了緩解硬剪枝策略帶來的信息丟失問題,利用一種基于注意力機(jī)制的軟剪枝策略,將原始依存樹轉(zhuǎn)化為一個完全連通的邊加權(quán)圖,每條邊的權(quán)重視為節(jié)點(diǎn)之間關(guān)系的強(qiáng)度,并通過自注意力機(jī)制[14]以端到端的方式學(xué)習(xí)。其次,為了更好地編碼上述得到的加權(quán)完全連通圖,本文在C-GCN(Contextualized Graph Convolutional Network)模型[13]的基礎(chǔ)上提出一種改進(jìn)的門控感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu)用于提取句子的高階語義特征。C-GCN模型使用高效的圖卷積運(yùn)算[15]對輸入語句的依賴圖進(jìn)行編碼,但由于簡單的圖卷積網(wǎng)絡(luò)無法深度訓(xùn)練[16],導(dǎo)致該模型中的圖卷積網(wǎng)絡(luò)結(jié)構(gòu)不能有效提取依存樹中的非局部依賴特征。本文提出的門控感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu)則通過門控機(jī)制增加特征感知能力,能夠?qū)崿F(xiàn)對模型的深度訓(xùn)練,從而捕獲句子中豐富的局部與非局部依賴特征。本文將提出的模型在SemEval2010-Task8 和KBP37 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了比現(xiàn)有模型更好的效果;為驗(yàn)證本文所提出的基于注意力機(jī)制的軟剪枝策略與門控感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu)的有效性,還進(jìn)行了消融實(shí)驗(yàn)。
本章主要介紹基于注意力引導(dǎo)的門控感知圖卷積網(wǎng)絡(luò)(Att-Gate-GCN)關(guān)系抽取模型,該模型框架如圖1所示。
圖1 Att-Gate-GCN關(guān)系抽取模型框架Fig.1 Architecture of Att-Gate-GCN relation extraction model
在已有工作中,研究者證明了基于依賴關(guān)系的模型與基于序列的模型具有互補(bǔ)的優(yōu)勢,因此本文參考C-GCN 模型,如圖1 中的(a)所示,在模型中添加雙向長短期記憶(Bidirectional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)層,將詞嵌入向量首先輸入到Bi-LSTM 中,生成上下文化的詞嵌入表示,然后通過本文所提出的Att-Gate-GCN 進(jìn)一步學(xué)習(xí)句子的高階語義特征。如圖1 中的(b)所示,首先通過注意力引導(dǎo)層學(xué)習(xí)依存樹中所有節(jié)點(diǎn)之間的權(quán)重信息,從而提高依存關(guān)系樹中有效信息的利用率;然后通過門控感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步提取句子的深層語義特征。
本文使用斯坦福大學(xué)開發(fā)的Stanford Parser 對句子進(jìn)行依存分析,生成句子的依存樹。依存樹中的所有節(jié)點(diǎn)對應(yīng)句子中的所有單詞,節(jié)點(diǎn)之間的關(guān)系通過鄰接矩陣表示。將句子通過詞嵌入層得到單詞的分布式表示,即單詞ci的詞向量wi由單詞ci的one-hot向量vi與預(yù)訓(xùn)練的詞向量矩陣W相乘得到,如式(1)。
此外,考慮到句子中的實(shí)體位置能夠反映句子中各單詞與實(shí)體對之間的位置信息,引入Zeng等[4]提出的位置特征,通過隨機(jī)初始化位置嵌入矩陣得到位置嵌入表示,單詞ci相對于實(shí)體對的位置嵌入向量為。因此,單詞ci的詞向量最終表示為
將詞嵌入層得到的詞向量輸入到Bi-LSTM 層,通過兩層LSTM分別沿句子前向序列和反向序列進(jìn)行編碼,生成上下文化的詞向量。LSTM在克服長期依賴性問題中,采用自適應(yīng)門控機(jī)制,利用存儲單元記憶相關(guān)信息,遺忘無關(guān)內(nèi)容,緩解了梯度消失與爆炸問題。LSTM 的隱藏層主要包含三個門控機(jī)制:輸入門it、遺忘門ft和輸出門ot(t表示時刻)。式(2)~(7)顯示了LSTM隱藏層的計(jì)算。
其中:σ代表sigmoid 激活函數(shù);?代表向量元素相乘;xt表示時間t時刻的輸入向量;ht表示隱藏狀態(tài);表示xt分別在不同門機(jī)制上的權(quán)重矩陣;表示ht分別在不同門機(jī)制上的權(quán)重矩陣;b代表偏差量。
在t時刻,Bi-LSTM 的前向輸出為,反向輸出為,將兩個方向的輸出拼接得到最終t時刻的輸出ht,如式(8)所示。
依存樹中蘊(yùn)含句子豐富的句法信息,對關(guān)系抽取任務(wù)有很大的價值。大多數(shù)基于依賴關(guān)系的模型并不利用完整的依存樹提取句子特征,而是應(yīng)用硬性剪枝的策略直接將整棵樹剪枝成子樹?;谝?guī)則的硬剪枝策略會導(dǎo)致關(guān)鍵信息的丟失和性能下降,因此本文應(yīng)用一種基于注意力機(jī)制的軟剪枝策略[17],為依存樹中所有的邊分配權(quán)重,這些權(quán)重可以通過自注意力機(jī)制以端到端的方式學(xué)習(xí)。通過構(gòu)造一個注意力引導(dǎo)的鄰接矩陣,將原始依存樹轉(zhuǎn)化為一個完全連通的邊加權(quán)圖,每一個對應(yīng)于一個完全連通的圖,其中表示節(jié)點(diǎn)i到節(jié)點(diǎn)j的邊的權(quán)重。如圖2所示,表示一個完全連通的邊加權(quán)連通圖G(1)。是由句子依存樹的鄰接矩陣通過自注意力(Selfattention)機(jī)制構(gòu)建得到。Self-attention 是一種捕捉單個序列中兩個任意位置之間相互作用的注意力機(jī)制,首先利用線性函數(shù)將原始鄰接矩陣投影到兩個相似序列中,然后利用點(diǎn)乘得到每個節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的相關(guān)性權(quán)重,得到之后,將其作為門控感知圖卷積網(wǎng)絡(luò)層計(jì)算的輸入。的大小與原始鄰接矩陣A相同,因此,不涉及額外的計(jì)算開銷。
圖2 注意力引導(dǎo)層Fig.2 Attention guided layer
注意力引導(dǎo)層的核心思想是利用注意力機(jī)制來學(xué)習(xí)節(jié)點(diǎn)之間的關(guān)系,并賦予合適的權(quán)重,從而聚合依存樹中的有效信息。為了從多個方面捕捉不同的關(guān)系特征,如圖2 所示,采用Multi-head機(jī)制[18],使用單獨(dú)的規(guī)范化參數(shù)在相同的輸入上多次應(yīng)用Self-attention,并將結(jié)果合并起來作為注意力引導(dǎo)層的輸出,這使得模型能夠共同關(guān)注來自N個不同表示子空間的信息。Self-attention計(jì)算如式(9)。
其中:Q、K和V均代表Gate-GCN 模型中第L-1 層的輸出表示是參數(shù)矩陣表示通過第t個頭注意力得到的鄰接矩陣。
為了更好地捕捉句子依存樹中的深層次語義依賴特征,本文提出一種門控感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu),旨在通過門控機(jī)制同時捕獲局部與非局部依賴特征。本節(jié)首先介紹基本的圖卷積網(wǎng)絡(luò)以及引入注意力引導(dǎo)層后得到的新的圖卷積運(yùn)算,然后詳細(xì)描述了門控感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu)。
圖卷積網(wǎng)絡(luò)[15]是卷積神經(jīng)網(wǎng)絡(luò)的一種改編,用于編碼圖形結(jié)構(gòu)。給定有n個節(jié)點(diǎn)的圖,可以得到一個n×n的鄰接矩陣A用以表示圖的結(jié)構(gòu)信息。文獻(xiàn)[19]通過將邊的方向性引入模型來擴(kuò)展GCN 編碼依存樹,例如,如果存在一條邊從節(jié)點(diǎn)i到節(jié)點(diǎn)j,則Aij=1,并且為樹中的每個節(jié)點(diǎn)添加一個自循環(huán),即Aii=1。在L層GCN 中,如果用表示節(jié)點(diǎn)i輸入特征表示節(jié)點(diǎn)i的輸出特征,圖卷積網(wǎng)絡(luò)的計(jì)算如式(10)。
其中:WL是線性變換,bL是偏差項(xiàng),σ代表一種非線性函數(shù)(如ReLU)。在此基礎(chǔ)上,本文通過應(yīng)用注意力引導(dǎo)層,得到改進(jìn)的鄰接矩陣,以此調(diào)整圖卷積運(yùn)算建模依存關(guān)系樹。因此,基于注意力引導(dǎo)的圖卷積運(yùn)算如式(11)。
將這個運(yùn)算疊加在L層的門控感知圖卷積網(wǎng)絡(luò)中,L為超參數(shù)。在第一層的計(jì)算中是由Bi-LSTM 層輸出得到的上下文的詞嵌入表示,在后續(xù)L-1 層中,將上一層的輸出作為下一層的輸入進(jìn)行計(jì)算。
淺層的圖卷積網(wǎng)絡(luò)無法編碼依存樹中的長距離依賴特征,針對此問題,本文通過門控感知結(jié)構(gòu)作用于圖卷積網(wǎng)絡(luò),以實(shí)現(xiàn)模型的深度訓(xùn)練,從而捕獲依存樹中的非局部相互作用。將門控感知結(jié)構(gòu)加入到基于注意力引導(dǎo)的圖卷積網(wǎng)絡(luò)中,構(gòu)成Att-Gate-GCN,其中門控感知圖卷積網(wǎng)絡(luò)(Gate-GCN)的每一層都包含兩個相同的圖卷積結(jié)構(gòu),分別記為GCN1和GCN2。因此,Gate-GCN 在第L-1 層的計(jì)算如式(12)、(13)所示。
通過門控感知圖卷積網(wǎng)絡(luò)對依存樹進(jìn)行編碼,得到句子中所有單詞的隱藏表示Osent。在此基礎(chǔ)上,采用與文獻(xiàn)[20]相同的處理方法,將句子表示Ssent與實(shí)體表示Sei拼接,并通過前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network,F(xiàn)FNN)得到最終的句子表示,如式(14)~(16)。
其中:Omask代表Osent中除實(shí)體對之外的隱藏表示則代表實(shí)體對的隱藏表示,f為最大池化函數(shù)。然后使用Softmax 分類器從關(guān)系集合Y中預(yù)測句子x的類別標(biāo)簽。計(jì)算過程如式(17)、(18)。
本文利用帶L2正則項(xiàng)的負(fù)對數(shù)似然函數(shù)作為代價函數(shù),如式(19)所示。
其中:m代表樣本的個數(shù),t是關(guān)系類別的one-hot 向量是Softmax 的輸出類別概率向量,λ是正則化參數(shù),θ是關(guān)系抽取模型的訓(xùn)練參數(shù)。模型的算法流程如下:
算法1 模型算法流程。
本文在兩個標(biāo)準(zhǔn)關(guān)系抽取數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別為:
1)SemEval2010-Task8 數(shù)據(jù)集。該數(shù)據(jù)集包含10 717 個句子實(shí)例,其包括8 000個訓(xùn)練實(shí)例和2 717個測試實(shí)例,關(guān)系類型包括9類關(guān)系和1個other類,關(guān)系類別及數(shù)據(jù)分布如表1所示。
2)KBP37 數(shù)據(jù)集。該數(shù)據(jù)集使用了2013 年和2010 年的KBP文檔數(shù)據(jù)集,以及對2013年Wikipedia進(jìn)行注釋的文本數(shù)據(jù)集,包括訓(xùn)練實(shí)例15 917 個,測試實(shí)例3 405 個,包含19 種不同的關(guān)系,其中丟棄了低頻關(guān)系,每種關(guān)系的訓(xùn)練實(shí)例超過100條。
在兩個數(shù)據(jù)集上本文均采用官方評價指標(biāo)宏觀平均(Macro)F1值評估模型。Macro首先對每一個類計(jì)算F1值,然后對所有類求算數(shù)平均值。表2 為關(guān)系分類結(jié)果的混淆矩陣。
在計(jì)算F1 指標(biāo)值之前,根據(jù)混淆矩陣求得查準(zhǔn)率P和查全率R,計(jì)算如式(20)、(21)所示。
F1值定義為查準(zhǔn)率和查全率的調(diào)和平均數(shù),如式(22)。
表1 SemEval2010-Task8數(shù)據(jù)集關(guān)系類型及語料分布Tab.1 SemEval2010-Task8 dataset relation types and corpus distribution
表2 分類結(jié)果混淆矩陣Tab.2 Confusion matrix of classification results
為盡量公平地與基線模型進(jìn)行對比實(shí)驗(yàn),本文采用文獻(xiàn)[13]實(shí)驗(yàn)的大部分參數(shù),與文獻(xiàn)[20]使用相同的預(yù)訓(xùn)練的詞向量,在此基礎(chǔ)上通過交叉驗(yàn)證的方法對訓(xùn)練集上參數(shù)進(jìn)行調(diào)優(yōu),獲得最終的模型參數(shù),并應(yīng)用于測試集,具體實(shí)驗(yàn)參數(shù)如表3所示。
表3 實(shí)驗(yàn)參數(shù)Tab.3 Experimental parameters
為緩解過擬合,分別在嵌入層、Bi-LSTM 層和Gate-GCN層引入Dropout 策略,丟碼率分別設(shè)置為0.5、0.5 和0.3。在兩個數(shù)據(jù)集中,以上參數(shù)設(shè)置相同。在注意力層,多頭機(jī)制中N的大小對于最終結(jié)果有明顯的影響,在SemEval2010-Task8數(shù)據(jù)集上,從N={1,2,3,4,5}中選擇效果最好的為N=3,N對F1 指標(biāo)的影響如圖3 所示。在KBP37 數(shù)據(jù)集中,N為4 時效果最佳。
圖3 SemEval2010-Task8數(shù)據(jù)集上N對F1值的影響Fig.3 Influence of N on F1 value on SemEval2010-Task8 dataset
本文的實(shí)驗(yàn)以C-GCN 為基線模型(Baseline),在SemEval2010-Task8 數(shù)據(jù)集和KBP37 數(shù)據(jù)集上復(fù)現(xiàn)的該模型F1值分別為83.7%和58.9%。
3.3.1 消融實(shí)驗(yàn)與分析
為驗(yàn)證本文所提出的基于注意力機(jī)制的軟剪枝策略與門控感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu)在關(guān)系抽取任務(wù)中的有效性,在兩個數(shù)據(jù)集上分別進(jìn)行以下消融實(shí)驗(yàn):1)使用注意力引導(dǎo)層替換基線模型中的硬剪枝策略;2)在基線模型的圖卷積網(wǎng)絡(luò)層中添加門控感知結(jié)構(gòu),用以實(shí)現(xiàn)深層圖卷積網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果如表4所示。
從表4 實(shí)驗(yàn)結(jié)果可以看出,在基線模型中添加注意力引導(dǎo)層,SemEval2010-Task8 數(shù)據(jù)集和KBP37 數(shù)據(jù)集上的F1 值分別提高了1.2個百分點(diǎn)和1.8個百分點(diǎn)。其原因在于,基于規(guī)則的硬剪枝技術(shù)在過濾無關(guān)信息的同時也將有利信息排除在外,而基于注意力機(jī)制的軟剪枝策略通過對完全依存樹中的信息進(jìn)行加權(quán),能夠充分利用依存樹中的有效特征,緩解了硬剪枝策略導(dǎo)致的過剪枝或欠剪枝的問題。對比表3中的F1值觀察到,注意力引導(dǎo)層在KBP37 數(shù)據(jù)集上性能提升更為明顯,F(xiàn)1 值提高了1.8 個百分點(diǎn)。原因在于KBP37 數(shù)據(jù)集中包含更多的長句子,而基于注意力機(jī)制的軟剪枝策略通過分析權(quán)重能夠有效識別長句子中的相關(guān)信息,從而在處理長句子時具有更明顯的優(yōu)勢。此外,使用Gate-GCN 替換基線模型中的GCN 取得了更明顯的優(yōu)勢,說明通過門控感知結(jié)構(gòu)構(gòu)成的深層圖卷積網(wǎng)絡(luò)能夠在提取局部依賴特征的同時,實(shí)現(xiàn)長距離依賴特征的學(xué)習(xí),從而獲得更準(zhǔn)確的句子表示,有效緩解了圖卷積網(wǎng)絡(luò)無法深度訓(xùn)練的問題。
表4 基線模型上的消融實(shí)驗(yàn)結(jié)果Tab.4 Results of ablation experiments on baseline model
綜合以上兩組實(shí)驗(yàn)結(jié)果,本文組合利用注意力引導(dǎo)層和門控感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu),在兩個基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并分別在SemEval-Task8 數(shù)據(jù)集和KBP37 數(shù)據(jù)集上詳細(xì)比較了基線模型與本文模型在每個類別下的評價指標(biāo),實(shí)驗(yàn)結(jié)果如表5、6所示。
表5 C-GCN和本文模型在SemEval2010-Task8數(shù)據(jù)集不同類別下的結(jié)果對比 單位:%Tab.5 Comparison of results under different categories of G-GCN and the proposed model on SemEval2010-Task8 dataset unit:%
表6 C-GCN和本文模型在KBP37數(shù)據(jù)集不同類別下的結(jié)果對比 單位:%Tab.6 Comparison of results under different categories of G-GCN and the proposed model on KBP37 dataset unit:%
從表5、6 中可以看出,本文模型在SemEval-Task8 數(shù)據(jù)集和KBP37 數(shù)據(jù)集上相較基線模型在所有關(guān)系類別上均有一定的性能優(yōu)勢,并且在KBP37 數(shù)據(jù)集上提升更加明顯。其中,多個關(guān)系類別的召回率有明顯提升,說明由基線模型預(yù)測的這些類別中存在被誤判為other 類的關(guān)系,而本文模型在改進(jìn)的基礎(chǔ)上將其識別為了正確類別。并且觀察發(fā)現(xiàn),本文模型在長句子預(yù)測的性能顯著優(yōu)于基線模型,如例1 中的關(guān)系實(shí)例,基線模型將其判定為other 類別,而本文模型正確標(biāo)識為Message-Topic類。
例1:The play reflects,among other things,questions about the nature of political power and the dilemmas facing royal families.
譯:該劇除其他外,反映了有關(guān)政治權(quán)力的性質(zhì)和王室面臨的困境的問題。
實(shí)體1:play
實(shí)體2:question
關(guān)系:Message-Topic(e1,e2)
3.3.2 對比實(shí)驗(yàn)與分析
最后選取當(dāng)前主流的關(guān)系抽取模型與本文提出的Att-Gate-GCN模型在兩個數(shù)據(jù)集上進(jìn)行對比,包括:
1)CNN+PF(CNN Position Feature)[4]:模型為基本的CNN,引入實(shí)體位置特征。
2)RNN+PF[5]:將CNN+PF中的CNN替換為基本的RNN。
3)Att-Bi-LSTM(Attention Bi-LSTM)[20]:利用注意力機(jī)制作用于LSTM輸出層捕獲句子中重要的語義特征。
4)SDP-LSTM[10]:通過剪枝策略,選取依存樹中的最短依賴路徑作為輸入,利用LSTM提取異構(gòu)信息。
5)SPTree(Shortest Path Tree)[12]:應(yīng)用剪枝策略,將整棵樹縮減為實(shí)體最低公共祖先下的子樹,并利用雙向樹狀結(jié)構(gòu)的LSTM捕獲句子高階特征。
6)SA-Bi-LSTM-LET[21]:將實(shí)體感知注意力機(jī)制與潛在實(shí)體類型相結(jié)合,充分利用實(shí)體信息進(jìn)行關(guān)系抽取。
7)BG-SAC[22]:將雙向門控循環(huán)單元(Bi-directional Gated Recurrent Unit,BGRU)與自注意力機(jī)制相結(jié)合提取基于上下文的語義信息,并利用膠囊網(wǎng)絡(luò)獲取實(shí)體潛在特征。
從表7 中可以看出,本文模型的F1 值均高于對比模型。本文模型與基于序列的模型相比,在輸入層進(jìn)一步引入了依存樹包含的句法方面的信息,能充分學(xué)習(xí)到關(guān)系的有效特征,對于理解句子結(jié)構(gòu)以及句子語義信息有明顯的效果;與基于依賴關(guān)系的模型相比,本文采用基于注意力的軟剪枝策略,相比SDP 或LCA 等硬剪枝策略,其能更好地利用依存樹中的有效特征,同時過濾無關(guān)特征;此外,相比LSTM、GRU 和原始的圖卷積運(yùn)算,帶有門控機(jī)制的圖卷積網(wǎng)絡(luò)在提取句子特征方面表現(xiàn)更優(yōu),從而進(jìn)一步提高了關(guān)系抽取任務(wù)的性能。
表7 不同模型的F1值對比 單位:%Tab.7 Comparison of F1 values of different models unit:%
本文在關(guān)系抽取任務(wù)中,針對句子依存樹中的信息利用率低和特征提取器不佳的問題,提出了一種基于注意力引導(dǎo)的門控感知圖卷積網(wǎng)絡(luò)模型。其中,注意力引導(dǎo)層為完全依存樹賦予權(quán)重,從而聚合依存樹中的有效信息,過濾無關(guān)信息,為后續(xù)特征提取器提供更有效的輸入特征,提高了依存樹中的信息利用率;門控感知結(jié)構(gòu)緩解了圖卷積網(wǎng)絡(luò)無法深層提取特征的問題,能夠?qū)崿F(xiàn)利用深層圖卷積網(wǎng)絡(luò)提取長距離依賴特征,從而可以有效結(jié)合句子中的局部與非局部依賴特征,得到更準(zhǔn)確的句子表示。本文將兩者分層組合共同完成關(guān)系抽取任務(wù),實(shí)驗(yàn)表明該模型能夠有效提升關(guān)系抽取的效果。本文模型的實(shí)驗(yàn)是在英文數(shù)據(jù)集上進(jìn)行的,之后的工作中,將進(jìn)一步將模型擴(kuò)展到中文語料數(shù)據(jù)集。