張 歡,李衛(wèi)疆
(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
關(guān)系抽取任務(wù)是信息抽取下屬的子任務(wù)。任務(wù)目標(biāo)是從非結(jié)構(gòu)化文本中抽取出實(shí)體關(guān)系三元組,即〈e1,r,e2〉,其中e1和e2是關(guān)系涉及到的2個(gè)命名實(shí)體,r指2個(gè)實(shí)體間的關(guān)系類(lèi)型。關(guān)系抽取可用于自動(dòng)問(wèn)答、知識(shí)圖譜自動(dòng)構(gòu)建以及信息檢索等自然語(yǔ)言處理任務(wù),具有非常重要的研究?jī)r(jià)值。
Mintz等[1]在2009年首次提出的遠(yuǎn)程監(jiān)督方法是近幾年的熱門(mén)研究方向。該方法通過(guò)自動(dòng)對(duì)齊外部知識(shí)庫(kù)獲得大量帶有標(biāo)簽的訓(xùn)練數(shù)據(jù),省去了繁瑣的人工標(biāo)注過(guò)程。遠(yuǎn)程監(jiān)督方法假設(shè):知識(shí)庫(kù)中若存在某個(gè)實(shí)體關(guān)系三元組〈e1,r,e2〉,則在自由文本中包含該實(shí)體對(duì)〈e1,e2〉的所有句子都包含r這種關(guān)系。由于假設(shè)過(guò)強(qiáng),引入了大量的噪聲數(shù)據(jù)。示例如表1所示。
Table 1 Sentence label 表1 句子標(biāo)簽
目前基于遠(yuǎn)程監(jiān)督的方法[2-4]在公共關(guān)系數(shù)據(jù)集上取得了很好的效果。遠(yuǎn)程監(jiān)督雖然能自動(dòng)注釋足夠數(shù)量的訓(xùn)練數(shù)據(jù),但這些數(shù)據(jù)通常只涵蓋了關(guān)系的有限部分。當(dāng)某些關(guān)系類(lèi)型只有少量的訓(xùn)練樣本時(shí),模型的性能會(huì)顯著下降[5]。
如圖1所示,在數(shù)據(jù)集中許多關(guān)系都是長(zhǎng)尾(long-tail)的(許多關(guān)系被標(biāo)注為NA,也就是句子中給定實(shí)體對(duì)之間不存在關(guān)系),而且存在數(shù)據(jù)缺陷,造成遠(yuǎn)程監(jiān)督得到的大部分句包(Riedel等[6]的“至少一次假設(shè)”將包含同一實(shí)體對(duì)的句子組合成一個(gè)句包)中只包含一個(gè)句子,這使得句包的表示并不準(zhǔn)確。因此,在數(shù)據(jù)方面優(yōu)化遠(yuǎn)程監(jiān)督關(guān)系抽取顯得尤為重要。
Figure 1 Frequency distribution of label without NA category圖1 無(wú)NA類(lèi)的標(biāo)簽頻率分布[5]
為了解決單句子句包信息太少的問(wèn)題,本文提出基于位置-類(lèi)型注意力機(jī)制和GCN(Graph Convolutional Network)的遠(yuǎn)程監(jiān)督關(guān)系抽取模型PG+PTATT(Piecewise convolutional neural network and GCN and Position-Type ATTention)。本文的主要工作總結(jié)如下:
(1)針對(duì)存在的句包信息不足的問(wèn)題,在句包層面使用與編碼方式無(wú)關(guān)的GCN進(jìn)行優(yōu)化,基于句包相似性將句包特征表示輸入到GCN中,通過(guò)GCN的聚合性融合歸納相似句包的高階隱含特征表示,以此得到句包全面的高階特征信息,豐富句包的特征信息。
(2)構(gòu)建新的注意力機(jī)制——位置-類(lèi)型注意力機(jī)制,利用實(shí)體詞與非實(shí)體詞的位置關(guān)系和類(lèi)型關(guān)系進(jìn)行建模,降低噪聲詞對(duì)關(guān)系抽取結(jié)果的影響,從而解決遠(yuǎn)程監(jiān)督中的錯(cuò)誤標(biāo)簽問(wèn)題。
(3)在真實(shí)數(shù)據(jù)集NYT(New York Times)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明了本文提出模型的有效性。
為解決人工標(biāo)注數(shù)據(jù)繁雜的問(wèn)題,Mintz等[1]率先提出使用遠(yuǎn)程監(jiān)督方法來(lái)實(shí)現(xiàn)對(duì)自由文本的標(biāo)注,以高效地產(chǎn)生大規(guī)模有標(biāo)簽的數(shù)據(jù)。由于遠(yuǎn)程監(jiān)督提出的假設(shè)過(guò)于強(qiáng)烈,為后續(xù)任務(wù)引入了大量噪聲數(shù)據(jù)。研究人員為了解決噪聲數(shù)據(jù)問(wèn)題,提出了多實(shí)例學(xué)習(xí)[2]、多標(biāo)簽多實(shí)例學(xué)習(xí)[7]和注意力機(jī)制[3]等諸多方法。
隨著深度學(xué)習(xí)在關(guān)系抽取方面的應(yīng)用,基于深度學(xué)習(xí)的方法取得了卓越的抽取效果[8]。Li等[9]基于標(biāo)簽-標(biāo)簽(label-label)和標(biāo)簽-句子(label-sentence)的關(guān)系,構(gòu)建了一個(gè)新的標(biāo)簽圖來(lái)捕獲標(biāo)簽之間的知識(shí);通過(guò)關(guān)系感知注意力為噪聲句子分配權(quán)重,從而降低噪聲句子的影響。E等[10]提出帶噪聲的強(qiáng)化學(xué)習(xí),將參數(shù)化噪聲添加到神經(jīng)網(wǎng)絡(luò)權(quán)重中,能有效改善遠(yuǎn)程監(jiān)督關(guān)系提取的效果。Amin等[11]將句子級(jí)關(guān)系抽取擴(kuò)展到句包級(jí)多實(shí)例學(xué)習(xí),并提供一種簡(jiǎn)單的數(shù)據(jù)編碼方案捕獲潛在的關(guān)系,來(lái)減少遠(yuǎn)程監(jiān)督中的噪聲。
另外,在研究中也常常使用多實(shí)例學(xué)習(xí)、選擇性注意力機(jī)制來(lái)解決遠(yuǎn)程監(jiān)督數(shù)據(jù)集中的long-tail問(wèn)題。Han等[4]提出了一種新的層次注意力方案從粗細(xì)粒度方面著手識(shí)別更有效的實(shí)例,以解決long-tail問(wèn)題。Zhang等[5]提出使用知識(shí)圖嵌入和圖卷積網(wǎng)絡(luò)學(xué)習(xí)隱式和顯式關(guān)系知識(shí),并通過(guò)粗到細(xì)的知識(shí)感知注意力機(jī)制將關(guān)系知識(shí)整合到關(guān)系提取模型中,最后通過(guò)分布頂端的數(shù)據(jù)來(lái)豐富類(lèi)的知識(shí)以提高尾部數(shù)據(jù)差類(lèi)的性能。Li等[12]通過(guò)層次關(guān)系協(xié)作和關(guān)系增強(qiáng)注意力來(lái)同時(shí)處理錯(cuò)誤標(biāo)簽和long-tail問(wèn)題。Cao等[13]提出從未標(biāo)注的文本中學(xué)習(xí)關(guān)系原型,通過(guò)遷移學(xué)習(xí)來(lái)促進(jìn)long-tail關(guān)系的提取。Heng等[14]提出利用輔助 BGRU(Bidirectional Gated Recurrent Unit)來(lái)提高特征提取性能,在處理long-tail關(guān)系方面的表現(xiàn)也相當(dāng)出色。
近幾年,外部信息作為輔助信息能夠進(jìn)一步提升關(guān)系抽取效果,為研究人員提供了新的研究方向。Vashishth等[15]使用知識(shí)庫(kù)中的附加信息對(duì)關(guān)系分類(lèi)施加軟約束。Wang等[16]提出基于循環(huán)分段殘差網(wǎng)絡(luò)框架,并聯(lián)合嵌入中的實(shí)體類(lèi)型來(lái)獲取句子上下文的潛在表示。Bai等[17]提出將實(shí)體類(lèi)型信息集成到關(guān)系抽取模型中,結(jié)合句子級(jí)注意力和類(lèi)型注意力來(lái)改善關(guān)系抽取模型的性能。Chen等[18]提出利用類(lèi)型感知映射內(nèi)存模塊對(duì)獲得的依賴(lài)信息進(jìn)行編碼,不僅利用了依賴(lài)類(lèi)型信息,還能區(qū)分可靠的依賴(lài)信息和嘈雜的依賴(lài)信息進(jìn)行降噪處理。Heng等[14]提出了一種動(dòng)態(tài)雙多頭注意力,學(xué)習(xí)實(shí)體類(lèi)型信息,動(dòng)態(tài)生成多頭查詢(xún)向量,提供細(xì)粒度信息來(lái)過(guò)濾噪聲。
以上解決long-tail問(wèn)題的研究多數(shù)采用的是基于注意力機(jī)制的方法[4,5,12],通過(guò)為相關(guān)信息賦予注意力權(quán)重,從而能夠識(shí)別類(lèi)似關(guān)系。注意力機(jī)制的計(jì)算公式因研究人員考慮的角度不同而各有不同,且基于經(jīng)過(guò)編碼的向量進(jìn)行計(jì)算,不能適用于其他關(guān)系抽取模型。本文提出利用可復(fù)用性高的GCN來(lái)實(shí)現(xiàn)句包間相似特征信息聚合,直接提供句包間細(xì)粒度的關(guān)系知識(shí)。該方法與編碼方式無(wú)關(guān),只需句包表示能夠正確輸入到GCN中即可,因此通過(guò)GCN來(lái)解決long-tail問(wèn)題的方法是可重復(fù)使用到其他關(guān)系抽取任務(wù)中的。
此外,為了緩解遠(yuǎn)程監(jiān)督帶來(lái)的錯(cuò)誤標(biāo)簽影響,不同于其他只使用實(shí)體類(lèi)型的模型,本文同時(shí)考慮了每個(gè)單詞的類(lèi)型和非實(shí)體詞相對(duì)于實(shí)體詞的位置關(guān)系對(duì)關(guān)系抽取的影響,構(gòu)建以實(shí)體詞為中心的位置-類(lèi)型注意力機(jī)制,為句中單詞分配相應(yīng)的權(quán)重,從而達(dá)到降低噪聲詞影響的目的。
針對(duì)遠(yuǎn)程監(jiān)督,Riedel等[6]在Mintz等[1]提出假設(shè)的基礎(chǔ)上,提出“至少一次假設(shè)(at-least-once assumption)”。該假設(shè)表述如下:若2個(gè)實(shí)體詞之間存在某種關(guān)系,那么在所有這2個(gè)實(shí)體詞共現(xiàn)的句子中,至少有一句表達(dá)了這種關(guān)系。在此假設(shè)下,遠(yuǎn)程監(jiān)督將所有具有實(shí)體對(duì)〈e1,e2〉的句子都標(biāo)注為關(guān)系r,并將這些句子組合成一個(gè)句包,然后在句包中解決錯(cuò)誤標(biāo)簽的問(wèn)題。本文模型結(jié)構(gòu)如圖2所示,第j個(gè)句包為bagj={s1,s2,…,sn},其中s1,s2,…,sn為句子,n為句子個(gè)數(shù)。句包中的句子經(jīng)過(guò)編碼之后,在輸入PCNN(Piecewise Convolutional Neural Network)之前使用位置-類(lèi)型注意力機(jī)制對(duì)句子向量進(jìn)行優(yōu)化,然后經(jīng)過(guò)PCNN和GCN得到每個(gè)句包的最終表示。
Figure 2 Structure of the proposed model PG+PTATT圖2 所提模型PG+PTATT結(jié)構(gòu)
將源句的每個(gè)輸入詞轉(zhuǎn)換為嵌入層中的詞嵌入WE(Word Embedding)和位置嵌入PE(Position Embedding)的組合。詞嵌入是將文本中的每個(gè)單詞映射到一個(gè)k維實(shí)值向量的單詞分布式表示,它可以捕捉單詞的句法和語(yǔ)義屬性。對(duì)于每個(gè)句子使用嵌入查找表將句子中的單詞映射到實(shí)值向量中得到句子的詞嵌入向量表示T={t1,t2,…,tm},m為句子中的單詞個(gè)數(shù),維度為dT。
Figure 3 Example of relative position圖3 相對(duì)位置示例
在編碼層已得到的S上利用位置-類(lèi)型注意力機(jī)制基于位置和類(lèi)型的關(guān)系為句子特征向量添加影響因子權(quán)重,得到句包中每個(gè)句子的最終表示S′i。隨后將矩陣S′i輸入卷積部分。PCNN通過(guò)提取輸入向量的3個(gè)局部特征并將3個(gè)特征拼接在一起,接著通過(guò)句子級(jí)注意力來(lái)對(duì)句包中的句子加權(quán),為不同的句子賦予不同的權(quán)重,從而削弱噪聲句子的影響,最后得到每個(gè)句包的初步表示。
下面介紹位置-類(lèi)型注意力機(jī)制處理句子向量得到高階注意力特征的過(guò)程。
e1和e2作為句子T={t1,t2,…,e1,…,e2,…,tm}中的不同實(shí)體,在關(guān)系抽取中識(shí)別這2個(gè)實(shí)體詞間對(duì)應(yīng)的關(guān)系類(lèi)型時(shí),句子中其他非實(shí)體詞會(huì)對(duì)結(jié)果存在影響。為了得到更準(zhǔn)確的關(guān)系抽取結(jié)果,需要進(jìn)一步計(jì)算非實(shí)體詞的影響權(quán)重,以區(qū)分非實(shí)體詞對(duì)實(shí)體詞間關(guān)系的影響程度。
非實(shí)體詞與實(shí)體詞之間最簡(jiǎn)單的關(guān)系就是位置關(guān)系,也是目前研究中使用最多的關(guān)系信息。一般來(lái)說(shuō),距離實(shí)體詞越近的單詞能夠表達(dá)實(shí)體對(duì)之間關(guān)系的可能性越大。因此,本文利用句子中的實(shí)體詞與非實(shí)體詞的相對(duì)距離計(jì)算非實(shí)體詞的影響權(quán)重。表2展示的是句中非實(shí)體詞對(duì)實(shí)體詞的距離序列。
Table 2 Example of distance sequence of non-entities to entities
得到非實(shí)體詞相對(duì)于實(shí)體詞的距離序列后,通過(guò)式(1)計(jì)算非實(shí)體詞的影響權(quán)重,得到位置影響因子f1。
(1)
其中,x表示d1和d2序列中的某一個(gè)值,μ是期望,σ是標(biāo)準(zhǔn)差。
同時(shí),由于句子中存在介詞、冠詞等無(wú)關(guān)詞匯,且無(wú)關(guān)詞匯與實(shí)體詞間的距離并不能反映出對(duì)實(shí)體的影響,而僅利用位置關(guān)系計(jì)算單詞的影響權(quán)重并不能完全代表單詞在關(guān)系抽取中影響權(quán)重。本文引入單詞的類(lèi)型進(jìn)一步計(jì)算單詞的影響權(quán)重。例如,如果2個(gè)實(shí)體的類(lèi)型分別是“人(PEO)”和“電影(FILM)”,那么這2個(gè)實(shí)體之間很可能存在“導(dǎo)演”的關(guān)系。可見(jiàn)單詞的類(lèi)型能夠暗示出2個(gè)實(shí)體間的關(guān)系。
表3所示是關(guān)系抽取中部分實(shí)體詞的類(lèi)型標(biāo)簽舉例。根據(jù)實(shí)體類(lèi)型標(biāo)簽可以得到句子的類(lèi)型序列,利用句子的類(lèi)型序列計(jì)算非實(shí)體詞對(duì)實(shí)體間關(guān)系的影響,同時(shí)在注意力機(jī)制中加入類(lèi)型關(guān)系可以進(jìn)行一步解決無(wú)關(guān)詞匯造成的噪聲影響以及利用實(shí)體詞類(lèi)型所隱含的信息避免關(guān)系出現(xiàn)錯(cuò)誤識(shí)別。表4展示的是句子的類(lèi)型序列示例。
Table 3 Type marks of partial entities
Table 4 Example of type sequence of sentences
通過(guò)單詞類(lèi)型標(biāo)簽得到句中單詞的類(lèi)型序列后,利用式(1)計(jì)算單詞的影響權(quán)重,得到類(lèi)型影響因子f2。
在分別得到位置影響因子f1和類(lèi)型影響因子f2后,通過(guò)式(2)得到最后的影響因子f。
f=σ(W2f2σ(W1f1+b1)+b2)
(2)
其中,W1和W2為可學(xué)習(xí)參數(shù),b1和b2為偏移值,σ(·)為激活函數(shù)。
然后利用Softmax函數(shù)對(duì)影響因子進(jìn)行歸一化處理,得到位置-類(lèi)型注意力矩陣α,如式(3)所示。最后對(duì)句子表示S進(jìn)行加權(quán)處理得到最終句子表示S′,如式(4)所示:
α=Softmax(f)
(3)
S′=∑α⊙S
(4)
其中,⊙代表逐元素相乘。
GCN是一種簡(jiǎn)單有效的基于圖的卷積神經(jīng)網(wǎng)絡(luò)。由于它可以通過(guò)圖節(jié)點(diǎn)之間的信息傳遞有效地捕獲數(shù)據(jù)之間的依賴(lài)關(guān)系,因此被廣泛用于處理對(duì)象之間關(guān)系豐富的數(shù)據(jù)。GCN直接作用于圖,網(wǎng)絡(luò)的輸入是圖的結(jié)構(gòu)信息和圖中節(jié)點(diǎn)的特征表示。對(duì)于圖中的每個(gè)節(jié)點(diǎn),GCN通過(guò)融合節(jié)點(diǎn)附近其他節(jié)點(diǎn)的屬性來(lái)獲得節(jié)點(diǎn)的特征表示向量。
統(tǒng)計(jì)顯示,在遠(yuǎn)程監(jiān)督數(shù)據(jù)集 NYT上,80%的句包中只包含一個(gè)句子,而單獨(dú)使用句子級(jí)注意力機(jī)制的效果并不好,單句子句包還存在特征信息不足的問(wèn)題,在進(jìn)行特征訓(xùn)練時(shí)會(huì)嚴(yán)重影響模型的抽取效果。經(jīng)過(guò)實(shí)踐后發(fā)現(xiàn),大多l(xiāng)ong-tail關(guān)系在數(shù)據(jù)集頭部存在類(lèi)似的關(guān)系類(lèi)型,所以不同句包之間有可能存在類(lèi)似的隱含特征。為了豐富當(dāng)前句包的特征信息,可以融合其他相似句包的隱含高階特征?;诰浒g特征相似性,本文提出通過(guò)GCN聚合相似句包的高階隱含特征,以此得到句包更準(zhǔn)確全面的特征信息。這種方法不關(guān)心不同句包之間是不是具有相同的關(guān)系標(biāo)簽,只在乎它們之間是否具有足夠的特征相似度。
本文使用余弦函數(shù)來(lái)計(jì)算2個(gè)句包的相似度,如式(5)所示:
β=similarity(bagj,bagz)
(5)
其中,j,z∈{1,2,…,batch_size},β為計(jì)算得到的2個(gè)句包間的相似度。
本文針對(duì)句包使用GCN進(jìn)行優(yōu)化,基于句包間的相似度,利用GCN聚合相似句包的高階隱含特征,得到句包隱含的高階特征。算法1描述了構(gòu)造相似圖的過(guò)程。
通過(guò)算法1得到句包相似圖后,將其輸入GCN,在l層 GCN 中,Hl表示節(jié)點(diǎn)在l層的特征向量。一個(gè)圖卷積操作如式(6)和式(7)所示:
(6)
(7)
(8)
本文在廣泛使用的遠(yuǎn)程監(jiān)督數(shù)據(jù)集NYT上評(píng)估所提出的模型。該數(shù)據(jù)集是 Riedel等[6]在 2010 年發(fā)布的,其中的數(shù)據(jù)文本為紐約時(shí)報(bào)New York Times標(biāo)注語(yǔ)料。本文使用2005年至2006年的數(shù)據(jù)作為訓(xùn)練集,使用2007年的數(shù)據(jù)作為測(cè)試集。本文使用的是處理過(guò)的數(shù)據(jù)集,即刪除了訓(xùn)練集和測(cè)試集中的重復(fù)句子。該數(shù)據(jù)集總共包含39 528個(gè)唯一實(shí)體和52個(gè)關(guān)系,還有一個(gè)NA關(guān)系表示句子中的給定實(shí)體對(duì)之間不存在關(guān)系。數(shù)據(jù)集具體統(tǒng)計(jì)信息如表5所示。
Table 5 Statistics information of NYT dataset
與其它文獻(xiàn)中使用的評(píng)價(jià)指標(biāo)一樣,本文采用F1值(PR曲線(xiàn))作為本文實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn)來(lái)呈現(xiàn)實(shí)驗(yàn)結(jié)果。F1值的計(jì)算如式(9)所示:
(9)
其中,Precision是精確率,Recall是召回率。F1值反映的是對(duì)精確率和召回率的綜合考量。
另外,本文還使用P@N(top-NPrecision)來(lái)評(píng)估不同模型的性能。
在這個(gè)評(píng)價(jià)指標(biāo)中,N表示前N個(gè)實(shí)體對(duì),即模型在預(yù)測(cè)前N個(gè)實(shí)體對(duì)的關(guān)系時(shí),能夠正確預(yù)測(cè)的比例。例如,P@100表示模型在預(yù)測(cè)前100個(gè)實(shí)體對(duì)的關(guān)系時(shí),能夠正確預(yù)測(cè)的比例。為了計(jì)算P@N,本文會(huì)隨機(jī)選擇句包中One/Two/All句子,然后評(píng)估模型在這些句子中預(yù)測(cè)實(shí)體關(guān)系的能力。這里的One/Two/All句子是指:
(1)One句子:只選擇1個(gè)句子進(jìn)行評(píng)估。
(2)Two句子:選擇2個(gè)句子進(jìn)行評(píng)估。
(3)All句子:選擇所有句子進(jìn)行評(píng)估。
實(shí)驗(yàn)沿用之前研究所使用的參數(shù),詳細(xì)參數(shù)設(shè)置如表6所示。
Table 6 Parameters setting
經(jīng)過(guò)綜合考慮,本文選取的基線(xiàn)模型包括經(jīng)典遠(yuǎn)程監(jiān)督模型、解決long-tail問(wèn)題的模型和使用實(shí)體相關(guān)信息的模型。具體如下:
(1)PCNN+ATT(ATTention)[3]:在PCNN多實(shí)例學(xué)習(xí)的基礎(chǔ)上加入選擇性注意力,以解決錯(cuò)誤標(biāo)簽的問(wèn)題。
(2)PCNN+ATT+SL(Soft-Label)[19]:采用軟標(biāo)簽來(lái)緩解錯(cuò)誤標(biāo)簽問(wèn)題,實(shí)現(xiàn)了在實(shí)體對(duì)級(jí)的降噪。
(3)PCNN+BAGATT(BAG ATTention)[20]:使用句袋內(nèi)注意力處理句子級(jí)別的噪聲,并使用句袋間注意力處理句袋級(jí)別的噪聲。
(4)SeG(Selective Gate)[21]:提出選擇性門(mén)機(jī)制以緩解選擇性注意力在單句子句包方面的缺陷。
(5)PCNN+HATT(Hierarchical ATTention)[4]:利用先驗(yàn)關(guān)系層次信息,計(jì)算層次結(jié)構(gòu)中每一層的選擇性注意力,并連接所有圖層進(jìn)行最終分類(lèi)以解決long-tail問(wèn)題。
(6)CoRA(Collaborating Relation-augmented Attention)[22]:在關(guān)系增強(qiáng)的注意力網(wǎng)絡(luò)基礎(chǔ)上,引入層次關(guān)系之間共享的協(xié)作關(guān)系特征,以促進(jìn)關(guān)系增強(qiáng)過(guò)程,平衡long-tail關(guān)系的訓(xùn)練數(shù)據(jù)。
(7)HiRAM(Hierarchical Relation-guided type-sentence Alignment Model)[23]:從成對(duì)和分層的角度利用實(shí)體類(lèi)型中的結(jié)構(gòu)化信息來(lái)改善遠(yuǎn)程監(jiān)督關(guān)系抽取效果,以分別減輕錯(cuò)誤標(biāo)簽和long-tail問(wèn)題帶來(lái)的影響。
(8)RESIDE(Relation Extraction utilizing additional SIDE information)[15]:利用KB(Knowledge Base)的額外邊信息來(lái)改進(jìn)關(guān)系提取,使用實(shí)體類(lèi)型和關(guān)系別名信息,在預(yù)測(cè)關(guān)系的同時(shí)施加軟約束。
(9)GRUCapNet[14]:提出動(dòng)態(tài)的雙多頭注意力機(jī)制,通過(guò)學(xué)習(xí)實(shí)體類(lèi)型信息動(dòng)態(tài)生成多頭查詢(xún)向量,獲得細(xì)粒度信息以區(qū)分正確的實(shí)例和噪聲。
為了驗(yàn)證所提模型的有效性,本節(jié)將其與上述基線(xiàn)模型在數(shù)據(jù)集NYT上進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖4和表7所示。從圖4中可以觀(guān)察到,本文模型F1值在一定程度上優(yōu)于其他基線(xiàn)模型F1 值。在top-N精確度方面,與對(duì)比模型(SeG、CoRA、GRUCapNet和HiRAM)相比,性能也相差不大。
Table 7 top-N experimental results
Figure 4 PR curves圖4 PR曲線(xiàn)
與除PCNN+BAGATT以外使用注意力機(jī)制的模型相比,本文模型性能上有較大的提升,這表明本文提出的使用GCN聚合方法能夠有效解決單句子句包特征信息過(guò)少的問(wèn)題,從而提高模型性能。與PCNN+BAGATT模型、PCNN+HATT模型相比,本文模型性能上相差的不大。這是因?yàn)镻CNN+BAGATT模型使用的是句袋級(jí)別的注意力機(jī)制來(lái)解決錯(cuò)誤標(biāo)簽,在一定程度上緩解了long-tail問(wèn)題帶來(lái)的影響。
在使用注意力機(jī)制和實(shí)體描述信息方面,本文模型F1值大約提高了1.5%。這表明在模型中加入類(lèi)型注意力信息是有效的。從圖4可以看到,使用實(shí)體描述信息比單獨(dú)使用注意力機(jī)制的性能更好,可見(jiàn)實(shí)體描述信息所提供的背景知識(shí)可以提高注意力機(jī)制模塊的性能。與RESIDE相比,本文提出的模型性能高于RESIDE的,這說(shuō)明與實(shí)體描述信息相比,實(shí)體類(lèi)型是更精確的信息,能夠使模型捕獲更準(zhǔn)確的實(shí)體語(yǔ)義。
從表7可以看到,對(duì)比模型與本文模型在性能上沒(méi)有顯著差異。SeG采用選擇性門(mén)機(jī)制代替選擇注意力機(jī)制,性能達(dá)到了最優(yōu)。而CoRA使用關(guān)系增強(qiáng)注意力,GRUCapNet使用雙多頭注意力,本文模型使用的是位置-類(lèi)型注意力機(jī)制,雖然對(duì)注意力機(jī)制改進(jìn)了許多,但仍然存在局限。HiRAM、GRUCapNet和本文模型都使用了實(shí)體的類(lèi)型信息,模型性能都有一定程度的提升,進(jìn)一步說(shuō)明實(shí)體相關(guān)信息有利于改善關(guān)系抽取效果。
本文是基于句包之間的特征相似度來(lái)解決long-tail問(wèn)題,所以本節(jié)測(cè)試與相似度計(jì)算有較大影響的參數(shù)batch_size和st對(duì)模型性能的影響。batch_size是指一個(gè)批次中數(shù)據(jù)量的大小,在計(jì)算特征相似度時(shí)是依次計(jì)算某一個(gè)句包與batch_size中其他所有句包的相似度。batch_size的值越大,則可能有越多的相似句包,進(jìn)而影響模型的性能。此外,batch_size的大小還影響模型的優(yōu)化程度和速度。st是相似度閾值,計(jì)算特征相似度時(shí),若超過(guò)該閾值,則視為句包相似。閾值的設(shè)定關(guān)系到最后得到相似句包的數(shù)量,關(guān)系到最后聚合得到的句包特征信息。表8展示的是batch_size∈{64,128,256}時(shí)對(duì)模型性能的影響。表9展示的是st∈{0.999,0.999 9,0.999 99}時(shí)對(duì)模型性能的影響。
Table 8 Impact of batch_size
Table 9 Impact of st
從表8和表9可以看到,batch_size和st對(duì)模型性能的影響。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)batch_size=128,st=0.9999時(shí),模型性能達(dá)到最佳。
本節(jié)通過(guò)實(shí)驗(yàn)來(lái)確定位置關(guān)系和類(lèi)型關(guān)系對(duì)模型性能的影響程度,并評(píng)估位置-類(lèi)型注意力機(jī)制的有效性。實(shí)驗(yàn)結(jié)果如表10所示。
Table 10 Impact of attention mechanism
從表10可以看出,位置、類(lèi)型和位置-類(lèi)型3種注意力機(jī)制都有提升模型性能的作用,且使用位置-類(lèi)型注意力機(jī)制的實(shí)驗(yàn)結(jié)果相較于其他2種注意力機(jī)制的更好。通過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證了同時(shí)考慮句中單詞的位置和類(lèi)型,能夠進(jìn)一步強(qiáng)化或弱化單詞的影響,在獲得更多信息的同時(shí)更好地解決噪聲詞的問(wèn)題。
基于句包間的相似性和GCN的聚合性,本文利用GCN聚合相似句包的隱含高階特征,得到句包隱含的高階特征。在NYT數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)來(lái)驗(yàn)證GCN的有效性。但是,在GCN聚合的過(guò)程中可能會(huì)引入新的噪聲信息。因?yàn)镚CN本身的思想是信息的聚合與傳播,圖中的一個(gè)節(jié)點(diǎn)可能會(huì)聚合到與它相距甚遠(yuǎn)的節(jié)點(diǎn)信息,這種信息的聚合對(duì)節(jié)點(diǎn)本身不一定有用。本文通過(guò)實(shí)驗(yàn)來(lái)測(cè)試GCN聚合過(guò)程中噪聲帶來(lái)的影響。實(shí)驗(yàn)結(jié)果如表11所示。
Table 11 Impact of GCN
從表11可以看到,GCN能夠得到句包的全面高階特征,從而有效提高模型性能,且經(jīng)過(guò)去噪的GCN聚合的模型性能最好。
本文介紹了一種基于類(lèi)型注意力和GCN的遠(yuǎn)程監(jiān)督關(guān)系提取模型。該模型提出使用圖卷積網(wǎng)絡(luò)聚合相似句包的特征信息以豐富句包信息,從而解決由long-tail數(shù)據(jù)引起的單句子句包信息不足的問(wèn)題;還提出在進(jìn)入分段卷積神經(jīng)網(wǎng)絡(luò)前先施加位置-類(lèi)型注意力權(quán)重來(lái)緩解句子中噪聲詞帶來(lái)的影響,以得到更好的句子表示,進(jìn)而提高模型效率。從在NYT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果來(lái)看,與之前的一些模型相比,該模型性能取得了顯著的改進(jìn)。未來(lái)將繼續(xù)探索以下內(nèi)容:(1)如何同步解決句中關(guān)系的重疊問(wèn)題;(2)進(jìn)一步改進(jìn)本文提出的注意力機(jī)制,進(jìn)而探索注意力機(jī)制的多樣性。