陳恒,王思懿,李正光,李冠宇,劉鑫
基于關(guān)系記憶的膠囊網(wǎng)絡(luò)知識(shí)圖譜嵌入模型
陳恒1,2*,王思懿1,李正光1,李冠宇2,劉鑫1
(1.大連外國(guó)語(yǔ)大學(xué) 語(yǔ)言智能研究中心,遼寧 大連 116044; 2.大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)( ? 通信作者電子郵箱chenheng@dlufl.edu.cn)
作為一種語(yǔ)義知識(shí)庫(kù),知識(shí)圖譜(KG)使用結(jié)構(gòu)化三元組的形式存儲(chǔ)真實(shí)世界的實(shí)體及其內(nèi)在關(guān)系。為了推理知識(shí)圖譜中缺失的真實(shí)三元組,考慮關(guān)系記憶網(wǎng)絡(luò)較強(qiáng)的三元組表征能力和膠囊網(wǎng)絡(luò)強(qiáng)大的特征處理能力,提出一種基于關(guān)系記憶的膠囊網(wǎng)絡(luò)知識(shí)圖譜嵌入模型。首先,通過(guò)編碼實(shí)體和關(guān)系之間的潛在依賴關(guān)系和部分重要信息形成編碼嵌入向量;然后,把嵌入向量與過(guò)濾器卷積以生成不同的特征圖,再重組為對(duì)應(yīng)的膠囊;最后,通過(guò)壓縮函數(shù)和動(dòng)態(tài)路由指定從父膠囊到子膠囊的連接,并根據(jù)子膠囊與權(quán)重內(nèi)積的得分判斷當(dāng)前三元組的可信度。鏈接預(yù)測(cè)實(shí)驗(yàn)的結(jié)果表明,與CapsE模型相比,在倒數(shù)平均排名(MRR)和Hit@10評(píng)價(jià)指標(biāo)上,所提模型在WN18RR數(shù)據(jù)集上分別提高了7.95%和2.2個(gè)百分點(diǎn),在FB15K-237數(shù)據(jù)集上分別提高了3.82%和2個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,所提模型可以更準(zhǔn)確地推斷出頭實(shí)體和尾實(shí)體之間的關(guān)系。
知識(shí)圖譜;關(guān)系記憶網(wǎng)絡(luò);膠囊網(wǎng)絡(luò);知識(shí)圖譜嵌入;動(dòng)態(tài)路由
知識(shí)圖譜(Knowledge Graph, KG)是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò),可以對(duì)現(xiàn)實(shí)世界的事物及其相互關(guān)系進(jìn)行形式化的描述[1]。知識(shí)圖譜在各個(gè)領(lǐng)域應(yīng)用廣泛,很多大型知識(shí)圖譜,如YAGO[2]、Freebase[3]和DBpedia[4]均使用三元組的形式存儲(chǔ)知識(shí)庫(kù)的實(shí)體和關(guān)系。隨著人工智能的發(fā)展與應(yīng)用,知識(shí)圖譜已被廣泛應(yīng)用于很多領(lǐng)域與行業(yè),如個(gè)性化推薦[5]、智能問(wèn)答[6]、智能搜索[7]、自然語(yǔ)言處理[8]。盡管知識(shí)圖譜具有廣泛的應(yīng)用場(chǎng)景,但是KG仍不完備,缺少大量有效三元組[9-12]。針對(duì)這個(gè)問(wèn)題,很多嵌入表示模型被提出,例如:TransE[13]、TransH[14]和TransR[15],這些經(jīng)典模型將實(shí)體和關(guān)系投影到低維稠密向量空間,然后計(jì)算和推理實(shí)體和關(guān)系之間的語(yǔ)義聯(lián)系。TransE模型結(jié)構(gòu)簡(jiǎn)單,適用于建模一對(duì)一關(guān)系模式,因而不適用一對(duì)多、多對(duì)一和多對(duì)多關(guān)系模式。針對(duì)此問(wèn)題,TransH和TransR提出新思路,有效解決了TransE不能有效建模復(fù)雜關(guān)系模式的問(wèn)題。
DistMult[16]模型和ComplEx[17]模型均使用簡(jiǎn)單的乘法運(yùn)算符表示實(shí)體和關(guān)系,因而能夠捕獲實(shí)體和關(guān)系之間的線性關(guān)聯(lián)。當(dāng)前,許多神經(jīng)網(wǎng)絡(luò)模型已被應(yīng)用于知識(shí)圖譜推理任務(wù)[18-20]。作為首個(gè)將卷積神經(jīng)網(wǎng)絡(luò)引入知識(shí)圖譜推理任務(wù)的模型,ConvE[18]將頭實(shí)體嵌入和關(guān)系嵌入的組合作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,實(shí)體和關(guān)系則通過(guò)卷積層和全連接層進(jìn)行交互。ConvKB[19]模型利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)編碼實(shí)體和關(guān)系,在基準(zhǔn)數(shù)據(jù)集WN18RR和FB15K-237上獲得良好的鏈接預(yù)測(cè)結(jié)果。文獻(xiàn)[20]提出CapsE模型,利用一組神經(jīng)元獲取圖形中的對(duì)象,然后通過(guò)動(dòng)態(tài)路由算法確定從高層膠囊到低層膠囊的鏈接。與卷積神經(jīng)網(wǎng)絡(luò)不同,膠囊網(wǎng)絡(luò)使用膠囊取代神經(jīng)元,解決了卷積神經(jīng)網(wǎng)絡(luò)空間不變性和編碼效率低等問(wèn)題。文獻(xiàn)[21]提出基于注意力和卷積神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜嵌入模型R-MeN,但仍受限于卷積神經(jīng)網(wǎng)絡(luò)編碼效率低的弊端。為了在知識(shí)圖譜推理時(shí)對(duì)實(shí)體之間潛在的依賴關(guān)系進(jìn)行有效建模,本文提出一種基于關(guān)系記憶的膠囊網(wǎng)絡(luò)知識(shí)圖譜嵌入模型,該模型能編碼實(shí)體間的依賴關(guān)系、捕獲三元組空間結(jié)構(gòu)信息,并對(duì)實(shí)體語(yǔ)義編碼,從而提高三元組預(yù)測(cè)精度、尤其是三元組分類的效果。文中將多頭注意力機(jī)制引入膠囊網(wǎng)絡(luò),并分析其在知識(shí)圖譜推理任務(wù)的效果,驗(yàn)證了將注意力引入膠囊網(wǎng)絡(luò)的優(yōu)越性和可行性。
近年來(lái),注意力機(jī)制和神經(jīng)網(wǎng)絡(luò)模型的組合受到越來(lái)越多的關(guān)注,原因在于多頭注意力機(jī)制可以用于提取不同語(yǔ)義空間中實(shí)體之間的潛在依賴關(guān)系?;谧⒁饬虲NN的情緒分類模型[22]、基于注意力和膠囊網(wǎng)絡(luò)的文本分類模型[23]和基于注意力和CNN的知識(shí)圖譜嵌入模型[21]已經(jīng)用于文本和自然語(yǔ)言處理任務(wù)。然而,在知識(shí)圖譜推理領(lǐng)域,關(guān)于多頭注意力機(jī)制和膠囊網(wǎng)絡(luò)結(jié)合的工作甚少,因此本文將多頭注意力機(jī)制引入膠囊網(wǎng)絡(luò),以此探索優(yōu)化的膠囊網(wǎng)絡(luò)模型在鏈接預(yù)測(cè)和三元組分類任務(wù)的新穎應(yīng)用。本文將三元組記憶矩陣作為優(yōu)化的膠囊網(wǎng)絡(luò)模型的輸入,以此捕獲實(shí)體和關(guān)系在低維空間中的聯(lián)系。為評(píng)估基于關(guān)系記憶的膠囊網(wǎng)絡(luò)知識(shí)圖譜嵌入模型,本文使用數(shù)據(jù)集FB13、WN11、WN18RR和FB15K-237進(jìn)行事實(shí)三元組分類實(shí)驗(yàn)和鏈接預(yù)測(cè)實(shí)驗(yàn)。在實(shí)體預(yù)測(cè)和事實(shí)三元組分類任務(wù)中,使用多頭注意力機(jī)制的膠囊網(wǎng)絡(luò)知識(shí)圖譜嵌入模型優(yōu)于大部分嵌入模型,預(yù)測(cè)準(zhǔn)確度更高。
其中:、、分別代表頭實(shí)體、關(guān)系、尾實(shí)體的低維嵌入向量,表示范數(shù)。
由于TransE模型結(jié)構(gòu)過(guò)于簡(jiǎn)單,僅僅關(guān)注三元組的結(jié)構(gòu)信息,因此無(wú)法很好地表征實(shí)體之間的語(yǔ)義關(guān)系,不能有效處理一對(duì)多、多對(duì)一和多對(duì)多關(guān)系模式。針對(duì)這些問(wèn)題,TransH模型為每個(gè)關(guān)系定義一個(gè)超平面,實(shí)體空間中的兩個(gè)實(shí)體則通過(guò)關(guān)系映射矩陣投影到超平面,即不同關(guān)系下的實(shí)體應(yīng)該具有不同的嵌入表示。在知識(shí)圖譜中,一個(gè)實(shí)體是多個(gè)屬性的復(fù)合體,不同的關(guān)系對(duì)應(yīng)實(shí)體的不同屬性,即頭尾實(shí)體和關(guān)系可能不在同一個(gè)向量空間。為了解決這個(gè)問(wèn)題,TransR模型在兩個(gè)不同的空間,即實(shí)體空間和多個(gè)關(guān)系空間(關(guān)系特定的實(shí)體空間)編碼事實(shí)三元組,并在對(duì)應(yīng)的關(guān)系空間實(shí)現(xiàn)變換。TransH模型和TransR模型的打分函數(shù)如式(2)(3)所示:
DisMult模型使用乘法運(yùn)算推理事實(shí)三元組,但是只能建模知識(shí)圖譜中存在的對(duì)稱關(guān)系,不能建模知識(shí)圖譜中其他類型的關(guān)系。針對(duì)DisMult存在的問(wèn)題,出現(xiàn)ComplEx模型,于復(fù)數(shù)空間投影實(shí)體和關(guān)系,以此建模和推理三元組反對(duì)稱關(guān)系模式,DisMult模型和ComplEx模型采用如式(4)(5)所示的評(píng)分函數(shù)判斷三元組可信度:
一般來(lái)說(shuō),嵌入表示模型結(jié)構(gòu)簡(jiǎn)單,但僅僅關(guān)注事實(shí)三元組的結(jié)構(gòu)信息,不能有效推理實(shí)體和關(guān)系之間復(fù)雜的語(yǔ)義聯(lián)系;另外,嵌入表示模型不能有效捕獲實(shí)體和關(guān)系嵌入向量間的深層關(guān)聯(lián),導(dǎo)致擬合能力有限,并且在處理多對(duì)多復(fù)雜關(guān)系模式時(shí)性能較差。
上述傳統(tǒng)表示模型只計(jì)算三元組的結(jié)構(gòu)信息,未能編碼實(shí)體和關(guān)系的各種特征信息,這限制了模型的表達(dá)能力[24]。為解決這個(gè)問(wèn)題,Dettmers等[18]提出ConvE模型,其將頭實(shí)體嵌入和關(guān)系嵌入組合,與多個(gè)過(guò)濾器卷積生成多個(gè)特征圖矩陣,最終映射成向量和尾實(shí)體向量點(diǎn)積,分?jǐn)?shù)用于推理三元組的真實(shí)度。ConvE模型利用卷積神經(jīng)網(wǎng)絡(luò)可以深層次編碼頭實(shí)體、關(guān)系和尾實(shí)體,獲取實(shí)體和關(guān)系的低維嵌入表示,同時(shí)學(xué)習(xí)三元組更多的特征。ConvE模型采用式(6)所示的評(píng)分函數(shù)判斷三元組可信度。
ConvKB模型利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)三元組進(jìn)行編碼表示,將實(shí)體和關(guān)系的重組矩陣作為模型輸入,以此探索CNN模型在知識(shí)圖譜推理任務(wù)中的有效性,但神經(jīng)單元表征實(shí)體和關(guān)系過(guò)于簡(jiǎn)單,且CNN存在空間不變性和編碼效率低等弊端,因此,Nguyen等[20]提出CapsE模型,使用TransE訓(xùn)練生成的實(shí)體嵌入和關(guān)系嵌入作為膠囊網(wǎng)絡(luò)的輸入,由動(dòng)態(tài)路由算法確定高層膠囊到低層膠囊的鏈接。CapsE模型使用膠囊網(wǎng)絡(luò)取代傳統(tǒng)CNN,在知識(shí)圖譜推理任務(wù)中效果顯著,其評(píng)分函數(shù)如式(8)所示:
CapsE模型利用膠囊網(wǎng)絡(luò)對(duì)知識(shí)庫(kù)中的實(shí)體和關(guān)系進(jìn)行編碼,將實(shí)體和關(guān)系的重組矩陣作為膠囊網(wǎng)絡(luò)模型的輸入,在鏈接預(yù)測(cè)和三元組分類等任務(wù)中效果顯著。膠囊網(wǎng)絡(luò)雖能 “深層”地挖掘和建模實(shí)體和關(guān)系的特征信息,但無(wú)法有效地捕獲實(shí)體和關(guān)系之間的潛在依存關(guān)系。為此,Nguyen等[21]提出R-MeN模型,使用變換器多頭注意力機(jī)制指導(dǎo)內(nèi)存與每個(gè)輸入向量進(jìn)行交互以產(chǎn)生一個(gè)編碼向量。最終,R-MeN模型將三個(gè)已編碼的頭實(shí)體向量、關(guān)系向量和尾實(shí)體向量饋送到基于卷積神經(jīng)網(wǎng)絡(luò)的解碼器,以此返回每個(gè)三元組的得分。R-MeN模型采用式(9)所示的評(píng)分函數(shù)判斷三元組可信度:
綜上,當(dāng)前主流模型使用神經(jīng)元編碼實(shí)體和關(guān)系,需要大量參數(shù)學(xué)習(xí)特征變量,且不能捕獲實(shí)體和關(guān)系在低維空間的聯(lián)系等問(wèn)題,因此本文模型綜合考慮嵌入表示模型TransE、關(guān)系記憶網(wǎng)絡(luò)和膠囊神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),通過(guò)卷積操作生成多個(gè)特征圖,利用膠囊網(wǎng)絡(luò)強(qiáng)大的特征提取能力和特征解釋能力,充分學(xué)習(xí)網(wǎng)絡(luò)中的特征變量,并最大限度地保留有價(jià)值的信息。
和傳統(tǒng)表示模型不同,TransE模型使用較少的參數(shù)便能獲得實(shí)體和關(guān)系的低維嵌入向量,同時(shí)模型的計(jì)算復(fù)雜度較低。鑒于TransE模型結(jié)構(gòu)簡(jiǎn)單,易于擴(kuò)展,在知識(shí)圖譜推理領(lǐng)域效果顯著等優(yōu)點(diǎn),本文使用由TransE訓(xùn)練的實(shí)體和關(guān)系的嵌入矩陣作為關(guān)系記憶膠囊網(wǎng)絡(luò)模型的輸入。受word2vec的啟發(fā),TransE模型將每個(gè)事實(shí)三元組的關(guān)系視為頭實(shí)體到尾實(shí)體的平移,在處理多種復(fù)雜關(guān)系類型方面效率較高,因此有必要探究實(shí)值嵌入的關(guān)系記憶膠囊網(wǎng)絡(luò)模型在知識(shí)圖譜補(bǔ)全中的應(yīng)用效果,以推理更多的關(guān)系模式,更好地?cái)M合實(shí)體和關(guān)系之間復(fù)雜的語(yǔ)義聯(lián)系。
本文模型架構(gòu)如圖2所示,由2個(gè)模塊組成:關(guān)系記憶模塊,由多層感知機(jī)和記憶門控組成,用編碼實(shí)體和關(guān)系之間的潛在依賴關(guān)系和重要部分的信息形成編碼嵌入向量;膠囊網(wǎng)絡(luò)模塊,由五部分組成,分別為輸入層、卷積層、初級(jí)膠囊層、數(shù)字膠囊層和輸出層。在膠囊網(wǎng)絡(luò)模塊中,輸入層為基于關(guān)系記憶模塊輸出的3個(gè)編碼嵌入向量;隱藏層則對(duì)三元組結(jié)構(gòu)信息編碼并進(jìn)行分類;輸出層相當(dāng)于多個(gè)并行的二分類器,區(qū)分正確或者錯(cuò)誤的三元組。
圖2 所提模型整體架構(gòu)
最后,本文利用膠囊網(wǎng)絡(luò)強(qiáng)大的特征提取能力和特征解釋能力,將關(guān)系記憶網(wǎng)絡(luò)輸出的編碼嵌入向量作為模型的輸入,以此捕獲實(shí)體和關(guān)系在低維空間中的聯(lián)系,并最大限度地保留有價(jià)值的信息,具體操作步驟如下。
最終,本文將模型的評(píng)分函數(shù)定義如下:
錯(cuò)誤三元組的構(gòu)建方法如下所示,即把正例三元組中的尾實(shí)體與頭實(shí)體依次使用其他實(shí)體取代,即不能同時(shí)替換。
本文利用Adam[27]優(yōu)化器來(lái)訓(xùn)練模型,其訓(xùn)練過(guò)程見(jiàn)關(guān)系記憶膠囊網(wǎng)絡(luò)算法。在關(guān)系記憶膠囊網(wǎng)絡(luò)算法中,本文使用TransE模型訓(xùn)練生成的實(shí)數(shù)矩陣來(lái)初始化實(shí)體和關(guān)系嵌入(分別見(jiàn)第3)行和第4)行)。同時(shí),本文為每個(gè)實(shí)體和關(guān)系分別添加位置嵌入(分別見(jiàn)第5)行和第6)行)。在算法迭代過(guò)程中,本文采用卷積操作和內(nèi)積運(yùn)算來(lái)訓(xùn)練矩陣。首先,本文從訓(xùn)練集中抽取一個(gè)小批量數(shù)據(jù)集(見(jiàn)第8)行)。其次,對(duì)數(shù)據(jù)集中每個(gè)三元組,本文選取負(fù)樣本(錯(cuò)誤三元組),其中負(fù)樣本從正例三元組獲取得到(見(jiàn)第11)行)。最后,本文對(duì)抽樣得到的小批量數(shù)據(jù)集進(jìn)行分?jǐn)?shù)預(yù)測(cè)和損失校正(分別見(jiàn)第14)行和第16)行)。
其中關(guān)系記憶膠囊網(wǎng)絡(luò)算法如下:
算法1 關(guān)系記憶膠囊網(wǎng)絡(luò)算法。
輸入 DataSet of triples=(,,),,,andrepresent entities, relations, margin, embeddings dim respectively
輸出 Entity embeddings, relation embeddings
1) //embeddings produced by TransE
2) Initialize
3)←TransE (,,,) for each∈
4)←TransE (,,,) for each∈
7) loop
8)batch←sample (,) //sample a mini batch of
9)batch←? //initialize the set of pairs of triples
10) for (,,) ∈batchdo
13) end for
15) Update loss function
17)end loop
文中使用WN18RR[18]、FB15K-237[28]、FB13[9]和WN11[9]進(jìn)行鏈接預(yù)測(cè)和三元組分類實(shí)驗(yàn)。參考文獻(xiàn)[28],由于WN18數(shù)據(jù)集含有反轉(zhuǎn)關(guān)系類型,本文將具有反轉(zhuǎn)關(guān)系的三元組去掉,得到WN18RR;同樣,由數(shù)據(jù)集FB15K可以得到FB15K-237。
所有數(shù)據(jù)集的統(tǒng)計(jì)情況見(jiàn)表1。其中:#En代表實(shí)體(數(shù)值代表實(shí)體個(gè)數(shù)),#Re代表關(guān)系(數(shù)值代表關(guān)系個(gè)數(shù)),#Va代表驗(yàn)證集(數(shù)值代表三元組個(gè)數(shù)),#Tr代表訓(xùn)練集,#Te代表測(cè)試集。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息
3.3.1實(shí)驗(yàn)設(shè)置
鏈接預(yù)測(cè)旨在預(yù)測(cè)知識(shí)庫(kù)中丟失的頭實(shí)體或者尾實(shí)體,給定一個(gè)缺失三元組(Shanghai,City_Of,?),本文可知,該三元組丟失了尾實(shí)體,為推理缺失三元組,本文將知識(shí)庫(kù)中的正確尾實(shí)體加入,對(duì)該三元組進(jìn)行補(bǔ)全操作。本文參考TransE模型,將知識(shí)庫(kù)中所有實(shí)體依次取代每個(gè)事實(shí)三元組的頭實(shí)體或尾實(shí)體,然后使用式(23)所示的函數(shù)依次計(jì)算每個(gè)事實(shí)三元組的分?jǐn)?shù),最終獲得正確實(shí)體的排名。
3.3.2評(píng)估指標(biāo)
文中使用平均排名(Mean Rank, MR)、倒數(shù)平均排名(Mean Reciprocal Rank, MRR)和前名百分比(Hit@)作為模型的評(píng)估指標(biāo)。在鏈接預(yù)測(cè)實(shí)驗(yàn)中,MR越小、MRR和Hit@越大,代表模型的擬合能力越好。其中,MR和MRR的計(jì)算公式如下所示:
3.3.3實(shí)驗(yàn)分析
文中實(shí)驗(yàn)環(huán)境為Windows 7 64位操作系統(tǒng),1 755 MHz 24GD6 GeForce RTX 2080 Ti(GPU)。數(shù)據(jù)集WN18RR和FB15K-237在不同模型下的鏈接預(yù)測(cè)實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表2 數(shù)據(jù)集WN18RR和FB15K-237上的鏈接預(yù)測(cè)結(jié)果
由表2可知,在數(shù)據(jù)集FB15K-237上,本文模型在MRR、Hit@3和Hit@10指標(biāo)上均優(yōu)于其他翻譯模型;在數(shù)據(jù)集WN18RR上,本文模型在MR、Hit@3和Hit@10指標(biāo)上同樣優(yōu)于其他模型。這表明在膠囊網(wǎng)絡(luò)模型中引入多頭注意力機(jī)制能夠有效擬合實(shí)體和關(guān)系之間復(fù)雜的語(yǔ)義聯(lián)系,在鏈接預(yù)測(cè)實(shí)驗(yàn)這種推理任務(wù)中具有顯著效果。
與傳統(tǒng)嵌入表示模型相比,本文模型各項(xiàng)指標(biāo)效果較好。其中在數(shù)據(jù)集WN18RR上,與TransE模型相比,本文模型在MRR提升了98.23%,在Hit@10提升了8.1個(gè)百分點(diǎn)。這表明引入多頭注意力機(jī)制的膠囊網(wǎng)絡(luò)模型可以有效捕獲不同語(yǔ)義空間中實(shí)體之間的潛在依賴關(guān)系,并對(duì)一對(duì)多、多對(duì)一和多對(duì)多等復(fù)雜關(guān)系模式進(jìn)行建模。
在數(shù)據(jù)集FB15K-237上,本文模型在各項(xiàng)指標(biāo)上與CapsE模型相差較小,各有優(yōu)勢(shì),這說(shuō)明在關(guān)系較多、規(guī)模較小的數(shù)據(jù)集FB15K-237上,本文模型相比CapsE并沒(méi)有明顯的提升;但在關(guān)系較少、規(guī)模較大的數(shù)據(jù)集WN18RR上,本文模型的各項(xiàng)指標(biāo)均優(yōu)于CapsE模型,其中MR提升約1.81%、MRR提升7.95%、Hit@1提升6.6個(gè)百分點(diǎn)、Hit@10提升2.2個(gè)百分點(diǎn)。這說(shuō)明本文模型在引入多頭注意力機(jī)制后,可以有效過(guò)濾冗余特征信息,提升對(duì)復(fù)雜關(guān)系模式的推理能力。為了進(jìn)一步驗(yàn)證引入多頭注意力機(jī)制的膠囊網(wǎng)絡(luò)模型推理各類關(guān)系模式的能力,本文選取WN18RR中11個(gè)關(guān)系進(jìn)行鏈接預(yù)測(cè)實(shí)驗(yàn)。由圖3可知,本文模型在7個(gè)特定關(guān)系下均優(yōu)于CapsE模型,由此證實(shí)了引入多頭注意力機(jī)制的膠囊網(wǎng)絡(luò)模型在建模和推理多種關(guān)系模式中的優(yōu)越表示能力。
綜上,本文提出的融合多頭注意力機(jī)制的膠囊網(wǎng)絡(luò)模型既可以有效推理實(shí)體和關(guān)系之間復(fù)雜的語(yǔ)義聯(lián)系,捕獲實(shí)體和關(guān)系嵌入向量間的深層關(guān)聯(lián);又可以利用膠囊網(wǎng)絡(luò)強(qiáng)大的特征處理能力捕獲三元組的全局特征,有效去除冗余特征信息,提升三元組的分類準(zhǔn)確率。
圖3 每個(gè)關(guān)系的MRR
3.4.1實(shí)驗(yàn)設(shè)置
三元組分類旨在判斷一個(gè)三元組是否可信,比如,給定一個(gè)三元組(Shanghai,City_Of,China),本文認(rèn)為這是一個(gè)正確三元組,而(Australia,City_Of,China)是一個(gè)錯(cuò)誤三元組。
3.4.2評(píng)估指標(biāo)
3.4.3實(shí)驗(yàn)分析
數(shù)據(jù)集WN11和FB13在不同模型下的三元組分類實(shí)驗(yàn)結(jié)果見(jiàn)表3。由表3可知,本文模型在數(shù)據(jù)集WN11和FB13上均取得了較為理想的三元組分類實(shí)驗(yàn)結(jié)果,模型分類效果與目前廣泛應(yīng)用的知識(shí)圖譜嵌入模型相比依然有很強(qiáng)的競(jìng)爭(zhēng)力。由表1可知,WN11和FB13關(guān)系數(shù)量接近,但FB13規(guī)模更大,實(shí)體之間存在較強(qiáng)的關(guān)聯(lián),雖然本文提出的基于關(guān)系記憶的膠囊網(wǎng)絡(luò)知識(shí)圖譜嵌入模型在WN11分類實(shí)驗(yàn)上取得了最好的結(jié)果,但在FB13數(shù)據(jù)集分類實(shí)驗(yàn)中表現(xiàn)一般,說(shuō)明本文模型在對(duì)實(shí)體間依賴關(guān)系建模、捕獲三元組空間結(jié)構(gòu)信息方面還有很大的進(jìn)步空間。
表3 數(shù)據(jù)集WN11和FB13上的三元組分類結(jié)果 單位:%
為了推理知識(shí)庫(kù)中缺失的事實(shí)三元組,本文以關(guān)系記憶網(wǎng)絡(luò)為基礎(chǔ),考慮了多頭注意力機(jī)制以及膠囊神經(jīng)網(wǎng)絡(luò),以此對(duì)事實(shí)三元組之間的潛在依賴關(guān)系進(jìn)行編碼。在基準(zhǔn)數(shù)據(jù)集FB13、WN11、WN18RR和FB15K-237上,進(jìn)行了相關(guān)的鏈接預(yù)測(cè)實(shí)驗(yàn)和三元組分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與其他嵌入表示模型相比,本文模型在MRR、Hit@3和Hit@10等指標(biāo)上均有顯著提升。為了提高模型的預(yù)測(cè)精確率,在未來(lái)的工作中,將重點(diǎn)針對(duì)知識(shí)圖譜中的動(dòng)態(tài)路由優(yōu)化問(wèn)題展開研究。一般地,在膠囊網(wǎng)絡(luò)模型中,由于動(dòng)態(tài)規(guī)則無(wú)法分享神經(jīng)元權(quán)重,導(dǎo)致路由算法的迭代過(guò)程較為耗時(shí)。為了解決該問(wèn)題,內(nèi)聯(lián)膠囊路由協(xié)議、核密度估計(jì)等路由優(yōu)化算法由此提出。因此有必要研究基于內(nèi)聯(lián)膠囊路由協(xié)議或核密度估計(jì)路由協(xié)議建立高層膠囊與低層膠囊的路由關(guān)系在知識(shí)圖譜補(bǔ)全中的應(yīng)用前景。
[1] 劉知遠(yuǎn),孫茂松,林衍凱,等. 知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 247-261.(LIU Z Y, SUN M S, LIN Y K, et al. Knowledge representation learning: a review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261.)
[2] SUCHANEK F M, KASNECI G, WEIKUM G. YAGO: a core of semantic knowledge[C]// Proceedings of the 16th International Conference on World Wide Web. New York: ACM, 2007: 697-706.
[3] BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]// Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2008: 1247-1250.
[4] LEHMANN J, ISELE R, JAKOB M, et al. DBpedia — a large-scale, multilingual knowledge base extracted from Wikipedia[J]. Semantic Web, 2015, 6(2): 167-195.
[5] ZHANG F Z, YUAN N J, LIAN D F, et al. Collaborative knowledge base embedding for recommender systems[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 353-362.
[6] HAO Y C, ZHANG Y Z, LIU K, et al. An end-to-end model for question answering over knowledge base with cross-attention combining global knowledge[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 221-231.
[7] XIONG C Y, POWER R, CALLAN J. Explicit semantic ranking for academic search via knowledge graph embedding[C]// Proceedings of the 26th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2017: 1271-1279.
[8] YANG B S, MITCHELL T. Leveraging knowledge bases in LSTMs for improving machine reading[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 1436-1446.
[9] SOCHER R, CHEN D Q, MANNING C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 926-934.
[10] WEST R, GABRILOVICH E, MURPHY K, et al. Knowledge base completion via search-based question answering[C]// Proceedings of the 23rd International Conference on World Wide Web. New York: ACM, 2014: 515-526.
[11] CHEN H, WANG W W, LI G Y, et al. A quaternion-embedded capsule network model for knowledge graph completion[J]. IEEE Access, 2020, 8: 100890-100904.
[12] ZHANG Z Q, CAI J Y, ZHANG Y D, et al. Learning hierarchy-aware knowledge graph embeddings for link prediction[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 3065-3072.
[13] BORDES A, USUNIER N, GARCIA-DURáN A, et al. Translating embeddings for modeling multi-relational data[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 2787-2795.
[14] WANG Z, ZHANG J W, FENG J L, et al. Knowledge graph embedding by translating on hyperplanes[C]// Proceedings of the 28th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2014: 1112-1119.
[15] LIN Y K, LIU Z Y, SUN M S, et al. Learning entity and relation embeddings for knowledge graph completion[C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 2181-2187.
[16] YANG B S, YIH W T, HE X D, et al. Embedding entities and relations for learning and inference in knowledge bases[EB/OL]. (2015-08-29) [2021-09-04].https://arxiv.org/pdf/1412.6575.pdf.
[17] TROUILLON T, WELBL J, RIEDEL S, et al. Complex embeddings for simple link prediction[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 2071-2080.
[18] DETTMERS T, MINERVINI P, STENETORP P, et al. Convolutional 2D knowledge graph embeddings[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 1811-1818.
[19] NGUYEN D Q, NGUYEN T D, NGUYEN D Q, et al. A novel embedding model for knowledge base completion based on convolutional neural network[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 327-333.
[20] NGUYEN D Q, VU T, NGUYEN T D, et al. A capsule network-based embedding model for knowledge graph completion and search personalization[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 2180-2189.
[21] NGUYEN D Q, NGUYEN T D, PHUNG D. A relational memory-based embedding model for triple classification and search personalization[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 3429-3435.
[22] KIM Y, LEE H, JUNG K. AttnConvnet at SemEval-2018 task 1: attention-based convolutional neural networks for multi-label emotion classification[C]// Proceedings of the 12th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2018: 141-145.
[23] 賈旭東,王莉. 基于多頭注意力膠囊網(wǎng)絡(luò)的文本分類模型[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 60(5):415-421.(JIA X D, WANG L. Text classification model based on multi-head attention capsule networks[J]. Journal of Tsinghua University (Science and Technology), 2020, 60(5): 415-421.)
[24] 陳恒,李冠宇,祁瑞華,等. 膠囊網(wǎng)絡(luò)在知識(shí)圖譜補(bǔ)全中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(8):110-116.(CHEN H, LI G Y, QI R H, et al. Capsule Network's application in knowledge graph completion[J]. Computer Engineering and Applications, 2020, 56(8): 110-116.)
[25] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[26] SANTORO A, FAULKNER R, RAPOSO D, et al. Relational recurrent neural networks[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 7310-7321.
[27] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2021-09-04].https://arxiv.org/pdf/1412.6980.pdf.
[28] TOUTANOVA K, CHEN D Q. Observed versus latent features for knowledge base and text inference[C]// Proceedings of the 3rd Workshop on Continuous Vector Space Models and their Compositionality. Stroudsburg, PA: Association for Computational Linguistics, 2015: 57-66.
[29] SUN Z Q, DENG Z H, NIE J Y, et al. RotatE: knowledge graph embedding by relational rotation in complex space[EB/OL]. (2019-02-26) [2021-09-04].https://arxiv.org/pdf/1902.10197.pdf.
[30] JI G L, HE S Z, XU L H, et al. Knowledge graph embedding via dynamic mapping matrix[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2015: 687-696.
[31] JI G L, LIU K, HE S Z, et al. Knowledge graph completion with adaptive sparse transfer matrix[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 985-991.
[32] XIAO H, HUANG M L, ZHU X Y. TransG: a generative mixture model for knowledge graph embedding[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2016: 2316-2325.
CHEN Heng, born in 1982, Ph. D. candidate, associate professor. His research interests include machine learning, knowledge completion.
WANG Siyi, born in 1998, M. S. candidate. Her research interests include machine learning, knowledge graph.
LI Zhengguang, born in 1980, Ph. D., lecturer. His research interests include machine learning, natural language processing.
LI Guanyu, born in 1963, Ph. D., professor. His research interests include machine learning, intelligent information processing.
LIU Xin, born in 1982, M. S., lecturer. His research interests include machine learning, natural language processing.
Capsule network knowledge graph embedding model based on relational memory
CHEN Heng1,2*, WANG Siyi1, LI Zhengguang1, LI Guanyu2, LIU Xin1
(1,,116044,;2,,116026,)
As a semantic knowledge base, Knowledge Graph (KG) uses structured triples to store real-world entities and their internal relationships. In order to infer the missing real triples in the knowledge graph, considering the strong triple representation ability of relational memory network and the powerful feature processing ability of capsule network, a knowledge graph embedding model of capsule network based on relational memory was proposed. First, the encoding embedding vectors were formed through the potential dependencies between encoding entities and relationships and some important information. Then, the embedding vectors were convolved with the filter to generate different feature maps, and the corresponding capsules were recombined. Finally, the connections from the parent capsule to the child capsule was specified through the compression function and dynamic routing, and the confidence coefficient of the current triple was estimated by the inner product score between the child capsule and the weight. Link prediction experimental results show that compared with CapsE model, on the Mean Reciprocal Rank (MRR) and Hit@10 evaluation indicators, the proposed model has the increase of 7.95% and 2.2 percentage points respectively on WN18RR dataset, and on FB15K-237 dataset, the proposed model has the increase of 3.82% and 2 percentage points respectively. Experiments results show that the proposed model can more accurately infer the relationship between the head entity and the tail entity.
Knowledge Graph (KG); relational memory network; capsule network; knowledge graph embedding; dynamic routing
This work is partially supported by National Natural Science Foundation of China (61976032), Scientific Research Funding Project of Educational Department of Liaoning Province (2020JYT03, 2020JYT17).
TP181
A
1001-9081(2022)07-1985-08
10.11772/j.issn.1001-9081.2021050764
2021?05?12;
2021?09?15;
2021?09?22。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61976032);遼寧省教育廳科學(xué)研究經(jīng)費(fèi)資助項(xiàng)目(2020JYT03, 2020JYT17)。
陳恒(1982—),男,安徽阜陽(yáng)人,副教授,博士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、知識(shí)補(bǔ)全; 王思懿(1998—),女(滿),遼寧瓦房店人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、知識(shí)圖譜; 李正光(1980—),男,四川資陽(yáng)人,講師,博士,主要研究方向:機(jī)器學(xué)習(xí)、自然語(yǔ)言處理; 李冠宇(1963—),男,遼寧丹東人,教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、智能信息處理; 劉鑫(1982—),男,遼寧大連人,講師,碩士,主要研究方向:機(jī)器學(xué)習(xí)、自然語(yǔ)言處理。