摘 要:針對現(xiàn)有的知識圖譜補全方法捕獲知識圖譜結(jié)構(gòu)信息能力不足的問題,提出了一種基于雙子圖和注意力機制以獲取全局結(jié)構(gòu)信息完成知識圖譜自動補全的模型。該模型首先分別構(gòu)建以實體和關(guān)系為中心的雙子圖,來分別捕獲實體鄰域信息和關(guān)系結(jié)構(gòu)的潛在有用信息,并將雙子圖形成的信息輸入到編碼器中以更好地更新實體和關(guān)系結(jié)構(gòu)信息;然后,利用注意力機制自適應(yīng)地學(xué)習(xí)更新后實體和關(guān)系之間的重要交互特征;最后,將包含全局結(jié)構(gòu)信息的特征向量輸入到解碼器中,通過一個評分函數(shù),對輸入的特征邊進行打分預(yù)測,最終使用預(yù)測結(jié)果來完成知識圖譜補全任務(wù)。與基線方法的性能相比,該方法在FB15K-237和NELL995數(shù)據(jù)集上的MRR和hits@10評測指標分別取得了5.1、8.8和3.4、2.2百分點的顯著提升,同時在WN18RR數(shù)據(jù)集上,這兩個指標也分別提高了0.1和1.9百分點。實驗結(jié)果表明,所建立模型采用的結(jié)構(gòu)能有效捕獲知識圖譜全局結(jié)構(gòu)信息,進而顯著增強模型的表達能力和預(yù)測性能。
關(guān)鍵詞:知識圖譜補全;雙子圖;注意力機制;編碼器;解碼器
中圖分類號:TP391.1"" 文獻標志碼:A"" 文章編號:1001-3695(2025)01-013-0093-07
doi: 10.19734/j.issn.1001-3695.2024.06.0186
Knowledge graph completion method based on bipartite graphs and attention mechanism
Abstract: To address the issue of existing knowledge graph completion methods’ limited capability in capturing structural information within knowledge graphs, this paper proposed a novel model that leveraged bipartite graphs and an attention mechanism to acquire global structural insights and facilitate automatic knowledge graph completion. This model firstly constructed two subgraphs centered on entities and relationships to capture potential useful information about entity neighborhood and relationship structures, and inputted the information formed by the two subgraphs into the encoder to better update entity and relationship structure information. Then, it used attention mechanisms to adaptively learn important interaction features between updated entities and relationships. Finally, it inputted the feature vectors containing global structural information into the decoder, and it actively employed a scoring function to assess and predict scores for the input feature edges, ultimately utilizing the predicted outcomes to accomplish the task of knowledge graph completion. Comparing the performance of the proposed method with the baseline method on the FB15K-237 and NELL995 datasets, the MRR and hits@10 evaluation indicators achieved significant improvements of 5.1, 8.8, and 3.4, 2.2 percentage points, respectively. At the same time, on the WN18RR dataset, these two indicators also were improved by 0.1 and 1.9 percentage points, respectively. The experimental results show that established model proactively adopts a structure that effectively captures the global structural information of the knowledge graph, thereby significantly enhancing the expression ability and predictive performance of the model.
Key words:complete knowledge graph; bipartite graph; attention mechanism; encoder; decoder
0 引言
知識圖譜(knowledge graph, KG)是一種常見的結(jié)構(gòu)化映射,以三元組形式(頭實體,關(guān)系,尾實體)表達現(xiàn)實世界發(fā)生的事實,描述實體或概念間的關(guān)聯(lián)。KG可用于眾多下游任務(wù),如智能問答[1]、推薦系統(tǒng)[2]、知識管理[3~5]、數(shù)據(jù)匹配[6~8]和信息檢索[9]等。當前已有一些大型KG,如WikiData[10]、Google KG[11]等,然而即使是這些擁有上百萬個實體和數(shù)十億個事實的大型知識圖譜也存在知識不完整性的問題[12],這會影響其在下游任務(wù)上的應(yīng)用效果。因此知識圖譜補全(knowledge graph completion, KGC)技術(shù)日益受到學(xué)界的重視,進而各種補全技術(shù)被用來解決KG中的知識不完整性問題。
KGC旨在通過學(xué)習(xí)三元組中某種潛在的結(jié)構(gòu)模式,推測三元組中缺失的部分,以提升知識圖譜的完整性?,F(xiàn)有的知識圖譜補全方法主要有基于嵌入的方法和神經(jīng)網(wǎng)絡(luò)方法兩個方向。其中,知識圖譜嵌入技術(shù)(knowledge graph embedding, KGE)因其高效性和較低的自由參數(shù)需求,已經(jīng)成為知識圖譜補全的主流方法。以TransE[13]模型為代表,通過轉(zhuǎn)換關(guān)系將頭實體映射到尾實體,但它在處理如一對多或多對一等復(fù)雜關(guān)系以及多語義問題時面臨挑戰(zhàn),為了克服這些限制,TransH[14]、TransR[15]、TransD[16]等改進模型相繼被提出。已經(jīng)提出一些KG嵌入模型來學(xué)習(xí)實體和關(guān)系的向量表示,并定義一個分數(shù)函數(shù),使有效三元組的分數(shù)高于無效三元組的分數(shù),例如ComplEx[17]和QuatE[18]。然而由于編碼整個信息需要高維嵌入,這可能會導(dǎo)致模型過度擬合和復(fù)雜性過載。相比之下神經(jīng)網(wǎng)絡(luò)方法將一些學(xué)到的知識存儲在模型的非嵌入自由參數(shù)中,并在整個KG中共享,減小了模型的復(fù)雜性,同時通過正則化、數(shù)據(jù)增強等方法來減少了過擬合。但是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型大多數(shù)使用淺層或低效的結(jié)構(gòu),無法利用實體和關(guān)系之間的交互和依賴關(guān)系來提高表示的表達能力,例如在圖1中,通過已知路徑可以知道“John Wilson”、“Blake”和“Steven”的職業(yè)都是“actor”,并且“John Wilson”和“Blake”在同一家“company”,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型無法根據(jù)各個實體與關(guān)系“occupation”和“company”的交互來預(yù)測“John Wilson”、“Blake”和“Steven”的友誼。并且傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法不能有效挖掘知識圖譜中實體的鄰域信息,而圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)[19]已經(jīng)被證明能夠有效挖掘?qū)嶓w鄰域信息。目前,一些KG補全工作已經(jīng)使用編碼器-解碼器架構(gòu)來適應(yīng)GNN,例如R-GCN[20]和CompGCN[21],但是這些現(xiàn)有的基于GNN的KG嵌入模型主要考慮捕獲實體周圍的圖結(jié)構(gòu),而關(guān)系表示僅用于更新實體的嵌入表示, 因此,可能會錯過有關(guān)關(guān)系結(jié)構(gòu)的潛在有用信息,例如在圖2中,只能捕獲實體“John Wilson”的“出生地”信息,以及“Sydney”的“所屬城市”信息。并且由于目前大多數(shù)基于GNN的嵌入模型在聚合鄰域信息的過程中使用靜態(tài)注意力矩陣,導(dǎo)致該矩陣同等對待鄰域信息,所以混合了無效信息,進而導(dǎo)致模型的性能下降。例如在圖1中,要預(yù)測“Evelyn”和“Marie White”誰是“John Wilson”的寵物,傳統(tǒng)的基于GNN的嵌入模型對“Evelyn”和“Marie White”分配同樣的權(quán)重,導(dǎo)致模型根本無法準確預(yù)測結(jié)果。綜上可以發(fā)現(xiàn),現(xiàn)有的基于GNN的知識圖譜嵌入模型大多都只能捕獲實體鄰域信息而忽略了關(guān)系結(jié)構(gòu)的潛在有用信息,并且無法捕獲實體和關(guān)系的交互信息,導(dǎo)致對知識圖譜特征信息的捕獲不完整,這就會使得到的特征向量表達性不好,從而導(dǎo)致補全效果不佳。
因此,本文需要一種方法能夠捕獲關(guān)系結(jié)構(gòu)的潛在有用信息以及實體和關(guān)系的交互信息,以此來提高模型的表達能力。通過研究發(fā)現(xiàn),構(gòu)建以實體和關(guān)系為中心的雙子圖是捕獲關(guān)系結(jié)構(gòu)潛在信息的有效方法,由于以關(guān)系為中心的雙子圖是以實體-關(guān)系作為一個節(jié)點,所以該方法旨在捕獲主觀關(guān)系、謂詞實體、客觀關(guān)系。例如在圖2中,對于謂詞實體“Sydney”,它的主觀關(guān)系和客觀關(guān)系分別為“born in”和“city of”,該方法可以捕獲兩個鄰里關(guān)系之間的潛在依賴,即關(guān)于“出生地”和“所在城市”之間潛在依賴關(guān)系的知識可能與預(yù)測“國籍”或“國籍國”等其他關(guān)系有關(guān)。要捕獲實體和關(guān)系的交互信息,需要通過注意力機制來獲得實體和關(guān)系的上下文信息,然后為不同的實體分配不同的權(quán)重,以此來獲取實體和關(guān)系的重要交互特征。例如在圖1中,要預(yù)測“Evelyn”和“Marie White”誰是“John Wilson”的寵物,可以通過關(guān)系“買”和“兄弟”與實體的交互為“Evelyn”和“Marie White”分配不同的權(quán)重,以此來預(yù)測誰是“John Wilson”的寵物。同時,通過“Blake”-“company”和“Steven”-“company”與“John Wilson”-“company”的交互,可以預(yù)測“John Wilson”與“Blake”和“Steven”的友誼。
為了解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在進行知識圖譜補全時存在的問題,本文提出了一種新的基于雙子圖和注意力機制以捕獲全局信息的方法(capturing global information based on bipartite and attention mechanism, CGIBAM)。
本文的主要工作如下:
a)針對現(xiàn)有的基于GNN的KG嵌入模型主要考慮捕獲實體的鄰域信息,而關(guān)系表示僅用于更新實體嵌入的問題,通過分別構(gòu)建以實體和關(guān)系為中心的雙子圖,獲得關(guān)系結(jié)構(gòu)的潛在有用信息。
b)針對淺層神經(jīng)網(wǎng)絡(luò)模型無法利用實體和關(guān)系之間的交互和依賴關(guān)系來提高實體和關(guān)系交互表示的表達能力的問題,引入了有效捕捉實體和關(guān)系之間交互信息的多頭注意力機制,在這過程中通過對各實體分配不同的權(quán)重來獲取實體與關(guān)系的重要交互特征,從而捕捉知識圖譜的全局結(jié)構(gòu)信息。
1 相關(guān)理論
1.1 知識圖譜補全模型
目前,主流的知識圖譜補全模型通常可以分為三大類別,分別是基于平移距離的模型、基于語義匹配的模型以及基于神經(jīng)網(wǎng)絡(luò)的模型。
a)平移距離模型[22]通過平移操作將頭實體向量轉(zhuǎn)換為尾實體向量,利用向量運算來模擬實體間的關(guān)系,并通過比較這些結(jié)果與真實關(guān)系之間的差異來評估事實的合理性。以Bordes等人[13]提出的TransE模型為代表,該模型通過將三元組(h,r,t)中的實體和關(guān)系映射到低維向量空間中,利用簡單的向量運算來捕捉它們之間的語義關(guān)系。其中,h為頭實體的向量表示,r為關(guān)系的向量表示,t為尾實體的向量表示。通過不斷調(diào)整三元組使h+r≈t,這種平移操作體現(xiàn)了實體和關(guān)系之間的語義關(guān)聯(lián)?;谄揭凭嚯x的模型簡單且易擴展,在知識圖譜補全任務(wù)中表現(xiàn)出了較好的效果,但其在學(xué)習(xí)復(fù)雜關(guān)系方面仍然存在較多困難。
b)語義匹配模型[23]利用評分函數(shù)來測量實體對(h,t)和關(guān)系r的匹配程度。以Trouillon等人提出的ComplEx[16]模型為代表,該模型引入了復(fù)數(shù)空間的概念,能將知識圖譜中的實體和關(guān)系表示為復(fù)向量,從而能夠更好地建模非對稱關(guān)系。然而語義匹配模型大多都是獨立地處理三元組,因此很容易忽略掉實體的局部鄰域信息。
c)基于神經(jīng)網(wǎng)絡(luò)的模型是以卷積神經(jīng)網(wǎng)絡(luò)為核心來捕捉和表示三元組之間的復(fù)雜關(guān)系與特征。以Schlichtkrull等人[20]提出的R-GCN模型為代表,該模型將關(guān)系的影響融入到實體中,提升了模型的表達能力。GNN的核心是圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN),是一種有效的圖結(jié)構(gòu)建模方法,以Shang等人[24]提出的SCAN模型為代表,該模型采用編碼器-解碼器結(jié)構(gòu)來獲取實體之間的關(guān)系模式,但該模型沒有深度有效地融合實體和關(guān)系之間的信息。
基于GNN的模型在實體建模方面取得了顯著的成果,能夠有效地捕獲知識圖譜中實體的豐富鄰域信息。然而,傳統(tǒng)的基于GNN的模型通常忽略了潛在的關(guān)系結(jié)構(gòu)信息以及對實體和關(guān)系的深度融合,導(dǎo)致在消息傳遞過程中無法有效地捕獲知識圖譜的全局結(jié)構(gòu)信息。
1.2 多頭注意力機制
注意力機制[25]在深度學(xué)習(xí)領(lǐng)域越來越重要,是因為它具有這樣的能力,通過對特征進行加權(quán)處理,讓學(xué)習(xí)過程能實現(xiàn)對關(guān)鍵信息的有效篩選和聚焦。計算注意力,本質(zhì)上就是對不同特征的重要性進行量化和權(quán)衡的過程。首先通過將輸入的向量進行線性投影得到Q、K、V這三個向量。然后將所有Q向量與所有K向量進行點乘,得到相似的矩陣。
最后針對不同的映射結(jié)果并行縮放內(nèi)積[26]注意力,并將結(jié)果合并到一個線性映射層進行輸出。為了得到更好的注意力分布,引入一個溫度參數(shù),即用于縮放內(nèi)積注意力機制的縮放因子,以調(diào)節(jié)內(nèi)積的大小。
2 模型設(shè)計
本文提出的基于雙子圖和注意力機制的知識圖譜自動補全模型CGIBAM遵循編碼器-解碼器架構(gòu)。模型整體架構(gòu)如圖3所示。該模型旨在通過分別構(gòu)建以實體和關(guān)系為中心的雙子圖,來分別獲得實體的鄰域信息(如圖3上面藍色部分,見電子版)和關(guān)系結(jié)構(gòu)的潛在有用信息(如圖3下面綠色部分,參見電子版),并將兩個雙子圖形成的信息輸入到編碼器中,以更新實體、關(guān)系結(jié)構(gòu)信息。然后再利用多頭注意力機制來捕獲更新后的實體和關(guān)系交互特征,以此來捕獲知識圖譜的全局結(jié)構(gòu)信息。
該模型主要分為雙子圖模塊、編碼器模塊、解碼器模塊三個部分。首先模型基于原知識圖譜分別構(gòu)建以實體和關(guān)系為中心的雙子圖,用于分別捕獲實體的鄰域信息和關(guān)系結(jié)構(gòu)的潛在有用信息,然后將雙子圖形成的信息作為編碼器的輸入,以更好地更新實體和關(guān)系結(jié)構(gòu)信息;編碼器模塊使兩個GNN交互,以共同從兩個圖中學(xué)習(xí)實體和關(guān)系的表示,并通過注意力機制來捕獲實體和關(guān)系之間交互的語義信息和潛在聯(lián)系,進而達到捕獲知識圖譜全局結(jié)構(gòu)信息的目的;解碼器模塊通過應(yīng)用評分函數(shù),對不可見的三元組鏈接進行打分,以判斷該三元組能否成為知識圖譜中的有效邊,即實體的關(guān)系。
2.1 雙子圖
該模型將給定的KG轉(zhuǎn)換為兩個子圖,它們分別以實體和關(guān)系為中心,以捕獲實體的鄰域信息和關(guān)系結(jié)構(gòu)的潛在有用信息,并將雙子圖形成的信息作為編碼器的輸入,進而更好地更新實體和關(guān)系的嵌入。雙子圖如圖4所示。
構(gòu)建以實體為中心的無向圖Gef,該無向圖將實體視為節(jié)點,著重捕捉實體的鄰域信息。這里,Gef={Vef,Eef},其中,下標ef表示以實體為中心的子圖(如圖4(a)),Vef是節(jié)點的集合,Eef是邊的集合。該無向圖Gef實則是一個以實體為中心的矩陣,通過遍歷原知識圖譜中的每個三元組,將三元組中的頭實體和尾實體分別視為矩陣的行和列。如圖4(a)左邊部分,存在一個三元組(h1,r1,h2),將頭實體h1的索引和尾實體h2的索引分別加入行索引列表和列索引列表中。為了使矩陣無向,再將尾實體h2的索引添加到行索引列表中,頭實體h1的索引添加到列索引列表中,同理對其余三元組同樣的操作,由此形成圖4(a)右邊部分,即Gef。
構(gòu)建以關(guān)系為中心的無向圖Grf,該無向圖將實體和關(guān)系視為節(jié)點,著重捕捉關(guān)系結(jié)構(gòu)的潛在有用信息。這里,Grf={Vrf,Erf},其中,下標rf表示以關(guān)系為中心的子圖(如圖4(b)),Vrf是實體和關(guān)系節(jié)點的集合,Erf是連接實體和關(guān)系邊的集合。該無向圖Grf實則是一個以關(guān)系為中心的矩陣,通過遍歷原知識圖譜中所有三元組的所有實體,對于每個實體,查看其作為頭實體和尾實體時涉及的關(guān)系集合(如圖4(b)左邊部分所示),嘗試將每個頭關(guān)系與每個尾關(guān)系組合,形成新的三元組,形如(r1,h2,r2),由此形成圖4(b)右邊部分,即Grf。
該模型構(gòu)建雙子圖是為了同時捕獲實體的鄰域信息和關(guān)系結(jié)構(gòu)的潛在有用信息,從而克服傳統(tǒng)的基于GNN的知識圖譜補全模型僅關(guān)注實體鄰域信息的局限性。通過構(gòu)建雙子圖,使模型能夠更全面地理解圖譜中的實體和關(guān)系,提高了知識圖譜補全的性能。
2.2 編碼器
2.2.1 GNN層
該編碼器包含兩個GNN,分別用于更新實體和關(guān)系的嵌入向量,使兩個GNN交互,以共同從兩個圖結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)實體和關(guān)系的表示。GNN層體系結(jié)構(gòu)如圖5所示。
首先,應(yīng)用第一個圖卷積層到實體的嵌入,得到實體的嵌入Xef。再應(yīng)用第二個卷積層到合并的嵌入,得到關(guān)系的嵌入XRrf。然后,從合并的圖卷積結(jié)果中提取特定實體的嵌入Xrf。接著將Xef和Xrf沿著第一個維度拆分為四個部分:Xef1、Xef2、Xef3、Xef4、Xrf1、Xrf2、Xrf3、Xrf4,再將Xef和Xrf對應(yīng)部分進行交替連接,形成新的嵌入矩陣X。最后,將Xrf與四元數(shù)矩陣進行矩陣乘法,并將結(jié)果與Xef進行乘法,得到了包含更多特征信息的實體向量,以達到更新實體嵌入向量的目的,同時從XRrf中提取特定關(guān)系的嵌入。具體過程如式(1)~(4)所示。
在這個過程中,不僅捕獲了實體結(jié)構(gòu)信息,還捕獲了關(guān)系結(jié)構(gòu)的潛在有用信息。例如在圖2中,捕獲了兩個鄰里關(guān)系之間的潛在依賴,即關(guān)于“出生地”和“所在城市”之間潛在依賴關(guān)系的知識,可能與預(yù)測“國籍”或“國籍國”等其他關(guān)系有關(guān),因此可以預(yù)測“John Wilson”的國籍信息。
2.2.2 多頭自注意力層
多頭自注意力機制使模型能夠更精準地理解圖譜中的復(fù)雜關(guān)系,例如圖1中,要預(yù)測誰是“John Wilson”的朋友,誰是“John Wilson”的寵物,目標實體的上下文復(fù)雜多樣,要結(jié)合查詢與上下文信息,為不同的實體分配不同的注意力權(quán)重,來捕獲實體和關(guān)系交互的關(guān)鍵特征,以此增強模型捕獲知識圖譜全局結(jié)構(gòu)信息的能力。例如,通過“bought”與“brother of”關(guān)系上下文,再結(jié)合查詢可以為“Evelyn”分配更高的權(quán)重。具體實現(xiàn)過程是,首先將得到的h(k),Qe和h(k),Qr通過水平堆疊函數(shù)進行合并得到特征邊,該特征邊包含了實體和關(guān)系的嵌入。然后對輸入的向量進行嵌入創(chuàng)建三個向量,三個矩陣通過線性投影得到Q、K、V這三個向量,對于每個頭,采用縮放點積注意力計算查詢向量Q和鍵向量K之間的相似度得到注意力權(quán)重,再將注意力權(quán)重與值向量V相乘,如式(5)所示。接著計算所有頭的加權(quán)求和結(jié)果,得到多頭注意力機制的輸出,如式(6)所示。
其中:KT表示鍵向量的轉(zhuǎn)置;d表示維度;Hn表示注意力頭的特征表示;n表示注意力頭個數(shù);W0表示轉(zhuǎn)換矩陣。
2.3 解碼器
本實驗采用傳統(tǒng)的知識圖譜嵌入模型TuckER作為評估三元組合理性的解碼器。
TuckER模型的核心是TuckER分解,它將一個張量分解為一個核心張量和一組矩陣相乘的形式。首先將獲得的全局特征矩陣分解成源向量src_edges,然后將源向量與所有的尾實體嵌入向量進行點積運算,得出三元組的得分情況。例如在對(John Wilson, friend, ?)評分時,使有效三元組(John Wilson, friend, Blake)的得分高于無效三元組(John Wilson, friend, Australia)的得分。以三元組(h,r,t)為例,定義評分函數(shù)為
ψ(eh,rr)=f(M(eh,rr)W)et(7)
其中:eh和rr分別表示實體和關(guān)系; f(·)表示非線性激活函數(shù);M(·)表示將各個實體和關(guān)系拼接起來的向量;W表示可學(xué)習(xí)的權(quán)重矩陣。最后該分數(shù)通過sigmoid函數(shù)作為最終得分:
P(eh,rr,et)=σ(ψ(eh,rr))(8)
在訓(xùn)練的過程中,采用二元交叉熵損失函數(shù)來優(yōu)化模型,目的是通過最小化加權(quán)損失函數(shù)來提升性能。損失函數(shù)可定義為
其中:V表示候選實體的個數(shù);yt′表示第t個樣本的二元標簽值(0或1)。
3 實驗
3.1 數(shù)據(jù)集
本文實驗是在三個基準數(shù)據(jù)集上進行的:FB15K-237是從Free-base[27]中抽取的子集,其去除了逆關(guān)系,只保留了互逆關(guān)系中的一種,包含了14 541個實體和237種關(guān)系;WN18RR是從WordNet[28]中抽取的子集,它去除了關(guān)系反向傳播來避免測試數(shù)據(jù)泄露,其包含了40 943個實體和11種關(guān)系類型。NELL995是從NELL[29]數(shù)據(jù)集的第995次迭代中提取的通用知識數(shù)據(jù)集,其包含了63 917個實體和198種關(guān)系類型。三種數(shù)據(jù)集具體統(tǒng)計信息如表1所示。
3.2 評價指標
為了準確評估模型的性能,本文使用MRR(mean reciprocal rank)[30]和hits@k[31]作為評價指標。MRR通過計算正確實體或關(guān)系排名的倒數(shù)平均值來評估補全效果,具體計算方法如式(10)所示。hits@k則衡量前K個候選項中正確三元組的比例。本文特別關(guān)注了hits@1、hits@3、hits@10,分別對應(yīng)前1名、前3名和前10名正確三元組的命中率,計算方法如式(11)所示。上述的兩個指標MRR和hits@k,其值越大越好,值越大表明正確三元組比例越大,就越符合事實情況。
其中:|T|表示三元組的數(shù)量;Ki表示第i個正確三元組的排名。
其中:|T|表示三元組的數(shù)量;|Num|表示正確三元組排前K名的次數(shù),本實驗將K設(shè)置為1、3、10。
3.3 實驗參數(shù)設(shè)置
本文使用PyTorch實現(xiàn)了該模型,實驗中為了方便對比不同的模型,通過不斷微調(diào)和優(yōu)化,訓(xùn)練參數(shù)如下:批處理大小統(tǒng)一設(shè)置為1 024,嵌入維度統(tǒng)一設(shè)置為256,多頭注意力機制的頭數(shù)設(shè)置為64,迭代次數(shù)epoch統(tǒng)一設(shè)置為500,并規(guī)定從第300次開始進行驗證和測試,每迭代10次打印一次結(jié)果。所有模型使用Adam[32]作為優(yōu)化器,使用Dropout[33]防止過擬合。FB15K-237、WN18RR、NELL995數(shù)據(jù)集的學(xué)習(xí)率分別設(shè)置為0.01、0.001、0.01。
3.4 基線模型
為驗證所提出模型在知識圖譜補全任務(wù)中的有效性,實驗選取了以下較為先進的基線模型進行了對比實驗:
a)TransE[13]:最早的平移距離模型,通過將實體和關(guān)系映射到低維向量空間,有效地捕捉了它們之間的語義關(guān)系。
b)CompIEx[17]:利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來捕獲實體和關(guān)系的復(fù)雜交互和結(jié)構(gòu)信息,同時利用注意力機制動態(tài)地調(diào)整不同部分對最終輸出的貢獻,從而提高信息提取的準確性。
c)R-GCN[20]:這是一個關(guān)系圖卷積網(wǎng)絡(luò)模型,它在節(jié)點的聚合操作中不僅考慮了鄰居節(jié)點,還引入了關(guān)系維度,考慮了節(jié)點間的關(guān)系。同時該模型還采用了參數(shù)共享和稀疏約束等技術(shù),從而更有效地捕捉圖數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)和語義信息。
d)ConvE[34]:將實體和關(guān)系向量平鋪為二維矩陣,并經(jīng)過卷積層進行特征提取,最后通過全連接層將提取的特征映射到最終的向量表示空間中。該模型參數(shù)少,并且通過1-N打分的方式加速訓(xùn)練。該模型的打分函數(shù)定義為:將頭實體和關(guān)系的向量堆疊,然后重組成二維的張量,經(jīng)過卷積后,得到特征映射向量。
e)TuckER[35]:是一個具有線性特征和完全表達的模型。該模型將三元組表示為一個二進制三階張量,并將其分解為核心張量和三個矩陣,核心張量表征了它們之間的交互級別。
f)ATTH[36]:引入了雙曲注意力,對知識圖譜的層次性和邏輯關(guān)系進行建模,進一步提升了模型處理復(fù)雜關(guān)系的能力。
g)SAttLE[37]:通過引入注意力機制來學(xué)習(xí)實體和關(guān)系的表示,模型能夠計算它們之間的注意力權(quán)重,進而關(guān)注與特定任務(wù)或查詢更為相關(guān)的部分,生成更準確、更有意義的嵌入表示。
3.5 實驗結(jié)果分析
3.5.1 實驗結(jié)果與基線模型對比分析
為了驗證模型的有效性,本文在不同的基線模型上對數(shù)據(jù)集FB15K-237、WN18RR、NELL995進行了實驗,并將本文模型CGIBAM與其他基線模型進行了對比分析,實驗結(jié)果如表2、3所示(粗體和下畫線分別表示最優(yōu)結(jié)果和次優(yōu)結(jié)果)。通過實驗結(jié)果的對比分析,本文模型在MRR、hits@1、hits@3、hits@10指標上相較于基線模型均有所提升。
在FB15K-237數(shù)據(jù)集上,本文模型與其他最好的基線模型相比,在MRR、hits@1、hits@3、hits@10評估方法上的性能分別提升了5.1、2.6、7、8.8百分點。
在WN18RR數(shù)據(jù)集上,評估指標MRR、hits@1、hits@3、hits@10分別提升了0.1、0.2、0.6、1.9百分點。
在NELL995數(shù)據(jù)集上,評估指標MRR、hits@1、hits@3、hits@10分別提升了3.4、0.9、2.4、2.2百分點。
從表2、3可以發(fā)現(xiàn),CGIBAM模型在多個評估指標上都優(yōu)于以往最先進的基線模型,這表明了CGIBAM模型的有效性。具體來說,CGIBAM模型利用雙子圖圖神經(jīng)網(wǎng)絡(luò)來捕獲關(guān)系結(jié)構(gòu)的潛在有用信息,并更新實體和關(guān)系的嵌入向量;同時通過多頭注意力機制來捕獲更新后實體和關(guān)系之間的重要交互特征,從而得到了包含知識圖譜全局結(jié)構(gòu)信息的特征,以達到增強模型捕獲全局結(jié)構(gòu)信息能力的目的。
通過分析表2、3還可以發(fā)現(xiàn),CGIBAM模型在FB15K-237和NELL995數(shù)據(jù)集上補全效果提升的幅度比在WN18RR數(shù)據(jù)集上要明顯得多,主要是因為FB15K-237和NELL995數(shù)據(jù)集分別涵蓋了237、198種不同的關(guān)系類型,關(guān)系類型多樣,數(shù)據(jù)復(fù)雜,相比之下,WN18RR數(shù)據(jù)集僅包含了11種關(guān)系類型。CGIBAM模型在FB15K-237和NELL995數(shù)據(jù)集上的優(yōu)異性能表明,它能夠更好地適應(yīng)多關(guān)系且復(fù)雜的知識圖譜,并因此在性能上取得良好的表現(xiàn)。
3.5.2 實驗結(jié)果具體實例分析
本實驗通過構(gòu)建雙子圖,來捕獲關(guān)系結(jié)構(gòu)的潛在有用信息,然后利用多頭注意力機制,根據(jù)實體、關(guān)系上下文來為不同的實體分配不同的權(quán)重,從而獲得實體和關(guān)系的交互信息,并以此來提高知識圖譜補全任務(wù)的準確性。補全后的知識圖譜如圖6所示。
圖6中構(gòu)建的以關(guān)系為中心的子圖,是以實體-關(guān)系作為一個節(jié)點,因此可以捕獲(born in, Sydney, city of)結(jié)構(gòu),從而獲得兩個關(guān)系“born in”和“city of”的潛在信息,由于它們對應(yīng)的實體都是一個“城市名”,從而使模型可以根據(jù)潛在信息預(yù)測“國籍”或者“國籍國”等關(guān)系,即(nationality, Australia)為通過捕獲關(guān)系結(jié)構(gòu)的潛在有用信息而獲得的關(guān)系信息。然后通過注意力機制,捕獲實體、關(guān)系的上下文信息,例如通過“company”與各個實體的交互,為更接近預(yù)測結(jié)果的實體分
配更高的權(quán)重,從而預(yù)測出“Blake”是“John Wilson”的朋友;同樣地,通過捕獲“bought”與“brother of”的上下文信息,即“Melbourne”買了“Evelyn”以及“George Smith”和“Marie White”是兄弟,再結(jié)合查詢誰是“John Wilson”的寵物,就可以預(yù)測出“Evelyn”是“John Wilson”的寵物。圖6證實了所提方法可以同時捕獲關(guān)系結(jié)構(gòu)的潛在有用信息和實體關(guān)系的交互信息,能夠提高知識圖譜補全任務(wù)的準確率。
3.6 消融實驗
為了驗證CGIBAM模型各模塊的有效性,本文將去除多頭注意力機制模塊的模型標記為CGIBAM-att,使模型失去了捕獲實體關(guān)系交互信息的能力,其他部分與CGIBAM模型一致。將去除雙子圖圖神經(jīng)網(wǎng)絡(luò)模塊的模型標記為CGIBAM-bip,使模型失去了捕獲關(guān)系結(jié)構(gòu)潛在有用信息的能力,其他部分與CGIBAM模型一致。將本文設(shè)計的CGIBAM模型與它的兩個變體模型在FB15K-237、WN18RR以及NELL995數(shù)據(jù)集上進行消融實驗,結(jié)果如圖7~9所示。
分析圖7~9可以發(fā)現(xiàn),橫坐標是FB15K-237、WN18RR以及NELL995數(shù)據(jù)集,縱坐標是補全效果評估指標MRR、hits@1、hits@3。去除雙子圖圖神經(jīng)網(wǎng)絡(luò)模塊和多頭注意力機制模塊都會導(dǎo)致模型的性能下降,例如在圖1、2中,因沒有考慮關(guān)系結(jié)構(gòu)的潛在有用信息和實體關(guān)系的交互信息,導(dǎo)致模型只能捕獲實體周圍的結(jié)構(gòu)信息,所以知識圖譜仍然缺失,這表明它們都是模型不可或缺的部分。而去除多頭注意力機制模塊對模型性能的影響相對更顯著,在三個數(shù)據(jù)集上,MRR指標分別下降了6.3、2.5、1.7百分點,hits@1指標分別下降了3.3、0.7、1.1百分點,hits@3指標分別下降了7.7、1.8、3.6百分點。在圖6中可以發(fā)現(xiàn),通過捕獲實體關(guān)系交互信息可以預(yù)測“Blake”是“John Wilson”的朋友,“Evelyn”是“John Wilson”的寵物這兩個關(guān)系,而通過捕獲關(guān)系結(jié)構(gòu)的潛在有用信息只預(yù)測出了“John Wilson”的國籍是什么這一個關(guān)系,從預(yù)測出的關(guān)系個數(shù)來看,獲取重要的實體關(guān)系交互特征比單獨獲取實體和關(guān)系特征更重要,因為實體關(guān)系交互特征包含了實體和關(guān)系深度融合的特征,有助于模型實現(xiàn)更精確的預(yù)測。
3.7 超參數(shù)分析
學(xué)習(xí)率是深度學(xué)習(xí)中一個重要的超參數(shù),它直接控制著模型參數(shù)在每次迭代中的更新步長。具體來說,學(xué)習(xí)率對模型目標函數(shù)能否順利收斂到局部最小值起決定性作用。因此,選取一個合適的學(xué)習(xí)率值是本文所設(shè)計模型的重點。
為了確定學(xué)習(xí)率對CGIBAM模型性能的影響,在其他參數(shù)相同的情況下,為模型設(shè)置不同的學(xué)習(xí)率,具體值分別為{0.001,0.005,0.01,0.02,0.1}。分別在數(shù)據(jù)集FB15K-237、WN18RR以及NELL995上采用MRR和hits@3評估方法進行實驗,不同學(xué)習(xí)率值的表現(xiàn)如圖10、11所示。
分析圖10、11可以發(fā)現(xiàn),橫坐標為學(xué)習(xí)率λ,其在{0.001,0.005,0.01,0.02,0.1}范圍內(nèi)變化,縱坐標是補全效果評估指標MRR、hits@3。在數(shù)據(jù)集FB15K-237和NELL995中,隨著學(xué)習(xí)率λ的增加,MRR和hits@3的值先增大后減小,在λ=0.01時達到最大值,說明模型在此時達到最好效果。這是因為隨著λ的增加,加快了模型的訓(xùn)練速度,使模型迅速找到了局部最優(yōu)。然而隨著學(xué)習(xí)率的持續(xù)增加,導(dǎo)致模型過度擬合數(shù)據(jù),在最優(yōu)解附近來回振蕩,甚至可能直接跳過最優(yōu)解,從而影響模型在驗證數(shù)據(jù)集上的性能。在WN18RR數(shù)據(jù)集中,隨著λ的增加,模型的效果呈持續(xù)下降趨勢,這是因為,與FB15K-237和NELL995數(shù)據(jù)集相比,WN18RR數(shù)據(jù)集中的關(guān)系類型和三元組少,導(dǎo)致模型的泛化性能下降和過度依賴訓(xùn)練數(shù)據(jù),從而使模型的性能表現(xiàn)不佳。通過分析實驗結(jié)果可以發(fā)現(xiàn),學(xué)習(xí)率對模型性能的影響是巨大的。
4 結(jié)束語
為了解決知識圖譜補全任務(wù)中傳統(tǒng)的基于GNN的知識圖譜補全模型所面臨的局限性,即它們往往只能捕獲實體鄰域信息而忽略了有關(guān)關(guān)系結(jié)構(gòu)的潛在有用信息,并且無法同時捕獲實體和關(guān)系交互的重要特征,本文提出了一種基于雙子圖和注意力機制的知識圖譜補全方法,該方法輔助采用編碼器-解碼器架構(gòu),旨在更加全面、深入地挖掘知識圖譜中的信息。該模型首先構(gòu)造兩個分別以實體和關(guān)系為中心的雙子圖,來分別捕獲實體鄰域信息和關(guān)系結(jié)構(gòu)的潛在有用信息,并將雙子圖形成的信息作為輸入,輸入到編碼器中以更好地更新實體和關(guān)系嵌入。然后,利用多頭注意力機制來學(xué)習(xí)更新后實體和關(guān)系之間的重要交互特征,以此來達到捕獲知識圖譜全局結(jié)構(gòu)信息的目的。最后,再將包含全局結(jié)構(gòu)信息的特征向量輸入到解碼器中,并引入評分函數(shù),對輸入的特征邊進行打分預(yù)測。實驗結(jié)果顯示:在FB15K-237、WN18RR以及NELL995數(shù)據(jù)集上,相較于基線模型,本文方法在MRR指標上分別實現(xiàn)了5.1、0.1、3.4百分點的顯著提升,hits@1指標則分別提高了2.6、0.2、0.9百分點,hits@3和hits@10指標也分別取得了7、0.6、2.4和8.8、1.9、2.2百分點的顯著增長,這些數(shù)據(jù)充分證明了本模型在知識圖譜補全任務(wù)中的顯著優(yōu)勢。
此外,通過對學(xué)習(xí)率的細微調(diào)整可以發(fā)現(xiàn):對于FB15K-237和NELL995數(shù)據(jù)集,學(xué)習(xí)率設(shè)置為0.01時模型性能最佳;而對于WN18RR數(shù)據(jù)集,0.001的學(xué)習(xí)率則帶來最優(yōu)的模型表現(xiàn)。這些發(fā)現(xiàn)為后續(xù)模型優(yōu)化提供了有價值的參考。在未來會繼續(xù)提升此模型的性能表現(xiàn)與泛化能力,以期在更廣泛的知識圖譜補全場景中發(fā)揮其潛力,同時計劃深入研究融合時序信息的知識圖譜補全模型,以探索更多可能性。
參考文獻:
[1]Xia Yi, Luo Junyong, Zhou Gang, et al. DT4KGR: decision Transformer for fast and effective multi-hop reasoning over knowledge graphs [J]. Information Processing and Management, 2024, 61(3): 103648.
[2]Xu Zihang, Chu Chiawei, Song Shiyang. An effective federated re-commendation framework with differential Privacy [J]. Electronics, 2024, 13(8): 1589.
[3]Serkan T, Fatih O. A novel framework for extracting knowledge ma-nagement from business intelligence log files in hospitals [J]. Applied Sciences, 2022, 12(11): 5621-5621.
[4]Govender L, Mearns M, Plessis D T. Knowledge management toolkit enhancement for a professional services firm [J]. SA Journal of Information Management, 2022, 24(1): e1-e11.
[5]Wells J. KM World 100 COMPANIES: that matter in knowledge ma-nagement [J]. KM World, 2022, 31(2): 16-21.
[6]Jessica F, Vinod H. Commentary: younger patients are choosing tissue valves: do the data match their fervor? [J]. The Journal of Thoracic and Cardiovascular Surgery, 2023, 165(2): 620-621.
[7]Moran F, Ariel S. Maximum matching sans maximal matching: a new approach for finding maximum matchings in the data stream model [J]. Algorithmica, 2023, 86(4): 1173-1209.
[8]Yang Can, Yue Peng, Gong Jianya, et al. Detecting road network errors from trajectory data with partial map matching and bidirectional recurrent neural network model [J]. International Journal of Geographical Information Science, 2024, 38(3): 478-502.
[9]Joel G A, Alei F, Xinran L. How much is too much?The impact of technology-facilitated information search effort on service experience [J]. Journal of Foodservice Business Research, 2024, 27(1): 40-60.
[10]Tamsin L. Response to Marcin Roszkowski 2023: modelling doctoral dissertations in Wikidata knowledge graph: selected issues [J]. The Journal of Academic Librarianship, 2023, 49(6): 123-128.
[11]Avishek C, Cosimo N, Cary O, et al. Knowledge graphs for COVID-19: an exploratory review of the current landscape [J]. Journal of Personalized Medicine, 2021, 11(4): 300-300.
[12]馬浩凱, 祁云嵩, 吳宇斌. 解糾纏鄰域信息聚合的知識圖譜補全方法 [J]. 計算機應(yīng)用研究, 2024, 41(3): 772-778. (Ma Haokai, Qi Yunsong, Wu Yubin. Knowledge graph completion method for disentanglement neighborhood information aggregation [J]. Research of Computer Applications, 2024, 41(3): 772-778.)
[13]Bordes A, Usunieru N, Garcia D A, et al. Translating embeddings for modeling multi-relational data [C]// Advances in Neural Information Processing System. 2013: 2787-2795.
[14]Thanh L, Ngoc H, Bac L. Knowledge graph embedding by projection and rotation on hyperplanes for link prediction [J]. Applied Intelligence, 2022, 53(9): 10340-10364.
[15]Dai Shaozhi, Liang Yanchun, Liu Shuyan, et al. Learning entity and relation embeddings with entity description for knowledge graph completion [C]// Proc of the 29th AAAI Conference on Artificial Intelligence.Palo Alto, CA: AAAI Press,2018:2181-2187.
[16]Ji Guoliang, He Shizhu, Xu Liheng, et al. Knowledge graph embedding via dynamic mapping matrix [C]// Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Vo-lume 1: Long Papers). Stroudsburg, PA: ACL Press, 2015: 687696.
[17]Trouillon T, Welbl J, Leili R S, et al. Complex embeddings for simple link prediction [EB/OL]. (2016-05-20). https://arxiv.org/abs/1606.06357.
[18]Zhang Shuai, Tay Yi, Yao Lina, et al. Quaternion knowledge graph embeddings [C]// Advances in Neural Information Processing Systems. 2019: 2735-2745.
[19]Lu Guangqian, Li Hui, Zhang Mei. Application of automatic completion algorithm of power professional knowledge graphs in view of convo-lutional neural network [J]. International Journal of Information Technologies and Systems Approach, 2023, 16(2): 1-14.
[20]Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks [C]//Proc of the 15th International Conference on Semantic Web. Berlin:Springer International Publis-hing, 2018: 593-607.
[21]Vashishth S, Sanyal S, Nitin V, et al. Composition-based multi-relational graph convolutional networks [EB/OL]. (2019-01-18). https://arxiv.org/abs/1911. 03082.
[22]Zhang Siheng, Sun Zhengya, Zhang Wensheng. Improve the translational distance models for knowledge graph embedding [J]. Journal of Intelligent Information Systems, 2020, 55(3): 1-23.
[23]Luo Angen, Gao Sheng, Xu Yajing. Deep semantic match model for entity linking using knowledge graph and text [J]. Procedia Computer Science, 2018, 129:110-114.
[24]Shang Chao, Tang Yun, Huang Jing, et al. End-to-end structure-aware convolutional networks for knowledge base completion [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 333060-3067.
[25]劉小洋, 李慧, 張康旗, 等. 基于知識圖譜的多特征融合謠言檢測方法 [J]. 計算機應(yīng)用研究, 2024, 41(5): 1362-1367. (Liu Xiaoyang, Li Hui, Zhang Kangqi, et al. Knowledge graph based multi-feature fusion rumor detection [J]. Research of Computer Applications, 2024, 41(5): 1362-1367.)
[26]Du Yongping, Pei Bingbing, Zhao Xiaozheng, et al. Deep scaled dot-product attention based domain adaptation model for biomedical question answering [J]. Methods, 2020, 173:69-74.
[27]Weeraratna C, Tang Xiaochen, Kostko O, et al. Fraction of Free-base nicotine in simulated vaping aerosol particles determined by X-ray spectroscopies [J]. The Journal of Physical Chemistry Letters, 2023, 14(5): 1279-1287.
[28]Sarnya S, Usha G. A machine learning-based technique with intelligent WordNet lemmatize for Twitter sentiment analysis [J]. Intelligent Automation Soft Computing, 2022, 36(1): 339-352.
[29]Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press,2010: 1306-1313.
[30]Chen Luanjie, Peng Ling, Yang Lina. Improving landslide prediction: innovative modeling and evaluation of landslide scenario with knowledge graph embedding [J]. Remote Sensing, 2023, 16(1): 314-325.
[31]Li Duantengchuan, Xia Tao, Wang Jing, et al. SDFormer: a shallow-to-deep feature interaction for knowledge graph embedding [J]. Knowledge-Based Systems, 2024, 284:111253.
[32]Mora A, Prados A, Mendez A, et al. ADAM: a robotic companion for enhanced quality of life in aging populations [J]. Frontiers in Neurorobotics, 2024, 18:1337608.
[33]Bowker H, Saxon D, Delgadillo J. First impressions matter: the influence of initial assessments on psychological treatment initiation and subsequent Dropout [J]. Psychotherapy Research: Journal of the Society for Psychotherapy Research, 2024,30: 1-11.
[34]Peng Jiabin, Zhang Lijuan, Fan Mingqiu, et al. An admission-control-based dynamic query tree protocol for fast moving RFID tag identification [J]. Applied Sciences, 2023, 13(4): 2228-2228.
[35]Lin Yankai, Liu Zhiyuan, Sun Maosong. Modeling relation paths for representation learning of knowledge bases [EB/OL]. (2015-08-15). https://arxiv.org/abs/1506.00379.
[36]Jia Yan, Lin Mengqi, Wang Yue, et al. Extrapolation over temporal knowledge graph via hyperbolic embedding [J]. CAAI Trans on Intelligence Technology, 2023, 8(2): 418-429.
[37]Baghershahi P, Hosseini R, Moradi H. Self-attention presents low-dimensional knowledge graph embeddings for link prediction [J]. Knowledge-Based Systems, 2023, 260: 110124.