關鍵詞:時序知識圖譜;實體對齊;知識嵌入;實體活躍度;潛在鄰居 中圖分類號:TP391.1 文獻標志碼:A 文章編號:1001-3695(2025)07-017-2048-08 doi:10.19734/j. issn.1001-3695.2024.12.0513
Abstract:Thepurposeof entityalignment is tobuildacomprehensive knowledgegraphbymatching identical entitiesacross multi-source knowledge graphs.Existing methods primarilyfocus onstaticknowledge graphs,failing tofulluizetheabundanttemporal informationpresentinlarge-scaleknowledgestructures,andneglectingpotentialneighbors thatarenotdirectly conectedwhileintegratingentityneighborhood information.Toaddressthesechallenges,thispaperproposedanentityalignmentmodel,EA,totegateighborhoodiformationintomporalnowledgeaphs.irstly,itonstructede ralfeaturesofentitiesbycapturingtheiractivitiesatdiferentimepoints.Next,itintroducedaneighborhoodsimilaritymeasurement methodto identifypotential neighboring nodes,enabling message pasing acrossseparatechannelstoextractdiverse neighborhoodrepresentationsandcapturedomain-specificfeatures.Finallyitcombined the temporalandneighborhoodfeatures of ntitiestogenerateenrichedentityembeddings.Experimentalresultsdemonstratethatthe proposed modelimproves hits@1 by1.8,1.7,1.7,and1.9 percentagepointson fourreal-worlddatasets,DICEWS-1K/20andYAGO-WIKI50K5K/1K,compared tothebest-performing baselinemodels.Thesefindings validatetheefectivenessof the proposedapproach. Key words:temporal knowledge graph;entity alignment;knowledge embeddng;entity activity;potential neighbors
0 引言
知識圖譜(knowledgegraph,KG)[1]以圖結構的形式存儲知識,圖中的節(jié)點表示實體,節(jié)點之間的邊表示關系。因此,知識圖譜本質(zhì)上是揭示實體之間關系的語義網(wǎng)絡。知識圖譜表示與現(xiàn)實世界對象相關的結構化知識,在眾多實際應用中發(fā)揮著重要作用,例如語義檢索[2]、實體關系抽取[3,4]等。然而,現(xiàn)有知識圖譜通常存在不完整的問題[5]。由于不同的知識圖譜源自不同的數(shù)據(jù)源,它們各自包含獨特的信息,但同時也涉及重疊的實體,這提供了一個融合不同知識圖譜中重疊實體的機會,從而實現(xiàn)知識圖譜的豐富和完善。
知識圖譜融合的一個典型策略是實體對齊(entityalignment,EA),它將來自不同知識圖譜的實體進行對齊,這些實體引用相同的現(xiàn)實世界對象。給定兩個知識圖譜和一組預對齊實體(也稱為種子對齊),通過實體對齊,找出它們之間所有可能的對齊實體,有效地連接來自不同數(shù)據(jù)源的實體,并將它們組織成更大、更完整的知識圖譜。早期的知識圖譜對齊方法可以追溯到基于符號的方法[7],其中手動構建的特征或規(guī)則是對齊實體的關鍵[8]。隨著知識圖譜嵌入[9]變得流行,提出了許多基于嵌入的知識圖譜對齊方法,如JAPE[]、MTransE[11]、IPTransE[12]、BootEA[13]等基于翻譯的模型和GCN-Align[14] MuGNN[15] ) AttrGNN[16] 等基于圖神經(jīng)網(wǎng)絡的模型,這些方法將實體嵌人到低維向量空間中,并通過計算向量表示之間的距離來獲得等價實體對。
然而,現(xiàn)有基于嵌入的實體對齊方法忽略了知識圖譜中的時間信息。以圖1的情況為例,給定兩個實體,富蘭克林·德拉諾·羅斯福、西奧多·羅斯福分別存在于兩個時序知識圖譜中,由于這兩個實體的鄰域信息的同質(zhì)性,基于時間不可知嵌入的方法很可能忽略時間信息,并將這兩個實體錯誤地識別為真實世界中的同一個人。這種現(xiàn)象表明,現(xiàn)有方法在處理時間特征時的局限性,知識圖譜中不僅包含了豐富的語義信息,而且存在時間信息,反映實體在不同時間點的變化,忽視時間信息使得對齊模型無法區(qū)分具有相似語義但處于不同時間節(jié)點的實體,容易導致錯誤匹配,這是實體對齊領域的一大挑戰(zhàn)。
知識圖譜本身的鄰域信息不能被充分利用,這仍是一個巨大的挑戰(zhàn)。對于實體對齊,每個實體的直接鄰居通常起著關鍵作用,但有時實體的直接鄰居實際是不相關的,而其潛在鄰居非常關鍵。圖2是一個具體的例子,在兩個知識圖譜中有兩個對齊的實體,托馬斯·杰弗里·漢克斯的直接鄰居羅賓·威廉姆斯、丹澤爾·華盛頓和湯姆·漢克斯的直接鄰居史蒂文·斯皮爾伯格、安東尼奧·班德拉斯都不是對應的對等實體,但費城故事作為他的潛在鄰居,可以作為等價實體找到,這種現(xiàn)象不是偶然的。該現(xiàn)象表明,潛在鄰居信息雖然并不與實體直接相連,但在語義或關系上有潛在的聯(lián)系,過度依賴直接鄰居可能會忽略那些潛在的、間接連接的實體,這種忽視會影響對齊結果的準確性,尤其是當直接鄰居的相似度較低或無法提供足夠信息時,潛在鄰居往往能夠揭示實體之間更加深層的聯(lián)系。
本文提出一種融合實體鄰域信息的時序知識圖譜實體對齊方法ENTEA,用于解決上述兩個問題。為了解決第一個問題,將時間信息合并到實體對齊模型中,為了解決第二個問題,將潛在鄰居信息融人實體嵌入以豐富實體的嵌入。本文的主要工作如下:
a)在時間信息編碼器中,為每個實體構建時間字典,采用二分圖思想,捕捉實體在不同時刻的活躍度來構建實體的時間特征,從而得到實體的時間嵌入。
b)在實體鄰域信息編碼器中,提出一種鄰域相似性度量方法識別潛在的鄰居節(jié)點,在單獨信道中執(zhí)行消息傳遞提取不同的鄰居表示并使用門控機制進行融合,豐富實體的嵌入。
1相關工作
許多實體對齊方法通過測量實體嵌入之間的相似性找到跨知識圖譜的等價實體。大多數(shù)基于嵌人的實體對齊方法可以分為基于翻譯模型和基于圖神經(jīng)網(wǎng)絡的模型兩類。隨著時序知識圖譜的發(fā)展,時間感知的實體對齊模型也逐漸興起。
1.1基于翻譯的模型
典型的基于翻譯的實體對齊模型從TransE[9及其變體學習實體嵌入。TransE模型將實體和關系映射到同一維度空間,將三元組 (h,r,t) 表示為 h+r≈t ,其中, Ω,h 表示頭實體, r 表示關系,t表示尾實體。TransE模型將知識圖譜的結構特性向量化,通過實體與關系之間的向量關系表示知識圖譜中內(nèi)在的結構信息。MTransE[1]學習兩個獨立的知識圖譜嵌入空間之間的映射。 JAPE[10] 提出在統(tǒng)一的優(yōu)化目標中聯(lián)合學習結構嵌人和屬性嵌人。IPTransE[12]在JAPE的基礎上通過半監(jiān)督的方式生成對齊種子進行迭代學習,挖掘出潛在的同義實體并極大地提高了對齊的性能。BootEA[13]在IPTransE的迭代學習的基礎上通過實體自擴展的方法提高了生成的對齊種子的質(zhì)量,進一步提高了實體對齊的性能。
翻譯模型的基本原理是基于簡單的向量平移表示實體間關系,這種方式能夠很好地建模實體間的一對一關系,但對于一對多、多對一和多對多等復雜關系時,無法通過單一的平移操作進行準確表示,模型結構缺乏對復雜關系的適應性和處理能力。
1.2基于圖神經(jīng)網(wǎng)絡的模型
受益于對非歐幾里德空間建模的能力,圖神經(jīng)網(wǎng)絡(graphneuralnetworks,GNN)在包括社交網(wǎng)絡和知識圖譜在內(nèi)的許多領域中變得越來越流行。圖卷積網(wǎng)絡(graphconvolutional net-works,GCN)[1]是GNN的一種擴展,它通過聚合來自節(jié)點鄰域的信息生成節(jié)點級嵌入。GCN-Align[14]模型使用圖卷積網(wǎng)絡將來自不同語言的實體嵌入到統(tǒng)一的向量空間中,有效地結合了結構嵌人和屬性嵌人來改進實體對齊結果。隨后,由于聚合鄰居的策略不同,研究者提出了多種GNN變體用于實體對齊。MuGNN[15] 采用了一種新的多通道圖神經(jīng)網(wǎng)絡模型,通過多通道魯棒編碼兩個待對齊的知識圖譜來學習知識圖嵌入。AttrGNN[16]、NAEA[18]利用知識圖譜的輔助信息來輔助實體的信息聚合。RDGCN[19]引人了一種創(chuàng)新的關系感知雙圖卷積網(wǎng)絡,通過緊密交互知識圖和其對偶關系,以整合關系信息,并進一步捕捉鄰近結構,從而更有效地學習實體的表示。此外,圖注意力網(wǎng)絡(graphattentionnetworks,GAN)[20]采用自注意機制來計算每個實體的隱藏表示,自適應地聚合鄰居節(jié)點以獲得實體的嵌入。以上大多數(shù)算法只關注直接鄰居的信息,AliNet[21]方法關注兩跳鄰居的重要性,設計了一種多層網(wǎng)絡來聚合多跳鄰域信息。TGAEA[22]結合雙層圖注意力網(wǎng)絡的鄰域信息聚合方法優(yōu)化屬性和鄰域信息的加權聚合,顯著提升了實體對齊的準確性。
現(xiàn)有基于神經(jīng)網(wǎng)絡的方法在考慮知識圖譜中實體的鄰域信息時取得了一定的進展,但大多模型只關注實體的直接鄰居,忽略實體的潛在鄰居。并且,這些方法缺乏對時間維度的考慮,忽略了知識圖譜中普遍存在的時間信息,導致未能捕捉到時間信息對實體對齊任務的關鍵影響。
1.3 時間感知的模型
由于靜態(tài)知識圖譜實體對齊方法存在局限性,它們無法處理包含時態(tài)信息的復雜對象。為了解決這個問題,TEA-GNN[23] 使用時間感知注意機制將關系和時間信息合并到GNN結構中,該結構為不同的節(jié)點分配不同的權重,并使用正交變換矩陣計算鄰域中相關關系和時間戳的嵌入。 Tem?EA[24] 使用遞歸神經(jīng)網(wǎng)絡來學習時間序列表示,并使用GCN和嵌入模型學習結構信息和屬性信息。TREA[25]將實體、關系和時間戳映射到嵌入空間,GNN用于提取圖中的信息,而基于時間關系注意力的機制用于融合連接節(jié)點的關系和時間特征。STEA[26]提出了一種簡單的GNN模型,該模型結合了一種匹配時間信息的機制,以利用更少的時間信息和參數(shù)實現(xiàn)更好的性能。
現(xiàn)有時間感知的對齊方法普遍依賴于時間感知的注意力機制或正交變換矩陣來直接處理時間戳,將時間信息與其他圖結構特征共同嵌入,未能獨立處理時間信息的復雜性與對齊任務中的實際作用,導致其在面對時序知識圖譜時的靈活性受到限制。
在學習相關實體對齊任務的基礎上,本文方法在兩個方面進行了改進:
a)為解決現(xiàn)有方法嵌入時間信息過程不夠靈活的問題,本文提出一種獨立的時間嵌入方法,捕捉實體在不同時刻的活躍度來構建實體的時間特征,從而得到實體的時間嵌入。
b)為解決現(xiàn)有方法未充分利用實體鄰域信息的問題,提高實體對齊結果的精確性,本文將時間信息引入到實體的潛在鄰居識別,聚合實體的潛在鄰居信息,從而豐富實體的嵌入。
2 模型設計
2.1 符號定義
定義1時序知識圖譜。時序知識圖譜可以表示為 TKG= (E,R,T,Q) ,其中 E 是實體的集合, R 是關系的集合, T 是包含所有可能的時間戳的集合,這些時間戳可以是特定的時間點或時間間隔。 Q 是四元組的集合,表示為 t∈E,r∈R,τ∈T} 。其中, h 和 χt 代表頭實體和尾實體, r 代表關系, ? 代表時間戳,從時間戳 T 的集合中選擇,以指示實體和關系何時出現(xiàn)或存在。
定義2實體對齊。給定兩個時序知識圖譜, ,
R1,T1,Q1) , TKG2=(E2,R2,T2,Q2) 。其中, E1 和 E2 分別為TKG1 和 TKG2 的實體集 E1={e1,e2,…,em},E2={e1,e2,…, (204號en} 。實體對齊的目標是在 TKG1 和 TKG2 中找到對應的實體對,即在 E1 中找到一個實體 ei ,在 E2 中找到一個實體 ej ,使得ei 和 ej 表示現(xiàn)實世界中的同一個實體, i 和 j 表示 E1 和 E2 中的任意兩個實體。
2.2 模型整體框架
ENTEA模型的整體框架如圖3所示。ENTEA遵循編碼器-解碼器框架,輸入是兩個時序知識圖譜和對齊種子。編碼器包括時間編碼器和鄰域編碼器。時間編碼模塊為每個實體構建時間字典,采用二分圖思想,通過捕捉實體在不同時刻的活躍度構建實體的時間特征,定義一個時間嵌入器,改進特征表示,從而獲得實體的時間嵌入;鄰域編碼模塊提出一種鄰域相似性度量方法識別潛在的鄰居節(jié)點,然后通過在單獨的信道中執(zhí)行消息傳遞來提取不同的鄰居表示,使用門控機制融合不同鄰居的表示以改進實體嵌人。在解碼器模塊中,結合時間信息和鄰域信息得到實體最終的實體特征嵌入,通過將距離函數(shù)應用于實體的表示來預測實體對。
2.3 編碼器模塊
2.3.1 編碼時間信息
時間信息通常在數(shù)據(jù)集中由時間點 τ 和時間區(qū)間 [τ,τ′] 表示。 τ 表示事實發(fā)生在當前時間, [τ,τ′] 表示事實從 τ 開始并在 τ′ 結束。使用四元組構建時間字典 Dic 。時間字典 Dic 是專門設計用于存儲實體及其相關時間信息的列表。對于同一個實體,每個時間信息可能會重復出現(xiàn)很多次,所以這里使用列表存儲而不是集合。在時態(tài)知識圖譜中,每個實體都有自己的時間字典,這些時間字典用于記錄與實體相關的時間點或時間區(qū)間,以便在后續(xù)操作中可以快速檢索相關信息。時間字典的目的是提供一種有效的方式來表示和比較不同實體在時間維度上的關聯(lián)和交互。如果四元組是 (h,r,t,τ) ,則 τ 將被添加到頭實體 h 的時間字典和尾實體 χt 的時間字典中。如果四元組是 (h,r,t,[τ,τ′] ), [τ,τ′] 將被添加到頭實體 h 的時間字典和尾實體 χt 的時間字典中。
為了最大限度地利用時間信息,考慮了實體的多個時間點和時間區(qū)間。通過捕捉實體在不同時刻的活躍度來為時序知識圖譜中的實體構建時間特征。
對于一個時序知識圖譜,實體集合 E 用于存儲實體,時間集合 T 用于存儲時間信息,由時間點集合 Tpoint 和時間區(qū)間集合 Tinterval 兩部分組成,用以下形式表示:
E={e1,e2,…,em}
Tpoint={τ1,τ2,…,τn}
Tinterval={[τn+1,τn+1′],[τn+2,τn+2′],…,[τk,τk′]}
從實體集合 E 和時間集合 T 之間構建一個二分圖 St 。 St 的維度是 m×k 二分圖中的每一條邊 (e,τ) 都代表實體 e 在時間 τ 上參與了某些事件,其中的邊可以看作是一種關系的表示方式,用來展示實體在特定時間的活躍情況或參與情況。
計算實體和時間之間的基本權重,用來表示實體在某個時間參與的頻率。假設用 Ce,τ 表示實體 e 在時間 τ 上參與事件的次數(shù),即實體 e 的時間字典中時間 τ 的數(shù)量。基本權重表示為
各個實體在所有時間點上的總參與度可能差別很大,有的實體可能在許多時間點都有頻繁參與,有的實體可能只參與少數(shù)時間點。引入歸一化因子幫助消除這種差異,使得每個實體的權重在不同時間點上具有可比性。這個因子是針對每個實體 e 而言的,即該實體在所有時間點上的參與度的總和。實體e 和時間 τ 的關聯(lián)強度如下:
引入一個由線性層、ReLU激活函數(shù)和dropout操作組成的時間嵌人器。首先將輸人時間特征映射到一個隱藏空間,并通過ReLU激活函數(shù)引入非線性,公式表示為
ht=ReLU(linear(se)?(We))
ht=dropout(ht,p)
其中: se 是時間特征; We 是權重矩陣,其使用Xavier均勻初始化,以確保參數(shù)處于合理范圍內(nèi),這可以避免諸如梯度消失或梯度爆炸等問題,并且提高模型的訓練效果; ht 是時間嵌入表示; p 是丟棄率。
2.3.2 編碼鄰域信息
有些實體不包含足夠的信息,從而導致較差的對齊結果??梢酝ㄟ^聚合鄰域信息,從鄰域信息中推斷出可能與足夠的事實有聯(lián)系的特征,實體與其相鄰的連接通常有限,使用潛在鄰居可以提高連接密度,并通過整合來自遠程實體的知識來改善實體對齊,但識別潛在的鄰居實體并不容易。
通過計算實體之間的相似性判斷是否是潛在的鄰居實體,傳統(tǒng)方法只考慮節(jié)點對之間是否擁有更多公共鄰居,從而判斷實體相似性,只關注節(jié)點之間的連接結構,而忽略了節(jié)點鄰居對相似性的影響,對潛在鄰居的識別不夠全面。
本文提出了一種鄰域相似性度量方法解決此問題,如圖4所示,該鄰域的相似性是考慮公共鄰域分布(CND)和公共時間分布(CTD)來計算的。
具體地,CND相似度計算為
sCND(u,v)=1N(u)∩N(v)∣
其中: N(u) 表示節(jié)點 u 的鄰居集合; sCND(u,v) 的值表示節(jié)點u∈E 和 v∈E 的共同鄰居數(shù)量。
CTD 相似性計算如下:
其中: ?:hti 是實體 i 的時間嵌入向量, i≠u 表示在計算時排除節(jié)點 u 自身; cos(?,?) 表示使用余弦相似度來比較節(jié)點的鄰居時間分布。
然后,為了獲得可靠且魯棒的相似性矩陣,將上文得到的公共鄰域分布相似性 sCND(u,v) 和公共時間相似性 sCTD(u,v) 進行組合:
se(u,v)=sCND(u,v)+sCTD(u,v)
在計算出相似性矩陣后,通過為每個節(jié)點保留對應于前 k
個相似節(jié)點的 k 條邊來確定節(jié)點的潛在鄰居,記為 Se 。
通過信息傳播來提取潛在鄰居、直接鄰居以及節(jié)點本身的表示。將矩陣 Se?SCND?SCTD 引入到公式中,可得到節(jié)點的潛在鄰居表示:
X(l)=σ(Ds-1/2SeDs-1/2X(l-1)Ws(l))
提取節(jié)點的直接鄰居表示可以表示為
X(l)=σ(D-1/2AD-1/2X(l-1)Wt(l))
其中: ?A 是實體的直接鄰接矩陣。
然后,使用單位矩陣 I 作為卷積矩陣來提取自身表示。實際上,這種卷積相當于一個全連接層,它學習自身表示如下:
X(l)=σ(X(l-1)Wf(l))
由于在信息傳遞過程中產(chǎn)生的噪聲會抑制模型的性能,所以值得在此方面投入大量的精力。為了進一步降低節(jié)點信息傳輸過程中噪聲的影響,設計了如下的門控機制:
G=W?(X(l)+X(l-1))+B
he(l)=G?X(l-1)+(I-G)?X(l)
其中: 是偏置矩陣; W 表示權重矩陣,使用Xavier均勻初始化 ?X(l)+X(l-1) 是 G 的輸入特征; G 相當于一個門控值,它決定了在計算當前層的輸出時,上一層的信息和當前層的信息各自所占的比例,起到了控制信息流動和篩選信息的作用,有助于減少噪聲影響并提高模型性能。在上述操作之后,實體的鄰域嵌入表示為 he 。
2.4解碼器模塊
進一步連接時間信息的嵌入與鄰域信息的嵌入,以獲得多視圖嵌入作為最終的實體表示,即
使用曼哈頓距離來計算它們的相似度。曼哈頓距離作為一種常用的距離測量方法,可以有效地測量空間中兩點之間的距離,尤其適用于處理高維稀疏向量,這符合時序知識圖譜中實體特征向量的特點。具體來說,曼哈頓距離計算兩個實體的向量表示在每個維度上差值的絕對值之和。對于實體對( ei ej) ,其中 ei∈TKG1 . ej∈TKG2 ,曼哈頓距離可以表示為
其中: |?|L1 表示向量的 L1 范數(shù)度量; d(ei,ej) 越小,實體對(ei,ej) 的向量表示越接近,因此它們對齊的概率就越高。
使用種子實體集 L 作為訓練數(shù)據(jù)來訓練模型,并使用基于邊的損失函數(shù)作為訓練目標。損失函數(shù)定義為
(18)其中: L 表示種子對齊集; L′ 表示負樣本,負樣本是通過從種子對齊集中隨機替換實體生成的; γgt;0 表示邊超參數(shù)。目標是最小化實體對之間的距離,有效地使它們接近零距離。相反,最大化負樣本之間的距離,以確保它們之間的距離更大。
3 實驗與結果分析
3.1 實驗設置
3.1.1數(shù)據(jù)集
為了驗證模型在真實世界知識圖譜中的有效性,采用四個包含時間信息的實體對齊數(shù)據(jù)集:DICEWS-1K/200[23]、YAGO-WIKI50K-5K/1K[23]。DICEWS數(shù)據(jù)集由 ICEWS05-15[27]構建,包含2005—2015年的政治事件。DICEWS-1K和DICEWS-200的唯一區(qū)別是對齊種子的數(shù)目。DICEWS-1K有1000的對齊種子,DICEWS-200有200的對齊種子。 YAGO[28] 和Wikidata[29]是兩個常見的大型知識庫,包含各種形式的時間信息,包括時間點、開始或結束時間和時間間隔。YAGO-WIKI50K包含50000個實體對,將知識圖譜YAGO與Wikidata中的相似實體鏈接起來。數(shù)據(jù)集中有YAGO-WIKI50K-5K和YAGO-WIKI50K-1K兩個子集。其中YAGO-WIKI50K-5K子集有5000個對齊種子,YAGO-WIKI50K-1K子集有1000個對齊種子。表1顯示了數(shù)據(jù)集的相關統(tǒng)計信息, ∣Q1∣ 和 ∣Q2 1表示四元組隨機分配的子集數(shù)量, |P| 表示總的實體對集合數(shù)量,ISI表示預對齊的實體對數(shù)量, |P|-|S| 表示測試的實體對集合數(shù)量。
3.1.2 評價指標
本文采用 hits@k 和MRR作為評價指標, hits@k 是指結果排名前 k 個中存在正確對齊實體的情況所占的比例, k 被設置為1和10。MRR代表的是正確對齊實體排名的倒數(shù)的平均值,較高的 hits@k 或MRR表明模型的性能更好。
3.1.3參數(shù)設置
模型的默認配置如下:嵌入維數(shù) dim=200 ,學習率 lr= 0.005,GNN層數(shù) L=2 ,邊際值 γ=1 ,丟包率為 0.3 對于YAGO-WIKI50K-5K和YAGO-WIKI50K-1K數(shù)據(jù)集,由于實體和關系的類型比較單一,設置潛在鄰居數(shù)量 k 為1。對于DICEWS-1K和DICEWS-200數(shù)據(jù)集,實體和關系的類型復雜,設置潛在鄰居數(shù)量 k 為3。遵循所有基線模型的超參數(shù)的默認最優(yōu)配置。所有實驗都是在一個帶有GPU的單核上進行的??傊P蛥?shù)設置經(jīng)過仔細調(diào)整和實驗驗證,以獲得最佳性能和結果。
3.1.4基線設置
為了驗證ENTEA模型的有效性,本文使用以下模型作為基線:a)MTransE[11]是第一個使用翻譯模型 TransE嵌入表示實現(xiàn)實體對齊的模型。b)JAPE[10通過結構嵌入對兩個圖譜的關系三元組進行嵌入,并通過屬性嵌入對其進行進一步細化。c)AlignE[13]采用面向數(shù)據(jù)的訓練方式來優(yōu)化知識圖譜嵌入,從而提高實體對齊的效果。d)GCN-align[14]通過GCN編碼節(jié)點鄰域信息以生成節(jié)點級嵌入,并通過預定義的距離函數(shù)預測EA。e) MuGNN[15] 通過多通道編碼學習嵌人,以解決結構差異的問題。f)MRAEA[30]通過關注節(jié)點的傳人和傳出鄰域及其連接關系的元語義,直接對跨語言實體嵌入進行建模。Δg)TEA-GNN[23] 通過反向鏈接生成、時間感知的注意力網(wǎng)絡,融合時間信息實現(xiàn)實體對齊。h)TREA[25]通過融合實體、關系和時間戳的嵌人,使用GNN捕獲圖中信息,并集成節(jié)點之間鏈接的關系特征和時間特征來實現(xiàn)對齊。
其中,MTransE、JAPE、AlignE是基于翻譯的模型;GCN-Align、MuGNN、MRAEA是基于圖神經(jīng)網(wǎng)絡的模型,它們屬于在靜態(tài)知識圖譜上進行實體對齊的模型;TEA-GNN、TREA屬于在時序知識圖譜上進行實體對齊的模型。
3.2 結果與分析
3.2.1整體實驗結果
表2顯示了本文模型以及上述模型在DICEWS和YAGO-WIKI50K數(shù)據(jù)集上的所有基線的實體對齊結果。表格中加粗表示所有方法中最優(yōu)結果,下畫線表示次優(yōu)結果。表2表明,ENTEA在所有指標上都顯著優(yōu)于四個數(shù)據(jù)集上的所有基線模型。與基線中最優(yōu)結果TREA相比,ENTEA在四個TKG數(shù)據(jù)集上的 hits@1 分別獲得了1.8、1.6、1.7和1.9百分點的改進,證明了ENTEA的有效性,即ENTEA能夠更好地利用時間信息和鄰域信息,提升知識圖譜的對齊效果。具體而言:
a)與MTransE、JAPE、AlignE等基于翻譯的模型相比,ENTEA在四個數(shù)據(jù)集上都有顯著提升?;诜g的基線方法通過學習實體間的關系進行對齊,但其只關注單一三元組,忽視了實體的鄰域信息。實體的上下文關系未能充分被建模,限制了其對齊效果。ENTEA能夠綜合利用鄰域信息,捕捉到更為豐富的上下文,提高對齊準確性。
b)與GCN-align、MuGNN、MRAEA等基于圖神經(jīng)網(wǎng)絡的模型相比,ENTEA在四個TKG數(shù)據(jù)集上皆有顯著提升。這些基線模型在一定程度上整合了鄰域信息,但在處理潛在鄰居的貢獻時仍存在局限性,而且這些模型缺乏對時間維度的考慮,忽略了知識圖譜中普遍存在的時間信息,導致在復雜的時序關系中難以捕捉到實體的真實匹配。ENTEA通過精確捕捉實體的時間特征,聚合直接鄰居信息和潛在鄰居信息,有效減少了錯誤匹配的情況。
c)與TEA-GNN、TREA等基于時序知識圖譜的模型相比,ENTEA在捕捉時間信息與鄰域信息的交互上表現(xiàn)更優(yōu)。TEA-GNN和TREA雖然考慮了時間特征,但對時間信息的利用不充分,而且對鄰域信息的融合也存在不足,特別是在潛在鄰居的建模方面。TEA-GNN和TREA在時間信息的處理上依賴于將時間戳直接嵌入到GNN中,但是時間戳的簡單嵌入并未充分考慮到時間在時序圖中的復雜性,且將時間信息和關系信息共同嵌入,時間信息的使用不夠靈活。ENTEA的改進主要得益于其通過實體在不同時刻的活躍程度構建時間特征,獨立嵌入時間信息并且充分利用時間信息用于潛在鄰居的識別,從而豐富實體的鄰域嵌入,深入理解實體在特定鄰域內(nèi)的語義演變規(guī)律,與時間信息協(xié)同作用,使得實體對齊更為準確。
在YAGO-WIKI5OK和DICEWS數(shù)據(jù)集上,實體存在很多時間信息可用于對齊,包含了大量的時序變化和時間戳數(shù)據(jù)。ENTEA揭示了實體在不同時間點的動態(tài)特征和演變過程,并將其與實體的鄰域信息相結合豐富實體的嵌人,顯著提高實體對齊的準確性。
3.2.2 消融實驗
為了進一步評估該模型的有效性,對ENTEA進行了四項消融研究,包括ENTEA-TE、ENTEA-NE、ENTEA-PN和ENTEA-CTD。ENTEA-TE表示不使用時序知識圖譜的時間信息,僅考慮鄰域信息且識別潛在鄰居時也只考慮公共鄰域分布;ENTEA-NE表示不聚合實體的鄰域信息,僅使用時間嵌人信息;ENTEA-PN表示不使用實體的潛在鄰居信息,僅使用時間嵌入和直接鄰居信息嵌人;ENTEA-CTD表示在識別實體潛在鄰居時,不考慮公共時間分布,僅考慮公共鄰域分布。
表3顯示了在DICEWS-1K、DICEWS-20O、YAGO-WIKI50K.5K和YAGO-WIKI50K-1K數(shù)據(jù)集上進行的ENTEA消融實驗??梢杂^察到,在移除模塊后,ENTEA的性能都有所下降。ENTEA-NE在沒有鄰域信息的情況下,與ENTEA相比,模型的性能都有所下降,驗證了收集鄰域嵌入的有效性。ENTEA-TE在沒有使用時間信息的情況下,模型性能都有所下降,這表明使用時間嵌入信息的重要性。DICEW數(shù)據(jù)集的性能下降比YAGO-WIKI50K更大,表明前者是與時間信息更相關的數(shù)據(jù)集。
3.2.3 敏感性分析
1)種子對齊集
在實體對齊過程中,為了研究種子對齊集對對齊效果的影響,將種子數(shù)作為變量進行實驗,分為 2%.4%.6%.8% 、10% ,實驗中 hits(a∣ 的對比如圖5所示。當種子數(shù)量增多時,所有模型的對齊準確率均會提升,但是當種子數(shù)量較少為 2% 時,相比于其他模型,ENTEA的準確度仍處于一個較高的狀態(tài)。
2)潛在鄰居的數(shù)量
為了研究潛在鄰居數(shù)量 k 的影響。實驗將 k 的值從1變化到5,步長為1。圖6表明,模型的 k 的最佳值因不同的數(shù)據(jù)集而異。YAGO-WIKI50K數(shù)據(jù)集上,當 k=1 時,取得最佳結果。DICEWS數(shù)據(jù)集上,當 k=3 時,取得最佳結果,當 kgt;3 時,模型的準確率會隨著 k 的增大而降低。基于此得出結論,YAGO-WIKI50K數(shù)據(jù)集的兩個圖譜中,實體和關系的類型都比較單一,直接鄰居可能足以提供類內(nèi)信息,所以 k 的值相對較小;DICEWS數(shù)據(jù)集的兩個圖譜中,直接鄰居不足以提供足夠的信息,通常需要潛在鄰居來捕獲信息,因此 k 的值相對較大。此外,太大的 k(kgt;4) 都會引入噪聲和不相關信息,隨著 k 的增大,模型考慮的鄰居數(shù)量越來越多,鄰居節(jié)點之間的信息可能存在冗余。這些冗余信息不僅沒有提供額外的有用信息,反而會干擾模型的學習過程,導致噪聲的增加,可能會引人一些不相關的鄰居節(jié)點。這些鄰居節(jié)點與目標實體的相關性較低,模型會把不相關的信息也納人學習,從而影響整體對齊效果。
3)嵌人維數(shù)
為了研究嵌入維度 dim 對ENTEA模型性能的影響,分別設置dim的值為 100,150,200,250,300,350 和400。圖7表明,隨著嵌入維數(shù)的增加,ENTEA對于 hits@1 度量的性能逐漸增強。當 dim=200 時性能最佳,當 dimgt;200 時性能改善變小。基于這些結果,嵌入維數(shù) dim=200 作為最終選擇,這樣可以避免模型復雜度的過度增加,同時保持高性能。
3.2.4 缺陷分析
在實體對齊任務中,ENTEA結合實體的時間嵌人和鄰域嵌入來計算時序知識圖譜中實體對之間的相似度,并獲得對齊的實體對。實驗結果表明,ENTEA在時序知識圖譜的實體對齊任務中取得了良好的效果。然而,ENTEA也有局限性。
a)ENTEA的有效性可能會受到訓練數(shù)據(jù)集的影響,因此在使用該模型之前需要對目標數(shù)據(jù)集進行適當?shù)姆治龊皖A處理,提高模型對數(shù)據(jù)表示的準確性。為了全面評估ENTEA的泛化能力,未來的工作應擴展到更多樣化的數(shù)據(jù)集,并分析數(shù)據(jù)集特性對模型性能的影響。
b)在處理非常大的數(shù)據(jù)集時也存在一些挑戰(zhàn)。由于大量的實體對在綜合考慮實體的時間信息、直接潛在鄰域信息時,模型會導致更長的計算時間以及更多的GPU內(nèi)存使用,未來的工作應擴展到在處理大規(guī)模數(shù)據(jù)集時,也要考慮模型的資源利用率與運行時間。
3.2.5案例分析
表4展示了一個案例,在YOGO-WIKI50K-1K中,ENTEA給出的預測與TEA-GNN不同。從該案例可以看出,TEA-GNN錯誤地將來自 TKG1 和 TKG2 的 Ilombe_Mboyo 和 Giuseppe_Rossini進行了對齊,因為這兩個實體在 TKG1 和 TKG2 中具有相似的連接鏈路和時間信息。與這兩個實體相關的一些鏈路具有相同的鏈接實體和關系類型,但時間信息不同。TEA-GNN通過時間感知注意力機制錯誤地將它們識別為對齊實體。而ENTEA通過實體在不同時刻的活躍度構建實體的時間特征可以正確區(qū)分這兩個實體,因為它們的時間戳不相等。
4結束語
本文介紹了一種融合實體鄰域信息的時序知識圖譜對齊模型ENTEA,融合實體的時間特征和鄰域特征,豐富實體嵌入。ENTEA通過捕捉實體在不同時刻的活躍度得到實體的時間特征構建實體的時間信息嵌人,并且對潛在的鄰居實體進行識別,在單獨的信道中執(zhí)行消息傳遞來提取不同的鄰居表示并且使用門控機制進行融合得到鄰居信息豐富實體的嵌入。在4個真實的數(shù)據(jù)集上的實驗結果表明,所提模型ENTEA優(yōu)于基線模型,對時序知識圖譜的實體對齊有顯著的改善。在未來工作中,將繼續(xù)改進模型在更多樣化的數(shù)據(jù)集中的性能,降低模型的資源利用率與運行時間。
參考文獻:
[1]徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述[J].電子科 技大學學報,2016,45(4):589-606.(Xu Zenglin,Sheng Yong pan,He Lirong,etal.Review onknowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China,2016,45(4):589-606.)
[2]Xiong Chenyan,Power R,Callan J.Explicit semantic ranking for academic search via knowledge graph embedding[C]//Proc ofthe 26thInternationalConferenceonWorldWideWeb.NewYork:ACM Press,2017:1271-1279.
[3]Liu Shuliang,Hu Xuming,Zhang Chenwei,etal.HiURE:hierarchical exemplarcontrastive learningforunsupervised relation extraction[C]//Procof North American Chapterofthe Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:ACL Press,2022:5970-5980.
[4]JiangChengyue,HuiWenyang,JiangYong,etal.Recall,expand, and multi-candidate cross-encode:fast and accurate ultra-fine entity typing[C]//Proc of the 61st Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL Press,2023: 11597-11609.
[5]Sun Zequn,Zhang Qingheng,Hu Wei,et al.A benchmarking study ofembedding-based entity alignment for knowledge graphs[C]// ProcofVLDBEndowment.[S.I.]:VLDBEndowment,202O:2326- 2340.
[6]張富,楊琳艷,李健偉,等.實體對齊研究綜述[J].計算機學 報,2022,45(6):1195-1225.(ZhangFu,YangLinyan,LiJianwei,etal.An overview of entity alignment methods[J]. Chinese Journal ofComputers,2022,45(6):1195-1225.)
[7]Suchanek FM,Abiteboul S,Senellart P. PARIS [C]/′ Proc of VLDBEndowment.[S.I.]:VLDBEndowment,2011:157-168.
[8]MahdisoltaniF,Biega J,Suchanek FM.YAGO3:a knowledge base frommultilingual Wikipedias[C]//Procofthe15thInternational SemanticWeb Conference.Berlin:Springer,2013:177-185.
[9]BordesA,UsunierN,Garcia-DuranA,et al.Translating embeddings formodelingmulti-relational data[C]//Procof the27thInternational Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2013:2787-2795.
[10]Sun Zequn,HuWei,LiChengkai.Cross-lingual entityalignment via joint attribute-preserving embedding[C]//Proc of the 16th International Semantic Web Conference.Cham:Springer,2017: 628-644.
[11]Chen Muhao,Tian Yingtao,YangMohan,etal.Multilingual knowledge graph embeddings for cross-lingual knowledge alignment[C]// Procof the 26th International Joint Conference on Artificial Intelligence.Berlin:Springer,2017:628-644.
[12]Zhu Hao,Xie Ruobing,Liu Zhiyuan,et al.Iterative entity alignment viajointknowledgeembeddings[C]//Procof the26th International JointConference on Artificial Intelligence.Francisco,CA:Morgan KaufmannPress,2017:4258-4264.
[13]Sun Zequn,Hu Wei, Zhang Qingheng,et al.Bootstrapping entity alignment with knowledge graph embedding[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Francisco, CA:MorganKaufmannPress,2018:4396-4402.
[14]Wang Zhichun,Lyu Qingsong,Lan Xiaohan,et al. Cros-lingual knowledge graph alignment via graph convolutional networks[C]// Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL Press,2018:349-357.
[15]Cao Yixin,Liu Zhiyuan,Li Chengjiang,et al.Multi-channel graph neural network for entity alignment[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACLPress,2019:1452-1461.
[16]Liu Zhiyuan,Cao Yixin,PanLiangming,et al.Exploringand evaluating attributes,values,and structures for entity alignment[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA:ACL Press,2020: 6355-6364.
[17]Kipf T,Welling M. Semi-supervised classfication with graph convolutional networks[C]// Proc of International Conference on Learning Representations.2022.
[18]Zhu Qiannan,Zhou Xiaofei,WuJia,et al.Neighborhood-aware attentional representation for multilingual knowledge graphs[C]//Proc of the 28th International Joint Conference on Artificial Intelligence. Francisco,CA:MorganKaufmannPress,2019:1943-1949.
[19]Wu Yuting,Liu Xiao,F(xiàn)eng Yansong,et al. Relation-aware entity alignment for heterogeneousknowledge graphs[C]//Proc of the28th International Joint Conference on Artificial Intelligence.Francisco, CA:MorganKaufmann Press,2019:5278-5284.
[20]Velickovic P,CucurullG,Casanova A,et al.Graph attention networks[C]//Proc of the 6th International Conferenceon Learning Representations. 2018.
[21]Sun Zequn,Wang Chengming,Hu Wei,et al.Knowledge graph alignmentnetwork with gated multi-hop neighborhood aggregation [C]//Proc of the 34th AAAI Conference on Artificial Intellgence. PaloAlto,CA:AAAIPress,2020:222-229.
[22]王鍵霖,張浩,張永爽,等.基于雙層圖注意力網(wǎng)絡的鄰域信息 聚合實體對齊方法[J].計算機應用研究,2024,41(6):1686- 1692.(Wang Jianlin, Zhang Hao, Zhang Yongshuang,et al. Neighborhood information aggregation entityalignment method based on double layer graph attention network[J].Application Research of Computers,2024,41(6):1686-1692.)
[23] Xu Chengjin, Su Fenglong,Lehmann J. Time-aware graph neural network for entityalignment between temporal knowledge graphs [C]//Proc of the 25th Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA:ACL Press,2O21:8999- 9010.
[24]SongXiuting,Bai Luyi,Liu Rongke,et al.Temporal knowledge graph entity alignment via representation learning[C]//Proc of the 27th International Conference on Database Systems for Advanced Applications.Cham:Springer,2022:391-406.
[25]Xu Chengjin,Su Fenglong,Xiong Bo,et al. Time-aware entity alignmentusing temporal relational attention[C]//Proc of ACM Web Conference.New York:ACM Press,2022:788-797.
[26]Li Cai,Mao Xin,Ma Meirong,et al.A simple temporal information matching mechanism for entity alignment between temporal knowledge graphs[C]// Proc of the 29th International Conference on Computational Linguistics.Berlin:Springer,2022:2075-2086.
[27]Garcia-Duráin A,Duman cic S,Niepert M. Learning sequence encoders for temporal knowledge graph completion [C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA:ACL Press,2018: 4816-4821.
[28]SuchanekFM,KasneciG,WeikumG.YAGO:a core of semantic knowledge[C]//Procofthe16thInternational ConferenceonWorld Wide Web.New York:ACM Press,2007:697-706.
[29]VrandeCic D,Krotzsch M. Wikidata: a free collaborative knowledgebase[J].Communications of the ACM,2014,57(10):78-85.
[30]Mao Xin,Wang Wenting,Xu Huimin,et al.MRAEA:an efficient androbust entity alignment approach for cross-lingual knowledge graph[C]//Proc of the 13th International Conference on Web Search andDataMining.New York:ACMPress,2020:420-428.