摘 要:
針對當(dāng)前的一些實體對齊工作僅利用關(guān)系結(jié)構(gòu)信息,而忽略了實體與實體類別之間的聯(lián)系以及屬性信息的重要性的問題,提出一種聯(lián)合實體類別及鄰域信息指導(dǎo)的實體對齊方法。該方法通過嵌入關(guān)系三元組、屬性三元組和實體類別信息,利用BERT預(yù)訓(xùn)練模型進(jìn)行編碼,解決缺失語義信息的問題,采用卷積神經(jīng)網(wǎng)絡(luò)提取屬性特征,利用實體類別和種子詞構(gòu)建類別沖突矩陣。最后通過實體和屬性指導(dǎo)實體對齊,并在迭代訓(xùn)練過程中將高質(zhì)量的實體對加入到種子詞中。在四個公開數(shù)據(jù)集上hits@1分別可達(dá)到90.1%、94%、92.5%和94.5%,相較于基準(zhǔn)模型平均提升了6.225百分點,實驗結(jié)果表明提出方法可以有效地實現(xiàn)實體對齊。
關(guān)鍵詞:知識圖譜;實體對齊;BERT;實體類別;屬性信息
中圖分類號:TP391.1"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號:1001-3695(2024)12-012-3614-08
doi: 10.19734/j.issn.1001-3695.2024.05.0161
Joint classes and neighborhood information guided embedding for entity alignment
Jiang Min, Wang Shuying
(School of Computing amp; Artificial Intelligence, Southwest Jiaotong University, Chengdu 611756, China)
Abstract:
This paper proposed an entity alignment method leveraging entity categories and neighborhood information. The method overcame the shortcomings of some approaches that did not consider the importance of class and attribute information. The method embedded relation triples, attribute triples, and entity class information, and encoded them using the BERT model to address the issue of missing semantic information. It used convolutional neural networks to extract attribute features. Then, it constructed a class conflict matrix with entity classes and seed words to guide the alignment process. During the iterative training, the method added high-quality entity pairs to the seed words. The hits@1 on the four public datasets can reach 90.1%, 94%, 92.5%, and 94.5%, respectively, which is an average improvement of 6.225% compared with the benchmark model. The experimental results show that the proposed model performs well in the task of entity alignment.
Key words:knowledge graph; entity alignment; bidirectional encoder representation from Transformers (BERT); entity class; attribute information
0 引言
知識圖譜(knowledge graph,KG)采用三元組〈頭實體,關(guān)系,尾實體〉的形式結(jié)構(gòu)化地表達(dá)真實世界的各種事實。隨著智能信息服務(wù)應(yīng)用的不斷發(fā)展,知識圖譜在人工智能領(lǐng)域扮演著非常關(guān)鍵的角色,例如在智能問答[1]、搜索引擎[2]、智能推薦[3]等方面發(fā)揮了重要作用。
鑒于知識領(lǐng)域的廣泛性與復(fù)雜性,一次性構(gòu)建一個全面覆蓋所有知識領(lǐng)域的綜合知識圖譜極為困難。因此,目前垂直領(lǐng)域知識圖譜多聚焦于針對某一個業(yè)務(wù)場景的小型圖譜上,如發(fā)動機(jī)設(shè)計知識圖譜[4]、故障維修知識圖譜[5]。然而,隨著知識圖譜在多個領(lǐng)域內(nèi)的廣泛應(yīng)用與深入發(fā)展,知識圖譜的異構(gòu)性和不完備性日益突出,出現(xiàn)“信息孤島”的現(xiàn)象。這種現(xiàn)象限制了知識資源的有效整合與共享,導(dǎo)致知識資源的碎片化與低效利用[6]。
為了克服這一挑戰(zhàn),實現(xiàn)知識圖譜之間的有效融合成為了一個迫切的研究課題。實體對齊(entity alignment,EA)的目標(biāo)是從不同來源的知識圖譜中找到指向現(xiàn)實世界的同一實體,該任務(wù)是知識融合的關(guān)鍵步驟。實體對齊可以幫助識別和解決數(shù)據(jù)中的冗余和沖突問題,提高知識圖譜的數(shù)據(jù)質(zhì)量和知識覆蓋率,從而實現(xiàn)知識融合、擴(kuò)充已有知識庫和推進(jìn)信息共享,形成更加全面、豐富的知識圖譜[7]。
最早的實體對齊工作大多集中在句法和結(jié)構(gòu)上[8],主要依賴于符號特征[9]和關(guān)系推理[10]來實現(xiàn)實體對齊,但是這些方法忽略了多方面隱含的語義信息,如結(jié)構(gòu)信息和屬性之間的關(guān)聯(lián)語義信息等,導(dǎo)致實體對齊的效果有限。
近年來, 隨著實體對齊工作的持續(xù)深化與拓展,實體相關(guān)信息被引入以輔助和優(yōu)化實體對齊的過程,從而推動相關(guān)研究的進(jìn)一步發(fā)展與完善。初始階段,主要依賴關(guān)系結(jié)構(gòu)三元組進(jìn)行實體對齊。后來逐漸認(rèn)識到實體名稱和屬性三元組在實體對齊中的重要作用。此外,由于實體可能存在描述差異但屬于同一類別或者描述信息相近卻分屬于不同類別的情況,實體類別信息也展現(xiàn)出其不可或缺的價值。因此,本文提出了一種聯(lián)合實體類別及鄰域信息指導(dǎo)的實體對齊方法(joint classes and neighborhood information guided embedding for entity alignment,JCNEA)。在實體關(guān)系三元組的基礎(chǔ)上引入實體類別信息和屬性信息,在迭代訓(xùn)練過程中持續(xù)篩選出高質(zhì)量的實體對加入至種子詞集,從而提升類別沖突識別的精準(zhǔn)度。本文的主要貢獻(xiàn)如下:
a)在嵌入模塊,使用自然語言處理中預(yù)訓(xùn)練語言模型BERT[11]對文本進(jìn)行初始化編碼,使其包含豐富的語義信息。
b)考慮實體類別信息,構(gòu)造實體類別沖突矩陣,結(jié)合實體類別信息中的類層次和類不相交性解決實體類別沖突,在迭代訓(xùn)練的過程中利用類別嵌入對實體對齊進(jìn)行指導(dǎo)。
c)考慮實體屬性信息,并通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[12]來充分提取屬性和屬性值的特征,在迭代訓(xùn)練的過程中將提取到的特征融合到實體表示中,從而指導(dǎo)實體對齊。
1 相關(guān)工作
知識表示學(xué)習(xí)也被稱為知識嵌入,是目前較為廣泛應(yīng)用的實體對齊方法。這種嵌入方法通過將多個知識圖譜中的實體映射到低維向量空間,利用向量空間的幾何結(jié)構(gòu)來捕獲實體之間的語義關(guān)聯(lián)性,同時也能隱性地降低不同知識圖譜間的異構(gòu)性問題?;谇度氲膶嶓w對齊方法主要分為基于翻譯模型的實體對齊方法和基于圖神經(jīng)網(wǎng)絡(luò)模型的實體對齊方法兩大類。
1.1 基于翻譯模型的實體對齊方法
翻譯模型以TransE[13]及其擴(kuò)展模型為主,這類實體對齊方法將來自不同知識圖譜的實體嵌入到同一向量空間中,并通過比較這些嵌入的相似度來識別對齊的實體。MTransE[14]首次將TransE的思想用到實體對齊工作中,獨(dú)立地學(xué)習(xí)兩個不同知識庫的嵌入表示,并利用先驗知識學(xué)習(xí)兩個知識庫向量空間之間的映射轉(zhuǎn)換;IPTransE[15]基于PtransE[16]的思想,不僅考慮了圖譜中節(jié)點之間的一階鄰居關(guān)系,還進(jìn)一步利用了多步路徑信息以及實體間復(fù)雜的間接關(guān)系來輔助實體對齊;BootEA[17]將TransE作為其核心編碼模塊,采用了一種迭代增加實體對齊種子的方法,通過不斷擴(kuò)展已知的對齊實體集合來進(jìn)一步優(yōu)化知識圖譜的嵌入學(xué)習(xí);KDCoE[18]在翻譯模型的編碼模塊基礎(chǔ)上融入了實體的描述信息,并基于關(guān)系三元組進(jìn)行協(xié)同訓(xùn)練,從而優(yōu)化實體對齊效果;JAPE[19]利用屬性相關(guān)性聚類相似實體,以屬性嵌入表示實體,從而約束實體基于關(guān)系的嵌入表示;MultiKE[20]將單個知識圖譜分為實體名稱、關(guān)系、屬性三個獨(dú)立的視圖,分別訓(xùn)練三個視圖下的實體向量,最終將三個視圖訓(xùn)練得到的實體向量結(jié)合起來用于實體對齊,有效提高了實體對齊的準(zhǔn)確率;OntoEA[21]采用TransE作為主要的建模方式,在對齊工作中引入了本體,通過利用本體中包含的實體類別和實體與類別之間的聯(lián)系有效緩解了類沖突問題。
1.2 基于圖神經(jīng)網(wǎng)絡(luò)模型的實體對齊方法
基于圖神經(jīng)網(wǎng)絡(luò)模型的實體對齊方法將鄰近節(jié)點視為根節(jié)點的信息,使用圖神經(jīng)網(wǎng)絡(luò)作為編碼器,以捕獲子圖結(jié)構(gòu),并對實體的信息進(jìn)行聚合,最終轉(zhuǎn)換為向量表示,可以很好地解決因路徑過長導(dǎo)致對齊效果差的問題。GCN-Align[22]首次提出使用圖神經(jīng)網(wǎng)絡(luò)來完成實體對齊,通過圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)合結(jié)構(gòu)信息和屬性信息共同學(xué)習(xí)實體表示;RDGCN[23]通過構(gòu)建一個對偶關(guān)系圖,利用知識圖與其對偶關(guān)系副本之間的密切交互將關(guān)系信息編碼到實體表示中;HMAN[24]使用圖卷積神經(jīng)網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)來分別組合實體的多方面信息,包括實體的拓?fù)溥B接、關(guān)系和屬性,以學(xué)習(xí)實體嵌入;AliNet[25]結(jié)合注意力與門控神經(jīng)網(wǎng)絡(luò)以緩解鄰域結(jié)構(gòu)的異構(gòu)性,通過引入多跳鄰居解決鄰域結(jié)構(gòu)之間的重疊問題;RAGA[26]通過引入注意力機(jī)制學(xué)習(xí)關(guān)系的表示,利用注意力機(jī)制區(qū)分同一節(jié)點下不同關(guān)系的重要性,將學(xué)習(xí)到的關(guān)系信息融入到實體向量表示中。
綜上所述,實體對齊已經(jīng)取得豐碩的研究成果。但是,針對知識圖譜中豐富實體類別和鄰域信息的綜合利用仍存在不足。同時,考慮到訓(xùn)練數(shù)據(jù)量及訓(xùn)練成本問題,本文使用基于翻譯模型的方法實現(xiàn)知識圖譜三元組的嵌入,與以往基于翻譯模型的實體對齊方法不同,本文提出的聯(lián)合實體類別及鄰域信息指導(dǎo)的實體對齊方法,能夠充分獲取實體關(guān)系三元組、屬性三元組和類別三元組中更加深層次的語義信息,并結(jié)合相關(guān)信息進(jìn)行實體對齊,在一定程度上提升實體對齊的準(zhǔn)確率。
2 問題描述
知識圖譜通常以KG={E,R,A,V,T}表示,其中E、R、A、V、T分別表示知識圖譜中的實體集、關(guān)系集、屬性集、屬性值集和知識三元組集合。關(guān)系三元組表示為TR={(h,r,t)|h,t∈E,r∈R,(h,r,t)∈T};屬性三元組TA={(h,a,v)|h∈E,a∈A,v∈V,(h,a,v)∈T}[24]。與某個實體直接相連的實體和屬性為該實體的鄰域節(jié)點,而這些關(guān)系三元組和屬性三元組正是構(gòu)成實體鄰域信息的核心要素。
假設(shè)每個KG都有其相關(guān)聯(lián)的本體,本體中包含實體類別信息,類別是事物對象的種類,并具有層級結(jié)構(gòu),上一層級的類別比下一層級類別所指示的范圍更廣,這樣的層級結(jié)構(gòu)也可以通過三元組的形式表達(dá)。那么,知識圖譜對應(yīng)的實體類別信息可以表示為O={C,H},C代表類別集合,H={(ch,ro,ct)|ch,ct∈C,ro=subClassOf}代表類別三元組集合。由于類之間的關(guān)系只選取subClassOf類型,所以類別三元組可以簡化為H={(ch,ct)|ch,ct∈C}。
對于兩個知識圖譜:源圖譜KGi={Ei,Ri,Ai,Vi,Ti}和目標(biāo)圖譜KGj={Ej,Rj,Aj,Vj,Tj},實體對齊的任務(wù)是找出KGi和KGj中存在等價關(guān)系的實體對,可以表示為L={(ei,ei)|ei=ej,ei∈Ei,ej∈Ej}[27]。
3 方法描述
3.1 總體框架
本文所提出的聯(lián)合實體類別及鄰域信息指導(dǎo)的實體對齊模型,充分利用實體類別信息及實體鄰域信息。模型框架如圖1所示,本文模型主要分為嵌入層、指導(dǎo)層、迭代訓(xùn)練層三層結(jié)構(gòu)。首先通過BERT預(yù)訓(xùn)練模型獲取實體、屬性、類別的初始化表示,充分獲取語義信息,在實體嵌入過程中采用RotatE[28]對關(guān)系三元組進(jìn)行建模,在對不同空間的向量優(yōu)化過程中使用文獻(xiàn)[17]的截斷負(fù)均勻采樣方法對三元組進(jìn)行負(fù)樣本的抽取,采用卷積神經(jīng)網(wǎng)絡(luò)充分提取屬性名和屬性值的特征,在訓(xùn)練過程中通過構(gòu)建類別沖突矩陣調(diào)整實體類別嵌入,然后利用屬性和類別自底而上地進(jìn)行嵌入指導(dǎo),最后進(jìn)行對齊訓(xùn)練,并將得到高質(zhì)量的實體對加入到種子詞集,更新參數(shù),進(jìn)行迭代訓(xùn)練。
3.2 嵌入層
3.2.1 基于預(yù)訓(xùn)練模型的初始化
預(yù)訓(xùn)練模型是遷移學(xué)習(xí)利用文本信息的一種應(yīng)用。它利用文本信息來學(xué)習(xí)輸入句子中每個單詞的上下文相關(guān)性,從而表示輸入句子。它能夠有效地學(xué)習(xí)到通用語法中隱式的語義知識,從開放領(lǐng)域?qū)W到的知識可用于下游任務(wù),并在大多數(shù)自然語言處理任務(wù)中取得最佳效果[29]。BERT在大規(guī)模語料庫上進(jìn)行訓(xùn)練,已經(jīng)捕捉了大規(guī)模文本數(shù)據(jù)中的語言特征,能夠捕捉文本中的復(fù)雜上下文依賴關(guān)系,生成高質(zhì)量的文本表示,故本文利用BERT預(yù)訓(xùn)練模型實現(xiàn)對相關(guān)文本信息的初始化。
不管是實體三元組、屬性三元組、實體類別信息,都包含其本身的文本信息,這些最直接的信息能夠作為其最基本的表示。將這些文本信息作為圖2語料預(yù)訓(xùn)練模型的輸入,通過token embeddings層將每個詞轉(zhuǎn)換成768維的向量,在segment embeddings層輔助BERT區(qū)別分句的向量表示,經(jīng)過position embeddings層學(xué)習(xí)句子的順序特征。最后將上述三層的結(jié)果進(jìn)行整合,得到一個大小為(1,n,768)的表示,將該表示作為BERT編碼層的輸入并進(jìn)行十二層編碼,在第十二層編碼獲得最終的輸出表示,如圖3所示。最后使用全連接層對其進(jìn)行壓縮,對壓縮后的低維向量做L2范式歸一化,從而得到對應(yīng)信息的初始化向量。
3.2.2 類別信息嵌入
給定一個實體類別層級結(jié)構(gòu)O={C,H},且簡化的類別三元組表示為H={(ch,ct)},其中(ch,ct)是類別對。為避免類別之間因單一的關(guān)系導(dǎo)致翻譯模型無法有效區(qū)分相同頭實體和關(guān)系下的不同尾實體的問題,文本以非線性變換的方式建模類別之間的層級聯(lián)系,首先通過3.2.1節(jié)的方式對各類信息進(jìn)行初始化嵌入,然后通過構(gòu)造評分函數(shù)對類別進(jìn)行損失評分,最后根據(jù)損失函數(shù)在訓(xùn)練過程中優(yōu)化向量。此過程評分函數(shù)和損失函數(shù)分別如式(1)和(2)所示。
3.2.3 實體嵌入
RotatE模型巧妙地將關(guān)系視作頭實體在復(fù)數(shù)空間向尾實體的旋轉(zhuǎn),在知識圖譜嵌入時,可以區(qū)分具有對稱關(guān)系的實體,能夠有效建模和推斷關(guān)系模型。本文采用RotatE對實體關(guān)系三元組進(jìn)行建模,并采用3.2.1節(jié)的方式對其文本進(jìn)行初始化,構(gòu)建評分函數(shù)如式(3)所示,最后通過訓(xùn)練調(diào)整詞向量。
fr(h(1),r,t)=‖h(1)°r-t‖(3)
其中:h、r、t分別是關(guān)系三元組的頭實體、關(guān)系、尾實體對應(yīng)的向量表示;Θ(1)表示實體三元組嵌入中的實體嵌入。
在訓(xùn)練過程中的損失函數(shù)如式(4)所示。
LR=∑(h,t)∈TR ∑(h′,t′)∈TR′{[αr+fr(h(1),t)-fr(h(1)′,t′)]+}(4)
其中:TR表示關(guān)系三元組集合;TR′表示其經(jīng)過負(fù)采樣抽取得到的集合,邊緣超參數(shù)αrgt;0。
3.2.4 屬性嵌入
屬性信息是知識圖譜存在的客觀信息,是對實體的補(bǔ)充。屬性信息包括屬性名和屬性值,屬性值類型的多樣性導(dǎo)致大多數(shù)屬性三元組并不規(guī)則。在兩個知識圖譜中,不同實體會因為擁有相同的屬性或?qū)傩灾刀黾铀鼈冎g的相似性,從而提供更多的指導(dǎo)信息。但是,單個的屬性或者屬性值對于實體的信息表示并不完整,特別是對于數(shù)值類型屬性值,其含義的不明確性以及度量標(biāo)準(zhǔn)的不統(tǒng)一往往會帶來較大的噪聲。
因此,對于屬性信息的嵌入,本文使用卷積神經(jīng)網(wǎng)絡(luò)來提取屬性和屬性值的特征。具體來說,將屬性a和其對應(yīng)的屬性值v的向量表示拼接成2×d維的矩陣,即〈a;v〉∈Euclid ExtraaBp2×d。將這個矩陣輸入到CNN中,獲取壓縮后的向量表示:
CNN(〈a;v〉)=σ(vec(σ(〈a;v〉Ω))Wa)(5)
其中:CNN()表示卷積操作,其卷積核Ω的尺寸為2×c(clt;d)。由卷積操作獲得的特征通過函數(shù)vec()重塑為向量,然后通過參數(shù)矩陣Wa將其投影到KG的嵌入空間中,σ()是激活函數(shù)。
屬性三元組評分函數(shù)如式(6)所示。
fattr(h(2),a,v)=-‖h(2)-CNN(〈a;v〉)‖(6)
在上面的評分函數(shù)中,頭實體h與其屬性及屬性值越接近,則屬性三元組評分函數(shù)越高。整個屬性三元組訓(xùn)練的損失定義如式(7)所示。
LA=∑(h,a,v)∈y+log(1+exp(-fattr(h(2),a,v)))(7)
其中:y+=ya+yb表示源知識圖譜和目標(biāo)知識圖譜中的所有屬性三元組;Θ(2)表示實體屬性三元組嵌入中的實體嵌入。
3.3 指導(dǎo)層
3.3.1 沖突構(gòu)建
實體類別之間固定的關(guān)系類型會導(dǎo)致同一個節(jié)點的子節(jié)點之間的嵌入表現(xiàn)出較高的相似性[30]。因此,本文通過構(gòu)建類別沖突矩陣來區(qū)分類別之間的相似度。其中,類沖突包括顯式?jīng)_突和隱式?jīng)_突兩類。
a)顯式?jīng)_突。
其計算方式包含四種情況,計算時按照順序逐一判定,符合一種情況則終止該元素的計算流程。首先,每個類別和自身不會產(chǎn)生沖突,即沖突矩陣對應(yīng)元素值為0;其次,對于預(yù)先定義好的毫無關(guān)系的類別之間的沖突程度對應(yīng)沖突矩陣元素值為1;另外,對于種子實體對所對應(yīng)的類別之間的沖突程度對應(yīng)沖突矩陣元素值為0;如果以上三種情況都不滿足,則遵循兩個類別在類別層次結(jié)構(gòu)樹中的位置越遠(yuǎn),它們的語義相似度就越低,沖突程度就越高的原則[30]。兩者的沖突值滿足式(8)。
mi, j=1-|S(ci)∩S(cj)||S(ci)∪S(cj)|(8)
其中:mi, j表示第i與j個類別之間的沖突程度(沖突矩陣中對應(yīng)的元素值),mi, j∈[0,1];S(ci)和S(cj)分別表示從當(dāng)前節(jié)點向上至根節(jié)點路徑中包含的類別集合;||指集合中元素的數(shù)量。
類別沖突矩陣的大小由類別數(shù)確定,設(shè)實體類別信息中所包含的類別數(shù)為M,則矩陣的大小為M×M。以圖4為例,根據(jù)上述規(guī)則構(gòu)建類別沖突矩陣,由于類別沖突矩陣具有斜對稱性質(zhì),為提高計算效率,僅需保留其上三角或下三角部分進(jìn)行計算。結(jié)果如圖5所示。
在圖5中,由于類別自身不會產(chǎn)生沖突,所以矩陣中的對角線值均為0;類別person與building是提前定義好的不相交類別,在矩陣中對應(yīng)元素值為1;類別ORG與organization是某種子詞對應(yīng)的類別,兩者沖突值為0;其他類別之間的值根據(jù)式(8)計算得到。
b)隱式?jīng)_突。
其主要考慮兩個類別之間的相似度,如果兩個類別的嵌入表示越相似(即它們的余弦相似度越高),則它們之間的沖突程度越小,通過式(9)來計算它們之間的沖突程度。
dcos(ci,cj)=1-cos(ci,cj)(9)
最后,通過最小化負(fù)對數(shù)似然損失將構(gòu)建好的沖突矩陣信息融入到類別嵌入中,如式(10)所示。
LC=-∑ci∈C ∑cj∈Cmi, jlog dcos(ci,cj)(10)
其中:C為類別集合;ci、cj∈C,ci與cj分別表示第i和j個類別表示;mi, j表示兩者的沖突程度(沖突矩陣中對應(yīng)的元素值),mi, j∈[0,1]。
3.3.2 類別指導(dǎo)
實體類別定義了具有結(jié)構(gòu)層次化的信息,是知識圖譜中實體的抽象概念。一個實體可以屬于多個類別,實體類別信息對實體嵌入進(jìn)行約束。
為了建立實體嵌入與實體類別嵌入空間之間的聯(lián)系,采用非線性變換將實體嵌入映射到實體類別嵌入空間。評分函數(shù)和損失函數(shù)分別如式(11)和(12)所示。
fc(e,c)=‖tanh(Wce+bc)-c‖2(11)
LC=∑(e,c)∈B ∑(e′,c′)∈B′{[αc+fc(e,c)-fc(e′,c′)]+}(12)
其中:Wc∈Euclid ExtraaBpdr×do、bc∈Euclid ExtraaBpdo;B表示實體和所屬類別的成員對集合;B′是其經(jīng)過負(fù)采樣抽取得到的集合;e、c分別為實體與類別的向量表示,邊緣超參數(shù)αcgt;0。
3.4 迭代訓(xùn)練層
為了實現(xiàn)KGi中的實體能夠通過映射關(guān)系找到KGj中的等價實體,本文借助種子詞集合S={(ei,ej)},訓(xùn)練構(gòu)建出一個神經(jīng)網(wǎng)絡(luò)將兩個不同知識圖譜聯(lián)系起來。該過程的評分函數(shù)如式(13)所示,知識圖譜的空間映射損失函數(shù)如式(14)所示。
sim(ei,ej)=(1-β1-β2)cos(e(1)i,e(1)j)+
β1cos(e(2)i,e(2)j)+β2cos(ci,cj)(16)
其中:ei∈Ei、ej∈Ej;Θ(1)、Θ(2)分別表示基于實體關(guān)系三元組訓(xùn)練得到的實體表示和基于屬性三元組訓(xùn)練得到的實體表示;ci、cj∈C;β1、β2∈[0,1]。針對實體存在多個類別映射的情況,將其求平均值。根據(jù)式(16)計算源圖譜的每個實體與目標(biāo)圖譜中每個候選實體的相似度,并以此得分的高低對其進(jìn)行排序。
算法1 聯(lián)合實體類別及鄰域信息指導(dǎo)的實體對齊方法
輸入:預(yù)對齊種子S;類別信息O={C,H};模型超參數(shù);知識圖譜 KG1={E1,R1,A1,V1,T1R,T1A},KG2={E2,R2,A2,V2,T2R,T2A}。
輸出:對齊實體集合U。
begin
a) 使用BERT對實體名稱、關(guān)系、類別和屬性進(jìn)行初始化嵌入。
b) 類別信息、實體和屬性嵌入訓(xùn)練。
for i←1 to N do
fo←NonLinearModel(ch,ct) //類別嵌入評分
H′←NegSample(H,S) //間隔規(guī)定輪數(shù)進(jìn)行負(fù)采樣
LO←loss(fo,fo′) //類別嵌入損失
end for
for i←1 to N do
fr←RotatEModel(h(1),r,t) //關(guān)系三元組建模
TR′←NegSample(TR,S) //間隔規(guī)定次輪數(shù)進(jìn)行負(fù)采樣
LR←loss(fr,fr′) //關(guān)系三元組訓(xùn)練損失
end for
for i←1 to N do
//根據(jù)式(5)~(7),更新屬性及屬性值嵌入
LA←∑(h,a,v)∈y+log(1+exp(‖h(2)-CNN(〈a;v〉)‖))
end for
c)沖突構(gòu)建、進(jìn)行類別和屬性指導(dǎo)。
for i←1 to N do
for i←1 to N do
mi, j←ClassConflict(i, j,S,O) //構(gòu)建顯示沖突矩陣M
dcos=1-cos(ci,cj)" //隱式?jīng)_突
end for
end for
LC=loss(M,dcos) //通過最小化損失將沖突矩陣信息融入類別嵌入
fc←ClassGuide(e,c) //實體與類別空間映射,類別指導(dǎo)實體嵌入
B′←NegSample(B,S) //間隔K倍次輪數(shù)進(jìn)行負(fù)采樣
LC=loss(fc,f′c) //映射損失
d) 模塊整合,進(jìn)行迭代訓(xùn)練。
LS←SpaceMapping(ei,ej) //圖譜空間映射
L=LO+LR+LA+λ1LD+λ2LC+λ3LS //整體損失
sim←(1-β1-β2)cos(e(1)1,e(1)2)+β1cos(e(2)1,e(2)2)+β2cos(c1,c2) //總相似度
U←find(sim) //根據(jù)相似度矩陣找到新對齊實體對
S←S∪U //更新種子集
跳轉(zhuǎn)到步驟b)
end //達(dá)到最大訓(xùn)練輪數(shù)或滿足早停機(jī)制條件
4 實驗與分析
4.1 數(shù)據(jù)集
本文使用公開數(shù)據(jù)集EN-FR-15K-V1/V2和EN-DE-15K-V1/V2[31]作為實驗數(shù)據(jù)集,每個數(shù)據(jù)集由兩個知識圖譜構(gòu)成,并包含實體類別信息以及實體與類別之間的對應(yīng)關(guān)系,具體統(tǒng)計結(jié)果如表1和2所示。
表1為知識圖譜知識三元組詳細(xì)統(tǒng)計數(shù)據(jù),其中TR1、TR2分別表示KG1和KG2中的實體關(guān)系三元組數(shù)量,TA1、TA2分別表示KG1和KG2中的屬性三元組數(shù)量。每個知識圖譜對應(yīng)的類別信息如表2所示,兩個待對齊的知識圖譜共享實體類別信息,其中classes表示KG實體類別數(shù)量,triples表示實體類別層次結(jié)構(gòu)所構(gòu)成的三元組數(shù)量。
4.2 基線模型
為驗證本文提出的實體對齊方法的有效性,從主流的實體對齊方案中選取了9種方法進(jìn)行對比。
JAPE[18]:2017年發(fā)表于ISWC國際會議,首次將屬性信息融入到實體對齊任務(wù)中,但是由于該模型只用到了屬性名稱,并沒有對屬性值豐富的深層語義信息加以應(yīng)用。
GCN-Align[22]:2018年發(fā)表于EMNLP國際會議,首次將圖神經(jīng)網(wǎng)絡(luò)引入實體對齊任務(wù)中,利用圖神經(jīng)網(wǎng)絡(luò)整合知識圖譜的信息,通過組合屬性嵌入和結(jié)構(gòu)嵌入以獲得精確的實體對齊效果。
BootEA[17]:2018年發(fā)表于IJCAI國際會議,采用迭代的策略標(biāo)記訓(xùn)練數(shù)據(jù)的方式解決訓(xùn)練集有限引起的實體嵌入表示不夠準(zhǔn)確的問題,從而達(dá)到提高實體嵌入質(zhì)量的效果。
AttrE[32]:2019年發(fā)表于AAAI國際會議,在實體對齊中引入屬性值嵌入和屬性對齊,借助特定的數(shù)據(jù)集獲取實體基于屬性信息的嵌入,不需要標(biāo)記數(shù)據(jù),僅憑借高質(zhì)量的屬性嵌入便可修正實體的結(jié)構(gòu)嵌入。
MultiKE[20]:2019年發(fā)表于IJCAI國際會議,利用多視圖獨(dú)立學(xué)習(xí)實體名稱、屬性、結(jié)構(gòu)三類信息,并將在三種視圖中學(xué)習(xí)到的實體表示進(jìn)行結(jié)合用于實體對齊。
RDGCN[23]:2019年發(fā)表于IJCAI國際會議,通過注意力機(jī)制建立原始圖和對偶關(guān)系圖之間的聯(lián)系,并將關(guān)系信息與相鄰的結(jié)構(gòu)信息進(jìn)行合并,從而實現(xiàn)利用圖的三角結(jié)構(gòu)特征學(xué)習(xí)。
OntoEA[21]:2021年發(fā)表于ACL國際會議,將本體信息融入到實體對齊任務(wù)中,利用實體與其所屬類別的對應(yīng)關(guān)系指導(dǎo)實體嵌入。
SelfKG[33]:2022年發(fā)表于ACL國際會議,采用自監(jiān)督的方式,通過學(xué)習(xí)相對相似度度量和自負(fù)采樣策略,實現(xiàn)在無監(jiān)督的情況下實現(xiàn)跨知識圖譜的實體對齊。
AERGCN[34]:2023年發(fā)表于ACM,通過將平移操作集成到GCN中,同時學(xué)習(xí)實體和關(guān)系的嵌入表示,并通過構(gòu)建四元組來建模關(guān)系之間的聯(lián)系,利用關(guān)系之間的平移性質(zhì)更新關(guān)系的嵌入表示,提高對齊性能。
4.3 評價指標(biāo)
選取hits@k(k=1,5)和平均倒數(shù)排序值(MRR)作為評價指標(biāo)。hits@k根據(jù)目標(biāo)實體的前k個候選實體中存在正確對齊實體進(jìn)行計算;MRR是指所有正確實體的平均倒數(shù)排名,兩者的值越大,說明實體對齊的效果越好[35]。公式如式(16)和(17)所示。
hits@k=1|S|∑|S|i=1∏ (ranki≤k)(17)
MRR=1|S|∑|S|i=11ranki(18)
其中:∏ ()是indicator函數(shù),條件為真函數(shù)值為1,否則為0;|S|是三元組集合元素的個數(shù);ranki表示對齊到正確實體的排名。
4.4 實驗設(shè)置與環(huán)境
4.4.1 實驗設(shè)置
為利用實體名稱信息,使用谷歌翻譯將數(shù)據(jù)集中的法語和德語的文本信息都翻譯成英文。模型訓(xùn)練過程中采用Adagrad優(yōu)化器,具體參數(shù)設(shè)置如表3所示。
4.4.2 實驗環(huán)境
實驗環(huán)境基于Windows 10專業(yè)版,采用的語言為Python,具體環(huán)境如表4所示。
4.5 實驗結(jié)果
4.5.1 參數(shù)設(shè)置與影響
通過網(wǎng)絡(luò)搜索尋找到最佳參數(shù)配置,在EN-FR-15K-V1/V2和EN-DE-15K-V1/V2數(shù)據(jù)集上λ1取1,λ2取1,λ3取5,β1取0.1,β2取0.5時模型hits@1值最高,模型效果最優(yōu),模型在四個數(shù)據(jù)集上取對應(yīng)最佳參數(shù)值配置的對齊損失收斂曲線如圖6所示。
從圖6可以看到,模型在四個數(shù)據(jù)集上收斂曲線都較為平滑地下降并最終保持穩(wěn)定。因此后續(xù)4.5.2及4.5.3節(jié)均采用上述最佳參數(shù)配置進(jìn)行實驗。
4.5.2 對比實驗
本文將JCNEA模型與近年來常見實體對齊模型進(jìn)行比較。由于在實體對齊中是否具有實體表面名稱(surface information,SI)通常被認(rèn)為是兩種不同的評估環(huán)境,這里的SI表示實體名稱信息。因此,在實驗的過程中設(shè)置w/o SI不使用實體名稱和w/ SI使用實體名稱兩種情況。不同模型在數(shù)據(jù)集上的性能對比結(jié)果如表5所示,其中模型JAPE、GCN-Align、AttrE、MultiKE以及RDGCN的實驗結(jié)果引用自文獻(xiàn)[31],模型SelfKG實驗結(jié)果引用自文獻(xiàn)[36],模型OntoEA和AERGCN實驗結(jié)果均引用自其原文,并將所有基線模型中最優(yōu)結(jié)果進(jìn)行加粗。
實驗結(jié)果分析:與某實體直接相連的實體和屬性為該實體的鄰域節(jié)點,構(gòu)成了該實體的鄰域信息,實體類別可以對實體對齊進(jìn)行約束,然而所述基線模型大部分沒有全面地利用實體鄰域信息和實體類別信息。JAPE在實體對齊任務(wù)中嘗試融入屬性信息,但僅利用屬性名稱,未挖掘?qū)傩耘c屬性值蘊(yùn)涵的深層語義信息,導(dǎo)致對齊效果不理想;AttrE雖然引入了屬性信息,但采用TransE建模方式處理時屬性與屬性值交互不充分;MultiKE通過多視圖學(xué)習(xí)結(jié)合實體名稱、屬性和結(jié)構(gòu),但未考慮實體類別信息;GCN-Align運(yùn)用神經(jīng)網(wǎng)絡(luò)處理實體對齊,僅考慮結(jié)構(gòu)信息和屬性信息,未充分利用圖譜中實體名稱及類別包含的豐富的語義;SelfKG基于實體名稱采用自監(jiān)督的方式進(jìn)行實體對齊,沒有引入額外信息輔助實體對齊;RDGCN與AERGCN均側(cè)重于通過關(guān)系信息來提高實體識別度,卻忽略了實體類別信息和屬性信息對實體對齊的影響;BootEA采用迭代策略標(biāo)記訓(xùn)練數(shù)據(jù)進(jìn)行對齊,但無法有效處理圖譜中的對稱關(guān)系;OntoEA將本體信息融入實體對齊,僅考慮實體所屬類別對嵌入的影響,忽視了屬性信息。本文模型除了關(guān)注KG本身的實體三元組結(jié)構(gòu),還融入了屬性信息和實體類別信息,通過卷積神經(jīng)網(wǎng)絡(luò)獲取屬性信息指導(dǎo)實體對齊,利用類別信息構(gòu)建沖突矩陣校正實體錯誤映射,與基線模型中整體效果最好的OntoEA相比,JCNEA的hits@1分別提高了10.4、3.9、7.5和3.1百分點,hits@5和MRR指標(biāo)也取得了較好的效果,證明了本文方法的優(yōu)越性。
在不使用實體名稱的情況下,本文模型在EN-FR-15K-V1和EN-DE-15K-V1/V2數(shù)據(jù)集上的各項評價指標(biāo)均優(yōu)于基線模型。在EN-FR-15K-V2上,JCNEA的指標(biāo)并不是最佳,因為EN-FR-15K-V2的實體三元組數(shù)是EN-FR-15K-V1的兩倍左右,但屬性三元組的數(shù)量相當(dāng),EN-FR-15K-V2上較低的屬性三元組占比對于實體對齊準(zhǔn)確率的提升并不理想。
在加入實體名稱后,JCNEA各項指標(biāo)相比較不加入實體名稱有了非??捎^的提升,并且hits@1、hits@5和MRR值均高于基線模型,這不僅說明了實體名稱對于實體對齊任務(wù)準(zhǔn)確度的提升有較好的效果,同時也說明了基于BERT預(yù)訓(xùn)練模型的向量初始化方法能夠充分獲取文本語義信息,對實體對齊起到積極作用。
4.5.3 消融實驗
本文中心實體關(guān)聯(lián)的關(guān)系三元組與屬性三元組包含的實體與屬性共同構(gòu)成該實體的鄰域信息,為了進(jìn)一步驗證本文采用的實體類別指導(dǎo)和鄰域信息聯(lián)合指導(dǎo)各模塊的有效性,本文使用不同的策略來設(shè)計JCNEA的不同變體。JCNEA-1表示去除實體類別指導(dǎo);JCNEA-2表示去除屬性三元組提供的屬性指導(dǎo);JCNEA-3表示去除關(guān)系三元組提供的鄰域?qū)嶓w信息。上述變體在進(jìn)行實驗時,均保持其他實驗條件不改變。
由表6可以看出,在去除實體類別指導(dǎo)后,JCNEA-1在四個數(shù)據(jù)集上的hits@1值較JCNEA平均降低3.025百分點,證明了本文引入實體類別信息構(gòu)建類別沖突矩陣進(jìn)行對齊指導(dǎo)的有效性;在去除屬性指導(dǎo)后,JCNEA-2在四個數(shù)據(jù)集上的hits@1值較JCNEA平均降低1.3百分點,證明了本文在利用屬性信息進(jìn)行對齊指導(dǎo)的有效性;在去除關(guān)系三元組提供的實體鄰域信息后,JCNEA-3在四個數(shù)據(jù)集上的hits@1值較JCNEA平均降低了18.8百分點,說明了關(guān)系三元組提供的實體鄰域信息對實體對齊指導(dǎo)的有效性;在綜合實體類別信息和鄰域信息進(jìn)行實體對齊聯(lián)合指導(dǎo)后,JCNEA所有評價指標(biāo)均高于以上變體,證明了缺失實體類別或鄰域信息的指導(dǎo)都會造成實體對齊效果下滑,需要聯(lián)合實體類別和鄰域信息進(jìn)行實體對齊指導(dǎo)從而獲得更佳對齊效果。從數(shù)據(jù)集的角度可以看出模型在EN-FR-15K-V2
和 EN-DE-15K-V2數(shù)據(jù)集上的效果分別整體優(yōu)于在數(shù)據(jù)集EN-FR-15K-V1和EN-DE-15K-V1上的效果,是因為EN-FR-15K-V2和 EN-DE-15K-V2具有更加密集的KG結(jié)構(gòu),可以被利用的信息更加豐富。
另外,不引入實體名稱的情況下在EN-FR-15K-V1和EN-FR-15K-V2數(shù)據(jù)集上對存在類別沖突的預(yù)測映射進(jìn)行分析,其中類別沖突率指在模型所有錯誤映射的實體對中具有類別沖突的比例,結(jié)果如圖7所示。
從圖7可以看出,JCNEA相比BootEA和GCN-Align顯著降低了類別沖突率,在EN-FR-15K-V1上與OntoEA相比類別沖突率降低了0.2百分點,在EN-FR-15K-V2上本文模型與其持平,因為OntoEA對錯誤映射的糾正已經(jīng)達(dá)到了很好的效果。以上結(jié)果表明,JCNEA有效地實現(xiàn)了使用類別沖突矩陣避免實體對齊的錯誤映射。
4.5.4 實例驗證
為驗證本文模型在實際應(yīng)用場景的有效性和可行性,本文以某研究院提供的風(fēng)電裝備運(yùn)維故障數(shù)據(jù)和風(fēng)電裝備項目機(jī)型知識數(shù)據(jù)為例,通過實體對齊將兩類知識融合,可以實現(xiàn)通過故障件找到對應(yīng)零件再直接找到對應(yīng)項目相關(guān)信息,如故障件對應(yīng)的供應(yīng)商、保質(zhì)期等,為故障溯源分析和維修維護(hù)提供便利。根據(jù)數(shù)據(jù)抽象歸納如圖8所示類別實例。
根據(jù)本體中包含的類別和關(guān)系,將數(shù)據(jù)轉(zhuǎn)換為三元組形式,包括關(guān)系三元組和屬性三元組,部分三元組數(shù)據(jù)實例如表7和8所示。
通過人工標(biāo)注500條對齊實體數(shù)據(jù)作為訓(xùn)練樣本,根據(jù)本文模型實驗得到結(jié)果如表9所示。
從實驗結(jié)果來看,在領(lǐng)域真實數(shù)據(jù)集上本文模型依然能達(dá)到較好的實體對齊效果。由于存在類別信息抽象標(biāo)準(zhǔn)不能統(tǒng)一和數(shù)據(jù)規(guī)模大小的因素,模型在風(fēng)電裝備領(lǐng)域數(shù)據(jù)集上相較于在EN-FR-15K-V1/V2和EN-DE-15K-V1/V2數(shù)據(jù)集上效果略差。使用模型對剩余風(fēng)電裝備運(yùn)維故障數(shù)據(jù)和風(fēng)電裝備項目數(shù)據(jù)構(gòu)成的知識圖譜進(jìn)行實體對齊,將對齊實體對擁有的相同屬性進(jìn)行合并,最終實現(xiàn)圖譜融合,前后的數(shù)據(jù)對比如圖9所示。
從圖9可以看出,實體對齊后實體數(shù)量減少2 032個,關(guān)系三元組和屬性三元組數(shù)量都有大幅度減少,通過實體對齊有效緩和了知識圖譜數(shù)據(jù)冗余等問題,證明了本文模型在真實應(yīng)用場景中的有效性和可行性。
5 結(jié)束語
本文提出了一種聯(lián)合實體類別及鄰域信息指導(dǎo)的實體對齊方法JCNEA。該模型在實體對齊過程中關(guān)注了實體類別信息和實體屬性信息,采用BERT預(yù)訓(xùn)練模型進(jìn)行嵌入向量初始化,充分利用實體相關(guān)的語義信息和類別信息,在實體鄰域結(jié)構(gòu)信息和深層語義信息的作用下,形成一種至下而上的聯(lián)合指導(dǎo)對齊方法,并且將在空間映射過程中得到的高質(zhì)量實體加入到種子詞中提高類別間的沖突程度,解決了在實體對齊中等價實體屬于相同類別和擁有不同屬性表示以及擁有相似屬性表示但是不屬于相同類別的問題。未來將嘗試將多跳鄰居信息融合到模型中,進(jìn)一步提升實體對齊的準(zhǔn)確率。
參考文獻(xiàn):
[1]Yih W, Chang Mingwei, He Xiaodong, et al. Semantic parsing via staged query graph generation: question answering with knowledge base [C]// Proc of the 53rd Annual Meeting of the ACL Press and the 7th International Joint Conference on Natural Language Proces-sing. Stroudsburg, PA: ACL Press, 2015: 1321-1331.
[2]Zhao Xuejiao, Chen Huanhuan, Xing Zhenchang, et al. Brain-inspired search engine assistant based on knowledge graph [J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 34(8): 4386-4400.
[3]Zhang Fuzheng, Yuan N J, Lian Defu, et al. Collaborative know-ledge base embedding for recommender systems [C]// Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2016: 353-362.
[4]郭恒, 黎榮, 張海柱, 等. 多域融合的高速列車維修性設(shè)計知識圖譜構(gòu)建 [J]. 中國機(jī)械工程, 2022, 33(24): 3015-3023. (Guo Heng, Li Rong, Zhang Haizhu, et al. Construction of knowledge graph of maintainability design based on multi-domain fusion of high-speed trains[J]. China Mechanical Engineering, 2022, 33(24): 3015-3023.)
[5]瞿智豪, 胡建鵬, 黃子麒, 等. 工業(yè)設(shè)備故障處置知識圖譜構(gòu)建與應(yīng)用研究 [J]. 計算機(jī)工程與應(yīng)用, 2023, 59(24): 309-318. (Qu Zhihao, Hu Jianpeng, Huang Ziqi, et al. Research on construction and application of knowledge graph for industrial equipment fault disposal [J]. Computer Engineering and Applications, 2023, 59(24): 309-318.)
[6]付雷杰, 曹巖, 白瑀, 等. 國內(nèi)垂直領(lǐng)域知識圖譜發(fā)展現(xiàn)狀與展望 [J]. 計算機(jī)應(yīng)用研究, 2021, 38(11): 3201-3214. (Fu Leijie. Cao Yan, Bai Yu, et al. Development status and prospect of vertical domain knowledge graph in China [J]. Application Research of Computers, 2021, 38(11): 3201-3214.)
[7]Zhao Xiaojuan, Jia Yan, Li Aiping, et al. Multi-source knowledge fusion: a survey [J]. World Wide Web, 2020, 23: 2567-2592.
[8]張富, 楊琳艷, 李健偉, 等. 實體對齊研究綜述 [J]. 計算機(jī)學(xué)報, 2022, 45(6): 1195-1225. (Zhang Fu, Yang Linyan, Li Jianwei, et al. Review of solid alignment [J]. Chinese Journal of Compu-ters, 2022, 45(6): 1195-1225.)
[9]Zhuang Yan, Li Guoliang, Zhong Zhuojian, et al. Hike: a hybrid human-machine method for entity alignment in large-scale knowledge bases [C]// Proc of ACM on Conference on Information and Know-ledge Management. New York: ACM Press, 2017: 1917-1926.
[10]Halpin H, Hayes P J, McCusker J P, et al. When owl: sameAs isn’t the same: an analysis of identity in linked data [C]// Proc of the 9th International Semantic Web Conference. Berlin: Springer, 2010: 305-320.
[11]Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Conference of the North American Chapter of the ACL Press: Human Language Technologies. Stroudsburg, PA: ACL Press, 2019: 4171-4186.
[12]Nguyen D Q, Nguyen T D, Phung D. A novel embedding model for knowledge base completion based on convolutional neural network [C]// Proc of Conference of the North American Chapter of the ACL Press: Human Language Technologies. Stroudsburg, PA: ACL Press, 2018: 327-333.
[13]Bordes A, Usunier N, Garcia-Durán A, et al. Translating embeddings for modeling multi-relational data [C]// Proc of the 26th International Conference on Neural Information Processing Systems-Volume 2. 2013: 2787-2795.
[14]Chen Muhao, Tian Yingtao, Yang Mohan, et al. Multilingual know-ledge graph embeddings for cross-lingual knowledge alignment [C]// Proc of the 26th International Joint Conference on Artificial Intelligence. San Franciso: Morgan Kaufmann, 2017: 1511-1517.
[15]Zhu Hao, Xie Ruobing, Liu Zhiyuan, et al. Iterative entity alignment via joint knowledge embeddings [C]// Proc of the 26th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017: 4258-4264.
[16]Lin Yankai, Liu Zhiyuan, Luan Huanbo, et al. Modeling relation paths for representation learning of knowledge bases [EB/OL]. (2015).https://arxiv.org/abs/1506. 00379.
[17]Sun Zequn, Hu Wei, Zhang Qingheng, et al. Bootstrapping entity alignment with knowledge graph embedding [C]// Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 4396-4402.
[18]Chen Muhao, Tian Yingtao, Chang Kaiwei, et al. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment [C]// Proc of the 27th International Joint Confe-rence on Artificial Intelligence Main Track." San Franciso: Morgan Kaufmann, 2018: 3998-4004.
[19]Sun Zequn, Hu Wei, Li Chengkai. Cross-lingual entity alignment via joint attribute preserving embedding [C]// Proc of the 16th International Semantic Web Conference. Berlin: Springer, 2017: 628-644.
[20]Zhang Qingheng, Sun Zequn, Hu Wei, et al. Multi-view knowledge graph embedding for entity alignment [C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 5429-5435.
[21]Xiang Yuejia, Zhang Ziheng, Chen Jiaoyan, et al. OntoEA: ontology-guided entity alignment via joint knowledge graph embedding [C]// Proc of Joint Conference of the 59th Annual Meeting of the ACL Press and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL Press, 2021: 1117-1128.
[22]Wang Zhichun, Lyu Qingsong, Lan Xiaohan, et al. Cross-lingual knowledge graph alignment via graph convolutional networks [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL Press, 2018: 349-357.
[23]Wu Yuting, Liu Xiao, Feng Yansong, et al. Relation-aware entity alignment for heterogeneous knowledge graphs [C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2019: 5278-5284.
[24]Yang Xiuwei, Zou Yanyan, Shi Peng, et al. Aligning cross-lingual entities with multi-aspect information [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL Press, 2019: 4430-4440.
[25]Sun Zequn, Wang Chengming, Hu Wei, et al. Knowledge graph alignment network with gated multi-hop neighborhood aggregation [C]// Proc of the AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 222-229.
[26]Zhu Renbo, Ma Meng, Wang Ping. RAGA: relation-aware graph attention networks for global entity alignment [C]// Proc of the 25th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin: Springer, 2021: 501-513.
[27]馮興杰, 張成豪, 馮小榮, 等. 一種聯(lián)合指導(dǎo)嵌入的實體對齊方法 [J]. 小型微型計算機(jī)系統(tǒng), 2024, 45(4): 800-806. (Feng Xingjie, Zhang Chenghao, Feng Xiaorong, et al. Joint guidance embedding method for entity alignment [J]. Journal of Chinese Computer Systems, 2024, 45(4): 800-806.)
[28]Sun Zhiqing, Deng Zhihong, Nie Junjian, et al. RotatE: knowledge graph embedding by relational rotation in complex space [EB/OL]. (2019-02-26).https://arxiv.org/abs/1902. 10197.
[29]Turc I, Chang Mingwei, Lee K, et al. Well-read students learn better: on the importance of pre-training compact models [EB/OL]. (2019-08-23).https://arxiv.org/abs/1908. 08962.
[30]Mumtaz S, Giese M. Frequency-based vs. knowledge-based similarity measures for categorical data [C]// Proc of AAAI Spring Symposium on Combining Machine Learning and Knowledge Engineering in Practice. Palo Alto, CA: AAAI Press, 2020: 139-147.
[31]Sun Zequn, Zhang Qingheng, Hu Wei, et al. A benchmarking study of embedding-based entity alignment for knowledge graphs [J]. Computation and Language, 2020, 13(11): 2326-2340.
[32]Trisedya B D, Qi Jianzhong, Zhang Rui. Entity alignment between knowledge graphs using attribute embeddings [C]// Proc of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 297-304.
[33]Liu Xiao, Hong Haoyun, Wang Xinghao, et al. SelfKG: self-supervised entity alignment in knowledge graphs [C]// Proc of ACM Web Conference. New York: ACM Press, 2022: 860-870.
[34]Fang Yujie, Li Xin, Ye Rui, et al. Relation-aware graph convolutional networks for multi-relational network alignment [J]. ACM Trans on Intelligent Systems and Technology, 2023, 14(2): 1-23.
[35]王鍵霖, 張浩, 張永爽, 等. 基于雙層圖注意力網(wǎng)絡(luò)的鄰域信息聚合實體對齊方法 [J]. 計算機(jī)應(yīng)用研究, 2024, 41(6): 1686-1692. (Wang Jianlin, Zhang Hao, Zhang Yongshuang, et al. Neighborhood information aggregation entity alignment method based on double layer graph attention network [J]. Application Research of Computers, 2024, 41(6): 1686-1692.)
[36]Cai Weishan, Ma Wenjun, Wei Lina, et al. Semi-supervised entity alignment via relation-based adaptive neighborhood matching [J]. IEEE Trans on Knowledge and Data Engineering, 2022, 35(8): 8545-8558.