王小鵬,李 丹
(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004;2.桂林信息科技學(xué)院,廣西 桂林 541004)
近年來,知識圖譜(knowledge graph,KG)在人工智能和自然語言處理領(lǐng)域大放異彩,現(xiàn)有的大型開源知識圖譜包括DBpedia[1]、YAGO[2]、Freebase[3]等。然而,大多數(shù)知識圖譜是基于不同數(shù)據(jù)源根據(jù)不同需求構(gòu)建而來的,不可避免地存在信息冗余與數(shù)據(jù)異構(gòu)問題[4]。為了能夠有效利用知識圖譜間互補(bǔ)的信息,實(shí)體對齊在指向現(xiàn)實(shí)世界中同一事物的實(shí)體間建立等價(jià)映射,實(shí)現(xiàn)知識圖譜間信息共享,從而向上提供一個(gè)信息完備的知識庫。
自從Wang等[5]首次將圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)引入到實(shí)體對齊任務(wù)中,便開創(chuàng)了以GCN為基準(zhǔn)的方法拓展模型,從而很多研究者把前面使用較多的以TransE翻譯表示模型方法的基準(zhǔn)模型的目光轉(zhuǎn)移到了GCN,開啟了以GCN模型為基礎(chǔ)模型的熱門方向。實(shí)體對齊基于GCN的主要方法有以下幾種:多通道圖神經(jīng)網(wǎng)絡(luò)(multi-channel graph neural network,MuGNN)[6]將GCN引入實(shí)體對齊中,基于自注意力的知識圖譜補(bǔ)全和跨語言注意力的實(shí)體修剪的多通道;關(guān)系感知雙圖卷積網(wǎng)絡(luò)(relation-aware dual-graph convolutional network,RDGCN)[7]引入了雙向?qū)ε紙D的概念,并通過限制雙向?qū)ε紙D來增強(qiáng)對不同實(shí)體網(wǎng)絡(luò)結(jié)構(gòu)的歧視;關(guān)系感知鄰域匹配(relation-aware neighborhood matching,RNM)[8]引入鄰域匹配的關(guān)系感知方法模型對GCN實(shí)體對齊進(jìn)行校正;鄰域匹配網(wǎng)絡(luò)(neighborhood matching network,NMN)[9]通過考慮拓?fù)浣Y(jié)構(gòu)和鄰里相似性估計(jì)兩個(gè)實(shí)體的相似性,以解決知識圖譜中無處不在的鄰里異質(zhì)性;雙曲嵌入下的圖卷積網(wǎng)絡(luò)(hyperbolic graph convolutional network,HGCN)[10]引入高速門機(jī)制,控制GCN結(jié)構(gòu)中的噪聲傳播,使用實(shí)體表示進(jìn)行近似關(guān)系表示,從而優(yōu)化關(guān)系對齊的目標(biāo)。
Ali Net[11]考慮了多跳實(shí)體的局部結(jié)構(gòu),并將等效實(shí)體對的兩個(gè)實(shí)體限制為每個(gè)圖注意力網(wǎng)絡(luò)(graph attention network,GAT)層具有相同的隱藏狀態(tài)。IMEA(informed multi-context entity alignment)[12]通過Transformer模型匯集上下文信息,設(shè)計(jì)基于嵌入相似性和關(guān)系以及實(shí)體功能的整體推理來評估對齊概率。MRAEA[13]考慮在圖神經(jīng)網(wǎng)絡(luò)框架下,將關(guān)系劃分為一些元關(guān)系,學(xué)習(xí)彼此之間的注意力參數(shù),并將它們集成到實(shí)體表示中。最后,以半監(jiān)督方式訓(xùn)練模型。此外還有以注意力機(jī)制、長短記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、BERT(bidirectional encoder representation from transformers)為基礎(chǔ)模型的方法等[14]。
RDGCN[7]利 用注意力機(jī)制對原始圖和 對偶關(guān)系圖交互建模。JAPE[15]和GCN-Align[5]利用了實(shí)體屬性信息,但實(shí)體的關(guān)系結(jié)構(gòu)信息學(xué)習(xí)不夠充分。RNM[8]模型利用鄰域匹配來增強(qiáng)實(shí)體對齊,除了在匹配鄰域時(shí)比較鄰居節(jié)點(diǎn)之外,還嘗試從連接關(guān)系中探索有用的信息。此外,迭代框架旨在以半監(jiān)督的方式利用實(shí)體對齊和關(guān)系對齊之間的積極交互。但是RNM并未考慮屬性信息,以及前期采用GCN學(xué)習(xí)關(guān)系結(jié)構(gòu)能力不足。
對于上述實(shí)體對齊研究中存在的問題,本文提出了一種結(jié)合屬性信息與對偶注意力的實(shí)體對齊關(guān)系感知鄰域匹配模型。本文的主要內(nèi)容如下。
1)在RNM模型中引入了RDGCN的對偶注意力機(jī)制,用RDGCN替換原來RNM模型中GCN[16]模型。
2)在RNM模型中增加屬性信息,借鑒GCN-Align的屬性模塊,將屬性信息使用GCN進(jìn)行學(xué)習(xí)。
3)將RDGCN處理的關(guān)系結(jié)構(gòu)信息與屬性信息聯(lián)合學(xué)習(xí),作為前期的矩陣嵌入,然后使用關(guān)系感知鄰域匹配模型進(jìn)行實(shí)體對齊。
知識圖譜形式化表示為
式中,E、R、A、V、T分別表示知識圖譜中的實(shí)體、關(guān)系、屬性、屬性值、知識三元組集合。知識圖譜中的一個(gè)關(guān)系三元組表示為
式中,h、r、t分別表示一個(gè)實(shí)例化具體的關(guān)系三元組的頭、關(guān)系和尾。
屬性三元組表示為
式中,h、a、v分別表示一個(gè)實(shí)例化具體的屬性三元組的頭、屬性和屬性值。
實(shí)體對齊的任務(wù)是給定兩個(gè)需融合的知識圖譜:G1=(E1,R1,A1,V1,T1),G2=(E2,R2,A2,V2,T2)以及給定預(yù)對齊的實(shí)體對(種子)L={(e1,e2)|e1∈E1,e2∈E2,e1=e2},通過技術(shù)方法找出剩余的等價(jià)實(shí)體對,式中e1表示在知識圖譜G1中實(shí)體集E1中的一個(gè)具體實(shí)例,e2同理。實(shí)體對齊案例如圖1所示。關(guān)系對齊的任務(wù)是從給定的兩個(gè)知識圖譜中找出意義相同的關(guān)系對。
圖1 實(shí)體對齊實(shí)例Fig.1 Entity alignment instance
本文在RNM模型基礎(chǔ)上,引入RDGCN模型模塊和實(shí)體屬性模塊。設(shè)計(jì)了結(jié)合屬性信息與對偶注意力機(jī)制的關(guān)系感知匹配模型的實(shí)體對齊框架(見圖2)。首先通過RDGCN模型學(xué)習(xí)實(shí)體的結(jié)構(gòu)信息,然后通過GCN模型學(xué)習(xí)實(shí)體的屬性信息,通過聯(lián)合屬性與實(shí)體的模塊依據(jù)不同權(quán)重,聯(lián)合學(xué)習(xí)實(shí)體結(jié)構(gòu)和屬性信息。最后將聯(lián)合RDGCN模型和屬性信息的模型作為矩陣輸入,通過關(guān)系感知鄰域模塊校正關(guān)系匹配,達(dá)到最優(yōu)的實(shí)體對齊效果。
圖2 本文框架Fig.2 Overall framework
圖3 RDGCN模型[7]Fig.3 RDGCN model[7]
給定輸入知識圖譜,首先構(gòu)造對偶關(guān)系圖,其頂點(diǎn)表示原始知識圖譜的關(guān)系,利用注意力機(jī)制鼓勵(lì)對偶關(guān)系圖和原始圖之間的相互作用,然后將原始圖中的頂點(diǎn)表示形式輸入具有高速神經(jīng)網(wǎng)絡(luò)門控制的GCN層以捕獲鄰居的結(jié)構(gòu)信息,最終實(shí)體表示將用于確定兩個(gè)實(shí)體是否應(yīng)對齊。
2.1.1 構(gòu)造對偶關(guān)系圖 將G1、G2作為原始圖,?e=(V e,εe),其中頂點(diǎn)集V e=E1∪E2,關(guān)系集εe=T1∪T2。給定原始的兩個(gè)知識圖譜?e,其對偶關(guān)系圖?r=(V r,εr)構(gòu)造如下:①對于?e中的每種關(guān)系r,都有頂點(diǎn)v r∈V r,所以V r=R1∩R2;②如果兩個(gè)關(guān)系r i和r j共享頭實(shí)體或尾實(shí)體,在?r中創(chuàng)建邊連接節(jié)點(diǎn)
根據(jù)頭實(shí)體和尾實(shí)體的情況,為對偶關(guān)系圖中的邊u rij定義權(quán)重
式中,H i和T i對應(yīng)關(guān)系r i的頭實(shí)體集合和尾實(shí)體集合,構(gòu)造對偶圖的開銷和原始圖中的關(guān)系類型的數(shù)量成正比。
1)對偶注意力層
對偶關(guān)系圖引入關(guān)系信息,將關(guān)系信息與原始圖合并,并使用統(tǒng)一表示。在此應(yīng)用GAT來迭代地獲得對偶關(guān)系圖和原始圖的頂點(diǎn)表示,其中注意力機(jī)制有助于促進(jìn)兩圖之間的交互。每個(gè)雙原始交互包含兩層,雙注意力層和原始注意力層,可以堆疊多個(gè)交互以在兩個(gè)圖上相互改進(jìn)。
令X r∈R m×2d為輸入知識圖譜的對偶頂點(diǎn)表示矩陣,其中每一行對應(yīng)關(guān)系圖?r中的一個(gè)頂點(diǎn)。利用原始注意力層產(chǎn)生的原始節(jié)點(diǎn)特征x?e計(jì)算對偶注意力分?jǐn)?shù)
通過將?e中的平均頭實(shí)體和尾實(shí)體表示進(jìn)行連接,近似表示成r i的關(guān)系表示為c i,c i由原始注意力層求得,
式中,和是從前一個(gè)原始注意力層求得的關(guān)系r i的第k個(gè)頭節(jié)點(diǎn)和第l個(gè)尾節(jié)點(diǎn)的輸出表示。
2)原始注意力層
在這一層中,當(dāng)在原始知識圖譜上應(yīng)用GAT時(shí)候,使用?r中的對偶頂點(diǎn)表示計(jì)算原始注意力分?jǐn)?shù),對應(yīng)于原始知識圖譜?e中的關(guān)系。
X e∈R n×d為輸入知識圖譜的原始頂點(diǎn)表示矩陣,對于原始知識圖譜?e中的實(shí)體e q,其表示可以通過下式計(jì)算:
模型中,原始頂點(diǎn)的初始表示矩陣X e_in i t使用實(shí)體名進(jìn)行初始化,這為實(shí)體對齊提供了重要依據(jù)。因此,通過混合原始注意力層的輸出和初始表示來保存數(shù)據(jù):
2.1.2 合并結(jié)構(gòu)信息 在對偶關(guān)系圖和原始圖之間進(jìn)行多輪交互后,能夠從原始圖收集關(guān)系感知的實(shí)體表示。接下來,應(yīng)用帶有高速路神經(jīng)網(wǎng)絡(luò)門控的雙層GCN[16]來進(jìn)一步合并來自鄰居的結(jié)構(gòu)信息。
在每一層GCN層l中,輸入為實(shí)體表示X(l),輸出表示為
式中,?=A+I為原始?e鄰接矩陣;I表示單位矩陣;ξ為激活函數(shù)ReLU;W為權(quán)重矩陣;D為度矩陣。為了使數(shù)據(jù)信息在兩個(gè)方向流動,在構(gòu)造A時(shí),把?e看作無向圖。
2.1.3 RDGCN關(guān)系結(jié)構(gòu)對齊 從GCN層的輸出中收集最終的實(shí)體表示,兩個(gè)實(shí)體之間的距離作為對齊分?jǐn)?shù)
式中,為G1中e1的實(shí)體表示;為G2中e2的實(shí)體表示;D(e1,e2)為兩實(shí)體e1(來自G1)和e2(來自G2)在相同L1范數(shù)規(guī)則空間的距離;L1為距離為哈曼頓的L1范數(shù)。
依據(jù)圖卷積對齊[5]的思想將屬性單獨(dú)分析。屬性結(jié)構(gòu)嵌入使用GCN模型,并采用完全屬性矩陣,不考慮與關(guān)系結(jié)構(gòu)矩陣連接,在此與田江偉等[17]和Wang等[5]將屬性信息與GCN聯(lián)合訓(xùn)練的方法有所不同。將屬性當(dāng)作節(jié)點(diǎn)對待,從而形成一個(gè)實(shí)體以屬性為邊連接起來的知識圖譜。如果實(shí)體擁有某一個(gè)屬性,那么實(shí)體與該屬性之間就有一條邊連接。因此,在GCN模型的連接矩陣中,實(shí)體只與屬性有連接,實(shí)體與實(shí)體之間無連接,連接矩陣的維度為屬性的數(shù)量。與關(guān)系結(jié)構(gòu)相同,采用隨機(jī)初始化的節(jié)點(diǎn)向量作為第一層的輸入,卷積過程表示為
式中,γa>0為間隔超參數(shù);f(x,y)=||x,y||1;e a為實(shí)體基于屬性結(jié)構(gòu)的嵌入向量。采用隨機(jī)梯度下降(stochastic gradient descent,SGD)來最小化上述損失函數(shù)。
在獲得實(shí)體基于關(guān)系結(jié)構(gòu)和屬性結(jié)構(gòu)的嵌入向量后,分別計(jì)算實(shí)體基于關(guān)系結(jié)構(gòu)和屬性結(jié)構(gòu)兩個(gè)方面相似性,然后通過加權(quán)求和得到實(shí)體之間的相似性。最終的相似性實(shí)體距離函數(shù)定義為
式中,f(x,y)=||x-y||1;h s(·)和h a(·)分別為關(guān)系結(jié)構(gòu)嵌入和屬性嵌入;d s和d a分別表示RDGCN關(guān)系結(jié)構(gòu)嵌入和屬性嵌入的維度;εs+a和λs+a是平衡兩種嵌入重要性的超參數(shù)。
2.4.1 實(shí)體嵌入 將GCN的輸入作為實(shí)體的嵌入,并定義實(shí)體的表示形式
為了將兩個(gè)知識圖譜的實(shí)體嵌入到相同的潛在空間中,將種子對齊作為訓(xùn)練數(shù)據(jù),并為實(shí)體對齊設(shè)計(jì)一個(gè)基于邊緣的損失函數(shù),如下所示:
式中,L表示已對齊的種子實(shí)體對;L′表示最近鄰抽樣時(shí)的一組負(fù)對齊;γ是分隔正負(fù)實(shí)體對齊的邊距超參數(shù)。損失函數(shù)假設(shè)對齊的實(shí)體對之間的距離應(yīng)該接近于零,而負(fù)樣本之間的距離應(yīng)該盡可能遠(yuǎn)。
2.4.2 關(guān)系嵌入 利用連接實(shí)體的信息,從GCN中學(xué)習(xí)到的頭實(shí)體和尾實(shí)體的嵌入來表示知識圖譜中的關(guān)系
式中,r∈R2d?表示r∈R1∪R2的嵌入;conc at表示串聯(lián)操作分別表示關(guān)系r的所有不同頭實(shí)體和尾實(shí)體的平均嵌入。
此外,為了進(jìn)一步探索基于三元關(guān)系的平移信息,采用類似翻譯模型TransE[18]的正則化器:
式中,T1、T2分別表示給定的兩個(gè)知識圖譜G1、G2的三元組集;W R∈R d?×2d?表示從潛在關(guān)系空間到潛在實(shí)體空間的轉(zhuǎn)換矩陣,為待學(xué)習(xí)的模型參數(shù)。
為了共同學(xué)習(xí)實(shí)體和關(guān)系的嵌入,在實(shí)體嵌入的預(yù)訓(xùn)練后最小化目標(biāo)函數(shù)
式中,λ是一個(gè)權(quán)衡系數(shù),用于在考慮關(guān)系嵌入的情況下平衡實(shí)體對齊的損失和正則化器的損失。
2.4.3 實(shí)體對的關(guān)系感知鄰居匹配 GCN旨在聚合來自相鄰節(jié)點(diǎn)的信息,但也可能帶來來自鄰居的一些額外噪聲。為了減少這些噪聲的影響,使用一個(gè)關(guān)系感知鄰域匹配模型來比較實(shí)體對。假設(shè)來自不同知識圖譜的兩個(gè)實(shí)體已經(jīng)對齊,那么具有相同含義的關(guān)系,可以根據(jù)關(guān)系的映射屬性推斷出兩個(gè)指向尾實(shí)體的對齊概率。例如,1對1關(guān)系可以提供精確對齊,而1對N關(guān)系只能表示1/N的概率。
對于每個(gè)候選實(shí)體對{(e i,e′j)|e i∈E1,e j∈E2},除了成對比較它們的一跳鄰居實(shí)體之外,還應(yīng)考慮了連接關(guān)系之間的比較。具體地,設(shè)N e i為e i在G1中的一步鄰實(shí)體集合,N e′j為e′j在G2中的一步鄰實(shí)體集合。對于關(guān)于e i和e′j的鄰域匹配,比較C e i j={(n1,n2),(r1,r2)|n1∈N e i,n2∈N e′j,
(e i,r1,n1)∈T1,(e′j,r2,n2)∈T2}。之后,本文關(guān)注具有匹配關(guān)系的匹配鄰居,這對實(shí)體對齊至關(guān)重要。因此,匹配集M eij被定義為C ei j的子集,其中元素滿足(n1,n2)∈L e且(r1,r2)∈L r,其中L e表示實(shí)體的對齊集,L r表示關(guān)系對齊集。
此外,連接關(guān)系的映射屬性對于實(shí)體對齊也很重要。因此,對于中的每個(gè)匹配案例,將根據(jù)r1、r2和n1、n2計(jì)算對齊概率,可以表示為
式中,λe是一個(gè)超參數(shù),用于控制嵌入距離和匹配分?jǐn)?shù)之間的權(quán)衡。匹配分?jǐn)?shù)越高表示候選實(shí)體對的對齊概率越高。
式中,λr是權(quán)衡系數(shù)。與實(shí)體對的距離度量類似,同時(shí)考慮關(guān)系對的嵌入距離和匹配分?jǐn)?shù)。
本文在實(shí)驗(yàn)中使用DBP15K數(shù)據(jù)集[15](見表1),該數(shù)據(jù)集是從DBpedia[4]生成的。DBpedia是一個(gè)包含不同語言版本之間豐富的語言間鏈接的大型多語言知識圖譜。DBpedia的中文、英文、日文和法文版本的子集按照一定的規(guī)則選擇。
表1 數(shù)據(jù)集信息Tab.1 Dataset information
3.2.1 實(shí)驗(yàn)平臺 訓(xùn)練平臺采用服務(wù)器規(guī)格為Intel 4210R/2XTesla V100-32G GPU、8核CPU、40G RAM,模型框架為TensorFlow。
3.2.2 評價(jià)指標(biāo) 使用Hits@k作為評估指標(biāo)來評估所有方法。Hits@k衡量排在前k個(gè)候選數(shù)據(jù)中的正確對齊實(shí)體的比例。M R R為正確對齊結(jié)果的倒數(shù)排名的平均值。Hits@k或M R R越
高表示模型的性能越好。
3.2.3 參數(shù)設(shè)置 在此遵照RDGCN、GCN-Align屬性模塊(AE)以及RNM的原文參數(shù)設(shè)置,在同一臺機(jī)器上進(jìn)行實(shí)驗(yàn),以確保實(shí)驗(yàn)的準(zhǔn)確性。
所有模型包括本文方法均使用30%的先驗(yàn)對齊實(shí)體作為訓(xùn)練集,剩下的70%作為測試集。RDGCN模塊參數(shù)設(shè)置為:β1=0.1,β2=0.3,γ=1.0。對偶(雙)和原始注意力層中隱藏表示的維度為d=300、d′=600和d?=300。GCN層中隱藏表示的所有維度均為300。學(xué)習(xí)率設(shè)置為0.001,采樣K=125,每訓(xùn)練10個(gè)epoch生成一次負(fù)實(shí)體對,共訓(xùn)練600個(gè)epoch。
屬性模塊參數(shù)設(shè)置為:采用SGD優(yōu)化算法對模型更新迭代2 000次,超參數(shù)設(shè)置為:γa=3,d a=300,GCN第一層的輸出維度、第二層的輸入維度和最后的輸出維度都相等。
聯(lián)合結(jié)構(gòu)與屬性模塊:公式(13)中εs+a=0.9,λs+a=0.1。
關(guān)系感知鄰域模塊設(shè)置為:使用一個(gè)2層GCN來學(xué)習(xí)實(shí)體嵌入。GCN中隱藏層的尺寸結(jié)構(gòu)和屬性分別設(shè)置為d s=300,d a=300;學(xué)習(xí)率設(shè)置為0.001。種子對齊比例為30%。將邊界γ設(shè)為1,學(xué)習(xí)率λ設(shè)為0.001,閾值δe為5,閾值δr為3,λe設(shè)為10,λr設(shè)為200。選擇最近的100個(gè)實(shí)體和最近的20個(gè)關(guān)系作為匹配的候選對象。設(shè)每個(gè)正樣本的負(fù)樣本數(shù)為125。最大迭代次數(shù)T設(shè)置為4。首先公式(14)優(yōu)化為50個(gè)epoch,然后使用公式(17)聯(lián)合訓(xùn)練嵌入10個(gè)epoch。
3.3.1 消融實(shí)驗(yàn) 本文方法的總體模型為RNM+RDGCN+AE,為了清晰本文各個(gè)模塊的效果,進(jìn)行消融實(shí)驗(yàn),將RNM+RDGCN+AE模型消融為RNM+RDGCN和RNM+AE兩個(gè)模型。在實(shí)驗(yàn)中,將本文的方法與RNM[8]方法進(jìn)行比較。通過表2所示,在本文的3個(gè)模型中,即總體模型(RNM+RDGCN+AE)以及消融分化的兩個(gè)模型(RNM+RDGCN和RNM+AE),模型RNM+AE達(dá)到最優(yōu)性能,在三個(gè)數(shù)據(jù)集ZH-EN、JA-EN、FR-EN上的指標(biāo)@1準(zhǔn)確率分別可達(dá)到86.91%、87.67%和94.05%。
RNM引入RDGCN模型(RNM+RDGCN)作為前期結(jié)構(gòu)學(xué)習(xí)時(shí),與RNM相比,效果有增有減,例如,在數(shù)據(jù)集ZH-EN上@1為84.53%,不及RNM的84.57%,但在指標(biāo)@10和@50上的91.84%和93.40%,高于RNM的91.73%,93.00%。其原因可能是后期的關(guān)系感知鄰域匹配模型對關(guān)系的正確校正起了很大的作用,能有效校正RNM前期的GCN結(jié)構(gòu)模塊學(xué)習(xí)的不足。
RNM引入RDGCN模型并增加屬性模型(RNM+RDGCN+AE)作為前期的結(jié)構(gòu)與屬性信息學(xué)習(xí)時(shí),相比較RNM和RNM+RDGCN對齊精度都有較大的提升力度。例如,在數(shù)據(jù)集ZH-EN上,RNM+RDGCN+AE在指標(biāo)@1上為86.30%,高于RNM和RNM+RDGCN的84.57%和84.53%。在指標(biāo)@10和@50上也是如此,分別為94.58%和96.32%,達(dá)到了3個(gè)模型中的最佳值。這是由于RNM并沒有考慮屬性信息,說明屬性信息的輔助能有效提升實(shí)體對齊的效果。
RNM引入屬性模型(RNM+AE)具有最佳的表現(xiàn),甚至高于RNM+RDGCN+AE模型。例如,在數(shù)據(jù)集ZH-EN與JA-EN上,@1分別為86.91%和87.67%,高于RNM+RDGCN+AE的86.30%和86.92%。其原因是RNM的關(guān)系感知鄰域匹配模型對實(shí)體的關(guān)系匹配達(dá)到的效果比較好,能夠校正前期GCN實(shí)體結(jié)構(gòu)學(xué)習(xí)的不足。
3.3.2 不同方法結(jié)果對比 表2列舉了多種方法的對比結(jié)果。JAPE首次在表示學(xué)習(xí)中引入屬性信息,由于表示學(xué)習(xí)在實(shí)體對齊中的精確度基準(zhǔn)普遍不高,因此JAPE表現(xiàn)不佳,例如在數(shù)據(jù)集ZH-EN上@1為41.18%。
表2 方法對比結(jié)果Tab.2 Comparison method results /%
GCN-Align首次將GCN引入實(shí)體對齊任務(wù)中,并聯(lián)合屬性信息一起學(xué)習(xí),但該方法只以基礎(chǔ)GCN為模型,沒有對其拓展,在數(shù)據(jù)集ZH-EN的@1上也只有41.25%。RDGCN通過對GCN進(jìn)行拓展,在數(shù)據(jù)集ZH-EN的@1上達(dá)到了70.75%。鑒于此,后面很多方法均在此基礎(chǔ)上進(jìn)行拓展,提高了實(shí)體對齊任務(wù)的有效性。所以當(dāng)前實(shí)體對齊任務(wù)中以GCN為基準(zhǔn)的實(shí)體對齊方法更多一些[14]。
一些方法以GCN為基礎(chǔ)模型,以輔助信息作為提升性能的手段,如KGEA[19]以詞嵌入調(diào)用上下文,利用LSTM以及注意力機(jī)制輔助提取上下文信息,以完成實(shí)體對齊任務(wù)。由于LSTM以GCN為基準(zhǔn),在數(shù)據(jù)集ZH-EN、JA-EN、FR-EN的指標(biāo)@1上分別為54.6%、64.6%和79.6%,在對齊任務(wù)上表現(xiàn)不佳。
同 樣 以 上 下 文 信 息 為 例 的CTEA(context and topic enhanced entity alignment)[20]方 法,以GCN為基礎(chǔ)模型,使用GCN和TransE并行處理實(shí)體對齊任務(wù),雖然效果不錯(cuò),但是并未在GCN上和Trans E上做擴(kuò)展提升,例如在ZH-EN上的@10為90.50%。再以輔助信息為例,HMAN[21]引入BERT變種模型,試圖使用上下文信息,雖然精確度很高,但由于BERT時(shí)間復(fù)雜度過大,且BERT操作不方便,其在數(shù)據(jù)集ZH-EN上的@1為56.20%。
只以GCN為拓展,如RDGCN對GCN引入注意力機(jī)制加強(qiáng)實(shí)體信息學(xué)習(xí)能力,但不及只使用循環(huán)迭代的RNM。RDGCN在ZH-EN、JA-EN、FR-EN的@1上表現(xiàn)為70.75%、76.74%、88.64%,不及RNM的84.57%、86.95%、94.38%。
基于雙重注意力和關(guān)系語義建模的實(shí)體對齊方法[22],與RDGCN方法有相似的思想,都以GCN為基礎(chǔ),使用注意力機(jī)制。雙重注意力和關(guān)系語義建模方法以關(guān)系語義作為輔助信息效果,而本文以屬性信息作為輔助信息。基于雙重注意力和關(guān)系語義建模的實(shí)體對齊方法,采用以GCN加注意力機(jī)制為提升的基礎(chǔ)上再加輔助關(guān)系語義信息的提升效果不如RNM,ZH-EN、JA-EN、FR-EN的@1上分別為81.00%、83.90%、92.73%,不及RNM的84.57%、86.95%、94.38%。
本文提出結(jié)合屬性信息與對偶注意力機(jī)制的實(shí)體對齊的關(guān)系感知鄰域匹配模型,引入實(shí)體對齊的關(guān)系感知鄰域匹配模型中沒有考慮的屬性信息,同時(shí)引入RDGCN的對偶注意力機(jī)制以優(yōu)化RNM方法中GCN結(jié)構(gòu)學(xué)習(xí)能力的不足。在3個(gè)跨語言數(shù)據(jù)集進(jìn)行仿真,驗(yàn)證了對偶注意力以及屬性信息對實(shí)體對齊方法的有效性。