王志寶,江樹濤,李菲,高俊濤,馬強(qiáng),楊彬
(1.東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江大慶 163318;2.東北石油大學(xué)環(huán)渤海能源研究院,河北秦皇島 066004;3.黑龍江八一農(nóng)墾大學(xué)信息與電氣工程學(xué)院,黑龍江 大慶 163319)
知識(shí)圖譜(KG)已廣泛應(yīng)用于推薦系統(tǒng)[1]、智能搜索引擎[2]、智能問答系統(tǒng)[3]、決策支持[4]等石油企業(yè)智能化應(yīng)用與知識(shí)驅(qū)動(dòng)的任務(wù)。知識(shí)圖譜的完整性影響這些應(yīng)用的效率與準(zhǔn)確度。石油企業(yè)在信息化建設(shè)過程中積累了大量的業(yè)務(wù)數(shù)據(jù),為充分發(fā)揮數(shù)據(jù)價(jià)值,采用數(shù)據(jù)湖技術(shù)統(tǒng)一管理勘探開發(fā)領(lǐng)域的數(shù)據(jù)資源[5]。在數(shù)據(jù)湖中,基于數(shù)據(jù)資源目錄抽取數(shù)據(jù)進(jìn)行知識(shí)建模,形成石油領(lǐng)域數(shù)據(jù)資產(chǎn)知識(shí)圖譜,簡(jiǎn)稱石油數(shù)據(jù)資產(chǎn)圖譜。不同的石油數(shù)據(jù)資產(chǎn)圖譜根據(jù)不同的數(shù)據(jù)源構(gòu)建而成,各石油數(shù)據(jù)資產(chǎn)圖譜間相互補(bǔ)充,融合多源異構(gòu)的石油數(shù)據(jù)資產(chǎn)圖譜是提高圖譜完整性的有效方法。但是在表示現(xiàn)實(shí)世界的同一實(shí)體中,不同的石油數(shù)據(jù)資產(chǎn)圖譜有不同的實(shí)體名稱,這增加了自動(dòng)融合石油數(shù)據(jù)資產(chǎn)圖譜的難度。實(shí)體對(duì)齊(EA)是從不同知識(shí)圖譜中自動(dòng)發(fā)現(xiàn)等價(jià)實(shí)體的任務(wù),是實(shí)現(xiàn)多源異構(gòu)石油數(shù)據(jù)資產(chǎn)圖譜的自動(dòng)融合、提高石油數(shù)據(jù)資產(chǎn)圖譜完整性的基礎(chǔ)。
石油數(shù)據(jù)資產(chǎn)圖譜有以下特點(diǎn),使得實(shí)體對(duì)齊過程變得復(fù)雜且困難:1)命名規(guī)則差異性大,不同版本的數(shù)據(jù)資源命名規(guī)范不一致,有的用英語單詞拼接和英語單詞縮寫,也有的用編碼和漢語拼音縮寫,導(dǎo)致名稱差異大,如“CD_SURVEY_STATION_T”和“DAA03”2 個(gè)實(shí)體只依靠其實(shí)體名稱難以分辨出它們?cè)? 個(gè)不同石油數(shù)據(jù)資產(chǎn)圖譜中是表示同1 個(gè)現(xiàn)實(shí)對(duì)象的實(shí)體;2)具有極強(qiáng)的專業(yè)性,存在特殊的語義,如“狗腿嚴(yán)重度”在鉆井工程中是用來測(cè)量井眼彎曲程度或變化快慢的參數(shù),又稱全角變化率或井眼曲率。在不具備領(lǐng)域知識(shí)的背景下,僅憑實(shí)體名稱難以對(duì)不同知識(shí)圖譜中都表示“狗腿嚴(yán)重度”的“DOGLEG_SEVERITY”和“QJBHL”進(jìn)行實(shí)體對(duì)齊。
在通用領(lǐng)域中,知識(shí)圖譜實(shí)體對(duì)齊主要有基于TransE 的知識(shí)圖譜嵌入方法[6]和基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的方法[11]?;赥ransE 的知識(shí)圖譜嵌入方法受訓(xùn)練樣本數(shù)量和知識(shí)圖譜異質(zhì)性的影響,實(shí)體對(duì)齊效果一般?;趫D神經(jīng)網(wǎng)絡(luò)的方法是目前主流的實(shí)體對(duì)齊方法,這些方法[11]通過聚合實(shí)體和圖結(jié)構(gòu)的信息來提高準(zhǔn)確度,在通用領(lǐng)域的知識(shí)圖譜中表現(xiàn)較好,但在實(shí)體名稱差異大、專業(yè)性強(qiáng)且行業(yè)特殊語義實(shí)體多的石油數(shù)據(jù)資產(chǎn)圖譜實(shí)體對(duì)齊過程中表現(xiàn)一般。在石油數(shù)據(jù)資產(chǎn)圖譜中,除實(shí)體和圖結(jié)構(gòu)特征以外,頭實(shí)體和尾實(shí)體間的關(guān)系、實(shí)體的屬性和屬性值也包含豐富的語義信息,然而在現(xiàn)有的基于GNN 的實(shí)體對(duì)齊方法中卻沒有被充分利用。
現(xiàn)有基于GNN 聚合實(shí)體和圖結(jié)構(gòu)特征的實(shí)體對(duì)齊模型在石油數(shù)據(jù)資產(chǎn)圖譜實(shí)體對(duì)齊任務(wù)中表現(xiàn)一般。針對(duì)石油數(shù)據(jù)資產(chǎn)圖譜特點(diǎn),本文提出一種改進(jìn)的基于圖注意力網(wǎng)絡(luò)(GAT)的多鄰域感知網(wǎng)絡(luò)(MNAN)模型。MNAN 模型結(jié)合基于BERT 的多語言預(yù)訓(xùn)練模型捕獲和融合石油數(shù)據(jù)資產(chǎn)圖譜中實(shí)體間關(guān)系、屬性和屬性值多鄰域的初始語義信息,改進(jìn)關(guān)系感知圖注意力網(wǎng)絡(luò)和屬性感知圖注意力網(wǎng)絡(luò),通過變體注意力機(jī)制充分學(xué)習(xí)實(shí)體的多鄰域特征,進(jìn)一步提高實(shí)體對(duì)齊的效果。
基于知識(shí)圖譜嵌入的實(shí)體對(duì)齊方法核心思想是使用知識(shí)圖譜嵌入模型學(xué)習(xí)實(shí)體在低維向量空間中的嵌入表示,計(jì)算待對(duì)齊實(shí)體的向量相似度,得到相似度矩陣,最后根據(jù)相似度矩陣發(fā)現(xiàn)對(duì)應(yīng)的目標(biāo)實(shí)體。一些基于知識(shí)圖譜嵌入的實(shí)體對(duì)齊方法認(rèn)為關(guān)系向量是頭實(shí)體向量到尾實(shí)體向量的轉(zhuǎn)換向量,利用TransE[6]將實(shí)體和關(guān)系嵌入到統(tǒng)一向量空間中。例如MTransE[7]使用TransE[6]在分離的嵌入空間中對(duì)每個(gè)知識(shí)圖譜的實(shí)體和關(guān)系進(jìn)行編碼,并提供每個(gè)嵌入向量到其他知識(shí)圖譜嵌入空間的轉(zhuǎn)換,最后計(jì)算實(shí)體間距離進(jìn)行實(shí)體對(duì)齊。JE[8]聯(lián)合學(xué)習(xí)多個(gè)知識(shí)圖譜在統(tǒng)一向量空間中的嵌入,以對(duì)齊知識(shí)圖譜中的實(shí)體。JAPE[9]結(jié)合結(jié)構(gòu)嵌入和屬性嵌入來匹配不同知識(shí)圖譜中的實(shí)體。BootEA[10]采用迭代的方式增加實(shí)體對(duì)齊種子并進(jìn)行模型訓(xùn)練,學(xué)習(xí)知識(shí)圖譜的嵌入。雖然基于TransE[6]的嵌入方法能表示知識(shí)圖譜中實(shí)體和關(guān)系的語義信息,但是它們?cè)诒硎局R(shí)圖譜全局結(jié)構(gòu)信息方面存在不足。
隨著圖神經(jīng)網(wǎng)絡(luò)的研究,很多學(xué)者將GNN 引入到實(shí)體對(duì)齊任務(wù)中,通過接收、聚合鄰域特征信息的方式更新實(shí)體的特征,獲得更全面、更準(zhǔn)確的實(shí)體嵌入表示。例如,GCN-Align[11]使用2 層原始的圖卷積網(wǎng)絡(luò)[12](GCN)聚合當(dāng)前時(shí)刻節(jié)點(diǎn)及其鄰居的向量表示,以更新下一時(shí)刻節(jié)點(diǎn)的向量表示,將每個(gè)知識(shí)圖譜的實(shí)體嵌入到統(tǒng)一的向量空間中,但是原始的GCN 不能學(xué)習(xí)知識(shí)圖譜中的異構(gòu)關(guān)系特征,難以聚合更多的關(guān)系信息。在GCN-Align[11]之后,基于GCN 的實(shí)體對(duì)齊方法蓬勃發(fā)展。MRAEA[13]根據(jù)實(shí)體的傳入和傳出鄰居以及實(shí)體之間的關(guān)系類型為實(shí)體分配不同的權(quán)重系數(shù),使模型能夠區(qū)分不同實(shí)體之間的重要性。RDGCN[14]通過構(gòu)建1 個(gè)以關(guān)系為節(jié)點(diǎn)、實(shí)體為邊的對(duì)偶關(guān)系圖,通過注意力機(jī)制使對(duì)偶關(guān)系圖與原始知識(shí)圖譜之間進(jìn)行交互,從而將關(guān)系信息整合到實(shí)體中。RREA[15]將關(guān)系反射變換添加到GNN 中,通過關(guān)系反射變換計(jì)算出關(guān)系的向量表示。HGCN[16]使用帶有Highway Networks 的GCN更新實(shí)體表示并根據(jù)實(shí)體表示得到關(guān)系表示。MHGCN[17]提出使用實(shí)體、關(guān)系、屬性多視圖,每個(gè)視圖使用帶有Highway Networks 的GCN 對(duì)實(shí)體表示進(jìn)行更新,最后根據(jù)每個(gè)視圖的重要性對(duì)多個(gè)視圖進(jìn)行加權(quán)融合,以獲得更好的實(shí)體表示。RAGA[18]為充分利用多個(gè)實(shí)體之間的關(guān)系,使用關(guān)系感知圖注意力網(wǎng)絡(luò)捕捉實(shí)體和關(guān)系之間的交互。EchoEA[19]利用4 層自注意力機(jī)制將實(shí)體信息傳播到關(guān)系,并回顯給實(shí)體。NAMN[20]針對(duì)圖結(jié)構(gòu)的異質(zhì)性使用GAT 進(jìn)行局部采樣,通過帶有門控機(jī)制的GNN 聚合鄰域特征,并與跨圖鄰域匹配的輸出進(jìn)行聯(lián)合編碼,利用最終得到的實(shí)體表示進(jìn)行對(duì)齊預(yù)測(cè)。DAGCN[21]使用帶有Highway Networks 的GCN 和度感知生成網(wǎng)絡(luò)解決因等價(jià)實(shí)體間實(shí)體度差異而存在的實(shí)體對(duì)齊效果差問題。Ad-MKG 模型[22]中的知信圖卷積語義分析使用帶有GCN 圖編碼層和多頭注意力機(jī)制的引導(dǎo)層以及結(jié)合先驗(yàn)知識(shí)的知信牽引層,最后通過三元組判別層獲得醫(yī)療知識(shí)圖譜中的等價(jià)實(shí)體。
目前,在石油領(lǐng)域數(shù)據(jù)資產(chǎn)知識(shí)圖譜中基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體對(duì)齊方法研究較少,主要是基于字符串相似度與實(shí)體語義相似度的方法。在測(cè)井解釋領(lǐng)域知識(shí)圖譜中徐凡鈞等[23]使用名稱和屬性的綜合相似度進(jìn)行實(shí)體對(duì)齊,此方法在實(shí)體命名規(guī)范一致且異構(gòu)性小的前提下比較高效。薛廣有與文必龍等[24-25]改進(jìn)孿生神經(jīng)網(wǎng)絡(luò)用于油藏地質(zhì)領(lǐng)域?qū)嶓w對(duì)齊,捕獲了實(shí)體的語義信息,獲得較好的效果。朱小龍[26]通過加入實(shí)體的類型和描述的方式改進(jìn)TransE 模型,融合了從異質(zhì)的地質(zhì)文本中抽取出的三元組。劉國強(qiáng)等[27]將有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合進(jìn)行模型訓(xùn)練,利用實(shí)體相似度算法實(shí)現(xiàn)油氣層測(cè)井知識(shí)圖譜實(shí)體層的知識(shí)融合。但是以上方法沒有充分聚合知識(shí)圖譜中的鄰域信息,實(shí)體對(duì)齊效果還有待進(jìn)一步提高。
本文提出一種改進(jìn)的用于實(shí)體對(duì)齊任務(wù)的MNAN 模型,該模型使用2 個(gè)知識(shí)圖譜的關(guān)系三元組、屬性三元組和對(duì)齊的種子實(shí)體對(duì),首先通過初始化嵌入得到實(shí)體及多種鄰域特征,再聚合多種特征以學(xué)習(xí)實(shí)體的表示,最后根據(jù)不同知識(shí)圖譜間實(shí)體嵌入向量的L1 距離發(fā)現(xiàn)對(duì)齊的實(shí)體。主要包括以下5 部分:1)初始化嵌入使用基于BERT 的多語言預(yù)訓(xùn)練模型將實(shí)體名稱、關(guān)系名稱、屬性名稱和屬性值進(jìn)行初始化嵌入,獲取它們的語義信息;2)鄰域?qū)嶓w聚合根據(jù)知識(shí)圖譜的拓?fù)浣Y(jié)構(gòu)利用圖卷積神經(jīng)網(wǎng)絡(luò)和Highway Networks 聚合鄰域結(jié)構(gòu)的信息,以初步獲得知識(shí)圖譜的結(jié)構(gòu)特征;3)多鄰域感知通過變體注意力機(jī)制的關(guān)系感知注意力網(wǎng)絡(luò)和屬性感知注意力網(wǎng)絡(luò)分別聚合知識(shí)圖譜中實(shí)體間的關(guān)系、實(shí)體的屬性與屬性值多鄰域特征;4)實(shí)體增強(qiáng)注意力網(wǎng)絡(luò)使用一層圖注意力網(wǎng)絡(luò)聚合鄰居實(shí)體的多鄰域特征以增強(qiáng)實(shí)體表示;5)實(shí)體對(duì)齊和訓(xùn)練在經(jīng)過以上步驟學(xué)習(xí)到實(shí)體的最終嵌入后,計(jì)算2 個(gè)知識(shí)圖譜中對(duì)齊實(shí)體對(duì)之間的L1 距離,其訓(xùn)練目標(biāo)是使對(duì)齊實(shí)體對(duì)之間的嵌入距離盡量小,距離越小實(shí)體間的相似性越高。MNAN 模型框架如圖1 所示。
圖1 MNAN 模型框架Fig.1 Framework of MNAN model
知識(shí)圖譜的形式化定義為KKG={E,R,M,V,TR,TA},其中E、R、M、V分別表示實(shí)體、關(guān)系、屬性、屬性值的集合。TR={(h,r,t)?E×R×E}表示關(guān)系三元組的集合,每個(gè)關(guān)系三元組(h,r,t)由頭實(shí)體h?E、關(guān)系r?R和尾實(shí)體t?E組成。TA={(e,m,v)?E×M×V}表示屬性三元組的集合,每個(gè)屬性三元組(e,m,v)由實(shí)體e?E、屬性m?M和屬性值v?V組成。知識(shí)圖譜中實(shí)體的數(shù)量|E|=n是知識(shí)圖譜的大小。
受MHGCN[17]模型啟發(fā),利用知識(shí)圖譜中的實(shí)體語義視圖、關(guān)系語義視圖、實(shí)體屬性視圖和實(shí)體屬性值視圖的信息來初始化知識(shí)圖譜。知識(shí)圖譜中所有實(shí)體、關(guān)系、實(shí)體屬性和實(shí)體屬性值都是由詞語或短語組成,與MHGCN[17]等模型把詞語或短語統(tǒng)一翻譯為英語,再利用GloVe[28]詞預(yù)訓(xùn)練模型生成不同詞向量,MNAN 模型直接使用基于BERT[29]的多語言預(yù)訓(xùn)練模型得到詞語或短語的向量表示,如式(1)所示:
為進(jìn)一步聚合鄰居實(shí)體的信息,本文使用經(jīng)過名稱嵌入得到的初始實(shí)體向量X(0)作為GCN 層輸入,使用GCN 結(jié)合實(shí)體的鄰居實(shí)體信息以學(xué)習(xí)實(shí)體表示。第l層的實(shí)體特征用X(l)=表示,其中,n表示知識(shí)圖譜中實(shí)體的數(shù)量表示實(shí)體ei在第l層的實(shí)體向量,d(l)是第l層實(shí)體向量的維度。第l層的隱藏特征由l-1 層中的隱藏特征計(jì)算得到的,如式(2)所示:
其中:X(l-1)為l-1 層的隱藏特征;A表示知識(shí)圖譜結(jié)構(gòu)信息的鄰接矩陣,形狀為n×n;=A+I表示知識(shí)圖譜中每個(gè)節(jié)點(diǎn)加上自環(huán)的鄰接矩陣,I是單位矩陣;為的度矩陣是激活函數(shù),為減輕梯度消失問題和避免ReLU(x<0)=0 所帶來的負(fù)面信息丟失問題,本文模型選用Tanh 作為激活函數(shù);W(l)是1 個(gè)形狀為d(l-1)×d(l)的可訓(xùn)練權(quán)重矩陣。受RREA[15]模型的啟發(fā),為了避免改變實(shí)體嵌入形狀,保持d(l-1)=d(l)=de。
GCN 模型包含了豐富的拓?fù)湫畔?,但也容易累積前一層的噪聲。受HGCN[16]啟發(fā),在GCN 層之間加入Highway Networks 平衡實(shí)體本身和鄰居實(shí)體的特征,控制錯(cuò)誤傳播并保留有用的結(jié)構(gòu)信息,達(dá)到減少噪聲的目的。經(jīng)過Highway Networks 處理后的特征是輸入特征和通過可學(xué)習(xí)的門控機(jī)制對(duì)輸入特征進(jìn)行處理后的特征加權(quán)和,如式(3)和式(4)所示:
其中:σ為Sigmoid 激活函數(shù);?為元素乘法;W(l)和b(l)為第l層變換門T(X(l))的權(quán)重矩陣和偏置向量。
實(shí)體間的關(guān)系、實(shí)體的屬性與屬性值在實(shí)體對(duì)齊的過程中起著重要的輔助作用。為了得到更精確的實(shí)體向量表示,本文使用基于變體注意力機(jī)制的關(guān)系感知注意力網(wǎng)絡(luò)和屬性感知注意力網(wǎng)絡(luò)實(shí)現(xiàn)多鄰域感知,聚合實(shí)體的多鄰域信息。
不同關(guān)系對(duì)學(xué)習(xí)實(shí)體嵌入發(fā)揮著不同的作用,為了更準(zhǔn)確地獲得實(shí)體嵌入并捕捉關(guān)系的異質(zhì)性,采用基于變體注意力機(jī)制的關(guān)系感知注意力網(wǎng)絡(luò)對(duì)具有不同關(guān)系的鄰居實(shí)體進(jìn)行權(quán)重學(xué)習(xí)。區(qū)別于GAT 僅考慮鄰近節(jié)點(diǎn)注意力機(jī)制,為了使注意力系數(shù)捕捉到相鄰實(shí)體間不同的關(guān)系語義信息,MNAN 模型將實(shí)體間關(guān)系的嵌入向量加入到注意力系數(shù)計(jì)算中。注意力系數(shù)既依賴于實(shí)體的表示又依賴于實(shí)體間關(guān)系的表示,能夠更好地刻畫現(xiàn)實(shí)世界中復(fù)雜的知識(shí)圖譜信息。此外,由于ei對(duì)ej的重要性和ej對(duì)ei的重要性可能不同,因此具有不對(duì)稱性,關(guān)系感知注意力可以保持異構(gòu)圖的不對(duì)稱性。注意力系數(shù)的計(jì)算表達(dá)式如式(5)所示:
使用注意力系數(shù)聚合其鄰居特征以更新實(shí)體ei基于關(guān)系結(jié)構(gòu)的嵌入,如式(6)所示:
與關(guān)系感知注意力網(wǎng)絡(luò)類似,屬性感知注意力網(wǎng)絡(luò)使用變體注意力機(jī)制計(jì)算屬性三元組(ei,mg,vq) ?TA中vq到ei的屬性感知注意力系數(shù)如式(7)所示:
在得到屬性感知注意力系數(shù)后,結(jié)合屬性感知注意力系數(shù)和屬性值的嵌入得到實(shí)體ei新的嵌入向量,如式(8)所示:
經(jīng)過關(guān)系感知注意力網(wǎng)絡(luò)和屬性感知注意力網(wǎng)絡(luò)后,多鄰域感知的實(shí)體向量通過式(9)拼接、來表示:
為了突出兩跳鄰居實(shí)體的重要性,本文添加一層圖注意力網(wǎng)絡(luò)計(jì)算每個(gè)鄰居實(shí)體的注意力系數(shù),得到增強(qiáng)的實(shí)體表示,鄰居實(shí)體ej對(duì)實(shí)體ei的注意力系數(shù)αij計(jì)算如式(10)所示。為了簡(jiǎn)化計(jì)算和避免過擬合,只有1 個(gè)向量參數(shù)aT是可訓(xùn)練的。實(shí)體嵌入的最終輸出計(jì)算式如式(11)所示:
MNAN 模型利用每個(gè)實(shí)體的最終嵌入向量xout評(píng)估對(duì)齊效果并計(jì)算損失,MNAN 模型使用曼哈頓距離(L1 距離)來計(jì)算2 個(gè)對(duì)齊實(shí)體之間的距離,距離越小說明候選實(shí)體對(duì)對(duì)齊的概率越高。通過式(12)計(jì)算來自KGs的ei、KGt的ej2 個(gè)實(shí)體之間的L1 距離。
通過減少對(duì)齊實(shí)體對(duì)的L1 距離并增大負(fù)實(shí)體對(duì)的L1 距離來計(jì)算損失,使用最小化基于邊際的排名損失函數(shù)優(yōu)化模型訓(xùn)練,學(xué)習(xí)實(shí)體的表示,損失函數(shù)計(jì)算式如式(13)所示:
其中:γ為邊際超參數(shù);dis(ei,ej)表示實(shí)體ei和實(shí)體ej間的L1 距離;Pseed為對(duì)齊種子實(shí)體對(duì);P′seed表示負(fù)樣本集,負(fù)樣本是通過選擇另1 個(gè)K-Nearest 實(shí)體來代替ej或ei的組成。因?yàn)? 個(gè)實(shí)體在另1 個(gè)知識(shí)圖譜中只能有1 個(gè)對(duì)應(yīng)實(shí)體,所以在同1 個(gè)知識(shí)圖譜中最接近對(duì)齊實(shí)體的實(shí)體應(yīng)該是準(zhǔn)確區(qū)分目標(biāo)實(shí)體作為反例的最佳選擇,每個(gè)預(yù)對(duì)齊的實(shí)體對(duì)將有2×K個(gè)負(fù)樣本。
在本節(jié)中,使用石油勘探開發(fā)領(lǐng)域數(shù)據(jù)資產(chǎn)圖譜作為數(shù)據(jù)集在實(shí)體對(duì)齊任務(wù)上評(píng)估MNAN 模型,評(píng)估結(jié)果顯示MNAN 模型優(yōu)于所有評(píng)測(cè)的基準(zhǔn)模型。
為評(píng)估MNAN 模型,本文使用由石油勘探開發(fā)領(lǐng)域中鉆井、測(cè)井、油氣生產(chǎn)等12 個(gè)業(yè)務(wù)域的EPDM1.0(簡(jiǎn)稱EPDM)和中石化勘探開發(fā)數(shù)據(jù)庫(簡(jiǎn)稱ZSH)2 個(gè)不同版本的數(shù)據(jù)模型和業(yè)務(wù)模型構(gòu)建而成數(shù)據(jù)資產(chǎn)知識(shí)圖譜作為數(shù)據(jù)集,命名為PED。PED 數(shù)據(jù)集中共包含8 000 個(gè)對(duì)齊的種子實(shí)體對(duì),具體統(tǒng)計(jì)信息如表1 所示。
表1 PED 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Statistics information of PED dataset 單位:個(gè)
在數(shù)據(jù)集中2 個(gè)知識(shí)圖譜具有編碼格式差異性大、專業(yè)性強(qiáng)且獨(dú)特語義實(shí)體多等特點(diǎn),實(shí)現(xiàn)自動(dòng)實(shí)體對(duì)齊的難度較大。PED 數(shù)據(jù)集中部分?jǐn)?shù)據(jù)如圖2所示,顏色不同的節(jié)點(diǎn)表示EPDM 與ZSH 2 個(gè)不同版本的數(shù)據(jù)模型和業(yè)務(wù)模型中的實(shí)體,灰色節(jié)點(diǎn)表示EPDM 中的實(shí)體,淺灰色節(jié)點(diǎn)表示ZSH 中的實(shí)體,節(jié)點(diǎn)間關(guān)系為“對(duì)齊”的2 個(gè)節(jié)點(diǎn)表示預(yù)先對(duì)齊的種子實(shí)體對(duì),如
圖2 PED 數(shù)據(jù)集中部分?jǐn)?shù)據(jù)展示Fig.2 Partial data display on PED dataset
本文使用前K命中率Hits@K和平均倒數(shù)排名(MRR)作為評(píng)估指標(biāo)評(píng)估實(shí)體對(duì)齊的性能,這2 個(gè)評(píng)估指標(biāo)均越高越好。
與RAGA[18]等模型先通過谷歌翻譯把所有名稱翻譯成英文,然后再使用預(yù)訓(xùn)練模型得到的名稱嵌入向量不同,MNAN 模型無須翻譯成統(tǒng)一語言,直接使用基于BERT 的多語言預(yù)訓(xùn)練模型對(duì)實(shí)體、關(guān)系、屬性和屬性值的名稱進(jìn)行初始化嵌入,嵌入維度均為512。為了與其他模型一致,數(shù)據(jù)集在訓(xùn)練模型之前被隨機(jī)打亂。使用2 層帶有Highway Networks 的GCN 聚合結(jié)構(gòu)信息,學(xué)習(xí)率r=0.001,更新負(fù)樣本數(shù)的epoch 數(shù)p=5,負(fù)樣本數(shù)K=5,在基于邊際的損失函數(shù)中,邊際λ=3.0。將數(shù)據(jù)集中30%的種子實(shí)體對(duì)作為訓(xùn)練模型的訓(xùn)練集Ptrain,剩余70%的種子實(shí)體對(duì)作為測(cè)試集Ptest。本文模型使用PyTorch 深度學(xué)習(xí)框架實(shí)現(xiàn),選用Adam 作為梯度下降優(yōu)化器。
為了評(píng)估MNAN 模型,本文選擇4 個(gè)基于GNN的實(shí)體對(duì)齊方法進(jìn)行比較,分別為GCN-Align[11]、RDGCN[14]、RAGA[18]、EchoEA[19]。為了公平起見,所有模型中實(shí)體名稱的初始嵌入統(tǒng)一使用基于BERT 的多語言預(yù)訓(xùn)練模型。
另外,為了評(píng)估MNAN 模型中每個(gè)部分的有效性,本文為消融實(shí)驗(yàn)提供了以下4 個(gè)不同的模型變體:
w/o HGCN:模型中沒有帶有Highway Networks的GCN,在關(guān)系感知注意力網(wǎng)絡(luò)和屬性感知注意力網(wǎng)絡(luò)中使用初始嵌入的實(shí)體特征,實(shí)體增強(qiáng)注意力網(wǎng)絡(luò)的輸入為,其中是實(shí)體ei經(jīng)過初始化嵌入和鄰域?qū)嶓w聚合網(wǎng)絡(luò)的輸出向量。
w/o RGAT:模型中沒有關(guān)系感知注意力網(wǎng)絡(luò),在實(shí)體增強(qiáng)注意力網(wǎng)絡(luò)中的輸入為
w/o MGAT:模型中沒有屬性感知注意力網(wǎng)絡(luò),在實(shí)體增強(qiáng)注意力網(wǎng)絡(luò)中的輸入為
w/o EGAT:模型中沒有實(shí)體增強(qiáng)注意力網(wǎng)絡(luò),最終的實(shí)體表示為
表3 所示為所有選用的對(duì)比模型在PED 數(shù)據(jù)集上的表現(xiàn)結(jié)果,加粗表示最優(yōu)數(shù)據(jù)。
表3 不同模型在實(shí)體對(duì)齊任務(wù)上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results among different models on the entity alignment task %
從表3 可以看出,本文提出的MNAN 模型在石油勘探開發(fā)領(lǐng)域數(shù)據(jù)資產(chǎn)知識(shí)圖譜數(shù)據(jù)集上的指標(biāo)優(yōu)于所有對(duì)比模型,與基于GNN 實(shí)體對(duì)齊模型的EchoEA 相比Hits@1 提高2.3 個(gè)百分點(diǎn),其原因在于MNAN 模型融合了知識(shí)圖譜結(jié)構(gòu)的信息以及關(guān)系、屬性、屬性值初始語義信息。GCN-Align[11]簡(jiǎn)單使用關(guān)系三元組沒有考慮關(guān)系和屬性的信息而表現(xiàn)最差,RDGCN 進(jìn)一步利用實(shí)體的關(guān)系信息獲得了比GCN-Align 更好的性能,RAGA 考慮了實(shí)體對(duì)關(guān)系的影響,并通過關(guān)系感知注意力網(wǎng)絡(luò)對(duì)實(shí)體和關(guān)系之間的交互進(jìn)行建模,提高了實(shí)體對(duì)齊性能。EchoEA 通過在實(shí)體和關(guān)系之間回顯信息來進(jìn)一步利用關(guān)系信息,是目前基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體對(duì)齊模型中性能最好的模型,在PED 數(shù)據(jù)集上Hits@1 為84.4%。
通過變體模型在數(shù)據(jù)集上的表現(xiàn),評(píng)估MNAN模型中每個(gè)部分對(duì)于實(shí)體對(duì)齊任務(wù)的重要性。鄰域?qū)嶓w聚合網(wǎng)絡(luò)效果:相對(duì)于其他變體模型而言,w/o HGCN 表現(xiàn)最差,Hits@1 值為80.5%,與MNAN模型相比Hits@1 值相差6.2 個(gè)百分點(diǎn),說明在PED 數(shù)據(jù)集上知識(shí)圖譜的結(jié)構(gòu)和鄰域?qū)嶓w的特征有利于實(shí)體對(duì)齊,證明了鄰域?qū)嶓w聚合網(wǎng)絡(luò)的必要性。關(guān)系感知注意力網(wǎng)絡(luò)效果:w/o RGAT 表現(xiàn)較差,Hits@1 值為82.2%,與MNAN 模型相比Hits@1 值相差4.5 個(gè)百分點(diǎn),說明在PED 數(shù)據(jù)集上關(guān)系類型與關(guān)系的語義信息對(duì)實(shí)體對(duì)齊有很大的影響,證明了關(guān)系感知注意力網(wǎng)絡(luò)的重要性。屬性感知注意力網(wǎng)絡(luò)效果:w/o MGAT 表現(xiàn)較差,Hits@1 值為82.7%,與MNAN模型相比Hits@1 值相差約4.0 個(gè)百分點(diǎn),說明在PED 數(shù)據(jù)集上實(shí)體的屬性與屬性值對(duì)類似“RPT_YEAR”和“ND”命名規(guī)范差異大的待對(duì)齊實(shí)體對(duì)有很大的幫助,證明了屬性感知注意力網(wǎng)絡(luò)的重要性。實(shí)體感知注意力效果:w/o EGAT 與MNAN模型相比Hits@1 值相差約2.2 個(gè)百分點(diǎn),說明知識(shí)圖譜中的關(guān)系和屬性對(duì)兩跳實(shí)體的表示學(xué)習(xí)也有較大的影響,證明了實(shí)體增強(qiáng)注意力網(wǎng)絡(luò)對(duì)實(shí)體對(duì)齊任務(wù)的有效性。
此外,為評(píng)估MNAN 模型對(duì)實(shí)體對(duì)齊種子數(shù)量的敏感性,本文將實(shí)體對(duì)齊種子比例分別劃分為10%、20%、30%、40%、50%作為訓(xùn)練集進(jìn)行實(shí)驗(yàn),圖3所示為不同模型在各對(duì)齊種子實(shí)體比例下的Hits@1 值。
圖3 在不同對(duì)齊實(shí)體種子比例下Hits@1 的實(shí)驗(yàn)結(jié)果Fig.3 Experimental results of Hits@1 under different ratios of aligned entity seeds
從圖3 可以看出:1)隨著對(duì)齊實(shí)體種子比例的增加,更多的訓(xùn)練數(shù)據(jù)可以為實(shí)體對(duì)齊提供信息,所有的對(duì)比模型在PED 上的性能隨著對(duì)齊實(shí)體種子比例的增加而提高;2)在訓(xùn)練集比例為10%和20%的情況下MNAN 模型依然可以達(dá)到較好的效果,而且隨著對(duì)齊實(shí)體種子比例的增加具有平緩上升的斜率曲線,證明MNAN 模型有較優(yōu)的泛化能力;3)MNAN 模型的表現(xiàn)始終優(yōu)于其他基于圖神經(jīng)網(wǎng)絡(luò)的對(duì)比模型,證明MNAN 模型在學(xué)習(xí)多鄰域信息方面的優(yōu)勢(shì)。
針對(duì)石油領(lǐng)域數(shù)據(jù)資產(chǎn)知識(shí)圖譜融合的實(shí)體對(duì)齊問題,本文提出基于圖注意力網(wǎng)絡(luò)改進(jìn)的多鄰域感知網(wǎng)絡(luò)(MNAN)模型。MNAN 模型通過結(jié)合基于BERT 的多語言預(yù)訓(xùn)練模型得到實(shí)體及鄰域的初始語義信息,再通過鄰域?qū)嶓w聚合網(wǎng)絡(luò)、多鄰域感知網(wǎng)絡(luò)和實(shí)體增強(qiáng)注意力網(wǎng)絡(luò)來融合知識(shí)圖譜中的多鄰域信息。實(shí)驗(yàn)結(jié)果表明,在石油領(lǐng)域知識(shí)圖譜實(shí)體對(duì)齊方面,MNAN 模型優(yōu)于對(duì)比模型中最先進(jìn)的基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體對(duì)齊模型,相比最優(yōu)的基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體對(duì)齊模型Hits@1 值最高可提高2.3 個(gè)百分點(diǎn),有效融合石油勘探開發(fā)領(lǐng)域的數(shù)據(jù)資產(chǎn)知識(shí)圖譜。下一步將融合實(shí)體類型信息、預(yù)訓(xùn)練實(shí)體對(duì)齊模型等實(shí)體對(duì)齊相關(guān)問題,以實(shí)現(xiàn)更高質(zhì)量的知識(shí)圖譜融合。此外,在實(shí)體對(duì)齊任務(wù)中,充分且高效地融合實(shí)體的多鄰域信息也是本文研究重點(diǎn)方向。