余曉鵬,何儒漢,黃 晉,張俊杰,胡新榮
(1.紡織服裝智能化湖北省工程研究中心(武漢紡織大學(xué)),武漢 430200;2.武漢紡織大學(xué)計算機與人工智能學(xué)院,武漢 430200;3.湖北省服裝信息化工程技術(shù)研究中心(武漢紡織大學(xué)),武漢 430200)
h
,r
,t
),h
代表頭實體,t
代表尾實體,r
代表頭實體和尾實體之間的關(guān)系。現(xiàn)存的大規(guī)模KG 包括Freebase、WordNet和YAGO等,并已被應(yīng)用在不同的領(lǐng)域,如推薦系統(tǒng)、智能問答等。由于知識源的各種缺陷,現(xiàn)存的KG 多數(shù)并不完整。針對這個問題,基于知識圖譜嵌入(Knowledge Graph Embedding,KGE)的知識圖譜補全應(yīng)運而生。KGE 是將KG的實體和關(guān)系映射到低維連續(xù)的向量空間中,使得可以在低維向量空間中高效計算實體和關(guān)系之間的語義聯(lián)系。目前,以TransE(Translating Embedding)為代表的基于翻譯的KGE 模型,采用簡單的淺層結(jié)構(gòu),計算效率較高,能有效學(xué)習(xí)KG 的直接關(guān)系;但是,該模型僅對簡單關(guān)系數(shù)據(jù)效果較好,難以處理復(fù)雜的關(guān)系數(shù)據(jù)。而以雙線型模型Rescal為代表的基于語義匹配的KGE 模型,能有效捕獲豐富的特征交互信息,但參數(shù)量大,計算效率低。
目前,基于神經(jīng)網(wǎng)絡(luò)的模型逐漸應(yīng)用到了KGE。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)具有多層網(wǎng)絡(luò)結(jié)構(gòu),能有效提高模型的表達能力,能捕獲豐富的特征交互信息并限制參數(shù)數(shù)量以提高計算效率。以ConvE(Convolution Embedding)模型為代表的基于神經(jīng)網(wǎng)絡(luò)的嵌入模型,能夠有效地捕捉三元組特征且泛化能力強,但捕捉實體和關(guān)系的特征交互信息能力有限,特征表達能力較弱。
受Inception結(jié)構(gòu)在圖像處理算法的啟發(fā),將實體和關(guān)系輸入重塑為二維特征向量后輸入到Inception 結(jié)構(gòu)中,通過多種不同的操作方式,可提高捕捉特征交互信息的能力。Inception 結(jié)構(gòu)主要是加深傳統(tǒng)的高尺寸卷積層,通過增加網(wǎng)絡(luò)深度來提高捕捉特征交互信息的能力。在Inception 結(jié)構(gòu)中采用高尺寸混合空洞卷積(Hybrid Dilated Convolution,HDC)來代替原來高尺寸普通卷積,混合空洞卷積無池化損失信息,感受野更大。此外,為了解決深度神經(jīng)網(wǎng)絡(luò)固有的信息丟失的缺點,使用了殘差網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化。
本文針對特征交互能力受限的問題,提出一種KGE 模型——InceE(Inception Embedding)模型,該模型基于一種改進的Inception 結(jié)構(gòu),通過進一步增強關(guān)系和實體嵌入之間的交互能力,以提高特征表達能力;并使用了殘差網(wǎng)絡(luò)的模型結(jié)構(gòu),以改善深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)易丟失特征信息的問題;此外,在Inception 中,將原來的高尺寸普通卷積改為混合空洞的卷積方式,以更好地獲取特征信息。
本文主要工作如下:
1)提出了一種基于改進Inception 結(jié)構(gòu)的KGE 模型,將Inception 結(jié)構(gòu)引入到KGE 中,通過使用Inception 結(jié)構(gòu)的不同卷積核和池化層的感受野不同的特性,來獲取多種表示特征,以提高特征表示能力。
2)提出使用混合空洞卷積來代替Inception 結(jié)構(gòu)中的標準卷積。混合空洞卷積無池化損失信息,并加大感受野,使得每個卷積輸出都包含較大范圍信息。在兩種不同尺寸的標準卷積操作中,都替換為混合空洞卷積,以提高特征交互能力。
3)使用了殘差學(xué)習(xí)的方式,以防止深度神經(jīng)網(wǎng)絡(luò)造成的信息丟失。
本章主要介紹了目前主流的三類KGE 模型。
語義匹配模型是利用基于相似性的得分函數(shù)。它們主要是通過匹配實體的語義和向量空間表示中包含的關(guān)系來度量事實的可行度。語義匹配模型最具代表性的模型是Rescal 模型,將KG 編碼為一個張量,三元組存在于KG 中,則對應(yīng)量的值設(shè)置為1,否則為0。Rescal 模型的缺點就是需要大量的參數(shù),計算率較低。為解決以上問題,SimplE(Simple Embedding)模型獨立學(xué)習(xí)每個實體的兩個嵌入,并且復(fù)雜度隨著嵌入維度線性增加。DISTMULT模型將關(guān)系矩陣簡化為對角矩陣,通過雙線性對角模型學(xué)習(xí)實體和關(guān)系的向量表示。ComplEx(ComplEx embeddings)模型,使用元素之間的點積使DISTMULT 模型通用化。Analogy模型擴展了Rescal,進一步對實體和關(guān)系屬性進行類比建模。
d
維的向量,然后通過點積計算得分合理性。InteractE(Interactions Embedding)模型證明了通過提高特征交互數(shù)量來提高模型效果的有效性。因為KG 也是一種特殊的圖結(jié)構(gòu),圖卷積神經(jīng)網(wǎng)絡(luò)也被用到KGE 中,如R-GCN(Relational data with Graph Convolutional Network)等。表1列出了幾種主流模型。表1 知識圖譜嵌入模型及評分函數(shù)Tab 1 Knowledge graph embedding model and scoring function
本文所提出的基于改進Inception 結(jié)構(gòu)的KGE 模型的流程如圖1 所示,將實體和關(guān)系的一維特征向量聯(lián)合重塑為二維特征向量輸入到Inception 結(jié)構(gòu)中,其中在高尺寸的混合空洞卷積部輸出與初始的二維特征拼接,最終將Inception 結(jié)構(gòu)的四個輸出特征向量與初始二維特征向量拼接后的特征向量重塑為最終預(yù)測的一維特征向量。
圖1 InceE模型流程Fig.1 InceE model flow
Ω
=(E
,R
)表示,E
代表KG 中的所有實體向量集合,R
代表所有關(guān)系向量集合。三元組定義為(e
,r
,e
),其中頭實體和尾實體向量e
,e
∈E
,關(guān)系向量r
∈R
。KGE 目的是學(xué)習(xí)給定的實體e
和關(guān)系r
的低維向量表示e
,r
∈R,其中d
表示嵌入的維度。d
維的向量空間中的具體的向量,每個KG 三元組可以表示為(e
,r
,e
)。圖2 InceE網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Structure of InceE network model
在該模型中,首先將實體e
和關(guān)系r
重塑為a
×b
的二維特征表示,這里重塑后的二維特征維度a
×b
=2 ×d
。然后并行地分別執(zhí)行卷積核kernel_size
=1、3、5 的卷積操作和kernel_size
=3 的最大池化操作。在kernel_size
=3、5 的卷積操作中,采用了混合空洞卷積的方式來提高捕捉特征交互信息的能力,然后為防止深度神經(jīng)網(wǎng)絡(luò)造成的特征丟失嚴重,采用基于殘差學(xué)習(xí)的方法將以上兩種卷積輸出向量和初始二維特征向量進行拼接。e
;r
]來表示重塑后的初始二維特征向量,其中:e
表示實體向量,r
表示實體之間的關(guān)系向量,e
,r
∈R,[e
;r
]∈R。基于1×1 卷積核卷積學(xué)習(xí)。在基于二維重塑后的特征向量上的1×1 的卷積計算公式為:
W
∈R是kernel_size
=1 的卷積核;b
是偏置量。基于kernel_size
=3,5 的混合空洞卷積學(xué)習(xí)。混合空洞卷積是以上一次卷積的輸出作為下一次卷積的輸入,卷積的計算公式為:l
代表空洞卷積采用的步幅。完整的混合空洞卷積計算公式為:P
表示上一次卷積操作的輸出;W
是卷積核;b
是偏置量。基于初始二維特征向量的最大池化操作計算公式為:
b
是偏置量。不同的卷積操作獲得多個不同的特征向量,將獲得的特征向量與初始二維特征向量進行整合,表示為:
P
、P
、P
表示不同卷積核大小的輸出特征向量;M
代表最大池化所得特征向量;Res
代表初始二維特征向量。最后,整個模型的最終輸出是將以上所得特征向量P
展平重塑為一維特征向量。最終的特征計算公式為:e
,定義的得分函數(shù)為:f
代表Sigmoid 函數(shù);W
是變換舉證;b
是偏置量。在InceE 模型中,使用與ConvE 模型相同的損失函數(shù)來訓(xùn)練本文所提的模型參數(shù),具體定義如式(8)所示:
N
是KG 的實體數(shù)量,t
是存在關(guān)系的實體的標簽向量,否則為0。本文的評估模型使用了3 個數(shù)據(jù)集,分別是FB15k、WN18和Kinship。FB15k 是Freebase 的子集,主要 包含的三元組以電影和體育相關(guān)的主題為主。WN18 是WordNet的子集,包含18 種關(guān)系和49 000 種實體。Kinship 數(shù)據(jù)集是一個新提出的數(shù)據(jù)集,主要是包括親屬關(guān)系的數(shù)據(jù)集。具體的三個數(shù)據(jù)集包含的數(shù)據(jù)如表2 所示。
表2 數(shù)據(jù)集數(shù)據(jù)統(tǒng)計Tab 2 Dataset statistics
3.2.1 實驗環(huán)境
本模型的實驗環(huán)境是:操作系統(tǒng)Linux 32 位,獨立顯卡型號NVIDIA GeForceGTX1080ti,顯存11 GB。實驗工具是PyCharm,Python3.6 版本,深度學(xué)習(xí)框架Pytorch1.0。
在FB15k、WN18、Kinship 上實驗超參數(shù)設(shè)置分別為學(xué)習(xí)率lr
={0.001 25,0.000 65,0.000 75},epoch
=500,batch
_size
={128,256,256}。3.2.2 實驗指標
本實驗使用鏈接預(yù)測任務(wù)來驗證模型的有效性,即三元組缺失實體或者關(guān)系。在鏈接預(yù)測任務(wù)中,采用以下四個指標作為模型的最終評估指標:
MRR(Mean Reciprocal Rank):正確實體的平均倒數(shù)排名,越大越好。
Hit@10:正確實體進入前十的百分比,越大越好。
Hit@3:正確實體進入前三的百分比,越大越好。
Hit@1:正確實體是第一的百分比,越大越好。
InceE 與 HAKE(Hierarchy-Aware Knowledge graph Embeddings)、CompGCN、CoKE(Contextualized Knowledge graph Embedding)、ArcE(Atrous convolution and residual learning Embedding)等模型在數(shù)據(jù)集Kinship 上的實驗結(jié)果如表3 所示。InceE 模型在MRR 指標和Hit@1 指標上都取得了最優(yōu)的結(jié)果分別為0.873 和80.1,較次優(yōu)的模型分別提高幅度為0.009 和1.6,取得了較大幅度的提升;在Hit@3 和Hit@10 上也僅比最好的模型低0.2 和0.4。
表3 不同模型在Kinship數(shù)據(jù)集的實驗結(jié)果Tab 3 Experimental results of different models on Kinship dataset
表4 列出了InceE 和HOIE(Holographic Embeddings)、RSNs、QuatRE(Relation-Aware Quaternions Embedding)等模型在數(shù)據(jù)集FB15k 上的實驗結(jié)果。如表4 所示,InceE模型的MRR 比QuatRE提升了0.007,Hit@1提升了1.5,Hit@10 的效果和最好的模型效果相同,Hit@3 也僅比最好的模型小0.1。
表4 不同模型在FB15k數(shù)據(jù)集的實驗比較結(jié)果Tab 4 Experimental comparison results of different models on FB15k dataset
表5 列出了InceE 模型和其他模型在數(shù)據(jù)集WN18 上的實驗結(jié)果。由表5 可知,InceE 模型在數(shù)據(jù)集WN18 上的實驗效果提升相對有限,在MRR 上達到了和最好模型同樣的效果為0.949;在Hit@1 上的實驗效果為94.5,比最好的模型效果提升0.01;在Hit@3 和Hit@10 的效果分別為95.1 和95.5,比最好的模型僅差0.2 和0.8。
表5 不同模型在WN18數(shù)據(jù)集的實驗比較結(jié)果Tab 5 Experimental comparison results of different models on WN18 dataset
由表3~5 可知,本文模型在WN18 數(shù)據(jù)集上的表現(xiàn),多數(shù)情況下是高于在其他兩個數(shù)據(jù)集上的結(jié)果;在Kinship 數(shù)據(jù)集上的結(jié)果要高于FB15k 數(shù)據(jù)集的結(jié)果。在三個不同數(shù)據(jù)集上的實驗,本文模型在多數(shù)指標上都取得了最好的結(jié)果,或者和最好結(jié)果相差不多的效果。
由表5 的實驗結(jié)果可知,本文模型在WN18 數(shù)據(jù)集上的結(jié)果與其他模型相比,提升效果相對較低。由表2 可知,WN18 數(shù)據(jù)集關(guān)系更少,實體數(shù)量較多,且平均每個實體節(jié)點的相互連接比較稀疏,存在很多可逆的關(guān)系,多數(shù)模型都取得了很好的效果,與其他模型在WN18 數(shù)據(jù)集上的結(jié)果相比,本文模型每個指標所獲得的結(jié)果也提升較低或者相近。
在FB15k 數(shù)據(jù)集上,InceE 模型的實驗結(jié)果比其他模型更好,達到了現(xiàn)有模型的最好效果或者更高,本文模型在關(guān)系復(fù)雜的數(shù)據(jù)集上相較于對比模型結(jié)果也取得了一個不錯的提升,尤其與同類的ConvE 模型相比,MRR、Hit@1、Hit@3和Hit@10 分別提升了0.158、20.8、12.7 和6.5,說明本文模型通過提高捕捉特征交互信息的能力來提高特征表達能力的有效性。
基于CNN 的四個不同模型在Kinship 數(shù)據(jù)集上的實驗結(jié)果如表6 所示。在MRR 和Hit@1 指標上,InceE 模型都相較于其他三個模型取得了最好的結(jié)果,并且在Hit@3 和Hit@10指標上也和ArcE 模型相差不多,從而證明了本模型是有效的。
表6 基于CNN的不同模型在Kinship數(shù)據(jù)集上的實驗結(jié)果Tab 6 Experimental results of different models based on CNN on Kinship dataset
本文還在Kinship 數(shù)據(jù)集上進行了多組消融實驗。通過表7 可以看到,是否添加殘差學(xué)習(xí)模塊,對實驗?zāi)P偷膶嶒灲Y(jié)果存在較大的影響,通過添加殘差學(xué)習(xí)防止深度神經(jīng)網(wǎng)絡(luò)造成的信息的效果是有效的,取得最好的結(jié)果。
表7 InceE模型是否添加殘差學(xué)習(xí)在Kinship數(shù)據(jù)集上的實驗結(jié)果Tab 7 Experimental results of InceE model whether to add residual learning on Kinship dataset
此外,為了驗證不同的卷積方式對模型性能的影響,在Kinship 數(shù)據(jù)集上進行了實驗,實驗結(jié)果如圖3 所示,分別使用了標準卷積和混合空洞卷積的方式。由圖3 可知,在使用標準卷積時,四個指標都會有不同程度的下降。而采用混合空洞卷積四個指標中的MRR、Hit@和Hit@3 都取得了提升,在Hit@10 指標上和標準卷積的結(jié)果取得了相同的結(jié)果,由此證明了通過使用混合空洞卷積的方式來提高特征的表達能力是有效的,且效果提升明顯。
圖3 標準卷積和混合空洞卷積對比結(jié)果Fig.3 Comparison results of standard convolution and hybrid dilated convolution
本文針對知識圖譜嵌入(KGE)提出了一種基于改進Inception 結(jié)構(gòu)的KGE 模型——InceE。實驗采用鏈接預(yù)測任務(wù)實驗來評估InceE 模型,證實本文模型在三個基準數(shù)據(jù)集WN18、FB15k、Kinship 上的MRR、Hit@10、Hit@3、Hit@1 上大部分指標上有明顯的提升。實驗結(jié)果表明,InceE 模型借助Inception 結(jié)構(gòu)通過不同尺寸的卷積核的不同感受野的優(yōu)勢,能有效增加特征的交互數(shù)量。為了進一步提高模型的準確率,在今后的工作中會考慮特定三元組與附近三元組的路徑信息,以及實體本身的描述文本信息。