陳 沖,蒙祖強
(廣西大學(xué) 計算機與電子信息學(xué)院,廣西 南寧 530004)
知識圖譜是由包含頭尾實體以及關(guān)系的三元組構(gòu)成的。隨著大數(shù)據(jù)技術(shù)和多媒體的發(fā)展,知識三元組的表示方法也越來越多樣化。由于三元組實體的異構(gòu)性和多語義性,實體語義經(jīng)常會發(fā)生改變,直接導(dǎo)致知識圖譜出現(xiàn)不同模態(tài)的語義缺失。知識補全方法的提出很好解決了這一問題。傳統(tǒng)的知識補全方法主要包括Trans系列方法[1]、基于知識表示的方法[2]、路徑表示法[3]以及基于強化學(xué)習(xí)的方法[4]。而傳統(tǒng)方法在知識補全中僅考慮了結(jié)構(gòu)上的實體與關(guān)系表示,因此不能解決跨模態(tài)問題。
張量分解方法[5]的提出為解決跨模態(tài)知識圖譜的知識表示提供了新的方向。張量分解模型將多源知識圖譜的實體和關(guān)系作為嵌入層的輸入并形成一個高階張量,然后將其分解產(chǎn)生一個核心張量和多個低維張量的運算形式,在知識補全中由其它模式張量對特定張量進(jìn)行鏈接預(yù)測。張量分解通常應(yīng)用于二元事件、多邊關(guān)系推理與知識問答等。
為了增強多模態(tài)知識圖譜的補全能力,本文提出了一種運用多模態(tài)嵌入進(jìn)行張量分解的方法ME-TD來解決多種模態(tài)的知識補全問題。我們同時考慮兩種模態(tài)的信息:實體描述信息和視覺信息,并通過實驗對比多種知識補全模型驗證了基于多種模態(tài)實體的嵌入的張量分解方法比單一模態(tài)嵌入的TuckER張量分解、傳統(tǒng)TuckER張量分解以及TranE等方法的健壯性要好,并在知識圖譜連接預(yù)測的評測任務(wù)中取得了較好的效果。主要體現(xiàn)在:①通過描述性文本嵌入的實體和通過視覺嵌入的實體在低維空間中具有共同的語義表征;②文字描述和視覺嵌入在知識圖譜補全中可以相互補充。
TransE方法最早是由Borders等學(xué)者首先提出的,在知識圖譜表示學(xué)習(xí)中,TransE將嵌入向量表示為3個不同的分量,并映射到相同的平面空間,該向量空間被認(rèn)為是從頭向量向尾向量水平移動的特殊平面。TransE方法假設(shè)h+r≈t,其中h,r,t分別表示頭部、關(guān)系和尾部的向量,定義三重能量函數(shù)為d(h+r,t), 并根據(jù)最小化邊緣的排序目標(biāo)對實體和關(guān)系的表示進(jìn)行學(xué)習(xí)。雖然該方法能夠根據(jù)能量和預(yù)定義的邊緣計算出評分更高的三元組,但存在一些缺點:首先是不能很好處理嵌入層多個實體對同一點的競爭,其次是在知識補全中僅能處理一對一的關(guān)系,容易造成語義缺失。
由于單一模態(tài)的實體之間建立語義關(guān)系網(wǎng)已經(jīng)無法準(zhǔn)確表示具有多源類型數(shù)據(jù)的事件,隨著知識的進(jìn)一步延伸,我們不可忽略地將文本、圖像、音頻、視頻等文件內(nèi)容與該知識關(guān)系網(wǎng)進(jìn)行非靜態(tài)的語義關(guān)聯(lián),并形成功能更為強大的多模態(tài)知識庫?;趫D像嵌入的多模態(tài)表示學(xué)習(xí)模型IKRL[6]和基于實體描述的多模態(tài)知識表示模型DKRL[7]在同等條件下實現(xiàn)了基于三元組的實體補充,假設(shè)E代表模型的能量函數(shù),EM代表多模態(tài)實體補充的能量表示,為了使模態(tài)實體補充ES和EM的學(xué)習(xí)過程達(dá)成一致,EM被重新定義為:EM=EMM+EMS+ESM。 多模態(tài)知識表示學(xué)習(xí)旨在縮小不同模態(tài)之間的異質(zhì)性差距,在知識補全中發(fā)揮著不可或缺的作用。然而,這種方法僅僅是針對其中一種模態(tài)來實現(xiàn)定向的多模態(tài)表示,無法在模態(tài)交互中進(jìn)行知識補全。
基于張量分解的方法將多模態(tài)知識圖譜中的實體與關(guān)系之間的語義表示為不同的張量,將得到的高階張量分解為多個低階張量并進(jìn)行多關(guān)系連接預(yù)測,以達(dá)到知識圖譜補全的目的。以下兩種算法是關(guān)于矩陣奇異值張量分解的高階擴展[8,9]。由于張量分解在知識庫鏈接預(yù)測中表現(xiàn)較好,許多學(xué)者將其與多邊關(guān)系推理、計算機視覺、智能推薦系統(tǒng)進(jìn)行結(jié)合。Aaron Schein通過設(shè)計不同類型二元事件正態(tài)分布的實驗很好驗證了貝葉斯泊松張量分解[10]的有效性。由于單一模態(tài)的張量分解無法有效處理深度學(xué)習(xí)中的多模態(tài)問題,Hedi Ben-younes等針對VQA任務(wù)提出了一種多模態(tài)塔克分解模型MUTAN[11],假設(shè)qs表示問題特征的向量集合,vs表示圖片特征向量的集合,三重向量的塔克分解可以表示為T=((Gc×1Wq′)×2Wv′)×3Wo, 其中T∈Rdq×dv×|A|,Gc表示核心向量,Wq,Wv,Wo代表分解后的三重向量。通過這種模型有效地參數(shù)化視覺和文本表示之間的雙線性交互,同時保持著友好的融合關(guān)系。
為了更有效地將圖像實體、描述文本和知識三元組3種不同模態(tài)的信息聯(lián)合嵌入到TuckER模型中進(jìn)行聯(lián)合表征,本文提出了一種知識圖譜補全模型——多模態(tài)學(xué)習(xí)改進(jìn)的張量分解模型ME-TD。與基礎(chǔ)張量分解模型不同,本文方法可以運用于同時包含描述文本、視覺元素的多模態(tài)知識圖譜中,采用知識三元組與非結(jié)構(gòu)化數(shù)據(jù)相分離的特征提取與分析方法[12],并經(jīng)過多模態(tài)聯(lián)合表征形成一個三階核心張量,經(jīng)過三模式的張量分解得到3個不同語義空間的特征矩陣[7,9],通過矩陣的鏈接預(yù)測實驗,獲得知識三元組與多模態(tài)數(shù)據(jù)的聯(lián)合評分,從而進(jìn)行知識圖譜的有效補全。
cp張量分解[13]作為最常見的一種張量分解算法,其將一個高維的核心張量表示為n次不同張量的和。假設(shè)張量X是在特定位置索引上對應(yīng)的一個元素,A,B,C分別代表張量X分解后的3個特定因子矩陣,設(shè)R為張量分解的次數(shù),r代表張量的秩,λ為權(quán)重向量,r秩展開的張量分解表示為
(1)
與cp張量分解不同,TuckER張量分解[5,11]作為高階形式的主成分分析,將輸入維度為 (I,J,K) 的三階張量X∈RI×J×K表示為(P,Q,R)維度的核心張量G∈RP×Q×R和一組矩陣A,B,C共同的乘積,即X≈G×1A×2B×3C, 其中A∈RI×P,B∈RJ×Q,C∈RK×R。 圖1靜態(tài)展示了三階張量TuckER原理圖。
圖1 三模式下TuckER分解原理
2.2.1 模型定義
本文將多模態(tài)形式的知識圖譜定義為集合K={Em,Rs,T}, 其中Em表示多模態(tài)實體的集合,Rs表示[1…s]種不同關(guān)系的集合,T表示全部的知識三元組集合。其中Em={e1,e2,…,en},Rs={r1,r2,…,rs}, 三元組T={(h0,r0,t0)},h0表示頭實體,t0表示尾實體,r0表示實體之間的關(guān)系。其中ke表示實體的嵌入維度,kr表示關(guān)系的嵌入維度。
本文定義了3種模塊化特征表示:描述文本特征表示、視覺模塊表示和知識三元組嵌入的表示。實體描述表示為Ed∈Em, 經(jīng)過詞嵌入網(wǎng)絡(luò)輸出為描述實體特征向量d,視覺的輸入表示為Ev∈Em, 輸出為視覺特征向量v,知識三元組的輸入為Et,經(jīng)過E-R自編碼器輸出為知識表示向量t,假設(shè)ε為激活函數(shù)的因子系數(shù)。本文多模態(tài)融合的目標(biāo)是利用TuckER學(xué)習(xí)一個多模態(tài)表示評分函數(shù)
fm=εf[(d?v)⊕t]
(2)
并通過改進(jìn)的張量分解模型來判斷每一個多模態(tài)表示的三元組是否為正確有效的三元組。
2.2.2 模型組成
本文提出的多模態(tài)學(xué)習(xí)改進(jìn)的張量分解模型ME-TD原理如圖2所示。文中方法主要包含以下4個部分:描述文本特征提取模型、視覺特征提取模型、多模態(tài)融合表示模塊和改進(jìn)的張量分解模型。
圖2 ME-TD模型原理
2.2.3 描述實體特征提取網(wǎng)絡(luò)
在知識圖譜領(lǐng)域中,同一種類別的實體所產(chǎn)生的描述具有相似的性質(zhì),而一種文本描述也可以同時關(guān)聯(lián)多種不同模態(tài)的實體[14]。若Description={D1,D2,D3,…,Dn} 表示實體指向的描述文本,調(diào)用jieba庫對描述文本進(jìn)行分詞后得到文本Di的知識元組集,每一個知識元組包含知識圖譜中頭實體、謂語、介詞和賓語代表的尾實體。令Set=[T1,T2,T3,…,Tn] 表示由n行知識文本詞構(gòu)成的數(shù)據(jù)集,本章使用了Google于近年來推出的Word2Vec系列的CBOW模型[15-17],通過上下文預(yù)測中間詞來對描述文本進(jìn)行詞嵌入。
為了進(jìn)一步學(xué)習(xí)描述文本實體特征,假定存在Ti=[di1,di2…dis,hi,ti1,ti2…tis],Tj=[dj1,dj2…djt,hj,tj1,tj2…tjt], 其中Ti,Tj∈Set, 將Ti作為CBOW網(wǎng)絡(luò)的輸入,并表示成一個one-hot獨熱向量,hi可以表示為:x5=[0,0,0…0,1,0,0,0…0], 我們選取語義連貫的三元組表示:(hi,di1,ti1), 并對三元組向量進(jìn)行求和作為神經(jīng)網(wǎng)絡(luò)模型的輸入,即:X=x1+x5+x6=[1,0,0…0,1,1,0,0…0]。
接下來我們設(shè)定輸入層維度為(2S+1),過渡到連接層的參數(shù)矩陣為W,連接層的維度為m,參數(shù)矩陣為b,過渡到輸出層的維度為m×(2S+1), 最終計算輸出層的維度表示為:do=(1×(2S+1))×((2S+1)×m)×(m×(2S+1))=2S+1, 其中,W、b為待訓(xùn)練的參數(shù),設(shè)J(θ)為損失函數(shù),為了極小化損失函數(shù),本文采用梯度下降法來不斷提供一個極小增量,經(jīng)過α次訓(xùn)練最終得到最優(yōu)參數(shù)W′和b′,對應(yīng)的向量為:W′=W+αΔW,b′=b+αΔb, 假設(shè)期望輸出的hi對為:Y_=[0,0,0…0,1,0,0,0…0]。
設(shè)σ為激活函數(shù)因子,經(jīng)過連接層得到
D′=(X×W′)×b′
(3)
設(shè)y=σ*D′, 即Y=[y1,y2,y3…y2s+1], 總損失函數(shù)為
(4)
圖3 i時刻下描述文本預(yù)訓(xùn)練過程
2.2.4 視覺特征提取網(wǎng)絡(luò)
與實體文本描述不同,視覺元素在多模態(tài)知識圖譜中主要有3種特點:多語義性、多關(guān)系性和離散性。在傳統(tǒng)圖像識別與圖像分類中,圖像提取特征的方法包括:SIFT方法[18]、HOG方法[19]以及SURF[20,21]等。近些年隨著企業(yè)級知識圖譜中圖形數(shù)據(jù)的海量擴展以及圖形語義性的增強,圖像實體的形狀、紋理、色彩等不同的特征子空間中皆可存在一定的局部特征[22]。本文使用了來自O(shè)xford大學(xué)的VGG團(tuán)隊提出的通過增加網(wǎng)絡(luò)的深度來進(jìn)行學(xué)習(xí)的VGG模型[23],相比較AlexNet[24]來說,在卷積核上有了一定的技術(shù)改進(jìn),通過多次堆疊3×3卷積核來替代原來的大尺度卷積核,在神經(jīng)網(wǎng)絡(luò)的運算過程中不僅能更好區(qū)分決策函數(shù),還極大減少了參數(shù)的數(shù)量。VGG模型的變種VGG19在基于VGG16的基礎(chǔ)上增加了三層3×3卷積核,包括16個卷積層和3個全連接層[25]。
圖4 VGG19模型原理
由圖4可知,在VGG19中,我們使用了3個3×3卷積核代替一個7×7卷積核,即3個步長為1的3×3卷積核組合為一個大小為7的感受野,參數(shù)數(shù)量達(dá)到3×(9×C×C), 相比較7×7卷積核參數(shù)量7×(7×C×C) 直接減少了22×C2的參數(shù)量,C指神經(jīng)網(wǎng)絡(luò)輸入和輸出的通道數(shù)[26]。以上改進(jìn)不僅能夠在一定程度上控制模型擬合程度,還能有效提升圖像的訓(xùn)練效果[11,26]。
2.2.5 多模態(tài)表示模塊
我們假設(shè)T為三模式張量分解的原始張量,分別將圖像的特征表示向量v和描述文本的特征表示d作為模型的一維和二維輸入,再將文本知識三元組的嵌入特征t作為模型的第三維輸入。我們用Wi∈Rke,kr表示圖像、描述文本特征向量以及知識三元組嵌入的映射矩陣,bi為偏置參數(shù)。圖像的特征向量v和文本屬性特征向量d分別通過一個完整的全連接層進(jìn)行維度變換,得到了圖像特征向量v′和文本屬性特征向量d′
v′=v×W1+b1,d′=d×W2+b2
(5)
為了統(tǒng)一表示多模態(tài)融合特征,本文提出了3種融合方法:
(1)首先是兩種或3種模態(tài)相加融合操作(add-fusion),本文將描述文本特征向量d′和視覺特征向量v′在同一平面上進(jìn)行相加后得到融合特征向量Mul(v,d), 然后再將Mul(v,d)輸入到第二個全連接層,映射到與文本知識三元組相同維度的語義空間中,得到Mul′(v,d), 將其與嵌入向量t進(jìn)行相加后得到最終的多模態(tài)融合向量Mul(v,d,t)。 多模態(tài)融合的定義為
Mul(v,d)=v′+d′=W3(v+d)+b3
Mul′(v,d)=Mul(v,d)×W4+b4
Mul(v,d,t)=Mul′(v,d)+t
(6)
(2)其次是兩種或3種模態(tài)的相乘操作(mul-fusion),直接相加的模態(tài)融合會帶來一定的噪聲,會失去一部分重要的特征信息[27]。為了在知識圖譜描述中充分體現(xiàn)視覺元素的特征表示,本文將圖像特征表示向量v經(jīng)過全連接層映射到與描述文本特征向量d相互垂直的超平面中得到特征向量v″,然后與向量d進(jìn)行相乘操作后得到Mul(v″,d)。 以下為多模態(tài)融合運算過程
v″=v×W5+b5
Mul′(v,d)=v″?d
(7)
(3)最后一種是對文本知識三元組特征向量進(jìn)行連接映射(ConMap-fusion)。將多模態(tài)表示特征向量Mul(v″,d)經(jīng)過全連接層,與知識三元組實體對特征t進(jìn)行相同維度語義空間的映射,得到C′Mul;t, 然后與特征t進(jìn)行拼接,得到最終的多模態(tài)實體特征表示Mul(v,d,t), 此時多模態(tài)融合計算過程為
C′Mul;t=Mul(v″,d)×W6+b6
Mul(v,d,t)=[C′Mul;t;t]×W7+b7
Mul′(v,d,t)=Mul(v,d,t)×W0+b0
(8)
其中,[;] 代表拼接操作,b0表示全連接映射偏參。
2.2.6 改進(jìn)的張量分解模型
文獻(xiàn)[8]從語義和結(jié)構(gòu)的角度對張量分解方法進(jìn)行了明確的分析和討論。假設(shè)?i∈[1,Dd],j∈[1,Dv],k∈[1,Dt] 為多模態(tài)張量函數(shù)Ф的3個有限數(shù)量的參數(shù),經(jīng)過張量分解產(chǎn)生 (l,m,n) 維度的三階核心張量Zc以及3個多模態(tài)因子矩陣Wd、Wv和Wt,矩陣的秩分別為Td、Tv和T0,則
Wv[j,m]×Wt[k,n]
其中?l∈[1,Td],m∈[1,Tv],n∈[1,T0]
(9)
我們重新定義知識庫MG=(D(d,v),Dt,Rm),D(d,v)可以表示為除了知識三元組外所有類型實體的全部集合,Dt為文本知識構(gòu)成的節(jié)點集合,Rm為所有節(jié)點間對應(yīng)的邏輯關(guān)系集合。描述文本嵌入維度為Dd,視覺元素嵌入維度為Dv,知識嵌入維度為A。將Ф(x)表示為改進(jìn)的塔克分解的評分函數(shù),x代表不同mode的模態(tài)。將以上各項應(yīng)用到塔克分解模型[6,8]中,得到改進(jìn)后的多模態(tài)塔克分解模型。
本文的核心是將改進(jìn)的三模式TuckER模型的多模態(tài)的輸入表示為Ф∈RDd×Dv×|A|, 輸入到模型之后輸出表示為一個核心張量Tc以及3個因子矩陣Wd,Wv,Wt共同的乘積。由主定理可以推導(dǎo)出
Φ(d,v,t)=Tc×1dTWd×2vTWv×3Wt
(10)
其中,Wd∈RDd×Td,Wv∈RDv×Tv,Wt∈R|A|×To,dT和vT分別表示描述實體矩陣和圖像矩陣的轉(zhuǎn)置運算。其中核心張量Tc∈RTd×Tv×To。模型原理如圖5所示。
圖5 ME-TD分解模型一
參照模型一是將改進(jìn)的三模式的TuckER模型的多模態(tài)的輸入表示為Ф∈RDd×|A|, 輸入到模型之后輸出表示為一個核心張量Tc與兩個因子矩陣Wd,Wt和參照矩陣Wo共同的乘積。由主定理可以推導(dǎo)出
Φ(d,t,o)=Φc×1dTWd×2Wt×3Wo
(11)
其中,Wd∈RDd×Td,Wt∈R|A|×To,dT是d的轉(zhuǎn)置,代表描述實體的轉(zhuǎn)置運算。其中Tc∈RTd×To。 模型原理如圖6所示。
圖6 ME-TD分解模型二
參照模型二是將改進(jìn)的三模式的TuckER模型的多模態(tài)的輸入表示為Ф∈RDv×|A|, 輸入到模型之后輸出表示為一個核心張量Tc與兩個因子矩陣Wv,Wt和參照矩陣Wo共同的乘積。由主定理可以推導(dǎo)出
Φ(v,t,o)=Φc×1vTWv×2Wt×3Wo
(12)
其中,Wv∈RDv×Tv,Wt∈R|A|×To,vT是v的轉(zhuǎn)置,代表圖像矩陣的轉(zhuǎn)置運算。其中Tc∈RTv×To。 模型原理如圖7所示。
圖7 ME-TD分解模型三
參照文獻(xiàn)[4]、文獻(xiàn)[28]和文獻(xiàn)[31],本文使用了兩個公開數(shù)據(jù)集FB15K和icews14,經(jīng)過多模態(tài)實體鏈接建立了兩個基于多模態(tài)知識庫表示的數(shù)據(jù)集:FB15K-IMG-DES、icews14-IMG-DES。我們保留描述文本實體與圖像實體所對應(yīng)的一對一的三元組連接,將一對多、多對一和多對多復(fù)雜的關(guān)系進(jìn)行刪除,并剔除沒有關(guān)聯(lián)關(guān)系的多模態(tài)實體,得到新的多模態(tài)三元組數(shù)據(jù)集FB15K-IMG-DES與icews14-IMG-DES。實驗數(shù)據(jù)集信息見表1。
表1 實驗知識圖譜數(shù)據(jù)集
為了降低過擬合對本次實驗的影響,我們根據(jù)驗證集性能并通過隨機搜素算法[32]進(jìn)行超參數(shù)的訓(xùn)練。為了尋找訓(xùn)練最優(yōu)參數(shù),設(shè)置實體和關(guān)系嵌入維度區(qū)間de∈{30,50,100,150,200},dr∈{30,50,100,150,200}, 學(xué)習(xí)率區(qū)間lr∈{0.0005,0.001,0.005,0.01}, 學(xué)習(xí)衰減率區(qū)間lr′∈{1,0.995,0.99,0.95},批量標(biāo)準(zhǔn)化步長區(qū)間num_iteration∈{50,100,500}, dropout區(qū)間可以設(shè)置為(0.3,0.4,0.5)。最后采用批處理化原則[3]來提高訓(xùn)練的速度。
3.3.1 實驗設(shè)計
本次實驗?zāi)康氖球炞C模型ME-TD在知識補全鏈接預(yù)測上有更好的效果。鏈接預(yù)測指根據(jù)負(fù)例三元組預(yù)測缺失的頭、邏輯關(guān)系或尾[6,8,30]。對于給定的多模態(tài)知識三元組 (hm,r,tm), 可以根據(jù)實體Em和關(guān)系r來推測第三個實體,如 (hm,r,?) 和 (?,r,tm), 或根據(jù)頭尾實體來間接地推測缺失的關(guān)系,如 (hm,?,tm)。 例如:對于兩個知識圖譜三元組(Tokyo,is captial of,Japan)和(櫻花的圖片,is planted on,富士山的圖片),并將第一個三元組的頭實體和尾實體分別與第二個三元組的尾實體和頭實體進(jìn)行關(guān)聯(lián),產(chǎn)生了兩個新的三元組:(pic1,is located in,Tokyo),(pic2,derived from,Japan)。參照文獻(xiàn)[31]和文獻(xiàn)[32],對于測試集中包含的三元組,我們使用正例三元組來替換訓(xùn)練集中的三元組并創(chuàng)建一組負(fù)例三元組,對于每個測試三元組,將測試集實體關(guān)系對與所有尾實體tm相結(jié)合,生成n個候選三元組,使用鏈接預(yù)測函數(shù)對每個新三元組進(jìn)行相似性評分,并對按照分?jǐn)?shù)由高到低進(jìn)行排序[31,32]。
3.3.2 評估指標(biāo)
參考文獻(xiàn)[5]、文獻(xiàn)[7],本文選取常規(guī)平均排名(MR)、平均倒序排名(MRR)、Hits@10、Hits@3作為知識圖譜鏈路預(yù)測的重要指標(biāo)。計算公式如下
(13)
(14)
(15)
(16)
3.3.3 實驗結(jié)果分析
本次實驗環(huán)境為:Win10 32位操作系統(tǒng),物理內(nèi)存4 G。本文選取TransE和TuckER模型進(jìn)行對比,采用矩陣預(yù)測任務(wù)來評價模型的知識補全能力。圖8展現(xiàn)了ME-TD在icews14-IMG-DES數(shù)據(jù)集上不同的學(xué)習(xí)率下模型訓(xùn)練損失值變化曲線,通過預(yù)訓(xùn)練發(fā)現(xiàn)ME-TD在lr=0.01時取得最好的損失收斂效果。實驗結(jié)果見表2、表3。
表2 FB15K-IMG-DES上各模型鏈接預(yù)測比較
表3 icews14-IMG-DES上各模型鏈接預(yù)測比較
圖8 ME-TD不同學(xué)習(xí)率訓(xùn)練效果變化曲線
實驗結(jié)果表明,ME-TD在FB15K-IMG-DES數(shù)據(jù)集上取得了最低的MR和最高的Hits@3,具體表現(xiàn)如下。
本文方法與傳統(tǒng)的TuckER模型比較,數(shù)據(jù)集FB15K-IMG-DES在MRR上提高了2.71,在Hits@3上提高了0.14。而TransE則在預(yù)測中表現(xiàn)較差,主要原因在于FB15K-IMG-DES數(shù)據(jù)集實體與實體之間具有更復(fù)雜的多模態(tài)語義關(guān)系。ME-TD不僅能夠在多模態(tài)嵌入形成核心張量過程中實現(xiàn)高層的語義互補,而且在三模式張量分解中保持各個模態(tài)的相對獨立性,可以預(yù)測出更加精準(zhǔn)的多模態(tài)實體。本文模型相比于IKRL,在Hits@10上提高了0.15,說明基于特定模態(tài)的定向知識表示僅僅考慮了定向的圖像語義補充,而忽略了對嵌入在文本描述中的信息進(jìn)行編碼。相比于TuckER,ME-TD在Hits@10和Hits@3上分別提高了0.18和0.14,說明TuckER僅僅對知識三元組進(jìn)行嵌入,在張量分解中降低了知識的語義獨立性,因此在預(yù)測效果不如ME-TD。
在icews14-IMG-DES上,由于實體之間的語義關(guān)系相對簡單,本文ME-TD模型在MRR、MR、Hits@3和Hits@10指標(biāo)均明顯優(yōu)于TransE、TuckER模型,較優(yōu)于IKRL模型,特別是Hits@3達(dá)到了0.75,進(jìn)一步說明了對于不同復(fù)雜程度的多模態(tài)知識圖譜,ME-TD均能夠?qū)W習(xí)到更顯著、更全面的多模態(tài)知識表征,在鏈接預(yù)測中減小正例三元組預(yù)測出現(xiàn)錯誤的概率,在知識補全中具有較強的穩(wěn)定性。
可見ME-TD模型具有較好的基于多模態(tài)知識圖譜鏈接預(yù)測效果。與此同時,本文模型相較于其它模型能夠有效補充描述文本與視覺元素中的信息,成功將多源知識補充到三元組本身,減小張量分解在三元組預(yù)測出現(xiàn)錯誤的幾率。
為了進(jìn)一步驗證多模態(tài)嵌入知識表示方法對張量分解補全模型的積極影響,在FB15K-IMG-DES和icews14-IMG-DES數(shù)據(jù)集上進(jìn)行消融實驗,具體設(shè)計方法如下:①本次實驗忽略描述文本模態(tài)對知識補全的影響,將三元組結(jié)構(gòu)與圖像模態(tài)進(jìn)行融合,并將這種方法記為ME-TD(Vision)。②在數(shù)據(jù)集上忽略圖像模態(tài)對知識補全的影響,將三元組與描述實體進(jìn)行融合,記為ME-TD(Description)。③同時剔除描述文本和圖像的影響的塔克分解方法,記為ME-TD(TuckER)。在訓(xùn)練集中設(shè)定實體維度de=200,關(guān)系維度dr=30,學(xué)習(xí)率lr=0.01,半衰減率lr’=0.95,訓(xùn)練步長設(shè)定為num_iteration=100,采取和以上實驗相同的評估方法,各個模型仿真結(jié)果如表4、圖9和圖10所示。由表4可知,ME-TD在各項指標(biāo)均優(yōu)于其它模型,由于文本描述和圖像在高層空間的增強表示,ME-TD(Describtion)和ME-TD(Vision)在各項指標(biāo)上優(yōu)于ME-TD(TuckER)方法,實驗驗證了本文提出的模型為多模態(tài)知識庫實體鏈接預(yù)測提供了很好的幫助,進(jìn)一步提升了知識圖譜的補全能力。
表4 ME-TD模型在不同知識圖譜上的消融實驗結(jié)果
圖9 各模型在FB15K-IMG-DES上鏈接預(yù)測結(jié)果比較
圖10 各模型在icews14-IMG-DES上鏈接預(yù)測結(jié)果比較
由圖9和圖10,對于icews14-IMG-DES和FB15K-IMG-DES數(shù)據(jù)集,MRR和MR表現(xiàn)最優(yōu)的均是本文模型(ME-TD)。實驗發(fā)現(xiàn),在同時忽略描述實體特征或者圖像特征的情況下,本文模型在各個指標(biāo)上均受到一定的影響。對于icews14-IMG-DES,在忽略描述文本的條件下,由于圖像信息可以幫助文中模型ME-TD獲取更加顯著的知識圖譜實體特征,所以Hits@10表現(xiàn)最佳,知識補全效果較好。如果忽略圖像實體對知識圖譜的影響,由于自有描述文本實體特征向量失去作用,使得Hits@3和Hits@10相對于傳統(tǒng)模型下降,導(dǎo)致知識補全效果較差。對于FB15K-IMG-DES,由于知識圖譜的具有較為復(fù)雜的描述關(guān)系,在忽略圖像實體的影響時,描述文本特征能夠代替圖像實體加強知識三元組的語義特征,而描述文本特征失去作用時,圖像實體也可以代替描述文本實體完善知識三元組語義特征。由此驗證描述文本、圖像、知識三元組嵌入的三模式張量分解能夠獲取最佳的知識補全效果。
本文面向知識圖譜補全提出了一種利用多模態(tài)嵌入改進(jìn)的張量分解的模型ME-TD,該方法結(jié)合了圖像、描述文本和知識三元組3種模態(tài),經(jīng)過三模式張量分解完成了兩種模態(tài)特征矩陣預(yù)測第三種模態(tài)矩陣的工作。本文列舉不同的知識圖譜補全模型進(jìn)行實驗對比,并設(shè)計了兩組分別剔除單一模態(tài)的消融實驗,實驗結(jié)果驗證了ME-TD具有最穩(wěn)定、效率最好、結(jié)果最佳的知識補全效果。在今后的研究中,我們還將從以下方面進(jìn)一步探索:
(1)本文僅僅考慮了一對一關(guān)系的多模態(tài)輔助元素的知識補全,接下來將拓展到一對多和多對多復(fù)雜關(guān)系的知識圖譜補全的探索與研究。
(2)本文在進(jìn)行多模態(tài)嵌入的過程中,僅僅考慮了多模態(tài)實體的嵌入,而忽略了關(guān)系的類別,因此,下一步工作中將重新設(shè)計算法,把關(guān)系模式考慮進(jìn)去,以便獲取更加精確的知識補全結(jié)果。