摘 要:多模態(tài)實體對齊旨在識別由結(jié)構(gòu)三元組和與實體相關(guān)的圖像組成的不同的多模態(tài)知識圖譜之間的等價實體?,F(xiàn)有的多模態(tài)實體對齊的研究主要集中在多模態(tài)融合策略,忽略了模態(tài)缺失和不同模態(tài)難以融合的問題,未能充分利用多模態(tài)信息。為了解決上述問題,提出了MACEA模型,該模型使用多模態(tài)變分自編碼方法主動補全缺失的模態(tài)信息,動態(tài)模態(tài)融合方法整合不同模態(tài)的信息并相互補充,模態(tài)間對比學(xué)習(xí)方法對模態(tài)間進(jìn)行建模,這些方法有效解決了模態(tài)缺失與模態(tài)難以融合的問題。相比于當(dāng)前基線模型,MACEA的hits@1和MRR指標(biāo)分別提升了5.72%和6.78%,實驗結(jié)果表明,該方法可以有效地識別出對齊實體對,具有較高的準(zhǔn)確性和實用性。
關(guān)鍵詞:實體對齊;知識圖譜;多模態(tài);動態(tài)融合;模態(tài)缺失
中圖分類號:TP391.1"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號:1001-3695(2025)01-014-0100-06
doi: 10.19734/j.issn.1001-3695.2024.05.0187
Multi-modal entity alignment model based on adaptive fusion technology
Abstract: Multi-modal entity alignment aims to identify equivalent entities between different multi-modal knowledge graphs composed of structured triples and images associated with entities. The existing research on multi-modal entity alignment mainly focuses on multi-modal fusion strategies, ignoring the problems of modal imbalance and difficulty in integrating different modalities, and fails to fully utilize multi-modal information. To solve these problems, this paper proposed the MACEA model, this model used the multi-modal variational autoencoder method to actively complete the missing modal information, the dynamic modal fusion method to integrate and complement the information of different modalities, and the inter-modal contrastive learning method to model the inter-modal relations. These methods effectively solve the problems of modal missing and the difficulty in modal fusion. Compared with the baseline model, MACEA improves the hits@1 and MRR indicators by 5.72% and 6.78%, respectively. The experimental results show that the proposed method can effectively identify aligned entity pairs, with high accuracy and practicality.
Key words:entity alignment; knowledge graph; multi-modal; dynamic fusion; modality missing
0 引言
知識圖譜(knowledge graph,KG)[1]是最常見的一種存儲知識的大型數(shù)據(jù)庫的結(jié)構(gòu)化方式,其利用三元組來表示實體之間的關(guān)系和屬性信息,使實體的屬性和關(guān)系能夠清晰明了地展示出來。由于多模態(tài)數(shù)據(jù)比文本數(shù)據(jù)更具豐富性和直觀性,所以多模態(tài)知識圖譜應(yīng)運而生,如MMKG[2]和RichPedia[3]。多模態(tài)知識圖譜將可視化數(shù)據(jù)整合到傳統(tǒng)知識圖譜中,并將其作為實體或描述性屬性進(jìn)行處理,這大大增強了知識圖譜的完整性和豐富性,提高了知識圖譜的適用性。實體對齊(entity alignment,EA)[4]是知識圖譜整合與構(gòu)建中的一項關(guān)鍵任務(wù),其目的是在識別跨知識圖譜的等價實體,并解決不同命名規(guī)則、多語言和異構(gòu)圖結(jié)構(gòu)問題。為了利用來自互聯(lián)網(wǎng)的視覺內(nèi)容作為實體對齊的補充信息,研究人員提出了多模態(tài)實體對齊(multi-modal entity alignment,MMEA)[5],其中每個實體都與其名稱相關(guān)的圖像相關(guān)聯(lián)?,F(xiàn)有的多模態(tài)證據(jù)融合方法主要集中于設(shè)計合適的跨知識圖譜模態(tài)融合范式。EVA模型[6]針對模態(tài)重要性引入了模態(tài)特異性注意力權(quán)重學(xué)習(xí);MSNEA模型[7]融合視覺特征指導(dǎo)關(guān)系和屬性學(xué)習(xí);MCLEA模型[8]在聯(lián)合實體嵌入和單峰實體嵌入之間的輸出分布上應(yīng)用KL散度來減小模態(tài)差距。通過調(diào)研發(fā)現(xiàn),目前實體對齊方法存在以下兩方面問題:
a)模型在訓(xùn)練過程中可能因為模態(tài)缺失從而影響整體性能。
b)不同的模態(tài)在嵌入時可能會出現(xiàn)表示不對齊和難以對模塊進(jìn)行融合的情況。
基于這些觀察,本文提出了自適應(yīng)對比學(xué)習(xí)的多模態(tài)實體對齊的方法MACEA模型(multimodal adaptive contrastive lear-ning for entity alignment),通過引入多尺度模態(tài)融合和模態(tài)間對比損失模塊,并使用多模態(tài)變分自編碼器補全視覺信息,緩解了其他模型的缺點??傮w而言,本文的貢獻(xiàn)可以概括為:
a)引入了多模態(tài)變分自編碼器,可以減輕模態(tài)噪聲和模態(tài)缺失的影響,使得模型在缺失模態(tài)的情況下進(jìn)行學(xué)習(xí)。
b)使用模態(tài)間對比學(xué)習(xí)技術(shù)縮小不同模態(tài)輸出分布之間的差距,使得MACEA模型能夠?qū)δB(tài)間的交互進(jìn)行建模。
實驗證明,在公共數(shù)據(jù)集上,MACEA模型的hits@1達(dá)到0.739,MRR達(dá)到0.817,與MCLEA模型相比擁有更先進(jìn)的性能,體現(xiàn)了多模態(tài)自適應(yīng)對比學(xué)習(xí)的積極作用。
1 相關(guān)工作
實體對齊[4]可以識別和對齊多個知識圖譜中的等價實體,促進(jìn)知識的形成。
1.1 傳統(tǒng)實體對齊
實體對齊是一種對齊多源知識圖譜的方法,首先要對知識圖譜進(jìn)行編碼,然后再執(zhí)行多源知識圖譜的對齊操作。為了處理知識圖譜之間的異質(zhì)性,實體對齊通常采用基于嵌入的方法,目前主要有兩種基于嵌入的方法可供選擇。首先是基于翻譯的實體抽取方法,其利用表示學(xué)習(xí)模型(如TransE[9])等技術(shù)捕獲三元組內(nèi)的結(jié)構(gòu)信息,將關(guān)系直接建模在向量空間中。其次是基于圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)[10]的實體抽取方法,即利用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)[11]和圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[12]等技術(shù)進(jìn)行鄰域?qū)嶓w特征聚合。這些方法將不同的知識圖譜通過表示學(xué)習(xí)的方式嵌入到低維向量空間中[13],并通過兩個實體向量之間的距離來確定它們是否匹配[14]。TGAEA[15]利用雙重圖注意力網(wǎng)絡(luò)對實體多信息進(jìn)行加權(quán)嵌入表達(dá)。
通常情況下,在預(yù)先對齊的實體對中應(yīng)用對齊目標(biāo)以調(diào)整知識圖譜的語義空間。研究人員發(fā)現(xiàn),可以采用一些其他方式進(jìn)一步提升實體對齊的性能,比如參數(shù)共享(即在不同的知識圖譜之間共享種子對齊的實體嵌入)[16]、迭代學(xué)習(xí)(即通過逐步標(biāo)記實體對作為偽種子監(jiān)督來不斷改進(jìn))[3]、屬性值編碼[17]、集體穩(wěn)定匹配[18]和通過本體模式來提高實體對齊[19]。
1.2 多模態(tài)實體對齊
隨著多模態(tài)學(xué)習(xí)的快速發(fā)展,將視覺模態(tài)引入實體對齊逐漸成為研究的焦點,尤其是多模態(tài)知識圖譜構(gòu)建任務(wù)的引入[20],更是大大提高了視覺信息的權(quán)重。在這一背景下,一些重要模型引起了廣泛關(guān)注,MMEA模型[5]主要研究融合各種模態(tài)的知識表示,然后通過最小化對齊實體整體嵌入之間的距離來進(jìn)行實體對齊。EVA模型[6]則采用可學(xué)習(xí)的注意力加權(quán)方案,賦予每個模態(tài)不同的重要性。MSNEA模型[7]整合視覺特征用于指導(dǎo)關(guān)系特征學(xué)習(xí),并賦予對齊任務(wù)屬性權(quán)重,并且還通過對比學(xué)習(xí)來增強內(nèi)模態(tài)學(xué)習(xí),應(yīng)用KL散度來減小聯(lián)合和單模態(tài)嵌入之間的模態(tài)差異。AF2MEA[21]采用自適應(yīng)特征融合的方法,在融合時對實體的模態(tài)信息自適應(yīng)生成相應(yīng)的權(quán)重。這些方法為多模態(tài)實體對齊任務(wù)帶來了新的啟示。
多模態(tài)實體對齊主要關(guān)注知識圖譜領(lǐng)域中跨語言跨模態(tài)檢索(cross-lingual cross-modal retrieval,CCR)和知識圖譜構(gòu)建兩個方面的應(yīng)用??缯Z言跨模態(tài)檢索是一種能夠?qū)⒉煌B(tài)數(shù)據(jù)進(jìn)行關(guān)聯(lián)并進(jìn)行信息檢索的技術(shù)。通過多模態(tài)實體對齊,可以同時克服模態(tài)和語言之間的障礙,將文本、圖像、音頻等不同類型數(shù)據(jù)進(jìn)行關(guān)聯(lián),并在單一模型中實現(xiàn)跨語言跨模態(tài)檢索。例如,用戶可以通過輸入圖片來搜索與該圖片相關(guān)的文本信息或視頻片段。在知識圖譜構(gòu)建過程中,在提取實體關(guān)系等信息后,需要對來自不同知識圖譜來源的知識進(jìn)行融合。通過多模態(tài)實體對齊,可以匹配和關(guān)聯(lián)不同來源知識圖譜中的實體,從而構(gòu)建一個規(guī)模更大、覆蓋范圍更廣泛的知識圖譜。
2 方法
2.1 預(yù)備知識
多模態(tài)知識圖譜被表示為G=(E,R,A,V,T),其中E、R、A、V、T分別代表實體、關(guān)系、屬性、圖像和三元組的集合,T=E×R×E是關(guān)系三元組的集合。給定G1=(E1,R1,A1,V1,T1)和G2=(E2,R2,A2,V2,T2)作為待對齊的兩個知識圖譜,實體對齊的目標(biāo)是找到對齊的實體對A={(e1,e2)|e1≡e2,e1∈E1,e2∈E2},本文通過將一定比例的先驗對齊實體對作為模型的訓(xùn)練集,將G1和G2嵌入到相同的向量空間中進(jìn)行模型訓(xùn)練,這樣就可以識別其他對齊實體。
2.2 多模態(tài)知識嵌入
模型的整體架構(gòu)如圖1所示。MACEA利用各模態(tài)編碼器的方法來獲取各模態(tài)的嵌入表示,然后對多模態(tài)信息進(jìn)行加權(quán)聚合,生成實體的多模態(tài)聯(lián)合表示。
2.2.1 圖鄰域結(jié)構(gòu)嵌入
圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[22]可以直接處理結(jié)構(gòu)化數(shù)據(jù),獲得其原始語義信息。在多頭注意力機制中,輸入的序列數(shù)據(jù)會被劃分為多個頭,每個頭獨立地進(jìn)行計算,得到不同的輸出并拼接在一起。
因此,本文利用GATv2對兩個知識圖譜的結(jié)構(gòu)信息進(jìn)行建模。具體而言,使用GATv2獲取實體結(jié)構(gòu)嵌入的公式如下:
其中:hi是實體的原始特征;eij表示實體之間的相似系數(shù);W是共享的權(quán)重矩陣;aT是單層前饋神經(jīng)網(wǎng)絡(luò);σ是激活函數(shù);‖表示矩陣拼接;αij表示ej對實體ei的重要性; hig是通過聚合所有一跳鄰居Ni來計算ei的隱藏狀態(tài);softmax和LeakyReLu是相應(yīng)的非線性函數(shù)。
與GAT相比,GATv2在節(jié)點間關(guān)系更復(fù)雜、對不同鄰域節(jié)點排序要求不同的情況下,能夠顯著優(yōu)化實體對齊任務(wù)中節(jié)點間權(quán)重的獲取,從而提升實體對齊效果。
2.2.2 關(guān)系、屬性、名稱嵌入
本文提取實體關(guān)系、屬性和實體名稱作為輔助信息,使用MCLEA模型[8]對實體關(guān)系、屬性和實體名稱建模,并將這三種類型的實體信息視為詞袋特征(bag of words)輸出到前饋層中,獲得關(guān)系嵌入hri。為了簡化MCLEA模型的方法并保持一致性,本文對實體的屬性嵌入ha i、關(guān)系嵌入hri和名稱嵌入hni采用相同的方法。因此,這些嵌入可以計算如下:
hli=Wluli+bl" l∈{r,a,n}(4)
其中:hli,l∈{r, a, n}是ei的關(guān)系、屬性和名稱嵌入;Wl和bl是偏置矩陣的可學(xué)習(xí)權(quán)重;uri是詞袋關(guān)系特征;uai是詞袋屬性特征;uni是將姓名字符串的預(yù)訓(xùn)練GloVe[18]向量進(jìn)行平均得到的名稱特征。
2.2.3 視覺信息嵌入
本文使用預(yù)訓(xùn)練的視覺模型(PVM)作為視覺編碼器對實體的描述圖像進(jìn)行編碼,例如ResNet-152[23]和CLIP[24]。PVM模型將實體ei的圖像vi輸入到預(yù)訓(xùn)練的視覺模型中,使用它的最終層輸出作為圖像特征,然后將圖像特征輸入到前饋層,實現(xiàn)原始的視覺嵌入。具體公式如下:
hvi=WvPVM(vi)+bv(5)
其中:hvi是ei的原始視覺嵌入;Wv和bv是前饋神經(jīng)網(wǎng)絡(luò)偏置矩陣的可學(xué)習(xí)權(quán)重;PVM為預(yù)訓(xùn)練視覺模型;vi表示ei的視覺圖像。
2.3 模態(tài)融合
2.3.1 動態(tài)模態(tài)融合
為了解決不同模態(tài)之間難以融合的問題,本文提出了動態(tài)模態(tài)融合模塊(dynamic modality fusion,DMF),其通過全局的方式整合不同模態(tài)的信息,將各個模態(tài)的信息相互補充,使得每個多模態(tài)實體對都可以全局對齊。首先將實體嵌入進(jìn)行串聯(lián),然后動態(tài)調(diào)整不同模態(tài)的權(quán)重進(jìn)行對齊,使得模型能夠自適應(yīng)地學(xué)習(xí)多個多模態(tài)知識圖譜中各個模態(tài)的信息,這提高了實體對齊的準(zhǔn)確性和魯棒性。本文設(shè)wm為模態(tài)m的全局權(quán)重,將實體ei的DMF聯(lián)合嵌入hDMFi規(guī)定為
其中:γm(e1i,e2j)=exp(hmiEuclid Math OneUBphnj/τ),τ 代表溫度超參數(shù)。基于度感知的長尾實體對齊方法,本文使用動態(tài)賦予不同模態(tài)權(quán)重的方法,利用共注意相似矩陣獲得兩個實體的注意。具體來說,本文將矩陣饋送到一個softmax層,得到的矩陣被一個平均層壓縮,生成注意力向量。最終將特定于特征的相似度分?jǐn)?shù)與關(guān)注值相乘,得到最終的相似度分?jǐn)?shù)如下:
其中:attl為模態(tài)特征相似度得分對應(yīng)的權(quán)重值;sim(e1,e2), sim(e2,e1)可能有不同的權(quán)重向量。
協(xié)同注意力特征融合模型的模型復(fù)雜度很低,也可以很容易地適應(yīng)更多的特征。訓(xùn)練目標(biāo)是最大化訓(xùn)練實體對的相似度分?jǐn)?shù),可以轉(zhuǎn)換為最小化以下?lián)p失函數(shù),如下所示。
為了考慮實體對的對齊方向,本文建立了一個雙向?qū)R目標(biāo),如下所示。
其中:m表示一種模態(tài)或一種嵌入類型。當(dāng)使用DMF聯(lián)合嵌入時,本文將訓(xùn)練目標(biāo)表示為LDMF,即將γDMF(e1i,e2j)設(shè)置為exp(hDMFiEuclid Math OneUBphDMFj/τ)。
全局自適應(yīng)加權(quán)使模型能夠充分利用高質(zhì)量的模態(tài),同時最小化低質(zhì)量模態(tài)(如屬性/關(guān)系中的冗余信息和圖像中的噪聲)的影響,確保在一定程度上保留有價值的信息,這有助于對齊過程的穩(wěn)定性。
2.3.2 模態(tài)對比學(xué)習(xí)
為了緩解模態(tài)內(nèi)對齊損失模塊(intra-modal contrastive loss, ICL)因不同模態(tài)在嵌入時表示不對齊和融合模塊難以建模模態(tài)間的復(fù)雜交互的問題,本文在模態(tài)對比學(xué)習(xí)中使用了模態(tài)間對齊損失模塊(inter-modal alignment loss, IAL)。IAL的目標(biāo)是在學(xué)習(xí)每個實體內(nèi)部不同模態(tài)之間的交互,集中于聚合不同模態(tài)的分布,從而減少模態(tài)差距,使其能夠?qū)δB(tài)間的交互進(jìn)行建模。具體公式如下:
其中:pm(e1i,e2j)表示正樣本對(e1i,e2j)中模態(tài)m 的概率分布;δm(u,v)表示實體之間的相關(guān)概率。
由于聯(lián)合嵌入融合了多模態(tài)特征,所以本文將聯(lián)合嵌入中的知識轉(zhuǎn)移回單模態(tài)嵌入中,使得單模態(tài)嵌入能夠更好地利用其他嵌入中的互補信息。具體來說,本文最小化聯(lián)合嵌入和單模態(tài)嵌入之間輸出分布上的雙向KL散度,具體公式如下:
其中:po(e1i,e2j)、po(e2i,e1j)和pm(e1i,e2j)、pm(e2i,e1j)代表輸出分別為兩個方向的聯(lián)合嵌入和模態(tài)的單峰嵌入的預(yù)測值。
式(15)的計算與模態(tài)內(nèi)對齊損失模塊類似,但是模態(tài)間對齊損失模塊具有溫度參數(shù)τ,這描述在softmax函數(shù)中的一個調(diào)節(jié)參數(shù),用于控制概率分布的平滑度,可以調(diào)節(jié)模型輸出的多樣性和探索性,來平衡模型生成結(jié)果的多樣性和準(zhǔn)確性。在式(14)中,可以對pm(e1i,e2j)、pm(e2i,e1j)進(jìn)行回推,得到知識蒸餾的結(jié)果。
模態(tài)間對齊損失模塊旨在學(xué)習(xí)每個實體內(nèi)部不同模態(tài)之間的交互,它集中于聚合不同模態(tài)的分布,減少模態(tài)差距。本文從多模態(tài)表示的輸出預(yù)測中提取有用的知識到單模態(tài)表示,同時保持每個模態(tài)相對模式特異性的特征。
2.4 損失信息補全
本文使用了學(xué)習(xí)共享表示的多模態(tài)變分自編碼器(multimodal variational autoencoder,MVAE)[25],可以主動地補全缺失的模態(tài)信息。如果某個模態(tài)在訓(xùn)練過程中缺失,則刪除相應(yīng)的推理網(wǎng)絡(luò)。具體如圖2所示。
本文通過優(yōu)化重構(gòu)損失和KL散度損失之和來訓(xùn)練VAE模型,因此,使用分類交叉熵?fù)p失來重建文本,并使用均方誤差來重建圖像特征。通過最小化KL散度使隱空間接近高斯分布來正則化隱空間。兩個概率分布之間的KL散度簡單地衡量了它們之間的偏離程度。最小化KL散度意味著優(yōu)化概率分布參數(shù)(μ和σ),使其與目標(biāo)分布(正態(tài)分布)非常相似。計算公式如下:
其中:M是多模態(tài)數(shù)據(jù)的集合;nm是圖片特征的維數(shù);nt是實體數(shù)量;nm是多模態(tài)特征的維數(shù)。本文使用Lmvae表達(dá)最小化MVAE損失,具體公式如下:
MVAE策略抑制了視覺模態(tài)在編碼過程中的過擬合現(xiàn)象,最大限度地保留了模態(tài)混合特征到視覺空間的知識映射,從而緩解了大部分視覺模態(tài)缺失和噪聲干擾問題。
3 實驗
3.1 數(shù)據(jù)集
在實驗中,本文采用了五個實體對齊數(shù)據(jù)集,其中包括從多語言版本的DBpedia抽取并構(gòu)建的三個數(shù)據(jù)集[19],DBP15K是最為廣泛使用的跨語言實體對齊基準(zhǔn)數(shù)據(jù)集,包含三個雙語數(shù)據(jù)集DBP15KFR-EN、DBP15KZH-EN和DBP15KJA-EN,其中每個數(shù)據(jù)集包含約40萬個三元組和15 000個預(yù)對齊的實體對。還有來自MMKG[3]的數(shù)據(jù)集FBDB15K和FBYG15K,并給出了20%、50%和80%的參考實體對齊,具體如表1所示。
3.2 實現(xiàn)方法
為了確保實驗公平性,本文對所有數(shù)據(jù)集進(jìn)行訓(xùn)練時采用以下設(shè)置:將所有網(wǎng)絡(luò)的隱藏層維度統(tǒng)一設(shè)定為300,并進(jìn)行500輪訓(xùn)練,如果后續(xù)使用迭代訓(xùn)練策略,本文采用提前停止和梯度累加的方式進(jìn)行訓(xùn)練,并額外添加了500輪訓(xùn)練。優(yōu)化器選擇AdamW,批處理大小固定為3 500,選用CLIP[20]作為視覺編碼器,并將視覺特征維度設(shè)置為2 048。將關(guān)系、屬性和名稱以詞袋模型編碼成定長向量,在此過程中對信息進(jìn)行截斷或補全以消除長尾關(guān)系或?qū)傩缘挠绊?,得到固定長度的全零向量。同時去除了用于輸入一致性的屬性值,并擴展了迭代訓(xùn)練能力。
3.3 評價指標(biāo)
本文與大部分實體對齊模型一樣,使用hits@n、mean reciprocal rank (MRR)和mean rank (MR)作為評測指標(biāo),評價模型的實體對齊精度。hits@n和MRR的值越大,MR的值越小,模型的性能越好。
hits@n表示候選實體對齊可能性排名前n個項目產(chǎn)生正確結(jié)果的概率;MRR表示候選序列中正確排序倒數(shù)的平均值;MR表示候選對齊中的平均正確排名。
3.4 實驗實施
3.4.1 主實驗
通過表2可得, 在數(shù)據(jù)集DBP15K上,與EVA[6]、MSNEA[7]和MCLEA[8]相比,本文方法取得了很好的實驗結(jié)果。在非迭代訓(xùn)練中,在不使用表面形式下,與最優(yōu)方法MCLEA模型相比,hits@1,hits@10和MRR的指標(biāo)取得提升。在使用表面形式下,與最優(yōu)方法EVA模型相比,除了DBP15KFR-EN數(shù)據(jù)集,其余語言的hits@1、hits@10和MRR的指標(biāo)取得很大提升。
通過表3可得,在數(shù)據(jù)集FBYG15K和FBDB15K上,本文將數(shù)據(jù)拆分為3個,Seed∈{0.2,0.5,0.8}。與EVA[6]、MSNEA[7]和MCLEA[8]相比,MACEA模型取得了最好的實驗結(jié)果。在Seed的所有取值中,與最優(yōu)方法MCLEA模型相比,hits@1、hits@10和MRR的指標(biāo)取得很大提升。
3.4.2 迭代訓(xùn)練
本文采用了迭代訓(xùn)練提高模型的準(zhǔn)確性和魯棒性,它可以維護(hù)臨時緩存,存儲測試集中的實體對。具體來說,該算法在每個輪次中找出在向量空間中是相互最近鄰的跨知識圖實體對,然后將這些實體對添加到候選列表中。如果候選列表中的實體對是相互最近鄰實體對,則將這些實體對添加到訓(xùn)練集中。
通過表4可得,在迭代訓(xùn)練中,在使用表面形式與不使用表明形式的兩種方法中,本文提出的MACEA模型的hits@1、hits@10、MRR值基本都高于當(dāng)前最優(yōu)方法MCLEA,僅僅在DBP15KZH-EN數(shù)據(jù)集中略有遜色。
3.4.3 消融實驗
為了證實各模塊對于多模態(tài)實體對齊任務(wù)的有效性,本節(jié)進(jìn)一步設(shè)計了消融實驗,其中,MACEA/del VAE、MACEA/del DMF和MACEA/del IAL分別表示去除動態(tài)融合模塊的模型、去除多模態(tài)變分自編碼器模塊和去除模態(tài)間對比模塊的模型,通過與本文提出的完整模型MACEA進(jìn)行對比來檢測各模塊的有效性。本消融實驗分別在三個雙語數(shù)據(jù)集DBP15KFR-EN、DBP15KZH-EN和DBP15KJA-EN上進(jìn)行,其中,在JA中,有64.30%的實體有圖像,在ZH中,有82.07%的實體有圖像,在FR中,有72.09%的實體有圖像,在EN中,有72.17%的實體有圖像,綜合DBP15K的所有語言數(shù)據(jù)集,模態(tài)缺失比例達(dá)到27.34%,在不進(jìn)行模態(tài)補全的情況下,本模型的綜合性能下降了1.38%,證明模態(tài)缺失對結(jié)果會產(chǎn)生負(fù)面影響。表5展示了消融實驗的結(jié)果,完整模型在所有情況下均取得了最好的實體對齊效果,去除各個子模塊都使得對齊準(zhǔn)確率出現(xiàn)一定程度的下降。
3.5 實驗結(jié)果
本文在多模態(tài)知識圖譜的實體對齊任務(wù)上將MACEA與幾種最先進(jìn)的方法進(jìn)行了比較。表2~5展現(xiàn)了MACEA模型在DBP15K、FBDB15K和FBYG15K數(shù)據(jù)集上訓(xùn)練的性能,MACEA在多模態(tài)實體對齊任務(wù)上取得了最好的性能。在兩個數(shù)據(jù)集上,MACEA模型的hits@1和MRR至少提高了2.23%和1.91%,這說明本文提出的模型行之有效。在大多數(shù)情況下,多模態(tài)方法比傳統(tǒng)方法表現(xiàn)出更好的結(jié)果。與傳統(tǒng)方法相比,MACEA在hits@1和MRR上分別取得了至少38.35%和23.7%的提升。
MACEA模型更有效地利用多模態(tài)知識進(jìn)行多模態(tài)實體對齊,MACEA在DBP15KFR-EN上的hits@1比MCLEA、EVA和MSNEA模型分別提高了5.71%、10.98%和39.59%,這說明了模態(tài)間對比學(xué)習(xí)的有效性。MACEA模型在FBYG15K和FBYG15K數(shù)據(jù)集上的表現(xiàn)突出,原因是動態(tài)模態(tài)融合方案很好地融合多模態(tài)知識,可以很好地處理弱模態(tài)產(chǎn)生的負(fù)面影響。MACEA模型使用迭代訓(xùn)練機制之后,hits@1至少提升了6.99%,原因是在迭代訓(xùn)練過程中產(chǎn)生了虛擬實體對齊對,從而迭代過濾掉了潛在的錯誤實體對。
3.6 實驗分析
與MACEA模型相比,ACK-MMEA模型通過利用屬性一致的知識圖譜表示學(xué)習(xí)方法來整合一致的對齊知識。但是在FBDB15K和FBGO15K數(shù)據(jù)集上,hits@1和MRR比MACEA模型降低了15.11%和12.09%,原因可能是研究集中于屬性信息,而忽略了關(guān)系信息和名稱信息,沒有充分有效地利用多種模態(tài)。MMEA模型可以利用多種數(shù)據(jù)源,提高對齊的準(zhǔn)確性,并且對不同類型的數(shù)據(jù)具有較好的適應(yīng)性。但是在FBDB15K和FBGO15K數(shù)據(jù)集上,hits@1和MRR比MACEA模型降低了19.39%和17.86%,原因可能是無法合理地處理多種模態(tài)的數(shù)據(jù),并且受到數(shù)據(jù)的質(zhì)量和多樣性影響較大。MEAformer模型通過動態(tài)預(yù)測模態(tài)之間的互相關(guān)系數(shù)來進(jìn)行更細(xì)粒度的實體級模態(tài)融合和對齊。但是在FBDB15K和FBGO15K數(shù)據(jù)集上,hits@1和MRR比MACEA模型降低了1.28%和1.04%,原因可能是忽略了模態(tài)缺失的問題,使得實體信息和視覺信息沒有充分融合。
4 結(jié)束語
本文調(diào)查了現(xiàn)有的多模態(tài)實體對齊方法在處理模態(tài)信息和模態(tài)對比方面的限制,發(fā)現(xiàn)一些模型在模態(tài)缺失和模態(tài)融合方面存在困難。為了克服這一困難,本文提出了MACEA模型,該模型包括動態(tài)模態(tài)混合和模態(tài)間對比學(xué)習(xí)技術(shù),并使用了變分自編碼器模型,可以根據(jù)不同模態(tài)信息的貢獻(xiàn)率動態(tài)地賦予不同的權(quán)重,并且可以在模態(tài)缺失的情況下進(jìn)行最優(yōu)訓(xùn)練,從而顯著提升實體對齊準(zhǔn)確率。該技術(shù)在智能問答、信息檢索、圖像標(biāo)注等領(lǐng)域的應(yīng)用中起到了重要作用。
在未來的多模態(tài)實體對齊的研究中,將進(jìn)一步研究在視覺模態(tài)以外的模態(tài)缺失問題,探索更有效的技術(shù)來利用更詳細(xì)的視覺內(nèi)容進(jìn)行多模態(tài)實體對齊,從而提高模型的準(zhǔn)確性和可靠性,滿足現(xiàn)實應(yīng)用的需求。
參考文獻(xiàn):
[1]Wang Meng, Qi Guilin, Wang Haofeng, et al. RichPedia: a comprehensive multi-modal knowledge graph [C]//Proc of the 9th Joint International Conference on Semantic Technology. Berlin:Springer-Verlag,2019: 130-145.
[2]Liu Ye, Li Hui, Garcia-Duran A, et al. MMKG: multi-modal know-ledge graphs [EB/OL]. (2019-03-13). https://arxiv.org/abs/1903.05485.
[3]Wang Meng, Wang Haofen, Qi Guilin, et al. RichPedia: a large-scale, comprehensive multi-modal knowledge graph [J]. Big Data Research, 2020, 22(10): 100-159.
[4]Guo Lingbing, Chen Zhuo, Chen Jiaoyan, et al. Revisit and outstrip entity alignment: a perspective of generative models [C] //Proc of the 12th International Conference on Learning Representations. 2024.
[5]Chen Liyi, Li Zhi, Wang Yijun, et al. MMEA: entity alignment for multi-modal knowledge graph [C]//Proc of the 13th International Conference on Knowledge Science, Engineering and Management. Berlin:Springer-Verlag, 2020:134-147.
[6]Liu Fangyu, Chen Muhao, Roth D, et al. Visual pivoting for (unsupervised) entity alignment [EB/OL]. (2020-12-17). https://arxiv.org/abs/2009.13603.
[7]Chen Liyi, Li Zhi, Xu Tong, et al. Multi-modal Siamese network for entity alignment [C]// Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York:ACM Press,2022: 118-126.
[8]Lin Zhenxi, Zhang Ziheng, Wang Meng, et al. Multi-modal contrastive representation learning for entity alignment [EB/OL]. (2022-09-02). https://arxiv.org/abs/2209.00891.
[9]Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data [C]// Proc of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc., 2013: 2787-2795.
[10]Gao Yunjun, Liu Xiaoze, Wu Junyang, et al. ClusterEA: scalable entity alignment with stochastic training and normalized mini-batch similarities [C]// Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York:ACM Press, 2022: 421-431.
[11]Kipf T N, Welling M. Semi-supervised classification with graph convo-lutional networks [EB/OL]. (2017-02-22). https://arxiv.org/abs/1609.02907.
[12]Brody S, Alon U, Yahav E. How attentive are graph attention networks? [EB/OL]. (2022-01-31). https://arxiv.org/abs/2105.14491.
[13]張?zhí)斐桑?田雪, 孫相會, 等. 知識圖譜嵌入技術(shù)研究綜述 [J]. 軟件學(xué)報, 2023, 34(1): 277-311. (Zhang Tiancheng, Tian Xue, Sun Xianghui, et al. A review of knowledge graph embedding techniques [J]. Journal of Software, 2023, 34(1): 277-311.)
[14]馬赫, 王海榮, 周北京, 等. 基于表示學(xué)習(xí)的實體對齊方法綜述 [J]. 計算機工程與科學(xué), 2023, 45(3): 554-564. (Ma He, Wang Hairong, Zhou Beijing, et al. Overview of the entity alignment methods based representation learning [J]. Computer Engineering and Science, 2023, 45(3): 554-564.)
[15]王鍵霖, 張浩, 張永爽, 等. 基于雙層圖注意力網(wǎng)絡(luò)的鄰域信息聚合實體對齊方法 [J]. 計算機應(yīng)用研究, 2024, 41(6): 1686-1692. (Wang Jianlin, Zhang Hao, Zhang Yongshuang, et al. Neighborhood information aggregation entity alignment method based on double layer graph attention network [J]. Application Research of Computers, 2024, 41(6): 1686-1692.)
[16]Zhu Hao, Xie Ruobing, Liu Zhiyuan, et al. Iterative entity alignment via joint knowledge embeddings [C]// Proc of the 26th International Joint Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2017: 4258-4264.
[17]Chen Muhao, Tian Yingtao, Chang Kaiwen, et al. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment [C]// Proc of the 27th International Joint Confe-rence on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2018:3998-4004.
[18]Zeng Wenxin, Zhao Xiang, Tang Jiuyang, et al. Collective entity alignment via adaptive features [C]// Proc of the 36th IEEE International Conference on Data Engineering. Piscataway, NJ: IEEE Press, 2020: 1870-1873.
[19]Jiang Wen, Liu Yuanna, Deng Xinjiang, et al. Fuzzy entity alignment via knowledge embedding with awareness of uncertainty measure [J]. Neurocomputing, 2022,468: 97-110.
[20]Xiang Yuejia, Zhang Ziheng, Chen Jiaoyan, et al. OntoEA: ontology-guided entity alignment via joint knowledge graph embedding [EB/OL]. (2021-05-24). https://arxiv.org/abs/2105.07688.
[21]郭浩, 李欣奕, 唐九陽, 等. 自適應(yīng)特征融合的多模態(tài)實體對齊研究 [J]. 自動化學(xué)報, 2024,50(4):758-770. (Guo Hao, Li Xinyi, Tang Jiuyang, et al. Adaptive feature fusion for multi-modal entity alignment [J]. Journal of Automatica Sinica, 2024,50(4):758-770.)
[22]Khattar D, Goud J S, Gupta M, et al. MVAE: multimodal variational autoencoder for fake news detection [C]// Proc of World Wide Web Conference. New York:ACM Press,2019: 2915-2921.
[23]Pennington J, Socher R, Manning C. GloVe: global vectors for word representation[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics, 2014: 1532-1543.
[24]He Kaimng, Zhang Xiangyu, Ren Shaoping, et al. Deep residual learning for image recognition [EB/OL]. (2015-12-10). https://arxiv.org/abs/1512.03385.
[25]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision [EB/OL]. (2021-02-26). https://arxiv.org/abs/2103.00020.