Multimodal entity alignment based on dual-generator shared-adversarial network
Feng Guanga?,Zheng Runting?,Liu Tianxiang?,Yang Yanru?,Lin Jianzhonga, Zhong Tinga,HuangRongcan?,XiangFeng?,LiWeichenb (a.SchoolofAutomation,b.SchoolofComputerScience,Guangdong UniversityofTechnology,Guangzhou510o6,China)
Abstract:Inthefieldofeducation,knowledgegraph fusionplaysacrucialrole.Asacore technologyof knowledge graphfusion,entityalignmentaistoidentifyequivalent entitypairsacrossmultiple knowledge graphs.Most existing entityalignment methodsassume thateachsourceentityhasacorresponding entityinthetargetknowledge graph.However,whenusingcrosslingualandcros-raphetitysets,theproblemofdanglingentitiesarises.Toaddresstisissue,thispaperproposedthedualgeneratorshared-adversarial network entityalignment model(DGSAN-EA).This modelutilized partialparametersharig and anoptimalselectionstrategytotraintwogenerators,selectingtheoptimalgneatortoconditionallgenerateewetisacoss knowledgegraphs,therebyenhancing thedatasetand solving thedangling entityproblem.Furthermore,aprogressive fusion strategyandtheintroductionofdistributionconsistencylossfunctionefectielyresolvethedistortionoffusedfeatureformationandthemisalignmentbetweenmodalitiesinmultimodalentityalignment.Validationonmultiplepublicdatasetsshows that compared to existing multimodal entityalignment models,DGSAN-EAachieveshigher hit@ kand MMRscores,demonstrating itseffectiveness in entity alignment tasks.
Key words:knowledge graph(KG);entity alignment;adversarial network;dual generator;parameter sharing;progresive fusion;distribution consistency
0 引言
在大數(shù)據(jù)時代背景下,知識圖譜(KG)作為結(jié)構(gòu)化知識表示的重要工具,其應(yīng)用已擴(kuò)展至教育、醫(yī)療、金融等關(guān)鍵領(lǐng)域。特別是在智慧課堂流媒體的背景下,知識圖譜能夠?qū)⒄n件、教材、視頻和實(shí)驗(yàn)等教育資源相互連接,構(gòu)建一個高度關(guān)聯(lián)的教育資源網(wǎng)絡(luò)[1]。在此網(wǎng)絡(luò)環(huán)境下,教師與學(xué)生能夠迅速定位相關(guān)資源,便于知識的拓展和應(yīng)用。例如,某一物理概念可以與相關(guān)視頻、文章或?qū)嶒?yàn)案例相鏈接,使學(xué)生有更多的參考材料。然而,為了全面覆蓋知識領(lǐng)域并滿足跨學(xué)科需求,通常需要合并來自多個來源的知識圖譜。因此,如何將不同來源、不同領(lǐng)域,甚至跨語言的知識圖譜無縫整合為一個統(tǒng)一的網(wǎng)絡(luò),形成更豐富的教育資源池,成為知識圖譜融合的核心挑戰(zhàn)之一。
在此背景下,實(shí)體對齊(entityalignment,EA)技術(shù)作為知識圖譜融合的關(guān)鍵步驟,顯得尤為重要。實(shí)體對齊旨在判斷不同知識圖譜之間的真實(shí)世界的同一實(shí)體,將不同數(shù)據(jù)源中表示同一個現(xiàn)實(shí)對象的實(shí)體映射到一起[2]。傳統(tǒng)的實(shí)體對齊研究方法主要側(cè)重于比較實(shí)體關(guān)系的推理、利用實(shí)體屬性的相似性計算等技術(shù)來實(shí)現(xiàn)實(shí)體對齊任務(wù)。而目前比較主流的實(shí)體對齊方法主要是基于深度學(xué)習(xí)的方法,包括但不限于基于對比學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等方法。這些方法都是通過訓(xùn)練實(shí)體的嵌人,將其映射到低維空間中進(jìn)行處理,旨在提高不同空間中同一實(shí)體表示的相似性[3]。伴隨著實(shí)體對齊的發(fā)展歷程,研究者們利用除文本以外的其他內(nèi)容作為EA的補(bǔ)充信息,以提高實(shí)體對齊的準(zhǔn)確性和全面性,由此誕生出多模態(tài)實(shí)體對齊任務(wù)。
多模態(tài)實(shí)體對齊是通過將每個實(shí)體與其相關(guān)的額外信息進(jìn)行關(guān)聯(lián)[4],從而利用其他模態(tài)的信息作為補(bǔ)充,將這些相關(guān)信息應(yīng)用于實(shí)體對齊,進(jìn)而增強(qiáng)實(shí)體固有的特征信息,提高實(shí)體嵌入信息的獨(dú)特性,增強(qiáng)實(shí)體嵌入的表達(dá)能力,最終實(shí)現(xiàn)提高實(shí)體對齊精確性和全面性的目的。其中,Chen等人[5提出了一種開創(chuàng)性的多模態(tài)實(shí)體對齊框架MMEA,通過嵌入圖像、數(shù)字模態(tài)信息實(shí)現(xiàn)了較好的多模態(tài)實(shí)體對齊效果。Liu等人[證明了視覺模態(tài)增強(qiáng)了從其他模態(tài)獲得較少信息的長尾實(shí)體匹配問題,并且使用迭代學(xué)習(xí)的策略提出一個完全無監(jiān)督設(shè)置,但是只考慮了視覺知識的方法。然而以上的模型以及目前大多數(shù)多模態(tài)實(shí)體對齊模型仍舊存在以下不足:a)懸掛實(shí)體[7,8]問題。由于訓(xùn)練的數(shù)據(jù)集本身的局限性,源知識圖譜中經(jīng)常存在一些實(shí)體是目標(biāo)知識圖譜中所沒有的,即懸掛實(shí)體。如圖1所示,由于每個KG可能基于獨(dú)立創(chuàng)建的或者由不同群體貢獻(xiàn)的單獨(dú)語料庫,所以不同KG擁有不同的實(shí)體集是很常見的。懸掛實(shí)體的存在對于一些任務(wù)需要花費(fèi)額外的時間和精力去解決,例如,現(xiàn)有國內(nèi)的電化學(xué)教材知識圖譜和國外的電化學(xué)教材知識圖譜,由于國家政策、語言、教育理念的不同,兩個圖譜的實(shí)體內(nèi)容存在不同,其中國外教材舍棄了電極過程動力學(xué)和應(yīng)用電化學(xué)[9],所以國內(nèi)教材的知識圖譜就會存在電極過程動力學(xué)和應(yīng)用電化學(xué)兩個懸掛實(shí)體,從而導(dǎo)致將國內(nèi)電化學(xué)教材知識圖譜融人國外教材的知識圖譜時,這兩個實(shí)體與其他相關(guān)知識需要人為地去翻譯并補(bǔ)充缺失部分的信息,否則可能會出現(xiàn)這兩個知識點(diǎn)無法融入圖譜中的情況。如果能夠?qū)覓鞂?shí)體從源KG轉(zhuǎn)換為目標(biāo)KG的實(shí)體表示,則可以為許多知識工程任務(wù)(例如知識集成和事實(shí)檢查)節(jié)省大量時間和精力。其中, Sun 等人[7]雖然提出了一個針對懸掛實(shí)體檢測的框架,但是該框架只做到了對懸掛實(shí)體的檢測并選擇放棄對懸掛實(shí)體的對齊,沒有真正解決懸掛實(shí)體從源KG轉(zhuǎn)換為目標(biāo)KG中的實(shí)體表示問題。b)融合特征信息失真及模態(tài)間不對齊的問題。不同模態(tài)通常具有不同的數(shù)據(jù)格式和特征空間,這些特征差異導(dǎo)致模型在融合過程中無法充分利用所有模態(tài)的信息,從而影響實(shí)體對齊的準(zhǔn)確性?,F(xiàn)有方法中,融合后的特征往往過于集中于某一模態(tài),而喪失了如圖像模態(tài)的其他模態(tài)的特征信息,從而造成信息的差異化。
針對現(xiàn)有不足,本文采用生成對抗模型通過對源圖譜中的懸掛實(shí)體進(jìn)行建模,訓(xùn)練生成器在缺失的目標(biāo)實(shí)體及其屬性的情況下生成與目標(biāo)圖譜中實(shí)體相似的嵌人,從而實(shí)現(xiàn)在目標(biāo)KG中缺少部分對齊信息或者實(shí)體時,通過已知的信息來生成補(bǔ)全信息增加對齊精度或者直接生成目標(biāo)圖譜中的實(shí)體;其次引入漸進(jìn)式融合策略和基于高階矩的分布一致性損失函數(shù),通過迭代融合加深對多模態(tài)特征的挖掘,利用基于高階矩的分布一致性損失函數(shù)防止迭代融合而產(chǎn)生的信息失真問題。因此本文提出了一種雙生成器參數(shù)共享對抗網(wǎng)絡(luò)實(shí)體對齊模型(DGSAN-EA),通過對抗性訓(xùn)練生成提高對源知識圖譜和目標(biāo)知識圖譜之間的實(shí)體對齊效果。本文模型作出的主要貢獻(xiàn)如下:a)設(shè)計參數(shù)部分共享的雙生成器對抗訓(xùn)練網(wǎng)絡(luò),防止出現(xiàn)模式崩潰的同時訓(xùn)練生成器對懸掛實(shí)體進(jìn)行建模,通過生成跨知識圖譜的新實(shí)體和生成其相關(guān)屬性信息,達(dá)到信息重建提高對齊精度和直接生成目標(biāo)圖譜的實(shí)體目的;b)設(shè)計漸進(jìn)式融合策略,通過漸進(jìn)式迭代深入挖掘多模態(tài)信息,同時引入分布一致性損失函數(shù),彌合融合前后分布的差異,避免漸進(jìn)式融合過程中不可避免的模態(tài)特征失真和模態(tài)間不對齊問題。
1相關(guān)研究
1.1 實(shí)體對齊
近年來,隨著深度學(xué)習(xí)技術(shù)的興起,基于表示學(xué)習(xí)的實(shí)體對齊方法成為研究熱點(diǎn)。實(shí)體對齊旨在尋找并識別不同知識圖譜中的等價實(shí)體 ,進(jìn)而促進(jìn)不同知識圖譜之間的融合。其中: X 代表源知識圖譜的實(shí)體集; Y 代表目標(biāo)知識圖譜的實(shí)體集。在此之中,基于表示學(xué)習(xí)的方法通過嵌入技術(shù)將實(shí)體和關(guān)系映射到低維向量空間中,使得相似的實(shí)體在向量空間中距離相近。TransE[10]作為代表性的翻譯嵌入模型,將關(guān)系視為實(shí)體間的翻譯操作,通過最小化翻譯誤差來學(xué)習(xí)實(shí)體和關(guān)系的嵌入表示。在 TransE的基礎(chǔ)上,MTransE[11]通過共享嵌入空間實(shí)現(xiàn)跨知識圖譜的實(shí)體對齊,同時考慮不同圖譜間的結(jié)構(gòu)差異。然而,基于TransE的模型在處理簡單的一對一關(guān)系時表現(xiàn)較好,但在處理復(fù)雜關(guān)系(如一對多、多對一、多對多關(guān)系)時可能會遇到困難。
基于TransE的方法更多的是考慮能夠更好地進(jìn)行實(shí)體表示,而沒有考慮將實(shí)體間的信息也進(jìn)行利用,為此出現(xiàn)了基于圖神經(jīng)網(wǎng)絡(luò)(graph neural networks)的實(shí)體對齊方法[12,13],GNN的主要目的是通過圖結(jié)構(gòu)和節(jié)點(diǎn)特征及其鄰居的特征來學(xué)習(xí)節(jié)點(diǎn)的表示,通過消息傳遞機(jī)制聚合鄰居節(jié)點(diǎn)的特征,從而生成每個節(jié)點(diǎn)的高維嵌入,這對實(shí)體對齊來說剛好彌補(bǔ)了基于TransE方法的不足。其中就有利用GCN(graphconvolutionnet-works)[14]和GAT(graph attention networks)[15]等方法來幫助實(shí)體對齊任務(wù),GCN-Align[16]是首個提出使用圖神經(jīng)網(wǎng)絡(luò)來完成實(shí)體對齊的模型,有效利用圖結(jié)構(gòu)信息,提高實(shí)體對齊的準(zhǔn)確性。此外,圖注意力網(wǎng)絡(luò)(GAT)在實(shí)體對齊中引入注意力機(jī)制,對節(jié)點(diǎn)分類任務(wù)產(chǎn)生了顯著效果。
1.2多模態(tài)實(shí)體對齊
為了提升實(shí)體對齊模型的精度和性能,文獻(xiàn)[17,18]指出,額外的知識圖譜信息經(jīng)過適當(dāng)編碼可以進(jìn)一步提高實(shí)體對齊方法的性能,隨著多模態(tài)知識圖譜的日益普及和發(fā)展,在EA中融入視覺模態(tài),即多模態(tài)實(shí)體對齊,已經(jīng)逐漸受到關(guān)注和研究,多模態(tài)知識圖譜實(shí)體對齊是指綜合考慮文本、圖片等不同模態(tài)數(shù)據(jù)來研究該問題。其中,MMEA是較早從多模態(tài)的角度解決知識圖譜實(shí)體對齊問題的模型,將多模態(tài)與知識圖譜實(shí)體對齊任務(wù)進(jìn)行了結(jié)合,利用多模態(tài)信息之間的互補(bǔ)性,擴(kuò)充實(shí)體特征所攜帶的信息,提高了知識圖譜實(shí)體對齊任務(wù)的性能。另一個MIMEA[19]則從不同角度獲取文本嵌人,并利用圖像數(shù)據(jù)豐富文本嵌入,實(shí)現(xiàn)多模態(tài)信息融合以完成實(shí)體對齊。MCLEA[20]更是考慮面向任務(wù)的模態(tài),并對每個實(shí)體表示的模態(tài)間關(guān)系進(jìn)行建模,從多種模態(tài)中學(xué)習(xí)多個個體表示,然后進(jìn)行對比學(xué)習(xí)以聯(lián)合建模模態(tài)內(nèi)和模態(tài)間的交互。MEAformer[21]提出一種動態(tài)跨模態(tài)加權(quán)模塊生成用于模態(tài)校正的元模態(tài)權(quán)重,從而通過淺層交叉注意網(wǎng)絡(luò)實(shí)現(xiàn)模態(tài)間相互評級。這些方法可以實(shí)現(xiàn)模態(tài)間增強(qiáng)融合,動態(tài)學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間的交互信息,然而卻忽略了懸掛實(shí)體的問題以及融合前后數(shù)據(jù)的分布差異問題。
1.3生成對抗網(wǎng)絡(luò)
生成對抗網(wǎng)絡(luò)(generativeadversarial networks,GAN)[22]是一種生成式框架,其核心思想是通過對抗方式訓(xùn)練生成器和鑒別器,逐步提高生成樣本的質(zhì)量。GAN的目標(biāo)是生成盡可能多的真實(shí)數(shù)據(jù)。GAN在圖像生成、視頻生成、圖像修復(fù)、語義分割、圖像到圖像翻譯和文本到圖像合成等多個領(lǐng)域取得了可喜的成果。然而訓(xùn)練GAN的過程非常不穩(wěn)定,難以實(shí)現(xiàn)納什均衡 ( pr=pg? ),面臨梯度消失問題,并且傾向于生成特定模式的樣本導(dǎo)致模式崩潰[23],生成器可能會找到某些輸出,認(rèn)為它們對鑒別器最合理,并始終生成這些輸出。
2方法
本文提出的雙生成器參數(shù)共享對抗網(wǎng)絡(luò)實(shí)體對齊模型,如圖2所示,DGSAN-EA主要由多模態(tài)嵌人層、基于參數(shù)部分共享的雙生成器對抗網(wǎng)絡(luò)層和漸進(jìn)式融合層三個模塊組成。模型首先將多模態(tài)數(shù)據(jù)輸入至多模態(tài)嵌入層,以提取實(shí)體的各模態(tài)信息特征,然后將特征輸人至基于參數(shù)部分共享的雙生成器對抗網(wǎng)絡(luò)層中。該過程主要是通過DGSAN訓(xùn)練,旨在從已有實(shí)體特征中恢復(fù)丟失或缺失信息的生成器,利用輸入訓(xùn)練出最優(yōu)的生成器推測目標(biāo)圖譜中缺少的實(shí)體可能的屬性,并根據(jù)源圖譜中的信息生成一個逼真且合理的目標(biāo)實(shí)體特征,最終解決由懸掛實(shí)體造成的問題。隨后,將這些特征輸人至漸進(jìn)式融合層,并通過迭代方式對各模態(tài)信息特征進(jìn)行融合。最后,將融合后的特征表示與普通EEA模型輸出的目標(biāo)實(shí)體表示進(jìn)行實(shí)體對齊。各部分的具體實(shí)現(xiàn)細(xì)節(jié)將在后續(xù)內(nèi)容中詳細(xì)闡述。
2.1 多模態(tài)嵌入
本節(jié)詳細(xì)闡述了如何將實(shí)體的每種模態(tài) m 嵌入到給定低維空間中得到低維向量 hm 。
2.1.1 圖結(jié)構(gòu)嵌入
圖注意力網(wǎng)絡(luò)是一種典型的直接處理結(jié)構(gòu)化數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)[12],因此本文借用GAT對隨機(jī)初始化圖嵌入 xig 進(jìn)行線性變換,利用自注意力機(jī)制計算節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)之間的注意力權(quán)重,并基于這些權(quán)重對鄰居節(jié)點(diǎn)的特征進(jìn)行加權(quán)求和,進(jìn)而得到節(jié)點(diǎn)新的特征表示:
hig=GAT(xig,A)
其中: ?A 表示圖鄰接矩陣。
2.1.2關(guān)系、屬性、視覺嵌入
對于關(guān)系、屬性兩個模態(tài),本文遵循文獻(xiàn)[24]使用詞袋特征來表示關(guān)系和屬性,并將其輸入到一個簡單的前饋層中以獲得嵌入 hir 和 hia 。因此,這些嵌入計算如下:
him=Wmuim+bmm∈{r,a}
其中: Wm 和 bm 是可學(xué)習(xí)參數(shù); uim 是詞袋關(guān)系特征和屬性特征。
針對視覺嵌入,采用預(yù)訓(xùn)練的視覺模型 ResNet-152[25] 來 學(xué)習(xí)視覺嵌人,本文將實(shí)體 ei 的圖像 vi 輸入到預(yù)訓(xùn)練的視覺
模型,獲取實(shí)體 ei 的每個可用圖像 vi 的視覺嵌入 xiv ,并取logits之前的最終層輸出作為圖像特征。
2.2基于參數(shù)部分共享的雙生成器對抗網(wǎng)絡(luò)
在多模態(tài)實(shí)體對齊任務(wù)中,由于實(shí)體模態(tài)信息的缺失,造成源圖譜和目標(biāo)圖譜同一實(shí)體的嵌入表示存在較大的差異性,或者存在懸掛實(shí)體,導(dǎo)致目標(biāo)知識圖譜缺乏與源圖譜中實(shí)體對應(yīng)的嵌人表示,影響實(shí)體對齊效果。所以本文借助生成模型,通過訓(xùn)練生成器對所有實(shí)體進(jìn)行建模,生成補(bǔ)足實(shí)體的其他模態(tài)信息和生成存在于目標(biāo)圖譜的新實(shí)體表示,以解決多模態(tài)實(shí)體對齊存在的問題。在許多生成任務(wù)中,例如圖像合成,條件變量(例如文本描述)和輸入變量(例如圖像)在模態(tài)上有所不同。然而,在本文的實(shí)驗(yàn)中,它們是來自不同知識圖譜的實(shí)體。為了利用生成模型對源圖譜中的懸掛實(shí)體進(jìn)行建模,并通過重建目標(biāo)圖譜實(shí)體的信息來生成新的目標(biāo)實(shí)體,從而解決懸掛實(shí)體存在的問題。本文提出基于參數(shù)部分共享的雙生成器對抗網(wǎng)絡(luò)(DGSAN)來訓(xùn)練生成器,使得生成器生成源圖譜實(shí)體缺失的模態(tài)信息或者真實(shí)存在的實(shí)體盡可能相似的假實(shí)體,從而補(bǔ)足實(shí)體缺失的模態(tài)信息或目標(biāo)圖譜中缺乏的與源圖譜匹配的懸掛實(shí)體表示。最終使模型不僅可以對齊現(xiàn)有實(shí)體,還能借助訓(xùn)練過的生成器生成懸掛實(shí)體在目標(biāo)圖譜中的特征。
由于借鑒使用生成對抗網(wǎng)絡(luò)作為生成模型,其中不可避免地存在模式崩潰問題,其對于懸掛實(shí)體問題來說,意味著生成器可能無法產(chǎn)生足夠多樣化的目標(biāo)實(shí)體表示,特別是在目標(biāo)圖譜中缺失的實(shí)體特征生成方面,從而無法有效地映射源圖譜中的懸掛實(shí)體。為了解決這一問題,本文設(shè)計了雙生成器架構(gòu),而不是傳統(tǒng)的單一生成器和鑒別器結(jié)構(gòu),通過引入兩個生成器,在對抗訓(xùn)練的過程中增加了對實(shí)體各模態(tài)特征生成的多樣性。由于懸掛實(shí)體通常存在于源圖譜中,但在目標(biāo)圖譜中缺失,生成器需要能夠生成接近真實(shí)實(shí)體的特征表示以進(jìn)行有效對齊。雙生成器架構(gòu)通過為每個實(shí)體模態(tài)生成多個候選特征,避免了生成器只生成少量與真實(shí)樣本相似的實(shí)體表示,從而確保生成器能夠探索更廣泛的實(shí)體特征空間,減少模式崩潰現(xiàn)象,確保生成的實(shí)體具有更多樣的特征組合,有助于填補(bǔ)目標(biāo)圖譜中的懸掛實(shí)體。為了進(jìn)一步提升雙生成器的訓(xùn)練效果,本文在設(shè)計中加入了參數(shù)部分共享機(jī)制,將生成器學(xué)習(xí)到的有關(guān)生成實(shí)體各模態(tài)特征的參數(shù)共享給另一個生成器,加速對生成器的訓(xùn)練速度。不同于完全共享的方式,部分參數(shù)共享能夠加速生成器的訓(xùn)練過程,同時防止兩個生成器在訓(xùn)練過程中趨向于相似。參數(shù)共享機(jī)制確保生成器能夠從共享的知識中受益,同時避免兩個生成器趨于一致,從而保持其多樣性和獨(dú)立性。此外,為了增強(qiáng)訓(xùn)練的魯棒性,本文在生成器中引入了dropout層。dropout層通過隨機(jī)丟棄神經(jīng)元的連接,進(jìn)一步防止了生成器在訓(xùn)練過程中的過擬合問題,也有效降低了模型在訓(xùn)練過程中出現(xiàn)的協(xié)同崩潰。最終,在訓(xùn)練過程中,本文將根據(jù)生成器的表現(xiàn)評估其效果,選擇表現(xiàn)更優(yōu)的生成器,并將其作為最終模型進(jìn)行標(biāo)記和使用。這一設(shè)計不僅提高了生成器的訓(xùn)練速度,還通過防止模型趨同確保了生成器生成更具多樣性和更高質(zhì)量的實(shí)體特征。
具體來說,在訓(xùn)練過程中,生成器 G1 和 G2 接收一個從標(biāo)準(zhǔn)正態(tài)分布 z~N(0,1) 中采樣的噪聲向量 z 作為輸人。通過一系列線性變換和非線性激活,生成器逐步將該低維噪聲映射到高維目標(biāo)樣本空間,之后配合鑒別器的使用,訓(xùn)練生成器通過輸入源圖譜中實(shí)體的基本屬性,從而生成目標(biāo)圖譜中對應(yīng)實(shí)體缺失的信息,達(dá)到補(bǔ)全缺失屬性和生成一個完整目標(biāo)實(shí)體的目的。生成器的變換過程可以表示為
其中: Wij 和 bij 分別表示第 j 個生成器第 i 層的權(quán)重矩陣和偏置向量; ?(?) 表示ReLU非線性激活函數(shù);最后一層使用Tanh函數(shù)將輸出限制在(-1,1)。
此外,本文對生成器 G 采用了參數(shù)共享的策略將生成器的多個子模塊設(shè)計為部分參數(shù)共享。這一策略使得在訓(xùn)練過程中,同一組參數(shù)被多次傳遞使用,從而有效地減少了需要優(yōu)化的參數(shù)數(shù)量,加快了訓(xùn)練速度。當(dāng) G1 對實(shí)體特征的生成效果比 G2 更加優(yōu)秀時,參數(shù)會進(jìn)行以下傳遞:
W12=W11,b12=b11
W22=W21,b22=b21
當(dāng) G2 的生成效果比 G1 更加優(yōu)秀時,參數(shù)會進(jìn)行以下傳遞:
W41=W42,b11=b12
W51=W52,b51=b52
即 G1 會傳遞一、二層的參數(shù)給 G2 ,而 G2 會傳遞四、五層
的參數(shù)給 G1 ,這避免了生成器趨向一致,同時提高了多個生成器在實(shí)體特征學(xué)習(xí)過程中的速度。
對于鑒別器,其作用是接收輸入數(shù)據(jù),并通過多層線性變換和非線性激活函數(shù)來區(qū)分輸入是來自真實(shí)分布還是生成器生成的偽造數(shù)據(jù),具體過程如下:
h2=φ(W2h1+b2)
h3=φ(W3h2+b3)
D(x)=σ(W4h3+b4)
其中: 可能為真實(shí)的圖譜實(shí)體各模態(tài)數(shù)據(jù)或者生成器生成的實(shí)體各模態(tài)數(shù)據(jù); Wi 和 bi 分別表示第 i 層的權(quán)重矩陣和偏置向量; φ(?) 表示LeakyReLU非線性激活函數(shù);最后一層使用sigmoid激活函數(shù) σ(?) ,輸出一個范圍在(0,1)的值,表示輸入數(shù)據(jù)為真實(shí)圖譜中的實(shí)體各模態(tài)特征的概率。
在DGSAN中,生成器 G 的目標(biāo)是根據(jù)源KG的實(shí)體生成符合目標(biāo)KG中的新實(shí)體及其模態(tài)信息,而鑒別器 D 則需要盡可能區(qū)分出生成器生成的符合目標(biāo)KG的新實(shí)體及其模態(tài)信息與真實(shí)存在于目標(biāo)圖譜中的實(shí)體。因此,DGSAN的訓(xùn)練可以被視為生成器和鑒別器之間的博弈,其目標(biāo)是找到一個納什均衡點(diǎn),使得生成器生成的樣本無法被鑒別器輕易辨別。鑒別器 D 的目標(biāo)是最大化它對真實(shí)樣本的輸出,同時最小化它對生成樣本的輸出。因此,本文定義鑒別器的損失函數(shù)為均方差損失:
其中: ?D(Gi(zi) )為鑒別器對生成器 i 生成的目標(biāo)實(shí)體的真假性預(yù)測; D(xi) 為鑒別器對源知識圖譜實(shí)體 x 的真實(shí)數(shù)據(jù)的預(yù)測; D(yi) 為鑒別器對目標(biāo)知識圖譜實(shí)體 y 的真實(shí)數(shù)據(jù)的預(yù)測;labelxfake,labelyfake,labelxreal 和 labelyreal 分別為源知識圖譜實(shí)體及目標(biāo)知識圖譜實(shí)體的真實(shí)與虛假標(biāo)簽; lossD 為鑒別器的損失。
考慮到本文使用了兩個生成器進(jìn)行訓(xùn)練,因此為這兩個生成器引入權(quán)重平衡機(jī)制,根據(jù)判別器的反饋計算每個生成器的損失,使得生成器的更新權(quán)重與損失成反比,即損失較高的生成器應(yīng)當(dāng)獲得較高的權(quán)重,促進(jìn)改進(jìn)的同時避免其中一個生成器始終被選擇。因此,生成器的損失函數(shù)定義為
lossG1?lossG2
w1=w1+Δw,w2=max(w2-Δ′w,wmin)
w2=w2+Δw,w1=max(w1-Δ′w,wmin)
其中: ν:lossG1ν:lossG2 分別是判斷生成器一、二生成實(shí)體特征質(zhì)量的損失,通過計算鑒別器對生成器一和二各自生成的實(shí)體特征的真假預(yù)測與真實(shí)數(shù)據(jù)的均方誤差來衡量生成器生成樣本的真實(shí)性; wi 為生成器 i 的動態(tài)權(quán)重,其根據(jù) lossG1,lossG2 值的高低對生成器進(jìn)行優(yōu)越性辨別,增加其中生成質(zhì)量比較差的生成器的訓(xùn)練權(quán)重,減少另一個生成器的訓(xùn)練權(quán)重,讓兩個生成器能夠較為平衡的得到訓(xùn)練,防止出現(xiàn)只訓(xùn)練其中一個生成器的情況; wmin 為權(quán)重的最小值; Δ?w 和 Δw′ 分別為生成器權(quán)重的調(diào)整步長。本文模型在實(shí)驗(yàn)時將權(quán)重最小值設(shè)置為0.1,生成器權(quán)重 Δ?w 和 分別設(shè)置為0.1和0.05。
通過生成器和鑒別器之間的對抗過程,生成器不斷改進(jìn),以生成更加真實(shí)的目標(biāo)圖譜中的實(shí)體。生成器會接收源圖譜中懸掛實(shí)體的嵌入向量,并生成與目標(biāo)圖譜中實(shí)體最接近的表示;鑒別器則判斷生成的實(shí)體是否為目標(biāo)圖譜中的真實(shí)實(shí)體,通過優(yōu)化過程,引導(dǎo)生成器逐步提升生成實(shí)體的質(zhì)量。最后,DGSAN根據(jù)訓(xùn)練過程中生成器的效果,選擇在不同模態(tài)下特征生成效果最好的生成器,組成最終的生成器組合用于后續(xù)生成符合目標(biāo)知識圖譜的新實(shí)體。具體過程如下:
hxym=Gm(hxm)
hyxm=Gm(hym)
其中: m∈{v,g,r,a} 代表了其所屬的模態(tài); hxm 代表源知識圖譜實(shí)體的 m 模態(tài)特征信息; hym 代表目標(biāo)知識圖譜實(shí)體的 ?m 模態(tài)特征信息; Gm 代表對抗訓(xùn)練中 m 模態(tài)選擇的最優(yōu)生成器; hxym 表示經(jīng)過生成器重構(gòu)生成的目標(biāo)知識圖譜實(shí)體 y 的 ?m 模態(tài)信息; x?y 表示輸入的信息是來源于源知識圖譜中的實(shí)體 x ,輸出的信息對應(yīng)目標(biāo)知識圖譜實(shí)體 y,hyxm 同理。
2.3 漸進(jìn)式融合
漸進(jìn)式融合(progressivefusion)模塊由初步融合層和迭代融合層兩部分構(gòu)成,采用漸進(jìn)式迭代策略,在初步將所有模態(tài)特征進(jìn)行融合得到淺層融合表示之后,進(jìn)一步利用迭代策略將各模態(tài)特征再次與淺層融合表示進(jìn)行進(jìn)一步融合,更進(jìn)一步地挖掘各模態(tài)的深層次信息,確保融合特征信息的完整性。
2.3.1初步融合層
初步融合層將嵌人的各模態(tài)向量進(jìn)行第一次融合,本文通過將多模態(tài)特征集成到實(shí)體 ei 的單個表示 中來實(shí)現(xiàn)簡單的加權(quán)串聯(lián):
其中: M={v,g,a,r} 為4個模態(tài)的集合; wi 是第 i 個模態(tài)的可訓(xùn)練參數(shù)權(quán)重; 表示初步融合層融合得到的實(shí)體 i 的特征信息表示。在加權(quán)串聯(lián)之前對輸入嵌入執(zhí)行 L2 歸一化避免模型對訓(xùn)練數(shù)據(jù)過擬合。然而只進(jìn)行一次融合得到的特征表示所蘊(yùn)涵的信息還不夠準(zhǔn)確以及豐富,因此初步融合得到的特征表示將會在迭代融合層中進(jìn)一步挖掘各模態(tài)的深層特征。
2.3.2 迭代融合層
為了深度挖掘各模態(tài)特征,加速融合特征表示的信息豐富度,迭代融合層構(gòu)建一個迭代網(wǎng)絡(luò),通過多輪信息的深度交互,將每個模態(tài)的特征向量與其他模態(tài)的特征向量相結(jié)合,逐步消除模態(tài)間的差異,并增強(qiáng)實(shí)體的跨模態(tài)表示。具體而言,在每次迭代過程中,附加輸入(即來自不同模態(tài)的特征向量)與上一輪迭代的輸出向量通過加權(quán)融合的方式進(jìn)行信息交互,再一次從各模態(tài)數(shù)據(jù)特征中挖掘信息,使得每個模態(tài)的特征得到充分利用,并逐步加強(qiáng)模態(tài)間的交互。通過這樣的迭代方式,本文能夠更好地捕捉各模態(tài)之間的關(guān)聯(lián)性,從而得到更加準(zhǔn)確且一致的實(shí)體表示。最終,經(jīng)過 n 次迭代后,輸出的融合向量將能夠有效地表示實(shí)體的多模態(tài)特征,促進(jìn)實(shí)體對齊任務(wù)的優(yōu)化。其理論上的數(shù)學(xué)表達(dá)式如下:
其中: him 為實(shí)體 i 第 m 個模態(tài)下的嵌入表示; 表示第 j-1 次迭代融合得到的特征張量
為實(shí)體 i 第 j 次迭代交互得到
的 m 模態(tài)特征向量;加權(quán)平均與信息融合操作由 F 完成,通過融合不同模態(tài)的信息來提升實(shí)體的表示精度。
2.4 預(yù)對齊
預(yù)對齊旨在通過最小化生成的特征與目標(biāo)知識圖譜中實(shí)體特征的差異來促進(jìn)模型更好地對齊實(shí)體。其通過對實(shí)體的嵌人進(jìn)行建模,使得DGSAN能夠從已有的實(shí)體特征中恢復(fù)出丟失的或缺失的信息。例如,對于源圖譜中的實(shí)體 x ,其對應(yīng)的圖結(jié)構(gòu)嵌入 hxg 和屬性嵌入 hxa 會作為子嵌入進(jìn)行處理,然后將其輸入到對應(yīng)的生成器 Gg 和 Ga 中,根據(jù)式(18)將輸入的模態(tài)嵌入重構(gòu)為目標(biāo)圖譜中的模態(tài)特征。
為了確保生成特征與目標(biāo)特征格式和維度一致,本文使用編碼器對生成的特征表示進(jìn)行重構(gòu),因此預(yù)對齊損失公式為
其中 :y′xy 代表重構(gòu)后的特征向量; y′ 代表對應(yīng)的目標(biāo)知識圖譜中的真實(shí)特征。
2.5 后對齊
后對齊旨在量化重構(gòu)融合特征與真實(shí)融合嵌入之間的差距,確保生成的不同模態(tài)融合特征屬于同一實(shí)體,本文將生成的各模態(tài)嵌入輸入到融合層中,重構(gòu)出聯(lián)合嵌人,然后使用均方誤差(MSE)損失構(gòu)造后對齊損失:
其中: ym 表示目標(biāo)知識圖譜中模態(tài) ?m 的真實(shí)特征; 表示由真實(shí)特征融合得到的特征表示; yxym 表示生成的 m 模態(tài)特征;
表示由生成特征融合得到的特征表示。
2.6 彌合分布差異
在多模態(tài)實(shí)體對齊任務(wù)中,各模態(tài)的特征通常存在不同的分布特性,直接融合這些模態(tài)特征可能導(dǎo)致信息失真或模態(tài)間對齊不當(dāng)。為了解決這一問題,本文引入了中心矩差(CMD)為基礎(chǔ)的分布一致性損失函數(shù)(DCLoss),用于衡量各模態(tài)特征與融合后表示之間的分布差異,減少跨模態(tài)間的分布不一致,提高融合后的張量與源數(shù)據(jù)的分布相似性,確保融合操作沒有丟失原始數(shù)據(jù)的核心語義信息,有助于保留每個模態(tài)的關(guān)鍵信息,從而增強(qiáng)整體的語義表達(dá)。
DCLoss通過計算兩組向量(模態(tài)特征與融合表示)的中心矩差,逐級考慮高階矩的差異。最終目標(biāo)是使每個模態(tài)特征與融合后的特征表示在多個中心矩上保持一致,從而增強(qiáng)模態(tài)之間的對齊與交互效果。
首先計算兩個輸入特征,并將其中心化:
s1=x1-μ1
s2=x2-μ2
其中: x1 和 x2 是兩個輸人特征; s1 和 s2 是兩個中心化后的向量。接著進(jìn)行中心矩差計算,在第 k 階矩上,兩個中心化后的向量的矩差可以定義為
其中: k 表示第 k 階矩(如均值、方差、偏度等)。最終的CMD損失通過累加 n 階矩的差異來計算衡量兩個分布的差異,具體
表達(dá)式為
這個損失被直接應(yīng)用于每個模態(tài)的特征表示 xm 與融合后的表示 之間:
其中: M 是模態(tài)的數(shù)量: 是融合之后的特征表示。綜上所述,最終訓(xùn)練損失定義為
L=Lpre-align+Lpost-align+DCLoss
3 實(shí)驗(yàn)結(jié)果與分析
3.1環(huán)境與參數(shù)設(shè)置
本實(shí)驗(yàn)基于PyTorch框架構(gòu)建,運(yùn)行于Ubuntu22.04操作系統(tǒng),配置為NVIDIAGeForceRTX4O90。在標(biāo)準(zhǔn)計算環(huán)境下,使用高性能GPU加速。在訓(xùn)練過程中,本文均使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,且batchsize、epochs的參數(shù)值均設(shè)置為2000.200 。具體參數(shù)設(shè)置如表1所示。
3.2 實(shí)驗(yàn)數(shù)據(jù)集
本文在DBP15K、FB15K-DB15K和FB15K-YAGO15K三個數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并且排除表面信息(即文本標(biāo)簽信息),防止數(shù)據(jù)泄露[26]。DBP15K是一個用于評估跨語言知識圖譜對齊的標(biāo)準(zhǔn)數(shù)據(jù)集,包含來自DBpedia的四個特定語言的知識圖譜,存在三個版本的跨語言知識圖譜實(shí)體對齊數(shù)據(jù)集,分別是中-英、法-英和日-英版本。FB15K-DB15K和FB15K-YAGO15K都由兩個不同的數(shù)據(jù)集組成,用于評估模型在兩個不同知識圖譜之間的對齊能力。DBP15K、FB15K-DB15K和FB15K-YAGO15K三個數(shù)據(jù)集的具體結(jié)構(gòu)統(tǒng)計如表2所示。
為了便于與現(xiàn)有工作進(jìn)行對比分析,本文遵循同樣的數(shù)據(jù)集比例劃分,針對跨語言數(shù)據(jù)集,采用 30% 的標(biāo)簽數(shù)據(jù)作為訓(xùn)練集,其余作為測試集;針對跨圖譜數(shù)據(jù)集,采用 20% 的標(biāo)簽數(shù)據(jù)作為訓(xùn)練集,其余作為測試集。本文將采樣實(shí)體對中的源實(shí)體視為懸掛實(shí)體,并使其目標(biāo)實(shí)體在訓(xùn)練過程中不可見,因而從訓(xùn)練集中刪除了涉及這些目標(biāo)實(shí)體的所有信息。
3.3 評價指標(biāo)
本文采用 hits@k 和MRR作為模型的評價指標(biāo),其中,hits@ k表示正確對齊的實(shí)體在候選實(shí)體中排在前 k 位的比例,hits@k 值越大表示模型效果越好。
其中:I(·)是indicator函數(shù)。
MRR表示對齊結(jié)果中所有正確對齊實(shí)體排名的倒數(shù)的平均值,MRR值越大表示模型的效果越好。
其中: ranki 表示對齊到正確實(shí)體的排名; N 為對齊實(shí)體對的數(shù)量。
3.4實(shí)驗(yàn)結(jié)果與分析
3.4.1迭代次數(shù)設(shè)置與影響
針對提出的漸進(jìn)式融合策略,本文對其中的迭代次數(shù)進(jìn)行適當(dāng)?shù)膮?shù)實(shí)驗(yàn)。從圖3(a)可以看出,DBP15K中的三個子數(shù)據(jù)集在不同迭代參數(shù)情況下實(shí)驗(yàn)得到的不同結(jié)果,可以看出當(dāng)?shù)鷧?shù)(iterationsteps)分別取3、3、6時,實(shí)驗(yàn)得到的 hits@1 分值達(dá)到最高;從圖3(b)可以看出,在FB15K-DB15K、FB15K-YAGO15K數(shù)據(jù)集上,當(dāng)?shù)鷧?shù)的取值都為1時,實(shí)驗(yàn)得到的hits@1 分值達(dá)到最高。
3.4.2 對比實(shí)驗(yàn)
選擇MUGNN[27]、 AliNet[28] 、decentRL[29]、EVA[4]MSNEA[30]、MCLEA .AF2M-EA[31] 和GEEA[26]作為本文模型的對比模型,其中MUGNN、AliNet和decentRL是針對關(guān)系圖定制的方法,而EVA、MSNEA、MCLEA和 AF2M -EA是較為先進(jìn)的多模態(tài)EEA方法,GEEA則是最新的生成式多模態(tài)EEA方法。本文在主要實(shí)驗(yàn)中選擇GEEA作為本文模型的基線模型。為了公平比較,神經(jīng)層和輸入、隱藏、輸出維度保持相同。其中EVA、MSNEA、MSNEA以及MCLEA的實(shí)驗(yàn)結(jié)果全部引自文獻(xiàn)[26],而MUGNN、AliNet、decentRL、GEEA、 AF2M -EA的結(jié)果則引自其各自原文。
本文做了兩種對比實(shí)驗(yàn),一種是針對跨語言知識圖譜的多模態(tài)實(shí)體對齊,圍繞英文與其他三種不同語言,以本文模型與所選擇的其他不同模型進(jìn)行跨語言多模態(tài)實(shí)體對齊實(shí)驗(yàn),驗(yàn)證本文模型在跨語言知識圖譜上的有效性,最終實(shí)驗(yàn)所得結(jié)果如表3所示。另一種實(shí)驗(yàn)是針對跨知識圖譜的多模態(tài)實(shí)體對齊,旨在驗(yàn)證生成對抗網(wǎng)絡(luò)、分布一致性損失和漸進(jìn)式融合策略在跨知識圖譜上的有效性,以及與其他對比模型之間的差異,最終的實(shí)驗(yàn)結(jié)果如表4所示。
從表3的實(shí)驗(yàn)結(jié)果可以看出,多模態(tài)方法相較于單模態(tài)方法展現(xiàn)出了顯著的優(yōu)越性,這一優(yōu)勢得益于對不同資源的有效整合與利用。在跨語言的任務(wù)中,不同語言的實(shí)體名稱和語義可能存在差異,例如“積分”這個詞根據(jù)不同語境既可以是指購物積分,也可以是微積分中積分。單一模態(tài)的模型難以捕捉到這些信息,而多模態(tài)模型能夠結(jié)合語言特征、上下文信息等以及圖像多個維度進(jìn)行聯(lián)合學(xué)習(xí),有效地識別其真實(shí)意思并準(zhǔn)確對齊其在另一個語言圖譜中的實(shí)體。尤為值得關(guān)注的是,本文DGSAN-EA在所有三個數(shù)據(jù)集的所有評估指標(biāo)上整體優(yōu)于所有的基線模型,均達(dá)到了最先進(jìn)的性能水平。在DBP15K的三個子數(shù)據(jù)集中,與同樣是解決懸掛實(shí)體的生成式模型GEEA相比,本文模型在 hits@1 指標(biāo)上分別提高了2.1、2.4、0.7百分點(diǎn),在 hits(a)10 和MRR上也取得了最優(yōu)的效果。該結(jié)果可以歸因于DGSAN-EA與傳統(tǒng)方法相比,生成器能夠生成更加多樣化且細(xì)節(jié)豐富的實(shí)體表示,以補(bǔ)足實(shí)體缺失模態(tài)的信息,增強(qiáng)了實(shí)體嵌入信息豐富度的目的,確保了生成實(shí)體的多樣性和真實(shí)性的同時,能夠生成具有高質(zhì)量、接近真實(shí)分布的實(shí)體嵌入,從而生成能夠彌補(bǔ)目標(biāo)圖譜中實(shí)體缺失的嵌入,解決懸掛實(shí)體問題,進(jìn)而提高實(shí)體對齊的精度。說明解決懸掛實(shí)體問題對于實(shí)體對齊任務(wù)是有益的。
如表4的結(jié)果所示,在FB15K-DB15K和FB15K-YAGO15K兩個跨知識圖譜數(shù)據(jù)集上進(jìn)行多模態(tài)方法的性能比較。結(jié)果表明在兩個不同知識圖譜上,DGSAN-EA在所有評估指標(biāo)中再次達(dá)到了最好的效果。由于在進(jìn)行跨知識圖譜的對齊任務(wù)中,不同知識圖譜對于同個實(shí)體的表達(dá)方法是不一樣的,所以跨知識圖譜實(shí)體對齊任務(wù)普遍具有較低的精確度。本文模型能夠取得較好的效果,主要得益于漸進(jìn)式融合策略和分布一致性損失,傳統(tǒng)的實(shí)體對齊方法很難處理不同圖譜之間的模態(tài)差異,而漸進(jìn)式融合策略通過多次迭代融合各模態(tài)特征,逐步加深模態(tài)間的交互,能夠更好地捕捉到各模態(tài)中的關(guān)鍵信息,避免了模態(tài)信息丟失或失真。分布一致性損失的加入則最小化源模態(tài)和融合后模態(tài)之間的高階矩差異,使得融合過程更加平滑,最終得到如表4所示的跨知識圖譜實(shí)體對齊精度。這再一次證實(shí)了DGSAN-EA在跨知識圖譜實(shí)體對齊中的優(yōu)越性。
3.4.3 消融實(shí)驗(yàn)
為了驗(yàn)證DGSAN框架、分布一致性損失以及漸進(jìn)式融合策略對于EA任務(wù)的有效性,本文在DBP15K中的ZH_EN數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),進(jìn)而探討DGSAN在解決懸掛實(shí)體和實(shí)體對齊任務(wù)中的有效性、分布一致性損失與漸進(jìn)式融合策略對于多模態(tài)特征信息是否能夠深層次挖掘相應(yīng)的信息且保留核心語義信息。結(jié)果如表5所示,對于DGSAN-EA,依次刪除DGSAN框架、分布一致性損失以及漸進(jìn)式融合策略,對比于完整的DGSAN-EA模型,刪除任何模塊都會導(dǎo)致DGSAN-EA性能的顯著下降。首先,DGSAN對EA效果影響最大,在移除DGSAN時, hits(a∣ 下降了1.4百分點(diǎn), hits@ 10 和MRR分別下降了0.6和1百分點(diǎn)。這表明DGSAN對于多模態(tài)實(shí)體對齊任務(wù)至關(guān)重要,尤其是在處理懸掛實(shí)體問題時,DGSAN通過其生成器和鑒別器的對抗訓(xùn)練,使得生成器能夠生成接近真實(shí)分布的實(shí)體特征,從而有效地填補(bǔ)目標(biāo)圖譜中缺失的懸掛實(shí)體。失去DGSAN的支持后,模型無法充分學(xué)習(xí)源圖譜和目標(biāo)圖譜之間的實(shí)體映射關(guān)系,從而導(dǎo)致對齊效果明顯下降。其次,分布一致性損失的移除同樣導(dǎo)致了性能的下降。分布一致性損失在模型中起到了確保融合前后嵌入分布的一致性作用。在多模態(tài)實(shí)體對齊任務(wù)中,不同模態(tài)的信息需要通過合理的方式融合,并保持與原始模態(tài)的核心語義一致性。缺乏分布一致性損失時,模型可能在融合過程中喪失部分關(guān)鍵信息,導(dǎo)致對實(shí)體嵌入的理解出現(xiàn)偏差,從而影響對齊準(zhǔn)確性。去除這一損失會使融合后的實(shí)體嵌入出現(xiàn)較大偏差,從而影響任務(wù)的性能。最后,漸進(jìn)式融合策略的移除也導(dǎo)致了各項(xiàng)指標(biāo)的下降。漸進(jìn)式融合通過多次迭代逐步整合來自不同模態(tài)的信息,每次融合時都會對模態(tài)特征進(jìn)行加權(quán)融合,確保信息的充分交互,并保持信息的核心語義。沒有漸進(jìn)式融合,模型可能無法充分利用不同模態(tài)的信息,導(dǎo)致模態(tài)間信息融合效果不佳,進(jìn)而影響多模態(tài)實(shí)體對齊的精度。此外,漸進(jìn)式融合還能夠通過反復(fù)優(yōu)化來提高特征表示的質(zhì)量,使得每個模態(tài)的特征都能在最終的對齊結(jié)果中發(fā)揮最大的作用。由此可見,分布一致性損失以及漸進(jìn)式融合策略有助于提高對多模態(tài)實(shí)體的信息挖掘程度和對語義核心信息的保留度。綜上所述,每個模塊的獨(dú)立貢獻(xiàn)通過消融實(shí)驗(yàn)得到了驗(yàn)證,移除任何模塊都會顯著降低模型的整體性能,說明它們在提升多模態(tài)實(shí)體對齊任務(wù)精度中的重要作用。因此,DGSAN框架、分布一致性損失和漸進(jìn)式融合策略共同作用,有效提高了多模態(tài)實(shí)體對齊任務(wù)的精確性和魯棒性。
3.4.4案例分析
為了驗(yàn)證DGSAN訓(xùn)練得到的生成器的效果,本文選用了FB15K-YAGO15K中的一個教育領(lǐng)域的代表性案例,展示了該模型如何有效解決懸掛實(shí)體問題。具體來說,本文以著名物理學(xué)家IsaacNewton為例,展示了與其相關(guān)的屬性和鄰居節(jié)點(diǎn),包括其發(fā)明的無窮小微積分、萬有引力、三大運(yùn)動定律等。這些屬性和鄰居節(jié)點(diǎn)為展示IsaacNewton在目標(biāo)知識圖譜中的關(guān)鍵信息提供了基本視角。
然而,在源知識圖譜中,IsaacNewton缺乏足夠的上下文與其他實(shí)體建立有效聯(lián)系,這通常使得對齊任務(wù)變得更加復(fù)雜。通過DGSAN的生成,能夠有效地補(bǔ)充缺失的屬性和鄰居節(jié)點(diǎn),顯著提升了實(shí)體之間的整體關(guān)聯(lián)度。當(dāng)出現(xiàn)目標(biāo)知識圖譜中沒有IssacNewton實(shí)體時,DGSAN也能通過生成器生成屬于目標(biāo)知識圖譜中的IssacNewton實(shí)體及其相關(guān)信息,從而融入目標(biāo)知識圖譜中,進(jìn)一步加快融合知識圖譜的速度。根據(jù)表6的結(jié)果,本文展示了通過DGSAN訓(xùn)練的生成器如何基于IsaacNewton的實(shí)體名和圖像生成相應(yīng)的屬性和鄰居節(jié)點(diǎn),其中加粗部分表示與目標(biāo)圖譜中的屬性或鄰居節(jié)點(diǎn)一致。
結(jié)果表明,對于IsaacNewton實(shí)體,模型生成的圖像以及大部分屬性和鄰居節(jié)點(diǎn)都與源知識圖譜一致,成功補(bǔ)充了源知識圖譜中的缺失信息。對于其他不同的屬性和鄰居節(jié)點(diǎn),模型生成的結(jié)果也與實(shí)際情況相符,符合真實(shí)的背景和上下文。在結(jié)合所有生成的缺失信息后,計算與目標(biāo)圖譜中實(shí)體的相似度達(dá)到了 99.16% ,而未補(bǔ)充缺失信息的AF2M-EA僅達(dá)到了 81.37% 的相似度,這表明DGSAN在處理缺失屬性和鄰居節(jié)點(diǎn)時表現(xiàn)出色,成功填補(bǔ)了源圖譜中的空白,顯著提高了對齊精度。
此外,針對懸掛實(shí)體問題,當(dāng)實(shí)體僅存在于源圖譜中,而目標(biāo)圖譜中缺失時,DGSAN能夠直接生成符合目標(biāo)圖譜的新實(shí)體及其信息,成功解決了這一問題。
4結(jié)束語
本文提出了一種雙生成器參數(shù)共享對抗網(wǎng)絡(luò)實(shí)體對齊模型DGSAN-EA。該模型在實(shí)體對齊過程中利用雙生成器對抗網(wǎng)絡(luò)進(jìn)行條件生成跨知識圖譜的新實(shí)體,增強(qiáng)數(shù)據(jù)集從而解決懸掛實(shí)體的問題。同時采用漸進(jìn)式的融合策略以及引入分布一致性損失函數(shù),進(jìn)一步提高融合特征的信息完整性以及融合特征與源數(shù)據(jù)的分布相似性,解決了多模態(tài)實(shí)體對齊中融合特征信息失真或模態(tài)間的不對齊問題。
雖然本文模型在跨語言和跨知識圖譜的數(shù)據(jù)集中都取得了較好效果,但是由于跨知識圖譜任務(wù)對于同一實(shí)體的文本表達(dá)存在著較大的差異,所以導(dǎo)致其特征嵌入難以較好地發(fā)掘其相同的本質(zhì)信息,造成跨知識圖譜實(shí)體對齊任務(wù)的精確度不高。因此未來工作將集中于對跨知識圖譜實(shí)體對齊任務(wù)的研究,尋找更優(yōu)秀的實(shí)體信息特征嵌入的方法,以及能夠挖掘其最本質(zhì)信息的方法,進(jìn)而提高跨知識圖譜實(shí)體對齊任務(wù)的精度。
參考文獻(xiàn):
[1]李洪修,劉笑.?dāng)?shù)字化背景下高校智慧課堂建構(gòu)的技術(shù)之維 [J].高校教育管理,2023,17(5):81-89,124.(LiHongxiu, Liu Xiao. The technical dimension of constructing smart classrooms in universitiesunder the digital background[J].Journal of Higher EducationManagement,2023,17(5):81-89,124.)
[2]王鍵霖,張浩,張永爽,等.基于雙層圖注意力網(wǎng)絡(luò)的鄰域信息 聚合實(shí)體對齊方法[J].計算機(jī)應(yīng)用研究,2024,41(6):1686- 1692.(Wang Jianlin,Zhang Hao,Zhang Yongshuang,etal. Neighborhood information aggregation entity alignment method based UI uouvie layel grapn auenuun netwoik [J」. Appnvauui nootaiun ofComputers,2024,41(6):1686-1692.)
[3]朱蓓蓓.面向知識圖譜的實(shí)體對齊研究[D].長春:吉林大學(xué), 2023.(Zhu Beibei.Research on entity alignment for knowledge graphs[D].Changchun:Jilin University,2023.)
[4]NiWenxin,XuQianqian,JiangY,etal.PSNEA:pseudo-siamese network for entity alignment betweenmulti-modal knowledge graphs [C]//Proc of the 31st ACM International Conference on Multimedia.New York:ACMPress,2023:3489-3497.
[5]ChenLiyi,Li Zhi,WangYijun,et al.MMEA:entityalignment for multi-modalknowledgegraph[C]//ProcofKnowledgeScience, Engineering and Management.Cham:Springer,2020:134-147.
[6] LiuFangyu,ChenMuhao,RothD,etal.Visual pivoting for(unsupervised)entityalignment[C]//Proc ofAAAI Conference on Artificial Intelligence. 2021:4257-4266.
[7]Sun Zequn,Chen Muhao,Hu Wei. Knowing the no-match:entity alignment with danglingcases[C]//Proc of the 59th Annual Meetingof the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg,PA:Association for Computational Linguistics,2021: 3582-3593.
[8]Liu Juncheng,Sun Zequn,Hooi B,et al.Dangling-aware entity alignmentwithmixed high-orderproximities[C]//ProcofFindings ofthe Association for Computational Linguistics:NAACL 2022. Stroudsburg,PA:Association for Computational Linguistics,2022: 1172-1184.
[9]王志勇,張樹永.國內(nèi)外代表性物理化學(xué)教材電化學(xué)部分的比較 [J].大學(xué)化學(xué),2023,38(6):142-145.(Wang Zhiyong,Zhang Shuyong. Comparison of electrochemistry section in representative physical chemistry textbooks at home and abroad[J].University UHesuy,zUZ3,o0(U):14∠-14J.)
[10]BordesA,UsunierN,Garcia-DuránA,etal.Translatingembeddings for modeling multi-relational data[C]//Proc of the 27th International Conference on Neural Information Processing Systems.New York:ACMPress,2013:2787-2795.
[11]Chen Muhao,Tian Yingtao,Yang Mohan,etal.Multilingual knowledge graph embeddings for cross-lingual knowledge alignment[C]// Procof the 26th International Joint Conference on Artificial Intelligence.[S.1.]:International Joint Conferences on Artificial Intelligence Organization,2017:1511-1517.
[12]Gao Yunjun,Liu Xiaoze,Wu Junyang,et al.ClusterEA:scalable entity alignment with stochastic training and normalized mini-batch similarities[C]// Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2022:421-431.
[13]Liu Zhiyuan,Cao Yixin,Pan Liangming,et al.Exploring and evaluating attributes,values,and structures for entity alignment[C]// Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics, 2020:6355-6364.
[14]Kipf TN,Welling M. Semi-supervised classification with graph convolutional networks [EB/OL]. (2017-02-22). htps://arxiv.org/ abs/1609.02907.
[15]Velickovic P,Cucurull G,Casanova A,et al. Graph attention networks[EB/OL].(2018-02-01).htps://arxiv.org/abs/1710. 10903.
[16]Wang Zhichun,Lyu Qingsong,Lan Xiaohan,et al.Cross-lingual knowledge graph alignment via graph convolutional networks [C]// Proc of Conference on Empirical Methods inNatural Language Processing. Stroudsburg,PA: Association for Computational Linguistics, 2018: 349-357.
[17]Zhang Ziheng,Liu Hualuo,Chen Jiaoyan,etal.An industry evaluationof embedding-based entity alignment[C]//Proc of the 28th International Conference on Computational Linguistics: Industry Track. [S.1.]:International Commitee on Computational Linguistics, 2020:179-189.
[18]Sun Zequn,Zhang Qingheng,Hu Wei,et al.A benchmarking study of embedding-based entity alignment for knowledge graphs [J]. Proceedings of the VLDB Endowment,2020,13(12):2326-2340.
[19]劉春梅,高永彬,余文?。诤蠄D像信息的多嵌入表示實(shí)體對齊 方法[J].計算機(jī)工程與應(yīng)用,2024,60(15):111-121.(Liu Chunmei,Gao Yongbin,Yu Wenjun.Multi-embedding representationentity alignment method based on image fusion information[J]. ComputerEngineeringand Applications,2024,60(15):111- 121.)
[20]Lin Zhenxi,Zhang Ziheng,Wang Meng,et al.Multi-modal contrastiverepresentation learningfor entityalignment[C]//Proc ofthe Zyin Internauonal Conterence on Lomputauonal Linguisucs. [ S. 1.」: International Committee on Computational Linguistics.2O22:2572- 2584.
[21]Chen Zhuo,Chen Jiaoyan,ZhangWen,et al.MEAformer:multimodalentityalignment transformer formetamodalityhybrid[C]// Procofthe31stACM International Conference onMultimedia.New York:ACM Press,2023:3317-3327.
[22]GoodfellowI,Pouget-AbadieJ,MirzaM,etal.Generativeadversarial networks [J].Communications of the ACM,2020,63(11): 139-144.
[23]Guo Lingbing,Zhang Qiang,Sun Zequn,et al.Understanding and improving knowledge graph embedding for entity alignment[C]// Proc of the 39th International Conference on Machine Learning. 2022:8145-8156.
[24]YangHW,Zou Yanyan,Shi Peng,et al.Aligning cross-lingual entities with multi-aspect information[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA:Association for Computational Linguistics,2019:4430-4440.
[25]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.
[26]Guo Lingbing,Chen Zhuo,Chen Jiaoyan,et al.Revisit and outstrip entity alignment:a perspective of generative models [EB/OL]. (2024-02-24). https://arxiv.org/abs/2305.14651.
[27]Cao Yixin,Liu Zhiyuan,Li Chengjiang,etal.Multi-channel graph neural network for entity alignment[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg, PA:Association for Computational Linguistics,2019:1452-1461.
[28]Sun Zequn,Wang Chengming,Hu Wei,et al.Knowledge graph alignment network with gated multi-hop neighborhood aggregation [C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press,2020:222-229.
[29]Guo Lingbing,Wang Weiqing,Sun Zequn,et al.Decentralized knowledge graph representation learning[C/OL]//Proc of the 9th International Conference on Learning Representations.(2O20-09-28) [2024-11-15].hps://openreview. net/forum? id O= fw1-fHJpPK.
[30]Chen Liyi,Li Zhi,Xu Tong,et al.Multi-modal Siamese network for entity alignment[C]//Proc of the 28th ACMSIGKDD Conference on Knowledge Discoveryand Data Mining. New York:ACM Press, 2022,118-126.
[31]郭浩,李欣奕,唐九陽,等.自適應(yīng)特征融合的多模態(tài)實(shí)體對齊 研究[J].自動化學(xué)報,2024,50(4):758-770.(GuoHao,Li Xinyi,Tang Jiuyang,etal.Adaptive feature fusion for multi-modal entity alignment [J]. Acta Automatica Sinica,2024,50(4): 758-770.)