關鍵詞:信息互補;交叉注意力;圖卷積網(wǎng)絡;跨模態(tài)檢索
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)07-015-2032-07
doi:10.19734/j.issn.1001-3695.2025.01.0003
Abstract:WiththerapidgrowthofmultimodaldataontheInternet,cross-modalretrievaltechnologyhasatractedwidespread atention.However,some multimodaldataoftenlacksemanticinformation,whichleadstotheinabilityof modelstoaccurately extracttheinherentsemanticfeatures.Aditionally,somemultimodaldatacontainredundantinformationunrelatedtosemantics,whichinterfereswiththemodelextractionofkeyinformation.Toaddresstis,thispaperproposedacrossmodalretrieval methodbasedoninformationcomplementarityandcross-atention(ICCA).The methodusedaGCN tomodeltherelationships betweenmulti-labelsanddata,supplementing the mising semantic informationinmultimodaldataandthe missing sampledetailinformationinmulti-bels.Moreover,acrossattntionsubmoduleusedulti-labelinformationtoflerouttedudant semantic-irelevantdata.Toachievebetter matchingofsemanticallysimilarimagesand textsinthecommonrepresentation space,this paperproposed asemantic matching lossThislossintegrated multi-labelembeddings intothe image-text matching process,further enhancingthesemanticqualityof thecommonrepresentation.Experimentalresultsonthree widelyuseddatasets NUS-WIDE,MIRFlickr-25K,and MS-COCO demonstrate that ICCA achieves mAPvaluesof0.808,0.859,and0.837, respectively, significantly outperforming existing methods.
KeyWords:informationcomplementarity;cross-attention;graph convolutional network(GCN);cros-modalretrieval
0 引言
近年來,隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,視頻、圖像、文本等多媒體數(shù)據(jù)呈現(xiàn)出急劇增長的趨勢。跨模態(tài)檢索技術能夠有效地將不同模態(tài)的數(shù)據(jù)映射到公共表示空間,從而實現(xiàn)跨模態(tài)數(shù)據(jù)之間的檢索,已被廣泛應用于視頻檢索[1]、多媒體文檔檢索[2]和醫(yī)療影像分析[3]等領域。傳統(tǒng)的跨模態(tài)檢索方法通常利用線性映射的方式將不同模態(tài)的數(shù)據(jù)映射到公共表示空間。例如,典型相關分析(canonical correlationanalysis,CCA)]通過最大化不同模態(tài)之間的相關性,學習公共子空間,從而最大化不同模態(tài)特征之間的相關性。作為CCA的擴展,排序典型相關分析(rankingcanonicalcorrelationanalysis,RCCA)5對CCA學習到的公共子空間進行了進一步調(diào)整,并結(jié)合雙線性相似度函數(shù),以更好地建模數(shù)據(jù)之間的關系。此外,核典型相關分析(kernelcanonical correlationanalysis,KCCA)[通過引人核函數(shù),用于擴展CCA對于數(shù)據(jù)之間非線性關系的建模能力。
隨著深度學習的發(fā)展,深度神經(jīng)網(wǎng)絡(DNN)因其能夠在公共表示空間中建模復雜的非線性關系,近年來被廣泛地應用于跨模態(tài)檢索任務。深度跨模態(tài)哈希(deepcross-modal ha-shing,DCMH)[將特征學習和哈希碼學習集成到同一框架中,并通過成對損失與標簽信息學習有判別性的特征。深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval,DSCMR)[8]通過最小化標簽空間和公共表示空間的判別損失,提升了公共表示的判別性。然而,盡管這些方法取得了顯著進展,但它們都未充分考慮數(shù)據(jù)間的相關性在公共表示學習中的重要作用。
一些研究將數(shù)據(jù)作為節(jié)點,將數(shù)據(jù)之間的關系量化為節(jié)點間的連邊權重,從而構成數(shù)據(jù)圖[9]。圖卷積網(wǎng)絡(GCN)作為一種深度學習模型,可以有效地提取圖結(jié)構數(shù)據(jù)的特征,因此,一些方法利用GCN學習跨模態(tài)特征。圖卷積哈希(graphcon-volutional hashing,GCH)[1o]通過GCN來挖掘數(shù)據(jù)點之間的內(nèi)在相似性結(jié)構,用于在樣本中引入更多的語義信息?;诰酆系膱D卷積哈希(aggregation-based graph convolutional hashing,AGCH)[11]通過多度量融合的方法學習親和矩陣,并利用GCN生成跨模態(tài)哈希碼。分層消息聚合哈希(hierarchical messageaggregation hashing,HMAH)[12]提出了一種基于層次消息聚合網(wǎng)絡的多模態(tài)互補空間,并通過GCN層次化地聚合多模態(tài)樣本,用于消除模態(tài)間的表示差異。以上方法主要通過樣本間的相關性構建數(shù)據(jù)圖,但未充分考慮到標簽間的相關性。為了將標簽間的關系融入到公共表示的學習中,一些方法利用GCN探索標簽間的相關性。語義排名結(jié)構保持(semanticrankingstructurepreserving,SRSP)[13]通過GCN來挖掘標簽間依賴關系,用于指導學習不同模態(tài)數(shù)據(jù)的判別性公共表示。基于圖卷積網(wǎng)絡的離散哈希(graphconvolutionalnetwork-baseddiscretehashing,GCDH)14通過GCN學習帶有標簽相關性的分類器,增強公共表示的判別性。自適應標簽感知圖卷積網(wǎng)絡(adap-tive label-aware graph convolutional network,ALGCN)[15]提出了一種新的自適應相關矩陣,并利用GCN以數(shù)據(jù)驅(qū)動的方式有效地探索標簽的語義相關性。上述方法均利用樣本間或標簽間的相關性,結(jié)合GCN用于提升樣本表示的準確性,但未充分考慮到樣本與標簽之間信息的互補性。圖1(a)展示了缺少語義信息的圖像-文本對。圖像與文本中缺少與標簽“building”相關的內(nèi)容。圖1(b)展示了標簽中缺失的數(shù)據(jù)細節(jié)信息。標簽\"puppy”和“woodenstump”中無法反映出文本中的“l(fā)ightbeige”和“witheredtree”以及在圖像中的對應內(nèi)容。因此,如何有效地建模標簽與樣本之間的關系,以進一步彌補樣本中缺失的語義信息,與多標簽中缺乏的樣本細節(jié)信息,仍然是一個亟待解決的問題。
近年來,注意力機制(attentionmechanism)通過模擬人類視覺聚焦的過程,已在自然語言處理、計算機視覺等多個領域取得了顯著的成效[16]。在跨模態(tài)檢索問題中,注意力機制被廣泛應用于從不同模態(tài)中提取關鍵特征。注意感知深度對抗哈希(attention-awaredeepadversarial hashing)17通過選擇性地關注多模態(tài)數(shù)據(jù)的部分信息,提高了內(nèi)容相似性度量的準確性。面向?qū)ο笞⒁饩W(wǎng)絡(object-orientedattentionnetwork,OAN)[18]通過聯(lián)合利用模態(tài)間與模態(tài)內(nèi)的注意力機制,有效地對齊不同模態(tài)中的樣本。然而,這些方法主要通過利用不同模態(tài)自身特征學習注意力,未能充分考慮到多標簽語義信息對于注意力機制的指導作用。因此,在建模多標簽與樣本關系的基礎上,如何結(jié)合多標簽和注意力機制,充分提取具有語義信息的關鍵特征,成為了跨模態(tài)學習中的又一難題。
為了解決上述問題,并將樣本之間的相關性融人到多模態(tài)數(shù)據(jù)的公共表示中,本文采用了與GCH和HMAH相同的教師-學生學習框架,并提出了一種基于信息互補與交叉注意力(information complementarityand cross-attention,ICCA)的跨模態(tài)檢索方法。在教師模塊中,本文方法構建了信息互補子模塊,該模塊利用樣本與多標簽之間的相關性構建語義融合圖,并利用GCN補充彼此缺失信息,從而獲得樣本語義增強表示和多標簽嵌入。同時,本文方法還設計了交叉注意力子模塊,用于過濾冗余信息,從而獲得具有語義信息的樣本公共表示。此外,還提出了一種語義匹配損失,用于提升公共表示的語義性。最后,本文方法利用教師模塊學習到的公共表示監(jiān)督學生模塊的訓練過程,確保教師模塊的樣本公共表示與學生模塊生成的樣本表示保持對齊。本文的主要貢獻總結(jié)如下:
a)構建一個信息互補子模塊。此模塊利用GCN實現(xiàn)多標簽特征與樣本表示進行信息互補,從而獲得樣本語義增強表示和多標簽嵌入。
b)設計一個交叉注意力子模塊。此模塊利用跨模態(tài)樣本和多標簽生成注意力掩碼,用于過濾冗余信息,并使生成的多模態(tài)表示保持語義一致性。
c)為了提升相同樣本的不同模態(tài)公共表示之間的匹配程度,提出一種語義匹配損失。該損失利用所有樣本多標簽嵌入衡量圖像和文本之間的相似度,從數(shù)據(jù)和語義的角度提升了公共表示的語義一致性。
d)在三個廣泛使用的數(shù)據(jù)集上進行了大量實驗,結(jié)果顯示,所提ICCA方法可以獲得良好的檢索性能。
1方法
如圖2所示,本文提出的ICCA方法包括特征提取模塊、教師模塊和學生模塊。其中,教師模塊由信息互補子模塊和交叉注意力子模塊組成,學生模塊由一系列的全連接層組成。
1.1 問題定義
首先給出符號定義,假設數(shù)據(jù)集 D={xiv,xit}i=1n 包含 n 個樣本,其中 xiv 和 xit 分別表示第 i 個樣本的圖像和文本模態(tài)。樣本對應的標簽矩陣表示為 Y=[y1,y2,…,yn]∈{0,1}n×c ,其中 ?,yi 為第 i 個樣本對應的語義標簽, Ψc 為標簽類別數(shù)目。如果第 i 個樣本屬于第 j 類,則 yij=1 ,否則 yij=0 。在不失一般性的前提下,本文主要研究圖像與文本之間的跨模態(tài)檢索,此任務的核心目標是將圖像和文本特征映射到一個公共表示空間,并確保語義相似的圖像與文本在該空間中更接近,同時使語義不相似的圖像與文本盡可能遠離。
1.2樣本表示學習
特征提取模塊包括圖像特征提取器、文本特征提取器和多標簽特征編碼器。圖像特征提取器和文本特征提取器將圖像和文本分別輸入到卷積神經(jīng)網(wǎng)絡(CNN)[19]和多層感知機(multi-layerperception,MLP)[20]中,用于生成圖像和文本特征,并通過一系列的全連接層映射為圖像表示和文本表示。
其中: d 表示公共表示空間的維度; θv={θcnn,θGv} 和 θt={θmlp θGt} 分別表示圖像特征提取器和文本特征提取器的參數(shù); Hv= {hiv}i=1n∈Rn×d 為圖像表示矩陣; Ht={hit}i=1n∈Rn×d 為文本表示矩陣。
此外,為了獲得多標簽的語義表示,ICCA提出了一種多標簽特征編碼器,該編碼器結(jié)合標簽嵌人和樣本的多標簽向量,生成初始的多標簽特征。具體計算公式如下:
其中: 為由預訓練的 GloVe[21] 生成的標簽嵌入矩陣; ei 表示第 i 個標簽的嵌入向量; dι 為標簽嵌入向量的維度;
是權重矩陣; ? 為Hadamard乘積; ximl 為生成的第 i 個多標簽的初始特征。ICCA將 ximl 通過全連接層映射得到多標簽表示 himl ,計算公式如下:
himl=Gm(ximl;θGm)∈Rd
其中: θml={Wl , θGm} 為多標簽特征編碼器的參數(shù); Hml= {himl}i=1m∈Rm×d 為多標簽表示矩陣; himl 表示第 i 個多標簽的表示向量; m 為多標簽表示的個數(shù)。為了建立多標簽與樣本之間的聯(lián)系,在后文中,使用 hφ(i)ml 表示第 i 個樣本的多標簽表示,其中 φ(i) 為樣本到對應多標簽的映射函數(shù)。
1.3樣本語義增強表示學習
為了補充多模態(tài)數(shù)據(jù)中缺失的語義信息以及多標簽中缺乏的樣本細節(jié)信息,教師模塊中包含了一個信息互補子模塊。該子模塊構建了一個包含多標簽特征和樣本表示的語義融合圖,并利用GCN生成樣本語義增強表示和多標簽嵌入。
具體而言,ICCA構建了一個語義融合圖 G=(V,E) ,其中,頂點集 V={νi}i=12n+m 由圖像、文本和多標簽表示共同組成,對應的頂點表示矩陣記為 H=[Hv;Ht;Hml∈R(2n+m)×d],E 為邊集,由邊集構造的鄰接矩陣為 A∈R(2n+m)×(2n+m) 。
其中: Δνi 表示第 i 個頂點; kij 表示 νi 和 νj 之間共享標簽的數(shù)量;α 為權重參數(shù); cos 是余弦相似度函數(shù)。式(4)中的第一項用于計算頂點表示之間的相似性,第二項用于計算頂點之間的語義相似性。
ICCA將 H 和 A 輸入到GCN中,通過頂點之間的特征聚合,用于進行信息互補,從而生成圖像語義增強表示、文本語義增強表示和多標簽嵌入。在GCN中,每一層的傳播規(guī)則為
Z(0)=H
其中: Z(g)∈R(2n+m)×d(g) 和 分別表示第 g 層的輸入和輸出特征矩陣;
為度矩陣,并且
是第 g 層的權重矩陣; h(θ) 是激活函數(shù),此處使用ReLU。最后一層的輸出記為
,其中, Zv={ziv}i=1n∈Rn×d 和 Zt={zit}i=1n∈Rn×d 分別為生成的圖像語義增強表示矩陣和文本語義增強表示矩陣,Zml={ziml}i=1m∈Rm×d 為生成的多標簽嵌入矩陣,GCN中所有的參數(shù)表示為 θgcn 。不同模態(tài)的語義增強表示在生成過程中聚合了語義相關標簽的信息,因此包含了較為完備的語義信息。
通過最大化不同模態(tài)的語義增強表示與樣本表示之間的差異,確保所獲得的語義增強表示能夠有效豐富樣本表示中的語義信息。因此,ICCA設計了一種語義差異損失:
其中: ziv 和z分別表示第 i 個樣本的圖像語義增強表示和文本語義增強表示。式(6)通過最大化語義增強表示與樣本表示之間的差異,從而保證語義增強之后的不同模態(tài)表示可以獲得更多的語義信息。
1.4樣本公共表示學習
為了有效提取不同模態(tài)的關鍵特征,教師模塊中還構建了交叉注意力子模塊。該子模塊利用不同模態(tài)的語義增強表示和多標簽嵌入生成注意力掩碼,用于提取關鍵特征。此過程中,多標簽生成的注意力掩碼可以過濾掉不同模態(tài)增強表示中的語義無關信息,而不同模態(tài)的注意力掩碼則有利于關鍵特征的對齊。
具體而言,圖像語義增強表示z χiv 可以經(jīng)過全連接層和激活函數(shù)生成圖像注意力掩碼 miv∈Rd ·
miv=σ(zivWv)
其中: Wv∈Rd×d 為權重矩陣; σ(?) 為 sigmoid 激活函數(shù)
將 ?zit 與 miv 進行Hadamard乘積,可以得到第 i 個文本的跨模態(tài)關鍵特征 χit :
同理,以文本語義增強表示z χit 為輸人,可以生成文本注意力掩碼 mit∈Rd .
mit=σ(zitWt)
其中: Wt∈Rd×d 為權重矩陣。
通過對z χiv 加權,提取第 i 幅圖像的跨模態(tài)關鍵特征z χiv
此外,ICCA將多標簽嵌入引人到注意力機制中,用于提取帶有語義信息的公共表示。具體來說,首先將多標簽嵌入z (20經(jīng)過全連接層和激活函數(shù),生成多標簽注意力掩碼 mimv∈Rd 和mimt∈Rd
其中: Wmv∈Rd×d 和 Wmt∈Rd×d 是權重矩陣。然后,將多標簽掩碼與樣本語義增強表示進行Hadamard乘積,從而獲得帶有語義信息的跨模態(tài)關鍵特征:
其中: :zimv 表示第 i 幅圖像帶有語義信息的關鍵特征 表示第i 個文本帶有語義信息的關鍵特征。
ICCA將樣本的跨模態(tài)關鍵特征和帶有語義信息的關鍵特征結(jié)合,獲得教師端的樣本公共表示,公式如下:
其中: 和
分別為教師端的圖像公共表示矩陣和文本公共表示矩陣;
和z分別為第 i 個圖像和第 i 個文本的公共表示。
為了使教師端的不同模態(tài)公共表示保持語義一致性,ICCA構造了一種語義一致性損失:
其中: Sijvt=rirjyiyjT 。由于數(shù)據(jù)集在構建中可能存在相同樣本對應的圖像和文本無法完全匹配的問題,所以,ICCA將相同樣本中圖像和文本公共表示的一致性作為權重,用于準確刻畫樣本之間的語義相似性。 ri 表示第 χi 個樣本中圖像和文本公共表示的一致性,計算方式如下:
最小化語義一致性損失,可以增大語義相關樣本公共表示之間的特征相似性,同時減少語義無關樣本公共表示之間的相似性,從而在特征空間和語義空間中實現(xiàn)更好的數(shù)據(jù)對齊。
為了提升相同樣本的不同模態(tài)公共表示之間的匹配程度,ICCA提出了一種語義匹配損失:
其中: wij 是第 i 個樣本公共表示與第 j 個樣本對應的多標簽嵌入之間的相似性,定義為
式(16)將不同數(shù)據(jù)的多標簽嵌入作為錨點,將 wij 作為公共表示與錨點之間差異的權重,從數(shù)據(jù)和語義的角度實現(xiàn)了跨模態(tài)特征的匹配。
1.5 跨模態(tài)師生學習
為了學習具有語義一致性的樣本公共表示,ICCA構建了一個學生模塊。該模塊在教師模塊的指導下進行訓練,通過最小化對齊損失,用于將教師模塊的知識傳遞到學生模塊。
具體而言,學生模塊由全連接層組成,通過對預訓練特征進行非線性映射,來生成學生樣本的表示:
hist=Ft(gmlp(xit;θmlp);θFt)∈Rd
其中: Hsv={hisv}i=1n 為學生端圖像表示的特征矩陣; Hst= {hist}i=1n 為學生端文本表示的特征矩陣; θFv 和 θFt 分別表示學生端生成圖像表示和文本表示的網(wǎng)絡參數(shù)。
為了對齊學生模塊生成的樣本表示與教師模塊生成的樣本公共表示,ICCA引入了以下對齊損失:
ICCA通過最小化對齊損失,使學生模塊與教師模塊生成的表示保持一致。
1.6 目標函數(shù)
為了提高教師模塊的樣本語義增強表示和多標簽嵌人的可判別性,ICCA采用一個共享分類器 Fclass 來預測樣本增強表示和多標簽嵌入對應的標簽類別,分類損失如下:
Lcla=Lv+Lt+Lml=
其中: Lv?Lt?Lml 分別表示圖像語義增強表示、文本語義增強表
示和多標簽嵌入的分類損失 ;piv=Fclass(ziv,θc) ) pit=Fclass(zit θc ) ,piml=Fclass(ziml,θc),θc 是共享分類器的參數(shù)。
此外,為了最小化多標簽與樣本之間的分類結(jié)果差異,ICCA引入了分類對齊損失:
其中: Lφ(i)ml 表示第 i 個樣本對應的多標簽的分類損失。通過最小化該損失,能夠使樣本語義增強表示與多標簽嵌入之間的分類結(jié)果對齊。
最終,教師模塊的目標函數(shù)為
Ltea=Lsea+βLcla+γLcal+ηLcon+λLmat
其中 ?β?γ?η 和 λ 是用于平衡教師模塊的目標函數(shù)中各項損失的權重超參數(shù)。
學生模塊的目標函數(shù)為
Lstu=Lali
在算法1中,展示了整個網(wǎng)絡的優(yōu)化過程,具體步驟如下。
算法1ICCA的優(yōu)化過程
輸人:訓練集 D={xiv,xit}i=1n ;超參數(shù) α,β,γ,η,λ ;學習率 ξ;mini batch大小 k
輸出:優(yōu)化后的網(wǎng)絡參數(shù) θv、θt?θml?θgcn?θc?θFv?θFt?Wv?Wt?Wmv, Wmt O
初始化:初始化網(wǎng)絡參數(shù)和超參數(shù)。
foreachmini-batch do從 GCN 中獲得多標簽嵌入 {zφ(i)ml}i=1k 依據(jù)式(13)獲得圖像公共表示{z 和文本公共表示(204號
;
依據(jù)式(22)計算教師模塊的目標函數(shù);
通過反向傳播更新教師模塊中的參數(shù);
end
until convergence
foreach mini-batch do
依據(jù)式(18)獲得學生圖像表示 {hisv}i=1k 和學生文本表示{hist}i=1k :
依據(jù)式(23)計算學生模塊的目標函數(shù);
通過反向傳播更新學生模塊中的參數(shù):
end
until convergence;
2實驗
本文方法在NUS-WIDE[22]、MIRFlickr 25K[23] 和MS-COCO[24] 三個數(shù)據(jù)集上進行了實驗,以驗證ICCA的性能,并對實驗結(jié)果進行了分析。
2.1 實驗數(shù)據(jù)集
NUS-WIDE是一個包含81個類別的大規(guī)模數(shù)據(jù)集,共有269648個圖像-文本對,廣泛用于跨模態(tài)檢索任務。在實驗中,選取21個最常用的類別,共190421個圖像-文本對,其中隨機選取2000個圖像-文本對作為測試集,其余的188421個作為訓練集。實驗中,圖像特征的維度為4096,文本特征的維度為1 000 。
MIRFlickr-25K是一個包含24個類別的小型數(shù)據(jù)集,由25000個圖像-文本對組成。在實驗中,隨機選取2000個圖像-文本對作為測試集,其余23000個作為訓練集。實驗中,圖像特征的維度為4096,文本特征的維度為1 000 。
MS-COCO是一個包含80個類別的大型數(shù)據(jù)集,共有122218個圖像-文本對。在實驗中,隨機選取2000個圖像-文本對作為測試集,其余120218個作為訓練集。實驗中,圖像特征的維度為4096,文本特征的維度為1000。
2.2 實驗細節(jié)
ICCA在PyTorch框架上進行了驗證,并采用mini-batchAdam優(yōu)化算法[25進行訓練。在NUS-WIDE數(shù)據(jù)集上,batchsize設置為1O24,在MIRFlickr-25K數(shù)據(jù)集上batchsize為100,在MS-COCO數(shù)據(jù)集上batchsize為1024。三個數(shù)據(jù)集上的學習率 ξ 均設置為0.00001。超參數(shù)的設置采用grid-search方法,其中語義融合圖鄰接矩陣的超參數(shù) α 為0.5,教師模塊目標函數(shù)中的超參數(shù) β?γ?η 和 λ 分別為 0.8、0.2、0.5 和 0.6°
在特征提取模塊中,圖像特征由預訓練的VGGNet提取,文本特征由通過分類任務進行預訓練的MLP提取,隨后分別通過全連接層映射為1024維的圖像和文本表示。多標簽特征編碼器利用預訓練GloVe生成300維的詞嵌人作為標簽嵌入,進而獲得初始多標簽特征,并通過全連接層映射為1024維的多標簽表示。教師模塊中的GCN采用兩層結(jié)構,輸出維度為512和1024。分類器由單層全連接層構成,并采用sigmoid激活函數(shù)。在交叉注意力子模塊中,圖像和文本語義增強表示分別通過全連接層生成1024維的圖像和文本注意力掩碼,多標簽嵌入也通過全連接層生成1024維注意力掩碼。在學生模塊中,通過單層全連接層生成1024維學生樣本表示。
2.3對比方法與評估指標
ICCA與九種方法進行了對比,具體包括 SCM[26] 、 CCA[4] (204ACMR[27] 、DSCMR[8] AGAH[28] 、 GCSCH[29] 、AGCH[11]DSPH[30] 和 DNpH[31] 。實驗中,選擇了平均精度均值(mAP)作為主要的評估指標。
2.4實驗結(jié)果與分析
表1展示了ICCA與九種方法在三個數(shù)據(jù)集上不同檢索任務的mAP分數(shù)。其中,圖像-文本任務以圖像作為查詢,計算數(shù)據(jù)集中該圖像與所有文本的相似性,并按相似性得分進行排序,最終得到檢索結(jié)果。文本-圖像任務以文本作為查詢,計算數(shù)據(jù)集中該文本與所有圖像的相似性,并根據(jù)相似性得分進行排序,得到最終的檢索結(jié)果。根據(jù)結(jié)果可以觀察到:
a)ICCA在三個數(shù)據(jù)集上的檢索性能優(yōu)于所有其他方法,具體而言,在NUS-WIDE、MIRFlickr-25K和.MS-COCO數(shù)據(jù)集上,ICCA相較于次優(yōu)方法分別提高了2.1、1.1和2.5百分點。這表明,ICCA能夠使語義相似的圖像和文本在公共表示空間中更好地匹配,從而提升跨模態(tài)檢索性能。
b)深度學習方法例如:ACMR、DSCMR等比傳統(tǒng)學習方法SCM和CCA具有更好的檢索性能,這表明深度學習方法能夠更有效地捕捉跨模態(tài)數(shù)據(jù)之間的復雜非線性關系,從而提升模型的檢索能力。
c)與AGCH和GCSCH相比,ICCA在三個數(shù)據(jù)集上的檢索性能更好。具體而言,AGCH與GCSCH均利用GCN來捕獲樣本間的相關性,挖掘多模態(tài)數(shù)據(jù)的語義結(jié)構,卻忽略了多標簽對于樣本學習的指導作用。相比之下,ICCA通過構建信息互補子模塊,利用GCN建模多標簽和樣本之間的關系,對多標簽和樣本的信息進行了補充,增強多標簽和樣本的語義信息。因此,在三個數(shù)據(jù)集上,ICCA的mAP分數(shù)分別比AGCH高出2.1、2.7和28百分點,比GCSCH高出 12.8、7.1 和14.2百分點。
d)DSPH、DNpH、AGAH和ICCA均將注意力機制引入模型中,以提取不同模態(tài)的關鍵特征。DSPH和 ΔDNpH 通過引入多頭自注意機制學習并提取不同模態(tài)內(nèi)的關鍵特征,但這些方法未充分考慮到多標簽對關鍵特征提取的指導作用。相比之下,ICCA提出的交叉注意力子模塊通過引入多標簽來有效指導模型提取帶有語義信息的關鍵特征。AGAH直接將多標簽引入到了注意力機制中,指導特征學習。但是,由于ICCA提出了一種語義匹配損失,可以有效促進相同樣本的圖像和文本之間的匹配。因此,在三個數(shù)據(jù)集上,ICCA相比于DSPH的mAP分數(shù)分別提高8.5、1.7和6.7百分點,相比 ΔDNpH 提高了9.7、1.1和14.7百分點,相比AGAH提高了15.5、4.8和20.8百分點,進一步證明了ICCA的有效性。
2.5消融實驗
為了評估目標函數(shù)中各項損失對模型性能的影響,ICCA設計了四種變體來驗證各個損失在目標函數(shù)中的重要性。具體而言,各個變體的設計如下。a)ICCA-1:去除語義匹配損失,用于驗證該損失在促進相同樣本圖像和文本公共表示匹配中的作用;bICCA-2:去除語義一致性損失,用于驗證該損失對保持樣本公共表示語義一致性的有效性;c)ICCA-3:去除分類對齊損失,用于驗證該損失在促進樣本語義增強表示與多標簽嵌人分類結(jié)果對齊中的作用;d)ICCA-4:去除分類損失,用于驗證分類損失對提高教師模塊的樣本語義增強表示和多標簽嵌入可判別性的效果。實驗結(jié)果如表2所示,得到以下觀察結(jié)果:
a)ICCA性能優(yōu)于ICCA-1和ICCA-2。在NUSWIDE、MIR-FLICKR-25K和MS-COCO三個數(shù)據(jù)集中,ICCA的mAP分數(shù)分別比ICCA-1和ICCA-2高出2.5和1.8百分點,2.9和2.0百分點,以及2.7和2.0百分點。這表明語義匹配損失和語義一致性損失都對模型性能做出了貢獻。
b)ICCA-2性能優(yōu)于ICCA-1。這表明,在促進語義相似的圖像和文本在公共表示空間中匹配方面,語義匹配損失比語義一致性損失更重要。雖然語義一致性損失能夠保持樣本在公共表示空間中的語義相關性,但它無法有效地縮小語義相似圖像與文本之間的差距。而語義匹配損失可以拉近語義相似樣本的公共表示之間的距離,從而增強圖像和文本之間的語義匹配。因此,語義匹配損失在促進圖像與文本完全匹配方面,比語義一致性損失更為有效。
c)ICCA性能優(yōu)于ICCA-3。這表明,分類對齊損失能夠最小化樣本語義增強表示與多標簽嵌入之間的分類結(jié)果差異,從而提高它們在公共表示空間中的一致性。
d)ICCA性能明顯優(yōu)于ICCA-4。在三個數(shù)據(jù)集上,ICCA的mAP分數(shù)分別比ICCA-4高出2.3、2.9和2.5百分點。這表明,分類損失在提高樣本語義增強表示和多標簽嵌入的判別性方面發(fā)揮了重要的作用,因此,ICCA能夠獲得更好的性能。
2.6 參數(shù)敏感性分析
2.6.1權重參數(shù)
ICCA的目標函數(shù)包含 β,γ,η 和 λ 四個權重參數(shù)。為了驗證這些參數(shù)對模型性能的影響,ICCA在NUSWIDE、MIR-FLickr-25K和MS-COCO三個數(shù)據(jù)集上進行了參數(shù)敏感實驗。如圖3所示,得到以下觀察結(jié)果:
通過固定 γ=0.2,η=0.5 和 λ=0.6 ,探索 β 對模型性能的影響。ICCA在三個數(shù)據(jù)集上的結(jié)果如圖3(a)(e)所示。結(jié)果表明,隨著 β 的增大,三個數(shù)據(jù)集上的 mAP 分數(shù)逐漸提高,當 β=0.8 時,三個數(shù)據(jù)集上的 mAP 分數(shù)達到最大值,說明此時檢索性能最好。然而,當 β 繼續(xù)增大時, mAP 分數(shù)出現(xiàn)下降,這是因為分類損失的權重過高,導致模型過度關注分類準確性,忽略了其他損失的作用,從而影響了整體性能。
對于參數(shù) γ ,固定 β=0.8,η=0.5 和 λ=0.6 ,探索 γ 對模型性能的影響。如圖3(b)(f)所示,發(fā)現(xiàn)分類對齊損失在目標函數(shù)中的重要性相對較低,當 γ=0.2 時,三個數(shù)據(jù)集的 mAP 分數(shù)已經(jīng)達到最高。盡管分類對齊損失能夠?qū)颖镜恼Z義增強表示與多標簽嵌入的分類結(jié)果進行對齊,但其對跨模態(tài)檢索性能的提升較為有限。
在固定 β=0.8,γ=0.2 和 λ=0.6 的基礎上,探索 η 對模型性能的影響。實驗結(jié)果如圖3(c)(g)所示,隨著 η 增大,模型在三個數(shù)據(jù)集上的性能逐步提高。當 η=0.5 時,模型在三個數(shù)據(jù)集上均表現(xiàn)出最優(yōu)的檢索效果。在這個設置下,語義一致性損失使不同模態(tài)樣本的公共表示在特征空間和語義空間中實現(xiàn)了更好的對齊,顯著提升了模型的性能。
在保持 β=0.8,γ=0.2 和 η=0.5 的情況下,探索 λ 對模型性能的影響。如圖3(d(h)所示,隨著 λ 從0增加至0.6,模型的mAP分數(shù)在三個數(shù)據(jù)集上均呈上升趨勢,這是因為語義匹配損失使得在公共表示空間中語義相似的樣本圖像和文本能夠更好地進行匹配。在 λ=0.6 時,模型的mAP分數(shù)達到最高,說明此時語義匹配的效果最佳。
2.6.2 鄰接矩陣的參數(shù)
2.7 數(shù)據(jù)可視化分析
對于鄰接矩陣學習中的參數(shù) α ,通過固定 β=0.8,γ=0.2 η=0.5 和 λ=0.6 ,來探索 α 的敏感性。實驗結(jié)果如圖4(a)(b)所示。隨著 α 的增大,語義相似性對鄰接矩陣的影響逐漸變大,模型能夠更好地利用標簽信息,從而提升模型檢索性能。當 α=0.5 時,模型在三個數(shù)據(jù)集上取得了最佳的 mAP 分數(shù),但當 α 超過0.5時,模型過度依賴語義相似性,忽視了頂點間的表示相似性,導致性能下降。因此,選擇合適的 α 能夠在語義相似性和表示相似性之間實現(xiàn)良好的平衡,從而達到最佳的模型性能。
為了驗證ICCA的有效性,采用 t-SNE[32] 對MIRFLickr-25K數(shù)據(jù)集上經(jīng)過ICCA學習的樣本表示,以及經(jīng)過ICCA學習后的多標簽嵌人和樣本公共表示進行了可視化。如圖5(a)(b)所示,可以觀察到,圖5(a)中圖像和文本的表示分布差異較大,而圖5(b)中圖像和文本的公共表示分布更加一致,并且與對應的多標簽嵌人分布相似。這表明,ICCA能夠有效地對齊圖像和文本的公共表示,此外,由于多標簽提供了額外的語義信息,所以增強了樣本公共表示的語義一致性。
3結(jié)束語
本文提出了一種基于信息互補與交叉注意力的跨模態(tài)檢索方法。該方法首先通過GCN建模多標簽和樣本之間的關系,用于補充樣本的語義信息和多標簽的細節(jié)信息,其次將多標簽引入到交叉注意力子模塊,生成帶有語義信息的樣本公共表示。此外,本文還提出了一種語義匹配損失,促使公共表示空間中語義相似的圖像和文本更好地匹配。在以后的工作中,將致力于構建異構網(wǎng)絡,以更好地處理不同模態(tài)之間的差異,并精確地獲取跨模態(tài)數(shù)據(jù)間的語義關系。
參考文獻:
[1]TangHaoyu,Zhu Jihua,Liu Meng,et al.Frame-wise cross-modal matching for video moment retrieval[J]. IEEE Trans on Multimedia,2021,24:1338-1349.
[2]RasiwasiaN,CostaPJ,CovielloE,et al.Anew approach to crossmodal multimedia retrieval[C]//Proc of the18th ACMInternational Conference onMultimedia.NewYork:ACMPress,201O:251-260.
[3]Xu Liming,Zeng Xianhua,Zheng Bochuan,et al.Multi-manifold deep discriminative cross-modal hashing for medical image retrieval [J].IEEE Trans on Image Processing,2022,31:3371-3385.
[4]Hotelling H. Relations between two sets of variates [M]//Kotz S, Johnson NL.Breakthroughs in Statistics.New York:Springer, 1992:162-190.
[5]Yao Ting,Mei Tao,Ngo C W. Learning query and image similarities withranking canonical correlationanalysis[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:28-36.
[6]Akaho S. A kernel method for canonical correlation analysis [EB/ OL].(2007-02-14). htps://arxiv.org/abs/cs/0609071.
[7]JiangQingyuan,LiWujun.Deep cross-modal hashing[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2017: 3270-3278.
[8]Zhen Liangli,Hu Peng,Wang Xu,et al. Deep supervised crossmodal retrieval[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019: 10386-10395.
[9]劉佳楠,范晶晶,趙建光,等.基于二重語義相關性圖卷積網(wǎng)絡 的跨模態(tài)檢索方法[J].計算機應用研究,2024,41(4):1239- 1246.(Liu Jianan,F(xiàn)an Jingjing,Zhao Jianguang,etal.Dual semantic correlation graph convolutional networks for cross-modal retrieval[J]. Application Research of Computers,2024,41(4): 1239-1246. )
[10]Xu Ruiqing,Li Chao,Yan Junchi,et al.Graph convolutional network hashing for cross-modal retrieval[C]//Proc of the 28th International JointConference on Artificial Intelligence.NewYork:ACM Press,2019:982-988.
[11] Zhang Pengfei,Li Yang,Huang Zi, et al. Aggregation-based graph convolutional hashing for unsupervised cross-modal retrieval [J]. IEEETransonMultimedia,2021,24:466-479.
[12]Tan Wentao,Zhu Lei,Li Jingjing,etal.Teacher-student learning: efficient hierarchical message aggregation hashing for cross-modal retrieval[J].IEEETransonMultimedia,2022,25:4520-4532.
[13]Liu Hui,F(xiàn)engYong,Zhou Mingliang,et al.Semantic rankingstructure preserving for cross-modal retrieval[J].Applied Intelligence, 2021,51(3):1802-1812.
[14]Bai Cong,Zeng Chao,Ma Qing,et al.Graph convolutional network discrete hashing for cross-modal retrieval[J]. IEEE Trans on NeuralNetworksandLearningSystems,2024,35(4):4756-4767.
[15]Qian Shengsheng,Xue Dizhan,F(xiàn)ang Quan,et al.Adaptive labelaware graph convolutional networks for cross-modal retrieval [J]. IEEE Trans on Multimedia,2021,24:3520-3532.
[16]蔡明哲,王滿利,竇澤亞,等.基于多模態(tài)特征融合的場景文本 識別[J].計算機應用研究,2025,42(3):1274-1280.(Cai Mingzhe,WangManli,Dou Zeya,et al.Scene text recognitionbased onmultimodal feature fusion[J].Application Research of Computers,2025,42(3):1274-1280.)
[17]Zhang Xi,Lai Hanjiang,F(xiàn)eng Jiashi.Attention-aware deepadversarial hashing for cross-modal retrieval[C]//Proc of European Conference on Computer Vision. Cham:Springer,2018:591-606.
[18]Huang Poyao,Vaibhav,Chang Xiaojun,et al. Improving what crossmodal retrieval models learn through object-oriented inter- and intramodal attention networks[C]//Proc of International Conference on Multimedia Retrieval.New York:ACM Press,2019:244-252.
[19]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [EB/OL].(2015-04-10). https:// arxiv.org/abs/1409.1556.
[20]Rumelhart David E,McClelland James L.A general framework for parallel distributed processing[M]//Parallel Distributed Processing: Explorations in the Microstructure of Cognition:Foundations.Cambridge,MA: MIT Press,1987: 45-76.
[21]PenningtonJ,SocherR,ManningC.GloVe:global vectors for word representation[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA:Association for Computational Linguistics,2014:1532-1543.
[22]Chua T S, Tang Jinhui,Hong Richang,et al.NUS-WIDE:a realworldWeb image database from National Universityof Singapore [C]//Proc of ACM International Conference on Image and Video Retrieval. New York: ACM Press,2009: 368-375.
[23]HuiskesMJ,LewMS.TheMIRflickr retrieval evaluation[C]// Proc of the1st ACM International Conference onMultimedia Information Retrieval. New York:ACM Press,2008:39-43.
[24]Lin TY,MaireM,Belongie S,et al.Microsoft COCO:common objectsin context[C]//Proc of European Conference onComputerVision.Cham:Springer,2014:740-755.
[25]Diederik P,Jimmy B.A method for stochastic optimization[C]// Proc of International Conference on Learning Representations. Piscataway,NJ: IEEE Press,2015:1-14.
[26] Zhang Dongqing,Li Wujun. Large-scale supervised multimodal hashing with semantic correlation maximization[C]//Proc of AAAI Conference on ArtificialInteligence.Palo Alto,CA:AAAI Pres, 2014:2177-2183.
[27]Wang Bokun,Yang Yang,Xu Xing,et al.Adversarial cross-modal retrieval[C]//Proc of the 25th ACM International Conference on Multimedia. New York:ACM Press,2017:154-162.
[28] Gu Wen,Gu Xiaoyan,Gu Jingzi,et al. Adversary guided asymmetric hashing for cross-modal retrieval[C]//Proc of ACM International Conference on Multimedia Retrieval.New York:ACM Press, 2019: 159-167.
[29] Shen Xiaobo,Yu Gaoyao,Chen Yinfan,et al. Graph convolutional semi-supervised cross-modal hashing[C]// Proc of the 32nd ACM International Conference on Multimedia.New York:ACM Press, 2024: 5930-5938.
[30]Huo Yadong,Qin Qibing,Dai Jiangyan,et al.Deep semantic-aware proxy hashing for multi-label cross-modal retrieval [J]. IEEE Trans on Circuits and Systems for Video Technology,2024,34(1): 576-589.
[31]Qin Qibing,Huo Yadong,Huang Lei,et al.Deep neighborhood-preserving hashing with quadratic spherical mutual information for crossmodal retrieval[J]. IEEETrans onMultimedia,2024,26:6361- 6374.
[32]Maaten L,Hinton G. Visualizing data using t-SNE[J]. Joumal of Machine Learning Research,2008,9(11): 2579-2605.