摘 要:具有語義相關性的文本、圖像數(shù)據(jù)往往具有互補性,可以從不同角度增強語義理解,因此,圖文語義關系挖掘是圖文數(shù)據(jù)得以充分利用的關鍵。為解決圖文數(shù)據(jù)深層語義關系挖掘不充分、檢索階段預測不精準的問題,本文提出了一種局部-全局特征引導的多級關系分析與挖掘方法。采用多頭自注意力機制的Transformer建模圖像關系,構建圖像引導的文本注意力模塊,挖掘圖像區(qū)域和全局文本間的細粒度關系,融合局部-全局特征有效增強圖文數(shù)據(jù)的語義關系。為驗證本文方法,在Flickr30K、MSCOCO-1K和MSCOCO-3K數(shù)據(jù)集上進行實驗,并與VSM、SGRAF等13種方法進行對比分析,本文方法中以文索圖的召回率平均提升了0. 62%,以圖索文的召回率平均提高了0. 5%,實驗結果驗證了本文方法的有效性。
關鍵詞:圖文關系挖掘;多頭自注意力機制;局部-全局特征
中圖分類號: TP391 文獻標識碼:A DOI:10. 3969/ j. issn. 1007-791X. 2024. 05. 007
0 引言
自媒體技術的廣泛應用,帶來了文本、圖像、視頻等多模態(tài)數(shù)據(jù)的急劇增加,如何有效挖掘多模態(tài)數(shù)據(jù)間的語義關系,是多模態(tài)檢索急需解決的問題。
自Corrado等人[1]提出圖文聯(lián)合關系挖掘以來,受到學者的廣泛關注,也產生了一定的研究成果。例如Wang等人[2]構建基于秩的張量融合網絡來學習圖文數(shù)據(jù)全局特征下的相似性。 Mafla等人[3]學習圖像中顯著對象和文本之間的公共語義空間來獲得關系增強的特征。這類方法通過提取圖像特征和文本特征來使顯著對象在圖文數(shù)據(jù)整體表示中起主導作用,但其只能挖掘到粗粒度關系,難以準確獲取圖文數(shù)據(jù)對應的細粒度信息,從而導致圖文語義關系難以正確表達,其中粗粒度與細粒度關系以圖1為例。
圖1中粗粒度關系只捕獲到圖像中的兩個孩子與文本中的“child”相關,無法區(qū)分兩個孩子的特征及關系,而細粒度關系則挖掘到圖像中兩個孩子的穿著特征以及對應的行為關系。由此可見,圖文粗粒度關系挖掘在圖文特征提取時往往會存在誤差。
為此,利用多模態(tài)編碼模型或者外部知識增強的圖文粗粒度關系,用來輔助挖掘圖文數(shù)據(jù)深層語義關系的方法被提出,典型的有區(qū)域詞對應方法,其側重于學習圖像局部區(qū)域與文本的對應關系,如Lee等人[4]通過交叉注意力機制來加權較重要的區(qū)域,以圖像區(qū)域和文本中的詞作為上下文來計算圖文相似度;Huang等人[5]利用語義概念結合正確語義順序來改進圖像表示,設計出有利于語義增強的相似度匹配模型; Yao等人[6]的GCN-LSTM模型將語義和空間對象關系集成到圖像編碼器中學習局部特征表示。這類方法在一定程度上解決了相似度計算過程中有效信息易丟失,以及特征融合時容易引入無用特征的問題,但是只挖掘粗粒度的關系,沒有挖掘到圖文對象間的復雜語義關系。因此,結合全局與局部信息的方法被提出,如Wang等人[7]提出了結合全局和細粒度的圖文交互方法,采用自適應門控機制處理冗余信息。 Song等人[8]利用多注意力機制與剩余學習策略將局部引導特征和全局上下文相結合進而計算多實例表示。 Zhang等人[9]使用上下文感知注意網絡,通過聚合全局上下文,選擇性地關注重要的局部片段,利用模態(tài)內的相關性分析和多模態(tài)對齊方法來挖掘圖文間潛在的語義關系。 Li等人[10]提出的VSM(Visual-Semantic Matching)方法,將高階語義信息進行視覺語義匹配,通過圖卷積網絡來處理由每個節(jié)點表示的圖像和文本場景圖,利用交叉圖注意機制來計算圖文數(shù)據(jù)間的相似度; Dong等人[11]采用圖卷積網絡( GraphConvolutional Network, GCN)來捕獲相似對象的特征信息,使用語言轉換器理解不同對象間的關系;Liu等人[12]設計了多模態(tài)相似關系引導的交互網絡,將視覺關系作為節(jié)點,通過實體相關性過濾和多模態(tài)相似性注意來實現(xiàn)信息深度傳遞。這類方法提升了復雜關系挖掘效果,但往往存在粗粒度和細粒度關系融合效果不佳或檢索時匹配錯誤的問題。
為此,本文深入分析了圖文數(shù)據(jù)間的細粒度關系,構建了圖文局部-全局特征引導的關系分析與挖掘模型( Multilevel Relationship Analysis andMining model guided by Local and Global features,LGMRAM),利用GCN文本關系聚類方法與MacBERT模型分別提取局部-全局文本特征,通過Faster-RCNN學習圖像空間和語義關系,采用壓縮特征法獲取圖像全局特征。在此基礎上,使用多頭自注意力機制的Transformer,通過圖像引導的文本注意力模塊挖掘局部圖像和全局文本間的細粒度關系。
1 LGMRAM方法模型
LGMRAM采用多頭自注意力機制的Transformer建模圖像關系,構建圖像引導的文本注意力模塊,挖掘圖像區(qū)域和全局文本間的細粒度關系,融合局部-全局特征有效增強圖文數(shù)據(jù)的語義關系,通過局部圖像引導的全局文本注意模塊實現(xiàn)圖文數(shù)據(jù)間的最優(yōu)語義交互。方法模型如圖2所示。
本方法分別進行圖像和文本數(shù)據(jù)的特征提取與表示,挖掘圖文間關系,利用多頭自注意力的Transformer學習圖像關系特征,將局部圖像信息作為線索來引導局部、全局文本關系融合,進而完成圖文間隱含的語義關系挖掘。
LGMRAM的核心處理主要包含單模態(tài)關系挖掘、局部-全局圖像關系建模和圖文關系融合三部分。
2 單模態(tài)關系挖掘
由于圖文數(shù)據(jù)呈現(xiàn)出底層特征異構、高層語義相關的特點,因此,LGMRAM方法的首要任務是分別進行圖像和文本數(shù)據(jù)的特征表示與關系挖掘。
2. 1 圖像關系挖掘
2. 1. 1 全局圖像特征提取與表示
利用CNN作為視覺編碼器,采用在ImageNet上預訓練的ResNet-101網絡,輸入圖像I,生成圖像特征V,使用聚類壓縮特征法對圖像特征進行降維,利用語義詞典將圖像信息通過聚類方式建立索引。處理流程如圖3所示。
將語義詞典定義為n×m的矩陣SD。對于圖像特征vi,在語義詞典中搜索最近鄰并計算其所在類的ID編碼,即找到詞典中與v距離最近的i 嵌入向量,具體計算公式為
式中,dj表示詞典中的第 j個嵌入向量,dg表示最i近鄰嵌入向量,將字典嵌入用映射函數(shù)e來表示,通過式(2)將vi映射到語義詞典SD中。設e-1(j)為逆映射函數(shù),它通過ID來進行反映射得到圖像特征,語義字典是隨機初始化生成的,這里通過小批量的移動平均操作來更新詞典,計算公式如下:
式中,d′j為dj的更新嵌入向量,λ是一個動態(tài)更新系數(shù),其值范圍為[0,1],且e-1(j)≠0,將原來的嵌入向量加上g=j的圖像特征的平均值,從而i 在一個批次內動態(tài)學習來更新語義字典。由于argmin(·)操作不可導,梯度反向傳播會在SD處停止,為了使圖像編碼器可以訓練,利用以下公式對SD進行更新:
式中,SGO[·]是一個停止梯度運算符。因為SD嵌入向量的初始值是隨機產生的,為了避免對圖像特征造成影響,凍結ResNet的前15個epoch參數(shù)。語義詞典基于特征相似度對圖像特征圖進行在線聚類,并以其聚類中心表示每個特征向量,將具有相似語義的特征向量聚合到同一個類ID中,此類ID是一個虛擬圖像語義標簽。圖像特征被聚類之后,同一類的特征包含了相似的語義信息,圖像特征壓縮模塊輸出具有語義關聯(lián)性的全局圖像特征向量E= {e1,e2,…,en},將全局圖像特征與局部圖像特征連接,并輸入到多頭自注意力的Transformer編碼器中,進行深層次語義關系挖掘。
2. 1. 2 局部圖像關系挖掘
對于圖像I,使用Faster-RCNN模型結合預訓練的ResNet-101網絡提取局部圖像特征,進而預測實例類和空間坐標來進行特征表示。對每個類別用非最大抑制法,選擇置信度得分最高的前48個感興趣區(qū)域。給定圖像區(qū)域 i,平均池化后選擇式中,W和p分別為權重矩陣和偏差,v表示v v i 圖像特征向量。圖像局部特征提取的邊界用一個四維空間坐標S={A,B,G,H}表示,S表示區(qū)i i i i i 域ii的邊界特征向量,(Ai,Bi)表示邊界左上方位置的橫坐標與縱坐標,(Gi,Hi)是邊界寬度和高度,每張圖像用一組對象O={o,o,…,o,…,o}1 2 t 來a表示,其中a代表圖像區(qū)域數(shù),每個對象ot都與圖像特征向量vi、邊界特征向量Si相關聯(lián),整張圖像表示為O= [v‖S,v‖S,…,v‖S,…1 1 2 ,2 i iva‖Sa]。
依據(jù)圖像特征表示,構建圖像連接圖用來挖掘圖像內部關系。圖像關系分析與挖掘過程如圖4所示。
輸入一張圖像,提取圖像局部特征,進行空間關系和語義關系挖掘。如圖例,給定兩個局部區(qū)域,通過三元組qU,V=〈object ,R,object〉表示其U V 空間相對位置,object和object表示局部區(qū)域中U V 的兩個實體,R表示關系。將空間區(qū)域圖設為Zsp=(v,qsp),qsp是帶方向性的空間相對位置,qu,v和qv,u是對稱方向的邊。原始GCN不包含有向邊,因此空間圖中不同的方向要通過變換矩陣進行變換。這里采用帶多頭注意力機制的GCN對空間關系進行推理。把每個注意頭的輸出特征連接起來,通過聚焦重要邊來挖掘空間關系,得到相應的區(qū)域圖像表示 v′ i= nN=1ReLU (∑ Wdnir(i,j)·
(αnv)),其中,N表示頭注意力的數(shù)量,W是一ij j 個
式中,Wβ為變換矩陣,dir(i,j)是選擇對每條邊方向性敏感的變換矩陣。
將空間關系的局部特征v′i拼接構建圖像連接圖M=(V,H),計算M中每個節(jié)點對的相似度,用softmax層歸一化得到最終的相似度矩陣。應用具有殘差連接網絡的GCN更新M的節(jié)點,最終輸出帶有關系感知的局部圖像特征S= {S1,S2,…,Sn}。將S與全局圖像特征融合,并輸入到Transformer編碼器中建模局部-全局圖像關系。
2. 2 文本關系挖掘
針對文本數(shù)據(jù)的處理,將局部圖像特征S作為線索引導關注文本信息,獲取局部圖像對應的全局文本特征,并構建文本鏈接圖,進而挖掘文本關系。
給定一個句子,將其分割成子詞序列,加入句子開頭標記[CLS]和結尾標記[SEP],生成文本序列,表示為W= {[CLS],w,w,…,w,[SEP]}1 2 n 。將W輸入到預訓練的MacBERT編碼器得到全局文本特征向量H={h1,h2,…,hn},將H與局部圖像關系融合,通過語義相關的圖像更好地獲得全局文本特征表示。
采用Bi-GRU網絡從輸入句子W中提取特征向量,將句子中的詞節(jié)點分為對象節(jié)點o 、關系m 節(jié)點rmn和屬性節(jié)點am,s三類,依此構建文本連接圖:1)如果對象o具有屬性m am,s,則存在從am,s到om 的有向邊;2) 如果兩個對象o m 和 o n 與 一 個 動n詞相關,則文本連接圖中的方向分別從om指向rmn,從rmn指向o ,使用三元組{o ,m r ,o}來表n 示m mn這組關系。生成的文本連接圖中的每個節(jié)點在經過嵌入層處理后,表示為具有h維的特征向量,調用如下公式實現(xiàn)對象特征的更新:
其中,D為度矩陣,W1和W2為要學習的參數(shù), lC表示第l層文本節(jié)點特征,C0∈R(p1+p2)×h是通過連接對象和屬性節(jié)點而得到的節(jié)點特征矩陣。定義關系三元組節(jié)點on∈{sbj(om)}來表示帶方向的出邊,計算所有三元組中om的發(fā)生次數(shù),如下式:
依據(jù)發(fā)生的次數(shù)捕獲對象o中所有可能的關系m 信息,o的關系特征m fRm計算公式為:
p),1 gin和gout表示將向量映射到h維空間的全連接網絡。
通過GCN對得到的文本關系進行聚類得到局部文本特征,用C={c1,c2,…,cn}來表示,將其輸入到關系融合模塊,實現(xiàn)局部-全局文本信息融合。
3 局部-全局圖像關系建模
本文使用多頭自注意力的Transformer編碼器學習圖像關系特征。將圖像區(qū)域特征S和全局特征E連接起來,將其輸入到Transformer編碼器,將第y層的輸出特征送到y(tǒng)+1層的多頭自注意力模塊,進行殘差連接和層標準化操作;使用一個位置級前饋網絡,通過殘差連接和層歸一化來處理多頭自注意輸出,其表示如下:
Xy+1=LN(Uy+1+FFN(Uy+1)) , (10)其中,F(xiàn)FN(·)是位置級前饋網絡。將聯(lián)合特征Xy分成平均池化Xlocal和全局圖像表示Xglobal,平均池化Xlocal捕獲到圖像區(qū)域特征下的全局圖像表示X′global,計算公式如下:
其中,W∈Rd×k和W′∈Rd×k是權重矩陣,b和b′為偏差,σ(·)是Sigmoid激活函數(shù)。
利用自適應門控融合機制將全局圖像特征
V′ =δ☉X′global+ (1 -δ)☉Xglobal,
通過自適應門控融合機制及時過濾掉冗余的視覺信息,采用L2方法進行歸一化處理,從而生成圖像區(qū)域-全局語義交互特征 V′ ={v′1,v′2,…,v′n},當捕獲到包含隱藏關系的整個圖像最終表示后,將其輸入到圖文關系融合模塊,實現(xiàn)圖像和文本數(shù)據(jù)間的細粒度語義關聯(lián)。
4 圖文關系融合
通過模態(tài)內關系挖掘得到了圖文數(shù)據(jù)的局部、全局特征,在此基礎上,將區(qū)域圖像信息作為線索來引導局部、全局文本關系融合,進而完成圖文間隱含的語義關系挖掘。
為獲取更全面的文本表示,將圖像信息作為線索挖掘語義相關的文本信息,并輸出文本表示。分別使用兩個全連接層將圖像區(qū)域和全局文本中的詞表示轉換為相同的維度,計算圖文數(shù)據(jù)對之間的相似度,計算公式如下:
sihjgij= ,i∈ [1,M],j∈ [1,M] , (13)sihj
其中,gij代表第 i個區(qū)域和第 j個詞間的相似性。利用MacBERT預訓練模型提取的局部特征,計算其注意權重,計算公式如下:
將局部特征gij應用到注意力公式中計算其權重αij,通過權重參數(shù)αij對每個詞級特征進行加權組合,從而得到第 i個區(qū)域對應的文本特征向量,聚合具有語義相似性的文本向量,輸出融合局部圖像語義信息的全局文本特征向量C,并通過全連接層將全局文本表示嵌入到相同維數(shù)的公共空間,生成局部文本表示C和局部圖像引導的全局文本表示C^,再進行文本關系加權求和運算,如下式:
其中,γ是調整局部和全局特征比例的參數(shù),采用L2正則方法歸一化最終的文本表示。計算得到包含隱藏關系的圖像特征嵌入V′= {V′1,V′2,…,
V′},以及帶有潛在語義關聯(lián)的文本特征嵌入C′n ={C′1,C′2,…,C′n}。
基于提取的圖像特征V′和文本特征C′,使用三元組排序損失函數(shù)進行模態(tài)間關系挖掘。給定一個具有語義相關性的圖像、文本對,最難區(qū)分的負樣本(考慮到計算效率問題,只關注小批量數(shù)據(jù)
中最難區(qū)分的負樣本)記作:V^= argmaxf(t,C′),
其中,a為設定的閾值,f(a,b)是衡量a和b之間的語義相似度函數(shù),(V′,C^)與(V^,C′)表示給定的負樣本對,(V′,C′)為正樣本對。調用三元組損失函數(shù)拉近相關性較高樣本之間的距離,推遠低相似度樣本間距,進而挖掘圖文數(shù)據(jù)間的語義關系,實現(xiàn)圖文語義關系融合。
5 實驗及結果分析
為驗證本文方法的有效性,在Flickr30K[13]、MSCOCO[14]數(shù)據(jù)集上進行方法實驗。通過多次實驗確定模型的基本參數(shù),將其設置為:1)全局文本特征處理時,預訓練過程中句子的最大長度設為128,批次大小設為64,將MacBERT的初始學習率設為10-4。 2)全局圖像特征處理中,將圖像縮放至600×1 000分辨率,通過對圖像進行歸一化權重處理防止信息失真,將SD嵌入向量m設為2 048維。 3)局部圖像關系挖掘中,提取每張圖像的前48個區(qū)域,獲得每個區(qū)域的2 048維特征,并降維到1 024維特征;用于調整局部和全局文本特征比例的參數(shù)γ設為0. 5;將基于三元組損失函數(shù)中涉及的可調參數(shù)α設置為0. 4。 4)模型訓練時,使用Adam優(yōu)化參數(shù),實驗批量大小設為 64;Flickr30K數(shù)據(jù)集上的訓練迭代次數(shù)為30,初始學習率設為0. 000 2,并逐步衰減,每15個周期減0.1;在MSCOCO數(shù)據(jù)集上,模型訓練迭代20次,初始學習率設為0. 000 4,每10個周期衰減0. 1。
5. 1 方法實驗
使用Recall@k(縮寫為R@k)評價指標,將本文方法的實驗結果與VSM、SGRAF等13種主流方法進行對比,結果如表1所示。
從對比結果來看,在Flickr30K數(shù)據(jù)集上,本文方法以文檢圖的結果表現(xiàn)最優(yōu),以圖檢文的R@ 1和R @ 10平均提升0. 5%和1. 8%;在MSCOCO-1K數(shù)據(jù)集上,以文檢圖的R@ 5和R@10平均提升0. 2%;在MSCOCO-5K數(shù)據(jù)集上,以文檢圖的R @ 5和R @ 10平均提升1. 2%和0. 5%,以圖檢文的結果最優(yōu)。在MSCOCO-1K數(shù)據(jù)集上,本文方法以圖檢文的R@ 1、R@ 5、R@ 10均低于VSM方法,其可能的原因是VSM在進行圖文關系融合時,使用信息熵的方法去除視覺噪聲,而本文方法通過跨模態(tài)注意力機制和多頭注意力機制的Transformer編碼過濾視覺噪聲,因此在小數(shù)據(jù)集中模型參數(shù)沒有得到充分訓練,使得性能下降,如對比Flickr30K、MSCOCO-1K和MSCOCO-5K數(shù)據(jù)集上以圖檢文任務的R@ 10,隨著數(shù)據(jù)集規(guī)模增加,本文方法依次相比VSM方法性能變化是-0. 1%、+0. 6%、+1. 8%。
從表1的實驗結果可知,本文方法在統(tǒng)一公共空間中融合了局部和全局特征關系,可以更全面地挖掘圖文數(shù)據(jù)間的相似關系,在效果上優(yōu)于只考慮模態(tài)內或模態(tài)間關系的方法。此外,相對于融合了模態(tài)內關系和模態(tài)間關系的方法,本方法通過基于多頭自注意力機制的Transformer編碼器來充分捕獲局部、全局信息,可以挖掘到更精準的圖像關系。
5. 2 消融實驗
為驗證本文方法的核心模塊對方法效率的影響,選擇代表性的MSCOCO-1K小數(shù)據(jù)集和Flickr30K大數(shù)據(jù)集進行消融實驗。在局部文本關系挖掘模塊中探究了基于GCN文本關系聚類算法的有效性,在全局圖像特征提取模塊里評估了壓縮特征方法對模型性能的影響,實驗結果如表2所示。
從表2的消融結果可以看出,沒有經過GCN文本關系聚類得到的結果遠低于原模型,這表明,在數(shù)據(jù)挖掘與知識抽取過程中,挖掘與目標對象有語義關聯(lián)的知識可以使語義表達更加完整;去掉壓縮特征方法后,模型性能明顯下降,由于缺少了全局圖像特征提取的處理,圖像關系挖掘僅通過局部特征,不足支撐全部圖像關系的捕獲,從而影響了檢索效果;w/ SD的結果表明語義詞典用于將類似的視覺語義聚合到相同的圖像特征中,其嵌入向量的不同維度影響著模型效果,如果維度設定過小,相當于把很多圖像特征映射到一個相同詞上,難以區(qū)分更細粒度的類別,更高維度的語義詞典可以學習到更細粒度和完整的圖像語義,然而,過細的圖像語義又容易被劃分到不同圖像特征中,不利于圖像語義對齊,通過消融實驗的對比結果可知,將SD維度設定為2 048維得到的模型性能最好。
此外,本文分析了局部-全局圖像關系建模與圖像文本知識融合的影響,實驗結果如表3所示。
從表3的第一行可以看出,局部-全局關系建模中沒有考慮局部特征和全局信息間的關系時,模型性能明顯降低,只將局部特征輸入自注意力機制的Transformer編碼器來挖掘圖像中復雜的隱藏關系,缺乏了全局上下文信息的指導,難以獲得具有區(qū)分性的圖像表示。當去掉在全局文本中融合圖像知識的模塊,不考慮局部特征和文本間的細粒度作用,只將純文本作為最終文本表示,從消融實驗結果可以發(fā)現(xiàn),模型在兩個數(shù)據(jù)集上的以文索圖任務上的性能平均下降了5. 3%,在以圖索文任務中平均下降了6. 8%,這表明了局部圖像引導的文本關系融合模塊的重要性。使用全局文本來指導局部圖像特征提取,獲得混合全局文本信息的局部圖像特征表示,從實驗結果可知,融合文本知識進行圖像特征提取后,性能沒有得到改善,而且在R@ 1上從文本到圖像的平均檢索率下降了6. 85%,其原因可能是,一些無意義詞聚焦的圖像區(qū)域會引入噪聲,從而影響最終圖像表示。因此,從上述消融實驗表可以得出,每個關鍵部分都對實驗結果產生了積極影響。
5. 3 參數(shù)敏感性分析
在進行圖文關系融合時,使用基于困難樣本的三元組損失函數(shù),來衡量不同模態(tài)間相似性關系與關系融合效果,通過不斷調整三元組函數(shù)中的參數(shù),找到模型最佳的參數(shù)匹配,然后設置參數(shù)β值。若圖文關系融合效果好,則最終圖文檢索效率會相應提高,圖5和圖6是在Flickr30K數(shù)據(jù)集上,以文索圖和以圖索文兩個任務上不同參數(shù)β的檢索效果,其中縱坐標表示檢索率(%),橫坐標為參數(shù)β值。
從圖5以文索圖檢索結果可以看出,當β=0. 4,本模型在R@ 1、R@ 5、R@ 10中都取得了最高的性能。如圖6所示,類似地,β= 0. 4情況下,本模型在以圖索文任務的R@ 1、R@ 5、R@ 10中都取得了最佳性能。由此可見,參數(shù)β=0. 4時,本實驗圖文關系融合效果最好,可取得最佳檢索性能。
6 總結
本文提出了局部-全局特征引導的多級關系分析與挖掘方法(LGMRAM),通過學習圖文數(shù)據(jù)的局部-全局特征來挖掘其隱藏的語義關聯(lián),實現(xiàn)深層圖文關系融合,在Flickr30K和MSCOCO-5K數(shù)據(jù)集上的實驗結果相對13種主流方法,在R@ 1和R@ 10上均有所提升,通過對實驗結果分析可知,本文方法能夠較好地解決圖文關系挖掘方法中存在的圖文關系融合效果不佳,以及檢索匹配不精準等問題。此外,通過消融實驗驗證了在本文方法中,通過圖文特征融合捕獲圖文數(shù)據(jù)內部,以及數(shù)據(jù)間的語義相關性,可以有效提升圖文數(shù)據(jù)關系挖掘的精準性。
在未來研究中,可以考慮在公共空間中加入視頻數(shù)據(jù),挖掘視頻中的實體和關系信息,嘗試進行面向知識遷移的小樣本視頻語義關系學習。
參考文獻
1 FROM E A CORRADO G S SHLENS J et al. Devise a deepvisual-semantic embedding model J . Advances in NeuralInformation Processing Systems 2013 2013 26 2121-2129.
2 WANG T XU X YANG Y et al. Matching images and text withmulti-modal tensor fusion and re-ranking C ∥ Proceedings of the27th ACM International Conference on Multimedia. New York ACM Press 2019 12-20.
3 MAFLA A DEY S BITEN A F et al. Multi-modal reasoninggraph for scene-text based fine-grained image classification andretrieval C ∥Proceedings of the IEEE Winter Conference onApplications of Computer Vision. Piscataway IEEE 2021 4023-4033.
4 LEE K H CHEN X HUA G et al. Stacked cross attention forimage-text matching C ∥Proceedings of the European Conferenceon Computer Vision. Cham Springer 2018 201-216.
5 HUANG Y WANG W WANG L. Instance-aware image andsentence matching with selective multimodal lstm C ∥Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition. Piscataway IEEE 2017 2310-2318.
6 YAO T PAN Y LI Y et al. Exploring visual relationship forimage captioning C ∥Proceedings of the European Conference onComputer Vision. Cham Springer 2018 684-699.
7 WANG Z LIU X LI H et al. Camp Cross-modal adaptivemessage passing for text-image retrieval C ∥Proceedings of theIEEE International Conference on Computer Vision. Piscataway IEEE 2019 5764-5773.
8 SONG Y SOLEYMANI M. Polysemous visual-semanticembedding for cross-modal retrieval C ∥Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.Piscataway IEEE 2019 1979-1988.
9 ZHANG Q LEI Z ZHANG Z et al. Context-aware attentionnetwork for image-text retrieval C ∥Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.Piscataway IEEE 2020 3536-3545.
10 LI Y ZHANG D MU Y. Visual-semantic matching by exploringhigh-order attention and distraction C ∥ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway IEEE 2020 12786-12795.
11 DONG X LONG C XU W et al. Dual graph convolutionalnetworks with transformer and curriculum learning for imagecaptioning C ∥ Proceedings of the 29th ACM InternationalConference on Multimedia. New York ACM Press 2021 2615-2624.
12 LIU Z ZHENG W S. Learning multimodal relationshipinteraction for visual relationship detection J . PatternRecognition 2022 2022 132 0031-3203.
13 YOUNG P LAI A HODOSH M et al. From image description to visual denotations New similarity metrics for semanticinference over event descriptions J . Transactions of th eAssociation for Computational Linguistics 2014 2014 2 67-78.
14 LIN T Y MAIRE M BELONGIE S et al. Microsoft coco" Common objects in context C ∥ European Conference o nComputer Vision. Cham Springer 2014 740-755.
15 DIAO H ZHANG Y MA L et al. Similarity reasoning an dfiltration for image-text matching C ∥Proceedings of the AAAIConference on Artificial Intelligence. Vancouver Canada Association for the Advancement of Artificial Intelligence 2021 1218-1226.
16 MA L LU Z SHANG L et al. Multimodal convolutional neura lnetworks for matching image and sentence C ∥Proceedings of th eIEEE International Conference on Computer Vision. Piscataway IEEE 2015 2623-2631.
17 FAGHRI F FLEET D J KIROS J R et al. VSE++ Improvin gvisual-semantic embeddings with hard negatives C ∥Proceeding sof the British Machine Vision Conference. Newcastle UK 2018 12.
18 GU J CAI J JOTY S R et al. Look imagine and match" Improving textual-visual cross-modal retrieval with generativ emodels C ∥Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Piscataway IEEE 2018 7181-7189.
19 HUANG Y WU Q SONG C et al. Learning semantic conceptsand order for image and sentence matching C ∥ Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition. Piscataway IEEE 2018 6163-6171.
20 LI K ZHANG Y LI K et al. Visual semantic reasoning forimage-text matching C ∥Proceedings of the IEEE InternationalConference on Computer Vision. Piscataway IEEE 2019 4654-4662.
21 WANG S WANG R YAO Z et al. Cross-modal scene graphmatching for relationship-aware image-text retrieval C ∥Proceedings of the IEEE Winter Conference on Applications ofComputer Vision. Piscataway IEEE 2020 1508-1517.
22 WEI X ZHANG T LI Y et al. Multi-modality cross attentionnetwork for image and sentence matching C ∥ Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.Piscataway IEEE 2020 10941-10950.
23 郭瑞萍 王海榮 王棟.圖文數(shù)據(jù)的多級關系分析與挖掘方法 J .北京航空航天大學學報 2024 50 2 684-694.GUO R P WANG H R WANG D. Multilevel relation analysisand mining method of image-text J . Journal of Beijing Universityof Aeronautics and Astronautics 2024 50 2 684-694.
Analysis and mining method of multi-level relations between image andtext guided by local-global features
WANG Hairong1 2"GUO Ruiping1 XU Xi1 ZHONG Beijing1
1. School of Computer Science and Engineering North Minzu University Yinchuan Ningxia 750021 China"2. The Key Laboratory of Images amp; Graphics Intelligent Processing of State Ethnic Affairs Commission"Yinchuan Ningxia 750021 China
Abstract Text and image data with semantic relevance can enhance semantic understanding from different perspectives due to theircomplementarity. Therefore the key to make full use of image and text data lies in the mining of semantic relations between imageand text. In order to solve the problems of insufficient mining of deep semantic relations of image and text data and inaccurateprediction in retrieval stage an analysis and mining method of multi-level relations between image and text guided by local-globalfeatures is proposed in this paper. Transformer with multi-head self-attention mechanism is used to model image relations. Byconstructing an image-guided text attention module the fine-grained relationship between image region and global text is explored.Furthermore the local and global features are fused to effectively enhance the semantic relationship between image and text data.To verify the proposed method the experiments were carried out on the data sets of Flickr30K MSCOCO-1K and MSCOCO-3K.Compared with 12 other methods such as VSM and SGRAF the recall rate of searching for image by text in this method hasincreased by 0. 62% on average and the recall rate of searching for text by image has increased by 0. 5% on average. Theexperimental results well verify the effectiveness of this method.
Keywords" image and text relation mining multi-headed self-attention mechanism local-global features