中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A DOI:10.19907/j.0490-6756.240368
The research on prompt-based natural language visual search
ZENGGuang1,PENGDe-Zhong2,SONG Xiao-Min3,ZHENGHui-Ming3, LIUZheng,PURui-Tao2,XIAO Qin-Yin4 (1.Chengdu Aircraft Design amp; Research Institute,Chengdu 61oo91,China; 2.College of Computer Science, Sichuan University,Chengdu 61O065,China; 3.Sichuan National Innovation New Vision UHD Video Technology Company Limited,Chengdu 61Oo95,China; 4.Sichuan Institute of Computer Sciences,Chengdu 6lOO41,China)
Abstract:Asa technology for facilitating natural language visual search,Visual Semantic Embedding (VSE)aims to learn the shared representation of cross-modal samples in a common subspace,and measure the similarity between samples based on their distance in this common subspace to support cross-modal retrieval.Existing methods usually focus on improving representations in common subspaces and accurately measuring similarity to improve cross-modal retrieval performance.However,due to the unequal information density of textand image modalities,i.e.,images usually have richer semantic information than text,it is difficult to further improve performance by directly using original samples for training.To addressthis problem, this paper proposes a prompt-based VSE method,called PrpVSE ,which integrates top-down conceptual semantics from images to enrich textual semantic information and improve the accuracy of cross-modal similar ity measurements to mine rich visual semantic associations.Specifically, PrpVSE uses a Faster-RCNN based on a top-down attention network to extract salient regions and assign concept categories to images, which enables deeper exploration of potential visual information in the image.During training,PrpVSE integrates these categories conceptual prompt information into the text to enrich its semantic information,which canhelp themodel learn visual semantic associations more efectively.Toverify the effctiveness of the method,the authors conduct extensive experiments on two public datasets,i.e.,F(xiàn)lickr3OK and MSCOCO. The results show that the prompt mechanism proposed in the method can effectively improve performance,surpassing eight state-of-the-art baseline methods in recent years.For example,on the Flickr30K test set,the retrieval metrics Recall@1,5,and 1O reached 78. 2% , 95.4% ,and 97.3% respectively.
Keywords: Cross-modal learning; Cross-modal retrieval; Visual semantic embedding
1引言
隨著互聯(lián)網(wǎng)的快速發(fā)展和信息量的爆炸性增長,圖文數(shù)據(jù)12成為人們獲取信息和表達(dá)觀點的重要方式之一.然而,在海量的圖像和文本信息中準(zhǔn)確而高效地檢索所需內(nèi)容一直是一個具有挑戰(zhàn)性的問題.深度學(xué)習(xí)技術(shù)的崛起為圖文檢索帶來了革命性的變革,通過學(xué)習(xí)數(shù)據(jù)中的復(fù)雜模式和語義信息,使得系統(tǒng)能夠更智能地理解和推斷圖像與文本之間的關(guān)聯(lián)關(guān)系.一種經(jīng)典的解決方法是視覺語義嵌人(VSE)技術(shù)[3-5],其通過將圖像和文本映射到一個維度統(tǒng)一的公共子空間中,通過拉近公共子空間中正跨模態(tài)樣本對的距離推遠(yuǎn)負(fù)樣本對間的距離來實現(xiàn)跨模態(tài)樣本的表征,表征間的距離或者相似度被用于圖文檢索.然而,由于多模態(tài)數(shù)據(jù)存在的異質(zhì)性,利用視覺語義嵌人技術(shù)來學(xué)習(xí)跨模態(tài)視覺語義關(guān)聯(lián)是具有挑戰(zhàn)性的.
現(xiàn)有的提升視覺語義嵌入技術(shù)性能的方法通常分為兩類:一類為基于表示的方法;另一類則是基于損失函數(shù)的方法.前者通常利用特定技術(shù)來增強(qiáng)特征的表征能力,例如基于圖網(wǎng)絡(luò)的VSRN[4],基于實例語義關(guān)系增強(qiáng)的HREM[5],以及基于特征聚合技術(shù)的方法VSE[6等.其中VSRN通過利用區(qū)域關(guān)系推理和全局語義推理來增強(qiáng)視覺表示,以實現(xiàn)更好的相似性測量.VSE則通過一個可學(xué)習(xí)廣義的池化函數(shù)來自適應(yīng)地聚合局部特征,從而獲得更為合理的全局表示.與此不同,基于損失函數(shù)的方法通常聚焦于現(xiàn)有損失函數(shù)的不足,即三元排名損失,TRL(TripletRankingLoss)容易出現(xiàn)優(yōu)化不足的現(xiàn)象.例如VSE-
2AD[7] 提出的自適應(yīng)目標(biāo)損失通過對齊和均勻度以自適應(yīng)地控制負(fù)樣本個數(shù)達(dá)到提升優(yōu)化效率.雖然視覺語義嵌入技術(shù)作為用于圖文檢索常用方案,但由于缺乏圖像和文本間細(xì)粒度建模,性能很容易受限制.為此,一些研究者[6-9嘗試將圖像的局部顯著性區(qū)域與文本的單詞建立細(xì)粒度關(guān)聯(lián),從而推理相似性.例如基于注意力的方法SCAN[8]、IMRAM[9]、以及 SAF[10] 等和基于圖神經(jīng)網(wǎng)絡(luò)的SGR[10]、GSMN[1]等.SCAN通過利用堆疊注意力機(jī)制來構(gòu)建文本和圖像的局部跨模態(tài)關(guān)聯(lián).SAF借助注意力機(jī)制過濾不重要的局部關(guān)聯(lián)進(jìn)而關(guān)注更重要的語義信息來提高跨模態(tài)檢索性能.然而,細(xì)粒度的方法通常要求對盡可能涉及的跨模態(tài)對進(jìn)行相似度推理,其成本遠(yuǎn)大于基于視覺語義嵌人技術(shù)的方法,因此其不適用于真實大規(guī)模場景下的快速圖文檢索.
如上所述,在當(dāng)前的研究中,視覺語義嵌入方法在圖文檢索任務(wù)上取得了顯著的性能提升,主要集中在改進(jìn)表示或者優(yōu)化目標(biāo)方面.然而,這些方法往往基于一個隱式假設(shè),即文本和圖像模態(tài)之間的信息密度是相對平衡的,也就是它們包含的語義信息量應(yīng)該相差不大.然而,在實際應(yīng)用中,圖像作為一種感知模態(tài)能夠傳達(dá)更加豐富的信息,這為表示學(xué)習(xí)引入了更大的不確定性.相比之下,文本通常是對某一事件或目標(biāo)的單一描述,其信息量往往相對有限.這引發(fā)了一個關(guān)鍵問題:如何通過補充文本信息量的方式來提升信息密度,從而實現(xiàn)更為合理的跨模態(tài)學(xué)習(xí),提高圖文檢索的性能.
為了回答和驗證上述問題,本文通過結(jié)合現(xiàn)有主流視覺語義嵌入方法和提示學(xué)習(xí)概念,利用構(gòu)建提示來增強(qiáng)文本信息量.提示學(xué)習(xí)最初用于大語言模型,其旨在設(shè)計和編寫提示文本以引導(dǎo)深度模型生成符合特定要求的語言輸出.提示學(xué)習(xí)是一種精心設(shè)計的策略,通過選擇合適的詞匯、語法結(jié)構(gòu)、上下文信息和主題內(nèi)容以及運用多種技巧和策略來有效引導(dǎo)和影響大語言模型的生成過程和輸出結(jié)果.在自然語言處理、文本自動生成、智能對話系統(tǒng)以及信息檢索等多個領(lǐng)域,提示學(xué)習(xí)都展現(xiàn)出了不可或缺的重要價值,為推動這些領(lǐng)域的技術(shù)進(jìn)步和應(yīng)用創(chuàng)新提供了強(qiáng)大的支持.為此,一個自然的想法就是通過設(shè)計模型或者策略來提取圖像中潛在的概念信息,并結(jié)合概念提示將其與原始訓(xùn)練文本結(jié)合,用以豐富信息量,進(jìn)而在訓(xùn)練過程中促進(jìn)跨模態(tài)學(xué)習(xí).因此,本文提出了一種基于提示改進(jìn)的視覺語義嵌入方法,即PrpVSE.為了提取圖像中潛在的概念信息,PrpVSE首先通過利用基于自上而下注意力網(wǎng)絡(luò)的Faster-RCNN檢測器[12-14]來提取顯著性區(qū)域并將其分配的類別標(biāo)簽作為圖像潛在的概念信息:然后,PrpVSE利用一個動態(tài)選取的策略來選取所提取的概念信息并利用提示結(jié)合原始文本形成一條增強(qiáng)的文本信息.這樣做的好處在于不需要對于原始視覺語義方法進(jìn)行過多的調(diào)整.為了將其與標(biāo)準(zhǔn)視覺語義嵌人方法的訓(xùn)練過程有機(jī)結(jié)合,PrpVSE將基于提示增強(qiáng)的文本同樣輸人文本編碼器并與相應(yīng)圖像進(jìn)行跨模態(tài)學(xué)習(xí),進(jìn)而保證訓(xùn)練過程中文本的信息密度,進(jìn)而提升圖文檢索的性能.本文的貢獻(xiàn)和創(chuàng)新如下:
(1)我們提出一種端到端的新方法,即PrpVSE,其通過利用Faster-RCNN檢測器提取的概念信息來提升文本的語義信息密度,從而保證更為穩(wěn)健的跨模態(tài)學(xué)習(xí).
(2)不同于現(xiàn)有提示學(xué)習(xí)主要運用于大型預(yù)訓(xùn)練模型,本文通過借助生成概念信息提示來提升輕量級視覺語義嵌入方法的性能,大大增強(qiáng)了其應(yīng)用性.
(3)我們在兩個通用的公開圖文數(shù)據(jù)集上進(jìn)行了大量的實驗.通過對比8個先進(jìn)的基線模型驗證了 PrpVSE 的有效性和優(yōu)勢.
本文后續(xù)章節(jié)具體安排如下:第2節(jié)主要闡述了本文的方法和模型;第3節(jié)報告了主要的對比試驗以及消融分析來驗證所提方法;第4節(jié)對本文工作進(jìn)行總結(jié),探討本文方法的局限性以及未來可能的研究方向.
2 本文方法
本節(jié)主要介紹本文所提出的方法 PrpVSE ,第2.1節(jié)介紹PrpVSE所用的網(wǎng)絡(luò)結(jié)構(gòu)(圖1);第2.2節(jié)介紹如何利用Faster-RCNN[10]來提取概念類別并用于構(gòu)建提示;第2.3節(jié)詳細(xì)闡述 PrpVSE 的訓(xùn)練過程.
2.1 視覺語義嵌入模型
為了便于描述,我們首先定義一些符號.符號含義如表1所示.
具體來說,在視覺語義嵌入模型中,模型的編碼器首先將輸入文本和圖像映射到維度為 d 的統(tǒng)一的公共子空間 Rd .我們分別將模態(tài)編碼器定義為 f(?,ΘI) 和 g(?,ΘT) ,其中 θI 為圖像編碼器的網(wǎng)絡(luò)參數(shù), OT 為文本編碼器的網(wǎng)絡(luò)參數(shù).為了方便,第 i 對圖文對 (Ii,Ti) ,本文公共子空間中的特征表示為 f(Ii)∈Rd 和 g(Ti)∈Rd .在本文中, PrpVSE 沿用 VSE∞ 中使用的編碼器.對于圖像編碼器f(?,ΘI) ,采用MLP和殘差連接來轉(zhuǎn)換圖像 Ii 的局部特征并利用廣義池化算子(GeneralizedPoolingOperator,GPO)來進(jìn)行特征自適應(yīng)聚合特征.對于文本編碼器 g(?,ΘT) ,采用Bi-GRU網(wǎng)絡(luò)作為主干模型將文本單詞編碼成特征.同樣地,文本模態(tài)也采用GPO來進(jìn)行特征聚合.但與此不同的是,為了更好地表征句子語義, PrpVSE 采用預(yù)訓(xùn)練Glove向量[3.15]來初始化文本編碼器的嵌人層.本文采用余弦相似度來衡量圖文間的相似度.對于任意圖文對 (Ii,Tj) ,相似度被表示為式(1)所示.
2.2概念語義提示構(gòu)建
如前所述,圖像模態(tài)和文本模態(tài)的信息密度是不平衡的,通常來說,圖像包含的語義信息更多.為了豐富文本的語義信息.我們采用概念檢測器來提取圖像的顯著性區(qū)域并利用所分配類別形成提示.具體來說,給定任意圖像1,我們使用預(yù)訓(xùn)練的基于自上而下注意力網(wǎng)絡(luò)的Faster-RCNN檢測器來提取顯著性區(qū)域,其中每個區(qū)域都分配一個語義單詞和置信度,表示為式(2)所示.
R=FastterRCNN(I)={(wm,cm)}m=1M (2)其中, M 是檢測的區(qū)域個數(shù),本文中我們統(tǒng)一設(shè)置為 36;wm 為檢測的語義類別,例如'bridge', 'trees′ 'vest′ ,'shoe','jeans'; cm 為相應(yīng)的置信度分?jǐn)?shù),其值越高代表其分配的概念語義類別越可信,給定一個原始文本 T=(t1,t2,…,tL),L 為文本序列長度,tj 為文本的第 j 個單詞,我們擬采用式(3)如下形式提示.
P (3)其中,Prompt表示一些提示模板.在本文中,Prompt被定義為“The photo includes objectsof\".Faster-RCNN檢測示例如圖2所示.在實際訓(xùn)練過程中,式(3)被視為一個提示增強(qiáng)的文本,我們將其表示為 T .然而,上述做法會帶來一個不可忽視的問題,即概念語義類別很容易出錯導(dǎo)致提示信息不準(zhǔn)確,從而引入噪聲問題,為此,我們引入一個動態(tài)選擇機(jī)制用以解決此類問題.具體來說,我們建議采用一個閾值來過濾不可靠的概念語義.同時,我們期望隨著訓(xùn)練的進(jìn)行,概念語義越來越準(zhǔn)確.為此,當(dāng)且僅當(dāng)所分配的概念語義類別的置信度 w 滿足如下條件才參與式(3)的構(gòu)建,即wgt;min(ζ+0.02×EPoch,1) 其中 5 為初始值,根據(jù)經(jīng)驗將 ζ 設(shè)置為0.5,即表示實驗開始時置信度大于0.5的語義類別才保留,EPoch表示當(dāng)前訓(xùn)練迭代輪數(shù).
2.3 訓(xùn)練損失
PrpVSE的訓(xùn)練目標(biāo)包括兩部分.一部分為原始文本與原始圖像的跨模態(tài)損失,其形式采用廣泛使用的三元排名損失TRL.具體來說,對于輸入的圖文對 (I,T) ,損失函數(shù)定義為式(4形式.
其中, δ 為邊際參數(shù); 為訓(xùn)練批次中圖像 I 的最難負(fù)樣本;
為訓(xùn)練批次中文本 T 的最難負(fù)樣本.另一部分為使用提示增強(qiáng)的文本與原始圖像計算的損失,其定義為式(5)形式.
其中 TI 為按照式(3)構(gòu)建的提示增強(qiáng)文本.最終,PrpVSE的總訓(xùn)練損失 L 為式(6)形式.
L(I,T)=Lori(I,T)+Laug(I,T)
3實驗
本節(jié)主要介紹本文所進(jìn)行的實驗用以驗證所提出方法的優(yōu)勢和有效性.具體來說,3.1節(jié)介紹了所用數(shù)據(jù)集和實現(xiàn)細(xì)節(jié).3.2節(jié)中報告了對比實驗結(jié)果.3.3節(jié)實施了詳盡的消融實驗以驗證所有模塊都對性能有所增益,表明了PrpVSE設(shè)計的合理性.
3.1數(shù)據(jù)集和實現(xiàn)細(xì)節(jié)
為了驗證 PrpVSE ,本文在兩個廣泛使用的圖文數(shù)據(jù)集上進(jìn)行了廣泛實驗,即Flickr3OK和MS-COCO[17].Flickr30K是一個從互聯(lián)網(wǎng)網(wǎng)站收集并精心處理的圖像文本數(shù)據(jù)集.它包含31000張圖像,并且每張圖像包括5個相對應(yīng)的文本.本文實驗遵循SCAN中的設(shè)置,即分別將1000張圖像用于驗證和測試,其余圖像用于訓(xùn)練.MS-COCO是微軟公司維護(hù)的大型數(shù)據(jù)集,由123287張圖像組成.同樣地,它與Flickr3OK類似,即一張圖像對應(yīng)于5個具體的文本描述.我們同樣遵循SCAN8中的設(shè)置和劃分.113287張圖像用于訓(xùn)練,5000張用于驗證,5000張用于測試.為了公平,所有圖像均利用FasterRCNN提取36個顯著性區(qū)域并且每個區(qū)域被編碼為2048維的向量.如VSE ∞[6] 中的設(shè)置一樣,公共子空間維度為1024,我們使用AdamW來優(yōu)化我們的網(wǎng)絡(luò)模型并且初始學(xué)習(xí)率為0.0005.總訓(xùn)練輪數(shù)為25,隨著訓(xùn)練的進(jìn)行,經(jīng)過15輪后,學(xué)習(xí)率縮小10倍.閾值被設(shè)置為0.5.我們的評價指標(biāo)召回率@1,5,10(簡寫為 R(ω1,R(ω5,R(ω10) 以及它們的求和值用于評價檢索的性能.
3.2對比試驗結(jié)果
為了驗證本文方法的有效性,我們將PrpVSE與近年來8個先進(jìn)方法進(jìn)行比較,分別為:SCAN[8]、CAMP[18]、CVSE[15]、 SAF[10] 、SGR[10]、
VSE ∞[6] 、MV-VSE[19]以及GLFN[20].表2和表3給出了Flickr30K100O測試結(jié)果、MS-COCO5-fold1000測試結(jié)果和MS-COCO5K測試結(jié)果.從結(jié)果來看,本文方法在各個測試集上表現(xiàn)出了明顯的優(yōu)勢.具體來說,在Flickr3OK1OO0測試中,在總體性能上本文方法超過最好的基線方法MV-VSE0.7個點.在MS-COCO5-fold1000測試上,本文方法具有最好的總體性能523.3并超過最好基線1.4個點.同時,在MS-COCO5K測試上,本文方法超過了所有的基線模型,在文本檢索方面, R@1 取得了57.8點的最好性能,在圖像檢索方面, R@1 取得了41.2點的性能,總體性能(Sum)超過最好基線方法4.6個點,這足以證明所提方法的優(yōu)勢.
3.3 消融實驗分析
為了驗證 PrpVSE 中應(yīng)用的每個模塊的有效性,表4報告了Flickr3OK數(shù)據(jù)集上消融實驗的詳細(xì)結(jié)果.從結(jié)果來看,完整版獲得了最好的性能,這表明所有的模塊都對性能有所貢獻(xiàn).具體來說,我們可以看到Glove的向量初始化的嵌入層能夠有效改善性能.這表明嵌入層的初始化對于跨模態(tài)表征很重要.這也是視覺語義嵌人技術(shù)所期望的目標(biāo),即通過改善表征來提升性能.同時,我們還可以看到,通過利用提升增強(qiáng)的文本進(jìn)行輔助訓(xùn)練,性能得到了進(jìn)一步提高.這表明本文所提出的提示機(jī)制是有效的,證明了PrpVSE的設(shè)計的合理性.
4結(jié)論
本文提出了一種用于圖文檢索(實現(xiàn)自然語言視覺搜索)的端到端的視覺語義嵌人新方法,PrpVSE.該方法借助提示增強(qiáng)文本的信息密度,從而改善跨模態(tài)學(xué)習(xí).不同于現(xiàn)有提示學(xué)習(xí)主要運用于大型預(yù)訓(xùn)練模型,該方法利用檢測器來提取顯著性區(qū)域的概念語義來提示輕量級視覺語義嵌入方法,這大大增強(qiáng)了其應(yīng)用性.我們在兩個公開的數(shù)據(jù)集上進(jìn)行了大量實驗來驗證本文方法的有效性.但不可否認(rèn)的是,本文方法仍存在一定的局限性.首先,我們并未對更為豐富的提示形式進(jìn)行實驗來驗證其影響.同時,概念檢測器主要提取了顯著性圖像區(qū)域的對象類別,但并未對具體對象屬性,例如顏色、材質(zhì)等進(jìn)行提取,這限制了概念語義的深度,我們未來將對更多提示形式進(jìn)行測試,并利用更先進(jìn)的檢測器來提取圖像深度的概念語義,以改善跨模態(tài)學(xué)習(xí),提升圖文檢索性能.
參考文獻(xiàn):
[1] YoungP,Lai A,HodoshM,etal.Fromimage descriptions to visual denotations:New similarity metricsfor semantic inference over event descriptions[J]. Transactions of the Association for ComputationalLinguistics,2014,2:67.
[2] LinTY,MaireM,BelongieS,etal.Microsoft coco:Common objects in context[C]//Proceedings ofthe 13th European Conference on Computer Vision-ECCV.Zurich:Springer International Publishing,2014:740.
[3] FaghriF,F(xiàn)leetDJ,KirosJR,etal.VSE++: Improving visual-semantic embeddings with hard negatives[EB/OL]. [2024-09-25].https://arxiv. org/abs/1707.05612.
[4] LiK,ZhangY,LiK,etal.Visual semanticreasoningforimage-textmatching[EB/OL].[2024-09-25]. https://ieeexplore.ieee.org/document/9010696.
[5] FuZ,Mao Z,SongY,etal.Learning semantic relationshipamong instances for image-text matching[EB/OL].[2024-09-25].https://ieeexplore. ieee.org/document/10203561.
[6] ChenJ,HuH,WuH,etal.Learningthebest poolingstrategy for visual semantic embedding[EB/ OL].[2024-09-25]. https://ieeexplore.ieee.org/ document/9577755.
[7] ZhangZ,Shu C,Xiao Y,et al.Improvingvisualsemantic embedding with adaptive pooling and optimizationobjective[EB/OL].[2024-09-25].https:// aclanthology.org/2023.eacl-main.87.
[8] LeeKH,ChenX,Hua G,et al.Stacked cross attention for image-text matching[EB/OL]. [2024-09- 25].https://doi. org/10.1007/978-3-030-01225- 0_13.
[9] ChenH,DingG,LiuX,etal.Imram:Iterative matching with recurrent attention memory for crossmodal image-text retrieval[EB/OL]. [2024-09-25]. https://ieeexplore.ieee.org/document/9156353.
[10]Diao H, ZhangY,MaL,et al. Similarity reasoning and filtration for image-text matching [EB/OL]. [2024-09-25]. https://doi. org/10.1609/aaai. v35i2. 16209.
[11]Liu C,Mao Z,Zhang T,et al.Graph structured network for image-text matching[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Visionland Pattern Recognition (CVPR). Seattle: IEEE/CVF,2020:01093.
[12]Ren S,HeK,GirshickR,etal.Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39:1137.
[13]Wang J,Wang M Q,Zhang X Y,et al. Chinese named entity recognition based onmulti-head attention character Word integration[J]. Journal of Jiangsu University(Natural Science Edition),2O24,45:77. [王進(jìn),王猛旗,張昕躍,等.基于多頭注意力機(jī)制 字詞聯(lián)合的中文命名實體識別[J].江蘇大學(xué)學(xué)報 (自然科學(xué)版),2024,45:77.]
[14]Wang H Y,Hou K. Safety detection system of rail transportation equipment for transmission lines based on image recognition[J]. Journal of Jiangsu University(Natural ScienceEdition),2024,45:323.王海 燕,侯康.基于圖像識別的輸電線路軌道運輸裝備 安全檢測系統(tǒng)[J].江蘇大學(xué)學(xué)報(自然科學(xué)版), 2024,45:323.
[15]Wang H,Zhang Y,Ji Z,et al.Consensus-aware visual-semantic embedding for image-text matching[C]//Proceedings of the 16th European Conference on Computer Vision-ECCV. Glasgow : Springer International Publishing,2O2O:18.
[16]YoungP,LaiA,Hodosh M,et al.From imagede scriptions to visual denotations:New similarity metricsfor semantic inference over event descriptions [J]. Transactions of the Association for ComputationalLinguistics,2Ol4,2:67.
[17]Lin TY,Maire M,Belongie S,et al.Microsoft coco:Common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision-ECCV. Zurich,Switzerland:Springer International Publishing,2O14:740.
[18]Wang Z,Liu X,LiH,et al.Camp:Cross-modal adaptivemessgepassingfortext-imageretrieval [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seattle: IEEE/CVF,2019:5764.
[19]Li Z,Guo C,F(xiàn)eng Z,et al. Multi-view visual semantic embedding[J]. International Joint Conference onArtificialIntelligence,2O22,2:7.
[20]Zhao G,Zhang C,Shang H,et al. Generative label fusednetworkforimage-textmatching[J]. Knowledge-Based Systems,2023,263:110280.
(責(zé)任編輯:伍少梅)
四川大學(xué)學(xué)報(自然科學(xué)版)2025年4期