• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    動(dòng)態(tài)多視圖推理分層相似性的圖文檢索算法

    2024-10-31 00:00:00張書銘
    現(xiàn)代信息科技 2024年17期

    摘 要:跨模態(tài)圖像文本檢索通常指的是可見光圖像和正常文本。其中,基于標(biāo)量的圖文相似度具有局限性,無法全面表示跨模態(tài)對(duì)齊。同時(shí),局部區(qū)域—單詞相關(guān)性和全局圖像—文本依賴性之間存在復(fù)雜的相互作用,所以用于推理兩種模態(tài)特征的模塊存在一定程度的不確定性。針對(duì)上述問題,文章提出了一種基于層次相似網(wǎng)絡(luò)的圖文匹配動(dòng)態(tài)多視圖推理方法。首先,該方法使用了基于標(biāo)量和基于向量的全局和局部相似度。其次,設(shè)計(jì)了四種類型的單元作為探索全局—局部相似性交互的基本單位。最后,引入了可學(xué)習(xí)的選擇置信度機(jī)制,在Flickr30K和MSCOCO數(shù)據(jù)集上的實(shí)驗(yàn)展現(xiàn)了算法的卓越性能。

    關(guān)鍵詞:跨模態(tài)檢索;圖文匹配;動(dòng)態(tài)交互算法;相似度預(yù)測(cè)

    中圖分類號(hào):TP391;TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)17-0056-06

    0 引 言

    鑒于多媒體數(shù)據(jù)(尤其是圖像—文本對(duì))的迅速增長(zhǎng),研究人員致力于在計(jì)算機(jī)視覺(CV)和自然語言處理(NLP)之間建立聯(lián)系。圖像—文本匹(Image-Text Matching)任務(wù)[1]獲得了廣泛的關(guān)注,該任務(wù)主要通過測(cè)量可見光圖像與文本之間的相似性,來獲取文本與可見光圖像之間的對(duì)應(yīng)關(guān)系。盡管近年來出現(xiàn)了一些圖像—文本匹配的方法,并取得了良好的性能,但由于圖像—文本對(duì)之間精確對(duì)齊和準(zhǔn)確推斷相似性的復(fù)雜要求,它仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。該任務(wù)的一個(gè)突出特點(diǎn)是圖像和文本之間存在很大的語義差異,進(jìn)而影響跨模態(tài)檢索性能。為了減少不同模態(tài)之間的語義鴻溝,一些研究人員提出了跨模態(tài)語義交互方法,以衡量圖像與文本的相關(guān)性。通常情況下,這一過程包括對(duì)視覺和語言進(jìn)行對(duì)齊,以彌合它們之間的語義差距,然后根據(jù)這些對(duì)齊計(jì)算不同模態(tài)之間的語義相似度。如何尋找到可見光圖像和文本之間最優(yōu)的對(duì)齊方式成為一個(gè)亟待解決的問題。

    1 相關(guān)工作

    根據(jù)相似度的類別,現(xiàn)有方法大致可分為兩類:基于標(biāo)量的相似度和基于向量的相似度。最近的研究主要集中于基于標(biāo)量相似度的方法[2-3]。這類方法通常先將圖像和文本特征映射到一個(gè)共享的嵌入空間,然后采用特定的交互模式在這個(gè)共享空間內(nèi)度量?jī)煞N模態(tài)之間的標(biāo)量相似度。另一方面,基于向量相似度的方法[4]在獲得所有特征之后,會(huì)計(jì)算圖像和文本之間的向量相似度。然后,這些方法通過推理向量相似度來推斷跨模態(tài)語義相關(guān)性。上述兩類方法中,有基于全局對(duì)齊的交互,也有基于局部對(duì)齊的交互?;谌謱?duì)齊的方法[5]直接從全局表征的余弦相似度推斷跨模態(tài)語義相似性。與基于全局對(duì)齊的方法不同,基于局部對(duì)齊的方法[6]從局部突出的區(qū)域—單詞對(duì)中匯總語義相關(guān)性。一般而言,大多數(shù)基于局部對(duì)齊的方法都采用將圖像區(qū)域和文本單詞聚合在一起來衡量圖像與文本的整體相關(guān)性[7]。雖然這些方法通過采用不同機(jī)制獲得最終的相似度,但它們?nèi)匀皇庆o態(tài)的,嚴(yán)重依賴經(jīng)驗(yàn)知識(shí),這可能限制相似性交互,從而影響檢索性能[8]。此外,這些方法通常傾向于使用平均池化等方法將部分局部對(duì)齊的信息聚合為全局對(duì)齊的信息,這可能導(dǎo)致丟失許多細(xì)節(jié)的語義信息[9]。

    為了解決上述問題,我們的方法通過從多個(gè)視圖動(dòng)態(tài)推導(dǎo)向量相似度,并利用標(biāo)量相似度來調(diào)整選擇置信度,以指導(dǎo)最合適的相似度交互選擇。在相似度推理模塊中,我們受到何振華[10]和郁萬蓉[11]的啟發(fā),設(shè)計(jì)了四c9bcad8fcba1f4125cf4024206c3d746種單元來完成不同相似度交互操作,包含了整體和局部的不同視角下的交互。然后將這四個(gè)單元堆疊起來,構(gòu)建了一個(gè)完整的相似度動(dòng)態(tài)交互選擇空間,從而可以考慮各種交互模式。為了確保動(dòng)態(tài)選擇交互模式的合理性和有效性,我們?yōu)槊總€(gè)單元配置了可學(xué)習(xí)的選擇置信度,并且引入了標(biāo)量相似性作為正則化,以驅(qū)動(dòng)網(wǎng)絡(luò)學(xué)習(xí)更全面、更詳細(xì)的矢量相似性。在Flickr30K和MSCOCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的模型可以獲得良好的檢索性能。

    2 本文方法

    2.1 圖文和相似度表征學(xué)習(xí)

    給定一張可見光圖像I,利用基于He等人[12]提出的ResNet-101的Faster R-CNN[13]實(shí)現(xiàn)了自下而上的注意力機(jī)制,根據(jù)最高的類別置信度得分提取K個(gè)突出的區(qū)域表征。然后,我們使用一個(gè)線性投影ri,將其轉(zhuǎn)換為D維視覺區(qū)域特征。為了獲得每個(gè)區(qū)域的空間相關(guān)性,采用位置編碼方法,充分利用每個(gè)區(qū)域的邊界框信息Pi,其式為:

    其中,F(xiàn)Cp(·)表示全連接層。最后,進(jìn)行區(qū)域嵌入和位置嵌入的融合:

    對(duì)于包含N個(gè)單詞的給定句子T,首先使用Devlin等人[14]提出的Bert作為文本編碼器來提取單詞級(jí)別的文本語義特征。緊接著,采用不同大小的并行二維卷積核來捕捉更精細(xì)的短語特征。然后,將這些核的文本特征級(jí)聯(lián)起來,再將其傳入全連接層,得到D維的單詞特征,記為:T=[t1;t2;…;tM]∈RM×D。此外,整個(gè)圖像I的全局表示vglo和整個(gè)句子T的全局表示tglo由注意力機(jī)制編碼得到。

    受Diao等人[15]提出的SGRAF這一工作的啟發(fā),我們利用局部和全局跨模態(tài)之間的向量語義相似度來捕捉特征表示之間更詳細(xì)的關(guān)聯(lián)。將圖像特征vglo和文本特征tglo之間基于向量的全局語義相似度sglo表示為:

    (1)

    其中,Wg∈Rd×D表示一個(gè)可學(xué)習(xí)的參數(shù)矩陣,用于獲得d維向量相似性。∣·∣2和∣·∣∣2分別表示逐元素平方和?2歸一化。我們還使用余弦相似度來衡量圖像和文本之間的親和性,即基于標(biāo)量的圖像—文本相似度Aglo。

    為了得到區(qū)域和單詞特征之間的局部相似性表征,我們應(yīng)用注意力機(jī)制的方法來關(guān)注每個(gè)單詞與每個(gè)區(qū)域的關(guān)系。每個(gè)單詞的注意力權(quán)重由帶有溫度參數(shù)τ的SoftMax函數(shù)計(jì)算:

    (2)

    其中,旨在將余弦相似度cij標(biāo)準(zhǔn)化,cij表示區(qū)域vi與詞tj之間的余弦相似度,標(biāo)準(zhǔn)化過程如下:

    (3)

    然后,通過來聚合與位置加強(qiáng)的區(qū)域特征匹配的文本上下文。圖像區(qū)域特征與其語義匹配的上下文詞語特征之間的局部語義相似度表示為:

    (4)

    其中,Wl∈Rd×D表示可學(xué)習(xí)的參數(shù)矩陣。將全局和局部的向量語義相似度串聯(lián)起來,作為動(dòng)態(tài)選擇空間的初始輸入:。

    2.2 動(dòng)態(tài)選擇空間

    2.2.1 殘差修正單元(RRC)

    直接采用校正線性單位(ReLU)激活函數(shù)來設(shè)計(jì)一個(gè)簡(jiǎn)單的全視角交互單元,這個(gè)全視角交互單元會(huì)充當(dāng)殘差連接中的直接映射部分。我們總結(jié)RRC為:。

    2.2.2 自我推理單元 (SRC)

    為了通過捕捉更全面的互動(dòng)來增強(qiáng)相似性預(yù)測(cè),我們利用自注意力機(jī)制來促進(jìn)相似度之間的傳播。這也是一種全視角的交互方式,其計(jì)算式可以表示為:

    (5)

    其中,Q和K由全連接層得到,表示Q的通道數(shù)的平方根。我們總結(jié)SRC為:。

    2.2.3 全局門控單元(GGC)

    局部語義相似度已經(jīng)包含了豐富的細(xì)粒度的局部信息。另一方面,全局語義相似度涉及圖像—文本對(duì)的對(duì)齊,這是一種粗粒度對(duì)齊,包含了上下文語義信息。因此,從不同的角度考慮局部視角和全局視角之間的相互作用是至關(guān)重要的。在這個(gè)單元中,我們考慮的是全局視角,利用全局相似度來生成指導(dǎo)局部相似度的門閾值。這種方法確保了局部和全局信息的整合,充分利用了它們的互補(bǔ)性,其表述為:

    (6)

    其中,F(xiàn)Csg/sl(·)表示線性層。我們總結(jié)GGC為: 。

    2.2.4 局部細(xì)化單元(LRC)

    為了進(jìn)一步豐富相似度表示,我們?cè)O(shè)計(jì)了這個(gè)從局部視角進(jìn)行相似度交互的單元。首先同時(shí)采用了最大池化和平均池化的方法來降低局部相似度的維度,如。這樣可以有效地聚合局部相似度信息,捕捉細(xì)粒度相似度的不同方面,促進(jìn)對(duì)圖像與文本關(guān)系的更全面理解。之后,按照Qu等人[2]提出的方法,增強(qiáng)全局表示的語義如下:

    (7)

    其中,F(xiàn)Cω/r(·)表示線性層,用于將映射到縮放權(quán)重向量ωr和移動(dòng)偏置向量中βr。我們可以總結(jié)LRC為:。

    現(xiàn)在,綜合上文介紹的四個(gè)單元,這些單元的輸出可形式化地概括為,其中Fi(·)和分別表示第l層的第i個(gè)單元的功能和輸入。

    2.2.5 選擇置信度

    如圖1所示,為了創(chuàng)建一個(gè)動(dòng)態(tài)選擇空間,我們以密集連接的方式在相鄰層之間建立上述四個(gè)單元之間的交互關(guān)系。這四個(gè)單元在每一層內(nèi)并行配置,同級(jí)水平上發(fā)揮作用,最大限度地提高了各層的利用率。為了使得動(dòng)態(tài)交互模式成為可能,我們進(jìn)一步引入了選擇置信度的概念,使得交互模式具有了適應(yīng)性,每個(gè)輸入可根據(jù)自身的語義信息執(zhí)行最合適的交互。這種適應(yīng)性考慮了各種因素,如復(fù)雜性、對(duì)象數(shù)量和其他相關(guān)屬性。因此,每個(gè)單元都承擔(dān)著不同的角色,并與其余單元保持密切聯(lián)系。值得注意的是,我們的交互模式是動(dòng)態(tài)的、可學(xué)習(xí)的,這與之前的許多靜態(tài)方法不同。它既包括現(xiàn)有的交互模式,也包括尚未探索的交互模式,具有更大的靈活性和提高性能的潛力。

    選擇置信度得分表示的是從第l-1層的第i個(gè)單元到第l層的第j個(gè)單元的概率。每個(gè)單元的選擇置信度得分由每個(gè)單元的輸入計(jì)算得出。除第一層外,下一層中某一單元的輸入是通過對(duì)當(dāng)前層中四個(gè)單元的輸出進(jìn)行加權(quán)匯總得到的。其中權(quán)重就是每個(gè)單元的置信度得分。這種加權(quán)聚合過程結(jié)合了來自不同單元的信息,從而在后續(xù)層中更全面地呈現(xiàn)輸入數(shù)據(jù)。聚合操作如下:

    (8)

    其中Z表示總層數(shù)。在這項(xiàng)工作中,,是計(jì)算選擇置信度的函數(shù),具體操作如下:

    (9)

    這個(gè)公式中,F(xiàn)FN(·)表示由多層感知器實(shí)現(xiàn)的前饋網(wǎng)絡(luò)。ReLU和Tanh都是激活函數(shù),用于將置信度得分映射到[0,1]區(qū)間。

    在動(dòng)態(tài)相似性選擇的最后階段,我們級(jí)聯(lián)最后4個(gè)單元的輸出,計(jì)算出圖像和文本的最終相似度R(I,T),其式如下:

    (10)

    其中和分別表示最后一層中第i個(gè)單元的選擇置信度得分和得到的相似度。WR∈R1×4d表示將級(jí)聯(lián)后的相似度向量映射到標(biāo)量相關(guān)得分的可學(xué)參數(shù)。

    為了學(xué)習(xí)選擇置信度,我們收集并級(jí)聯(lián)來自所有層的所有單元的作為,并將其映射到與向量相似度相同的嵌入空間中:

    (11)

    其中表示選擇置信度向量,F(xiàn)Cc(·)表示全連接層。

    2.3 目標(biāo)函數(shù)

    我們采用雙向三元組排序損失進(jìn)行端到端訓(xùn)練,將匹配的圖像—文本對(duì)進(jìn)行嵌入拉近,同時(shí)將非匹配的圖像—文本對(duì)嵌入推開。具體過程如下:

    (12)

    其中λ表示一個(gè)邊界參數(shù),R(I,T)表示由上述公式定義的圖像I和文本T的全局表征之間的語義相關(guān)性。在一個(gè)小批量數(shù)據(jù)中,最難區(qū)分的負(fù)樣本文本為,最難區(qū)分的負(fù)樣本圖像為。在推理階段,利用動(dòng)態(tài)交互模式預(yù)測(cè)的相關(guān)性R(I,T)進(jìn)行檢索評(píng)估。

    相似的交互模式應(yīng)適用于相似的語義相似度。這意味著選擇置信度的分布應(yīng)與相似度的分布一致。為了使動(dòng)態(tài)交互模式和選擇置信度的訓(xùn)練過程更加穩(wěn)定,我們引入了標(biāo)量相似性Aglo表示正則化項(xiàng)。為了捕捉選擇置信度向量的內(nèi)部語義依賴性,我們計(jì)算其自身的內(nèi)在相似性,其式如下:

    (13)

    表1展示了我們提出的DMRSN與不同方法在Flickr30K和MS-COCO數(shù)據(jù)集上的性能比較。符號(hào)“*”是指集合模型。

    為了實(shí)現(xiàn)相似性和選擇一致性,將正則化項(xiàng)表達(dá)為:

    (14)

    其中,MB是小批量圖文對(duì)的數(shù)量。和則表示的是第i個(gè)樣本對(duì)。將上述三重?fù)p失L(I,T)與選擇正則化Lsc相結(jié)合,得到如下總體目標(biāo)函數(shù):L=(I,T)+μLsc,其中μ表示一個(gè)手動(dòng)設(shè)置的超參數(shù),其目的是平衡兩種類型的損失。

    3 實(shí)驗(yàn)分析

    3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

    在實(shí)驗(yàn)中使用了兩個(gè)基準(zhǔn)數(shù)據(jù)集來驗(yàn)證我們方法的性能:1)Flickr30K:Flickr30K數(shù)據(jù)集包含31 783張圖片,每張圖片有5個(gè)相應(yīng)的標(biāo)題。2)MS-COCO:MSCOCO數(shù)據(jù)集包含123 287幅圖像,每幅圖像都有5個(gè)注釋標(biāo)題。我們報(bào)告了直接在全部5K測(cè)試圖像上計(jì)算的評(píng)估結(jié)果(MS-COCO 5K),以及對(duì)1K測(cè)試圖像的5次平均的匹配性能(MS-COCO 1K)。

    在訓(xùn)練和推理過程中,Bert和Faster R-CNN只作為特征提取器,其參數(shù)被凍結(jié),不加入訓(xùn)練過程。圖像文本對(duì)聯(lián)合嵌入的維度D設(shè)置為512,語義相似性向量d的維度為256。將溫度參數(shù)τ設(shè)為9。此外,動(dòng)態(tài)交互模式單元數(shù)、選擇層數(shù)Z、損失參數(shù)λ和權(quán)衡參數(shù)μ分別設(shè)為4、3、0.2和0.5。我們的模型DMRSN在一塊GeForce RTX 2080 Ti GPU上采用Adam優(yōu)化器來優(yōu)化模型,最小訓(xùn)練批量為64,訓(xùn)練周期為30。學(xué)習(xí)率設(shè)定為0.000 2,每15個(gè)階段衰減10%。驗(yàn)證集上性能最好的參數(shù)將被用于測(cè)試。

    3.2 對(duì)比實(shí)驗(yàn)結(jié)果及分析

    圖2是模型在訓(xùn)練階段的優(yōu)化過程。表1左半部分展現(xiàn)了與之前模型在Flickr30K數(shù)據(jù)集上雙向檢索結(jié)果的比較。可以看到,我們提出的DMRSN模型優(yōu)于所有比較的高性能方法,僅在文本檢索的R@1得分上比RCAR低0.1%。除此之外,在圖像和文本檢索兩個(gè)子任務(wù)上,我們的模型在所有指標(biāo)上都比以前的方法取得了更好的結(jié)果。與基線模型SGRAF相比,我們的文本檢索R@1提高了4.4%,圖像檢索上R@1提高了5.6%,R@sum提高了25.1%。SGRAF僅從整體角度進(jìn)行學(xué)習(xí)相似度之間的語義關(guān)系。這些改進(jìn)說明了動(dòng)態(tài)探索相似性交互模式的可行性和重要性。值得注意的是,我們的單個(gè)模型也能實(shí)現(xiàn)有競(jìng)爭(zhēng)力的檢索性能,這是因?yàn)槿趾途植肯嗨贫葧?huì)經(jīng)過幾層的動(dòng)態(tài)交互,從而挖掘出最適合的交互模式,這進(jìn)一步證明了我們模型的有效性和穩(wěn)定性。表1右半部分和表2分別給出了MS-COCO數(shù)據(jù)集上1K和5K測(cè)試的實(shí)驗(yàn)結(jié)果。除了文本檢索的R@10分?jǐn)?shù)和圖像索的R@1比最好的低0.2%和0.3%,我們的模型在其他所有指標(biāo)上都取得了最好的性能。雖然其在R@10和R@1上的表現(xiàn)可能略低于PFAN和RCAR,但在其他評(píng)價(jià)指標(biāo)上的得分卻明顯優(yōu)于它們。事實(shí)上,我們的R@sum分?jǐn)?shù)極大超過PFAN,高出了12.8%。我們的單一模型與一些最先進(jìn)的方法相比,尤其是和以往集合模型相比,仍然具有很強(qiáng)的競(jìng)爭(zhēng)力。這進(jìn)一步證明了我們提出的模型的魯棒性,并顯示了我們的交互模塊的卓越能力。

    3.3 消融實(shí)驗(yàn)結(jié)果及分析

    將獨(dú)立模型與去除某個(gè)單元的變體進(jìn)行比較。如表3所示,去除SRC(w/o SRC)的性能下降最為明顯,這表明傳播局部和全局相似性之間的整體信息非常重要。我們的模型能取得比去除局部相似性推理單元(w/o LRC)和去除全局相似性推理單元(w/o GGC)更好的性能,這說明從多個(gè)視角進(jìn)行相似性推理也是有效的。此外,w/o GGC的結(jié)果優(yōu)于w/o LRC,這表明局部相似性中的細(xì)粒度的語義信息可以更好地用來完善全局相似性。總體而言,我們的模型在所有指標(biāo)上都優(yōu)于消融模型,這進(jìn)一步證明了我們的模型相似性交互單元的有效性。

    3.4 可視化結(jié)果與分析

    將動(dòng)態(tài)選擇空間可視化,如圖3所示,圖中顯示了每張圖像的選擇置信度得分的注意力圖。為簡(jiǎn)潔起見,這一置信度可以揭示每張圖片自身的交互模式。由圖3可知,圖像—文本對(duì)的相似性越復(fù)雜,交互選擇就越復(fù)雜,即選擇過程會(huì)動(dòng)態(tài)地適應(yīng)輸入的復(fù)雜性,并相應(yīng)地調(diào)整交互模式,以捕捉模式之間錯(cuò)綜復(fù)雜的關(guān)系。例如,圖3(b)的簡(jiǎn)單實(shí)例只激活了相對(duì)簡(jiǎn)單的交互模式,而圖3(a)的復(fù)雜實(shí)例則激活了幾乎所有交互模式。這是因?yàn)榧?xì)節(jié)更多的圖像—文本對(duì)在其矢量語義相似性中包含了更多的語義信息。所以有必要考慮多視角相似性的交互作用。對(duì)比兩個(gè)例子可以驗(yàn)證這一觀點(diǎn)。此外,還可以觀察到即使圖像—文本對(duì)所包含的信息差別很大,在選擇淺層交互單元時(shí)也會(huì)存在一些共同點(diǎn)。這些觀察結(jié)果表明,我們的模型具備針對(duì)不同的樣本動(dòng)態(tài)學(xué)習(xí)不同交互模式的能力。

    4 結(jié) 論

    在本文中,我們提出了一種新穎的針對(duì)圖文匹配的動(dòng)態(tài)多視角推理相似性網(wǎng)絡(luò),這是一個(gè)采用多視角來研究相似度動(dòng)態(tài)交互的工作。首先綜合考慮了標(biāo)量和矢量相似度;其次將推理相似度的視角分為局部到全局視角、全局到局部視角、整體到整體視角;再次將四個(gè)交互單元密集連接起來,構(gòu)建了一個(gè)動(dòng)態(tài)的相似性選擇空間,以適應(yīng)多視角的相似度交互;最后,所有被選中的相似性交互模式都會(huì)根據(jù)我們提出的選擇置信度進(jìn)行加權(quán)。在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)證明了我們模型的有效性和優(yōu)越性。未來,我們計(jì)劃進(jìn)一步研究相似度的交互模式,更好地將細(xì)粒度局部相似度和粗粒度全局相似度聯(lián)系起來。并且思考將紅外模態(tài)引入檢索任務(wù)的可能性。

    參考文獻(xiàn):

    [1] ANDERSON P,HE X D,BUEHLER C,et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:6077-6086.

    [2] QU L G,LIU M,WU J L,et al. Dynamic Modality Interaction Modeling for Image-Text Retrieval [C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval.Virtual:Association for Computing Machinery,2021:1104-1113.

    [3] WANG Y X,YANG H,QIAN X M,et al. Position Focused Attention Network for Image-Text Matching [J/OL].arXiv:1907.09748 [cs.CL].[2024-02-16].https://arxiv.org/abs/1907.09748.

    [4] DIAO H,ZHANG Y,MA L,et al. Similarity Reasoning and Filtration for Image-Text Matching [J/OL].arXiv:2101.01368 [cs.CV].[2024-02-18].https://arxiv.org/abs/2101.01368.

    [5] ZHANG H T,MAO Z D,ZHANG K,et al. Show Your Faith: Cross-Modal Confidence-Aware Network for Image-Text Matching [C]//Proceedings of the AAAI Conference on Artificial Intelligence,36(3),3262-3270.

    [6] LI K P,ZHANG Y L,LI K,et al. Visual Semantic Reasoning for Image-Text Matching [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019: 4653-4661.

    [7] CHEN T L,LUO J B. Expressing Objects Just Like Words: Recurrent Visual Embedding for Image-Text Matching [C]//Proceedings of the AAAI Conference on Artificial Intelligence,34(7),10583-10590.

    [8] ZHANG Q,LEI Z,ZHANG Z X,et al. Context-Aware Attention Network for Image-Text Retrieval [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle:IEEE,2020:3533-3542.

    [9] LIU C,MAO Z,LIU A A,et al. Focus Your Attention: A Bidirectional Focal Attention Network for Image-Text Matching [C]//Proceedings of the 27th ACM International Conference on Multimedia.Nice:Association for Computing Machinery,2019:3-11.

    [10] 何振華,胡恒博,金鑫等.基于注意力機(jī)制的多任務(wù)漢語關(guān)鍵詞識(shí)別 [J].現(xiàn)代信息科技,2022,6(6):82-85+89.

    [11] DEVLIN J,CHANG M W,LEE K T,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].[2024-02-18].https://arxiv.org/abs/1810.04805.

    [12] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J/OL].arXiv:1506.01497 [cs.CV].[2024-02-15].https://doi.org/10.48550/arXiv.1506.01497.

    [13] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.

    [14] 郁萬蓉.基于多級(jí)結(jié)構(gòu)的深度子空間聚類方法 [J].現(xiàn)代信息科技,2022,6(6):100-103.

    [15] DIAO H,ZHANG Y,LIU W,et al. Plug-and-Play Regulators for Image-Text Matching [J].IEEE Transactions on Image Processing,2023.32:2322-2334.

    DOI:10.19850/j.cnki.2096-4706.2024.17.011

    收稿日期:2023-03-20

    基金項(xiàng)目:國(guó)家自然科學(xué)基金(62020106012,U1836218,61672265);中國(guó)教育部111項(xiàng)目(B12018)

    作者簡(jiǎn)介:張書銘(1999.07—),男,漢族,CCF會(huì)員,碩士研究生,主要研究方向:圖文檢索、深度學(xué)習(xí)。

    Image-text Retrieval Algorithm of Dynamic Multi-view Reasoning

    Hierarchical Similarity

    ZHANG Shuming

    (School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China)

    Abstract: Cross-modal image-text retrieval usually refers to visible light images and normal text. Among them, image-text similarity based on scalar has limitations and cannot fully represent cross-modal alignment. At the same time, there is a complex interaction between local region—word correlation and global image—text dependence, so the modules used to infer the two modal features have a certain degree of uncertainty. In view of the above problems, this paper proposes a dynamic multi-view reasoning method of image-text matching based on hierarchical similarity network. Firstly, the method uses global and local similarity based on scalar and vector. Secondly, four types of units are designed as the basic units to explore the global—local similarity interaction. Finally, a learnable selection confidence mechanism is introduced, and experiments on Flickr30K and MSCOCO data set show the excellent performance of the algorithm.

    Keywords: cross-modal retrieval; image-text matching; dynamic inter-action algorithm; similarity prediction

    国产精品久久久久久av不卡| 久久久亚洲精品成人影院| 精品一区二区三区视频在线| 两个人视频免费观看高清| 国产黄a三级三级三级人| 99热网站在线观看| 成人三级黄色视频| 只有这里有精品99| 国产午夜福利久久久久久| 欧美日韩国产亚洲二区| 亚洲精华国产精华液的使用体验| 中文字幕久久专区| 久久人妻av系列| 麻豆精品久久久久久蜜桃| 国产精品久久久久久精品电影小说 | 欧美变态另类bdsm刘玥| 十八禁国产超污无遮挡网站| 精品久久久久久久久久久久久| 国产精品国产三级国产专区5o | 亚洲在久久综合| 高清毛片免费看| 能在线免费观看的黄片| 日本av手机在线免费观看| 高清日韩中文字幕在线| 久久这里只有精品中国| 免费观看在线日韩| 亚洲在久久综合| 人人妻人人澡人人爽人人夜夜 | 久久精品综合一区二区三区| eeuss影院久久| videossex国产| 最近视频中文字幕2019在线8| 国产成人精品婷婷| 亚洲一级一片aⅴ在线观看| 七月丁香在线播放| 日韩大片免费观看网站 | 少妇人妻一区二区三区视频| 男的添女的下面高潮视频| 麻豆成人av视频| 中文字幕久久专区| 99久久人妻综合| 少妇熟女欧美另类| 男人的好看免费观看在线视频| 久久综合国产亚洲精品| 日韩大片免费观看网站 | 欧美成人a在线观看| 日本一二三区视频观看| 97热精品久久久久久| 2021少妇久久久久久久久久久| 亚洲人与动物交配视频| 欧美3d第一页| 国产一区有黄有色的免费视频 | 我的女老师完整版在线观看| 亚洲欧美日韩无卡精品| 日韩欧美 国产精品| 亚洲av二区三区四区| 赤兔流量卡办理| 97超碰精品成人国产| 久久人妻av系列| 国产成人a区在线观看| 久久人妻av系列| 精品国内亚洲2022精品成人| 亚洲天堂国产精品一区在线| 精品99又大又爽又粗少妇毛片| 免费大片18禁| av播播在线观看一区| 国产伦一二天堂av在线观看| 国产精品国产三级国产专区5o | 久久久欧美国产精品| 老师上课跳d突然被开到最大视频| 亚洲av不卡在线观看| 91精品国产九色| 国产精品永久免费网站| 国产在线一区二区三区精 | 日韩视频在线欧美| 欧美另类亚洲清纯唯美| av女优亚洲男人天堂| 一区二区三区乱码不卡18| 人妻少妇偷人精品九色| 欧美成人a在线观看| 毛片女人毛片| 非洲黑人性xxxx精品又粗又长| 超碰97精品在线观看| 亚洲一区高清亚洲精品| 国产精品久久电影中文字幕| 99热这里只有是精品50| 亚洲无线观看免费| 亚洲人成网站在线观看播放| 波多野结衣巨乳人妻| kizo精华| 国产精品一区二区三区四区免费观看| kizo精华| 人人妻人人看人人澡| 亚洲成色77777| 精品国产露脸久久av麻豆 | av在线亚洲专区| .国产精品久久| 午夜福利在线观看免费完整高清在| 男的添女的下面高潮视频| 日韩欧美 国产精品| av在线观看视频网站免费| .国产精品久久| av在线亚洲专区| 美女被艹到高潮喷水动态| 久久久久久久久久久丰满| 精品久久久噜噜| 久久草成人影院| 秋霞在线观看毛片| 午夜爱爱视频在线播放| 成人性生交大片免费视频hd| 建设人人有责人人尽责人人享有的 | 日韩在线高清观看一区二区三区| 久久久a久久爽久久v久久| 国产乱来视频区| 简卡轻食公司| 国产在视频线精品| 成人午夜高清在线视频| 偷拍熟女少妇极品色| 国产伦精品一区二区三区视频9| 亚洲三级黄色毛片| 国产av一区在线观看免费| 老司机福利观看| 亚洲av电影不卡..在线观看| 日韩一区二区三区影片| 亚洲国产精品成人久久小说| 男人的好看免费观看在线视频| 99国产精品一区二区蜜桃av| 欧美性猛交╳xxx乱大交人| 亚洲自偷自拍三级| 日日撸夜夜添| 国内揄拍国产精品人妻在线| 亚洲自拍偷在线| 蜜臀久久99精品久久宅男| 22中文网久久字幕| 国产免费福利视频在线观看| 国产白丝娇喘喷水9色精品| 日韩在线高清观看一区二区三区| 成人美女网站在线观看视频| 久久精品国产鲁丝片午夜精品| 久久久久久久国产电影| 国产亚洲一区二区精品| 亚洲人与动物交配视频| 乱系列少妇在线播放| 亚洲四区av| 性色avwww在线观看| 亚洲av免费高清在线观看| 干丝袜人妻中文字幕| 国产日韩欧美在线精品| 久久精品国产亚洲av涩爱| 亚洲成色77777| 亚洲国产高清在线一区二区三| 亚洲成人av在线免费| 免费看光身美女| 欧美不卡视频在线免费观看| 色网站视频免费| 99视频精品全部免费 在线| 国产老妇女一区| 精品不卡国产一区二区三区| 边亲边吃奶的免费视频| 1000部很黄的大片| 欧美日韩一区二区视频在线观看视频在线 | 免费看av在线观看网站| 亚洲不卡免费看| 国产精品电影一区二区三区| 国产亚洲精品av在线| 成人高潮视频无遮挡免费网站| 国产精品1区2区在线观看.| 看免费成人av毛片| 国产又色又爽无遮挡免| 亚洲国产日韩欧美精品在线观看| 内射极品少妇av片p| 久久这里有精品视频免费| 国产精品野战在线观看| 国产淫语在线视频| 国产午夜精品一二区理论片| 亚洲欧美日韩东京热| 欧美激情久久久久久爽电影| 国产白丝娇喘喷水9色精品| 亚洲欧美日韩东京热| 亚洲无线观看免费| 亚洲欧美成人精品一区二区| 尾随美女入室| 在线播放无遮挡| 亚洲在久久综合| 欧美+日韩+精品| 国产伦在线观看视频一区| 国产av码专区亚洲av| 午夜福利网站1000一区二区三区| 我的老师免费观看完整版| 久久热精品热| av免费观看日本| 国产精品一及| 日韩大片免费观看网站 | 一个人观看的视频www高清免费观看| 精品免费久久久久久久清纯| 亚洲av电影在线观看一区二区三区 | 国产欧美另类精品又又久久亚洲欧美| 69av精品久久久久久| 一区二区三区乱码不卡18| 日韩欧美国产在线观看| www.av在线官网国产| 午夜福利网站1000一区二区三区| 亚州av有码| 国产一区二区在线av高清观看| 欧美一区二区亚洲| 老司机影院成人| 一级av片app| 成人午夜精彩视频在线观看| 一个人看的www免费观看视频| 纵有疾风起免费观看全集完整版 | 久久精品国产亚洲av涩爱| 纵有疾风起免费观看全集完整版 | 两个人的视频大全免费| 少妇丰满av| 成人毛片60女人毛片免费| 国产伦精品一区二区三区视频9| 美女xxoo啪啪120秒动态图| 久久久色成人| 色尼玛亚洲综合影院| 精品少妇黑人巨大在线播放 | 久久久国产成人免费| 精品人妻一区二区三区麻豆| 欧美+日韩+精品| 欧美精品一区二区大全| 精品一区二区免费观看| 听说在线观看完整版免费高清| 国产亚洲av嫩草精品影院| 极品教师在线视频| 亚洲av成人精品一区久久| 少妇熟女aⅴ在线视频| 久久精品人妻少妇| 国产成人91sexporn| 视频中文字幕在线观看| 成人性生交大片免费视频hd| 亚洲国产精品国产精品| a级一级毛片免费在线观看| av又黄又爽大尺度在线免费看 | 18禁在线无遮挡免费观看视频| 最近的中文字幕免费完整| 老师上课跳d突然被开到最大视频| 熟妇人妻久久中文字幕3abv| 国内少妇人妻偷人精品xxx网站| 久久亚洲精品不卡| 久久久久久大精品| 一区二区三区乱码不卡18| 久久草成人影院| 91精品一卡2卡3卡4卡| 你懂的网址亚洲精品在线观看 | 国产精品国产三级国产专区5o | 99久久精品热视频| 日本爱情动作片www.在线观看| 热99re8久久精品国产| av黄色大香蕉| 少妇高潮的动态图| 日本五十路高清| 国产亚洲91精品色在线| 亚洲高清免费不卡视频| 蜜桃亚洲精品一区二区三区| 国产精品人妻久久久久久| 午夜福利在线观看免费完整高清在| 26uuu在线亚洲综合色| 男女国产视频网站| 亚洲aⅴ乱码一区二区在线播放| 国产成人aa在线观看| 国产成人精品一,二区| 欧美最新免费一区二区三区| 人人妻人人澡欧美一区二区| 99久久中文字幕三级久久日本| 偷拍熟女少妇极品色| 免费黄色在线免费观看| 国产淫语在线视频| .国产精品久久| 五月伊人婷婷丁香| 听说在线观看完整版免费高清| 简卡轻食公司| 免费观看精品视频网站| 你懂的网址亚洲精品在线观看 | 特大巨黑吊av在线直播| 国产伦在线观看视频一区| 中文天堂在线官网| 国产一区亚洲一区在线观看| 能在线免费看毛片的网站| 蜜桃久久精品国产亚洲av| 人妻制服诱惑在线中文字幕| 蜜臀久久99精品久久宅男| 色综合站精品国产| 简卡轻食公司| 黄色欧美视频在线观看| 在线观看66精品国产| 少妇被粗大猛烈的视频| 日本av手机在线免费观看| 免费在线观看成人毛片| 少妇的逼水好多| 麻豆久久精品国产亚洲av| av又黄又爽大尺度在线免费看 | 久久久久久久久久久丰满| 精品酒店卫生间| 婷婷色综合大香蕉| 亚洲精品国产成人久久av| 亚洲四区av| 国产日韩欧美在线精品| 精品国产一区二区三区久久久樱花 | 日本欧美国产在线视频| 插阴视频在线观看视频| 欧美色视频一区免费| 中文字幕精品亚洲无线码一区| 麻豆av噜噜一区二区三区| 午夜福利成人在线免费观看| 在线播放国产精品三级| 国产一区有黄有色的免费视频 | 99久久无色码亚洲精品果冻| 国产精华一区二区三区| 热99re8久久精品国产| 一级av片app| 亚洲丝袜综合中文字幕| 亚洲av中文av极速乱| 五月玫瑰六月丁香| 两个人视频免费观看高清| 国产中年淑女户外野战色| 午夜精品一区二区三区免费看| 亚洲色图av天堂| 欧美日韩在线观看h| 国产亚洲午夜精品一区二区久久 | 久久精品影院6| 国模一区二区三区四区视频| 啦啦啦啦在线视频资源| 亚洲av中文字字幕乱码综合| 免费观看在线日韩| 草草在线视频免费看| 偷拍熟女少妇极品色| 春色校园在线视频观看| 天天躁日日操中文字幕| 久久精品夜色国产| 国产麻豆成人av免费视频| 老师上课跳d突然被开到最大视频| 伊人久久精品亚洲午夜| 午夜福利网站1000一区二区三区| 久久久成人免费电影| 日本爱情动作片www.在线观看| 麻豆成人午夜福利视频| av线在线观看网站| 日韩国内少妇激情av| 久久欧美精品欧美久久欧美| 国产精品一区二区三区四区久久| 一二三四中文在线观看免费高清| 秋霞在线观看毛片| 精品国内亚洲2022精品成人| 人人妻人人澡人人爽人人夜夜 | 97超碰精品成人国产| 午夜福利高清视频| 国产精品人妻久久久影院| 久久午夜福利片| 成人亚洲精品av一区二区| 免费av观看视频| 日本免费一区二区三区高清不卡| 爱豆传媒免费全集在线观看| 亚洲高清免费不卡视频| 老司机福利观看| 久久精品国产亚洲av涩爱| 久久久午夜欧美精品| 色哟哟·www| 亚洲欧美日韩高清专用| 观看免费一级毛片| av天堂中文字幕网| 午夜a级毛片| 超碰av人人做人人爽久久| 国产精品一二三区在线看| 赤兔流量卡办理| 国产三级中文精品| 高清av免费在线| 最近手机中文字幕大全| 尤物成人国产欧美一区二区三区| 女人久久www免费人成看片 | 熟女人妻精品中文字幕| 国产精品电影一区二区三区| 国产极品精品免费视频能看的| 亚州av有码| 国产精华一区二区三区| 久久久久久久亚洲中文字幕| 欧美日韩综合久久久久久| 婷婷六月久久综合丁香| 好男人视频免费观看在线| av线在线观看网站| 国产老妇女一区| 国产欧美另类精品又又久久亚洲欧美| 性色avwww在线观看| 国产亚洲av片在线观看秒播厂 | 国产色爽女视频免费观看| 美女脱内裤让男人舔精品视频| 亚洲伊人久久精品综合 | 亚洲久久久久久中文字幕| 看十八女毛片水多多多| 久久99热这里只有精品18| 日韩欧美精品免费久久| 亚洲在线自拍视频| 精品熟女少妇av免费看| 亚洲自偷自拍三级| 亚洲国产精品成人久久小说| 国产激情偷乱视频一区二区| 日韩av在线免费看完整版不卡| 国产高清国产精品国产三级 | 亚洲欧美精品综合久久99| 亚洲欧美日韩东京热| 久久亚洲精品不卡| 国模一区二区三区四区视频| 国产 一区 欧美 日韩| 麻豆久久精品国产亚洲av| 国产亚洲午夜精品一区二区久久 | 亚洲精品日韩在线中文字幕| 日韩强制内射视频| 国产精品伦人一区二区| www.av在线官网国产| 亚洲av成人精品一二三区| av国产久精品久网站免费入址| 久久久a久久爽久久v久久| 老司机影院毛片| av又黄又爽大尺度在线免费看 | 老女人水多毛片| 成人毛片60女人毛片免费| 淫秽高清视频在线观看| 网址你懂的国产日韩在线| .国产精品久久| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 日韩,欧美,国产一区二区三区 | 色视频www国产| 久久久久国产网址| 免费av毛片视频| av女优亚洲男人天堂| 国产亚洲精品av在线| 3wmmmm亚洲av在线观看| 亚洲国产最新在线播放| 天堂av国产一区二区熟女人妻| 午夜a级毛片| 一个人观看的视频www高清免费观看| 一级av片app| 三级经典国产精品| 色综合亚洲欧美另类图片| 亚洲综合精品二区| 中文字幕久久专区| 日韩av在线免费看完整版不卡| 中文字幕熟女人妻在线| 又爽又黄无遮挡网站| 国产白丝娇喘喷水9色精品| 久久久久久伊人网av| 在现免费观看毛片| 看黄色毛片网站| 国产一区二区三区av在线| 国产精品熟女久久久久浪| 亚洲国产日韩欧美精品在线观看| av播播在线观看一区| 美女内射精品一级片tv| 天堂√8在线中文| 国产乱人偷精品视频| av在线观看视频网站免费| 国产成人精品婷婷| 亚洲aⅴ乱码一区二区在线播放| 少妇人妻精品综合一区二区| 亚洲国产精品成人久久小说| 成人鲁丝片一二三区免费| 亚洲三级黄色毛片| 亚洲中文字幕日韩| 国产不卡一卡二| a级毛片免费高清观看在线播放| 国产亚洲精品久久久com| 直男gayav资源| 国产 一区 欧美 日韩| 亚洲国产日韩欧美精品在线观看| 国产一级毛片七仙女欲春2| 国产一区二区在线观看日韩| 亚洲国产欧美人成| 亚洲国产最新在线播放| 91精品国产九色| 可以在线观看毛片的网站| 在线a可以看的网站| 久久国产乱子免费精品| 久久久久久久午夜电影| 51国产日韩欧美| 国产精品久久久久久久久免| 在线天堂最新版资源| 九九久久精品国产亚洲av麻豆| 搡老妇女老女人老熟妇| 亚洲一区高清亚洲精品| 亚洲人成网站在线观看播放| 欧美精品一区二区大全| 97超视频在线观看视频| 国产亚洲一区二区精品| 人人妻人人看人人澡| 亚洲精品日韩在线中文字幕| 国产精品三级大全| 国产精品一区www在线观看| 啦啦啦观看免费观看视频高清| av在线亚洲专区| 99久久中文字幕三级久久日本| 午夜免费激情av| videos熟女内射| 亚洲电影在线观看av| 亚洲av免费在线观看| 能在线免费看毛片的网站| 欧美高清成人免费视频www| 国产av在哪里看| 我要搜黄色片| 久久草成人影院| 免费一级毛片在线播放高清视频| 国产精品综合久久久久久久免费| 女人十人毛片免费观看3o分钟| 精品99又大又爽又粗少妇毛片| 人妻制服诱惑在线中文字幕| 欧美一区二区精品小视频在线| 国产男人的电影天堂91| 国产美女午夜福利| 成人一区二区视频在线观看| 在线观看66精品国产| 日韩中字成人| 久99久视频精品免费| 麻豆一二三区av精品| 久久精品人妻少妇| 青青草视频在线视频观看| 久久人人爽人人片av| 国产亚洲精品av在线| 久久99精品国语久久久| 97超视频在线观看视频| 国产亚洲精品久久久com| 久久久精品大字幕| 亚洲精品久久久久久婷婷小说 | 亚洲精品亚洲一区二区| 长腿黑丝高跟| 老司机影院成人| 在线观看66精品国产| 亚州av有码| 青春草国产在线视频| 国产精品一区二区在线观看99 | 可以在线观看毛片的网站| 亚洲欧美精品专区久久| 国产黄色小视频在线观看| 欧美成人精品欧美一级黄| 国产精品1区2区在线观看.| 日韩中字成人| 精品久久久久久久末码| 亚洲在线自拍视频| 亚洲欧美成人综合另类久久久 | 精品久久国产蜜桃| 国产真实乱freesex| 18+在线观看网站| 身体一侧抽搐| 最后的刺客免费高清国语| 大又大粗又爽又黄少妇毛片口| 波多野结衣高清无吗| av视频在线观看入口| 中文字幕制服av| 成人亚洲欧美一区二区av| 精品午夜福利在线看| 国产精品国产三级国产专区5o | 最新中文字幕久久久久| av卡一久久| 少妇熟女aⅴ在线视频| 97超视频在线观看视频| 一级黄片播放器| 精品一区二区三区人妻视频| 少妇裸体淫交视频免费看高清| 可以在线观看毛片的网站| 久久久午夜欧美精品| 在线免费十八禁| 久久久a久久爽久久v久久| 亚洲怡红院男人天堂| 国产真实乱freesex| 永久网站在线| 69人妻影院| 欧美人与善性xxx| 日韩制服骚丝袜av| 中文字幕亚洲精品专区| 亚洲精品aⅴ在线观看| 99久国产av精品国产电影| 两性午夜刺激爽爽歪歪视频在线观看| 久久久精品欧美日韩精品| 高清在线视频一区二区三区 | 亚洲成色77777| 女人久久www免费人成看片 | 99热这里只有是精品在线观看| 日本熟妇午夜| 亚洲18禁久久av| 中文字幕人妻熟人妻熟丝袜美| 男女啪啪激烈高潮av片| 岛国在线免费视频观看| 国产成人freesex在线| 色吧在线观看| 免费在线观看成人毛片| 午夜福利在线在线| 国产亚洲精品久久久com| 日本黄色视频三级网站网址| 男女国产视频网站| 水蜜桃什么品种好| 国产乱人视频| 好男人视频免费观看在线| 免费av不卡在线播放| 亚洲精品国产成人久久av| 99久久精品一区二区三区| 菩萨蛮人人尽说江南好唐韦庄 | 日韩制服骚丝袜av| 别揉我奶头 嗯啊视频| 亚洲经典国产精华液单| 九九热线精品视视频播放| videos熟女内射| 亚洲真实伦在线观看| 少妇熟女欧美另类| 国产成人精品久久久久久| 男人和女人高潮做爰伦理| 伦理电影大哥的女人| 69av精品久久久久久| 国产又色又爽无遮挡免| 少妇的逼好多水| 蜜桃久久精品国产亚洲av| 中文天堂在线官网| 国产麻豆成人av免费视频| 日本黄色视频三级网站网址| 久久国内精品自在自线图片|