• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多尺度特征增強(qiáng)與對齊的跨模態(tài)行人檢索

    2024-11-21 00:00:00徐領(lǐng)繆翌張衛(wèi)鋒
    現(xiàn)代電子技術(shù) 2024年22期

    摘" 要: 為了解決跨模態(tài)行人檢索從圖像和文本中抽取有效的細(xì)節(jié)特征,以及實(shí)現(xiàn)圖像與自然語言文本跨模態(tài)對齊的問題,提出一種基于多尺度特征增強(qiáng)與對齊的跨模態(tài)行人檢索模型。該模型引入多模態(tài)預(yù)訓(xùn)練模型,并構(gòu)建文本引導(dǎo)的圖像掩碼建模輔助任務(wù),充分實(shí)現(xiàn)跨模態(tài)交互,從而無需顯式地標(biāo)注信息即可增強(qiáng)模型學(xué)習(xí)圖像局部細(xì)節(jié)特征的能力。另外,針對行人圖像身份易混淆問題,設(shè)計全局圖像特征匹配輔助任務(wù),引導(dǎo)模型學(xué)習(xí)身份關(guān)注的視覺特征。在CUHK?PEDES、ICFG?PEDES和RSTPReid等多個公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型超越了目前已有的主流模型,其第一命中率分別達(dá)到了72.47%、62.71%和59.25%,實(shí)現(xiàn)了高準(zhǔn)確率的跨模態(tài)行人檢索。

    關(guān)鍵詞: 跨模態(tài)行人檢索; 多尺度特征增強(qiáng); 多模態(tài)對齊; CLIP; 圖像掩碼; 跨模態(tài)交互; 交叉注意力

    中圖分類號: TN911?34; TP391.41; TP183" " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " 文章編號: 1004?373X(2024)22?0044?07

    Cross?modal pedestrian retrieval based on multi?scale feature enhancement and alignment

    Abstract: In order to solve the problem of extracting effective detail features from images and texts in cross?modal pedestrian retrieval, as well as achieving cross?modal alignment between images and natural language texts, a cross?modal pedestrian retrieval model based on multi?scale feature enhancement and alignment is proposed. In this model, the multimodal pre?training model is introduced, and the text?guided image mask modeling auxiliary task is constructed to fully realize cross?modal interaction, so as to enhance the model′s ability to learn local image detail features without explicit annotation information. In allusion to the identity confusion in person images, a global image feature matching auxiliary task is designed to guide the model to learn visual features that are relevant to identity. The experimental results on multiple public datasets such as CUHK?PEDES, ICFG?PEDES, and RSTPReid show that the proposed model surpasses existing mainstream models, with first hit rates of 72.47%, 62.71%, and 59.25%, respectively, achieving high accuracy in cross?modal pedestrian retrieval.

    Keywords: cross modal pedestrian retrieval; multi?scale feature enhancement; multimodal alignment; CLIP; image mask; cross?modal interaction; cross attention

    0" 引" 言

    跨模態(tài)行人檢索任務(wù)[1]是根據(jù)用戶輸入的一段關(guān)于行人的自然語言文本描述來檢索圖像集中與之相對應(yīng)的行人圖像。其與行人重識別(Re?ID)[2]都屬于圖像檢索的子任務(wù),但是又有所不同,行人重識別是使用圖像搜索圖像,而跨模態(tài)行人檢索是基于文本搜索行人圖像。文本具有簡單直觀的特點(diǎn),更易于使用。例如在進(jìn)行犯罪嫌疑人搜索時,目擊者往往只能提供關(guān)于嫌疑人的文字描述,而無法給出具體的圖像。所以跨模態(tài)行人檢索具有更好的實(shí)用價值,尤其在安防領(lǐng)域,迫切需要跨模態(tài)行人檢索技術(shù)。

    然而,跨模態(tài)行人檢索模型一方面需要具備挖掘行人圖像和文本細(xì)微特征的能力,另一方面需要克服不同模態(tài)間“異構(gòu)鴻溝”的能力,實(shí)現(xiàn)視覺和文本的跨模態(tài)對齊。此外,由于環(huán)境光線、拍攝角度、當(dāng)前姿勢等諸多因素的影響,同一身份的行人可能存在較大的類內(nèi)方差。不同身份的行人由于大部分的外在因素相同,導(dǎo)致存在較小的類間方差。這就使得跨模態(tài)行人檢索任務(wù)具有極大的挑戰(zhàn)。

    目前,基于深度神經(jīng)網(wǎng)絡(luò)的跨模態(tài)行人檢索算法占據(jù)了主流。早期的算法[3?4]采用雙流模型來提取圖像和文本的全局特征做訓(xùn)練和預(yù)測。但是全局特征容易忽略對跨模態(tài)行人檢索任務(wù)至關(guān)重要的細(xì)節(jié)特征,例如行人的上衣顏色、下裝類型等,因此無法解決類內(nèi)方差大、類間方差小的問題。為了達(dá)到更好的效果,后續(xù)的方法[5?6]嘗試引入局部特征,提取圖像和文本中有用的局部特征,做對應(yīng)局部塊之間的一一匹配,有效提高了跨模態(tài)行人檢索的準(zhǔn)確率。但是圖像和文本相同而局部信息的位置不同,如何做到局部之間的準(zhǔn)確對齊,以及如何消除局部帶來的噪聲是關(guān)鍵難題。此外,雙流模型的模態(tài)間交互較少,很難解決跨模態(tài)對齊問題。AXM?Net[7]和IVT[8]采用混合模型,增加了圖像和文本之間的交互,從而增強(qiáng)了網(wǎng)絡(luò)的模態(tài)對齊能力。

    為了進(jìn)一步解決當(dāng)前跨模態(tài)行人檢索模型難以捕捉圖像細(xì)微特征并實(shí)現(xiàn)跨模態(tài)準(zhǔn)確對齊的問題,本文提出一種基于多尺度特征增強(qiáng)和對齊的跨模態(tài)行人檢索模型。該模型將CLIP[9]預(yù)訓(xùn)練模型作為模型骨干網(wǎng)絡(luò),充分利用該大規(guī)??缒B(tài)中蘊(yùn)含的跨模態(tài)知識,提取行人圖像和查詢文本的基礎(chǔ)特征,并針對性地設(shè)計多個輔助訓(xùn)練任務(wù),引導(dǎo)模型適應(yīng)跨模態(tài)行人檢索任務(wù)的特點(diǎn),更好地挖掘行人圖像和查詢文本的多尺度特征,并在全局和局部兩個尺度去優(yōu)化兩種模態(tài)之間的對齊問題。具體而言,本文設(shè)計了全局圖像特征匹配任務(wù),減少噪聲干擾,增強(qiáng)模型學(xué)習(xí)相關(guān)類別的視覺特征能力。同時,為了使模型能夠更好地挖掘和對齊跨模態(tài)局部特征,設(shè)計了文本引導(dǎo)的掩碼圖像建模輔助訓(xùn)練任務(wù),通過隨機(jī)遮蓋圖像部分區(qū)域,并預(yù)測還原原始信息,有效地增強(qiáng)模型的局部細(xì)微特征建模能力。上述模型和訓(xùn)練任務(wù)設(shè)計可有效學(xué)習(xí)圖像和文本的全局及局部細(xì)節(jié)特征,增強(qiáng)模型的跨模態(tài)對齊能力,從而實(shí)現(xiàn)高準(zhǔn)確率的跨模態(tài)行人檢索。

    1" 本文方法

    1.1" 模型結(jié)構(gòu)

    如圖1所示,本文提出的基于多尺度特征增強(qiáng)與對齊的跨模態(tài)行人檢索模型是一個多模態(tài)混合模型。該模型由單獨(dú)的文本編碼器和圖像編碼器以及一個跨模態(tài)交互編碼器組成。文本編碼器用于提取文本特征,圖像編碼器用于提取圖像特征,利用文本和圖像的全局特征做全局特征任務(wù)。以文本和圖像的全局和局部特征作為跨模態(tài)交互編碼器的輸入,并在其輸出上進(jìn)行掩碼圖像建模任務(wù),增強(qiáng)圖像編碼器抽取行人圖像局部細(xì)節(jié)特征的能力。本文模型通過多尺度多任務(wù)學(xué)習(xí),使得模型具有細(xì)粒度表征能力和多模態(tài)對齊能力。

    1.2" 特征提取編碼器

    CLIP[9]模型主要由文本編碼器和圖像編碼器構(gòu)成,并且在海量圖像?文本對上進(jìn)行對比學(xué)習(xí)。研究表明,預(yù)訓(xùn)練的CLIP模型在多個下游任務(wù)上展現(xiàn)了其強(qiáng)大的語義信息挖掘能力、零樣本能力和模態(tài)對齊能力。跨模態(tài)行人檢索任務(wù)也是一個圖文匹配任務(wù),本文采用預(yù)訓(xùn)練的CLIP模型來提取行人圖像和檢索文本的基礎(chǔ)特征,從而充分利用該模型中蘊(yùn)含的預(yù)訓(xùn)練知識。

    文本特征提?。簩τ谟脩糨斎氲臋z索文本T,CLIP模型首先進(jìn)行分詞和截斷/補(bǔ)長操作,并插入文本開始標(biāo)記和結(jié)束標(biāo)記,從而將檢索文本長度統(tǒng)一為77個詞。然后通過詞嵌入方法將文本詞序列轉(zhuǎn)化為向量序列[ET={eT1,eT2,…,eT77}∈R77×512]。該向量序列加入位置編碼后送入12層編碼層,通過自注意力機(jī)制學(xué)習(xí)文本中蘊(yùn)含的語義信息。本文以最后一層編碼層的輸出[zT={fT,vT1,vT2,…,vT77}]作為文本的基礎(chǔ)特征。其中:[fT]表示開始標(biāo)記對應(yīng)的輸出,可視為文本的全局特征;[vTi]表示詞i對應(yīng)的文本局部特征。

    征;[vIi]表示圖像區(qū)域塊的局部特征。

    1.3" 全局圖像特征匹配

    跨模態(tài)行人檢索任務(wù)中存在大量如圖2所示的情況。圖中,左側(cè)圖像和中間圖像是同一人物,但是因?yàn)榕臄z角度不同,在整體上存在很大差異;而右圖中的行人和中間圖像中的行人并不是同一人物,但是他們的特征較相似,差異只在于鞋子顏色和背包。因此,跨模態(tài)行人檢索模型往往會錯誤估計這些圖的相似度,從而獲得錯誤的檢索結(jié)果。為了解決上述問題,本文設(shè)計全局圖像特征匹配任務(wù)來引導(dǎo)模型學(xué)習(xí)魯棒的行人全局特征,使得模型能夠提取到不同行人的視覺特征。

    在具體實(shí)現(xiàn)中,首先預(yù)存本輪圖像全局特征的集合,如下:

    [A=(PID(fI1),fI1),(PID(fI2),fI2),…,(PID(fIN),fIN)]

    式中:N表示人物個數(shù);[PID(fIj)]表示圖像對應(yīng)的行人[PID]標(biāo)識號;[fIj]表示圖像j的全局特征。從集合A中隨機(jī)采樣m組具有相同行人標(biāo)識號的行人圖像特征加入到本批次訓(xùn)練中。由于本任務(wù)的目的是使模型抽取的具有相同行人標(biāo)識號的圖像具有相似的視覺特征,因此在訓(xùn)練過程中使用如下KL散度作為訓(xùn)練目標(biāo)。

    式中:n為圖文對個數(shù);α是一個很小的常數(shù),用于防止除零異常;[pk,j]為圖像k和圖像j全局特征之間的余弦相似度;[qk,j]表示圖像k和圖像j是否具有相同的行人標(biāo)識號。當(dāng)[PID(fIk)]與[PID(fIj)]相同時,[qk,j=1];否則,[qk,j=0]。

    1.4" 文本引導(dǎo)的圖像掩碼建模

    以往的大量研究表明,從行人圖像中獲取與當(dāng)前檢索文本相關(guān)的細(xì)節(jié)特征是跨模態(tài)行人檢索成功的關(guān)鍵和難點(diǎn)[5?8]?,F(xiàn)在的方法使用在圖像分類任務(wù)上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)或VIT模型來抽取圖像局部特征,但缺乏檢索文本的提示,其局部特征學(xué)習(xí)能力不足。近年來提出的SimMIM[12]模型通過掩碼圖像建模學(xué)習(xí)表征,使得圖像編碼器能夠根據(jù)圖像上下文重構(gòu)圖像局部區(qū)域信息,從而有效提高了圖像編碼器的局部特征學(xué)習(xí)能力。但是SimMIM模型只能利用圖像上下文信息建模和預(yù)測掩碼區(qū)域,不具備跨模態(tài)能力。為了使得跨模態(tài)行人檢索模型能夠根據(jù)查詢文本有目的地挖掘行人圖像中的局部細(xì)微特征,本文設(shè)計了文本引導(dǎo)的圖像掩碼建模任務(wù),利用檢索文本和行人圖像之間的跨模態(tài)交互,充分挖掘檢索文本和行人圖像局部信息之間的關(guān)聯(lián)信息,實(shí)現(xiàn)行人圖像掩碼區(qū)域的重構(gòu),從而提高圖像編碼器的細(xì)粒度圖像特征學(xué)習(xí)能力。掩碼圖像建模具體方法如圖3所示,該任務(wù)包含4個步驟:隨機(jī)圖像掩碼、圖文特征提取、圖文特征交互融合編碼器和掩碼區(qū)域預(yù)測解碼器。

    1) 隨機(jī)圖像掩碼

    根據(jù)預(yù)處理圖像大?。?84×128)和圖像編碼器VIT的分塊大小(16×16)把原始圖像分成192塊,按照6∶10的比例隨機(jī)遮蓋分塊作為圖像編碼器的輸入,公式如下:

    [Iinput=Patchi·maski," i∈[1,192]] (2)

    式中:[Patchi]表示每個圖像塊的原始特征向量;[maski]取值為0或1,0表示遮蓋,1表示不改變。

    2) 圖文特征提取

    采用1.2節(jié)所述方法,利用預(yù)訓(xùn)練的CLIP模型中的圖像編碼器和文本編碼器分別提取行人圖像和檢索文本的基礎(chǔ)特征。

    3) 圖文特征交互融合編碼器

    組合1層交叉注意力和4層多頭自注意力,并通過圖文特征交互融合編碼器,在檢索文本引導(dǎo)下挖掘圖像局部區(qū)域之間隱含的關(guān)聯(lián)信息,同時融合文本語義,為后續(xù)的預(yù)測解碼器提供更加豐富的輸入信息。圖文融合特征的計算公式如下:

    [Oencoder=TFencoder(CA(zI,zT,zT))] (3)

    式中:[CA(·)]表示交叉注意力計算;[TFencoder(·)]表示Transformer[11]塊的多頭自注意力計算;[zI]表示骨干網(wǎng)絡(luò)輸出圖像的全局和局部特征;[zT]表示骨干網(wǎng)絡(luò)輸出文本的全局和局部特征。

    4) 掩碼區(qū)域預(yù)測解碼器

    采用一個僅由一層二維卷積和像素重排構(gòu)成的輕巧網(wǎng)絡(luò),以圖文融合特征[Oencoder]為輸入,重構(gòu)圖像局部掩碼區(qū)域的像素值。為了使得解碼器盡可能無失真地恢復(fù)圖像掩碼區(qū)域,本文采用L1損失監(jiān)督本任務(wù)的訓(xùn)練,損失公式如下:

    1.5" 總體優(yōu)化目標(biāo)

    跨模態(tài)行人檢索任務(wù)需要充分挖掘檢索文本和行人圖像在全局、局部多尺度上的跨模態(tài)交互和對齊。為了實(shí)現(xiàn)全局的跨模態(tài)對齊,本文采用現(xiàn)有方法[5,8,13]最常用的跨模態(tài)投影匹配損失來引導(dǎo)模型在全局尺度上進(jìn)行跨模態(tài)對齊。同時,為了增強(qiáng)模型的多尺度特征學(xué)習(xí)能力和對齊能力,本文在訓(xùn)練過程中引入了兩個輔助任務(wù):全局圖像特征匹配任務(wù)能夠增強(qiáng)模型學(xué)習(xí)行人標(biāo)識碼相關(guān)的全局特征能力;文本引導(dǎo)的掩碼圖像建模任務(wù)則可以有效提高模型挖掘檢索相關(guān)圖像局部細(xì)節(jié)特征的能力。綜合上述任務(wù),本文最終的訓(xùn)練優(yōu)化目標(biāo)如下:

    [L=LIIKL+Lmim+LCMPM] (5)

    2" 實(shí)驗(yàn)結(jié)果與分析

    2.1" 數(shù)據(jù)集

    為了驗(yàn)證提出模型的有效性,本文采用跨模態(tài)行人檢索任務(wù)中三種主流的數(shù)據(jù)集分別對對比方法進(jìn)行訓(xùn)練和測試。

    CUHK?PEDES[1]是最早的語言行人檢索任務(wù)的數(shù)據(jù)集,包含13 003個人物身份,每個身份由不同的拍攝角度、不同的背景產(chǎn)生多張圖像,大部分的每張圖像對應(yīng)2個描述文本,共由40 206張圖像和80 422個文本組成。采用數(shù)據(jù)集原論文中的劃分方式,后續(xù)的方法比較和消融研究中均采用此劃分方式,將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。其中,訓(xùn)練集有11 003個人物身份,對應(yīng)34 054張圖像和68 108個文本;驗(yàn)證集和測試集平分剩下的2 000個人物身份,分別構(gòu)建6 158個圖文對和6 156個圖文對。

    ICFG?PEDES[14]相比于CUHK?PEDES的人物身份要少一半多,僅有4 102個身份,每個身份也包含多張圖像,每個圖像只有一個描述文本,每個文本的平均長度為37.2個單詞。將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。其中,訓(xùn)練集包含3 102個身份、34 674個圖文對;測試集包含1 000個身份、19 848個圖文對。

    RSTPReid[15]在這三個數(shù)據(jù)集中含有最少的圖像,僅有20 505張圖像,每5張圖像對應(yīng)一個身份,每張圖像對應(yīng)2個描述文本,且每句的描述至少有23個單詞。將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集,分別包含37 010個圖文對、2 000個圖文對和2 000個圖文對。

    2.2" 評價指標(biāo)

    本文采用跨模態(tài)行人檢索領(lǐng)域常用的評價指標(biāo),包括Rank?k(k=1、5、10)和mAP。Rank?k(k=1、5、10)是指將查詢相似度結(jié)果從大到小排序,計算前k個中至少有一個命中的概率;mAP用于衡量檢索人物在數(shù)據(jù)庫中所有正確的圖像排在排序列表前面的程度,能更加全面地衡量算法的性能。

    2.3" 實(shí)驗(yàn)細(xì)節(jié)

    由于行人圖像尺寸不一致,本文首先將圖像統(tǒng)一剪裁到384×128,同時采用隨機(jī)橫向翻轉(zhuǎn)、隨機(jī)剪裁等圖像增強(qiáng)處理,并對圖像進(jìn)行歸一化處理。圖像編碼器和文本編碼器采用了CLIP?VIT?B/16,并以預(yù)訓(xùn)練結(jié)果對模型參數(shù)進(jìn)行初始化。圖文特征交互融合編碼器中采用4層Transformer塊,隱藏層的特征大小為512,多頭自注意力的頭數(shù)為8,并采用Adam優(yōu)化器訓(xùn)練60輪,初始學(xué)習(xí)率為[1×10-5],批量大小設(shè)置為100。本文模型采用PyTorch實(shí)現(xiàn),文中所有實(shí)驗(yàn)均在單塊Nvidia RTX 3090(24 GB顯存)GPU上訓(xùn)練和測試。

    2.4" 綜合性能對比

    為了驗(yàn)證本文所提出方法的有效性和通用性,在2.1節(jié)所述三個數(shù)據(jù)集上與目前已有先進(jìn)算法進(jìn)行了對比實(shí)驗(yàn),均取得優(yōu)越表現(xiàn),實(shí)驗(yàn)結(jié)果見表1~表3?;鶞?zhǔn)模型采用預(yù)加載的CLIP?VIT?B/16模型。

    在CUHK?PEDES[1]數(shù)據(jù)集中,本文方法在Rank?k的評價指標(biāo)上超過現(xiàn)有的大部分方法,如表1所示。本文所提模型的Rank?1達(dá)到72.47%,Rank?5達(dá)到88.24%,Rank?10達(dá)到93.24%。在對比基準(zhǔn)模型中,CFine[16]和VGSG[17]與本文類似,均采用CLIP預(yù)訓(xùn)練模型作為骨干網(wǎng)絡(luò)。相比于這兩個模型,本文模型在Rank?k指標(biāo)上提升了2~3個百分點(diǎn)。

    表2中給出了ICFG?PEDES[14]數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果,其中各方法的骨干網(wǎng)絡(luò)不斷地被Transformer編碼器替換。實(shí)驗(yàn)結(jié)果如下。

    1) 強(qiáng)大的特征提取骨干網(wǎng)絡(luò)對于提高跨模態(tài)行人檢索的準(zhǔn)確率有著明顯貢獻(xiàn)。例如,CFine[16]和本文模型均采用了CLIP提取圖像和文本基礎(chǔ)特征,其檢索準(zhǔn)確率明顯高于SSAN[14]等使用卷積神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)模型。

    2) 與CUHK?PEDES數(shù)據(jù)集上的結(jié)果類似,本文提出模型的準(zhǔn)確率比當(dāng)前主流方法均有顯著提高,在Rank?k指標(biāo)上比CFine[16]也分別高出1.88%、2.18%、2.09%。

    如表3所示,在RSTPReid[15]數(shù)據(jù)集上,本文提出的模型優(yōu)勢更加明顯,基準(zhǔn)模型已經(jīng)能夠超越目前大部分的方法,本文方法又進(jìn)一步做了提升,在Rank?k的指標(biāo)上達(dá)到了59.25%、81.90%和88.85%。RSTPReid數(shù)據(jù)集是一個較小的數(shù)據(jù)集,本文的方法依然有效,這也驗(yàn)證了骨干網(wǎng)絡(luò)CLIP已經(jīng)具備了圖文跨模態(tài)表征能力和模態(tài)對齊能力,在下游任務(wù)上做微調(diào)就可以取得很好的效果。

    2.5" 消融實(shí)驗(yàn)

    相比于現(xiàn)有方法,本文的重要創(chuàng)新是設(shè)計了兩種輔助訓(xùn)練任務(wù),引導(dǎo)模型增強(qiáng)和對齊跨模態(tài)多尺度特征。為了驗(yàn)證本文模型中各輔助任務(wù)對模型性能的影響,設(shè)計了消融對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4。

    表4中,序號1、2、3中分別添加一種方法,序號4中是全部方法的疊加結(jié)果。序號2中方法單獨(dú)對圖像特征之間求KL散度,拉近相同身份的特征概率分布,在Rank?1和mAP的指標(biāo)中相對于序號1有1%和1.12%的提升,說明圖像編碼器的表征能力對整體的提升有重要作用。序號3的掩碼圖像建模方法效果最好,提升最大,說明本文設(shè)計的基于跨模態(tài)交互的掩碼圖像建模輔助任務(wù)有助于增強(qiáng)模型挖掘行人圖像局部細(xì)節(jié),并實(shí)現(xiàn)跨模態(tài)局部對齊的能力。

    2.6" 可視化結(jié)果

    查詢結(jié)果的可視化圖如圖4所示,其中左側(cè)是查詢文本,右側(cè)是根據(jù)查詢相似度從大到小排列的圖像,五角星表示查詢正確的目標(biāo)??梢钥闯觯M管正確目標(biāo)不能保證最高的相似性,但是它們會出現(xiàn)在前5位。

    第1行和第2行是用不同的查詢文本查詢的同一身份人物,第2行的查詢準(zhǔn)確率更高,匹配的圖像都排在前列。他們之間的區(qū)別在于描述文本不同,第2行的描述更加豐富具體。這說明本文提出的模型可以在更詳細(xì)的行人細(xì)節(jié)描述提示下挖掘并對齊圖文細(xì)節(jié)特征,提升跨模態(tài)行人檢索的準(zhǔn)確率。

    第3行中查詢結(jié)果相對較差,查詢目標(biāo)被排在第4位。根據(jù)描述文本的語義,前3張圖像也都十分匹配,文本并沒有突出目標(biāo)與其他圖像之間的差別,而且第1張和第3張圖像更加清晰。

    綜上所述,證明了本文在跨模態(tài)行人檢索任務(wù)中多尺度多任務(wù)訓(xùn)練的有效性;同時對于細(xì)粒度的學(xué)習(xí)更加重要,文本和圖像特征都應(yīng)含有區(qū)分細(xì)節(jié),這是人物辨別的關(guān)鍵。

    3" 結(jié)" 語

    在本文中采用了多模態(tài)混合模型,從多尺度方面做多任務(wù)去優(yōu)化目標(biāo),拉近匹配之間的差異性,去除非匹配之間的敏感性,同時將文本圖像兩個模態(tài)對齊到同一空間。在三個基準(zhǔn)數(shù)據(jù)集上都取得了很好的效果,但是在模糊樣本的檢索上還存在不足。首先,在全局和局部特征相結(jié)合的前提下,應(yīng)多注意細(xì)粒度的學(xué)習(xí),深度挖掘局部特征學(xué)習(xí)將會取得更好的效果;其次,CLIP在多個下游任務(wù)上均展現(xiàn)了零樣本和少樣本的能力。后續(xù)可以采用大模型微調(diào)技術(shù)來挖掘CLIP在跨模態(tài)行人檢索任務(wù)中的能力,減少訓(xùn)練時間和成本。

    參考文獻(xiàn)

    [1] LI S, XIAO T, LI H S, et al. Person search with natural language description [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE, 2017: 5187?5196.

    [2] WANG H C, SHEN J Y, LIU Y T, et al. NFormer: robust person re?identification with neighbor transformer [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE, 2022: 7287?7297.

    [3] ZHANG Y, LU H C. Deep cross?modal projection learning for image?text matching [C]// Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2018: 707?723.

    [4] ZHENG Z D, ZHENG L, GARRETT M, et al. Dual?path convolutional image?text embeddings with instance loss [J]. ACM transactions on multimedia computing communications and applications, 2020, 16(2): 1?23.

    [5] CHEN Y H, ZHANG G Q, LU Y J, et al. TIPCB: a simple but effective part?based convolutional baseline for text?based person search [J]. Neurocomputing, 2022, 494: 171?181.

    [6] GAO C Y, CAI G Y, JIANG X Y, et al. Contextual non?local alignment over full?scale representation for text?based person search [EB/OL]. [2021?01?08]. https://arxiv.org/pdf/2101.03036v1.

    [7] AMMARAH F, MUHAMMAD A, JOSEF K, et al. AXM?Net: implicit cross?modal feature alignment for person re?identification [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2022: 4477?4485.

    [8] SHU S J, WEN W, WU H Q, et al. See finer, see more: implicit modality alignment for text?based person retrieval [C]// Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2022: 624?641.

    [9] ALEC R, JONG W K, CHRIS H, et al. Learning transferable visual models from natural language supervision [C]// Proceedings of the 30th International Conference on Machine Learning. Atlanta: Machine Learning Research Press, 2021: 8748?8763.

    [10] ALEXEY D, LUCAS B, ALEXANDER K, et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. [2021?06?03]. https://arxiv.org/pdf/2010.11929.

    [11] ASHISH V, NOAM S, NIKI P, et al. Attention is all you need [C]// Proceedings of the Neural Information Processing Systems. New York: Curran Associates Press, 2017: 5998?6008.

    [12] XIE Z D, ZHANG Z, CAO Y, et al. SimMIM: a simple framework for masked image modeling [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE, 2022: 9643?9653.

    [13] LI S P, CAO M, ZHANG M. Learning semantic?aligned feature representation for text?based person search [EB/OL]. [2021?12?03]. https://arxiv.org/pdf/2112.06714.pdf.

    [14] DING Z F, DING C X, SHAO Z Y, et al. Semantically self?aligned network for text?to?image part?aware person re?identification [EB/OL]. [2021?08?09]. https://arxiv.org/pdf/2107.12666.pdf.

    [15] ZHU A C, WANG Z J, LI Y F, et al. DSSL: deep surroundings?person separation learning for text?based person retrieval [C]// Proceedings of the 27th ACM International Conference on Multimedia. New York: ACM, 2021: 209?217.

    [16] YAN S L, DONG N, ZHANG L Y, et al. CLIP?driven fine?grained text?image person re?identification [J]. IEEE transactions on image processing, 2023, 32: 6032?6046.

    [17] HE S T, LUO H, JIANG W, et al. VGSG: Vision?guided semantic?group network for text?based person search [EB/OL]. [2023?11?13]. https://arxiv.org/pdf/2311.07514.pdf.

    [18] HAN X, HE S, ZHANG L, et al. Text?based person search with limited data [EB/OL]. [2021?10?20]. https://arxiv.org/pdf/2110.10807.pdf.

    [19] SUO W, SUN M Y, NIU K, et al. A simple and robust correlation filtering method for text?based person search [C]// Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2022: 726?742.

    [20] ZUO J L, YU C Q, SANG N, et al. PLIP: language?image pre?training for person representation learning [EB/OL]. [2023?05?15]. https://arxiv.org/pdf/2305.08386.pdf.

    [21] YAN S L, TANG H, ZHANG L Y, et al. Image?specific information suppression and implicit local alignment for text?based person search [EB/OL]. [2023?07?14]. https://arxiv.org/pdf/2208.14365.pdf.

    [22] WANG Z J, ZHU A C, XUE J Y, et al. Look before you leap: improving text?based person retrieval by learning a consistent cross?modal common manifold [C]// Proceedings of the 27th ACM International Conference on Multimedia. New York: ACM, 2022: 1984?1992.

    沐川县| 赣榆县| 大关县| 宜良县| 黎平县| 河南省| 武乡县| 南乐县| 濮阳市| 房产| 开江县| 柏乡县| 七台河市| 滨海县| 靖边县| 武隆县| 筠连县| 宽城| 淮阳县| 庐江县| 贡山| 民丰县| 新竹市| 芮城县| 仙游县| 松溪县| 芦溪县| 全椒县| 扎赉特旗| 阳城县| 达尔| 桦甸市| 安平县| 明星| 佳木斯市| 马边| 广安市| 临泽县| 曲靖市| 德令哈市| 娄底市|