姜定,葉茫
武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072
文本到圖像行人重識(shí)別(text-to-image person re-identification)是行人重識(shí)別和跨模態(tài)圖像檢索的子問(wèn)題,旨在利用自然語(yǔ)言描述從大規(guī)模圖像或視頻庫(kù)中檢索最符合文本描述形容的行人,如圖1 所示。相比于基于屬性的行人重識(shí)別,文本描述需要的專業(yè)知識(shí)和先驗(yàn)知識(shí)更少,且可以提供比屬性更全面的描述。此外,文本到圖像行人重識(shí)別技術(shù)可以很好地彌補(bǔ)傳統(tǒng)的基于圖像的行人重識(shí)別技術(shù)至少需要一幅行人圖像的局限性。
圖1 文本到圖像行人重識(shí)別示例Fig.1 Example of text-to-image person re-identification
自Li 等人(2017b)首次提出使用文本描述檢索對(duì)應(yīng)的行人圖像以來(lái),人們提出了許多探索文本到圖像行人重識(shí)別任務(wù)的方法。雖然這些方法取得了一定成功,但是檢索性能還不足以應(yīng)對(duì)真實(shí)世界應(yīng)用場(chǎng)景。造成文本到圖像行人重識(shí)別任務(wù)檢索準(zhǔn)確率不高的主要原因是圖像和文本兩個(gè)模態(tài)之間的差異,由于圖像和文本的表現(xiàn)形式不一致,兩個(gè)模態(tài)的語(yǔ)義信息之間很難做到精準(zhǔn)的細(xì)粒度匹配。而且現(xiàn)有方法的圖像骨干網(wǎng)絡(luò)都采用了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)結(jié)構(gòu),而CNN 的下采樣操作會(huì)導(dǎo)致細(xì)粒度的特征丟失,從而影響跨模態(tài)的細(xì)粒度匹配?,F(xiàn)有文本到圖像行人重識(shí)別方法可以分成全局特征匹配和局部特征匹配兩類。全局特征匹配方法主要集中在全局視覺(jué)和文本表征的學(xué)習(xí)上,通過(guò)優(yōu)化目標(biāo)將圖像和文本特征映射到統(tǒng)一的特征空間?,F(xiàn)有的全局特征匹配方法使用的CNN 和LSTM/GRU(long short-term memory/gated recurrent unit)骨干網(wǎng)絡(luò)無(wú)法有效提取有辨識(shí)度的全局特征。近年來(lái),在基于圖像的行人重識(shí)別方法中,提出了越來(lái)越多的局部特征匹配方法(鄭鑫 等,2020)。一些局部特征匹配的方法在全局特征的基礎(chǔ)上,引入了額外的局部特征對(duì)行人圖像和文本描述進(jìn)行細(xì)粒度的匹配,這種局部特征匹配配合全局特征匹配可以取得一定的檢索性能提升,但其中一些方法引入了額外的外部模型,如人體姿勢(shì)估計(jì)、語(yǔ)義分割或自然語(yǔ)言工具包,帶來(lái)了額外的計(jì)算花銷和不確定性,并且使網(wǎng)絡(luò)無(wú)法進(jìn)行端到端的學(xué)習(xí)。局部特征匹配方法需要提取存儲(chǔ)圖像或文本全局特征和多個(gè)局部特征,檢索時(shí)需計(jì)算全局和局部相似度,消耗了額外存儲(chǔ)空間和計(jì)算時(shí)間,不利于模型的實(shí)際部署。缺乏足夠的訓(xùn)練數(shù)據(jù)是文本到圖像行人重識(shí)別任務(wù)長(zhǎng)期以來(lái)面臨的一大挑戰(zhàn),一直缺乏有效的解決方案。為了減輕缺乏數(shù)據(jù)造成的影響,現(xiàn)有方法通常使用在單一模態(tài)大規(guī)模數(shù)據(jù)集如ImageNet(Deng等,2009)上進(jìn)行預(yù)訓(xùn)練的主干網(wǎng)絡(luò)來(lái)增強(qiáng)模型的特征提取能力,例如ResNet(residual network)(He 等,2016)和BERT(bidirectional encoder representations from transformers)(Devlin 等,2019),但是這種基于單模態(tài)數(shù)據(jù)預(yù)訓(xùn)練的主干網(wǎng)絡(luò)只能學(xué)習(xí)到圖像或文本兩個(gè)模態(tài)內(nèi)部的信息,無(wú)法學(xué)習(xí)到圖像文本跨模態(tài)匹配和語(yǔ)義對(duì)齊的信息。
針對(duì)上述文本到圖像行人重識(shí)別領(lǐng)域面對(duì)的挑戰(zhàn),本文提出了一種僅使用全局特征的基于Transformer(Vaswani 等,2017)的雙流文本到圖像行人重識(shí)別框架。由于基于CNN 的算法無(wú)法挖掘長(zhǎng)距離的關(guān)系,且會(huì)因?yàn)橄虏蓸硬僮鱽G失細(xì)粒度信息,因此本文算法采用Transformer作為視覺(jué)骨干網(wǎng)絡(luò)。為了解決文本到圖像行人重識(shí)別任務(wù)中缺少高質(zhì)量標(biāo)注數(shù)據(jù)的問(wèn)題,本文使用了CLIP(contrastive languageimage pre-training)(Radford 等,2021)模型權(quán)重對(duì)主干網(wǎng)絡(luò)參數(shù)進(jìn)行初始化。CLIP是一個(gè)在包含4億個(gè)圖像文本對(duì)的WIT(WebImageText)數(shù)據(jù)集上訓(xùn)練得到的視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型。相比使用在單一模態(tài)的大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的主干網(wǎng)絡(luò),使用CLIP能夠利用預(yù)訓(xùn)練模型的圖像文本跨模態(tài)匹配能力,從而獲得更好的圖像和文本語(yǔ)義表征。本文的主要貢獻(xiàn)如下:1)提出一個(gè)端到端的雙流Transformer 網(wǎng)絡(luò)來(lái)學(xué)習(xí)文本到圖像行人重識(shí)別任務(wù)中行人圖像和描述文本的表征,僅使用全局特征就可以超過(guò)目前使用全局特征+局部特征的最先進(jìn)算法。2)設(shè)計(jì)了一個(gè)溫度縮放跨模態(tài)投影匹配(temperature-scaled cross modal projection matching,TCMPM)損失函數(shù)。在TCMPM 中,溫度參數(shù)τ通過(guò)控制softmax 函數(shù)內(nèi)跨模態(tài)投影數(shù)值的分布,使模型更新的重點(diǎn)聚焦到難分負(fù)樣本上,并對(duì)它們施加相應(yīng)的懲罰,從而使模型學(xué)習(xí)到更有區(qū)分度的圖像文本特征。本文將溫度參數(shù)τ設(shè)置為一個(gè)可學(xué)習(xí)參數(shù),直接通過(guò)訓(xùn)練階段進(jìn)行更新,避免將其視為一個(gè)超參數(shù)進(jìn)行手動(dòng)調(diào)參。3)本文方法在CUHK-PEDES(CUHK person discription)(Li 等,2017b)和ICFG-PEDES(identity-centric and fine-grained person discription)(Ding 等,2021)數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn),文本到圖像的檢索結(jié)果大幅領(lǐng)先目前的SOTA(state-of-the-art)模型。
Li 等人(2017b)第1 個(gè)提出文本到圖像行人重識(shí)別這個(gè)任務(wù),并提出了GNA-RNN(recurrent neural network with gated neural attention)框架,其包含了一個(gè)用于提取視覺(jué)特征的VGG-16(Visual Geometry Group 16-layer network)網(wǎng)絡(luò)和一個(gè)用于提取文本特征的LSTM網(wǎng)絡(luò)。Li等人(2017a)又提出了一個(gè)身份可知的兩階段網(wǎng)絡(luò)架構(gòu),通過(guò)兩階段網(wǎng)絡(luò)聯(lián)合最小化圖像和文本特征的身份間距離和跨模態(tài)距離。Zheng 等人(2020)提出了一個(gè)雙路視覺(jué)CNN+文本CNN 網(wǎng)絡(luò)架構(gòu),使用了標(biāo)準(zhǔn)的Ranking 損失函數(shù)和提出的Instance 損失函數(shù)來(lái)聯(lián)合優(yōu)化圖像和文本特征。Zhang 和Lu(2018)提出了一個(gè)跨模態(tài)投影匹配損失和一個(gè)跨模態(tài)投影分類損失。Sarafianos 等人(2019)提出通過(guò)對(duì)抗性學(xué)習(xí)在一個(gè)共享空間中學(xué)習(xí)模態(tài)不變的視覺(jué)和文本表征。Han 等人(2021)設(shè)計(jì)了一個(gè)遷移學(xué)習(xí)方法從大規(guī)模粗粒度通用圖像文本對(duì)數(shù)據(jù)集預(yù)訓(xùn)練的CLIP 模型中遷移知識(shí),并設(shè)計(jì)了一個(gè)跨模態(tài)動(dòng)量對(duì)比學(xué)習(xí)框架,更好地利用數(shù)據(jù)量有限的文本到圖像行人重識(shí)別數(shù)據(jù)集。
還有一些方法采用了局部特征對(duì)齊的方法為全局特征對(duì)齊提供補(bǔ)充信息,學(xué)習(xí)圖像區(qū)域與文本描述中的短語(yǔ)或單詞之間的語(yǔ)義相關(guān)性。Aggarwal 等人(2020)從行人文本描述中自動(dòng)抽取屬性詞作為行人圖像屬性識(shí)別的類別,通過(guò)學(xué)習(xí)到的屬性空間局部特征和潛在空間全局特征共同完成檢索,提出了一個(gè)基于姿態(tài)的多粒度注意網(wǎng)絡(luò)。Jing 等人(2020)使用人類姿勢(shì)估計(jì)工具分割出行人圖像的人體局部特征,提出了一個(gè)由姿勢(shì)指導(dǎo)的圖像文本特征對(duì)齊網(wǎng)絡(luò)。Wang 等人(2020)同時(shí)使用了自然語(yǔ)言分詞和語(yǔ)義分割工具提取文本和圖像局部特征,設(shè)計(jì)了一個(gè)跨模態(tài)對(duì)齊網(wǎng)絡(luò)來(lái)匹配圖像文本全局特征和屬性局部特征。Chen 等人(2021)使用了在基于圖像的行人重識(shí)別方法中流行的PCB(part-based convolutional baseline)(Sun 等,2018)策略進(jìn)行局部特征提取,提出了一個(gè)多階段跨模態(tài)匹配策略對(duì)雙流網(wǎng)絡(luò)中低層特征和高層特征進(jìn)行多模態(tài)匹配,最后檢索時(shí)只使用全局圖像文本特征進(jìn)行相似度計(jì)算。Ding等人(2021)收集了一個(gè)新的文本到圖像行人重識(shí)別數(shù)據(jù)集ICFG-PEDES,基于非局部注意力機(jī)制提出了一個(gè)多視角非局部網(wǎng)絡(luò),學(xué)習(xí)人體各個(gè)部位之間的關(guān)系,檢索時(shí)使用局部特征、非局部特征和全局特征一起計(jì)算相似度。
國(guó)內(nèi)最早出現(xiàn)的文本到圖像行人重識(shí)別研究是李晟嘉(2019)提出的基于注意力機(jī)制的跨模態(tài)融合行 人 檢 索DSFA-Net(description-strengthened and fusion-attention network)。隨后,霍昶偉(2020)提出了基于截?cái)嗍阶⒁饬C(jī)制和堆疊損失函數(shù)的網(wǎng)絡(luò)框架。王玉煜(2020)提出了一個(gè)多連接分類損失函數(shù)來(lái)優(yōu)化模型。張鵬(2021)專注于設(shè)計(jì)有效的損失函數(shù),提出了基于乘性角度余量的損失函數(shù)和基于樣本對(duì)權(quán)重賦值的損失函數(shù)。殷雪朦(2021)為了實(shí)現(xiàn)細(xì)粒度的特征匹配,采用局部特征對(duì)齊方法,提出了一個(gè)結(jié)合全局和局部特征匹配的文本到圖像行人重識(shí)別網(wǎng)絡(luò)框架。
這些局部匹配方法有的需要使用額外的外部模型如人類姿勢(shì)估計(jì)、語(yǔ)義分割或自然語(yǔ)言分詞,帶來(lái)了大量的計(jì)算復(fù)雜度且無(wú)法實(shí)現(xiàn)端到端訓(xùn)練。這些模型都采取了粗粒度全局特征加多個(gè)細(xì)粒度局部特征匹配的做法,大部分在實(shí)際檢索階段需要重復(fù)計(jì)算多次圖像文本局部特征之間的相似度,這些方法由于過(guò)高的復(fù)雜度無(wú)法滿足現(xiàn)實(shí)場(chǎng)景的要求。Han等人(2021)雖然設(shè)計(jì)了一個(gè)遷移學(xué)習(xí)和動(dòng)量對(duì)比學(xué)習(xí)方法,從CLIP 預(yù)訓(xùn)練模型中轉(zhuǎn)移跨模態(tài)對(duì)齊的知識(shí),僅使用全局特征就超過(guò)現(xiàn)有的局部特征對(duì)齊方法,但是沒(méi)有充分利用預(yù)訓(xùn)練模型的強(qiáng)大跨模態(tài)匹配知識(shí)。相比而言,本文提出的雙路Transformer 網(wǎng)絡(luò)方法簡(jiǎn)單又有效,并且能夠進(jìn)行端到端的訓(xùn)練,在檢索時(shí)僅需計(jì)算全局特征余弦相似度即可快速?gòu)奈谋緳z索行人圖像。
基于Transformer 的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型BERT 在自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域取得了巨大成功。而在計(jì)算機(jī)視覺(jué)領(lǐng)域,預(yù)訓(xùn)練的大模型如ResNet 和ViT(vision Transformer)(Dosovitskiy 等,2021)也已廣泛用做圖像分類和分割等任務(wù)的骨干網(wǎng)絡(luò)。受到NLP和計(jì)算機(jī)視覺(jué)中大規(guī)模預(yù)訓(xùn)練模型取得成功的啟發(fā),近年來(lái)視覺(jué)語(yǔ)言預(yù)訓(xùn)練(vision language pre-training,VLP)在多模態(tài)任務(wù)中成為了學(xué)習(xí)多模態(tài)表征的主流。在圖文檢索(Kiros 等,2014)和視覺(jué)回答(Antol 等,2015)等任務(wù)上取得了巨大成功。VLP模型結(jié)構(gòu)可以分為單流結(jié)構(gòu)和雙流結(jié)構(gòu)兩種。單流模型采取單個(gè)Transformer 同時(shí)處理多模態(tài)輸入,使用注意力機(jī)制來(lái)融合多模態(tài)特征。代表性工作有Oscar(Li 等,2020)和UNITER(universal image-text representation)(Chen 等,2020)等。雙流模型使用單獨(dú)的兩個(gè)Transformer 分別提取圖像和文本特征,兩者之間權(quán)重不共享。雖然單流模型效果很好,但是單流模型的跨模態(tài)注意力機(jī)制在訓(xùn)練和推理時(shí)都不可避免地需要大量的計(jì)算時(shí)間。而雙流模型所提取的圖像文本特征在推理階段僅需要簡(jiǎn)單的點(diǎn)乘計(jì)算余弦相似度,所以雙流模型更適合圖文檢索任務(wù)。
本文方法在文本到圖像行人重識(shí)別中引入了雙流結(jié)構(gòu)模型,在大規(guī)模圖像文本對(duì)數(shù)據(jù)集上使用對(duì)比學(xué)習(xí)預(yù)訓(xùn)練的CLIP 模型,并設(shè)計(jì)了一個(gè)新的對(duì)比學(xué)習(xí)損失函數(shù),使模型學(xué)到更強(qiáng)大的跨模態(tài)圖像文本特征對(duì)齊能力,極大地減少了圖像文本間的跨模態(tài)差異。
本文提出了一個(gè)基于雙流Transformer 的文本到圖像行人重識(shí)別方法網(wǎng)絡(luò)模型,整體框架如圖2所示,實(shí)現(xiàn)了端到端的方式同時(shí)學(xué)習(xí)視覺(jué)和文本表征,且保證文本檢索圖像時(shí)的檢索速度。與其他行人重識(shí)別方法一樣,本文框架也由特征提取和監(jiān)督學(xué)習(xí)兩個(gè)階段組成。特征提取階段包括一個(gè)用于處理圖像輸入的視覺(jué)Transformer 和一個(gè)用于處理文本描述句子的文本Transformer。整個(gè)網(wǎng)絡(luò)直接接受數(shù)據(jù)集中原始圖像和文本描述對(duì){Ii,Ti}1作為輸入,其中,N表示小批量中圖像文本對(duì)的個(gè)數(shù),無(wú)需使用其他現(xiàn)有的圖像分割模型或BRRT 模型對(duì)圖像或文本進(jìn)行預(yù)處理。相比現(xiàn)有方法,端到端的微調(diào)學(xué)習(xí)策略在學(xué)習(xí)跨模態(tài)對(duì)齊關(guān)系時(shí)更有優(yōu)勢(shì)。
圖2 基于雙流Transformer的文本到圖像行人重識(shí)別方法框架圖Fig.2 The framework of the proposed dual-stream Transformer baseline
本文采用了視覺(jué)Transformer(ViT)作為圖像特征提取器。如圖2 所示,給定一幅行人圖像I∈RH×W×C,其中H,W,C分別表示圖像的高度、寬度和通道數(shù),將圖像均分成N個(gè)16 × 16像素的不重疊的圖像塊{|i= 1,2,…,N}。之后將N個(gè)圖像塊通過(guò)一個(gè)線性投影層投影得到N個(gè)D維的圖像塊向量,并且在輸入圖像塊向量序列前插入一個(gè)可學(xué)習(xí)的 [CLS]嵌入向量。為了學(xué)習(xí)到各圖像塊向量之間的相對(duì)位置關(guān)系,輸入圖像塊向量序列會(huì)加上一個(gè)位置嵌入P∈R(N+1)×D。最終輸入到ViT網(wǎng)絡(luò)的圖像塊向量序列可以表示為
由于文本到圖像行人重識(shí)別任務(wù)所使用數(shù)據(jù)集的圖像分辨率和WIT數(shù)據(jù)集上原始圖像的分辨率不匹配,預(yù)訓(xùn)練的CLIP的ViT模型中的位置嵌入不能直接導(dǎo)入。本文采用了TransReID(Transformer-based object re-identification)(He 等,2021)中使用的線性2D插值法來(lái)調(diào)整位置嵌入的尺寸以適應(yīng)不同的圖像分辨率。
文本特征提取器是一個(gè)由Radford 等人(2019)修改過(guò)的12 層文本Transformer。與CLIP 中的文本特征提取器保持一致,輸入的文本描述T,采用了詞庫(kù)為49 152 的小寫字節(jié)對(duì)編碼(byte pair encoding,BPE)(Sennrich 等,2016)進(jìn)行分詞和編碼處理。如圖2 所示,分詞后的文本描述在開(kāi)頭和結(jié)尾分別插入了 [SOS]和 [EOS]嵌入向量來(lái)標(biāo)識(shí)文本描述句子的開(kāi)頭和結(jié)尾。且為了保證計(jì)算效率,最大的文本描述序列長(zhǎng)度設(shè)置為77。為了學(xué)習(xí)句子中的單詞相對(duì)位置關(guān)系,位置嵌入P∈R77×D也會(huì)加到單詞向量輸入序列中。最終輸入到文本Transformer的序列可以表示為
為了最小化文本模態(tài)到圖像模態(tài)之間的距離,受到跨模態(tài)投影匹配(cross-modal projection matching,CMPM)損 失(Zhang 和Lu,2018)和InfoNCE(information noise contrastive estimation)(van den Oord 等,2019)損失函數(shù)的啟發(fā),本文設(shè)計(jì)了一個(gè)溫度縮放跨模態(tài)投影匹配(temperature-scaled cross modal projection matching,TCMPM)損失函數(shù)。給定一個(gè)由N個(gè)行人圖像和描述文本表征向量對(duì)組成的小批量,對(duì)每個(gè)圖像表征vi,這個(gè)小批量可以表示為,其中yi,j= 1 表示vi和tj屬于同一個(gè)行人,yi,j= 0表示這個(gè)圖像文本對(duì)不匹配。vi和tj匹配的概率可以定義為
式中,qi,j表示真實(shí)標(biāo)簽的分布概率,τ是和上面計(jì)算圖像文本對(duì)投影值比率中共用的溫度參數(shù)。相比原始的CMPM 損失函數(shù)使用的線性函數(shù)歸一化方法,使用softmax 函數(shù)這種非線性的歸一化方法可以起到標(biāo)簽平滑的作用。
通過(guò)計(jì)算圖像到文本的投影概率和真實(shí)匹配概率的KL(Kullback-Leibler)散度,可以得到一個(gè)小批量的圖像到文本的匹配損失函數(shù),具體為
式中,ε是一個(gè)非常小的數(shù)用來(lái)防止出現(xiàn)數(shù)值溢出問(wèn)題。通過(guò)最小化KL(pi‖qi),可以使pi分布曲線的形狀接近qi分布曲線的形狀,從而使匹配的圖像文本對(duì)的投影值最大,不匹配的圖像文本對(duì)投影值最小。
圖像到文本的匹配損失函數(shù)LI2T在圖像模態(tài)到文本模態(tài)的這個(gè)方向上拉近視覺(jué)表征與其匹配的文本表征之間的距離。在一般的圖像文本表征學(xué)習(xí)過(guò)程中,圖像文本匹配函數(shù)需要考慮兩個(gè)方向。由于損失函數(shù)的對(duì)稱性,通過(guò)計(jì)算文本表征到圖像表征上的投影,拉近文本表征與其匹配的視覺(jué)表征之間距離的文本到圖像匹配損失LT2I可以通過(guò)將式(3)中的v和t交換后代入式(5)進(jìn)行計(jì)算。最后,雙向的TCMPM損失函數(shù)可以表示為
CUHK-PEDES 數(shù)據(jù)集包含13 003 個(gè)行人的40 206 幅圖像和80 440 個(gè)文本描述,大部分圖像都有兩個(gè)文本描述。每個(gè)文本描述中平均單詞長(zhǎng)度為23.5,最大單詞長(zhǎng)度為96,最小單詞長(zhǎng)度為12。數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集包括11 003 個(gè)行人的34 054 幅圖像和68 126 個(gè)文本描述。測(cè)試集包含1 000 個(gè)行人的3 074 幅圖像和6 156個(gè)文本描述,剩下的屬于驗(yàn)證集。測(cè)試集的文本描述和行人圖像分別作為查詢集和圖像庫(kù)。
ICFG-PEDES數(shù)據(jù)集包含4 102個(gè)行人的54 522幅圖像描述文本對(duì),即每幅圖像有一個(gè)對(duì)應(yīng)的文本描述。ICFG-PEDES 中所有的圖像來(lái)源于MSMT17(multi-scene multi-time)(Wei 等,2018)數(shù)據(jù)集。數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。訓(xùn)練集包含3 102 個(gè)行人的34 674 個(gè)圖像文本對(duì),測(cè)試集包含剩下的1 000個(gè)行人的19 848個(gè)圖像文本對(duì)。
本文遵循文本到圖像行人重識(shí)別的標(biāo)準(zhǔn)評(píng)估指標(biāo),通過(guò)Rank-K(K= 1,5,10)準(zhǔn)確率來(lái)評(píng)估模型性能。具體來(lái)說(shuō),給定一個(gè)文本描述的查詢,計(jì)算圖庫(kù)中所有圖像與這個(gè)文本描述的相似度,然后根據(jù)相似度值進(jìn)行排序。Rank-K是指真實(shí)匹配圖像在相似度排序表中出現(xiàn)在前K個(gè)的概率。
在實(shí)驗(yàn)中,遵循文本到圖像行人重識(shí)別工作的實(shí)驗(yàn)設(shè)置(Han 等,2021),所有的行人圖像分辨率都重新調(diào)整到384 × 128 像素,并且在訓(xùn)練階段使用了隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪和隨機(jī)擦除的圖像數(shù)據(jù)增廣方法。最大文本長(zhǎng)度設(shè)置為77。視覺(jué)表征向量fv與文本表征向量ft的維度為512。使用Adam優(yōu)化器進(jìn)行模型優(yōu)化,基礎(chǔ)學(xué)習(xí)率為1E-5,權(quán)重衰減為4E-5。模型訓(xùn)練60 輪,在開(kāi)始的5 輪中采用warmup 策略使學(xué)習(xí)率從1E-6 線性增長(zhǎng)到1E-5。學(xué)習(xí)率在20~50 輪中每10 輪衰減為原值的0.1。LTCMPM中的τ和ε的初始值分別設(shè)置為0.07和1E-8。
所有實(shí)驗(yàn)均在單張NVIDIA GeForce RTX 3090 GPU 上進(jìn)行,使用了Pytorch 深度學(xué)習(xí)平臺(tái)進(jìn)行半精度訓(xùn)練。視覺(jué)Transformer和文本Transformer的初始化使用了CLIP(ViT-B/16)預(yù)訓(xùn)練模型。
3.4.1 定量分析
表1 和表2 給出了本文算法和現(xiàn)有的文本到圖像行人重識(shí)別算法的在CUHK-PEDES 數(shù)據(jù)集和ICFG-PEDES 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。表中列出的所有算法結(jié)果都沒(méi)有包括使用重排序在內(nèi)的后處理方法。所有的僅使用全局特征匹配的方法在表格的類型列中標(biāo)注為“G”,使用了局部特征匹配的方法則標(biāo)注為“L”。此外,表中特征維度標(biāo)注了算法所使用的特征維度大小。
表1 本文算法與其他文本到圖像行人重識(shí)別算法在CUHK-PEDES數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison with state-of-the-art text-to-image Re-ID methods on CUHK-PEDES dataset
表2 本文算法與其他文本到圖像行人重識(shí)別算法在ICFG-PEDES數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison with state-of-the-art text-to-image Re-ID methods on ICFG-PEDES dataset
從表1 可以看出,文本到圖像行人重識(shí)別的關(guān)注重點(diǎn)在于使用局部特征匹配,并且取得了相對(duì)較好的性能,但是也可以看出局部特征匹配方法已經(jīng)處于瓶頸期。在CUHK-PEDES 數(shù)據(jù)集上,本文算法大幅超過(guò)了現(xiàn)有的文本到圖像行人重識(shí)別方法,特別是對(duì)于最重要的指標(biāo)Rank-1 來(lái)說(shuō),本文算法相比現(xiàn)有最好的局部匹配方法和全局匹配方法分別提升了5.92%和7.09%。在ICFG-PEDES 數(shù)據(jù)集上,本文算法也取得了同樣的檢索性能提升。相比目前最好的局部特征匹配方法提升了1.21%。
除了優(yōu)越的檢索性能,本文算法由于僅使用了全局特征匹配和較小的特征維度,相比現(xiàn)有的局部特征匹配方法,在訓(xùn)練效率、檢索效率和離線特征存儲(chǔ)方面均有巨大優(yōu)勢(shì)。
3.4.2 消融實(shí)驗(yàn)
為了驗(yàn)證本文提出的溫度縮放跨模態(tài)投影匹配(TCMPM)損失函數(shù)的有效性,在CUHK-PEDES 和ICFG-PEDES 數(shù)據(jù)集上進(jìn)行驗(yàn)證TCMPM 有效性的消融實(shí)驗(yàn),對(duì)比完整的TCMPM、原始的CMPM、原始的CMPM + CMPC(cross-modal projection classification)、在原始的CMPM 中的softmax 中加入溫度參數(shù)、多模態(tài)自監(jiān)督學(xué)習(xí)中常使用的infoNCE 這5組損失函數(shù),并且加入了不使用損失函數(shù)的CLIP 預(yù)訓(xùn)練模型做零樣本學(xué)習(xí)(無(wú)損失函數(shù))的對(duì)照組。
表3 給出了在CUHK-PEDES 和ICFG-PEDES 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)的結(jié)果??梢钥闯觯啾仍嫉腃MPM 損失函數(shù),使用其他3 種加入溫度參數(shù)的損失函數(shù)可以顯著提升模型的跨模態(tài)特征匹配能力,從而大幅增強(qiáng)文本到圖像的檢索能力。為了更好地分析溫度參數(shù)的作用,圖3 給出了可學(xué)習(xí)的溫度參數(shù)隨著訓(xùn)練輪數(shù)的變化曲線。可以看出,溫度參數(shù)τ從初始值0.07 開(kāi)始的20 輪中快速增長(zhǎng)并在20輪之后趨于穩(wěn)定。
圖3 溫度參數(shù)τ隨訓(xùn)練輪數(shù)變化圖Fig.3 The temperature τcurve with training epoch
表3 不同損失函數(shù)的消融實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison results of different loss ablation studies/%
CLIP零樣本在CUHK-PEDES和ICFG-PEDES數(shù)據(jù)集上的文本到圖像檢索結(jié)果不理想,但是經(jīng)過(guò)使用和CLIP訓(xùn)練時(shí)一樣的infoNCE 損失函數(shù)進(jìn)行微調(diào)之后的效果已經(jīng)超過(guò)了現(xiàn)有的所有文本到圖像行人重識(shí)別方法,說(shuō)明了文本到圖像行人重識(shí)別這種細(xì)粒度的檢索任務(wù)也可以有效地從CLIP這種通用圖像文本跨模態(tài)大模型中遷移圖像文本跨模態(tài)對(duì)齊知識(shí)。
為了驗(yàn)證本文算法在不同特征提取能力的視覺(jué)骨干網(wǎng)絡(luò)中的效果,在CUHK-PEDES 數(shù)據(jù)集上進(jìn)行CLIP ResNet50,CLIP ResNet101,CLIP ViT-B/32,CLIP ViT-B/16這4個(gè)特征提取能力越來(lái)越強(qiáng)的視覺(jué)骨干網(wǎng)絡(luò)的消融實(shí)驗(yàn),結(jié)果如表4 所示。可以看出,在使用同等特征提取能力的視覺(jué)骨干網(wǎng)絡(luò)時(shí),本文算法已經(jīng)超過(guò)Han 等人(2021)方法,并且在方法簡(jiǎn)潔性上更是遠(yuǎn)超目前所有文本到圖像行人重識(shí)別方法。隨著視覺(jué)骨干網(wǎng)絡(luò)的特征提取能力增強(qiáng),本文算法在文本到圖像檢索的Rank-1,Rank-5,Rank-10值都有提升。
表4 不同視覺(jué)骨干網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison results of ablation studies/%
3.4.3 定性分析
圖4展示了本文算法在CUHK-PEDES測(cè)試集上文本到圖像檢索的可視化結(jié)果。圖4 左邊為輸入的文本描述,右邊為根據(jù)相似度從高到低排序檢索出的行人圖像。黑色邊框?yàn)檎鎸?shí)標(biāo)簽圖像,綠色邊框?yàn)闄z索出的正確匹配的行人圖像,紅色邊框?yàn)闄z索出的不正確匹配的行人圖像。從圖4 第1 行的結(jié)果可以看出,本文算法成功檢索出了滿足“black and white striped top”、“khaki pants”和“black backpack”條件的行人圖像,且在檢索出所有的正確匹配行人后,檢索出了滿足這些條件的其他行人的圖像。第2 行的檢索結(jié)果也滿足了其文本查詢的“tan coat with a hood”、“black backpack”、“jeans”和“white sneakers”條件,成功檢索出了正確匹配的行人圖像。證明了本文算法可以利用文本描述中的細(xì)粒度信息檢索出符合描述的目標(biāo)行人圖像。第3、4 行是同一個(gè)行人圖像標(biāo)注的不同的兩個(gè)文本描述的檢索結(jié)果。第3行是一個(gè)失敗檢索案例,從第3行的文本描述的屬性可以看出,描述都是很粗粒度的形容短語(yǔ),文本描述過(guò)于模糊。第3 行的檢索結(jié)果雖然都符合文本描述,但是文本描述不具備獨(dú)特性,無(wú)法準(zhǔn)確地匹配目標(biāo)行人圖像。而第4 行的文本描述標(biāo)注相比第3行有著更細(xì)粒度的屬性信息,使用第4行的文本描述進(jìn)行檢索,能夠檢索出正確匹配的行人圖像。從圖4 可以得到兩個(gè)結(jié)論:1)本文算法可以區(qū)分給定文本查詢中的細(xì)粒度屬性信息并匹配到具體的圖像信息。2)當(dāng)文本描述信息比較模糊時(shí),本文方法仍然可以給出符合文本描述的結(jié)果。
圖4 本文提出的文本到圖像行人重識(shí)別算法檢索結(jié)果可視化圖Fig.4 Visualization of text-to-image person re-identification results by our method
本文提出一種新的文本到圖像行人重識(shí)別方法,從通用圖像文本對(duì)數(shù)據(jù)集大規(guī)模預(yù)訓(xùn)練的CLIP模型中遷移通用跨模態(tài)特征對(duì)齊能力,彌補(bǔ)了文本到圖像行人重識(shí)別可使用數(shù)據(jù)不足的問(wèn)題。同時(shí)本文融合了CMPM 和infoNCE 損失函數(shù)的優(yōu)點(diǎn),提出了TCMPM 損失函數(shù)來(lái)更好地對(duì)齊圖像文本特征到共有特征空間。本文算法在兩個(gè)公開(kāi)的平均數(shù)據(jù)集上與現(xiàn)有的先進(jìn)方法LGUR(learning granularityunified representations)相比都有明顯提升,在CUHK-PEDES 和ICFG-PEDES 數(shù)據(jù)集上的Rank-1值分別提升了5.92%和1.21%。此外,最近的文本到圖像行人重識(shí)別方法都采取了手動(dòng)分割多個(gè)局部圖像和文本特征進(jìn)行多層次匹配的做法,這種做法雖然會(huì)帶來(lái)一定的性能提升,但也會(huì)破壞模態(tài)內(nèi)信息的完整性,并且多層次匹配會(huì)降低檢索速度。本文算法采用全局特征匹配,僅采用強(qiáng)大的特征提取骨干網(wǎng)絡(luò)和設(shè)計(jì)的TCMPM 損失函數(shù),就超越了近年的局部匹配方法,成為新的先進(jìn)的文本到圖像行人重識(shí)別方法。在兩個(gè)數(shù)據(jù)集上文本方法優(yōu)秀的檢索準(zhǔn)確率充分證明了本文方法的有效性。值得注意的是,本文工作采取Transformer作為骨干網(wǎng)絡(luò),因此無(wú)法采用近期行人重識(shí)別領(lǐng)域流行的基于CNN 的局部特征匹配策略,未考慮在細(xì)粒度的跨模態(tài)特征上進(jìn)行對(duì)齊。因此,設(shè)計(jì)一種細(xì)粒度的基于Transformer 局部特征匹配文本到圖像行人重識(shí)別方法,使模型可以更精準(zhǔn)地對(duì)齊圖像和文本模態(tài)之間的細(xì)粒度特征,將是文本到圖像行人重識(shí)別的主要研究方向之一。