冀?中,胡峻華,丁學(xué)文,李晟嘉
基于自監(jiān)督學(xué)習(xí)的文本行人檢索
冀?中1,胡峻華1,丁學(xué)文2,李晟嘉3
(1. 天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072;2. 天津職業(yè)技術(shù)師范大學(xué)電子工程學(xué)院,天津 300222;3. 中國(guó)運(yùn)載火箭技術(shù)研究院研究發(fā)展部,北京 100076)
基于文本的行人檢索任務(wù)旨在以文本為查詢(xún)?cè)诖笠?guī)模數(shù)據(jù)庫(kù)中檢索出目標(biāo)行人的圖像,在處理社會(huì)公共安全問(wèn)題中具有較高的實(shí)用價(jià)值.不同于常規(guī)的跨模態(tài)檢索任務(wù),該任務(wù)中所有的類(lèi)別都是行人,不同行人之間的外觀差異較小,難以辨別;此外由于拍攝條件的限制圖像質(zhì)量通常較差,因此如何有效地提取更魯棒、更具有判別性的視覺(jué)特征是該任務(wù)的一項(xiàng)重要挑戰(zhàn).為了應(yīng)對(duì)這一挑戰(zhàn),設(shè)計(jì)了一種基于自監(jiān)督學(xué)習(xí)的文本行人檢索算法,以多任務(wù)學(xué)習(xí)的形式將自監(jiān)督學(xué)習(xí)與基于文本的行人檢索任務(wù)相結(jié)合,對(duì)兩種任務(wù)同時(shí)進(jìn)行訓(xùn)練,共享模型參數(shù).其中,自監(jiān)督任務(wù)作為輔助任務(wù),旨在為行人檢索任務(wù)學(xué)習(xí)到更魯棒、更具有判別性的視覺(jué)特征.具體來(lái)說(shuō),首先提取視覺(jué)和文本特征,并以圖像修復(fù)作為自監(jiān)督任務(wù),旨在學(xué)習(xí)更豐富的語(yǔ)義信息,且對(duì)遮擋數(shù)據(jù)具有更好的魯棒性;基于行人圖像的特殊性,進(jìn)一步設(shè)計(jì)了一種鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù),通過(guò)訓(xùn)練網(wǎng)絡(luò)預(yù)測(cè)圖像是否經(jīng)過(guò)了鏡像翻轉(zhuǎn)學(xué)習(xí)具有判別性的細(xì)節(jié)信息,以幫助行人檢索任務(wù)更好地區(qū)分難分樣本.在公開(kāi)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了該算法的先進(jìn)性和有效性,將行人檢索的Top-1準(zhǔn)確率提升了2.77%,并且實(shí)驗(yàn)結(jié)果顯示兩種自監(jiān)督任務(wù)存在一定的互補(bǔ)性,同時(shí)使用可以實(shí)現(xiàn)更好的檢索性能.
行人檢索;跨模態(tài)分析;自監(jiān)督學(xué)習(xí);多任務(wù)學(xué)習(xí)
隨著經(jīng)濟(jì)社會(huì)的迅速發(fā)展,人們對(duì)于公共安全問(wèn)題愈發(fā)重視,監(jiān)控?cái)z像頭逐漸遍布大街小巷,尋找走失的兒童、追蹤犯罪嫌疑人等都離不開(kāi)監(jiān)控設(shè)備的輔助.但是與此同時(shí),海量的監(jiān)控設(shè)備也產(chǎn)生了海量的數(shù)據(jù),想要從如此龐大的數(shù)據(jù)庫(kù)中找到目標(biāo)往往需要耗費(fèi)巨大的人力資源.近年來(lái),深度學(xué)習(xí)技術(shù)在處理大數(shù)據(jù)問(wèn)題中發(fā)揮了重要的作用[1],在這種背景下,基于文本查詢(xún)的行人檢索(text-based person search,TBPS)技術(shù)應(yīng)運(yùn)而生,該技術(shù)運(yùn)用深度學(xué)習(xí)技術(shù),旨在以自然語(yǔ)言作為查詢(xún),快速、準(zhǔn)確地從海量的監(jiān)控?cái)?shù)據(jù)中檢索到目標(biāo)人物[2].TBPS可以利用目擊者的口頭描述,口頭描述相比目標(biāo)人物的圖像更加容易獲得[3],其行人屬性更加靈活、自由[4],具有更強(qiáng)的描述能力.因此TBPS更加符合現(xiàn)實(shí)應(yīng)用場(chǎng)景,具有更高的實(shí)用價(jià)值.
由于文本和圖像數(shù)據(jù)屬于不同的模態(tài),因此TBPS屬于一種跨模態(tài)任務(wù).與常規(guī)跨模態(tài)任務(wù)不同,該任務(wù)中所有的類(lèi)別都是行人,他們具有大致相似的外觀特征,更加難以辨別.此外,由于現(xiàn)實(shí)中很多圖像是從相當(dāng)遠(yuǎn)的距離拍攝的,并且可能存在遮擋、光線不足等問(wèn)題,因此該任務(wù)中的圖像質(zhì)量較差.基于以上困難,為了更好地區(qū)分相似的目標(biāo),需要模型學(xué)習(xí)到足夠多的細(xì)節(jié)信息,并具有較強(qiáng)的魯棒性.在現(xiàn)有的研究中,大多數(shù)方法更關(guān)注如何對(duì)齊視覺(jué)和文本兩個(gè)模態(tài)的數(shù)據(jù)[5-7],對(duì)于如何提取更魯棒、更具有判別性的特征則關(guān)注較少.
自監(jiān)督學(xué)習(xí)是一種不依賴(lài)人工標(biāo)注而是從數(shù)據(jù)本身學(xué)習(xí)表征的方法.事實(shí)上,相比于標(biāo)注信息,數(shù)據(jù)本身包含著更豐富的信息,通過(guò)設(shè)計(jì)不同的自監(jiān)督任務(wù)可以從數(shù)據(jù)中挖掘到不同的內(nèi)容表征.目前已有很多研究使用自監(jiān)督學(xué)習(xí)方法來(lái)學(xué)習(xí)視覺(jué)表征[8-9],并取得了很好的效果.
為了在TBPS中學(xué)習(xí)到更加魯棒、更具有判別性的視覺(jué)特征,本文以多任務(wù)學(xué)習(xí)的形式將TBPS與自監(jiān)督任務(wù)相結(jié)合,以行人檢索作為主任務(wù),自監(jiān)督學(xué)習(xí)作為輔助任務(wù),通過(guò)完成自監(jiān)督任務(wù)學(xué)習(xí)到對(duì)行人檢索有幫助的特征信息.這主要有兩個(gè)挑戰(zhàn).第一,需要根據(jù)目標(biāo)任務(wù)選擇與其相適配的自監(jiān)督學(xué)習(xí)方法.因?yàn)橐恍┰谄渌曈X(jué)任務(wù)上有良好表現(xiàn)的方法并不一定也適合行人檢索任務(wù).例如圖像旋轉(zhuǎn)角度預(yù)測(cè)任務(wù)[10],由于所有行人都是站立狀態(tài),且身體部位的相對(duì)位置固定,所以很難通過(guò)判斷旋轉(zhuǎn)角度這一任務(wù)學(xué)習(xí)到有用的信息.第二,需要合理地控制自監(jiān)督任務(wù)的難度.盡管采用多任務(wù)學(xué)習(xí)的形式,但是本文主要關(guān)注行人檢索任務(wù)的性能,并不關(guān)注自監(jiān)督任務(wù)的性能.作為輔助任務(wù),自監(jiān)督任務(wù)的意義只在于在完成它的過(guò)程中學(xué)習(xí)對(duì)主任務(wù)有幫助的信息.當(dāng)自監(jiān)督任務(wù)難度過(guò)高時(shí),一方面可能難以完成,自然也就無(wú)法學(xué)習(xí)到有價(jià)值的信息;另一方面,即便能夠順利完成,也可能使網(wǎng)絡(luò)過(guò)多地關(guān)注了自監(jiān)督任務(wù),學(xué)習(xí)到更多與自監(jiān)督任務(wù)相關(guān)但與行人檢索任務(wù)無(wú)關(guān)的信息,從而對(duì)行人檢索任務(wù)造成干擾.反之,網(wǎng)絡(luò)不需要學(xué)習(xí)過(guò)多的信息就可以輕松完成任務(wù),該任務(wù)的存在也就失去了意義.因此需要控制自監(jiān)督任務(wù)的難度,以達(dá)到在不干擾行人檢索任務(wù)的情況下學(xué)習(xí)到對(duì)行人檢索任務(wù)有幫助的信息.
本文的貢獻(xiàn)主要體現(xiàn)在如下兩個(gè)方面.首先,以Transformer模型作為視覺(jué)和文本特征提取網(wǎng)絡(luò),提出一種基于自監(jiān)督學(xué)習(xí)的多任務(wù)學(xué)習(xí)框架.其中,選取自監(jiān)督學(xué)習(xí)中的圖像修復(fù)作為輔助任務(wù),與行人檢索任務(wù)同時(shí)訓(xùn)練,共享模型參數(shù),旨在學(xué)習(xí)更豐富的語(yǔ)義信息,且針對(duì)遮擋數(shù)據(jù)具有更好的魯棒性.其次,進(jìn)一步設(shè)計(jì)了一種與行人檢索任務(wù)相契合的鏡像翻轉(zhuǎn)預(yù)測(cè)作為自監(jiān)督輔助任務(wù),通過(guò)訓(xùn)練網(wǎng)絡(luò)判斷圖像是否經(jīng)過(guò)了鏡像翻轉(zhuǎn)學(xué)習(xí)具有判別性的細(xì)節(jié)信息.通過(guò)在公開(kāi)數(shù)據(jù)集上設(shè)計(jì)的大量實(shí)驗(yàn)驗(yàn)證了所提方法的有效性,并且實(shí)驗(yàn)結(jié)果進(jìn)一步顯示這兩種自監(jiān)督任務(wù)存在一定的互補(bǔ)性.
基于文本的行人檢索任務(wù)自提出以來(lái)已經(jīng)吸引眾多研究者的關(guān)注[5-7].對(duì)于這一細(xì)粒度跨模態(tài)檢索任務(wù),大多數(shù)方法[2,5-6,11-12]使用通用的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)分別提取視覺(jué)特征和文本特征.例如,Li等[2]以VGG-16和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)作為特征提取器設(shè)計(jì)了一個(gè)帶有門(mén)控神經(jīng)注意機(jī)制的模型;Gao等[13]基于ResNet-50和BERT設(shè)計(jì)了一種自適應(yīng)全尺度對(duì)齊模型;在近期的一項(xiàng)工作中,Li等[14]提出了一種基于Transformer的多粒度對(duì)齊模型.總體而言,隨著通用網(wǎng)絡(luò)模型的不斷改進(jìn),這一任務(wù)的整體性能也在不斷提升,但是行人檢索任務(wù)由于細(xì)粒度問(wèn)題和圖像質(zhì)量問(wèn)題對(duì)于視覺(jué)特征提取的要求較高,仍需要進(jìn)一步地針對(duì)該任務(wù)設(shè)計(jì)更好的視覺(jué)特征提取網(wǎng)絡(luò).為此,本文針對(duì)行人數(shù)據(jù)的特點(diǎn)設(shè)計(jì)了一種基于自監(jiān)督學(xué)習(xí)的視覺(jué)特征提取網(wǎng)絡(luò),旨在獲得更魯棒、更具有判別性的視覺(jué)特征.
自監(jiān)督學(xué)習(xí)是一種不依賴(lài)于人工標(biāo)注的學(xué)習(xí)方式,旨在通過(guò)設(shè)計(jì)特定的任務(wù)以從數(shù)據(jù)本身學(xué)習(xí)到相應(yīng)的知識(shí)[8,10].目前已經(jīng)有多種自監(jiān)督學(xué)習(xí)方法在視覺(jué)表征方面取得了出色的效果.例如,Komodakis等[10]通過(guò)訓(xùn)練網(wǎng)絡(luò)預(yù)測(cè)圖像的旋轉(zhuǎn)角度迫使網(wǎng)絡(luò)理解圖像內(nèi)容;Noroozi等[15]設(shè)計(jì)了一種拼圖游戲,將圖像劃分成若干個(gè)小塊并標(biāo)記序號(hào),按照某些特定的順序?qū)⑵浯騺y后再訓(xùn)練網(wǎng)絡(luò)預(yù)測(cè)當(dāng)前輸入的是哪一個(gè)序列,要完成好這一任務(wù),需要網(wǎng)絡(luò)學(xué)習(xí)到圖像的結(jié)構(gòu)信息.此外,常見(jiàn)的自監(jiān)督任務(wù)還包括圖像修復(fù)[16]、圖像上色[17]、超分辨率[18]等.這些自監(jiān)督任務(wù)通常作為輔助任務(wù),旨在訓(xùn)練得到一個(gè)特征提取網(wǎng)絡(luò)進(jìn)而用于目標(biāo)任務(wù).對(duì)于不同的目標(biāo)任務(wù)需要選擇與之契合的自監(jiān)督任務(wù),因此本文基于行人數(shù)據(jù)的特殊性設(shè)計(jì)了一種鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù),旨在從圖像中學(xué)習(xí)區(qū)分性的細(xì)節(jié)信息.
為了在基于文本的行人檢索任務(wù)中獲得更魯棒、更具有判別性的視覺(jué)特征,本文設(shè)計(jì)了一種基于自監(jiān)督學(xué)習(xí)的文本行人檢索算法(self-supervised learning approach for text-based person search,SSL-TBPS).由于TBPS是一個(gè)細(xì)粒度檢索任務(wù),并且該任務(wù)中的圖像質(zhì)量通常較差,句子結(jié)構(gòu)復(fù)雜,因此對(duì)于網(wǎng)絡(luò)的特征提取能力要求較高.本文使用具有較強(qiáng)特征提取能力的Swin Transformer[19]和BERT[20]分別作為基本的視覺(jué)和文本特征提取網(wǎng)絡(luò),并設(shè)計(jì)了一種多任務(wù)學(xué)習(xí)模型,將自監(jiān)督學(xué)習(xí)中的圖像修復(fù)任務(wù)與行人檢索任務(wù)相結(jié)合,進(jìn)一步地設(shè)計(jì)了一種更適合行人檢索任務(wù)的輔助任務(wù),即鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù).
1) 視覺(jué)特征提取
2) 文本特征提取
在基于文本的行人檢索任務(wù)的實(shí)際應(yīng)用中,經(jīng)常會(huì)存在行人被遮擋的情況,為了在學(xué)習(xí)語(yǔ)義信息的同時(shí)更好地應(yīng)對(duì)遮擋情況,本文首先選擇圖像修復(fù)作為自監(jiān)督任務(wù),將其與TBPS相結(jié)合.具體來(lái)說(shuō),受MAE模型啟發(fā)[16],本文首先選取一定比例的圖像塊進(jìn)行隨機(jī)掩蔽,然后將掩蔽后剩余的可見(jiàn)部分重新輸入到網(wǎng)絡(luò)中,提取視覺(jué)特征,最后再由解碼器根據(jù)視覺(jué)特征和掩碼標(biāo)記恢復(fù)出被掩蔽的部分.
基于圖像修復(fù)任務(wù)的文本行人檢索算法(記為SSL-TBPS-I)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由基于文本的行人檢索和自監(jiān)督學(xué)習(xí)兩部分組成.在基于文本的行人檢索部分,使用Swin Transformer和BERT分別提取圖像嵌入和文本嵌入,其中Swin Transformer包括4個(gè)階段的網(wǎng)絡(luò)[19].然后使用跨模態(tài)投影分類(lèi)損失(記為CMPC)和跨模態(tài)投影匹配損失(記為CMPM)[5]對(duì)齊兩種模態(tài).在自監(jiān)督學(xué)習(xí)部分,對(duì)基于文本的行人檢索部分中Swin Transformer第1階段網(wǎng)絡(luò)輸出的28×28個(gè)圖像塊進(jìn)行隨機(jī)掩蔽,并經(jīng)過(guò)編碼器和解碼器恢復(fù)出被掩蔽的部分.如前文所述,該算法需要較好地控制自監(jiān)督任務(wù)的難度,直接對(duì)Swin Transformer輸入的56×56個(gè)圖像塊進(jìn)行隨機(jī)掩蔽會(huì)使任務(wù)難度較高,且計(jì)算復(fù)雜.由于Swin Transformer會(huì)隨著網(wǎng)絡(luò)的加深不斷地合并相鄰的圖像塊,即在每個(gè)階段的網(wǎng)絡(luò)之間將相鄰的4個(gè)圖像塊合并為一個(gè),因此筆者選擇對(duì)第1階段網(wǎng)絡(luò)之后的28×28個(gè)圖像塊進(jìn)行隨機(jī)掩蔽.具體來(lái)說(shuō),隨機(jī)掩蔽這些圖像塊的75%,這將使剩余的14×14個(gè)圖像塊在數(shù)目上剛好滿足第3階段的網(wǎng)絡(luò),因此將剩余的可見(jiàn)部分重新輸入到第3階段的網(wǎng)絡(luò)中,以第3階段和第4階段的網(wǎng)絡(luò)作為編碼器.解碼器使用了包含4個(gè)Transformer Block的輕量級(jí)網(wǎng)絡(luò),并在最后加入一層線性投影,其輸出通道數(shù)等于每個(gè)掩蔽圖像塊的像素值數(shù),通過(guò)預(yù)測(cè)每個(gè)掩蔽圖像塊的像素值來(lái)重建輸入.均方差損失(mean squared error,MSE)用來(lái)度量重建結(jié)果與原始輸入間的誤差,即
式中:表示原始輸入值;表示重建預(yù)測(cè)值;表示被掩蔽的圖像塊數(shù)目.
本文進(jìn)一步設(shè)計(jì)了一種新的自監(jiān)督任務(wù),通過(guò)預(yù)測(cè)圖像是否經(jīng)過(guò)鏡像翻轉(zhuǎn)來(lái)學(xué)習(xí)圖像中的細(xì)節(jié)信息.其動(dòng)機(jī)是筆者注意到行人圖像是近似左右對(duì)稱(chēng)的,這使得經(jīng)過(guò)水平鏡像翻轉(zhuǎn)后的圖像與原始圖像的差異并不大,因此需要學(xué)習(xí)到一些細(xì)節(jié)的位置信息才能準(zhǔn)確地判斷圖像是否經(jīng)過(guò)了鏡像翻轉(zhuǎn).例如,經(jīng)過(guò)翻轉(zhuǎn)之后手提包從圖像的左側(cè)到了圖像的右側(cè),只有網(wǎng)絡(luò)學(xué)習(xí)到了這種類(lèi)似的細(xì)節(jié)信息才可以準(zhǔn)確地分辨這種細(xì)微差異.而這種細(xì)節(jié)的位置信息,對(duì)于行人檢索任務(wù)有較大的幫助.例如文本描述提到“左手拎著一個(gè)手提包”,如果網(wǎng)絡(luò)中沒(méi)有學(xué)習(xí)到這種細(xì)節(jié)位置信息,而數(shù)據(jù)集中恰好存在一個(gè)右手拎著手提包的人,就很可能發(fā)生錯(cuò)誤地匹配,檢索出一個(gè)很相似但是錯(cuò)誤的結(jié)果.
如圖2所示,基于鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)的文本行人檢索算法(記為SSL-TBPS-M)的網(wǎng)絡(luò)結(jié)構(gòu)分為兩部分:第1部分是基于文本的行人檢索任務(wù),通過(guò)Swin Transformer和BERT提取視覺(jué)嵌入和文本嵌入,然后通過(guò)優(yōu)化損失函數(shù)對(duì)兩種模態(tài)的嵌入進(jìn)行對(duì)齊;第2部分是本文設(shè)計(jì)的鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù),通過(guò)對(duì)原始圖像進(jìn)行鏡像翻轉(zhuǎn)得到新的圖像,然后將原始圖像和翻轉(zhuǎn)后的圖像都輸入特征提取網(wǎng)絡(luò),通過(guò)分類(lèi)器預(yù)測(cè)輸入的圖像是否經(jīng)過(guò)了鏡像翻轉(zhuǎn).這兩部分共享視覺(jué)特征提取網(wǎng)絡(luò)的參數(shù).
圖2 基于鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)的文本行人檢索網(wǎng)絡(luò)結(jié)構(gòu)
本文以多任務(wù)學(xué)習(xí)的形式同時(shí)優(yōu)化行人檢索與自監(jiān)督任務(wù)的目標(biāo)函數(shù),但是由于本文的主要目的是實(shí)現(xiàn)更好的檢索性能而并不關(guān)注自監(jiān)督任務(wù)的完成情況,因此需要通過(guò)目標(biāo)函數(shù)來(lái)調(diào)節(jié)不同任務(wù)的權(quán)重,其公式為
式中、、分別表示3種損失函數(shù)的權(quán)重系數(shù).
CUHK-PEDES是基于文本的行人檢索領(lǐng)域目前唯一的大型公共數(shù)據(jù)集[2],本文在該數(shù)據(jù)集上對(duì)提出的算法進(jìn)行評(píng)估.CUHK-PEDES數(shù)據(jù)集共包括13003個(gè)行人的40206張圖像,每張圖像對(duì)應(yīng)兩句文本描述,即共有80412個(gè)句子.相比一般的跨模態(tài)檢索數(shù)據(jù)集,CUHK-PEDES中所有的類(lèi)別都是行人,且圖像質(zhì)量更差,包含很多低分辨率和弱光線的圖像,且平均每個(gè)句子含23.5個(gè)單詞,也遠(yuǎn)多于一般跨模態(tài)檢索數(shù)據(jù)集,這使得提取有區(qū)分性的視覺(jué)和文本特征更加具有挑戰(zhàn)性.
為了保證實(shí)驗(yàn)的公平性,本文中對(duì)CUHK-PEDES數(shù)據(jù)集采用通用的劃分方式[2].即將數(shù)據(jù)集劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集包含11003個(gè)行人的34054張圖像和68108個(gè)句子,驗(yàn)證集包含1000個(gè)行人的3078張圖像和6156個(gè)句子,測(cè)試集包含1000個(gè)行人的3074張圖像和6148個(gè)句子.
本文選擇Top-準(zhǔn)確率作為檢索結(jié)果的評(píng)價(jià)指標(biāo).即在測(cè)試階段中,給定一個(gè)查詢(xún)文本,測(cè)試集中的所有圖像根據(jù)與查詢(xún)文本的相似度進(jìn)行排序,如果排序后的前個(gè)結(jié)果中包含了目標(biāo)圖像則視為檢索成功,檢索成功次數(shù)與總檢索次數(shù)的比值即為T(mén)op-準(zhǔn)確率.
Swin Transformer的4個(gè)階段網(wǎng)絡(luò)分別包括2、2、6和2個(gè)Transformer Block,將輸入圖像劃分成尺寸為4×4的圖像塊,4個(gè)階段網(wǎng)絡(luò)中圖像分別被劃分為56×56、28×28、14×14、7×7個(gè)圖像塊.本文所使用的Swin Transformer預(yù)訓(xùn)練模型是由Liu等[19]在ImageNet-1K數(shù)據(jù)集(包含1000個(gè)類(lèi),128×104張圖像)上訓(xùn)練300個(gè)epoch得到的.文本特征提取器選擇在CUHK-PEDES數(shù)據(jù)集上訓(xùn)練過(guò)的BERT并凍結(jié)網(wǎng)絡(luò)參數(shù)[13].視覺(jué)特征和文本特征的維度都設(shè)置為768.對(duì)于所有實(shí)驗(yàn),都使用AdamW優(yōu)化器[21]訓(xùn)練30個(gè)周期.初始學(xué)習(xí)率設(shè)置為8×10–5,最小學(xué)習(xí)率為8×10–7,并使用余弦退火學(xué)習(xí)率衰減策略和5個(gè)周期的熱啟動(dòng),根據(jù)經(jīng)驗(yàn)設(shè)置為4.
筆者選取了11種較為先進(jìn)且具有代表性的基于文本的行人檢索方法與本文方法進(jìn)行了性能對(duì)比,如表1所示.
表1?算法性能對(duì)比
Tab.1?Algorithm performance comparison %
按照所用視覺(jué)特征提取器的不同將這些方法分成3類(lèi),即基于VGG-16的方法、基于ResNet-50的方法和基于Transformer的方法.觀察實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)基于VGG-16的方法在性能上相對(duì)落后,這是由于VGG-16的特征提取能力有限,不能很好地從質(zhì)量較差的行人圖像中提取到判別性信息.基于ResNet-50的方法在性能上則要明顯優(yōu)于VGG-16,目前大部分方法仍是使用ResNet-50作為視覺(jué)特征提取器.由于Transformer在視覺(jué)領(lǐng)域的應(yīng)用從近兩年才剛剛興起,因此基于Transformer的文本行人檢索方法目前較少,但是已經(jīng)展現(xiàn)了出色的性能.與上述方法相比,本文方法在各項(xiàng)指標(biāo)上都實(shí)現(xiàn)了最佳的檢索性能,將Top-1、Top-5、Top-10和總計(jì)指標(biāo)分別提升了2.77%、0.88%、0.05%和3.99%.Top-1準(zhǔn)確率的明顯提升表明本文方法對(duì)于難分樣本具有更好的區(qū)分效果,可以從多個(gè)相似的樣本中檢索出正確結(jié)果.
1)基于圖像修復(fù)與鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)的文本行人檢索
本文進(jìn)一步探究了使用不同的自監(jiān)督任務(wù)對(duì)于行人檢索性能的影響,如表2所示,當(dāng)=0且=0時(shí)表示不使用自監(jiān)督任務(wù),即基線方法;僅=0時(shí)表示僅使用圖像修復(fù)任務(wù),記為SSL-TBPS-I;僅=0時(shí)表示僅使用鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù),記為SSL-TBPS-M;二者均不為0時(shí)表示同時(shí)使用兩種自監(jiān)督任務(wù),記為SSL-TBPS.
表2?自監(jiān)督任務(wù)對(duì)性能的影響
Tab.2 Impacts of different self-supervised tasks on the performance?%
觀察表2實(shí)驗(yàn)結(jié)果,當(dāng)同時(shí)使用兩種自監(jiān)督任務(wù)時(shí),各項(xiàng)指標(biāo)都達(dá)到了最佳,這表明圖像修復(fù)任務(wù)與鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)之間存在一定的互補(bǔ)性.即圖像修復(fù)任務(wù)可以學(xué)習(xí)到更豐富的語(yǔ)義信息,鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)可以學(xué)習(xí)到具有判別性的細(xì)節(jié)信息從而幫助區(qū)分難分樣本.
進(jìn)一步觀察表2發(fā)現(xiàn),在每組實(shí)驗(yàn)中和的具體取值都對(duì)實(shí)驗(yàn)性能有著明顯的影響,即調(diào)節(jié)主任務(wù)與輔助任務(wù)之間的權(quán)重配比會(huì)影響主任務(wù)的性能.這是由于主任務(wù)與輔助任務(wù)既存在著相關(guān)信息也包含無(wú)關(guān)信息,所提方法在本質(zhì)上就是要學(xué)習(xí)到更多對(duì)完成主任務(wù)有幫助的相關(guān)信息,盡可能少地學(xué)習(xí)到無(wú)關(guān)信息.當(dāng)輔助任務(wù)權(quán)重過(guò)低時(shí),輔助任務(wù)難以完成,自然無(wú)法學(xué)習(xí)到足夠多的相關(guān)信息;而權(quán)重過(guò)高時(shí)模型就會(huì)傾注更多的“精力”去完成輔助任務(wù),導(dǎo)致學(xué)習(xí)到更多的無(wú)關(guān)信息,對(duì)主任務(wù)造成干擾.
2)基于圖像修復(fù)任務(wù)的文本行人檢索
當(dāng)使用圖像修復(fù)任務(wù)時(shí),相對(duì)于不使用任何自監(jiān)督學(xué)習(xí)方法,總性能可以提升3.79%,這證明了自監(jiān)督方法的有效性.
本文進(jìn)一步探究了當(dāng)面對(duì)遮擋數(shù)據(jù)時(shí),基于圖像修復(fù)任務(wù)的算法有何表現(xiàn).通過(guò)對(duì)數(shù)據(jù)集的觀察,筆者發(fā)現(xiàn)其中的遮擋數(shù)據(jù)相對(duì)較少,但是在實(shí)際的行人檢索任務(wù)中遮擋情況卻不可避免.因此為了更好地探究算法在面對(duì)遮擋數(shù)據(jù)時(shí)的表現(xiàn),需要對(duì)測(cè)試集的數(shù)據(jù)進(jìn)行一定的處理.具體來(lái)說(shuō),本文對(duì)測(cè)試集的圖像進(jìn)行隨機(jī)擦除,擦除的概率為50%,擦除部分的面積為2%~30%的隨機(jī)值,長(zhǎng)寬比為0.3~3.3的隨機(jī)值.筆者選取了兩種具有代表性的開(kāi)源算法[5]同本文基于圖像修復(fù)任務(wù)的方法一起分別在原始測(cè)試集和處理后的測(cè)試集上進(jìn)行測(cè)試,比較面對(duì)正常數(shù)據(jù)與遮擋數(shù)據(jù)時(shí)的性能差值.為了使對(duì)比更加直觀,僅比較Top-1準(zhǔn)確率,結(jié)果顯示在表3中(此處對(duì)比算法的性能為筆者復(fù)現(xiàn)性能).
通過(guò)表3中的結(jié)果發(fā)現(xiàn),對(duì)測(cè)試集進(jìn)行一定程度的遮擋處理后,基于圖像修復(fù)任務(wù)的方法性能下降4.34%,要明顯低于NAFS的下降幅度.CMPM+CMPC方法盡管性能下降的絕對(duì)幅度不大,但是由于其初始性能較低,從比例來(lái)考慮其下降幅度也遠(yuǎn)大于基于圖像修復(fù)任務(wù)的方法.由此可見(jiàn),基于圖像修復(fù)任務(wù)的方法對(duì)于處理行人檢索任務(wù)中的遮擋情況具有一定的優(yōu)勢(shì).
筆者還探究了選擇不同階段的圖像塊進(jìn)行隨機(jī)掩蔽對(duì)行人檢索性能的影響,包括Swin Transformer原始輸入的56×56個(gè)圖像塊,第1階段網(wǎng)絡(luò)輸出的28×28個(gè)圖像塊以及第2階段網(wǎng)絡(luò)輸出的14×14個(gè)圖像塊,如表4所示.當(dāng)選擇對(duì)56×56個(gè)圖像塊進(jìn)行隨機(jī)掩蔽時(shí),實(shí)驗(yàn)耗時(shí)較長(zhǎng),模型體積較大,且性能不佳,這是由于此時(shí)圖像修復(fù)任務(wù)過(guò)于復(fù)雜,使得網(wǎng)絡(luò)過(guò)多地關(guān)注了圖像修復(fù)任務(wù),反而降低了行人檢索的準(zhǔn)確率;當(dāng)選擇對(duì)14×14個(gè)圖像塊進(jìn)行隨機(jī)掩蔽時(shí),行人檢索性能有較小提升,這是由于此時(shí)圖像修復(fù)任務(wù)較為簡(jiǎn)單,在完成該任務(wù)的過(guò)程中學(xué)習(xí)到的知識(shí)也相對(duì)較少,因此對(duì)于行人檢索任務(wù)的提升有限;當(dāng)選擇對(duì)28×28個(gè)圖像塊進(jìn)行隨機(jī)掩蔽時(shí),相比另外兩種設(shè)置取得了更好的效果,此時(shí)圖像修復(fù)任務(wù)的難度較為合適,可以在完成該任務(wù)的過(guò)程中學(xué)習(xí)到更多與行人檢索任務(wù)相關(guān)的信息.
表3?不同算法面對(duì)遮擋數(shù)據(jù)的魯棒性對(duì)比
Tab.3 Robustness comparison of different algorithms against occlusion data?%
表4?掩蔽不同圖像對(duì)檢索性能的影響
Tab.4 Impacts of masking different images on the re-trieval performance?%
3)基于鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)的文本行人檢索
從表2中進(jìn)一步觀察可知,當(dāng)使用鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)時(shí),相比于不使用任何自監(jiān)督學(xué)習(xí)方法,Top-1準(zhǔn)確率可以提升1.92%,證明這一簡(jiǎn)單的任務(wù)同樣有很好的效果.進(jìn)一步地對(duì)比基于鏡像翻轉(zhuǎn)預(yù)測(cè)的方法與基于圖像修復(fù)的方法,可發(fā)現(xiàn)基于圖像修復(fù)的方法在Top-5和Top-10兩項(xiàng)指標(biāo)上要優(yōu)于基于鏡像翻轉(zhuǎn)預(yù)測(cè)的方法,而基于鏡像翻轉(zhuǎn)預(yù)測(cè)的方法在Top-1準(zhǔn)確率上則更有優(yōu)勢(shì).這一結(jié)果表明,圖像修復(fù)任務(wù)可以學(xué)習(xí)到更豐富的語(yǔ)義信息,而鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)可以更好地學(xué)習(xí)到具有判別性的細(xì)節(jié)信息,更有助于區(qū)分行人檢索中的難分樣本.
表5展示了基于鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)的文本行人檢索算法中在Swin Transformer網(wǎng)絡(luò)的不同位置接入分類(lèi)器對(duì)行人檢索性能的影響.結(jié)果表明,在第3階段的網(wǎng)絡(luò)之后連接分類(lèi)器會(huì)取得更好的檢索性能.筆者分析這是由于深層的網(wǎng)絡(luò)會(huì)學(xué)習(xí)到具體的語(yǔ)義信息,即針對(duì)不同的任務(wù)學(xué)習(xí)到的信息差異較大.因此若分類(lèi)器連接在深層網(wǎng)絡(luò)會(huì)使得整個(gè)網(wǎng)絡(luò)對(duì)于輔助任務(wù)和主任務(wù)無(wú)法兼顧,導(dǎo)致輔助任務(wù)無(wú)法完成或是主任務(wù)被干擾.而稍淺層的網(wǎng)絡(luò)學(xué)習(xí)到的特征會(huì)更為通用,包含著不同任務(wù)所共同需要的信息,具有更好的泛化性能.
表5?分類(lèi)器位置對(duì)檢索性能的影響
Tab.5 Impacts of the classifier position on the retrieval performance? %
4)基于其他自監(jiān)督任務(wù)的文本行人檢索
除圖像修復(fù)任務(wù)與鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù)外,本文探索了另外兩種自監(jiān)督任務(wù)與行人檢索任務(wù)相結(jié)合的效果,即圖像旋轉(zhuǎn)角度預(yù)測(cè)任務(wù)[10]與拼圖任務(wù)[15],實(shí)驗(yàn)結(jié)果展示在表6中.結(jié)果顯示,這兩種自監(jiān)督任務(wù)并未帶來(lái)行人檢索性能的提升,這可能是由于它們與行人檢索任務(wù)的相關(guān)性較弱,因此同時(shí)訓(xùn)練反而使得模型學(xué)習(xí)到了較多的無(wú)關(guān)知識(shí),不能專(zhuān)注于行人檢索任務(wù).由此可見(jiàn),設(shè)計(jì)自監(jiān)督任務(wù)時(shí)需要結(jié)合行人檢索任務(wù)的特點(diǎn),充分考慮自監(jiān)督任務(wù)與行人檢索任務(wù)的相關(guān)性.
表6?不同自監(jiān)督任務(wù)對(duì)檢索性能的影響
Tab.6 Impacts of different self-supervised tasks on re-trieval performance?%
為了在基于文本的行人檢索任務(wù)中提取更魯棒、更具有判別性的視覺(jué)表示,本文設(shè)計(jì)了一種基于自監(jiān)督學(xué)習(xí)的算法,以自監(jiān)督任務(wù)作為輔助任務(wù)從而學(xué)習(xí)對(duì)于行人檢索任務(wù)有幫助的信息.本文首先以圖像修復(fù)作為輔助任務(wù),學(xué)習(xí)到了更豐富的語(yǔ)義信息,且面對(duì)遮擋數(shù)據(jù)展現(xiàn)了較好的魯棒性.然后進(jìn)一步設(shè)計(jì)了一種鏡像翻轉(zhuǎn)預(yù)測(cè)任務(wù),為行人檢索任務(wù)學(xué)習(xí)更具有判別性的細(xì)節(jié)信息.在公共數(shù)據(jù)集CUHK-PEDES上進(jìn)行的大量實(shí)驗(yàn)證明了這兩種任務(wù)的有效性,并且兩種任務(wù)展示了一定的互補(bǔ)性,同時(shí)使用時(shí)實(shí)現(xiàn)了更好的檢索效果.
[1] 龐彥偉,尚楚博,何宇清. 基于尺度不變特征和位置先驗(yàn)的行人檢測(cè)算法[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2017,50(9):946-952.
Pang Yanwei,Shang Chubo,He Yuqing. Pedestrian detection algorithm based on scale invariant features and prior position information[J]. Journal of Tianjin University(Science and Technology),2017,50(9):946-952(in Chinese).
[2] Li S,Xiao T,Li H S,et al. Person search with natural language description[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:5187-5196.
[3] Wu L,Hong R C,Wang Y,et al. Cross-entropy adversarial view adaptation for person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology,2019,30(7):2081-2092.
[4] Ji Z,He E L,Wang H R,et al. Image-attribute reciprocally guided attention network for pedestrian attribute recognition[J]. Pattern Recognition Letters,2019,120:89-95.
[5] Zhang Y,Lu H C. Deep cross-modal projection learning for image-text matching[C]// European Conference on Computer Vision. Munich,Germany,2018:707-723.
[6] Jing Y,Si C Y,Wang J B,et al. Pose-guided multi-granularity attention network for text-based person search [C]// AAAI Conference on Artificial Intelligence. New York,USA,2020:11189-11196.
[7] Niu K,Huang Y,Ouyang W L,et al. Improving description-based person re-identification by multi-granularity image-text alignments[J]. IEEE Transactions on Image Processing,2020,29:5542-5556.
[8] Chen T,Kornblith S,Norouzi M,et al. A simple framework for contrastive learning of visual representations[C]// International Conference on Machine Learning. Addis Ababa,Ethiopia,2020:1597-1607.
[9] Su J C,Maji S,Hariharan B. When does self-supervision improve few-shot learning?[C]// European Conference on Computer Vision. Glasgow,UK,2020:645-666.
[10] Komodakis N,Gidaris S. Unsupervised representation learning by predicting image rotations[C]// International Conference on Learning Representations. Vancouver,Canada,2018:1-16.
[11] Ji Z,Li S J,Pang Y W. Fusion-attention network for person search with free-form natural language[J]. Pattern Recognition Letters,2018,116:205-211.
[12] Ji Z,Li S J. Multimodal alignment and attention-based person search via natural language description[J]. IEEE Internet of Things Journal,2020,7(11):11147-11156.
[13] Gao C Y,Cai G Y,Jiang X Y,et al. Contextual non-local alignment over full-scale representation for text-based person search[EB/OL]. http://arxiv.org/abs/2101. 03036,2021-01-21.
[14] Li H,Xiao J M,Sun M J,et al. Transformer based language-person search with multiple region slicing[J]. IEEE Transactions on Circuits and Systems for Video Technology,2021,32(3):1624-1633.
[15] Noroozi M,F(xiàn)avaro P. Unsupervised learning of visual representations by solving jigsaw puzzles[C]// European Conference on Computer Vision. Amsterdam,The Netherlands,2016:69-84.
[16] He K M,Chen X L,Xie S N,et al. Masked autoencoders are scalable vision learners[EB/OL]. http://arxiv. org/abs/2111. 06377,2021-11-11.
[17] Zhang R,Isola P,Efros A A. Colorful image colorization[C]//European Conference on Computer Vision. Amsterdam,the Netherlands,2016:649-666.
[18] Ledig C,Theis L,Huszár F,et al. Photo-realistic single image super-resolution using a generative adversarial network[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:4681-4690.
[19] Liu Z,Lin Y T,Cao Y,et al. Swin transformer:Hierarchical vision transformer using shifted windows[C]// IEEE International Conference on Computer Vision. Montreal,Canada,2021:9992-10002.
[20] Devlin J,Chang M W,Lee K,et al. Bert:Pre-training of deep bidirectional transformers for language understanding[C]// North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Minneapolis,USA,2019:4171-4186.
[21] Kingma D P,Ba J. Adam:A method for stochastic optimization[C]// International Conference on Learning Representations. San Diego,USA,2015:1-15.
[22] Chen T L,Xu C L,Luo J B. Improving text-based person search by spatial matching and adaptive threshold[C]// IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe,USA,2018:1879-1887.
[23] Chen Y C,Huang R,Chang H,et al. Cross-modal knowledge adaptation for language-based person search [J]. IEEE Transactions on Image Processing,2021,30:4057-4069.
[24] Zhu A C,Wang Z J,Li Y F,et al. DSSL:Deep surroundings-person separation learning for text-based person retrieval[C]// ACM International Conference on Multimedia. Chengdu,China,2021:209-217.
[25] Wang C J,Luo Z M,Lin Y J,et al. Text-based person search via multi-granularity embedding learning[C]// International Joint Conference on Artificial Intelligence. Montreal,Canada,2021:1068-1074.
A Self-Supervised Learning Approach for Text-Based Person Search
Ji Zhong1,Hu Junhua1,Ding Xuewen2,Li Shengjia3
(1. School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China;2. School of Electronic Engineering,Tianjin University of Technology and Education,Tianjin 300222,China;3. R&D Department,China Academy of Launch Vehicle Technology,Beijing 100076,China)
The text-based person search task aims at retrieving images of target pedestrians in a large-scale database with text as a query,which is highly practical in social and public safety. In contrast with the conventional crossmodal retrieval task,all categories in this task are pedestrians. However,the slight appearance difference among different pedestrians makes it difficult to discriminate,and poor shooting conditions cause the production of bad image quality. Therefore,the effective extraction of robust and discriminative visual features is an important challenge to this task. In response,a text-based person search algorithm based on self-supervised learning was designed,which formulated the self-supervised learning and text-based person search task in the form of multitask learning. Both tasks were trained at the same time and shared similar model parameters. As an auxiliary task,the self-supervised task aims to learn more robust and discriminative visual features for the person search task. Specifically,visual and textual features were first extracted,and the image inpainting was applied as a self-supervised task,aiming to learn richer semantic information and become more robust to occlusion data. Based on the particularity of the person image,a mirror flip prediction task was further designed to learn discriminative details by training the network to predict whether the image was mirror-flipped or not. This was applied to enable the person search task to distinguish difficult samples. Extensive experiments on the public dataset have demonstrated the superiority and effectiveness of the proposed approach,thereby improving the Top-1 accuracy of person search by 2.77%. Experimental results also show that the two self-supervised tasks are complementary,and better retrieval performance can be achieved using them at the same time.
person search;crossmodal analysis;self-supervised learning;multitask learning
10.11784/tdxbz202202003
TP37
A
0493-2137(2023)02-0169-08
2022-02-07;
2022-05-09.
冀?中(1979—??),男,博士,教授.
冀?中,jizhong@tju.edu.cn.
天津市自然科學(xué)基金資助項(xiàng)目(19JCYBJC16000);國(guó)家自然科學(xué)基金資助項(xiàng)目(62176178);天津市科委科技特派員資助項(xiàng)目(20YDTPJC01110);中國(guó)航天科技集團(tuán)公司錢(qián)學(xué)森青年創(chuàng)新基金資助項(xiàng)目.
Supported by the Natural Science Foundation of Tianjin,China(No. 19JCYBJC16000),the National Natural Science Foundation of China (No. 62176178),Tianjin Science and Technology Commissioner Project(No. 20YDTPJC01110),China Aerospace Science and Technology Corporation Qian Xuesen Youth Innovation Fund.
(責(zé)任編輯:孫立華)