劉宇奇,馬丙鵬
中國科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049
行人重識(shí)別(person re-identification,ReID)旨在從不重疊的攝像機(jī)視角下匹配出不同時(shí)間、地點(diǎn)出現(xiàn)的同一行人,在智能安防、罪犯抓捕以及走失人員尋找等多種實(shí)際問題中有著重要作用。經(jīng)過多年探索,行人重識(shí)別領(lǐng)域已經(jīng)取得長足發(fā)展(Zhang 等,2018;Zheng 等,2019;史維東 等,2020;王新年 等,2020;吳岸聰 等,2022;Ye 等,2022)。然而,目前絕大多數(shù)方法沒有考慮行人的換裝問題,而是默認(rèn)一個(gè)行人一直穿著同一套衣物。因而這些方法提取到的行人的表觀特征中包含較大比重的衣物信息。但是,在實(shí)際應(yīng)用場(chǎng)景中,行人往往會(huì)更換衣物,此時(shí)由于行人所著衣物發(fā)生變化,表觀特征中的衣物信息不能用于判別行人身份,這導(dǎo)致表觀特征判別力顯著下降,魯棒性差,不同的行人因穿著類似衣物而被誤認(rèn)為是同一個(gè)人的情況時(shí)有發(fā)生。
為了解決上述行人換裝問題,Yang 等人(2019)首次提出了換裝行人重識(shí)別問題。與常規(guī)行人重識(shí)別問題不同,該問題需要對(duì)不同攝像頭下、穿著不同衣物的行人進(jìn)行檢索,因此行人的標(biāo)注不僅包含身份與攝像頭標(biāo)簽,還額外包含行人的衣物標(biāo)簽。
目前換裝行人重識(shí)別方法大致可分為兩類。一類方法對(duì)衣物無關(guān)特征和衣物相關(guān)特征進(jìn)行解耦合(Lorenz 等,2019),使用解耦合得到的衣物無關(guān)特征進(jìn)行重識(shí)別,如Li 等人(2021)提出分別使用兩個(gè)編碼器單獨(dú)提取圖像的衣物無關(guān)特征(即形狀特征)和衣物相關(guān)特征(即顏色特征),通過使用灰度圖像的形狀特征和彩色圖像的顏色特征進(jìn)行圖像重建的方式對(duì)形狀和顏色特征的生成過程進(jìn)行監(jiān)督,最后使用學(xué)習(xí)到的衣物無關(guān)特征進(jìn)行判別。這類方法的缺點(diǎn)在于難以在解耦合過程中準(zhǔn)確地去除所有衣物相關(guān)特征,例如衣物紋理特征。其原因在于衣物紋理特征分布位置廣泛,受行人姿態(tài)影響大,很難將它們?nèi)空页觯胰菀着c背景產(chǎn)生混淆,這使得解耦得到的衣物無關(guān)特征中仍留存衣物信息,不完全的解耦合會(huì)導(dǎo)致解耦出的衣物無關(guān)特征判別力下降。
另一類方法通過使用其他任務(wù)中的模型獲取衣物無關(guān)的輔助信息增強(qiáng)行人特征。輔助信息包括行人關(guān)鍵點(diǎn)位置、行人輪廓(Eitz 等,2012)和行人步態(tài)等。Qian等人(2020)提出使用姿態(tài)檢測(cè)模型對(duì)姿態(tài)關(guān)鍵點(diǎn)進(jìn)行檢測(cè),將關(guān)鍵點(diǎn)信息映射為形狀信息融入行人的表觀特征中,使用注意力模塊將融合特征解耦為衣物相關(guān)特征和衣物無關(guān)特征,分別使用衣物類別和行人類別計(jì)算兩個(gè)交叉熵(cross entropy,CE)損失進(jìn)行監(jiān)督。Hong等人(2021)提出了一個(gè)密集互相學(xué)習(xí)模型,使得行人原圖像和行人語義分割得到的輪廓圖像在訓(xùn)練過程中能夠密集地互相學(xué)習(xí),從而使模型提取到的特征同時(shí)包含行人的表觀特征和體型特征,此外,作者還加入了一個(gè)姿態(tài)預(yù)測(cè)模塊將行人姿態(tài)聚類為3 種類別,對(duì)其分別處理以降低姿態(tài)變化導(dǎo)致的類內(nèi)偏差。Chen 等人(2021)提出通過對(duì)行人圖像進(jìn)行3D 重建挖掘行人的體型信息,由編碼器生成行人的姿勢(shì)與體型特征進(jìn)行3D重建,使用訓(xùn)練好的姿態(tài)、輪廓預(yù)測(cè)模型對(duì)重建過程進(jìn)行監(jiān)督,在測(cè)試階段使用重建過程中由編碼器生成的形狀特征作為輔助信息進(jìn)行檢索。相比于第1類方法,此類方法的優(yōu)點(diǎn)在于可以直接從其他任務(wù)的模型中獲取衣物無關(guān)的輔助信息以增強(qiáng)表觀特征的辨識(shí)力。此類方法更容易獲取衣物無關(guān)程度更高的行人特征,在性能表現(xiàn)上往往優(yōu)于解耦合方法,因此本文也選擇此類使用輔助信息的方法展開研究。
但是,使用輔助信息增強(qiáng)行人特征的方法仍然面臨兩個(gè)巨大挑戰(zhàn)。1)如何獲取較為準(zhǔn)確的輔助信息。由于獲取輔助信息所使用的模型來源于其他任務(wù),在行人重識(shí)別的數(shù)據(jù)集上使用時(shí)會(huì)受數(shù)據(jù)集的域偏差影響,且模型的效果也受其本身性能上限的限制,此外數(shù)據(jù)集中圖像質(zhì)量參差不齊,從低質(zhì)量圖像中提取到的信息往往不夠魯棒。2)如何有效使用輔助信息。各類輔助信息中包含的衣物無關(guān)信息各不相同,針對(duì)每一種輔助信息,采取合適的使用方式,方能獲取具有辨識(shí)力的衣物無關(guān)特征。
本文從上述兩個(gè)關(guān)鍵點(diǎn)出發(fā),對(duì)使用行人體型信息作為輔助信息的方法展開研究,提出一種高效、魯棒的行人體型信息獲取方式,并基于此方式進(jìn)一步提出一個(gè)衣物無關(guān)權(quán)重指導(dǎo)模塊,對(duì)行人表觀特征的提取過程進(jìn)行指導(dǎo),以降低表觀特征中衣物信息含量,提高表觀特征在換裝場(chǎng)景下的辨識(shí)力,最終顯著提高換裝行人重識(shí)別任務(wù)的性能。
在使用輔助信息的換裝行人重識(shí)別方法中,部分方法(Yu 等,2020b;Hong 等,2021)從人體解析模型生成的行人部分區(qū)域或全身輪廓中提取行人的體型信息,并將其作為輔助信息。這種方式產(chǎn)生的行人輪廓圖像質(zhì)量參差不齊,大量輪廓圖像包含較多的缺陷,難以從中獲取到準(zhǔn)確的行人體型信息。針對(duì)該問題,本文提出一種改進(jìn)方法,從信息量更豐富的素描圖像中獲取更魯棒、更準(zhǔn)確的行人體型信息。
行人的輪廓圖像如圖1 所示,通常可由人體解析方法獲得。人體解析問題的研究目前取得了一定進(jìn)展,但仍有一些難點(diǎn)未能很好地解決。例如,圖像中人體會(huì)穿著各種樣式、顏色和紋理的服裝,容易與背景和其他部位發(fā)生混淆;圖像中人體姿態(tài)變化很大,身體部位經(jīng)常會(huì)發(fā)生重疊,導(dǎo)致難以精準(zhǔn)解析出每一個(gè)部位的位置;多樣且復(fù)雜的背景也會(huì)一定程度上影響解析的精度。
因此,使用人體解析模型生成輪廓圖像容易受到行人重識(shí)別數(shù)據(jù)集中常見問題的影響,如光照條件過差、行人被遮擋以及行人姿勢(shì)復(fù)雜等。當(dāng)行人圖像質(zhì)量較高、背景較為簡單時(shí),人體解析模型能夠準(zhǔn)確定位人體所在位置,生成高質(zhì)量的輪廓圖像,如圖1 前兩組圖像(3 幅同列圖像為一組)。而當(dāng)行人圖像出現(xiàn)上述問題時(shí),人體解析模型難以區(qū)分行人與背景的邊界,不能精準(zhǔn)地定位每個(gè)人體部件所在位置,最終生成低質(zhì)量的輪廓圖像,如圖1 后3 組圖像所示。這種低質(zhì)量的輪廓圖像無法準(zhǔn)確描述行人的體型信息,使用此類圖像難以有效改善在換裝場(chǎng)景下行人的識(shí)別性能。
圖1 行人圖像及其對(duì)應(yīng)的輪廓圖和素描圖Fig.1 Person images and their corresponding contour images and sketch images ((a)original images;(b)contour images;(c)sketch images)
1.2.1 素描圖像的魯棒性
本文中的素描圖像由邊緣檢測(cè)方法生成。沿用Bhattarai 等人(2020)的描述方式,本文使用素描圖像描述行人圖像經(jīng)過邊緣檢測(cè)得到的圖像。
如圖1 所示,相較于輪廓圖像,素描圖像對(duì)于行人重識(shí)別數(shù)據(jù)集中的一些問題,如光照變化和遮擋,具有更強(qiáng)的魯棒性,這是二者的任務(wù)目標(biāo)差異導(dǎo)致的。人體解析任務(wù)不僅要?jiǎng)澐中腥伺c背景的邊界,同時(shí)要考慮行人內(nèi)部的各個(gè)部位如何劃分,因此它的任務(wù)目標(biāo)相較于使用目的存在一定冗余。當(dāng)原圖像質(zhì)量不高時(shí),由于模型很難準(zhǔn)確解析行人每個(gè)部位的位置,任務(wù)目標(biāo)的冗余會(huì)加劇生成圖像的低質(zhì)量問題,影響邊緣的分割效果。而邊緣檢測(cè)任務(wù)的目的是檢測(cè)出圖像所有的邊緣(Yu 等,2016),行人的輪廓是行人圖像邊緣的主要組成部分。邊緣檢測(cè)的任務(wù)目標(biāo)與使用其生成的素描圖像的目的間不存在差異,因此邊緣檢測(cè)模型生成的素描圖像更為準(zhǔn)確和魯棒。
以行人重識(shí)別數(shù)據(jù)集中較常見的兩種情況,光照條件較差、行人被物體遮擋為例,說明素描圖像相較于輪廓圖像在準(zhǔn)確性和魯棒性方面的優(yōu)勢(shì):
1)當(dāng)光照條件較差時(shí),如圖1 第5 組圖像所示。圖像中行人部分亮度較低,輪廓圖像會(huì)因人體解析模型解析不到上半身的位置丟失上半部分的輪廓。而由于行人的身體邊緣連貫,能在亮度不佳的情況下與背景及其他物體保持一定的區(qū)分度,邊緣檢測(cè)模型仍然可以檢測(cè)到較準(zhǔn)確的行人邊緣。
2)當(dāng)行人被物體遮擋時(shí),如圖1 第4 組圖像所示。在輪廓圖像中,因人體解析模型將被遮擋部分識(shí)別為背景區(qū)域,導(dǎo)致行人的下半身區(qū)域輪廓缺失。在素描圖像中,邊緣檢測(cè)模型雖難以避免遮擋物體的干擾,但在遮擋區(qū)域外能夠準(zhǔn)確地找出行人邊緣。1.2.2 素描圖像包含額外體型信息
根據(jù)Hertzmann(2020,2021)提出的現(xiàn)實(shí)主義假說,特定條件下的素描圖像包含一定量的3D 信息。人的視覺系統(tǒng)能從素描中感知出物體的類別和3D形狀,為了對(duì)這一現(xiàn)象做出解釋,Hertzmann 提出了現(xiàn)實(shí)主義假說,將素描定義為勃朗白材質(zhì)、單一光源的3D 物體建模在某一視角下獲得的2D 圖像,因此人可以從2D 的素描中獲取到3D 物體的信息。同時(shí),Hertzman指出,街景以及室內(nèi)拍攝的一些照片的素描能生成基本正確的深度圖像,這意味著從某些場(chǎng)景下的素描圖像中可以提取出3D信息,而行人重識(shí)別問題中的圖像幾乎都屬于這兩種情況。因此,根據(jù)現(xiàn)實(shí)主義假說的理論分析可知,素描圖像在特定條件下會(huì)比輪廓圖像多包含一定的3D信息,如行人和場(chǎng)景的深度信息,這些信息是輪廓圖像中不具有的。而這些信息與行人體型相關(guān),有助于換裝場(chǎng)景下的行人身份判別。
在換裝場(chǎng)景下,由于行人表觀特征中占主導(dǎo)地位的衣物表觀特征已經(jīng)不足以作為準(zhǔn)確判別身份的依據(jù),且表觀特征中缺乏體型信息,傳統(tǒng)的行人重識(shí)別方法的性能顯著下降。針對(duì)這一問題,本文提出一個(gè)素描圖像指導(dǎo)的行人完備特征獲取方法,利用素描圖像中行人衣物的位置信息,減少行人表觀特征中的衣物信息;同時(shí),從素描圖像中提取體型信息補(bǔ)全行人表觀特征。具體來說,該方法由一個(gè)基于素描圖像的衣物無關(guān)權(quán)重指導(dǎo)模塊和一個(gè)雙流網(wǎng)絡(luò)組成。
基于素描圖像的衣物無關(guān)權(quán)重指導(dǎo)模塊使用素描圖像中行人衣物的位置信息對(duì)行人圖像的特征提取進(jìn)行指導(dǎo)。模塊的核心部分是一個(gè)衣物無關(guān)權(quán)重矩陣,與行人圖像的衣物部分對(duì)應(yīng)的位置,在權(quán)重矩陣中會(huì)被賦予一個(gè)較低的權(quán)重,反之亦然。權(quán)重矩陣可以有效降低對(duì)行人衣物部分的關(guān)注度,從而獲得包含更少衣物表觀信息的特征,增強(qiáng)特征的判別力。
在素描圖像中,灰度值相對(duì)較低的地方主要是行人的邊緣,行人的大部分衣物所在位置的灰度值較高,大部分背景區(qū)域的灰度值也較高。因此,對(duì)于任意一個(gè)像素點(diǎn),如果其灰度值較大,那么這個(gè)像素點(diǎn)應(yīng)當(dāng)位于行人的衣物區(qū)域或背景區(qū)域,在特征提取過程中需要減少對(duì)這一區(qū)域的關(guān)注?;谶@一思想,本文提出了一個(gè)衣物無關(guān)權(quán)重矩陣,用于表示行人圖像中每一個(gè)位置的衣物無關(guān)度。在該矩陣中,圖像中每一個(gè)像素點(diǎn)所在位置的權(quán)重由該點(diǎn)的灰度值計(jì)算得到。在圖2 中,左側(cè)圖像為行人圖像,中間圖像為素描圖像,右側(cè)圖像為由素描圖像得到的權(quán)重矩陣的可視化圖像。對(duì)比素描圖像和權(quán)重矩陣可視化圖像可知,將素描圖像轉(zhuǎn)化為權(quán)重矩陣后,大部分行人的衣物部分和背景區(qū)域都被賦予了較低的權(quán)重。這表明權(quán)重矩陣能夠較為準(zhǔn)確地表達(dá)每一個(gè)位置的衣物無關(guān)度。
圖2 衣物無關(guān)位置權(quán)重矩陣示意圖Fig.2 Clothes-irrelevant position weight matrix schematic
衣物無關(guān)權(quán)重矩陣可以用于生成更具有鑒別力的特征。具體來說,對(duì)于衣物無關(guān)權(quán)重矩陣中權(quán)重低的衣物部分,在特征提取過程中應(yīng)當(dāng)減少對(duì)其的關(guān)注度,反之亦然。通過權(quán)重矩陣,表觀特征中衣物信息的含量會(huì)顯著減少,因而在換裝場(chǎng)景下判別力增強(qiáng)。
使用兩個(gè)子模塊構(gòu)建基于素描圖像的衣物無關(guān)權(quán)重指導(dǎo)模塊,即生成子模塊和指導(dǎo)子模塊。其中,生成子模塊實(shí)現(xiàn)從素描圖像中提取衣物無關(guān)權(quán)重信息,指導(dǎo)子模塊使用衣物無關(guān)權(quán)重信息指導(dǎo)行人表觀特征的提取過程?;谒孛鑸D像的衣物無關(guān)權(quán)重指導(dǎo)模塊可按下述方式實(shí)現(xiàn)。
1)生成子模塊。素描圖像是灰度圖,用Igs表示。由于素描圖像中衣物或背景部分的灰度值較大,而其在權(quán)重矩陣中的權(quán)重較低,因此對(duì)Igs進(jìn)行灰度值反轉(zhuǎn),并進(jìn)一步將灰度值歸一化至[0,1]區(qū)間。通過這種方式,可得到生成素描圖像的原圖像在特征提取過程中所需要的衣物無關(guān)位置權(quán)重矩陣W,W中的值代表了其對(duì)應(yīng)位置的衣物無關(guān)度。
2)指導(dǎo)子模塊。該子模塊通過衣物無關(guān)權(quán)重矩陣實(shí)現(xiàn)對(duì)行人表觀特征提取的指導(dǎo)。具體來說,衣物無關(guān)權(quán)重矩陣包含每個(gè)位置的衣物無關(guān)度,由于素描圖像和原圖像在位置關(guān)系上完全對(duì)齊,因此權(quán)重矩陣可以直接指導(dǎo)行人圖像的特征提取。將矩陣與網(wǎng)絡(luò)在特定階段后的輸出特征加權(quán)求和即可有效降低特征中衣物所在區(qū)域的權(quán)重,最終降低表觀特征中衣物信息的含量,即
式中,fn表示網(wǎng)絡(luò)第n階段輸出的特征,?表示逐元素相乘,Wn表示與fn對(duì)應(yīng)的衣物無關(guān)位置權(quán)重矩陣,f′n表示經(jīng)過加權(quán)后的特征,F(xiàn)n表示網(wǎng)絡(luò)的第n階段。
在網(wǎng)絡(luò)中,相對(duì)其輸入,在寬和高的維度上每一個(gè)階段的輸出都會(huì)縮小。為保持空間位置語義上的一致性,衣物無關(guān)位置權(quán)重矩陣也進(jìn)行相應(yīng)的降采樣,從而與特征保持相同大小的寬和高。降采樣以平均池化的方式進(jìn)行。衣物無關(guān)權(quán)重指導(dǎo)模塊的位置及降采樣過程使用的參數(shù)將在3.5節(jié)進(jìn)行討論。
2.2.1 模型整體結(jié)構(gòu)
模型整體結(jié)構(gòu)如圖3 所示。采用雙分支特征融合結(jié)構(gòu)作為網(wǎng)絡(luò)的主體結(jié)構(gòu),兩個(gè)分支的骨干網(wǎng)絡(luò)均為ResNet-50(50-layer residual network)。雙分支結(jié)構(gòu)通過在行人的表觀特征中補(bǔ)足形狀(體型)信息來降低卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)對(duì)紋理特征的歸納偏置的影響,進(jìn)而使行人特征在更加魯棒的同時(shí),也能包含豐富的表觀信息和體型信息,最終獲取完備的行人特征。
圖3 模型整體結(jié)構(gòu)Fig.3 Overall structure of the model
Geirhos 等人(2018)指出相較于形狀,卷積神經(jīng)網(wǎng)絡(luò)對(duì)紋理具有更強(qiáng)的歸納偏置,這導(dǎo)致傳統(tǒng)行人重識(shí)別方法提取到的表觀特征中形狀信息很少,在換裝場(chǎng)景下性能下降顯著。素描圖像除能提供衣物無關(guān)的位置信息外,本身也包含了行人的體型信息,這些信息難以從行人圖像中直接獲得。通過雙分支結(jié)構(gòu),可以將體型信息融入行人的特征中,增加特征的信息量,增強(qiáng)特征的魯棒性,使其更適于換裝行人重識(shí)別任務(wù)。
由于行人圖像和素描圖像之間存在一定的域差距,因此兩個(gè)分支分別在兩種圖像上單獨(dú)訓(xùn)練,從而獲得表觀和體型特征的最佳表示。衣物無關(guān)權(quán)重指導(dǎo)模塊放置于行人圖像分支的特定階段后。在分別提取到兩個(gè)分支的特征后,對(duì)二者進(jìn)行融合以獲取包含表觀信息和體型信息在內(nèi)的完整的衣物無關(guān)行人特征,即
式中,fa與fs分別表示表觀特征與體型特征。w1和w2均大于0,且w1+w2= 1。
2.2.2 損失函數(shù)
考慮到目前許多行人重識(shí)別方法都結(jié)合使用交叉熵?fù)p失和難采樣三元組損失作為損失函數(shù),并取得了較好的效果,本文同樣結(jié)合使用這兩種損失作為損失函數(shù)。
交叉熵?fù)p失函數(shù)通過最小化真實(shí)概率分布與預(yù)測(cè)概率分布之間的差異對(duì)模型進(jìn)行優(yōu)化,使模型能夠?qū)W習(xí)到類別相關(guān)的特征,即
式中,yi和fi分別表示第i個(gè)樣本的真實(shí)標(biāo)簽和特征,Wk表示類別k的權(quán)重向量。
難樣本三元組損失挖掘一個(gè)訓(xùn)練批次中所有樣本的最難三元組,即距離最近的負(fù)樣本對(duì)和距離最遠(yuǎn)的正樣本對(duì),使正負(fù)樣本對(duì)間的距離差大于閾值,有助于網(wǎng)絡(luò)辨別表觀特征相似而身份不同的樣本對(duì),即
式中,P表示一個(gè)批次中隨機(jī)選取P個(gè)行人,K表示一個(gè)行人選取K個(gè)樣本,f表示特征提取網(wǎng)絡(luò),D表示歐氏距離。
模型的損失函數(shù)L可以表示為
式中,Lce和Ltri分別表示交叉熵?fù)p失和難樣本三元組損失。w1和w2均大于0,且w1+w2= 1。
為驗(yàn)證素描圖像相較于輪廓圖像的優(yōu)越性,以及提出的基于素描圖像的衣物無關(guān)權(quán)重指導(dǎo)模塊的有效性,對(duì)提出的方法進(jìn)行測(cè)試,并與其他先進(jìn)方法進(jìn)行對(duì)比。
本 文 在LTCC(long-term cloth changing)(Qian等,2020)和PRCC(person re-identification under moderate clothing change)(Yang 等,2019)兩個(gè)換裝行人重識(shí)別數(shù)據(jù)集上對(duì)所提方法進(jìn)行測(cè)試。LTCC數(shù)據(jù)集主要在室內(nèi)場(chǎng)景下拍攝,包含152 個(gè)行人,17 138 幅圖像,478 套不同的服裝,由12 個(gè)攝像頭拍攝得到,數(shù)據(jù)集中包含許多光照變化、姿勢(shì)復(fù)雜以及發(fā)生遮擋的行人圖像,因此具有一定的挑戰(zhàn)性。PRCC 數(shù)據(jù)集是一個(gè)大型的換裝行人重識(shí)別數(shù)據(jù)集,包含221個(gè)行人,33 698幅圖像,由3個(gè)攝像頭拍攝得到。
本文使用的評(píng)價(jià)指標(biāo)為行人重識(shí)別任務(wù)中的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo),即累計(jì)匹配特征(cumulative match characteristic,CMC)曲線中的首個(gè)匹配率Rank-1 和平均精度均值(mean average precision,mAP)。
實(shí)驗(yàn)環(huán)境使用的CPU 為Intel(R)Xeon(R)CPU E5-2620 v4@2.10 GHz,操作系統(tǒng)為Ubuntu16.04,GPU 為NVIDIA GeForce RTX 3090?;趐ython 3.7.2 和深度學(xué)習(xí)框架pytorch1.10.0 完成模型的實(shí)現(xiàn),模型在Deng 等人(2009)提出的ImageNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。
在數(shù)據(jù)的預(yù)處理階段,對(duì)訓(xùn)練集的數(shù)據(jù)依次進(jìn)行隨機(jī)拉伸1/8長度并裁剪到原先的大小、調(diào)整大小至384 × 192 像素、隨機(jī)水平翻轉(zhuǎn)、正則化以及隨機(jī)擦除,調(diào)整測(cè)試集的數(shù)據(jù)大小至384×192 像素并進(jìn)行正則化。訓(xùn)練過程中,訓(xùn)練批次大小為32,每個(gè)行人隨機(jī)挑選4個(gè)樣本,使用Adam 優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率(learning rate,LR)為0.000 35,權(quán)重衰減率為0.000 5,總共迭代訓(xùn)練60 次,其中學(xué)習(xí)率分別在第20、40次迭代后降低至之前的0.1。
此外,在LTCC 數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),衣物無關(guān)權(quán)重模塊放置在表觀特征提取網(wǎng)絡(luò)的第3 層后,平均池化的核大小為5;在PRCC 數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),衣物無關(guān)權(quán)重模塊放置在表觀特征提取網(wǎng)絡(luò)的第1層后,平均池化的核大小為7。
為驗(yàn)證本文方法的有效性,與多種主流換裝行人重識(shí)別方法在LTCC 和PRCC 兩個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比,結(jié)果如表1 所示??梢钥闯觯贚TCC 數(shù)據(jù)集上,本文方法比先進(jìn)的同類方法UCAD(universal clothing attribute disentanglement)在Rank-1 和mAP指標(biāo)上分別提高了6.5%和0.8%;在PRCC 數(shù)據(jù)集上,本文方法比先進(jìn)的同類方法ADC(attentive decoupling)在Rank-1 指標(biāo)上提高了3.9%。這些結(jié)果說明本文方法有效地使用素描圖像減少表觀特征中的衣物信息,獲取包含表觀信息和體型信息的完整行人特征,驗(yàn)證了本文方法的有效性。
表1 與主流方法在LTCC和PRCC數(shù)據(jù)集上的結(jié)果對(duì)比Table 1 Comparison with state-of-the-art methods on LTCC dataset and PRCC dataset/%
在本文對(duì)比的方法中,Qian 等人(2020)提出的CESD(cloth-elimination shape-distillation)方法、Chen等人(2021)提出的3DSL(3D shape learning)方法、Jin 等人(2022)提出的GI-ReID(gait recognition as an auxiliary task to drive the Image ReID)方法和Yan 等人(2022)提出的UCAD 方法與本文方法都屬于使用額外信息輔助的方法。CESD 提取行人的關(guān)鍵點(diǎn)信息,并將其映射為形狀特征以輔助衣物相關(guān)和衣物無關(guān)特征的分離,但輔助過程缺乏有效的監(jiān)督和可視化分析,難以保證輔助信息得到充分利用,此外,關(guān)鍵點(diǎn)信息的提取也會(huì)受行人圖像質(zhì)量參差不齊的影響。3DSL 從行人圖像中提取形狀信息進(jìn)行3D 重建,并使用姿態(tài)預(yù)測(cè)和前景分割生成姿態(tài)信息和輪廓信息作為重建過程的監(jiān)督,從而優(yōu)化行人形狀信息的提取過程。GI-ReID 則從行人特征中提取步態(tài)相關(guān)的衣物無關(guān)信息,并使用一個(gè)步態(tài)預(yù)測(cè)網(wǎng)絡(luò)監(jiān)督提取到的步態(tài)相關(guān)信息,從而使網(wǎng)絡(luò)學(xué)習(xí)到更多衣物無關(guān)特征。UCAD 使用人體解析方法將行人的衣物部分單獨(dú)分離出來,使用一個(gè)額外的特征提取網(wǎng)絡(luò)從分離出的衣物部分中提取衣物特征,并將衣物特征蒸餾至提取行人特征的網(wǎng)絡(luò)中,在行人特征的提取網(wǎng)絡(luò)中使用衣物特征和行人特征的正交損失抑制行人特征中衣物信息的含量。
與這些方法的不同之處在于,本文使用素描圖像作為輔助信息的來源,素描圖像的魯棒性使得輔助信息的質(zhì)量有所保障。此外對(duì)于輔助信息的使用也采用了較為簡潔但有效的方式,將素描圖像的輔助信息轉(zhuǎn)化為行人圖像在位置上的權(quán)重,顯式地指導(dǎo)行人圖像特征的提取過程,并進(jìn)一步從素描圖像中提取體型特征以補(bǔ)足表觀特征,對(duì)輔助信息進(jìn)行了充分使用。
為了進(jìn)一步說明本文方法的有效性,與傳統(tǒng)方法、特征解耦合方法以及數(shù)據(jù)增廣方法進(jìn)行比較。在傳統(tǒng)方法中,本文沿用Gu 等人(2022)的設(shè)定,選取Sun 等人(2018)提出的PCB(part-based convolutional baseline)和Hou 等 人(2019)提 出 的IANet(interaction-and-aggregation network)進(jìn)行比較。與傳統(tǒng)方法相比,本文方法在LTCC 和PRCC 數(shù)據(jù)集上的性能都有明顯優(yōu)勢(shì)。在解耦合的這一類方法中,Li 等人(2021)提出的CASE-Net(clothing agnostic shape extraction network)使用兩個(gè)編碼器分別提取行人圖像的形狀特征和顏色特征,通過使用灰度圖像的形狀特征和彩色圖像的顏色特征進(jìn)行圖像重建的方式對(duì)形狀和顏色特征的生成過程進(jìn)行監(jiān)督。Yang 等人(2022)在以往基于編碼器的解耦方法的基礎(chǔ)上,提出了ADC 方法,通過競(jìng)爭(zhēng)注意力使模型能夠在已經(jīng)關(guān)注到的區(qū)域外持續(xù)學(xué)習(xí)其他區(qū)域的特征,從而獲得衣服特征以外的身份相關(guān)特征。結(jié)果表明,本文在PRCC 數(shù)據(jù)集上的性能相對(duì)于CASENet和ADC有比較明顯的優(yōu)勢(shì)。Jia等人(2022)提出一種數(shù)據(jù)增廣方法Pos-neg(positive and negative augmentations),借助人體解析模型的輔助,直接交換兩幅圖像中均為衣服區(qū)域的矩形區(qū)域,從而在增廣出正樣本的同時(shí)保留圖像的身份信息。結(jié)果表明,本文方法在LTCC 和PRCC 數(shù)據(jù)集上的性能均優(yōu)于Pos-neg。Gu 等人(2022)提出的CAL(clothes-based adversarial loss)使用對(duì)抗學(xué)習(xí)的思路,在特征提取網(wǎng)絡(luò)中加入一個(gè)衣物分類器和衣物對(duì)抗學(xué)習(xí)損失,約束網(wǎng)絡(luò)對(duì)身穿不同衣服的同一個(gè)人預(yù)測(cè)出相同的標(biāo)簽,從而使網(wǎng)絡(luò)在學(xué)習(xí)到行人特征的同時(shí)盡可能消除衣物特征的干擾。雖然CAL 在LTCC 數(shù)據(jù)集上的性能優(yōu)于本文方法,但CAL 需要使用額外的衣物標(biāo)簽進(jìn)行訓(xùn)練,這同樣需要一定的標(biāo)注成本。
為驗(yàn)證本文提出的素描圖像相較于輪廓圖像更魯棒、更適于作為換裝行人重識(shí)別任務(wù)中行人體型信息的獲取方式,分別進(jìn)行輪廓圖像和素描圖像單獨(dú)使用、與行人圖像共同使用的消融實(shí)驗(yàn)。使用SCHP(self-correction for human parsing)(Li 等,2019)生成LTCC 和PRCC 數(shù)據(jù)集中行人的輪廓圖像,使用pidinet(Su等,2021)生成LTCC數(shù)據(jù)集中行人的素描圖像。PRCC 數(shù)據(jù)集中包含行人的素描圖像,可直接使用。
3.4.1 單獨(dú)使用輪廓圖像和素描圖像
為了驗(yàn)證素描圖像優(yōu)于輪廓圖像,本文首先對(duì)單獨(dú)使用兩種圖像的情況進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)?zāi)P筒捎肦esNet-50 網(wǎng)絡(luò)結(jié)構(gòu),分別在LTCC 和PRCC 兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),損失函數(shù)采用交叉熵?fù)p失和難采樣三元組損失(后續(xù)消融實(shí)驗(yàn)若不作特殊說明,均為此設(shè)置)。對(duì)輪廓圖像進(jìn)行實(shí)驗(yàn)時(shí),給定一個(gè)行人重識(shí)別數(shù)據(jù)集Dr={(,yi)}1,其中n表示數(shù)據(jù)集中的圖像數(shù)量,表示第i幅圖像(上標(biāo)用以標(biāo)識(shí)圖像種類,r表示行人原圖像),yi表示第i幅圖像的標(biāo)簽,每一幅圖像都使用人體解析模型生成對(duì)應(yīng)的輪廓圖像,組成新的數(shù)據(jù)集Dc={(,yi)}1,其中c表示輪廓圖像。對(duì)素描圖像進(jìn)行實(shí)驗(yàn)時(shí),使用邊緣檢測(cè)模型可以得到新的素描圖像數(shù)據(jù)集Ds={(,yi)}1,s表示素描圖像。使用Dc和Ds進(jìn)行實(shí)驗(yàn)的結(jié)果如表2 所示。由表2 可知,相較于輪廓圖像,素描圖像在各項(xiàng)指標(biāo)上均有明顯的性能提升。
表2 的實(shí)驗(yàn)結(jié)果驗(yàn)證了素描圖像優(yōu)于輪廓圖像。原因在于,相較于輪廓圖像,素描圖像能提供更魯棒、更準(zhǔn)確的行人體型信息。在魯棒性方面,當(dāng)行人圖像出現(xiàn)遮擋或光照條件較差時(shí),素描圖像相較于輪廓圖像受這些因素影響更小,行人體型更完整,如圖4 前兩組圖像所示(圖4(a)(b)(c)與圖中相同位置的3 幅圖為一組);在準(zhǔn)確性方面,素描圖像的行人身體邊界與行人圖像更加吻合,行人體型更加準(zhǔn)確,如圖4后兩組圖像所示。圖4中矩形框標(biāo)記的區(qū)域?yàn)檩喞獔D像中有缺陷的區(qū)域。
表2 LTCC和PRCC數(shù)據(jù)集上輪廓圖像和素描圖像的評(píng)估結(jié)果對(duì)比Table 2 Comparison of evaluation results between contour images and sketch images on LTCC dataset and PRCC dataset/%
圖4 低質(zhì)量輪廓圖像及其對(duì)應(yīng)的行人、素描圖像Fig.4 Low quality contour images and their corresponding person and sketch images
3.4.2 輪廓圖像和素描圖像結(jié)合行人圖像
除對(duì)單獨(dú)使用輪廓圖像和素描圖像情況進(jìn)行實(shí)驗(yàn)外,進(jìn)行了輪廓圖像和素描圖像分別與行人圖像共同使用的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)?zāi)P徒Y(jié)構(gòu)為兩個(gè)并行的ResNet-50 網(wǎng)絡(luò),一個(gè)對(duì)行人圖像進(jìn)行特征提取,另一個(gè)對(duì)輪廓圖像或素描圖像特征進(jìn)行提取,從兩個(gè)網(wǎng)絡(luò)中提取的特征以最佳比例進(jìn)行融合。兩個(gè)子網(wǎng)絡(luò)分別在行人圖像數(shù)據(jù)集和輪廓/素描圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如表3所示。
由表3 的實(shí)驗(yàn)結(jié)果對(duì)比可知,在各項(xiàng)評(píng)估指標(biāo)上,素描圖像都比輪廓圖像有性能上的優(yōu)勢(shì)。原因在于行人表觀特征中體型信息不足,而相較于輪廓圖像,素描圖像能提供更魯棒、更準(zhǔn)確的體型信息給表觀特征作為補(bǔ)充,從而獲得更完備的行人特征。在給表觀特征提供體型信息作為補(bǔ)充的方面,素描圖像也有明顯的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,素描圖像能比輪廓圖像給行人圖像提供更完整的互補(bǔ)信息。
表3 LTCC數(shù)據(jù)集和PRCC數(shù)據(jù)集上輪廓圖像和素描圖像結(jié)合行人圖像的評(píng)估結(jié)果Table 3 Evaluation results of contour images and sketch images combined with person images on LTCC dataset and PRCC dataset/%
為探究衣物無關(guān)權(quán)重模塊的最佳位置,同時(shí)驗(yàn)證本文所提出的基于素描圖像的衣物無關(guān)權(quán)重指導(dǎo)模塊的有效性,對(duì)模塊的位置和模塊中平均池化的參數(shù)進(jìn)行消融實(shí)驗(yàn),結(jié)果如表4 所示。在表4 中,模塊位置一列的Layern表示將衣物無關(guān)權(quán)重指導(dǎo)模塊放置在行人圖像特征提取分支的第n個(gè)階段后,尺寸列表示衣物無關(guān)權(quán)重指導(dǎo)模塊平均池化降采樣時(shí)使用的核尺寸(kernel size),在本文中取值范圍為{2,3,5,7},其對(duì)應(yīng)的步長分別為2,2,3,4。為了減少冗余,提高表格的可讀性,將每一個(gè)模塊位置對(duì)應(yīng)的平均池化降采樣的最佳參數(shù)直接列在模型性能之后。
由表4 可知,在LTCC 數(shù)據(jù)集上,衣物無關(guān)權(quán)重模塊最佳位置為網(wǎng)絡(luò)的第3 層后,池化層的kernel size為5;在PRCC 數(shù)據(jù)集上,衣物無關(guān)權(quán)重模塊最佳位置為網(wǎng)絡(luò)的第1 層后,池化層的kernel size 為7。此外,在加入了衣物無關(guān)權(quán)重指導(dǎo)模塊后,在PRCC數(shù)據(jù)集上的評(píng)估結(jié)果對(duì)比沒有加入時(shí)均有提升,在LTCC數(shù)據(jù)集上后兩層的結(jié)果有提升,前兩層沒有變化,從而證明了其有效性。
表4 衣物無關(guān)權(quán)重指導(dǎo)模塊放置于不同位置的評(píng)估結(jié)果對(duì)比Table 4 Comparison of evaluation results of clothesirrelevant weight guidance module at different locations/%
在衣物無關(guān)權(quán)重指導(dǎo)模塊中,池化層的kernel size 用于控制降采樣后邊緣點(diǎn)周圍的衣物無關(guān)權(quán)重分布,kernel size 越小,每個(gè)位置的衣物無關(guān)權(quán)重的關(guān)聯(lián)區(qū)域越小。在卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的底層學(xué)習(xí)到的是圖像的低級(jí)語義特征,且其感受野較小,此時(shí)應(yīng)當(dāng)設(shè)置一個(gè)較小的kernel size 以減少網(wǎng)絡(luò)對(duì)于衣物紋理和顏色信息的學(xué)習(xí);隨著網(wǎng)絡(luò)的深入,網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像的高層語義特征,且感受野逐漸增加,此時(shí)應(yīng)當(dāng)增大kernel size使衣物無關(guān)權(quán)重的關(guān)聯(lián)區(qū)域符合感受野的大小。另外,高層語義特征與最后的身份特征直接相關(guān),因此在網(wǎng)絡(luò)高層放置指導(dǎo)模塊優(yōu)于放置在底層。將指導(dǎo)模塊放置于底層,其提供的權(quán)重信息在經(jīng)過較多層的變換后會(huì)與原先信息產(chǎn)生較大出入。
而在PRCC 數(shù)據(jù)集中,絕大多數(shù)行人的姿勢(shì)是正面朝向攝像頭的,且臉部較為清晰,因此在網(wǎng)絡(luò)的底層放置衣物無關(guān)權(quán)重模塊,并設(shè)置一個(gè)較大的kernel size,使網(wǎng)絡(luò)最大程度保留臉部信息,有利于換裝場(chǎng)景中的識(shí)別。
為了探究表觀特征與體型特征按比例相加的最佳比例參數(shù),本文對(duì)融合時(shí)使用的參數(shù)w1和w2進(jìn)行實(shí)驗(yàn),w1和w2分別代表表觀特征和體型特征的權(quán)重參數(shù),w2= 0 表示只使用表觀特征,w1= 0 表示只使用體型特征,實(shí)驗(yàn)結(jié)果如表5 所示。由表5 可知,在LTCC 數(shù)據(jù)集上,當(dāng)w1/w2= 4 時(shí),模型的性能達(dá)到最優(yōu);在PRCC 數(shù)據(jù)集上,當(dāng)w1/w2= 2 時(shí),模型的性能達(dá)到最優(yōu)。融合時(shí)使用的權(quán)重參數(shù)的差異是數(shù)據(jù)集本身的差異導(dǎo)致的,LTCC 數(shù)據(jù)集更具有挑戰(zhàn)性,其素描圖像的識(shí)別性能相對(duì)較低,因此在特征融合時(shí)其所占比例也要適當(dāng)降低,才能在不影響表觀特征的前提下補(bǔ)充體型特征,獲取最佳行人特征。
表5 不同w1/w2的評(píng)估結(jié)果對(duì)比Table 5 Comparison of evaluation results between different w1/w2ratio/%
為了直觀地展示本文提出的基于素描圖像的行人完備特征獲取方法在換裝場(chǎng)景下的有效性,在LTCC 數(shù)據(jù)集上對(duì)基線方法和本文所提出的方法進(jìn)行可視化對(duì)比。基線方法使用的骨架網(wǎng)絡(luò)為ResNet-50,在最后的全局池化層和分類層間加入一個(gè)BN(batch normalization)層,使用行人圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,損失函數(shù)為交叉熵?fù)p失和難采樣三元組損失,訓(xùn)練策略與本文提出的方法相同??梢暬Y(jié)果如圖5所示。
圖5(a)是查詢圖像,圖5(b)(c)分別是基線方法檢索結(jié)果和本文方法檢索結(jié)果的前5 幅圖像,紅色框表示此檢索結(jié)果與查詢結(jié)果不是同一個(gè)行人;藍(lán)色框表示此檢索結(jié)果與查詢結(jié)果是同一個(gè)行人。
圖5 換裝場(chǎng)裝景下重識(shí)別結(jié)果可視化對(duì)比Fig.5 Visual comparison of re-identification results in cloth-change setting((a)query images;(b)baseline method;(c)ours)
從基線方法與本文方法檢索結(jié)果對(duì)比可以看出,基線方法的檢索結(jié)果受衣物特征影響很大,使用基線方法檢索得到的前5 個(gè)結(jié)果大多為穿著相似的不同行人。本文方法則能夠有效使用行人的體型信息獲取到完備的行人特征,減少穿著相似衣物的不同行人的干擾,從而準(zhǔn)確地檢索到穿著不同衣物的相同行人。
為了直觀地說明從素描圖像中提取的體型特征能為表觀特征提供互補(bǔ)信息,增強(qiáng)特征的辨識(shí)力,在LTCC 數(shù)據(jù)集上分別單獨(dú)使用行人圖像集和素描圖像集作為數(shù)據(jù)集訓(xùn)練并測(cè)試基線方法,并將二者在行人圖像上的激活圖進(jìn)行可視化對(duì)比,結(jié)果如圖6所示。
在圖6 中,左側(cè)圖像是使用行人圖像訓(xùn)練得到的模型的激活圖,可以看出,模型主要關(guān)注行人的衣物部分,如上半身衣物、鞋子等,這些衣物區(qū)域的特征在換裝場(chǎng)景下不具有辨識(shí)力。右側(cè)圖像是使用素描圖像訓(xùn)練得到的模型的激活圖(為了便于觀察和對(duì)比,將激活圖放置于行人圖像上),可以看出,模型的關(guān)注區(qū)域分布在行人的全身各處,從這些區(qū)域中可以獲取衣物無關(guān)的行人體型信息。此外,模型還重點(diǎn)關(guān)注到行人的頭部區(qū)域,頭部區(qū)域的形狀特征也是在換裝場(chǎng)景下判別行人身份的重要依據(jù)之一。由左側(cè)和右側(cè)的圖像對(duì)比可知,素描圖像能夠使模型關(guān)注到衣物以外的區(qū)域,降低特征中衣物信息含量,從而獲得更有辨識(shí)力的特征。
圖6 行人圖像和素描圖像的激活圖可視化對(duì)比Fig.6 Visual comparison of the activation map of two models
行人更換服裝對(duì)行人重識(shí)別模型的準(zhǔn)確度有較大的影響,是行人重識(shí)別實(shí)際應(yīng)用亟待解決的問題。為此,本文提出一種素描圖像指導(dǎo)的換裝行人重識(shí)別方法,針對(duì)輪廓圖像魯棒性和準(zhǔn)確性不足的問題,使用素描圖像提取行人的體型特征,并使用雙流網(wǎng)絡(luò)將體型特征融入表觀特征以獲取完備的行人特征;針對(duì)表觀特征中包含大量不具有辨別力的衣物特征的問題,提出一個(gè)基于素描圖像的衣物無關(guān)權(quán)重指導(dǎo)模塊,進(jìn)一步使用素描圖像中行人衣物位置信息指導(dǎo)行人表觀特征的提取過程,從而降低表觀特征中衣物信息的含量,提高特征的判別力。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法能提取到更準(zhǔn)確、魯棒的行人體型信息,通過衣物無關(guān)矩陣的指導(dǎo)降低表觀特征中衣物信息的含量,提高了模型對(duì)不同著裝行人的判別力。
但是,本文方法仍然存在一些問題值得進(jìn)一步研究。例如,本文提出的衣物無關(guān)指導(dǎo)模塊需要對(duì)特定數(shù)據(jù)集進(jìn)行放置位置和池化層的參數(shù)設(shè)定,而參數(shù)選擇對(duì)模型的訓(xùn)練具有較大影響,不同參數(shù)的模型性能有很大差距。另外,本文方法沒有使用換裝數(shù)據(jù)集中衣物的標(biāo)簽。未來將在不同模態(tài)信息對(duì)表觀特征的指導(dǎo)和衣物標(biāo)簽的使用兩個(gè)方面進(jìn)行進(jìn)一步研究。