劉紫燕,萬培佩
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽550025)
(*通信作者電子郵箱Leizy@sina.com)
在計(jì)算機(jī)視覺領(lǐng)域,行人重識(shí)別通常被視為圖像檢索問題,即從不同的相機(jī)中匹配行人,從非重疊攝像機(jī)視角下的行人圖像庫中找到與該行人是同一個(gè)行人的圖像。由于不同攝像機(jī)場景、視角、光照等因素的影響,會(huì)導(dǎo)致行人姿態(tài)多樣,行人圖像分辨率不高以及行人遮擋等問題,給行人重識(shí)別研究帶來非常大挑戰(zhàn)。早期的行人重識(shí)別研究主要集中于如何手工設(shè)計(jì)更好的視覺特征和如何學(xué)習(xí)更好的相似度度量。近幾年隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)技術(shù)在行人重識(shí)別上得到了廣泛的應(yīng)用。和傳統(tǒng)方法不同,深度學(xué)習(xí)方法可以自動(dòng)提取行人圖像特征,因此如何提取行人的顯著性特征成為行人重識(shí)別精度提高的關(guān)鍵。
行人重識(shí)別方法主要分為:基于特征表示的方法和基于度量學(xué)習(xí)的方法[1-2]?;谔卣鞅硎痉椒ㄖ饕菍W(xué)習(xí)一個(gè)具有魯棒性的深度網(wǎng)絡(luò)提取特征[3];基于度量學(xué)習(xí)的方法主要通過將行人圖像映射到另一個(gè)空間,使同一個(gè)行人的距離小于不同行人距離[4],能夠達(dá)到重識(shí)別的效果。
近幾年,隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的行人重識(shí)別提取的特征比手工提取的特征具有更高的辨識(shí)能力。文獻(xiàn)[5]中提出了一個(gè)新穎網(wǎng)絡(luò)模型,比較兩幅圖像經(jīng)過卷積后提取到的特征區(qū)域的相似特征,并對圖像中的相似區(qū)域的差異進(jìn)行特征學(xué)習(xí)和相似性度量,提升特征的鑒別能力。文獻(xiàn)[6]中提出用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像空域重建,得到與輸入圖像尺寸一致的空域特征圖,不需要特征對齊過程,算法借鑒字典學(xué)習(xí)中重建誤差來計(jì)算不同的空域特征圖的相似度。文獻(xiàn)[7]中提出了一個(gè)PCB(Part-based Convolutional Baseline)分塊模型,使用RPP(Refined Part Pooling)網(wǎng)絡(luò)使每個(gè)相似的塊對齊。因?yàn)镽PP網(wǎng)絡(luò)屬于后續(xù)處理操作,所以該網(wǎng)絡(luò)模型不能使用端到端的方式進(jìn)行訓(xùn)練。除此之外單一固定的局部尺寸劃分也并不能充分地提取出有效的局部信息。文獻(xiàn)[8]中用一種互補(bǔ)的注意力機(jī)制用于學(xué)習(xí)一組融合特征——全局和局部特征,用于最大化它們的互補(bǔ)優(yōu)勢并且能夠兼具好的分辨性以及結(jié)構(gòu)簡便的特點(diǎn)。以上這些方法僅利用行人的全局特征和部分局部特征,當(dāng)檢測目標(biāo)存在關(guān)鍵部分信息缺失的情況時(shí),這些特征并不能提供良好的辨別能力。而本文所述的注意力機(jī)制網(wǎng)絡(luò)可以在行人某些關(guān)鍵信息缺失情況下,通過增強(qiáng)圖像空間像素特征的權(quán)重,提取行人顯著特征,提高行人重識(shí)別的精度。
本文提出一種基于注意力機(jī)制的行人重識(shí)別網(wǎng)絡(luò),該網(wǎng)絡(luò)以ResNet50 網(wǎng)絡(luò)為基礎(chǔ),融合注意力機(jī)制,構(gòu)建行人重識(shí)別網(wǎng)絡(luò)模型。通過ResNet50 網(wǎng)絡(luò)提取行人特征,再結(jié)合注意力機(jī)制來增強(qiáng)圖像空間像素特征,然后融合這兩種特征從而得到行人的顯著屬性特征,進(jìn)一步提升行人重識(shí)別的識(shí)別精度。此外本文還將隨機(jī)擦除應(yīng)用到行人圖像預(yù)處理中,通過圖像隨機(jī)擦除方法來添加圖像噪聲,使網(wǎng)絡(luò)的魯棒性得到提高;在實(shí)際環(huán)境中,通過隨機(jī)擦除能夠生成不同樣式的圖片,可以彌補(bǔ)行人圖像數(shù)據(jù)欠缺,緩解網(wǎng)絡(luò)過擬合問題。
如圖1 所示,本文的網(wǎng)絡(luò)模型是由骨干網(wǎng)絡(luò)、注意力網(wǎng)絡(luò)和全連接層構(gòu)建的整個(gè)行人重識(shí)別網(wǎng)絡(luò)架構(gòu)。骨干網(wǎng)絡(luò)采用ResNet50 網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),通過ResNet50 網(wǎng)絡(luò)前兩層layer1 層和layer2 層提取行人淺層特征;注意力機(jī)制網(wǎng)絡(luò)分為主干分支和旁干分支,將骨干網(wǎng)絡(luò)提取的行人淺層特征輸入到注意力網(wǎng)絡(luò)兩分支中,融合兩部分特征,得到行人特征,通過結(jié)合兩階段注意力機(jī)制網(wǎng)絡(luò)提取的特征,融合得到行人顯著特征,將提取的特征通過全連接層進(jìn)行分類識(shí)別。
圖1 行人重識(shí)別網(wǎng)絡(luò)模型Fig. 1 Pedestrian re-identification network model
在深度學(xué)習(xí)中,為了避免網(wǎng)絡(luò)出現(xiàn)過擬合問題,提高網(wǎng)絡(luò)的泛化能力,需要充足的訓(xùn)練樣本。而在現(xiàn)實(shí)環(huán)境中,由于各種原因?qū)е聰?shù)據(jù)量欠缺,因此需要進(jìn)行數(shù)據(jù)增強(qiáng)操作,以增加數(shù)據(jù)集。傳統(tǒng)的數(shù)據(jù)增強(qiáng)方式有裁剪,翻轉(zhuǎn)以及添加噪聲等方式,這些方式能夠增加訓(xùn)練集來提高網(wǎng)絡(luò)的泛化能力。隨著深度學(xué)習(xí)中網(wǎng)絡(luò)深度不斷加深,傳統(tǒng)的數(shù)據(jù)增強(qiáng)方式無法滿足各類場景需求,而在行人重識(shí)別的應(yīng)用場景中,由于攝像機(jī)場景、角度以及光照等因素給行人重識(shí)別帶來影響,學(xué)習(xí)的深度網(wǎng)絡(luò)不能很好地識(shí)別行人圖像。本文采用隨機(jī)擦除法對數(shù)據(jù)進(jìn)行預(yù)處理,增加數(shù)據(jù)集的數(shù)量來更好地訓(xùn)練網(wǎng)絡(luò),提高網(wǎng)絡(luò)泛化能力,有利于深度網(wǎng)絡(luò)提取更為顯著的特征。該算法過程如下:
1)設(shè)置隨機(jī)擦除概率。假設(shè)圖片隨機(jī)擦除的概率為P,則圖片不擦除概率1-P。隨機(jī)選擇圖像中的矩形區(qū)域Ie,并將矩形區(qū)域賦值隨機(jī)像素點(diǎn)。
圖像區(qū)域的面積:
其中:W為圖像的寬,H為圖像的高。
2)設(shè)置隨機(jī)擦除矩形區(qū)域的參數(shù)。擦除矩形的面積Se=rand(sl,sh)×S,其中sl、sh是人工設(shè)置的最小值和最大值,通過隨機(jī)擦除矩形的高和寬:
其中re為擦除矩形的高寬比,通過隨機(jī)產(chǎn)生。初始化得到Se。
3)在圖像中隨機(jī)產(chǎn)生一個(gè)點(diǎn)Q(xe,ye),滿足下列條件:
其 中:xe為Q的 橫 坐 標(biāo),ye為Q的 縱 坐 標(biāo),W為 圖 像 的 寬,(xe,ye,xe+We,ye+He)是選定的隨機(jī)擦除區(qū)域。
4)給擦除區(qū)域賦值隨機(jī)[0,255]像素,并輸出預(yù)處理圖像。
視覺注意力機(jī)制是人類視覺所特有的大腦信號(hào)處理機(jī)制。人類視覺通過快速掃描全局圖像,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是一般所說的注意力焦點(diǎn),而后對這一區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息,而抑制其他無用信息。當(dāng)前一些研究也將注意力機(jī)制應(yīng)用于行人重識(shí)別中,大多數(shù)方法結(jié)合局部特征信息和全局信息融合的注意力機(jī)制。文獻(xiàn)[8]提出了一種多任務(wù)學(xué)習(xí)模型共同學(xué)習(xí)硬區(qū)域級和空間特征級注意力產(chǎn)生更多有辨別力的特征表示來提高識(shí)別精度;文獻(xiàn)[9]提出使用行人姿勢信息來學(xué)習(xí)注意力掩模件作為行人局部特征信息,然后結(jié)合全局和局部特征融合得到最終行人特征。本文所述注意力機(jī)制方法與當(dāng)前所作的注意力機(jī)制有所不同,當(dāng)前更多的注意力機(jī)制提取某個(gè)局部特征并結(jié)合全局特征來提高行人重識(shí)別精度,而本文所述方法主要通過增強(qiáng)圖像全局空間像素特征信息,提高行人重識(shí)別精度,同時(shí)能夠抑制無用的特征信息,增強(qiáng)網(wǎng)絡(luò)魯棒性。圖2為注意力機(jī)制的網(wǎng)絡(luò)框架。該網(wǎng)絡(luò)由主干分支和旁干分支兩部分組成,用來提取深度特征。首先通過預(yù)訓(xùn)練網(wǎng)絡(luò)ResNet50的前兩層網(wǎng)絡(luò)提取行人淺層屬性信息,對其進(jìn)行最大池化操作,增強(qiáng)圖像的感受野,有助于為后面注意力網(wǎng)絡(luò)的特征提取。圖片的特征信息通過主干分支一系列的卷積操作,提取行人特征,而旁干分支通過一系列的下采樣操作,逐漸提取高層特征并增大模型的感受野,再通過相同數(shù)量的上采樣操作將特征的尺寸放大到原來輸入特征的尺寸,得到分支行人特征。最后將兩部分特征進(jìn)行融合得到:
其中:M(x)是注意力機(jī)制網(wǎng)絡(luò)旁干分支特征,F(xiàn)(x)是主干分支特征,H(x)融合得到的行人顯著特征。M(x)的最后輸出激活函數(shù)是Sigmoid函數(shù),輸出范圍為(0,1),使用該函數(shù)目的為了前后兩層的提取的特征帶來太大的差異和擾動(dòng),同時(shí)能夠進(jìn)一步地抑制不重要的信息。當(dāng)M(x)為零時(shí),只有F(x)行人特征提取,這樣不會(huì)導(dǎo)致整個(gè)網(wǎng)絡(luò)的特征屬性提取造成較大損失,還能優(yōu)化整個(gè)網(wǎng)絡(luò),提取顯著特征,從而最后融合得到最終行人特征。
對兩部分特征融合的過程中,旁干分支特征相當(dāng)于對主干分支特征中每個(gè)像素加權(quán),能夠增強(qiáng)主干特征的顯著性,抑制無意義的特征從而得到行人顯著特征。
本次實(shí)驗(yàn)使用損失函數(shù)是交叉熵?fù)p失函數(shù)[10],能夠?qū)W習(xí)到更具判別力的特征。
交叉熵?fù)p失通過行人重識(shí)別網(wǎng)絡(luò)最后分類softmax函數(shù)輸出預(yù)測行人類別概率與標(biāo)簽?zāi)繕?biāo)概率進(jìn)行損失評估,公式如下:
其中:k∈{1,2,…,K}表示行人重識(shí)別網(wǎng)絡(luò)輸出行人類別,K為訓(xùn)練集行人類別數(shù)量,通過行人重識(shí)別網(wǎng)絡(luò)輸出p(k)代表輸入圖像屬于k類的預(yù)測概率,q(k)代表真實(shí)概率。
通過最小化總訓(xùn)練目標(biāo)L1來訓(xùn)練整個(gè)基于注意力機(jī)制的行人重識(shí)別網(wǎng)絡(luò),通過歐氏距離來計(jì)算查詢圖與圖片庫圖像的相似性,并以概率從大到小的方式進(jìn)行排序,最后得到重識(shí)別的精度。
本文使用的實(shí)驗(yàn)平臺(tái)在Ubuntu16.04 系統(tǒng)、Intel I5 處理器、16 GB 內(nèi)存以及GeForce GTX 1070 顯卡的硬件環(huán)境下,使用微調(diào)的預(yù)訓(xùn)練ResNet50 網(wǎng)絡(luò)分別在兩大行人重識(shí)別數(shù)據(jù)集Market1501[11]和DukeMTMC-reID[12]上進(jìn)行實(shí)驗(yàn)。
Market1501 數(shù)據(jù)集是大學(xué)校園內(nèi)收集的大規(guī)模行人重識(shí)別數(shù)據(jù)集,它包括19 732 個(gè)行人圖像,3 368 個(gè)查詢圖像和12 936 個(gè)從6 個(gè)不同攝像機(jī)收集的訓(xùn)練圖像。訓(xùn)練集有751 個(gè)身份,測試集有750 個(gè)身份不重疊。本研究使用全部12 936個(gè)檢測到的圖像來訓(xùn)練網(wǎng)絡(luò)。
DukeMTMC-reID 數(shù)據(jù)集包含由8 個(gè)高分辨率相機(jī)拍攝的1 812個(gè)身份共計(jì)36 411個(gè)圖像。該數(shù)據(jù)集由702個(gè)身份共有16 522 個(gè)圖像組成訓(xùn)練集,其他702 個(gè)身份的2 228 個(gè)查詢圖像和17 661個(gè)行人圖像庫圖像組成測試集。
本文使用兩個(gè)評價(jià)標(biāo)準(zhǔn)來評價(jià)所有數(shù)據(jù)集上的行人重識(shí)別方法性能。
第一個(gè)評價(jià)標(biāo)準(zhǔn)是累積匹配特征(Cumulative Matching Characteristic,CMC)曲線[10],它表示了在前k個(gè)匹配結(jié)果中找到正確的匹配項(xiàng)的概率值。如果Rank-k的識(shí)別率為P,它表示正確的目標(biāo)對象在排名結(jié)果的前k名的概率是P。通常,在評價(jià)算法的行人識(shí)別率時(shí),考慮Rank1 到Rank20。假設(shè)給定一個(gè)含有M個(gè)行人樣本的查詢集Q和N個(gè)行人的圖像庫O,特征向量分別為Q=[X1,X2,…,XM]和O=[Y1,Y2,…,YN],將兩部分特征進(jìn)行余弦相似性比較,得到前n個(gè)候選集余弦距離最小的排名列表,通過排名列表映射到圖像庫得到行人ID序號(hào)T=(t1,t2,…,tn),則CMC曲線可以根據(jù)下列公式得出:
第二個(gè)評價(jià)標(biāo)準(zhǔn)是平均精度均值(mean Average Precision,mAP),它是平均精度(Average Precision,AP)的均值,可以把行人重識(shí)別看作一個(gè)目標(biāo)檢索問題,使用mAP 來度量。AP和mAP公式如下:
其中:r表示檢索圖像的序號(hào);p(r)表示第r序號(hào)圖像的比例;a(r)當(dāng)r與待識(shí)別圖像匹配時(shí)為1,否則為0;m表示與待識(shí)別圖像匹配圖像的個(gè)數(shù)。
其中Q表示待識(shí)別圖像的個(gè)數(shù)。
首先將數(shù)據(jù)集進(jìn)行隨機(jī)擦除處理,實(shí)驗(yàn)中將擦除的概率設(shè)置為不同值,同時(shí)將圖片的尺寸轉(zhuǎn)換為224 像素×224 像素大小,訓(xùn)練時(shí)設(shè)置圖片的bachsize 是32,epoch 為60。實(shí)驗(yàn)中通過設(shè)定不同的隨機(jī)擦除概率來檢驗(yàn)行人重識(shí)別的精度。圖3(a)為在Market1501 和DukeMTMC-reID 數(shù)據(jù)集上不同隨機(jī)擦除的概率對Rank1的影響,可以看出當(dāng)隨機(jī)擦除概率為0.5時(shí),Rank1 達(dá) 到 最 優(yōu) 值。 圖3(b)為 在Market1501 和DukeMTMC-reID 數(shù)據(jù)集上不同隨機(jī)擦除的概率對mAP 的影響,可以看出當(dāng)隨機(jī)擦除概率為0.5時(shí),mAP達(dá)到最優(yōu)值。
圖3 隨機(jī)擦除概率對Rank1和mAP的影響Fig. 3 Effect of random erasure probability on Rank1 and mAP
本文將使用平均精度均值(mAP)和累積匹配特征兩個(gè)指標(biāo)來衡量實(shí)驗(yàn)得到模型的性能,Rank-k和mAP 值越大,說明重識(shí)別的準(zhǔn)確度越高。
從表1 中看出將隨機(jī)擦出數(shù)據(jù)增強(qiáng)和注意力機(jī)制網(wǎng)絡(luò)應(yīng)用到基礎(chǔ)的ResNet50 深度網(wǎng)絡(luò)中,精度提高較為明顯。其中L1 表示隨機(jī)擦除數(shù)據(jù)增強(qiáng),L2 表示注意力機(jī)制。對于Market1501,通過基礎(chǔ)網(wǎng)絡(luò)ResNet50 添加隨機(jī)擦除數(shù)據(jù)增強(qiáng)的行人重識(shí)別方式精度有一定的提升,而基礎(chǔ)網(wǎng)絡(luò)ResNet50添加注意力機(jī)制網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果也有較大提升,其中Rank1提升4 個(gè)百分點(diǎn),mAP 提升3 個(gè)百分點(diǎn)。通過對基礎(chǔ)網(wǎng)絡(luò)ResNet50網(wǎng)絡(luò)將隨機(jī)擦除和注意力機(jī)制網(wǎng)絡(luò)同時(shí)結(jié)合效果提升更為明顯,其中Rank1 相較基礎(chǔ)網(wǎng)絡(luò)提升6 個(gè)百分點(diǎn),mAP提升5個(gè)百分點(diǎn)左右。
對于DuKeMTMC-reID,將基礎(chǔ)網(wǎng)絡(luò)ResNet50 網(wǎng)絡(luò)結(jié)合隨機(jī)擦除和注意力機(jī)制可以得出Rank1 提升了12 個(gè)百分點(diǎn)左右,mAP提升了11個(gè)百分點(diǎn)左右。
通過對比實(shí)驗(yàn)可以得出隨機(jī)擦除和注意力機(jī)制網(wǎng)絡(luò)對行人重識(shí)別精度都有提升作用。
表1 Market1501和DukeMTMC-reID數(shù)據(jù)集下不同網(wǎng)絡(luò)分支的實(shí)驗(yàn)結(jié)果 單位:%Tab. 1 Experimental results of different network branches on Market1501 and DukeMTMC-reID datasets unit:%
表2、3 顯示了本文的方法(Ours)與非深度學(xué)習(xí)行人重識(shí)別方法[11,13]和其他深度學(xué)習(xí)網(wǎng)絡(luò)方法[14-17]在兩個(gè)數(shù)據(jù)集上的結(jié)果進(jìn)行比較,可得本研究采用的方法可以獲得較好的效果。
在Market1501 數(shù)據(jù)集上,比TriNet[16]網(wǎng)絡(luò)的深度學(xué)習(xí)方法Rank1高5個(gè)百分點(diǎn)左右;基于注意力機(jī)制的網(wǎng)絡(luò)中AACN網(wǎng)絡(luò)[9]比本研究的注意力機(jī)制網(wǎng)絡(luò)在Rank1 低3 個(gè)百分點(diǎn)左右,在mAP 精度比本研究低4 個(gè)百分點(diǎn)左右;而在HAC 注意力機(jī)制精度比本研究在Rank1和mAP 略高1個(gè)百分點(diǎn)左右。
在DukeMTMC-reID 數(shù)據(jù)集上,在Rank1 上比傳統(tǒng)的行人重識(shí)別方法LOMO+XQDA[13]和Bow+kissme[11]高40 個(gè)百分點(diǎn)左右,比生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[17]高10 個(gè)百分點(diǎn)左右,比SVDnet[15]網(wǎng)絡(luò)略 高 出1 個(gè)百分點(diǎn) 左右;而Rank1 和mAP 相對于基礎(chǔ)網(wǎng)絡(luò)ResNet50 有很大的提升,特別是mAP有11%左右的提升,通過重新排序Re-Rank[18]方法有更大程度提升?;谧⒁饬C(jī)制的網(wǎng)絡(luò)中AACN 網(wǎng)絡(luò)[9]比本研究的注意力機(jī)制網(wǎng)絡(luò)在Rank1低1個(gè)百分點(diǎn)左右,在mAP 精度比本研究低1 個(gè)百分點(diǎn)左右;而在HAC 注意力機(jī)制精度比本研究在Rank1和mAP 略高1個(gè)百分點(diǎn)左右。
綜上所述,隨機(jī)擦除的方式進(jìn)行數(shù)據(jù)增強(qiáng)和注意力機(jī)制網(wǎng)絡(luò)結(jié)合的深度學(xué)習(xí)網(wǎng)絡(luò)能夠提取行人的顯著特征,提高行人重識(shí)別的精度。
如圖4,第一列為待識(shí)別的行人,右側(cè)由左至右為相似度分?jǐn)?shù)最高的10幅圖片,即Rank-10,該識(shí)別結(jié)果中只有第一行的圖像中排序第10位行人類別識(shí)別錯(cuò)誤。
表2 Market1501數(shù)據(jù)集不同方法實(shí)驗(yàn)結(jié)果比較 單位:%Tab. 2 Comparison of experimental results of different methods on dataset Market1501 unit:%
圖4 Market501和DukeMTMC-reID兩大數(shù)據(jù)集上重識(shí)別的Rank10結(jié)果示例Fig. 4 Rank10 re-identification result examples on datasets Market501 and DukeMTMC-reID
表3 DukeMTMC-reID數(shù)據(jù)集不同方法實(shí)驗(yàn)結(jié)果比較單位:%Tab. 3 Comparison of experimental results of different methods on dataset DukeMTMC-reID unit:%
針對現(xiàn)實(shí)環(huán)境下行人重識(shí)別場景多變、光照、攝像機(jī)角度不同等問題,導(dǎo)致行人數(shù)據(jù)量不足,圖片像素模糊,使得行人重識(shí)別精度不高,本文采用一種數(shù)據(jù)增強(qiáng)的方法,將行人圖片以一定的概率進(jìn)行擦除,從而生成同一個(gè)行人的不同圖片,提高網(wǎng)絡(luò)的魯棒性;然后設(shè)計(jì)了一種注意力機(jī)制網(wǎng)絡(luò),將預(yù)訓(xùn)練的深度網(wǎng)絡(luò)和注意力網(wǎng)絡(luò)結(jié)合,提取更加顯著的特征,因此能夠提高行人重識(shí)別的精度。在兩個(gè)大型的行人重識(shí)別數(shù)據(jù)集Market1501 和DukeMTMC-reID 上實(shí)驗(yàn)結(jié)果表明,行人重識(shí)別性能都有明顯提升,超過很多方法。如何找到更好的方法提取更加顯著特征以及在更多的數(shù)據(jù)集上進(jìn)一步提升行人重識(shí)別的精度將是下一步工作。