齊寶光,何小海,卿粼波,陳洪剛
(四川大學(xué),四川 成都 610041)
2006 年,Gheissari 等人[1]第一次提出了行人重識別的概念,其被當(dāng)作跨攝像頭多目標(biāo)跟蹤下的子問題進行研究,即如何在跨攝像頭中利用行人特征的相似度進行軌跡關(guān)聯(lián)。類似于其他計算機視覺的任務(wù),行人重識別也存在很多難點,例如,人物被遮擋、無正臉照、姿態(tài)變化、配飾變化、拍攝角度改變、低分辨率、室內(nèi)外環(huán)境或光線變化、服裝搭配穿衣風(fēng)格變化以及目標(biāo)檢測算法[2]的誤檢等。盡管存在這些困難,但通過研究人員的努力,基于深度學(xué)習(xí)的行人重識別方法仍取得了很大的進步,識別精度得到了很大的提升,這些方法包括一些有監(jiān)督的方法[3-12]以及無監(jiān)督和弱監(jiān)督的方法[13-19]。大部分方法主要使用表征學(xué)習(xí)[3,6,8]和度量學(xué)習(xí)[4,7,11,16]的方法。最近,越來越多的研究者關(guān)注行人的局部特征[9,12,17]和注意力機制[10],并取得了很多成果,這是因為局部特征能提供更多的細節(jié)信息。
文獻[20]提出了姿勢提取模型并應(yīng)用于行人重識別任務(wù),該文獻提出的姿勢提取網(wǎng)絡(luò)提取出14個人體關(guān)鍵點,并完成人體關(guān)鍵點計算、行人特征提取和特征融合。為了降低遮擋物體對姿勢提取模型的影響,文獻[21]首先使用姿勢提取模型提取人體關(guān)鍵點,其次計算關(guān)鍵點的置信度。在計算融合特征時,置信度低于閾值的關(guān)鍵點權(quán)重會被置零不參與計算。文獻[22]通過水平切割深層特征塊,將全局特征水平分割為多個均勻的小塊,分別表示人體不同的部件。文獻[23]提出了金字塔模型,該模型通過粗粒度到細粒度的漸變保留了全局特征和局部特征,最終得到的融合特征包含有漸變關(guān)系?;谧藙莨烙嫷木植刻卣鞣椒?,通常需要依靠外部的姿勢估計數(shù)據(jù)集和姿勢估計器,其帶來的數(shù)據(jù)誤差會影響到重識別精度?;谔卣骺臻g分割的局部特征方法,可以有效地緩解遮擋和低分辨率對性能帶來的影響,但仍需探究如何更好地融合全局特征和局部特征,以提升重識別的性能。
因此,為了在遮擋、低分辨率、視角變化等場景下,捕捉到更充足的細節(jié)信息,得到更可靠的特征表達,本文提出了基于圖像特征融合的行人重識別方法。該方法在訓(xùn)練時,對骨架網(wǎng)絡(luò)提取到的深層特征水平分割,得到3 塊局部特征,并分別進行身份(Identification,ID)損失的計算,然后將全局特征也獨自進行ID 損失的計算,以優(yōu)化網(wǎng)絡(luò)的特征表達,使圖像特征注意到更多的細節(jié)信息,并且對全局特征進行距離度量,對行人特征的相似度進行約束。本文方法在對目標(biāo)行人檢索時,將局部特征與全局特征融合到一起進行距離度量,以得到具有足夠細節(jié)信息的圖像特征。通過在Market1501[24]和DukeMTMC-reID[25]上進行廣泛的實驗,證實了本文所提方法的有效性,并達到了目前比較可觀的性能。
本文采用的行人重識別網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,該方法使用Resnet50 網(wǎng)絡(luò)作為骨架提取行人的視覺特征。為了解決行人重識別中常出現(xiàn)的遮擋以及圖像質(zhì)量低等問題,提出的方法采用全局特征融合局部特征的方式加強圖像特征的表述力。當(dāng)行人圖像通過骨架網(wǎng)絡(luò)Resnet50 的最后一層得到特征fT后,使用兩個分支對特征fT進行后續(xù)處理,一個分支進行全局特征處理,稱為全局特征分支,全局特征作為對圖像的整體描述關(guān)注行人圖像的整體信息;另一個分支進行局部特征處理,稱為局部特征分支,局部特征分支會注意到更多的細粒度局部顯著特征,從而改善遮擋和低分辨率的問題。
圖1 圖像特征融合的行人重識別網(wǎng)絡(luò)
在全局特征分支,首先將特征fT通過全局平均池化得到特征fq,其次令fq通過歸一化結(jié)構(gòu)取得歸一化特征ft用于全局特征的ID 損失。給定一個包含N個元組的數(shù)據(jù)集,每個元組都有一個圖像x和ID 標(biāo)簽y,使用F(·|θ)指代特征提取網(wǎng)絡(luò),使用C指代分類器,全局特征的ID 損失由多分類交叉熵 ?ce來表示,并使用軟交叉熵損失函數(shù)-qlogp進行監(jiān)督,則有:
式中:Lid為多分類交叉熵函數(shù)對輸入圖像的計算結(jié)果;Lt為使用軟交叉熵損失函數(shù)進行監(jiān)督的結(jié)果。
在局部特征分支,首先將特征fT分割為3 塊來對應(yīng)行人不同的身體部位,但由于直接水平切割的硬化分類會出現(xiàn)局部不對齊的情況,所以使用了一個單獨的局部塊分類器來對各個塊進行分類并調(diào)整各個塊與塊之間的特征以實現(xiàn)圖像的軟分割,完成局部對齊。由于要對張量fT中每個預(yù)劃分的區(qū)域塊的邊界部分進行微調(diào),因此需要對區(qū)域塊中抽樣出的更小的塊f進行分類。為了完成圖像塊分類器,對f進行分類的定義公式為:
其次計算f屬于Pi塊的概率P(Pi|f),其中WiT是局部塊分類器的可訓(xùn)練權(quán)重矩陣。由于f是fT的子集且每個塊Pi都是從所有的f中以采樣權(quán)重P(Pi|f)進行采樣得到的,因此當(dāng)給定特征f與其對應(yīng)局部Pi的概率P(Pi|f)后可以推出:
通過將各個塊邊緣部分的離群值重新劃分到鄰近的塊上,增強各個塊之間信息過渡的連續(xù)性,實現(xiàn)了水平切塊的軟分割。最后將這3 塊局部特征通過卷積操作得到特征fdi計算獨自的ID 損失 Lid,原理與式(1)和式(2)相同。
通過對特征fq進行歸一化操作[26]得到ft,對特征fpi進行卷積操作得到fdi,使得ID 損失和三元組損失在不同的嵌入空間中分別使用余弦距離和歐式距離進行模型優(yōu)化,更利于三元組損失的收斂與模型的優(yōu)化。
本文使用三元組損失[27]訓(xùn)練融合特征fg,使得相同身份的圖像樣本距離更加接近并將不同身份的樣本推遠。融合特征fg由局部特征fpi與全局特征fq按照式(5)計算得到:
式中:λpi為局部特征fpi的平衡參數(shù),且λpi=0.1。
融合了局部特征和全局特征的fg在關(guān)注全局信息的同時也注意到了更多的細節(jié)信息,提高了模型的魯棒性。三元組損失由固定圖片(Anchor)、正樣本圖片(Positive)、負樣本圖片(Negative)3 張圖片組成,其中Anchor 是數(shù)據(jù)集中隨機抽取的圖片,Positive 是與Anchor 相同類別的圖片,Negative是與Anchor 不同類別的圖片。分別使用fgp和fgn表示fga的正樣本和負樣本,||·表示歐氏距離,其計算式為:
在圖像特征的處理中,本文使用了分塊特征聯(lián)合全局特征的策略解決了行人圖像不匹配的問題。在訓(xùn)練階段將全局特征和局部特征分別送入全連接層計算ID 損失,并計算融合特征fg的三元組損失,在測試階段將全局特征與局部特征根據(jù)特征融合策略聯(lián)合到一起得到fg進行距離度量。
最終的損失函數(shù)是圖像全局特征的ID損失tL、局部特征的ID 損失 Ldi、三元組損失 Ltri的組合:
式中:λdi為平衡參數(shù),且λdi=0.1。該方法使用交叉熵損失(cross-entropy loss)作為ID 損失,ID 損失作用于圖像的全局特征,使它們具有區(qū)分行人的能力。ID 損失作用于局部塊,使每個局部特征都具有獨自區(qū)分行人的能力,增強了特征表達,可以幫助網(wǎng)絡(luò)注意到更多的局部細節(jié)信息。三元組損失拉近了正樣本之間的特征距離,推遠了負樣本之間的距離,并且通過歸一化和卷積操作,減少了不同任務(wù)之間的相互約束,使ID損失和三元組損失更加收斂,在聯(lián)合損失優(yōu)化的同時也優(yōu)化了視覺特征網(wǎng)絡(luò)的調(diào)參,得到更魯棒的視覺特征。在多種損失的聯(lián)合訓(xùn)練下,該模型可以達到較好的檢索效果。
為了驗證所提出的方法對行人重識別的作用,本文在Market1501、DukeMTMC-reID 上進行了廣泛的實驗,使用平均精度(mean Average Precision,mAP)、Rank1 作為評價指標(biāo),并與主流算法進行了對比。
2.1.1 Market1501
Market1501 是目前在行人重識別中大規(guī)模使用的公共數(shù)據(jù)集,它包含從6 個不同的視點捕獲的32 668 個標(biāo)記的邊界框,其中包含1 501 個身份。使用局部可訓(xùn)練的變形零件模型(Discriminatively Trained Part-Based Models,DPM)[28]檢測邊界框。數(shù)據(jù)集分為用于訓(xùn)練的具有751 個身份的12 936 幅圖像和用于測試的具有750 個身份的19 732 幅圖像兩部分。在測試時,將使用3 368 張具有750 個身份的圖像作為檢索圖像。
2.1.2 DukeMTMC-reID
DukeMTMC-ReID 數(shù)據(jù)集包含8 個非重疊攝像機視圖捕獲的1 812 個行人,共有36 411 張圖像。該數(shù)據(jù)集包括用于訓(xùn)練的16 522 張圖像和用于測試的19 889 張圖像,以及2 228 張查詢圖像和17 661張檢索圖像。其中1 404 類為3 個以上攝像頭拍攝,其余408 類為1 個攝像頭所拍攝,將出現(xiàn)在多個攝像頭的1 404 類行人圖像平均分成兩部分。
2.2.1 參數(shù)設(shè)置
本文使用pytorch 框架來訓(xùn)練模型,使用Image Net 上的預(yù)訓(xùn)練模型初始化Resnet50,并將全連接層的尺寸更改為N,表示訓(xùn)練數(shù)據(jù)集中的類別數(shù)。采用Adam 算法對模型進行優(yōu)化,整個模型有多個損失任務(wù),訓(xùn)練時模型計算每個任務(wù)產(chǎn)生的梯度并使用加權(quán)梯度更新網(wǎng)絡(luò)。本文將圖像全局特征ID損失和三元組損失的梯度權(quán)重分配為1,將圖像分塊特征的ID 損失的梯度權(quán)重λdi設(shè)為0.1。網(wǎng)絡(luò)中所有全連接層的丟棄率設(shè)為0.5。實驗過程中,在數(shù)據(jù)集中隨機抽取P位行人的K張圖像組成一個訓(xùn)練批次,批量大小等于B=P×K,將P設(shè)置為16,K設(shè)置為4。每張圖像的大小調(diào)整為256×128,并以0.5 的概率水平翻轉(zhuǎn)圖像。然后將每張圖像解碼為[0,1]中的32 位浮點原始像素值,最后分別減去0.485、0.456、0.406 并除以0.229、0.224、0.225,從而對RGB 通道進行歸一化。
在Market1501 和DukeMTMC-reID 上進行了實驗,在訓(xùn)練時對全局特征和局部特征分別計算損失,測試時將全局特征和局部特征聯(lián)合到一起得到融合特征進行查找,得到的檢索準(zhǔn)確率高于原始baseline 的準(zhǔn)確率,并且算法性能優(yōu)于較新的行人重識別算法。
2.2.2 與主流算法的對比
在Market1501 和DukeMTMC-reID 上與主流算法的對比結(jié)果如表1 所示。其中GLAD[29]、PSE[30]和PIE[31]是基于姿態(tài)特征的算法,SCSN[32]、M3[33]都是最新的行人重識別算法,跟它們對比可以說明本文模型的先進性。
表1 Market1501 和DukeMTMC-reID 上與主流算法的對比結(jié)果 %
在使用相同主干網(wǎng)絡(luò)(ResNet50)的情況下,對比結(jié)果可知,本文所提出算法的Rank1 精度和平均精度(mAP)都高于這些算法。其潛在原因是本文使用的局部特征增強了網(wǎng)絡(luò)對細節(jié)信息的關(guān)注度,一定程度上改善了遮擋和低分辨率的問題,提高了網(wǎng)絡(luò)對視角變化和配飾變化的魯棒性。在Market1501 上獲得Rank1=96.2%,mAP=88.9%的準(zhǔn)確率,并且在DukeMTMC-reID 數(shù)據(jù)集上獲得Rank1=91.3%,mAP=79.8%的準(zhǔn)確率,得到了較好的效果,高于所有對比算法。
2.2.3 可視化分析
圖2 展示了在DukeMTMC-reID 數(shù)據(jù)集下的部分實驗結(jié)果圖,其中字母“Y”表示檢索成功,字母“N”表示檢索失敗。第一列為查詢圖像(Query),其檢索結(jié)果為排名前10 的圖像,根據(jù)與查詢圖像相似度從大至小依次排列。前3 行檢索結(jié)果顯示了算法強大的魯棒性,無論這些捕獲的行人姿勢或步態(tài)如何變化,融合特征都可以魯棒地表示其身份的辨別性信息。第4 位行人的檢索圖像分辨率低,十分模糊不清,但是本文算法只在排名第9 的圖像檢索錯誤,其余均檢索正確且包含被遮擋的圖像、背部圖像和高質(zhì)量圖像。最后一位行人的檢索圖像被嚴(yán)重遮擋且包含了大量無用信息,但融合特征仍然能夠根據(jù)背包和黑色上衣等細節(jié)信息找到大量正確樣本,包括該行人無遮擋的全身照。因此從實驗效果圖可以看出,本文算法在姿態(tài)變化、低分辨率、遮擋等多種情況下的魯棒性較高。
圖2 DukeMTMC-reID 數(shù)據(jù)集下的部分實驗結(jié)果
本文提出了一種圖像特征融合的行人重識別方法,解決了姿態(tài)變化、低分辨率以及遮擋情況下網(wǎng)絡(luò)提取特征不可靠的問題。本文通過構(gòu)建全局特征分支和局部特征分支使網(wǎng)絡(luò)注意到足夠的整體信息和細節(jié)信息,在檢索時通過融合全局特征和局部特征得到最后的融合特征。局部特征的引入,使網(wǎng)絡(luò)關(guān)注到更可靠的局部信息,忽略掉遮擋以及圖像中質(zhì)量較低的信息,大大提升了網(wǎng)絡(luò)的性能和識別的準(zhǔn)確率。在行人重識別數(shù)據(jù)集Market1501 和DukeMTMC-reID 上的實驗證明了融合特征優(yōu)于原始的全局視覺特征,并且在遮擋、姿態(tài)變化、圖像質(zhì)量低等因素下具有較強的魯棒性,達到了較先進的性能。