黃 印,周 軍,梅紅巖,鄭嵐卉
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)
行人重識(shí)別是一項(xiàng)解決跨場(chǎng)景跨攝像頭下的行人識(shí)別問(wèn)題的技術(shù)[1]。它是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要的研究課題,具有多種應(yīng)用,如自動(dòng)駕駛、視頻監(jiān)控和活動(dòng)分析等[2-4]。
根據(jù)網(wǎng)絡(luò)輸出特征類型,行人重識(shí)別方法主要有兩類,即基于全局特征的方法和基于局部特征的方法[5,6]?;谌痔卣鞯姆椒ㄖ饕镁W(wǎng)絡(luò)提取一個(gè)包含行人全局信息的特征,方法在推理階段計(jì)算快速,但易受到行人姿態(tài)變化、遮擋等因素影響[7,8]。基于局部特征的方法主要利用網(wǎng)絡(luò)手動(dòng)或者自動(dòng)地提取關(guān)鍵的局部區(qū)域的特征,方法更關(guān)注骨架、姿勢(shì)、人體部件等關(guān)鍵區(qū)域,具有更好的抗干擾能力。Sun等人對(duì)局部特征方法進(jìn)行較為深入的研究,提出了一種分割特征空間的PCB方法[9],將特征在水平方向劃分為6塊,簡(jiǎn)單且有效地利用局部特征。Wang等人提出一種多粒度模型MGN[10],整合局部特征和全局特征,并使用三元組損失對(duì)特征進(jìn)行約束。Zheng等人提出了一種漸進(jìn)式金字塔方法[11],增加行人的全局特征與局部特征之間的漸變聯(lián)系。
障礙物遮擋行人的現(xiàn)象非常普遍,既破壞人物結(jié)構(gòu)的完整性,又增加行人重識(shí)別難度。針對(duì)行人重識(shí)別的遮擋問(wèn)題,本文提出了一種基于特征融合的遮擋行人重識(shí)別方法,引入關(guān)系感知全局注意力機(jī)制,對(duì)全局范圍的結(jié)構(gòu)信息建模,實(shí)現(xiàn)靈活提取行人特征;根據(jù)行人特征自適應(yīng)地生成特征權(quán)重,以此作為行人重識(shí)別模型對(duì)行人遮擋區(qū)域的判斷,并融合全局特征和局部特征來(lái)進(jìn)行行人重識(shí)別。實(shí)驗(yàn)驗(yàn)證了所提方法的有效性,并且有效提升了行人重識(shí)別的效果。
本文提出一種基于特征融合的遮擋行人重識(shí)別方法。局部特征關(guān)注行人細(xì)節(jié)區(qū)域,而全局特征關(guān)注行人外觀,將兩者進(jìn)行特征融合可以對(duì)受遮擋的行人進(jìn)行更全面的描述。網(wǎng)絡(luò)的基礎(chǔ)模型的組成主要包括局部分支、全局分支、特征融合分支以及主干網(wǎng)絡(luò)。局部分支采用特征空間分割的方式來(lái)提取局部特征,在行人圖像中學(xué)習(xí)不同區(qū)域的差異性;全局分支嵌入注意力機(jī)制來(lái)提取全局特征,指導(dǎo)模型關(guān)注行人圖像的非遮擋區(qū)域;特征融合分支將局部特征和全局特征結(jié)合起來(lái),提取出更具有判別性的融合特征;主干網(wǎng)絡(luò)采用ResNet50來(lái)提取圖像特征,ResNet50包含1個(gè)卷積層和4個(gè)殘差塊,每個(gè)殘差塊包含若干卷積層、BN層和ReLu激活函數(shù)。特征提取完成后,利用交叉熵?fù)p失和困難三元組損失,保證模型學(xué)習(xí)到具有辨別性的特征?;谔卣魅诤系恼趽跣腥酥刈R(shí)別方法示意圖,如圖1所示。
圖1 基于特征融合的遮擋行人重識(shí)別方法示意圖
關(guān)鍵區(qū)域的局部特征可以減少行人復(fù)雜化的影響,從而降低行人重識(shí)別的難度。局部分支根據(jù)人體結(jié)構(gòu),將人體特征圖進(jìn)行橫向分割,提取具有判別性的局部特征。局部分支首先接收來(lái)自主干網(wǎng)絡(luò)提取的特征圖A,其尺寸為2048×24×8。然后,將特征圖A在豎直方向均勻分割為M塊,分別對(duì)每個(gè)部分進(jìn)行全局池化(Global Average Pooling,GAP)和1×1的卷積操作,得到局部特征{h1,h2,…,hM},其中,每個(gè)局部特征的尺寸為256×1。
局部分支采用Szegedy等人提出的標(biāo)簽平滑正則化 (Label Smoothing Regularization,LSR)[12]。LSR是分類任務(wù)中防止過(guò)擬合的常用方法,其思想是給非真實(shí)類別賦予一個(gè)非零的較小值,鼓勵(lì)模型不要過(guò)度關(guān)注真實(shí)類別。運(yùn)用LSR策略后,行人圖像的標(biāo)簽分布為
(1)
其中,N為訓(xùn)練樣本中行人總數(shù),ε是超參數(shù),文中設(shè)置為0.1,y為行人圖像的真實(shí)標(biāo)簽。
對(duì)每個(gè)局部特征使用全連接層和softmax激活函數(shù)得到分類結(jié)果,如式(2)所示
(2)
利用交叉熵?fù)p失函數(shù)來(lái)計(jì)算局部分支損失,如式(3)所示
(3)
其中,M是分割的塊數(shù),文中設(shè)置為6。
由于攝像頭的位置、拍照時(shí)間以及行人角度等因素的影響,在圖像中行人的可見(jiàn)部分占比較小,圖像中遮擋物占比較大。對(duì)于這類受遮擋的行人圖像,如果僅使用基本的ResNet50網(wǎng)絡(luò)來(lái)學(xué)習(xí)全局特征,模型提取的特征不夠代表性,同時(shí)易引入干擾因素。因此,本文將全局分支和關(guān)系感知全局注意力機(jī)制(Relation-Aware Global Attention,RGA)[13]相結(jié)合,提取出更具有代表性的行人全局特征。關(guān)系感知全局注意力機(jī)制RGA是Zhang等人在2020年提出的[13],與傳統(tǒng)注意力機(jī)制相比,RGA對(duì)全局范圍的結(jié)構(gòu)信息建模,可以更好的挖掘行人語(yǔ)義信息。在全局分支中,首先通過(guò)1×1的卷積層將特征圖A進(jìn)行降維操作,并利用RGA增強(qiáng)特征表現(xiàn)力,抑制不必要的特征。接下來(lái),利用GAP和1×1的卷積操作,得到全局特征F。其中,全局特征的尺寸為256×1。
全局分支采用Hermans等人提出的困難三元組損失(Hard Triplet Loss,HTL)[14]。三元組損失是一種廣泛應(yīng)用于圖像檢索領(lǐng)域的排序損失(Ranking Loss,RL),具有減小類內(nèi)間距,增大類間間距的特性。與交叉熵?fù)p失相比,三元組損失的兩種特性使得三元組損失更加適用于全局特征的訓(xùn)練。與傳統(tǒng)三元組損失不同,困難三元組損失將最難正例樣本和最難負(fù)例樣本作為困難三元組。由于專注于難樣本的訓(xùn)練,困難三元組損失在檢索任務(wù)的準(zhǔn)確率和模型的訓(xùn)練速度方面優(yōu)于傳統(tǒng)三元組損失。從數(shù)據(jù)集中采樣P個(gè)行人類別,并從每個(gè)類別中隨機(jī)選出K張行人圖像,全局分支損失如式(4)所示
(4)
其中,F(xiàn)a、Fn、Fp分別是錨點(diǎn)樣本(anchor)、正例樣本(positive)、負(fù)例樣本(negative)的特征向量表示,正例樣本和負(fù)例樣本分別代表與錨點(diǎn)圖像具有相同身份標(biāo)簽和不同身份標(biāo)簽的樣本;m是設(shè)定的間隔參數(shù),文中設(shè)置為0.3。
為了得到更健壯的行人特征表示,本文利用特征融合的方式把提取到的全局特征和局部特征進(jìn)行特征融合。對(duì)于行人圖像,每個(gè)部件的重要程度是不同的。若簡(jiǎn)單地利用add或concat操作來(lái)進(jìn)行特征融合,可能會(huì)降低部件信息帶來(lái)的益處。因此,本文根據(jù)行人部件顯著性程度,設(shè)計(jì)一種自適應(yīng)地生成部件權(quán)重的權(quán)重生成模塊。權(quán)重生成模塊由全連接層FC和激活函數(shù)Sigmoid組成,將全局特征F作為輸入,輸出每個(gè)部件的權(quán)重{w1,w2,…,w6}。權(quán)重生成模塊示意圖如圖2所示。
圖2 權(quán)重生成模塊示意圖
對(duì)每個(gè)部件以加權(quán)求和的方式,計(jì)算融合特征G,如式(5)所示
(5)
其中,M是部件數(shù),文中設(shè)置為6。
特征融合分支采用困難三元組損失,如式(6)所示
(6)
其中,Ga、Gn、Gp分別是錨點(diǎn)樣本(anchor)、正例樣本(positive)、負(fù)例樣本(negative)的特征向量表示,正例樣本和負(fù)例樣本分別代表與錨點(diǎn)圖像具有相同身份標(biāo)簽和不同身份標(biāo)簽的樣本;m是設(shè)定的間隔參數(shù),文中設(shè)置為0.3。
總的損失函數(shù)L包括局部特征損失Lp、全局特征損失Lg和特征融合損失Lf,如式(7)所示
L=Lp+αLg+βLf
(7)
其中,α和β是平衡損失的權(quán)重因子。
文中使用的實(shí)驗(yàn)環(huán)境是學(xué)院實(shí)驗(yàn)室現(xiàn)有環(huán)境,實(shí)驗(yàn)設(shè)備為一臺(tái)裝有Tesla P100顯卡、Intel Xeon CPU的服務(wù)器,服務(wù)器的內(nèi)存為13 GB,操作系統(tǒng)為Ubuntu16.04,算法程序用Python3.7版本的Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn),使用的集成開發(fā)環(huán)境為Vscode。
在實(shí)驗(yàn)中,將行人圖像尺寸縮放至384×128,使用隨機(jī)水平翻轉(zhuǎn)作為數(shù)據(jù)的增強(qiáng)方法,訓(xùn)練時(shí)采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化方法,更新變量參數(shù)設(shè)置為(0.5,0.999),初始學(xué)習(xí)率設(shè)置為0.1,每隔20個(gè)epoch,學(xué)習(xí)率下降為之前的0.1倍,權(quán)重衰減率設(shè)置為0.0005,共訓(xùn)練60個(gè)epoch。模型的初始權(quán)重服從N(0,0.02)。
使用遮擋行人數(shù)據(jù)集Occluded-REID[15]和Partial-REID[16]來(lái)評(píng)估所提方法。由于Occluded-REID[15]和Partial-REID[16]上沒(méi)有劃分訓(xùn)練集和測(cè)試集,模型在Market-1501[17]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,在Occluded-REID[15]和Partial-REID[16]數(shù)據(jù)集上進(jìn)行測(cè)試。Occluded-REID[15]數(shù)據(jù)集共包含200個(gè)人物身份的2000張行人圖像,每個(gè)行人包含5張全身圖像和5張不同遮擋方式的圖像,每張行人圖像尺寸為128×64。Partial-REID[16]數(shù)據(jù)集共包含60個(gè)人物身份的900張行人圖像,每個(gè)行人包含5張全身圖像、5張部分截?cái)鄨D像和5張遮擋圖像。本文僅利用Partial-REID[16]數(shù)據(jù)集上的全身圖像和遮擋圖像進(jìn)行測(cè)試。Market-1501[17]數(shù)據(jù)集共包含1501個(gè)人物身份的32668張行人圖像,分為訓(xùn)練集和測(cè)試集兩部分,訓(xùn)練集包含751個(gè)人物身份的12936張行人圖像;測(cè)試集包含750個(gè)人物身份的19732張行人圖像。模型在Market-1501[17]的訓(xùn)練集上進(jìn)行預(yù)訓(xùn)練。
在實(shí)驗(yàn)驗(yàn)證階段,本文使用累計(jì)匹配曲線(Cumulative Match Characteristic curve,CMC)和平均精度均值(mean Average Presicion,mAP)作為評(píng)價(jià)指標(biāo)。CMC用于評(píng)估行人重識(shí)別算法性能,包括rank-1、rank-5、rank-10等。rank-n表示測(cè)試集中前n個(gè)搜索結(jié)果中包含正確樣本的概率,如式(8)所示
(8)
其中,ki為第i個(gè)行人的第k個(gè)匹配結(jié)果。
mAP是衡量多標(biāo)簽圖像分類的常見(jiàn)指標(biāo),計(jì)算方法如式(9)所示
(9)
其中,P為準(zhǔn)確率(Percision Rate),R為召回率(Recall Rate)。
實(shí)驗(yàn)分別在Occluded-REID[15]數(shù)據(jù)集和Partial-REID[16]數(shù)據(jù)集上進(jìn)行了驗(yàn)證。將本文所提方法與IDE[17]、OsNet[18]、MLFN[19]、HACNN[20]、IPAM[21]、Part Bilinear[22]、PCB[9]、PCB+RPP[9]、FGFA[16]進(jìn)行對(duì)比。在Occluded-REID[15]數(shù)據(jù)集上,所提方法的rank-1、rank-5、rank-10和mAP分別達(dá)到65.3%、79.2%、85.0%和57.2%。與其他遮擋行人重識(shí)別方法相比,所提方法在Occluded-REID數(shù)據(jù)集上性能更優(yōu)異,表1為基于Occluded-REID數(shù)據(jù)集的性能對(duì)比結(jié)果。
表1 基于Occluded-REID數(shù)據(jù)集的性能對(duì)比結(jié)果(%)
在Partial-REID[16]數(shù)據(jù)集上,所提方法的rank-1、rank-5、rank-10和mAP分別達(dá)到71.7%、83.3%、91.3%和64.7%。相比性能較好的遮擋行人重識(shí)別方法FGFA[16],所提方法在rank-1、rank-5、rank-10和mAP指標(biāo)上分別提升了5.4%、1.5%、5.3%和1.5%。表2為基于Partial-REID數(shù)據(jù)集的性能對(duì)比結(jié)果。由表1和表2的數(shù)據(jù)可以看出,所提方法能夠有效提升在遮擋情況下行人重識(shí)別的性能。
表2 基于Partial-REID數(shù)據(jù)集的性能對(duì)比結(jié)果(%)
在Occluded-REID[15]數(shù)據(jù)集上驗(yàn)證本文方法的注意力機(jī)制和特征融合在遮擋行人重識(shí)別問(wèn)題上的有效性。將PCB[9]作為基本網(wǎng)絡(luò)模型baseline,它的rank-1、rank-5、rank-10和mAP分別達(dá)到59.3%、75.2%、83.2%和53.2%。在baseline上單獨(dú)利用注意力機(jī)制,使rank-1、rank-5、rank-10和mAP 分別提高了7.3%、3.8%、1.4%和6.4%。因?yàn)樽⒁饬C(jī)制不僅可以減少背景干擾,而且能夠很好的關(guān)注行人重要信息。在baseline上單獨(dú)利用特征融合,使rank-1、rank-5、rank-10和mAP 分別提高了8.7%、2.7%、0.3%和5.1%。因?yàn)榫植刻卣骱腿痔卣飨嗷パa(bǔ)充,可以對(duì)受遮擋的行人進(jìn)行更全面的描述。在baseline上聯(lián)合利用注意力機(jī)制和特征融合,使rank-1、rank-5、rank-10和mAP 分別提高了2.7%、1.4%、7.1%和1.1%。表3為消融實(shí)驗(yàn)結(jié)果,其中,RGA表示關(guān)系感知全局注意力機(jī)制,F(xiàn)S表示特征融合。結(jié)果表明,在基本網(wǎng)絡(luò)模型baseline上,單獨(dú)使用注意力機(jī)制或特征融合,都提高了行人重識(shí)別的性能;聯(lián)合使用注意力機(jī)制和特征融合,可以進(jìn)一步提高行人重識(shí)別的性能。
表3 消融實(shí)驗(yàn)結(jié)果(%)
在Occluded-REID[15]數(shù)據(jù)集上探究參數(shù)α和β對(duì)模型性能的影響。α是影響三元組中正負(fù)樣本對(duì)距離的參數(shù),在實(shí)驗(yàn)中分別設(shè)置為0、0.05、0.1、0.15、0.2、0.25、0.3、0.35。α取不同值時(shí)對(duì)應(yīng)的rank-1和mAP的變化如圖3(a)所示。當(dāng)α較小時(shí),會(huì)導(dǎo)致三元組中正負(fù)樣本對(duì)距離較近;當(dāng)α較大時(shí),會(huì)導(dǎo)致三元組中正負(fù)樣本對(duì)距離被過(guò)度拉大;當(dāng)α=0.10時(shí),可以獲得最好的rank-1和mAP。β是影響融合特征監(jiān)督強(qiáng)度的參數(shù),在實(shí)驗(yàn)中分別設(shè)置為0、0.005、0.01、0.015、0.02、0.025、0.03、0.035。β取不同值時(shí)對(duì)應(yīng)的rank-1和mAP的變化如圖3(b)所示。隨著β值的增大,rank-1和mAP的變化趨勢(shì)是先升高再降低,說(shuō)明對(duì)融合特征進(jìn)行過(guò)少或者過(guò)多的監(jiān)督,模型性能都有所降低。當(dāng)β=0.01時(shí),可以獲得最好的rank-1和mAP。結(jié)果表明,當(dāng)α=0.1且β=0.01時(shí),模型達(dá)到最好的性能。
圖3 參數(shù)α和β對(duì)模型性能的影響
行人重識(shí)別問(wèn)題是一類應(yīng)用背景強(qiáng),具有挑戰(zhàn)性的研究課題。本文給出了一種基于特征融合的遮擋行人重識(shí)別方法,使用關(guān)系感知全局注意力機(jī)制提取行人特征,更好的挖掘行人語(yǔ)義信息;根據(jù)特征的顯著性程度來(lái)融合全局特征和局部特征,減弱了復(fù)雜環(huán)境中遮擋物對(duì)行人重識(shí)別的影響。雖然在兩種評(píng)估指標(biāo)上有明顯提升,但是,性能指標(biāo)還相對(duì)偏低,說(shuō)明在遮擋情況下行人重識(shí)別方法還有進(jìn)一步提升空間。進(jìn)一步研究的問(wèn)題還有許多,比如,遮擋行人重識(shí)別準(zhǔn)確率問(wèn)題、遮擋比例與識(shí)別準(zhǔn)確率之間的關(guān)系等。