劉 暢,邱衛(wèi)根,張立臣
廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州510006
在當(dāng)今社會,智能化視頻監(jiān)控的普及為公共安全提供了有力的保障。視頻監(jiān)控技術(shù)不僅能為公安部門尋找犯罪嫌疑人及破案提供有利的線索,而且還可以應(yīng)用到找回走失兒童[1]等領(lǐng)域。實(shí)際上,要想在海量的視頻數(shù)據(jù)中,查詢并確定犯罪嫌疑人仍是一項(xiàng)巨大的挑戰(zhàn)。通過人工查看監(jiān)控視頻來鎖定目標(biāo),一方面會造成大量人力物力財(cái)力的浪費(fèi),更會錯失查找定位的良機(jī),導(dǎo)致案件勘破的延遲;另一方面,觀察者由于查看海量視頻而產(chǎn)生視覺疲勞,往往會漏看關(guān)鍵人物[2],延誤案情。利用行人再識別技術(shù)對犯罪嫌疑人和目標(biāo)對象進(jìn)行追蹤,不僅可以從海量的數(shù)據(jù)排查中釋放出巨量的人力資源,而且能快速高效地定位犯罪嫌疑人和目標(biāo)對象的活動范圍,為勘破案件贏得寶貴的時間機(jī)會。行人再識別[3]是利用計(jì)算機(jī)視覺技術(shù),判斷圖像或者視頻序列中是否存在特定對象或行人的技術(shù),被認(rèn)為是一個圖像檢索的子問題。
行人再識別的特點(diǎn)是給定一個感興趣的行人圖像,依次與不同攝像頭下出現(xiàn)的行人進(jìn)行特征匹配,緊接著,根據(jù)特征匹配的結(jié)果,判斷出行人依次出現(xiàn)在何處。然而,由于行人在不同時間段出現(xiàn)在不同攝像頭下,會出現(xiàn)尺度、光照[4]、姿態(tài)、視角[5]的變化,以及行人被遮擋等問題,從而導(dǎo)致提取的行人特征會有所不同。以上都使得行人再識別成為計(jì)算機(jī)視覺領(lǐng)域中既具有重要研究價值,同時又極具挑戰(zhàn)性的熱門課題。
大量的行人再識別方法是以完美的行人檢測[6]為前提的。然而實(shí)際情況中,由于不完美的行人檢測[7-8],行人再識別經(jīng)常會出現(xiàn)圖像未對齊的現(xiàn)象。文獻(xiàn)[9]提出了一種密集語義對齊的行人再識別框架,利用密集的語義分割得到人體部位的局部特征,解決行人未對齊問題。文獻(xiàn)[10]提出了一種局部對齊的行人再識別模型,該模型采用雙流的網(wǎng)絡(luò)結(jié)構(gòu),分別用來提取行人外觀特征以及身體部位特征,最后通過雙線性合并層將兩個特征向量融合為行人的特征表示。
本文在Resnet50主干網(wǎng)絡(luò)的基礎(chǔ)上,利用全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[11]對圖像進(jìn)行分割,并利用積分映射函數(shù),獲取感興趣區(qū)域(Region of Interest,ROI),同時融合了多層次特征圖信息,有效地解決了圖像未對齊問題。本文提出的方法具有三個優(yōu)點(diǎn):
(1)利用多特征融合,充分利用局部與全局特征信息,增強(qiáng)行人特征表示的魯棒性。
(2)利用分割網(wǎng)絡(luò)獲取行人前景掩膜,緊接著將不同尺度的行人特征映射到同一維度的特征空間,從而有效地解決行人未對齊問題。
(3)利用前景掩膜信息,獲取圖像前景特征,從而有效地解決背景雜亂的問題。
行人再識別是一項(xiàng)具有重要應(yīng)用前景,又具有嚴(yán)峻挑戰(zhàn)性的研究課題。行人再識別的前提,一般都需要將行人或?qū)ο髲膱鼍爸袡z測出來。緊接著利用不同的方法提取行人圖像的特征,從而得到圖像的特征空間。最后利用度量學(xué)習(xí)計(jì)算特征空間的相似度得分,依據(jù)相似度得分實(shí)現(xiàn)行人再識別。在實(shí)際場景中,行人在不同的時間段出現(xiàn)在不同的攝像頭下,可能會出現(xiàn)光照、遮擋、姿態(tài)和視角的變化,從而導(dǎo)致行人在不同的攝像頭下具有不同的特征,進(jìn)而影響到行人再識別的準(zhǔn)確率。
文獻(xiàn)[12]提出了一種基于顏色特征的特征描述子,用來解決行人再識別中光照變化的問題。文獻(xiàn)[13]提出了一種基于局部特征映射的方法來解決視角不變性的行人再識別問題。文獻(xiàn)[14]提出了對訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)擦除來解決目標(biāo)被遮擋的問題。文獻(xiàn)[15]提出了通過仿射變換,將行人的姿勢轉(zhuǎn)換成標(biāo)準(zhǔn)姿勢,從而解決行人姿態(tài)變化的問題。
在上述方法中,普遍是以一個完美的行人檢測方法作為前提。在實(shí)際情況下,行人檢測算法的性能會直接影響到后續(xù)的行人再識別工作。由于行人檢測算法的不完美性,會導(dǎo)致查詢圖像與圖庫中的圖像存在未對齊的情況。正如圖1所示,圖1(a)中矩形框標(biāo)出的是行人的頭部,而圖1(b)中與之位于同一位置的矩形框標(biāo)出的是背景。由圖1中包含同一行人的兩張圖像可看到,在比對圖像中行人的身體部位未對齊。在進(jìn)行特征匹配時,最好就是將比對圖像中行人對應(yīng)的身體部位進(jìn)行特征匹配。然而,未對齊現(xiàn)象的出現(xiàn)會影響到特征空間的相似度得分。
圖1 Market-1501數(shù)據(jù)集中的行人圖像
在解決圖像未對齊的方法中,許多是通過對人體進(jìn)行分割,從而獲取了行人的局部部位信息。文獻(xiàn)[16]提出了一個名為Spindle Net的網(wǎng)絡(luò),是基于人體區(qū)域引導(dǎo)的多階段特征分解和樹狀結(jié)構(gòu)競爭特征融合。文獻(xiàn)[17]提出了一種姿勢驅(qū)動的深度卷積模型,是利用人體部位信息來減輕姿勢變化,使得人物對齊。文獻(xiàn)[18]強(qiáng)調(diào)每個部分內(nèi)容的一致性,將圖像水平分為若干塊,對每一塊做一個分類器,判別塊內(nèi)的內(nèi)容是否一致。文獻(xiàn)[19]將局部特征與全局特征共同學(xué)習(xí)得到最終的特征表示,其全局特征的學(xué)習(xí)受益于局部特征的學(xué)習(xí),通過計(jì)算兩組局部特征的最短路徑來執(zhí)行對齊操作。
本文提出了一種基于可變形掩膜對齊卷積模型的行人再識別方法,用來解決行人未對齊的問題。首先利用分割網(wǎng)絡(luò)對原圖進(jìn)行分割,提取出包含行人的掩膜。本文利用FCN分割網(wǎng)絡(luò)獲取行人前景掩膜。FCN對圖像進(jìn)行像素級的分類,從而解決了語義級別的圖像分割問題,并且具有很好的分割效果。緊接著利用掩膜信息,對特征圖進(jìn)行裁剪,獲取僅包含行人的特征圖。由于進(jìn)行比對的兩張圖像,行人的分辨率是不同的,導(dǎo)致掩膜的大小不同。本文所提出的方法將表示行人的特征圖水平劃分為四塊[20],這四塊分為表示行人的不同身體部位。緊接著將各個表示身體部位的特征進(jìn)行融合,得到行人的全身特征表示。因此,本文提出的方法可自適應(yīng)不同尺度的行人掩膜,達(dá)到可變形掩膜對齊的效果。
本文所提出的方法在Market-1501[21]和DukeMTMCreID[22]這兩大數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),均有著較為不錯的準(zhǔn)確率。并且,本文通過消融實(shí)驗(yàn),驗(yàn)證了掩膜對齊模塊對識別未對齊圖像有一定的幫助,使得整體識別準(zhǔn)確率得到提高。
為更好地處理圖像未對齊問題,本文提出了一種改進(jìn)的可變形掩膜對齊及相關(guān)技術(shù)。本章將從網(wǎng)絡(luò)結(jié)構(gòu)、掩膜對齊、多特征融合、損失函數(shù)四個方面,介紹本文所提出的技術(shù)。
圖2 網(wǎng)絡(luò)模型
本文所提出的網(wǎng)絡(luò)模型的整體框架結(jié)構(gòu)如圖2所示,其是以Resnet50[23]作為主干網(wǎng)絡(luò)。Resnet50有很好的特征提取能力,其有4個Layer層,每層都會使得圖像的分辨率減半。如圖2中的虛線框所示,整體網(wǎng)絡(luò)模型分為三個部分,從上到下依次為:圖像淺層與深層的信息融合特征提取層、主干網(wǎng)絡(luò)特征提取層,以及利用掩膜得到的行人特征提取層。
信息融合特征提取層,提取主干網(wǎng)絡(luò)中的四個Layer層的輸出特征圖,并進(jìn)行全局平均池化操作(Global Average Pooling,GAP)[24],再將所得到的特征向量輸入到全連接層,得到四個維度相同的特征向量。緊接著,將這四個特征向量進(jìn)行融合,融合后得到的特征向量再次經(jīng)過全連接層,得到圖像淺層與深層信息融合的特征表示。
主干網(wǎng)絡(luò)特征提取層提取圖像語義級別的特征,采用Resnet50作為主干網(wǎng)絡(luò)。Resnet網(wǎng)絡(luò)是深度殘差網(wǎng)絡(luò),該網(wǎng)絡(luò)具有殘差模塊,使得網(wǎng)絡(luò)盡可能加深,從而具有魯棒性更強(qiáng)的特征提取能力。
行人特征提取層提取Resnet50的Layer2層的特征,并利用掩膜信息,在特征圖進(jìn)行感興趣區(qū)域池化操作,池化后得到四個特征向量,再將這四個特征向量進(jìn)行融合,得到行人的特征表示。
最后,將主干網(wǎng)絡(luò)得到的2 048維特征向量和融合特征提取層的512維特征向量,以及行人特征表示提取層的512維特征向量進(jìn)行集成,得到該圖像的最終的特征表示。
將比對圖像的對應(yīng)身體部位分別進(jìn)行比對,是行人再識別中的一個重要的方法。由于比對圖像未對齊,在查詢圖像包含人物頭部的位置,在圖庫圖像中的對應(yīng)位置,可能是背景,這就造成行人再識別的一個難點(diǎn)。同時,背景雜亂也會影響再識別模型的性能。
為了解決行人未對齊的問題,本文提出利用分割網(wǎng)絡(luò)與全局平均池化操作提取行人特征。由于行人在不同圖像中具有不同的尺度,從而行人特征的尺度會不同。因此,利用分割網(wǎng)絡(luò)獲取行人前景掩膜,根據(jù)掩膜信息獲取行人特征,將行人特征等分為若干塊,每塊代表行人特定的身體部位。對每塊對應(yīng)的特征進(jìn)行全局平均池化操作,得到固定大小的特征向量。因此,最終不同尺度的行人特征會映射到固定大小的特征空間。同時,由于可變形掩膜對齊深度卷積模型具有前景掩膜信息,可有效減少背景雜亂帶來的識別影響,提高識別準(zhǔn)確率。
為了具體實(shí)現(xiàn)掩膜對齊,本文首先利用FCN網(wǎng)絡(luò)對圖像進(jìn)行分割,得到包含行人的前景掩膜。圖3顯示了行人圖像由FCN分割后得到的掩膜圖像。當(dāng)出現(xiàn)復(fù)雜背景、行人被遮擋等問題時,F(xiàn)CN分割網(wǎng)絡(luò)依舊能較好地獲取行人前景掩膜。在實(shí)際場景中,復(fù)雜背景以及行人被遮擋等問題,均會影響到行人特征的提取。因此,獲取行人前景掩膜,對增強(qiáng)行人特征表示,具有重要的意義。緊接著,利用積分映射函數(shù)對掩膜圖像進(jìn)行處理,獲取掩膜圖像的前景感興趣區(qū)ROI。因此,在具體訓(xùn)練模型時,輸入的數(shù)據(jù)為{img,label,x1,y1,x2,y2},其中,分別是輸入的圖像、圖像對應(yīng)的標(biāo)簽、ROI左上角坐標(biāo)、ROI右下角坐標(biāo)。
圖3 FCN分割網(wǎng)絡(luò)分割后的掩膜圖像
由于每個Layer層都會使得圖像的分辨率減半,行人圖像由四個Layer層提取后的特征圖的大小分別為64×128×256、32×64×512、16×32×1 024、8×16×2 048,其中,特征圖的維度分別由長和寬,以及通道數(shù)進(jìn)行表示。在卷積神經(jīng)網(wǎng)絡(luò)中,淺層特征具有圖像的局部信息,高層特征具有圖像全局語義信息。主干網(wǎng)絡(luò)Resnet50的Layer1層提取圖像的局部特征,其提取的特征信息不夠充分。Layer3層提取的特征圖的大小為16×32×1 024,此時的特征圖具有較強(qiáng)的語義信息。但由于進(jìn)行了池化操作,導(dǎo)致圖像局部的信息丟失。為了兼具局部信息與語義信息,本文提取主干網(wǎng)絡(luò)Resnet50的Layer2層的特征圖。利用ROI坐標(biāo)信息,對Layer2層的特征圖進(jìn)行裁剪,得到僅包含行人的特征圖。緊接著,將僅包含行人的特征圖水平劃分為四塊,每一塊代表行人身體的一部分。對每一部分利用全局平均池化操作,從而人體每一部分是由512維的特征向量進(jìn)行表示,將人體四個部位的特征向量進(jìn)行特征融合,得到行人全身的特征表示。
傳統(tǒng)的行人再識別的方法中,大多只輸出最高層特征圖像作為其特征表示。當(dāng)然,高層的特征能抽象出語義級別的信息,對目標(biāo)識別有重要的效果。當(dāng)然,層次越高的卷積操作,感受野越大,局部信息的丟失度也更大。僅獲取高層語義級別的信息是不夠的,低級別的屬性特征,如衣服的顏色和紋理等,對正確分類也非常重要。因此,融合多個層次的特征圖,例如將高級別的語義特征和低級別的屬性特征進(jìn)行融合,可以獲取局部與全局的信息,對提高正確分類率是很有意義的。
本文中,將Resnet50的每一個Layer層的特征圖提取出來,如圖2所示,并對每一層得到的特征圖做GAP操作,并利用全連接層,得到4個512維的特征向量,再經(jīng)過Concat操作和Linear操作,就得到512維的特征向量,此即為圖像多層特征信息融合之后的特征表示。
行人的特征表示為:
其中,F(xiàn)part為人體的部分塊的特征表示,F(xiàn)body為行人全身的特征表示。
多級別特征表示為:
其中,F(xiàn)Layer是從Resnet50中的Layer層進(jìn)行特征提取后進(jìn)過全連接層映射得到的特征向量,F(xiàn)globle為多級別特征表示。
最后得到了三種特征向量,分別為主干網(wǎng)絡(luò)的2 048維特征向量和表示行人的512維特征向量,以及多層信息融合后的512維特征向量。將這三種特征向量進(jìn)行集成,得到3 072維的特征向量作為該圖像的最終特征表示。
最終行人圖像的特征表示為:
其中,⊕表示將特征向量沿著維度連接。
為了訓(xùn)練一個魯棒性與泛化能力強(qiáng)的網(wǎng)絡(luò),本文采用交叉熵?fù)p失函數(shù)與三元組損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練。交叉熵?fù)p失函數(shù)可充分利用訓(xùn)練數(shù)據(jù)集的標(biāo)簽信息,將行人進(jìn)行分類。三元組損失函數(shù)可增加類間距離,減小類內(nèi)距離。
交叉熵?fù)p失函數(shù):
其中,M是x的維度,class∈[0,C-1],C是要分類的個數(shù)。ω∈RC,表示標(biāo)簽的權(quán)重。
在使用三元組損失函數(shù)進(jìn)行訓(xùn)練時,需要每次輸入三張圖像。記輸入的三元組為其中與表示同一個行人表示兩個不同的行人。將這三元組中的三張圖像分別送入網(wǎng)絡(luò)結(jié)構(gòu)相同以及參數(shù)相同的網(wǎng)絡(luò),進(jìn)行特征的提取。記該網(wǎng)絡(luò)為φw,則三元組的特征表示為因此,三元組損失函數(shù)為:
其中[x]+=max(x,0),α表示邊際分布,通過計(jì)算三元組特征空間的歐式距離得到行人圖像間的相似度。
因此,本網(wǎng)絡(luò)最終的損失函數(shù)為:
為了評估本文提出的方法的有效性,在公開的兩大數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。本章首先介紹實(shí)驗(yàn)所用到的數(shù)據(jù)集以及算法性能的評測準(zhǔn)測。緊接著,介紹具體的實(shí)驗(yàn)細(xì)節(jié)。最后,從準(zhǔn)確率的角度下比對所提出的方法與其他方法。
本實(shí)驗(yàn)主要在兩個大的行人再識別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),這兩大行人再識別數(shù)據(jù)集分別為Market-1501和DukeMTMC-reID。
Market-1501:該數(shù)據(jù)集是由6個攝像頭拍攝得到,共有32 668張圖像,其中有1 501個行人。整個數(shù)據(jù)集被分為訓(xùn)練集和測試集這兩部分,其中訓(xùn)練集包含751個行人,共12 936張圖像;測試集包含750個行人,共19 732張圖像。對于在測試集中的每一個行人,從每個攝像頭下挑選出一張?jiān)撔腥说膱D像作為查詢圖像,從而獲得了3 368張查詢圖像。
DukeMTMC-reID:該數(shù)據(jù)集是由8個攝像頭拍攝得到,共有36 411張圖像,其中有812個行人。該數(shù)據(jù)集中只有404個行人出現(xiàn)在超過兩個攝像頭中,其他408個行人可視為干擾者。訓(xùn)練集包含702個行人,共16 522張圖像;測試集包含702個行人,共17 661張圖像。對于測試集中的每一個行人,從每個攝像頭下挑選出一張?jiān)撔腥说膱D像作為查詢圖像,從而獲得了2 228張查詢圖像。
在以上兩個數(shù)據(jù)集上,本實(shí)驗(yàn)使用累積匹配特征曲線(Cumulative Match Characteristic,CMC)和平均精度均值(mean Average Precision,mAP)這兩個標(biāo)準(zhǔn)的評測度量方法。
CMC評測度量方法是將行人再識別問題視為排序問題[25]。首先提取查詢圖像與候選集中所有圖像的特征,依次計(jì)算查詢圖像特征與候選集中圖像特征的歐式距離,并將計(jì)算得到的距離進(jìn)行升序排列。在得到的排序結(jié)果中,若查詢圖中的行人在其前k張圖像中出現(xiàn),則視為匹配成功。
mAP評測度量方法是將行人再識別問題視為檢索問題。在圖庫中可能存在同一個行人的多張圖像,此時給定該行人的查詢圖進(jìn)行檢索時,應(yīng)該返回所有匹配正確的結(jié)果。此時CMC評判標(biāo)準(zhǔn)就顯得不夠用了,因?yàn)闆]有考慮到召回率。通過計(jì)算每一張查詢圖像的平均準(zhǔn)確率(Average Precision,AP),并對所有查詢圖像的AP值求平均,可得到mAP值。其中,可通過計(jì)算精度與召回率曲線下的面積得到查詢圖的AP值。
CMC曲線不僅能很好地表達(dá)查詢圖像的第一正確準(zhǔn)確率,還能表達(dá)其他正確準(zhǔn)確率。因此,利用CMC曲線可以很直觀地反映出行人再識別模型的效果。mAP綜合考慮了準(zhǔn)確率與召回率,是一個更加全面的評價指標(biāo)。
本實(shí)驗(yàn)是基于pytorch開源框架,并利用在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的Resnet50作為主干網(wǎng)絡(luò)來進(jìn)行。
數(shù)據(jù)增強(qiáng):對訓(xùn)練集進(jìn)行三次樣條插值,將圖像大小調(diào)整到288×144,再對圖像進(jìn)行隨機(jī)裁剪,得到圖像大小為256×128,接著對圖像以0.5的概率進(jìn)行隨機(jī)翻轉(zhuǎn),最后,根據(jù)正則化操作將每個圖像減去平均值并除以標(biāo)準(zhǔn)差作為網(wǎng)絡(luò)的輸入。
訓(xùn)練配置:本實(shí)驗(yàn)設(shè)置的batchsize為32,訓(xùn)練模型的Epoch設(shè)置為60,基本學(xué)習(xí)率初始化為0.1,在40個Epoch后衰減到0.01。
本文提出的可變形掩膜對齊卷積模型在訓(xùn)練集上訓(xùn)練后得到的模型大小為128 MB。單張行人圖像通過本網(wǎng)絡(luò)進(jìn)行特征提取,耗時15 ms。相比于其他通過單獨(dú)檢測人體各個部位以解決未對齊問題的模型,本文模型具有參數(shù)量更少、速度更快的優(yōu)勢。
本文基于Market-1501數(shù)據(jù)集和DukeMTMCreID數(shù)據(jù)集這兩大數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并和近幾年的關(guān)于行人再識別方法進(jìn)行性能對比。由表1可知,在Market-1501數(shù)據(jù)集上,本文算法rank1值和mAP值分別為88.93%和70.48%。由表2可知,在DukeMTMC-reID數(shù)據(jù)集上,本文算法rank1值和mAP值分別為78.57%和61.73%。本文算法在行人再識別的性能上有著一定的提升。
表1 Market-1501數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
表2 DukeMTMC-reID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
圖4 顯示的是CMC曲線圖,可明顯看到本文所提出的方法在性能上優(yōu)于其他方法。圖4中Baseline曲線是僅由Resnet50主干網(wǎng)絡(luò)在測試集上得到的CMC曲線。NoneMask曲線是由Resnet50與多特征融合模塊組合的網(wǎng)絡(luò)結(jié)構(gòu)在測試集上得到的CMC曲線。Ours曲線是由添加了掩膜對齊模塊后的網(wǎng)絡(luò)結(jié)構(gòu)在測試集上得到的CMC曲線。
圖4 CMC曲線圖
由于Baseline曲線是由Resnet50的最高層特征作為行人最終特征表示,導(dǎo)致丟失了局部信息。因此,本實(shí)驗(yàn)在Resnet50作為主干網(wǎng)絡(luò)的基礎(chǔ)上,添加了多特征融合模塊,其實(shí)驗(yàn)結(jié)果如NoneMask曲線所示,在Market-1501數(shù)據(jù)集上,模型的rank1值由73.9%提升到83.0%。因此,低級別的屬性特征與高級別的語義特征進(jìn)行融合,對提高識別準(zhǔn)確率有一定的效果。為了驗(yàn)證掩膜對齊模塊的效果,本文在Resnet50與多特征融合模塊組合的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,添加了掩膜對齊模塊,其實(shí)驗(yàn)結(jié)果如Ours曲線所示。對比NoneMask曲線與Ours曲線可知,在添加掩膜對齊模塊后,模型的rank1值由83.0%提升到88.9%,驗(yàn)證了掩膜對齊模塊可有效地提高行人再識別的準(zhǔn)確率。
圖5 顯示的是若干查詢圖利用本文提出的方法,在圖庫上進(jìn)行查詢所得到的匹配結(jié)果。在圖5中,第一列表示的是查詢圖,第二列到第六列分別表示匹配結(jié)果的降序等級,其中第二列是與查詢圖在特征空間中匹配度最大的圖像。圖5中紅色邊框包圍的是識別錯誤的圖像??蓮慕Y(jié)果圖看出,本文提出的方法可很好地對未對齊圖像進(jìn)行識別,使得整體準(zhǔn)確率得到提高。
圖5 Market-1501數(shù)據(jù)集上的測試結(jié)果
圖6 顯示的是復(fù)雜背景下的行人圖像,利用本文提出的方法,在圖庫上進(jìn)行查詢所得到的匹配結(jié)果。在解決背景雜亂的問題上,大多數(shù)的文獻(xiàn)通過檢測人體局部信息,然后集成所有檢測到的局部信息,得到行人最終的特征表示。文獻(xiàn)[26]通過利用姿勢引導(dǎo)的局部注意力模塊解決復(fù)雜背景的問題。但由于行人在不同的攝像頭下,會有姿勢變化、視角變化等問題,導(dǎo)致行人的部分部位無法檢測,從而影響特征的提取。考慮到人體部位會有丟失的問題,本文引入掩膜信息,獲取行人整體的前景特征。在圖6所示的查詢圖中,行人的服裝與背景差異度小、行人被遮擋、行人處于復(fù)雜場景等問題,從顯示的查詢結(jié)果看出,利用可變形掩膜對齊卷積模型,可以很好地解決上述的問題。
圖6 行人在復(fù)雜背景下的測試結(jié)果
為了解決圖像中的行人未對齊問題,本文提出了一種基于可變形掩膜的行人對齊的深度卷積模型。本文在Resnet50基礎(chǔ)上,提取其多層特征圖信息,進(jìn)行特征信息融合;并引入掩膜信息,利用FCN和GAP操作,實(shí)現(xiàn)了可變形掩膜。本文算法通過FCN獲取行人圖像的前景掩膜,從而根據(jù)掩膜信息可以有效地提取行人特征。并利用GAP操作,將不同尺度的行人特征映射到同一維度的特征空間,從而實(shí)現(xiàn)不同尺度的行人圖像在同一特征空間進(jìn)行比對。本文算法不僅解決了行人未對齊問題,而且可以有效地減少雜亂背景對行人再識別的影響。本文的方法在兩個公開的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),均取得了較好的效果。