劉 暢,邱衛(wèi)根,張立臣
廣東工業(yè)大學 計算機學院,廣州510006
在當今社會,智能化視頻監(jiān)控的普及為公共安全提供了有力的保障。視頻監(jiān)控技術不僅能為公安部門尋找犯罪嫌疑人及破案提供有利的線索,而且還可以應用到找回走失兒童[1]等領域。實際上,要想在海量的視頻數據中,查詢并確定犯罪嫌疑人仍是一項巨大的挑戰(zhàn)。通過人工查看監(jiān)控視頻來鎖定目標,一方面會造成大量人力物力財力的浪費,更會錯失查找定位的良機,導致案件勘破的延遲;另一方面,觀察者由于查看海量視頻而產生視覺疲勞,往往會漏看關鍵人物[2],延誤案情。利用行人再識別技術對犯罪嫌疑人和目標對象進行追蹤,不僅可以從海量的數據排查中釋放出巨量的人力資源,而且能快速高效地定位犯罪嫌疑人和目標對象的活動范圍,為勘破案件贏得寶貴的時間機會。行人再識別[3]是利用計算機視覺技術,判斷圖像或者視頻序列中是否存在特定對象或行人的技術,被認為是一個圖像檢索的子問題。
行人再識別的特點是給定一個感興趣的行人圖像,依次與不同攝像頭下出現的行人進行特征匹配,緊接著,根據特征匹配的結果,判斷出行人依次出現在何處。然而,由于行人在不同時間段出現在不同攝像頭下,會出現尺度、光照[4]、姿態(tài)、視角[5]的變化,以及行人被遮擋等問題,從而導致提取的行人特征會有所不同。以上都使得行人再識別成為計算機視覺領域中既具有重要研究價值,同時又極具挑戰(zhàn)性的熱門課題。
大量的行人再識別方法是以完美的行人檢測[6]為前提的。然而實際情況中,由于不完美的行人檢測[7-8],行人再識別經常會出現圖像未對齊的現象。文獻[9]提出了一種密集語義對齊的行人再識別框架,利用密集的語義分割得到人體部位的局部特征,解決行人未對齊問題。文獻[10]提出了一種局部對齊的行人再識別模型,該模型采用雙流的網絡結構,分別用來提取行人外觀特征以及身體部位特征,最后通過雙線性合并層將兩個特征向量融合為行人的特征表示。
本文在Resnet50主干網絡的基礎上,利用全卷積神經網絡(Fully Convolutional Network,FCN)[11]對圖像進行分割,并利用積分映射函數,獲取感興趣區(qū)域(Region of Interest,ROI),同時融合了多層次特征圖信息,有效地解決了圖像未對齊問題。本文提出的方法具有三個優(yōu)點:
(1)利用多特征融合,充分利用局部與全局特征信息,增強行人特征表示的魯棒性。
(2)利用分割網絡獲取行人前景掩膜,緊接著將不同尺度的行人特征映射到同一維度的特征空間,從而有效地解決行人未對齊問題。
(3)利用前景掩膜信息,獲取圖像前景特征,從而有效地解決背景雜亂的問題。
行人再識別是一項具有重要應用前景,又具有嚴峻挑戰(zhàn)性的研究課題。行人再識別的前提,一般都需要將行人或對象從場景中檢測出來。緊接著利用不同的方法提取行人圖像的特征,從而得到圖像的特征空間。最后利用度量學習計算特征空間的相似度得分,依據相似度得分實現行人再識別。在實際場景中,行人在不同的時間段出現在不同的攝像頭下,可能會出現光照、遮擋、姿態(tài)和視角的變化,從而導致行人在不同的攝像頭下具有不同的特征,進而影響到行人再識別的準確率。
文獻[12]提出了一種基于顏色特征的特征描述子,用來解決行人再識別中光照變化的問題。文獻[13]提出了一種基于局部特征映射的方法來解決視角不變性的行人再識別問題。文獻[14]提出了對訓練數據進行隨機擦除來解決目標被遮擋的問題。文獻[15]提出了通過仿射變換,將行人的姿勢轉換成標準姿勢,從而解決行人姿態(tài)變化的問題。
在上述方法中,普遍是以一個完美的行人檢測方法作為前提。在實際情況下,行人檢測算法的性能會直接影響到后續(xù)的行人再識別工作。由于行人檢測算法的不完美性,會導致查詢圖像與圖庫中的圖像存在未對齊的情況。正如圖1所示,圖1(a)中矩形框標出的是行人的頭部,而圖1(b)中與之位于同一位置的矩形框標出的是背景。由圖1中包含同一行人的兩張圖像可看到,在比對圖像中行人的身體部位未對齊。在進行特征匹配時,最好就是將比對圖像中行人對應的身體部位進行特征匹配。然而,未對齊現象的出現會影響到特征空間的相似度得分。
圖1 Market-1501數據集中的行人圖像
在解決圖像未對齊的方法中,許多是通過對人體進行分割,從而獲取了行人的局部部位信息。文獻[16]提出了一個名為Spindle Net的網絡,是基于人體區(qū)域引導的多階段特征分解和樹狀結構競爭特征融合。文獻[17]提出了一種姿勢驅動的深度卷積模型,是利用人體部位信息來減輕姿勢變化,使得人物對齊。文獻[18]強調每個部分內容的一致性,將圖像水平分為若干塊,對每一塊做一個分類器,判別塊內的內容是否一致。文獻[19]將局部特征與全局特征共同學習得到最終的特征表示,其全局特征的學習受益于局部特征的學習,通過計算兩組局部特征的最短路徑來執(zhí)行對齊操作。
本文提出了一種基于可變形掩膜對齊卷積模型的行人再識別方法,用來解決行人未對齊的問題。首先利用分割網絡對原圖進行分割,提取出包含行人的掩膜。本文利用FCN分割網絡獲取行人前景掩膜。FCN對圖像進行像素級的分類,從而解決了語義級別的圖像分割問題,并且具有很好的分割效果。緊接著利用掩膜信息,對特征圖進行裁剪,獲取僅包含行人的特征圖。由于進行比對的兩張圖像,行人的分辨率是不同的,導致掩膜的大小不同。本文所提出的方法將表示行人的特征圖水平劃分為四塊[20],這四塊分為表示行人的不同身體部位。緊接著將各個表示身體部位的特征進行融合,得到行人的全身特征表示。因此,本文提出的方法可自適應不同尺度的行人掩膜,達到可變形掩膜對齊的效果。
本文所提出的方法在Market-1501[21]和DukeMTMCreID[22]這兩大數據集上進行實驗,均有著較為不錯的準確率。并且,本文通過消融實驗,驗證了掩膜對齊模塊對識別未對齊圖像有一定的幫助,使得整體識別準確率得到提高。
為更好地處理圖像未對齊問題,本文提出了一種改進的可變形掩膜對齊及相關技術。本章將從網絡結構、掩膜對齊、多特征融合、損失函數四個方面,介紹本文所提出的技術。
圖2 網絡模型
本文所提出的網絡模型的整體框架結構如圖2所示,其是以Resnet50[23]作為主干網絡。Resnet50有很好的特征提取能力,其有4個Layer層,每層都會使得圖像的分辨率減半。如圖2中的虛線框所示,整體網絡模型分為三個部分,從上到下依次為:圖像淺層與深層的信息融合特征提取層、主干網絡特征提取層,以及利用掩膜得到的行人特征提取層。
信息融合特征提取層,提取主干網絡中的四個Layer層的輸出特征圖,并進行全局平均池化操作(Global Average Pooling,GAP)[24],再將所得到的特征向量輸入到全連接層,得到四個維度相同的特征向量。緊接著,將這四個特征向量進行融合,融合后得到的特征向量再次經過全連接層,得到圖像淺層與深層信息融合的特征表示。
主干網絡特征提取層提取圖像語義級別的特征,采用Resnet50作為主干網絡。Resnet網絡是深度殘差網絡,該網絡具有殘差模塊,使得網絡盡可能加深,從而具有魯棒性更強的特征提取能力。
行人特征提取層提取Resnet50的Layer2層的特征,并利用掩膜信息,在特征圖進行感興趣區(qū)域池化操作,池化后得到四個特征向量,再將這四個特征向量進行融合,得到行人的特征表示。
最后,將主干網絡得到的2 048維特征向量和融合特征提取層的512維特征向量,以及行人特征表示提取層的512維特征向量進行集成,得到該圖像的最終的特征表示。
將比對圖像的對應身體部位分別進行比對,是行人再識別中的一個重要的方法。由于比對圖像未對齊,在查詢圖像包含人物頭部的位置,在圖庫圖像中的對應位置,可能是背景,這就造成行人再識別的一個難點。同時,背景雜亂也會影響再識別模型的性能。
為了解決行人未對齊的問題,本文提出利用分割網絡與全局平均池化操作提取行人特征。由于行人在不同圖像中具有不同的尺度,從而行人特征的尺度會不同。因此,利用分割網絡獲取行人前景掩膜,根據掩膜信息獲取行人特征,將行人特征等分為若干塊,每塊代表行人特定的身體部位。對每塊對應的特征進行全局平均池化操作,得到固定大小的特征向量。因此,最終不同尺度的行人特征會映射到固定大小的特征空間。同時,由于可變形掩膜對齊深度卷積模型具有前景掩膜信息,可有效減少背景雜亂帶來的識別影響,提高識別準確率。
為了具體實現掩膜對齊,本文首先利用FCN網絡對圖像進行分割,得到包含行人的前景掩膜。圖3顯示了行人圖像由FCN分割后得到的掩膜圖像。當出現復雜背景、行人被遮擋等問題時,FCN分割網絡依舊能較好地獲取行人前景掩膜。在實際場景中,復雜背景以及行人被遮擋等問題,均會影響到行人特征的提取。因此,獲取行人前景掩膜,對增強行人特征表示,具有重要的意義。緊接著,利用積分映射函數對掩膜圖像進行處理,獲取掩膜圖像的前景感興趣區(qū)ROI。因此,在具體訓練模型時,輸入的數據為{img,label,x1,y1,x2,y2},其中,分別是輸入的圖像、圖像對應的標簽、ROI左上角坐標、ROI右下角坐標。
圖3 FCN分割網絡分割后的掩膜圖像
由于每個Layer層都會使得圖像的分辨率減半,行人圖像由四個Layer層提取后的特征圖的大小分別為64×128×256、32×64×512、16×32×1 024、8×16×2 048,其中,特征圖的維度分別由長和寬,以及通道數進行表示。在卷積神經網絡中,淺層特征具有圖像的局部信息,高層特征具有圖像全局語義信息。主干網絡Resnet50的Layer1層提取圖像的局部特征,其提取的特征信息不夠充分。Layer3層提取的特征圖的大小為16×32×1 024,此時的特征圖具有較強的語義信息。但由于進行了池化操作,導致圖像局部的信息丟失。為了兼具局部信息與語義信息,本文提取主干網絡Resnet50的Layer2層的特征圖。利用ROI坐標信息,對Layer2層的特征圖進行裁剪,得到僅包含行人的特征圖。緊接著,將僅包含行人的特征圖水平劃分為四塊,每一塊代表行人身體的一部分。對每一部分利用全局平均池化操作,從而人體每一部分是由512維的特征向量進行表示,將人體四個部位的特征向量進行特征融合,得到行人全身的特征表示。
傳統(tǒng)的行人再識別的方法中,大多只輸出最高層特征圖像作為其特征表示。當然,高層的特征能抽象出語義級別的信息,對目標識別有重要的效果。當然,層次越高的卷積操作,感受野越大,局部信息的丟失度也更大。僅獲取高層語義級別的信息是不夠的,低級別的屬性特征,如衣服的顏色和紋理等,對正確分類也非常重要。因此,融合多個層次的特征圖,例如將高級別的語義特征和低級別的屬性特征進行融合,可以獲取局部與全局的信息,對提高正確分類率是很有意義的。
本文中,將Resnet50的每一個Layer層的特征圖提取出來,如圖2所示,并對每一層得到的特征圖做GAP操作,并利用全連接層,得到4個512維的特征向量,再經過Concat操作和Linear操作,就得到512維的特征向量,此即為圖像多層特征信息融合之后的特征表示。
行人的特征表示為:
其中,Fpart為人體的部分塊的特征表示,Fbody為行人全身的特征表示。
多級別特征表示為:
其中,FLayer是從Resnet50中的Layer層進行特征提取后進過全連接層映射得到的特征向量,Fgloble為多級別特征表示。
最后得到了三種特征向量,分別為主干網絡的2 048維特征向量和表示行人的512維特征向量,以及多層信息融合后的512維特征向量。將這三種特征向量進行集成,得到3 072維的特征向量作為該圖像的最終特征表示。
最終行人圖像的特征表示為:
其中,⊕表示將特征向量沿著維度連接。
為了訓練一個魯棒性與泛化能力強的網絡,本文采用交叉熵損失函數與三元組損失函數進行聯(lián)合訓練。交叉熵損失函數可充分利用訓練數據集的標簽信息,將行人進行分類。三元組損失函數可增加類間距離,減小類內距離。
交叉熵損失函數:
其中,M是x的維度,class∈[0,C-1],C是要分類的個數。ω∈RC,表示標簽的權重。
在使用三元組損失函數進行訓練時,需要每次輸入三張圖像。記輸入的三元組為其中與表示同一個行人表示兩個不同的行人。將這三元組中的三張圖像分別送入網絡結構相同以及參數相同的網絡,進行特征的提取。記該網絡為φw,則三元組的特征表示為因此,三元組損失函數為:
其中[x]+=max(x,0),α表示邊際分布,通過計算三元組特征空間的歐式距離得到行人圖像間的相似度。
因此,本網絡最終的損失函數為:
為了評估本文提出的方法的有效性,在公開的兩大數據集上進行實驗。本章首先介紹實驗所用到的數據集以及算法性能的評測準測。緊接著,介紹具體的實驗細節(jié)。最后,從準確率的角度下比對所提出的方法與其他方法。
本實驗主要在兩個大的行人再識別數據集上進行實驗,這兩大行人再識別數據集分別為Market-1501和DukeMTMC-reID。
Market-1501:該數據集是由6個攝像頭拍攝得到,共有32 668張圖像,其中有1 501個行人。整個數據集被分為訓練集和測試集這兩部分,其中訓練集包含751個行人,共12 936張圖像;測試集包含750個行人,共19 732張圖像。對于在測試集中的每一個行人,從每個攝像頭下挑選出一張該行人的圖像作為查詢圖像,從而獲得了3 368張查詢圖像。
DukeMTMC-reID:該數據集是由8個攝像頭拍攝得到,共有36 411張圖像,其中有812個行人。該數據集中只有404個行人出現在超過兩個攝像頭中,其他408個行人可視為干擾者。訓練集包含702個行人,共16 522張圖像;測試集包含702個行人,共17 661張圖像。對于測試集中的每一個行人,從每個攝像頭下挑選出一張該行人的圖像作為查詢圖像,從而獲得了2 228張查詢圖像。
在以上兩個數據集上,本實驗使用累積匹配特征曲線(Cumulative Match Characteristic,CMC)和平均精度均值(mean Average Precision,mAP)這兩個標準的評測度量方法。
CMC評測度量方法是將行人再識別問題視為排序問題[25]。首先提取查詢圖像與候選集中所有圖像的特征,依次計算查詢圖像特征與候選集中圖像特征的歐式距離,并將計算得到的距離進行升序排列。在得到的排序結果中,若查詢圖中的行人在其前k張圖像中出現,則視為匹配成功。
mAP評測度量方法是將行人再識別問題視為檢索問題。在圖庫中可能存在同一個行人的多張圖像,此時給定該行人的查詢圖進行檢索時,應該返回所有匹配正確的結果。此時CMC評判標準就顯得不夠用了,因為沒有考慮到召回率。通過計算每一張查詢圖像的平均準確率(Average Precision,AP),并對所有查詢圖像的AP值求平均,可得到mAP值。其中,可通過計算精度與召回率曲線下的面積得到查詢圖的AP值。
CMC曲線不僅能很好地表達查詢圖像的第一正確準確率,還能表達其他正確準確率。因此,利用CMC曲線可以很直觀地反映出行人再識別模型的效果。mAP綜合考慮了準確率與召回率,是一個更加全面的評價指標。
本實驗是基于pytorch開源框架,并利用在ImageNet數據集上進行預訓練的Resnet50作為主干網絡來進行。
數據增強:對訓練集進行三次樣條插值,將圖像大小調整到288×144,再對圖像進行隨機裁剪,得到圖像大小為256×128,接著對圖像以0.5的概率進行隨機翻轉,最后,根據正則化操作將每個圖像減去平均值并除以標準差作為網絡的輸入。
訓練配置:本實驗設置的batchsize為32,訓練模型的Epoch設置為60,基本學習率初始化為0.1,在40個Epoch后衰減到0.01。
本文提出的可變形掩膜對齊卷積模型在訓練集上訓練后得到的模型大小為128 MB。單張行人圖像通過本網絡進行特征提取,耗時15 ms。相比于其他通過單獨檢測人體各個部位以解決未對齊問題的模型,本文模型具有參數量更少、速度更快的優(yōu)勢。
本文基于Market-1501數據集和DukeMTMCreID數據集這兩大數據集上進行實驗,并和近幾年的關于行人再識別方法進行性能對比。由表1可知,在Market-1501數據集上,本文算法rank1值和mAP值分別為88.93%和70.48%。由表2可知,在DukeMTMC-reID數據集上,本文算法rank1值和mAP值分別為78.57%和61.73%。本文算法在行人再識別的性能上有著一定的提升。
表1 Market-1501數據集上實驗結果
表2 DukeMTMC-reID數據集上的實驗結果
圖4 顯示的是CMC曲線圖,可明顯看到本文所提出的方法在性能上優(yōu)于其他方法。圖4中Baseline曲線是僅由Resnet50主干網絡在測試集上得到的CMC曲線。NoneMask曲線是由Resnet50與多特征融合模塊組合的網絡結構在測試集上得到的CMC曲線。Ours曲線是由添加了掩膜對齊模塊后的網絡結構在測試集上得到的CMC曲線。
圖4 CMC曲線圖
由于Baseline曲線是由Resnet50的最高層特征作為行人最終特征表示,導致丟失了局部信息。因此,本實驗在Resnet50作為主干網絡的基礎上,添加了多特征融合模塊,其實驗結果如NoneMask曲線所示,在Market-1501數據集上,模型的rank1值由73.9%提升到83.0%。因此,低級別的屬性特征與高級別的語義特征進行融合,對提高識別準確率有一定的效果。為了驗證掩膜對齊模塊的效果,本文在Resnet50與多特征融合模塊組合的網絡結構基礎上,添加了掩膜對齊模塊,其實驗結果如Ours曲線所示。對比NoneMask曲線與Ours曲線可知,在添加掩膜對齊模塊后,模型的rank1值由83.0%提升到88.9%,驗證了掩膜對齊模塊可有效地提高行人再識別的準確率。
圖5 顯示的是若干查詢圖利用本文提出的方法,在圖庫上進行查詢所得到的匹配結果。在圖5中,第一列表示的是查詢圖,第二列到第六列分別表示匹配結果的降序等級,其中第二列是與查詢圖在特征空間中匹配度最大的圖像。圖5中紅色邊框包圍的是識別錯誤的圖像??蓮慕Y果圖看出,本文提出的方法可很好地對未對齊圖像進行識別,使得整體準確率得到提高。
圖5 Market-1501數據集上的測試結果
圖6 顯示的是復雜背景下的行人圖像,利用本文提出的方法,在圖庫上進行查詢所得到的匹配結果。在解決背景雜亂的問題上,大多數的文獻通過檢測人體局部信息,然后集成所有檢測到的局部信息,得到行人最終的特征表示。文獻[26]通過利用姿勢引導的局部注意力模塊解決復雜背景的問題。但由于行人在不同的攝像頭下,會有姿勢變化、視角變化等問題,導致行人的部分部位無法檢測,從而影響特征的提取??紤]到人體部位會有丟失的問題,本文引入掩膜信息,獲取行人整體的前景特征。在圖6所示的查詢圖中,行人的服裝與背景差異度小、行人被遮擋、行人處于復雜場景等問題,從顯示的查詢結果看出,利用可變形掩膜對齊卷積模型,可以很好地解決上述的問題。
圖6 行人在復雜背景下的測試結果
為了解決圖像中的行人未對齊問題,本文提出了一種基于可變形掩膜的行人對齊的深度卷積模型。本文在Resnet50基礎上,提取其多層特征圖信息,進行特征信息融合;并引入掩膜信息,利用FCN和GAP操作,實現了可變形掩膜。本文算法通過FCN獲取行人圖像的前景掩膜,從而根據掩膜信息可以有效地提取行人特征。并利用GAP操作,將不同尺度的行人特征映射到同一維度的特征空間,從而實現不同尺度的行人圖像在同一特征空間進行比對。本文算法不僅解決了行人未對齊問題,而且可以有效地減少雜亂背景對行人再識別的影響。本文的方法在兩個公開的數據集上進行實驗,均取得了較好的效果。