張 良,車 進*,楊 琦
(1. 寧夏大學(xué) 物理與電子電氣工程學(xué)院,寧夏 銀川 750021;2. 寧夏大學(xué) 沙漠信息智能感知重點實驗室,寧夏 銀川 750021)
行人再識別[1-4](Person ReID)通常被視為一個圖像檢索問題,即從非重疊的攝像機視角中實現(xiàn)行人匹配任務(wù)。給定一幅查詢圖像,行人再識別旨在從行人圖像庫中找出該行人的所有圖像。由于拍攝的圖像受到光照、姿勢、視角、遮擋、背景雜波等影響,會造成同一行人在不同攝像機視角中表現(xiàn)出較大的類內(nèi)差異,給行人再識別任務(wù)造成了巨大的困難和挑戰(zhàn)。
隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域的廣泛應(yīng)用,提取的深度特征已被證實具有良好的判別性和魯棒性,近年來涌現(xiàn)出一批優(yōu)秀的行人再識別算法。文獻[5-7]考慮到樣本空間中類內(nèi)差異與類間差異的影響,提出多損失聯(lián)合訓(xùn)練的方式來優(yōu)化網(wǎng)絡(luò)。文獻[8]提出一種改進的三元組損失算法,在特征空間內(nèi)將正負樣本對分開,而且優(yōu)化了正樣本對之間的距離。文獻[9]提出一種難樣本采樣損失函數(shù),在每一個訓(xùn)練的批量樣本中挑選一張圖像,從批量樣本中選擇一個最難的正樣本以及負樣本與該圖像組成一個三元組,實驗結(jié)果顯示,使用該損失函數(shù)訓(xùn)練的網(wǎng)絡(luò)模型魯棒性更強。在此之后,不少研究學(xué)者開始利用局部特征來提高行人再識別的精度。文獻[10-12]提出將人物圖像由上至下分為幾個不同部分,對不同的部分進行特征提取,利用多損失共同監(jiān)督網(wǎng)絡(luò),融合不同部分的特征得到最終的特征表示。上述算法的缺點就是對圖像對齊的要求較高,為了解決上述的不對齊問題,文獻[13]提出一種基于SP距離的自動對齊模型,在不需要額外監(jiān)督信息的條件下自動對齊局部特征。文獻[14-17]提出利用姿態(tài)預(yù)估模型得到關(guān)鍵點,利用人體關(guān)鍵點將人體劃分為不同的區(qū)域,得到不同尺度下的特征,通過融合各部分特征進而提高精度。文獻[18]也采用人體關(guān)鍵點作為先驗知識,不同于文獻[14]采用仿射變換對人體區(qū)域進行劃分,它直接利用關(guān)鍵點將人體分為7個ROI區(qū)域,最后將全局特征與局部特征進行融合。文獻[19]提出一種全局-局部對齊特征描述子,不同的是將人體區(qū)域分為3部分,每部分的輸入對應(yīng)每部分的損失,并不是融合為一個特征計算損失。文獻[20-21]提出同時學(xué)習(xí)全局與局部特征,并通過權(quán)重子網(wǎng)絡(luò)對不同部分加權(quán)融合局部與全局特征。然而以上的算法都必須有一個姿態(tài)預(yù)估模型,增加了學(xué)習(xí)的難度。
本文提出一種用于ReID的深度學(xué)習(xí)算法,在不引入任何人體框架先驗知識的前提下,融合人物圖像的全局、局部、以及人體結(jié)構(gòu)特征。采用三元組損失與ID損失在不同尺度下的多級監(jiān)督機制優(yōu)化網(wǎng)絡(luò)。實驗結(jié)果表明,這種采用聯(lián)合監(jiān)督機制的多粒度特征融合算法有一定的優(yōu)越性。
文獻[22-24]提出多尺度提取特征,融合不同的特征得到最終的特征表示??紤]到網(wǎng)絡(luò)的競爭性能以及相對簡潔的架構(gòu),本文采用ResNet-50[25]作為基準網(wǎng)絡(luò),保留全均值池化層(Global Average Pooling,GAP)之前的結(jié)構(gòu),之后的網(wǎng)絡(luò)層均被拋棄。對修改的基準網(wǎng)絡(luò)輸出的特征圖采用不同的池化策略,得到加權(quán)后的全局特征、局部特征以及人體結(jié)構(gòu)特征,如圖1所示。在訓(xùn)練階段,采用多級損失函數(shù)監(jiān)督機制對網(wǎng)絡(luò)進行訓(xùn)練。在測試階段,將全局特征、局部特征以及人體結(jié)構(gòu)特征級聯(lián)形成最終的行人特征描述符實現(xiàn)多粒度特征融合。
行人圖像經(jīng)過基準網(wǎng)絡(luò)得到特征圖F,F(xiàn)經(jīng)過一個雙分支網(wǎng)絡(luò),上層分支為全局均值池化層(Global Average Pooling,GAP),由于平均池化能夠感知整幅圖像中的全局信息,對鄰域內(nèi)的特征點求平均,能夠減小鄰域大小受限造成的估計值方差增大,更多地保留圖像的背景信息。下層分支為全局最大池化層(Global Max Pooling,GMP),最大池化的目標是提取最具有鑒別性的信息,對鄰域內(nèi)的特征點取最大值,能夠減小卷積層參數(shù)誤差造成估計均值的偏移。最大池化忽略了由于平均池化造成的干擾信息,保留更多的紋理信息??紤]到兩種池化策略的不同優(yōu)勢,本文采用兩種池化策略相結(jié)合得到更具有判別性的全局特征,可以表示為:
圖1 網(wǎng)絡(luò)架構(gòu)Fig.1 Network architecture
G=avgpool(F)+maxpool(F).
(1)
降維前的全局特征均采用批量硬三元損失[26]優(yōu)化網(wǎng)絡(luò),批量硬三元損失的核心內(nèi)容是隨機選擇P類行人,每類隨機選擇K張圖片,形成一個包含PK張圖像的批量樣本,對于該批量樣本中某個確定的樣本,選擇批量樣本中最難的正樣本和最難的負樣本來計算損失。優(yōu)化該批量樣本內(nèi)最難的正樣本以及最難的負樣本,在特征空間內(nèi)滿足類內(nèi)距離的最大化并且類間距離最小化,使得網(wǎng)絡(luò)學(xué)習(xí)特征的魯棒性變強。每條支路的損失函數(shù)都是獨立且不共享網(wǎng)絡(luò)參數(shù),可以表示為:
(2)
當(dāng)關(guān)注的對象受到遮擋時,由于全局特征無法分辨出前景和背景這一劣勢,全局特征的表達能力就會被削弱。此時需要局部特征來彌補全局特征的不足,局部特征是某些特定區(qū)域的穩(wěn)定且具有良好判別性的特征,即使發(fā)生了部分遮擋等情況,一些局部的強辨識性特征仍然存在。
最大池化的目標是提取最具有鑒別性的特征,提取鄰域內(nèi)最大的特征點,因此采用最大池化策略獲取局部特征。特征圖切片[8]是一種常見的局部特征提取方式,本文對特征圖F首先進行水平方向池化,將特征向量在水平方向的分量池化為單個部件級別的向量。由于人物圖像是垂直的,在垂直方向上特征的魯棒性較強,因此將經(jīng)過水平池化后的特征圖F沿垂直方向均分為6個區(qū)域,每個區(qū)域特征降維得到局部特征,采用Softmax損失計算每部分的損失,局部特征中所有的Softmax損失共享參數(shù),可以表示為:
(3)
其中:pi表示預(yù)測i屬于類別qi的概率,N表示行人圖像的總數(shù)量。
由于測試集中的人物圖像從未在訓(xùn)練集中出現(xiàn)過,因此行人再識別可以看作是One-Shot任務(wù),因此防止網(wǎng)絡(luò)過擬合是十分重要的。Lable Smoothing[25](LS)是一種廣泛的防止分類任務(wù)過度擬合方法,具體是改變公式(3)中的qi:
(4)
其中:N表示行人圖像的總數(shù)量,ε是一個常量,本文中設(shè)置為0.1。
本文在不引入任何人體姿態(tài)先驗知識的前提下,對特征圖進行切片操作得到局部特征。利用局部特征的相對距離得到局部特征相對矩陣D,進而得到人體結(jié)構(gòu)特征,如圖2所示(圖2中僅僅列出h1與其他塊的關(guān)系)。局部特征相對矩陣D是由局部特征之間的余弦距離得到,余弦距離使用兩個特征向量夾角的余弦值作為衡量兩個特征之間的差異,相比于歐式距離,余弦距離更加注重兩個向量在方向上的差異,使用余弦距離能夠更好地顯示兩個特征向量之間的相似度。定義dij表示兩個局部特征向量的余弦距離:
(5)
以矩陣的表示形式為:
D=HTH.
(6)
由于人物圖像是垂直分布的,相對距離矩陣D對各種可變形的人體結(jié)構(gòu)具有很強的魯棒性。受到攝像機視角、可變的姿勢等影響,采集到的人物圖像在相同部位的大小、形狀存在很大差異。因此將矩陣D重構(gòu)為特征向量,用來表示人體結(jié)構(gòu)特征。為了通過人體結(jié)構(gòu)特征區(qū)分不同的行人,在重構(gòu)的特征向量之后加入兩層全連接層以及對應(yīng)的人體結(jié)構(gòu)損失使得人體結(jié)構(gòu)特征是可以學(xué)習(xí)的。我們可以根據(jù)相對距離矩陣D區(qū)分不同行人的ID信息,采用Softmax作為人體結(jié)構(gòu)的損失函數(shù),如式(3)所示。
圖2 人體結(jié)構(gòu)和局部特征相對矩陣Fig.2 Human body structure and local feature relative matrix
采用三元組損失與ID損失相結(jié)合的多級監(jiān)督機制優(yōu)化網(wǎng)絡(luò),網(wǎng)絡(luò)的總損失包括ID損失、三元組損失、人體結(jié)構(gòu)損失:
L=Lid+Lbhtri+Lstr.
(7)
圖3 REA 效果圖Fig.3 REA renderings
為了驗證本算法的有效性,實驗在pytorch環(huán)境下搭建深度網(wǎng)絡(luò)進行實驗,實驗設(shè)備為搭載4塊TITAN V GPU的圖形工作站。本文中,擦除概率pe設(shè)置為 0.5,設(shè)置擦除面積最小值sl=0.02、最大值sh=0.4,擦除區(qū)域?qū)捀弑茸钚≈祌1=0.3、最大值r2=3.33,常量ε設(shè)置為0.1,基礎(chǔ)的學(xué)習(xí)率設(shè)置為2E~4,迭代周期設(shè)置為160,批量大小設(shè)置為128,類別P=32,K=4,常量α=0.3,正負樣本的初始比例為1/3。
在兩大公開的數(shù)據(jù)集Market1501、DukeMTMC-reID對模型的有效性進行實驗驗證,并與幾種最新的行人再識別算法進行比較,使用累積匹配特征曲線(CMC)[29]和平均精度(mAP)[30-31]這兩個指標來評價所提算法的性能,其中CMC曲線的指標為:首位命中率(Rank-1,R1)、前五位命中率(Rank-5,R5)、前十位命中率(Rank-10,R10)。表1列出了數(shù)據(jù)集的詳細信息。
Market1501數(shù)據(jù)集是行人再識別中最常用的數(shù)據(jù)集,該數(shù)據(jù)集包含了1 501個行人的32 668幅帶標簽的邊界框。由6個不同的攝像頭在不同時間、不同光照條件下拍攝。數(shù)據(jù)集被分為訓(xùn)練集和測試集,訓(xùn)練集包含751個行人的12 936個裁剪圖像,測試集包含750個行人的19 732個裁剪圖像,邊界框直接由可變形零件模型(DPM)[32]檢測而不是使用手繪的邊界框,這更接近于真實的場景。
表1 數(shù)據(jù)集的詳細信息Tab.1 Details of the dataset
DukeMTMC-reID數(shù)據(jù)集由8個攝像頭采集的視頻序列經(jīng)過等間隔采樣得到,數(shù)據(jù)庫包含1 812個行人,其中1 404個行人出現(xiàn)在大于兩個攝像頭視角下,這些出現(xiàn)在多攝像頭的圖片分為702個行人訓(xùn)練集16 522張和702個行人的測試集19 889張,剩下的408個行人僅出現(xiàn)在一個攝像頭下,因此并沒有采用該部分的行人圖像。
為了驗證不同的池化策略下的全局特征對模型的影響,在Market1501數(shù)據(jù)集上進行實驗,數(shù)據(jù)如表2所示,由表中數(shù)據(jù)可得結(jié)合兩種池化策略的網(wǎng)絡(luò)性能比任何單一池化策略的性能要好,進一步驗證了結(jié)合兩種池化策略的可行性與有效性。
表2 不同池化策略下的全局特征對模型的影響
Tab.2 Effect of global features on different models under different pooling strategies
ModelR1/% R5/% R10/% mAP/% Avg90.295.397.278.8Max90.394.797.479.0Avg+Max91.095.797.879.2
本文提出的特征融合策略,在Market1501數(shù)據(jù)集上對全局特征、局部特征、人體結(jié)構(gòu)特征進行消融實驗,實驗數(shù)據(jù)如表3、4所示,其中str表示人體結(jié)構(gòu)特征,由表中的數(shù)據(jù)可得融合人體結(jié)構(gòu)特征能進一步提高網(wǎng)絡(luò)模型的性能,進一步驗證了可以利用局部特征之間的相對特征表征人體結(jié)構(gòu)特征。
表3 全局特征與人體結(jié)構(gòu)特征對模型的影響
Tab.3 Effect of global features and anatomical features on the model
ModelR1/% R5/% R10/% mAP/% Global91.095.797.879.2Global +str92.797.398.380.8
表4 局部特征與人體結(jié)構(gòu)特征對模型的影響
Tab.4 Effect of local features and human structural features on the model
ModelR1/% R5/% R10/% mAP/% Local91.195.897.578.9Local +str92.297.198.179.6
本文提出的行人再識別算法在兩大公開的數(shù)據(jù)集上進行實驗,實驗數(shù)據(jù)如表5所示,由表3、4、5中的數(shù)據(jù)可得,多粒度特征融合能進一步提高網(wǎng)絡(luò)的性能。
表5 全局特征、局部特征與人體結(jié)構(gòu)特征對模型的影響Tab.5 Effect of global features, local features and anatomical features on the model
本文所提出的算法與現(xiàn)有的算法進行比較如表6所示,可以看出所提出的算法性能優(yōu)越,在Market1501上的Rank-1僅僅比PCB+RPP稍低,但mAP的性能要高于PCB+RPP。在DukeMTMC-ReID的Rank-1的表現(xiàn)效果很好,mAP僅次于PSE+ECN。由實驗數(shù)據(jù)可得,所提出的算法在兩大公開數(shù)據(jù)集上的表現(xiàn)優(yōu)越,Rank-1以及mAP要高于現(xiàn)有的大多數(shù)算法,充分說明了所提算法的優(yōu)越性。
表6 本文算法與現(xiàn)有的算法比較
Tab.6 Comparison of the algorithm in this paper with existing algorithms
ModelMarket1501DukeMTMC-ReIDR1/% mAP/%R1/% mAP/% BoW+Kissme[33]20.7644.4225.1312.17IDE[6]72.546.067.747.1LOMO+XQDA[1]72.5851.9630.7517.04Part-Aligned[17]81.063.484.469.3SVDNet[34]82.362.176.756.8
續(xù) 表
本文在不考慮任何人體結(jié)構(gòu)先驗知識的前提下,提出一種融合人物圖像的全局特征、局部特征以及人體結(jié)構(gòu)特征的行人再識別算法。采用不同的池化策略加權(quán)捕獲人物圖像的全局特征,對特征圖切片獲取局部強辨識性特征,利用局部特征的相對距離得到人體結(jié)構(gòu)特征。采用不同的損失函數(shù)在不同尺度下對網(wǎng)絡(luò)進行監(jiān)督,這種利用多級損失函數(shù)進行監(jiān)督的監(jiān)督機制使得網(wǎng)絡(luò)模型變得更加魯棒。在公開數(shù)據(jù)集的實驗結(jié)果顯示,算法的Rank-1指標相比于PCB方法提升了1.3%、3.9%,mAP提升了5.1%、9.8%。