李 杰
中國民航大學 信息網(wǎng)絡中心,天津300300
行人再識別旨在識別跨越不同監(jiān)控攝像機下的同一行人目標,可廣泛應用于視頻監(jiān)控、智能安防等領域中,如可疑人員的追蹤、特定人群的軌跡分析等。但由于不同攝像機下不同時間的圖像分辨率差異、光照影響、姿態(tài)和視角多樣等問題,行人再識別仍然是一個具有較高研究價值和挑戰(zhàn)性的問題。
為了克服上述問題,行人再識別分別從兩個不同的方向發(fā)展:提取魯棒性的行人特征和學習合適的距離度量。近年來隨著深度學習的蓬勃發(fā)展,基于卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)的行人再識別方法逐步取代傳統(tǒng)的手工特征識別方法成為主流。在科研工作者的不斷努力探索下,行人再識別再次從通過CNN 提取行人特征應用到單一行人再識別任務開始,逐步發(fā)展為結合屬性等的多任務行人再識別階段。其中后者的代表工作:2019年Lin 等人在Market-1501這一主流行人再識別數(shù)據(jù)集上添加了行人的屬性標簽,并設計實現(xiàn)了結合屬性特征的多任務識別模型(attribute person recognition,APR),可有效提高行人再識別的精度。Schumann等人分別設計了MultiView Attribute 和Attribute-Complementary Re-id Network 用于屬性識別和行人再識別。隨后,Liu 等人通過在Resnet50的基礎上級聯(lián)Densenet101網(wǎng)絡能夠更細致地獲取行人特征,進而提高行人再識別的精度。但這些工作或者沒有考慮行人屬性包含信息的差異性,或者采用多網(wǎng)絡模型結合,導致訓練相對復雜,應用相對較難。
針對這些問題,本文提出了基于空間注意力和紋理特征增強的多任務行人再識別算法。主要包括以下四方面:
(1)設計屬性識別網(wǎng)絡的空間注意力模塊,使網(wǎng)絡更注重與行人屬性相關的潛在圖像區(qū)域,同時抑制與行人無關的背景區(qū)域的影響,實現(xiàn)屬性特征挖掘從而提高行人屬性識別準確性。
(2)設計行人再識別網(wǎng)絡的紋理特征增強模塊,通過結合不同空間級別的全局和局部行人表觀特征,融合輪廓性和顯著性特征來提高行人再識別準確性。
(3)提出多任務加權損失函數(shù),使屬性識別網(wǎng)絡和行人再識別網(wǎng)絡有效聯(lián)合,并將屬性特征作為輔助信息融入行人特征,避免由屬性異質性造成行人再識別精度損失。
(4)本文算法在Market-1501和DukeMTMC-reID兩大公開行人再識別數(shù)據(jù)集的平均精度分別可以達到81.1%和70.1%。
本文方法的整體框架如圖1 所示,主要分為三部分:第一部分為采用ResNet50 作為骨干網(wǎng)絡提取特征;第二、三部分分別為基于空間注意力的屬性識別網(wǎng)絡和紋理特征增強的行人再識別網(wǎng)絡。引入屬性識別網(wǎng)絡的原因在于,包括性別、年齡等屬性特征與行人特征在一定程度上是緊密相連且互為補充的,可有效提高行人再識別的準確率。在屬性識別網(wǎng)絡中添加空間注意力模塊是為了抑制無關背景區(qū)域,使網(wǎng)絡本身更注重于與特定屬性相關的,對識別更有利的潛在圖像區(qū)域。行人再識別網(wǎng)絡中的紋理特征增強模塊通過融合映射身體結構分布的全局和局部特征,彌補因遮擋或姿態(tài)變換等特征不全情況下識別率低的短板。圖1 中“+”表示像素值點積的特征融合方式。
圖1 整體框架Fig.1 Overall structure
屬性識別網(wǎng)絡的引入是為了從行人圖像中學習更有判別性的屬性特征描述。特定的行人屬性可以從圖像中的一個甚至多個區(qū)域獲得。為了更好地學習這些屬性特征,需要卷積神經(jīng)網(wǎng)絡更注重于這些相對應的區(qū)域。這些與屬性特征相關的區(qū)域不一定與標注的目標區(qū)域相對應。與此同時,行人各個屬性之間也是存在語義相關的,某個屬性的存在與否有助于推理其他屬性的存在與否。與此同時,在文獻[11]中,通過實驗證明了采用注意力模塊使得網(wǎng)絡能聚焦于更與行人相關的屬性特征區(qū)域,注意力分配概率分布更加偏向于關聯(lián)性強的屬性,以及在一定程度上減弱了網(wǎng)絡對行人無關的背景區(qū)域的關注。例如,女性和長發(fā)同時出現(xiàn)的概率高,而手提一個包和背一個雙肩包同時出現(xiàn)的概率則低得多。這些特點有助于屬性識別并提高行人識別的精度。
為了使網(wǎng)絡更加關注與屬性相關的圖像區(qū)域以及挖掘屬性特性的相關性,本文提出了基于空間注意力的屬性識別網(wǎng)絡。其中空間注意力模塊的結構圖如圖2 所示??臻g注意力模塊包括全局最大池化、全局中值池化和全局均值池化三個池化層,一個通道相加的特征融合操作,一個普通卷積層和激活函數(shù),一個統(tǒng)一特征的采樣操作和像素值點積的特征融合操作??臻g注意力模塊可用式(1)表示:
圖2 空間注意力模塊結構圖Fig.2 Structure diagram of spatial attention module
其中,代表輸入特征圖;、、分別代表全局均值、中值和最大池化;、分別代表像素值點積和通道相加的特征融合方式;代表普通卷積,代表sigmod 激活函數(shù),代表雙線性差值的上采樣操作。該空間注意力模塊,采用包括全局、均值和中值的多層次池化來獲得空間上對行人更有效的顯著屬性特征,利用通道相加的特征融合操作來將多層次池化獲得的有效特征在通道層面實現(xiàn)融合,設計的卷積層和激活函數(shù)構成的激勵將融合新特征的權重進行再次優(yōu)化分配,最終再通過采樣和引入原始特征的點積融合操作來進一步關注更具有判別性的、與行人相關的屬性特征。這樣的屬性挖掘方式不僅能提高重要屬性所對應區(qū)域的權重,還能同時降低背景等對應圖像特征的權重,進而提高了屬性識別網(wǎng)絡的性能。
行人再識別的最終環(huán)節(jié)在于特征的相似度比較。而特征的有效獲取是相似度比較的基礎。引入的紋理特征增強模塊能夠更好地提取全局和局部行人特征,進而實現(xiàn)快速準確的行人特征匹配。其中紋理特征增強模塊的結構圖見圖1 中的虛線框部分。其中全局特征是指行人的整體特征,包括顏色紋理等,是相關性較強的特征,在圖像遮擋的情況下表達能力較差。而與之相對的局部特征,包括邊緣、角點等,特征穩(wěn)定,特征相關性稍弱,遮擋時仍能通過部分特征來感知整體特點。本節(jié)通過紋理特征增強模塊中的多種操作使得行人再識別網(wǎng)絡獲得更全面的全局特征和更精準的局部特征,進而在一定程度上克服因遮擋等造成的行人再識別網(wǎng)絡性能下降的問題。
紋理特征增強模塊主要包括可變形卷積操作、水平金字塔分割、全局均值、最大池化以及像素值點積的特征融合四部分。第一步引入可變形卷積操作不僅在一定程度上突破了固定采樣、固定感受野的限制,將特征聚集在行人等非剛體的姿態(tài)變化上,還能融入更合理的上下文信息以及邊緣信息。其中標準卷積和可變形卷積的感受野示例如圖3 所示。第二步采用水平金字塔分割操作,目的在于將特征分為與人體上下半身空間相對應的水平局部特征。對于采用水平金字塔分割而不采用包括垂直分割等的其他分割方式,原因在于水平分割后的兩部分特征更能和人體的上下半身特征相對應。同時在文獻[19]中的實驗分析中,在保證實驗公平,只有分割方式一種變量的前提下,對采用不分割、垂直分割、水平金字塔分割三種方式進行對比,三種的平均精度分別為51.9%、59.6%和63.9%。第三步對由HPP(horizontal pyramid pooling)所得的局部特征和可表達顏色紋理以及形狀的行人全局特征進行全局均值池化和全局最大池化。這一步操作一方面可以對多種特征進行維度統(tǒng)一,便于后續(xù)對接固定數(shù)目的全連接層;另一方面可以進一步獲得具有輪廓性和顯著性特點的特征。最后一步將這多種特征進行像素值點積的特征融合操作,最終得到紋理特征增強模塊輸出的多路有效行人特征。紋理特征增強模塊不僅使網(wǎng)絡的關注點更聚焦在行人特征上,同時使模塊輸出特征兼具行人局部和全局特征的特點,在一定程度上解決了因遮擋、姿態(tài)變化等引起的識別率降低的問題。
圖3 兩種卷積的感受野示例Fig.3 Examples of two convolutional receptive fields
行人特征與屬性特征可互為補充,有效地利用行人屬性信息在一定程度上可以減弱視角、光照強度變化等的影響,進而提高行人再識別任務的精度。但如果將屬性特征與行人特征直接進行特征融合,雖然有包括像素值相加、像素值點積和通道相加等特征融合方式,但還是會由于屬性的異質性及兩者特征的差異性影響到融合特征的有效性,進而干擾行人再識別的精度。針對這一問題,本文提出了多任務加權損失函數(shù)。
多任務加權損失函數(shù)主要分為兩大部分:一部分為屬性識別損失;另一部分為行人再識別損失,其中行人再識別損失可根據(jù)特征的劃分再分為行人的全局特征損失、上半身和下半身特征損失三部分。對于屬性識別部分,選擇與一般基于屬性的行人識別方法不同,這里對每一個屬性都采用了Softmax 損失。假定數(shù)據(jù)集中共有類行人,每個行人有屬性種,其中每個屬性包含的類別數(shù)為K,∈{1,2,…,}。如屬性為行人性別,則類別數(shù)的值為2。那么行人屬性屬于其中第個類別的預測概率值可用式(2)來表示,其中∈{1,2,…,K}。屬性經(jīng)過Softmax 后回歸所得的交叉熵損失即為式(3)。最終的屬性識別損失函數(shù)見式(4)。
其中,z() 為全連接層輸出的屬性的第個值。{·}是示性函數(shù),{}=1,{}=0 。 y為該樣本的第個屬性的真實屬性類別。
對于行人再識別部分,按照劃分的行人特征分為全局特征、上半身和下半身特征。在訓練過程中對每一部分特征都會計算一個分類損失值,其中全局特征行人再識別的交叉熵損失函數(shù)如式(5)所示:
其中,∈{1,2,…,},p為該樣本屬于第類行人的概率預測值,計算方法與式(2)一致,為該樣本的真實行人類別。由上述公式最終可得多任務加權損失函數(shù)如式(6)所示:
其中,、分別代表行人的上半身和下半身特征損失,計算方法與式(5)一致。
上述1.2~1.4 節(jié)分別從為獲得更有判別力屬性特征的基于空間注意力的屬性識別網(wǎng)絡部分,可有效提取行人全局及局部特征的行人再識別網(wǎng)絡部分以及能充分發(fā)揮行人特征與屬性特征的多任務損失函數(shù)三方面進行了分析。通過三部分的優(yōu)化設計,聯(lián)合使用,在充分增強行人特征的基礎上,不斷挖掘屬性特征之間的相關性,再利用多任務損失函數(shù)將兩個網(wǎng)絡同時訓練,使行人特征融合與之契合的屬性特征,增強算法整體的魯棒性。
為了驗證方法的有效性,分別采用Market-1501和DukeMTMC-reID 數(shù)據(jù)集進行訓練。為了使模型具有更好的魯棒性和泛化性能,在訓練的過程中采用了隨機水平翻轉、裁剪等數(shù)據(jù)增強操作。訓練過程中圖像大小統(tǒng)一為384×128,損失函數(shù)使用交叉熵損失,批處理數(shù)量設置為64,訓練批次設置為60,學習率初始值設置為0.01,優(yōu)化過程采用隨機梯度下降算法,其中動量設置為0.9。
為了驗證本文算法的有效性,本文在Market-1501 和DukeMTMC-reID 兩大主流的行人再識別數(shù)據(jù)集上進行多組實驗分析。其中本文表中的評價指標Rank-1 和mAP(mean average precision)的具體含義分別如下:Rank-表示對行人圖像特征按照相似度大小進行排序后,在排序結果中前張圖像與查詢圖像具有相同行人ID 的準確率。Rank-1 則表示為計算在排序后的測試集中前1 張圖像中能找到與查詢圖片相同標簽的圖像的準確率。mAP 是將多分類任務中的平均精度(average precision,AP)求和再取平均,其中AP 的計算為查準率(precision)和查全率(recall)構成的P-R 曲線圖曲線下方的面積。
首先為了驗證空間注意力模塊對于屬性識別網(wǎng)絡的有效性,通過對比移除空間注意力模塊前后,模型在DukeMTMC-attribute 數(shù)據(jù)集上的效果,來得出其對于屬性識別網(wǎng)絡的貢獻。具體評測結果見表1所示。
表1 中,L.up、B.pack、H.bag、C.shoes、C.up、C.low分別代表袖子長度、背包、手提包、鞋子顏色、上半身衣服顏色、下半身衣服顏色。從表1 中可以看出,在包含空間注意力模塊之后,行人屬性的mAP 提高了7個百分點左右。而針對單個屬性而言,除了Bag 屬性有稍微的降低之外,其他的9 種屬性均有不同程度的提升。
表1 空間注意力模塊對屬性識別的有效性驗證Table 1 Validity verification of spatial attention module for attribute recognition %
其次為了驗證多任務加權損失函數(shù)中權重系數(shù)對于算法性能的影響,本文對不同的值進行了多組實驗,具體實驗結果見表2 所示。
從表2 可以看出,對于Market-1501 數(shù)據(jù)集,當=4 時取得的效果最好,而在DukeMTMC 數(shù)據(jù)集上=2 時的效果最好,但是=4 的結果與=2 的結果相差只有0.1 個百分點。綜合考慮,本文最終選擇=4。
表2 不同λ 值在數(shù)據(jù)集上的結果Table 2 Results of different λ on datasets
為了進一步驗證文中提出的各個模塊的有效性,本文設計了4 組控制變量實驗來分析不同情況對行人再識別平均準確率的影響。4 組實驗分別為不包含空間注意力模塊的屬性識別網(wǎng)絡、不包含紋理特征增強模塊的行人再識別網(wǎng)絡、單任務屬性識別網(wǎng)絡和單任務行人再識別網(wǎng)絡。其中第三組和第四組單任務識別網(wǎng)絡中都分別包含了空間注意力和紋理特征增強模塊。為了保證實驗的公平性,4 組實驗的訓練過程都采用了隨機水平翻轉、裁剪等相同的數(shù)據(jù)增強操作。其中具體的評測結果見表3 所示。
在實驗1 中,本文將屬性識別中的空間注意力模塊去掉,將輸入特征圖直接進行屬性識別。從表3 中可以看到,缺少空間注意力模塊的mAP 值相對完整網(wǎng)絡在兩個數(shù)據(jù)集上相差2 個百分點左右。在實驗2中,本文將紋理特征增強模塊去掉,主要去掉其中可變性卷積操作、全局最大池化、全局均值池化以及像素值點積的特征融合方法,但仍然進行水平金字塔分割等操作,只對得到特征圖進行普通池化,使得特征圖可輸入相對應的全連接層。從表3 中可以看到,缺少紋理特征模塊的mAP值相對完整網(wǎng)絡在Market-1501 和DukeMTMC-reID 數(shù)據(jù)集分別相差約3 個百分點和4 個百分點。
為了進一步驗證本文算法的有效性,本文繼續(xù)設計了實驗3 和實驗4。在實驗3 中,只利用單任務屬性識別網(wǎng)絡進行行人再識別任務。通過表3 中結果可以看出,只使用單任務屬性識別網(wǎng)絡在行人再識別任務中表現(xiàn)相對較差。在實驗4 中,只使用單任務行人再識別網(wǎng)絡進行行人再識別任務,通過表3 中結果看出,只利用了行人特征而不結合與之互為補充的屬性信息,在最終的識別精度上相較完整網(wǎng)絡在兩個數(shù)據(jù)集上相差4~5 個百分點。通過4 組對比實驗的結果及分析,可以得出缺少行人再識別網(wǎng)絡對算法精度影響最大,缺少屬性識別網(wǎng)絡中的空間注意模塊影響最小。同時可以看出本文所設計的3個子模塊缺少其中任意一個都會影響算法的性能,只有聯(lián)合使用,構成完整算法時,效果最佳。綜上所述,本文提出的基于空間注意力的屬性識別網(wǎng)絡、紋理特征增強的行人再識別網(wǎng)絡及多任務加權損失函數(shù)對行人再識別任務的識別精度是有明顯提升的。
表3 Market-1501 和DukeMTMC-reID評測集結果對比Table 3 Results comparison of Market-1501 and DukeMTMC-reID evaluation sets
為了進一步驗證本文算法的性能,本節(jié)在Market-1501 和DukeMTMC-reID 兩大主流的行人再識別數(shù)據(jù)集上采用官方的評測程序,將本文的基于空間注意力和紋理特征增強的多任務行人再識別算法與多種目前流行的方法進行對比。在比較過程中為了保證實驗公平性,選取的比較方法在訓練過程中同樣采用了隨機水平翻轉、裁剪等數(shù)據(jù)增強操作。同時為了充分體現(xiàn)本文算法的魯棒性,本節(jié)將對比實驗分為兩組,分別為單任務行人再識別算法和多任務行人再識別算法。具體實驗結果如表4 所示。
從表4中可以看出,在Market-1501和DukeMTMCreID 兩個數(shù)據(jù)集上的對比評測結果里,本文算法優(yōu)于其他單任務行人再識別算法。而在與其他多任務行人再識別算法的比較中,本文算法雖然在DukeMTMC-reID 數(shù)據(jù)集上稍弱于最好的CA3Net,但是在Market-1501 數(shù)據(jù)集上卻比JCM 和CA3Net 表現(xiàn)得更為優(yōu)異。其中JCM 的基礎網(wǎng)絡采用的是Resnet50 加Desnet101,而本文設計的行人再識別網(wǎng)絡模型僅采用Resnet50,在模型大小上要比JCM 模型小很多。而CA3Net在網(wǎng)絡中添加LSTM(long short-term memory)等模塊,在速度上并不占優(yōu)。CA3Net 需要在兩塊TitanXP 顯卡進行70 個循環(huán)次數(shù)(epochs)才能達到表中所示精度,而本文方法只需要在一塊1080 顯卡上迭代60 個epochs 便可以達到目前的精度。這也從另一方面證明了本文所提出的基于空間注意力和紋理特征增強的多任務行人再識別算法的魯棒性。
表4 與現(xiàn)有方法在Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上的結果對比Table 4 Comparison with existing methods on Market-1501 and DukeMTMC-reID datasets
本文提出的基于空間注意力和紋理特征增強的多任務行人再識別算法,通過基于空間注意力模塊的屬性識別網(wǎng)絡使網(wǎng)絡實現(xiàn)了屬性特征的挖掘,抑制了無關背景區(qū)域。通過融入行人再識別網(wǎng)絡的紋理特征增強模塊將特征聚集在行人等非剛體的姿態(tài)變化上,同時使特征兼具行人局部和全局特征的特點。最后通過多任務加權損失函數(shù)將屬性特征和行人特征有效融合,提高了行人再識別的識別精度,同時使得模型具有了更好的泛化性能。