董亞超,劉宏哲,徐 成
(北京聯(lián)合大學北京市信息服務工程重點實驗室,北京 100101)
行人重識別指在不同的攝像頭視角中匹配同一個目標人物的過程,在交通、公共安防和視頻監(jiān)控等領域發(fā)揮著重要作用。行人重識別的難點在于不同的攝像頭產生的視角和光照不同,且遮擋和背景復雜等不利因素導致行人的姿態(tài)和外觀存在巨大的差異,這些均會對行人重識別的準確性產生影響。
通過深度學習方法解決行人重識別問題的大致過程是先使用卷積神經網絡(Convolutional Neural Network,CNN)提取每張圖片的特征,然后對所查詢行人圖片特征和底庫中的圖片特征逐一進行距離相似性度量,根據距離遠近排序出前K張與所查詢行人最為相似的圖片。目前,行人重識別方法主要分為基于表征學習、基于度量、基于局部特征學習和基于生成對抗網絡(Generative Adversarial Networks,GAN)造圖的四類方法[1]。
在基于表征學習的行人重識別方法中,文獻[2]用Classification Loss 和Verification Loss 來訓練網絡,通過分類網絡進行ID 預測,驗證網絡從而判斷2 張圖片是否屬于同一個行人??紤]到僅靠行人ID信息學習得到的網絡表達能力有限,文獻[3]對行人圖片進行屬性標注,結合預測ID 信息和屬性信息完成判定。文獻[4]利用RGB 信息和灰度信息融合提取特征,以降低行人圖像顏色相近所帶來的干擾。
基于度量的學習方法在對2 張圖片進行相似性度量時,使得2 張圖片更加容易匹配或者區(qū)分開。常用的度量學習損失方法包括對比損失[5]、三元組損失[6]和四元組損失[7]等。文獻[8]提出的Cricle Loss 中每個相似性得分以不同的步調進行學習,使得收斂目標更加明確。
為提高行人重識別方法的跨域能力、泛化能力以及克服姿態(tài)多變性問題,文獻[9]使用GAN 生成8 個姿勢的圖像樣本,用以代表所有攝像頭視角下的行人姿勢。文獻[10]通過GAN 生成換衣數據,以更換行人衣服的顏色。
為提取更加細節(jié)的局部特征信息,文獻[11]提出了分塊卷積(PCB),其將特征在垂直方向上均勻切分為6 塊并分別預測ID,通過這種方法可以提取更具魯棒性的特征,但是其分塊完后會出現(xiàn)圖像不對齊的情況。文獻[12]利用提取的人體關鍵點將圖片分為頭部、上身和下身3 個部分并分別進行特征提取。文獻[13]先利用姿態(tài)估計模型估計行人關鍵點,然后通過仿射變換使得相同的關鍵點對齊。文獻[14]提出多任務金字塔重疊匹配方法,以提取魯棒性的局部特征。文獻[15]提出多粒度網絡,其將特征分成3 個分支,使用多個分類損失和三元組損失聯(lián)合學習,最后整合所有特征。
上述切塊模型存在如下問題:被切塊的每個局部特征塊享有相同的權重,導致模型不能聚焦到具有分辨力的特征塊上,如帽子、背包這些具有分辨力的特征塊不能被有效地凸顯;在特征切塊后,塊與塊之間的聯(lián)系被破壞,容易丟失全局特征信息。
本文提出一種基于顯著性多尺度特征協(xié)作融合的行人重識別方法SMC-ReID。在特征切塊前,利用顯著性檢測提取行人圖片的顯著特征圖,將其與全局特征進行融合,以對切塊后的特征賦予不同的權重,增強具有區(qū)分力屬性特征的特征塊,抑制干擾網絡從而判斷背景特征塊的權重。為挖掘多層次的局部特征,對特征進行多尺度切塊,與傳統(tǒng)切塊方法不同,在切塊后本文對每一部分的相鄰塊間再次進行協(xié)作融合,以保持塊與塊之間的聯(lián)系和連續(xù)性。根據局部特征塊和全局特征塊的差異,本文采用3 種損失函數聯(lián)合學習,以使全局和局部特征更加融合。最后在Market1501[16]、DukeMTMC-reID[17]和CUHK03[18]3 個公共數據集 上進行實驗,以驗證SMC-ReID 方法的行人重識別效果。
行人重識別中的一些特殊情況如圖1 所示。由于存在背景復雜(圖1(a)、圖1(b)和圖1(c))、姿態(tài)各異(圖1(c))等問題,導致難以提取有效的特征。另外,行人圖片中一些額外的輔助信息,如圖1(b)、圖1(d)和圖1(e)中的背包、雨傘等特征,也可作為匹配2 個行人的有利因素。
圖1 行人重識別中的一些特殊情況Fig.1 Some special cases in person re-identification
顯著性目標檢測通過人類視角檢測出圖片中具有區(qū)分力的醒目區(qū)域,目前,顯著性檢測已被應用于多種視覺任務中。本文使用顯著性檢測提取圖片中具有區(qū)分力的顯著性區(qū)域,抑制復雜的背景信息。
文獻[19]將顯著性目標檢測應用于行人重識別領域,利用行人圖像之間成對顯著性區(qū)域的分布關系進行計算與匹配。文獻[20]提出一種基于混合高階注意力模型的方法,其對圖像或特征圖不同部分的共同作用機制進行注意力建模。與上述方法不同,本文不使用任何基于顯著性區(qū)域匹配的方法,而是提取更深層的特征以編碼行人特征。本文首先根據輸入圖像計算出顯著性目標區(qū)域圖,然后使用該特征圖對中間層的CNN 網絡參數權重進行加權。此外,本文的訓練流程不包括顯著性檢測部分。
由于在真實場景中采集的行人圖片有嚴重遮擋、模糊甚至圖像缺失的現(xiàn)象,使得全局特征或者單一局部特征難以完全體現(xiàn)出圖片中的重要信息。文獻[11-15]均基于特征切塊進行行人重識別,但是特征切塊容易造成特征塊的不連續(xù)性,導致特征信息間斷,從而對網絡模型判斷造成干擾。此外,在實際中需要根據特征切塊尺度的不同使用相應的損失函數,促使各個損失函數學習進行相互作用。為此,本文將特征進行多尺度切塊,切塊后實現(xiàn)協(xié)作式融和,一方面提取一些被遮擋或忽略的特征,另一方面避免特征塊的不連續(xù)問題。
如圖2 所示,SMC-ReID 整體網絡框架由顯著性檢測、骨干網絡、降維層、全連接層(FC)和多損失函數構成,圖中Reduce Dimension Operation 表示降維層,D表示特征向量的維數,特征提取骨干網絡采用ResNet50,使用ImageNet 作為預訓練模型。
圖2 SMC-ReID 網絡結構Fig.2 SMC-ReID network structure
本文對ResNet50 網絡進行如下改進:1)移除ResNet50 中l(wèi)ayer 4 后面的平均池化層和全連接層,改成相應的不同分支的最大池化層和適應不同尺度特征的全連接層;2)在ResNet50 中l(wèi)ayer3 的后面增加提煉層(Refined Layer),其不與layer4 連接,該層由ResNet 殘差結構中的Bottleneck 構成,一方面可以得到更大的特征圖,另一方面能夠統(tǒng)一特征維度,與Saliency Map 進行更好地融合;3)在更改后的全連接層前面增加降維層,其由卷積核為2×1 的二維卷積、批歸一化處理和ReLU 激活函數構成,目的是將不同尺度的特征塊降低到同一維度(512),既減少參數量的計算,又可以緩解網絡的過擬合問題。
為了更清晰地展示圖像在輸入、特征提取、特征融合、特征切塊等操作中特征向量維度的變化,表1給出不同階段特征向量的變化過程。
表1 不同階段的特征向量維度尺寸Table 1 Dimension sizes of feature vectors at different stages
如圖1、表1 所示,將圖片輸入到CNN Backbone中,得到Global Feat 的維度為2 048×12×4,與此同時,將經過Refined Layer 的特征與經過顯著性檢測得到的Saliency Map 進行融合,得到SG-Feat,維度為2 048×1×1,然后將Global Feat 經過最 大池化(Max Pooling)得到維度為2 048×1×1 的特征,將其與SG-Feat 沿通道方向進行拼接融合得到Combo Feat,維度為4 096×1×1。Cut 操作中先將Combo Feat 進行上采樣,得到特 征維度 為4 096×3×1 和4 096×4×1,對其進行不同尺度的切塊,切塊后得到A1-A3 和B1-B4,將其進行協(xié)作式融合,即A1 和A2協(xié)作融合得到A12,A2 和A3 協(xié)作融合得到A23,B1和B2 協(xié)作融合得到B12,B2 和B3 協(xié)作融合得到B23,B3 和B4 協(xié)作融合得到B34。在對上述進行降維處理后,得到共計8 個維度為512 的特征向量,均進行ID loss 和Label Smooth 分類學習,其中,將3 個Global Feat(G1、G2 和G3)再次使 用Triplet Loss 和Center Loss 進行聯(lián)合學習,從而拉近正樣本間的距離并增大負樣本間的距離。
行人重識別中由于背景復雜,全局特征不足以成為判斷2 個人是否為同一個人的依據,一方面因為全局特征沒有有效地將具有區(qū)分力的局部特征塊凸顯出來,另外一方面由于現(xiàn)有多數特征切塊方法將每個特征塊視為同一權重,導致如背包、帽子等重要的判斷依據被忽視。如圖3 所示,由于行人臉部不清晰,因此背包可作為重要的判斷依據,現(xiàn)有的一些特征分塊方法賦予每個塊相同的權重,經過顯著性特征圖后可以自適應地賦予1、2、3 特征塊更大的權重,尤其是背包所在的第3 塊特征圖。
圖3 顯著性特征圖中的特征塊權重Fig.3 Feature blocks weight in saliency feature graph
目前,顯著性檢測算法日趨成熟,本文使用在行人重識別數據集中表現(xiàn)良好的F3Net 網絡[21]??紤]到行人重識別數據集中圖片像素較低導致識別效果不明顯的問題,本文對圖片進行預處理,采用雙線性插值法對其進行上采樣以適應行人重識別數據集。此外,本文不將顯著性特征圖直接輸入到網絡中,而是將其進行灰度二值化,然后歸一化并以特征向量的形式存儲,最后將這些特征計算圖與ResNet50 中間層layer3 進行向量矩陣相乘融合,使得不會有太多抽象信息同時也自適應地對原始特征圖進行加權。
設一張圖片經過layer3 計算后的特征圖為τ?Rh×w×c,一張顯著性計算圖為ω?Rh'×w',為了使兩者進行融合,對τ上采樣將其轉換為ω′?Rh'×w'×c,然后通過特征向量矩陣相乘的方法使兩者逐個元素融合。圖4所示為顯著性檢測后的可視化圖,可以看出,復雜的背景信息被抑制,具有區(qū)分力的信息被凸顯。
圖4 顯著性檢測的可視化效果Fig.4 Visualization effect of saliency detection
局部特征可以捕獲到邊緣細節(jié)信息,常用的局部特征提取方法包括基于圖像切塊、基于語義分割、基于姿態(tài)關鍵點等方法,其中,圖像切塊是有效且最常用的一種方法,但是,單一粒度的特征切塊容易丟失結構信息。受文獻[15]啟發(fā),本文采用多分支策略提取多尺度的局部特征。但與文獻[15]不同,本文在特征切塊前融合顯著性特征圖,使得每個特征塊的權重不同,此外,為解決特征分塊后丟失上下文信息的問題,本文在特征分塊后再進行協(xié)作式融合,以加強特征塊之間的連續(xù)性。如圖2 所示,Global Feat、Combo Feat 以及Combo Feat 經 過Cut 操作后 的2 個特征分支尺度均不同,特征分塊后將A1 和A2 進行通道連接得到A12,保留了A1 與A2 之間的連續(xù)性,其他特征塊同樣如此。
多尺度特征融合的重點在于損失函數,需要根據不同尺度的特征應用合適的損失函數。為此,本文聯(lián)合多種損失函數并將其應用到多尺度特征塊上進行數據集訓練與網絡模型優(yōu)化。常用的行人重識別損失函數包括交叉熵損失(Cross-entropy loss)和Triplet loss 等。在Cross-entropy loss 中,本文以行人的ID 作為分類的類別。Cross-entropy loss 的作用是增大類間間距,其定義如式(1)所示:
其中,K為類別數目,即ID 數目,y為真值標簽,pi為模型預測類別為i的概率值。
由于測試集中出現(xiàn)的ID 并未出現(xiàn)在訓練集中,因此行人重識別是一項one-shot learning。如果訓練好的分類網絡對所有新加入的ID 都粗略地以0 或1 進行判斷,則容易造成過擬合問題。因此,本文加入標簽平滑(label smooth),其將式(1)中的qi改為:
其中,δ為設定的一個常數,本文將其設置為0.1,防止訓練的模型過于相信訓練集。本文采用ID loss,結合式(1)和式(2)得到式(3):
Triplet loss 的作用是不僅增大類間距離,而且拉近類內距離,因為Triplet loss 不能像ID loss 那樣能達到全局最優(yōu)約束,甚至使得類間距離小于類內距離,因此本文將ID loss 與Triplet loss 相結合以訓練模型,從而使得模型學習到更具辨別力的特征。Triplet loss 定義如式(4)所示:
其中,B是最小批次圖片數量,fj表示第j張圖片的特征向量,yj是第j個圖像的標簽,為深度特征的第yj個類中心,其能有效描述類內變化,提高類內緊湊性。
根據不同尺度特征塊的特性,本文應用不同的損失函數。對于全局特征塊G1~G3,本文利用Triplet loss 和Center loss 對其進行優(yōu)化學習,原因是全局特征塊更能拉近類間距離,另外局部特征塊不適用于Triplet loss,甚至會影響模型性能。對于所有局部特征塊和全局特征塊,本文使用ID loss,這樣整個網絡模型的損失函數如式(6)所示:
其中,Gi表示全局特征塊,fi表示除3 個全局特征塊外 的8 個 局 部特征 快,λ是Triplet loss 的系數,ε是 為了平衡Center loss 的權重,設為0.000 5。
3.1.1 行人重識別數據集
為驗證SMC-ReID 方法的有效性,本文在Market1501、DukeMTMC-reID 和CUHK03 3 個公開且常用的數據集上進行測試,3 個數據集的具體信息如表2 所示。
表2 Market1501、DukeMTMC-reID 和CUHK03 數據集的具體信息Table 2 Specific information of the Market1501,DukMTMC-reID and CUHK03 datasets
Market1501 是由5 個高清攝像頭和1 個低清攝像頭拍攝到的不同的1 501 個行人,共有32 668 個行人矩形框,訓練集共有12 936 張圖像,包含751 個行人ID,平均每個人有17.2 張訓練數據,測試集有19 732 張圖像,包含750 個行人ID,平均每個人有26.3 張測試數據,查詢集共有3 368 張圖像。
DukeMTMC-reID 共有36 411 張行人圖像框,包含1 404 個行人ID,訓練集包含702 個行人ID,圖像數為16 522,測試集包含702 個行人身份,圖像數為17 661,查詢集包含的圖像數為2 228。
CUHK03 數據集由2 個部分組成,一是手工標記的CUHK03-labeled,二是由DPM 算法檢測到的CUHK03-detected,共由6 個攝像頭拍攝而成。行人ID 數為1 467,包含14 097/14 096 個行人檢測框,訓練集總數為7 365/7 368,行人ID 數為767,測試集總數為5 332/5 328,行人ID 數為700,查詢集包含1 400 張圖像。CUHK03 的測試協(xié)議有新舊2 種,本文采用新的測試協(xié)議。
3.1.2 行人重識別評估指標
首位命中率(Rank-1)、平均準確率均值(mean Average Precision,mAP)和累積匹配特征曲線(Cumulative Matching Curve,CMC)是行人重識別任務中常用的評估標準,其中,CMC 常以Rank-k命中率的形式體現(xiàn),表示在底庫圖像集合中與所查詢圖像匹配相似度最高的前k張圖片命中查詢圖像的概率。mAP 的定義如式(7)所示:
其中,Q代表查詢集的數量,AP 定義為:
其中,k為預測圖片的排名,如果預測排名為k的圖片與查詢圖片是同一ID,則rel(k)為1;否則,rel(k)為0。p(k)定義為:
CMC 可視為Rank list 的可視化,定義為:
其中,r代表Rank-k,m(r)是指在前r個排名中包含所查詢圖片的數目。
本文實驗環(huán)境如下:操作系統(tǒng)為Ubuntu 16.04,深度學習框架為Pytorch 1.1.0,編程語言版本為Python 3.6,硬件基礎為TITAN Xp GPU。
本文實驗的骨干網絡用ResNet50,并在ImageNet上預訓練以初始化網絡權重。為了得到更多的行人信息,本文將輸入圖片重新調整至384×128 大小,而顯著性特征圖的大小都重新調整至128×64。對圖片數據的預處理操作包括隨機翻轉和像素歸一化等。為應用三元組損失,每個訓練批次選取8 個行人身份,并從訓練集中隨機為每個身份選取4 張圖片,即訓練批次大小為32。三元組損失函數邊緣參數設置為1.2,中心損失權重值設為0.000 5。使用自適應梯度優(yōu)化器(Adam)對網絡模型進行優(yōu)化,動量為0.9,權重衰減系數為0.000 5,初始學習率為0.000 2,在訓練周期為320 和380 時對學習率進行指數衰減,衰減系數為0.1,訓練總批次為400。測試階段,將經過FC 層后的8 個特征向量進行通道連接組合,形成4 096 維向量并進行相似度匹配。
為驗證SMC-ReID 方法中多尺度特征協(xié)作式融合的有效性,本文在Market1501 數據集和DukeMTMC-reID 數據集上分別進行對比實驗。將基于單一尺度特征切塊的PCB 模型、增加了多尺度特征切塊方法的M-ReID 模型、在M-ReID 上使用協(xié)作式融合得到的MC-ReID 模型、在SM-ReID 上使用協(xié)作式融合得到的SMC-ReID 模型進行對比,實驗結果如圖5 和圖6 所示。
圖5 不同模型在Market1501 數據集上的性能對比結果Fig.5 Performance comparison results of different models on Market1501 dataset
圖6 不同模型在DukeMTMC-reID 數據集上的性能對比結果Fig.6 Performance comparison results of different models on DukeMTMC-reID dataset
從圖5 和圖6 可以看出:
1)在Market1501 數據集上,相較于PCB,MReID 的Rank-1 和mAP 精度分別提高1.8 和14 個百分點,在DukeMTMC-reID 數據集上,分別提高3.1 和14 個百分點,證明了多尺度特征切塊比單一尺度特征切塊更加有效。
2)在Market1501 數據集上,相對于M-ReID,MC-ReID 的Rank-1 和mAP 精度分別提高0.4 和0.5 個百分點,即使在模型已經基本收斂的情況下,多尺度特征協(xié)作融合也可有效提高行人重識別的精度。在DukeMTMC-reID 數據集上,相對于M-ReID,MC-ReID 的Rank 1 和mAP 精度分別提高0.9 和1.4 個百分點,相對于Market1501 數據集增幅較高,原因是相比Market1501 數據集,DukeMTMC-reID 數據集的像素更高,多尺度協(xié)作融合方法更能提高特征塊之間的連續(xù)性。
3)在DukeMTMC-reID 數據集上,在SM-ReID的基礎上使用協(xié)作融和的方法后,Rank-1 和mAP 分別提高1.5 和3.3 個百分點,相比在M-ReID 上使用協(xié)作融合方法的精度增幅高一點,說明特征協(xié)作融合方法和顯著性特征圖相結合更能發(fā)揮作用,驗證了協(xié)作式特征融合能夠提升網絡模型的性能,因為單一尺度特征切塊的PCB 旨在解決由遮擋、姿態(tài)各異情況引起的特征信息提取不充分問題,而M-ReID 和MC-ReID 的精度優(yōu)于PCB,因此也進一步證明基于多尺度協(xié)作融合方法的M-ReID 和MC-ReID 網絡對于遮擋等情況具有有效性。
為驗證顯著性特征圖的有效性,本文在Market1501 數據集和DukeMTMC-reID 數據集上分別進行2 組實驗,第1 組在M-ReID 基礎上加入顯著性特征圖進行實驗,第2 組在MC-ReID 基礎上加入顯著性特征圖進行實驗,結果如圖5 和圖6 所示。從圖5 和圖6 可以看出,在第1 組實驗中,在Market1501數據集上,相比于M-ReID,SM-ReID 的Rank-1 和mAP 精度分別提高1.0 和1.4 個百分點,而在DukeMTMC-reID 數據集上,分別提高2.7 和3.7 個百分點。在另外一組實驗中,相比于MC-ReID,SMCReID 在Market1501 數據集上的Rank-1 和mAP 精 度分別提升0.8 和1.1 個百分點,在DukeMTMC-reID 數據集上分別提升3.3 和5.7 個百分點。上述結果一方面證明了增加顯著性特征圖的有效性,另外一方面可以看出第2 組實驗的增幅較第1 組實驗高一些,證明了加入顯著性特征圖和使用協(xié)作式多尺度特征融合的有效性,也進一步體現(xiàn)了在背景信息冗余復雜的情況下,加入顯著性特征圖對于精度提升的有效性。由于DukeMTMC-reID 數據集的像素較高,因此加入顯著性特征圖后精度提升更加明顯。
根據不同尺度特征的特性,本文使用多損失函數進行聯(lián)合學習。為證明多損失函數聯(lián)合學習的有效性,本文進行定量和定性分析。定量分析結果如表3 所示,從表3 可以看出,在單一的ID loss 上使用Triplet loss 后,mAP 和Rank-1 分別提高5.9 和4.2 個百分點,在此基礎上增加Center loss 后,mAP 和Rank-1 分別提高0.5 和0.2 個百分點,證明了使用多損失函數聯(lián)合學習對網絡模型的有效性。進一步將Triplet loss 的系數調整為2,mAP 和Rank-1 分別提高1.3 和0.4 個百分點,一方面是因為Triplet loss 能夠緩解類內間距大于類間間距的情況,從而使得類內更加緊密,另一方面是因為該系數平衡了多尺度特征塊中ID loss 和Triplet loss 在混合loss 中的占比。
表3 不同損失函數在Market1501數據集上的性能對比結果Table 3 Performance comparison results of different loss functions on Market1501 dataset %
圖7所示為使用ID loss后樣本分布的可視化效果,可以看出,類內距離很大,并未完全學習到同一ID 的共同特征。如圖8 所示,在加入Triplet loss 后類內距離減小,使得模型學習到更具魯棒性的特征。
圖7 使用ID loss 后的樣本分布可視化效果Fig.7 Visualization of samples distribution using ID loss
圖8 加入Triplet loss 后樣本分布變化的可視化效果Fig.8 Visualization of samples distribution change after adding Triple loss
表4 所示為不同方法在Market1501 數據集上的測試時間比較,測試集包含751 個人,共有19 732 張圖片,本次實驗在相同的硬件條件下進行。從表4可以看出,本文方法運行速度處于居中水平,但是準確率比其他方法高。在實際應用中,存儲行人數據集的底庫數量是慢慢增加的,所以只需考慮新增的行人圖像,本文方法的單張圖片匹配計算時間為0.029 s,滿足了一般算法對實時性的要求。
表4 不同方法在Market1501 數據集上的測試時間比較Table 4 Test time comparison of different methods on Market1501 dataset s
為驗證本文SMC-ReID 方法的有效性,在Market1501、DukeMTMC-reID 和CUHK03 3 個行人重識別數據集上進行實驗。其中,在Market1501 和DukeMTMC-reID 2 個數據 集上以mAP、Rank-1、Rank-5 和Rank-10 作為評估指標,在CUHK03 數據集上以mAP 和Rank-1 作為評估指標。對比方法包括Spindle[22]、SVDNet[23]、PDC[24]、PSE[25]、GLAD[12]、HA-C N N[26]、PCB[11]、PCB+RPP[11]、M ancs[27]、HPM[28]、MHN[20]和Pyramid[29]。對比結果如表5~表7 所示,其中,“—”表示原文獻沒有給出實驗結果。
表5 Market1501 數據集上不同方法的性能比較結果Table 5 Performance comparison results of different methods on Market1501 dataset %
表6 DukeMTMC-reID數據集上不同方法的性能比較結果Table 6 Performance comparison results of different methods on DukeMTMC-reID dataset %
表7 CUHK03 數據集上不同方法的性能比較結果Table 7 Performance comparison results of different methods on CUHK03 dataset %
從表5 可以看出,在Market1501 數據集上,本文SMC-ReID 方法的mAP 精度達到93.0%,Rank-1 準確率達到95.3%,相較PCB+RPP 分別提高11.4 和1.5 個百分點,證明了顯著性特征圖和多尺度特征協(xié)作融合方法的有效性。
從表6 可以看出,在DukeMTMC-reID 數據集上,SMC-ReID 的mAP 精度達到88.4%,Rank-1 命中率達到90.6%,相較先進的Pyramid 分別提高9.4 和1.6 個百分點。通過對比可以看出,SMC-ReID 在DukeMTMC-reID 數據集上的性能提升幅度高于Market1501 數據集,原因是圖片像素清晰時顯著性特征圖起到的作用更加明顯。
從表7 可以看出,SMC-ReID 在CUHK03-labeled和CUHK03-detected 上分別取得了84.0%、82.4%的mAP 精度和81.8%、80.5%的Rank-1 命中率,優(yōu)于多數方法,進一步證明了SMC-ReID 方法的有效性。
為更加直觀地顯示SMC-ReID 在復雜情景下的重識別效果,本文在Market-1501、DukeMTMC-reID和CUHK03 3 個數據集上展示部分查詢結果的可視化效果,分別如圖9~圖12 所示,其中,虛線框為錯誤預測結果。
圖9 SMC-ReID 方法在特殊情況下的部分查詢結果可視化對比Fig.9 Visual comparison of some query results of SMC-ReID method in special cases
圖10 SMC-ReID 在Market1501 數據集上的部分查詢結果可視化對比Fig.10 Visual comparison of some query results of SMC-ReID on Market1501 dataset
圖11 SMC-ReID 在DukeMTMC-reID 數據集上的部分查詢結果可視化對比Fig.11 Visual comparison of some query results of SMC-ReID on DukeMTMC-reID dataset
圖12 SMC-ReID 在CUHK03 數據集上的部分查詢結果可視化對比Fig.12 Visual comparison of some query results of SMC-ReID on CUHK03 dataset
從圖9(a)的匹配結果可以看出,對于同一個人在圖片中的不同尺度,SMC-ReID 相較PCB 方法匹配準確率較高,此外,PCB 方法排名前6 的正確結果均為相同尺度的圖像,而本文方法將尺度變化較大的圖像排在更前的位置,證明了多尺度特征協(xié)作融合方法的優(yōu)越性。從圖9(b)的匹配結果可以看出,PCB 方法匹配錯誤的直觀原因是背景混雜對匹配結果造成了干擾,甚至難以區(qū)分行人的輪廓,而SMCReID 方法能正確地匹配出同一行人的圖像,證明了本文方法能有效減少背景冗余信息所帶來的影響。從圖9(c)的匹配結果可以看出,由于給出的查詢圖片被車輛、行人嚴重遮擋,導致PCB 方法難以提取魯棒性的特征,使得其匹配正確率降低,而SMC-ReID能通過提取更細節(jié)的局部特征,從而正確地匹配出同一個人。在PCB 和本文方法都只有一個圖片未成功匹配的情況下,本文方法出錯位置排在Rank-9,而PCB 排在Rank-6。以上結果說明SMC-ReID 在多數復雜情景下均有較好的識別性能。
從圖11可以看出,在姿態(tài)變化、行人相互遮擋、背景復雜的情況下,SMC-ReID 仍能準確匹配到多數正確結果,在第2組查詢結果中,Rank-7由于該圖片的行人ID為后面幾乎完全被遮擋的人,而被遮擋的行人圖片信息較少,導致匹配錯誤。圖12中給出行人背面,SMC-ReID也能準確匹配到佩戴口罩的同一行人的ID 身份。
本文提出一種基于顯著性多尺度特征協(xié)作融合的行人重識別方法,通過顯著性檢測得到圖片中具有區(qū)分力的特征圖,對多尺度特征分塊后的權重進行分配,以協(xié)作融合的方法解決特征塊不連續(xù)的問題,從而提取更具顯著性和魯棒性的特征。實驗結果表明,該方法能獲得較高的mAP 精度和Rank-1值,可有效提升行人重識別性能。下一步考慮將顯著性特征圖與原始特征圖進行融合,以充分發(fā)揮顯著性特征圖的作用。