張紅穎,王徐泳,彭曉雯
中國民航大學(xué)電子信息與自動化學(xué)院,天津 300300
行人重識別(person re-identification,ReID)是利用計算機(jī)視覺技術(shù)判斷圖像或視頻序列中是否存在特定行人的跨鏡頭識別技術(shù),對嫌疑人追蹤和失蹤人員檢索等有重大意義(Deng 等,2021;Liu 等,2022)。基于深度學(xué)習(xí)的行人重識別方法能夠獲取更具判別性的特征,成為行人重識別領(lǐng)域的主要研究方法(沈慶 等,2020;李擎 等,2022)。但由于背景變化、局部遮擋和光照變化等問題,如何從行人圖像中學(xué)習(xí)更有效的特征從而實現(xiàn)高精度的行人重識別仍然是一個挑戰(zhàn)(鄭鑫 等,2020)。
在早期,大多數(shù)方法將整個行人圖像作為ReID模型的輸入,將圖像中的每一個像素特征都作為識別的依據(jù)。然而,在最近的研究中,Tian等人(2018)發(fā)現(xiàn),如果行人圖像中的背景發(fā)生變化,ReID 模型將會出現(xiàn)過擬合、可遷移能力下降等問題。Huang等人(2019)通過對訓(xùn)練和測試數(shù)據(jù)的處理發(fā)現(xiàn),如果訓(xùn)練和測試數(shù)據(jù)的背景差異很大,ReID 方法的魯棒性會受到極大影響,在實際應(yīng)用時性能會出現(xiàn)明顯下降。劉志剛等人(2022)指出行人圖像中前景和背景之前存在隱含關(guān)系,當(dāng)同一行人的背景變化較大時,ReID 模型可能會出現(xiàn)誤識別的現(xiàn)象。由此可見,行人圖像中背景變化產(chǎn)生的差異會對ReID 的識別結(jié)果產(chǎn)生影響。
為了解決背景變化導(dǎo)致的誤識別問題,一些方法將前景分割技術(shù)與ReID 結(jié)合,利用前景分割提取行人圖像中的前景部分。龔毓秀(2020)將提取的前景圖像與原始圖像拼接的結(jié)果作為ReID 網(wǎng)絡(luò)的輸入,提高了識別的準(zhǔn)確性。Gong 等人(2021)通過前景分割方法,直接刪除行人圖像中的背景部分,建立了一個新的數(shù)據(jù)集。但是,直接使用前景分割方法刪除背景會存在以下缺點:1)利用身體掩膜進(jìn)行處理可能會破壞原始圖像的結(jié)構(gòu)化信息和平滑度;2)前景圖像可能會丟失身體的某些部位,從而丟失部分細(xì)節(jié)信息;3)雖然身體掩膜可用于濾除背景干擾,但可能會丟失一些能夠作為判別信息的背景線索。所以,為了緩解直接刪除背景導(dǎo)致的信息丟失,本文在現(xiàn)有前景分割的方法中,加入了注意力機(jī)制和多損失融合的思想,通過注意力機(jī)制和損失函數(shù)的雙重作用約束前景分割模塊,在提取前景部分的同時,保持原始圖像的結(jié)構(gòu)信息和平滑度。
此外,除了通過前景分割方法提取前景,還有一些方法通過提取不同特性的特征緩解背景變化導(dǎo)致的誤識別問題。李艷鳳等人(2020)在使用監(jiān)督網(wǎng)絡(luò)提取有用的前景特征的同時,構(gòu)建了一個多池融合網(wǎng)絡(luò)來描述全局特征與局部特征,并實現(xiàn)多個細(xì)粒度的特征表達(dá)。宋曉茹等人(2022)通過對不用尺度的特征進(jìn)行融合,在保留高維特征中的語義信息的同時,結(jié)合了低維特征中更多的位置與細(xì)節(jié)信息。Gong 等人(2021)在直接刪除背景的基礎(chǔ)上,利用聯(lián)合對齊信息驅(qū)動網(wǎng)絡(luò)從原始圖像中學(xué)習(xí)對齊特征,加強局部和全局特征的結(jié)合。種衍文等人(2022)在實現(xiàn)圖像對齊的基礎(chǔ)上,進(jìn)行多粒度特征的融合,避免小粒度信息的丟失。以上方法通過特征融合,提取了更具鑒別性的行人特征,取得了較好的識別效果,但存在以下缺陷:1)很多方法直接將高維特征進(jìn)行反卷積的結(jié)果作為低維特征并進(jìn)行融合,會忽視反卷積過程中出現(xiàn)的特征信息變化問題;2)通過不同分支分別提取全局特征與局部特征,導(dǎo)致局部特征在提取過程中會因為圖像分塊出現(xiàn)特征丟失,而且不同分支的特征提取能力存在差別,直接將兩種特征融合將會影響特征融合的有效性;3)大多數(shù)方法沒有同時關(guān)注多尺度特征和多粒度特征,丟失了部分具有鑒別性的信息。針對這些問題,本文首先在多粒度特征提取中,提出了一種注意力共享策略,通過全局特征引導(dǎo)局部特征的提取,提高局部特征的有效性,使其能更好地與全局特征融合。其次,在多尺度特征提取中,將特征提取過程各個階段的結(jié)果作為多尺度特征融合的輸入,并提出了一種多尺度非局部運算方法進(jìn)行尺度融合,避免特征丟失。
綜上所述,本文將前景分割與行人重識別相結(jié)合,并通過特征融合獲取更具有判別力的特征,提高網(wǎng)絡(luò)的特征表示能力,從而緩解背景變化的影響。本文主要有以下貢獻(xiàn):1)通過對圖像中語義信息的分析,提出了一種基于注意力機(jī)制的前景分割模塊,并設(shè)計了一種前景分割損失函數(shù),優(yōu)化了前景分割模塊對前景的提取能力,同時保留部分有用的背景信息;2)在多尺度特征融合時,提出了一種多尺度非局部運算方法進(jìn)行尺度融合,緩解了由高維特征在反卷積過程中以及卷積下采樣操作中的特征丟失問題;3)在多粒度特征提取時,提出了一種基于注意力共享策略的多粒度特征引導(dǎo)方法,通過注意力機(jī)制引導(dǎo)局部特征的提取,不僅利用注意力機(jī)制聚焦網(wǎng)絡(luò)關(guān)注點的特性,提高特征的有效性,而且將全局與局部聯(lián)系起來,得到了對圖像中行人的判別性表達(dá)。
結(jié)合前景分割方法和特征融合對ReID 任務(wù)的有效性,本文提出了一種結(jié)合前景分割的多特征融合行人重識別方法(multi-feature fusion person re-identification method combined with foreground segmentation,MFSNet),網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,包括骨干網(wǎng)絡(luò)、前景分割模塊(foreground segmentation module,F(xiàn)SM)、多粒度特征引導(dǎo)分支(multi-granularity feature-guided branch,MFGB)和多尺度特征融合分支(multi-scale feature fusion branch,MFFB)4 個部分。
圖1 結(jié)合前景語義分割的多特征融合網(wǎng)絡(luò)Fig.1 Multi-branch joint network based on foreground semantic segmentation
MFSNet 網(wǎng)絡(luò)首先在主干網(wǎng)絡(luò)進(jìn)行特征提取之前,通過前景分割模塊提取前景,然后將提取結(jié)果作為特征提取的輸入。在特征提取中,主干網(wǎng)絡(luò)采用ResNet50(residual network 50),并 且 將 經(jīng) 過ResNet50 后的網(wǎng)絡(luò)劃分成3 個分支。第1 個分支沿用原始ResNet50 相同的網(wǎng)絡(luò)形式,提取行人圖像的全局特征。對于第2 個分支,為了實現(xiàn)全局特征引導(dǎo)局部特征,MFGB 將ResNet50 第5 個模塊block res_conv5_1 及之后的部分分離出來,并且去除了全連接層。隨后將分離出來的部分作為MFGB 模塊的輸入,實現(xiàn)全局特征對局部特征的引導(dǎo)提取,并獲取融合特征。對于第3 個分支,為了緩解多尺度融合過程中的特征丟失,MFFB 采用了逐級分離融合結(jié)構(gòu),在特征提取過程中分離出尺度信息并進(jìn)行融合,即在ResNet50的第2,3,4,5層進(jìn)行分離特征并進(jìn)行融合。同時,為了進(jìn)一步提升特征的有效性,在特征融合之前先使用金字塔注意力聚焦網(wǎng)絡(luò)的特征提取能力,然后通過特征融合得到最后的多尺度融合特征。
由于跨攝像頭的特殊性,ReID 任務(wù)中不可避免地存在背景變化的情況,當(dāng)相同身份ID 行人的背景差異較大時,會出現(xiàn)誤識別的現(xiàn)象。因此,本文提出一種前景分割模塊提取圖像中的有效前景,該模塊分為掩膜提取和掩膜融合兩部分,首先利用掩膜提取網(wǎng)絡(luò)生成二值掩膜圖像,然后利用哈達(dá)瑪積將原始圖像與其掩膜的融合,并將融合結(jié)果作為行人重識別特征提取網(wǎng)絡(luò)的輸入。前景分割模塊的結(jié)構(gòu)如圖2所示。
圖2 前景分割模塊Fig.2 Foreground segmentation module
在現(xiàn)有的掩膜提取網(wǎng)絡(luò)中,Mask R-CNN(region based convolutional neural network)方 法(He 等,2017)采用特征金字塔(feature pyramid network,F(xiàn)PN)結(jié)構(gòu),并且通過ROI Align (region of interest align)解 決 了Faster R-CNN (faster region proposal convolutional neural network)中ROI Pooling(region of interest pooling)兩次取整產(chǎn)生誤差的問題,能夠較好地分割出有用信息,但其無法保持原始圖像的結(jié)構(gòu)信息和平滑度,會造成行人部分的細(xì)節(jié)信息丟失。因此,本文在Mask R-CNN 網(wǎng)絡(luò)的基礎(chǔ)上,將ReID 損失與原Mask 損失結(jié)合,提出了前景分割損失函數(shù),并通過注意力機(jī)制使前景分割網(wǎng)絡(luò)在提取前景時更關(guān)注與ReID 相關(guān)的有效信息,避免硬性地將圖像中的前后景分割,造成信息丟失,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 行人掩膜提取網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Pedestrian mask extraction network structure diagram
在行人重識別任務(wù)中,全局特征與局部特征的融合能夠使網(wǎng)絡(luò)聯(lián)合圖像全局信息和各個粒度的局部信息,增強圖像中信息的利用率和有效性,從而提高網(wǎng)絡(luò)的魯棒性。為了更有效地利用局部信息,減少特征丟失,本文提出了多粒度特征引導(dǎo)分支(MFGB),結(jié)構(gòu)如圖4所示。
圖4 多粒度特征引導(dǎo)分支Fig.4 Multi-granularity feature-guided branch
多粒度特征引導(dǎo)分支主要由3 個分支堆疊構(gòu)成。每一個分支都采用分塊—注意力機(jī)制—特征提取—融合的模式。其中,分塊是對特征圖進(jìn)行切分處理,分塊的數(shù)目越多,越能使網(wǎng)絡(luò)關(guān)注到局部的特征信息。注意力機(jī)制和特征提取則是在聚焦網(wǎng)絡(luò)的特征提取能力的同時,利用如圖5 所示的特征提取殘差塊(每個殘差塊都有3 層結(jié)構(gòu))提取更深層次的特征。最后,通過融合將局部的特征轉(zhuǎn)化成與原輸出特征大小一致,在得到每一分支的最終特征的同時,為實現(xiàn)特征引導(dǎo)打下基礎(chǔ)。
圖5 特征提取殘差塊Fig.5 Feature extraction residual blocks
對于其中的注意力機(jī)制,本文在CBAM(convolutional block attention module)的基礎(chǔ)上新增了兩個維度交互分支,提出了三分支注意力機(jī)制,其結(jié)構(gòu)如圖6 所示。在新分支1 和新分支2 中,首先對特征進(jìn)行重排列操作,將原本輸入的特征(結(jié)構(gòu)是C×H×W)通過Permute函數(shù)進(jìn)行通道維度C和空間維度H、W的交換,得到H×C×W和W×H×C的特征結(jié)構(gòu)形式。然后對重排列之后的特征進(jìn)行池化、卷積和正則化操作,進(jìn)一步加深維度之間的融合,并重排列至原始C×H×W形式(其中,Z變換代表同時使用平均池化和最大池化)。最后將3 個分支的輸出特征進(jìn)行融合處理,得到注意力信息。這樣做的好處是,空間信息和通道信息兩個維度之間的信息進(jìn)行了交互,緩解了CBAM 中將空間注意力和通道注意力進(jìn)行串并聯(lián)造成的信息丟失(張紅穎和包雯靜,2022;Misra等,2021)。
圖6 三分支注意力Fig.6 Three-branch attention
在3 個分支對不同粒度特征進(jìn)行提取的基礎(chǔ)上,本文提出的MFGB 中的特征引導(dǎo)過程主要由殘差堆疊策略和注意力共享策略實現(xiàn)。具體地,在MFGB 的第2 分支和第3 分支中,分別使用兩種策略將前一分支中的關(guān)鍵性信息(包括粗粒度的特征和注意力關(guān)注點信息)結(jié)合到細(xì)粒度特征的提取過程中,達(dá)到通過粗粒度的信息引導(dǎo)細(xì)粒度特征提取的目的。
殘差堆疊策略是使用殘差結(jié)構(gòu)將3 個分支堆疊結(jié)合,其結(jié)構(gòu)為
式中,Xi-1表示前一分支的特征,Xi表示原始輸入,Yi表示現(xiàn)分支的特征,G(x)表示特征引導(dǎo)過程,包含了注意力機(jī)制。
注意力共享策略是通過權(quán)重共享,將粗粒度分支中的注意力信息共享到細(xì)粒度分支中,其結(jié)構(gòu)為
式(1)表示將前一分支的輸出與本分支的輸入結(jié)合作為本分支的新輸入;式(2)表示將本分支的注意力替換為上一分支的注意力,即將粗粒度分支的注意力權(quán)重作為本分支注意力機(jī)制的初始權(quán)重。將式(1)(2)結(jié)合可得,MFGB 的特征引導(dǎo)機(jī)制主要實現(xiàn)過程為
式中,G′(x)表示細(xì)粒度分支中的特征引導(dǎo)過程,不包含注意力機(jī)制。
由式(3)可以看到,首先,殘差堆疊策略將更粗粒度的信息與原輸入結(jié)合,作為細(xì)粒度特征提取的輸入。然后,注意力共享策略將粗粒度特征中注意力機(jī)制的關(guān)注點信息引入細(xì)粒度特征中,通過粗粒度特征約束細(xì)粒度特征的提取。由此,通過殘差堆疊策略和注意力共享策略能夠以粗粒度特征為藍(lán)本進(jìn)行細(xì)粒度特征的提取,一方面能夠用粗粒度特征彌補細(xì)粒度特征提取過程中的信息丟失,另一方面能夠用注意力機(jī)制的關(guān)注點信息約束細(xì)粒度特征的提取,提高細(xì)粒度特征的有效性。
在行人重識別任務(wù)中,多尺度特征中的低維特征大多由高維特征經(jīng)過上采樣得到,但是上采樣得到的低維特征不一定能真實地代表原始圖像中的特征,會出現(xiàn)特征信息丟失。針對此問題,本文提出了多尺度特征融合分支(MFFB),將骨干網(wǎng)絡(luò)特征提取中的特征直接作為多尺度特征融合的輸入,減少特征信息丟失,并在融合模塊前使用金字塔注意力結(jié)構(gòu)對特征進(jìn)行處理,提高特征的表達(dá)能力,其主要結(jié)構(gòu)如圖7所示。
圖7 多尺度特征融合分支Fig.7 Multi-scale feature fusion branch
在圖7所示的結(jié)構(gòu)中,本文利用單尺度非局部運算考慮全局信息的思想(Wang等,2018),提出了一種多尺度非局部運算方法,直接將不同尺度的信息進(jìn)行融合,以獲得更有效的特征,其結(jié)構(gòu)如圖8所示。
圖8 融合模塊Fig.8 Fusion module
式中,i和j分別是輸入x和輸出y的索引,s是尺度因子;φ是系數(shù)函數(shù),用來計算兩個特征之間的相似性;θ表示特征轉(zhuǎn)換函數(shù);σ(x)代表歸一化參數(shù)。
經(jīng)過尺度因子的縮放操作后,不同尺度的信息達(dá)到了統(tǒng)一尺度。因此,在系數(shù)函數(shù)φ的選取中,仍使用嵌入高斯函數(shù),計算為
最后,將式(5)代入式(4),得到最終多尺度非局部運算方法的表達(dá)式,具體為
為了更好地優(yōu)化網(wǎng)絡(luò)的訓(xùn)練過程,本文設(shè)計了前景分割損失,并聯(lián)合難樣本采樣三元組損失和softmax損失對網(wǎng)絡(luò)進(jìn)行約束訓(xùn)練。
前景分割網(wǎng)絡(luò)能夠得到圖像中的行人掩膜,但是由于前景分割任務(wù)和行人重識別任務(wù)的差異性,直接將前景分割的結(jié)果作為輸入并不一定能取得良好效果。為了有機(jī)地將前景分割與行人重識別結(jié)合,本文在Mask R-CNN 網(wǎng)絡(luò)mask 損失LM的基礎(chǔ)上,通過行人重識別任務(wù)的識別結(jié)果約束掩膜預(yù)測的結(jié)果,提出了前景分割損失函數(shù),計算為
式中,A和B分別表示原始損失LM中的有效特征對應(yīng)損失和非掩膜部分的特征對應(yīng)損失。對于A的權(quán)重系數(shù),n為類別數(shù),xi為第yi類中第i個樣本的特征向量,W為權(quán)值,b為偏置量。A和B計算為
式中,N表示一個預(yù)測掩膜中的像素總數(shù),σ表示sigmoid函數(shù),Pi表示掩膜中的一個像素,則為其相應(yīng)的真值像素(ground truth)。
難樣本采樣三元組損失是在三元組損失的基礎(chǔ)上,將簡單隨機(jī)抽樣改為一種基于訓(xùn)練批量的在線難樣本采樣方法,計算為
式中,α為預(yù)設(shè)的閾值參數(shù),表示距離間隔;P為隨機(jī)挑選的行人個數(shù),K為每個行人對應(yīng)的照片數(shù),P×K的值表示每批次訓(xùn)練的樣本數(shù)量;a,p,n分別為目標(biāo)樣本、正樣本和負(fù)樣本;batch表示每個訓(xùn)練步驟中選擇的樣本數(shù);C和D分別對應(yīng)相同身份和不同身份的圖像集;dap(η) 和dan(η)分別表示目標(biāo)樣本與正負(fù)樣本之間的距離。
softmax 損失是使用了softmax 函數(shù)的交叉熵?fù)p失,計算為
式中,W為權(quán)值參數(shù),b為偏置量,n為訓(xùn)練的類別數(shù),xi為第yi類中對應(yīng)于第i個樣本的特征向量,N為每一批次訓(xùn)練樣本的總數(shù)。
為了提高前景分割模塊與行人重識別的結(jié)合效果,本文采用多損失函數(shù)聯(lián)合策略,將以上3 種損失函數(shù)結(jié)合,作為總體的行人重識別網(wǎng)絡(luò)的訓(xùn)練損失,其表達(dá)式為
為了驗證本文方法的效果,使用ReID 常用的數(shù)據(jù)集Market1501(Zheng 等,2015)、DukeMTMC-reID(Duke multi-tracking multi-camera re-identification)(Ristani 等,2016)和MSMT17(multi-scene multi-time person reid dataset)(Wei 等,2018)進(jìn)行實驗,并與相關(guān)的行人重識別算法進(jìn)行對比。每個數(shù)據(jù)集劃分為訓(xùn)練集和測試集兩部分。Market1501分為訓(xùn)練圖像12 936 幅、測試圖像19 732 幅,共包含6 個攝像頭拍攝的1 501 個行人的圖像。DukeMTMC-reID 分為訓(xùn)練集16 522幅、測試集17 661幅和query集2 228幅,共包括1 404 個行人在8 個攝像頭下的36 411 幅行人圖像。MSMT17 數(shù)據(jù)集分為訓(xùn)練集32 621 幅,測試集93 820 幅,共包含15 個攝像頭拍攝的4 101 個行人的126 441幅圖像。
同時,本文使用Rank-1 和平均精度均值(mean average precision,mAP)兩個行人重識別任務(wù)中常用的評價指標(biāo)作為對比的依據(jù)。其中,Rank-1 是指被查詢圖像中行人與識別結(jié)果中第1 位圖像中行人是同一行人的概率。mAP 的值則是一個求和平均數(shù),代表了整體的識別水平,計算為
實驗基于一臺Ubuntu18.04 的戴爾工作站,其CPU參數(shù)為Intel?Xeon(R)Silver4112CPU@2.6 GHz,內(nèi)存為64 GB,并使用雙GeForce RTX 2080Ti顯卡加速運算。算法使用Pytorch1.7.1 深度學(xué)習(xí)框架。網(wǎng)絡(luò)實現(xiàn)分為前景分割和行人重識別兩部分。前景分割部分采用預(yù)訓(xùn)練過的Mask R-CNN 進(jìn)行行人掩膜提??;行人重識別部分的骨干網(wǎng)絡(luò)采用ImageNet 預(yù)訓(xùn)練過的ResNet50 作為基礎(chǔ)模型,其他部分的權(quán)重的初始化主要通過Kaiming 初始化完成。模型總共訓(xùn)練160 個epoch,采用Adam 優(yōu)化器對模型的訓(xùn)練進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.000 4,并在每經(jīng)過40個epoch后縮小為原來的1/10,直到網(wǎng)絡(luò)收斂。
本文提出的MFSNet 首先利用前景分割模塊獲取行人圖像中的前景(行人)部分,然后通過兩個分支分別融合圖像中的局部與全局信息、高維與低維信息,獲得分辨力更強的行人特征表達(dá)。因此,消融實驗主要是驗證前景分割模塊、多粒度特征引導(dǎo)分支和多尺度特征融合分支的有效性,實驗結(jié)果如表1所示。其中,Baseline 表示只包含圖1 網(wǎng)絡(luò)結(jié)構(gòu)中的ResNet50 主干網(wǎng)絡(luò)和全局分支,直接通過殘差網(wǎng)絡(luò)的特征提取結(jié)果進(jìn)行行人重識別;Baseline+MFGB、Baseline + MFFB 和Baseline + FSM 分別是在Baseline 的基礎(chǔ)上單獨加入3 個結(jié)構(gòu),用以證明所提出網(wǎng)絡(luò)結(jié)構(gòu)的有效性。Baseline + MFGB + MFFB 和Baseline + MFGB + MFFB + FSM 是在多粒度特征引導(dǎo)的基礎(chǔ)上逐步添加網(wǎng)絡(luò)結(jié)構(gòu),用以證明3 個模塊之間的耦合效果。
從表1 可以看出,在3 個數(shù)據(jù)集中,本文所提出的MFGB 和MFFB 結(jié)構(gòu)均能對Baseline 起到一定的提升效果。原因在于,在MFGB 和MFFB 中,本文考慮到了不同特性的特征內(nèi)蘊含的獨特信息,并通過構(gòu)建注意力共享策略和多尺度非局部運算方法,對不同特性的特征采取了針對性的方式,減少特征丟失,實現(xiàn)特征之間相互補充。
表1 在Market-1501、DukeMTMC-reID和MSMT17上的消融實驗結(jié)果Table 1 Results of ablation experiments on Market-1501,DukeMTMC-reID and MSMT17 dataset/%
同時,在加入FSM 模塊后,網(wǎng)絡(luò)的精度也獲得一定提升。原因在于,前景分割方法提取前景后,能夠降低同一行人在不同攝像頭拍攝的圖像之間的背景差異,緩解Baseline 中同一行人背景差異導(dǎo)致的特征相似度下降問題。并且,隨著背景被消除,同一攝像頭下,不同行人之間背景相似性被消除,其特征相似度下降,也對識別效果的提升起到了促進(jìn)作用。
為了驗證本文方法的有效性,在 Market-1501和DukeMTMC-reID 數(shù)據(jù)集上進(jìn)行對比實驗,對比方法包括基于語義信息前景分割的ReID 方法SSP-ReID(saliency-semantic parsing ReID)(Quispe 和Pedrini,2018)和 FS-MENet(foreground fegmentation and multi-loss ensemble network)(龔毓秀,2020);基于多特征融合的ReID 方法CAL(counterfactual attention learning method)(Rao 等,2021)、FPB(feature pyramid branch)(Zhang 等,2021)、MGN(multiple granularity network)(Wang 等,2018)和PyrNet(aggregating deep pyramidal representations)(Martinel 等,2019);基于注意力機(jī)制的ReID 方法APNet-C(attention pyramid network)(Chen 等,2021)。實驗結(jié)果如表2和表3所示。
表2 在Market-1501上與相關(guān)方法的比較Table 2 Comparison with mainstream related method on Market-1501 dataset/%
表3 在DukeMTMC-reID上與相關(guān)方法的比較Table 3 Comparison with related method on DukeMTMC-reID dataset/%
同時,為了進(jìn)一步驗證所提模型對背景變化問題的效果,在MSMT17 數(shù)據(jù)集上與部分主流方法進(jìn)行比較。在對比方法中新增了MPN(multi-task partaware network)(Ding 等,2022)、ABD-Net(attentive but diverse network)(Chen 等,2019)、Deep Miner(a deep and multi-branch network which mines rich and diverse features)(Benzine 等,2021)等3 種與本文結(jié)構(gòu)相似的方法。實驗結(jié)果如表4所示。
表4 在MSMT17上與相關(guān)方法的比較Table 4 Comparison with related methods on MSMT17 dataset/%
從表2—表4可以看出,在Market1501、DukeMTMCreID 和MSMT17 數(shù)據(jù)集上,本文方法均優(yōu)于目前已有的一部分算法。原因在于,本文方法在現(xiàn)有方法的基礎(chǔ)上加入了不同尺度不同粒度特征的信息,增加了特征信息量。同時,通過模型結(jié)構(gòu)的設(shè)計,提高了行人特征信息的利用率,減少了特征丟失,并在此基礎(chǔ)上加入了前景分割部分,通過提取前景緩解了背景信息對ReID模型識別精度的影響。
2.5.1 前景分割可視化結(jié)果
為了更好地展示本文方法在提取前景上的效果,在Market1501 數(shù)據(jù)集上隨機(jī)選擇行人圖像進(jìn)行前景分割,并進(jìn)行可視化。圖9 展示了身份ID 為0041 和0001 的兩位行人前景提取效果圖。其中,第1 行是數(shù)據(jù)集中的原始圖像,第2 行是Mask RCNN 網(wǎng)絡(luò)生成的行人掩膜圖像,第3 行是提取前景后的圖像。
圖9 Market-1501數(shù)據(jù)集上部分行人圖像前景提取效果圖Fig.9 Result of partial pedestrian image foreground extraction on the Market-1501 dataset ((a)ID 0041;(b)ID 0001)
可以看到,本文使用的前景分割模塊能夠較好地實現(xiàn)前景部分的提取。同時,能夠保留部分行人輪廓邊緣的圖像信息,保持了前景圖像中行人部分圖像的完整性和平滑性。
2.5.2 結(jié)合前景分割的多特征融合行人重識別方法識別結(jié)果可視化
為了更好地展示本文方法的識別效果,在Market1501 數(shù)據(jù)集上隨機(jī)選擇行人進(jìn)行識別結(jié)果可視化,如圖10 所示。因為前景分割模塊是加入到特征提取網(wǎng)絡(luò)之中的,所以最終的結(jié)果呈現(xiàn)都有背景。
圖10 在Market-1501數(shù)據(jù)集上部分查詢結(jié)果可視化Fig.10 The visualization of partial query results on the Market-1501 dataset
行人重識別作為一種跨鏡頭任務(wù),攝像頭的數(shù)量多,覆蓋的范圍大,同一行人在不同攝像頭拍攝到的圖像中會存在較大的背景差異,使得同一行人特征相似度下降。對此,本文提出了一種結(jié)合前景分割的多特征融合行人重識別方法。首先通過損失函數(shù)的設(shè)計和注意力機(jī)制的應(yīng)用增強前景分割與行人重識別任務(wù)的耦合效果,在提取前景同時保持前景圖像的平滑性和完整性;然后通過多粒度特征引導(dǎo)分支和多尺度特征融合分支提取更有鑒別性的特征;最后通過聯(lián)合損失函數(shù)促進(jìn)網(wǎng)絡(luò)的訓(xùn)練優(yōu)化。在3 個主流數(shù)據(jù)集上的實驗結(jié)果表明,本文方法在一定程度上緩解了背景變化導(dǎo)致的誤識別問題,提高了識別效果。與其他ReID 方法相比,本文方法通過前景分割的方式刪除掉了行人圖像中差異較大的背景部分,提高了同一行人特征的相似性;并聯(lián)合行人圖像中的多尺度、多粒度特征得到了更具判別力的行人特征表達(dá)。但是,本文方法直接將前景分割網(wǎng)絡(luò)作為模塊添加到ReID 任務(wù)中,極大增加了模型的參數(shù)量和訓(xùn)練時間,會影響ReID 任務(wù)的時效性。并且,前景分割與行人重識別作為兩種任務(wù),如何更好地結(jié)合是一個巨大挑戰(zhàn)。下一步將著眼于二者的結(jié)合,一方面通過網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,在保持網(wǎng)絡(luò)模型輕量化的同時保持較好的識別效果;另一方面通過對結(jié)合兩種任務(wù)的研究以取得更好的耦合效果。