李艷鳳,張斌,孫嘉,陳后金,朱錦雷
(北京交通大學(xué)電子信息工程學(xué)院,北京 100093)
行人再識(shí)別[1-2]用于解決非重疊視域中人員匹配的問(wèn)題,是智能視頻分析技術(shù)的重要組成部分,可用于追蹤犯罪嫌疑人、尋找走失人員等,具有廣闊的應(yīng)用前景[3]。近年來(lái),行人再識(shí)別技術(shù)獲得了廣泛關(guān)注,成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。
早期的行人再識(shí)別研究主要依靠傳統(tǒng)方法,例如手工設(shè)計(jì)特征表達(dá)[4-5]和距離度量[6-7]。得益于深度學(xué)習(xí)的快速發(fā)展,越來(lái)越多的研究者使用深度學(xué)習(xí)來(lái)解決行人再識(shí)別問(wèn)題。Yi 等[8]首次將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于行人再識(shí)別,采用端到端的網(wǎng)絡(luò)聯(lián)合進(jìn)行特征提取與度量學(xué)習(xí)。近年來(lái),由局部生成行人的細(xì)粒度特征方法被廣泛研究,并取得了較好的性能。Yao 等[9]提出部件損失網(wǎng)絡(luò)(PL-Net,part loss network)以同時(shí)最小化分類風(fēng)險(xiǎn)與表示學(xué)習(xí)風(fēng)險(xiǎn)。Sun 等[10]提出對(duì)特征圖進(jìn)行均勻分割的基于部件的卷積基線(PCB,part-based convolutional baseline)網(wǎng)絡(luò)框架用于行人再識(shí)別,該方法將特征圖均分為多個(gè)局部特征圖分支,每個(gè)分支分別與行人ID 標(biāo)簽計(jì)算損失。實(shí)現(xiàn)了圖像局部特征的提取,但忽略了全局特征表示。Fu 等[11]提出了水平金字塔匹配(HPM,horizontal pyramid matching)行人再識(shí)別方法。該方法同時(shí)實(shí)現(xiàn)了行人的全局特征和局部特征表示,在局部特征表示中進(jìn)行多尺度池化,并在池化方式上,將全局特征平均池化(GAP,global average pooling)和全局特征最大池化(GMP,global max pooling)相結(jié)合,但該方法中大量的池化支路導(dǎo)致特征向量維度較大,需要將特征壓縮后再組合,從而造成信息丟失。
在實(shí)際應(yīng)用場(chǎng)景中,監(jiān)控視頻的攝像頭數(shù)量是不固定的,并且會(huì)增加,因此行人再識(shí)別是一個(gè)開(kāi)放性的問(wèn)題,其模型應(yīng)具有適應(yīng)開(kāi)放環(huán)境的能力。為了更加符合實(shí)際場(chǎng)景的應(yīng)用需求,研究人員開(kāi)始關(guān)注跨數(shù)據(jù)集行人再識(shí)別方法。跨數(shù)據(jù)集行人再識(shí)別的任務(wù)是將一個(gè)數(shù)據(jù)集(源數(shù)據(jù)集)上訓(xùn)練好的模型轉(zhuǎn)移到另一個(gè)數(shù)據(jù)集(目標(biāo)數(shù)據(jù)集)上進(jìn)行測(cè)試,希望獲得較好的識(shí)別性能。目前跨數(shù)據(jù)集行人再識(shí)別方法主要有兩類,具體如下。
1) 利用遷移學(xué)習(xí)知識(shí)減小源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集數(shù)據(jù)分布的差異。Qi 等[12]關(guān)注攝像機(jī)之間不同的特征分布,利用遷移學(xué)習(xí)的思想設(shè)計(jì)了基于“相機(jī)感知”的域自適應(yīng)方法,以減少2 個(gè)數(shù)據(jù)集之間的數(shù)據(jù)差異。Li 等[13]利用遷移學(xué)習(xí)中的最大平均差異度量損失使源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集生成相似的特征分布來(lái)縮小2 個(gè)數(shù)據(jù)集間的差異。Huang 等[14]使用部件分割約束增強(qiáng)模型的泛化能力,實(shí)現(xiàn)域自適應(yīng)行人再識(shí)別。Wang 等[15]提出遷移聯(lián)合屬性–類別深度學(xué)習(xí)(TJ-AIDL,transferable joint attributeidentity deep learning)的行人再識(shí)別方法。該方法使用雙支路網(wǎng)絡(luò),上支路以行人類別信息作為標(biāo)簽進(jìn)行特征提取,下支路以屬性信息作為標(biāo)簽進(jìn)行特征提取,然后將訓(xùn)練好的模型遷移到目標(biāo)數(shù)據(jù)集進(jìn)行行人識(shí)別方法。Lin 等[16]提出多任務(wù)中級(jí)特征對(duì)齊(MMFA,multi-task mid-level feature alignment)網(wǎng)絡(luò)實(shí)現(xiàn)跨數(shù)據(jù)集行人再識(shí)別。該方法基于源域與目標(biāo)域共享中層特征空間的假設(shè),使用源域–目標(biāo)域中層特征對(duì)齊正則化項(xiàng)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。Zhong 等[17]提出異質(zhì)–同質(zhì)學(xué)習(xí)(HHL,hetero-homogeneous learning)的行人再識(shí)別方法,通過(guò)同質(zhì)學(xué)習(xí)實(shí)現(xiàn)相機(jī)不變性,通過(guò)異質(zhì)學(xué)習(xí)實(shí)現(xiàn)域連通性。
2) 利用生成對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial network)將源數(shù)據(jù)集圖像轉(zhuǎn)換為目標(biāo)數(shù)據(jù)集圖像的風(fēng)格進(jìn)行訓(xùn)練。Wei 等[18]提出行人遷移生成對(duì)抗網(wǎng)絡(luò)(PTGAN,person transfer GAN),在保證行人本體前景不變的情況下,將源域圖像的背景轉(zhuǎn)換成目標(biāo)域圖像的背景風(fēng)格進(jìn)行訓(xùn)練。Deng 等[19]設(shè)計(jì)了相似度保持生成對(duì)抗網(wǎng)絡(luò)(SPGAN,similarity preserving GAN),在圖像生成過(guò)程中添加了自相似性及域不相似性限制。Liu 等[20]提出自適應(yīng)遷移網(wǎng)絡(luò)(ATNet,adaptive transfer network)來(lái)實(shí)現(xiàn)跨數(shù)據(jù)集行人再識(shí)別。該方法將復(fù)雜的跨數(shù)據(jù)集遷移分為3 個(gè)子問(wèn)題,然后對(duì)每個(gè)子問(wèn)題分別進(jìn)行風(fēng)格遷移。
現(xiàn)有跨數(shù)據(jù)集方法一般致力于減小2 個(gè)數(shù)據(jù)集之間的數(shù)據(jù)分布差異,忽略了背景信息對(duì)識(shí)別性能的影響。Tian 等[21]研究了圖像背景對(duì)行人識(shí)別性能的影響,在使用僅包含背景的行人圖像進(jìn)行測(cè)試時(shí),也獲得了Rank-1 為5.2%的正確率。上述研究表明將整張行人圖像輸入行人再識(shí)別網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,網(wǎng)絡(luò)在學(xué)習(xí)行人特征的同時(shí),也會(huì)學(xué)習(xí)相應(yīng)的背景特征。為降低背景信息的影響,本文提出了一種基于多池化融合與背景消除網(wǎng)絡(luò)的跨數(shù)據(jù)集行人再識(shí)別方法,該方法通過(guò)結(jié)合多池化融合(MPF,multi-pooling fusion)網(wǎng)絡(luò)與特征級(jí)有監(jiān)督背景消除網(wǎng)絡(luò),有效提升跨數(shù)據(jù)集行人再識(shí)別的性能。本文的主要貢獻(xiàn)如下:1) 構(gòu)建了一種多池化融合MPF 網(wǎng)絡(luò)結(jié)構(gòu),能夠兼顧全局特征和局部特征,同時(shí)實(shí)現(xiàn)特征的多細(xì)粒度表示;2) 設(shè)計(jì)了一種特征級(jí)有監(jiān)督背景消除網(wǎng)絡(luò),將該網(wǎng)絡(luò)的特征激活損失函數(shù)與行人分類損失函數(shù)相結(jié)合為多任務(wù)學(xué)習(xí)損失,以監(jiān)督網(wǎng)絡(luò)提取有用的行人前景特征。
本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,包括多池化融合網(wǎng)絡(luò)和特征級(jí)有監(jiān)督背景消除網(wǎng)絡(luò)。以ResNet50 網(wǎng)絡(luò)[22]作為主干網(wǎng)絡(luò),以主干網(wǎng)絡(luò)得到的特征圖為輸入,構(gòu)建多池化融合網(wǎng)絡(luò),其包含4 個(gè)分支,其中,一個(gè)為全局特征分支,其他3 個(gè)為不同區(qū)域的局部分支。全局特征分支采用2 種不同細(xì)粒度的池化,且每種細(xì)粒度分別采用GAP 和GMP這2 種池化方式;其他3 個(gè)局部分支采用一種細(xì)粒度的GAP 和GMP 池化。輸出特征進(jìn)行連接,得到6 個(gè)分支的特征。每個(gè)分支分別連接全連接(FC,fully connection)層用于行人分類,得到的預(yù)測(cè)結(jié)果與行人類別標(biāo)簽進(jìn)行計(jì)算交叉熵(CE,cross entropy)損失。特征級(jí)有監(jiān)督背景消除網(wǎng)絡(luò)中,首先通過(guò)行人分割獲得行人掩碼,然后對(duì)主干網(wǎng)絡(luò)的特征圖進(jìn)行Sigmoid 激活,并計(jì)算激活結(jié)果與行人掩碼的均方誤差(MSE,mean square error)損失。將CE 損失與MSE 損失之和作為本文方案的最終損失,以實(shí)現(xiàn)網(wǎng)絡(luò)模型提取有用的行人前景特征。
ResNet50 網(wǎng)絡(luò)常被用于行人再識(shí)別的主干網(wǎng)絡(luò),但其單一的池化結(jié)構(gòu)易造成大量信息丟失。為解決這一問(wèn)題,提高特征的表征能力,本文構(gòu)建了多池化融合網(wǎng)絡(luò),其結(jié)構(gòu)如圖1 下半部分所示。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
全局特征對(duì)行人進(jìn)行整體性的描述,而局部特征則針對(duì)不同局部區(qū)域?qū)π腥诉M(jìn)行描述,因此全局特征和局部特征結(jié)合可以提高特征的表征能力。行人圖像通過(guò)ResNet50 網(wǎng)絡(luò)生成的特征圖被分為4個(gè)支路,一個(gè)支路為全局特征,3 個(gè)支路為不同區(qū)域的局部特征。為防止硬劃分破壞局部特征之間的連續(xù)性,本文采用有重疊劃分的方式來(lái)得到局部特征圖,并將特征圖有重疊地劃分為上、中、下三部分。全局特征圖和3 個(gè)局部特征圖如圖2 所示。
圖2 全局特征圖和局部特征圖
不同的池化方式具有不同的特點(diǎn),GMP 輸出行人圖像特征的最大響應(yīng)點(diǎn),GAP 有利于提取全局特征信息。本文融合了GAP 與GMP,有利于提升特征的表示能力,然后對(duì)4 個(gè)支路的特征圖分別進(jìn)行GAP 和GMP 處理。為了得到不同細(xì)粒度的特征表示,本文對(duì)全局特征圖進(jìn)行2 種不同尺寸的池化,寬、高、通道的尺寸分別為1×1×2 048 和2×2×20 48。因此全局特征將生成2 種池化方式、2 種池化尺寸,共4 個(gè)特征向量。對(duì)于局部特征,每個(gè)局部特征圖的池化尺寸為1×1×2 048,分別采用GAP 和GMP這2 種池化方式,因此3 個(gè)局部支路共生成6 個(gè)尺寸為1×1×2 048 的特征向量。
將全局特征圖池化得到的2 個(gè)尺寸為2×2×2 048的特征向量分別展開(kāi),得到2 個(gè)尺寸為1×1×8 192的特征向量。對(duì)于3 個(gè)局部特征圖,將每種池化方式下的1×1×2 048 特征向量級(jí)聯(lián),形成2 個(gè)新的尺寸為1×1×6 144 的特征向量。經(jīng)過(guò)上述操作后,共得到6 個(gè)特征向量(GAP 方式下的2 個(gè)全局特征向量和1 個(gè)局部特征向量,GMP 方式下的2 個(gè)全局特征向量和1 個(gè)局部特征向量)。為降低特征向量的維度,分別對(duì)6 個(gè)特征向量進(jìn)行1×1 卷積,得到6 個(gè)1 024 維的特征向量。訓(xùn)練時(shí),在6 個(gè)特征向量后分別連接全連接層用于分類,得到的分類結(jié)果分別與行人類別標(biāo)簽計(jì)算交叉熵?fù)p失,多分類交叉熵?fù)p失函數(shù)如式(1)所示。
其中,i表示行人圖像索引,xi表示圖像Ii的特征向量,yi表示圖像Ii的行人ID 號(hào),C表示訓(xùn)練集中行人ID 的總數(shù)量,N表示每個(gè)批次讀取行人圖像的數(shù)量,{W,b}表示分類層的權(quán)重和偏置。
多池化融合網(wǎng)絡(luò)的損失函數(shù)LID為6 個(gè)支路損失函數(shù)之和,如式(2)所示,為第j個(gè)支路的損失。
本文設(shè)計(jì)的多池化融合網(wǎng)絡(luò)對(duì)全局特征進(jìn)行不同類型和不同尺寸的池化操作,使多個(gè)特征向量與特征圖建立了不同的映射關(guān)系,實(shí)現(xiàn)了特征的多細(xì)粒度表示。對(duì)局部特征進(jìn)行不同類型的池化操作,并以全局特征和局部特征對(duì)行人進(jìn)行綜合表示,可有效提升特征的表征能力。
為降低背景信息的影響,本文構(gòu)建了特征級(jí)有監(jiān)督背景消除網(wǎng)絡(luò),其結(jié)構(gòu)如圖1 上半部分所示。本文方法并不是完全丟棄圖像的背景信息,而是使網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)適當(dāng)消除背景,保留前景。
為了實(shí)現(xiàn)“背景消除”,首先需要對(duì)行人圖像進(jìn)行前景分割。本文將全卷積神經(jīng)網(wǎng)絡(luò)(FCN,fully convolutional network)[23]與宏–微對(duì)抗網(wǎng)絡(luò)(MMAN,macro-micro adversarial network)[24]結(jié)合進(jìn)行前景分割。FCN 可以得到低分辨率行人圖像的大致分割輪廓,但分割不精細(xì)、對(duì)細(xì)節(jié)信息不敏感;對(duì)于高分辨圖像可以得到精確的分割結(jié)果,但對(duì)于低分辨率圖像易造成誤分割,將二者相結(jié)合可以彌補(bǔ)各自的不足。本文首先在行人分割數(shù)據(jù)集LIP(look into person)[25]上對(duì)MMAN 和FCN 的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,然后將訓(xùn)練得到的網(wǎng)絡(luò)模型分割行人再識(shí)別數(shù)據(jù)集。
為使網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)弱化背景,將ResNet50 網(wǎng)絡(luò)得到的特征圖進(jìn)行Sigmoid 函數(shù)激活,生成二值激活結(jié)果圖,以監(jiān)督特征提取網(wǎng)絡(luò)。二值分割結(jié)果要求圖像最大值接近1,最小值接近0,但直接使用Sigmoid 函數(shù)對(duì)特征進(jìn)行激活,其激活結(jié)果的最大值和最小值并不接近1 和0,因此需要先對(duì)特征圖進(jìn)行線性拉伸。根據(jù)Sigmoid 函數(shù)自變量與值域的關(guān)系,將特征圖線性拉伸[5,5]的取值范圍,則Sigmoid 函數(shù)的激活結(jié)果在(0,1)范圍。特征值的線性拉伸如式(3)所示。
其中,x表示拉伸前的特征值,y表示拉伸后的特征值,xmax和xmin表示拉伸前特征值的最大和最小值,ymax和ymin表示拉伸后的最大和最小特征值,取值分別為ymax=5,ymin=5。將線性拉伸后的結(jié)果作為輸入,經(jīng)過(guò)Sigmoid 激活得到激活圖。計(jì)算激活圖和行人分割結(jié)果的MSE 損失,以監(jiān)督網(wǎng)絡(luò)更多地提取行人前景特征。MSE 損失LMSE計(jì)算式為
其中,Mi表示行人圖像分割掩碼的第i個(gè)像素點(diǎn)取值,表示激活圖的第i個(gè)像素點(diǎn)取值,N表示圖像像素點(diǎn)的數(shù)量。
將CE損失與MSE損失之和作為本文方法的總體損失,并將其作為損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,損失函數(shù)L如式(5)所示。
本 文 使 用 Market-1501[26]、DukeMTMCreID[27]、MSMT17[18]這3 個(gè)大規(guī)模行人再識(shí)別數(shù)據(jù)集評(píng)估本文方法的有效性。
Market-1501 數(shù)據(jù)集包含6 個(gè)攝像頭拍攝得到的32 217 張固定尺寸行人圖像,行人ID 數(shù)量為1 501 個(gè)。751 個(gè)行人ID 用于網(wǎng)絡(luò)模型訓(xùn)練,750 個(gè)行人ID 用于測(cè)試。
DukeMTMC-ReID 數(shù)據(jù)集包含8 個(gè)攝像頭拍攝得到的36 411 張多尺寸行人圖像,行人ID 數(shù)量為1 404 個(gè)。訓(xùn)練集包含702 個(gè)行人,其余行人作為測(cè)試集。測(cè)試集中有2 228 張行人圖像被選為查詢圖像,其余的17 661 張圖像(包括702個(gè)作為測(cè)試的行人圖像及408 個(gè)作為干擾的行人圖像)作為候選集。
MSMT17 數(shù)據(jù)集包含15 個(gè)攝像頭拍攝得到的126 441 張多尺寸行人圖像,有效行人ID 數(shù)量為4 101。訓(xùn)練集包含1 041 個(gè)行人的32 621 張圖像,測(cè)試集包含3 060 個(gè)行人的93 820 張圖像。對(duì)于測(cè)試集,11 659 張圖像作為查詢集,其余82 161 張圖像作為候選集。
使用累計(jì)匹配特性(CMC,cumulative match characteristic)和平均準(zhǔn)確率(mAP,mean average precision)作為評(píng)價(jià)指標(biāo)。CMC 曲線主要反映模型的準(zhǔn)確率,常以Rank-n的形式表現(xiàn),Rank-n表示前n個(gè)匹配結(jié)果中正確匹配的比例,本文使用Rank-1、Rank-5、Rank-10 作為參數(shù)。mAP 表示算法在全部測(cè)試數(shù)據(jù)上的平均性能,兼顧準(zhǔn)確率和召回率。AP 是某個(gè)類別所有返回結(jié)果的平均準(zhǔn)確率,如式(6)所示。
其中,pi表示第i個(gè)正確匹配的目標(biāo)行人圖像在查詢序列中的位置,li表示第i個(gè)正確匹配的目標(biāo)行人圖像在候選集重新排序中的位置,n表示和查詢圖像正確匹配的圖像個(gè)數(shù)。mAP 是所有類別AP 的平均值,如式(7)所示。
其中,m表示查詢集中查詢圖像的總個(gè)數(shù)。
實(shí)驗(yàn)所使用的硬件平臺(tái)的CPU 為Inter Xeon E5-2620 v4,GPU 為10G NVIDIA GeForce GTX 1080Ti,使用的操作系統(tǒng)是Ubuntu16.04。實(shí)驗(yàn)使用的深度學(xué)習(xí)框架PyTorch 版本為1.01,數(shù)據(jù)處理包torchvision 版本為0.22,Python 版本為3.6,cudnn版本為8.0,cuda 版本為8.0。
訓(xùn)練時(shí)每個(gè)批次讀取N=32 張圖像,其中每個(gè)行人類別隨機(jī)讀取固定的圖像數(shù)量。每個(gè)batch 讀取8 個(gè)行人類別,每類行人的圖像數(shù)量為4。使用圖像隨機(jī)水平翻轉(zhuǎn)實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增,輸入圖像尺寸歸一化為256×128。使用隨機(jī)梯度下降(SGD,stochastic gradient descent)算法作為優(yōu)化器,設(shè)置初始學(xué)習(xí)率為0.03,網(wǎng)絡(luò)模型的訓(xùn)練迭代次數(shù)為60。
首先對(duì)本文構(gòu)建的MPF 網(wǎng)絡(luò)的性能進(jìn)行評(píng)價(jià)。為了深入分析MPF 網(wǎng)絡(luò)相比于ResNet50 網(wǎng)絡(luò)的性能提升,分別從兼顧全局特征和局部特征以及構(gòu)建不同池化方式2 個(gè)角度進(jìn)行消融實(shí)驗(yàn)。以G-L 網(wǎng)絡(luò)表示兼顧全局特征和局部特征,但采用單一池化方式的方法。比較ResNet50 網(wǎng)絡(luò)、G-L 網(wǎng)絡(luò)和MPF網(wǎng)絡(luò)在3 個(gè)數(shù)據(jù)集上的識(shí)別性能,如圖3 所示。對(duì)于每張查詢圖像,展示前15 個(gè)識(shí)別結(jié)果,其中,“×”表示識(shí)別錯(cuò)誤的行人,“√”表示識(shí)別正確的行人。由圖3 可以看出,識(shí)別精度由高到低分別為MPF網(wǎng)絡(luò)、G-L 網(wǎng)絡(luò)、ResNet50 網(wǎng)絡(luò)。
ResNet50 網(wǎng)絡(luò)、G-L 網(wǎng)絡(luò)和MPF 網(wǎng)絡(luò)的定量實(shí)驗(yàn)結(jié)果如表1 所示。在3 個(gè)數(shù)據(jù)集中,G-L 網(wǎng)絡(luò)的識(shí)別性能均明顯優(yōu)于 ResNet50 網(wǎng)絡(luò),Market-1501 數(shù)據(jù)集上的mAP 和Rank-1 分別提升了7.42%和5.57%,DukeMTMC-reID 數(shù)據(jù)集上的mAP 和Rank-1 分別提升了6.87%和4.24%,MSMT17 數(shù)據(jù)集上的Rank-1 和mAP 分別提升了5.15%和3.76%。實(shí)驗(yàn)結(jié)果表明,在特征提取時(shí)兼顧全局特征和局部特征可以提升行人再識(shí)別的性能。相較于G-L 網(wǎng)絡(luò),MPF 網(wǎng)絡(luò)可進(jìn)一步提升識(shí)別性能,在Market-1501 數(shù)據(jù)集上Rank-1 和mAP分別提升了3.93%和8.17%,在DukeMTMC-reID數(shù)據(jù)集上Rank-1 和mAP 分別提升了5.04%和7.19%,在MSMT17 數(shù)據(jù)集上Rank-1 和mAP 分別提升了6.07%和6.27%。因此在特征提取時(shí)采用不同的池化方式是有效的。MPF 網(wǎng)絡(luò)結(jié)合了全局特征和局部特征且構(gòu)建了不同的池化方式,從而可以提取更多的有用信息,相比于ResNet50 網(wǎng)絡(luò)明顯提升了行人再識(shí)別性能。
圖3 ResNet50 網(wǎng)絡(luò)、G-L 網(wǎng)絡(luò)、MPF 網(wǎng)絡(luò)在3 個(gè)數(shù)據(jù)集上的識(shí)別結(jié)果對(duì)比
表1 MPF 網(wǎng)絡(luò)消融實(shí)驗(yàn)
本節(jié)比較FCN、MMAN 和本文采用的FCN 與MMAN 相結(jié)合的行人前景分割性能,分割結(jié)果示例如圖4 所示。從圖4 可以看出,在低分辨率圖像中(圖4 的前兩列),MMAN 存在分割不完整的情況。對(duì)于行人前景與背景對(duì)比度較低的高分辨圖像(圖4 的后兩列),F(xiàn)CN 存在分割不完整的情況。將FCN 與MMAN 結(jié)合,獲得了更完整的行人前景。由于行人再識(shí)別數(shù)據(jù)集沒(méi)有行人前景分割的標(biāo)準(zhǔn),且本文主要目標(biāo)是提升跨數(shù)據(jù)集行人再識(shí)別的性能,因此未對(duì)行人前景分割進(jìn)行定量評(píng)價(jià)。
本文方法的總體損失(total loss)函數(shù)為CE 損失與MSE 損失之和。MSMT17 數(shù)據(jù)集下,本文方法在訓(xùn)練過(guò)程中的CE loss、MSE loss 和total loss 如圖5 所示。由圖5 可知,隨著訓(xùn)練過(guò)程的進(jìn)行,CE loss、MSE loss 和total loss 逐漸降低。
圖4 行人前景分割結(jié)果
圖5 MSMT17 的訓(xùn)練損失函數(shù)曲線
本節(jié)首先對(duì)特征圖激活是否可以引導(dǎo)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)弱化背景信息進(jìn)行定性分析。圖6 為融合特征激活損失函數(shù)后主干網(wǎng)絡(luò)得到的特征圖。從圖6可以看出,主干網(wǎng)絡(luò)提取到的特征圖主要關(guān)注前景的部分區(qū)域,背景區(qū)域特征圖的取值很低,且不同圖像背景信息的弱化是自適應(yīng)的。
圖6 融合特征激活損失后的特征圖
然后對(duì)本文方法的跨數(shù)據(jù)集識(shí)別性能進(jìn)行驗(yàn)證。為了深入分析MPF 網(wǎng)絡(luò)和特征級(jí)有監(jiān)督背景消除網(wǎng)絡(luò)對(duì)性能的提升,進(jìn)行如下消融實(shí)驗(yàn)。以MPF 網(wǎng)絡(luò)表示僅使用MPF 網(wǎng)絡(luò),以MPF+背景消除網(wǎng)絡(luò)表示使用本文方法,將上述方法與ResNet50網(wǎng)絡(luò)進(jìn)行比較。圖7 和圖8 給出了MSMT17 數(shù)據(jù)集作為訓(xùn)練集,測(cè)試集分別為 Market-1501 和DukeMTMC-reID 數(shù)據(jù)集的跨數(shù)據(jù)集行人再識(shí)別結(jié)果。可以看出,MPF+背景消除網(wǎng)絡(luò)具有更高的識(shí)別精度。
圖7 MSMT17→Market-1501 跨數(shù)據(jù)集識(shí)別結(jié)果對(duì)比
圖8 MSMT17→DukeMTMC-reID 跨數(shù)據(jù)集識(shí)別結(jié)果對(duì)比
定量實(shí)驗(yàn)結(jié)果如表2~表4 所示??梢钥闯?,在3 個(gè)數(shù)據(jù)集中,MPF 網(wǎng)絡(luò)的跨數(shù)據(jù)集識(shí)別性能均明顯優(yōu)于ResNet50 網(wǎng)絡(luò),說(shuō)明MPF 網(wǎng)絡(luò)可以提升跨數(shù)據(jù)集行人再識(shí)別的性能。相較于MPF 網(wǎng)絡(luò),MPF+背景消除網(wǎng)絡(luò)可進(jìn)一步提升行人再識(shí)別的性能。當(dāng)采用 Market-1501 作為測(cè)試集,DukeMTMC-reID 和MSMT17 作為訓(xùn)練集時(shí),相比于MPF 網(wǎng)絡(luò),MPF+背景消除網(wǎng)絡(luò)的mAP 和Rank-1分別提升了2.68%/4.37%、3.31%/5.52%。當(dāng)采用DukeMTMC-reID 作為測(cè)試集,Market-1501 數(shù)據(jù)集和MSMT17 作為訓(xùn)練集時(shí),MPF+背景消除網(wǎng)絡(luò)的mAP/Rank-1分別提升了6.09%/12.52% 和4.48%/4.82%。當(dāng)采用MSMT17 數(shù)據(jù)集作為測(cè)試集,Market-1501 數(shù)據(jù)集和DukeMTMC-reID 數(shù)據(jù)集作為訓(xùn)練集時(shí),MPF+背景消除網(wǎng)絡(luò)的mAP/Rank-1分別提升了2.89%/ 8.88%和3.83%/9.30%。實(shí)驗(yàn)結(jié)果說(shuō)明,添加特征級(jí)有監(jiān)督背景消除網(wǎng)絡(luò)后,跨數(shù)據(jù)集行人再識(shí)別的性能得到了提升,表明構(gòu)建的有監(jiān)督背景消除網(wǎng)絡(luò)的有效性。
表2 Market-1501 的跨數(shù)據(jù)集再識(shí)別結(jié)果
表3 DukeMTMC-reID 的跨數(shù)據(jù)集再識(shí)別結(jié)果
表4 MSMT17 的跨數(shù)據(jù)集再識(shí)別結(jié)果
最后對(duì)ResNet50 網(wǎng)絡(luò)、MPF 網(wǎng)絡(luò)和MPF+背景消除網(wǎng)絡(luò)的訓(xùn)練時(shí)間進(jìn)行比較,如表5 所示。MPF網(wǎng)絡(luò)采用了多池化融合,其訓(xùn)練時(shí)間較ResNet50 網(wǎng)絡(luò)明顯有所增加。MPF+背景消除網(wǎng)絡(luò)結(jié)合了MPF 網(wǎng)絡(luò)與有監(jiān)督背景消除網(wǎng)絡(luò),其訓(xùn)練時(shí)間進(jìn)一步增加。
表5 不同數(shù)據(jù)集的訓(xùn)練時(shí)間
由于MSMT17 是行人再識(shí)別數(shù)據(jù)集,目前使用MSMT17 進(jìn)行跨數(shù)據(jù)集實(shí)驗(yàn)的方法較少,因此本文僅使用Market-1501 數(shù)據(jù)集和DukeMTMCreID 數(shù)據(jù)集與現(xiàn)有跨數(shù)據(jù)集方法進(jìn)行比較。表6 給出了訓(xùn)練集為 Market-1501 數(shù)據(jù)集,測(cè)試集為DukeMTMC-reID 的跨數(shù)據(jù)集對(duì)比結(jié)果;表7 給出了訓(xùn)練集為DukeMTMC-reID,測(cè)試集為Market-1501 的跨數(shù)據(jù)集對(duì)比結(jié)果;由表6 和表7 可以看出,在DukeMTMC-reID 數(shù)據(jù)集上測(cè)試時(shí),MPF+背景消除網(wǎng)絡(luò)的Rank-1 和mAP 分別達(dá)到了55.57%和30.73%,比現(xiàn)有性能最好的HHL 方法性能提升了8.67%和3.53%。在Market-1501 數(shù)據(jù)集上測(cè)試時(shí),MPF+背景消除網(wǎng)絡(luò)的Rank-1 和mAP 分別達(dá)到了62.48%和30.72%,與現(xiàn)有性能最好的HHL 方法持平。
表6 Market-1501→DukeMTMC-reID 的跨數(shù)據(jù)集結(jié)果對(duì)比
表7 DukeMTMC-reID→Market-1501 的跨數(shù)據(jù)集結(jié)果對(duì)比
為減弱背景信息對(duì)跨數(shù)據(jù)集行人再識(shí)別性能的影響,本文提出了結(jié)合多池化融合與背景消除網(wǎng)絡(luò)的跨數(shù)據(jù)集行人再識(shí)別方法。本文構(gòu)建的多池化融合網(wǎng)絡(luò)兼顧了全局特征和局部特征,同時(shí)實(shí)現(xiàn)了特征的多細(xì)粒度表示,增加了特征向量的復(fù)雜性和多樣性。構(gòu)建了特征級(jí)有監(jiān)督背景消除網(wǎng)絡(luò),結(jié)合該網(wǎng)絡(luò)得到的特征激活損失與行人分類損失共同訓(xùn)練識(shí)別網(wǎng)絡(luò),減弱了背景信息對(duì)識(shí)別性能的影響。在 3 個(gè)行人再識(shí)別數(shù)據(jù)集 Market-1501、DukeMTMC-reID、MSMT17 上對(duì)本文方法進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,本文方法能有效提升跨數(shù)據(jù)集行人再識(shí)別性能。