仇天昊,陳淑榮
基于EfficientNet的雙分路多尺度聯(lián)合學(xué)習(xí)行人再識(shí)別
仇天昊*,陳淑榮
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)( ? 通信作者電子郵箱2276523712@qq.com)
針對(duì)視頻圖像中因小目標(biāo)行人、遮擋和行人姿態(tài)多變而造成的行人再識(shí)別率低的問題,建立了一種基于高效網(wǎng)絡(luò)EfficientNet的雙分路多尺度聯(lián)合學(xué)習(xí)方法。首先采用性能高效的EfficientNet-B1網(wǎng)絡(luò)作為主干結(jié)構(gòu);然后利用加權(quán)雙向特征金字塔(BiFPN)分支對(duì)提取的不同尺度全局特征進(jìn)行融合,并且得到包含不同層次語義信息的全局特征,從而提高小目標(biāo)行人的識(shí)別率;其次利用PCB分支提取深層局部特征來挖掘行人的非顯著信息,并減輕行人遮擋和姿態(tài)多變性對(duì)識(shí)別率的影響;最后在訓(xùn)練階段將兩個(gè)分支網(wǎng)絡(luò)分別提取的行人特征通過Softmax損失函數(shù)得到不同子損失,并把它們相加進(jìn)行聯(lián)合表示;在測(cè)試階段將獲得的全局特征和深層局部特征拼接融合,并計(jì)算歐氏距離得到再識(shí)別匹配結(jié)果。該方法在Market1501和DukeMTMC-Reid 數(shù)據(jù)集上的Rank-1的準(zhǔn)確率分別達(dá)到了95.1%和89.1%,與原始EfficientNet-B1主干結(jié)構(gòu)相比分別提高了3.9個(gè)百分點(diǎn)和2.3個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,所提出的模型有效提高了行人再識(shí)別的準(zhǔn)確率。
行人再識(shí)別;EfficientNet;局部特征提?。欢喑叨忍卣魈崛。宦?lián)合學(xué)習(xí)
行人再識(shí)別(Person Re-identification)是指在非重疊視域的多攝像頭網(wǎng)絡(luò)中進(jìn)行的行人匹配,即當(dāng)一個(gè)行人的圖像在某一時(shí)刻被攝像頭捕獲后,根據(jù)該圖像可檢索該網(wǎng)絡(luò)其他區(qū)域中是否還有該行人的蹤跡,因此也被稱為非重疊視域攝像頭網(wǎng)絡(luò)中的行人檢索問題[1]。行人再識(shí)別在智能監(jiān)控、公共安全、身份認(rèn)證等方面有重要的研究意義。
行人再識(shí)別方法分為傳統(tǒng)的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的方法,主要采取手工設(shè)計(jì)算法提取特征,由于數(shù)據(jù)量過大和采集的行人圖像分辨率較低,使得傳統(tǒng)方法在行人再識(shí)別上遇到瓶頸。近年來基于深度學(xué)習(xí)的方法在行人再識(shí)別領(lǐng)域取得較好表現(xiàn)。
由于行人圖像抓拍中存在差異,如行人大小、圖像分辨率、視角、遮擋等,導(dǎo)致提取的行人特征直接影響行人再識(shí)別的精度。因此,如何有效且準(zhǔn)確提取行人特征是實(shí)現(xiàn)行人再識(shí)別的關(guān)鍵[2]。
文獻(xiàn)[3]中提出用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)組成的孿生網(wǎng)絡(luò)構(gòu)建行人再識(shí)別驗(yàn)證模型和識(shí)別模型,同時(shí)計(jì)算分類損失和驗(yàn)證損失。但這種單一利用全局特征表示的方法容易忽略人體不顯著的細(xì)節(jié)信息,導(dǎo)致行人再識(shí)別準(zhǔn)確率低。為了充分利用行人圖片各部位之間相關(guān)性較小、局部特征之間互補(bǔ)性較強(qiáng)的特點(diǎn),Sun等[4]提出了PCB(Part-based Convolutional Baseline)分塊模型,通過對(duì)圖片進(jìn)行分割來提取行人局部特征,以減小視頻和圖片中遮擋行人和姿態(tài)多變對(duì)識(shí)別率的影響。Zheng等[5]則基于金字塔模型,通過不同尺度的水平劃分來學(xué)習(xí)多尺度的局部和全局特征,并對(duì)這些特征聯(lián)合學(xué)習(xí),提高行人再識(shí)別的性能。文獻(xiàn)[6]中建立了行人再識(shí)別的多尺度融合網(wǎng)絡(luò),以ResNet50作為主干網(wǎng)絡(luò),結(jié)合特征金字塔(Feature Pyramid Network, FPN)結(jié)構(gòu)來提取不同尺度的全局特征,以提高行人再識(shí)別的準(zhǔn)確率。
為進(jìn)一步提高行人再識(shí)別的準(zhǔn)確率,本文結(jié)合雙向特征金字塔(Bidirectional Feature Pyramid Network, BiFPN)多尺度特征融合網(wǎng)絡(luò)[7]和PCB算法思想,建立了一種基于高效網(wǎng)絡(luò)EfficientNet[8]的雙分路多尺度聯(lián)合學(xué)習(xí)模型。首先對(duì)行人數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)和擴(kuò)充,以避免模型訓(xùn)練中出現(xiàn)過擬合現(xiàn)象,提高網(wǎng)絡(luò)模型的魯棒性;其次采用EfficientNet-B1(EfficientNet-Baseline1)作為主干結(jié)構(gòu),利用其強(qiáng)大的分類能力和高計(jì)算效率,通過更深的網(wǎng)絡(luò)層實(shí)現(xiàn)特征提取;然后通過加權(quán)雙向特征金字塔網(wǎng)絡(luò)(BiFPN)多尺度融合分支,得到包含不同層次語義信息的全局特征,以提高小目標(biāo)行人的識(shí)別率;在PCB局部特征提取支路,利用均分策略對(duì)深層全局特征進(jìn)行水平切割,得到深層局部特征來挖掘行人的非顯著信息,以減小行人遮擋和姿態(tài)多變對(duì)識(shí)別率的影響。在訓(xùn)練階段將兩個(gè)分支網(wǎng)絡(luò)提取的全局特征和深層局部特征分別通過Softmax損失函數(shù)進(jìn)行分類訓(xùn)練;而在預(yù)測(cè)行人階段,對(duì)所獲得的不同尺度全局特征和深層局部特征進(jìn)行拼接融合,再進(jìn)行相似度匹配得到行人再識(shí)別結(jié)果。
本文網(wǎng)絡(luò)模型如圖1所示,主要分為3個(gè)模塊,即以MBConv(Mobile inverted Bottlenneck Convolution)移動(dòng)倒置瓶頸卷積模塊組成的EfficientNet-B1特征提取主干結(jié)構(gòu)、BiFPN多尺度特征融合支路[9]和PCB局部特征提取支路。首先對(duì)行人數(shù)據(jù)集進(jìn)行預(yù)處理,利用圖片翻轉(zhuǎn)、隨機(jī)擦除進(jìn)行數(shù)據(jù)增強(qiáng)和擴(kuò)充;再通過EfficientNet-B1主干結(jié)構(gòu)進(jìn)行特征提取,從主干結(jié)構(gòu)中提取4(48×24)、5(24×12)、6(24×12)這3個(gè)特征圖,對(duì)6經(jīng)過兩次下采樣后分別得到7(12×6)、8(6×3)這2個(gè)特征圖,然后將4,5,…,8輸入到BiFPN支路進(jìn)行特征融合,輸出_4_5,…,_8這5個(gè)包含多層語義信息的全局特征。而6經(jīng)過1×1卷積后得到特征圖,輸入PCB局部特征提取支路得到0、1、2、3四個(gè)深層局部特征。在訓(xùn)練階段將兩個(gè)分支網(wǎng)絡(luò)提取的全局特征和深層局部特征分別通過Softmax損失函數(shù)進(jìn)行分類訓(xùn)練,得到9個(gè)子損失(Loss)并相加進(jìn)行聯(lián)合表示;而在預(yù)測(cè)行人階段,對(duì)所獲得的不同尺度全局特征和深層局部特征進(jìn)行拼接融合得到行人特征,并計(jì)算歐氏距離得出行人再識(shí)別結(jié)果。
圖1 基于EfficientNet的雙分路多尺度聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)
為避免網(wǎng)絡(luò)模型訓(xùn)練出現(xiàn)過擬合和提高遮擋行人的識(shí)別率,實(shí)驗(yàn)中采用隨機(jī)翻轉(zhuǎn)和隨機(jī)擦除的方法,對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)充和增強(qiáng)處理。先將圖片歸一化為384×192,然后對(duì)輸入圖片以一定概率隨機(jī)水平翻轉(zhuǎn)來增強(qiáng)圖像的差異性并進(jìn)行數(shù)據(jù)擴(kuò)充,采用文獻(xiàn)[10]的隨機(jī)擦除(Random Erasing Augmentation, REA)方法來增加遮擋圖像的數(shù)據(jù)量。
經(jīng)REA處理的數(shù)據(jù)效果如圖2所示,圖2(a)為數(shù)據(jù)集原始圖像,圖2(b)為經(jīng)過REA的圖像。
將隨機(jī)翻轉(zhuǎn)和隨機(jī)擦除預(yù)處理后的圖片加入到原數(shù)據(jù)集,實(shí)現(xiàn)對(duì)數(shù)據(jù)集的增強(qiáng)及擴(kuò)充,行人圖片數(shù)量擴(kuò)充為原來的兩倍,能有效防止因數(shù)據(jù)集過小且圖片過于單一而帶來的模型過擬合問題,并且能提高模型對(duì)遮擋行人的識(shí)別率。
圖2 隨機(jī)擦除后的數(shù)據(jù)集圖像效果
通常采用深層CNN提取行人特征信息,訓(xùn)練時(shí)間長(zhǎng),也易導(dǎo)致梯度爆炸或消失。本文模型采用具有少量模型參數(shù)且保持較高分類準(zhǔn)確率的EfficientNet-B1[8]對(duì)行人特征進(jìn)行提取,具體原理如圖1的虛框所示,對(duì)輸入的圖像首先用卷積核為3×3、步長(zhǎng)為2的Conv1進(jìn)行淺層特征提取,再加入 BN(Batch Normalization)層進(jìn)行批量歸一化,加快網(wǎng)絡(luò)訓(xùn)練的收斂防止過擬合,經(jīng)過Swish激活函數(shù)并產(chǎn)生192×96大小的特征圖,通道數(shù)為32;接著采用7個(gè)由移動(dòng)倒置瓶頸卷積(MBConv)模塊重復(fù)堆疊的結(jié)構(gòu)M1,M2,…,M7串聯(lián)進(jìn)行深層特征提取,其中MBConv1模塊和MBConv6模塊結(jié)構(gòu)基本相同,區(qū)別是MBConv6模塊的卷積運(yùn)算中會(huì)將輸入特征矩陣的通道擴(kuò)充6倍。去掉M6中的空間下采樣操作,將改為1,以增大最終模型提取特征的感受野,增加輸出特征圖的大小,便于接入的PCB局部特征提取支路對(duì)圖片分割處理。通過EfficientNet-B1模塊提取的多尺度特征4(48×24)、5(24×12)、6(24×12)這3個(gè)特征圖與6經(jīng)過兩次下采樣分別得到7(12×6)和8(6×3),用作BiFPN多尺度全局特征融合分支的輸入,而6經(jīng)過卷積核大小為1×1的卷積層處理后輸出大小為24×12通道為1 280的特征圖作為PCB局部特征提取支路的輸入。
采用Swish函數(shù)作為EfficientNet-B1主干結(jié)構(gòu)的激活函數(shù),以加快網(wǎng)絡(luò)訓(xùn)練的收斂防止梯度消失和過擬合,表達(dá)式如式(1)所示:
EfficientNet-B1主要由MBConv模塊組成。MBConv模塊對(duì)輸入特征圖進(jìn)行卷積計(jì)算,獲得特征圖全部像素點(diǎn)之間的相關(guān)信息,進(jìn)而提取全局特征。以圖1中M2的MBConv6模塊為例,特征提取過程如圖3所示。
圖3 MBConv6模塊
經(jīng)過M1后產(chǎn)生192×96大小的特征圖,通道數(shù)為16,進(jìn)入M2中的MBConv6模塊后先通過Conv2D(1×1)卷積將通道擴(kuò)展為原來的6倍,再經(jīng)過BN歸一化處理和Swish激活函數(shù)后,進(jìn)入卷積核大小為3×3、步長(zhǎng)為2、通道數(shù)為64卷積層進(jìn)行深度卷積,再次經(jīng)BN歸一化處理和Swish函數(shù)激活后,輸出大小為96×48且通道數(shù)為64的特征圖1、2。該模塊引入了壓縮與激發(fā)網(wǎng)絡(luò)(Squeeze-and-Excitation Network,SENet)[11]的注意力思想,更能關(guān)注信息量大的通道特征,而抑制不重要的通道特征,使提取到的行人特征向量更準(zhǔn)確地表達(dá)行人,以提高識(shí)別精度。2在SENet模塊中先全局平均池化(Global Average Pooling,GAP)輸出1×1×64的特征圖,再經(jīng)過卷積核大小為1×1通道為16維的卷積層后降維輸出大小為1×1×16的特征圖,經(jīng)過Swish激活函數(shù)后用通道數(shù)為64的卷積層進(jìn)行升維,輸出大小為1×1×64的特征圖,之后用Sigmoid激活函數(shù)進(jìn)行激活。SENet模塊輸出的特征圖3(1×1×64)與特征圖1(96×48×64)共同輸入到卷積核大小為1×1通道數(shù)為24的卷積層,即1與3相乘后得到96×48×64的特征圖4進(jìn)行卷積運(yùn)算,再經(jīng)過BN歸一化處理和Dropout處理后輸出大小為96×48×24的特征圖5。MBConv6模塊引入了殘差模塊的短接路徑,使梯度在非常深的網(wǎng)絡(luò)中連貫地傳播防止梯度疊加,以解決模型卷積層數(shù)過多而帶來的梯度消失與梯度爆炸問題,特征圖5和短接的特征圖相加作為MBConv6模塊的輸出并進(jìn)入后續(xù)的MBConv6模塊處理。
在EfficientNet-B1模塊,經(jīng)過多次MBConv6模塊的類似處理和下采樣,分別提取得到特征圖4(48×24)、5(24×12)、6(24×12)、7(12×6)和8(6×3),用作BiFPN多尺度全局特征融合分支的輸入部分;6經(jīng)過大小1×1的卷積層處理后輸出大小為24×12通道為1 280的特征圖作為PCB局部特征提取分支的輸入。
視頻圖像中如果行人目標(biāo)太小,會(huì)造成EfficientNet-B1提取的特征信息忽略行人信息,導(dǎo)致識(shí)別率下降。本文采用BiFPN多尺度特征融合[7],利用跨尺度連接(Cross-Scale Connection)和加權(quán)特征融合(Weighted Feature Fusion),得到包含高層和底層語義信息的全局特征,以提高小目標(biāo)行人的識(shí)別率。
具體原理如圖4所示。4、5、6、7、8,經(jīng)過1×1卷積且全局池化后獲得特征圖_4、_5、_6、_7、_8,對(duì)8進(jìn)行上采樣后與_7堆疊得到_7;對(duì)_7進(jìn)行上采樣后與_6進(jìn)行堆疊得到_6;對(duì)_6進(jìn)行上采樣后與_5進(jìn)行堆疊得到_5,以此類推,分別獲得特征圖_4、_5、_6、_7、_8。這里以_7、_7為例,具體運(yùn)算如式(3)(4)所示:
經(jīng)過BiFPN支路的多尺度特征融合,輸出_4、_5、_6、_7、_8這5個(gè)包含高層和低層語義信息的全局特征。在識(shí)別小目標(biāo)行人的情況下融合后的全局特征能更好地表達(dá)行人信息,以此來提高識(shí)別準(zhǔn)確率。
圖4 BiFPN結(jié)構(gòu)
通常行人各部位之間的相關(guān)性較小,局部特征之間互補(bǔ)性較強(qiáng),利用PCB算法進(jìn)行局部特征提取并進(jìn)行行人匹配,可有效減小遮擋行人和姿態(tài)多變對(duì)識(shí)別率的影響,提高行人再識(shí)別的精度[4]。具體流程如圖5所示。
圖5中,輸入大小為384×192的圖像經(jīng)過EfficientNet-B1主干結(jié)構(gòu)特征提取后得到24×12的特征圖,通道數(shù)為1 280。在PCB支路將特征圖進(jìn)行水平方向等距分割成4份,即4個(gè)空間大小為6×12的特征圖,然后分別進(jìn)行平均池化得到4個(gè)維度為1 280的列向量,使用1×1卷積將4個(gè)列向量通道數(shù)降維成512,經(jīng)過BN層和Dropout處理后得到4個(gè)維度為512的列向量,從而得到行人的深層局部特征。
圖5 PCB局部特征提取流程
圖1中,BiFPN支路進(jìn)行多尺度特征融合輸出的5個(gè)全局特征_4、_5、_6、_7、_8,和PCB支路提取的4個(gè)深層局部特征0、1、2、3,經(jīng)過全局池化、BN層和Dropout層處理后得到9個(gè)維度為512的列向量。在模型訓(xùn)練中,每個(gè)列向量分別輸入到9個(gè)由權(quán)值參數(shù)不共享的FC全連接層(Fully-Connected layer)和Softmax函數(shù)構(gòu)成的分類器中,每個(gè)分類器由交叉熵?fù)p失函數(shù)監(jiān)督并輸出圖像的ID(Identity Document),從而得到9個(gè)子損失:0,1,…,8,模型的最終為9個(gè)子之和。其中Loss為交叉熵?fù)p失函數(shù),如式(5)所示:
其中:表示標(biāo)簽向量,p表示FC層輸出的概率值。
在模型測(cè)試階段,將測(cè)試圖片通過本文模型提取到的5個(gè)全局特征向量和4個(gè)局部特征向量進(jìn)行拼接融合得到一個(gè)4 608維的行人特征并與測(cè)試集中的其他行人特征通過計(jì)算歐氏距離進(jìn)行行人匹配,并輸出行人再識(shí)別結(jié)果。
實(shí)驗(yàn)分別在數(shù)據(jù)集Market1501[12]和DukeMTMC-Reid[13]上進(jìn)行。Market1501包含從6個(gè)不同攝像頭拍攝到的1 501個(gè)行人:訓(xùn)練集有751個(gè)行人,共12 936張圖片;測(cè)試集有751個(gè)行人,共19 732張圖片。Duke數(shù)據(jù)集包含1 404個(gè)行人:訓(xùn)練集含702個(gè)行人,共16 522張行人圖片;測(cè)試集包含702個(gè)行人,共17 661張行人圖片。數(shù)據(jù)集包含有姿態(tài)變化、光照變化、遮擋、小目標(biāo)等行人圖片,符合實(shí)際應(yīng)用場(chǎng)景中常見的情況。
實(shí)驗(yàn)在Windows 10系統(tǒng)下進(jìn)行,計(jì)算機(jī)配置為NVIDIA GeForce GTX1060Ti顯卡,使用PyTorch深度學(xué)習(xí)框架,共做了三類實(shí)驗(yàn),第一類是不同主干網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn),在5組卷積神經(jīng)網(wǎng)絡(luò)中選出性能最佳的主干網(wǎng)絡(luò);第二類實(shí)驗(yàn)是在選用EfficientNet-B1作為主干結(jié)構(gòu)的基礎(chǔ)上,分析數(shù)據(jù)預(yù)處理和BiFPN支路提取的全局特征對(duì)網(wǎng)絡(luò)模型輸出結(jié)果的影響;第三類實(shí)驗(yàn)是在第二類實(shí)驗(yàn)的基礎(chǔ)上采用PCB方法提取深層局部特征并得出最優(yōu)分割方法。
為了驗(yàn)證EfficientNet-B1網(wǎng)絡(luò)在少量模型參數(shù)的情況下的高準(zhǔn)確率,采用5個(gè)常用的卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)并在有數(shù)據(jù)預(yù)處理的情況下進(jìn)行行人再識(shí)別,選用Market1501數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表1所示。
表1實(shí)驗(yàn)結(jié)果表明EfficientNet-B1網(wǎng)絡(luò)相對(duì)于其他網(wǎng)絡(luò)的行人再識(shí)別精度最高,且除MobileNet-V3以外參數(shù)量(Params)最小。由此得出EfficientNet-B1網(wǎng)絡(luò)能夠在少量模型參數(shù)的情況下同時(shí)保持較高的行人再識(shí)別準(zhǔn)確率,因此本文模型選用EfficientNet-B1作為主干結(jié)構(gòu)。
表15種主干網(wǎng)絡(luò)的行人再識(shí)別性能對(duì)比
Tab.1 Pedestrian re-identification performance comparison of five backbone networks
在選用EfficientNet-B1作為主干結(jié)構(gòu)的基礎(chǔ)上,本文做了第2類實(shí)驗(yàn),以驗(yàn)證數(shù)據(jù)預(yù)處理和引入BiFPN多尺度特征融合支路對(duì)網(wǎng)絡(luò)模型輸出結(jié)果的影響。數(shù)據(jù)預(yù)處理采用隨機(jī)翻轉(zhuǎn)、隨機(jī)擦除的數(shù)據(jù)增強(qiáng)和擴(kuò)充。圖6給出了在原始和預(yù)處理后的Market1501數(shù)據(jù)集的損失曲線比較,由圖可見原始數(shù)據(jù)集的測(cè)試集損失在0.5時(shí)趨向于平穩(wěn),而預(yù)處理后數(shù)據(jù)集的測(cè)試集損失在0.4時(shí)趨向于平穩(wěn),表明數(shù)據(jù)預(yù)處理有效地改善了模型過擬合。
圖6 原始和預(yù)處理后的數(shù)據(jù)集損失曲線對(duì)比
表2前三行數(shù)據(jù)列出了在Market1501數(shù)據(jù)集中EfficientNet-B1主干網(wǎng)絡(luò)在無數(shù)據(jù)預(yù)處理和在數(shù)據(jù)預(yù)處理的情況下引入BiFPN多尺度特征融合處理后的實(shí)驗(yàn)結(jié)果。為驗(yàn)證BiFPN支路對(duì)小目標(biāo)行人識(shí)別結(jié)果的影響,如圖7所示,手工選取Market1501數(shù)據(jù)集中行人占據(jù)圖片面積較少的小目標(biāo)行人圖片作為驗(yàn)證集的行人檢索對(duì)象,并在表2后3行列出在此條件下的實(shí)驗(yàn)結(jié)果。
圖7 小目標(biāo)行人圖片
表2實(shí)驗(yàn)結(jié)果表明采用數(shù)據(jù)預(yù)處理通過數(shù)據(jù)增強(qiáng)和擴(kuò)充數(shù)據(jù)集后,可以有效防止過擬合,提高了行人再識(shí)別的準(zhǔn)確率。以小目標(biāo)行人為檢索對(duì)象的情況下,引入BiFPN支路后Rank-1達(dá)到86.3%,比數(shù)據(jù)增強(qiáng)和擴(kuò)充條件下提高了3.9個(gè)百分點(diǎn);常規(guī)行人檢索情況下,引入BiFPN支路后Rank-1達(dá)到了92.4%,比數(shù)據(jù)增強(qiáng)和擴(kuò)充條件下提高了1.2個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,引入BiFPN多尺度特征融合處理使全局特征包含底層和高層語義信息,有利于改善小目標(biāo)行人識(shí)別準(zhǔn)確率,進(jìn)一步提高了行人再識(shí)別準(zhǔn)確率。
表2數(shù)據(jù)預(yù)處理和BiFPN對(duì)識(shí)別結(jié)果的影響 單位: %
Tab.2 Influence of data preprocessing and BiFPN on identification results unit:%
為減小遮擋和行人姿態(tài)多變對(duì)識(shí)別率的影響,在第2類實(shí)驗(yàn)的基礎(chǔ)上,引入PCB算法提取深層局部特征,并驗(yàn)證特征圖的最優(yōu)分割方式。此時(shí)模型使用EfficientNet-B1進(jìn)行預(yù)處理,并采用BiFPN支路提取全局特征,經(jīng)EfficientNet-B1輸出特征圖尺寸為24×12。用表示PCB支路提取的局部特征數(shù)量?;诓煌?Market1501與 DukeMTMC-Reid 上的行人再識(shí)別率Rank-1實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同L情況下Market1501和DukeMTMC-Reid數(shù)據(jù)集上的行人再識(shí)別結(jié)果 單位:%Tab.3 Pedestrian re-identification results on Market1501 and DukeMTMC-Reid datasets under different Lunit:%
由表3可見,采用PCB局部特征提取Rank-1明顯高于表2結(jié)果。表明通過PCB支路來挖掘行人的非顯著信息對(duì)行人再識(shí)別的性能有顯著提高。另外,特征圖的不同分割方式,會(huì)影響網(wǎng)絡(luò)的行人再識(shí)別性能。當(dāng)=4時(shí),PCB對(duì)特征圖分割數(shù)為4,本文模型取得較好的識(shí)別性能,Rank-1達(dá)到95.1%。
為了驗(yàn)證本文方法的有效性,在 Market1501和DukeMTMC-Reid兩種數(shù)據(jù)集上與其他先進(jìn)方法進(jìn)行比較,其中包括IDE(ID-disciminative Embedding)[15]、PCB、PCB+RPP(Refined Part Pooling)[4]、HPM(Horizontal Pyramid Matching)[16]和MGN(Multiple Granularity Network)[17]等先進(jìn)方法。結(jié)果如表4所示。
表4 本文方法與其他方法的行人再識(shí)別準(zhǔn)確率比較 單位:%
由表4可以看出,本文方法在Market1501數(shù)據(jù)集上的Rank1和mAP分別為95.1%和86.3%;在DukeMTMC-Reid數(shù)據(jù)集上的Rank1和mAP分別達(dá)到了89.1%和77.2%。與主干結(jié)構(gòu)為ResNet50的IDE、PCB、HSP等方法相比在2個(gè)數(shù)據(jù)集上識(shí)別效果顯著提升。MGN方法用PCB方法在多個(gè)融合后的特征上進(jìn)行局部特征提取,識(shí)別效果優(yōu)于在單個(gè)融合特征上用PCB方法進(jìn)行局部特征提取的本文方法。實(shí)驗(yàn)結(jié)果表明,本文方法將局部特征圖提取和多尺度特征融合兩種方法進(jìn)行結(jié)合,可得到更好的實(shí)驗(yàn)結(jié)果。
本文方法采用了數(shù)據(jù)增強(qiáng)和擴(kuò)充,利用BiFPN多尺度特征融合提取包含多層語義信息的全局特征改善了小目標(biāo)行人識(shí)別效果,利用PCB局部特征提取改善了遮擋行人識(shí)別效果,行人再識(shí)別率有所提高。為了驗(yàn)證本文模型對(duì)小目標(biāo)行人和遮擋行人識(shí)別率的改善情況,選取Market1501查詢集中的遮擋和小目標(biāo)兩類行人使用第一類實(shí)驗(yàn)中EfficientNet-B1方法和本文模型進(jìn)行行人再識(shí)別檢索,并將檢索結(jié)果中的前10張圖片可視化,如圖8所示,排序數(shù)字后加字母R表示為檢索結(jié)果正確,加字母W則代表檢索結(jié)果錯(cuò)誤。從圖8可觀察到:圖8(a)圖片1到5是識(shí)別正確的圖片,圖8(b)相比圖8(a)多出圖片6和8兩個(gè)正確結(jié)果,且圖8(b)的第8張圖片也屬于小目標(biāo)行人;圖8(c)中第4、5、8、10張圖片是識(shí)別錯(cuò)誤的圖片,圖8(d)只有第9張圖片是識(shí)別錯(cuò)誤的圖片,相比圖8(c)多出3個(gè)正確結(jié)果。由此可以得出在小目標(biāo)行人和遮擋行人識(shí)別方面,本文方法優(yōu)于第一類實(shí)驗(yàn)中的EfficientNet-B1方法。驗(yàn)證了本文建立的方法可以有效地改善遮擋行人和小目標(biāo)行人對(duì)識(shí)別率的影響,由此提高了行人再識(shí)別的準(zhǔn)確率。
圖8 行人再識(shí)別可視化結(jié)果
本文建立了一種基于EfficientNet的雙路多尺度聯(lián)合學(xué)習(xí)行人再識(shí)別方法,首先采用隨機(jī)翻轉(zhuǎn)和隨機(jī)擦除的方法,對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)和擴(kuò)充處理;然后通過EfficientNet-B1主干結(jié)構(gòu)進(jìn)行行人特征提取,采用BiFPN支路進(jìn)行多尺度特征融合來豐富全局特征的語義信息,以提高小目標(biāo)識(shí)別率,采用PCB支路進(jìn)行深層局部特征提取,以解決遮擋行人和姿態(tài)多變對(duì)識(shí)別的影響;最后將兩個(gè)支路提取的特征在訓(xùn)練和測(cè)試采用不同策略進(jìn)行聯(lián)合學(xué)習(xí),并輸出識(shí)別結(jié)果。本文在兩個(gè)不同的行人再識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在Market1501數(shù)據(jù)集和DukeMTMC-Reid 數(shù)據(jù)集上Rank-1的準(zhǔn)確率分別達(dá)到了95.1%和89.1%的識(shí)別精度,高于多數(shù)主流方法,驗(yàn)證了本文方法的有效性。本文方法雖在精度方面有所提升,但在實(shí)時(shí)性和實(shí)用性方面都比較欠缺,可利用更高效的特征提取網(wǎng)絡(luò)把行人檢測(cè)和行人再識(shí)別相結(jié)合起來,尋求更優(yōu)的行人再識(shí)別解決方案。
[1] 劉娜. 基于卷積神經(jīng)網(wǎng)絡(luò)的行人重識(shí)別算法[D]. 上海:華東師范大學(xué), 2017:977-983.(LIU N. Person re-identification based on convolutional neural networks[D]. Shanghai: East China Normal University, 2017:977-983.)
[2] 李姣,張曉暉,朱虹,等. 多置信度重排序的行人再識(shí)別算法[J]. 模式識(shí)別與人工智能, 2017, 30(11):995-1002.(LI J, ZHANG X H, ZHU H, et al. Person re-identification via multiple confidences re-ranking[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(11):995-1002.)
[3] AHMED E, JONES M, MARKS T K. An improved deep learning architecture for person re-identification[C]// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3908-3916.
[4] SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11208. Cham: Springer, 2018:501-518.
[5] ZHENG F, DENG C, SUN X, et al. Pyramidal person re-identification via multi-loss dynamic training[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 8506-8514.
[6] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[7] ZHANG J P, JIANG F. Multi-level supervised network for person re-identification[C]// Proceedings of the 2019 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2019: 2072-2076.
[8] TAN M X, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[C]// Proceedings of the 36th International Conference on Machine Learning. New York: JMLR.org, 2019: 6105-6114.
[9] TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020:10778-10787.
[10] ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 13001-13008.
[11] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[12] RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9914. Cham: Springer, 2016: 17-35.
[13] LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 152-159.
[14] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2020-01-20].https://arxiv.org/pdf/1412.6980.pdf.
[15] ZHENG Z, ZHENG L, YANG Y. A discriminatively learned CNN embedding for person re-identification[EB/OL]. (2016-11-17) [2020-02-21]. https://arxiv.org/pdf/1611.05666.pdf.
[16] FU Y, WEI Y C, ZHOU Y Q, et al. Horizontal pyramid matching for person re-identification[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 8295-8302.
[17] WANG G S, YUAN Y F, CHEN X, et al. Learning discriminative features with multiple granularities for person re-identification[C]// Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM, 2018: 274-282.
QIU Tianhao, born in 1997, M. S. candidate. His research interests include image processing, pattern recognition.
CHEN Shurong, born in 1972, M. S, associate professor. Her research interests include modern communication network and control, image and video analysis and processing.
EfficientNet based dual-branch multi-scale integrated learning for pedestrian re-identification
QIU Tianhao*, CHEN Shurong
(,,201306,)
In order to deal with the problem of low pedestrian re-identification rate in video images due to small target pedestrians, occlusions and variable pedestrian postures, a dual-channel multi-scale integrated learning method was established based on efficient network EfficientNet. Firstly, EfficientNet-B1 (EfficientNet-Baseline1) network was used as the backbone structure. Secondly, a weighted Bidirectional Feature Pyramid Network (BiFPN) branch was used to integrate the extracted global features at different scales. In order to improve the identification rate of small target pedestrians, the global features with different semantic information were obtained. Thirdly, PCB (Part-based Convolutional Baseline) branch was used to extract deep local features to mine non-significant information of pedestrians and reduce the influence of pedestrian occlusion and posture variability on identification rate. Finally, in the training stage, the pedestrian features extracted by the two branch networks respectively were calculated by the Softmax loss function to obtain different subloss functions, and they were added for joint representation. In the test stage, the global features and deep local features obtained were spliced and fused, and the Euclidean distance was calculated to obtain the pedestrian re-identification matching results. The accuracy of Rank-1 of this method on Market1501 and DukeMTMC-Reid datasets reaches 95.1% and 89.1% respectively, which is 3.9 percentage points and 2.3 percentage points higher than that of the original backbone structure respectively. Experimental results show that the proposed model improves the accuracy of pedestrian re-identification effectively.
pedestrian re-identification; EfficientNet; local feature extraction; multi-scale feature extraction; integrated learning
TP391.4
A
1001-9081(2022)07-2065-07
10.11772/j.issn.1001-9081.2021050852
2021?05?24;
2021?09?18;
2021?09?24。
仇天昊(1997—),男,江蘇徐州人,碩士研究生,主要研究方向:圖像處理、模式識(shí)別; 陳淑榮(1972—),女,山西稷山人,副教授,碩士,主要研究方向:現(xiàn)代通信網(wǎng)絡(luò)及控制、圖像和視頻分析處理。