徐增敏,陸光建,陳俊彥,陳金龍,丁 勇
1.桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林 541004
2.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004
3.桂林安維科技有限公司,廣西 桂林 541010
行人重識(shí)別ReID 技術(shù)主要研究跨攝像機(jī)場(chǎng)景下不同行人的識(shí)別與檢索[1],但不同拍攝設(shè)備之間存在差異,且行人兼具剛性和柔性的特征,其外觀易受穿著、尺度、遮擋、姿態(tài)、視角等影響,因此數(shù)據(jù)集通常涵蓋行人正面、側(cè)身、背身或遮擋圖像,算法模型要學(xué)習(xí)同一行人在不同樣本中的表觀特征。在神經(jīng)網(wǎng)絡(luò)不同通道提取特征的過(guò)程中,如何融合多特征信息提高模型泛化能力及特征表達(dá)能力,已經(jīng)成為ReID 的研究熱點(diǎn)和難點(diǎn)。
行人重識(shí)別算法中的通道特征容易被忽視,導(dǎo)致模型表達(dá)能力降低,因此可考慮以分類模型ResNeSt50[2]作為骨干網(wǎng)絡(luò),并在骨干網(wǎng)絡(luò)中加入SE block[3]結(jié)構(gòu),通過(guò)Squeeze 和Excitation 操作學(xué)習(xí)各通道的重要性參數(shù);同時(shí),為提高神經(jīng)網(wǎng)絡(luò)對(duì)全局特征的學(xué)習(xí)能力,嘗試改進(jìn)骨干網(wǎng)絡(luò)的激活函數(shù),在一定程度上減少靜默神經(jīng)元的出現(xiàn);利用circle loss 改進(jìn)損失函數(shù)并在公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對(duì)比分析,驗(yàn)證所提算法的有效性。
傳統(tǒng)的行人重識(shí)別方法主要集中于研究行人的可視特征,包括顏色[4]、形狀等[5]。然而,行人特征易受場(chǎng)景變換、光線和遮擋等因素的影響,因此傳統(tǒng)行人重識(shí)別方法的泛化能力面臨很大挑戰(zhàn)。隨著深度學(xué)習(xí)的興起,文獻(xiàn)[6-7]率先在行人重識(shí)別的研究中引入卷積神經(jīng)網(wǎng)絡(luò)。憑借著卷積神經(jīng)網(wǎng)絡(luò)提取特征的高效性,深度學(xué)習(xí)在快速發(fā)展過(guò)程中逐漸成為研究行人重識(shí)別技術(shù)的主流方法。
基于深度學(xué)習(xí)的行人重識(shí)別方法有表征學(xué)習(xí)、度量學(xué)習(xí)和局部特征學(xué)習(xí)等,其中表征學(xué)習(xí)通過(guò)設(shè)計(jì)分類損失與對(duì)比損失來(lái)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí);度量學(xué)習(xí)旨在通過(guò)網(wǎng)絡(luò)學(xué)習(xí)兩幅圖像的相似度;局部特征學(xué)習(xí)則提取特征圖的各個(gè)局部特征,最后將各個(gè)局部特征進(jìn)行融合。
2016年,Geng 等[8]提出基于表征學(xué)習(xí)的方法,把ReID 問(wèn)題當(dāng)成是一個(gè)對(duì)不同種類的歸類問(wèn)題或者是一個(gè)驗(yàn)證問(wèn)題。該方法先用兩個(gè)子網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)模型,再以分類網(wǎng)絡(luò)預(yù)測(cè)圖像ID,最后用驗(yàn)證網(wǎng)絡(luò)判斷兩幅圖像是否屬于同一個(gè)行人。如果僅僅依靠行人的ID 信息,模型的泛化能力是比較差的;如果能利用行人數(shù)據(jù)的其他屬性,如性別、頭發(fā)、衣著等,就能結(jié)合行人ID 和其他屬性的損失,提高神經(jīng)網(wǎng)絡(luò)的泛化能力。
2019年,Zhang 等[9]提出語(yǔ)義緊密一致網(wǎng)絡(luò)模型,首次根據(jù)細(xì)粒度語(yǔ)義解決行人圖像中身體不對(duì)齊問(wèn)題。該方法將行人特征映射到三維空間中,把行人特征分為24 個(gè)部分以獲取細(xì)粒度語(yǔ)義信息,有效解決了因視角變化、姿勢(shì)變化和遮擋等引起的行人身體不對(duì)齊問(wèn)題,使得行人重識(shí)別算法能更好區(qū)分外觀相似的行人數(shù)據(jù)。
2020年,Zhang 等[10]提出一個(gè)關(guān)系感知全局注意力模塊,可以利用全局結(jié)構(gòu)信息更好地學(xué)習(xí)注意力,有效提取空間上不同區(qū)域之間的關(guān)系向量,使得特征圖既能表達(dá)局部特征,又能兼顧全局特征,從而提高了模型對(duì)行人特征的表達(dá)能力。
基于度量學(xué)習(xí)的方法利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)兩幅圖像的相似度特征,在行人重識(shí)別上表現(xiàn)為屬于同一個(gè)行人的幾幅不同圖像之間的相似度大于不同行人不同圖像之間的相似度。通過(guò)神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí),損失函數(shù)會(huì)讓屬于同一個(gè)行人的正樣本對(duì)數(shù)據(jù)之間的距離盡可能小,而使屬于不同行人的負(fù)樣本對(duì)數(shù)據(jù)之間的距離盡可能大。常用的度量學(xué)習(xí)損失方法有對(duì)比損失[11]、三元組損失[12-14]、四元組損失[15]、邊界挖掘損失[16]。
2017年,Zhao 等[17]首次在行人重識(shí)別研究中考慮人體結(jié)構(gòu)信息,并提出一種新型卷積神經(jīng)網(wǎng)絡(luò)Spindle Net。借助人體姿勢(shì)信息將行人分為肩膀、上半身、下半身、左右手、左右腳7 個(gè)部分,再將這7 個(gè)局部特征部分和完整的特征圖作為特征提取網(wǎng)絡(luò)的輸入,得到1 個(gè)全局特征和7 個(gè)局部特征,最后將得到的8 個(gè)特征融合成深度特征。
2018年,F(xiàn)an 等[18]提出了空間維度-通道維度并行網(wǎng)絡(luò)SCPNet,包含全局分支和局部分支兩部分。全局分支用全局平均池化獲得全局特征,局部分支將行人的特征圖在水平方向分為多份,并分別用水平池化獲得局部特征,然后將全局特征和局部特征融合獲得最終的特征表示。SCPNet 在完整圖像和遮擋圖像上均取得了很好的成績(jī)。
在行人目標(biāo)清晰可見(jiàn)而且沒(méi)有遮擋的數(shù)據(jù)集上,訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)會(huì)有較高的準(zhǔn)確率,但其泛化能力受到限制,對(duì)于那些被遮擋的對(duì)象可能無(wú)法識(shí)別。隨機(jī)擦除[19]的提出便是為了解決遮擋問(wèn)題,隨機(jī)擦除后的數(shù)據(jù)樣本效果如圖1所示。
圖1 隨機(jī)擦除前后的數(shù)據(jù)樣本示例Figure 1 Data examples before/after random erasing
假設(shè)輸入原始圖像的寬、高分別為Wraw、Hraw,面積S=Wraw×Hraw;隨機(jī)擦除區(qū)域的寬、高分別為We、He,面積Se=We×He,則縱橫比為當(dāng)需要隨機(jī)擦除操作時(shí),首先在原始圖像上隨機(jī)找一個(gè)像素點(diǎn)P(xe,ye),若滿足
則將隨機(jī)擦除區(qū)域內(nèi)所有點(diǎn)的像素值改為(0,0,0)。
本節(jié)主要闡述骨干網(wǎng)絡(luò)ResNeSt、嵌入SE block、兩個(gè)新激活函數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)、損失函數(shù)的改進(jìn)。需要注意的是,雖然本文提出的兩個(gè)激活函數(shù)有一定的表征學(xué)習(xí)能力,但對(duì)于骨干網(wǎng)絡(luò)整體而言,新激活函數(shù)仍是通過(guò)劃分特征圖來(lái)提取局部特征的,屬于局部特征學(xué)習(xí)方法。
ResNeSt 是對(duì)ResNet 的改進(jìn),在單個(gè)網(wǎng)絡(luò)內(nèi)合并了特征圖的拆分注意力,即把每個(gè)塊的特征圖沿通道維度分成幾組和更細(xì)粒度的子組。其中,每個(gè)組的特征表示由其子組表示的加權(quán)組合確定。對(duì)特征圖的分組卷積和模塊化的Split-Attention 構(gòu)成了ResNeSt 網(wǎng)絡(luò)的殘差塊,而ResNeSt 則由ResNeSt block 堆疊而成。
ResNeSt 共進(jìn)行兩輪分組卷積,即Cardinal 組和split 組。先將輸入分成K個(gè)Cardinal組,再將每個(gè)Cardinal 分成R個(gè)split 組。在第k個(gè)Cardinal 和第r個(gè)split 中按比例劃分通道數(shù)目,然后跨通道進(jìn)行特征拼接,以便更好地聚合通道信息。
在ResNeSt 的Split-Attention 模塊中,首先將各分組進(jìn)行融合處理,然后接一個(gè)SE 結(jié)構(gòu),即全局池化+兩個(gè)全連接層,其中兩個(gè)全連接層都用1×1 卷積代替。全局池化的公式為
式中:特征圖Uk,V k ∈RH×W×C/K,i=1,2,···,H;j=1,2,···,W;k ∈1,2,···,K;K為基數(shù)組Cardinal 的數(shù)量,其中H、W、C為ResNeSt block 輸入特征圖的維度。全局池化主要用于收集上下文信息。輸入特征圖的每一個(gè)通道都是一個(gè)獨(dú)立的H ×W矩陣,對(duì)這個(gè)矩陣中所有元素加和求平均,得到第c個(gè)通道的skc;再對(duì)skc進(jìn)行r-Softmax,即按第r個(gè)split 組進(jìn)行Softmax 處理,得到各組的權(quán)重,其中r-Softmax 的計(jì)算公式為
根據(jù)全局上下文信息sk決定每個(gè)分組中第c個(gè)通道的權(quán)重Gci,按權(quán)重融合各組特征以輸出特征圖V k,則V k中第c個(gè)通道的融合計(jì)算公式為
在傳統(tǒng)的池化操作過(guò)程中,一般假設(shè)特征圖的每個(gè)通道是價(jià)值相等的,但實(shí)際情況可能并非如此。注意力機(jī)制可以減少無(wú)關(guān)信息對(duì)提取主要特征造成的干擾,從而提高網(wǎng)絡(luò)對(duì)特征的提取能力。SE block 即為在通道維度上添加的注意力機(jī)制,只需少量的計(jì)算便可以自動(dòng)學(xué)習(xí)通道特征的重要性。SE block 主要包含Squeeze 和Excitation 兩個(gè)操作,其實(shí)現(xiàn)過(guò)程如圖2所示[3]。
圖2 Squeeze-and-Excitation 模塊[3]Figure 2 Squeeze-and-Excitation block[3]
Squeeze 操作本質(zhì)上是一種特征壓縮的方式,主要通過(guò)特征圖的全局池化實(shí)現(xiàn),其計(jì)算公式與式(2) 相同,在此定義為
式中:Uc表示特征圖U中第c個(gè)二維矩陣。
Excitation 操作通過(guò)兩個(gè)1×1×c的全連接層對(duì)通道間的相關(guān)性進(jìn)行建模,輸出特征值對(duì)應(yīng)的權(quán)重,其計(jì)算公式為
式中:W1Zc表示第1 個(gè)全連接,σ表示Sigmoid 函數(shù),δ表示ReLU 激活函數(shù),W2δ即表示第2 個(gè)全連接操作。
SE block 的主要任務(wù)是學(xué)習(xí)通道之間的相關(guān)性,篩選出不同通道的注意力,于是本文將SE block 嵌入ResNeSt block 末尾(如圖8所示),以提高網(wǎng)絡(luò)對(duì)通道特征的提取能力。
為提高網(wǎng)絡(luò)對(duì)全局特征的表達(dá)能力,本文結(jié)合ReLU 和動(dòng)態(tài)學(xué)習(xí)因子,提出了1 個(gè)新的激活函數(shù)Weighted ReLU(WReLU),其中動(dòng)態(tài)學(xué)習(xí)因子Q為單個(gè)特征值與特征圖所有特征值之和的比值。將Q應(yīng)用于x軸正向并結(jié)合ReLU 即可得到新的激活函數(shù)WReLU。
傳統(tǒng)ReLU 函數(shù)代表的是修正線性單元,它是帶有卷積圖像輸入x的最大函數(shù)(x,0)。ReLU 函數(shù)將矩陣內(nèi)所有負(fù)值都設(shè)為0,讓其余的值保持不變,可用公式表示為
ReLU 的計(jì)算效率高,能使網(wǎng)絡(luò)快速收斂。當(dāng)x>0 時(shí),函數(shù)值保持不變,這樣可以使得特征延續(xù)到下一層網(wǎng)絡(luò),但不同特征的重要程度不同。然而,傳統(tǒng)ReLU 激活函數(shù)在通道特征學(xué)習(xí)過(guò)程中缺少控制因子,限制了不同通道的特征圖對(duì)激活值產(chǎn)生準(zhǔn)確響應(yīng)的可能性,影響模型的深度特征提取能力。
為更好地學(xué)習(xí)各通道注意力之間的響應(yīng)關(guān)系,并考慮到修正線性神經(jīng)元因其稀疏激活性更接近于腦神經(jīng)接受信號(hào)的激活模型,本文沿用ReLU 的分段線性函數(shù)思路,引入一個(gè)動(dòng)態(tài)學(xué)習(xí)因子豐富通道特征權(quán)重信息,形成新的激活函數(shù)WReLU。與ReLU 相比,WReLU 在梯度正向的取值為權(quán)重偏置項(xiàng)與x之和,其計(jì)算公式為
式中:Q×x為權(quán)重偏置項(xiàng),Q可以表示為
式中:xci,j表示第c個(gè)通道上特征圖矩陣中第i,j個(gè)元素的值。動(dòng)態(tài)學(xué)習(xí)因子Q表示x的權(quán)重,即x與全部通道特征圖所有元素絕對(duì)值之和的比值,故加入權(quán)重偏置項(xiàng)的激活函數(shù)對(duì)全局特征有更好的表達(dá)能力。
WReLU 對(duì)特征圖的變換如圖3所示。設(shè)輸入特征圖為3×3×1,以左上角的值1 為例,先計(jì)算出特征圖對(duì)應(yīng)的特征矩陣中各元素的絕對(duì)值之和為45,接著計(jì)算Q=1/45,則f(1)=1+Q×1=1.022;而?2<0,所以重置為0。重復(fù)以上操作即可得到圖3中的(b)。
圖3 WReLU 激活前后的特征圖示例Figure 3 Examples of feature maps before/after WReLU activation
當(dāng)自變量x ∈[0,1]時(shí),WReLU 和ReLU 函數(shù)圖形如圖4所示。當(dāng)x>0 時(shí),Q>0,所以x+Q×x>x;當(dāng)x=1 時(shí),fWReLU>1,而fReLU=1??梢?jiàn)x的權(quán)重Q越大,WReLU和ReLU 之間的差異就越大,相當(dāng)于增強(qiáng)了全局特征在x軸正區(qū)間的響應(yīng)值。
圖4 激活函數(shù)對(duì)比圖Figure 4 Comparison of activation function images
WReLU 雖然繼承了ReLU 能稀疏矩陣和加速收斂的優(yōu)點(diǎn),但是也繼承了ReLU 的缺點(diǎn)。ReLU 在負(fù)數(shù)區(qū)域被抑制的現(xiàn)象稱為Dead ReLU,即神經(jīng)元靜默,因此ReLU 在訓(xùn)練時(shí)很脆弱。當(dāng)x <0 時(shí),梯度為0。這個(gè)神經(jīng)元及之后神經(jīng)元的梯度永遠(yuǎn)為0,不再對(duì)任何數(shù)據(jù)有所響應(yīng),導(dǎo)致相應(yīng)參數(shù)永遠(yuǎn)不會(huì)更新,可能出現(xiàn)遺失部分重要特征的問(wèn)題。
為了解決可能遺失部分重要特征的問(wèn)題,傳統(tǒng)LeakyReLU 用一個(gè)極小值初始化網(wǎng)絡(luò)的神經(jīng)元,以此讓ReLU 在負(fù)數(shù)區(qū)域部分更偏向于激活而不是消失,其計(jì)算公式為
式中:Leaky 為一個(gè)很小的常量。這樣加入Leaky 后,LeakyReLU 保留了一些x軸負(fù)區(qū)間的值,使得x軸負(fù)區(qū)間的信息不會(huì)全部丟失。
由于LeakyReLU 的導(dǎo)數(shù)不為0,因此對(duì)于負(fù)值輸入都有一個(gè)梯度,以減少零梯度的產(chǎn)生,從而減少神經(jīng)元靜默現(xiàn)象的發(fā)生。與整個(gè)網(wǎng)絡(luò)的參數(shù)量相比,這種激活函數(shù)的參數(shù)量增加較少。因此,本文借鑒LeakyReLU 激活函數(shù)的思路,將Q應(yīng)用于x軸負(fù)區(qū)間,提出新的激活函數(shù)Leaky Weighted ReLU(LWReLU),使其在x軸正區(qū)間保持不變,而在x軸負(fù)區(qū)間用一個(gè)系數(shù)與特征值相乘。不同的是,LeakyReLU 的系數(shù)Leaky 為極小的固定值,而LWReLU 的系數(shù)Q由特征值和特征圖所有特征值之和的比值動(dòng)態(tài)決定,參見(jiàn)式(9)。因此,LWReLU 不僅沒(méi)有神經(jīng)元靜默的問(wèn)題,而且還有更好的全局表征能力,其公式為
LWReLU 對(duì)特征圖的變換如圖5所示。設(shè)輸入特征圖為3×3×1,以左上角的值1 為例,先計(jì)算出特征圖對(duì)應(yīng)的特征矩陣中各元素的絕對(duì)值之和為45,因?yàn)?>0,所以f(1)=1;而?2<0,所以f(?2)=×(?2)=?0.09。重復(fù)以上操作即得到圖5中的(b)。當(dāng)自變量x ∈[0,1]時(shí),LWReLU 和LeakyReLU 的函數(shù)圖形如圖6所示:
圖5 LWReLU 激活前后的特征圖示例Figure 5 Examples of feature maps before/after LWReLU activation
圖6 激活函數(shù)對(duì)比圖Figure 6 Comparison of activation function images
從圖6中可以看出:LeakyReLU 在x軸負(fù)方向的取值為固定值,而LWReLU 在x軸負(fù)方向的取值為動(dòng)態(tài)變化值。在x軸負(fù)方向上,x越小Q就越大,LWReLU 和LeakyReLU 之間的差異就會(huì)越大。
鑒于本文所提WReLU 是基于殘差網(wǎng)絡(luò)主體結(jié)構(gòu)設(shè)計(jì)的激活函數(shù),而LWReLU 是基于分組卷積特征圖局部設(shè)計(jì)的激活函數(shù);考慮到WReLU 稀疏網(wǎng)絡(luò)和收斂速度快的特點(diǎn),以及LWReLU 能避免神經(jīng)元靜默的問(wèn)題,本文嘗試根據(jù)這些特點(diǎn)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),在神經(jīng)網(wǎng)絡(luò)關(guān)鍵位置靈活運(yùn)用所提出的2 種不同的激活函數(shù)。
根據(jù)2.1 節(jié)所述及圖7的網(wǎng)絡(luò)結(jié)構(gòu),ResNeSt block 將特征圖中每個(gè)Cardinal 的R個(gè)split,以1×1 卷積和3×3 卷積來(lái)劃分通道,分別將各個(gè)split 提取的特征送進(jìn)Split-Attention的全局池化層,得到K組輸出。
圖7 ResNeSt 模塊Figure 7 ResNeSt block
本文實(shí)驗(yàn)設(shè)K=3 表示RGB 這3 個(gè)通道,將K組輸出在通道維度上進(jìn)行拼接,即通道特征聚合,最后接一層1×1 的卷積輸出至圖8的Conv3 層。
WReLU 和ReLU 的x軸負(fù)區(qū)間都為0,而ReLU 作為主流的激活函數(shù),在一定程度上反映了負(fù)區(qū)間為0 并不會(huì)影響網(wǎng)絡(luò)性能,于是本文主要在ResNeSt block 主體中使用WReLU,令x軸負(fù)區(qū)間仍為0。然而,x軸負(fù)區(qū)間為0 并不代表對(duì)網(wǎng)絡(luò)的最終性能毫無(wú)影響,即使是被丟棄的負(fù)值也可能是特征圖的重要部分。因此,在分組卷積過(guò)程中進(jìn)行特征聚合時(shí)可能會(huì)丟失大量的負(fù)值。
鑒于不想完全舍棄這些值,本文主要將LWReLU 應(yīng)用到SE block 和Split-Attention 中,令SE block 在提取通道特征的同時(shí)兼顧表達(dá)全局特征;而且Split-Attention 對(duì)每組特征進(jìn)行加權(quán)組合時(shí),仍然能保留x軸負(fù)區(qū)間的部分特征。實(shí)驗(yàn)結(jié)果表明,在Split-Attention 應(yīng)用LWReLU 能比傳統(tǒng)ReLU 更好地計(jì)算各組特征圖的權(quán)重。
盡管LWReLU 考慮了x軸負(fù)區(qū)間的通道特征,旨在保留潛在的重要特征,但若在網(wǎng)絡(luò)中全部應(yīng)用LWReLU,則會(huì)使更多原本不重要的特征納入計(jì)算,因此本文仍用WReLU 作為骨干網(wǎng)絡(luò)主體部分的激活函數(shù),而只在一些關(guān)鍵的網(wǎng)絡(luò)位置使用LWReLU。改進(jìn)后的ResNeSt block 如圖8所示,在圖8中可將K個(gè)Cardinal 和R個(gè)split 簡(jiǎn)化為1 個(gè)。
圖8 改進(jìn)的ResNeSt 網(wǎng)絡(luò)結(jié)構(gòu)Figure 8 Improved network structure of ResNeSt
特征學(xué)習(xí)有2 種基本范式:分類學(xué)習(xí)和樣本對(duì)學(xué)習(xí)。進(jìn)行分類學(xué)習(xí)時(shí),通常需要用到像cross entropy loss 等分類損失函數(shù)以優(yōu)化樣本和權(quán)重向量之間的相似度;進(jìn)行樣本對(duì)學(xué)習(xí)時(shí),通常需要用triplet loss 等度量損失函數(shù)。然而,以上兩種特征學(xué)習(xí)在優(yōu)化過(guò)程中缺乏靈活性,且收斂狀態(tài)不明確。為解決上述問(wèn)題,Sun 等[20]提出了統(tǒng)一兩種特征學(xué)習(xí)范式的circle loss,可以表示為
式中:sp為類內(nèi)相似度,sn為類間相似度,T表示單個(gè)樣本相關(guān)的類內(nèi)相似度分?jǐn)?shù)的總數(shù),L表示與給定特征空間中單個(gè)樣本相關(guān)的類間相似度分?jǐn)?shù)的總數(shù)。
cross entropy loss 作為常用的損失函數(shù),同樣有著凸優(yōu)化函數(shù)的優(yōu)點(diǎn),即利用梯度下降方法找到最優(yōu)解。cross entropy loss 的公式為
式中:概率分布p為期望輸出,概率分布q為實(shí)際輸出。
本文骨干網(wǎng)絡(luò)ResNeSt 未應(yīng)用傳統(tǒng)ReID 的三元組損失,為結(jié)合circle loss 和cross entropy loss 的優(yōu)點(diǎn),于是將兩者的輸出相加,得到改進(jìn)后的損失函數(shù)為L(zhǎng)circle+Lcross。
本文在Market1501[21]、DukeMTMC-ReID[22-23]和CUHK03-NP[24-25]這3 個(gè)主流的公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。如表1所示,Market1501 數(shù)據(jù)集包含1 501 個(gè)行人數(shù)據(jù),共32 668 幅行人圖像數(shù)據(jù);DukeMTMC-ReID 數(shù)據(jù)集包含1 404 個(gè)行人數(shù)據(jù),共36 411 幅行人圖像數(shù)據(jù);CUHK03-NP 數(shù)據(jù)集包含1 467 個(gè)行人對(duì)象,共13 164 幅行人圖像數(shù)據(jù)。CUHK03-NP 數(shù)據(jù)集根據(jù)不同的標(biāo)注方式分為detected 和labeled 兩部分,每部分均有獨(dú)立的訓(xùn)練集和測(cè)試集。其中前者的行人框數(shù)據(jù)由機(jī)器標(biāo)注,后者的行人框數(shù)據(jù)由人工標(biāo)注。本文在CUHK03-NP數(shù)據(jù)集上,采用了Zhong 等[24]的評(píng)估方式。
表1 數(shù)據(jù)集簡(jiǎn)介Table 1 Introduction to datasets
本文實(shí)驗(yàn)在NVIDIA TITANXP GPU 上進(jìn)行,使用Pytorch 為算法框架,ResNeSt50 為骨干網(wǎng)絡(luò)。輸入圖像在進(jìn)入網(wǎng)絡(luò)前先進(jìn)行隨機(jī)剪裁、水平翻轉(zhuǎn)和隨機(jī)擦除等數(shù)據(jù)增強(qiáng)操作,并調(diào)整圖像大小為256×128,進(jìn)行歸一化輸入神經(jīng)網(wǎng)絡(luò)。初始學(xué)習(xí)率lr 設(shè)置為0.02,每經(jīng)過(guò)一個(gè)epoch,學(xué)習(xí)率衰減為lr×0.965。實(shí)驗(yàn)的批大小設(shè)置為8,總共訓(xùn)練90 個(gè)epoch。預(yù)訓(xùn)練模型使用在ImageNet 已訓(xùn)練好的分類網(wǎng)絡(luò)ResNeSt50。本文所有實(shí)驗(yàn)均采用單一查詢,即每個(gè)行人在每個(gè)攝像機(jī)下只隨機(jī)選用1 幅圖像進(jìn)行查詢,用Rank-1 和均值平均精度mAP 評(píng)估行人重識(shí)別算法的性能。
將改進(jìn)后的模型分別在Market1501、DukeMTMC-ReID、CUHK03-NP 上進(jìn)行驗(yàn)證,并用Rank-1 和mAP 指標(biāo)進(jìn)行性能評(píng)估。其中,由Zheng 等提出的mAP 用來(lái)測(cè)試多攝像機(jī)下的行人檢索性能。Rank-1 表示在算法檢索后返回的有序列表中第1 位即為正確檢索目標(biāo)的命中率。
3.3.1 嵌入SE block 實(shí)驗(yàn)
嵌入SE block 后的模型在3 個(gè)數(shù)據(jù)集上的性能如表2所示。
表2 本文所提方法的消融實(shí)驗(yàn)Table 2 Ablation experiment of our proposed method%
由表2可以看出:改進(jìn)后模型在3 個(gè)數(shù)據(jù)集上的性能均有提升,特別是在DukeMTMCReID 的提升幅度較為明顯,這可能與數(shù)據(jù)集的拍攝成像等因素有關(guān)。在DukeMTMC-ReID上,Rank-1 和mAP 分別提升了1.22% 和2.23%;在Market1501 上,Rank-1 和mAP 分別提升了0.54% 和0.49%。
3.3.2 WReLU 激活函數(shù)實(shí)驗(yàn)
從表2還可以看出:當(dāng)骨干網(wǎng)絡(luò)單獨(dú)應(yīng)用WReLU 時(shí),在3 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均有明顯提升,其中實(shí)驗(yàn)數(shù)據(jù)取3 次重復(fù)實(shí)驗(yàn)的均值。在DukeMTMC-ReID 上,Rank-1 和mAP 分別提升了1.53% 和1.56%;在Market1501 上,Rank-1 和mAP 分別提升了0.54% 和1.42%。
3.3.3 LWReLU 激活函數(shù)實(shí)驗(yàn)
由表2可以看出:當(dāng)骨干網(wǎng)絡(luò)全部應(yīng)用LWReLU 時(shí),在3 個(gè)數(shù)據(jù)集上提升的整體性能不如WReLU 明顯。LWReLU 和WReLU 的主要區(qū)別在于,前者在負(fù)數(shù)區(qū)域的值為一個(gè)權(quán)重偏置項(xiàng)而后者為0,由此可見(jiàn)LWReLU 并不適合全局使用,也間接說(shuō)明了WReLU 在x軸負(fù)區(qū)間丟棄的大多為不影響網(wǎng)絡(luò)性能的次要特征。在DukeMTMC-ReID 上,Rank-1 和mAP 分別提升了0.77% 和2.08%;在Market1501 上,Rank-1 和mAP 分別提升了0.33% 和1.39%。
3.3.4 模型消融實(shí)驗(yàn)
為驗(yàn)證改進(jìn)后模型各部件的有效性,在3 個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),采用單一查詢模式并以Rank-1 和mAP 作為評(píng)價(jià)指標(biāo)。如表2所示,在ResNeSt50 網(wǎng)絡(luò)中嵌入SE block 后,模型的Rank-1 和mAP 指標(biāo)均有一定的提高;在CUHK03-NP 上用了改進(jìn)后的算法,Rank-1和mAP 分別提升19.09% 和17.13%;在Market1501 上用了改進(jìn)后的算法,Rank-1 和mAP分別提升0.98% 和2.11%;在DukeMTMC-ReID 上用了改進(jìn)后的算法,Rank-1 和mAP 分別提升2.02% 和2.56%。
3.3.5 與現(xiàn)有方法對(duì)比
如表3所示,改進(jìn)后的模型在行人數(shù)據(jù)集上有顯著提升,其中all 表示同時(shí)使用了SE+WReLU+LWReLU+circle loss 方法。2018年的AACN 同時(shí)使用姿態(tài)估計(jì)和身體部位關(guān)聯(lián)特征;2018年的SCPNet 將網(wǎng)絡(luò)分為全局分支和局部分支處理行人遮擋;2019年的GLAD運(yùn)用4 層監(jiān)督學(xué)習(xí)的多尺度特征融合方法;2020年的SCSN(4 stages) 引入特征聚合模塊和顯著特征提取單元,利用殘差雙注意模塊和非局部融合塊,能抑制前一個(gè)級(jí)聯(lián)階段學(xué)習(xí)到的顯著性特征,自適應(yīng)地學(xué)習(xí)其他潛在的顯著性特征。
表3 不同算法和模型的性能對(duì)比Table 3 Performance comparison of different algorithms and models%
相對(duì)而言,本文對(duì)特征圖的Cardinal 和split 進(jìn)行分割并提取殘差特征,且所用骨干網(wǎng)絡(luò)ResNeSt50 的主體結(jié)構(gòu)與SCSN 骨干網(wǎng)絡(luò)ResNet50 保持一致,故本文所提出的ResNeSt50+all 方法相當(dāng)于在SCSN stage I 階段前已進(jìn)行通道特征聚合,提取了基于通道注意力的深度特征,因此在Market1501 的Rank-1 上超過(guò)SCSN(4 stages)。當(dāng)骨干網(wǎng)絡(luò)換為更深層的ResNeSt269 時(shí),本文所提方法在Rank-1 和mAP 指標(biāo)上,均比ResNeSt50 和ResNeSt269 獲得更大幅度的提升,說(shuō)明了所提方法在殘差網(wǎng)絡(luò)上的有效性。
鑒于分組卷積和注意力機(jī)制可以增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征的能力,本文引入了SE block,能更好地學(xué)習(xí)通道特征,提高Split-Attention 計(jì)算各組特征圖的權(quán)重能力,增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型的性能;提出了激活函數(shù)WReLU 和LWReLU,具有更好的特征表達(dá)能力;結(jié)合了circle loss 和cross entropy loss,能優(yōu)化模型的訓(xùn)練效果。今后將研究無(wú)人機(jī)視角下的行人圖像,以及跨分辨率的行人重識(shí)別技術(shù),并充分挖掘無(wú)監(jiān)督學(xué)習(xí)樣本。