翟冰,戴天虹
(東北林業(yè)大學(xué)機(jī)電工程學(xué)院,哈爾濱,150040)
傳統(tǒng)的動(dòng)物監(jiān)測(cè)方法,如標(biāo)記和現(xiàn)場(chǎng)調(diào)查等,不僅昂貴,而且很難提供實(shí)時(shí)和準(zhǔn)確的信息[1],因此,研究人員開始逐漸把重識(shí)別(re-identification)技術(shù)[2]應(yīng)用于保護(hù)稀有野生動(dòng)物和追蹤動(dòng)物個(gè)體領(lǐng)域,這對(duì)動(dòng)物行為和生態(tài)學(xué)研究及保護(hù)瀕危物種具有重要意義。近年來(lái),隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展以及無(wú)人機(jī)和相機(jī)陷阱等技術(shù)的逐漸成熟[3?5],人們收集了一些野生動(dòng)物圖像數(shù)據(jù)并在這些數(shù)據(jù)上進(jìn)行了重識(shí)別研究,其中包括但不限于針對(duì)靈長(zhǎng)類(Primates)動(dòng)物[6?7]、非洲森林象(Loxodonta cyclotis)[8]和北大西洋露脊鯨(Eubalaena glacialis)[9]等的重識(shí)別,這些重識(shí)別算法利用動(dòng)物的身體部位提取判別特征,然后根據(jù)提取的特征來(lái)區(qū)分不同個(gè)體,然而以上野生動(dòng)物重識(shí)別研究存在數(shù)據(jù)量較小和在非自然環(huán)境中捕獲等限制。從長(zhǎng)遠(yuǎn)角度看,如何設(shè)計(jì)重識(shí)別模型使其在自然環(huán)境下的較大規(guī)模野生動(dòng)物數(shù)據(jù)集上具有更高的準(zhǔn)確性和更好的泛化性,是野生動(dòng)物重識(shí)別研究領(lǐng)域中一個(gè)具有挑戰(zhàn)性的問(wèn)題。
由于深度神經(jīng)網(wǎng)絡(luò)最初應(yīng)用于圖像分類[10],因此早期的行人重識(shí)別研究是對(duì)整張圖像進(jìn)行全局特征學(xué)習(xí)[11]。東北虎(Panthera tigris altaica)重識(shí)別任務(wù)與行人重識(shí)別任務(wù)雖然同屬于檢索任務(wù),但東北虎靠四肢運(yùn)動(dòng),姿態(tài)變化比行人更大,并且光照條件不受約束,雜亂的背景、更隨機(jī)的遮擋和東北虎條紋的高度相似性,使東北虎重識(shí)別任務(wù)難度更大,但虎條紋圖案具有豐富的信息,可以作為判別虎身份的主要標(biāo)志[12]。Li等[13]構(gòu)建了野外東北虎重識(shí)別(Amur tiger re-identification in the wild,ATRW)數(shù)據(jù)集并提出幾個(gè)基線方法。Liu等[14]設(shè)計(jì)了一個(gè)姿態(tài)指導(dǎo)的補(bǔ)償特征學(xué)習(xí)(pose-guided complementary features learning,PGCFL)的雙流網(wǎng)絡(luò),利用虎頭朝左或朝右來(lái)輔助特征學(xué)習(xí)。Liu等[15]提出一個(gè)部分姿態(tài)引導(dǎo)網(wǎng)絡(luò)(part-pose guided network,PPGNet),該網(wǎng)絡(luò)包括1 個(gè)全局流(global stream)和2 個(gè)局部流(lo?cal stream),其中2 個(gè)局部流用來(lái)指導(dǎo)全局流對(duì)局部特征的學(xué)習(xí),雖然測(cè)試時(shí)僅使用全局流即可,但在訓(xùn)練時(shí)非常消耗資源和時(shí)間。
針對(duì)東北虎重識(shí)別,本研究設(shè)計(jì)一種結(jié)合指導(dǎo)學(xué)習(xí)和特征擦除的方法:一方面,設(shè)計(jì)包括全局流和局部流的雙流網(wǎng)絡(luò),融合局部流輸出特征與全局流輸出特征來(lái)指導(dǎo)全局流對(duì)細(xì)粒度特征的學(xué)習(xí);另一方面,基于判別感知機(jī)制(discrimination-aware mechanism,DAM)[16]對(duì)融合后的特征向量和全局流輸出的特征向量進(jìn)行特征擦除,以擦除后的特征訓(xùn)練網(wǎng)絡(luò),增強(qiáng)特征向量中更多元素的辨別能力,使模型獲得更全面、更具有魯棒性的東北虎特征表示,提高東北虎重識(shí)別的準(zhǔn)確率。
研究框架如圖1 所示,模型包括1 個(gè)全局流和 1個(gè)局部流,全局流與局部流之間的網(wǎng)絡(luò)權(quán)重參數(shù)不共享,主干網(wǎng)絡(luò)均為ResNet-50[17],同時(shí)將最后一個(gè)殘差塊的步長(zhǎng)設(shè)置為1,以獲得包含更多細(xì)粒度信息的高分辨率的特征圖。通過(guò)特征融合與損失計(jì)算實(shí)現(xiàn)局部流對(duì)全局流的指導(dǎo)學(xué)習(xí),通過(guò)DAM 指導(dǎo)特征擦除來(lái)提高模型的魯棒性。
圖1 東北虎重識(shí)別的整體框架Fig.1 The overall framework of Amur tiger recognition
1.1.1 局部流模型
在局部流中,首先利用分割掩碼(mask)與原圖相乘運(yùn)算得到東北虎前景圖,以減輕雜亂背景產(chǎn)生的影響,使網(wǎng)絡(luò)更關(guān)注東北虎本身,其中掩碼獲取屬于數(shù)據(jù)預(yù)處理部分,分割方法采用Mask R-CNN[18],同時(shí)對(duì)前景圖進(jìn)行邊緣裁剪(crop)以減輕后面劃分操作中因錯(cuò)位產(chǎn)生的影響,再將裁剪后的前景圖送入ResNet-50 前5 層中,得到輸出特征圖。目前的東北虎重識(shí)別方法主要基于身體條紋,為減輕對(duì)條紋豎直結(jié)構(gòu)的破壞,采用PCB[19]中的劃分方法將特征圖在豎直方向上切分,再對(duì)每個(gè)分塊進(jìn)行平均池化和降維操作,得到?local,i∈?256(i=1,2,···,8)。最后將提取到的細(xì)粒度特征在通道維度上進(jìn)行級(jí)聯(lián),得到特征向量?local∈?2048。
1.1.2 全局流模型
在全局流中,首先將原圖送入ResNet-50 前5 層中,通過(guò)全局平均池化操作得到全局特征向量?global∈?2048,對(duì)?global進(jìn)行批次標(biāo)準(zhǔn)化(batch normalization,BN)后再以全連接層(fully connected layer,F(xiàn)C)權(quán)重為指導(dǎo)進(jìn)行特征擦除操作。在最后的融合階段中,將?global與?local相加融合得到?fuse∈?2048,分別對(duì)?fuse和BN 層之后的融合特征進(jìn)行特征擦除。特征擦除只在訓(xùn)練階段使用,在測(cè)試階段僅使用全局流中經(jīng)過(guò)BN層后的特征進(jìn)行識(shí)別。
為了使類間的特征元素盡可能不同,在訓(xùn)練過(guò)程中,每次迭代將每個(gè)特征向量元素都分成低判別性特征元素和高判別性特征元素。對(duì)具有低判別性特征元素的集合迭代優(yōu)化,擦除具有高判別性的特征元素。利用DAM 獲得新的特征向量,以進(jìn)一步優(yōu)化模型參數(shù)。DAM 利用類之間差異的絕對(duì)值來(lái)確定應(yīng)該擦除的特征元素。具體地說(shuō),當(dāng)使用交叉熵?fù)p失(ID loss)來(lái)監(jiān)督分類任務(wù)時(shí),使用最后一個(gè)全連接層的權(quán)重w∈?C×D為指導(dǎo),將類內(nèi)特征距離盡可能拉近,類間距離盡可能拉遠(yuǎn),其中C是類別數(shù)目,D是一個(gè)特征向量的維度。特征的類別是由特征向量fi投影到權(quán)重向量[w1,???,wC]中來(lái)決定的,其中wl(l=1,2,···,C)是一個(gè)D維向量。通過(guò)訓(xùn)練使fi在wyi上的投影更長(zhǎng)(yi是fi的真實(shí)類別)。特征的每個(gè)維度的值和類權(quán)重越相似,則投影越長(zhǎng)。因此,類別權(quán)重可以表示類內(nèi)樣本的平均特征,類權(quán)重之間的差異可以表示類間樣本之間的差異。類別ci和類別cj之間差異的絕對(duì)值定義如下:
式中:Wi,j是一個(gè)D維向量,它表示ci和cj之間每個(gè)元素的差異性,其值越高,則對(duì)應(yīng)該位置的特征元素在兩類之間的判別性越強(qiáng)。通過(guò)兩個(gè)類別之間的差異來(lái)決定哪些特征元素需要進(jìn)一步優(yōu)化,當(dāng)差異性較小時(shí),意味著該特征元素在兩類之間的判別性較弱。為了選擇需要優(yōu)化的特征元素,采用一種門控機(jī)制對(duì)具有高判別性的特征元素進(jìn)行篩選與擦除。具體地說(shuō),采用不同類別權(quán)重之間差異絕對(duì)值的平均值來(lái)衡量特征元素的有效性,為了增加門控機(jī)制的靈活性,設(shè)置一個(gè)可調(diào)的參數(shù)λ,門控權(quán)重Ti,j定義如下:
為了進(jìn)一步優(yōu)化特征fi中與其他所有類別之間具有低判別性的特征元素,采用ci與其他類別之間的平均差異為指導(dǎo)進(jìn)行擦除,平均差異Wi,all定義如下:
通過(guò)采用相同的門控機(jī)制獲得門控權(quán)重Ti,all,然后得到fi相比于其他類別具有低判別性的新的門控特征Fi,all,其定義如下:
為了提高整體特征表示的魯棒性,采用新的門控特征計(jì)算引入標(biāo)簽平滑[20]后的交叉熵?fù)p失,公式如下:
式中:N為一個(gè)批次中的圖像數(shù)目;C為類別個(gè)數(shù);Fi,all表示第i個(gè)樣本的新的門控特征;yi表示第i個(gè)樣本對(duì)應(yīng)的真實(shí)標(biāo)簽;qi是一個(gè)C維向量,每一維的值的定義如式(8)所示;ε是一個(gè)很小的常數(shù),為0.1;wj和wl分別表示第j個(gè)類別和第l個(gè)類別對(duì)應(yīng)的權(quán)重向量,當(dāng)l=yi時(shí),wl表示第i個(gè)樣本對(duì)應(yīng)的真實(shí)類別的權(quán)重向量。
為了使網(wǎng)絡(luò)能夠?qū)W到更豐富的特征信息從而提高泛化能力,采用新的門控特征來(lái)計(jì)算錨樣本與負(fù)樣本之間的歐氏距離,使其優(yōu)化難度進(jìn)一步提升從而提高特征表示的魯棒性,公式如下:
式中:[·]+=max(·,0);α是一個(gè)預(yù)定義的值,設(shè)置為0.1;d(·)表示歐氏距離;fa和fp表示錨樣本與正樣本對(duì)應(yīng)的特征向量;Fa,n表示錨樣本相對(duì)于負(fù)樣本生成的新的門控特征向量;Fn,a表示負(fù)樣本相對(duì)于錨樣本生成的新的門控特征向量。
綜上所述,總體損失如下:
式中:LS_global為全局流的交叉熵?fù)p失;LS_fuse為融合特征的交叉熵?fù)p失;LTriH_fuse為融合特征的難三元組損失;θ和β分別是融合特征的交叉熵?fù)p失的權(quán)重和難三元組損失的權(quán)重。
采用Li等[13]構(gòu)建的野外東北虎重識(shí)別數(shù)據(jù)集作為試驗(yàn)數(shù)據(jù)集,該數(shù)據(jù)集規(guī)模相對(duì)較大且大多圖像是在自然環(huán)境下采集,由92 只東北虎的182 個(gè)實(shí)例組成,并且還包含3 649 個(gè)邊界框注釋,其中50 個(gè)實(shí)例由交叉攝像機(jī)捕獲,其余實(shí)例則在單攝像機(jī)下捕獲。60%單攝像機(jī)下的實(shí)例和40%交叉攝像機(jī)下的實(shí)例構(gòu)成了訓(xùn)練集,訓(xùn)練集共1 887 張圖像,包含75 只東北虎的107 個(gè)實(shí)例。測(cè)試集共1 762 張圖像,包含58 只東北虎的75 個(gè)實(shí)例。測(cè)試集中的每個(gè)圖像都將對(duì)整個(gè)測(cè)試集查詢1 次,因此測(cè)試集既是庫(kù)集也是查詢集。
操作系統(tǒng)為Windows 10專業(yè)版,中央處理器為In?tel Xeon Gold 6142,顯卡為2 塊NVIDIA GeForce RTX3090,每塊顯存為25.4 GB,深度學(xué)習(xí)框架采用Py?torch 1.10。輸入網(wǎng)絡(luò)的圖像均調(diào)整為256像素×512像素,批處理大小設(shè)置為16,使用Adam優(yōu)化器訓(xùn)練270個(gè)周期,初始學(xué)習(xí)率設(shè)置為0.000 3,前30個(gè)周期學(xué)習(xí)率從0.000 03線性增長(zhǎng)到0.000 3,后期每40個(gè)周期學(xué)習(xí)率縮減至之前的1/3。λ為1.5,θ和β分別為1.5和2.0。
東北虎的身體兩側(cè)可以看作不同的實(shí)例[19],因此通過(guò)水平翻轉(zhuǎn)可以進(jìn)一步擴(kuò)大數(shù)據(jù)集,得到新實(shí)例,最終數(shù)據(jù)集規(guī)模是原來(lái)數(shù)據(jù)集的2倍。采用3種類型的數(shù)據(jù)增強(qiáng)方法,分別是隨機(jī)旋轉(zhuǎn)(隨機(jī)選擇旋轉(zhuǎn)角度-10°~10°,圖2A)。隨機(jī)改變圖像屬性(亮度、對(duì)比度和飽和度,改變范圍均為0.8~1.2,圖2B)和隨機(jī)添加噪聲(圖2C)。
圖2 東北虎圖像的數(shù)據(jù)增強(qiáng)樣例Fig.2 Sample of data enhancement of Amur tiger image
在ATRW數(shù)據(jù)集上與CE[13]、Triplet Loss[13]、Aligned-reID[13]、PPbM-a[13]、PPbM-b[13]、PGCFL[14]和PPGNet[15]進(jìn)行比較,試驗(yàn)結(jié)果(表1)顯示,本研究提出的方法在所有指標(biāo)上均優(yōu)于后者。在ATRW 數(shù)據(jù)集上使用單攝像機(jī)的情況下,本研究方法在mAP、Rank-1 和Rank-5 上的準(zhǔn)確率分別達(dá)到92.1%、98.8%和99.6%,相比于最先進(jìn)的PPGNet,分別提高了1.5%、1.1%和0.5%;在使用交叉攝像機(jī)的情況下,本研究方法在mAP、Rank-1 和Rank-5 上的準(zhǔn)確率分別達(dá)到72.9%、94.1%和97.0%,相較于PPG?Net分別提高了0.3%、0.5%和0.3%。
表1 不同方法在ATRW數(shù)據(jù)集上的mAP、Rank-1和Rank-5的精度Tab.1 Accuracy of mAP,Rank-1,Rank-5 of different methods on ATRW dataset %
2.5.1 試驗(yàn)1
為測(cè)試算法中各模塊對(duì)模型性能的貢獻(xiàn),設(shè)計(jì)了消融試驗(yàn)。將未引入DAM 和局部流,但引入了難三元組損失和帶標(biāo)簽平滑的交叉熵?fù)p失的全局流模型作為基準(zhǔn)模型(baseline),比較了加入局部流、掩碼(未加入掩碼時(shí),局部流輸入與全局流輸入相同,即為原圖)、邊緣裁剪和DAM 后的試驗(yàn)數(shù)據(jù),以驗(yàn)證各模塊的效果,結(jié)果如表2 所示,每個(gè)模塊均對(duì)性能提升做出了貢獻(xiàn)。引入局部流后,模型在單攝像機(jī)和交叉攝像機(jī)下的mAP 指標(biāo)均有顯著提升,表明局部流的指導(dǎo)學(xué)習(xí)效果顯著,可以讓模型學(xué)習(xí)到更多的細(xì)粒度特征。局部流的輸入為分割前景圖時(shí),模型在單攝像機(jī)下的各項(xiàng)指標(biāo)具有小幅提升,在交叉攝像機(jī)下的mAP 指標(biāo)有大幅提升,提升5.7%,這是因?yàn)橥ㄟ^(guò)背景抑制的方法讓局部流更關(guān)注前景,即東北虎本身,有效減輕了背景變換造成的影響。引入裁剪操作后,各項(xiàng)指標(biāo)具有小幅度提升,這表明裁剪操作可在一定程度上減輕姿態(tài)錯(cuò)位對(duì)后續(xù)PCB分塊的影響,能更好地指導(dǎo)全局流對(duì)細(xì)粒度特征的學(xué)習(xí)。引入DAM 后,模型性能進(jìn)一步得到提升,在交叉攝像機(jī)下的mAP 指標(biāo)提升最大(提升2.6%),指導(dǎo)性的特征擦除使模型學(xué)習(xí)到的特征向量更具判別性,對(duì)背景的變換更具魯棒性。
表2 在ATRW數(shù)據(jù)集上以ResNet-50為主干網(wǎng)絡(luò)的消融試驗(yàn)Tab.2 Ablation study with ResNet-50 as the backbone on ATRW dataset %
2.5.2 試驗(yàn)2
針對(duì)局部流中PCB分塊操作對(duì)模型性能的影響進(jìn)行對(duì)比分析,在不改變其他條件的情況下,分別測(cè)試將特征圖分為1、2、4、8、16 塊的模型性能,如表3所示,N是豎直方向切分的塊數(shù),可以發(fā)現(xiàn)當(dāng)N為8時(shí),模型性能最優(yōu),因此在試驗(yàn)中將本研究中的模型特征圖等分為8塊。
表3 PCB分塊的結(jié)果Tab.3 PCB blocking results %
2.5.3 試驗(yàn)3
通過(guò)多次試驗(yàn)分析DAM中λ取值不同對(duì)最終結(jié)果的影響,這里僅對(duì)mAP 和Rank-1 兩項(xiàng)指標(biāo)進(jìn)行測(cè)試,將λ分別取值0.5、1.0、1.5、2.0 和2.5,結(jié)果如圖3 所示。當(dāng)λ值為1.5 時(shí),在單攝像機(jī)下和交叉攝像機(jī)下的mAP 和Rank-1 準(zhǔn)確率最高。這是因?yàn)楫?dāng)λ值較小時(shí),擦除的特征維度較多,導(dǎo)致不能充分表示圖像的語(yǔ)義信息,致使優(yōu)化不充分;當(dāng)λ值較大時(shí),擦除的特征維度較少,出現(xiàn)冗余,同樣不能較好的優(yōu)化。
圖3 不同λ值下的模型性能Fig.3 Model performance at different λs
2.5.4 試驗(yàn)4
為驗(yàn)證DAM 的有效性,在其他條件相同的情況下,將其與Dropout[21]和DropBlock[22]進(jìn)行比較,試驗(yàn)結(jié)果如表4 所示。綜合來(lái)看,無(wú)論是哪種特征擦除方法,單攝像機(jī)下的mAP 均不低于90.7%,交叉攝像機(jī)下的mAP均不低于71.6%,但DAM 相比于其他特征擦除方法表現(xiàn)更好,尤其在交叉攝像機(jī)下的mAP 指標(biāo)具有明顯提升,由此可見指導(dǎo)性擦除更具有針對(duì)性,可以有效提高特征向量的判別能力。
表4 DAM與其他特征擦除方法的差異Tab.4 Difference between DAM and other feature erasure methods %
為清晰直觀地表現(xiàn)本研究的識(shí)別效果,對(duì)ATRW 數(shù)據(jù)集下某些查詢圖像的前5 個(gè)排序結(jié)果進(jìn)行展示(圖4),綠線邊框表示正確的查詢結(jié)果,紅線邊框表示錯(cuò)誤的查詢結(jié)果。第1 組待檢索東北虎姿態(tài)變化較大,基準(zhǔn)模型在第5 序位出錯(cuò),本研究方法檢索結(jié)果全部正確;第2 組待檢索東北虎受光照影響較大,基準(zhǔn)模型在第4 序位出錯(cuò),本研究方法檢索結(jié)果全部正確;第3 組基準(zhǔn)模型在第5 序位出錯(cuò),主要因?yàn)楸诲e(cuò)誤檢索的東北虎的條紋與待檢索東北虎的條紋相似度較高,而本研究方法檢索結(jié)果全部正確;第4 組待檢測(cè)東北虎存在遮擋,基準(zhǔn)模型在第4序位出錯(cuò),本研究方法仍然全部檢索正確。總體來(lái)看,相較于基準(zhǔn)模型,本研究結(jié)合指導(dǎo)學(xué)習(xí)與特征擦除的方法可以使東北虎特征表示更具魯棒性,實(shí)現(xiàn)更高的重識(shí)別準(zhǔn)確率。
圖4 ATRW數(shù)據(jù)集部分圖像查詢排序結(jié)果樣例Fig.4 Sample sorting results of partial image queries in ATRW dataset
本研究針對(duì)東北虎重識(shí)別問(wèn)題提出了一種結(jié)合指導(dǎo)學(xué)習(xí)和特征擦除的方法,該方法設(shè)計(jì)了一種雙流網(wǎng)絡(luò),包括局部流和全局流,局部流采用分割后的前景圖作為輸入,并對(duì)全局流進(jìn)行指導(dǎo)學(xué)習(xí),使全局流獲得關(guān)于前景的更多的細(xì)粒度信息,同時(shí),在全局流和特征融合中引入DAM 對(duì)原始特征進(jìn)行特征擦除得到新的門控特征,利用新的門控特征進(jìn)行損失函數(shù)的計(jì)算,使得模型優(yōu)化更加困難,但是也讓模型泛化能力進(jìn)一步提高。在ATRW 數(shù)據(jù)集上的試驗(yàn)結(jié)果驗(yàn)證了本研究方法的有效性,消融試驗(yàn)對(duì)比了各模塊及超參數(shù)對(duì)于模型性能的影響。此外,無(wú)論是何種方法,單攝像機(jī)條件下的各評(píng)估指標(biāo)都明顯優(yōu)于交叉攝像機(jī)條件下的指標(biāo)。這是因?yàn)樵趩螖z像機(jī)條件下,采集的圖像是某只東北虎在某個(gè)攝像機(jī)下的連續(xù)圖像,這些圖像的背景、光照、遮擋和姿態(tài)等方面的變化不是很大。但在交叉攝像機(jī)條件下,采集的圖像是某只東北虎被2 個(gè)或2 個(gè)以上攝像機(jī)共同捕獲的圖像,即不同攝像機(jī)拍攝到同一只東北虎,因此不同攝像機(jī)采集到的東北虎圖像在時(shí)間、色調(diào)、拍攝角度和背景環(huán)境等諸多方面都存在著比較明顯的差異。在實(shí)際應(yīng)用中,提升模型在交叉攝像機(jī)條件下的識(shí)別準(zhǔn)確率具有十分重要的現(xiàn)實(shí)意義。整體而言,模型結(jié)構(gòu)挖掘判別特征信息的能力還有提升空間,如何進(jìn)一步優(yōu)化結(jié)構(gòu)和提高特征元素的判別能力以及將模型算法擴(kuò)展到其他野生動(dòng)物重識(shí)別應(yīng)用上是下一步要研究的內(nèi)容。