張 樂,韓 華,王春媛,馬才良,王婉君,湯辰玉
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要的研究方向?,F(xiàn)已廣泛地應(yīng)用在公共安防[1-5]、自動(dòng)跟蹤[6]等方面。目標(biāo)跟蹤旨在當(dāng)給定視頻序列的第一幀的目標(biāo)邊界框的情況下,利用跟蹤算法在視頻序列的后續(xù)幀中定位該目標(biāo)的準(zhǔn)確位置,并同樣使用邊界框在視頻幀中進(jìn)行目標(biāo)的框定。盡管目標(biāo)跟蹤領(lǐng)域在多方面探討中已經(jīng)取得了可觀進(jìn)展,然而在一些類似于光照變化、遮擋、背景干擾等場景中也亟待更深入系統(tǒng)的研究。
近年來,在目標(biāo)跟蹤方面涌現(xiàn)出眾多的研究成果。尤其是基于暹羅(Siamese)網(wǎng)絡(luò)[7]的跟蹤算法,憑借著平衡的跟蹤準(zhǔn)確性和速度獲得了相關(guān)學(xué)者極大的關(guān)注。暹羅網(wǎng)絡(luò)的思想是將目標(biāo)跟蹤任務(wù)視為一個(gè)相似性匹配問題。具體來說,基于相似性匹配的跟蹤方法是以端到端的方式從大量的數(shù)據(jù)集中離線學(xué)習(xí)一個(gè)通用的相似性匹配函數(shù),訓(xùn)練目標(biāo)是使同一個(gè)物體的相似性最大,不同物體的相似性最小。
盡管基于暹羅網(wǎng)絡(luò)的跟蹤算法已經(jīng)取得不小進(jìn)展,然而仍有改善和可提升空間。一方面,一些跟蹤算法僅僅采用有限的數(shù)據(jù)增強(qiáng)策略,這對(duì)于訓(xùn)練一個(gè)魯棒性的跟蹤器是不夠的。因此,有必要釋放訓(xùn)練數(shù)據(jù)的潛力來訓(xùn)練跟蹤算法。另一方面,基于暹羅網(wǎng)絡(luò)的一般跟蹤方法僅僅使用特征提取網(wǎng)絡(luò)的最后一層的輸出作為最終提取的特征圖。這會(huì)導(dǎo)致跟蹤器無法擁有比較強(qiáng)的判別能力。
為了解決上述問題,本文提出了一種特征聚合的模型預(yù)測目標(biāo)跟蹤方法。在模型層面,本文提出的多層特征聚合策略可以獲得更加高質(zhì)量的特征圖。
本文的跟蹤系統(tǒng)框架如圖1 所示。使用本文改進(jìn)的特征提取網(wǎng)絡(luò)進(jìn)行特征的提取,并對(duì)特征提取網(wǎng)絡(luò)的最后2 個(gè)網(wǎng)絡(luò)層進(jìn)行特征聚合操作,以獲得更加具有判別力的特征圖。隨后這些特征圖進(jìn)入模型預(yù)測模塊中進(jìn)行目標(biāo)的在線更新操作。再將更新得到的模板作為一個(gè)卷積核與測試集的特征圖進(jìn)行卷積操作。最終,模型輸出待跟蹤目標(biāo)的具體位置信息。
圖1 本文的跟蹤系統(tǒng)框架Fig. 1 The tracking system framework of this paper
為了提高定位的準(zhǔn)確性、降低計(jì)算量以及完成后續(xù)的多層特征聚合操作,本文對(duì)原始的特征提取網(wǎng)絡(luò)ResNet-50[8-9]進(jìn)行了如下的改進(jìn):
(1)由于卷積操作中較大的步幅會(huì)降低定位的準(zhǔn)確性,因此將特征提取網(wǎng)絡(luò)中的第三和第四個(gè)卷積層的步幅大小從2 設(shè)為1。
(2)由于特征聚合操作的網(wǎng)絡(luò)層需要相同的通道數(shù),故將第四個(gè)卷積層的通道數(shù)從2 048 變?yōu)? 024。
(3)在第三和第四層的后面分別加上一個(gè)卷積核大小為1×1 的卷積層來分別提取2 個(gè)層的特征,并命名為Conv3 和Conv4。
改進(jìn)的ResNet-50 層級(jí)結(jié)構(gòu)見表1。
表1 改進(jìn)的ResNet-50 層級(jí)結(jié)構(gòu)Tab.1 Improved ResNet-50 hierarchical structure
在目標(biāo)跟蹤領(lǐng)域,許多研究已經(jīng)證明淺層的特征圖包含目標(biāo)更多的位置信息,深層的特征圖包含目標(biāo)更多的語義信息。這些語義信息對(duì)目標(biāo)外觀差異有著較好的不變性。
在目前研究發(fā)展基礎(chǔ)上,本文提出了一個(gè)多層特征聚合策略,該策略將特征提取網(wǎng)絡(luò)的最后2 個(gè)特征提取層進(jìn)行聚合來獲得更加具有判別力的特征圖。
本文提出的多層特征聚合框架圖如圖2 所示。由圖2 可看到,Conv3 和Conv4 分別用來提取卷積塊3(Block3)和卷積塊4(Block4)的特征。因此,一共可以獲得2 張?zhí)卣鲌D。
圖2 多層特征聚合框架圖Fig. 2 Multi-layer feature aggregation framework diagram
為了描述每張?zhí)卣鲌D的波動(dòng)水平和感興趣目標(biāo)的置信度,本文使用公式(1)來計(jì)算每一個(gè)特征圖的平均峰相關(guān)能量(average peak-to-correlationenergy):
其中,是該特征圖中的最大值;是該特征圖的最小值;Vw,h是矩陣V中第w行第h列對(duì)應(yīng)的值;E是算術(shù)平均算子。
當(dāng)計(jì)算APCE值后,每張?zhí)卣鲌D的權(quán)重可以由式(2)計(jì)算求得:
當(dāng)計(jì)算αi后,使用式(3)進(jìn)行特征圖的聚合:
其中,Ωi為Conv(i)輸出的特征圖。
本文對(duì)算法的訓(xùn)練和評(píng)估參數(shù)進(jìn)行了設(shè)置,具體參數(shù)如下。
(1)訓(xùn)練方案:使用GOT10k[10]和LaSOT[11]數(shù)據(jù)集的訓(xùn)練集部分作為數(shù)據(jù)集,并從這2 個(gè)數(shù)據(jù)集中采樣20 000個(gè)視頻序列作為訓(xùn)練數(shù)據(jù)集。訓(xùn)練階段的初始學(xué)習(xí)率為0.001。優(yōu)化器ADAM 每15 個(gè)世代(epoch)衰減0.2。動(dòng)量設(shè)置為0.9,一共訓(xùn)練50 個(gè)世代,整個(gè)訓(xùn)練的時(shí)長大約為24 h。
(2)評(píng)估設(shè)計(jì):本算法使用VOT2018[12]和UAV123[13]作為評(píng)估數(shù)據(jù)集并使用PySOT 作為評(píng)估平臺(tái)。首先生成本算法的.txt 格式跟蹤結(jié)果,隨后通過PySOT 平臺(tái)對(duì)不同的評(píng)估數(shù)據(jù)集進(jìn)行評(píng)估,最終生成本文算法與不同跟蹤算法的比較結(jié)果。
為了量化所提出算法的跟蹤表現(xiàn),本文分別在VOT2018 以及UAV123 評(píng)估數(shù)據(jù)集上進(jìn)行評(píng)測,并與其他具有競爭力的跟蹤算法進(jìn)行對(duì)比分析。
2.2.1 VOT2018 評(píng)估分析
VOT2018 由60 個(gè)包含不同屬性的RGB 視頻序列組成。與大多數(shù)研究者相似,本文使用VOT 中的準(zhǔn)確度(A)、魯棒性(R)和平均期望均值(EAO)來評(píng)估不同的跟蹤算法。EAO作為一個(gè)跟蹤算法最終的評(píng)估指標(biāo)。通常EAO值越大,該跟蹤算法的性能越好。表2 為本文算法與4 個(gè)具有競爭力的跟蹤算法的對(duì)比結(jié)果。
表2 VOT2018 上不同跟蹤算法的比較Tab.2 Comparison of different tracking algorithms on VOT2018
由表2 分析可知,本文算法在對(duì)比的4 個(gè)跟蹤算法上表現(xiàn)居于第一。其僅僅在準(zhǔn)確率上比SiamRPN++算法低了1.17%,但在魯棒性和EAO指標(biāo)上均優(yōu)于對(duì)比的其他跟蹤算法。而且本文的算法在EAO指標(biāo)上比第二名SiamRPN ++算法高了3.86%,比基線算法DiMP(本文使用LaSOT 和GOT10k 的訓(xùn)練集訓(xùn)練DiMP 算法得出的結(jié)果)高了4.88%。這些結(jié)果充分證明了本算法的優(yōu)勢。
2.2.2 UAV123 評(píng)估分析
UAV123 數(shù)據(jù)集包含123 個(gè)由低空無人機(jī)采集的視頻序列。根據(jù)UAV123 的評(píng)估標(biāo)準(zhǔn),本文采用成功圖(success plot)和精確圖(precision plot)來對(duì)不同的算法進(jìn)行比較。圖3 為不同跟蹤算法在UAV123 上的成功率對(duì)比圖和精確度對(duì)比圖。圖4為不同跟蹤算法在UAV123 數(shù)據(jù)集上12 個(gè)不同跟蹤屬性的對(duì)比結(jié)果圖。
由圖3 分析可知,本文所提出的算法在成功率和精確率方面均取得第一的位置。在成功率方面,DiMP 為0.604,本文的算法成功率為0.631,超過了第二名DiMP 算法4.5%。在精確率方面,本文的算法為0.846,超過了第二名DiMP 算法4.4%。這些結(jié)果充分說明了本文算法具有優(yōu)秀的跟蹤性能。
圖3 UAV123 上不同跟蹤算法的比較Fig. 3 Comparison of different tracking algorithms on UAV123
由圖4 可看到,本文的算法在UAV123 所有8 個(gè)跟蹤屬性上的表現(xiàn)均高于基線算法,且有11 個(gè)跟蹤屬性都取得了第一的位置。這些結(jié)果說明了本文所提出的數(shù)據(jù)增強(qiáng)策略和特征聚合策略的有效性。
圖4 UAV123 不同屬性的跟蹤結(jié)果圖Fig. 4 Graph of tracking results for different attributes on UAV123
為了獲得更加魯棒性的特征圖、從而在模型預(yù)測器中進(jìn)行具有判別力的跟蹤表現(xiàn)研究,本文分別從數(shù)據(jù)和模型兩個(gè)方面進(jìn)行改進(jìn)。在數(shù)據(jù)方面,新引入了顏色抖動(dòng)以及自定義了運(yùn)動(dòng)模糊數(shù)據(jù)增強(qiáng)方式;在模型方面,首先對(duì)特征提取網(wǎng)絡(luò)ResNet-50 進(jìn)行了改進(jìn),然后在ResNet-50 的最后2 個(gè)特征提取層進(jìn)行了特征聚合操作。最終訓(xùn)練的跟蹤模型分別在VOT2018 和UAV123 數(shù)據(jù)集中進(jìn)行了評(píng)估。在VOT2018 上,本文的算法取得了第一的位置,并在EAO指標(biāo)上比第二名算法高出了3.86%,比基線算法DiMP 高出了4.88%。在UAV123 上,本文的算法同樣為最好的水平,同時(shí)在準(zhǔn)確度和精確度上比第二名算法分別提高了4.5%,4.4%。這些結(jié)果充分說明了本文所提出算法在跟蹤方面有著更好的表現(xiàn)。