卓 力, 張時(shí)雨, 張 輝, 李嘉鋒
(北京工業(yè)大學(xué)信息學(xué)部, 北京 100124)
低空無(wú)人機(jī)作為一種航拍載具,具有成本低、體積小、機(jī)動(dòng)靈活、操縱方便等特點(diǎn). 近年來(lái),隨著相關(guān)技術(shù)及產(chǎn)業(yè)的發(fā)展,基于無(wú)人機(jī)的低空航拍技術(shù)得到廣泛應(yīng)用. 其通過(guò)機(jī)載高分辨率攝像機(jī)和數(shù)據(jù)回傳技術(shù)可清晰地捕捉地面目標(biāo),成像分辨率可達(dá)厘米級(jí)[1],對(duì)航空遙感和衛(wèi)星遙感形成了有效補(bǔ)充.
相應(yīng)地,無(wú)人機(jī)低空航拍產(chǎn)生的影像數(shù)據(jù)量也隨之急劇增多,僅憑人工判讀的方式對(duì)海量數(shù)據(jù)進(jìn)行解譯費(fèi)時(shí)費(fèi)力且效率低下. 因此,無(wú)人機(jī)影像的智能化處理逐漸成為人們研究的熱點(diǎn),其中無(wú)人機(jī)影像單目標(biāo)跟蹤是最具代表的基礎(chǔ)性技術(shù)之一,廣泛應(yīng)用于飛行器制導(dǎo)與導(dǎo)航、交通監(jiān)控、行政執(zhí)法、影視拍攝等多種場(chǎng)景. 它利用高效的圖像視頻處理及視覺(jué)計(jì)算方法對(duì)航拍影像中的目標(biāo)進(jìn)行跟蹤,獲取其運(yùn)動(dòng)軌跡信息,為后續(xù)高層次的影像智能化分析與處理任務(wù)提供基礎(chǔ).
由于低空無(wú)人機(jī)的航拍條件所限,相較于傳統(tǒng)的視頻監(jiān)控、人機(jī)交互等應(yīng)用場(chǎng)景,航拍影像中的目標(biāo)相對(duì)較小,所包含的視覺(jué)信息十分有限,這給目標(biāo)跟蹤帶來(lái)了巨大的挑戰(zhàn). 此外,以下因素也將使得無(wú)人機(jī)航拍影像中的目標(biāo)跟蹤技術(shù)面臨諸多挑戰(zhàn),包括:
1) 應(yīng)用場(chǎng)景復(fù)雜,易受到天氣、成像設(shè)備等因素的影響,導(dǎo)致目標(biāo)發(fā)生光照變化,運(yùn)動(dòng)模糊.
2) 無(wú)人機(jī)和目標(biāo)的相對(duì)位置易發(fā)生較大變化,導(dǎo)致目標(biāo)的尺度、姿態(tài)變化劇烈及部分遮擋和出視野等情況的頻繁發(fā)生.
3) 航拍拍攝視角廣,使得相似目標(biāo)增多.
針對(duì)上述問(wèn)題,學(xué)術(shù)界和工業(yè)界深入開(kāi)展了無(wú)人機(jī)影像單目標(biāo)跟蹤技術(shù)的研究,針對(duì)低空航拍影像的自身特點(diǎn)提出了各種解決方案.
依據(jù)跟蹤目標(biāo)的數(shù)目以及時(shí)限,可以將目標(biāo)跟蹤分為單目標(biāo)跟蹤和多目標(biāo)跟蹤、長(zhǎng)時(shí)跟蹤和短時(shí)跟蹤. 本文對(duì)單目標(biāo)跟蹤的研究進(jìn)展進(jìn)行綜述,并通過(guò)實(shí)驗(yàn)進(jìn)行分析、總結(jié)與展望.
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)性問(wèn)題,一直是人們的研究熱點(diǎn),它是指在起始幀中給定目標(biāo)的初始邊界框,并在后續(xù)幀中通過(guò)跟蹤方法預(yù)測(cè)目標(biāo)的邊界框. 圖1給出了一個(gè)典型的單目標(biāo)跟蹤過(guò)程,其中:圖1(a)是視頻序列的起始幀,紅色邊界框是待跟蹤的目標(biāo);圖1(b)是第t幀的目標(biāo)跟蹤的結(jié)果可視化,紅色邊界框是手工標(biāo)注的真實(shí)值,綠色邊界框是目標(biāo)跟蹤算法的預(yù)測(cè)值. 從實(shí)現(xiàn)技術(shù)手段上可以將目前的目標(biāo)跟蹤技術(shù)分為基于相關(guān)濾波的方法、基于深度學(xué)習(xí)的方法,以及基于相關(guān)濾波和深度學(xué)習(xí)相結(jié)合的方法三大類.
圖1 典型的視覺(jué)目標(biāo)跟蹤過(guò)程Fig.1 Typical visual object tracking process
1.1.1 相關(guān)濾波的基本原理
f(z)=wTz
(1)
定義.相關(guān)濾波利用正則化最小二乘法(regularized least squares,RLS)構(gòu)造二次損失L(y,f(x))=(y-f(x))2.研究表明,在許多實(shí)際問(wèn)題中,RLS可以獲得與支持向量機(jī)(support vector machine,SVM)相當(dāng)?shù)姆诸愋阅躘3].利用正則化最小二乘法,可以通過(guò)最小化
(2)
得到分類器參數(shù)w.式中λ為防止過(guò)擬合的正則化參數(shù).相關(guān)濾波的跟蹤過(guò)程,即是求解分類器參數(shù)w的過(guò)程.一般地,基于相關(guān)濾波的目標(biāo)跟蹤算法主要包括如下3個(gè)部分.
1) 初始化模型.
利用起始幀給定的目標(biāo)位置和起始幀圖像來(lái)求解分類器參數(shù)w.Rifkin等[3]證明式(2)具有封閉解,并且為了方便后續(xù)在頻域計(jì)算,其封閉解的復(fù)數(shù)形式可由
w=(XHX+λI)-1XHy
(3)
給出.式中XH表示Hermitian轉(zhuǎn)置.求解式(3)涉及高維度矩陣的逆運(yùn)算,實(shí)現(xiàn)中通常利用循環(huán)矩陣性質(zhì)[4-5]避開(kāi)直接進(jìn)行復(fù)雜的矩陣求逆計(jì)算.同時(shí),所有循環(huán)矩陣都是通過(guò)離散傅里葉變換(discrete Fourier transform,DFT)對(duì)角化得到的.對(duì)于任意的生成向量x,可以由
(4)
得到其循環(huán)矩陣X.式中:F為不依賴于x的常數(shù)矩陣;^表示向量的DFT變換.對(duì)于式(3)中的XHX項(xiàng),可轉(zhuǎn)化為
XHX=Fdiag(*)FHFdiag()FH
(5)
由于對(duì)角矩陣是對(duì)稱的,因此,經(jīng)過(guò)Hermitian轉(zhuǎn)置只留下一個(gè)復(fù)數(shù)共軛*.對(duì)角矩陣的運(yùn)算是對(duì)應(yīng)元素運(yùn)算的,可定義對(duì)應(yīng)元素相乘的運(yùn)算為⊙.式(3)可以求解為
(6)
(7)
根據(jù)文獻(xiàn)[4]的推導(dǎo),通過(guò)核函數(shù)映射的嶺回歸解可表示為
α=(K+λI)-1y
(8)
式中:K為核函數(shù)矩陣;α為系數(shù)αi的向量,即對(duì)偶空間中的解.此時(shí),再次利用循環(huán)矩陣性質(zhì)推導(dǎo)式(8),可以得到
(9)
2) 快速定位目標(biāo)位置.
對(duì)于第t幀,通過(guò)濾波模板測(cè)試樣本及濾波器參數(shù),利用
(z)=xz
(10)
求得相關(guān)濾波響應(yīng)圖.然后,將響應(yīng)圖(z)通過(guò)離散傅里葉逆變換到時(shí)域后,找到響應(yīng)值最大的位置,即是目標(biāo)的位置.
3) 更新模型參數(shù).
獲得第t幀的目標(biāo)位置后,在新的目標(biāo)位置提取新的濾波模板t,然后利用式(9)求解新的濾波器參數(shù)t,最后利用插值法以固定學(xué)習(xí)率η更新濾波模板以及濾波器參數(shù),即
=(1-η)t-1+ηt
(11)
=(1-η)t-1+ηt
(12)
1.1.2 相關(guān)濾波算法的發(fā)展
將相關(guān)濾波應(yīng)用于目標(biāo)跟蹤的開(kāi)創(chuàng)性工作是Bolme等[7]在2010年提出的最小輸出誤差平方和(minimum output sum of squared error, MOSSE)算法.作者采用自適應(yīng)相關(guān)濾波器對(duì)目標(biāo)的外觀進(jìn)行建模,并且利用快速傅里葉變換將卷積計(jì)算轉(zhuǎn)換到頻域變?yōu)橄喑耍玫巾憫?yīng)圖后再轉(zhuǎn)換回時(shí)域來(lái)求解目標(biāo)位置.由于使用了快速傅里葉變換,MOSSE處理視頻的速度達(dá)到了615幀/s.但該方法的跟蹤精度優(yōu)勢(shì)并不突出,直至2013年Henriques等[8]在MOSSE的基礎(chǔ)上提出了基于核函數(shù)的跟蹤- 檢測(cè)循環(huán)結(jié)構(gòu)(circulant structure of tracking-by-detection with kernels, CSK)算法,將跟蹤問(wèn)題轉(zhuǎn)化為求解線性分類器參數(shù),并利用循環(huán)矩陣的性質(zhì)避開(kāi)矩陣逆運(yùn)算推導(dǎo)出封閉解.計(jì)算過(guò)程同樣是利用了快速傅里葉變換在頻域求解,最后還利用核函數(shù)將輸入映射到高維特征空間,進(jìn)一步提升算法的性能.同時(shí),由于循環(huán)矩陣的引入,隱式地帶來(lái)了大量類似滑動(dòng)窗密集采樣[9]的學(xué)習(xí)樣本,所以CSK的運(yùn)算速度相比MOSSE雖降低到362幀/s,但跟蹤精度提升了近50%.
然而,CSK僅使用了灰度特征,對(duì)于無(wú)人機(jī)影像等復(fù)雜場(chǎng)景其性能不夠魯棒.所以,Dalal等[10]在CSK的基礎(chǔ)上引入梯度方向直方圖(histograms of oriented gradients, HOG)特征,構(gòu)建了KCF算法[2],將跟蹤結(jié)果精度提升了近20%.Danelljan等[11]則是在CSK的基礎(chǔ)上引入了目標(biāo)識(shí)別和目標(biāo)檢測(cè)中常用的顏色屬性特征(color names, CN)[12],提升了跟蹤性能.Bertinetto等[13]則提出了Staple跟蹤器,針對(duì)復(fù)雜場(chǎng)景影像中經(jīng)常出現(xiàn)的目標(biāo)形變和光照變化情況,設(shè)計(jì)了2個(gè)相關(guān)濾波器,分別采用HOG和CN特征,最終通過(guò)融合2個(gè)濾波器的結(jié)果實(shí)現(xiàn)目標(biāo)跟蹤.
目標(biāo)尺度變化在無(wú)人機(jī)等復(fù)雜場(chǎng)景經(jīng)常發(fā)生,但是上述方法均無(wú)法做到尺度自適應(yīng). 針對(duì)這一問(wèn)題,Li等[14]提出了尺度自適應(yīng)的多特征跟蹤(scale adaptive with multiple features tracker, SAMF)算法. 該算法采用了多尺度金字塔輸入方式,跟蹤過(guò)程中對(duì)每一種尺度的輸入都進(jìn)行相關(guān)濾波運(yùn)算,將響應(yīng)值最大的作為最終跟蹤結(jié)果. 研究結(jié)果表明,該算法對(duì)于不同尺度大小的目標(biāo)均可以取得良好的跟蹤結(jié)果. Danelljan等[15]提出的判別尺度空間跟蹤(discriminative scale space tracking, DSST)是一種新穎的尺度自適應(yīng)目標(biāo)跟蹤算法. 與SAMF算法不同的是,DSST算法設(shè)計(jì)了2個(gè)相關(guān)濾波器,即二維的位置濾波器和一維的尺度濾波器. 在當(dāng)前幀提取目標(biāo)的HOG和灰度特征與位置濾波器進(jìn)行相關(guān)運(yùn)算得到目標(biāo)位置,然后以目標(biāo)位置為中心,根據(jù)不同尺度提取HOG和灰度特征,并歸一化到同樣大小,再與尺度濾波器進(jìn)行相關(guān)運(yùn)算,找到響應(yīng)的最大值,更新目標(biāo)的尺度. 該算法也可以很好地應(yīng)對(duì)目標(biāo)的尺度變化問(wèn)題.
CSK算法引入的循環(huán)矩陣會(huì)帶來(lái)負(fù)面的邊界效應(yīng),從而限制了算法的性能,尤其是在無(wú)人機(jī)等復(fù)雜場(chǎng)景下,目標(biāo)的快速移動(dòng)和相機(jī)擾動(dòng)容易加劇邊界效應(yīng). 為此,Danelljan等[16]提出了空間正則化判別相關(guān)濾波器(spatially regularized discriminant correlation filter, SRDCF)算法,通過(guò)對(duì)濾波器在空間上的分布進(jìn)行正則化約束,有效抑制了邊界效應(yīng). 但是添加的正則化約束破壞了嶺回歸的封閉解,所以只能通過(guò)計(jì)算復(fù)雜度較高的高斯-塞德?tīng)柗椒?Gauss-Seidel method)迭代求解最優(yōu)的相關(guān)濾波器參數(shù),進(jìn)而算法的魯棒性有了明顯的提升,但是處理速度降至5 幀/s.
背景感知相關(guān)濾波器(background-aware correla-tion filter, BACF)算法[17]則是通過(guò)擴(kuò)大輸入的圖像塊來(lái)緩解邊界效應(yīng),但是這樣會(huì)使得濾波器過(guò)多地學(xué)習(xí)到背景,因此,對(duì)循環(huán)矩陣產(chǎn)生的樣本在空間中利用二值矩陣進(jìn)行裁剪,進(jìn)而提高樣本的質(zhì)量以得到更加魯棒的濾波器. 同樣,為彌補(bǔ)BACF的嶺回歸無(wú)封閉解問(wèn)題,作者利用交替方向乘子法(alternating direction method of multipliers, ADMM)[18]進(jìn)行迭代求解.
由于相關(guān)濾波器參數(shù)需要在線學(xué)習(xí),而無(wú)人機(jī)等復(fù)雜場(chǎng)景下頻繁發(fā)生的遮擋、形變、出視野等情況會(huì)產(chǎn)生低質(zhì)量的訓(xùn)練樣本. 如果此時(shí)進(jìn)行濾波器參數(shù)更新則會(huì)讓濾波器的可靠性隨時(shí)間衰變,因此,如何有效地更新濾波器參數(shù)逐漸成為學(xué)者們的研究熱點(diǎn). 增強(qiáng)記憶相關(guān)濾波(augmented memory for correlation filter, AMCF)算法[21]針對(duì)此問(wèn)題,設(shè)計(jì)了記憶存儲(chǔ)隊(duì)列和快速壓縮上下文學(xué)習(xí)方法,使得濾波器能夠適應(yīng)目標(biāo)新外觀的同時(shí)記住目標(biāo)之前的外觀,有效地提高了濾波器的判別能力. 訓(xùn)練集蒸餾(training-set distillation,TSD)[22]算法則針對(duì)濾波器可靠性降低的問(wèn)題,首先將跟蹤結(jié)果可信度高的幀作為關(guān)鍵幀,將跟蹤過(guò)程劃分為多個(gè)時(shí)隙. 在建立新的時(shí)隙后,對(duì)之前的樣本進(jìn)行加權(quán)融合,生成一個(gè)關(guān)鍵樣本,并通過(guò)能量最小化函數(shù)對(duì)其進(jìn)行評(píng)分. 當(dāng)時(shí)隙超過(guò)一定數(shù)量時(shí),則丟棄評(píng)分最低的樣本. 此方法有效地實(shí)現(xiàn)了訓(xùn)練集質(zhì)量的動(dòng)態(tài)優(yōu)化,進(jìn)而提高濾波器的魯棒性. Wang等[23]針對(duì)無(wú)人機(jī)視頻目標(biāo)跟蹤中相關(guān)濾波器更新問(wèn)題,設(shè)計(jì)了一種基于峰值旁瓣比的快速跟蹤穩(wěn)定性度量方法,并利用此方法自適應(yīng)地更新濾波器參數(shù)和模板,使得相關(guān)濾波算法對(duì)目標(biāo)復(fù)雜的外觀變化更加魯棒.
總的來(lái)說(shuō),早期的基于相關(guān)濾波的目標(biāo)跟蹤算法運(yùn)算速度快,便于移植到無(wú)人機(jī)機(jī)載嵌入式處理平臺(tái)上進(jìn)行實(shí)時(shí)運(yùn)行,但是跟蹤精度較低,難以滿足高精度的跟蹤需求,而經(jīng)過(guò)優(yōu)化后的各種基于相關(guān)濾波的目標(biāo)跟蹤算法在跟蹤精度上有了明顯的提升,隨之帶來(lái)的問(wèn)題是跟蹤速度有了明顯的下降.
近年來(lái),隨著無(wú)人機(jī)技術(shù)和圖形處理器(graphics processing unit, GPU)硬件的蓬勃發(fā)展,一些無(wú)人機(jī)的嵌入式開(kāi)發(fā)平臺(tái)已經(jīng)搭載了GPU,例如Nvidia公司的Jetson系列開(kāi)發(fā)平臺(tái),這使得無(wú)人機(jī)機(jī)載平臺(tái)運(yùn)行深度學(xué)習(xí)模型進(jìn)行影像的在線處理成為可能. 鑒于深度學(xué)習(xí)在目標(biāo)跟蹤、目標(biāo)分割等機(jī)器視覺(jué)任務(wù)中取得的巨大突破,學(xué)者們提出了各種基于深度學(xué)習(xí)的目標(biāo)跟蹤方法,總的可以分為基于孿生網(wǎng)絡(luò)(siamese neural network,SNN)的目標(biāo)跟蹤方法、基于分類卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的目標(biāo)跟蹤方法以及基于多任務(wù)學(xué)習(xí)的目標(biāo)跟蹤方法等. 下面對(duì)這些方法進(jìn)行綜述.
1.2.1 基于SNN的目標(biāo)跟蹤方法
近年來(lái),SNN被廣泛應(yīng)用于視覺(jué)目標(biāo)跟蹤. 對(duì)于給定的目標(biāo)區(qū)域和搜索區(qū)域圖像對(duì),SNN利用相同的計(jì)算函數(shù)將目標(biāo)區(qū)域和搜索區(qū)域編碼到同一特征空間,然后通過(guò)一些運(yùn)算生成響應(yīng)圖或邊框回歸系數(shù),進(jìn)而得到跟蹤結(jié)果. SNN能夠自動(dòng)學(xué)習(xí)到一種相似性度量,因此,推廣性好,并且大多數(shù)算法可以滿足實(shí)時(shí)性處理的需求.
基于SNN的目標(biāo)跟蹤方法的共同目標(biāo)是克服預(yù)訓(xùn)練CNN的局限性,充分利用端到端的離線學(xué)習(xí)進(jìn)行實(shí)時(shí)目標(biāo)跟蹤. SNN的基本框架如圖2所示,其中:z為從參考幀裁剪的包含有目標(biāo)的圖像塊;x為根據(jù)上一幀結(jié)果對(duì)當(dāng)前幀裁剪的可能包含目標(biāo)的搜索區(qū)域塊;φ為主干網(wǎng)路,一般是利用CNN實(shí)現(xiàn)特征提取操作,常用的CNN主干網(wǎng)絡(luò)包括AlexNet[24]、VGGNet[25-26]和ResNet[27]等;⊙代表不同孿生網(wǎng)絡(luò)的特征運(yùn)算,得到特定任務(wù)的預(yù)測(cè)值,用于獲得最終的跟蹤結(jié)果.
圖2 孿生網(wǎng)絡(luò)基本框架結(jié)構(gòu)Fig.2 Basic diagram structure of siamese neural network
基于回歸網(wǎng)絡(luò)的通用目標(biāo)跟蹤(generic object tracking using regression networks, GOTURN)[28]算法采用CaffeNet[29]作為CNN主干網(wǎng)絡(luò),分別提取前一幀目標(biāo)區(qū)域和當(dāng)前幀搜索區(qū)域的特征,經(jīng)過(guò)一系列全連接層預(yù)測(cè)當(dāng)前幀的邊界框回歸系數(shù),最后利用邊界框回歸系數(shù)和上一幀的預(yù)測(cè)的邊界框得到當(dāng)前幀的跟蹤結(jié)果.
孿生區(qū)域候選網(wǎng)絡(luò)(siamese region proposal network, SiamRPN)[30]則將跟蹤問(wèn)題轉(zhuǎn)化為局部區(qū)域的檢測(cè)問(wèn)題. 首先,通過(guò)孿生網(wǎng)絡(luò)提取目標(biāo)特征和局部搜索區(qū)域特征;然后,利用區(qū)域候選網(wǎng)絡(luò)(region proposal network, RPN)對(duì)每一個(gè)候選區(qū)域進(jìn)行前景背景的分類打分和邊界框回歸;最終,利用余弦窗和尺度懲罰挑選最優(yōu)的候選區(qū)域作為目標(biāo)的位置和大小. 這種方式可以巧妙地將目標(biāo)檢測(cè)網(wǎng)絡(luò)用于目標(biāo)跟蹤,使得SiamRPN的性能優(yōu)于大多數(shù)基于相關(guān)濾波的目標(biāo)跟蹤方法. Zhu等[31]在SiamRPN的基礎(chǔ)上提出了一種數(shù)據(jù)增強(qiáng)的方法,能夠改善訓(xùn)練數(shù)據(jù)中的非語(yǔ)義背景和具有語(yǔ)義的干擾物背景的數(shù)據(jù)不平衡問(wèn)題,利用改善后的訓(xùn)練數(shù)據(jù)對(duì)SiamRPN重新進(jìn)行訓(xùn)練,構(gòu)建了干擾感知的孿生區(qū)域候選網(wǎng)絡(luò)(distractor-aware SiamRPN, DaSiamRPN),使得算法的跟蹤精度有所提升. 任珈民等[32]則針對(duì)SNN只使用參考幀而不更新模型參數(shù)的不足,基于SiamRPN設(shè)計(jì)了一個(gè)可在線進(jìn)行訓(xùn)練的SNN模型,并且通過(guò)在SNN主干網(wǎng)絡(luò)中加入擠壓和激勵(lì)(squeeze and excitation, SE)[33]模塊來(lái)增強(qiáng)對(duì)任務(wù)有幫助的通道特征,進(jìn)一步提升網(wǎng)絡(luò)的特征表征能力,從而提升跟蹤性能.
Zhang等[34]從CNN主干網(wǎng)絡(luò)的角度出發(fā),對(duì)影響SNN跟蹤精度的因素進(jìn)行了系統(tǒng)的研究,并且得出結(jié)論:卷積過(guò)程中的填充操作會(huì)對(duì)跟蹤結(jié)果產(chǎn)生負(fù)面影響. 為了消除這一影響,作者提出了自裁殘差(cropping-inside residual, CIR)單元,并且利用CIR成功訓(xùn)練了采用ResNet-18等[27]作為主干網(wǎng)絡(luò)的SiamFC和SiamRPN算法. Li等[35]同樣通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),卷積過(guò)程中的填充操作破壞了網(wǎng)絡(luò)的平移不變性,會(huì)導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)到位置偏差. 作者據(jù)此提出了SiamRPN++算法. 在訓(xùn)練過(guò)程中,不再把正樣本塊放在圖像正中心,而是按照均勻分布的采樣方式讓目標(biāo)在中心點(diǎn)附近進(jìn)行偏移,進(jìn)而緩解填充操作帶來(lái)的負(fù)面影響.
孿生全卷積網(wǎng)絡(luò)(siamese fully convolutional, SiamFC)[36]采用AlexNet作為CNN主干網(wǎng)絡(luò)進(jìn)行特征提取,然后將目標(biāo)區(qū)域的特征和搜索區(qū)域的特征進(jìn)行互相關(guān)運(yùn)算,得到響應(yīng)圖. 將響應(yīng)圖的最大值作為目標(biāo)的位置,根據(jù)多尺度輸入獲取目標(biāo)的尺度. 由于其采用了全卷積的網(wǎng)絡(luò)結(jié)構(gòu),獲得了模型復(fù)雜度、計(jì)算效率與跟蹤性能的較好折中. 基于殘差注意力的孿生網(wǎng)絡(luò)(residual attentional siamese network, RASNet)[37]在SiamFC的基礎(chǔ)上加入了空間注意力、通道注意力以及殘差注意力機(jī)制,使得跟蹤精度和魯棒性進(jìn)一步得到優(yōu)化.
總的來(lái)說(shuō),基于SNN的目標(biāo)跟蹤方法在應(yīng)對(duì)無(wú)人機(jī)影像中的目標(biāo)尺度變化、縱橫比變化和目標(biāo)旋轉(zhuǎn)情況時(shí),能取得較為魯棒的跟蹤性能.
1.2.2 基于分類CNN的目標(biāo)跟蹤方法
該類方法的基本思想是將視頻幀分為背景和目標(biāo)區(qū)域,因此,將目標(biāo)跟蹤轉(zhuǎn)化為分類問(wèn)題. 多域網(wǎng)絡(luò)(multi-domain network, MDNet)算法[38]設(shè)計(jì)了一個(gè)包括3層卷積層和3層全連接層的輕型CNN結(jié)構(gòu),對(duì)候選樣本進(jìn)行目標(biāo)與背景的二元分類. 該方法的核心是引入了多域?qū)W習(xí)(multi-domain learning)策略,即對(duì)每一個(gè)新的影像序列,MDNet模型的最后一個(gè)全連接層需重新建立. 在離線訓(xùn)練過(guò)程中,對(duì)于每一個(gè)視頻序列首先重建最后一個(gè)全連接層,然后根據(jù)目標(biāo)位置生成一定數(shù)量的正負(fù)樣本,通過(guò)網(wǎng)絡(luò)進(jìn)行分類,不斷迭代學(xué)習(xí)網(wǎng)絡(luò)參數(shù). 在跟蹤過(guò)程中,固定3個(gè)卷積層的參數(shù),在線訓(xùn)練前2個(gè)全連接層和新建立的全連接層. 對(duì)于起始幀,產(chǎn)生正樣本和負(fù)樣本,并在后續(xù)幀中維護(hù)一個(gè)在線的樣本集. 雖然MDNet的跟蹤精度高,但由于需要判讀大量重復(fù)的候選樣本且模型須在線更新,使得該方法的運(yùn)算復(fù)雜度高,現(xiàn)有硬件難以實(shí)現(xiàn)實(shí)時(shí)處理.
Nam等[39]從模型的可靠性問(wèn)題角度出發(fā),指出現(xiàn)階段大部分算法的假設(shè)是模型一直是可靠的,每一幀都進(jìn)行參數(shù)更新. 然而,當(dāng)目標(biāo)受到遮擋或者消失在視場(chǎng)時(shí),模型再進(jìn)行更新就會(huì)導(dǎo)致跟蹤的可靠性降低. 為此,作者在MDNet的基礎(chǔ)上提出了一種樹(shù)形結(jié)構(gòu),用于在跟蹤過(guò)程中維護(hù)多個(gè)CNN模型,這樣有助于提高目標(biāo)外觀建模的可靠性. 通過(guò)對(duì)多個(gè)CNN的分類分?jǐn)?shù)加權(quán)平均得到每個(gè)候選區(qū)域的分?jǐn)?shù),進(jìn)而得到跟蹤結(jié)果.
基于檢測(cè)算法的mobilenet跟蹤器(mobilenet-based tracking by detection algorithm, MBMD)[40]將SiamRPN的思想和MDNet相結(jié)合,通過(guò)RPN產(chǎn)生目標(biāo)的大量候選區(qū)域,然后將候選區(qū)域送入驗(yàn)證網(wǎng)絡(luò)進(jìn)行分類打分,獲得最終的跟蹤結(jié)果. 當(dāng)跟蹤置信度很低時(shí),通過(guò)滑動(dòng)窗在全圖尋找目標(biāo).
1.2.3 基于多任務(wù)學(xué)習(xí)的目標(biāo)跟蹤方法
該類方法是采用多任務(wù)學(xué)習(xí)策略,通過(guò)共享隱含在多個(gè)相關(guān)任務(wù)中的知識(shí)來(lái)提升各個(gè)任務(wù)的性能,從而提高學(xué)習(xí)的效率.
基于重疊最大化的精確跟蹤(accurate tracking by overlap maximization, ATOM)算法[41]將跟蹤任務(wù)分解為目標(biāo)分類任務(wù)和目標(biāo)估計(jì)任務(wù),2個(gè)任務(wù)共享ResNet-18主干網(wǎng)絡(luò)的特征. 對(duì)于目標(biāo)分類任務(wù),作者認(rèn)為在線學(xué)習(xí)更加有效,因此,設(shè)計(jì)了2個(gè)卷積層將ResNet-18的Layer3輸出的特征映射成為一個(gè)二維的響應(yīng)圖,其中響應(yīng)值最大的位置就是目標(biāo)的位置. 對(duì)于目標(biāo)估計(jì)任務(wù),作者將目標(biāo)檢測(cè)中的交并比網(wǎng)絡(luò)(intersection-over-union network, IoU-Net)[42]改造為適用于目標(biāo)跟蹤任務(wù)的結(jié)構(gòu)——指定目標(biāo)IoU-Net. 在跟蹤過(guò)程中,首先通過(guò)在線學(xué)習(xí)的2個(gè)卷積層獲得目標(biāo)的位置,接著在目標(biāo)位置上產(chǎn)生一些候選區(qū)域,然后用指定目標(biāo)IoU-Net對(duì)候選區(qū)域進(jìn)行IoU分?jǐn)?shù)預(yù)測(cè),再利用梯度上升最大化IoU分?jǐn)?shù)精煉候選區(qū)域,最終融合IoU較優(yōu)的候選區(qū)域獲得跟蹤結(jié)果.
Zhang等[43]針對(duì)無(wú)人機(jī)場(chǎng)景下目標(biāo)易發(fā)生遮擋、出視野等情況,在ATOM的基礎(chǔ)上嵌入了SE模塊[33]以及重定位模塊,使得算法在目標(biāo)丟失后能夠再次被定位.
Wu等[44]針對(duì)無(wú)人機(jī)影像中出視野的情況將目標(biāo)跟蹤任務(wù)分解為分類任務(wù)和邊界框回歸任務(wù),利用MDNet對(duì)可能的目標(biāo)樣本進(jìn)行分類,利用SiamRPN++進(jìn)行候選區(qū)域邊界框回歸. 2個(gè)網(wǎng)絡(luò)并不相互獨(dú)立,而是通過(guò)一個(gè)判別策略,根據(jù)2個(gè)算法的候選區(qū)域分類分?jǐn)?shù)決定是擴(kuò)大搜索區(qū)域還是全圖尋找目標(biāo).
綜上所述,早期的深度學(xué)習(xí)目標(biāo)跟蹤方法由于多采用分類CNN網(wǎng)絡(luò)結(jié)構(gòu),在性能上略遜于相關(guān)濾波跟蹤方法. 但近幾年,隨著深度學(xué)習(xí)的發(fā)展和學(xué)者們的深入研究,針對(duì)目標(biāo)跟蹤任務(wù)而設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)逐漸呈現(xiàn)出多樣化. 例如,從早期的GOTURN到性能較好的SiamRPN,再到如今性能領(lǐng)先的SiamRPN++和ATOM,基于深度學(xué)習(xí)的目標(biāo)跟蹤方法克服了只能使用淺層網(wǎng)絡(luò)的限制,同時(shí)還遷移了目標(biāo)檢測(cè)任務(wù)中的模型,并針對(duì)目標(biāo)跟蹤任務(wù)進(jìn)行了改進(jìn). 實(shí)驗(yàn)對(duì)比結(jié)果表明,基于深度學(xué)習(xí)的目標(biāo)跟蹤方法已超越大部分基于相關(guān)濾波的方法,通過(guò)海量數(shù)據(jù)進(jìn)行端到端離線訓(xùn)練的優(yōu)勢(shì)正在逐漸顯現(xiàn). 然而,此類方法一般需要GPU硬件進(jìn)行加速才可能達(dá)到實(shí)時(shí)處理的要求. 為了滿足實(shí)際應(yīng)用需求,通常需要利用網(wǎng)絡(luò)剪枝、蒸餾等模型壓縮方法降低模型的計(jì)算復(fù)雜度,進(jìn)而適配到無(wú)人機(jī)影像處理平臺(tái)上.
1.3.1 相關(guān)濾波與深度卷積特征結(jié)合
鑒于深度學(xué)習(xí)具有強(qiáng)大的特征表達(dá)能力和上下文信息提取能力,而相關(guān)濾波方法具有簡(jiǎn)潔、高效的特點(diǎn),學(xué)者們也開(kāi)始嘗試將兩者相結(jié)合以實(shí)現(xiàn)復(fù)雜場(chǎng)景中的目標(biāo)跟蹤.
Danelljan等[45]深入研究了VGGNet-2048[26]中間層卷積特征對(duì)相關(guān)濾波算法跟蹤精度的影響. 實(shí)驗(yàn)結(jié)果表明,VGGNet-2048的第1個(gè)卷積層比較適用于相關(guān)濾波算法,并基于SRDCF構(gòu)建了跟蹤器DeepSRDCF,實(shí)現(xiàn)了從傳統(tǒng)手工特征到單層深度特征的升級(jí),顯著提升了跟蹤性能. 同一時(shí)期,分層卷積特征跟蹤器(hierarchical convolutional features tracker, HCF)[46]也將相關(guān)濾波與深度卷積特征相結(jié)合,但不同的是,HCF利用了CNN的高層語(yǔ)義特征和低層的紋理特征,即VGG-19[25]的conv5-4、conv4-4和conv3-4卷積層特征,并通過(guò)雙線性插值將3層的特征調(diào)整為同一分辨率,然后分別訓(xùn)練3個(gè)相關(guān)濾波器. 最后,將3個(gè)響應(yīng)圖以固定權(quán)重1.00、0.50、0.02的線性加權(quán)法合并為最終響應(yīng)圖,最大響應(yīng)點(diǎn)即為目標(biāo)位置. 但是,由于雙線性插值帶來(lái)的精度損失以及沒(méi)有針對(duì)邊界效應(yīng)進(jìn)行優(yōu)化,HCF的跟蹤性能遠(yuǎn)低于DeepSRDCF.
連續(xù)卷積算子跟蹤器(continuous convolution operator tracker, C-COT)[47]將DeepSRDCF的單層深度特征擴(kuò)展為多層深度特征(VGGNet-2048的layer1和layer5). 為了解決不同中間層輸出特征圖分辨率不同的問(wèn)題,提出了連續(xù)空間域插值轉(zhuǎn)換操作,在訓(xùn)練濾波器之前通過(guò)頻域隱式插值將特征圖插值到連續(xù)空域,方便集成不同分辨率的特征圖以保持目標(biāo)定位的高精度. 目標(biāo)函數(shù)通過(guò)共軛梯度下降法進(jìn)行迭代優(yōu)化,比高斯- 塞德?tīng)柗ㄋ俣雀?
高效卷積算子(efficient convolution operators, ECO)[48]在C-COT的基礎(chǔ)上,從3個(gè)方面進(jìn)行了優(yōu)化:一是提出了一種因子卷積算子,去除了對(duì)跟蹤過(guò)程沒(méi)有貢獻(xiàn)的濾波器,進(jìn)而解決模型過(guò)大的問(wèn)題;二是提出了一個(gè)更為緊湊的生成模型去除大量相似的冗余樣本,減少樣本數(shù)量,簡(jiǎn)化訓(xùn)練集;三是減少模型更新頻率來(lái)加快速度,對(duì)抗模型漂移. 經(jīng)過(guò)這些優(yōu)化操作,ECO的處理速度可以達(dá)到6幀/s且精度遠(yuǎn)超C-COT. 李國(guó)友等[49]對(duì)ECO的模型更新策略進(jìn)行優(yōu)化,加入了遮擋檢測(cè)算法和目標(biāo)重定位算法,為ECO的相關(guān)濾波器提供可靠的參數(shù)更新時(shí)機(jī),進(jìn)而提高模型的可靠性.
關(guān)鍵濾波器感知目標(biāo)跟蹤(keyfilter-aware object tracking, KAOT)算法[50]在BACF的基礎(chǔ)上引入了CN特征和VGGNet-2048的深度卷積特征,還針對(duì)無(wú)人機(jī)場(chǎng)景提出了keyfilter的思想,通過(guò)周期性選擇關(guān)鍵幀生成keyfilter用于學(xué)習(xí)上下文,進(jìn)而引導(dǎo)相關(guān)濾波器的訓(xùn)練. 這種方法在防止濾波器模板被污染的同時(shí),還將上下文信息傳遞給所有濾波器,從而獲得較好的跟蹤性能.
1.3.2 相關(guān)濾波與深度網(wǎng)絡(luò)模型的結(jié)合
還有一些研究工作將相關(guān)濾波與多種形式的CNN網(wǎng)絡(luò)進(jìn)行融合,實(shí)現(xiàn)了更為有效的時(shí)空特征提取、表達(dá)及度量.
CFNet[51]在SiamFC的基礎(chǔ)上,將相關(guān)濾波嵌入到CNN中,作為中間的一層用于目標(biāo)跟蹤. 在訓(xùn)練過(guò)程中,采用最小二乘法求解相關(guān)濾波運(yùn)算層參數(shù);在跟蹤過(guò)程中,采用原始的相關(guān)濾波方法進(jìn)行跟蹤. 作者還考慮到了邊界效應(yīng),在相關(guān)濾波運(yùn)算層之后添加了一個(gè)裁剪層裁剪出中間區(qū)域. Wang等[52]也提出了將相關(guān)濾波融入到CNN網(wǎng)絡(luò)結(jié)構(gòu)中,并命名為判別相關(guān)濾波器網(wǎng)絡(luò)(discriminant correlation filters network, DCFNet). DCFNet在跟蹤過(guò)程中采用漸進(jìn)式增量學(xué)習(xí)方法更新濾波器參數(shù),因此,跟蹤過(guò)程的DCFNet也可以看作是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN).
基于上下文感知深度特征壓縮和多自編碼器的跟蹤器(tracker based on context-aware deep feature compression with multiple auto-encoders, TRACA)[53]訓(xùn)練一組無(wú)監(jiān)督自編碼器(auto encoder,AE). 在跟蹤階段,通過(guò)訓(xùn)練好的上下文感知器挑選合適的自編碼器對(duì)目標(biāo)的深度特征進(jìn)行編碼,并將編碼后的特征應(yīng)用于相關(guān)濾波,對(duì)目標(biāo)進(jìn)行跟蹤.
Choi等[54]提出了一種注意力相關(guān)濾波網(wǎng)絡(luò)(attentional correlation filter network, ACFNV)用于進(jìn)行目標(biāo)跟蹤. 該網(wǎng)絡(luò)由2個(gè)主要部分組成:相關(guān)濾波器組和注意力網(wǎng)絡(luò). 根據(jù)跟蹤目標(biāo)的動(dòng)態(tài)特性,由注意力網(wǎng)絡(luò)自適應(yīng)選擇最優(yōu)濾波器子集對(duì)目標(biāo)進(jìn)行跟蹤,可以獲得更優(yōu)的跟蹤性能.
綜上所述,由于CNN的模型參數(shù)是通過(guò)海量數(shù)據(jù)進(jìn)行端到端離線訓(xùn)練獲得,在訓(xùn)練過(guò)程中,學(xué)者們還利用圖像的平移、旋轉(zhuǎn)、縮放、隨機(jī)遮擋、噪聲擾動(dòng)以及改變色差等方式增強(qiáng)數(shù)據(jù),使得深度特征相比于傳統(tǒng)手工特征能夠更好地應(yīng)對(duì)無(wú)人機(jī)場(chǎng)景下可能同時(shí)出現(xiàn)的目標(biāo)旋轉(zhuǎn)、遮擋和光照變化等復(fù)雜情況. 所以,上述方法將相關(guān)濾波中的傳統(tǒng)手工特征替換為深度卷積特征后都獲得了不同程度的性能提升. 然而,深度特征相比于傳統(tǒng)手工特征具有更高的特征維度且存在一定冗余,上述方法在使用深度特征的過(guò)程中,多數(shù)使用特征降維或利用某些策略挑選合適的深度特征用于相關(guān)濾波以減少模型參數(shù),提升算法的運(yùn)算速度和魯棒性.
數(shù)據(jù)集主要用于對(duì)算法的性能進(jìn)行評(píng)估和驗(yàn)證. 本節(jié)首先介紹幾種目前最常用的無(wú)人機(jī)影像目標(biāo)跟蹤公共數(shù)據(jù)集,然后介紹跟蹤性能評(píng)價(jià)指標(biāo).
規(guī)范、豐富、有標(biāo)注的真實(shí)場(chǎng)景數(shù)據(jù)是開(kāi)展視覺(jué)計(jì)算研究的關(guān)鍵要素. 近年來(lái),學(xué)者們陸續(xù)發(fā)布了多個(gè)針對(duì)無(wú)人機(jī)影像目標(biāo)跟蹤的數(shù)據(jù)集,代表性的數(shù)據(jù)集見(jiàn)表1.
表1 幾種常用的無(wú)人機(jī)影像目標(biāo)跟蹤數(shù)據(jù)集Table 1 Several public UAV imagery object tracking datasets
2.1.1 UAVDT數(shù)據(jù)集
UAVDT數(shù)據(jù)集[55]是面向多種視覺(jué)計(jì)算任務(wù)的數(shù)據(jù)集,包括目標(biāo)檢測(cè)、多目標(biāo)跟蹤和單目標(biāo)跟蹤. 對(duì)于單目標(biāo)跟蹤任務(wù),UAVDT提供了17個(gè)不同場(chǎng)景的50個(gè)視頻序列,每個(gè)視頻進(jìn)行了8個(gè)屬性的標(biāo)注,分別是背景雜亂(background clutter,BC)、相機(jī)旋轉(zhuǎn)(camera rotation,CR)、目標(biāo)旋轉(zhuǎn)(object rotation OR)、小目標(biāo)(small object,SO)、光照變化(illumination variation,IV)、運(yùn)動(dòng)模糊(object blur,OB)、尺度變化(scale variation,SV)和遮擋(large occlusion,LO). 視頻序列中的目標(biāo)種類有車輛、行人等,并且每幀數(shù)據(jù)都精準(zhǔn)地標(biāo)注了目標(biāo)的矩形外邊框.
2.1.2 UAV123數(shù)據(jù)集
UAV123數(shù)據(jù)集是Mueller等[56]在2016年發(fā)布的單目標(biāo)視覺(jué)跟蹤數(shù)據(jù)集. 它包含長(zhǎng)時(shí)跟蹤和短時(shí)跟蹤2個(gè)子任務(wù),其中長(zhǎng)時(shí)跟蹤有20個(gè)視頻序列,短時(shí)跟蹤則是將長(zhǎng)時(shí)跟蹤分割成子序列后再添加其他序列組成的123個(gè)視頻序列. 每個(gè)視頻擁有12個(gè)視頻屬性,分別為縱橫比變化、背景雜亂、相機(jī)擾動(dòng)、快速移動(dòng)、全部遮擋、光照變化、低分辨率、出視野、部分遮擋、相似目標(biāo)、尺度變化和視角變化. 視頻序列中的目標(biāo)種類有轎車、卡車、行人、船只等,并且每幀都有目標(biāo)標(biāo)注.
2.1.3 DTB70數(shù)據(jù)集
DTB70數(shù)據(jù)集[57]同樣也是單目標(biāo)視覺(jué)跟蹤數(shù)據(jù)集. 數(shù)據(jù)集包含70個(gè)視頻序列,總幀數(shù)約16 000,適合于短時(shí)跟蹤任務(wù). 每個(gè)序列有11個(gè)視頻屬性標(biāo)注,分別為相機(jī)擾動(dòng)、尺度變化、遮擋、出視野、相似目標(biāo)、縱橫比變化、背景擾動(dòng)、目標(biāo)變形、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)和運(yùn)動(dòng)模糊. 視頻序列中的目標(biāo)種類有行人、車輛和動(dòng)物等地面目標(biāo).
2.1.4 VisDrone數(shù)據(jù)集
VisDrone2018數(shù)據(jù)集是Zhu等[58]提出的用于無(wú)人機(jī)視覺(jué)挑戰(zhàn)賽的數(shù)據(jù)集,共有4個(gè)任務(wù),分別為圖像目標(biāo)檢測(cè)、視頻目標(biāo)檢測(cè)、多目標(biāo)跟蹤和單目標(biāo)跟蹤. 對(duì)于單目標(biāo)視覺(jué)跟蹤任務(wù),VisDrone2018提供了167個(gè)視頻序列,包含139 276個(gè)完全注釋的幀,分為4個(gè)子集,即訓(xùn)練集(86個(gè)序列,共69 941幀)、驗(yàn)證集(11個(gè)序列,共7 046幀)、測(cè)試挑戰(zhàn)集(35個(gè)序列,共29 367幀)和測(cè)試開(kāi)發(fā)集(35個(gè)序列,共32 922幀). 測(cè)試挑戰(zhàn)集是指在VisDrone2018單目標(biāo)跟蹤挑戰(zhàn)賽中提交的算法需要驗(yàn)證的數(shù)據(jù)集.
VisDrone2019[59]是2019年提出的數(shù)據(jù)集,其中單目標(biāo)跟蹤任務(wù)是在VisDrone2018測(cè)試挑戰(zhàn)數(shù)據(jù)集基礎(chǔ)上添加了25個(gè)新視頻序列,共82 644幀,用于VisDrone2019單目標(biāo)跟蹤挑戰(zhàn)賽.
VisDrone兩個(gè)數(shù)據(jù)集中每個(gè)視頻均具有12個(gè)屬性,其屬性定義與UAV123數(shù)據(jù)集相同. 視頻中目標(biāo)的種類為行人、車輛和動(dòng)物.
無(wú)人機(jī)影像目標(biāo)跟蹤數(shù)據(jù)集普遍采用OTB2013[60]中的評(píng)價(jià)準(zhǔn)則. 在評(píng)估算法時(shí)對(duì)每一個(gè)序列使用一次通過(guò)評(píng)估(one-pass evaluation,OPE)方法,即從起始幀初始化跟蹤算法開(kāi)始直至最后一幀,中間如果丟失目標(biāo),不會(huì)重新初始化跟蹤算法. 跟蹤結(jié)果的評(píng)價(jià)通常采用精準(zhǔn)度曲線圖(precision plot)和成功曲線圖(success plot).
2.2.1 精準(zhǔn)度曲線圖
2.2.2 成功曲線圖
(13)
式中:∩和∪分別為2個(gè)邊界框的交集和并集;|·|為區(qū)域中的像素?cái)?shù). 給定重疊分?jǐn)?shù)閾值0≤Toverlap_score≤1,則成功曲線圖表示St>Toverlap_score的所有幀數(shù)占視頻序列總幀數(shù)的百分比. 一般情況下,使用成功曲線圖的曲線下面積(area under curve,AUC)對(duì)跟蹤算法進(jìn)行排序.
本文選取UAVDT數(shù)據(jù)集[55]中的單目標(biāo)跟蹤任務(wù)數(shù)據(jù)集對(duì)目前比較典型的25個(gè)目標(biāo)跟蹤算法進(jìn)行了評(píng)估,這些算法分別為ATOM[41]、ARCF-HC[19]、ADNet[61]、C-COT[47]、CF2[46]、CFNet[51]、CN[11]、ECO[48]、GOTURN[28]、KCF[2]、MDNet[38]、SiamDW[34]、SiamFC[36]、SiamRPN++[35]、Staple[13]、SRDCF[16]、CREST[62]、FCNT[63]、HDT[64]、MCPF[65]、PTAV[66]、SINT[67]、SRDCFdecon[68]、staple_CA[69]和STCT[70]. 本文用于評(píng)估算法的實(shí)驗(yàn)平臺(tái)為Ubuntu 16.04,擁有Intel Xeon(R) E5-2602 v4 CPU,以及16GB內(nèi)存和Nvidia RTX 2080Ti GPU.
采用各個(gè)跟蹤算法得到的跟蹤成功曲線圖和精準(zhǔn)度曲線圖如圖3所示,表2給出了各個(gè)跟蹤算法在UAVDT數(shù)據(jù)集不同屬性下的AUC得分統(tǒng)計(jì)結(jié)果. 可以看到,目前性能最優(yōu)的前4名跟蹤算法分別為SiamRPN++、ATOM、SiamDW和MDNet,均為基于深度學(xué)習(xí)的方法. 另外,SiamRPN++和ATOM均采用了多任務(wù)學(xué)習(xí)策略,可以取得目前最優(yōu)的跟蹤性能.
圖3 不同跟蹤算法在UAVDT數(shù)據(jù)集上的性能曲線Fig.3 Performance curves of different tracking algorithms on UAVDT dataset
具體來(lái)講,對(duì)于基于深度學(xué)習(xí)的方法,由于SiamRPN++將跟蹤問(wèn)題拆解成邊界框分類和回歸問(wèn)題,并充分利用深層CNN作為主干網(wǎng)絡(luò)對(duì)候選區(qū)域進(jìn)行多級(jí)回歸預(yù)測(cè),這使得SiamRPN++在包含6個(gè)屬性的多個(gè)視頻序列上均取得了第1名. 同樣地,ATOM也將跟蹤任務(wù)拆解為目標(biāo)判別和位置估計(jì)2個(gè)子任務(wù),同時(shí)對(duì)CNN的中間層特征進(jìn)行融合,以增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力. 這使得ATOM在包含2個(gè)屬性的多個(gè)視頻序列上取得了第1名.
在基于相關(guān)濾波的目標(biāo)跟蹤算法中,ARCF-HC可以獲得最優(yōu)的跟蹤性能. 該算法針對(duì)無(wú)人機(jī)場(chǎng)景,對(duì)相關(guān)濾波檢測(cè)階段產(chǎn)生的響應(yīng)圖變化率進(jìn)行限制,進(jìn)而緩解模型的學(xué)習(xí)背景,使其在眾多基于相關(guān)濾波的跟蹤方法中脫穎而出,獲得第5名.
對(duì)于基于深度學(xué)習(xí)和相關(guān)濾波相結(jié)合的目標(biāo)跟蹤方法來(lái)說(shuō),性能最好的ECO算法在總體評(píng)估上排名第6. 該方法通過(guò)抑制相關(guān)濾波邊界效應(yīng),采用卷積特征的連續(xù)空間域插值及在線模型更新等策略可以獲得較高的跟蹤精度.
然而,同樣是基于深度學(xué)習(xí)的SINT性能卻差強(qiáng)人意,這是由于早期基于深度學(xué)習(xí)的方法往往采用自建的輕型CNN網(wǎng)絡(luò),無(wú)法利用大型的目標(biāo)檢測(cè)數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行高效的端到端離線預(yù)訓(xùn)練,造成模型的泛化能力較差. 可以看到,僅使用灰度特征和HOG特征的KCF算法的跟蹤性能甚至要優(yōu)于SINT. FCNT采用了在線訓(xùn)練的深度學(xué)習(xí)方法,其性能與MDNet相比相差甚遠(yuǎn),這是更新策略以及在線產(chǎn)生樣本的差異導(dǎo)致的.
考慮到不同算法的實(shí)現(xiàn)依賴于CPU或者GPU,所以本文對(duì)所有算法分別在各自依賴的硬件環(huán)境下進(jìn)行實(shí)時(shí)性測(cè)試,并且取每秒處理幀數(shù)大于25,即認(rèn)為達(dá)到了實(shí)時(shí)性要求. 所有算法的運(yùn)行效率評(píng)估結(jié)果見(jiàn)表2. 可以看到,在基于深度學(xué)習(xí)的方法中,需要在線訓(xùn)練的模型在本實(shí)驗(yàn)GPU硬件環(huán)境下均難以進(jìn)行實(shí)時(shí)運(yùn)算,而大多數(shù)離線訓(xùn)練的模型則可以在GPU支持下達(dá)到實(shí)時(shí). 基于相關(guān)濾波的方法雖不能通過(guò)GPU進(jìn)行加速運(yùn)算,但是在CPU環(huán)境下大部分可以實(shí)時(shí)運(yùn)算,而其中的小部分則是因?yàn)槭褂玫蠼鉄o(wú)法達(dá)到實(shí)時(shí). 基于深度學(xué)習(xí)和相關(guān)濾波相結(jié)合的一類方法則由于模型規(guī)模大及特征維度高,僅有TRACA、CFNet和DCFNet能達(dá)到實(shí)時(shí). 需要說(shuō)明的是,上述實(shí)驗(yàn)算法均針對(duì)具體的計(jì)算平臺(tái)進(jìn)行了專門的計(jì)算優(yōu)化與加速. 如今,一些分類CNN網(wǎng)絡(luò)在分類準(zhǔn)確率和模型復(fù)雜度之間得到了非常好的平衡,例如MobileNetV1[71]、MobileNetV2[72]以及ShuffleNetV2[73]等,其中性能最好的ShuffleNetV2(0.5×)模型參數(shù)僅為1.4 MB,并且在Qualcomm公司的Snapdragon 810 ARM上可以每秒處理57張224×224像素大小的圖像. 這為一些性能優(yōu)異的跟蹤算法在無(wú)人機(jī)機(jī)載嵌入式平臺(tái)上的實(shí)時(shí)實(shí)現(xiàn)提供了可行的優(yōu)化方向.
表2 幾種典型跟蹤算法在UAVDT數(shù)據(jù)集不同視頻屬性下的AUC分?jǐn)?shù)Table 2 AUC scores of several typical tracking algorithms under different video attributes on UAVDT dataset
如前文所述,在無(wú)人機(jī)航拍影像中,由于拍攝高度的原因會(huì)導(dǎo)致目標(biāo)的尺寸相對(duì)較小,所以目標(biāo)所包含的視覺(jué)信息十分有限,無(wú)疑給無(wú)人機(jī)航拍影像的目標(biāo)跟蹤帶來(lái)了巨大的挑戰(zhàn). 未來(lái)對(duì)于無(wú)人機(jī)影像目標(biāo)跟蹤的研究可從以下幾個(gè)方面展開(kāi):
1) 多尺度特征融合. 目標(biāo)的特征提取與表達(dá)是視覺(jué)跟蹤的核心問(wèn)題,CNN在此方面已經(jīng)表現(xiàn)了突出的優(yōu)勢(shì). CNN的不同卷積層特征包含了不同層次的紋理和抽象的語(yǔ)義信息,因此,如何有效地對(duì)各層特征進(jìn)行融合,以及各層特征對(duì)目標(biāo)跟蹤精度有著什么樣的影響,都是值得深入研究的問(wèn)題.
2) 場(chǎng)景上下文信息的有效挖掘和利用. 無(wú)人機(jī)影像中的目標(biāo)尺寸小,包含的視覺(jué)信息有限,而場(chǎng)景中的背景信息豐富. 通過(guò)利用這些場(chǎng)景的先驗(yàn)知識(shí),可以降低背景對(duì)目標(biāo)的干擾,進(jìn)而提升跟蹤的可靠性. 因此,如何充分挖掘無(wú)人機(jī)航拍影像中的各種時(shí)空上下文信息是另一個(gè)值得深入研究的問(wèn)題.
3) 多源多模態(tài)信息融合. 無(wú)人機(jī)影像采集時(shí)易受到復(fù)雜天氣因素的影響,此時(shí)僅利用無(wú)人機(jī)影像中的視覺(jué)信息無(wú)法獲得理想的跟蹤精度和可靠性,需要利用無(wú)人機(jī)平臺(tái)上的多種傳感器獲得多源、多模態(tài)信息,如GPS、高度計(jì)、陀螺儀等,通過(guò)融合這些信息來(lái)提升影像目標(biāo)跟蹤的速度和精度.
4) 在線學(xué)習(xí)策略. 相關(guān)濾波以及一些基于在線學(xué)習(xí)的深度學(xué)習(xí)方法獲得的跟蹤性能大不相同,這是由于采用了不同的在線學(xué)習(xí)策略. 在無(wú)人機(jī)場(chǎng)景下,目標(biāo)遮擋、出視野等情況頻繁發(fā)生,如果每幀都更新算法的參數(shù),則會(huì)在上述情況發(fā)生時(shí)學(xué)習(xí)到背景,進(jìn)而降低跟蹤的可靠性. 所以,如何利用在線學(xué)習(xí)策略、設(shè)計(jì)相應(yīng)的更新機(jī)制是值得深入探討的問(wèn)題.
5) 計(jì)算高效的模型. 航拍視頻處理(尤其是飛行器的視覺(jué)導(dǎo)航)平臺(tái)對(duì)目標(biāo)跟蹤處理的實(shí)時(shí)性有著很高的要求. 基于深度學(xué)習(xí)的目標(biāo)跟蹤方法雖然可以獲得最優(yōu)的跟蹤精度,但是計(jì)算復(fù)雜度高,嚴(yán)重限制了實(shí)際應(yīng)用的場(chǎng)合. 如何降低跟蹤算法的計(jì)算復(fù)雜度,使其能運(yùn)行于低功耗、低算力的機(jī)載處理平臺(tái),還亟需進(jìn)行深入的優(yōu)化研究.