林淑彬,吳貴山,許甲云,楊文元
1.閩南師范大學(xué) 計(jì)算機(jī)學(xué)院,福建 漳州363000
2.閩南師范大學(xué) 福建省粒計(jì)算及其應(yīng)用重點(diǎn)實(shí)驗(yàn)室,福建 漳州363000
視頻目標(biāo)跟蹤在很多領(lǐng)域有廣泛的應(yīng)用,特別是在無(wú)人機(jī)(Unmanned Aerial Vehicle,UAV)[1-2]中。無(wú)人機(jī)用于航空攝影[3]、野生動(dòng)物保護(hù)[4]、智能視頻監(jiān)控[5]、交通監(jiān)視[6]和農(nóng)業(yè)植保[7]等領(lǐng)域。由于無(wú)人機(jī)多為高空拍攝,容易因快速運(yùn)動(dòng)、尺度變化、遮擋等場(chǎng)景的影響導(dǎo)致跟蹤漂移或丟失[8],因此如何有效地應(yīng)對(duì)這些挑戰(zhàn)[9-10]仍然是一項(xiàng)艱巨的任務(wù)。
近年來(lái),Bolme等人[11]提出MOSSE算法,首次在目標(biāo)跟蹤領(lǐng)域引入相關(guān)濾波(Correlation Filter,CF),獲得良好的跟蹤性能。Li等人在SRDCF算法[12]的基礎(chǔ)上,提出自適應(yīng)空間正則化STRCF濾波算法[13],進(jìn)一步減少邊界效應(yīng)的影響。陸惟見(jiàn)等人[14]結(jié)合卷積神經(jīng)網(wǎng)絡(luò),利用歷史跟蹤信息設(shè)計(jì)了多模板模型更新策略,解決未能充分利用歷史跟蹤信息的問(wèn)題,增強(qiáng)跟蹤魯棒性。謝潁曉等人[15]利用視頻序列的時(shí)空信息,對(duì)附近歷史幀的相關(guān)特征進(jìn)行策略性采樣,把得到的特征向量按照一定權(quán)重進(jìn)行聚合,提升了跟蹤性能。
隨著計(jì)算機(jī)視覺(jué)的發(fā)展,目標(biāo)跟蹤開(kāi)始應(yīng)用于無(wú)人機(jī)。Fu等人[16]通過(guò)學(xué)習(xí)多個(gè)部分背景感知濾波器來(lái)獲得魯棒目標(biāo)模型。Wang等人[17]提出無(wú)人機(jī)跟蹤的自適應(yīng)采樣算法,通過(guò)局部?jī)?nèi)核特征進(jìn)行編碼,采用邊緣盒方案和隨機(jī)抽樣作為訓(xùn)練樣本,結(jié)構(gòu)化支持向量機(jī)實(shí)現(xiàn)訓(xùn)練和跟蹤,取得良好的精度。Li等人[18-19]提出AMCF和ARCF跟蹤算法,運(yùn)用到實(shí)時(shí)的無(wú)人機(jī)跟蹤上。AMCF跟蹤算法通過(guò)記憶歷史幀信息來(lái)訓(xùn)練濾波模板,通過(guò)上下文背景學(xué)習(xí),增強(qiáng)模型判別能力,解決負(fù)樣本和背景噪聲干擾的問(wèn)題。而ARCF則是通過(guò)學(xué)習(xí)背景抑制來(lái)解決邊界效應(yīng)和背景噪聲干擾的問(wèn)題。兩者都是在學(xué)習(xí)背景感知相關(guān)濾波器BACF[20]跟蹤算法基礎(chǔ)上改進(jìn),進(jìn)一步增強(qiáng)相關(guān)濾波跟蹤算法的精度和魯棒性。Li等人[21]提出AutoTrack跟蹤算法,通過(guò)自動(dòng)時(shí)空正則化實(shí)現(xiàn)無(wú)人機(jī)目標(biāo)跟蹤,具有非常優(yōu)越的性能。
然而,在某些無(wú)人機(jī)跟蹤場(chǎng)景中,如相機(jī)運(yùn)動(dòng)、快速運(yùn)動(dòng)、尺度變化等,一些跟蹤器難以獲取足夠的目標(biāo)信息,未能體現(xiàn)良好的跟蹤效果。為提高跟蹤性能引入了一些改進(jìn)策略,但影響了跟蹤速度。同時(shí),隨著背景信息的增加,會(huì)帶來(lái)更多的背景噪聲。
為了獲得更好的跟蹤性能,提高在相機(jī)運(yùn)動(dòng)和尺度變化等場(chǎng)景下跟蹤的魯棒性,本文提出一種多幀監(jiān)督的相關(guān)濾波無(wú)人機(jī)目標(biāo)跟蹤(Multi-frame Surveillance of correlation filter in UAV object Tracking,MSUT)算法。在訓(xùn)練過(guò)程中加入多幀歷史信息,充分利用真實(shí)背景,并擴(kuò)大搜索范圍,根據(jù)跟蹤過(guò)程中視圖的像差,監(jiān)督響應(yīng)圖變化,提高跟蹤的性能。首先,由于相關(guān)濾波器在訓(xùn)練過(guò)程中主要關(guān)注前一幀的信息容易導(dǎo)致跟蹤漂移,MSUT算法采用裁剪操作提高樣本質(zhì)量,在訓(xùn)練中加入多個(gè)歷史視圖信息,提高濾波器的魯棒性;然后,提取HOG特征和顏色特征來(lái)訓(xùn)練相關(guān)濾波器,生成特征響應(yīng),采用歐幾里德范數(shù)定義特征響應(yīng)圖的像差,通過(guò)監(jiān)督像差的變化判斷目標(biāo)是否發(fā)生漂移等情況,從而得到目標(biāo)的準(zhǔn)確位置;最后,根據(jù)圖像的相似度更新目標(biāo)模型和相關(guān)參數(shù)。在UAV123和VisDrone2019兩個(gè)數(shù)據(jù)集上與其他跟蹤算法進(jìn)行比較,結(jié)果表明在尺度變化、相機(jī)運(yùn)動(dòng)等無(wú)人機(jī)場(chǎng)景中該算法取得較好的跟蹤效果,進(jìn)一步增強(qiáng)了跟蹤的魯棒性和準(zhǔn)確性。
由于無(wú)人機(jī)跟蹤環(huán)境的挑戰(zhàn)性,很多跟蹤器如基于深度學(xué)習(xí)[22]和基于孿生網(wǎng)絡(luò)[23-24]的跟蹤框架,較難實(shí)現(xiàn)無(wú)人機(jī)的實(shí)時(shí)目標(biāo)跟蹤。而基于CF的跟蹤器適合無(wú)人機(jī)跟蹤場(chǎng)景。
CF跟蹤器通過(guò)從d個(gè)特征通道中學(xué)習(xí)模型h來(lái)描述目標(biāo),公式表示為:
式中,xi和hi分別表示第i個(gè)通道的圖像特征和濾波器模型。符號(hào)*為空間相關(guān)算子,y為期望響應(yīng)。λ是正則化參數(shù),用來(lái)控制過(guò)度擬合。
BACF利用增強(qiáng)背景信息,獲得真實(shí)負(fù)樣本。對(duì)于d通道的樣本圖像x,響應(yīng)y,BACF的最終目標(biāo)是最小化函數(shù)f(h):
其中,B為裁剪矩陣,用于選取輸入樣本x的每個(gè)通道的中心元素。ht為在第t個(gè)通道中學(xué)習(xí)到的目標(biāo)模型。操作符*是一個(gè)相關(guān)算子。
BACF跟蹤器通過(guò)引入裁剪矩陣,用真實(shí)的背景信息替換模型的循環(huán)移位,擴(kuò)大了搜索區(qū)域[25]。因此,在無(wú)人機(jī)目標(biāo)跟蹤中,BACF具有很好的跟蹤速度和性能。
為解決在無(wú)人機(jī)復(fù)雜場(chǎng)景中目標(biāo)容易受干擾的問(wèn)題,充分利用歷史幀信息,同時(shí)應(yīng)用裁剪矩陣擴(kuò)大搜索區(qū)域,在跟蹤過(guò)程中使用優(yōu)化計(jì)算,獲得良好的跟蹤效果。圖1所示為MSUT算法的跟蹤流程圖,主要分成四個(gè)部分,分別是裁剪矩陣、加入歷史幀信息和生成歷史響應(yīng),以及通過(guò)監(jiān)督響應(yīng)像差并優(yōu)化計(jì)算得到目標(biāo)的準(zhǔn)確位置和更新模型。
圖1 MSUT跟蹤流程圖Fig.1 Tracking flow chart of proposed algorithm
MSUT跟蹤器是在訓(xùn)練過(guò)程中,通過(guò)目標(biāo)搜索區(qū)域的擴(kuò)大,利用更多真實(shí)的背景信息,處理圖像相似度來(lái)估計(jì)目標(biāo)的位置變化,更準(zhǔn)確地跟蹤目標(biāo)。因此,首先要對(duì)目標(biāo)位置變化進(jìn)行識(shí)別。受BACF算法的啟發(fā),引入裁剪矩陣B,增加背景信息,擴(kuò)大搜索區(qū)域。為了使相關(guān)濾波器能夠抑制跟蹤過(guò)程中的偏差,對(duì)訓(xùn)練目標(biāo)進(jìn)行優(yōu)化,將損失函數(shù)最小化。目標(biāo)函數(shù)如下:
其中,下標(biāo)k和k-1分別表示第k幀和第k-1幀。公式(3)中第三項(xiàng)用于抑制因背景信息引起異常的正則化項(xiàng),γ是控制參數(shù)。
引入歐幾里德范數(shù),對(duì)跟蹤目標(biāo)和歷史幀信息的特征響應(yīng)R1,R2,…,Rk定義像差,公式如下:
其中,θ表示兩個(gè)響應(yīng)峰值在二維空間中的位置距離。[Ψθ]表示為了使兩個(gè)響應(yīng)峰值重合而進(jìn)行的移位操作。通常當(dāng)異常發(fā)生時(shí),相似度會(huì)突然下降,公式(4)的值會(huì)顯著增加。因此,可以利用公式(4)的結(jié)果進(jìn)行跟蹤異常判斷。
優(yōu)化中,將損失函數(shù)轉(zhuǎn)換到頻域進(jìn)行計(jì)算。MSUT算法在相關(guān)濾波器訓(xùn)練期間可以進(jìn)行異常抑制,提高跟蹤效率。將公式(3)表示為如下矩陣:
其中,Xk表示輸入樣本xk的矩陣形式,ID是大小為d×d的單位矩陣,操作符?表示kronecker乘積,上標(biāo)Τ表示共軛轉(zhuǎn)置運(yùn)算。Rk-1表示跟蹤目標(biāo)前一幀的響應(yīng)映射,其值等于Xk-1(ID?BT)hk-1。
以矩陣形式表示的損失函數(shù),在本質(zhì)上仍然是進(jìn)行卷積運(yùn)算。為了保證計(jì)算效率,將公式(5)轉(zhuǎn)換到頻域,表示如下:
利用交替求解法(Alternative Direction Method of Multipliers,ADMM)加快公式(6)的計(jì)算速度,最小化運(yùn)算結(jié)果,得到最優(yōu)解。首先將公式(6)寫(xiě)成增廣拉格朗日形式:
其中,μ為懲罰因子,在傅里葉域中,拉格朗日向量作為輔助變量,大小為DN×1。
通過(guò)ADMM優(yōu)化計(jì)算,可以將問(wèn)題分解為兩個(gè)子問(wèn)題進(jìn)行求解。利用前一幀得到的相關(guān)濾波器,通過(guò)以下計(jì)算當(dāng)前幀的相關(guān)濾波器,表示為:
對(duì)兩個(gè)子問(wèn)題進(jìn)行求解。
其中,gk和ζ分別通過(guò)以下快速逆傅里葉變換得到:
通過(guò)逆運(yùn)算,應(yīng)用Sherman-Morrison公式進(jìn)一步優(yōu)化計(jì)算結(jié)果,加快計(jì)算速度。因此,公式(12)等價(jià)于:
根據(jù)以下公式更新拉格朗日參數(shù):
其中,下標(biāo)t和t+1分別表示第t次和第(t+1)次迭代。用于子問(wèn)題的求解,用于子問(wèn)題的求解。最終得出目標(biāo)函數(shù)f(h)的最優(yōu)解,獲得目標(biāo)的準(zhǔn)確位置。
為了防止跟蹤過(guò)程中目標(biāo)因運(yùn)動(dòng)場(chǎng)景的變化產(chǎn)生漂移或跟蹤失敗,需要及時(shí)對(duì)模型進(jìn)行更新。MSUT跟蹤器通過(guò)在跟蹤過(guò)程中加入多幀信息,擴(kuò)大搜索區(qū)域,使用響應(yīng)圖來(lái)估計(jì)相似度,提高目標(biāo)識(shí)別能力。當(dāng)相似度足夠高時(shí),更新目標(biāo)外觀模型,以提高在相機(jī)運(yùn)動(dòng)、尺度變化和背景雜亂等場(chǎng)景下跟蹤的魯棒性。模型更新公式表示為:
其中,λφ是外觀模型的學(xué)習(xí)速率。
根據(jù)上述過(guò)程,多幀監(jiān)督的相關(guān)濾波無(wú)人機(jī)目標(biāo)跟蹤算法MSUT步驟如下:
算法 多幀監(jiān)督的相關(guān)濾波無(wú)人機(jī)目標(biāo)跟蹤MSUT
為了驗(yàn)證所提MSUT算法的性能,在UAV123[26]和VisDrone2019[19]兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。所做實(shí)驗(yàn)都是在操作系統(tǒng)Windows 10,8 GB內(nèi)存,酷睿i7-3770 CPU的計(jì)算機(jī)上進(jìn)行。MSUT算法通過(guò)加入多幀歷史信息,使用響應(yīng)圖變化估計(jì)相似度,預(yù)測(cè)目標(biāo)狀態(tài)。利用HOG特征和顏色直方圖特征進(jìn)行位移估計(jì)。所有的圖像補(bǔ)丁需要乘以一個(gè)Hann窗口。跟蹤過(guò)程中,加入的歷史幀數(shù)為5。正則化參數(shù)γ設(shè)為0.71,ADMM迭代為5,學(xué)習(xí)速率λφ為0.019 2。MSUT跟蹤器使用具有挑戰(zhàn)性的圖像序列,跟蹤結(jié)果與先進(jìn)跟蹤算法進(jìn)行對(duì)比。實(shí)驗(yàn)中,所有參數(shù)都按照基準(zhǔn)數(shù)據(jù)集初始目標(biāo)定義。
實(shí)驗(yàn)定量分析分為兩部分:是基于UAV123數(shù)據(jù)集的實(shí)驗(yàn)分析和是基于VisDrone2019數(shù)據(jù)集的實(shí)驗(yàn)分析。
3.1.1 UAV123數(shù)據(jù)集實(shí)驗(yàn)分析
UAV123數(shù)據(jù)集是專業(yè)無(wú)人機(jī)拍攝的專門(mén)場(chǎng)景的數(shù)據(jù)集,包含123個(gè)高清跟蹤視頻。UAV123數(shù)據(jù)集的跟蹤視頻視角變化較多,包含道路、城市景觀、建筑物、港口碼頭和海灘等;跟蹤對(duì)象包括人員、車輛、船只、飛行器等;跟蹤視頻主要涉及步行、駕駛、水上運(yùn)動(dòng)和飛行等活動(dòng)。視頻中包含常見(jiàn)的跟蹤挑戰(zhàn)場(chǎng)景,有完全遮擋、部分遮擋、尺度變化、光照變化、視角變化、背景雜亂、相機(jī)運(yùn)動(dòng)等。
在UAV123數(shù)據(jù)集上與ECO-HC[27]、AMCF[18]、MCCT-H[28]、BACF[20]、STRCF[13]、ARCF[19]、OMFL[29]、AutoTrack[21]等8個(gè)先進(jìn)視頻跟蹤算法進(jìn)行對(duì)比。所選的對(duì)比算法主要為基于手工特征的相關(guān)濾波改進(jìn)算法,其中,AMCF、ARCF、OMFL等算法是專門(mén)為無(wú)人機(jī)場(chǎng)景設(shè)計(jì)的。實(shí)驗(yàn)表明,MSUT跟蹤器在成功率和精準(zhǔn)度方面都取得較好的結(jié)果,分別為59.9%和86.5%,ECO-HC跟蹤器的成功率為55.2%,精準(zhǔn)度為80.5%。圖2顯示了各算法的總體性能。由于MSUT跟蹤器使用背景感知,通過(guò)移位操作從背景中提取真實(shí)樣本信息,從而解決了跟蹤過(guò)程容易因相機(jī)運(yùn)動(dòng)和尺度變化引起模型漂移的問(wèn)題。算法采用裁剪操作提高樣本質(zhì)量,在訓(xùn)練中加入歷史幀信息,充分利用目標(biāo)先前外觀,增加樣本數(shù)量,并利用響應(yīng)圖變化率估計(jì)相似度,進(jìn)行優(yōu)化計(jì)算,解決了無(wú)人機(jī)場(chǎng)景中目標(biāo)容易受干擾導(dǎo)致跟蹤丟失的問(wèn)題。
圖2 在UAV123數(shù)據(jù)集上的精準(zhǔn)度和成功率Fig.2 Precision and success rate on UAV123 dataset
除了上述總體性能比較之外,在各個(gè)屬性上也進(jìn)行了對(duì)比。將無(wú)人機(jī)圖像序列分為12種不同類型,即縱橫比變化(ARC)、背景雜亂(BC)、相機(jī)運(yùn)動(dòng)(CM)、快速運(yùn)動(dòng)(FM)、完全遮擋(FOC)、光照變化(IV)、低分辨率(LR)、偏離視線(OV)、部分遮擋(POC)、尺度變化(SV)、相似對(duì)象(SOB)和視角變換(VC)。MSUT跟蹤算法和8個(gè)先進(jìn)跟蹤算法在UAV123數(shù)據(jù)集各個(gè)屬性上進(jìn)行對(duì)比。圖3顯示在尺度變化、相機(jī)運(yùn)動(dòng)、低分辨率、背景雜亂等8個(gè)屬性上的精準(zhǔn)度和成功率都取得較好的結(jié)果,適合無(wú)人機(jī)的空中跟蹤挑戰(zhàn)場(chǎng)景。同時(shí),也驗(yàn)證了加入多幀歷史信息抑制跟蹤漂移算法的有效性,在尺度變化、相機(jī)運(yùn)動(dòng)、背景雜亂等挑戰(zhàn)場(chǎng)景中增強(qiáng)算法的魯棒性。
圖3 UAV123數(shù)據(jù)集上8個(gè)屬性的性能對(duì)比Fig.3 Performance comparison of eight attributes on UAV123 dataset
為了全面分析MSUT算法在所有屬性上的表現(xiàn),表1列出該算法在其他4個(gè)評(píng)價(jià)指標(biāo)上的對(duì)比結(jié)果,其中粗體下劃線表示最好,粗體波浪線為次好。從表1中可見(jiàn),MSUT算法沒(méi)有表現(xiàn)出最好的性能,但在偏離視線(OV)、光照變化(IV)屬性上的性能僅次于ECO-HC跟蹤器,在視角變換(VC)屬性上的性能也僅次于AMCF,而在完全遮擋(FOC)屬性上表現(xiàn)較弱。
表1 UAV123數(shù)據(jù)集上另外4個(gè)屬性的AUC比較結(jié)果Table 1 AUC scores for another four attributes on UAV123 dataset
3.1.2 VisDrone2019數(shù)據(jù)集實(shí)驗(yàn)分析
VisDrone2019是天津大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘團(tuán)隊(duì)收集的數(shù)據(jù)集,包含288個(gè)視頻片段和10 209個(gè)靜態(tài)圖像。手動(dòng)標(biāo)注260多萬(wàn)個(gè)常用目標(biāo)的對(duì)象實(shí)例邊界框,包括對(duì)象類別,場(chǎng)景可見(jiàn)性和遮擋等重要屬性。本實(shí)驗(yàn)測(cè)試的35個(gè)視頻片段是其中較有代表性的。
在VisDrone2019數(shù)據(jù)集上與ECO-HC[27]、MCCT-H[28]、AutoTrack[21]、AMCF[18]、BACF[20]、ARCF[19]、OMFL[29]等7個(gè)先進(jìn)視頻跟蹤算法進(jìn)行比較。圖4所示為各算法的整體性能對(duì)比結(jié)果,可見(jiàn)MSUT算法的精準(zhǔn)度值和成功率值都較高,分別為80.9%和59.0%,比次之的跟蹤器精準(zhǔn)度和成功率均高出0.006。MSUT跟蹤算法采用加入多個(gè)歷史幀信息,并擴(kuò)大搜索區(qū)域的方案,能夠充分利用目標(biāo)的樣本信息,同時(shí)提高樣本質(zhì)量,有效地緩解因目標(biāo)信息缺乏帶來(lái)跟蹤精度不高的問(wèn)題。
圖4 在VisDrone2019數(shù)據(jù)集上的精準(zhǔn)度和成功率Fig.4 Precision and success rate on VisDrone2019 dataset
MSUT跟蹤算法和其他7個(gè)先進(jìn)跟蹤算法在Vis-Drone2019數(shù)據(jù)集12個(gè)性能指標(biāo)上進(jìn)行對(duì)比。給出了在背景雜亂、快速運(yùn)動(dòng)、相機(jī)運(yùn)動(dòng)、低分辨率、尺度變化、縱橫比變化和部分遮擋等7個(gè)屬性上比較的結(jié)果,可見(jiàn)MSUT算法在相機(jī)運(yùn)動(dòng)、尺度變化、背景雜亂等挑戰(zhàn)場(chǎng)景中獲得了較優(yōu)越的性能,性能對(duì)比如圖5所示。MSUT算法采用裁剪操作,能夠較準(zhǔn)確地提取目標(biāo)信息,利用響應(yīng)圖變化估計(jì)相似度,提高跟蹤識(shí)別能力。
圖5 VisDrone2019數(shù)據(jù)集上7個(gè)屬性的性能對(duì)比Fig.5 Performance comparison of seven attributes on VisDrone2019 dataset
表2 列出MSUT跟蹤算法在其他五個(gè)指標(biāo)上的對(duì)比結(jié)果,其中粗體下劃線表示最好,粗體波浪線為次好。MSUT算法在光照變化(IV)和相似對(duì)象(SOB)屬性上的精度僅次于ECO-HC算法,但成功率比其他算法高。在視角變換(VC)屬性上MSUT的性能僅次于ARCF,而在偏離視線(OV)和完全遮擋(FOC)屬性上表現(xiàn)不佳??赡苁且?yàn)镸SUT算法只利用了簡(jiǎn)單的手工特征,當(dāng)目標(biāo)受遮擋或偏離視線時(shí),手工特征難以有效地表示目標(biāo)。
表2 VisDrone2019數(shù)據(jù)集上另外5個(gè)屬性的AUC比較結(jié)果Table 2 AUC scores for another five attributes on VisDrone2019 dataset
在UAV123數(shù)據(jù)集 上 與ECO-HC[27]、MCCT-H[28]、ARCF[19]、AMCF[18]、OMFL[29]、AutoTrack[21]等6個(gè)先進(jìn)跟蹤算法進(jìn)行定性實(shí)驗(yàn)比較,圖6展示了可視化跟蹤結(jié)果。實(shí)驗(yàn)表明,MSUT跟蹤算法在group2_2_1、car18_1、wakeboard6_1、boat9_1和person1_s_1這5個(gè)視頻序列上都表現(xiàn)出較好的性能。
圖6 在UAV123數(shù)據(jù)集上各算法的定性比較結(jié)果Fig.6 Qualitative comparison results of algorithms on UAV123 dataset
本文提出了多幀監(jiān)督的相關(guān)濾波無(wú)人機(jī)目標(biāo)跟蹤MSUT算法。該算法利用歷史視圖信息,通過(guò)像差抑制響應(yīng)圖變化,解決在相機(jī)運(yùn)動(dòng)、尺度變化等無(wú)人機(jī)場(chǎng)景下跟蹤產(chǎn)生漂移的問(wèn)題。然而在處理完全遮擋方面的性能相對(duì)較弱,下一步將嘗試加入上下文信息和采用新的響應(yīng)抑制策略,進(jìn)一步增強(qiáng)目標(biāo)跟蹤的魯棒性。