謝青松,劉曉慶,安志勇,李 博
(1.山東工商學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東煙臺(tái) 264000;2.山東工商學(xué)院信息與電子工程學(xué)院,山東煙臺(tái) 264000)
目標(biāo)跟蹤是根據(jù)初始幀目標(biāo)計(jì)算其在后續(xù)幀的位置,該技術(shù)在智能視頻監(jiān)控[1,2]、人機(jī)交互[3]、虛擬現(xiàn)實(shí)[4]和視覺(jué)導(dǎo)航[5]等領(lǐng)域得到廣泛應(yīng)用,成為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要分支[6~8].目前的跟蹤方法主要分為生成式和判別式兩大類(lèi).早期方法主要以生成式為主,如光流法[9,10],粒子濾波[11],Meanshift[12],Camshift[13],但是該類(lèi)方法只依賴(lài)目標(biāo)信息進(jìn)行跟蹤,而目標(biāo)變化存在多樣性和復(fù)雜性,因此很容易跟丟目標(biāo).與生成式不同,判別式方法通過(guò)訓(xùn)練分類(lèi)器來(lái)區(qū)分目標(biāo)和背景,在精度上存在較大優(yōu)勢(shì),目前主要以相關(guān)濾波和深度學(xué)習(xí)為主.相關(guān)濾波中,Bolme 等[14]提出了最小平方和濾波器算法,但該方法存在不穩(wěn)定性,同時(shí)缺乏目標(biāo)尺度估計(jì)和多通道等問(wèn)題.Danelljan 等[15]提出了DSST 跟蹤算法,利用嶺回歸算法對(duì)相關(guān)濾波進(jìn)行改進(jìn),同時(shí)增加了尺度濾波器估計(jì)目標(biāo)尺度,然而該方法僅在尺度窗口增加和降低的趨勢(shì)估計(jì)上容易產(chǎn)生漂移,導(dǎo)致小尺度的震蕩,檢測(cè)性能有待提高.目前,更多的是基于深度學(xué)習(xí)的方法[16,17],DLT 算法[18]將深度學(xué)習(xí)方法應(yīng)用到目標(biāo)跟蹤中.它針對(duì)在線(xiàn)訓(xùn)練時(shí)正樣本缺失的問(wèn)題,提出了一種離線(xiàn)訓(xùn)練與在線(xiàn)調(diào)整相結(jié)合的方法.
然而,目前的跟蹤方法大都使用軸對(duì)齊的水平框跟蹤目標(biāo),相比水平框,旋轉(zhuǎn)框能夠更緊湊的包圍目標(biāo),并且可提供目標(biāo)的運(yùn)動(dòng)方向,方向信息可以進(jìn)一步解決如動(dòng)作分類(lèi)等諸多計(jì)算機(jī)視覺(jué)問(wèn)題.雖然旋轉(zhuǎn)框存在較大的優(yōu)勢(shì),但對(duì)其角度和尺度的準(zhǔn)確估計(jì)卻是一個(gè)難題,相關(guān)文獻(xiàn)[19,20]對(duì)此進(jìn)行了研究,然而這些算法在跟蹤速度和精度方面都有局限性.孿生網(wǎng)絡(luò)中的SiamMask[21]算法將目標(biāo)分割[22,23]引入了跟蹤領(lǐng)域兼顧了這些問(wèn)題,該算法能夠預(yù)測(cè)目標(biāo)的分割掩碼,并且實(shí)時(shí)適應(yīng)最小外接矩形作為跟蹤框.盡管該網(wǎng)絡(luò)在跟蹤性能上取得了很大進(jìn)展,但是當(dāng)非剛性目標(biāo)運(yùn)動(dòng)時(shí),實(shí)時(shí)生成的最小外接矩形的準(zhǔn)確度較低,框內(nèi)包含較多背景.而本文認(rèn)為,這些背景主要是由于跟蹤框尺度和角度的不準(zhǔn)確引入的.因此本文將SiamMask 作為基準(zhǔn)算法,提出了一種基于前景優(yōu)化的視覺(jué)目標(biāo)跟蹤算法,設(shè)計(jì)了尺度優(yōu)化和角度優(yōu)化兩個(gè)模塊,來(lái)提升跟蹤性能.本文主要貢獻(xiàn)總結(jié)如下:
(1)針對(duì)分割導(dǎo)致的跟蹤框尺度不準(zhǔn)確,提出了尺度優(yōu)化策略.該策略不僅保證了目標(biāo)運(yùn)動(dòng)時(shí)尺度的穩(wěn)定性,并且在不丟失目標(biāo)信息的前提下,較大的提升了跟蹤框內(nèi)的前景比例.
(2)針對(duì)分割導(dǎo)致的跟蹤框角度不準(zhǔn)確,提出了角度優(yōu)化策略.優(yōu)化后的跟蹤框可適應(yīng)目標(biāo)不同程度的旋轉(zhuǎn)且與目標(biāo)角度保持一致,進(jìn)一步提升了跟蹤框內(nèi)的前景比例.
(3)在VOT2016[24]、VOT2018[25]和VOT2019[26]三個(gè)旋轉(zhuǎn)框標(biāo)記的數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)證明,本文提出的前景優(yōu)化策略具有較高的精度,在一定程度上改進(jìn)了分割與跟蹤結(jié)合存在的缺陷.
近年來(lái),基于深度學(xué)習(xí)的孿生網(wǎng)絡(luò)系列跟蹤算法[27~33]取得了優(yōu)異的成績(jī).其中,SiamFC[27]是早期孿生網(wǎng)絡(luò)的代表,受到廣泛關(guān)注,運(yùn)行速度可達(dá)到58 fps,然而該網(wǎng)絡(luò)在跟蹤時(shí)需要進(jìn)行多尺度測(cè)試,跟蹤精度很不理想.SiamRPN[28]在此基礎(chǔ)上借鑒了Faster RCNN[34]的區(qū)域建議網(wǎng)絡(luò),使用邊框回歸替代多尺度測(cè)試,得到最大響應(yīng)的回歸框,準(zhǔn)確度顯著超于SiamFC.Li等提出SiamRPN++[29]解決了孿生網(wǎng)絡(luò)中的平移不變性問(wèn)題,并提出了一種新的模型來(lái)執(zhí)行分層和深度聚合,提高精度的同時(shí)降低了模型的尺度規(guī)模.
SiamMask[21]算法與他們不同,該算法與分割技術(shù)相結(jié)合,跟蹤框可旋轉(zhuǎn).但是由于SiamMask 直接對(duì)分割掩碼擬合最小外接矩形作為跟蹤框,在目標(biāo)發(fā)生運(yùn)動(dòng)時(shí)跟蹤框精度往往較低.之后,Chen 等提出SiamMask-E[35]算法優(yōu)化了SiamMask 的跟蹤框擬合過(guò)程,該算法首先采用最小二乘法對(duì)分割掩碼的輪廓進(jìn)行橢圓擬合,再進(jìn)一步得到橢圓的最小外接矩形.該方式在一定程度上提升了跟蹤框的準(zhǔn)確性,但是在目標(biāo)運(yùn)動(dòng)幅度較大時(shí),該方法的跟蹤框穩(wěn)定性較差,精度并不高.
因此,本文在第三節(jié)針對(duì)SiamMask 跟蹤框存在的問(wèn)題,在尺度和角度上分別進(jìn)行了優(yōu)化,來(lái)提升跟蹤框內(nèi)的前景比例,抑制背景的干擾.
本文的整體流程如圖1 所示,共分為三個(gè)部分.第一部分為SiamMask 網(wǎng)絡(luò)工作,fθ為孿生網(wǎng)絡(luò),分支網(wǎng)絡(luò)中包含回歸網(wǎng)絡(luò)rσ、分割網(wǎng)絡(luò)hφ、分類(lèi)網(wǎng)絡(luò)cφ.其中,分類(lèi)損失使用交叉熵?fù)p失,記為L(zhǎng)cls;回歸損失采用歸一化坐標(biāo)的smoothL1損失,記為L(zhǎng)reg;分割部分的損失函數(shù)記為L(zhǎng)mask,具體計(jì)算在3.1 節(jié).第二部分為尺度優(yōu)化模塊,在優(yōu)化之前先對(duì)SiamMask輸出的跟蹤框內(nèi)前景比例進(jìn)行計(jì)算,從而判斷是否需要優(yōu)化,不需要直接輸出原跟蹤框,否則進(jìn)行尺度優(yōu)化,包含兩種優(yōu)化情形(M∩R′,AS/MS).第三部分為角度優(yōu)化模塊,該模塊針對(duì)跟蹤框的原始角度設(shè)定了多個(gè)偏移,依次與前景計(jì)算IoU(Intersection over Union),選擇最高的進(jìn)行輸出.具體實(shí)施細(xì)節(jié)在3.3和3.4節(jié).
圖1 基于前景優(yōu)化的視覺(jué)目標(biāo)跟蹤算法整體流程框架.圖中的R 為回歸分支輸出的回歸框,R′為旋轉(zhuǎn)后的回歸框,F 為目標(biāo)分割掩碼,M 為掩碼的最小外接矩形,T 為尺度優(yōu)化后輸出的跟蹤框,為角度優(yōu)化后輸出的最終跟蹤框,AS(Adaptive Strategy)為自適應(yīng)策略,MS(Mean Strategy)為均值策略,AOS(Angle Offset Strategy)為角度偏移策略.
特征提取時(shí),模板幀z和搜索幀x兩個(gè)分支經(jīng)過(guò)相同的卷積神經(jīng)網(wǎng)絡(luò)fθ,分別生成特征圖,兩個(gè)特征圖進(jìn)行深度互相關(guān)確定目標(biāo)位置:
在三個(gè)分支中,分類(lèi)損失[28]為交叉熵?fù)p失,記為L(zhǎng)cls.回歸分支中,由神經(jīng)網(wǎng)絡(luò)rσ進(jìn)行回歸,損失函數(shù)采用歸一化坐標(biāo)的損失,因此回歸損失[28]Lreg為
δ[0]~δ[3]分別表示為錨框與真實(shí)框回歸后得到的平移量(δ[0],δ[1])和尺度縮放(δ[2],δ[3]).分割網(wǎng)絡(luò)中,由神經(jīng)網(wǎng)絡(luò)hφ對(duì)響應(yīng)圖g中的每個(gè)RoW 預(yù)測(cè)成w×h的二元掩碼,損失函數(shù)[21]為
每個(gè)RoW 標(biāo)記為一個(gè)二元標(biāo)簽yn,如果RoW 的一個(gè)錨框與真實(shí)框的IoU 值≥0.6,則yn=1;否則yn=-1.mn表示第n個(gè)RoW 預(yù)測(cè)的二元掩碼為mn中位置(i,j)處所對(duì)應(yīng)的二元標(biāo)簽,前景值為1,背景值為-1.因此,本文主干網(wǎng)絡(luò)損失函數(shù)為
損失函數(shù)Lloss中,分別使用參數(shù)λ1、λ2、λ3對(duì)三個(gè)分支進(jìn)行加權(quán).網(wǎng)絡(luò)訓(xùn)練完成后,在跟蹤階段會(huì)輸出當(dāng)前幀的回歸框,目標(biāo)的分割掩碼及其最小外接矩形作為跟蹤框.在3.3 節(jié)和3.4 節(jié)分別對(duì)該跟蹤框進(jìn)行尺度和角度的優(yōu)化.
前景即為目標(biāo)的分割掩碼部分,表示為F;跟蹤框即為分割掩碼的最小外接矩形,表示為M,旋轉(zhuǎn)角度記為θ.M的頂點(diǎn)坐標(biāo)表示為
最小外接矩形即采用面積最小的旋轉(zhuǎn)矩形對(duì)前景進(jìn)行包圍,因此前景屬于最小外接矩形內(nèi).在跟蹤框M內(nèi),將前景F所占的比例記為MF:
F_area 和M_area 分別為前景F的面積和跟蹤框M的面積.M_area可通過(guò)勾股定理得到,前景是一個(gè)二值矩陣,記為AFPI∈{0,1},矩陣面積為
X,Y為矩陣的行和列,H(x,y)為矩陣中坐標(biāo)(x,y)處的值.本文發(fā)現(xiàn)當(dāng)MF>ρ時(shí),跟蹤框M內(nèi)前景所占的比例較高,因此直接輸出跟蹤框M不需要進(jìn)行優(yōu)化.否則,對(duì)跟蹤框的尺度和角度分別進(jìn)行優(yōu)化.
尺度優(yōu)化策略是一種基于前景的緊湊跟蹤框優(yōu)化方法,即通過(guò)優(yōu)化跟蹤框的尺度使它更加緊湊的包圍目標(biāo),避免引入過(guò)多背景.經(jīng)過(guò)觀察,邊框回歸得到的回歸框在目標(biāo)發(fā)生運(yùn)動(dòng)時(shí),尺度更加穩(wěn)定.因此在本節(jié)中,本文結(jié)合了回歸框來(lái)進(jìn)行尺度優(yōu)化.首先,需要對(duì)回歸框進(jìn)行旋轉(zhuǎn)預(yù)處理,成為與跟蹤框M一致的角度:
該操作將回歸框R圍繞中心點(diǎn)(x0,y0)旋轉(zhuǎn)了θ度,旋轉(zhuǎn)后記為為R的頂點(diǎn)坐標(biāo),對(duì)應(yīng)的為R′的頂點(diǎn)坐標(biāo),記為:
此時(shí),兩者旋轉(zhuǎn)角度一致,通過(guò)條件概率計(jì)算兩者的相似性與差異性,根據(jù)結(jié)果分為兩種優(yōu)化情形.在這里,將目標(biāo)搜索區(qū)域{(x1,y1),(x2,y2),…,(xn,yn)}記為樣本空間S.當(dāng)某個(gè)樣本點(diǎn)出現(xiàn)在矩形M內(nèi)即為跟蹤框A發(fā)生,出現(xiàn)在矩形R′內(nèi)即為跟蹤框B發(fā)生.
首先,通過(guò)條件概率公式計(jì)算在跟蹤框A發(fā)生的條件下,跟蹤框B也發(fā)生的概率,記為P1:
其次,計(jì)算在跟蹤框B發(fā)生的條件下,跟蹤框A不發(fā)生的概率,記為P0:
其中,P(A)、P(B)、P(A∩B)、P(Aˉ∩B)分別為跟蹤框A發(fā)生的概率、跟蹤框B發(fā)生的概率、跟蹤框A和B同時(shí)發(fā)生的概率、跟蹤框B發(fā)生但A不發(fā)生的概率,任意概率計(jì)算公式為:
條件概率P1 反映了M和R′兩框在位置和尺度的相似性,P0反映了兩者的差異性.當(dāng)P1越大同時(shí)P0越小時(shí),表明兩者相似性越大,說(shuō)明跟蹤框M的準(zhǔn)確性較高;相反,當(dāng)P1越小或者P0越大時(shí),此時(shí)跟蹤框M的可靠性較低.定義閾值α,β分別評(píng)估條件概率P0 和P1,將尺度優(yōu)化分為兩種情形.
情形1:當(dāng)同時(shí)滿(mǎn)足P1>β和P0<α?xí)r,此時(shí)M的可靠性較高,尺度優(yōu)化為:
此時(shí)M的準(zhǔn)確性較高,框內(nèi)的背景像素較少,目標(biāo)通常為剛性物體或者運(yùn)動(dòng)幅度不大的非剛性物體,取兩者交集部分作為尺度優(yōu)化后的跟蹤框T,跟蹤框T相較M向目標(biāo)的中心位置處進(jìn)行了縮小,過(guò)濾掉了目標(biāo)四周的干擾背景,因此跟蹤框內(nèi)前景比例得到了提高.
情形2:當(dāng)P1≤β或者P0≥α?xí)r,該情形的兩框差異較大,若采用式(13)進(jìn)行優(yōu)化,可能會(huì)發(fā)生局部標(biāo)記或者偏移標(biāo)記的情況,從而丟失目標(biāo)信息.因此針對(duì)情形2,本文提出了兩種優(yōu)化策略:均值策略(Mean Strategy,MS)和自適應(yīng)策略(Adaptive Strategy,AS),在消融實(shí)驗(yàn)中本文會(huì)對(duì)兩種策略的性能進(jìn)行比較分析.
(1)均值策略(Mean Strategy,MS)
均值策略即不考慮目標(biāo)的運(yùn)動(dòng)方向,對(duì)兩框在高度和寬度方向均采用平均策略,即:
其中,R′_w和R′_h分別為R′的寬高,M_w和M_h分別為M的寬高(在任意矩形中,寬≤高).為了避免計(jì)算的復(fù)雜以及主觀的傾向性,均值策略直接對(duì)M和R′兩個(gè)框的寬度和高度分別取均值,作為優(yōu)化后跟蹤框T的寬和高,記為T(mén)_w和T_h,中心坐標(biāo)和旋轉(zhuǎn)角度不變.
(2)自適應(yīng)策略(Adaptive Strategy,AS)
經(jīng)過(guò)分析,情形2 中跟蹤框M包含的干擾背景較多,這些背景一般是由目標(biāo)的劇烈運(yùn)動(dòng)引入,這種目標(biāo)以人物等非剛體為主,因?yàn)樗闹淖兓苋菀滓氡尘?當(dāng)人物在水平方向運(yùn)動(dòng)時(shí),由于四肢的擺動(dòng)在目標(biāo)寬度方向引入背景的可能性極大;而在垂直方向運(yùn)動(dòng)時(shí),在目標(biāo)的高度方向引入背景的可能性較小.
由于目標(biāo)運(yùn)動(dòng)方向的不同,引入背景的可能性也不一樣.然而均值策略并沒(méi)有考慮到該問(wèn)題,因此本文通過(guò)判斷目標(biāo)的運(yùn)動(dòng)方向提出了自適應(yīng)策略,根據(jù)目標(biāo)中心位置變化判斷垂直方向和水平方向是否有快速移動(dòng)狀態(tài),然后分別設(shè)置不同的優(yōu)化方式.
首先,根據(jù)SiamMask算法計(jì)算目標(biāo)中心位置,將前一幀的目標(biāo)中心記為(x1,y1),當(dāng)前幀中心記為(x2,y2).因此,通過(guò)目標(biāo)中心的移動(dòng)路徑與x軸形成的角度來(lái)判斷目標(biāo)運(yùn)動(dòng)方向,角度計(jì)算如下:
|y2-y1|>ε代表了目標(biāo)在y軸上的移動(dòng)距離大于閾值ε,因此當(dāng)角度δ≥γ°時(shí),判斷為目標(biāo)在垂直方向快速運(yùn)動(dòng).而如果在y 軸上移動(dòng)距離小于閾值,則無(wú)需計(jì)算角度,將δ記為0°.由于水平方向引入背景的可能性更大,所以垂直方向快速運(yùn)動(dòng)還需要限制M和R′兩框的寬度差w小于閾值ε,即|M_w-R′_w|=w<ε.反之,判斷為目標(biāo)在水平方向的快速運(yùn)動(dòng).因此,自適應(yīng)策略的優(yōu)化公式為:
在該策略中,當(dāng)目標(biāo)移動(dòng)與x軸形成的角度δ≥γ°且w小于閾值ε,即滿(mǎn)足目標(biāo)在高度上快速運(yùn)動(dòng),并且水平方向變化不大,此時(shí)跟蹤框在高度和寬度引入背景的可能性相同,從而對(duì)跟蹤框M和回歸框R′兩者的寬度和高度分別取均值作為新跟蹤框的寬和高,寬記為T(mén)_w,高記為T(mén)_h,中心坐標(biāo)和旋轉(zhuǎn)角度不變.
若角度δ<γ°或者寬度差w≥ε,即說(shuō)明了目標(biāo)在水平方向發(fā)生顯著運(yùn)動(dòng).此時(shí),跟蹤框在水平方向的邊往往會(huì)被運(yùn)動(dòng)的四肢拉伸,導(dǎo)致了跟蹤框M的寬度與目標(biāo)寬度差距較大,而高度與目標(biāo)不會(huì)產(chǎn)生太大的偏差.因此,在不丟失目標(biāo)信息并且保證更高前景比例的基礎(chǔ)上,對(duì)穩(wěn)定性較差的寬度設(shè)置兩者最小值,記為T(mén)_w,而高度設(shè)置兩者均值,記為T(mén)_h,中心坐標(biāo)和旋轉(zhuǎn)角度不變.
總之,均值策略MS 相對(duì)保守,直接對(duì)兩框?qū)捀呷【当苊饬擞?jì)算的復(fù)雜性,而自適應(yīng)策略AS 則根據(jù)目標(biāo)快速移動(dòng)方向選擇不同的優(yōu)化方式,得到的跟蹤框更準(zhǔn)確.
最終,跟蹤器在情形1 和2 中選擇最符合當(dāng)前幀情形的策略進(jìn)行優(yōu)化,然后輸出優(yōu)化后的跟蹤框T,坐標(biāo)記為:
本節(jié)的尺度優(yōu)化是一種基于前景的緊湊跟蹤框優(yōu)化方法,即通過(guò)優(yōu)化跟蹤框的尺度提升其前景比例.該策略在目標(biāo)劇烈運(yùn)動(dòng)時(shí)依然能夠保證跟蹤框的準(zhǔn)確性與穩(wěn)定性,消融實(shí)驗(yàn)表明,該策略提升了跟蹤的精度以及整體性能.在3.4 節(jié)將尺度優(yōu)化后的跟蹤框T進(jìn)行角度優(yōu)化.
本節(jié)在尺度優(yōu)化基礎(chǔ)上,對(duì)角度存在缺陷進(jìn)行改進(jìn),進(jìn)一步提升了跟蹤框內(nèi)前景所占的比例.具體為:(1)對(duì)尺度優(yōu)化后的跟蹤框T角度設(shè)定多個(gè)偏移,包含順時(shí)針和逆時(shí)針.(2)將各角度的旋轉(zhuǎn)框處理成二值矩陣,與前景矩陣進(jìn)行點(diǎn)乘.(3)根據(jù)結(jié)果計(jì)算兩的交集與并集比,即IoU.最終,選擇IoU 值最高的旋轉(zhuǎn)框輸出.
跟蹤框T的原始角度為θ,對(duì)其順時(shí)針和逆時(shí)針?lè)謩e設(shè)置n個(gè)偏移閾值,間隔為μ.即生成了不同角度的旋轉(zhuǎn)框集合表示任意一個(gè)角度的旋轉(zhuǎn)框.
前景F為二值矩陣AFPI,因此需要將旋轉(zhuǎn)框Ti部分處理為二值矩陣才能得到兩者的交集,記為ATiPI∈{0,1}.交集矩陣為
其中,?為矩陣中對(duì)應(yīng)元素點(diǎn)乘,AIPI即為兩者的交集矩陣.矩陣面積計(jì)算方式如式(7)得到,記為I_area.因此,兩者的IoU為
Ti_area為T(mén)i面積與T相等,F(xiàn)_area為前景面積.IoU(T)i即為T(mén)i與前景的IoU,跟蹤器輸出令I(lǐng)oU 最大的旋轉(zhuǎn)框Ti.因此,角度偏移策略表示為:
角度優(yōu)化策略通過(guò)調(diào)整跟蹤框的角度來(lái)避免角度不準(zhǔn)確帶來(lái)的損失.IoU 常被用在目標(biāo)檢測(cè)中衡量預(yù)測(cè)框與真實(shí)框的差異,本節(jié)采用IoU 策略準(zhǔn)確的評(píng)估了前景與不同角度旋轉(zhuǎn)框之間的差異,因此當(dāng)IoU 最大時(shí),該角度相對(duì)其他角度更準(zhǔn)確.消融實(shí)驗(yàn)表明,本文的角度優(yōu)化策略增強(qiáng)了跟蹤的魯棒性以及整體性能.
本文的實(shí)驗(yàn)是在單目標(biāo)跟蹤的測(cè)試平臺(tái)VOT(Visual Object Tracking)數(shù)據(jù)集上進(jìn)行的,分別是VOT2016、VOT2018 和VOT2019,均是旋轉(zhuǎn)框標(biāo)記.評(píng)價(jià)指標(biāo)包含精度A,魯棒性R,EAO(Expected Average Overlap).精度采用預(yù)測(cè)框與真實(shí)框的IoU 值進(jìn)行評(píng)估,值越大精度越高;魯棒性根據(jù)跟蹤失敗次數(shù)來(lái)計(jì)算(當(dāng)前幀精度為零時(shí)判定為跟蹤失敗),失敗的次數(shù)越多魯棒性越差;EAO 是評(píng)估跟蹤性能的綜合性指標(biāo),被認(rèn)為是VOT數(shù)據(jù)集中最重要的評(píng)價(jià)參數(shù).
實(shí)驗(yàn)環(huán)境:64 位的Windows 10 操作系統(tǒng),CPU:Inte(lR)Xeon(R)Gold 5218,GPU:GeForce RTX 2080 Ti.Python 3.7 實(shí)驗(yàn),Matlab R2018b 繪圖.實(shí)驗(yàn)參數(shù):3.1 節(jié)中,設(shè)置損失函數(shù)的權(quán)重參數(shù)λ1=32,λ2=λ3=1.3.3節(jié)中,2016 數(shù)據(jù)集設(shè)定閾值β=0.85;2018 和2019 數(shù)據(jù)集設(shè)定閾值β=0.8;在三個(gè)數(shù)據(jù)集中設(shè)定共同參數(shù):ρ=0.9,α=0.2,ε=8,γ=50.3.4節(jié)中,n=1,μ=20°.
為了測(cè)試每個(gè)模塊的有效性,本文對(duì)3.3 節(jié)的尺度優(yōu)化和3.4 節(jié)的角度優(yōu)化兩模塊進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表1 所示.這里,SO(Scale Optimization)為本文尺度優(yōu)化模塊,SO(MS)為均值策略?xún)?yōu)化尺度,SO(AS)為自適應(yīng)策略?xún)?yōu)化尺度.AO(Angle Optimization)為本文角度優(yōu)化模塊.
首先,表1 分析了SiamMask+SO(MS)和SiamMask+SO(AS)兩種策略的性能,實(shí)驗(yàn)表明兩種策略在精度和EAO 上均優(yōu)于基準(zhǔn)算法SiamMask,特別是SiamMask+SO(AS)優(yōu)于SiamMask+SO(MS)的結(jié)果.同時(shí),表1 分析了SiamMask+SO(MS)+AO 和SiamMask+SO(AS)+AO的結(jié)果,顯然SiamMask +SO(AS)+AO 算法在精度和EAO 上具有更高的性能.因此,自適應(yīng)策略(AS)比均值策略(MS)的準(zhǔn)確度更高,整體性能更佳.在三個(gè)數(shù)據(jù)集上,SiamMask+SO(AS)+AO 算法相比SiamMask 算法精度上分別提升約3.2%、3.7%、3.6%,EAO 分別提升了1.8%,1.9%和1.6%.另外,本文提出的SiamMask+SO(AS)+AO 在三個(gè)數(shù)據(jù)集的精度方面均優(yōu)于Siam-Mask_E算法,同時(shí)EAO指標(biāo)在VOT2016和VOT2019上均優(yōu)于SiamMask_E算法.
表1 三個(gè)數(shù)據(jù)集下消融實(shí)驗(yàn)結(jié)果(粗體為最佳性能)
其次,本文對(duì)比了使用自適應(yīng)策略的SiamMask+SO(AS)以及SiamMask+SO(AS)+AO 的結(jié)果,在Siam-Mask+SO(AS)基礎(chǔ)上進(jìn)行角度優(yōu)化AO 后,在VOT2016、VOT2018 和VOT2019 數(shù)據(jù)集上,EAO 分別提升1.5%、0.8%、0.1%,同時(shí)魯棒性在三個(gè)數(shù)據(jù)集上得到普遍得到增強(qiáng),因此角度優(yōu)化AO 具有一定的有效性.
另外,表1 分析發(fā)現(xiàn)本文的優(yōu)化策略會(huì)降低魯棒性的性能,主要原因是優(yōu)化后的跟蹤框更加緊湊的包圍目標(biāo),某些情況下跟蹤框變小會(huì)導(dǎo)致目標(biāo)丟失,使得重啟次數(shù)增加,從而整體魯棒性相比基準(zhǔn)算法變差.在運(yùn)行速度方面,表1 統(tǒng)計(jì)了三個(gè)數(shù)據(jù)集上的平均速度,SiamMask 算法速度為88 fps,SiamMask+SO(MS)和SiamMask+SO(AS)也均為88 fps,即尺度優(yōu)化策略對(duì)速度沒(méi)有影響;但增加角度優(yōu)化后的Siam-Mask+SO(MS)+AO 和SiamMask+SO(AS)+AO 的速度為75 fps,由于角度優(yōu)化需要計(jì)算多個(gè)角度與前景的IoU 值,速度有所降低,但仍然能夠保持跟蹤的實(shí)時(shí)性.
在尺度優(yōu)化中本文采用了自適應(yīng)策略(AS),因此圖2~圖4 中標(biāo)注的Ours 均為SiamMask+SO(AS)+AO 的跟蹤結(jié)果.本文在VOT2016,VOT2018,VOT2019 三個(gè)數(shù)據(jù)集中共與12個(gè)國(guó)際前沿算法進(jìn)行了整體性能的比較.分別是SiamMask[21],Siam-RPN[28],SiamRPN++[29],DaSiamRPN[36],SPM[37],Siam R-CNN[38],SiamDW[39],TADT[40],ASRCF[41],Meta-Tracker[42],UpdateNet[43],ROAM++[44].Siam-Mask 的結(jié)果數(shù)據(jù)是在本文的機(jī)器測(cè)試得到的,其余各算法的結(jié)果文件均來(lái)自文獻(xiàn)[24~26]或者原作者的項(xiàng)目網(wǎng)頁(yè)中.
圖2為六個(gè)跟蹤器在VOT2016的EAO 得分圖,圖3為VOT2018 得分圖.左側(cè)為跟蹤器EAO 得分排序,如圖所示,本文的EAO 得分最高.在VOT2018 數(shù)據(jù)集中,采用本文優(yōu)化策略后的SiamMask 算法超過(guò)了Siam-RPN++和Siam R-CNN兩個(gè)前沿的算法.
圖2 VOT2016 EAO得分圖
圖3 VOT2018 EAO得分圖
本文在相機(jī)移動(dòng)、丟失、光照、運(yùn)動(dòng)、遮擋、尺度變化六個(gè)干擾屬性下分別進(jìn)行了測(cè)試.結(jié)果表示,本文算法在相機(jī)移動(dòng)、運(yùn)動(dòng)和尺度變化三個(gè)屬性下,相比SiamMask 算法精度得到很大的提升,并且遠(yuǎn)高于其他國(guó)際前沿算法.在其他屬性下,也依然可以保持較高的精度與穩(wěn)定的性能.
圖4 為部分幀的跟蹤效果,四個(gè)目標(biāo)均為非剛性物體,都發(fā)生了不同程度的運(yùn)動(dòng)、旋轉(zhuǎn)和尺度變化.如圖所示,SiamMask 網(wǎng)絡(luò)的跟蹤框偏大并且旋轉(zhuǎn)角度與目標(biāo)不一致,引入了過(guò)多的干擾背景.相比之下,本文跟蹤框的尺度和角度都更加接近真實(shí)框,框內(nèi)的前景比例更高.因此,本文的優(yōu)化策略在目標(biāo)運(yùn)動(dòng),尺度變化,旋轉(zhuǎn)等復(fù)雜場(chǎng)景時(shí)有較好的穩(wěn)定性和準(zhǔn)確性.
圖4 部分視頻跟蹤效果
針對(duì)基于分割的跟蹤方法得到的跟蹤框不準(zhǔn)確的問(wèn)題,本文提出了一種基于前景優(yōu)化的視覺(jué)目標(biāo)跟蹤算法.設(shè)計(jì)了尺度和角度兩個(gè)優(yōu)化模塊,來(lái)分別提升跟蹤框內(nèi)的前景比例,抑制背景干擾.本文在一定程度上融合和優(yōu)化了目標(biāo)分割與跟蹤技術(shù),在VOT2016,VOT2018 和VOT2019 三個(gè)數(shù)據(jù)集上,與SiamMask 算法相比,精度平均提升約3.5%,EAO 平均提升約1.76%,與其他國(guó)際前沿的算法相比具有較好的跟蹤性能,特別是在相機(jī)移動(dòng)、尺度變化和運(yùn)動(dòng)變化等復(fù)雜場(chǎng)景下都保持較高的精度.然而本文算法的魯棒性會(huì)有所下降,針對(duì)基于分割的跟蹤算法魯棒性?xún)?yōu)化將是我們的進(jìn)一步研究方向.