李 彪,孫 瑾,李星達(dá),李 揚(yáng)
南京航空航天大學(xué) 民航學(xué)院,南京211106
目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域最具挑戰(zhàn)性的研究方向之一,在視頻監(jiān)控、汽車導(dǎo)航、機(jī)器人技術(shù)、人機(jī)交互、醫(yī)學(xué)等領(lǐng)域有著廣泛的應(yīng)用。
目標(biāo)視覺跟蹤主要分為生成式和判別式方法。生成式方法首先對當(dāng)前幀目標(biāo)區(qū)域建模,在下一幀尋找與模型最相似的區(qū)域,其模型的建立可以分為基于核、基于子空間的方法以及基于稀疏表示的方法,經(jīng)典的算法有均值漂移[1]、卡爾曼濾波[2]、粒子濾波[3]。判別式方法不僅利用了目標(biāo)自身的外觀信息,還利用了目標(biāo)周圍的背景信息,從背景中區(qū)分并估計(jì)出感興趣的目標(biāo)區(qū)域。其跟蹤方法可以分為基于在線Boosting的方法、基于支持向量機(jī)的方法、基于隨機(jī)學(xué)習(xí)的方法以及基于判別分析的方法,在目標(biāo)跟蹤精度與性能上優(yōu)于生成式方法。
近年來,基于相關(guān)濾波的判別式目標(biāo)跟蹤方法憑借其精度高、實(shí)時(shí)性、魯棒性好,逐漸成為領(lǐng)域內(nèi)主流的研究方向[4-5]。Bolme等[6]于2010年提出MOSSE(minimum output sum of squared error)算法,將灰度圖作為特征運(yùn)算,在頻域內(nèi)實(shí)現(xiàn)快速的學(xué)習(xí)和檢測,開創(chuàng)了相關(guān)濾波應(yīng)用在跟蹤領(lǐng)域的先河。Henriques 等[7]提出了CSK(circulant structure of tracking-by-detection with kernels)與KCF[8](kernelized correlation filter)經(jīng)典的相關(guān)濾波器。Danelljan 等[9]用多通道顏色特征CN(color names)去擴(kuò)展CSK,提出了CN(adaptive color attributes for real-time visual tracking)算法,該算法對于形變目標(biāo)非常有效,一定程度上彌補(bǔ)了HOG 特征針對快速形變的不足。雖然上述相關(guān)濾波算法大幅度提高了跟蹤精度和準(zhǔn)確率,但是針對尺度變化的影響,Danelljan等[10]通過結(jié)合獨(dú)立的一維尺度濾波器先后提出DSST(discriminative scale space tracker)和快速版本的fDSST(fast DSST)解決尺度估計(jì)問題,該算法先利用平移濾波找到最佳位置,再利用一維尺度濾波器,找到最佳尺度大小。Li 等[11]提出了一種融合多特征的尺度自適應(yīng)相關(guān)濾波算法SAMF(scale adaptive with multiple features tracker),在平移濾波的基礎(chǔ)上增加了尺度池,但在目標(biāo)形變、遮擋等因素干擾下跟蹤效果不穩(wěn)定。Possegger等[12]提出了一種干擾感知跟蹤方法DAT(defense of color-based model-free tracking)。該方法基于RGB 空間建立顏色直方圖干擾感知目標(biāo)模型,利用目標(biāo)概率圖的概率值與距離值加權(quán)定位目標(biāo),得到跟蹤結(jié)果。由于僅由單一顏色特征描述目標(biāo)模型,在復(fù)雜場景下跟蹤效果較差。2016年,Bertinetto等[13]結(jié)合DAT方法與相關(guān)濾波器提出Staple(complementary learners for real-time tracking)算法,通過融合兩種類型的分類器提高跟蹤性能。SRDCF(learning spatially regularized correlation filters for visual tracking)[14],緩解了由于DCF 算法中循環(huán)矩陣造成的邊界效應(yīng),但實(shí)時(shí)性不高。陳晨等[15]從多核融合的角度推導(dǎo)出了一種新的多模糊核相關(guān)濾波器(multi-fuzzy kernels correlation filter,MFKCF),采用單一HOG 特征,無法適應(yīng)形變較大場景。楊佳霖等[16]提出了一種快速尺度估計(jì)的增強(qiáng)型多核相關(guān)濾波算法,該方法基于DSST 方法,在預(yù)測目標(biāo)位置的基礎(chǔ)上實(shí)現(xiàn)尺度估計(jì),一旦位置預(yù)測出現(xiàn)偏差,會對最后的跟蹤準(zhǔn)確率產(chǎn)生影響。李福進(jìn)等[17]提出了一種高置信度的尺度自適應(yīng)核相關(guān)跟蹤方法以提高跟蹤精度,但是算法速度只能達(dá)到15 frame/s 左右,無法滿足實(shí)時(shí)性要求。近年來隨著深度學(xué)習(xí)的發(fā)展,后續(xù)又涌現(xiàn)出了CCOT[18](continuous convolution operators)與ECO[19](efficient convolution operators for tracking)等基于深度的學(xué)習(xí)的目標(biāo)跟蹤算法,融入深度特征的多模板相關(guān)濾波跟蹤算法,文獻(xiàn)[20]通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到深度特征,但是速度慢,無法滿足實(shí)時(shí)性。魏永強(qiáng)等[21]提出了深度特征的相關(guān)濾波視覺跟蹤算法提升跟蹤精度,但在尺度更新和速度上存在不足。
相關(guān)濾波算法通過在頻域內(nèi)實(shí)現(xiàn)快速的學(xué)習(xí)和檢測,速度優(yōu)勢明顯,逐漸成為跟蹤領(lǐng)域的研究熱點(diǎn)。但這類算法通過循環(huán)移位實(shí)現(xiàn)模板訓(xùn)練,在應(yīng)對目標(biāo)形變和快速運(yùn)動存在不足,特別是尺度變換十分敏感,實(shí)現(xiàn)穩(wěn)健的目標(biāo)跟蹤仍然面臨著非常嚴(yán)峻的挑戰(zhàn)。為提高復(fù)雜背景下跟蹤的魯棒性,本文在核相關(guān)濾波跟蹤框架之下,采用多個(gè)核相關(guān)濾波器框架,選取多元特征,并基于特征的互補(bǔ)性預(yù)測目標(biāo)位置,同時(shí)采用尺度池方法實(shí)現(xiàn)尺度估計(jì),提高跟蹤算法在光照、形變、旋轉(zhuǎn)、尺度變化等跟蹤場景下的魯棒性。
在相關(guān)濾波算法中,Staple 算法繼承了相關(guān)濾波算法的速度優(yōu)勢,同時(shí)也結(jié)合了顏色概率直方圖的概率模型特性,所以本文以Staple為例對相關(guān)濾波算法進(jìn)行介紹。
Staple 算法首先采用2 個(gè)獨(dú)立的框架,分別利用HOG 和顏色直方圖特征分別訓(xùn)練位置預(yù)測器,進(jìn)行位置響應(yīng)圖的融合,然后再采用尺度濾波器進(jìn)行尺度預(yù)測。分類器的訓(xùn)練過程可以描述為:
其中,公式(1)為采用HOG 特征的相關(guān)濾波器模型,公式(2)為顏色概率直方圖模型,公式(3)為顏色概率直方圖預(yù)測模型的解。t為當(dāng)前視頻幀數(shù);h為位置濾波器的模型參數(shù),HOG特征維數(shù)l=1,2,…,K。β為直方圖顏色概率模型參數(shù);λtemp和λhist分別為濾波器模型和直方圖顏色概率模型中的正則化系數(shù);(xt,p)為第t幀圖像中的訓(xùn)練樣本;x為第t幀中檢測的新目標(biāo)位置p產(chǎn)生的一系列訓(xùn)練樣本位置;?(·)和χ(·)分別表示訓(xùn)練樣本在濾波器模型和直方圖顏色概率模型中的特征表達(dá),對應(yīng)特征維度分別為K和M;y為期望濾波響應(yīng)參數(shù),?表示循環(huán)相關(guān)操作,BG和OT分別表示訓(xùn)練的目標(biāo)區(qū)域和背景區(qū)域包含的像素個(gè)數(shù)。其中,表示落在第j個(gè)直方圖區(qū)間的像素點(diǎn)為目標(biāo)的概率,表示落在第j個(gè)直方圖區(qū)間的像素點(diǎn)為背景的概率,j=1,2,…,M。
對于目標(biāo)的檢測,Staple 算法使用兩種分類器分別對候選樣本進(jìn)行預(yù)測,得到各自的響應(yīng)輸出:
其中,ftemp(·)和fhist(·)分別為候選樣本在濾波器模型和直方圖顏色概率模型下的響應(yīng)輸出;H和P是兩種模型中參與計(jì)算的二維像素區(qū)域;p∈It,It表示第t幀中根據(jù)上一幀的目標(biāo)位置pt-1產(chǎn)生的一系列候選樣本位置。
對兩種響應(yīng)采用固定權(quán)重進(jìn)行融合,得到最終響應(yīng)輸出。在所有候選樣本中找到響應(yīng)輸出最大的樣本對應(yīng)的位置,即為目標(biāo)的預(yù)測位置其中μ為固定權(quán)重值。
得到新一幀的目標(biāo)位置pt后,使用線性插值的方法對式(1)相關(guān)濾波器位置預(yù)測模型和式(2)的顏色概率直方圖模型分別進(jìn)行更新:
其中,^表示傅里葉變換;⊙表示點(diǎn)乘;ηhist為濾波器模型的學(xué)習(xí)率;l=1,2,…,K為特征位數(shù)。表示落在第j個(gè)直方圖區(qū)間的像素點(diǎn)為目標(biāo)的概率;表示落在第j個(gè)直方圖區(qū)間的像素點(diǎn)為背景的概率,j=1,2,…,M。
由于目標(biāo)在跟蹤過程中發(fā)生尺度變化,Staple 采用DSST 尺度估計(jì)算法來更好地追蹤目標(biāo),該算法通過一維的尺度相關(guān)濾波器,以當(dāng)前中心位置pt為中心點(diǎn)獲取目標(biāo)的最佳尺度。
本文提出一種基于相關(guān)濾波的特征自適應(yīng)融合及尺度估計(jì)的跟蹤算法。圖1 是整體算法跟蹤過程的可視化表示。在特征表征方面上,本算法提出一種多元互補(bǔ)特征自適應(yīng)融合方法,考慮顏色特征對目標(biāo)形變的魯棒性較高,但對光照敏感,而HOG 特征與此正好相反。因此本算法通過顏色特征和HOG特征兩種相關(guān)濾波響應(yīng)圖峰值自適應(yīng)分配權(quán)重后形成互補(bǔ)融合特征表征目標(biāo)。在顏色特征中本文又選取了CN特征和顏色統(tǒng)計(jì)特征。顏色統(tǒng)計(jì)特征獲取像素級顏色概率特征,對形變不敏感,適用于快速變形和運(yùn)動目標(biāo)跟蹤,但往往通過縮小目標(biāo)以獲取前景目標(biāo)的準(zhǔn)確描述,不適用于目標(biāo)尺度變換檢測[13],而CN 顏色將RGB 的3 通道圖像投影到11個(gè)顏色通道特征,在尺度估計(jì)跟蹤算法中表現(xiàn)良好[11],因此本文在顏色特征中選取兩種互補(bǔ)特征,首先基于CN和HOG的自適應(yīng)互補(bǔ)獲取融合特征,同時(shí)采用尺度池機(jī)制跟蹤目標(biāo),進(jìn)而為降低顏色特征對光照的影響,最后選取HSV顏色統(tǒng)計(jì)特征提高跟蹤精度。
圖1 本文算法跟蹤框架Fig.1 Framework of total tracking
本文基于相關(guān)濾波器和顏色概率直方圖模型的數(shù)學(xué)表達(dá),在兩個(gè)獨(dú)立的嶺回歸框架下利用互補(bǔ)特征信息實(shí)現(xiàn)濾波器模型的求解,在保證了跟蹤算法的穩(wěn)定性和收斂性的同時(shí),實(shí)現(xiàn)目標(biāo)的準(zhǔn)確定位。
目前相關(guān)濾波跟蹤算法采用的顏色特征中有CN特征和統(tǒng)計(jì)直方圖概率特征,如SAMF采用的是CN特征,Staple 采用的是顏色直方圖特征。CN 特征運(yùn)用在相關(guān)濾波框架中時(shí)不可避免受到相關(guān)濾波邊界效應(yīng)影響,而像素級概率顏色概率響應(yīng)不受這一影響,能正確檢測快速變形和快速運(yùn)動情況,但顏色直方圖特征不適用于尺度估計(jì),為此本文在目標(biāo)位置跟蹤中,在相關(guān)濾波框架下結(jié)合顏色直方圖提高位置相關(guān)濾波器的跟蹤精度,并用HSV 顏色空間代替RGB 空間以降低光照影響;尺度估計(jì)時(shí)采用HOG和CN顏色融合特征,使跟蹤能夠適應(yīng)目標(biāo)尺度變化。
現(xiàn)有經(jīng)典算法一般也采用多特征提高跟蹤魯棒性,如Staple采用HOG和灰度特征,SAMF采用HOG、CN和灰度三種特征,文獻(xiàn)[22]也采用了多種特征,但這些方法中多元特征融合方法就是簡單的矢量疊加。不同場景下,不同的特征判別能力不同,因此本文提出了一種根據(jù)濾波響應(yīng)圖來對特征進(jìn)行自適應(yīng)加權(quán)的特征融合方法,根據(jù)特征判別效果自適應(yīng)確定權(quán)重,使優(yōu)勢特征能夠占據(jù)主導(dǎo)地位,以更好地處理光照、快速形變等問題。
傳統(tǒng)的相關(guān)濾波類算法是用嶺回歸方法來對濾波器進(jìn)行訓(xùn)練的,它的損失函數(shù)如式(10)所示:
其中,R定義為樣本響應(yīng)模板(i,j)處的濾波響應(yīng)值;為(i,j)處高斯理想響應(yīng)值,兩者差距越小證明該樣本的濾波響應(yīng)越大,即濾波器越理想;A為正則項(xiàng)。因此,如何最小化損失差是提升跟蹤效果的重點(diǎn)。Ri,j為當(dāng)前幀中樣本在濾波器中的實(shí)際響應(yīng)值;本算法將損失差的大小作為衡量下一幀特征權(quán)重的標(biāo)準(zhǔn),式(11)首先分別計(jì)算HOG和CN特征在第t幀的損失差。
兩個(gè)特征各自的自適應(yīng)權(quán)重由式(12)確定:
最后將c(·)作為融合特征相關(guān)濾波器的最終特征輸入濾波器,求得的響應(yīng)最大。
特征相關(guān)濾波響應(yīng)圖說明了用該特征表征目標(biāo)的準(zhǔn)確度。因此本文以特征期望響應(yīng)圖與實(shí)際相關(guān)響應(yīng)圖之間的損失差作為確定特征權(quán)重的依據(jù)。為了進(jìn)一步說明本文提出的特征權(quán)重自適應(yīng)融合的有效性,以標(biāo)準(zhǔn)數(shù)據(jù)庫中的Skiing視頻序列進(jìn)行分析說明,如圖2。
圖2 Skiing視頻序列Fig.2 Skiing video sequence
依據(jù)式(12)計(jì)算的視頻序列中顏色和HOG特征濾波器各自特征權(quán)重的變化結(jié)果如圖3 所示。該視頻序列中目標(biāo)在不同時(shí)間段內(nèi)目標(biāo)形狀與顏色發(fā)生變化時(shí),形狀與顏色自適應(yīng)權(quán)重發(fā)生相應(yīng)變化。其中1~6 幀背景較為單一,但目標(biāo)形狀發(fā)生較大變化,此時(shí)顏色特征表征目標(biāo)的準(zhǔn)確度要高于HOG 特征,通過計(jì)算發(fā)現(xiàn)HOG特征濾波器損失差加大,顏色濾波器損失差較小,采用本文計(jì)算方法顏色特征權(quán)重高于HOG 特征;9~35幀是滑雪者在空中進(jìn)行翻滾,中目標(biāo)形變較小,HOG特征削波器損失差較小,而且HOG 特征能有效克服光照變化,因此形狀濾波器準(zhǔn)確性強(qiáng)于顏色濾波器準(zhǔn)確性,此時(shí)HOG 特征權(quán)重要大于顏色權(quán)重。57~64 幀圖像形狀發(fā)生較大變化,形狀濾波器損失差加大,而顏色濾波器損失差較小,顏色特征權(quán)重上升,顏色濾波器準(zhǔn)確性強(qiáng)于形狀濾波器。
圖3 自適應(yīng)特征權(quán)重圖Fig.3 Adaptive feature weight graph
相對于像素級顏色概率特征,運(yùn)用CN 顏色特征進(jìn)行尺度估計(jì),但在相關(guān)濾波框架中時(shí)不可避免受到相關(guān)濾波邊界效應(yīng)影響,而像素級概率顏色概率響應(yīng)不受這一影響,能正確檢測快速變形和快速運(yùn)動情況,因此本文進(jìn)一步再與顏色直方圖模型響應(yīng)輸出進(jìn)行融合準(zhǔn)確確定目標(biāo)位置。常用的顏色直方圖模型是基于RGB空間三維直方圖,例如Staple 方法中采用的,但RGB 易受光照影響,而HSV空間更接近人們對彩色的感知經(jīng)驗(yàn),更容易跟蹤某種顏色的物體,常用于圖像識別等領(lǐng)域,因此本文采用HSV空間計(jì)算顏色概率直方圖。
在目標(biāo)跟蹤過程對目標(biāo)進(jìn)行實(shí)時(shí)的尺度預(yù)測,可以在一定程度上提高算法跟蹤的精度和魯棒性能,目前主流相關(guān)濾波尺度估計(jì)主要有尺度濾波器和尺度池方法。文獻(xiàn)[10-11]采用的DSST 是一維尺度濾波器,具有33個(gè)尺度大小,為了實(shí)時(shí)性通常選取單一特征,目標(biāo)變化大則尺度估計(jì)不準(zhǔn),尺度估計(jì)時(shí)建立在位置定位基礎(chǔ)上的,因此對位置定位精度要求比較高。SAMF算法采用尺度池方法,尺度池中含有7 個(gè)尺度因子,尺度與位置估計(jì)相互促進(jìn),因此尺度估計(jì)比較穩(wěn)定,不易出現(xiàn)估計(jì)偏移過大等情況,且可以采用多特征進(jìn)行特征互補(bǔ),文獻(xiàn)[12-14]中多采用尺度池策略。根據(jù)上述分析,本文采用尺度池方法,并結(jié)合2.1 節(jié)提出的自適應(yīng)特征融合的相關(guān)濾波算法進(jìn)行尺度估計(jì)。
初始目標(biāo)模板大小定義為ST=(sw,sh),尺度池S={t1,t2,…,tk},其中ti是尺度因子。假設(shè)相關(guān)濾波目標(biāo)窗口大小為st,對于當(dāng)前幀,在HOG 和CN融合特征基礎(chǔ)上,列舉了{(lán)tisi|ti?S}中k個(gè)大小的尺寸,通過不同的尺度得到一系列響應(yīng)輸出:
相關(guān)濾波算法依據(jù)最大響應(yīng)值Rmax來完成目標(biāo)定位,反映的是目標(biāo)模型與目標(biāo)搜索區(qū)域中對應(yīng)位置的相關(guān)性,Rmax越大則表示相關(guān)性越高,即目標(biāo)與該區(qū)域的相似度越高。但是當(dāng)遮擋、形變等干擾情況發(fā)生時(shí),響應(yīng)圖將呈現(xiàn)出“多峰”形態(tài),所對應(yīng)的位置區(qū)域可能是背景區(qū)域或其他的遮擋物,這將導(dǎo)致跟蹤性能的退化。
KCF、DSST、Staple 等許多跟蹤算法不進(jìn)行跟蹤結(jié)果可靠性判定,每一幀的結(jié)果都用來更新。但當(dāng)目標(biāo)被遮擋,或者跟蹤結(jié)果出現(xiàn)差錯(cuò)時(shí)會使跟蹤器準(zhǔn)確性逐漸變差,造成模型漂移,因此模型更新不可或缺,但同時(shí)想要保證跟蹤速度,就需要一種簡單有效的模型更新策略,通過之前已有資源來進(jìn)行判斷,而不需要進(jìn)行太多復(fù)雜的計(jì)算。相關(guān)濾波算法MOOSE 中作者提出了peak-to-sidelobe ratio(PSR)峰值旁瓣比,用于量化響應(yīng)圖像的銳度,但是PSR 對于局部遮擋效果不好。于是基于PSR算法的基礎(chǔ)上,LCMF【23】(large margin object tracking with circulant feature maps)的作者對相關(guān)濾波算法進(jìn)行了改進(jìn)。本文利用文獻(xiàn)[23]中提出的平均峰值相關(guān)能量(average peak-to-correlation energy,APCE)作為評價(jià)指標(biāo)來設(shè)計(jì)跟蹤置信度判定策略,衡量算法跟蹤結(jié)果的可靠性。對于任意的響應(yīng)圖R,APCE計(jì)算方式為:
其中,Rmax、Rmin、Ri,j分別表示響應(yīng)最高、最低和位置(i,j)上的響應(yīng),這個(gè)判據(jù)可以反映響應(yīng)圖的振蕩程度,當(dāng)APCE 突然減小時(shí),就是目標(biāo)被遮擋,或者目標(biāo)丟失的情況,當(dāng)前幀的APCE 相對于這段視頻的APCE 歷史均值有很明顯的減小,因此在這種情況下選擇不更新模型,從而避免了模型的漂移。只有當(dāng)APCE都以一定比例大于歷史均值的時(shí)候,模型才進(jìn)行更新,可以大大減少模型漂移的情況,同時(shí)減少了模型更新的次數(shù),達(dá)到了加速的效果。
為說明平均峰值相關(guān)能量作為評價(jià)指標(biāo)在文章中有效性,本文以標(biāo)準(zhǔn)數(shù)據(jù)庫中David3 視頻序列作為說明。相關(guān)濾波中響應(yīng)圖是確定目標(biāo)位置主要計(jì)算階段,所以響應(yīng)圖能否與理想響應(yīng)圖相似會對跟蹤結(jié)果以及模型產(chǎn)生較大影響。相關(guān)濾波器輸出響應(yīng)分?jǐn)?shù)的最大值所在位置即目標(biāo)位置,當(dāng)跟蹤準(zhǔn)確的時(shí)候,對應(yīng)一個(gè)峰值明顯且近似理想響應(yīng)的響應(yīng)圖。而當(dāng)目標(biāo)跟蹤效果不佳的時(shí)候,如遮擋、丟失、形變量大以及模糊等,響應(yīng)圖表現(xiàn)出劇烈的振蕩。如果繼續(xù)用不確定是否是目標(biāo)的區(qū)域作為訓(xùn)練樣本去更新模型,可能導(dǎo)致跟蹤結(jié)果出錯(cuò)。David3 視頻段中原視頻跟蹤圖與APCE 防遮擋算法跟蹤結(jié)果的位置響應(yīng)圖如圖4所示。
圖4 非遮擋與遮擋情況下的響應(yīng)圖Fig.4 Response diagram under non-occluded and occluded conditions
David3視頻中使用平均相關(guān)峰值能量評價(jià)指標(biāo)后,模型的更新情況如圖5所示。當(dāng)模型更新時(shí),幀數(shù)對應(yīng)Count為2,不更新則為0。在22~28幀左右,人體受到遮擋時(shí)Count 為零,不再受到遮擋后恢復(fù)正常。81~91 幀左右,人體受到樹木遮擋時(shí)Count 為零,不再受到遮擋后恢復(fù)正常。137~182 幀由于人體轉(zhuǎn)向?qū)е履P筒辉俑拢珻ount 為零。184~190 幀左右,人體再次受到遮擋,Count為零。239幀左右人體再次受到遮擋Count為零,綜上可知防遮擋算法實(shí)時(shí)有效,當(dāng)目標(biāo)跟蹤效果不佳的時(shí)候,如遮擋、形變量大時(shí)會及時(shí)停止模型更新以防模型的污染,加速算法的運(yùn)行。
圖5 模型更新次數(shù)圖Fig.5 Model update times
為驗(yàn)證本文算法的有效性,采用跟蹤領(lǐng)域通用的公開數(shù)據(jù)集OTB-2013[24]與OTB-2015[25]對本文算法進(jìn)行測試與分析。OTB-2013 和OTB-2015 視頻數(shù)據(jù)集包含了尺度變化(scale variation,SV)、遮擋(occlusion,OCC)、形變(deformation,DEF)、運(yùn)動模糊(motion blur,MB)、快速運(yùn)動(fast motion,F(xiàn)M)、平面內(nèi)旋轉(zhuǎn)(in-plane rotation,IPR)和平面外旋轉(zhuǎn)(out-of-plane rotation,OPR)等11 種影響因素構(gòu)成的視頻序列。實(shí)驗(yàn)運(yùn)行環(huán)境為i7-9700 型號的CPU(主頻3.00 GHz)及8 GB 內(nèi)存的PC機(jī),測試平臺為Matlab R2018a。實(shí)驗(yàn)選取目前表現(xiàn)較好的5 種主流的相關(guān)濾波算法與本文算法進(jìn)行比較與分析。通過相關(guān)實(shí)驗(yàn),本文算法參數(shù)設(shè)置如下,HOG相關(guān)濾波器和CN 相關(guān)濾波器的正則化參數(shù)設(shè)置為λ=0.001,學(xué)習(xí)率η=0.01,HOG特征和CN特征的cell數(shù)為4×4,梯度方向?yàn)?,維數(shù)為3,高斯標(biāo)準(zhǔn)差為σ=1/16,共有9 個(gè)尺度池因子1、0.980、0.985、0.990、0.995、1.005 1.010、1.015、1.020。顏色直方圖bin 通道數(shù)為32,顏色直方圖響應(yīng)圖與相關(guān)濾波器響應(yīng)圖融合系數(shù)分別為0.4和0.6,顏色直方圖學(xué)習(xí)率η=0.01。
本實(shí)驗(yàn)中的定量分析采用以O(shè)PE(one-pass evaluation)模式運(yùn)行得到的跟蹤準(zhǔn)確率(precision)和成功率(success)數(shù)據(jù)作為算法性能的評價(jià)指標(biāo)。其中準(zhǔn)確率為跟蹤中心點(diǎn)位置誤差小于閾值的幀數(shù)Fcenter占總體視頻幀數(shù)Ftotal的比例,即,中心位置誤差則表示序列中目標(biāo)預(yù)測位置中心點(diǎn)與實(shí)際目標(biāo)中心點(diǎn)歐式距離的平均值。成功率則用跟蹤重疊率(交并比)來度量,重疊率是指整個(gè)跟蹤序列中目標(biāo)預(yù)測區(qū)域與實(shí)際區(qū)域交并比大于給定閾值的幀數(shù)占比。
其中,Rt是跟蹤目標(biāo)區(qū)域,Ro是實(shí)際目標(biāo)區(qū)域。
為驗(yàn)證本文特征自適應(yīng)融合有效性,選取Staple算法(單一HOG特征)、HOG特征和CN線性相加特征(權(quán)重分別為0.5)和本文自適應(yīng)特征融合方法分別對Skiing視頻序列OTB-2013 標(biāo)準(zhǔn)數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)比較,圖6顯示了跟蹤準(zhǔn)確度、成功率的結(jié)果。
圖6 在OTB-2013和Skiing視頻序列上的跟蹤結(jié)果Fig.6 Results on OTB-2013 and Skiing video sequences
通過上述實(shí)驗(yàn)結(jié)果說明本文自適應(yīng)特征融合改進(jìn)算法在應(yīng)對形變、旋轉(zhuǎn)、光照變化、背景復(fù)雜等多種干擾因素時(shí)具有較好的跟蹤準(zhǔn)確性和魯棒性。
對本文算法進(jìn)行總體性能評估。在OTB-2013 和OTB-2015的視頻序列上與5種近年來效果較好的跟蹤算法KCF、CSK、DSST、SAMF、STAPLE進(jìn)行綜合比較,如圖7 所示。在OTB-2013 和OTB-2015 中本文算法準(zhǔn)確度在所有算法中取得了最優(yōu)的跟蹤結(jié)果,與次優(yōu)的Staple 算法相比,本文算法在精確率方面有3.412%和1.187%的提升;在成功率圖上接近最優(yōu)的Staple 算法,展現(xiàn)了優(yōu)異的總體性能。表1列出了本文算法與5種跟蹤算法運(yùn)行的平均傳輸幀率(FPS)、平均精度和平均成功率。
表1 六種跟蹤算法在不同基準(zhǔn)上的平均跟蹤性能參數(shù)表Table 1 Mean tracking performance parameters on different benchmarks for six kinds of tracking algorithms
圖7 在OTB-2013和OTB-2015的跟蹤結(jié)果比較Fig.7 Tracking results on OTB-2013 and OTB-2015
為充分對比各個(gè)算法針對不同場景的性能差異,根據(jù)OTB-2013數(shù)據(jù)庫中的視頻序列場景屬性分別在快速運(yùn)動(fast motion)、背景干擾(background clutters)、運(yùn)動模糊(motion blur)、形變(deformation)、光照變化(illumination variation)、平面內(nèi)旋轉(zhuǎn)(in-plane rotation)、平面外旋轉(zhuǎn)(out-of-plane rotation)、目標(biāo)消失(out-ofview)、尺度變化(scale variation)、遮擋(occlusion)和低分辨率(low resolution,LR)進(jìn)行跟蹤結(jié)果比較,圖8、9分別顯示了跟蹤準(zhǔn)確率和跟蹤成功率,可以看出本文算法跟蹤性能優(yōu)于其他算法。表2顯示了在OTB-2015不同場景屬性下的跟蹤準(zhǔn)確率和成功率,也證明了本文算法的有效性。
表2 本文算法與其他5種跟蹤算法在OTB-2015環(huán)境下的跟蹤準(zhǔn)確率(P)與成功率(S)對比結(jié)果表Table 2 Comparison results between proposed method and other five kinds of tracking algorithms on OTB-2015
圖8 OTB-2013中11種場景下各算法的準(zhǔn)確率比較Fig.8 Comparison of tracking precision rate for each algorithm under eleven kinds of scenes in OTB-2013
圖9 OTB-2013中11種場景下各算法的成功率比較Fig.9 Comparison of tracking success rate for each algorithm under eleven kinds of scenes in OTB-2013
為驗(yàn)證本文HOG 特征與CN 特征融合算法的有效性,將本文算法與基于HOG 特征與尺度池方法(HOG+Scaling-Pool)和Staple 方法(HOG+顏色概率特征,尺度估計(jì)采用尺度濾波器)在OTB-2013上進(jìn)行比較,結(jié)果如圖10 所示。由于本文算法和Staple 方法增加了顏色特征,所以跟蹤性能優(yōu)于單一HOG特征跟蹤方法;相比較Staple方法,本文方法在尺度估計(jì)中也融合了顏色信息,所以進(jìn)一步提高了跟蹤效果。
圖10 融合特征驗(yàn)證實(shí)驗(yàn)Fig.10 Fusion feature verification experiment
本文雖然采用多個(gè)相關(guān)濾波器和一個(gè)顏色直方圖模型,但還是基于相關(guān)濾波器和顏色概率直方圖模型的數(shù)學(xué)表達(dá),是兩個(gè)獨(dú)立的嶺回歸問題。兩種方法均可采用最小二乘與二次正則化方法得到封閉的解,以實(shí)現(xiàn)濾波器模型的求解,保證了跟蹤算法的穩(wěn)定性和收斂性,同時(shí)實(shí)現(xiàn)濾波器模型與新的目標(biāo)之間相關(guān)的可靠性,保證目標(biāo)的準(zhǔn)確定位。通過在標(biāo)準(zhǔn)數(shù)據(jù)集上OTB-2013與OTB-2015 進(jìn)行實(shí)驗(yàn)分析,可以看出本文跟蹤算法在實(shí)時(shí)性、穩(wěn)定性、有效性上都具有良好的表現(xiàn)。同時(shí)與5種主流跟蹤算法進(jìn)行對比也驗(yàn)證了本文算法的跟蹤有效性。
實(shí)驗(yàn)選取5 組具有代表性的視頻序列對本文算法及比較算法進(jìn)行定性分析,圖11 為各算法在每組視頻序列中部分幀的跟蹤結(jié)果展示,視頻序列的名稱按照從上到下依次為 skiing、basketball、football、lemming 和singer。由圖11可見,skiing視頻中,視頻在第15幀時(shí)只有本文算法還能追蹤準(zhǔn)確,并且在后續(xù)的形變、尺度變化、光照變化、面內(nèi)和面外旋轉(zhuǎn)的干擾下仍能保持跟蹤成功;basketball 視頻中,也存在明顯的尺度變化和形變、光照、背景等干擾因素,本文算法實(shí)現(xiàn)了對目標(biāo)尺度的穩(wěn)定跟蹤;football 視頻中主要的干擾因素是運(yùn)動模糊和尺度變化背景復(fù)雜,明顯可以看出本文算法優(yōu)于其他算法。lemming 視頻中,目標(biāo)經(jīng)歷了完全遮擋,尺度變化運(yùn)動模糊等問題,本文算法在尺度預(yù)測和跟蹤準(zhǔn)確性上有著有益的表現(xiàn)。singer 視頻中,存在著尺度變化和光照變化、形變等干擾因素綜,本文算法依舊可以有著不錯(cuò)的表現(xiàn)。綜上所述,對特定視頻進(jìn)行定性分析的結(jié)果進(jìn)一步驗(yàn)證了本文算法在應(yīng)對遮擋、形變、旋轉(zhuǎn)、尺度變化、光照變化、背景復(fù)雜、運(yùn)動模糊等多種干擾因素時(shí)具有較好的跟蹤準(zhǔn)確性和魯棒性。
圖11 5組視頻上的部分跟蹤視頻序列Fig.11 Partial tracking results on 5 video sequences
本文提出了一種多相關(guān)濾波器下特征自適應(yīng)融合目標(biāo)跟蹤算法,通過采用CN和HOG特征自適應(yīng)融合的方式提高相關(guān)濾波目標(biāo)特征的有效性,并利用尺度池方法對目標(biāo)尺度進(jìn)行估計(jì)和更新,實(shí)現(xiàn)了復(fù)雜場景下目標(biāo)的穩(wěn)定跟蹤,并通過在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文算法。