馮 漢 王永雄 張孫杰
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院 上海 200093)
近幾年相關(guān)濾波(Correlation Filter,CF)在目標(biāo)跟蹤領(lǐng)域取得很大的進(jìn)展。David S Bolme等率先提出了誤差最小平方和濾波器(Minimum Output Sum of Squared Error,MOSSE)[1],首次將相關(guān)濾波用在目標(biāo)跟蹤上,極大提高了跟蹤速度。Jo?o F.Henriques等通過引入循環(huán)移位矩陣和核技巧(Circulant Structure of Tracking-by-Detection with Kernel,CSK)[2]可以在基本不損失計(jì)算速度的基礎(chǔ)上極大地?cái)U(kuò)充訓(xùn)練樣本,在后續(xù)工作中提出了核相關(guān)濾波器(High-Speed Tracking with Kernelized Correlation Filters,KCF)[3],在 CSK 的基礎(chǔ)上利用 Pedro等提出的快速梯度直方圖特征(Fast Histogram of Oriented Gradient,F(xiàn)HOG)[4]提高跟蹤精度。Martin Danelljan[5]等在 Van De Weijer提出的顏色屬性特征(Color Name,CN)[6]基礎(chǔ)上提出顏色自適應(yīng)的思想,選取最有鑒別力的顏色特征進(jìn)行跟蹤。針對(duì)目標(biāo)前后運(yùn)動(dòng)造成的尺度變化問題,M Danelljan等首次提出了平移濾波加尺度濾波的思想(Discriminatiive Scale Space Tracker,DSST)[8],兩個(gè)濾波器單獨(dú)訓(xùn)練、局部?jī)?yōu)化,能精確估計(jì)目標(biāo)尺度。深度學(xué)習(xí)在目標(biāo)跟蹤領(lǐng)域也取得越來越重的地位,Valmadre[15]等結(jié)合相關(guān)濾波和end-to-end方式在CNN中訓(xùn)練,能達(dá)到很好的跟蹤效果。
為了提高跟蹤算法的魯棒性,本文在傳統(tǒng)KCF的框架上融合了FHOG特征和CN特征作為平移濾波器獲取目標(biāo)的平移位置,并利用PCA獲得最有鑒別力特征,實(shí)現(xiàn)顏色自適應(yīng)以減少計(jì)算時(shí)間。同時(shí)采用平移濾波加尺度濾波的思想,增加一個(gè)33尺度的尺度濾波器精確估計(jì)目標(biāo)的尺度變化。在標(biāo)準(zhǔn)數(shù)據(jù)集[17]進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)表明本文算法與近幾年經(jīng)典的跟蹤算法比較,在外觀變形、尺度變化、光照變化、背景相似干擾等情況下平均性能均優(yōu)于對(duì)比方法,且能滿足實(shí)時(shí)性。
傳統(tǒng)核相關(guān)濾波跟蹤模型的建立是通過求解期望輸出與實(shí)際輸出響應(yīng)的最小均方誤差,找出合適的濾波器w。假設(shè)一共有n個(gè)訓(xùn)練樣本響應(yīng)函數(shù) f(z)=wTz,期望輸出與實(shí)際響應(yīng)輸出的最小均方誤差如式(1)所示:
式(1)λt為正則項(xiàng)系數(shù),防止過擬合。式(1)中濾波器w的解為
式(2)I為單位矩陣,上標(biāo)T代表轉(zhuǎn)置操作。式(2)求逆操作需要很大,利用復(fù)頻域的相關(guān)性質(zhì)能減少求逆計(jì)算量,式(2)在復(fù)頻域的表達(dá)式為
XH為 X的Hermitian變換即 XH=(X*)T,X*為 X的復(fù)共軛,在實(shí)數(shù)域式(2)和式(3)等價(jià)。
通過循環(huán)移位操作可以極大增加訓(xùn)練樣本集,提高濾波器的魯棒性,類似于信號(hào)的基波與諧波,通過投影到復(fù)頻域并利用相關(guān)性質(zhì)[10]可以進(jìn)行快速求解。循環(huán)移位矩陣在傅里葉空間對(duì)角化的形式如下:
式(4)V為循環(huán)移位矩陣,v為基向量,F(xiàn)是傅里葉變換矩陣,上標(biāo)∧代表傅里葉變換,上標(biāo)H代表共軛裝置。如果訓(xùn)練樣本X由基樣本x循環(huán)移位生成,則結(jié)合式(3)和式(4)求得:
式(5)∧運(yùn)算符代表傅里葉變換,⊙運(yùn)算符代表點(diǎn)乘,*運(yùn)算符代表復(fù)共軛。
式(5)給出了線性可分情況下的解析解,定義核函數(shù)κ將輸入x映射到高維空間φ(x)可以解決線性不可分情況,濾波器w可以用φ(x)的線性組表示。此時(shí)響應(yīng)函數(shù) f(z)=wTz在高維空間的表達(dá)形式為核函κ 的表達(dá)形式為 κ(x,x′)= φ(x),φ(x′) ,, 為點(diǎn)乘運(yùn)算符,所以響應(yīng)函數(shù) f(z)的核變換形式為
通過式(6)求得式(1)的核形式解為
式(7)K 為 n×n的核矩陣,表達(dá)式為 Kij=κ(xi,xj),當(dāng)K是一個(gè)循環(huán)移位矩陣時(shí)結(jié)合式(4)可得式(7)快速解形式為
式(8)∧運(yùn)算符代表傅里葉變換,kxx′表示為核矩陣K的第一行。
通過定義Kz為訓(xùn)練樣本x和候選區(qū)域z的核相關(guān)循環(huán)移位矩陣,Kxz為Kz的第一行,式(6)可以表示為 f(z)=(Kz)Ta,結(jié)合式(4)可得輸出響應(yīng)為
式(9)∧運(yùn)算符代表傅里葉變換,⊙運(yùn)算符代表點(diǎn)乘。為了減少計(jì)算量本文采用如下更新策略:
式(10)xt為當(dāng)前第t幀訓(xùn)練樣本,xt-1為上一幀第t-1幀訓(xùn)練樣本,at為當(dāng)前幀權(quán)重系數(shù),at-1為上一幀權(quán)重系數(shù)數(shù),ηt為模板更新速率。
傳統(tǒng)的KCF算法利用FHOG特征能較好地體現(xiàn)目標(biāo)輪廓信息。由于目標(biāo)在運(yùn)動(dòng)過程中容易發(fā)生形變和部分遮擋等情況,在嚴(yán)重情況下如果只用FHOG特征容易跟丟目標(biāo),由于顏色特征對(duì)于上述情況有較好的適應(yīng)性,所以本文融合FHOG特征和CN特征,CN特征通過把RGB特征映射為黑、藍(lán)、棕、灰、綠、橙、粉、紫、白、紅和黃共11種屬性,使顏色特征更具有區(qū)分度。融合31維FHOG特征和11維CN特征會(huì)增加計(jì)算量,導(dǎo)致跟蹤速度降低。為了達(dá)到更好的實(shí)時(shí)性,本文利用文獻(xiàn)[5]提出顏色自適應(yīng)的思想,把11維CN特征降為2維,自動(dòng)選擇最顯著的兩維CN特征,在不損失特征重要信息的基礎(chǔ)上提高跟蹤速度。通過最小化損失函數(shù)獲得合適的維度降低映射以獲取最有鑒別力的顏色特征,該損失函數(shù)的形式如下:
式(12)xp為當(dāng)前幀特征,Bp是由標(biāo)準(zhǔn)正交向量組成的D1×D2維投影矩陣,分別代表當(dāng)前幀特征維數(shù)和降維后的維數(shù)。為第 j幀的平滑項(xiàng),定義如下:
j對(duì)應(yīng)的特征值。通過數(shù)據(jù)項(xiàng)(12)和平滑項(xiàng)(13)可知損失函數(shù)(11)只有在BP=I時(shí)才能最小化。Bp由矩陣特征值分解(EVD)得到的前D2個(gè)最大特征值對(duì)應(yīng)特征向量組成,Cp為 xp的協(xié)方差矩陣,Λj為D1×D2維的對(duì)角矩陣,其值由λ(jk)組成。
上式推導(dǎo)得到一個(gè)合適的投影矩陣Bp,通過線性映射 xp(m,n)=BpTxp(m,n),?m,n 就可以得到新的D2維特征圖。
通過前兩節(jié)計(jì)算得到了一個(gè)融合多特征的平移濾波器,能夠很好解決目標(biāo)跟蹤過程中的外觀變形、部分遮擋等情況。但是在實(shí)際運(yùn)動(dòng)過程中,目標(biāo)相對(duì)相機(jī)的前后運(yùn)動(dòng)會(huì)造成尺度較大幅度的變化,如果濾波器模板尺度不變就會(huì)導(dǎo)致該濾波器不能學(xué)習(xí)到合適比例的前景和背景信息從而導(dǎo)致跟蹤效果不佳。
針對(duì)以上問題,本文利用平移加尺度濾波的思想,單獨(dú)訓(xùn)練一個(gè)33尺度的一維濾波器,采用局部?jī)?yōu)化,單獨(dú)訓(xùn)練的方式使得該濾波器更加靈活。
尺度濾波器模型的建立通過最小化尺度濾波器h與訓(xùn)練樣本 f的相關(guān)運(yùn)算結(jié)果,然后計(jì)算與期望輸出g之間的最小均方誤差,最后計(jì)算出最優(yōu)的尺度濾波器h,如下式所示:
式(15)大寫字母代表式(14)中其對(duì)應(yīng)小寫字母對(duì)應(yīng)的傅里葉變換,*為復(fù)共軛運(yùn)算符。為了減少計(jì)算量通過模板更新策略獲取近似的濾波模板:
式(17)中Z為當(dāng)前幀目標(biāo)區(qū)域z的傅里葉變換,上標(biāo)l代表第l維特征圖,?-1運(yùn)算符代表傅里葉逆變換。
式(18)給出了一維尺度濾波器的響應(yīng)輸出表達(dá)式,通過計(jì)算 y最大值所在的位置n,,S為尺度總個(gè)數(shù)。則當(dāng)前幀目標(biāo)尺度為anP×anR,a代表尺度因子,P×R表示前一幀目標(biāo)的寬和高。由于尺度系數(shù)an是指數(shù)函數(shù)為非線性函數(shù),即可實(shí)現(xiàn)對(duì)較大目標(biāo)進(jìn)行粗略檢測(cè),對(duì)較小目標(biāo)進(jìn)行細(xì)致檢測(cè)的效果。
為了有效評(píng)估本文算法的性能,選取了近幾年經(jīng)典的四種算法做對(duì)比試驗(yàn),包括代表經(jīng)典相關(guān)濾波的CSK算法;以FHOG特征為代表的KCF算法;以顏色特征為代表的CN算法;以尺度變換為代表的DSST算法。本實(shí)驗(yàn)采用的數(shù)據(jù)集為VOT2014數(shù)據(jù)集,該數(shù)據(jù)集共有50段視頻序列,包含了尺度變化、背景相似干擾、快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊、光照變化等常見的跟蹤干擾問題,能夠比較全面反映算法性能。同時(shí)為了兼顧每個(gè)算法的獨(dú)特性質(zhì),所以選取的視頻序列最大限度保證對(duì)每個(gè)算法的公平性。
本實(shí)驗(yàn)的硬件平臺(tái)為Inter(R)Core(TM)i7 2.90GHz處理器,8GB內(nèi)存,軟件平臺(tái)為Matlab R2015a。本文二維高斯形狀輸出和二維高斯核函數(shù)以及一維高斯形狀輸出的標(biāo)準(zhǔn)差σ=0.5。FHOG特征細(xì)胞大小為4,梯度直方圖方向個(gè)數(shù)為9。第一節(jié)正則化系數(shù)λt=0.0001,模板更新速率ηt=0.02,第三節(jié)正則化系數(shù)λs=0.01,模板更新速率ηs=0.025。第三節(jié)尺度因子α=1.02,尺度數(shù)量S=33。第二節(jié)期望輸出y選用二維高斯形狀輸出,核函數(shù)κ選用二維高斯核函數(shù)。
本實(shí)驗(yàn)采用視覺跟蹤中最常用的三種評(píng)估方法來評(píng)估各算法性能:中心位置誤差法(Center Location Error,CLE),距離精度法(Distance Precision,DP)和重疊精度法(Overlap Precision,OP)。CLE評(píng)價(jià)方法即計(jì)算目標(biāo)預(yù)測(cè)位置(xp,yp)和真實(shí)位置(xr,yr)的平均歐式距離N為樣本的幀數(shù)。DP評(píng)價(jià)方法即計(jì)算CLE數(shù)據(jù)中小于一定閾值的幀數(shù)占總幀數(shù)的百分比,本實(shí)驗(yàn)取該閾值為20像素。OP評(píng)價(jià)方法即計(jì)算目標(biāo)預(yù)測(cè)位置及大小與實(shí)際位置及大小的重疊率大于一定閾值的幀數(shù)占總幀數(shù)的百分比,該閾值一般選取PASCAL[14]的評(píng)價(jià)標(biāo)準(zhǔn)為0.5。
為了直觀各算法性能差異,選取了實(shí)驗(yàn)集中6類具有代表性的視頻序列做定性分析。每個(gè)視頻序列特性如表1所示,同時(shí)展示其中3個(gè)視頻序列每個(gè)序列的3幀圖片顯示各算法跟蹤結(jié)果,實(shí)驗(yàn)結(jié)果如圖1所示,圖1不同顏色框代表不同算法的跟蹤結(jié)果。
表1 視頻特性
圖1 定性分析圖
通過5.2節(jié)定性分析,能直觀對(duì)比本文算法與對(duì)比算法結(jié)果,接下來通過定量分析觀察各個(gè)算法之間性能差異。表2數(shù)據(jù)給出了表1視頻序列中的CLE、DP和OP在20個(gè)像素閾值下的數(shù)據(jù)。表中加粗部分為最優(yōu)數(shù)據(jù),通過觀察各性能指標(biāo)的均值參數(shù)可知本文算法在三個(gè)性能指標(biāo)上均取得最優(yōu)效果,CLE,DP,OP值分別為 7.38/像素,95.53%和85.5。
表2 定量分析
為了直觀顯示各算法綜合性能,前兩節(jié)只提取了6個(gè)典型特性視頻序列做對(duì)比分析。為了不失客觀性,實(shí)驗(yàn)選取符合各算法特性共26個(gè)視頻序列作全面對(duì)比實(shí)驗(yàn)。同樣采用5.1節(jié)提到的三種性能指標(biāo)評(píng)估算法性能。由于對(duì)比視頻序列較多,如果僅用均值指標(biāo)來評(píng)估各算法性能會(huì)受到極端數(shù)值影響,所以增加中值指標(biāo)來反映各算法的性能差異,可以避免極端數(shù)值的影響。具體數(shù)據(jù)如表3、表4所示。從表3、表4數(shù)據(jù)可以看出本文算法性能和對(duì)比算法比較能取得較好效果。
表3 均值指標(biāo)
表4 中指指標(biāo)
上幾小節(jié)主要分析各算法跟蹤精度,可知本文算法的跟蹤精度是最高的。接下來實(shí)驗(yàn)對(duì)比各算法跟蹤速度,實(shí)驗(yàn)得出表1所示6個(gè)視頻序列跟蹤速度,并取它們的平均值作為最終跟蹤速度,具體數(shù)據(jù)如表5所示。從表5數(shù)據(jù)可知本文算法跟蹤速度達(dá)到29fps,可以滿足跟蹤的實(shí)時(shí)性。
表5 跟蹤速度
本文提出的多特征融合與尺度濾波器算法,在傳統(tǒng)KCF算法基礎(chǔ)上,融合了FHOG特征和降維后的CN特征,能更加全面地反映目標(biāo)信息。同時(shí)借鑒了DSST算法提出的尺度劃分思想單獨(dú)訓(xùn)練一個(gè)33尺度濾波器,在取得目標(biāo)平移位置后,通過尺度濾波器來精確估計(jì)目標(biāo)的尺度大小。通過對(duì)比試驗(yàn)可以看出本文算法平均性能均優(yōu)于對(duì)比算法。雖然本文算法與對(duì)比算法比較能取得較好跟蹤效果,但是在引入多特征和尺度濾波器的時(shí)候同時(shí)也降低了跟蹤速度。由于本文算法并未改進(jìn)模板更新策略,所以在針對(duì)目標(biāo)大幅度形變,大面積遮擋和快速運(yùn)動(dòng)模糊的情況下同對(duì)比算法一樣跟蹤結(jié)果仍然不盡人意,還需要大量的研究工作完善該算法。