張立國, 楊 曼, 周思恩, 金 梅
(燕山大學(xué) 電氣工程學(xué)院,河北 秦皇島 066004)
隨著人工智能技術(shù)的快速發(fā)展,目標(biāo)跟蹤在現(xiàn)實生活中的應(yīng)用越來越多,包括視頻監(jiān)控、運動項目的比賽分析、智能人機交互[1~3]、跟蹤系統(tǒng)的設(shè)計[4]等,由于跟蹤中也存在運動模糊、背景復(fù)雜變化、目標(biāo)遮擋、光照變化等問題,故實現(xiàn)魯棒性高、準(zhǔn)確度高以及速度快的目標(biāo)跟蹤仍然是一個急需解決的問題[5,6]。
由于深度學(xué)習(xí)的跟蹤算法自身魯棒性強以及速度快的特點,相關(guān)濾波目標(biāo)跟蹤方法受到了國內(nèi)外眾多研究者們的關(guān)注[7,8]。早期,Bolme D S等[9]提出的最小輸出平方誤差和(minimum output sum of squared error,MOSSE)跟蹤算法;Henriques J F等[10]提出的循環(huán)結(jié)構(gòu)的檢測跟蹤(circulant of tracking-by-detection with kernel,CSK)算法雖然都顯著地提高了跟蹤速度,但都是僅利用灰度特征,限制了精度的提升; 隨后,Henriques J F等[11]又提出核相關(guān)濾波器(kernelized correlation filters,KCF)算法,該算法將顏色直方圖(HOG)特征代替CSK算法中的灰度特征,使單通道擴展至多通道,提高了跟蹤精度。Danelljan M等[12]提出的空間正則化鑒別相關(guān)濾波器(spatially regularized discriminative correlation filters,SRDCF),在KCF基礎(chǔ)上,加入了空間正則來解決邊界效應(yīng),但是速度比較慢,無法達到實時跟蹤的效果;Danelljan M等[13]還提出了自適應(yīng)顏色名跟蹤(color name tracking,CNT),基于CSK濾波器,融入了顏色名稱(color name,CN),雖然精度相比CSK濾波有所提高,但是對快速運動跟蹤效果不佳。
針對以上存在的問題,本文在相關(guān)濾波KCF框架下,提出一種基于自適應(yīng)特征融合的多尺度相關(guān)濾波跟蹤方法。首先,提取VGG-19網(wǎng)絡(luò)中conv2-2、conv3-4、conv5-4層的特征,同時提取CN特征,然后,將CN特征直接與conv2-2層特征并聯(lián),并將3層的特征分別經(jīng)過濾波器學(xué)習(xí)得到響應(yīng)圖,由加權(quán)融合的方法搜索響應(yīng)圖峰值,根據(jù)峰值坐標(biāo)估計目標(biāo)位置。以適應(yīng)目標(biāo)跟蹤過程中目標(biāo)外觀變化,引入文獻[14]的方法,進行尺度估計。實驗采用數(shù)據(jù)集OTB(object tracking benchmark)100,實驗結(jié)果表明:與KCF算法相比,精確度提高13.6%,成功率提高11.8%,并將本文跟蹤算法與其他跟蹤算法進行對比,在遮擋、變形、光照變化快速運動、平面旋轉(zhuǎn)、運動模糊幾個方面的精度和準(zhǔn)確率上都優(yōu)于其他算法。
KCF算法的核心思想是循環(huán)移位跟蹤目標(biāo)區(qū)域,并以此構(gòu)造大量的樣本來訓(xùn)練分類器,見文獻[11]。通過分類器計算候選區(qū)域與跟蹤目標(biāo)之間的相似度,更新最大相似度區(qū)域作為新的跟蹤目標(biāo),同時通過離散傅里葉變換降低分類器訓(xùn)練與檢測過程中的運算量。
選取目標(biāo)周圍n×n大小的圖像塊x,訓(xùn)練分類器f(x)=<φ(x),w>,循環(huán)移位圖像塊xi(i∈{0,…,n-1}×{0,…,n-1}),寫成矩陣形式:
(1)
利用循環(huán)矩陣擴大樣本數(shù)量,提高分類器的訓(xùn)練效果。循環(huán)矩陣經(jīng)離散傅里葉變換(Discrete Fourier Transform,DFT)對角化為
X=FHdiag(Fx)F
(2)
式中:FH是F的埃爾米特變換;F為離散傅里葉變換矩陣。
通過嶺回歸對KCF進行訓(xùn)練,用以獲取目標(biāo)模型分類器的權(quán)重w。嶺回歸問題可以轉(zhuǎn)化為正則化最小二乘問題,對于所有訓(xùn)練樣本X和預(yù)期輸出Y,分類器權(quán)重w由優(yōu)化目標(biāo)函數(shù)(3)求解。
(3)
式中:xi是通過循環(huán)移位獲得的訓(xùn)練樣本;yi是xi高斯標(biāo)簽;λ是正則化參數(shù);φ是核k誘導(dǎo)的高維特征空間的映射。因此,式(3)的解可以表示為
(4)
式中:w是線性低維空間權(quán)重系數(shù);α是從核函數(shù)映射到非線性高維空間系數(shù)。
對于在原始空間不能進行分類的樣本,引入核函數(shù)的相關(guān)概念,將低維的線性不可分問題映射到高維空間,使其在高維空間線性可分。假設(shè)H是某種特征空間;如果存在某個映射φ(x):x→H,則核函數(shù)k(x,x)滿足的內(nèi)積如下:
k(x,x′)=φT(x)φ(x′)
(5)
聯(lián)立式(3)、(4)和(5)可以將分類器權(quán)重w的求解轉(zhuǎn)化為求解分類器系數(shù)A為
(6)
式中:F(*)是離散傅里葉變換(DFT)算子;k(x,x)是核函數(shù)。
檢測階段中,輸入視頻的最終目標(biāo)位置信息是經(jīng)過嶺回歸分類器的分類來確定,再將得到的目標(biāo)位置信息繼續(xù)訓(xùn)練嶺回歸分類器,如此反復(fù),最終完成對目標(biāo)的跟蹤[15]。檢測樣本是下一幀中相同位置的圖像塊z,分類器響應(yīng)輸出:
(7)
(8)
CN特征本質(zhì)是通過顏色屬性擴展CSK。是一種全局的特征,描述的是圖象或者圖象某區(qū)域內(nèi)的全局性表觀特征,利用文獻[16]中的映射方法將RGB空間轉(zhuǎn)化成了11維的顏色特征空間,并利用主成分分析法(PCA)將11維顏色特征降為2維顏色特征,參見文獻[13]。其中,PCA就是在最小均方的情況下,尋找原始數(shù)據(jù)的最優(yōu)投影方法,Danelljan M等利用PCA思想尋找特征空間的主軸方向,然后用主軸構(gòu)建出一個低維坐標(biāo)系,將圖像中的顏色特征信息投影到新坐標(biāo)系中,達到降維處理的目的。
利用最小化公式(9)可以得到當(dāng)前t幀的合適的降維圖:
(9)
(10)
(11)
為了獲得更加魯棒的投影矩陣,將平滑項加入式(9)中,可以得到新投影矩陣Bt和先前投影矩陣Bj之間的平滑誤差,計算公式如下:
(12)
(13)
VGG-19網(wǎng)絡(luò)模型[17]結(jié)構(gòu)如圖1所示,以輸入224×224大小圖像為例,VGG-19網(wǎng)絡(luò)選擇3×3的卷積核,卷積層步長為1,池化層的步長為2,其中,C1-C5為卷積塊,P1-P5為池化層,F(xiàn)C1-FC3為全連接層,Output是輸出分類結(jié)果?;诖耍琕GG(visual geometry group)網(wǎng)絡(luò)可以在特征圖大小改變很小的情況下通過3×3卷積擴大通道數(shù),又可以根據(jù)池化層縮小數(shù)據(jù)的尺寸。
圖1 VGG-19卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 VGG-19 Convolutional Neural Network Structure
借助文獻[18]的設(shè)計思想,在卷積淺層中加入顏色特征,并且采用的層特征并不是全連接層的輸出特征。經(jīng)過大量的實驗發(fā)現(xiàn),conv5-4層特征在定位尖銳邊界方面不太有效,但conv3-4特征對于精確定位階梯邊緣更有用,同時在conv2-2層加上顏色特征,可以減小光照變化的影響。最終確定利用VGG-19網(wǎng)絡(luò)中的conv2-2、conv3-4、conv5-4層的特征輸出,并將CN特征廣播成與conv2-2層特征大小一樣后直接與之相加,隨后3層的特征分別經(jīng)過相關(guān)濾波器學(xué)習(xí),獲取不同的響應(yīng)圖,基于最大輸出響應(yīng)進行線性插值,得到新的輸出響應(yīng)圖,再加權(quán)融合搜索最大響應(yīng)評估目標(biāo)位置。
εl=2l-5
(14)
然而,在conv2-2層加入CN特征,會使得模型對光照變化敏感,因此將conv2-2層特征的權(quán)重選擇與conv3-4層保持一致,假設(shè)加權(quán)融合后響應(yīng)值峰值坐標(biāo)為(m,n),則根據(jù)公式(15)進行目標(biāo)位置P(m,n)的預(yù)測:
(15)
本文借鑒Danellian M等提出的多尺度跟蹤器(DSST),見文獻[14],學(xué)習(xí)一維獨立的相關(guān)濾波進行尺度變化的檢測。首先,在被檢測的目標(biāo)周圍采集一系列尺度不同的圖像塊xsl,提取m′維HOG特征,利用這些圖像塊訓(xùn)練嶺回歸分類器,并在線性空間進行求解,獲得一維的尺度相關(guān)濾波器,最后,相關(guān)濾波器的最大輸出響應(yīng)即為新的一幀中目標(biāo)的尺度。
(16)
然后,尺度相關(guān)濾波器的輸出響應(yīng)為
(17)
本文的算法流程如圖2所示。
圖2 本文算法具體流程圖Fig.2 Flowchart of the algorithm in this paper
在目標(biāo)位置檢測部分,利用VGG-19網(wǎng)絡(luò)中的conv2-2、conv3-4、conv5-4層的特征,并在conv2-2層直接相加CN特征,并將3層的輸出響應(yīng)進行加權(quán)融合,搜尋峰值坐標(biāo),并相應(yīng)的在線更新參數(shù);在尺度檢測部分,在目標(biāo)檢測出后,在目標(biāo)周圍提取一系列不同尺度的圖像塊,進行HOG特征提取,并訓(xùn)練嶺回歸分類器,經(jīng)KCF濾波并尋找使輸出響應(yīng)最大的值,作為目標(biāo)尺度。
實驗采用Intel Core i5-4210M、CPU 2.60 GHz、RAM4.00GB的筆記本,算法開發(fā)平臺是Matlab R2018b,在標(biāo)準(zhǔn)跟蹤數(shù)據(jù)集OTB100[19]上檢驗跟蹤的精度和成功率性能指標(biāo),實驗中選取的模型學(xué)習(xí)率γ=0.01,正則化參數(shù)λ=0.000 1。OTB100數(shù)據(jù)集包含了跟蹤中經(jīng)常遇到的具有挑戰(zhàn)性的問題:形變、背景雜亂、遮擋、快速運動、旋轉(zhuǎn)、運動模糊等背景環(huán)境?;诖谁h(huán)境和數(shù)據(jù)集,分別將本文算法與近年幾個優(yōu)異的跟蹤算法進行全部視頻序列的測試,并使用一次通過評估(one-pass evaluation,OPE)模式,計算精確度(precision)[20]和成功率(success)。
成功率曲線(success curve)描述的是估計目標(biāo)矩形框與真實目標(biāo)矩形框的重合率(overlap score,OS)的大小,即兩矩形框的相交部分面積除以兩矩形框的相并部分的面積[21]。當(dāng)某幀的重合率大于給定的閾值T0時,該幀就是跟蹤成功(success)。通常取T0=0.5用來衡量跟蹤算法[22]。成功率曲線圖的橫坐標(biāo)是從0到1的連續(xù)閾值,縱坐標(biāo)是總的跟蹤成功的幀占所有幀的百分比。評價得分用曲線下方的面積來表示。
精度曲線(precision curve)是指跟蹤目標(biāo)坐標(biāo)中心與標(biāo)簽(ground-truth)的坐標(biāo)中心的歐式距離(中心誤差(center location error,CLE))小于給定閾值的視頻幀數(shù)和整個測試集視頻幀數(shù)的比值,精度曲線圖的橫坐標(biāo)是一系列不同的距離閾值大小,單位為pixel,縱坐標(biāo)是估計目標(biāo)中心位置的誤差距離小于該閾值的所有幀占該序列總幀的百分比。一般閾值不同百分比也不同,由此可以得到一條曲線,本文CLE閾值選20個像素點。
本文算法(簡稱ours)與近幾年來出現(xiàn)的幾個先進跟蹤算法進行了比較,OPE檢測結(jié)果如圖3所示,左側(cè)圖框內(nèi)各算法前面的數(shù)據(jù)表示平均成功率,右側(cè)圖框內(nèi)的數(shù)據(jù)則表示閾值下的準(zhǔn)確度。
在表示成功率圖的坐標(biāo)中,其橫坐標(biāo)是估計目標(biāo)矩形和真實框矩形的交并比閾值,縱坐標(biāo)是滿足交并比閾值條件下的成功率;在表示精度圖的坐標(biāo)中,其橫坐標(biāo)是跟蹤目標(biāo)結(jié)果與人工標(biāo)注目標(biāo)結(jié)果的誤差閾值,縱坐標(biāo)則是精度值。
由圖3可知,在目標(biāo)變形、光照變化、運動模糊、平面旋轉(zhuǎn)幾個方面,ours優(yōu)于KCF、HCF、SRDCF、siamfc3s、DCFNet、LCT、CNNSVM、DLSSVM跟蹤算法。尤其是,相比于KCF濾波器跟蹤算法,一遍過評精度提高13.6%,成功率提高11.8%。
圖4是ours算法與其他4種算法(siamfc3s、 KCF、 HCF、 SRDCF)的跟蹤結(jié)果對比,黃、粉、綠、藍(lán)框均為跟蹤目標(biāo)框。其中,bird1序列傾向于目標(biāo)變形情況,Ironman序列傾向于光照變化情況,Soccer序列傾向于運動模糊情況。
為了進一步說明圖4中各算法跟蹤性能的效果,計算了5種算法的中心位置誤差(center location error,CLE),隨機選取幾組視頻序列的結(jié)果如表1所示。CLE是指跟蹤目標(biāo)坐標(biāo)中心與人工標(biāo)注(ground-truth)的坐標(biāo)中心的歐式距離,單位為pixel,值越小跟蹤效果越好。
圖4 跟蹤效果Fig.4 Tracking effect
表1 中心位置誤差(CLE)對比Tab.1 Central position error (CLE) comparison pixel
針對以上序列實際跟蹤結(jié)果分析如下:
bird1序列:此序列傾向于目標(biāo)變形情況,在第24幀siamfc3s算法跟蹤丟失,第30幀又重新跟蹤成功,在第32幀KCF算法和SRDCF算法目標(biāo)跟蹤丟失,ours和HCF算法跟蹤成功。通過表1中此序列CLE性能的對比,本文算法的跟蹤效果更好。
Ironman序列:光照變化比較明顯,在第17幀SRDCF算法目標(biāo)跟蹤丟失,在第45幀KCF算法目標(biāo)跟蹤丟失,在第106幀siamfc3s算法目標(biāo)跟蹤丟失,ours和HCF算法跟蹤成功。通過表1中此序列CLE性能的對比,ours的跟蹤效果更好。
Soccer序列: 主要涉及運動模糊,第45幀siamfc3s算法目標(biāo)跟蹤丟失,第76幀KCF算法目標(biāo)跟蹤丟失,ours和HCF算法以及SRDCF算法跟蹤成功。通過CLE性能比較ours的跟蹤效果更好。
本文在KCF跟蹤算法的基礎(chǔ)上,結(jié)合在旋轉(zhuǎn)、目標(biāo)形變、背景雜亂情景中魯棒性更優(yōu)的CN特征及在快速運動、模糊等情景中魯棒性高的深度網(wǎng)絡(luò)的特征,提出一種基于自適應(yīng)特征融合的多尺度相關(guān)濾波跟蹤方法。
實驗結(jié)果表明:本文算法在目標(biāo)變形、運動模糊、光照變化及平面旋轉(zhuǎn)方面的精確度和成功率均優(yōu)于其他8種跟蹤算法,比KCF跟蹤算法精確度和稱功率分別提高了13.6%和11.8%。在遮擋、背景雜亂、快速運動情景中,跟蹤效果與HCF算法相當(dāng),有效的提高了目標(biāo)跟蹤的準(zhǔn)確性。