柳培忠 汪鴻翔 駱炎民 杜永兆
1(華僑大學(xué)工學(xué)院 福建泉州 362021) 2(華僑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 福建廈門 361021) 3(華僑大學(xué)現(xiàn)代應(yīng)用統(tǒng)計(jì)與大數(shù)據(jù)研究中心 福建廈門 361021)
視覺跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn),在人機(jī)交互、運(yùn)動分析、智能駕駛、視頻監(jiān)控等領(lǐng)域有著廣泛應(yīng)用.針對背景干擾、低分辨率、目標(biāo)遮擋和光照變化等復(fù)雜場景時(shí),如何實(shí)現(xiàn)更魯棒性的跟蹤仍是目前的研究熱點(diǎn).
傳統(tǒng)的視覺跟蹤算法分為2類:判別式跟蹤和生成式跟蹤[1-3].判別式模型將跟蹤問題建模為一個(gè)二元分類問題,用以區(qū)分前景和背景,采用機(jī)器學(xué)習(xí)訓(xùn)練分類器,用訓(xùn)練好的分類器尋找最優(yōu)區(qū)域.生成式模型是不考慮背景信息直接為目標(biāo)進(jìn)行建模的算法,在當(dāng)前幀對目標(biāo)進(jìn)行建模,預(yù)測位置下一幀與模型匹配最大的區(qū)域.傳統(tǒng)的視覺目標(biāo)跟蹤算法主要使用視頻圖像序列中的像素值為主要特征進(jìn)行建模,當(dāng)跟蹤過程中出現(xiàn)復(fù)雜場景時(shí),淺層的像素級特征效果不好[1-3].
近年來,判別類方法主要有相關(guān)濾波類方法和深度學(xué)習(xí)類方法.相關(guān)濾波算法通過學(xué)習(xí)一個(gè)判別式分類器,用于估計(jì)搜索窗口中目標(biāo)的最大響應(yīng)以實(shí)現(xiàn)跟蹤.深度學(xué)習(xí)方法諸如卷積神經(jīng)網(wǎng)絡(luò)(con-volutional neural network, CNN)、深度信念網(wǎng)絡(luò)(deep belief network, DBN)能夠挖掘出數(shù)據(jù)的深度抽象特征,反映數(shù)據(jù)更深層的本質(zhì).目前卷積神經(jīng)網(wǎng)絡(luò)是應(yīng)用最多的方法,主要有2類:1)應(yīng)用已經(jīng)訓(xùn)練好的CNN模型提取目標(biāo)特征,再結(jié)合傳統(tǒng)的目標(biāo)跟蹤方法實(shí)現(xiàn)跟蹤,深度學(xué)習(xí)方法采用CNN提取的特征具有很強(qiáng)的語義信息,但是缺乏時(shí)空信息;2)應(yīng)用已知的跟蹤目標(biāo)樣本對CNN模型進(jìn)行在線微調(diào),將最終訓(xùn)練結(jié)果用于跟蹤,但是由于跟蹤過程中只能提供第1幀的目標(biāo)樣本,面臨訓(xùn)練樣本缺少問題,因此在線微調(diào)的新模型容易出現(xiàn)過擬合.
本文結(jié)合時(shí)空上下文模型(spatio-temporal con-text model, STM)與卷積神經(jīng)網(wǎng)絡(luò),采用簡化后的淺層卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)抽象特征,時(shí)空上下文模型提取目標(biāo)的時(shí)間與空間信息,淺層卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)深度抽象信息,判斷目標(biāo)的背景與前景,對目標(biāo)進(jìn)行精確定位.
目前大多跟蹤算法采用檢測跟蹤(tracking by detection)框架[4-10].Kalal等人[5]提出的單目標(biāo)長時(shí)間TLD(tracking learning detection)跟蹤算法,綜合了目標(biāo)的跟蹤檢測及在線學(xué)習(xí),將跟蹤和檢測通過在線學(xué)習(xí)機(jī)制結(jié)合起來,能夠很好應(yīng)對目標(biāo)局部遮擋等場景.Ji等人[6]應(yīng)用第1幀和最近幾幀的特征構(gòu)成字典,應(yīng)用 L1最小二乘化準(zhǔn)則將候選粒子投影到字典,確定前景背景.Zhang等人[9]提出一種基于圖割理論的Mean Shift尺度自適應(yīng)算法,克服縮放10%核帶寬的經(jīng)典尺度適應(yīng)方法的帶寬趨于縮小問題,針對尺度變化問題具有較好的實(shí)用性和魯棒性.Hu等人[10]針對單目標(biāo)特征描述不完整的問題,提出一種基于多特征聯(lián)合稀疏表示的跟蹤算法,結(jié)合粒子濾波充分考慮粒子間的依賴性并且實(shí)現(xiàn)了局部塊的稀疏性,提高跟蹤精度.
最近幾年基于相關(guān)濾波(correlation filter, CF)的跟蹤框架由于速度快,效果好吸引了眾多研究者的目光[11-18].Bolme等人[11]第1個(gè)將相關(guān)濾波方法引入視覺跟蹤領(lǐng)域,應(yīng)用灰度特征表達(dá)目標(biāo),最小化二次方差去學(xué)習(xí)一個(gè)MOSSE(minimum output sum of squared error filter)濾波器,最大響應(yīng)位置即跟蹤過程中目標(biāo)所在的位置,優(yōu)勢在于算法速度快. Henriques等人[12]提出的高效核函數(shù)CSK(circulant structure of tracking with kernels)跟蹤算法應(yīng)用循環(huán)位移矩陣進(jìn)行稠密性采樣,并結(jié)合快速傅里葉變換進(jìn)行分類器訓(xùn)練,僅僅采用灰度特征使算法魯棒性不足.Danelljan等人[13]在CSK灰度特征的基礎(chǔ)上聯(lián)合顏色屬性描述目標(biāo),并進(jìn)行降維處理去除冗余信息,對背景雜亂、光照變化和運(yùn)動模糊表現(xiàn)出很好的跟蹤結(jié)果,但快速運(yùn)動、尺度變化和低分辨率等場景下跟蹤效果不佳.核相關(guān)濾波(kernel correlation filter, KCF)算法[14]同樣在CSK基礎(chǔ)上由單通道特征拓展到多通道方向梯度直方圖(histogram of oriented gradient, HOG)特征與高斯核結(jié)合,訓(xùn)練所得分類器對檢測目標(biāo)具有更強(qiáng)的解釋力,跟蹤效果取得顯著提升.基于MOSSE算法加入尺度特性的判別尺度空間跟蹤DSST(discriminative scale space tracking)算法[15]設(shè)計(jì)2個(gè)相對獨(dú)立的相關(guān)濾波器定義為位置濾波器和尺度濾波器實(shí)現(xiàn)目標(biāo)跟蹤和尺度變換,選擇不同的特征種類和特征計(jì)算方式來訓(xùn)練和測試,實(shí)現(xiàn)了快速且準(zhǔn)確的跟蹤效果.Zhang等人[16]應(yīng)用貝葉斯框架對目標(biāo)和其局部上下文區(qū)域進(jìn)行建模,得到目標(biāo)和其周圍區(qū)域的統(tǒng)計(jì)相關(guān)性.對光照變化、尺度變化、遮擋、背景雜亂的場景有較好的效果,但對剛性形變、出視角和低分辨率的視頻效果不佳.
CNN特征由于其包括大量深度抽象信息被廣泛應(yīng)用到視覺跟蹤領(lǐng)域,相比傳統(tǒng)淺層像素特征,應(yīng)用深度抽象特征能夠獲得明顯的性能提升.但卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)跟蹤領(lǐng)域面臨訓(xùn)練樣本缺失與算法運(yùn)算量大實(shí)時(shí)性低等重要問題[19-24].Wang等人[19]第1次將深度網(wǎng)絡(luò)運(yùn)用于單目標(biāo)跟蹤,首先提出“離線預(yù)訓(xùn)練+在線微調(diào)”思路的深度學(xué)習(xí)跟蹤算法(deep learning tracker, DLT),有效解決跟蹤中訓(xùn)練樣本不足的問題;Nam等人[20]提出的樹結(jié)構(gòu)CNN(tree structure convolutional neural network, TCNN)算法核心在于使用樹狀CNN結(jié)構(gòu),每個(gè)階段都訓(xùn)練出新的CNN,即每個(gè)CNN學(xué)習(xí)到的特征是目標(biāo)在不同階段的特征,最后結(jié)果由多個(gè)CNN加權(quán)求和得到,可以減少模型飄移;Wang等人[21]使用序貫集成學(xué)習(xí)方法在線訓(xùn)練CNN,采用2個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)合的方式,預(yù)訓(xùn)練的CNN的輸出作為在線更新的CNN的輸入,進(jìn)行特征提?。晃墨I(xiàn)[22]結(jié)合人腦視覺處理系統(tǒng),簡化了卷積網(wǎng)絡(luò)結(jié)構(gòu),使用目標(biāo)區(qū)域中隨機(jī)提取的歸一化圖像塊作為卷積神經(jīng)網(wǎng)絡(luò)的濾波器,從而實(shí)現(xiàn)了不用訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的快速特征提??;Ma等人[23]將KCF算法中使用的HOG特征替換為深度卷積特征,使用預(yù)訓(xùn)練好的網(wǎng)絡(luò)當(dāng)中的3個(gè)卷積層的輸出,從3個(gè)層當(dāng)中提取的特征分別經(jīng)過相關(guān)濾波器學(xué)習(xí)得到不同的模板,然后對所得到的3個(gè)置信圖進(jìn)行加權(quán)融合得到最終的目標(biāo)位置;文獻(xiàn)[24]設(shè)計(jì)一個(gè)針對跟蹤的網(wǎng)絡(luò)結(jié)構(gòu),用跟蹤數(shù)據(jù)集作為訓(xùn)練樣本,加入在線微調(diào)和尺度更新模塊提高跟蹤精度,但采用測試集訓(xùn)練網(wǎng)絡(luò)模型存在過擬合.
目前CNN研究的演化方法總結(jié)為4種:1)更深的網(wǎng)絡(luò);2)增強(qiáng)卷積模塊功能以及上述2種思路的融合;3)從分類到檢測;4)增加新的功能模塊.
卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)跟蹤方面的研究基本考慮更深的網(wǎng)絡(luò)和增強(qiáng)卷積模塊功能,而基于圖像幀與幀之間的時(shí)空信息研究不多.本文采用一個(gè)在線卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),融合目標(biāo)的時(shí)空上下文信息共同提取目標(biāo)的深度抽象特征,并且無需依賴數(shù)據(jù)集進(jìn)行離線輔助訓(xùn)練.實(shí)驗(yàn)證明,本文提取的特征不僅保留CNN特征深度語義信息,也含有目標(biāo)相應(yīng)的時(shí)空信息,在位置預(yù)測、時(shí)空信息保留方面與傳統(tǒng)卷積網(wǎng)絡(luò)相比具有更多優(yōu)勢,可以取得更加魯棒準(zhǔn)確的跟蹤效果.
本文結(jié)合文獻(xiàn)[16]給出的時(shí)空信息(spatio-temporal context, STC)設(shè)計(jì)的時(shí)空上下文模型STM作為卷積神經(jīng)網(wǎng)絡(luò)中的各階濾波器,在第1幀中,計(jì)算出目標(biāo)置信圖用來更新時(shí)空模型.假設(shè)x∈2為某一位置,o為需要跟蹤的目標(biāo),定義目標(biāo)所在位置x的置信值:
(1)
其中,Xc={c(z)=(I(z),z)|z∈Ωc(x*)}為上下文特征集合,x*為目標(biāo)位置,I(z)為點(diǎn)z灰度特征,p(x|c(z),o)表示目標(biāo)與局部上下文的空間關(guān)系,條件概率表示:p(x|c(z),o)=hsc(x-z),hsc(x-z) 定義目標(biāo)位置x與其局部上下文位置z之間的空間關(guān)系.p(c(z)|o)表示局部上下文中各位置的先驗(yàn)概率,建模為
所以,式(1)可以轉(zhuǎn)換為
(2)
c(z)與目標(biāo)鄰域內(nèi)點(diǎn)z到目標(biāo)位置x*的相對距離有關(guān),轉(zhuǎn)換到頻域進(jìn)行計(jì)算,得空間上下文模型hsc(x):
(3)
(4)
本文區(qū)別于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)加深卷積網(wǎng)絡(luò)結(jié)構(gòu)的研究方法,應(yīng)用卷積網(wǎng)絡(luò)設(shè)計(jì)一個(gè)2層的目標(biāo)表示結(jié)構(gòu),結(jié)合跟蹤過程中目標(biāo)的上下文信息,實(shí)時(shí)更新卷積網(wǎng)絡(luò)的濾波器,提取目標(biāo)深度抽象特征.特征提取結(jié)構(gòu)如圖1所示.
(5)
(6)
得到d個(gè)簡單層特征,記作:Fx={F1,F2,…,Fd}?X.
復(fù)雜層特征,為了加強(qiáng)對目標(biāo)的特征表達(dá),本文將d個(gè)簡單層特征進(jìn)行堆疊,構(gòu)成一個(gè)3維張量來表示目標(biāo)的復(fù)雜層特征,記作F∈(n-w+1)×(n-w+1)×d.
Fig. 1 Convolution feature extraction structure圖1 卷積特征提取結(jié)構(gòu)
這種特征具有平移不變特性,由于圖像歸一化后,使得特征對目標(biāo)的尺度具有魯棒性,且復(fù)雜層特征保留不同尺度目標(biāo)的局部幾何信息.為了增加對目標(biāo)表觀特征的魯棒性采用了稀疏表達(dá)的方式表示特征:
(7)
(8)
其中ρ為vec(F)的中位數(shù)。得到目標(biāo)的最終特征表達(dá),構(gòu)建特征模板,結(jié)合粒子濾波實(shí)現(xiàn)跟蹤.
本文基于粒子濾波框架,設(shè)第t幀時(shí)觀測序列為O1:t={o1,o2,…,ot},則跟蹤主要是求出后驗(yàn)概率p的最大值,根據(jù)貝葉斯理論,可知:
(9)
p(St|St-1)=N(St|St-1,Σ),
(10)
其中,Σ=diag(σx,σy,σt)為對角協(xié)方差矩陣,p(St|O1:t)為觀測模型,用于評估觀測序列O1:t與目標(biāo)的相似性.
觀測模型通過測量樣本與目標(biāo)之間的相似度來計(jì)算:
(11)
于是,整個(gè)跟蹤過程就是求最大響應(yīng):
(12)
2.2節(jié)給出了結(jié)合時(shí)空上下文模型的卷積神經(jīng)網(wǎng)絡(luò)特征提取結(jié)構(gòu),獲取目標(biāo)的深度抽象信息,基于這種卷積特征,結(jié)合粒子濾波,提出本文跟蹤算法如圖2所示:
Fig. 2 Tracking flow chart圖2 跟蹤算法流程圖
Fig. 3 Examples of the tracking results on video sequences圖3 視頻序列跟蹤結(jié)果實(shí)例
主要有5個(gè)步驟:
1) 初始化.歸一化、粒子濾波、網(wǎng)絡(luò)規(guī)模、樣本容量等參數(shù)設(shè)置.
2) 置信圖計(jì)算.應(yīng)用第1幀的目標(biāo),根據(jù)式(1)計(jì)算出初始目標(biāo)置信圖,用作后續(xù)更新上下文模型.
3) 特征提取.根據(jù)上文的提出的卷積網(wǎng)絡(luò)結(jié)構(gòu),利用式(5)~(7)提取出各候選樣本的深層抽象特征.
4) 粒子濾波.歸一化后生成規(guī)定尺寸大小的候選圖片樣本集,按照式(9)~(12)的粒子濾波算法,進(jìn)行目標(biāo)識別與定位.
5) 網(wǎng)絡(luò)更新.根據(jù)式(2)(4)給出的上下文模型計(jì)算公式,在跟蹤過程中實(shí)時(shí)更新上下文模型,用作卷積神經(jīng)網(wǎng)絡(luò)中的濾波器.
本文應(yīng)用MATLAB2014a編程環(huán)境,PC配置為Inter Core i3-3220,3.3 GHz,8 GB內(nèi)存,根據(jù)文獻(xiàn)[3]在CVPR2013中給出的Database OTB2013中提供的測試視頻序列對算法進(jìn)行仿真分析,2015年文獻(xiàn)[25]對測試集進(jìn)一步進(jìn)行了擴(kuò)充.本文按照目前較為流行的定性與定量分析相結(jié)合,對算法進(jìn)行分析驗(yàn)證,其中本文仿真參數(shù)設(shè)置為:濾波器數(shù)100,歸一化尺寸32×32,滑動窗口尺寸6×6,學(xué)習(xí)因子設(shè)置為0.95,粒子濾波器的目標(biāo)狀態(tài)的標(biāo)準(zhǔn)偏差設(shè)置如下:σx=4,σy=4,σt=0.01,使用N= 300個(gè)粒子.
限于論文篇幅,本文僅給出5組代表性的跟蹤實(shí)驗(yàn)結(jié)果,對比算法分別為:MIL(multiple instance learning tracker)[4], TLD[5], L1[6],CT(compressive tracking)[7], CSK[12],KCF[14],CNT(convolutional networks tracker)[22], Ours.如圖3所示,先后給出了Car4,F(xiàn)ootball,Jogging2,Matrix ,Walking2部分測試視頻的跟蹤結(jié)果.Car4伴隨有光照變化和尺度變化,在第180幀目標(biāo)發(fā)生強(qiáng)烈光照變化,很多算法出現(xiàn)漂移,第240幀繼續(xù)發(fā)生光照變化,CSK,L1,CT,TLD,MIL等算法均跟蹤失敗,剩下CNT,KCF與本文算法正確跟蹤目標(biāo),后續(xù)伴隨相應(yīng)尺度變化,本文算法在跟蹤準(zhǔn)確算法中尺度變化是最準(zhǔn)確的.Football序列目標(biāo)奔跑伴隨著相應(yīng)的形變與旋轉(zhuǎn),第100幀時(shí)目標(biāo)進(jìn)入隊(duì)伍中出現(xiàn)大量相似目標(biāo)的背景干擾,大部分算法都能很好區(qū)分進(jìn)行準(zhǔn)確跟蹤,第290幀時(shí)目標(biāo)發(fā)生激勵(lì)碰撞,并產(chǎn)生遮擋與相應(yīng)劇烈變化,此后只有本文算法能夠持續(xù)準(zhǔn)確跟蹤.Jogging2序列,目標(biāo)在第50幀發(fā)生完全遮擋,TLD算法應(yīng)用持續(xù)跟蹤檢測模塊重新定位到跟蹤目標(biāo),但尺度變化上出現(xiàn)一定誤差,本文算法結(jié)合時(shí)空上下文提取的深度抽象特征,能夠有效地針對遮擋,魯棒較好.Matrix序列存在相應(yīng)光照變化,尺度變化,局部遮擋,目標(biāo)快速運(yùn)動并伴隨相應(yīng)形變,大部分算法未能表現(xiàn)出準(zhǔn)確的跟蹤效果,本文算法因?yàn)椴捎镁矸e神經(jīng)網(wǎng)絡(luò)對快速運(yùn)動目標(biāo)跟蹤存在計(jì)算缺陷,同樣是跟蹤不準(zhǔn)確,本文算法的誤差能夠做到相對較小.Walking2序列實(shí)在低分辨場景下的監(jiān)控視頻,第180幀與350幀目標(biāo)先后被遮擋,在運(yùn)動過程中伴隨相應(yīng)形變與尺度變化,可見本文算法在所有算法中取得最準(zhǔn)確的效果.
根據(jù)文獻(xiàn)[3]在CVPR2013中給出的Database OTB2013綜合評價(jià)方法,如圖4所示,本文主要使用距離精度圖(precision plots)和跟蹤成功率圖(success plots)的一次通過成功率OPE(one-pass evaluation, OPE)對算法進(jìn)行評估,并給出背景干擾(background clutters)、光照變化(illumination variation)、低分辨率(low resolution)和遮擋(occlu-sion)四種場景的具體數(shù)據(jù),如圖5所示.本文比較算法有MIL[4],TLD[5],CT[7],Struck[8],CSK[12],CN(adaptive color tracker)[13],KCF[14],DSST[15],STC[16],SRDCF (spatially regularized correlation filters tracker)[17],DeepSRDCF (convolutional features for correlation filter tracker)[18],CNT[22],Ours.
Fig. 4 Precision plots and success plots of OPE圖4 OPE精度圖與成功率圖
Fig. 5 Precision plots and success plots of OPE圖5 OPE精度圖與成功率圖
分析實(shí)驗(yàn)數(shù)據(jù)可知,本文算法結(jié)合時(shí)空上下文模型提取的深度抽象特征,可以很好地應(yīng)對背景干擾,面對光照變化與低分辨率場景時(shí),本文算法與文獻(xiàn)[18]DeepSRDCF提取的深度特征,相對于傳統(tǒng)特征,能夠更好地表達(dá)目標(biāo)的深度抽象信息,可以更好地應(yīng)對復(fù)雜場景的跟蹤問題;本文提取的特征能夠保留CNN特征深度語義信息和目標(biāo)相應(yīng)的時(shí)空信息,在應(yīng)對遮擋時(shí)可以利用時(shí)空信息更好地確定被遮擋目標(biāo)的位置,減少漂移現(xiàn)象.實(shí)驗(yàn)證明,本文提取的特征不僅保留CNN特征深度語義信息,也含有目標(biāo)相應(yīng)的時(shí)空信息,在位置預(yù)測、時(shí)空信息保留方面與傳統(tǒng)卷積網(wǎng)絡(luò)和傳統(tǒng)特征相比具有更多優(yōu)勢,在面對背景干擾、光照變化、低分辨率和遮擋等復(fù)雜場景時(shí),可以取得更加魯棒準(zhǔn)確的跟蹤效果.
為了測試算法性能,給出了部分序列的中心位置誤差與距離精度的具體數(shù)據(jù).中心位置誤差(center location error,CLE)表示目標(biāo)的中心位置與標(biāo)準(zhǔn)中心位置的歐氏距離的誤差,表達(dá)式為ε=
Table 1 Center Location Error(Pixels)& Distance Precision表1 位置中心誤差CLE(像素點(diǎn)) & 距離精度DP
針對視覺跟蹤中運(yùn)動目標(biāo)魯棒性跟蹤問題,本文結(jié)合時(shí)空上下文信息和卷積神經(jīng)網(wǎng)絡(luò),提出一種無需訓(xùn)練的在線卷積網(wǎng)絡(luò)提取深度特征的視覺跟蹤算法.首先對初始目標(biāo)進(jìn)行預(yù)處理并提取目標(biāo)置信圖,跟蹤過程中結(jié)合時(shí)間信息與空間信息更新得到時(shí)空上下文模型,作為卷積網(wǎng)絡(luò)結(jié)構(gòu)中的各階濾波器,用來提取目標(biāo)簡單抽象特征;然后疊加簡單層的卷積結(jié)果得到目標(biāo)的深層次表達(dá);最后結(jié)合粒子濾波跟蹤框架實(shí)現(xiàn)跟蹤.實(shí)驗(yàn)表明,本文簡化后的卷積網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合時(shí)空上下文模型提取的深度抽象特征,不僅能夠保留深度抽象特性的抽象語義信息,也保留有目標(biāo)相應(yīng)的時(shí)空下上文信息,能夠提高復(fù)雜背景下的跟蹤效率.本文采用的卷積神經(jīng)網(wǎng)絡(luò),因?yàn)橛?jì)算復(fù)雜的原因,本文算法實(shí)時(shí)性不高,速度僅達(dá)到3~5 fps,在應(yīng)對快速運(yùn)動目標(biāo)時(shí)效果不好,另外時(shí)空上下文模型對于目標(biāo)出界丟失上下文,沒有很好的補(bǔ)償措施,不能很好地應(yīng)對出界目標(biāo)的跟蹤,這是后續(xù)需要改進(jìn)的地方.