陳金廣,賀莉娜,王明明,馬麗麗
(西安工程大學 計算機科學學院,陜西 西安 710048)
針對視覺跟蹤[1]已有許多很好的研究成果,如Struck[2]、CT[3]、CSK[4]、ALSA[5]等,但視頻目標本身固有的問題,如目標的外觀變化、背景變化、光照變化、姿態(tài)變化、平面內外旋轉、運動模糊等,導致視頻目標跟蹤依然面臨很大的挑戰(zhàn)。
人們結合相關濾波技術[6,7]以及上下文信息[8,9],在視頻目標識別、檢測、跟蹤等方面取得了顯著效果。尤其,Zhang等提出了基于貝葉斯濾波的時空上下文(spatio-temporal context,STC)算法[10],使用時空上下文信息并利用快速傅里葉變換(FFT),大大提高了算法的運行速度。然而由于僅選取單一灰度特征,拋棄了更具辨識度的顏色紋理等特征,算法的跟蹤精度不高,且無法處理面內外旋轉跟蹤難題。為了提高算法精度,Xu等[11]對疑似目標及其周圍區(qū)域進行分塊劃分,利用LK光流法計算區(qū)域的重要性,將其作為權值進行加權,Wang等[12]引入HOG特征替代灰度特征,Zhao等[13]引入卡爾曼濾波,以處理遮擋情況下的跟蹤問題。以上算法在一定程度上提高了跟蹤精度,但時間復雜度相應增加。
在目標識別、檢測等研究中,使用顏色特征可以取得良好效果[14,15],而且顏色特征對姿態(tài)變化、尺度變化具有不敏感特性,能夠處理由面內外旋轉帶來的目標外觀變化問題。相比于RGB、HSV[16]、LAB[17]等3維顏色空間表示,Color Name特征將RGB映射到11維顏色空間中,能夠更為詳盡地描述目標外觀,并且已通過對比實驗驗證其有效性。由于該方法增大了特征維數,因此時間復雜度較大。對此,文獻[18]提出一種自適應降維的方法,將11維特征降至2維,在最大程度保留有效信息的基礎上降低特征維數,從而提高算法的實時性。考慮到該特征的有效性,本文結合時空上下文跟蹤算法,將自適應降維后的2維顏色特征和灰度特征進行融合,用融合后的特征替換原灰度特征來處理面內外旋轉跟蹤難題。實驗結果表明,在保留原STC算法對部分遮擋、光照變化、較小的姿態(tài)變化等情況下跟蹤可靠性的基礎上,本文提出的算法能夠提升跟蹤精度,并有效處理面內外旋轉情況下的跟蹤問題。
時空上下文算法基于貝葉斯框架,建立感興趣的目標與周圍背景的時空關系,在低階特征上對目標及其局部上下文進行統(tǒng)計關系建模,通過計算置信圖,找到似然概率最大的位置,即為估計得到的新一幀的目標位置。時空上下文算法描述如下:
跟蹤問題可以描述為一個計算并尋找目標位置x最大似然的過程
c(x)=P(x|o)=∑c(z)∈XCP(x,c(z)|o)=
∑c(z)∈XCP(x|c(z),o)P(c(z)|o)
(1)
式中:XC={c(z)=((I(z),z)|z∈Ωc(x))}是上下文特征集,I(z)是圖像中z處的灰度值,Ωc(x)是目標位置x處的上下文鄰域,o是指跟蹤目標存在于場景內。由式(1)知,似然函數P(x|o)可以分解為一個條件概率P(x|c(z),o)和一個上下文先驗概率P(c(z)|o)。
置信圖(confidence map)函數具體是指在給定目標位置x*的基礎上計算上下文區(qū)域任何一點x的似然,定義為
P(x|o)=bexp(-|(x-x*)α-1|β)
(2)
式中:b是歸一化常數,α是尺度參數,β是形狀參數。實驗中,常取經驗值:α=2.25,β=0.5。
條件概率是建模目標與周圍上下文區(qū)域空間關系的函數,為
P(x|c(z),o)=hsc(x-z)
(3)
式中:hsc(x-z)是關于相對距離與方向的函數,具有徑向非對稱性,即hsc(x-z)≠hsc(|x-z|),能夠有效減少二義性的產生,從而避免誤跟蹤。
上下文先驗概率是建模局部上下文各個點x的上下文先驗概率的函數,為
P(c(z)|o)=I(z)ωσ(z-x)
(4)
式中:I(z)是位置z處的灰度值,代表目標周圍局部上下文的外觀。ωσ(z-x)=aexp(-(|z-x|)2/σ2)是加權函數,利用的是生物視覺系統(tǒng)中注意力集中理論,a為歸一化常數,σ為尺度參數。
將式(2)~式(4)代入式(1)可得
∑z∈Ωc(x*)hsc(x-z)I(z)ωσ(z-x*)=
hsc(x)?(I(x)ωσ(x-x*))
(5)
考慮到時域中卷積計算復雜度高,利用快速傅里葉變換將計算過程轉換至頻域
(6)
進行傅里葉逆變換后可求得空間上下文模型為
(7)
(8)
更新上下文先驗概率模型中權重函數ωσ(·)的尺度參數σ
(9)
(10)
其中,置信圖中c(x)值最大的位置,就是估計到的目標位置
(11)
與其它的視覺特征相比,顏色特征對圖像本身的尺寸、方向、視角的依賴性較小,具有對姿態(tài)變化、尺度變化、方向變化不敏感的特性,從而具有較高的魯棒性,因此能夠處理由面內外旋轉帶來的目標外觀變化問題。與RGB、HSV、LAB、HUE等顏色空間表示一樣,Color Name特征也是顏色屬性特征的一種表示方法。該方法將顏色做了11種基本的顏色分類,其實是把RGB紅綠藍3種顏色細化成了11種基本色,分別是黑、藍、棕、灰、綠、橙、粉、紫、紅、白和黃。相較于上述傳統(tǒng)簡單的僅對顏色特征進行3維空間轉換表示或轉換成直方圖進行跟蹤,11種基本色表示能夠更為準確地描述目標的顏色外觀。
Color Name特征的提取過程如下:首先使用顏色映射將彩色圖像的RGB值映射到11維的顏色概率表示,然后進行歸一化操作,將其投影到10維子空間的標準正交基上,降到10維的顏色表示即可得到初步的10維顏色特征??紤]到10個維度會造成時間復雜度的增加,Danelljan等提出了一種自適應降維方法,將10維的顏色表示降到2維,能夠在減少顏色表示維度的基礎上保留特征的有效信息,從而在保證算法跟蹤精度的基礎上提高了算法的運行效率。
(12)
由于原STC算法的上下文先驗模型中僅使用單一灰度特征對目標外觀的描述能力有限,導致跟蹤精度低,故本文在原STC算法的上下文先驗模型P(c(z)|o)的基礎上,依據上述方法提取顏色特征并經過自適應降維降至2維,將目標局部上下文區(qū)域中經自適應降維后的顏色特征X(z)與灰度特征I(z)進行融合,得到改進后的上下文先驗概率,即
P(c(z)|o) =X(z)I(z)ωσ(z-x)
(13)
則置信圖函數可表示為
hsc(x-z)X(z)I(z)ωσ(z-x*)=hsc(x)?
(X(x)I(x)ωσ(x-x*))
(14)
同樣,利用傅里葉變換將其轉換至頻域,以加快算法運行速度
F(hsc(x))⊙F(X(x)I(x)ωσ(x-x*))
(15)
此時,空間上下文模型可表示為
(16)
然后由式(8)更新時空上下文模型,在新的一幀計算目標的置信圖
ct+1(x)=F-1(F(hsc(x))⊙
F(X(x)I(x)ωσ(x-x*)))
(17)
置信圖中值最大的位置就是跟蹤到的目標位置。
首幀目標位置x*由手動初始化或通過一些目標檢測算法進行初始化。
Repeat
由第t幀圖像和得到的目標位置x*,提取Color Name特征X(z)與灰度特征I(z);
由式(13)計算上下文先驗概率P(c(z)|o);
由式(16)學習空間上下文模型hsc(x);
由式(9)更新尺度參數σt+1;
由式(17)計算置信圖ct+1(x),尋找ct+1(x)最大值,這個最大值的位置就是第t+1幀目標的估計位置;
輸出當前幀的目標位置xt+1。
Until 處理完視頻序列中所有幀。
選取Bolt、Bolt2、MotorRolling、David、David3這5組視頻作為測試序列,涵蓋了遮擋、形變、快速運動、面內外旋轉、運動模糊、光照變化、背景復雜等屬性。分別使用中心位置誤差(center location error)、中心距離精度(distance precision)、重疊精度(overlap precision)3個評價標準對算法性能進行定量評價,其中:中心位置誤差指的是算法估計的目標中心位置與目標的實際中心位置的平均歐氏距離;中心距離精度指的是視頻序列中中心位置誤差小于一定閾值的幀數占總幀數的比重;重疊精度指的是算法估計的目標邊框與目標的實際邊框的平均重疊度。本文算法中,將學習率設為0.1,壓縮率設置為0.1,其余參數與文獻[10]和文獻[18]一致。
采用CVPR2013 benchmark的視頻庫[19]中的Bolt視頻序列,選取Bolt的中220幀作為測試視頻,視頻分辨率為640×360。實驗結果如圖1所示。視頻中多名運動員參加100 m短跑比賽,從起點一起向終點奔跑,跟蹤的目標是運動員博爾特,比賽期間參賽小組隊員相互有短暫的遮擋,背景較為雜亂,并且由于快速移動及姿勢變化,使得視頻中存在外觀變形較大、面內旋轉、運動模糊等情況。目標初始化時,選取CVPR2013 benchmark提供的ground truth值作為目標起始跟蹤位置。
豬為六畜之首,糧豬安天下。我國是一個養(yǎng)豬大國,養(yǎng)豬業(yè)歷史悠久,改革開放以來生豬產業(yè)發(fā)展對增加農民收入,滿足城鄉(xiāng)居民畜產品需求方面做出了巨大貢獻,是農村經濟的重要支柱產業(yè)和農民增收的重要途徑,在畜牧業(yè)乃至整個農業(yè)生產中占據重要位置。
圖1 實驗1跟蹤結果
在Bolt視頻序列中,如圖1(a)所示STC算法剛開始能很好地跟蹤目標,但在#21幀時已經偏離目標的真實位置,并漸漸丟失目標,原因是僅使用灰度特征對目標外觀的描述能力有限,對外觀變形劇烈和面內外旋轉等情況下的跟蹤處理效果不佳,從而導致目標跟蹤失敗。本文算法和CN算法均能很好地跟蹤目標,并且跟蹤精度很高,其中距離精度分別達到97.7%和100%,這是因為兩種算法均使用了Color Name特征,該特征具有旋轉不變性。此外,本文算法采用Color Name特征聯(lián)合灰度特征應用于STC算法框架,相較于CN算法,提升了約3 fps的跟蹤速度。
采用CVPR2013 benchmark的視頻庫中的Bolt2視頻序列,選取Bolt2中的293幀作為測試視頻,視頻分辨率為480×270。實驗結果如圖2所示。視頻中多名運動員參加100 m短跑比賽,一起向前奔跑,跟蹤的目標均是運動員博爾特,視頻序列Bolt2除了存在Bolt序列含有的跟蹤挑戰(zhàn)之外還存在圖像分辨率較低、尺度變化等跟蹤困難。目標初始化時,選取CVPR2013 benchmark提供的ground truth值作為目標起始跟蹤位置。
圖2 實驗2跟蹤結果
從圖2(b)可以看到CN算法在#10幀時已經完全丟失目標,跟蹤失敗。圖2中(a)和(c)跟蹤結果顯示,STC算法和本文算法均能持續(xù)跟蹤目標,但STC算法在#191幀之后一直存在一定程度的偏移,而本文算法不存在,距離精度和重疊精度分別提升到了99.6%和85.9%,故本文算法在跟蹤精度方面是優(yōu)于STC算法的,CN算法的核函數在圖像分辨率較低情況下跟蹤效果不理想。因此Color Name 特征與灰度特征融合后聯(lián)合時空上下文關系在圖片分辨率較低情況下可以提升跟蹤準確度。
采用CVPR2013 benchmark的視頻庫中的MotorRolling視頻序列,選取MotorRolling中的69幀作為測試視頻,視頻分辨率為640×360。實驗結果如圖3所示。視頻中一名騎手控制摩托車在U型場地上做翻轉動作,跟蹤的目標是摩托車,摩托車在跟蹤過程中存在光照變化、面內外旋轉、運動模糊且方向和速度變化突兀等挑戰(zhàn)。目標初始化時,選取CVPR2013 benchmark提供的ground truth值作為目標起始跟蹤位置。
圖3 實驗3跟蹤結果
起初在目標運動變化不大時,3種算法均能有效跟蹤目標位置。當目標摩托車開始旋轉時,目標不僅在外觀上發(fā)生旋轉,而且同時伴有強光照射,光照也發(fā)生了劇烈變化,此時CN跟蹤算法最先偏離目標的真實位置,在#11幀時已經出現(xiàn)了偏移,到#32幀時已經徹底丟失目標,隨后跟蹤窗口也丟失,而STC算法在#11幀時仍能跟蹤目標,但所跟蹤到的位置與真實的中心距離稍有偏差,#32幀后偏差增大,不久漸漸偏離目標并最終丟失跟蹤目標,只有本文算法能夠持續(xù)跟蹤目標,并將平均中心距離誤差縮減到了19.3 pixel,跟蹤距離精度和重疊精度從原先的26%和27.5%分別提升到了50%和49.5%。原因是STC算法使用灰度特征對目標外觀描述能力有限,從而在面對光照變化、外觀變形劇烈和面內外旋轉、運動模糊且方向和速度突兀等情況時跟蹤處理效果不佳,從而導致目標跟蹤失敗,CN算法提取了Color Name 特征,對外觀進行了描述,其特征本身具有旋轉不變性特點,但忽略了時空上下文之間的緊密聯(lián)系,因此不能夠進行持續(xù)跟蹤。本文算法采用了Color Name特征描述目標外觀信息,聯(lián)合時空上下文關系表示情景信息,融合兩種特征信息加強了特征對外觀的描述力度,在發(fā)生光照變化、外觀變形劇烈和面內外旋轉、運動模糊且方向和速度變化突兀等情況時仍能較好地描述目標特征。
采用CVPR2013 benchmark的視頻庫中的David3視頻序列,選取David3中的252幀作為測試視頻,視頻分辨率為480×640。實驗結果如圖4所示。視頻中David沿街道直行一段距離之后原路返回,跟蹤的目標是行人David,目標在跟蹤過程中存在部分及全部遮擋、面內旋轉、面外旋轉、背景雜亂等挑戰(zhàn)。目標初始化時,選取CVPR2013 benchmark提供的ground truth值作為目標起始跟蹤位置。
在#27幀和#83幀時,目標存在部分遮擋和全部遮擋情況,在遮擋發(fā)生后時3種算法均能對目標進行準確地跟蹤,差異性不大。目標返程時,外觀發(fā)生了較大變化,STC算法和CN算法也都能夠準確跟蹤到目標,中心距離誤差為10 pixel左右,距離精度和重疊精度都很理想,其中本文算法的中心距離誤差最小,為7個像素,距離精度和重疊精度分別提升到了92.5%和88.5%。因此,本文算法應用特征融合能夠改善跟蹤效果,更為有效地處理目標外觀變化和遮擋問題。
圖4 實驗4跟蹤結果
表1~表3分別提供了本次實驗所用的5組視頻序列在3種算法下的中心距離誤差、中心距離精度和重疊精度的數據對比,其中黑體表示最優(yōu),斜體表示次優(yōu)。易知,本文算法能夠有效處理光照變化、外觀劇烈變化、面內外旋轉、部分遮擋及全部遮擋和背景雜亂等情況下的跟蹤問題,從而提升了跟蹤準確率和成功率。但是本文算法相較于STC算法增加了特征處理過程,故在總體運行速度上較STC算法略慢,但仍滿足實時性要求。
表1 各算法中心位置誤差對比
表2 各算法中心距離精度對比
表3 各算法重疊精度對比
參考文獻:
[1]YIN Hongpeng,CHEN Bo,CHAI Yi,et al.Vision-based object detection and tracking:A review[J].Acta Automatic Sinica,2016,10(42):1466-1481(in Chinese).[尹宏鵬,陳波,柴毅,等.基于視覺的目標檢測與跟蹤綜述[J].自動化學報,2016,10(42):1466-1481.]
[2]Sam Hare,Stuart Golodetz,Amir Saffari,et al.Struck:Structured output tracking with kernels[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(10):2096-2109.
[3]Zhang K,Zhang L,Yang MH.Real-time compressive trac-king[C]//Proc of European Conference on Computer Vision(ECCV).Italy:Springer,2012:864-877.
[4]Rui C,Martins P,Batista J.Exploiting the circulant structure of tracking-by-detection with kernels[C]//European Confe-rence on Computer Vision.Berlin,Heidelberg:Springer,2012:702-715.
[5]Lu H,Jia X,Yang MH.Visual tracking via adaptive structural local sparse appearance model[C]//IEEE Conference on Computer Vision & Pattern Recognition,2012:1822-1829.
[6]Henriques JF,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.
[7]Liu Chang,Fen Dapeng,Wu Hefeng,et al.Multi-Cue Adaptive correlation filters for visual tracking[C]//International Conference on Digital Home,2016:89-94.
[8]Zhang Tianzhu,Bernard Ghanem,Liu Si,et al.Robust visual tracking via exclusive context modeling[J].IEEE Transactions on Cybernetics,2016,46(1):51-63.
[9]Zhou Ce,Guo Qing,Wan Liang,et al.Selective object and context tracking[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2017:1947-1951.
[10]Zhang K,Zhang L,Liu Q,et al.Fast visual tracking via dense spatio-temporal context learning[C]//Proc of European Conference on Computer Vision(ECCV).Czech Republic:Springer,2014:127-141.
[11]Xu Jianqiang,Yao Lu,Liu Jinwu.Robust tracking via weighted spatio-temporal context learning[C]//Proc of International Conference on Image Processing(ICIP).Paris,France:IEEE,2014:413-416.
[12]Wang Zhenhai,Xu Bo.An effective object tracking based on spatio-temporal context learning and Hog[C]//Proc of International Conference on Natural Computation(ICNC).CA,USA:IEEE,2015:661-664.
[13]ZHAO Zhou,HUANG Panfeng,CHEN Lu.A tracking algorithm of improved spatio-temporal context with Kalman filter[J].Acta Aeronautica ET Astronautica Sinica,2017,38(2):320306-320316(in Chinese).[趙洲,黃攀峰,陳路.一種融合卡爾曼濾波的改進時空上下文跟蹤算法[J].航空學報,2017,38(2):320306-320316.]
[14]Keiji Kamei,Kazu Narumi,Daisuke Shuto.Adaptive color tracking for particle filter to control a drone in a forest[C]//Proc of Joint 8th International Conference on Soft Computing and Intelligent Systems(ICSC).Sapporo,Japan:IEEE,2016:512-517.
[15]Suryo Adhi Wibowo,Hansoo Lee,Eun Kyeong Kim.Multi-scale color features based on correlation filter for visual tracking[C]//Proc of International Conference on Signals and Systems(ICSigSys).Sanur,Indonesia:IEEE,2017:272-277.
[16]Xiao Chi,Chen Wenjie,Gao Huilin.Object tracking algorithm based on HSV color histogram and block-sparse representation[C]//Proc of Chinese Control Conference(CCC).Hangzhou,China:IEEE,2015:3826-3831.
[17]Prachi R Narkhede,Aniket V Gokhale.Color particle filter based object tracking using frame segmentation in CIELab* and HSV color spaces[C]//Proc of International Conference on Communications and Signal Processing(ICCSP).India:IEEE,2015:804-808.
[18]Danelljan M,Khan FS,Felsberg M,et al.Adaptive color attributes for real-time visual tracking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition(CVPR).USA:IEEE,2014:1090-1097.
[19]Wu Y,Lim J,Yang M.Online object tracking:A benchmark[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition(CVPR).USA:IEEE,2014:2411-2418.