向志炎,曹鐵勇, 潘竟峰
(1.解放軍理工大學 通信工程學院,南京210007;2.解放軍理工大學 指揮自動化學院, 南京210007)
近幾十年來,目標跟蹤引起越來越廣泛的關注,已成為視覺領域的一個研究熱點[1]。在許多諸如視頻監(jiān)控、交互式會議、人機交互、機器定位等視覺應用領域中,目標的跟蹤問題都是亟待解決的主要任務之一,具有重要的研究價值和應用前景。
跟蹤主要是監(jiān)測視頻序列中目標的位置變化,通常包括目標的旋轉(zhuǎn)及其平移[2]。一般是在矢量空間,通過局部坐標點的確定與匹配,得到目標的旋轉(zhuǎn)和平移等仿射參數(shù),進而對目標實施跟蹤。然而,常規(guī)的仿射變換并不是一個矢量空間,而是一個處理李群(仿射群)結(jié)構(gòu)的曲線空間[3]。選擇一組局域坐標點并且利用矢量空間的方法,是很難得到理想的結(jié)果(依賴于坐標點的選擇)。基于這些考慮,文獻[4]利用目標的幾何結(jié)構(gòu)定義了一個基于仿射群的狀態(tài)方程,得到的跟蹤結(jié)果更加健壯,魯棒性更好。
在Isard 和Blake[5]的開創(chuàng)性研究之后,粒子濾波應用于大量的視覺跟蹤問題[6-8]之中。這是由于在現(xiàn)實世界里,目標物體和其所在的環(huán)境都是隨時間的變化而變化的,而使用蒙特卡羅的方法[9]能夠處理這種非線性、非高斯以及非靜態(tài)的濾波問題。研究表明,這種基于粒子濾波的方法是非常成功的。近年來,基于粒子濾波框架的目標跟蹤方法層出不窮,根據(jù)其利用目標的特性不同,這些方法主要分為兩大類:一類是利用目標的特征點[2,10],另一類是利用目標的外貌模型[11]?;谔卣鼽c的方法主要依賴于不同圖像間的相關特征點,進行跟蹤參數(shù)的估計,這種方法能對特征比較明顯的目標進行比較好的跟蹤,一般是處理環(huán)境比較簡單的跟蹤問題;基于外貌模型的方法雖然能很好地適應環(huán)境的變化,但是卻忽視了目標本身的許多特性(如角點、輪廓等)。
針對彩色視頻序列的目標跟蹤問題,雖然彩色直方圖對于跟蹤非剛體目標有諸多優(yōu)勢[12],如尺度和旋轉(zhuǎn)的不變性、對部分遮擋的健壯性以及計算的有效性等,但是這些還不足以處理更為復雜的問題,如大范圍的遮擋、外貌的劇烈變化、復雜環(huán)境等。
基于以上考慮,為了對目標實施有效的跟蹤,提出了基于粒子濾波框架的聯(lián)合仿射和外貌模型的目標跟蹤算法。該算法首先通過目標的特征點進行仿射參數(shù)的求解,對目標的姿勢進行估計;然后將其嵌入到基于仿射群的粒子濾波框架之中,聯(lián)合仿射模型和外貌模型進行似然估計,確定目標的最佳運動狀態(tài)。
為了對目標的姿勢進行估計,首先從一個已知目標姿勢開始,并用一個矩形框進行標注。然后,利用文獻[13]中SIFT(尺度不變特征轉(zhuǎn)換)算法提取前后幀的相關特征點,也即匹配特征點,對于提取的特征點,由于可能存在誤匹配,通過RANSAC 方法[14]來消除誤匹配點。由于SIFT 算法提取的是整個圖像的特征點,但是對于姿勢估計,只需要保留矩形區(qū)域內(nèi)的特征點,用于基于Sylvester 方程的仿射參數(shù)的求解[2]。
姿勢估計的問題關鍵在于從前后兩幀圖像之間的匹配點求解出旋轉(zhuǎn)和平移參數(shù)。首先將三維目標投影成二維目標,得到二維投影模型;然后假設(uit,vit)和(uit+1,vit+1)是第t 幀和第t+1 幀圖像中相對應的投影點,則它們運動前后的位置有如下映射關系(即仿射變換):
式中,i(i =1,2, …,M)表示第i 個匹配特征點, M為矩形框內(nèi)特征點的總數(shù);(lx,ly)表示的是平移矢量;R2×2是一個2×2 的旋轉(zhuǎn)矩陣。
式(1)只是利用了一對特征點來估計旋轉(zhuǎn)和平移參數(shù)的,而考慮到矩形框內(nèi)所有的SIFT 匹配特征點,可以利用最小二乘估計的方法計算仿射參數(shù),仿射參數(shù)的估計就變成了一個約束最優(yōu)化問題,利用拉格朗日乘數(shù)法對其進行求解。最終得到一個矩陣方程:
一旦通過解Sylvester 方程確定了前后兩幀圖像間的旋轉(zhuǎn)參數(shù),就可以通過下式計算平移矢量:
利用SIFT 特征點,通過Sylvester 方程計算仿射參數(shù),估計出前后兩幀圖像之間的目標姿勢的變化。而當前目標的狀態(tài)是對過去所有狀態(tài)積累更新得到的,這就可能會在狀態(tài)更新的過程中產(chǎn)生誤差累積的問題。因此,通過采用粒子濾波對仿射參數(shù)進行平滑估計,以避免誤差及其產(chǎn)生的一些大的偏移。
在粒子濾波框架里,跟蹤問題是利用概率密度函數(shù)對視頻圖像中的目標進行特征化。其概率密度函數(shù)是通過貝葉斯準則進行傳遞的:
式中,Xt表示在時刻t 被跟蹤目標的狀態(tài)變量,O1:t= o1,o2, …,ot表示的是一組觀測值。跟蹤過程是由觀測模型p(otXt)和相鄰時刻兩狀態(tài)之間的動態(tài)模型p(XtXt-1)來模擬。在這里,X 是一個二維仿射變換矩陣:
式中, R 是一個非奇異的2×2 的矩陣,L ∈R2。所有的仿射變換構(gòu)成仿射群,即李群Lie group(G)。
仿射群G 是具有群結(jié)構(gòu)的可微流形[4],具有群的乘積和逆運算,并且該群的單位元素Ι的切空間形成一個李代數(shù)Lie algebra(g),具有如下矩陣結(jié)構(gòu):
式中,xi∈R,且李代數(shù)等價于六維矢量空間。
仿射群之間的距離可以通過測地線(測地線是兩點之間的最小長度曲線)的長度來測量。對于單位元素點I,給定任一矢量x ∈g,唯一的測地線將被確定。李群G 及其李代數(shù)g 之間是通過指數(shù)映射相對應的,exp:g ※G。其逆映射為, lg:G ※g。假定x ∈g 和X ∈G,相應的計算公式為
和那么,兩個群元素X1,X2∈G 之間的測地線距離可被定義為
為了計算基于仿射群的采樣均值 Xt,假設給定一組隨機采樣點Xjt-1(j=1,2, …,N),通過似然估計得到與權(quán)值wjt相對應的Xjt,并在每個時間步驟t時刻對采樣粒子Xjt 進行重采樣。對于旋轉(zhuǎn)參數(shù)R1t,R2t, …,RNt,由于重采樣的粒子都比較相似,因此,基于仿射群的旋轉(zhuǎn)參數(shù)的采樣均值可以近似地計算得到:
式中,Rt,max是對應于粒子重采樣之前的最大權(quán)值的旋轉(zhuǎn)矩陣,N 為采樣粒子數(shù)。而平移矢量的采樣均值 L t 可以簡單地通過Ljt的算術平均得到。因此,采樣粒子的平均狀態(tài)為
假定狀態(tài)傳遞方程模型是基于仿射群的一階自回歸(AR)過程[3],則狀態(tài)的動態(tài)方程可表示為
式中,a 是AR 過程的參數(shù);dWt =∑6i=0 wt,iEi是基于李代數(shù)g 的高斯噪聲, wt是從高斯分布Np(0,∑p)中采樣得到,并且wt= wt,1,wt,2, …,wt,6,∑p=diag(σ2s, σ2α, σ2θ, σ2,σ2x,σ2y)。Ei為李代數(shù)g 的基本元素:與每個Εi相對應的幾何變換模式分別是尺度、面比、旋轉(zhuǎn)、傾斜角、x 方向和y 方向的平移。
因此,狀態(tài)的測量方程可表示為
式中, ∑q是一個六維的零均值的高斯白噪聲的對角協(xié)方差矩陣。
觀測似然概率p(ot Xjt)描述的是一個粒子接近其真實狀態(tài)的程度。通過使用彩色特性,基于概率主成分分析的外貌模型和特征模型這3 個單元進行似然估計。記分別是基于彩色、外貌模型和仿射模型(特征點模型)的第j 個采樣的概率。為了簡便,假設這3 個觀測似然概率值是相互獨立的,那么,可以通過將這3 個觀測似然概率的相乘得到總體似然函數(shù):
3.3.1 彩色似然單元
彩色分布對非剛體、旋轉(zhuǎn)以及部分遮擋具有魯棒性,因而可以被用作目標模型進行似然估計[12]。假設彩色分布被離散地分成m bin。然后,用函數(shù)H(lj)生成彩色直方圖(H(lj)函數(shù)是將在位置lj的色彩分配到相應的bin 中)。本文的彩色直方圖是基于HSV顏色空間使 用6 ×6 ×6 bin 生成 的。記 pt ={pjt}j=1,2,…,N為在時間步驟t 時刻的歸一化的模型直方圖和qt={qjt}j=1,2,…,N為在時間步驟t 時刻的歸一化的粒子直方圖。直方圖分布p 和q 之間的一種比較流行的測量方法就是采用Bhattacharyya 系數(shù):
測量值ρ越大,表示這兩個直方圖分布就越相似。如果這兩個歸一化的直方圖相同,那么它們之間的ρ值就等于1,并且表明它們完全匹配。因而,兩分布之間的相似度就可以定義一個距離來進行測量:
因此,距離越小,表示分布越相似,對應地有更大的似然概率:
式中,p(j)color是方差為σ2c的高斯函數(shù)。
3.3.2 基于PPCA的外貌模型似然單元
目標的外貌由于許多外在的因素(如光照變化、照相機移動、照相機視角不同以及遮擋)和內(nèi)在的因素(如姿勢變化和形狀畸變)都可能會發(fā)生劇烈的變化。因此,為了應對這些變化并實現(xiàn)有效跟蹤,使用基于概率主成分分析的外貌模型進行目標跟蹤[11]。給定一個新的由狀態(tài)Xt預測的觀測值ot,那么這個ot可以看成是從目標外貌模型特征向量Us張成的一個子空間所得,且該子空間的中心即為均值μs,因而,外貌子空間與觀測值之間的距離可以定義為
因此,由外貌子空間產(chǎn)生的采樣點j 的似然概率為
同時,為了降低噪聲的影響,在計算p(j)PPCA時,采樣歸一化的誤差范數(shù)代替歐式范數(shù)‖x‖2去除異常值。
3.3.3 仿射模型似然單元
通過基于仿射群的自回歸過程對目標的狀態(tài)進行預測,仿射參數(shù)也會隨著狀態(tài)的變化而變化。設R(j)2×2E(j=1,2, …)為第j 個粒子變換矩陣,l(j)E是根據(jù)式(4)計算得到的平移參數(shù)。為了計算仿射特征點模型的似然概率p(j)feature,首先將第t 幀圖像的特征點投影到第t +1 幀圖像上, 然后計算投影點
式中,i 表示的是特征點的指針。由于SIFT 算法提取的特征點通常很多,這就很難保證所有相關的特征點之間相匹配,也即是,對于每一個i,都有u(j)it+1E=u(j)it+1和v(j)it+1E=v(j)it+1。所以,可以清晰地觀察到,在第t+1 幀圖像里,投影點與相應的匹配點之間的距離越小,相應的權(quán)值越大,就越接近真實狀態(tài)。因此,仿射模型的似然概率為
為了評估所提出的算法的有效性和魯棒性,選取了幾段視頻分別進行驗證。首先手動地初始化目標跟蹤的矩形框。在仿真實驗中,考慮到跟蹤區(qū)域像素會隨著矩形窗的變化而變化的問題,同時為了特征表示,每個目標區(qū)域都被重新調(diào)整為32×32 大小的圖像塊。對于基于概率主成分分析的外貌模型,選取的特征向量的個數(shù)為16,考慮到效率與效果的平衡,其遺忘因子設為0.95,用于特征向量更新的圖像塊大小設為5。每幀圖像隨機采樣的粒子數(shù)設為400(除特別說明外),跟蹤的目標用矩形框表示。
圖1 是PetsD1TeC1 序列中白色汽車的跟蹤結(jié)果,共選取了200 幀,其圖像分辨率為384×288 像素,幀率為30 frame/s。這是固定攝像機拍攝的視頻,從圖中可以觀察到,目標由遠及近,尺度逐漸變大;在第133 幀,燈桿輕微地遮擋了目標;存在與目標外貌及其相似的背景(第8、72、98、133 幀)。從矩形跟蹤框可以看到,雖然目標的外貌沒有發(fā)生大的改變并且背景中存在大量與之類似的目標物體,但是所提出的算法能夠利用目標的特征點變化這一特性,很好地處理了這些變化, 達到了預期的實驗效果。
圖1 PetsD1TeC1 序列的跟蹤結(jié)果Fig.1 The tracking results of PetsD1TeC1 sequence
圖2 是直升機序列的跟蹤結(jié)果,選取了780 幀,其圖像分辨率為320×240 像素,幀率為15 frame/s。圖2 中,直升機模型以變化的速度隨機移動,并且經(jīng)歷較大的尺度和姿勢的變化、遮擋以及復雜背景,如跟蹤目標的姿勢和尺度的變化(第16、142、283、756幀),目標經(jīng)歷了嚴重遮擋(從第280 到283 幀, 其中,第281、282 幀目標幾乎完全被人頭遮住)和復雜背景(第280、283、498、552、593 幀,其中,在第552、593 幀圖像中,由于目標與背景的顏色非常接近,導致跟蹤的目標很難被發(fā)現(xiàn)),這些情況都使得我們的跟蹤任務具有相當?shù)奶魬?zhàn)性。然而,從圖2 的實驗結(jié)果可以看出,本文的跟蹤方法能很好地處理這些問題,取得了非常好的實驗效果。這是因為在粒子濾波框架內(nèi)基于彩色分布和PPCA 的思想,能很好地適應環(huán)境和外貌的變化,甚至能克服先前文獻中提到的目標丟失和暫時偏移等問題。
圖2 直升機序列的跟蹤結(jié)果Fig.2 The tracking results of helicopter sequence
為了驗證在粒子濾波框架內(nèi)插入Sylvester 方程的有效性,如圖3 所示,首先將直升機序列轉(zhuǎn)化成灰度圖像, 通過比較可以看出,插入Sylvester 方程的PPCA 的跟蹤方法能有效地克服遮擋(如從第280 到283 幀),而僅僅基于文獻[11]的PPCA 方法在經(jīng)歷嚴重遮擋之后,卻丟失了目標。
圖3 基于文獻[11] 的跟蹤結(jié)果(虛線框)和基于仿射及外貌模型的跟蹤結(jié)果(實線框)Fig.3 The tracking results of the method based on Reference[11] (dashed)and our proposed approach(solid)
同時,為了驗證本文嵌入Sylvester 方程到基于仿射群的粒子濾波框架的跟蹤算法的有效性,與文獻[3]中的基于仿射群的粒子濾波框架的跟蹤算法進行比較。選取一段灰度視頻David 序列,其圖像分辨率為320×240 像素,幀率為15 frame/s。在這次實驗中,我們選取的采樣粒子數(shù)為200。圖4 是兩種跟蹤方法比較的結(jié)果,從跟蹤結(jié)果可以看出,當跟蹤目標的姿勢發(fā)生大的變化時,文獻[3]的跟蹤精度下降了(如第192、382、418 幀),以至于發(fā)生了較大的偏移;相比較而言,本文提出的方法提供了一個更為精確的跟蹤結(jié)果, 這是由于通過SIFT 特征點,Sylvester 方程能更有效地對仿射參數(shù)進行估計,使得跟蹤更加穩(wěn)定、準確。
圖4 基于文獻[3] 的跟蹤結(jié)果(虛線框)和基于仿射及外貌模型的跟蹤結(jié)果(實線框)Fig.4 The tracking results of the method based on Reference[3] (dashed)and our proposed approach(solid)
為了驗證所提出的算法的健壯性, 也與文獻[12]中基于彩色粒子濾波算法的目標跟蹤結(jié)果作了比較。如圖5 所示,第一行為文獻[12] 中算法的跟蹤結(jié)果,第二行為本文所提算法的目標跟蹤。兩者比較可以看出:基于彩色的粒子濾波有較大偏移(如第18 幀與第166 幀橢圓的位置變化),在復雜背景下丟失了所跟蹤的目標(第552 幀),并且在實驗中發(fā)現(xiàn)算法的適應性和穩(wěn)定性都不是很好;而本文提出的算法克服了偏移并對目標物體成功地實施了跟蹤,具有良好的魯棒性。
圖5 基于文獻[ 12] 中的算法與本文提出的算法的跟蹤比較Fig.5 Com parison between the tracker based on Reference[ 12] and the proposed tracker
本文提出的基于粒子濾波框架的聯(lián)合仿射和外貌模型的目標跟蹤算法,有效地解決了復雜情況下的目標跟蹤問題。首先利用Sylvester 方程求解仿射參數(shù),對目標的姿勢進行估計,這樣就可以在后面的粒子濾波過程中使得隨機采樣更趨于正確的狀態(tài)。通過將仿射參數(shù)嵌入到粒子濾波框架,利用基于仿射群的粒子濾波對仿射運動參數(shù)進行平滑估計。充分利用外貌模型和仿射特征點模型的優(yōu)勢進行似然估計,得到了最佳的采樣均值,提高了濾波的效果。通過實驗分析,并與其他相關文獻算法對比,本文算法的有效性和魯棒性得到了很好的驗證。而對于跟蹤目標丟失或進出視頻畫面的情況,本文算法由于是手動標定目標,難于繼續(xù)對目標實施跟蹤,同時,為了適應實際應用的需要,在后續(xù)的研究工作中,打算引入對目標的自動檢測,以提高目標跟蹤算法的適應性和實用性。
[ 1] Yilmaz A, Javed O, Shah M.Object tracking:a survey[ J] .ACM Computing Surveys,2006,38(4):1-45.
[ 2] Chen Chong, Schonfeld D.A particle filtering framework for joint video tracking and pose estimation[ J] .IEEE Transactions on Image Processing, 2010,19(6):1625-1634.
[ 3] Kwon J, Park F C.Visual tracking via particle filtering on the affine group [ J] .The International Journal of Robotics Research, 2010, 29(2-3):198-217.
[ 4] Li Min, Chen Wei, Huang Kaiqi, et al.Visual tracking via incremental self-tuning particle filtering on the affine group[ C]//Proceedings of 2010 IEEE conference on Computer Vision and Pattern Recognition.San Francisco:IEEE, 2010:1315-1322.
[ 5] Isard M, Blake A.Condensation-conditional density propagation for visual tracking[ J] .International Journal of Computer Vision, 1998, 29(1):5-28.
[ 6] Ferrari V, Tuytelaars T, Van Gool L.Real-time Affine Region Tracking and Coplanar Grouping [ C]// Proceedings of 2001 IEEE Com puter Society Conference on Computer Vision and Pattern Recognition.Hawaii:IEEE, 2001:226-233.
[ 7] Pan Pan, Schonfeld D.Video Tracking Based on Sequential Particle Filtering on Graphs[J] .IEEE Transactions on Image Processing, 2011, 20(6):1641-1651.
[8] Djuric P M, Vemula M, BugalloM F.Target Tracking by Particle Filtering in Binary Sensor Networks[ J] .IEEE Transactions on Signal Processing,2008,56(6):2229-2238.
[9] Kitagawa G.Monte carlo filter and smoother for non-Gaussian nonlinear state space models[ J] .Journal of Computational and Graphical Statistics, 1996,5(1):1-25.
[10] Singh Manku G, Jain P, Aggarwal A, et al.Ob ject tracking using affine structure for point correspondences[C]// Proceedings of 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Puerto Rico:IEEE, 1997:704-709.
[11] Ross D, Lim J, Lin R S, et al.Incremental learning for robust visual tracking[ J] .International Journal of Computer Vision,2008,77(1):125-141.
[12] Nummiaro K, Meierb E K, Van Gool L.An adaptive color-based particle filter[ J] .Image and Vision Computing,2002,21(11):99-110.
[13] Lowe D G.Distinctive image features from scale-invariant keypoints[ J] .International Journal of Computer Vision,2004, 60(2):91-110.
[14] Fischler M A, Bolles R C.Random Sample Consensus:A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography[J] .Communications of the ACM, 1981,24(6):381-395.