劉曉華,付秀華,田野,黃盛鋒,舒?zhèn)テ?/p>
(1.長(zhǎng)春理工大學(xué) 光電工程學(xué)院,長(zhǎng)春 130022;2.廣東光陣光電科技有限公司,東莞 523660)
基于視頻圖像序列的目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)熱點(diǎn)問(wèn)題,廣泛應(yīng)用于安全監(jiān)控、虛擬現(xiàn)實(shí)、機(jī)器人應(yīng)用、生物醫(yī)學(xué)等領(lǐng)域[1]。目標(biāo)跟蹤面臨的最大問(wèn)題是目標(biāo)所處的復(fù)雜環(huán)境使得估計(jì)目標(biāo)的狀態(tài)成為一項(xiàng)非常困難的任務(wù):遮擋、光照和以及姿態(tài)的變化都將嚴(yán)重影響跟蹤的效果[2]。
為了解決或部分解決這些難點(diǎn),國(guó)內(nèi)外的研究人員提出大量的跟蹤算法。根據(jù)跟蹤方法的不同,大致可以分為三類(lèi):基于目標(biāo)模式搜索匹配的跟蹤方法、基于分類(lèi)的跟蹤方法和基于濾波理論的跟蹤方法[3]?;谀繕?biāo)模式搜索匹配的跟蹤方法將目標(biāo)跟蹤轉(zhuǎn)化成一個(gè)模式匹配尋優(yōu)問(wèn)題,以Mean-Shift跟蹤算法為代表[4]。其優(yōu)點(diǎn)是收斂速度快,可用于實(shí)時(shí)跟蹤,但該方法無(wú)法適應(yīng)跟蹤對(duì)象的外形變化,跟蹤效果一般。基于分類(lèi)的跟蹤方法將目標(biāo)跟蹤轉(zhuǎn)化成一個(gè)前景和背景的兩分類(lèi)問(wèn)題。以用于人臉跟蹤(檢測(cè))的AdaBoost方法為代表[5]。這類(lèi)方法在使用前需要對(duì)大量正負(fù)樣本進(jìn)行訓(xùn)練來(lái)構(gòu)造分類(lèi)器,不能滿(mǎn)足實(shí)時(shí)跟蹤的需要?;跒V波理論的跟蹤方法將目標(biāo)跟蹤轉(zhuǎn)化為一個(gè)在貝葉斯理論框架下已知目標(biāo)狀態(tài)的先驗(yàn)概率,通過(guò)獲得新觀測(cè)值后求解目標(biāo)狀態(tài)最大后驗(yàn)概率的過(guò)程。以kalman濾波[6,7]和粒子濾波為代表[7]。kalman濾波只能處理線性單高斯單模態(tài)情況下的跟蹤問(wèn)題。而粒子濾波沒(méi)有任何特殊要求,適用于各種非線性、非高斯的運(yùn)動(dòng)目標(biāo)跟蹤,精度可逼進(jìn)最優(yōu)估計(jì),因此成為目前視頻跟蹤方法中的主流方法之一。
后續(xù)還有眾多學(xué)者對(duì)粒子濾波進(jìn)行了深入研究,針對(duì)其各個(gè)模塊如觀測(cè)模型、動(dòng)態(tài)模型、重要性函數(shù)等提出了一系列改進(jìn)的跟蹤算法[9-11],取得了較好的跟蹤效果。但是粒子濾波跟蹤方法依然存在一些不足之處。目前的跟蹤算法對(duì)目標(biāo)的描述都局限在一個(gè)目標(biāo)矩形框內(nèi),但是隨著時(shí)間的推移,目標(biāo)和背景都會(huì)隨之發(fā)生改變,如果不考慮目標(biāo)矩形框附近的背景變化,僅僅對(duì)目標(biāo)矩形進(jìn)行更新,很可能會(huì)導(dǎo)致模型和真實(shí)的概率分布發(fā)生偏移,這種偏移不斷累積,最終導(dǎo)致跟蹤失敗。
為了解決這個(gè)難題,需要設(shè)計(jì)一種新的機(jī)制,能夠同時(shí)反應(yīng)目標(biāo)和背景的變化,因此提出一種基于雙向鑒別信息的粒子濾波目標(biāo)跟蹤方法。首先在視頻圖像序列的第一幀中,同時(shí)給目標(biāo)和背景建立模型。然后以粒子濾波為跟蹤框架,對(duì)每個(gè)粒子進(jìn)行操作時(shí),采用基于擴(kuò)展的局部不變特征分別描述目標(biāo)區(qū)域和背景區(qū)域。最終通過(guò)目標(biāo)和背景的雙向鑒別信息,獲取目標(biāo)的跟蹤結(jié)果。由于每個(gè)粒子能夠提供更多的信息,并有效的考慮目標(biāo)和背景的差異,因此此方法在不需要太多數(shù)目粒子的條件下依然可以達(dá)到很好的跟蹤效果,特別是對(duì)目標(biāo)與背景不易分離的視頻序列具有良好的魯棒性,跟蹤結(jié)果更加準(zhǔn)確。
首先通過(guò)某種攝像工具對(duì)目標(biāo)進(jìn)行視頻拍攝,得到目標(biāo)的視頻序列圖像{Pn(x,y)|n=1,2,…N}。不同于普通的處理模式,在第一幀圖像上同時(shí)對(duì)目標(biāo)和背景進(jìn)行建模。通過(guò)手工的方式選擇包含跟蹤目標(biāo)的一個(gè)矩形,記為A(x,y),矩形大小為w×h。然后以目標(biāo)矩形A(x,y)的中心像素(x0,y0)為中心,再選擇一個(gè)大小為(2w)×(2h)的矩形,這個(gè)矩形區(qū)域明顯面積更大且完全包含了目標(biāo)矩形A(x,y),記屬于這個(gè)矩形區(qū)域且不屬于目標(biāo)矩形A(x,y)的區(qū)域?yàn)锽(x,y)。用區(qū)域B(x,y)表示跟蹤目標(biāo)附近的背景信息。如圖1所示,圖像上有兩個(gè)矩形框,較小的矩形框表示目標(biāo)矩形,屬于較大的矩形區(qū)域且不屬于較小矩形區(qū)域的部分為背景區(qū)域。
傳統(tǒng)的粒子濾波跟蹤方法里面只使用目標(biāo)矩形A(x,y)的信息,不考慮其他相關(guān)信息。這里不僅對(duì)目標(biāo)矩形A(x,y)進(jìn)行建模,也使用周?chē)谋尘靶畔(x,y)。同時(shí)采用目標(biāo)和非目標(biāo)(即背景)信息,可以有效的鑒別雙方的差異信息,得到更好的跟蹤效果。
圖1 目標(biāo)和背景示意圖
傳統(tǒng)的粒子濾波框架下,采用顏色特征對(duì)目標(biāo)進(jìn)行建模。但是如果目標(biāo)矩形A(x,y)和背景區(qū)域B(x,y)擁有相近的顏色分布,則提取的顏色特征的鑒別性能大大下降,不利于后續(xù)跟蹤。這里借鑒了局部二元模式描述子的思想,通過(guò)顏色比對(duì)結(jié)果而不是簡(jiǎn)單的顏色分布信息進(jìn)行編碼,下面以目標(biāo)矩形A(x,y)為例,說(shuō)明具體步驟。
(1)將目標(biāo)矩形A(x,y)上平均分成面積相同大小的100個(gè)區(qū)域,然后在每個(gè)區(qū)域隨機(jī)選擇一個(gè)像素點(diǎn)作為特征點(diǎn),記為{(x1,y1),…,(x100,y100)}。
(2)采用擴(kuò)展的局部特征描述方法分別對(duì)每個(gè)特征點(diǎn)進(jìn)行特征描述,下面任取一個(gè)特征點(diǎn)(xn,yn)為例進(jìn)行說(shuō)明。在A(x,y)上,以(xn,yn)為中心在A(x,y)選擇其四周緊鄰的8個(gè)像素記為{(x1,y1),…,(x8,y8)}作為該點(diǎn)的對(duì)比像素,然后進(jìn)行第一個(gè)模式比對(duì):
其中,m∈{1 ,2,…,8}表示像素點(diǎn)順序號(hào),t1表示第一個(gè)差異閾值,取10為值,ρ1(m)表示像素點(diǎn)(xm,ym)在第一個(gè)模式下的編碼。可以看到第一個(gè)模式表征顏色比對(duì)差異較小時(shí)的編碼。最終8個(gè)像素點(diǎn)會(huì)獲得一個(gè)8位的二進(jìn)制數(shù){ρ1(1),ρ1(2),…,ρ1(8)},將其轉(zhuǎn)化為十進(jìn)制數(shù)所得的值即為像素點(diǎn)(xn,yn)的在第一個(gè)模式下的特征值,記為FT1。
接下來(lái)進(jìn)行第二個(gè)模式的比對(duì):
其中,t2表示第二個(gè)差異閾值,取30為值,ρ2(m)表示像素點(diǎn)(xm,ym)在第二個(gè)模式下的編碼??梢钥吹降诙€(gè)模式表征顏色比對(duì)差異較大時(shí)的編碼。同樣8個(gè)像素點(diǎn)會(huì)獲得一個(gè)8位的二進(jìn)制數(shù){ρ2(1),ρ2(2),…,ρ2(8)},將其轉(zhuǎn)化為十進(jìn)制數(shù)所得的值即為像素點(diǎn)(xn,yn)的在第二個(gè)模式下的特征值,記為FT2。
最后進(jìn)行第三個(gè)模式的比對(duì):
其中,ρ3(m)表示像素點(diǎn)(xm,ym)在第三個(gè)模式下的編碼??梢钥吹降谌齻€(gè)模式表征顏色比對(duì)差異適中時(shí)的編碼。同樣8個(gè)像素點(diǎn)會(huì)獲得一個(gè)8位的二進(jìn)制數(shù) {ρ3(1),ρ3(2),…,ρ3(8)},將其轉(zhuǎn)化為十進(jìn)制數(shù)所得的值即為像素點(diǎn)(xn,yn)的在第三個(gè)模式下的特征值,記為FT3。
最終特征點(diǎn)(xn,yn)一共得到一個(gè)長(zhǎng)度為三的特征向量{FT1,…,FT3}。
對(duì)A(x,y)上所有的特征點(diǎn),都按照上述方法進(jìn)行特征描述,獲得各自的特征向量,把所有的特征向量排列在一起,可以獲得一個(gè)長(zhǎng)度為100×3=300的特征向量{FT1,…,FT300},然后進(jìn)行歸一化得到最終特征向量,記為FT_A。也即完成對(duì)目標(biāo)矩形A(x,y)的特征描述。
通過(guò)上述方法可以對(duì)背景區(qū)域B(x,y)進(jìn)行特征描述,得到特征向量FT_B。
下面以相鄰兩幀圖像第n(≥1)幀和第n+1幀為例,詳細(xì)說(shuō)明如何用粒子濾波的思想進(jìn)行目標(biāo)跟蹤,也即根據(jù)第n幀的目標(biāo)矩形的位置,計(jì)算第n+1幀的跟蹤矩形的位置。
為了提高效率,選取粒子數(shù)量S=60,每個(gè)粒子表示一個(gè)跟蹤矩形,且第n+1幀的跟蹤矩形的大小和第n幀的目標(biāo)矩形的大小完全相同,所以每個(gè)粒子只需要3個(gè)參數(shù)其中表示跟蹤矩形的權(quán)重,表示跟蹤矩形的中心坐標(biāo),上標(biāo)號(hào)表示粒子的序號(hào)。
現(xiàn)在已知第n幀的目標(biāo)矩形A(x,y),中心像素為(x0,y0),以及背景區(qū)域B(x,y)。分別按上述基于擴(kuò)展的局部不變特征描述方法對(duì)A(x,y)和B(x,y)進(jìn)行建模,得到特征向量FT_A和FT_B。
接下來(lái)在第n+1幀圖像上,以(x0,y0)為中心,隨機(jī)選取60個(gè)位置作為粒子的中心坐標(biāo):
其中,ε1,ε2均為[- 1,1]內(nèi)的隨機(jī)數(shù),β是一個(gè)常數(shù),表示單幀內(nèi)像素的偏移范圍,這里取值50。然后給每個(gè)粒子的權(quán)重進(jìn)行初始化,初始權(quán)重均設(shè)為1S;于是每個(gè)粒子的三個(gè)參數(shù)也即初始權(quán)重和位置信息都已經(jīng)得到。
接下來(lái)計(jì)算每個(gè)粒子代表的跟蹤結(jié)果和前一幀(即第n幀)的目標(biāo)矩形的相似程度。通過(guò)相似程度給每個(gè)粒子賦予不同的權(quán)重,使得相似度越高的粒子擁有越大的權(quán)值,反之權(quán)值較小。下面任取一個(gè)粒子為例說(shuō)明具體步驟。
記此粒子所表示的跟蹤矩形為T(mén)A(x,y),采用前述的方法可以得到周?chē)谋尘皡^(qū)域,記為T(mén)B(x,y)。分別按上述基于擴(kuò)展的局部不變特征描述對(duì)TA(x,y)和TB(x,y)進(jìn)行描述,得到特征向量FT_TA和FT_TB。
然后采用Bhattacharyya系數(shù)分別計(jì)算它們的相似度,定義如下:
這兩個(gè)相似度分別代表前后兩幀圖像之間的目標(biāo)和背景的相似程度,傳統(tǒng)的粒子濾波只使用目標(biāo)之間的相似度,忽略了背景部分的信息。為了得到更好的跟蹤結(jié)果,將目標(biāo)和背景部分的信息融合使用,也即采用雙向鑒別信息來(lái)計(jì)算最終的相似度,定義如下:
其中,λ是調(diào)節(jié)因子,這里取值0.1。
由于最終相似度的計(jì)算是通過(guò)目標(biāo)和背景的信息融合而成,包含了雙向鑒別信息,所以比傳統(tǒng)的計(jì)算方法更準(zhǔn)確。反饋到單個(gè)粒子上,使得單個(gè)粒子能夠表征更多的信息,因此此算法在不需要太多數(shù)目的粒子的條件下依然可以達(dá)到很好的跟蹤效果。
接著根據(jù)相似度計(jì)算當(dāng)前粒子的觀測(cè)概率密度其中δ是個(gè)常數(shù)。然后更新當(dāng)前粒子的權(quán)重:
對(duì)于所有的60個(gè)粒子都進(jìn)行上述操作,計(jì)算出新的權(quán)重,然后再進(jìn)行歸一化得到最終權(quán)重{newθsn|s=1,2,…,S}。
所有粒子的權(quán)重都進(jìn)行更新后,通過(guò)權(quán)重對(duì)每個(gè)粒子所代表的跟蹤矩形中心進(jìn)行加權(quán),可以得到最終的跟蹤矩形中心:
跟蹤矩形中心信息加上已知的目標(biāo)矩形大小即可獲得目標(biāo)在第n+1幀圖像的位置。
為了驗(yàn)證此算法的有效性,選擇了一些目標(biāo)跟蹤視頻對(duì)該方法進(jìn)行實(shí)驗(yàn)論證,幀率均為25frame/s。由于此方法采用粒子濾波作為跟蹤框架,因此選擇了傳統(tǒng)的粒子濾波跟蹤算法(記為PF)和Mean Shift跟蹤算法(記為MS)作為對(duì)比。其中PF的粒子數(shù)為200。
實(shí)驗(yàn)視頻中跟蹤對(duì)象為小區(qū)散步的行人,其中該行人經(jīng)歷了被固定物體遮擋和其他行人遮擋兩者情況,實(shí)驗(yàn)結(jié)果如圖2所示:序列1是基于雙向鑒別信息的跟蹤算法的跟蹤結(jié)果,序列2是使用PF的跟蹤結(jié)果,序列3是使用MS的跟蹤結(jié)果。從實(shí)驗(yàn)結(jié)果可以看到,當(dāng)跟蹤目標(biāo)從另一個(gè)行人后面經(jīng)過(guò)時(shí),新算法能夠很好的對(duì)目標(biāo)進(jìn)行跟蹤,跟蹤框始終在目標(biāo)身上;算法PF的跟蹤效果較差一些,跟蹤結(jié)果發(fā)生明顯偏移;而算法MS的跟蹤結(jié)果完全失敗,跟蹤框完成轉(zhuǎn)移到遮擋行人身上,這導(dǎo)致跟蹤的目標(biāo)發(fā)生錯(cuò)誤,后續(xù)跟蹤結(jié)果完全是錯(cuò)誤的。接下來(lái)再對(duì)目標(biāo)被固定物體遮擋時(shí)的跟蹤結(jié)果進(jìn)行分析,從下圖可以看到,目標(biāo)要經(jīng)過(guò)一個(gè)小樹(shù),期間存在被小樹(shù)遮擋的情況。新算法基本沒(méi)受到影響,跟蹤框始終在目標(biāo)身上;算法PF的跟蹤效果較差一些,跟蹤框明顯滯后,跟蹤結(jié)果發(fā)生偏移,繼續(xù)偏移就會(huì)導(dǎo)致后續(xù)跟蹤完全失??;而算法MS的跟蹤結(jié)果完全失敗,跟蹤框完成轉(zhuǎn)移到遮擋物小樹(shù)身上,這導(dǎo)致后續(xù)跟蹤結(jié)果完全錯(cuò)誤。
通過(guò)對(duì)3種算法的跟蹤結(jié)果比較,可以看出基于雙向鑒別信息的跟蹤算法能夠在各種干擾下更好地對(duì)目標(biāo)進(jìn)行跟蹤。
圖2 三種算法的跟蹤效果比較
其中(xi,yi)表示算法輸出的目標(biāo)位置信息,(x0,y0)表示目標(biāo)的真實(shí)位置信息,sum表示目標(biāo)矩形框的尺寸信息。三種算法的跟蹤誤差指標(biāo)如表1所示。
為了更準(zhǔn)確的對(duì)跟蹤效果進(jìn)行量化,定義一個(gè)跟蹤誤差指標(biāo),公式如下:
表1 三種算法的跟蹤誤差指標(biāo)
從表1可以明顯看到,基于雙向鑒別信息的粒子濾波跟蹤算法的跟蹤效果要明顯優(yōu)于傳統(tǒng)的粒子濾波跟蹤算法和Mean Shift跟蹤算法。
針對(duì)粒子濾波跟蹤方法的不足之處,設(shè)計(jì)一種新的機(jī)制,能夠同時(shí)反應(yīng)目標(biāo)和背景的變化,創(chuàng)造性的將雙向鑒別信息加入粒子濾波目標(biāo)跟蹤框架。首先在視頻圖像序列的第一幀中,同時(shí)給目標(biāo)和背景建立模型。然后以粒子濾波為跟蹤框架,對(duì)每個(gè)粒子進(jìn)行操作時(shí),采用基于擴(kuò)展的局部不變特征分別描述目標(biāo)區(qū)域和背景區(qū)域。最終通過(guò)目標(biāo)和背景的雙向鑒別信息,獲取目標(biāo)的跟蹤結(jié)果。實(shí)驗(yàn)結(jié)果表明,此方法在不需要太多數(shù)目粒子的條件下依然可以達(dá)到很好的跟蹤效果,特別是對(duì)目標(biāo)與背景不易分離的視頻序列具有良好的魯棒性,跟蹤結(jié)果更加準(zhǔn)確。
[1]賈云得.機(jī)器視覺(jué)[M].北京:科學(xué)出版社,2002.
[2]Alper Y,Omar J,Mubarak S.Object Tracking:A Survey[J].ACM ComputerSurvey,2006,38(4):13-57.
[3]李培華,序列圖像中運(yùn)動(dòng)目標(biāo)跟蹤方法[M].北京:科學(xué)出版社,2010.
[4]ComaniciuD,RameshV,MeerP.Kernel-Based Object Tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence(S0162-8828),2003,25(5):564-577.
[5]Viola P,Jones M.Robust Real-Time Face Detection[J],International Journal of Computer Vision,2004,57(2):137-154.
[6]Yim J,Jeong S,Gwon K,et al.Improvement of Kalman Filters for WLAN Based Indoor Tracking[J].ExpertSystemswith Applications,2010,37(1):426-433.
[7]Isard M,Blake A.Condensation-Conditional density propa-gation for visual tracking[J].International Journal of Computer Vision,1998,29(1):5-28.
[8]谷欣超,劉俊杰,才華.基于Kalman濾波器的運(yùn)動(dòng)目標(biāo)跟蹤算法[J].長(zhǎng)春理工大學(xué)學(xué)報(bào):自然科學(xué)版,2015,38(5):136-139.
[9]Nummiaro K,Koller-Meier E,Gool L.An adaptive color-based particle filter[J].Image and Vision Computing,2003,21(1):99-110.
[10]Perez P,Hue C,Vermaak J.Color-based probabilistic tracking[C].ECCV 2002:661-675.
[11]WL LU,Okuma K,Little J.Tracking and recognizing actions of multiple hockey players using the boosted particle filter[J].Image and Vision Computing,2009,27(1-2):189-205.