劉曉棟,尚振宏,黃 歡
昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明650500
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱點(diǎn),被廣泛應(yīng)用于視頻監(jiān)控、機(jī)器人學(xué)習(xí)、工業(yè)智能化等方面。其本質(zhì)是在一段連續(xù)視頻序列圖像中找到目標(biāo)的位置和狀態(tài)[1]。雖然目前目標(biāo)跟蹤已經(jīng)取得很大進(jìn)展,但因受到遮擋、光照變化和尺度變化等眾多因素影響,它仍然是一個(gè)具有挑戰(zhàn)性的問題。
目前大多數(shù)目標(biāo)跟蹤方法通常使用邊界框表示被跟蹤目標(biāo)的范圍。但是大多數(shù)被跟蹤目標(biāo)都不是嚴(yán)格意義上的矩形形狀,因此邊界框表示跟蹤目標(biāo)時(shí),通常都會(huì)把多余的背景信息加入到模型中,背景信息過多的情況下可能會(huì)降低跟蹤器的整體性能。因此,矩形邊界框并非表示非矩形形狀目標(biāo)的最佳方式?,F(xiàn)在的跟蹤技術(shù)為了更準(zhǔn)確地進(jìn)行跟蹤目標(biāo)中的形狀,已經(jīng)探索出基于分割方法[2-3]為無(wú)模型目標(biāo)建立準(zhǔn)確的方法。盡管視頻分割技術(shù)[4]已經(jīng)在視頻目標(biāo)跟蹤中有了很大的進(jìn)展,但是基于分割的方法處理雜亂的背景和遮擋也很具有挑戰(zhàn)性,這通常會(huì)導(dǎo)致不穩(wěn)定的結(jié)果。
另一類對(duì)遮擋和變形比較穩(wěn)健的跟蹤方法是基于目標(biāo)關(guān)鍵點(diǎn)的跟蹤方法[5-6],它們通過一組顯著點(diǎn)(如SIFT特征或SURF特征)表示目標(biāo)對(duì)象[7]。然而,基于關(guān)鍵點(diǎn)的跟蹤方法很難僅通過使用局部點(diǎn)獲取跟蹤目標(biāo)的全局信息,特別是對(duì)于跟蹤目標(biāo)和背景信息同質(zhì)的情況下。
目前隨著深度學(xué)習(xí)的興起,一種結(jié)構(gòu)推理網(wǎng)絡(luò)的理論被應(yīng)用于運(yùn)動(dòng)目標(biāo)的跟蹤,這種方法將物體檢測(cè)問題形式化為圖結(jié)構(gòu)推理,采用細(xì)節(jié)特征、場(chǎng)景上下文、以及物體之間關(guān)系的圖結(jié)構(gòu),采用循環(huán)單元的消息傳遞機(jī)制對(duì)目標(biāo)進(jìn)行聯(lián)合推理,不過綜合性能取決于數(shù)據(jù)模型的大小[8]。
與使用整體特征表示的跟蹤方法相比,結(jié)構(gòu)化的跟蹤方法通常更有前途,特別是在變形和遮擋的情況下[9],并且被跟蹤目標(biāo)在發(fā)生遮擋時(shí),單獨(dú)使用HOG特征的跟蹤算法,容易發(fā)生漂移,即HOG特征不能很好處理遮擋問題;而當(dāng)目標(biāo)發(fā)生劇烈光照變化時(shí),顏色直方圖特征[10]不能很好處理光照變化問題。實(shí)驗(yàn)表明,HOG特征對(duì)光照變化具有較好適應(yīng)性,顏色直方圖特征對(duì)目標(biāo)形變、尺度變化具有較好適應(yīng)性。
因此,在本文中把被跟蹤目標(biāo)表示成為一組塊粒子,利用置信度判斷哪些塊是有效的,通過投票確認(rèn)目標(biāo)最終位置。并基于基礎(chǔ)跟蹤方法單一特征提取的不足,利用HOG特征和顏色直方圖特征線性融合的方法提高跟蹤方法的魯棒性和精度。
在識(shí)別和跟蹤目標(biāo)對(duì)象時(shí),用一組塊粒子表示目標(biāo)對(duì)象,由于剛開始很難找到確切可靠的塊,利用序列蒙特卡羅[11]方法實(shí)現(xiàn)在先驗(yàn)條件不足的情況下對(duì)目標(biāo)狀態(tài)的估計(jì)。
首先,從邊界框中取一個(gè)樣本圖像塊x=[x,y,w,h],其中( x,y)( w,h)分別代表圖像樣本x的坐標(biāo)和大小。xt代表圖像樣本中的塊粒子,zt是基于跟蹤目標(biāo)先前幀z1:t-1=中的觀察值,從貝葉斯理論看,狀態(tài)估計(jì)問題比如目標(biāo)跟蹤方面,就是根據(jù)之前一系列已有數(shù)據(jù)z1:t-1,遞推計(jì)算出當(dāng)前狀態(tài)xt的可信度,那么這個(gè)可信度就是概率公式,然后通過預(yù)測(cè)和更新兩個(gè)步驟遞推計(jì)算,假設(shè)已知t-1時(shí)刻的概率密度函數(shù)為p( xt-1|z1:t-1)。那么在預(yù)測(cè)時(shí),由上一時(shí)刻的概率密度p( xt-1|z1:t-1)就可以得到p( xt|z1:t-1) ,p( xt|z1:t-1)的含義是有前面(1:t-1)時(shí)刻測(cè)量數(shù)據(jù),那么就可以預(yù)測(cè)一下狀態(tài)xt出現(xiàn)概率。因此可以把當(dāng)前幀zt中塊粒子xt是否可靠的概率密度函數(shù)表示為:
其中p( xtz1:t-1)為概率密度函數(shù),根據(jù)貝葉斯公式規(guī)|則,式(1)在進(jìn)行更新時(shí)由p( xt|z1:t-1)得到后驗(yàn)概率p( xt|z1:t),這里的后驗(yàn)概率p( xt|z1:t)也將利用式(1)代入到下次預(yù)測(cè),形成預(yù)測(cè)、更新、再預(yù)測(cè)的遞推關(guān)系。因此后驗(yàn)概率p( xt|z1:t)可以被表示為:
其中的p( zt|xt)為觀測(cè)似然值,p( xt|xt-1)表示為過渡密度函數(shù),是一個(gè)一階馬爾科夫模型,也就是說(shuō)xt的狀態(tài)只與上一時(shí)刻的xt-1有關(guān),選取G作為高斯分布,那么p( xt|xt-1)就可以被表示為:
其中H(x)=[0 ,E] x是一個(gè)選擇圖像坐標(biāo)的函數(shù),E代表的是一個(gè)2×2的單位矩陣,那么可觀測(cè)的似然值p( zt|xt)就可以被表示為:
其中pt( zt|xt)表示有效跟蹤塊的置信度,而po( zt|xt)表示塊在被跟蹤對(duì)象上的可能值。由于變量x數(shù)據(jù)太大而無(wú)法直接計(jì)算,采用粒子濾波器[2]估計(jì)后驗(yàn)p( xt|z1:t-1)的值,那么第i個(gè)塊粒子權(quán)重就可以通過式(5)計(jì)算:
其中xtarg代表的是最終的目標(biāo)跟蹤狀態(tài)。
要估計(jì)塊的有效跟蹤的可能性,采用Peak-to-Sidelobe Ratio(PSR)作為置信度[12],這種方法廣泛用于信號(hào)處理,以測(cè)量響應(yīng)圖中的信號(hào)峰值強(qiáng)度。在文獻(xiàn)[12]中采用PSR作為跟蹤目標(biāo)的峰值強(qiáng)度,基于此,將PSR推廣到基于模板的跟蹤器,作為塊跟蹤的置信度函數(shù),判斷塊粒子是否對(duì)跟蹤起積極的作用:
其中R(X)是圖像塊的響應(yīng)函數(shù),以R(X)峰值為中心,15×15像素為邊界框?qū)( )
X劃分區(qū)域,邊界框以外的為旁瓣區(qū)域Φ,μΦ和σΦ分別表示旁瓣區(qū)域Φ的均值和標(biāo)準(zhǔn)差,從式(7)可以看出,響應(yīng)函數(shù)R()X的峰值越大,s( X )就會(huì)越大,因此s( X)可以作為圖像塊的置信函數(shù),用來(lái)衡量圖像塊是否對(duì)跟蹤起積極作用。當(dāng)s(X )大于0時(shí),則標(biāo)記塊粒子為積極的。響應(yīng)函數(shù)R(X)可以被表示成:
其中d表示模板T和圖像塊X之間的歐氏距離,f(X)表示圖像特征提取函數(shù)。由于響應(yīng)函數(shù)R()X與模板T和采樣圖像塊之間的距離成反比,所以塊跟蹤置信度函數(shù)s()
X值越大,樣板T和圖像塊X之間的距離越近,反之亦然。
而且塊跟蹤置信度函數(shù)s( )X與大多數(shù)基礎(chǔ)跟蹤方法兼容,因?yàn)榇蠖鄶?shù)相關(guān)濾波跟蹤方法采用最大響應(yīng)圖作為被跟蹤目標(biāo)的位置,并且都有一個(gè)基礎(chǔ)模板,所以采用基于核相關(guān)和循環(huán)矩陣而取得高效率和高速度的KCF[13]作為基礎(chǔ)跟蹤方法,并基于KCF單獨(dú)的HOG特征在發(fā)生強(qiáng)烈光照變化和形變時(shí),會(huì)發(fā)生嚴(yán)重漂移問題,而顏色直方圖對(duì)形變和顏色變化比較敏感,所以融合兩種特征的KCF可以獲得更好精度的響應(yīng)圖。
在KCF中,循環(huán)位移產(chǎn)生的樣本能夠近似的表示通過密集采樣所產(chǎn)生的樣本,假如有一維數(shù)據(jù)x=[x1,x2,…,xn],那么一維數(shù)據(jù)x的循環(huán)移位Px=[xn,x1,x2,…,xn-1]T,{Pux|u=0,1,…,n-1}中u代表移位的個(gè)數(shù),在這個(gè)式子中每乘一次P,則代表著x中的元素就循環(huán)偏移一位,因此所有的循環(huán)樣本被鏈接起來(lái)形成一個(gè)矩陣X=C()x,把X稱為循環(huán)矩陣,并且把循環(huán)矩陣表示為:
其中,F(xiàn)代表的是離散傅里葉變換(DFT),F(xiàn)H是F的共軛轉(zhuǎn)置矩陣,x^代表對(duì)x進(jìn)行離散傅里葉變換,diag表示向量對(duì)角化。在KCF中循環(huán)矩陣的分解可用于簡(jiǎn)化線性回歸的解,線性脊嶺回歸的目標(biāo)函數(shù)可以被表示為:
函數(shù)f可以寫成基礎(chǔ)樣本的線性組合f(x)=ωTy,脊嶺回歸具有完全封閉的解ω=( XTX+λI)-1XTy,由式(9),可以得到:
因此對(duì)于上式的核函數(shù),也可以使用KCF中循環(huán)矩陣技巧。因此,KXX表示循環(huán)矩陣的第一行向量,通過上面的方法可以得到α,相當(dāng)于線性回歸方程中的ω。
在KCF中利用循環(huán)矩陣技巧的高斯核被表示為:
由上式可知由于核相關(guān)函數(shù)只需要計(jì)算點(diǎn)乘積和矢量范數(shù),使計(jì)算量大大減少,因此把圖像特征被應(yīng)用到多個(gè)通道,多個(gè)通道特征數(shù)據(jù)也可以連接成一個(gè)一維向量,式(13)可以被表示為:
在式(14)特征數(shù)據(jù)也鏈接成為一維之后,KCF不僅僅可以使用HOG特征,也可以利用到其他優(yōu)秀的特征,所以可以通過式(14)進(jìn)行HOG特征和顏色特征線性融合并利用它們的優(yōu)勢(shì)。
之后,采用基于多特征線性融合后的KCF響應(yīng)圖促進(jìn)跟蹤置信度函數(shù)s( )X。因此,可跟蹤塊粒子觀測(cè)值可以表述如下:
其中λ是用于權(quán)衡可能性貢獻(xiàn)系數(shù)。在本文中經(jīng)過多次實(shí)驗(yàn),設(shè)定λ=2時(shí),實(shí)驗(yàn)效果最好。
為計(jì)算位于被跟蹤物體上的有效塊的概率,利用運(yùn)動(dòng)信息實(shí)現(xiàn)這一目標(biāo)。具體來(lái)說(shuō),跟蹤前景和背景塊粒子,并記錄每一個(gè)塊的相對(duì)軌跡:
其中的vt=ψ2( )xt-xt-1是相對(duì)運(yùn)動(dòng)矢量。由于塊粒子的位移可能對(duì)應(yīng)于不同的物體,記錄k個(gè)相對(duì)運(yùn)動(dòng)矢量以使軌跡信息更加穩(wěn)定。使用L2范數(shù)公式測(cè)量軌跡之間的距離。并對(duì)軌跡進(jìn)行分組,以一個(gè)矩形框目標(biāo)為中心簡(jiǎn)單地將圖像分成兩個(gè)區(qū)域。然后,將邊界框上和邊界框內(nèi)的塊粒子標(biāo)記為正,而將外部的塊粒子標(biāo)記為負(fù):
其中yt∈{+ 1,-1}代表的是圖像塊Xi的標(biāo)簽,Ω+代表的是積極塊粒子的集合,Ω-代表的是消極塊粒子的集合。N+和N-分別表示為積極響應(yīng)集和消極響應(yīng)集的大小。當(dāng)一組樣本塊粒子有相同運(yùn)動(dòng)時(shí),函數(shù)l(X)具有較高的分?jǐn)?shù)值,反之分?jǐn)?shù)值就會(huì)很低,當(dāng)每組之間的運(yùn)動(dòng)軌跡沒有明顯的距離時(shí),該函數(shù)的值接近于零。因此,可以在塊粒子集中標(biāo)記每個(gè)塊粒子,將重點(diǎn)集中在那些在目標(biāo)對(duì)象上的塊粒子。因此,使用l(X)計(jì)算塊粒子在目標(biāo)對(duì)象上的概率:
其中μ是平衡對(duì)象概率貢獻(xiàn)的系數(shù),本文中值為1。如果前景和背景之間沒有明顯的運(yùn)動(dòng)變化,po趨近于1。
在pt( zt|xt)和po( zt|xt)的結(jié)果被計(jì)算之后,假設(shè)可靠的塊在結(jié)構(gòu)上與被跟蹤物體一致,可以將粒子的權(quán)重作為被跟蹤目標(biāo)塊的置信度量度值。那么,使用所有積極塊粒子投票到目標(biāo)最終的位置,如下所示:
運(yùn)動(dòng)目標(biāo)跟蹤的過程中,一組塊粒子經(jīng)過一段時(shí)間的運(yùn)算,效果會(huì)越來(lái)越差,稱這種情況為塊粒子的退化[14],本文采用SIR方法對(duì)粒子進(jìn)行重采樣,詳細(xì)方法可以參考文獻(xiàn)[14]。
輸入:模型vot-1和新的一幀圖片It。
(1)對(duì)于在目標(biāo)模型vot-1中每一個(gè)塊粒子,在新的一幀中用基于多特征融合后的基礎(chǔ)跟蹤方法KCF做跟蹤,以獲取最大響應(yīng)圖。
(2)在Xit中更新xit和Vit。
(3)根據(jù)式(5)計(jì)算粒子重量ω。
(4)塊粒子重采樣。
(6)根據(jù)式(6)更新模型vot。
輸出:更新的模型vot用于目標(biāo)跟蹤;得到新目標(biāo)狀態(tài)
本次實(shí)驗(yàn)中所使用到的工具有:Matlab2015 Athlon(速龍)X2 CPU(2.10 GHz)4 GB RAM,λ=2,μ=1。
實(shí)驗(yàn)選取公開的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集Benchmark[15]中12段視頻序列進(jìn)行實(shí)驗(yàn),測(cè)試視頻序列依次為BlurBody、BlurFace、Boy、CarDark、Coke、David3、Deer、Girl、tiger2、Vase、BlurCar2和Box,其中包含了目標(biāo)多種變化,如遮擋、快速運(yùn)動(dòng)和旋轉(zhuǎn)、光照變化、尺度變化等影響因素的12個(gè)視頻序列上,進(jìn)行跟蹤實(shí)驗(yàn),并與7種優(yōu)秀方法進(jìn)行比較,這7種目標(biāo)跟蹤方法分別是Conv_KCF[16]、CSK[17]、RPT[18]、DFT[19]、DSST[20]、IVT[21]、KCF。
本文采用平均跟蹤誤差Center Location Error(CLE)和重疊率Pascal VOC Overlap Ratio(VOR)來(lái)評(píng)估本文算法和其他比較算法。
CLE是指目標(biāo)框的中心與目標(biāo)真實(shí)位置中心之間的偏差。中心誤差越小,則算法性能越高。VOR中BC和BG分別表示跟蹤框的實(shí)際大小和真值。重疊率越高,則算法性能越高。平均跟蹤誤差和重疊率結(jié)果如表1和表2,時(shí)間效率結(jié)果如表3。
其他算法的對(duì)比圖,如圖1所示。
表1 平均跟蹤誤差
表2 重疊率
表3 不同算法的時(shí)間效率 (幀·s-1)
圖1 精度和成功圖
在本文中,利用有效塊跟蹤框架,該框架試圖識(shí)別和利用可靠的塊粒子用以實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)跟蹤。為了有效地找到可靠的塊,使用塊粒子的兩個(gè)正交特性:可跟蹤性和運(yùn)動(dòng)相似性,以估計(jì)可靠塊粒子的分布。在找到可靠的塊粒子后,預(yù)測(cè)和更新這些塊粒子。通過跟蹤有效的塊粒子,可以處理多樣化的運(yùn)動(dòng)目標(biāo)。本文使用的響應(yīng)圖的基礎(chǔ)跟蹤方法是KCF,又基于KCF使用的HOG在某些特征提取方面的不足,選擇將顏色直方圖和梯度直方圖特征進(jìn)行線性融合,提高在獲取響應(yīng)圖的精準(zhǔn)度。通過與幾個(gè)先進(jìn)跟蹤方法的實(shí)驗(yàn)表明,本文方法可以穩(wěn)定、準(zhǔn)確地進(jìn)行目標(biāo)跟蹤。但由于本文采用了粒子重采樣,工作總量比較多,所以該算法平均速度僅為0.67幀/s,速度較慢,今后需要進(jìn)一步優(yōu)化。