顧明琨,鐘小勇
(江西理工大學 理學院,江西 贛州 341000)
近年來,目標跟蹤技術發(fā)展迅速,在視頻監(jiān)控、人機交互、智能交通等領域有著廣泛的應用。但由于跟蹤時存在著遮擋、形變、光照變化等因素影響,如何在復雜場景中準確跟蹤目標仍是目標跟蹤領域的難點問題。
目標跟蹤方法按照處理方式的不同,可以分為兩類,一類是生成類模型類,另一類是判別類模型類。早期的目標跟蹤算法大多是生成類模型,生成模型類是對跟蹤的目標建立模型并識別,在下一幀圖像中搜索與當前模型中最為相似的區(qū)域作為預測區(qū)域。比較經典的算法有卡爾曼濾波與粒子濾波等。這種通過單一數學模型描述待跟蹤目標的方法,不能全面利用圖像的背景信息,當受到光照變化,運動模糊等干擾時,會對模型建立產生較大影響。判別模型類是將目標模型和背景信息同時考慮在內,將目標跟蹤看作是一個目標前景和背景的二分類問題,通過提取圖像的特征,利用兩者的差異進行在線學習來對分類器做相應的訓練,該方法可以較好的提高跟蹤精度。伴隨著數字信號處理技術的發(fā)展,基于各種濾波方法的判別類模型由于其優(yōu)異的性能和前景而受到學者們的青睞。相關濾波最初用于通信領域,用來描述信號之間的相關程度。在目標跟蹤中則是將輸入圖像通過濾波器模板進行相關操作,得到一個盡可能理想的響應圖,根據響應圖最高峰的位置來確定目標的中心點。Bolme等學者在2010年提出的最小平方誤差輸出和跟蹤算法(MOSSE,minimum output sum of squared error filter)首次把相關濾波的方法引入到目標跟蹤中,并使用灰度特征進行學習,使得跟蹤速度大幅提高,相關濾波器跟蹤算法也因此備受關注。針對MOSSE算法中訓練樣本不足的問題,Henriques等人對其進行改進,提出循環(huán)結構的目標跟蹤算法(CSK,exploiting the circulant structure of tracking-by-detection with kernels),利用循環(huán)矩陣的特性對樣本密集采樣,生成訓練樣本集,同時引入核函數,提高在高維特征空間中分類樣本的速度。隨后Henriques等人又在原CSK算法的基礎上進行改進,使用方向梯度直方圖(HOG,histogram of oriented gradient)多通道特征替換CSK中的單通道灰度特征,設計出了核相關濾波算法(KCF,kernel correlation filter)。該算法結合了CSK速度快的優(yōu)點,使用了循環(huán)矩陣和快速傅里葉變換(FFT,fast fourier transform),并且在精確度和成功率上也有所提升,但是無法進行尺度估計。之后,Danelljan等人提出了判別式尺度空間目標跟蹤算法(DSST,discriminative scale space tracking),DSST算法仍使用主流的HOG特征,通過二維的位置濾波器確定跟蹤目標的位置信息,然后用一維的尺度濾波器對跟蹤的目標進行尺度檢測,兩個濾波器工作相互獨立,分別進行目標定位與尺度縮放。該尺度估計的方法可以很方便的移植到其他目標跟蹤器中,但對位置濾波器的精度要求較高。
以上算法的跟蹤性能雖然一直在不斷完善,但均使用單一特征對目標進行跟蹤,使得目標出現形變、遮擋等因素時容易丟失目標。Li等在KCF算法的基礎上將顏色特征(CN,color naming)和HOG特征進行通道融合,提出了多特征尺度自適應目標跟蹤算法(SAMF,scale adaptive with multiple features tracker)。該算法對目標進行七個尺度的縮放,然后使用一個濾波器同時進行尺度和位置的檢測,對不同尺度分別進行相關濾波操作得到對應的響應值,比較選取響應值最大的一個作為最佳的目標尺度和位置。雖然該方法可以相互促進提高跟蹤精度,但是檢測時每個尺度都要進行一次特征提取和FFT操作,導致跟蹤速度較慢,無法滿足實時性的要求。
針對上述問題,本文以KCF濾波器為基礎模型,在使用多特征目標跟蹤的基礎上引入了預測位置加權融合機制。通過計算每種特征的平均峰相關能量(APCE,average peak-to-correlation energy)所占權重和響應置信度以實現更精準的目標定位,并提高算法了在形變、旋轉、遮擋等場景下的魯棒性。
核相關濾波算法在跟蹤過程中包含訓練、檢測和更新3個階段。首先在第一幀圖像中用矩形框框選出目標位置,采集矩形框中的圖像特征。然后進行循環(huán)移位構建出目標位于不同位置的訓練樣本集,根據目標質心距離矩形框中心的遠近賦予不同的標簽。通過得到的訓練樣本集和其對應的標簽訓練出一個分類器,之后將下一幀圖像的特征輸入給分類器,計算最大響應位置來預測下一幀目標所在區(qū)域,最后使用檢測結果來更新訓練集和分類器。
相關濾波算法將目標跟蹤問題轉化為求解最小平方誤差下的嶺回歸問題??梢詫憺椋?/p>
(1)
其中:x
是樣本數據,y
是回歸目標,λ
是正則項系數,以防止過擬合,ω
表示分類器參數。求解嶺回歸的問題是為了找到一個使得樣本x
和回歸目標y
之間平方誤差最小的決策函數f
(x
)=ω
x
,使平方誤差達到最小值。將式(1)求偏導之后可以得到:
ω
=(+λ
)y
(2)
其中:是單位矩陣,是由基樣本x
=[x
,x
,…,x
]構造出的一個n
×n
循環(huán)矩陣。而所有的循環(huán)矩陣C
(x
)都可以傅里葉域實現對角化,因此有:(3)
符號“^”是變量在傅里葉域中的表示,為的共軛轉置,diag
表示對角化。將式帶入中可以得到:(4)
其中:符號“⊙”表示元素對位相乘,符號“*”表示復共軛。將上述結果轉換到傅里葉域中,并將簡化為:
(5)
以上的推導都是在線性回歸的情況下,實際應用中絕大多數都是非線性回歸的情況。對于非線性問題,KCF使用核函數對數據進行非線性映射,將低維空間的非線性問題轉變?yōu)楦呔S空間的線性問題。拓展到核空間后,樣本空間中的ω
可表示為對偶空間的線性組合:(6)
其中:φ
(x
)是一個非線性映射函數,映射后的樣本線性可分。此時求解ω
的問題就變成了求解α
。給定核函數κ
(x
,x
′)=[φ
(x
),φ
(x
′)],[·,·]表示數學中的內積操作。分類器f
(z
)=ω
z
可以寫為:(7)
根據對偶空間的回歸問題求解得到:
α
=(+λ
)y
(8)
其中:表示核相關矩陣,α
是α
組成的分類器系數矩陣。當核矩陣為循環(huán)矩陣時:(9)
分類器為:
(10)
在檢測過程中,使用已訓練好的分類器對框選出的區(qū)域進行濾波計算,得到輸出響應圖,如果兩個信號越相似,那么之間的相關性就越高,輸出的響應值就越大。檢測過程中的輸出響應方程為:
(11)
x
和濾波器系數α
進行更新,通常采用線性內插法來更新模板參數,公式如(12)所示:(12)
圖1 Basketball部分視頻序列的特征權重變化
傳統(tǒng)的KCF跟蹤算法只使用HOG特征,HOG特征是一種視覺特征描述符,它通過計算和統(tǒng)計目標區(qū)域像素點的梯度方向直方圖來獲取目標輪廓或形態(tài)上的統(tǒng)計信息,由于其對光照變化和位置偏移不敏感,具有較強的魯棒性,所以在檢測行人、車輛、動物等物體上具有較好的效果。但由于HOG特征主要是反映目標局部形狀和邊緣,所以在遇到遮擋和快速形變時,經常會跟蹤失敗。而僅使用CN顏色特征跟蹤的效果也并不好,CN特征是將RGB彩色圖像細化為黑、藍、棕、灰、綠、橙、粉、紫、紅、白和黃11種預先定義的顏色,形成離散的11維顏色表示,其對旋轉、形變等干擾有較強的抵抗能力,但是當目標出現嚴重的光照變化或快速變色時,僅使用CN特征就很容易出現目標漂移現象。由此可見只使用單一特征往往會由于其自身的局限性,無法應對跟蹤場景中出現的各種困難。
選擇多特征互補在理論上可以彌補各自的缺點,提升跟蹤效果。而在選擇特征類型和融合方式上是應當思考與細究的問題。
從特性來看,HOG和CN兩種特征相互融合可以實現互補,但如果只是用簡單的特征層相加方式進行融合,不進行權重分配,就會出現某一特征跟蹤精度下降時,整體的跟蹤性能下降的情況。因此本文首先使用主成分分析(PCA,primary component analysis)法對CN特征降維,提高運算速度,然后利用平均峰相關能量(APCE)和輸出的響應峰值作為跟蹤置信度,進行權重分配。
假設跟蹤區(qū)域的大小為M
×N
像素,則該區(qū)域第t
幀圖像的APCE值P
計算如下:(13)
其中:g
max, ,g
min, 和g
,, 分別是第t
幀圖像在跟蹤區(qū)域內的最大響應值、最小響應值和位置(m
,n
)處的響應值。我們可以將第t
幀的特征權重公式寫為:(14)
式中,ω
,和ω
,分別為CN特征和HOG特征在第t
幀的權重。為確認該權重分配方法的有效性,采用OTB-2013數據集中的Basketball視頻序列進行驗證。
從圖1可以看到在572幀到624幀之間,目標主要是在進行平移操作,形變較小,得到的特征權重變化圖中HOG的特征權重高于CN。而之后目標產生形變和旋轉,HOG特征權重顯著下降。這表明該融合算法在不同的條件下能夠實現自適應改變。
KCF算法在每一幀學習中都使用相同的學習率來更新模型。而在實際的應用場景中,由于背景雜亂、形變、遮擋等原因,使用相同的學習率更新容易將不可靠的跟蹤結果引入到模型當中。模型誤差的累計將導致跟蹤失敗,因此在跟蹤質量較差的情況下應適當減小學習率。
響應圖的峰值和波動可以一定程度上反應跟蹤的質量,當跟蹤結果較為理想時,響應圖是只有一個尖峰,其他區(qū)域平滑的圖像,而且響應峰值越高,周邊區(qū)域越平滑,跟蹤效果越好,如圖2。而當跟蹤過程出現了運動模糊等復雜情況時,響應圖的峰值就會變低,頂部變寬,產生多峰現象,如圖3。
圖2 目標跟蹤正常及三維響應圖
圖3 目標快速移動及三維響應圖
為了避免模型更新而導致錯誤,本文根據響應圖變化的結果,提出一種響應置信度判別方式:計算大于0.5倍峰值的響應值個數F
與大于0.28倍峰值的響應值個數F
,設響應置信度F
=F
/F
。當干擾比較少時,圖像峰值高,高響應值點比較集中且占比小,沒有多峰現象,所以F
的值較小。當受到干擾時,響應圖峰值變低,產生多峰現象,高響應值的點占比增加,F
的值增大。由此就可以根據響應置信度F
的大小來使用不同的學習率分段更新模型。經過對響應置信度范圍的實驗驗證,得出第t
幀的分段更新模型策略為:(15)
(16)
其中:η
與η
分別代表CN特征的學習率和HOG特征的學習率。F
較小時認為圖像接近理想響應圖,使用正常或較低學習率,當F
過大時,認為干擾強烈,不再繼續(xù)更新模型。利用這種方法,不僅可以提高算法的魯棒性,還可以用來解決某一特征跟蹤失效的問題。
2.1章節(jié)中的多特征融合機制雖然可以自適應的進行權重分配,提高跟蹤精確度,但是如果出現某一特征跟蹤失效,產生相反的預測位置時,再使用加權的更新方式就會引入額外的誤差,如圖4所示。
圖4 運動模糊時的CN特征與HOG特征響應圖
由于圖像在第549幀時產生運動模糊,HOG特征的跟蹤精度下降??梢钥吹轿矬w原本向左運動,CN特征得到的響應最高峰在左側,但HOG特征由于受到干擾,得到的響應最高峰卻在右側。此時兩種特征得出的預測位置截然相反,不適合使用位置融合機制,而應根據響應置信度F
來進行單一特征的位置更新。本算法的偽代碼如下:
Input:當前幀圖像I
,目標初始位置P
Output:檢測到的目標位置P
fort
=1 toN
ift
=1 then1.在初始幀中選取目標圖像塊Patch
2.提取Patch
中的HOG特征和CN特征,并對CN特征降維。由式(8)初始化分類器。elset
≥23.提取并計算出兩種特征的響應峰值g
、預測目標位置、響應置信度F
以及APCE的值4.if兩種特征預測的目標位置差異過大then
使用F
值較小的特征進行位置更新else
通過權重ω
、ω
得到的融合位置進行更新end if
5.根據響應置信度F
計算更新速率,更新濾波器模型的參數。end if
end
η
、η
等其余參數設置與原KCF算法和CN算法相同,分別為0.02和0.075。響應置信度F
按照式(15~16)中來取,尺度變換部分使用了DSST算法的尺度濾波器。用于對比的算法參數均原用作者設定的默認參數。為了評估本文算法(OURS)的有效性,在OTB-2013數據集上選取了具有代表性的30組視頻序列來與SAMF、DSST、KCF、CN算法進行對比。所選視頻的主要屬性包括以下11種:
1)14組光照變化( IV,illumination variation);
2)23組平面外旋轉(OPR,out-of-plane rotation);
3)13組尺度變換尺度變化(SV,scale variation);
4)19組遮擋(OCC,occlusion);
5)11組變形(DEF,deformation);
6)7組運動模糊(MB,motion blur);
7)8組快速移動(FM,fast motion);
8)20組平面內旋轉(IPR,in-plane rotation);
9)3組離開視野(OV,out of view);
10)10組背景復雜(BC,background clutters);
11)2組低分辨率(LR,low resolution)。
評估方法采用OTB-2013數據集中提出的距離精確度(DP,distance precision)、成功率(SR,success rate)及跟蹤速度(FPS,frames per second)作為評價標準。
單幀圖像的跟蹤評價指標主要有中心位置誤差(CLE,center location error)和覆蓋域(OR,overlap region)兩種。
中心位置誤差CLE是指跟蹤目標位置(x
,y
)與真實位置(x
,y
)間的距離,計算公式如下:(17)
中心位置誤差的值越小,算法的跟蹤精度就越高。但是中心位置誤差只考慮了中心點的準確度,沒有考慮目標外觀的變化,不能反映算法在目標發(fā)生旋轉、尺度變化時的跟蹤精度。
覆蓋域OR是根據人工標注的實際目標框和跟蹤算法得到的跟蹤框之間的重疊面積之比,來衡量算法的跟蹤性能。
(18)
其中:|·|代表區(qū)域中的像素數目,r
、r
分別表示跟蹤算法得到的預測區(qū)域和實際的目標區(qū)域,OR的取值范圍為0到1,算法對目標的跟蹤越精確,目標框的大小越接近于實際目標區(qū)域時,重疊率越接近1。所以旋轉、尺度變化等干擾對算法的影響可以在覆蓋域上得到體現。距離精確度DP是通過統(tǒng)計中心位置誤差CLE小于某一設定閾值ε
的幀數N
占視頻序列總長度N
的比值,繪制出精確度曲線。通常采用閾值為20個像素點對應的數值作為精確度評價指標,其計算公式如(19)所示:(19)
成功率SR是通過統(tǒng)計覆蓋域OR大于某一設定閾值θ
的幀數N
占所有測試視頻序列總長度N
的比值,繪制出閾值從0到1變化的成功率曲線。通常以特定閾值為0.5時對應的值作為跟蹤器的成功率,其計算公式如(20)所示:(20)
具體本文算法(OURS),SAMF算法,DSST算法,KCF算法,CN算法在11種主要屬性下的精確度DP和成功率SR結果如表1、表2所示,每組的最優(yōu)結果用加粗顯示。
從表1和表2中可以看到,對比主流的相關濾波跟蹤算法,本文算法的精確度DP和成功率SR在大多數屬性下要優(yōu)于其他算法。
表1 5種算法在11種屬性下的精確度DP
表2 5種算法在 11 種屬性下的成功率SR
圖5 綜合評價曲線圖
圖5為算法執(zhí)行一次的整體精度圖和成功率圖。該圖顯示出本文算法相比于原KCF算法,在精確度DP和成功率SR上分別提高了12.8%和22.6%和,同時也高于其他主流算法。將本算法中所有視頻的總FPS數除以視頻序列總數,可得到本文算法的平均FPS值為93.1。在保證較高跟蹤精度的情況下,平均速度依然可以滿足實時性的要求。
為了更直觀的驗證算法性能,我們選取了Deer、Singer2、Jogging2、Girl、Freeman1這5個視頻序列進行定性分析。其中本文算法(OURS)使用紅色實線框,綠色虛線框為SAMF算法,藍色虛點框為DSST算法,黑色點橫線框為KCF算法,粉色實線框為CN算法。
3.3.1 Deer序列測試
圖6中,因為目標的快速躍起,在第24幀后開始產生運動模糊,導致僅用HOG特征的DSST和KCF算法丟失目標,使用HOG和CN通道融合的SAMF算法也因HOG特征的誤差導致精度下降。而僅使用顏色通道的CN算法和使用了加權特征融合方式的OURS算法跟蹤效果良好。
圖6 在Deer序列上的跟蹤對比情況
3.3.2 Singer2序列測試
圖7中,由于目標在光照的影響下產生了顏色變化,導致CN算法丟失目標,SAMF算法也因為CN顏色通道的誤差導致跟蹤失敗。而只使用HOG特征的DSST、KCF與加權特征融合的OURS算法跟蹤效果良好。
圖7 在Singer2序列上的跟蹤對比情況
3.3.3 Jogging2序列測試
圖8中,目標在經過信號燈等之前緩慢運動,所有算法的跟蹤情況都較好。但在58幀左右時,目標經過信號燈被完全遮擋,之后CN、KCF和DSST算法產生了漂移現象,丟失了目標。只有SAMF算法和本文算法在遮擋后依然能成功跟蹤目標。
圖8 在Jogging2序列上的跟蹤對比情況
3.3.4 Girl序列測試
圖9中,從127幀可以看到,DSST算法由于位置濾波器預測的中心位置誤差較大,導致尺度濾波器預測的尺度框大小也出現問題,而使用相同尺度濾波器的OURS算法因為預測位置更加精確,所以得到的尺度框大小正常。之后目標在437幀左右時出現相似物體遮擋的情況,使得DSST,KCF和CN算法出現漂移,最終跟蹤失敗。SAMF算法和本文算法在受到遮擋后都能繼續(xù)跟蹤到目標,且本文算法預測的中心位置更加精確。
圖9 在Girl序列上的跟蹤對比情況
3.3.5 Freeman1序列測試
圖10中,目標由遠至近運動,在第114幀時摘下眼鏡,并在之后產生旋轉。從153幀中可以看到,使用單一特征的DSST、KCF、CN算法都丟失了目標,SAMF算法則因為目標摘眼鏡動作的干擾,導致模板更新后,跟蹤位置漂移到了手上。而本文算法基于響應置信度,采用了分段更新策略,減少了模型受到的污染,最終可以成功跟蹤到正確目標。
圖10 在Freeman1序列上的跟蹤對比情況
本文以核相關濾波跟蹤算法為基本框架,利用特征響應圖的峰值與平均峰值相關能量值的乘積,對HOG特征和CN特征得出的預測位置進行自適應融合,并提出了一種新的置信度判斷方法。通過對模型的跟蹤情況和特征的有效性檢測,采用分段式更新策略,避免了模型污染,提高了位置融合的可靠性和復雜環(huán)境中跟蹤的魯棒性。實驗結果表明該算法相對于原KCF算法,在跟蹤精度和成功率上分別提高了12.8%和22.6%,且整體的性能優(yōu)于其他常用的跟蹤算法,并在抗遮擋、旋轉、快速運動等方面也有較為明顯的優(yōu)勢。同時本文算法的跟蹤速度可達到93.1FPS,滿足實時性的要求,有一定的應用價值。