易 欣,郭武士,趙 麗
(1.四川省裝備制造業(yè)機器人應用技術工程實驗室, 四川 德陽 618000;2.山西大學 軟件學院, 太原 030013)
紅外(infrared radiation,IR)是一種看不見的電磁波譜,具有比可見光譜更長的波長[1-2]。在過去幾十年里,盡管紅外跟蹤在RGB視頻中取得了很大的進步,但是熱成像中物體的特性一直都是高效跟蹤器設計中的硬約束,使用單一特征或技術跟蹤對象通常無法達到更高的精度。由于熱像具有低信噪比(signal to noise ratio,SNR)特性,含有大量的死像素,而且通常顯示為缺少紋理和顏色高光的灰度圖像,因此紅外跟蹤十分具有挑戰(zhàn)性[3]。
跟蹤算法主要因使用的目標特征、運動模型、內(nèi)存和對象表示不同而不同,已提出的算法主要分為生成式和判別式,產(chǎn)生了大量使用適當特征和合適分類器的檢測技術。文獻[4]采用AdaBoost分類器,該分類器使用了對象的Haar、取向直方圖和局部二元模式特征。作為一種改進,文獻[5]使用梯度信道特征直方圖,通過循環(huán)數(shù)據(jù)結構進行訓練和測試,提出了核化相關濾波器(kernelized correlation filters,KCF)。在此框架下,文獻[6]使用了具有魯棒尺度估計的方向梯度直方圖(histogram of oriented gradient,HOG)特征和顏色統(tǒng)計模型,并預先識別出分散區(qū)域以避免漂移。文獻[7]提出了一種基于曲線匹配和卡爾曼濾波器組合的技術來預測紅外視頻中目標的位置。文獻[8]提出小紅外目標檢測技術來與前景和背景相對應的興趣點分組,并引入了R-均值聚類技術。盡管已提出了許多算法,但有效跟蹤器的設計仍具有挑戰(zhàn)性。由于紅外圖像缺乏顏色和紋理屬性,所以這些特征的使用受到了限制。此外,遮擋和混亂背景會給實時跟蹤帶來困難,從而產(chǎn)生錯誤的軌跡。
本文在KCF框架中采用梯度和空間強度直方圖特征相結合的方法來解決這些問題。在判別式跟蹤器中,相比于其他分類技術,KCF跟蹤器在識別和定位能力方面都較為突出。核化相關濾波器的目標是從物體外觀及其周圍環(huán)境中進行學習,并基于輸出響應峰值位置將區(qū)域分類為目標或背景。為了評估本文方法的性能,在實驗數(shù)據(jù)集中13個具有挑戰(zhàn)性的紅外圖像序列上進行實驗。與現(xiàn)有的跟蹤器相比,本文方法的平均距離精度和平均重疊精度有顯著提高。
紅外跟蹤的目的是從第一幀的初始地面實況位置開始尋找目標在后續(xù)幀上的軌跡。相比RGB記錄,由于以下原因,紅外跟蹤具有挑戰(zhàn)性:① 熱紅外圖像有噪聲,分辨率低,含有大量的死像素;② 熱紅外圖像多顯示為缺少紋理和顏色高光的灰度圖像;③ 熱紅外圖像中物體的強度因溫度不同而異,而不是因光照而異;④ 熱紅外圖像中物體的遮擋處理和重新識別較為困難;⑤ 由于興趣目標可能與背景混合,或目標可能在大小、形狀或強度上發(fā)生變化,對于更復雜的背景,很難檢測到跟蹤目標。
判別式表觀模型綜合考慮了目標與背景的特征,著重于如何區(qū)別目標與背景[9-11]。基于判別式表觀模型的目標跟蹤框架如圖1所示。通過檢測方法的跟蹤將問題視為獲得每個幀中目標位置的分類任務。由于最高分類置信度值對應于最佳目標位置,易導致跟蹤器漂移。因此,為了確定目標位置,使用了基于空間結構和像素強度值的兩種互補方法。
圖1 基于判別式表觀模型的目標跟蹤框架
相關濾波器是模板匹配中所使用的基本信號處理技術之一,且其對諸如目標檢測、人臉識別、目標跟蹤和動作識別的應用產(chǎn)生了很大的影響。KCF是相關濾波器的核化版本,該核化版本使用數(shù)據(jù)循環(huán)結構的性質(zhì),其目的是通過檢測方法的跟蹤而進行訓練和測試。這兩個特性分別用于訓練KCF濾波器,輸出概率圖中的最大值表示目標的位置。
使用非線性轉化從標量x中構造信道向量c,并獲得:
c=[K(x-x1),K(x-x2)…K(x-x3)]T
(1)
其中:K(·)表示對稱非負基函數(shù);x1,x2,…,xn為信道中心或bin中心。因此,信道編碼涉及從標量中構造信道矢量。信道表示(channel representation,CR)是用于機器視覺和跟蹤中的生物啟發(fā)數(shù)據(jù)表示。使用核函數(shù)K(·)(如cos2)來基本構造CRs,以獲得平滑直方圖。假設有n個樣本xi且每個樣本表示可以編碼的圖像的像素值。因此,從數(shù)據(jù)xi和間隔為h的bin中心中獲得CR的系數(shù),如:
(2)
在KFC中,從當前幀中裁剪出尺寸為P×Q的輸入圖像塊xi,同時提取空間特征。利用數(shù)據(jù)的循環(huán)結構從輸入樣本的所有循環(huán)移位中訓練濾波器以生成相同尺寸的輸出y,y為在指示目標位置中心處具有最大值的高斯形狀。為了避免周期性卷積引起的頻譜混疊,裁剪后的圖像塊尺寸是目標尺寸的1.5倍。然后用余弦窗口乘以圖像塊來平滑尖銳的邊界。通過尺寸為P×Q的濾波器w來實現(xiàn)輸入特征到輸出概率圖的映射。為了學習濾波器,公式化該訓練問題以最小化核映射訓練樣本xi與目標y之間的誤差,如下所示:
(3)
其中:w表示空間域中的濾波器模板;λ為用于避免過度擬合的正則項;φ(xi)將輸入模板xi映射到非線性高斯核空間。因此,對于兩個輸入向量xl和xj,將內(nèi)積〈φ(xl),φ(xj)〉表示為Kxlxj。核相關涉及計算兩個向量相對位移的核。對于高斯核,其形式為:
(4)
其展開式為:
(5)
其中:σg為高斯核函數(shù)的方差; ⊙表示數(shù)組元素依次相乘;*表示變量的復共軛,符號頂部的橫桿表示離散傅里葉變換(discrete fourier transform,DFT);ξ表示正向轉換(forward DFT);ξ-1表示逆向轉換(inverse DFT)。濾波器模板w還可表示為輸入數(shù)據(jù)樣本的線性組合,如:
w=∑βiφ(xi)
(6)
其中βi為
(7)
(8)
(9)
(10)
相比原始像素值處理,多特征圖像信號處理能很好地分類形狀和強度特征。如所討論的,在本文研究使用了梯度和信道編碼強度特征。本文通過將預處理所提取的上下文特征與漢寧窗相乘,從而減少FFT操作帶來的尖銳邊界效應。
接著使用梯度和信道編碼特征圖訓練KCF以分別獲得濾波器H1和H2。梯度特征提供建立穩(wěn)定外觀模型的邊緣信息,而信道編碼的灰度圖則能詳細描述目標和背景像素值的強度分布(本文方法中所使用的梯度特征見圖2)。為了在跟蹤中結合多個特性,在每幀中分別找到梯度(og)和信道編碼特征(oc)的濾波響應。在線生成自適應權重以基于峰-旁瓣比(peak-to-sidelobe ratio,PSR)融合置信度圖。
圖2 本文方法中所使用的梯度特征
PSR是用以在置信圖中找出峰值強度的一種測量方法,這里,置信度圖中的每個像素表示屬于對象的像素位置。為了計算相關響應(置信圖)o的PSR,需計算峰位置周圍13×13區(qū)域的峰值omax、均值μo和方差σo,接著計算PSR,如:
(11)
使用權重w1和w2在每幀中生成自適應權重以加入可能性映射,并獲得如下權重:
(12)
(13)
其中:PSRg表示梯度響應的PSR;PSRc表示信道編碼特征響應的PSR。使用權重w1和w2生成融合置信圖o,如o=w1og+w2oc。使用自適應權重的優(yōu)點是:在某些序列中,梯度特征優(yōu)于信道編碼特征;為了提高跟蹤性能,梯度特征比信道編碼特征具有更大的權重。目標的位置表示為(xa,ya)或lcf,并基于輸出響應圖o的最大值獲得該位置。
在每幀中執(zhí)行模板更新以了解對象的最新外觀,從而使模板與最新數(shù)據(jù)相一致。KCF使用固定的學習率更新每幀中的濾波器模板,這一步控制了跟蹤器的速度。然而,相關濾波對變形、遮擋和較大的外觀變化非常敏感。當濾波器模板以恒定的學習速度更新時,漂移的機會就會增加。因此,在本文提出方法中,采用質(zhì)量措施并基于置信圖來更新濾波模板。因此,當跟蹤的置信度超過閾值時,利用初始值更新濾波器模板,如方程(8)和(9)。上述步驟在很大程度上減少了漂移,這是由于以恒定的學習速率更新了每個樣本。
如上所述,相關濾波模型依賴于對變形和遮擋更敏感的空間結構,這是因為跟蹤器逐漸漂移。另一方面,基于像素分類的模型對形狀變化具有較強的魯棒性,但其對目標背景對比度很敏感。為了提高相關濾波模型的魯棒性,本文采用互補技術來提高跟蹤性能。與KCF中使用的空間特征相反,該技術使用每個像素周圍的圖像塊訓練分類器。
為了更新分類器模型,本文使用2個度量確認跟蹤置信度:第1種度量為PSR,用以證明相關濾波器的跟蹤置信度;第2個度量為權重圖的集合,用以測量分類器的置信度。權重圖的集合(總和)為從分類器中獲得的似然圖中像素值的代數(shù)相加,該集合很可能在遮擋期間減少并在背景復雜期間增加。如果這兩種置信度都超過了特定的閾值,則考慮使用模板更新分類器。
跟蹤漂移是在線跟蹤系統(tǒng)中用不準確的數(shù)據(jù)對模型進行修正的結果,本文利用Mean-Shift算法對目標位置進行細化。在基于Mean-Shift均值漂移搜索算法的跟蹤模型中,通過核函數(shù)對顏色直方圖進行空間上的加權,降低了目標跟蹤模板對輕微變形、遮擋等的敏感度[12-13]。被跟蹤目標的模型和候選目標特征分別表示為式(14)(15)。
q={qu}u=1,2,…,m
(14)
p(y)={pu(y)}u=1,2,…,m
(15)
其中:q為被跟蹤目標模型的直方圖;p(y)為中心位置在y處的候選目標;y是二維向量,表示可能的候選目標區(qū)域的中心位置,其中m為特征值bin的個數(shù)。q與p(y)的直方圖分布滿足式(16)和式(17)。
(16)
(17)
跟蹤目標模型的特征分布表示如下:
(18)
目標模型與可能的候選目標的相似性采用式系數(shù)來衡量,式系數(shù)的計算方法如下:
(19)
式(19)是對2個統(tǒng)計樣本的重疊量的近似計算。在跟蹤過程中,還需要定義一個距離函數(shù),通過最小化模板與候選目標之間的距離,從而決定最優(yōu)候選目標的位置。定義跟蹤目標與候選目標模型之間的式距離表示如下:
(20)
為評估本文提出的方法,選擇了LTIR[14]數(shù)據(jù)集,該數(shù)據(jù)集已經(jīng)整合了視頻目標跟蹤中的多種復雜情況。數(shù)據(jù)集中的序列是幾個熱傳感器從不同的源捕獲的。在英特爾(R)內(nèi)核i5-5200U、CPU為8 GB RAM的2.20 GHz的機器中,本文使用Matlab 2012a軟件對本文提出的算法進行實驗。
本文提出的跟蹤算法在從LTIR數(shù)據(jù)集中選取的13幅圖像序列上進行了評估。該數(shù)據(jù)集將人、動物和車輛作為目標。這些序列包括移動攝像機、遮擋、外觀變化、溫度變化和比例變化等挑戰(zhàn)。從數(shù)據(jù)集中提供的地面實況注釋中獲取目標的起始位置,以初始化跟蹤。
表1提供了13個圖像序列和挑戰(zhàn)的詳細信息,包括在不同氣候條件下錄制的室內(nèi)和室外錄像。在真實的文本文件中提供注釋,注釋每行含有邊界框角落的(x,y)坐標,用于定量評估。
表1 與LTIR數(shù)據(jù)集中13個序列相關聯(lián)的挑戰(zhàn)
續(xù)表(表1)
本文方法在熱紅外圖像序列中的跟蹤效果如圖3所示,可以有效定位每個幀的目標,取得了較好的跟蹤效果。
圖3 本文方法在圖像序列中的跟蹤
本節(jié)利用4種最先進的基線跟蹤器評估本文提出的跟蹤方法,對于視覺和熱紅外目標跟蹤,都使用這4種跟蹤器,即FCT[15]、EDFT[16]、DSST[17]、KCFHOG[5]。本文在3個性能指標[18]的基礎上,闡明了本文提出方法與著名算法間的比較。這3個性能指標包括平均中心位置誤差(average centre location error,ACLE)[19]、距離精度(distance precision,DP)和重疊精度(overlap precision,OP)[20]。
為了顯示跟蹤器跟蹤的位置與每幀中的地面實況注釋的偏差,本文使用地面實況和跟蹤地點之間的距離計算中心位置誤差(centre location error,CLE)。令(xi,yi)表示跟蹤位置,(xgi,ygi)表示幀號i處的地面真實位置,M表示視頻中的幀數(shù),則獲得的平均中心位置誤差如下:
(21)
為了確定中心位置誤差小于某一閾值(即TDP=20像素)的幀數(shù)的百分比,本文計算了距離精度分數(shù)(DP),表示如下:
(22)
(23)
其中Si表示幀i的重疊分數(shù)。
為了以圖形化的方法量化跟蹤方法,本文采用了精密繪圖。圖4為本文提出跟蹤器與幾個最著名跟蹤器在LTIR數(shù)據(jù)集上的距離精度和重疊精度分析結果。表2為幾種方法平均中心位置誤差對比。其中,本文提出的方法是由未優(yōu)化的Matlab代碼實現(xiàn)(不對任何幀進行調(diào)整)的,平均每秒運行6幀。
從實驗結果可以看出:本文所提出的跟蹤器在平均中心位置誤差、距離精度和重疊精度等方面均優(yōu)于其他跟蹤器。這是因為,F(xiàn)CT、EDFT這樣的跟蹤器很容易丟失或移位跟蹤,當目標出現(xiàn)緩慢變化時,它們通過采樣方法在本地窗口中搜索目標。本文所提出的方法和DSST具有最小的漂移,且可以有效定位每個幀的目標。DSST和KCFHOG由于遮擋而丟失目標,當目標重新出現(xiàn)時也無法重新檢測到,可能是由于完全遮擋而從錯誤樣本中進行了學習。FCT和EDFT可以在重新出現(xiàn)后重新檢測目標,但不能很好地定位目標。本文方法在遮擋后可以重新檢測目標,但不能準確估計遮擋后的尺度。
表2 幾種方法平均中心位置誤差對比
圖4 本文提出跟蹤器與幾個最著名跟蹤器在LTIR數(shù)據(jù)集上的定量分析結果
本文介紹了一種基于檢測的跟蹤方法,該方法結合了判別式方法和生成式方法。為了獲得目標位置,本文自適應地結合了核化相關濾波框架下的梯度特征和信道編碼特征映射。同時,利用對象圖像塊和背景圖像塊訓練AdaBoost分類器以對每幀中的像素進行分類。通過對檢測區(qū)域執(zhí)行Mean-Shift均值偏移過程,尋找峰值以獲得最優(yōu)位置,將目標定位于連續(xù)幀中。
使用LTIR數(shù)據(jù)集中的13個具有挑戰(zhàn)性的視頻對本文提出的算法進行了評估,結果顯示:本文提出的方法顯示了出色的性能,在平均中心位置誤差、距離精度和重疊精度等方面均優(yōu)于對比跟蹤器。
未來希望進一步完善本文方法,使之能夠在更復雜的情形下對熱紅外目標進行跟蹤。