鄧 豪, 劉桂華, 楊 康, 包 川, 鄧 磊
(西南科技大學(xué) 信息工程學(xué)院,四川 綿陽 621010)
由于存在目標表觀變化、遮擋問題、周邊環(huán)境的干擾和光照變化等諸多因素的影響,目前還不存在性能優(yōu)良的通用目標跟蹤算法,而根據(jù)不同應(yīng)用需求衍生了不同跟蹤算法[1~7]。但多數(shù)在短時間跟蹤上表現(xiàn)良好,長時間魯棒性不足。Adam A等人[8]用多個圖像塊來表示目標借以進行滑動搜索表決目標,但由于圖像塊是固定放置的,而不能對旋轉(zhuǎn)或者有粘連性的目標進行跟蹤。Hua G等人[9]提出了基于馬爾科夫網(wǎng)絡(luò)的基于部分目標跟蹤的方法,檢測出不一致的部分目標,這種方法對遮擋、背景雜亂和目標變形有較好的魯棒,但由于圖像的描述以及馬爾科夫網(wǎng)絡(luò),導(dǎo)致其連續(xù)跟蹤效果差。Grabner M等人[10]提出一種用自適應(yīng)分類器的方法匹配關(guān)鍵點進行跟蹤,當(dāng)前圖像幀中目標的可信關(guān)鍵點用來訓(xùn)練樣本并更新分類器,但其對于分類器的訓(xùn)練需要大量的正負樣本,對環(huán)境的適應(yīng)性差。Hare S等人[11]提出一種與Grabner的方法相似的目標跟蹤算法,給每個關(guān)鍵點賦權(quán)重,并在一個統(tǒng)一結(jié)構(gòu)性輸出的學(xué)習(xí)框架中更新這些權(quán)值,但對于非平面的目標,這類方法的對應(yīng)性估計并不好。
一種目標跟蹤算法的重要功能是:能夠在任何時間都可以在目標被遮擋、目標在視野中消失等情況下,避免再次手動初始化,進行快速強魯棒地找出圖像中的目標。應(yīng)用最為廣泛的是無任何先驗知識的無模型跟蹤方法,跟蹤器唯一知道的就是視頻序列中第一幀的信息,然后利用第一幀初始信息在后續(xù)的視頻幀中對目標在圖像中的位置進行估計。其優(yōu)點在于不需要任何先驗知識或訓(xùn)練學(xué)習(xí),因而可廣泛應(yīng)用在不同場合。但無模型跟蹤對于目標跟蹤領(lǐng)域目標遮擋、背景雜亂、光照變化等挑戰(zhàn)性情況還是沒有很好地解決。
本文提出一種雙邊界限定下的運動目標跟蹤算法。圖像幀的關(guān)鍵點可以通過匹配和跟蹤相結(jié)合的方法得到,并將兩種方法得到的關(guān)鍵點進行融合。其次是利用一致性約束來確定目標的中心位置、當(dāng)前圖像幀中目標相對于第一幀圖像的旋轉(zhuǎn)角度與尺度變化。最后利用雙邊界限定解決尺度變化中邊界關(guān)鍵點殘缺、初始化目標區(qū)域背景點對長時間跟蹤的影響。
在給定視頻序列I1,…,In,圖像幀I1中給定初始目標區(qū)域b1,在后續(xù)視頻序列的每一圖像幀中,確定感興趣的語義目標的位置、姿態(tài),或判定其丟失(圖像幀中不可見),即確定目標在圖像幀中的位置b2,…,bn。
在視頻序列第一幀中,在初始化條件I1及b1下,建立關(guān)鍵點集模板如下
(1)
每個關(guān)鍵點標記一個坐標點r∈R2和一個描述符f,為了跟蹤過程中計算簡便,本文采用二元描述符f∈{0,1}d。在I1中,將初始化O的關(guān)鍵點位置均值歸一化。在第t(t≥2)幀圖像目標識別與跟蹤時,對應(yīng)關(guān)鍵點的描述如下
(2)
式中α為圖像中對應(yīng)關(guān)鍵點的位置,m為當(dāng)前關(guān)鍵點對應(yīng)關(guān)鍵點集O的索引。
本文采用金字塔光流[12]進行視頻幀的目標跟蹤,通過計算前向光流和后向光流的歐氏距離,將兩次光流距離相差大于閾值的點予以排除,得到關(guān)鍵點集T。其圖像約束方程為
I(x,y,z,t)=I(x+Δx,y+Δy,z+Δz,t+Δt)
(3)
在第t(t≥2)幀圖像It中,利用FAST及BRISK方法得到的關(guān)鍵點集P為
(4)
每一個關(guān)鍵點與第一幀關(guān)鍵點集O進行K最近鄰(K-nearest neighbor,KNN)匹配,取K值為2,即每個匹配返回兩個最近鄰描述符。對P中每一個關(guān)鍵點計算其描述符和在第一幀的關(guān)鍵點描述符的漢明距離,并將滿足以下條件之一的關(guān)鍵點去除:
1)匹配到了背景關(guān)鍵點,則將該關(guān)鍵點從前景關(guān)鍵點更新至背景關(guān)鍵點;2)最佳匹配的漢明距離大于閾值;3)最大匹配與次佳匹配的匹配距離之比大于閾值。采用這種方法,實時更新關(guān)鍵點集O中前景特征點P_fg與背景特征點P_bg,并確保識別到的關(guān)鍵點與關(guān)鍵點集O具有良好匹配,增加了跟蹤算法的魯棒性。
對于跟蹤及匹配到的關(guān)鍵點集T和M,由于存在計算差異等問題,兩個關(guān)鍵點集并不完全一樣,被跟蹤目標同一關(guān)鍵點在兩個關(guān)鍵點集中有著不同的表示,故將關(guān)鍵點集T與M進行融合,兩個關(guān)鍵點集合并為大小為NKt的關(guān)鍵點描述集Kt,并刪除其中重復(fù)冗余的關(guān)鍵點,得到融合后特征點描述集K′。理論看來,匹配到的關(guān)鍵點的魯棒性更好,因為其并不依賴于對運動目標的運動估計。
為了便于描述,將圖像中目標的運動歸一化為相機靜止,目標運動。目標在運動過程中,尤其是背景也在隨著目標發(fā)生變化的運動過程中,因為目標在圖像中尺度與角度的變化,導(dǎo)致跟蹤效果魯棒性急速下降。
在第t(t≥2)幀圖像It中,進行目標的識別與跟蹤重點是獲取到目標中心在當(dāng)前圖像幀中的位置,故使K′的每個關(guān)鍵點(a,m)都對目標中心h(a,m)→R2進行表決,即
(5)
目標在僅發(fā)生平向運動情況下,目標中心可表示為
hT(a,m)=a-rm
(6)
式中rm為關(guān)鍵點集O中相應(yīng)關(guān)鍵點的相對位置。當(dāng)目標在移動過程中引起目標在圖像中尺度變化時,式(5)及式(6)并不能很好地得到目標的中心,這時引入尺度因子S。于是式(6)可寫為
hS(a,m)=a-S*rm
(7)
S=med‖Kdi,j‖/‖Odi,j‖,i≠j
(8)
目標在運動過程中在圖像上必不可少地會產(chǎn)生旋轉(zhuǎn),則上述投票方法魯棒性很低,在式(7)上加入旋轉(zhuǎn)因子,有
hR(a,m)=a-S*R*rm
(9)
式中R為一個二維旋轉(zhuǎn)矩陣,其表示如下
(10)
圖像中兩點相對于歸零化極軸的角度如圖1所示。圖1(a)表示在第一幀圖像I1中關(guān)鍵點i與關(guān)鍵點j相對于極軸所成角度,圖1(b)表示在第t(t≥2)幀圖像It中,關(guān)鍵點i與關(guān)鍵點j相對于極軸所成角度,由圖可得Δαi,j=α1(i,j)-αt(i,j)=90°。其中,αi,j可以通過反正切求得。
在第一幀及第t(t≥2)幀圖像中分別求特征點集O及特征描述集K′的角度集Oαi,j(i≠j)及Kαi,j(i≠j),并利用中值方法增強系統(tǒng)的魯棒性,旋轉(zhuǎn)因子Δα可表述為
Δα=med{Kαi,j-Oαi,j,i≠j}
(11)
圖1 目標運動過程中角度變化示意
在跟蹤過程中,無論坐標α還是索引m出錯,都會導(dǎo)致表決結(jié)果錯誤,指向圖像中隨機位置。故在特征描述集K′確認目標位置前,通過對關(guān)鍵點的一致性約束來確認和移除異常關(guān)鍵點,通過層次凝聚方法[13]對特征點集V聚類,核心思想是基于歐氏距離測量的差異度量,在聚類過程中,數(shù)據(jù)根據(jù)一個相似度矩陣被組織成層次結(jié)構(gòu),形成一個樹狀表示,并通過閾值δ進行剪枝。從V1,V2,…,Vn多個聚類結(jié)果中選取最大的類V_max,該類中關(guān)鍵點集作為目標的有效描述,并去除其他類的關(guān)鍵點。這種方法減少了對目標的是否只能平面移動的限制,并允許關(guān)鍵點從初始位置有少許漂移,增強跟蹤系統(tǒng)的魯棒性。
層次聚類過程中,其計算量較大,若特征點集V的元素過多,對系統(tǒng)資源消耗過大,會造成跟蹤系統(tǒng)實時性指數(shù)性下降,并間接影響跟蹤系統(tǒng)的魯棒性。故設(shè)定特征點集元素閾值τ(經(jīng)驗值250),在超過閾值時,利用壓縮感知中的正交匹配追蹤(orthogonal matching pursuit,OMP)算法[14,15]對V進行壓縮傳感。稀疏度γ為
(12)
式中 |V|為特征點集V的元素個數(shù),「?為向上取整,由式(12)確保V的元素個數(shù)不大于τ。
由于目標在運動過程中不可避免會出現(xiàn)遮擋、從視野丟失、正常跟蹤等多種情況,故在由一致性約束從V中得到最大的類V_max后,V_max元素的個數(shù)很大程度上能反映出目標的跟隨狀態(tài),設(shè)定ε1(經(jīng)驗值0.15)、ε2(經(jīng)驗值0.55)分別為目標丟失、遮擋的閾值,其具體含義為:
|Vmax|<ε1|O|:目標丟失;
ε1|O|≤|Vmax|≤ε2|O|:遮擋;
ε2|O|<|Vmax|≤τ:正常跟蹤。
目標在運動過程中從視野丟失(圖像幀中不可見),則令其目標框為丟失前目標框,并在整個圖像幀中逐步擴大,直到圖像邊界。目標被遮擋或正常跟蹤過程中,利用上述方法得到目標的有效描述集V_max,并利用中值公式得到目標的中心μ,再利用上述求得的目標尺度因子和旋轉(zhuǎn)因子可得到目標的大小及旋轉(zhuǎn)角度,以確定目標在當(dāng)前圖像幀中的位置。
一致性約束下目標跟蹤過程中目標在縮放以及旋轉(zhuǎn)過程中,不可避免會丟失掉外鄰邊界的關(guān)鍵點以及邊界上部分關(guān)鍵點,而這部分關(guān)鍵點被更新到背景點集中后,對當(dāng)前以及之后的跟蹤魯棒性存在負影響。且在手動初始化目標時,不可避免會在目標區(qū)域存在部分背景關(guān)鍵點,這一部分關(guān)鍵點作為初始前景關(guān)鍵點集中元素,后續(xù)圖像幀中關(guān)鍵點與其進行匹配會引起極大的誤差,且對尺度因子、旋轉(zhuǎn)因子的計算產(chǎn)生影響,進而降低整個跟蹤系統(tǒng)的魯棒性。
為了解決上述問題,引入雙邊界對一致性約束予以限定。在保證Δα計算方法不變的情況下,將式(8)尺度因子S進行擴張為S′,擴張程度由ξ(0≤ξ≤0.2,經(jīng)驗值0.08)限制。則式(8)改寫為
S′=(1+ξ)med‖Kdi,j‖/‖Odi,j‖,i≠j
(13)
將擴張后邊界內(nèi)以及邊界上所有點作為特征描述集V′,并利用同求取Δα的方法求取該特征描述集相對應(yīng)旋轉(zhuǎn)因子Δβ,在S′及Δβ的條件下進行特征描述集V′的一致性約束,得到關(guān)于目標的邊界bx2,并將其作為bx1的約束邊界。在目標被良好識別與跟蹤情況下,目標邊界bx1與約束邊界bx2的中心應(yīng)重合或其歐氏距離Δx在一定范圍內(nèi);目標邊界bx1與約束邊界bx2相對角度Δθ應(yīng)保持不變或在一定變化范圍內(nèi)。故設(shè)立距離變化閾值為x,角度變化閾值θ。當(dāng)Δx>x時,縮小ξ直到Δx≤x,當(dāng)Δθ>θ時,以bx2為基準,以第一幀目標邊界與約束邊界角度β1為變化量,確定目標邊界bx1。
分別于室內(nèi)及室外兩種外部環(huán)境下對目標進行長時間連續(xù)跟蹤,實驗平臺為Manifold嵌入式開發(fā)板,主頻為2.2 GHz,RAM為2 GB DDR3。在跟蹤過程中人為使目標被遮擋、脫離視野、旋轉(zhuǎn)平移等,檢測目標識別與跟蹤系統(tǒng)魯棒性。在兩個場景下對目標各進行3 600幀圖片序列跟蹤,目標識別與跟蹤系統(tǒng)具有極好的適應(yīng)性,對于上述常見問題魯棒性極好。
由于本文提出方法基于特征點檢測與跟蹤,特征點數(shù)目的多少在一定程度上反映出跟蹤情況,實驗過程中,跟蹤過程中各觀測點特征點個數(shù)如圖2所示,可以看出跟蹤系統(tǒng)在目標尺化、運動、旋轉(zhuǎn)等情況下特征點保持相對平衡狀態(tài),而在目標被遮擋、丟失時,圖像幀特征點相對會有劇烈變化。在目標被遮擋后恢復(fù)視野以及丟失后恢復(fù)視野可以避免再次手動化,對目標進行快速強魯棒性跟蹤處理。
圖2 目標跟蹤過程中觀測點特征點數(shù)目
dt=
(14)
(15)
(16)
(17)
在已有實驗平臺上分別將該方法與CT[18],TLD[19]這兩種目標跟蹤經(jīng)典算法進行對比,從各自的專題網(wǎng)站上獲取源碼,并按其最理想要求進行配置,其平均幀率(fps)、中心距離均值、重疊率實驗結(jié)果為TLD幀率為10.44 fps,中心距離均值為6.7 px,重疊率為71 %;CT幀率為51.62 fps,中心距離均值為11.4 px,重疊率為47 %;本文方法幀率為13.68 fps,中心距離均值為4.4 px,重疊率為82 %。
相對于CT及TLD經(jīng)典目標識別與跟蹤算法,本文方法具有中心誤差距離較小、重疊率較大的優(yōu)點TLD因P-N學(xué)習(xí)機制,提高了跟蹤系統(tǒng)重疊率,但因重檢測及訓(xùn)練學(xué)習(xí),導(dǎo)致幀率不高,實時性不好。CT基于壓縮感知理論,實時性較高,但中心誤差距離較大,重疊率較低。由于本文對一致性約束進行雙邊界限定,并進行兩次聚類,計算量偏大,故其實時性遜于CT跟蹤算法等。
但對于平均重疊度為50 %,以上分析不能區(qū)分只是視頻的50 %表現(xiàn)完全精確還是整個視頻表現(xiàn)不是很精確。在式(16)中用了一個閾值ω來將每幀分為真實的正樣本(TP)和假的負樣本(FN)。TP控制了每幀的精度要求。將ω賦值為25 %,50 %,75 %分布表明為低、中、高的精度,將recall[18]設(shè)為每幀的效果衡量值,即查全率,表明目標可見時有多少幀滿足重疊度ω的要求。計算方法
recall=TP/(TP+FN)×100 %
(18)
將CT,TLD以及本文方法,分別在跟蹤過程中計算查全率,具體為:低精度(ω≥0.25)時,CT為43 %,TLD為87 %,本文方法為92 %;中等精度(ω≥0.50)時,CT為28 %,TLD為55 %,本文方法為57 %;高精度(ω≥0.75)時,CT為17 %,TLD為19 %,本文方法為19 %。本文方法在低中高精度要求情況下取得了最佳結(jié)果,并分別領(lǐng)先第二名5 %,2 %,2 %的查全率。
本文提出了一種雙邊界限定下聚類一致性約束的目標識別與跟蹤算法,不需要進行學(xué)習(xí)與訓(xùn)練,根據(jù)第一幀的初始化信息建立基本特征描述集,并在后續(xù)的跟蹤識別過程中更新該特征描述集。目標在運動過程中,尺度相對于初始尺度在一定縮放比例下是確定的,關(guān)鍵點相對于歸零化極軸的角度相對于初始角度是確定的,以及約束邊界與目標邊界的角度、中心點歐氏距離是一定的。本文充分利用這些初始條件,使跟蹤算法具有在后續(xù)視頻序列中,在目標被遮擋、視野丟失等多種情況下,避免再次手動初始化,進行強魯棒性跟蹤處理。