程語嫣,張九根,楊圣偉
(南京工業(yè)大學 電氣工程與控制科學學院,江蘇 南京 211816)
目標跟蹤算法是計算機視覺的一個重要分支,視覺目標跟蹤算法主要是對視頻畫面中人工標定或自動檢測出的目標區(qū)域?qū)崟r跟蹤鎖定。根據(jù)構建外觀模型方法的不同,目標跟蹤算法主要分為兩類[1]:基于生成模型的跟蹤算法和基于判別式模型跟蹤算法。前者的主要思想是通過尋找最佳匹配的窗口來定位,而后者的主要思想是學習從背景中區(qū)分目標來找到目標位置。
核相關濾波器跟蹤算法(KCF)[2,3]屬于判別式模型跟蹤算法,因其極高的運算效率受到眾多研究者的青睞。Martin Danelljan等提出了CN[4]和DSST[5]跟蹤算法,CN通過引入CN顏色特征進一步提高跟蹤算法的精度,DSST算法在KCF算法的基礎增加了目標多尺度適應。
由于KCF僅使用HOG特征描述目標,且無尺度適應能力,每一幀都更新模型,無法滿足復雜背景下的長時間目標跟蹤場景跟蹤要求[6-8]。為兼顧跟蹤速度和準確準確率,本文以KCF目標跟蹤為框架,提出了一種基于多特征融合和尺度自適應的核相關濾波目標跟蹤算法。首先分別使用3個特征訓練獲得3個濾波器,在檢測環(huán)節(jié)對多個響應圖的結(jié)果自適應加權預測出目標位置,提高了視覺跟蹤算法在復雜背景下的適應能力;然后利用圖像感知哈希算法能夠快速匹配合適的目標尺度;針對模型更新環(huán)節(jié),依據(jù)響應圖的震蕩程度優(yōu)化模型更新策略,降低模型漂移發(fā)生的概率,提高算法長時間跟蹤的穩(wěn)定性。
KCF的樣本訓練過程實際是一個正則化最小二乘[9]問題。通過訓練找到一個函數(shù)f(z)=wTz使得均方誤差最小
(1)
循環(huán)矩陣是KCF的重點,通過循環(huán)矩陣可以得到更多的訓練樣本,在基礎樣本上經(jīng)過循環(huán)矩陣之后產(chǎn)生更多的訓練樣本。通過引入核函數(shù),將低維線性不可分的問題映射到更高維的空間,使其在高維空間可以線性可分,利用循環(huán)矩陣與離散傅里葉變化得
(2)
KCF在樣本檢測階段,也是通過傅里葉變換(FFT)和傅里葉反變換(IFFT)即可計算出所有樣本的回歸值,極大減少算法的運行量。
在樣本的檢測階段同樣需要計算核空間矩陣,核空間矩陣計算公式一般有多項式核、徑向基核和高斯核,對于高斯核為
(3)
(4)
(5)
其中,α為濾波器系數(shù),x為目標外觀模型,t為視頻圖像幀數(shù),γ為更新因子。
傳統(tǒng)KCFH特征單一、目標尺度固定、每一幀都更新模型,無法滿足復雜背景下的長時間目標跟蹤場景跟蹤要求。本文擬通過融合多特征,引入尺度適應,優(yōu)化模型跟蹤策略來提高跟蹤算法的魯棒性。
2.1.1 特征選擇
由于HOG特征提取時先對目標圖像做灰度處理,損失了對圖像直觀顏色的表達能力。其次HOG特征主要捕捉目標的局部形狀信息,在目標外形變化較大或運動模糊時,HOG特征對目標的描述能力相對較弱。
CN特征是對圖像全局的描述,對于目標形變、運動模糊有很好的適應能力。CN有11個通道的顏色特征,如果直接使用CN特征需要對每一個通道進行FFT核映射,將11通道的頻域信號線性相加,進行樣本訓練和樣本檢測等。顯然11通道運算量是非常大的,直接使用CN特征會降低目標跟蹤算法整體的實時性,并且CN的11個通道的顏色對于區(qū)分目標和背景并非都有意義。為減少對跟蹤算法運算速度的影響,利用PCA自適應降維實時選擇比較顯著的顏色特征來描述目標,將CN11維特征降至2維得到CN2。PCA主要是通過尋找最小均方意義下最能代表原始數(shù)據(jù)的投影方法,把主要影響因素從多元事物中解析出,揭示事物本質(zhì),將復雜問題簡單化。CN顏色空間與RGB相比更接近人眼對色彩的感覺,能夠更詳細描述圖像顏色特征,在目標發(fā)生形變和運動模糊時可以保持較高的分辨能力。
HSV(hue,saturation,value)顏色模型依據(jù)人類對于色澤、明暗和色調(diào)的直觀感覺來定義顏色,其中H代表色度,S代表色飽和度,V代表亮度。HSV顏色同樣描述了圖像的全局特征,被廣泛應用于計算機視覺領域。HSV與RGB相比可以更準確感知顏色的聯(lián)系,對光照變化相對不敏感,融合HSV特征可以進一步提高算法對光照變化的適應能力。
2.1.2 特征融合策略
傳統(tǒng)跟蹤算法一般通過多特征級聯(lián)或固定權重進行多特征的融合。CN2和HVS特征代表不同角度目標全局的顏色信息,而HOG特征則代表目標局部形狀梯度信息,CN2、HSV和HOG表示的意義和內(nèi)容不同,所適應跟蹤的場景也不同。僅通過級聯(lián)或固定閾值很難使3種特征在跟蹤過程中發(fā)揮各自的優(yōu)點。
在訓練分類器階段,設映射函數(shù)為φ(x),分類器的權重向量為
(6)
由式(6)可看出樣本訓練求解問題由w變?yōu)棣粒?(α1,α2,α3,…)T,核函數(shù)為κ(x,x′)=φT(x)φT(x′),不同樣本之間乘積構成的矩陣為
Kij=κ(xi,xj)
(7)
K為n×n的矩陣,回歸函數(shù)為
(8)
由式(8)可以看出回歸函數(shù)的復雜度隨著樣本數(shù)量的增加而增加,如果直接計算運算量是比較大的。利用循環(huán)矩陣的特性可以避免復雜的計算。依據(jù)線性最小二乘法對式(1)求解得
(9)
復數(shù)域表示為
(10)
由式(10)得
α=(K+λI)-1y
(11)
由式(11)可以推出訓練樣本距離目標位置的遠近與相關濾波器響應值的大小有關。距離目標越近,響應值越大;距離目標越遠,響應值越小。即響應值的大小可以反映跟蹤目標位置預測的精確程度。
從OTB數(shù)據(jù)集人工標注的目標實際坐標中發(fā)現(xiàn)目標相鄰兩幀之間一般不會有太大的位置移動。所以在第t幀中的濾波器響應圖最大值的位置,距離第t-1幀的目標位置越近,則其為真實目標位置的可能性越大。
因此根據(jù)各特征濾波器得到最大響應值的差異性和相鄰兩幀相對位置距離,可以計算出每個特征對應的置信度,用以實現(xiàn)多特征自適應加權融合,從而得到目標的最終預測位置。通過自適應融合使得每種特征在其適應能力較強的場景中得到更大的權重,從而提高跟蹤精度。
設HOG,CN2,HSV的響應圖分別為fhog,fcn2,fhsv通過各特征響應圖上最大響應值定位各特征預測的目標位置,3個濾波器響應圖中最大值的位置分別記為Lhog,Lcn2,Lhsv,上一幀的目標位置記為Lt-1。每個特征的響應圖的置信度由下式求得
(12)
(13)
(14)
其中,Qhog,Qcn2,Qhsv為每個特征濾波器響應圖對應的置信度。每個特征的響應圖對應的權重為
(15)
(16)
(17)
其中,γhog,γcn2,γhsv為各特征的對應權值系數(shù)。從上列公式可看出特征的置信度越高,該特征獲得權重就會越大。
目標最終預測的位置通過下列式計算得到Lt為多特征融合得到的目標位置。從式(18)可以看出HOG、CN2、HSV這3種特征在自己描述能力比較強的跟蹤環(huán)境中可以獲得更大的權重,對跟蹤結(jié)果的影響就越大,從而提高跟蹤精度。在其描述能力相對較弱的環(huán)境中,權重相對會下降,從而可以減少對跟蹤結(jié)果的影響。
Lt=γhogLhog+γcn2Lcn2+γhsvLhsv
(18)
在多特征相關濾波器預測出當前幀目標位置后,以上一幀目標框大小為基礎,基于當前幀目標預測位置,截取多尺度區(qū)域框形成圖像金字塔。然后將圖像金字塔內(nèi)的圖片利用圖像感知哈希算法[10]生成對應的哈希值,分別與上一幀目標區(qū)域的哈希值計算漢明距離,得到最佳目標尺度。
2.2.1 生成多尺度哈希值集
設當前幀通過相關濾波器預測出目標位置為Lt,上一幀得到目標框大小為wt-1×ht-1。基于位置Lt和wt-1×ht-1在當前視頻幀中截取多尺度區(qū)域框構建圖像金字塔,如圖1所示。
圖1 尺度金字塔構建
白色框為基準框,白色框的中心位置坐標為Lt,尺度為wt-1×ht-1,黑色框為以白色框為基準截取多尺度區(qū)域框,白色框與黑色框截取的區(qū)域共同構建成尺度金字塔。當所取的尺度越密集、提取范圍越大時,最后匹配到的尺度越精準,但同時所需時間也較長,使得跟蹤算法的實時性變?nèi)酢?/p>
本章算法是以上一幀獲得目標尺度大小為基準提取尺度金字塔,相鄰兩幀目標一般不會有太大的尺度變化,以0.05為步長在(-0.30,0.30]范圍內(nèi)取13個尺度。
定義獲得的尺度集合為S,如式(19)所示,多尺度采樣如圖2所示
圖2 多尺度采樣
(19)
獲得多尺度的目標圖片之后,對13張不同尺度圖片通過感知哈希算法分別提取哈希值。
圖像感知哈希值生成具體步驟如下:
(1)縮小圖片:將圖片縮小到32×32的大??;
(2)簡化色彩:將圖片轉(zhuǎn)化成灰度圖像,進一步簡化計算量;
(3)計算圖片的DCT變換:將縮小后的圖片分成4個16×16的矩陣,對每個矩陣進行二維DCT變換。然后分別提取其左上角4×4的16個低頻系數(shù),組成8×8的二維矩陣;
(4)計算DCT的均值:計算矩陣的DCT系數(shù)均值,通過DCT系數(shù)均值來量化矩陣,即根據(jù)均值將每一個像素二值化;
(5)計算哈希值:根據(jù)8×8的DCT矩陣,設置為0或1的64 bit的hash值。大于等于DCT均值的設為“1”,小于DCT均值的設為“0”。組合后為64 bit二進制數(shù),即哈希值。最后得到的13個64 bit的哈希值序列集記為
(20)
2.2.2 多尺度哈希值匹配
漢明距離[11]可以用來計算圖像感哈希值相似度,漢明距離越大兩張圖相似度越低,漢明距離越小兩張圖相似度越高。通過相關濾波器估計得到的位置Lt后,構建出多尺寸圖像金字塔,生成哈希值庫,分別于上一幀目標計算漢明距離,漢明距離最小值所對應的尺度大小作為當前幀目標尺度。設漢明距離的計算公式為
(21)
為適應跟蹤過程中各種因素的變化,需要對相關濾波器進行實時更新。但如果每一幀的結(jié)果都用來更新,則存在一定風險。特別是當目標被遮擋或者出現(xiàn)相似物體干擾時依然更新模型,會使得跟蹤器對于后續(xù)幀識別真正目標的能力越來越差,導致模型漂移。
經(jīng)過實驗發(fā)現(xiàn),KCF的響應圖在跟蹤準確時存在單個較為明顯的峰值,類似理想的二維高斯分布圖。在跟蹤效果一般時,會出現(xiàn)多個明顯的峰值。而在跟蹤效果較差時,如出現(xiàn)目標遮擋、跟蹤漂移、運動模糊等,響應圖會劇烈振蕩,響應圖存在多個較大的峰值,且最高峰值與次高峰值很接近,所以最高峰值對應的位置有可能不是真正的目標位置。因此可以通過響應圖的震蕩程度來判斷是否進行模型更新。設響應圖的震蕩程度為V
(22)
當V和Fmax的值以一定比例大于跟蹤視頻序列中的歷史均值時,對相關濾波器實時更新,更行策略如下式所示
(23)
整體框架流程如圖3所示。
圖3 整體算法流程
為驗證本文整體改進后的視覺跟蹤算法(多特征融合+哈希尺度自適應)的有效性,本章在OTB[12]數(shù)據(jù)上與CSK、KCF、DSST、SAMF[13]流行跟蹤算法進行對比實驗,算法之間的主要區(qū)別見表1。CSK、KCF、DSST、SAMF所用算法所有參數(shù)均為默認。實驗所用電腦配置為Intel(R) Core(TM) i5-7300HQ CPU @ 2.50 GHz(4 CPUs),8 G內(nèi)存,win10操作系統(tǒng),Matlab2016。
表1 跟蹤算法的差異
為直觀體現(xiàn)本文跟蹤算法效果,從跟蹤結(jié)果選擇3個具有代表性的視頻序列來定性分析說明,分別是籃球、移動和汽車。
本文跟蹤算法與CSK、KCF、DSST、SAMF跟蹤算法對比結(jié)果,如圖4所示。
HOG特征雖然對局部有很強的表達能力,但目標外形動作幅度過大、目標運動方向改變,HOG特征的描述能力就會變?nèi)酢?/p>
如圖4(a)中,籃球運動員邁出很大的跨步,可以看出KCF和DSST在目標剛加速運動出現(xiàn)較大的形變導致KCF、CSK和DSST都跟蹤失敗。本文算法使用HOG+CN2+HSV,SAMF使用HOG+CN+GRAY多特征來描述目標,在目標發(fā)生形變時仍然可以較好進行跟蹤。如圖4(b)中出現(xiàn)了運動模糊,本文算法可以準確跟蹤,得益于本文多特征融合不僅僅是特征的固定權重累加,而是多特征多濾波器自適應加權融合。在目標發(fā)生運動模糊時,HOG的權重特征會相對變小,對跟蹤的結(jié)果影響也減少,而CN2的權重相對變大,對跟蹤的結(jié)果影響也會較大。每種特征在自己適應能力較強的場景中,為跟蹤算法的精度貢獻更大的力量,從而提升跟蹤精度,由于本文算法通過觀察響應圖的震蕩程度來避免相似物體干擾和遮擋情況下的模型更新,可以很好應對形似物體和遮擋干擾的影響。從圖4(c)第216幀可以看出本文的跟蹤算辦法更精準地鎖定在目標中心位置。
圖4 各算法在部分序列上的跟蹤對比結(jié)果
另外本文算法與DSST不同之處還在于,本文算法是以上一幀目標尺度為基準構建尺度金字塔,尺度模板中不需要太多的尺度,可以有很強的尺度適應能力。
從表2可知,本文算法的跟蹤速度為每秒32幀,能夠滿足實時性要求。本文提出的跟蹤算法與CSK、KCF、DSST、SAMF相比,在整體性能上具有優(yōu)越性。成功率(OP)比SAMF提高2.2%,比KCF提高13.1%。精確度(DP)比ASMF提高0.8%,比KCF提高5.3%。表明本算法以KCF為基本框架,通過多特征自適應融合和哈希尺度自適應能有效提高跟蹤算法的整體性能。
表2 整體跟蹤性能
整體跟蹤對比結(jié)果如圖5所示。
圖5 各算法整體成功率(OP)和精確度(DP)對比
圖5第一行為本文算法和對比算法整體的成功率OP圖,第二行為本文算法和對比算法整體的精確度DP圖。從圖5的OP曲線走勢數(shù)據(jù)可以看出在重疊閾值在(0.4,0.8)之間本文算法整體的成功率和空間魯棒性均優(yōu)于其它算法。由于本文算法和SAMF算法都使用多特征融合,成功率時間魯棒性與SAMF算法很接近,但本文基于上一幀目標框使用感知哈希尺度自適應,目標尺度的適應能力高于SAMF。從圖5的DP曲線走勢數(shù)據(jù)可以看出本文的算法精確度的時間魯棒性明顯優(yōu)于SAMF和其它算法。
本文提出了多特征融合的核相關濾波目標跟蹤算法,來彌補HOG單一特征對于復雜環(huán)境適應能力差的不足。在目標跟蹤算法的訓練環(huán)節(jié)通過HOG、CN2、HSV多種特征分別訓練得到多個相關濾波器,然后在檢測環(huán)節(jié)對各個特征對應濾波器的響應圖進行自適應加權得到最終的目標位置。在多特征融合的基礎上,為減少對跟蹤速度的影響,本文把尺度檢測級聯(lián)在相關濾波器之后,在相關濾波器預測出當前幀目標位置后,以上一幀目標尺度為基準獲取多尺度圖像金字塔,然后將圖像金字塔內(nèi)圖片利用感知哈希生成對應的哈希值,分別與上一幀目標區(qū)域的哈希值計算漢明距離,得到最佳目標尺度。然后在檢測環(huán)節(jié)對各個征對應濾波器的響應圖進行自適應加權得到最終的目標位置。并針對模型更新環(huán)節(jié),提出一種簡單有效的模型更新策略,利用多峰前向檢測用來避免相似物體干擾和遮擋情況下的模型更新。