尚椏朝,孟令軍
(中北大學電子測試技術國家重點實驗室,太原 030051)
目標跟蹤作為計算機視覺的重要組成部分,被廣泛應用于交通安全[1]、自動駕駛[2]和行為識別[3]等領域。然而在實際應用場景中,由于目標常出現形變、遮擋和快速移動等情況,造成跟蹤效果急劇下降,因此提高復雜情況下的目標跟蹤精度和成功率具有重要意義[4]。
相關濾波器算法因具有跟蹤精度高和速度快的特性成為目標跟蹤的研究熱點之一[5-6]。文獻[7]提出一種使用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征的核相關濾波器(Kernelized Correlation Filter,KCF)跟蹤算法,引入循環(huán)矩陣和核函數使該算法在保持高幀率的情況下跟蹤精度得到極大提升。文獻[8]提出一種SAMF 算法將多種特征進行融合,在定位目標的同時求解最佳目標尺寸。文獻[9]提出判別尺度空間跟蹤(Discriminative Scale Space Tracker,DSST)算法,通過引入一維相關濾波器完成目標尺度估計。上述算法求解濾波器時會忽略目標的歷史信息,對此,文獻[10]提出多模板尺度自適應核相關濾波器(Kernelized Correlation Filter based on Multiple-Template Scale Adaptation,KCF_MTSA)跟蹤算法,同時更新歷史模板信息與當前模板信息來求解濾波器,從而實現濾波器的時間一致性。文獻[11]提出Staple 算法,將方向梯度直方圖特征與顏色直方圖特征進行融合,有效提升算法性能。文獻[12]提出背景感知相關濾波器(Background-Aware Correlation Filter,BACF)算法,利用掩膜矩陣獲取正負樣本建立目標模板,在實現高精度的同時確保高速率。隨著深度學習的興起,文獻[13-14]利用卷積神經網絡進行跟蹤目標的特征提取,特征辨識度更高,算法性能得到較大提升,但是其計算開銷較大,在實際應用中難以滿足實時跟蹤的要求。
針對KCF_MTSA 算法提取特征單一與尺度策略較簡單的問題,本文提出一種改進的多模板尺度自適應核相關濾波器跟蹤算法。通過方向梯度直方圖和顏色名(Color Name,CN)表征目標特征,在決策層對兩種特征的響應進行自適應融合以實現目標定位,同時引入一維相關濾波器進行尺度估計,并計算多尺度樣本信息中尺度濾波器的響應,從而得到當前目標的最佳估計尺寸。
在KCF 算法中,利用非線性映射函數φ(x)使映射后的樣本在高維空間線性可分,在新空間使用嶺回歸[15]方法對回歸函數f(x)=wTx訓練如下:
其中,Pi為循環(huán)移位算子,x為基礎樣本,Pi x為基礎樣本x循環(huán)右移i個單位,yi為對應樣本的期望輸出。
上述目標函數可改寫為:
其中,Φ為包含樣本x所有循環(huán)移位樣本的映射。在KCF_MTSA 算法中,將訓練濾波器中樣本擴展到2 個,假設在第n幀濾波器訓練中目標模板為xn,其循環(huán)矩陣為Xn,則KCF_MTSA 算法的目標函數為:
其中,Φ1和Φ2為上一幀目標模板x1和當前幀目標模板x2的循環(huán)移位樣本的映射矩陣。Φi為循環(huán)矩陣,通過引入一個輔助變量分別對兩個目標模板進行濾波器求解,并加入一個約束使兩個目標模板所求濾波器相等,表達式如下:
上述問題可通過將硬約束換成軟約束求解,引入正則項如下:
式(5)中額外的正則項可確保兩個濾波器的一致性。在每次迭代過程中,參數μ不斷增大,且每次迭代通過交替定點來優(yōu)化問題:首先初始化濾波器w2,再利用其優(yōu)化另一個濾波器w1,然后利用濾波器w1求解濾波器w2,如此進行多次循環(huán)直到滿足迭代要求。使用單模板的核相關濾波器進行濾波器初始化,在第j次迭代過程中,求解對偶問題如下:
由于式(6)和式(7)形式相同,因此求解其中任意一個即可。將式(6)改寫為多特征核函數如下:
KCF_MTSA 目標位置檢測和尺度估計同時進行,以上一幀檢測到的目標中心點為中心,在當前幀圖像中建立尺度池,采樣n個尺度,計算每個尺度圖像的響應,第i個尺度圖像響應的計算公式如下:
其中,zi為第i個尺度的樣本,x為上一次跟蹤完成后更新的模板為的離散傅里葉變換為多模板核相關濾波器參數。通過計算最大響應值的位置可得到目標的中心和尺寸。
完成目標位置的定位與尺度估計后,更新目標模板和濾波器參數如下:
其中,η為學習率分別為第t幀目標模板和第t-1 幀目標模板,Xt為未更新的第t幀目標模板,為第t幀濾波器參數。
本文使用方向梯度直方圖和顏色名雙核融合的方式進行目標定位。HOG 特征通過計算和統計圖像局部區(qū)域的梯度方向直方圖構成特征,對光照和目標的幾何變換不敏感;CN 特征具有光照不變性,對目標大小和形變不敏感,但是在光照劇烈變化的情況下無法準確表征目標[16-17]。在復雜場景下,采用自適應特征融合的方式通過HOG 和CN 特征來表征目標,可實現目標跟蹤。
提取上述特征,并分別計算兩種特征的濾波器響應如下:
其中,xhog和xcn分別為當前幀圖像目標區(qū)域內的HOG 特征和CN 特征,zhog和zcn分別為上一幀圖像目標模板更新后的HOG 特征和CN 特征分別為上一幀圖像求解的HOG 特征多模板核相關濾波器參數的離散傅里葉變換和CN 特征多模板核相關濾波器參數的離散傅里葉變換。
在特征融合方面,使用兩個多模板核相關濾波器,將每種特征獲得的響應以權重形式進行融合如下:
在式(19)中,whog由HOG 特征獲取響應圖的峰值旁瓣比(Peak to Side Lobe Ratio,PSR)和CN 特征獲取響應圖的PSR 共同決定,計算公式如下:
PSR 可作為跟蹤結果的評價指標,該值越大,跟蹤結果越可靠[18]。
式(20)中P的計算公式如下:其中:q為響應圖的峰值,峰值周圍區(qū)域為旁瓣區(qū)域;u和σ分別為旁瓣區(qū)域的平均值和標準差。通過計算獲得融合后的響應圖,其峰值位置即為目標位置。
由于KCF_MTSA 算法的尺度估計方法與SAMF 算法類似,兩者對尺度的估計均不理想,因此本文算法引入一維相關濾波器進行尺度估計[19]。假設當前圖像為In,目標尺寸為P×R,對圖像In提取訓練樣本,其中心為目標位置,樣本的尺寸表達式如下:
采用嶺回歸的方式訓練樣本并計算尺度濾波器,目標函數為:
其中,?為相關算子,g為一維高斯函數,hi和fi分別為第i個尺度的濾波器和樣本,β=0.01 為正則化參數。
根據Parseval 定理,將目標函數轉換到頻域進行求導,令導數為0,計算得到:
其中,大寫字母變量代表響應小寫字母變量的離散傅里葉變換,為G的共軛形式。
其中:θ為學習率,本文中θ=0.025分別表示當前幀的分子與分母分別表示上一幀的分子與分母。
對于第t幀樣本Z,建立尺度池(i=1,2,…,n)并進行相應尺度濾波器的計算,相關公式如下:
其中,Γ-1為離散傅里葉的逆變換。通過計算尺度濾波器的響應可得到當前目標的最佳估計尺寸。
本文對KCF_MTSA 算法進行改進后提出FMMTSA_DSST 算法,在該算法中目標定位和尺度估計各自獨立進行。在目標定位過程中,使用兩個核相關濾波器實現目標定位;在尺度估計過程中,先建立尺度池,再使用相關濾波器求解以完成目標尺度估計,并將最佳尺度參數傳遞到兩個核相關濾波器的訓練和尺度相關濾波器的訓練中,具體步驟如下:
1)快速檢測:
(1)輸入第t(t>1)幀圖像,根據上一幀圖像目標中位置Dt-1和尺寸參數St-1截取候選樣本的HOG 特征zhog和CN 特征zcn。
(2)根據式(17)~式(19)求得目標定位用響應,再對R進行離散傅里葉逆變換獲取目標的新位置Dt。
(3)以Dt為中心位置、St-1為基礎目標尺寸,根據式(22)構建尺度池(i=1,2,…,n)。由式(26)計算得到尺度濾波器的響應,其最大值為當前目標最佳尺度估計St。
2)訓練分類器:
(1)以當前目標中心位置Dt和最佳尺度St為參數,截取HOG 特征目標模板xhog和CN 特征目標模板xcn,根據式(14)迭代計算得到ahog和acn。
(3)以當前目標中心位置Dt和最佳尺度St為參數,根據式(22)構建尺度池(i=1,2,…,n),通過式(25)計算完成尺度濾波器的更新。
(4)如果為最后一幀,則訓練結束;否則依次執(zhí)行快速檢測與訓練分類器中的全部步驟。
為驗證本文所提FMMTSA_DSST 算法(以下稱為本文算法)的有效性,在OTB100[20]數據集中選取25 組視頻序列進行實驗,其中包括尺度變化、光照變化、運動模糊、平面旋轉和遮擋等屬性。將本文算法與ECO_HC、STAPLE_CA[21]、SAMF_AT[22]、KCF、KCF_MTSA和SAMF 算法進行對比。實驗采用Ubuntu18.04 系統和MATLAB2016a 軟件平臺,計算機配置Intel?XeonTMCPU E5-2697 v2 @ 2.70 GHz 處理器和RTX2070 顯卡。
中心誤差(Center Location Error,CLE)是算法跟蹤到的目標位置與人工標注目標位置的歐氏距離,若CLE 小于某個閾值(本文中CLE 閾值設置為20),則跟蹤成功;否則跟蹤失敗。距離精度(Distance Precision,DP)為CLE 小于某個閾值的視頻幀數占總視頻幀數的比例。重疊率(Overlap Rate,OR)為算法跟蹤到的目標邊界框與人工標注邊界框重合部分占整個目標邊界框的比例,若OR 小于某個閾值(本文中OR 閾值設置為0.5),則跟蹤成功;否則跟蹤失敗。重疊分數(Overlap Score,OS)為算法跟蹤過程中OR 小于某個閾值的視頻幀數占總視頻幀數的比例,以此作為準確率的評價指標。為對上述算法進行定量分析,使用DP 和OS 作為算法跟蹤性能的評價指標。
圖1~圖4 分別為7 種算法的綜合評價結果以及在目標旋轉、尺度變化和運動模糊情況下的評價結果(圖1(a)~圖4(a)中的中括號內數字為算法在重疊率閾值為0.5 時的準確率,圖1(b)~圖4(b)中的中括號內數字為算法在中心誤差閾值為20 時的距離精度)。可以看出:本文算法綜合評價的準確率和距離精度均排在第二位,較改進前KCF_MTSA 算法的準確率和距離精度分別提升28.5% 和15.8%;ECO_HC 算法由于引入卷積神經網絡,因此其綜合評價結果較其他算法更好;本文算法在目標旋轉和尺度變化情況下的準確率和距離精度均排在前兩位,較改進前KCF_MTSA 算法有明顯提升,且在目標出現旋轉時其跟蹤性能最佳。
圖1 7 種算法的綜合評價結果Fig.1 Comprehensive evaluation results of seven algorithms
圖2 7 種算法在目標旋轉時的評價結果Fig.2 Evaluation results of seven algorithms when the target rotates
圖3 7 種算法在尺度變化時的評價結果Fig.3 Evaluation results of seven algorithms when the scale changes
圖4 7 種算法在目標運動模糊時的評價結果Fig.4 Evaluation results of seven algorithms when the target is blurred by motion
將上述算法在不同屬性數據集中處理速度的平均值作為算法的處理速度進行對比,結果如表1 所示??梢钥闯觯罕疚乃惴ㄓ捎谝隒N 特征并應用尺度估計策略,因此處理速度較KCF_MTSA 算法更慢,但仍快于SAMF_AT 算法和STAPLE_CA 算法,結合圖1~圖4分析結果可知,本文算法跟蹤效果更好;ECO_HC 算法處理速度較快,可滿足算法的實時性要求,其跟蹤性能也最好。
表1 7 種算法的處理速度對比Table 1 Comparison of processing speed of seven algorithms(frame·s-1)
為更直觀地驗證本文算法的跟蹤效果,將7 種算法在BlurBody、Human7、KiteSurf、Panda、CarScale、Human6、BlurOwl 和Shaking 8 個視頻序列中的跟蹤結果進行對比,結果如圖5 所示??梢钥闯觯荷鲜鏊惴ㄔ贐lurBody、Human7 和BlurOwl 視頻序列中均存在由鏡頭晃動造成運動模糊的問題;隨著運動模糊程度的加劇,僅用HOG 特征的KCF 算法和KCF_MTSA 算法最先出現定位誤差增大現象,其他算法均實現目標的準確跟蹤;當KiteSurf 視頻序列第42 幀目標出現旋轉和快速移動時,僅本文算法和STAPLE_CA 算法可跟蹤到目標,SAMF 算法在64 幀重新跟蹤到目標,ECO_HC、SAMF_AT、KCF 和KCF_MTSA 算法均出現跟蹤丟失現象;在Panda 視頻序列中,目標熊貓在第100 幀第1 次轉身導致KCF算法出現目標定位框偏移,目標熊貓在第490 幀再次轉身,KCF 和KCF_MTSA 算法完全丟失目標,目標熊貓在第633 幀第3 次轉身后,僅本文算法和ECO_HC 算法可繼續(xù)進行目標跟蹤;當CarScale 視頻序列第225 幀目標尺度迅速變化時,雖然SAMF算法也有尺度估計策略,但是僅STAPLE_CA、ECO_HC 算法和本文算法能實現較好的跟蹤效果;Human6 視頻序列在第245 幀將鏡頭拉近使得目標尺寸變大,此時本文算法可很好地對邊界框定位,而SAMF 算法和SAMF_AT 算法由于所用尺度樣本較少,尺度估計效果較差,SAMF、SAMF_AT 和KCF 算法在第497 幀丟失跟蹤目標;Shaking 視頻序列在第25 幀出現背景雜波,此時僅本文算法和ECO_HC 算法完成目標跟蹤,且在第61 幀出現光照變化時,上述兩種算法跟蹤效果未下降,在第71 幀和第150 幀目標旋轉后,本文算法仍能完成目標跟蹤任務。
圖5 7 種算法在8 個視頻序列中的跟蹤效果Fig.5 Tracking effect of seven algorithms in eight video sequences
本文針對KCF_MTSA 算法在目標移動模糊、旋轉和尺度變化時跟蹤精度下降的問題,在KCF_MTSA算法基礎上,提出一種結合多特征和尺度估計的改進目標跟蹤算法。使用互補特征HOG+CN 進行目標表征,根據響應圖的峰值旁瓣比將兩種特征的響應進行自適應融合,同時引入一維相關濾波器進行尺度估計。實驗結果表明,與改進前KCF_MTSA 算法相比,該算法的跟蹤距離精度和準確率明顯提升,在目標尺度變化較大時,能很好地完成目標尺度估計,有效避免尺度估計不準確導致背景信息引入時目標偏移的問題。后續(xù)將利用神經網絡提取特征實現目標跟蹤,進一步提升跟蹤距離精度。