吳 捷馬小虎
(1.泰州職業(yè)技術(shù)學(xué)院信息技術(shù)學(xué)院,江蘇 泰州 225300;2.蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
視覺目標跟蹤技術(shù)在軍事偵察、智能監(jiān)控、機器人感知等領(lǐng)域得到了廣泛應(yīng)用[1-2]。在過去的十年中,目標跟蹤技術(shù)得到了迅速發(fā)展,各種優(yōu)秀的跟蹤算法相繼出現(xiàn)并被證明具有良好的應(yīng)用前景。盡管該領(lǐng)域研究取得了巨大的突破,但魯棒性和實時性仍然是視覺目標跟蹤領(lǐng)域的兩大挑戰(zhàn)性任務(wù),尤其是在存在背景變化、相機抖動、圖像模糊、非剛性變形和部分遮擋的無約束場景中。
基于判別相關(guān)濾波器(DCF)的跟蹤方法在許多具有挑戰(zhàn)性的基準測試集上展現(xiàn)了非常優(yōu)異的性能。DCF 的優(yōu)點主要包括利用原始樣本的循環(huán)矩陣,將學(xué)習(xí)任務(wù)有效地表示為嶺回歸,并采用快速傅立葉變換(FFT)進行加速計算。DCF 也存在空間邊界效應(yīng)及時間濾波器退化兩個問題。針對此類問題,不少學(xué)者嘗試用增加空間正則化和時間正則化[3-6]去解決。然而,已有的空間正則化方法往往忽略了輸入特征的多樣性和冗余性,僅使用簡單的預(yù)定義約束(例如預(yù)定義的二進制掩碼)來調(diào)整濾波器。XU 等提出的LADCF 算法使用嵌入的、保持時間一致性的空間特征選擇機制構(gòu)建外觀模型[7],所提出的DCF 學(xué)習(xí)方案和空間特征選擇實現(xiàn)了高效的鑒別濾波器學(xué)習(xí)。
LADCF 算法在手工特征選取方面使用了31 維的HOG 特征和11 維的CN 特征的組合。使用單一模型在很多時刻較難處理各種具有挑戰(zhàn)性的變化,并且依賴于某種特定的特征級融合策略在一定程度上限制了模型的多樣性。由于很難設(shè)計出滿足各種挑戰(zhàn)場景的特征融合方法,因此,本文通過分析HOG 特征的特性,提取9 維的HOG 特征和11 維的CN 特征,并利用判別相關(guān)濾波器(DCF)構(gòu)造兩條跟蹤線索獨立跟蹤目標。建立自適應(yīng)切換機制,在每一幀中選擇合適的線索進行跟蹤,該機制可以根據(jù)各線索擅長處理的挑戰(zhàn)因素類型,靈活地切換到可靠的跟蹤器,兩個跟蹤器輸出的決策級融合有效地增強了算法的魯棒性。
空間特征選擇的目的在于從濾波器θ 中選取典型的、具有區(qū)分性的信息。LADCF 的特征選擇表示如下:
diag(?)是從選定特征? 的指示向量生成的對角矩陣。與主成分分析(PCA)和局部線性嵌入(LLE)等傳統(tǒng)降維方法不同,指標向量? 實現(xiàn)了降維的同時保存了空間結(jié)構(gòu)。
? 中的元素取值0 或1,表示禁用或啟用相應(yīng)的元素。該操作的作用在于只激活每個訓(xùn)練樣本中相關(guān)度較高的特征,從而使特征表示具有低維、緊湊的特點。因此,可以得到如下的目標函數(shù)表示:
將上述的單通道方法推廣到多通道特征,可得:
計算每個空間位置的L2 范數(shù),然后執(zhí)行L1 范數(shù)實現(xiàn)聯(lián)合稀疏性,聯(lián)合稀疏性支持穩(wěn)健的特征選擇,反映了所有特征通道中單個空間位置特征圖的共同貢獻。
優(yōu)化過程采用交替方向乘數(shù)法(ADMM)進行設(shè)計。引入松弛變量,得到下式:
采用ADMM 算法來迭代優(yōu)化以下子問題
類似于DCF 學(xué)習(xí)框架,可得到:
更新θ':
更新h:
已有的實驗與理論已經(jīng)證明方向梯度直方圖特征(HOG)、顏色特征(CN)和灰度特征(Gray)對于運動模糊、目標形變和光照變化具有較強的魯棒性,近年來的主流算法在特征提取方面均選擇使用這3 種特征的組合,也稱為手工特征。
近年來,深度學(xué)習(xí)理論發(fā)展迅猛,深度特征也被應(yīng)用到目標跟蹤領(lǐng)域[8-10]。深度特征和手工特征各有其不同特點:深度特征含有高層語義信息,適合于定位目標范圍,但是分辨率低,且計算非常耗時;而手工特征則更利于精確定位,但是在目標外觀變化較大時會導(dǎo)致跟蹤失?。?1]。經(jīng)典的跟蹤算法如ECO[12]、STRCF[6]、MCCT[13]等提供了手工特征版本和深度特征版本,而深度特征版本均無法實現(xiàn)實時跟蹤,實際應(yīng)用受到很大限制。
LADCF 算法在近年來基于DCF 框架的算法中具有最佳跟蹤效果,但是在圖像模糊、非剛性變形和部分遮擋等場景中也容易出現(xiàn)跟蹤漂移,其手工特征使用的是31 維的HOG 特征和11 維的CN 特征。
本文算法的主要改進之處在于設(shè)計新的手工特征組合(稱之為第二特征),與原有特征(第一特征)一起實現(xiàn)雙線索跟蹤。為了獲得更加豐富的特征表示,本文充分利用了HOG 特征的特性。圖1 給出了31 維HOG 特征的生成過程,從圖中可以看出,在31 維特征向量中只有前18 維特征對方向敏感,綜合考慮HOG 的特性及算法的運行速度,本文算法選擇前9 維的方向敏感HOG 特征與11 維的CN 特征共同組成新的特征。在跟蹤過程中,兩條跟蹤線索共享相同的搜索區(qū)域(ROI)。
圖1 31 維HOG 特征分布Fig.1 31-dimensions HOG feature distribution
為了充分融合雙線索跟蹤以發(fā)揮最優(yōu)的跟蹤性能,本文設(shè)計了可靠性評估策略:
峰值旁瓣比是常用的評價跟蹤可靠性的指標之一,本文算法使用峰值旁瓣比對每幀跟蹤結(jié)果進行可靠性判斷,只有對于低可靠性的跟蹤結(jié)果啟用“第二特征”進行跟蹤。判斷標準如下:
上式表示當(dāng)采用“第一特征”跟蹤的峰值旁瓣比小于8,且采用第二特征跟蹤獲得的最大響應(yīng)值大于設(shè)定數(shù)值時,應(yīng)用第二線索的跟蹤結(jié)果并迭代進入下一幀跟蹤,其中為控制參數(shù),在文中設(shè)為0.8。
本文基于LADCF 算法框架進行了改進,實現(xiàn)了所提出的雙線索跟蹤算法。實驗所用軟件環(huán)境為Win10 操作系統(tǒng)及matlab2016b 工具軟件。核心硬件方面,CPU 型號為Inter(R)core i7-10700,主頻2.9 GHz,主機運行內(nèi)存16 GB。測試所使用的數(shù)據(jù)集為OTB50 和OTB100[14]。為了評估本文所提算法的性能,與LADCF[7]、STRCF[6]、MCCT_H[13]、ECO_HC[12]、BACF[15]、Staple_CA[16]、SRDCF[5]等7個先進的跟蹤器進行了比較。
利用tracker_benchmark 工具,測試了本文算法與7 種對比算法在OTB50 和OTB100 上的綜合性能,下頁圖2 和圖3 為對應(yīng)的成功率曲線圖和距離精度曲線圖,可以看出本文所提算法的跟蹤成功率和精確度均為最佳,證明了本文所提算法具有優(yōu)異的性能。第23 頁圖4 給出了本文算法與LADCF 算法在低分辨率、平面外旋轉(zhuǎn)、遮擋、運動模糊等8 種復(fù)雜場景下的成功率對比圖。相比本文的基準算法LADCF,本文算法的跟蹤成功率最大提升幅度可達4.1%,最少也提升了2%,這主要得益于本文算法引入了雙線索跟蹤機制。
圖2 8 種算法在OTB50 上的成功率和精確度對比圖Fig.2 The success rate and accuracy comparision figure of 8 kinds of algoritms on OTB50
圖3 8 種算法在OTB100 上的成功率和精確度對比圖Fig.3 The success rate and accuracy comparision figure of 8 kinds of algoritms on OTB100
表1 給出了8 種算法在OTB50 上的各項數(shù)據(jù)對比,本文算法跟蹤速度為21.1 幀/s,達到實時跟蹤的要求。本文算法跟蹤精確度相比LADCF 提高了2.4%,相比ECO_HC 提升了3.7%。數(shù)據(jù)對比可以看出本文算法兼顧了跟蹤精度和跟蹤速度。
OTB100 數(shù)據(jù)集中共標記了11 種具有挑戰(zhàn)性的屬性,表2 給出了本文算法與7 種對比算法的所有11 種屬性的精確度圖統(tǒng)計數(shù)據(jù),以加粗加下劃線表示最優(yōu)結(jié)果。本文算法在7 種屬性的精確度圖中排在第1 位,3 種屬性排在第2 位,且全部優(yōu)于LADCF 算法,一系列對比數(shù)據(jù)有力地證明了本文改進算法的合理性及有效性。
表2 在OTB100 數(shù)據(jù)集上多屬性比較結(jié)果Table 2 Multi attribute comparison results on OTB100 dataset
為了更加直觀地展示各種算法的跟蹤效果,第24 頁圖5 給出了本文算法與LADCF、STRCF、MCCT_H、ECO_HC 等4 種綜合性能排名靠前算法在4個挑戰(zhàn)性視頻序列的可視化跟蹤結(jié)果對比,這4 個視頻序列依次為Biker、Bird1、Matrix 及Soccer。定性分析如下:
圖5 5 種算法在4 個視頻序列的跟蹤結(jié)果Fig.5 The tracking results in 4 video sequences with 5 kinds of algorithms
1)Biker 視頻序列中存在出視野、低分辨率、快速運動等挑戰(zhàn)因素。在第67 幀騎手轉(zhuǎn)彎時STRCF和ECO_HC 算法出現(xiàn)跟蹤漂移,第80 幀騎車轉(zhuǎn)換騎行方向后其他4 種對比算法均丟失目標,第142幀結(jié)束時其他4 種對比算法均發(fā)生較大偏差,只有本文算法可以從頭至尾一直準確定位。
2)Bird1 視頻序列對跟蹤算法具有較大挑戰(zhàn),主要存在遮擋、形變、出視野等多種復(fù)雜因素的干擾。第182 幀目標在受到嚴重遮擋并從云霧飛出時,僅有本文算法和MCCT_H 算法能定位到目標,第300 幀直到第408 幀結(jié)束時只有本文算法可以一直準確定位目標,其他幾種算法均出現(xiàn)較大偏離。
3)Matrix 也是測試跟蹤算法性能的經(jīng)典視頻序列,存在平面內(nèi)旋轉(zhuǎn)、背景雜斑、明暗變化等多種干擾,目標的變化幅度較大。從42、68、98 等關(guān)鍵幀的截圖可以看出,只有本文算法能夠準確捕獲目標。
4)Soccer 視頻序列中球員受到各類障礙物的遮擋,拍攝鏡頭角度也發(fā)生變化。從第116 幀、180幀及第370 幀的截圖可以看出,本文算法跟蹤準確度要遠優(yōu)于其他4 種算法。
本文提出了一種用于魯棒視覺跟蹤的雙線索跟蹤框架,該框架不僅引入了一種新的特征組合,還考慮了決策級融合,以充分發(fā)揮不同特征組合的優(yōu)勢。本文算法框架維護兩條線索共同跟蹤目標,并選擇可靠的輸出以優(yōu)化跟蹤結(jié)果。在具有挑戰(zhàn)性的數(shù)據(jù)集上進行了綜合實驗,結(jié)果表明,本文提出的雙線索跟蹤框架簡潔有效,在只使用手工特征的情況下,依然獲得了較高的準確度,并能實現(xiàn)實時跟蹤,即使與最先進的DCF 方法相比依然表現(xiàn)良好。后續(xù)工作重點是在跟蹤目標的尺度估計方面進一步改進,以更好地適應(yīng)目標的旋轉(zhuǎn)、形變等場景。