鄭鵬根, 趙慧民, 詹 瑾*, 黃智慧, 利華康
(1. 廣東技術(shù)師范大學計算機科學學院, 廣州 510630; 2. 中山大學電子與通信工程學院, 廣州 510275)
目標跟蹤是計算機視覺研究中的熱點領(lǐng)域,目前建立實時、魯棒的視覺跟蹤模型仍是一項挑戰(zhàn)性的任務(wù).視覺跟蹤方法一般由目標搜索策略、特征提取和觀測模型等組成.首先, 搜索策略獲得候選樣本后進行特征提取, 主要包括人工特征和學習特征; 然后觀測模型利用特征判斷候選樣本是否為跟蹤目標.觀測模型通常分為生成式[1-2]和判別式[3-4], 前者通過目標外觀模型在搜索范圍內(nèi)匹配最優(yōu)目標位置, 后者主要研究和尋找目標和背景的決策邊界.
在生成式跟蹤模型中, 采用循環(huán)矩陣和快速傅里葉變換的相關(guān)濾波可提升算法速度.如Feng等[2]將Kalman濾波器(KF)與時空正則化相關(guān)濾波器(STRCF)結(jié)合用于視覺跟蹤, 以克服大規(guī)模應用變化帶來的不穩(wěn)定性問題; Zhang等[3]提出一種基于L2范數(shù)的稀疏響應正則化項以抑制相關(guān)濾波框架中的意外峰值, 提高了對目標姿態(tài)變化的跟蹤魯棒性.以上方法跟蹤效率較高, 但跟蹤效果容易受邊界效應的影響.而基于深度學習的跟蹤方法在目標表征能力方面更有優(yōu)勢.如深度注意跟蹤方法(deep attentive tracking, DAT)[4]能在跟蹤過程中調(diào)整跟蹤模型,提高跟蹤準確度.但深度網(wǎng)絡(luò)的運行效率低, 實時性能較差.孿生網(wǎng)絡(luò)方法[5-6]將網(wǎng)絡(luò)分為模型分支和場景分支, 通過回歸和分類進行目標定位和識別, 該方法設(shè)計靈活, 提升了跟蹤實時性和跟蹤效率.
基于稀疏表示的跟蹤方法核心是將目標跟蹤視作特征空間下的匹配優(yōu)化或相似性度量問題.如L1跟蹤方法[7]利用稀疏表示方法建立全局目標外觀模型, 對遮擋目標的跟蹤效果良好,但對目標外觀和背景變化的適應性較差.基于低秩稀疏表示的方法[8]增加了低秩假設(shè), 提出一種新的結(jié)構(gòu)化低秩建模算法, 用于復雜場景下的目標跟蹤.基于局部稀疏表示的跟蹤方法[9]將目標的局部面片分為三類, 采用判別性局部稀疏編碼和局部線性回歸對面片賦予不同的權(quán)重, 提高了跟蹤準確性.Zhang等[10]利用目標候選區(qū)域與局部面片聯(lián)合學習空間結(jié)構(gòu)表示, 在搜索最佳目標區(qū)域時考慮了遮擋和噪聲引起的異常值, 減小了目標整體形變的影響, 在目標姿態(tài)變化和局部遮擋的情況下仍有較好的跟蹤效果.
由于全局稀疏特征表示的目標跟蹤模型受遮擋和背景干擾的影響很大, 其稀疏特征通常不是最優(yōu)的選擇, 本文提出一種基于局部加權(quán)外觀表示和增量字典更新的目標跟蹤方法.首先, 對第1幀目標劃分局部塊, 在每個局部范圍內(nèi)采樣, 并利用LC-KSVD[11]的方法構(gòu)建具有判別性的子稀疏字典; 其次, 對后續(xù)幀樣本劃分局部塊, 利用子字典依次進行稀疏分解, 利用稀疏特征系數(shù)中的非目標成分計算樣本各局部塊的擾動量和權(quán)重; 最后, 綜合局部權(quán)重與候選樣本的重構(gòu)誤差, 定位出最佳的目標跟蹤位置.此外, 本文擬根據(jù)擾動量檢測目標干擾信息, 調(diào)節(jié)字典更新頻率, 實現(xiàn)周期性且自適應的增量字典更新方法, 以增強跟蹤模型對目標外觀和背景變化的適應性.
圖1為局部加權(quán)和增量字典更新的跟蹤方法主流程圖.首先構(gòu)建第1幀目標的局部外觀模型, 將首幀目標劃分為多個局部塊, 圍繞局部塊中心分別進行采樣, 構(gòu)建每個局部塊的判別字典矩陣.然后在后續(xù)幀跟蹤過程中進行搜索區(qū)域采樣, 用局部塊的子字典分別對候選樣本局部進行稀疏分解, 得到的稀疏系數(shù)用于度量樣本局部的相似性, 再結(jié)合權(quán)重和重構(gòu)誤差定位最佳候選樣本, 并以周期且增量式的方式自適應地更新原有子字典.
圖1 局部加權(quán)和增量字典更新的跟蹤方法主流程圖
圖2 基于加權(quán)重構(gòu)誤差的最佳樣本選擇過程
本文選擇4個相關(guān)的跟蹤方法進行比較, 分別為: L1-APG[7](基于全局特征、稀疏表示、模型更新的生成模型), ASLA[12](基于局部特征、稀疏表示、模型更新的生成模型), TLD[13](基于局部特征、密集采樣、模型更新的判別模型), CT[14](基于全局特征、稀疏表示、模型更新的判別模型).本文采用的OTB100數(shù)據(jù)集[15]為目標跟蹤測試的標準數(shù)據(jù)集之一, 由100個全標注視頻組成, 包括光照變化、遮擋、快速運動等11種視頻場景挑戰(zhàn).試驗軟硬件環(huán)境為: CPU為Intel(R)Core(TM) i5-3337U-1.8GHz, 內(nèi)存12 GB, 開發(fā)工具為MATLAB R2017a.
中心位置誤差是預測目標與真實目標中心位置之間的像素距離, 誤差越小效果越好; 重疊率是預測跟蹤框和真實目標框的面積交并比, 重疊率越高效果越好.表1和表2分別顯示了不同方法在10個視頻序列中的平均中心誤差和平均重疊率情況.本文采用局部加權(quán)和模型更新的方法記為LW-DU(基于局部特征、稀疏表示和判別模型), 采用局部加權(quán)而模型不更新的方法記為LW, 采用模型更新而局部不加權(quán)的方法記為DU.表1和表2的數(shù)據(jù)顯示, LW-DU方法在平均中心誤差平均值和重疊率最優(yōu)頻數(shù)上都明顯優(yōu)于其他方法.
表1 不同方法在各視頻上的平均中心誤差
1) 消融分析.如表1所示, 對于同樣采用更新判別式稀疏表示模型的LW-DU和CT, 采用局部特征的LW-DU優(yōu)于采用全局特征的CT, 說明判別式字典模型采用局部特征取得更好的效果.LW-DU在典型的遮擋序列walking2、basketball和david3中表現(xiàn)明顯優(yōu)于DU, 說明局部加權(quán)在目標遮擋場景中具有重要作用.表2顯示了各方法在不同視頻中的跟蹤平均重疊率, 在目標形變和背景干擾的序列Skater、basketball、david2中, LW-DU的重疊率比LW顯著提高, 表明字典更新方法可以有效提高跟蹤方法在目標形變和背景干擾中的性能.
2) 中心位置誤差比較.表1顯示了不同方法跟蹤結(jié)果的中心位置誤差, CT方法和TLD方法的跟蹤誤差較大,目標表征能力弱, 但運行速率最快(分別是61.1和28.1幀·s-1); ASLA方法和L1-APG方法的運行效率較好, 跟蹤速率最慢.本文提出的LW-DU方法的中心誤差最小、跟蹤效果最好, 其跟蹤速率較慢主要是受稀疏分解計算量較大的影響.
3) 重疊率比較.表2中, 頻數(shù)最大的前三種方法中, LW-DU和ASLA都采用了局部稀疏表示, 而本文提出的LW-DU最優(yōu)頻數(shù)為7, 明顯優(yōu)于ASLA, 說明采用局部加權(quán)能夠顯著提高跟蹤性能.
表2 不同方法在各視頻上的平均重疊率
為了比較各方法在不同精度要求下的跟蹤性能, 統(tǒng)計不同方法在試驗中所有視頻幀的中心位置誤差和重疊率, 得到各方法在不同閾值條件下的總體精度圖, 如圖3所示.其中, 精度值為中心位置誤差小于閾值的視頻幀數(shù)與總幀數(shù)的比值, 重疊成功率值為重疊率大于閾值的視頻幀數(shù)與總幀數(shù)的比值.由圖3(a)可知, LW-DU方法的精度值在1~5像素的閾值段低于同為稀疏表示模型的ASLA和L1APG, 但在10~50像素的閾值段明顯高于其他方法, 跟蹤性能優(yōu)越性明顯.圖3(b)的重疊成功率曲線顯示, LW-DU方法明顯高于的局部稀疏跟蹤方法ASLA, 在閾值為0處, 該方法成功率接近1, 說明LW-DU方法極少出現(xiàn)丟失目標的情況.
圖3 試驗總體的精度(a)和重疊成功率(b)
圖4展示了各方法在典型視頻中的跟蹤畫面和視頻跟蹤時中心位置誤差的變化曲線.如圖4(a)所示, 視頻序列walking2中, 目標在第188幀出現(xiàn)尺度變化, 240幀時目標被遮擋.圖4(b)的中心誤差曲線顯示從第200幀開始, 不同方法的跟蹤結(jié)果出現(xiàn)明顯差異, 非尺度自適應的方法TLD、CT、ASLA丟失目標, 產(chǎn)生漂移現(xiàn)象(見圖4(a)第429幀), 只有本文LW-DU和尺度適應的LI-APG方法目標跟蹤成功.
如圖4(c)所示, 視頻序列faceocc1中的目標在較長時間內(nèi)被大范圍遮擋, 805幀處只有LW-DU方法能正確跟蹤目標, 其他方法都出現(xiàn)不同程度的跟蹤偏移, 體現(xiàn)出本文自適應增量更新的有效性.圖4(d)中心誤差曲線顯示, 在800幀附近, 不同方法結(jié)果有明顯差異.模型更新容易引入非目標信息, 進而影響后續(xù)跟蹤效果.
圖4(e)視頻序列basketball中, 目標在第468和490幀中均出現(xiàn)相似物體的背景干擾, 圖4(f)的中心誤差曲線顯示不同方法的跟蹤結(jié)果差別很大, 尤其是在200幀以后, 其他方法跟蹤結(jié)果的誤差值均較高, 而LW-DU方法始終能正確跟蹤目標, 在背景明顯變化的情況下仍保持良好跟蹤性能.
圖4(g)視頻序列david3中, 背景雜亂, 會出現(xiàn)目標被樹木完全遮擋的情況.圖4(h)的中心誤差曲線顯示不同方法從80幀開始出現(xiàn)較明顯的差異.TLD方法在第80幀, 由于車輛背景干擾而丟失了跟蹤目標; 在155幀, 除LW-DU方法外, 其余方法均丟失了目標; 在252幀, 目標折返運動, ASLA、L1-APG、TLD方法均無法識別, 這是因為丟失目標后更新模型引入錯誤信息而發(fā)生了退行變化.
圖4 各方法的跟蹤畫面及其中心位置誤差的變化曲線
本文從局部目標外觀表示出發(fā), 提出一種基于局部加權(quán)和增量字典更新的目標跟蹤方法.先將目標分割為4個局部塊, 并分別構(gòu)建子字典; 然后在后續(xù)幀中搜索區(qū)域樣本劃分局部塊, 通過相應的子字典分解得到稀疏系數(shù),并據(jù)此進行相似性度量,以縮小跟蹤樣本范圍;最后根據(jù)稀疏系數(shù)計算局部塊的擾動量,得到局部塊權(quán)重,再結(jié)合局部重構(gòu)誤差進行樣本特征選擇,提高目標跟蹤的準確性和穩(wěn)定性.此外,根據(jù)擾動量還可檢測目標遮擋或偏移等情況,用以調(diào)節(jié)字典更新頻率,實現(xiàn)字典的自適應增量更新,以應對目標外觀變化.在OTB100數(shù)據(jù)集上的對比試驗結(jié)果顯示,本文方法能有效處理目標遮擋、姿態(tài)變化和背景雜亂的視頻跟蹤場景,具有良好的跟蹤性能.在未來工作中將進一步完善目標的深度特征提取方法,構(gòu)造融合目標傳統(tǒng)特征和深度特征的跟蹤模型.