王 奇,王錄濤,江 山,文成江
(成都信息工程大學(xué) 計(jì)算機(jī)學(xué)院,成都 610225)
目標(biāo)跟蹤是一個(gè)只給予初始狀態(tài)來評(píng)估一個(gè)目標(biāo)在一段視頻中軌跡位置的問題,在現(xiàn)實(shí)生活中有很多應(yīng)用,比如汽車自動(dòng)駕駛,軍事上的反導(dǎo)系統(tǒng)等[1],但是這個(gè)問題十分復(fù)雜,因?yàn)樵诰€學(xué)習(xí)目標(biāo)外觀模型時(shí)訓(xùn)練數(shù)據(jù)獲得受到限制(僅有第一幀的目標(biāo)信息)[2],現(xiàn)有的方法幾乎都依賴特征表現(xiàn)來處理這個(gè)問題,而在深度特征廣泛應(yīng)用之前,手工特征(淺層特征)的特征表現(xiàn)是處理上述問題的主流方法[3],雖然手工特征在準(zhǔn)確性上表現(xiàn)優(yōu)秀,但其在復(fù)雜場(chǎng)景中的魯棒性較差。隨著深度神經(jīng)網(wǎng)絡(luò)(convolutional neural networks)CNN的發(fā)展,研究人員發(fā)現(xiàn)深度特征相較于淺層特征具有編碼高層信息的能力,所以現(xiàn)今深度特征也被用于處理上述問題并且提升跟蹤算法魯棒性。
我們通過對(duì)本文基準(zhǔn)算法ECO及ECO-HC(手工特征ECO算法)代碼和結(jié)果的分析,在用同一環(huán)境下運(yùn)行具有各種挑戰(zhàn)因素的數(shù)據(jù)集,采用深度特征的ECO并不比采用手工特征的ECO-HC效果好,原因可能是網(wǎng)絡(luò)模型的深度不夠并且沒有選擇適合特征表現(xiàn)的參數(shù)。如果我們能夠在原有淺層特征和參數(shù)的基礎(chǔ)上加入合適的深度網(wǎng)絡(luò)和參數(shù),那么算法的魯棒性能獲得一定提升,這是本文所要探討的內(nèi)容。
目標(biāo)跟蹤算法現(xiàn)今大致可分為三類,基于生成式模型的方法,基于判別式模型的方法和基于深度學(xué)習(xí)的方法[4]。生成式模型提取目標(biāo)特征構(gòu)建表觀模型,在圖像中搜索與模型最匹配的區(qū)域作為跟蹤結(jié)果;與生成式模型不同的是,判別式模型同時(shí)考慮了目標(biāo)和背景信息。判別式模型將跟蹤問題看做分類或者回歸問題,目的是尋找一個(gè)判別函數(shù),將目標(biāo)從背景中分離出來,從而實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤;基于深度學(xué)習(xí)的目標(biāo)跟蹤方法主要是利用深度特征強(qiáng)大的表征能力來實(shí)現(xiàn)跟蹤。按照利用深度特征的方式,可分為基于預(yù)訓(xùn)練深度特征的跟蹤和基于離線訓(xùn)練特征的跟蹤。本文是相關(guān)濾波類的跟蹤方法,是典型的基于回歸判別模型的跟蹤算法。
相關(guān)濾波類的跟蹤算法已經(jīng)發(fā)展到比較成熟的階段,最初的MOSSE[5]的基本思想是:越是相似的兩個(gè)目標(biāo)相關(guān)值越大,也就是視頻幀中與初始化目標(biāo)越相似,得到的響應(yīng)也就越大,MOSSE算法的跟蹤效果不好,但是開辟了新的道路來研究目標(biāo)跟蹤;后來極為成功的C-COT[6]提出了將不同分辨率的特征圖通過插值操作擴(kuò)展到同一周期的連續(xù)空間域,再應(yīng)用Hessian矩陣可以求得亞像素精度的目標(biāo)位置,還解決了在連續(xù)空間域進(jìn)行訓(xùn)練的問題,但是由于計(jì)算量增大,C-COT算法的運(yùn)行速度十分緩慢;C-COT的后作,ECO旨在解決前身的速度慢的問題[1],在解決速度問題的同時(shí)兼顧提升了跟蹤效果,ECO算法沒有區(qū)別的使用淺層特征和深度特征,在復(fù)雜環(huán)境中不能穩(wěn)定的跟蹤目標(biāo);之后的UPDT[7]算法提出了區(qū)別的處理深度特征和淺層特征來提升跟蹤效果,但是UPDT算法采用的網(wǎng)絡(luò)模型深度不夠,雖然在跟蹤效果相比ECO有了提升,但是在復(fù)雜場(chǎng)景的跟蹤魯棒性未能完全領(lǐng)先[8-9];同年的MFT[10]算法采用了和UPDT類似的方法,并且引用了兩個(gè)深度網(wǎng)絡(luò)來提升跟蹤效果,MFT和UPDT存在同樣的問題,網(wǎng)絡(luò)深度不夠?qū)е赂欞敯粜晕茨芨M(jìn)一步。怎樣提高算法魯棒性,這是目前目標(biāo)跟蹤領(lǐng)域研究的熱點(diǎn)。
目標(biāo)跟蹤中很重要的兩個(gè)標(biāo)準(zhǔn),即準(zhǔn)確性(accuracy)和魯棒性(robustness),準(zhǔn)確性就是測(cè)量在跟蹤過程中對(duì)目標(biāo)定位的精度,魯棒性則是跟蹤器在挑戰(zhàn)性場(chǎng)景中的故障恢復(fù)能力,換而言之,魯棒性就是測(cè)量目標(biāo)被準(zhǔn)確定位的頻率。在過往的目標(biāo)跟蹤發(fā)展中,淺度特征被認(rèn)為在處理跟蹤準(zhǔn)確性上有很大作用,而深度特征則在魯棒性上作用明顯,這由它們的特性決定。
深度特征主要是CNN的高層特征[11],優(yōu)點(diǎn)是包含高層語義,對(duì)旋轉(zhuǎn)和變形等外觀變化具有不變性,基本是任何時(shí)間任何空間都能找到目標(biāo),也就是上文提到的魯棒性很好;但缺點(diǎn)也很明顯,即空間分辨率低,對(duì)平移和尺度存在不變性,無法精確定位目標(biāo),會(huì)造成目標(biāo)漂移和跟蹤失敗,即準(zhǔn)確性很差[12]。
淺層特征主要是顏色特征(RGB,red-green-blue),方向梯度直方圖(HOG,histogram of oriented gradient),顏色名(CN,color name),和CNN的底層特征。優(yōu)點(diǎn)主要是包含紋理信息和顏色信息,空間分辨率高,適合高精度定位目標(biāo),即準(zhǔn)確性很高;但是不變性很差,目標(biāo)只要稍微形變就不能識(shí)別,尤其對(duì)旋轉(zhuǎn)十分敏感,也就是魯棒性很差。
圖1是OTB-2015視頻序列CarScale運(yùn)行是的截圖,我們選取的是幾個(gè)代表性場(chǎng)景幀,93幀是目標(biāo)在相對(duì)良好的背景下運(yùn)動(dòng)的狀態(tài),而161幀是在復(fù)雜場(chǎng)景運(yùn)動(dòng)的狀態(tài),190幀脫離復(fù)雜場(chǎng)景的狀態(tài)。
圖1 CarScale視頻序列在場(chǎng)景中效果框圖
對(duì)于圖1,我們用更加直觀的特征通道響應(yīng)值圖(由于各個(gè)特征分辨率不同,現(xiàn)在的算法都將不同分辨率插值處理,表現(xiàn)為不同的分辨率對(duì)應(yīng)不同的通道,深層特征和淺層特征處于不同通道,可用Matlab提取作圖)來反映深度特征(圖2第一列)和淺層特征(圖2第二列)的在此過程的受影響而產(chǎn)生的變化[13]。首先,圖2(a)對(duì)應(yīng)圖1第93幀,圖中目標(biāo)還沒有進(jìn)入復(fù)雜背景的區(qū)域,深層特征最大波峰顯著高于其余波峰,周圍環(huán)境噪聲雖然也產(chǎn)生影響,但不明顯;而(b)圖(也為93幀的時(shí)候)顯示淺層特征波峰明顯,周圍幾乎沒有噪聲影響;(c)圖對(duì)應(yīng)圖1第161幀,當(dāng)目標(biāo)進(jìn)入復(fù)雜背景區(qū)域后,深層特征周圍噪聲明顯增加,但是目標(biāo)產(chǎn)生的波峰依舊十分明顯;(d)(也為161幀)圖顯示此時(shí)淺層特征明顯受環(huán)境干擾,目標(biāo)波峰周圍出現(xiàn)明顯的噪聲;(e)圖(對(duì)應(yīng)圖1第190幀)顯示目標(biāo)脫離背景復(fù)雜區(qū)域后,從坐標(biāo)軸數(shù)據(jù)看深層特征波峰恢復(fù)并且超越之前的水平,(f)圖對(duì)應(yīng)淺層特征峰值則并未恢復(fù)到之前水平。對(duì)此我們得出結(jié)論,淺層特征在背景環(huán)境復(fù)雜時(shí)受影響較大,深層特征受影響則相對(duì)較?。簧顚犹卣骰謴?fù)能力較強(qiáng),但是淺層特征在無明顯干擾的環(huán)境下精度較高,即深層特征魯棒性較高(穩(wěn)健性),淺層特征準(zhǔn)確性較高[14]。
圖2 特征通道響應(yīng)值對(duì)比圖
圖3(a)是視頻序列Basketball的第一幀圖像,我們把它作為原始圖像來進(jìn)行分析,(b)圖對(duì)應(yīng)HOG特征圖,HOG特征對(duì)應(yīng)的特征圖紋理比較明顯,圖像中目標(biāo)的輪廓大致清晰,這也對(duì)應(yīng)了上面我們提到的淺層特征空間分辨率高,包含紋理信息和顏色信息,對(duì)目標(biāo)定位的精度高,準(zhǔn)確性好。(c)圖對(duì)應(yīng)的是CNN的高層特征圖,在第一行單位已經(jīng)到了千分之一的級(jí)別,目標(biāo)在圖中已經(jīng)凝聚成塊狀,輪廓不明顯,但是它將目標(biāo)的范圍縮小了,雖然分辨率不高,但是不易受環(huán)境干擾而且層次更深,這是魯棒性高的表現(xiàn)。(d)圖對(duì)應(yīng)的是CNN的底層特征,與CNN的高層特征相比,底層特征圖紋理更加明顯,目標(biāo)反映成點(diǎn)狀,精度更高;但是和HOG特征相比,其沒有HOG特征在處理光照,紋理信息方面優(yōu)秀[15]。
圖3 原始圖和ECO特征可視化圖
ECO采用了VGGNet[16]網(wǎng)絡(luò)模型,雖然取得了不錯(cuò)的跟蹤效果,但是由于深度的限制無法對(duì)復(fù)雜的場(chǎng)景進(jìn)行更進(jìn)一步的分析,所以在面對(duì)一些復(fù)雜的場(chǎng)景時(shí)會(huì)出現(xiàn)效果變差或者丟失目標(biāo)的情況,也即魯棒性(穩(wěn)健性)不夠。對(duì)于此問題我們首先想到了層次更深的網(wǎng)絡(luò)模型ResNet-50[17]和ResNet-101[17]。表1顯示3個(gè)網(wǎng)絡(luò)模型各自的層數(shù)和在官方驗(yàn)證錯(cuò)誤率。
表1 3個(gè)網(wǎng)絡(luò)模型對(duì)比表
ECO之后的跟蹤算法普遍都采用了層次更深的ResNet-50網(wǎng)絡(luò)模型來提升跟蹤效果,我們則測(cè)試了更深層次的ResNet-101網(wǎng)絡(luò)模型,當(dāng)我們單純把ResNet-101應(yīng)用到ECO算法上時(shí)發(fā)現(xiàn)效果不佳甚至不如之前的表現(xiàn),圖4是單純將不同網(wǎng)絡(luò)(ResNet-50,ResNet-101)應(yīng)用到算法中的效果圖(圖4、圖5都采用目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)庫OTB-2015的SRE指標(biāo)來做驗(yàn)證,SRE是空間魯棒性評(píng)估,滿足我們魯棒性評(píng)估的要求,我們選用的視頻序列都是第三章中OTB-2015滿足4種挑戰(zhàn)的視頻序列)。
圖4 只修改兩種網(wǎng)絡(luò)效果圖
圖5 修改σ后和之前對(duì)比圖
表2單純對(duì)比更改網(wǎng)絡(luò)和參數(shù)在OTB-2015中的AUC(area under curve)分值(AUC為成功率圖的曲線下面積,分值越高效果越好),它證實(shí)了單純修改網(wǎng)絡(luò)和單獨(dú)修改參數(shù)σ無法提高跟蹤效果,必須從以上兩個(gè)方面進(jìn)行改進(jìn)。
表2 各種修改后測(cè)試的AUC分值
表3 各種修改后測(cè)試的AUC分值
我們將原本的σ由單個(gè)參數(shù)修改為一個(gè)參數(shù)集,這個(gè)參數(shù)集既適宜深度特征發(fā)揮作用也能夠使原本的淺層特征發(fā)揮作用。
變換為:
計(jì)算過程中在利用手工特征時(shí),會(huì)調(diào)用σ數(shù)組的第二個(gè)元素;在運(yùn)用深度特征時(shí),會(huì)調(diào)用σ2數(shù)組的第一個(gè)元素,達(dá)到最好的魯棒性效果。
ECO采用高斯函數(shù)中的高斯混合模型(GMM),這也是我們修改參數(shù)σ所起作用的地方。單高斯模型中,一維數(shù)據(jù):
(1)
樣本多維時(shí),∑為協(xié)方差,u為數(shù)據(jù)均值,D為數(shù)據(jù)維度,σ在參與了協(xié)方差的計(jì)算,用來給定正負(fù)樣本比例:
(2)
混合模型中:
(3)
在此參數(shù)θ由每個(gè)子模型的期望、方差(或協(xié)方差)、在混合模型中發(fā)生的概率組成,我們修改的參數(shù)σ表示為協(xié)方差。在ECO中則是表現(xiàn)在對(duì)式(4)y值的影響,即對(duì)特征通道響應(yīng)值的影響,式(4)中σ是我們修改的參數(shù)集,u∈[0,t)是目標(biāo)估計(jì)的位置,y是以u(píng)為中心的高斯函數(shù)е(-(t-u)2/2σ2)的周期重復(fù)。
(4)
而y在ECO中參與期望E的運(yùn)算。
(5)
式中,期望E是對(duì)聯(lián)合樣本的值分布的評(píng)估,Sf{X}是對(duì)目標(biāo)檢測(cè)的分值,Y是對(duì)樣本的標(biāo)記檢測(cè)分值。W表示權(quán)重,fd表示多通道卷積濾波器,L表示高斯組件的數(shù)量。
基于目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)庫OTB-2015,采用SRE(空間魯棒評(píng)估)的指標(biāo)進(jìn)行評(píng)測(cè)[18],由于驗(yàn)證算法魯棒性的需要,我們選取Liquor,Dudek,Lemming這幾個(gè)測(cè)試視頻序列,這幾個(gè)視頻序列包含我們用于評(píng)測(cè)的4種挑戰(zhàn)因素(背景雜波(BC),尺度變化(SV),光照變化(IV),低分辨率(LR))。我們選取的都是各個(gè)視頻序列具有代表性的幀,它們可以很好的代表我們想測(cè)試的4種挑戰(zhàn)因素。參與比較的3種算法分別是ECO,ECO-HC,我們改進(jìn)的算法(命名為OURS),分別采用不同的曲線代表,即直線,虛線和點(diǎn)線,這可以很好的區(qū)分圖中的3種算法,使比較結(jié)果更加清晰。ECO是我們的基準(zhǔn)算法,ECO-HC使手工特征的ECO版本,和他們對(duì)比可以體現(xiàn)出我們改進(jìn)算法在效果方面的提升。
由圖6的幾張效果評(píng)測(cè)圖可以看出,在以上4種挑戰(zhàn)因素的場(chǎng)景中,我們的算法始終能定位目標(biāo),與我們改進(jìn)算法相對(duì)比的基準(zhǔn)算法出現(xiàn)了不能穩(wěn)定跟蹤甚至丟失目標(biāo)的情況,具體來說,3種算法的定位框清晰的顯示,在上圖所展示的挑戰(zhàn)因素中,我們的改進(jìn)算法的定位框始終能將目標(biāo)大體包裹,而其他兩種對(duì)比算法出現(xiàn)了包裹部分減小甚至完全未包裹目標(biāo),這在實(shí)際應(yīng)用中就已經(jīng)丟失了目標(biāo)。在場(chǎng)景不太復(fù)雜的情況下,如圖6第二行兩幅圖,雖然另外兩種算法也可以對(duì)目標(biāo)進(jìn)行有效的跟蹤,定位框也基本能包裹目標(biāo),但是我們改進(jìn)的算法定位更加精準(zhǔn),表現(xiàn)在定位框能夠完全的包裹目標(biāo)。此定性分析說明我們改進(jìn)的算法對(duì)比基準(zhǔn)算法魯棒性有所提升,在幾種挑戰(zhàn)因素的場(chǎng)景中比基準(zhǔn)算法的跟蹤效果和穩(wěn)定性更好。
圖6 算法定性效果評(píng)測(cè)
OTB-2015擁有100個(gè)視頻序列,包含12個(gè)挑戰(zhàn)因素[19],每個(gè)視頻序列可以用于驗(yàn)證一個(gè)或者多個(gè)挑戰(zhàn)因素。OTB-2015是目標(biāo)跟蹤領(lǐng)域應(yīng)用廣泛的基準(zhǔn)數(shù)據(jù)庫,幾乎所有最新提出的算法都會(huì)放在該數(shù)據(jù)庫上進(jìn)行評(píng)測(cè),評(píng)測(cè)結(jié)果會(huì)作為算法效果的重要參照,OTB-2015也是十分科學(xué)的平臺(tái),在該平臺(tái)的評(píng)測(cè)數(shù)據(jù)基本能夠反映一個(gè)算法的可行性,對(duì)此我們改進(jìn)算法選擇在OTB-2015標(biāo)準(zhǔn)數(shù)據(jù)庫評(píng)測(cè)。圖8在低分辨率,背景雜波,光照變化,尺度變化用成功率(Success plots)曲線作了對(duì)比,表4列舉了除以上我們演示的挑戰(zhàn)因素外OTB-2015中在各個(gè)挑戰(zhàn)因素具有代表性的4個(gè)視頻序列,這也是用于驗(yàn)證我們算法的一部分視頻序列。
表4 各種挑戰(zhàn)因素驗(yàn)證視頻序列
圖7是我們改進(jìn)算法在OTB-2015中選取包括表4中驗(yàn)證序列的運(yùn)行結(jié)果。
圖7 算法定量分析效果評(píng)測(cè)
我們將數(shù)據(jù)以表格的形式展示(只對(duì)比OURS,ECO,ECO-HC),從表5我們可以更直觀地看到,我們改進(jìn)的算法在這4種挑戰(zhàn)因素中表現(xiàn)比基準(zhǔn)算法有所提高。
表5 實(shí)驗(yàn)結(jié)果定量分析表格
我們的方法在這幾種挑戰(zhàn)因素的魯棒性測(cè)試中略優(yōu)于ECO與ECO-HC,對(duì)此我們對(duì)這幾種挑戰(zhàn)因素[20]的視頻序列分析發(fā)現(xiàn):
1)低分辨率(LR)[19]的視頻序列目標(biāo)都比較小而且圖像相對(duì)模糊,這種情況底層特征的作用就會(huì)被減弱,層次不夠深的網(wǎng)絡(luò)模型也會(huì)處理困難,但是我們的方法涉及的網(wǎng)絡(luò)模型層次足夠,這也是為什么我們的方法在評(píng)分上領(lǐng)先ECO-HC和ECO大約0.1的原因。
2)背景雜波(BC)[19]的視頻序列大多都有相同物體的干擾或者圖片的背景信息豐富,這會(huì)導(dǎo)致淺層特征在紋理,背景信息處理出現(xiàn)困難,但是深層特征可以很好的應(yīng)對(duì)這種狀況。在數(shù)據(jù)上,我們的方法領(lǐng)先ECO大約0.03分值,領(lǐng)先ECO-HC大約0.075。
3)測(cè)試光照變化(IV)[19]的視頻序列基本都是圖像光線較暗或者黑夜環(huán)境,我們對(duì)底層特征參數(shù)的應(yīng)用對(duì)這種情況起到了作用,底層特征對(duì)光流信息比較敏感,但是對(duì)比ECO-HC我們還多了CNN的底層特征,這是我們改進(jìn)算法優(yōu)于ECO和ECO-HC的原因。
4)測(cè)試尺度變化(SV)[19]場(chǎng)景的視頻序列大多有一個(gè)共同點(diǎn),那就是目標(biāo)會(huì)由遠(yuǎn)及近,尺寸會(huì)存在變化,這是深度特征和淺層特征共同起作用的地方,目標(biāo)尺寸小的時(shí)候會(huì)很模糊,這就依賴于深度特征來實(shí)現(xiàn)定位目標(biāo),在目標(biāo)尺寸變大的時(shí)候,淺層特征可以較好處理目標(biāo)的邊界和形狀信息。所以在數(shù)據(jù)上我們的方法領(lǐng)先ECO大約0.02。
本文旨在提升跟蹤算法的魯棒性(穩(wěn)健性)用以提升跟蹤算法在復(fù)雜環(huán)境中跟蹤目標(biāo)的能力,同時(shí)我們對(duì)算法原有的準(zhǔn)確性也有一定提升,我們不僅采用了目前深度較深的ResNet-101網(wǎng)絡(luò)模型,而且也設(shè)置了適宜此網(wǎng)絡(luò)模型的σ參數(shù),我們還保持了ECO-HC原有的σ參數(shù)來延續(xù)淺層特征跟蹤過程中對(duì)準(zhǔn)確性所起的作用。我們的方法在OTB-2015基準(zhǔn)數(shù)據(jù)庫中效果相比原算法有所進(jìn)步。深層次網(wǎng)絡(luò)訓(xùn)練需要采用數(shù)據(jù)增強(qiáng),數(shù)據(jù)增強(qiáng)可以在不采用巨大樣本集的前提下提供深度網(wǎng)絡(luò)更多的樣本,通過翻轉(zhuǎn),平移等方法。在深層特征的選用上,更深層次的網(wǎng)絡(luò)已經(jīng)存在,如果運(yùn)用ResNet-152或者更深層次的Inception-ResNetV2網(wǎng)絡(luò)模型可能會(huì)取得更好的效果,即隨著網(wǎng)絡(luò)層次深度變化,跟蹤算法或許會(huì)取得更加優(yōu)秀的成果,但是隨著網(wǎng)絡(luò)模型深度的增加,跟蹤算法的運(yùn)行時(shí)間也會(huì)隨之增加,這是因?yàn)樯疃仍缴畹木W(wǎng)絡(luò)模型越需要大量的樣本,而從大量樣本中提取特征會(huì)增加運(yùn)行時(shí)間。如何把運(yùn)行速度提高以縮短運(yùn)行時(shí)間,這是我們今后的研究要解決的問題。
在ECO算法中我們就發(fā)現(xiàn)傳統(tǒng)的跟蹤算法很多都是只在第一幀學(xué)習(xí),然后將學(xué)習(xí)的結(jié)果在后面許多幀保持并利用,這種方式在復(fù)雜環(huán)境中很難保證跟蹤質(zhì)量[21]。如果在復(fù)雜的環(huán)境中除了目標(biāo)還有與目標(biāo)類型相似的物體,那么跟蹤效果往往會(huì)很差甚至丟失目標(biāo)?,F(xiàn)在已有研究者提出了能夠部分處理此問題的方法,但是效果還未在正式的平臺(tái)展示,將他們的研究和我們的發(fā)現(xiàn)結(jié)合,我們大致得出結(jié)論,如果我們?cè)诘谝粠瑢W(xué)習(xí)并且逐幀采集背景信息不斷向后面幀傳播我們收集的信息或許對(duì)解決上述問題有所幫助[22-23],這也是我們今后進(jìn)一步研究的另一個(gè)方向。