張博言,鐘 勇
(1.中國(guó)科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610041; 2.中國(guó)科學(xué)院大學(xué),北京 100049)
智能移動(dòng)終端和互聯(lián)網(wǎng)的快速發(fā)展導(dǎo)致視頻數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),為了有效地分析和利用海量的視頻數(shù)據(jù),對(duì)連續(xù)視頻中指定的目標(biāo)對(duì)象進(jìn)行實(shí)時(shí)處理逐漸成為迫切需求.視頻目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域重要的研究方向之一,在基于海量視頻的目標(biāo)識(shí)別、安全監(jiān)控、遠(yuǎn)程醫(yī)療、無人機(jī)駕駛等場(chǎng)景中具有廣闊的應(yīng)用前景[1-3].
國(guó)內(nèi)外學(xué)者對(duì)基于視頻序列的目標(biāo)跟蹤開展了大量的研究;根據(jù)被處理對(duì)象,目標(biāo)跟蹤可分為多目標(biāo)跟蹤和單目標(biāo)跟蹤,前者主要關(guān)注多個(gè)目標(biāo)之間關(guān)聯(lián)性研究,而后者主要研究指定的單個(gè)目標(biāo)的運(yùn)動(dòng)狀態(tài);但二者面臨一些共同的難點(diǎn),例如:運(yùn)動(dòng)過程中目標(biāo)被遮擋、背景環(huán)境干擾以及光線強(qiáng)度變化等.針對(duì)單目標(biāo)跟蹤,一些具有代表性的方法被相繼提出;其中,基于檢測(cè)的跟蹤方法得到廣泛地應(yīng)用和研究,它將目標(biāo)跟蹤視為二分類問題,使用預(yù)訓(xùn)練的分類網(wǎng)絡(luò),對(duì)每幀視頻圖像中目標(biāo)物體和背景進(jìn)行區(qū)分,實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤表現(xiàn).在基于檢測(cè)的跟蹤方法中,準(zhǔn)確的目標(biāo)表征對(duì)跟蹤結(jié)果至關(guān)重要,一些人工設(shè)計(jì)的特征被用于視覺目標(biāo)跟蹤中;Henriques等提出了高速核化相關(guān)濾波器(Kernelized Correlation Filters,KCF)跟蹤算法[4],使用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征對(duì)目標(biāo)進(jìn)行表征,通過多通道快速擴(kuò)展使得相關(guān)濾波器對(duì)目標(biāo)特征進(jìn)行提取,快速確定目標(biāo)坐標(biāo)位置;但在目標(biāo)尺度快速變化的場(chǎng)景中表現(xiàn)并不理想.為了克服KCF中循環(huán)矩陣導(dǎo)致的邊界效應(yīng)問題,Danelljan等[5]對(duì)網(wǎng)絡(luò)代價(jià)函數(shù)施加空間正則化項(xiàng)以抑制背景區(qū)域響應(yīng),結(jié)合HOG特征、灰階(greyscale)特征以及顏色(Color Name,CN)特征對(duì)目標(biāo)物體進(jìn)行表征;在線更新過程中通過迭代高斯賽德爾(Gauss-Seidel)方法加速網(wǎng)絡(luò)收斂過程.陳東岳等提出了一種基于多特征的融合的跟蹤算法[6],使用BWH算法融合了照度不變性特征和基于LBP紋理特征,該算法對(duì)目標(biāo)被遮擋場(chǎng)景下有一定魯棒性,但未能對(duì)目標(biāo)框尺寸進(jìn)行自動(dòng)調(diào)節(jié),導(dǎo)致在目標(biāo)消失場(chǎng)景中表現(xiàn)不佳.
近年來,隨著深度卷積網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖像分類任務(wù)中取得了優(yōu)良的表現(xiàn)[7],深度學(xué)習(xí)逐漸被應(yīng)用于計(jì)算機(jī)視覺的各個(gè)領(lǐng)域[8-10];經(jīng)過大量數(shù)據(jù)訓(xùn)練后的CNN能夠自動(dòng)地提取物體的深度卷積特征,這些特征相比于人工選取的特征更具有通用性、判別性以及豐富的語義信息;因此,一些基于深度特征和CNN的跟蹤算法被相繼提出.Danelljan等使用深度卷積網(wǎng)絡(luò)第一層特征代替人工選取的HOG和CN特征[11],提升了網(wǎng)絡(luò)在跟蹤任務(wù)中的魯棒性.Wang等提出結(jié)構(gòu)化輸出的深度跟蹤網(wǎng)絡(luò)[12],通過離線訓(xùn)練的CNN預(yù)測(cè)視頻幀中像素概率圖以確定目標(biāo)位置,并對(duì)跟蹤網(wǎng)絡(luò)進(jìn)行定期微調(diào),提高算法在目標(biāo)旋轉(zhuǎn)、光照變化場(chǎng)景中的適應(yīng)性和魯棒性;上述基于CNN跟蹤算法取得較高的跟蹤準(zhǔn)確度,但網(wǎng)絡(luò)的在線更新增加了算法的計(jì)算復(fù)雜度;此外,單目標(biāo)跟蹤任務(wù)中,要求跟蹤算法根據(jù)初始幀中給定的運(yùn)動(dòng)物體在隨后每幀視頻中進(jìn)行唯一性匹配,由此可視為給定目標(biāo)模板尋找最大相似度圖像區(qū)域.基于上述思想,文獻(xiàn)[13-14]使用了孿生神經(jīng)網(wǎng)絡(luò)(Siamese Neural Network,SNN)作為跟蹤框架,該結(jié)構(gòu)由兩個(gè)特征映射子網(wǎng)絡(luò)構(gòu)成,通過度量學(xué)習(xí)衡量目標(biāo)模板與輸入樣本間特征的相似度關(guān)系;相比于基于CNN的跟蹤算法,基于SNN的跟蹤算法在未對(duì)目標(biāo)模板和網(wǎng)絡(luò)參數(shù)進(jìn)行在線更新的情況下,能夠取得準(zhǔn)確跟蹤精度,同時(shí)達(dá)到了實(shí)時(shí)的跟蹤速度.然而由于上述基于深度學(xué)習(xí)的跟蹤網(wǎng)絡(luò)訓(xùn)練通常以全監(jiān)督的方式進(jìn)行,在訓(xùn)練過程中需要海量的標(biāo)簽數(shù)據(jù),因此在有限的數(shù)據(jù)集中,網(wǎng)絡(luò)易發(fā)生過擬合現(xiàn)象而導(dǎo)致目標(biāo)漂移;部分學(xué)者基于大規(guī)模數(shù)據(jù)集,采用密集采樣策略生成大量訓(xùn)練樣本(圖1);但獲得的樣本缺乏多樣性,并未涵蓋跟蹤過程中目標(biāo)物體受遮擋以及形變情況,無法對(duì)目標(biāo)變化進(jìn)行準(zhǔn)確表征.
圖1 密集采樣策略示例
綜上所述,為了緩解基于深度學(xué)習(xí)的目標(biāo)跟蹤算法訓(xùn)練數(shù)據(jù)不足以及樣本缺乏多樣性,跟蹤缺乏實(shí)時(shí)性的問題,本文基于SNN跟蹤算法,對(duì)離線訓(xùn)練數(shù)據(jù)和訓(xùn)練方式提出改進(jìn),同時(shí)提高了跟蹤算法的實(shí)時(shí)性. 基于大規(guī)模數(shù)據(jù)集,首先使用無監(jiān)督學(xué)習(xí)的變分自編碼器(Variational Autoencoder,VAE)和負(fù)樣本挖掘策略生成大量的困難樣本,以滿足網(wǎng)絡(luò)對(duì)多樣性訓(xùn)練數(shù)據(jù)的需求;然后使用概率三元組損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,挖掘目標(biāo)模板、正負(fù)樣本之間的潛在關(guān)系;對(duì)比實(shí)驗(yàn)表明:該算法在保持實(shí)時(shí)性的情況下,能夠?qū)Ω欉^程中目標(biāo)形態(tài)變化、相似語義干擾物、目標(biāo)被遮擋情況以及快速運(yùn)動(dòng)導(dǎo)致的圖像模糊有較好的魯棒性.
Bertinetto等結(jié)合CNN提出了一種端到端的全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese Networks,SiamFC)跟蹤框架[13],網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖2所示. 該網(wǎng)絡(luò)利用兩個(gè)CNN構(gòu)建特征映射網(wǎng)絡(luò),分別提取模板和搜索區(qū)域深度卷積特征;然后在互相關(guān)層集成目標(biāo)和搜索區(qū)域的深度特征圖得到相似度分?jǐn)?shù)圖,圖中最大分?jǐn)?shù)值的區(qū)域?yàn)槟繕?biāo)當(dāng)前時(shí)刻的位置. 基于SNN的單目標(biāo)跟蹤網(wǎng)絡(luò)擁有輕量級(jí)網(wǎng)絡(luò)架構(gòu),因此能夠?qū)δ繕?biāo)物體進(jìn)行實(shí)時(shí)定位.在視頻第一幀時(shí),對(duì)目標(biāo)模板r進(jìn)行特征映射,生成并保存模板的特征向量f(r),該操作僅在初始幀時(shí)進(jìn)行;在跟蹤過程中,基于上一幀目標(biāo)狀態(tài),提出候選搜索窗口,并進(jìn)行特征映射.
圖2 基于SNN的單目標(biāo)跟蹤網(wǎng)絡(luò)架構(gòu)
得到搜索區(qū)域內(nèi)圖像特征向量f(xk),通過下式度量目標(biāo)模板和搜索窗口相似度分?jǐn)?shù)sk
sk(r,xk)=g(f(r),f(xk)).
(1)
式中f(·)為特征映射,g(·)為互相關(guān)操作.本文使用文獻(xiàn)[13]中互卷積計(jì)算二者相似度,由此式(1)可等效為
sk(r,xk)=f(r)·f(xk)+b.
(2)
式中:b為網(wǎng)絡(luò)偏置項(xiàng).上式得到相似度分?jǐn)?shù)矩陣中,通過下式取得最大分?jǐn)?shù)值的區(qū)域映射到視頻圖像中對(duì)應(yīng)區(qū)域,即為目標(biāo)物體在當(dāng)前時(shí)刻的位置x*
(3)
該算法對(duì)目標(biāo)快速運(yùn)動(dòng)場(chǎng)景有較好的魯棒性,對(duì)于網(wǎng)絡(luò)參數(shù)沒有進(jìn)行在線調(diào)整;相較于基于CNN跟蹤算法,SiamFC算法在跟蹤階段計(jì)算復(fù)雜度更低,達(dá)到了實(shí)時(shí)的跟蹤速度;但是由于使用固定尺度更新目標(biāo)框,導(dǎo)致對(duì)多尺度變化目標(biāo)的跟蹤準(zhǔn)確度略顯不足;并且在出現(xiàn)相似語義干擾項(xiàng)場(chǎng)景中常常出現(xiàn)目標(biāo)漂移的情況.
本文基于SiamFC跟蹤網(wǎng)絡(luò),針對(duì)該網(wǎng)絡(luò)離線訓(xùn)練過程進(jìn)行改進(jìn)及優(yōu)化,滿足SNN單目標(biāo)跟蹤網(wǎng)絡(luò)對(duì)訓(xùn)練樣本量需求同時(shí)提高網(wǎng)絡(luò)在線跟蹤時(shí)的魯棒性和跟蹤準(zhǔn)確度.首先,使用VAE網(wǎng)絡(luò)對(duì)訓(xùn)練圖片進(jìn)行降維編碼,通過在低維隱空間采樣重構(gòu)目標(biāo)樣本,生成大量包含多樣性的困難正樣本,構(gòu)建離線訓(xùn)練數(shù)據(jù)集;其次,將原始的二元邏輯損失替換為概率三元組損失函數(shù),挖掘目標(biāo)樣本和正負(fù)實(shí)例的潛在聯(lián)系,提高網(wǎng)絡(luò)對(duì)目標(biāo)和干擾項(xiàng)的判別能力.
在目標(biāo)跟蹤領(lǐng)域中,與測(cè)試數(shù)據(jù)擁有相同分布情況的訓(xùn)練數(shù)據(jù)集相對(duì)匱乏,因此樣本生成網(wǎng)絡(luò)被應(yīng)用于生成大量相似的樣本數(shù)據(jù);另外,由于基于SiamFC的跟蹤算法并未執(zhí)行網(wǎng)絡(luò)參數(shù)的在線更新,對(duì)于目標(biāo)的形態(tài)劇烈變化缺乏魯棒性,因此不增加額外時(shí)間開銷的情況下,本文在離線訓(xùn)練階段,通過深度生成網(wǎng)絡(luò)產(chǎn)生豐富的樣本數(shù)據(jù),使SiamFC跟蹤算法能夠獲得跟蹤任務(wù)中目標(biāo)的多樣性表征.
基于深度學(xué)習(xí)的生成網(wǎng)絡(luò)主要包含VAE[15]和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)[16]. 其中VAE算法能夠準(zhǔn)確地提取高維非線性樣本特征,在訓(xùn)練過程中實(shí)現(xiàn)對(duì)數(shù)據(jù)在樣本空間中隨機(jī)分布情況的近似學(xué)習(xí);因此VAE被廣泛應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域中,文獻(xiàn)[17]利用VAE網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行分析,通過對(duì)隱藏層中特征分布情況進(jìn)行采樣,生成輸入圖像的分類標(biāo)簽和標(biāo)題描述;Waker等提出了條件變分自編碼器(Conditional Variational Autoencoder,CVAE)[18]通過隱藏變量對(duì)圖像中信息進(jìn)行編碼,推斷靜態(tài)圖像中目標(biāo)物體可能的軌跡分布,預(yù)測(cè)目標(biāo)的運(yùn)動(dòng)趨勢(shì).
在跟蹤網(wǎng)絡(luò)訓(xùn)練過程中,由于圖像樣本均位于高維空間,因此通常通過在高維流形空間中沿一定方向?qū)δ繕?biāo)數(shù)據(jù)信息進(jìn)行遍歷以此生成樣本數(shù)據(jù),但高維流形建模復(fù)雜度較高,直接在高維流形空間上執(zhí)行遍歷操作較困難.因此在離線訓(xùn)練階段,本文使用VAE網(wǎng)絡(luò)能夠?qū)W習(xí)高維流形空間和低維空間即隱藏空間之間的特征映射關(guān)系和目標(biāo)樣本的流形分布情況,通過簡(jiǎn)化遍歷操作解碼重構(gòu)生成正樣本訓(xùn)練數(shù)據(jù);并且VAE網(wǎng)絡(luò)生成的數(shù)據(jù)樣本更加可控,能夠避免圖像失真情況,在保留原始樣本特征部分相似性的同時(shí),呈現(xiàn)出目標(biāo)樣本豐富的多樣性表征;生成的多樣性樣本涵蓋了跟蹤任務(wù)中目標(biāo)物體的變化趨勢(shì),能夠提升SiamFC跟蹤算法對(duì)運(yùn)動(dòng)過程中目標(biāo)變化的魯棒性.
文中VAE網(wǎng)絡(luò)架構(gòu)如圖3所示:首先從視頻圖像中截取目標(biāo)物體的RGB圖像作為網(wǎng)絡(luò)輸入,其尺寸大小為64×64×3,隨后經(jīng)過4層的卷積神經(jīng)網(wǎng)絡(luò)提取樣本特征激活值,每一層卷積都使用上一層輸出激活值作為本層的輸入,如下式
(4)
圖3 VAE網(wǎng)絡(luò)結(jié)構(gòu)
(5)
然而通過上式難以直接計(jì)算,VAE中可以通過使用變分構(gòu)建qφ(z|xi)近似pθ(z|xi),因此對(duì)該生成網(wǎng)絡(luò)的訓(xùn)練可視為最小化qφ(z|xi)和pθ(z|xi)兩者的距離,也即最大化每個(gè)訓(xùn)練樣本xi變分下界,定義為
L(xi,φ,θ)=-KL(qφ(z|xi)‖pθ(z))+
Eqφ(z|xi)[logpθ(xi|z)].
(6)
式中:pθ(z)為隱變量概率分布,φ和θ分別為隱空間變分參數(shù)和編碼解碼模塊參數(shù),等式右側(cè)第一部分表示計(jì)算qφ(z|xi)和pθ(z|xi)的KL散度(Kullback-Leibler Divergence),衡量二者分布相似情況,最后一項(xiàng)為關(guān)于近似后驗(yàn)qφ(z|xi)的期望重構(gòu)損失. 通過反向傳播算法最優(yōu)化式(6)以求得各參數(shù)權(quán)值,令pθ(z)和qφ(z|xi)服從高斯分布,便利網(wǎng)絡(luò)訓(xùn)練;因此,式(6)中KL散度項(xiàng)可解析表示為
(7)
式中:D為隱變量z的維度大小,均值μ和σ為網(wǎng)絡(luò)編碼部分關(guān)于輸入樣本xi和變分參數(shù)φ的輸出. 由于z為隱空間中隨機(jī)變量,為了實(shí)現(xiàn)反向傳播梯度優(yōu)化,對(duì)式(6)中重構(gòu)損失項(xiàng)使用重參數(shù)技巧(reparametrization trick),并將式(7)帶入式(6)中,代價(jià)函數(shù)可近似為
(8)
通過上述訓(xùn)練過程,VAE中參數(shù)φ、θ的權(quán)值以及qφ(z|xi)得以確定.利用上述預(yù)訓(xùn)練的VAE網(wǎng)絡(luò)生成多樣性正樣本數(shù)據(jù),部分生成結(jié)果在參數(shù)設(shè)置中進(jìn)行了展示;將正樣本數(shù)據(jù)集Zp={I1,…,Ii,…,IM}結(jié)合負(fù)樣本數(shù)據(jù)集Zn={O1,…,Oj,…,OH},構(gòu)建訓(xùn)練樣本數(shù)據(jù)集Z=Zp∪Zn訓(xùn)練目標(biāo)跟蹤網(wǎng)絡(luò).
文獻(xiàn)[13]中使用的二元邏輯損失函數(shù)僅利用了模板和樣本間聯(lián)系;本文利用概率三元組損失對(duì)跟蹤網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練,不僅可以進(jìn)一步挖掘范例、正實(shí)例和負(fù)實(shí)例之間的潛在關(guān)系,而且在每次訓(xùn)練迭代時(shí)包含了更多的訓(xùn)練元素.
2.2.1 二元邏輯損失
在原始的SiamFC目標(biāo)跟蹤網(wǎng)絡(luò)中,每段訓(xùn)練視頻二元邏輯損失函數(shù)定義為
(9)
式中:yt∈{+1,-1}為每個(gè)樣本的真實(shí)標(biāo)簽值,通過式(2)計(jì)算得到st∈S為每個(gè)模板-樣本對(duì)(r,xt)的相似度分?jǐn)?shù),wt為每個(gè)樣本實(shí)例xt的平衡權(quán)重,以保持不同數(shù)量正負(fù)樣本對(duì)損失函數(shù)擁有同樣的影響,其取值定義為
(10)
且滿足
∑xt∈Zwt=1,wt>0.
(11)
式(9)中每次迭代時(shí)輸入一個(gè)模板-樣本對(duì),因此每段訓(xùn)練視頻中,網(wǎng)絡(luò)損失由M+H個(gè)訓(xùn)練樣本損失構(gòu)成.
2.2.2 概率三元組損失
本文將所有模板-樣本對(duì)分?jǐn)?shù)S劃分為正樣本相似度分?jǐn)?shù)集Sp={sp1,…,spi,…,spM}和負(fù)樣本相似度分?jǐn)?shù)集Sn={sn1,…,snj,…,snH},分別使用模板-正樣本對(duì)(r,Zp)和模板-負(fù)樣本對(duì)(r,Zn)作為輸入利用式(2)求得.
將每組正負(fù)分?jǐn)?shù)對(duì)(spi,snj)作為輸入,通過softmax函數(shù)定義三元組樣本匹配概率
(12)
訓(xùn)練目的是最大化所有相似度分?jǐn)?shù)對(duì)組合的聯(lián)合概率,跟蹤網(wǎng)絡(luò)的損失函數(shù)定義如下
(13)
(14)
通過最小化上述損失函數(shù),得到跟蹤網(wǎng)絡(luò)中特征映射網(wǎng)絡(luò)的權(quán)值.由于式(12)中樣本匹配概率p(spi,snj)的計(jì)算同時(shí)涉及到模板r、正樣本數(shù)據(jù)Zp以及負(fù)樣本數(shù)據(jù)Zn三種變量,因此將式(14)稱為概率三元組損失.由式(14)看出,概率三元組損失由M×H個(gè)正負(fù)分?jǐn)?shù)對(duì)組合組成,與二元邏輯損失相比,概率三元組損失涵蓋更豐富的樣本組合方式,并且能夠同時(shí)挖掘模板、正樣本、負(fù)樣本的潛在關(guān)系;在訓(xùn)練過程中,式(9)中二元邏輯損失函數(shù)關(guān)于正負(fù)樣本產(chǎn)生的梯度分別為
(15)
本文使用的概率三元組損失的梯度則可表示為
(16)
通過對(duì)比上述兩式不難發(fā)現(xiàn),在反向傳播過程中,概率三元組損失函數(shù)涵蓋了正樣本-模板對(duì)和負(fù)樣本-模板對(duì),能夠同時(shí)考慮正負(fù)樣本對(duì)梯度變化的影響;并且在網(wǎng)絡(luò)訓(xùn)練中沒有引入額外的樣本特征,唯一增加的時(shí)間開銷來自于概率三元組損失計(jì)算,且僅出現(xiàn)在離線訓(xùn)練階段,在線跟蹤過程沒有產(chǎn)生額外的計(jì)算負(fù)擔(dān).
本文實(shí)驗(yàn)在以下平臺(tái)實(shí)現(xiàn):CPU為Intel(R)Xeon(R)E5-2643 @ 3.40 GHz,16 GB RAM,GPU為NVIDIA GTX1080Ti,程序代碼基于PyTorch深度學(xué)習(xí)環(huán)境下使用Python語言編寫.
離線訓(xùn)練階段,在ILSVRC15視頻目標(biāo)檢測(cè)數(shù)據(jù)集(Object Detection from Video, VID)[19]中選取16段視頻序列作為跟蹤網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù);針對(duì)選取的每一段視頻,訓(xùn)練一個(gè)對(duì)應(yīng)的VAE樣本生成網(wǎng)絡(luò)用以生成困難正樣本數(shù)據(jù);本文使用Root Mean Square prop(RMSprop)對(duì)VAE網(wǎng)絡(luò)的訓(xùn)練過程進(jìn)行優(yōu)化,減小梯度下降時(shí)振蕩幅度,加快網(wǎng)絡(luò)訓(xùn)練時(shí)的收斂速度;學(xué)習(xí)率設(shè)置為10-3,迭代104次.樣本生成階段,綜合跟蹤網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)的需求以及視頻中目標(biāo)運(yùn)動(dòng)變化的頻率,將每幀原始樣本和生成數(shù)據(jù)比例設(shè)置為1∶5,圖4展示了VAE網(wǎng)絡(luò)生成的部分正樣本示例,紅色矩形框中圖像表示對(duì)應(yīng)視頻片段的原始樣本.與原圖像相比,經(jīng)過重構(gòu)后生成的正樣本呈現(xiàn)示出目標(biāo)物體潛在的運(yùn)動(dòng)形態(tài)和運(yùn)動(dòng)趨勢(shì);同時(shí)從圖中可以看出,生成的樣本圖像分辨率較低,這使得訓(xùn)練后的跟蹤網(wǎng)絡(luò)對(duì)目標(biāo)快速運(yùn)動(dòng)和視頻采集設(shè)備導(dǎo)致圖像模糊情況有較高的魯棒性,從而增強(qiáng)算法在低分辨率環(huán)境下的跟蹤表現(xiàn);在隨后的實(shí)驗(yàn)結(jié)果及分析中,上述觀點(diǎn)得到了驗(yàn)證.
圖4 重構(gòu)訓(xùn)練樣本示例
訓(xùn)練SNN跟蹤網(wǎng)絡(luò)時(shí),通過N(0,0.01)高斯分布對(duì)權(quán)重初始化;然后利用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法最小化式(14)概率三元組損失得到網(wǎng)絡(luò)的最優(yōu)權(quán)值;訓(xùn)練視頻序列中,每幀片段包含正樣本|M|=13,負(fù)樣本|H|=256;初始學(xué)習(xí)率設(shè)為10-2,隨訓(xùn)練次數(shù)增加逐漸衰減至10-5,訓(xùn)練經(jīng)過50次迭代.
為了驗(yàn)證改進(jìn)后跟蹤網(wǎng)絡(luò)的性能表現(xiàn),從目標(biāo)跟蹤公共數(shù)據(jù)集OTB100[20]上選取了幾段比較有代表性的視頻序列,每段視頻幀數(shù)從81~1 500幀不等,從320×240至800×336多種圖像分辨率,包含了多個(gè)復(fù)雜的跟蹤難點(diǎn),視頻詳情見表1.
為了評(píng)估算法在實(shí)驗(yàn)數(shù)據(jù)集上的表現(xiàn)情況,本文使用了中心像素點(diǎn)誤差和文獻(xiàn)[20]提出的跟蹤成功率作為評(píng)價(jià)指標(biāo);前者計(jì)算預(yù)測(cè)目標(biāo)框的中心坐標(biāo)與真實(shí)值的歐氏距離,反映了跟蹤算法的定位準(zhǔn)確度;后者是通過計(jì)算預(yù)測(cè)值和真實(shí)目標(biāo)框交并比(Intersection over Union,IoU)進(jìn)行衡量,定義如下
(17)
表1 實(shí)驗(yàn)視頻序列詳情
式中:lt和lg分別為預(yù)測(cè)目標(biāo)框和真實(shí)值目標(biāo)框,∪和∩分別計(jì)算兩個(gè)目標(biāo)框內(nèi)相并和相交部分,|·|用于統(tǒng)計(jì)像素個(gè)數(shù),os為二者的重疊率. 當(dāng)os大于0.5時(shí),表示算法在當(dāng)前幀上實(shí)現(xiàn)了成功跟蹤;統(tǒng)計(jì)成功跟蹤幀數(shù)占全部視頻幀的比例即為算法的成功跟蹤率.
本文選取了幾種具有代表性的跟蹤算法與所提出的改進(jìn)算法進(jìn)行對(duì)比實(shí)驗(yàn),包括SiamFC算法[13]、基于SNN的相關(guān)濾波器(CFNet)算法[14]、KCF算法[4]、空間正則化判別相關(guān)濾波器(Spatially Regularized Discriminative Correlation Filters, SRDCF)算法[5];其中前兩者和本文算法均使用了SNN作為跟蹤階段的網(wǎng)絡(luò)架構(gòu),CFNet算法在SiamFC網(wǎng)絡(luò)中結(jié)合相關(guān)濾波層構(gòu)建非對(duì)稱SNN跟蹤網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)底層深度特征表示的優(yōu)化.KCF和SRDCF算法則是基于相關(guān)濾波器的單目標(biāo)跟蹤網(wǎng)絡(luò);其中SRDCF算法通過施加空間正則化分量緩解了相關(guān)濾波跟蹤網(wǎng)絡(luò)中的邊界效應(yīng)問題.
本小節(jié)中,選取實(shí)驗(yàn)視頻序列其中兩段的跟蹤結(jié)果進(jìn)行展示,繪制5種算法的中心誤差曲線和目標(biāo)框重疊率曲線,并對(duì)算法的跟蹤表現(xiàn)進(jìn)行分析.
3.3.1 關(guān)鍵幀跟蹤結(jié)果及分析
選取展示的第一段視頻為“ClifBar”,由472幀的黑白圖像組成.從圖5中可以看出:目標(biāo)物體處于相似背景下,且為圖像,并伴隨快速運(yùn)動(dòng)導(dǎo)致的圖像模糊,對(duì)跟蹤算法的魯棒性有較高的要求.在第80幀時(shí),目標(biāo)正從右側(cè)向左側(cè)快速移動(dòng),KCF和CFNet算法開始出現(xiàn)目標(biāo)漂移的現(xiàn)象,這是由于上述兩種算法對(duì)快速運(yùn)動(dòng)導(dǎo)致圖像模糊處理能力不足;第230幀時(shí),由于目標(biāo)平面內(nèi)旋轉(zhuǎn)以及快速左右位移,目標(biāo)物體發(fā)生較大的尺度變化,SiamFC算法陷入局部最優(yōu)值,預(yù)測(cè)的目標(biāo)框轉(zhuǎn)移到背景中;在五種算法中,SRDCF通過空間正則化抑制背景噪音,和本文算法始終保持對(duì)目標(biāo)物體的準(zhǔn)確定位,直到視頻最后.說明本文算法對(duì)于快速運(yùn)動(dòng)以及導(dǎo)致的畫面模糊、目標(biāo)尺度變化現(xiàn)象有較強(qiáng)的魯棒性.
圖5 ClifBar視頻跟蹤結(jié)果
圖6展示的“Skiing”視頻序列,包含的主要跟蹤難點(diǎn)在于目標(biāo)人物始終處于旋轉(zhuǎn)的運(yùn)動(dòng)模式中,形態(tài)變化劇烈,在部分片段中背景信息比較復(fù)雜.根據(jù)跟蹤結(jié)果可以看出,由于目標(biāo)向內(nèi)旋轉(zhuǎn),外觀發(fā)生劇烈變化,KCF和SRDCF算法在第7幀時(shí)發(fā)生明顯的漂移現(xiàn)象,并持續(xù)陷入局部區(qū)域,隨后丟失目標(biāo)直到視頻結(jié)束;與上述算法相似,由于目標(biāo)運(yùn)動(dòng)過程中快速的形態(tài)變化,SiamFC算法在第12幀時(shí)未能保持對(duì)目標(biāo)準(zhǔn)確定位,逐漸漂移至畫面右側(cè),最終導(dǎo)致跟蹤失?。槐疚乃惴ê虲FNet算法能夠?qū)δ繕?biāo)多種形態(tài)進(jìn)行準(zhǔn)確表征,有效判別背景干擾物和目標(biāo),保持對(duì)視頻中目標(biāo)的連續(xù)跟蹤,表現(xiàn)出對(duì)目標(biāo)快速運(yùn)動(dòng)、旋轉(zhuǎn)導(dǎo)致的外表劇烈變化以及復(fù)雜背景干擾的魯棒性.
圖6 Skiing視頻跟蹤結(jié)果
此外,對(duì)本文算法在上述兩段視頻中關(guān)鍵幀跟蹤網(wǎng)絡(luò)產(chǎn)生的響應(yīng)圖進(jìn)行繪制,展示于圖7中. 從圖中可以看出,在“ClifBar”序列中,目標(biāo)進(jìn)行多種尺度變化,并伴隨部分相似的背景干擾;而第二段視頻序列中,目標(biāo)物體持續(xù)旋轉(zhuǎn)和快速移動(dòng),外形和尺度不斷發(fā)生變化,同樣在部分幀中出現(xiàn)復(fù)雜背景的干擾;本文算法能夠?qū)δ繕?biāo)產(chǎn)生較大的相似度響應(yīng)值,背景和干擾物部分取得較低分?jǐn)?shù),說明該算法對(duì)目標(biāo)和背景有較好的處理能力,驗(yàn)證了該算法上述視頻中關(guān)鍵片段的跟蹤結(jié)果.
圖7 兩段視頻關(guān)鍵幀響應(yīng)
3.3.2 性能曲線展示及分析
為了進(jìn)一步對(duì)比5種算法在上述兩段視頻中的表現(xiàn),逐幀繪制了算法的中心誤差曲線和目標(biāo)框重疊率曲線,如圖8和圖9所示.在ClifBar和Skiing兩段視頻中,當(dāng)中心誤差分別超過閾值像素時(shí),預(yù)測(cè)的目標(biāo)框已完全遠(yuǎn)離目標(biāo),因此將中心誤差曲線上限設(shè)置為對(duì)應(yīng)的最大閾值70和30像素.
從圖8及圖9中可以看出,相比于其他4種算法,本文算法在兩段視頻上均保持最低中心誤差值和最高目標(biāo)框重疊率,并且曲線波動(dòng)最小,說明該跟蹤算法能夠?qū)崿F(xiàn)穩(wěn)定且準(zhǔn)確的跟蹤表現(xiàn).在第一段視頻中,SRDCF算法在前期保持了較低的中心誤差;然而在第230幀時(shí)目標(biāo)頻繁左右移動(dòng)出現(xiàn)模糊情況,導(dǎo)致SRDCF算法誤差值增大,在重疊率曲線(圖9(a))上相應(yīng)部分也反映了同樣的現(xiàn)象;另外3種算法曲線振動(dòng)幅度較大,相繼丟失目標(biāo).“Skiing”序列中,由于目標(biāo)旋轉(zhuǎn)運(yùn)動(dòng)以及嘈雜背景干擾,SiamFC、SRDCF和KCF算法均未能對(duì)目標(biāo)持續(xù)定位,在第10幀后丟失了目標(biāo)導(dǎo)致跟蹤失??;CFNet算法由于對(duì)背景干擾處理能力不足,跟蹤曲線出現(xiàn)較大波動(dòng);本文算法在復(fù)雜背景干擾下目標(biāo)快速運(yùn)動(dòng)導(dǎo)致的模糊、形態(tài)變化場(chǎng)景中都保持了較好的跟蹤表現(xiàn).
圖8 中心誤差曲線
圖9 重疊率曲線
由于以上兩段視頻中,算法表現(xiàn)存在一定的隨機(jī)性,因此對(duì)算法在所有實(shí)驗(yàn)視頻上跟蹤表現(xiàn)進(jìn)行統(tǒng)計(jì),表2展示了各算法成功跟蹤率和平均跟蹤速度. 本文算法在保持實(shí)時(shí)跟蹤速度的同時(shí)在其中9段視頻上都實(shí)現(xiàn)了最優(yōu)跟蹤表現(xiàn);在較困難的“Ironman”和“Matrix”兩段視頻上,相比于SiamFC算法成功跟蹤率提高了25%和68%,并且在SiamFC算法表現(xiàn)較差的序列上,也完成了準(zhǔn)確的跟蹤;此外,KCF算法在所有視頻序列上實(shí)現(xiàn)最快平均速度,但其跟蹤表現(xiàn)遠(yuǎn)遠(yuǎn)落后于本文算法.綜上所述,本文算法利用SNN學(xué)習(xí)多樣性樣本,提高了網(wǎng)絡(luò)對(duì)于目標(biāo)物體多形態(tài)的表征能力;同時(shí)使用概率三元組損失函數(shù),挖掘正負(fù)樣本潛在關(guān)系,提高網(wǎng)絡(luò)的判別能力和魯棒性.
表2 成功跟蹤率及平均跟蹤速度
本文對(duì)基于SNN單目標(biāo)跟蹤網(wǎng)絡(luò)算法進(jìn)行優(yōu)化.利用VAE對(duì)原始訓(xùn)練樣本進(jìn)行編碼重構(gòu)生成困難正樣本,構(gòu)建訓(xùn)練數(shù)據(jù)集;與傳統(tǒng)密集采樣策略相比,本文算法從采樣多樣性角度增加了正樣本數(shù)據(jù),使跟蹤網(wǎng)絡(luò)學(xué)習(xí)豐富的樣本表征;并緩解了深度跟蹤網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)不足的問題.在離線訓(xùn)練階段,使用了概率三元組損失函數(shù)代替?zhèn)鹘y(tǒng)的二元邏輯損失,通過深入挖掘正負(fù)樣本的潛在關(guān)系,提高了跟蹤網(wǎng)絡(luò)對(duì)目標(biāo)和背景干擾物體的判別能力.實(shí)驗(yàn)結(jié)果表明,相比于核化相關(guān)濾波器、空間正則化、傳統(tǒng)的SNN等跟蹤算法,本文提出的優(yōu)化算法在目標(biāo)被遮擋及尺度變化、目標(biāo)快速運(yùn)動(dòng)、目標(biāo)旋轉(zhuǎn)、畫面模糊、復(fù)雜背景情況下有更好的魯棒性和定位準(zhǔn)確度,并保持了實(shí)時(shí)的跟蹤表現(xiàn).