張 磊,單玉剛,袁 杰
1.新疆大學(xué) 電氣工程學(xué)院,烏魯木齊 830001
2.湖北文理學(xué)院 教育學(xué)院,湖北 襄陽 441053
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要的研究方向,它在視頻監(jiān)控、人機(jī)交互等方面得到廣泛應(yīng)用[1]。現(xiàn)在目標(biāo)跟蹤仍面臨很多挑戰(zhàn),當(dāng)跟蹤目標(biāo)的外觀變化和背景干擾等復(fù)雜情況發(fā)生時(shí),易導(dǎo)致跟蹤失敗。因此,仍需深入研究準(zhǔn)確率和穩(wěn)健性更高的算法。
隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的目標(biāo)跟蹤方法引起了國內(nèi)外專家學(xué)者的關(guān)注?;贑NN的目標(biāo)跟蹤通常有三種方法。第一種方法是深度學(xué)習(xí)與相關(guān)濾波相結(jié)合,這種方法將CNN提取的特征與相關(guān)濾波框架結(jié)合,比如ECO[2]、CCOT[3]。第二種方法使用CNN的跟蹤框架,首先在離線狀態(tài)下對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,在線運(yùn)行時(shí)再進(jìn)行調(diào)整,比如DLT[4]算法。第三種方法是使用孿生網(wǎng)絡(luò),比如SiamFC[5]、SiamRPN[6]、SiamMask[7]等。由于孿生網(wǎng)絡(luò)的子網(wǎng)共享權(quán)重,加快了訓(xùn)練和檢測速度,而且子網(wǎng)使用相同的模型處理輸入,適用于圖像匹配。因此,基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤成為當(dāng)前目標(biāo)跟蹤領(lǐng)域研究熱點(diǎn)。SiamFC使用AlexNet作為骨干網(wǎng)的全卷積孿生網(wǎng)絡(luò)經(jīng)典算法,具有跟蹤精度高、速度快的特點(diǎn)。雙重孿生網(wǎng)絡(luò)SASiam[8],同時(shí)提取外觀特征和語義特征,可以更好地刻畫目標(biāo)特征。SiamRPN使用候選區(qū)域生成網(wǎng)絡(luò)(RPN)提升了尺度變化場景下跟蹤器的表現(xiàn)。SiamRPN++[9]引入通道互相關(guān)操作,為了保持網(wǎng)絡(luò)的平移不變性,使用空間感知采樣策略。SiamDW[10]提出一種由CIR殘差單元組成的深度網(wǎng)絡(luò),將SiamFC和SiamRPN的主網(wǎng)絡(luò)替換為更深層的網(wǎng)絡(luò),獲取到更豐富的特征信息。SiamMask實(shí)時(shí)進(jìn)行目標(biāo)跟蹤和半監(jiān)督視頻對(duì)象分割。TransT[11]借鑒Transformer結(jié)構(gòu)改進(jìn)傳統(tǒng)孿生網(wǎng)絡(luò)中的特征融合操作,利用Transformer中的注意力機(jī)制將模板信息融合到搜索區(qū)域中,以便更好地進(jìn)行目標(biāo)定位和尺度回歸。
全卷積孿生網(wǎng)絡(luò)SiamFC存在兩個(gè)問題。第一,在快速移動(dòng)的情況下,跟蹤器的定位能力不足,當(dāng)目標(biāo)劇烈運(yùn)動(dòng)時(shí),容易造成圖像模糊,SiamFC網(wǎng)絡(luò)難以提取到目標(biāo)的有效特征,易導(dǎo)致跟蹤失敗。第二,作為它的骨干網(wǎng)絡(luò),改進(jìn)的AlexNet[12]作為SiamFC的骨干網(wǎng)絡(luò),其深度較淺,僅使用深層特征,特征提取能力不強(qiáng)。
為解決這兩個(gè)問題,本文提出一種基于條件對(duì)抗網(wǎng)和層次特征融合的目標(biāo)跟蹤算法。針對(duì)當(dāng)目標(biāo)因跟蹤視頻序列分辨率較低時(shí),SiamFC的表征能力下降的問題,本文算法嵌入條件對(duì)抗生成網(wǎng)絡(luò)模型(DeblurGANv2)[13],提高圖像的分辨率,以獲得更為有效的特征,增強(qiáng)算法在低分辨率情況下的跟蹤效果。針對(duì)SiamFC骨干網(wǎng)絡(luò)信息表達(dá)能力不強(qiáng)的問題。首先,將SiamFC骨干網(wǎng)絡(luò)AlexNet網(wǎng)絡(luò)替換為具有19個(gè)卷積層的改進(jìn)型VGG-19[14]深度網(wǎng)絡(luò)。其次,在網(wǎng)絡(luò)的淺層,提取高分辨率特征,其包含有效的位置信息;再選取一個(gè)中層特征用于融合;然后,在網(wǎng)絡(luò)的高層,采集豐富的語義信息;最后,將三層特征信息進(jìn)行加權(quán)融合,使跟蹤器可以獲得更為豐富的位置信息。
SiamFC包括權(quán)重共享的兩個(gè)輸入分支,模板分支和搜索分支。模板圖像和搜索圖像分別被裁剪后輸入網(wǎng)絡(luò),經(jīng)過一個(gè)全卷積無填充的AlexNet,提取圖像特征,通過互相關(guān)操作得到響應(yīng)得分圖。響應(yīng)得分圖通過匹配函數(shù)計(jì)算預(yù)測分?jǐn)?shù),函數(shù)表示如下:
式中,x是搜索圖像;z是模板圖像;f(z,x)是兩者的相似度得分;變換?(·)是卷積相關(guān)性計(jì)算;*表示互相關(guān)運(yùn)算;b表示偏置項(xiàng)。
訓(xùn)練階段的損失函數(shù)定義為:
其中,D表示響應(yīng)圖共有多少個(gè)位置;y[]u是響應(yīng)圖在位置u的具體真實(shí)標(biāo)簽值,y[u]∈{+1,-1};v[u]表示響應(yīng)圖在位置u的預(yù)測值;l(·)表示損失函數(shù),定義為:
在SiamFC算法中為了最小化損失函數(shù),采用了隨機(jī)梯度下降法(SGD),以獲得最優(yōu)化模型參數(shù)θ。
本文在SiamFC算法的基礎(chǔ)上提出基于條件對(duì)抗網(wǎng)和層次特征融合的目標(biāo)跟蹤框架。首先,輸入圖像輸入基于條件對(duì)抗網(wǎng)實(shí)現(xiàn)去模糊化;然后,經(jīng)過多層卷積特征融合后,進(jìn)行互相關(guān)操作后得響應(yīng)得分圖;取最大的得分位置,即是目標(biāo)位置。使用條件對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)圖像去模糊化,提高了對(duì)目標(biāo)定位能力,和對(duì)小目標(biāo)的辨別能力;低層特征包含更多空間信息,有助于目標(biāo)定位,高層特征包含目標(biāo)更多語義信息,有助于適應(yīng)目標(biāo)形變,通過多特征融合提高了目標(biāo)表征能力。改進(jìn)后的網(wǎng)絡(luò)將會(huì)提高在復(fù)雜環(huán)境下目標(biāo)跟蹤精度,增強(qiáng)了目標(biāo)跟蹤魯棒性。算法跟蹤框架如圖1所示。
圖1 本文算法跟蹤框架Fig.1 Framework of propsed method
近些年來,生成對(duì)抗網(wǎng)絡(luò)GAN[15]在圖像生成領(lǐng)域得到廣泛應(yīng)用。GAN由生成器和判別器兩部分組成。生成器采集數(shù)據(jù)并生成觀測數(shù)據(jù),判別器判別輸入數(shù)據(jù)是否是真實(shí)數(shù)據(jù)。由于GAN存在梯度發(fā)散問題,會(huì)產(chǎn)生噪聲,影響圖像重建。結(jié)合GAN和多元內(nèi)容損失來構(gòu)建用于模糊移除的條件對(duì)抗生成(DeblurGAN-v2)模型,相比于CGAN等圖像重建模型,DeblurGAN-v2模型對(duì)圖像去模糊的精確率更高[13]。本文采用DeblurGAN-v2模型對(duì)SiamFC進(jìn)行改進(jìn),使得跟蹤網(wǎng)絡(luò)能夠通過條件對(duì)抗生成網(wǎng)絡(luò)模型對(duì)低分率視頻幀進(jìn)行重建,提高圖像分辨率,從而提高跟蹤算法的精確度。
對(duì)模糊圖像進(jìn)行重建的數(shù)學(xué)模型如下:
其中,IB是模糊圖像,k(M)是模糊核,Is是清晰圖像,*代表卷積運(yùn)算,N是噪聲。本文對(duì)未知模糊核的計(jì)算采用卷積網(wǎng)絡(luò),模型基礎(chǔ)框架如圖2所示。網(wǎng)絡(luò)框架可以分為兩部分:生成器和判別器。當(dāng)輸入為模糊圖像時(shí),生成器可以生成清晰圖像,然后將生成的圖像輸入判別器,判別器判斷生成圖像的“真假”。若圖像為真,輸出生成后的圖像;若圖像為假,重新輸入生成器對(duì)圖像進(jìn)行重建。通過這種方式達(dá)到圖像去模糊的作用。
圖2 條件對(duì)抗生成網(wǎng)絡(luò)模型基礎(chǔ)框架Fig.2 Basic framework of network model generated by conditional confrontation
2.1.1 條件對(duì)抗網(wǎng)絡(luò)損失函數(shù)
傳統(tǒng)GAN的訓(xùn)練過程十分不穩(wěn)定,判別器D使用的是sigmoid函數(shù),并且由于sigmoid函數(shù)飽和得十分迅速,sigmoid函數(shù)本質(zhì)上不會(huì)懲罰遠(yuǎn)離決策邊界的樣本,尤其是在最小化目標(biāo)函數(shù)時(shí)可能發(fā)生梯度彌散,使其很難再去更新生成器。而使用最小二乘GAN(LSGAN)作為判別器的損失函數(shù)可以解決這個(gè)問題,該損失有助于消除梯度消失,可以獲得更加平滑且非飽和的梯度,LSGAN表達(dá)式為:
其中,D為判別器,G為生成器,x為真實(shí)數(shù)據(jù),z為歸一化噪聲,Pdata(x)為x服從的概率分布,Pz(z)為z服從的概率分布,Ex~Pdata(x)為期望值,Ez~Pz(z)同為期望值。
本文所用的條件對(duì)抗生成網(wǎng)絡(luò)模型損失函數(shù)RaGAN-LS在LSGAN基礎(chǔ)上改進(jìn)而來,適配了相對(duì)判別器模型,它可以使得訓(xùn)練更快、更穩(wěn)定,同時(shí)生成的結(jié)果具有更高的感知質(zhì)量、更優(yōu)的銳度,該損失定義如下所示:
構(gòu)建的損失函數(shù)定義如下:
其中,LP表示mean-square-error(MSE),LX表示感知loss,表示內(nèi)容的損失,Ladv表示全局和局部的損失,全局表示整個(gè)圖片的損失,局部類比于PatchGAN,表示將整個(gè)圖片分塊為一個(gè)一個(gè)的70×70的局部圖片的損失。
2.1.2 生成器和判別器網(wǎng)絡(luò)結(jié)構(gòu)
為了更好地保證生成質(zhì)量,本文在生成器模型中使用feature pyramid network(FPN)結(jié)構(gòu)進(jìn)行特征融合。架構(gòu)由一個(gè)FPN骨干網(wǎng)組成,從中獲取五個(gè)不同尺度的最終特征圖作為輸出。這些特征被上采樣到輸入大小的1/4并連接成一個(gè)張量,其包含不同級(jí)別的語義信息。在網(wǎng)絡(luò)的最后添加一個(gè)上采樣層和一個(gè)卷積層來恢復(fù)清晰圖像和去偽影。輸入圖像歸一化到[-1,1],在輸出部分添加tanh激活以確保生成圖像的動(dòng)態(tài)范圍。FPN除具有多尺度特征匯聚功能外,它還在精度與效率之間取得均衡。本文在判別器模型中使用帶有最小開方損失(least-square loss)的相對(duì)判別器(relativistic discriminator),并且分別結(jié)合了全局(global(image))和局部(local(patch))2個(gè)尺度的判別loss。
在上述框架基礎(chǔ)下,骨干網(wǎng)絡(luò)的選擇直接影響最終的去模糊質(zhì)量與效率。為了追求更高質(zhì)量,本文選用Inception-Resnet-v2作為對(duì)抗網(wǎng)的骨干網(wǎng)絡(luò)。本文采用的條件對(duì)抗生成模型結(jié)構(gòu)如圖3所示。
圖3 條件對(duì)抗生成模型結(jié)構(gòu)Fig.3 Model structure of conditional confrontation generation
為了提升本文算法的特征提取能力,本文算法使用改進(jìn)的VGG-19深度網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)[16]。因?yàn)橹苯佑肰GG網(wǎng)絡(luò)替換AlexNet網(wǎng)絡(luò)時(shí),引入的padding會(huì)形成位置bias[8],導(dǎo)致預(yù)測準(zhǔn)確度下降。針對(duì)padding帶來的干擾,對(duì)于Conv1、Conv2層,裁剪(crop1)其特征圖最外圍兩層,對(duì)于Conv3、Conv4、Conv5、Conv6層,裁剪其特征圖最外圍一層(crop2),可以有效消除padding給特征圖邊緣帶來的影響。在這里使用了一種快速、高效的池化方法Softpool[17]來替換常用的最大池化層(maxpool),Softpool以指數(shù)加權(quán)方法累加激活,與一系列其他池化方法相比,Softpool在下采樣激活映射中保留了更多的信息,可以獲得更好的圖像特征。綜合以上討論,本文網(wǎng)絡(luò)參數(shù)如表1所示。
表1 骨干網(wǎng)絡(luò)參數(shù)Table 1 Backbone network parameters
孿生網(wǎng)絡(luò)高層卷積特征具有更加豐富的語義信息,可以更好地區(qū)分不同對(duì)象;低層特征如邊緣、顏色、形狀等,包含更多的位置信息,可以幫助精確定位目標(biāo)位置。對(duì)多層次卷積特征進(jìn)行融合有助于提高算法的跟蹤精度[18-19]。本文提取Conv2、Conv4、Conv6三層特征。
對(duì)提取到的不同層特征,高層分辨率較小,可以采用雙線性插值的方法,將其特征圖進(jìn)行擴(kuò)大,使各層的特征圖具有相同的尺寸,實(shí)現(xiàn)融合。雙線性插值可以描述為:
其中,P"i表示第i幀的多層特征融合后的得分圖;wij表示第i幀第j層特征權(quán)重;Pij表示第i幀第j層響應(yīng)得分圖;j為需要融合的特征層序號(hào),并且j=2,4,6。
層次特征融合的具體過程如下:
(1)將視頻序列中第一幀圖像輸入模板分支。在Conv2層提取首幀位置特征,在Conv4層提取首幀中層特征,在Conv6層提取首幀語義特征
(2)在視頻序列的后續(xù)幀i∈{1,2,…,N},將其輸入搜索分支。在Conv2層提取位置特征;Conv4層提取中層特征,在Conv6層提取語義特征
(3)第i幀低層特征混合模板為,中層特征混合模板為,高層特征混合模板為使用自適應(yīng)模板更新公式,確定
(4)將得到的混合模板作為響應(yīng)模板,分別計(jì)算響應(yīng)R1、R2、R3,對(duì)三個(gè)響應(yīng)使用自適應(yīng)權(quán)重進(jìn)行融合。
(5)融合后的響應(yīng)圖中響應(yīng)值最高的位置為預(yù)測目標(biāo)位置。
為了驗(yàn)證本文算法有效性,使用OTB2015[20]和VOT2018[21]數(shù)據(jù)集作為驗(yàn)證集,與多個(gè)經(jīng)典跟蹤算法進(jìn)行對(duì)比,基于各種實(shí)驗(yàn)分析,可以看出本文算法具有優(yōu)秀的表現(xiàn)。
本文算法使用Python語言在Pytorch框架下進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境如表2所示。
表2 實(shí)驗(yàn)環(huán)境Table 2 Experimental environment
訓(xùn)練階段,對(duì)于條件對(duì)抗生成網(wǎng)絡(luò)模型的訓(xùn)練,采用GoPro數(shù)據(jù)集,它包含2 013對(duì)模糊圖像和清晰圖像,全卷積孿生網(wǎng)絡(luò)跟蹤器的訓(xùn)練數(shù)據(jù)集選擇GOT-10k和ILSVRC2015-VID兩大公開標(biāo)準(zhǔn)數(shù)據(jù)集。GOT-10k數(shù)據(jù)集包含10 000個(gè)真實(shí)運(yùn)動(dòng)對(duì)象的視頻片段和超過150萬個(gè)手動(dòng)標(biāo)記的邊界框。ILSVRC2015-VID包含了30多種目標(biāo),擁有超過4 000個(gè)視頻,標(biāo)注的幀數(shù)超過100萬個(gè)。
3.3.1 OTB2015定量分析
OTB2015擁有100個(gè)人工標(biāo)注的視頻序列,包含有11種屬性,代表了當(dāng)前目標(biāo)跟蹤領(lǐng)域的常見難點(diǎn)。將本文算法與CFNet[22]、SiamDW、SiamRPN、SRDCF[23]、DeepSRDCF[24]、fDSST[25]、Staple[26]以及SiamFC具有代表性的跟蹤器進(jìn)行比較。
如圖4所示,是本文算法與對(duì)比算法在OTB2015數(shù)據(jù)上的定量對(duì)比結(jié)果。本文算法的精確度達(dá)到85.6%,成功率達(dá)到63.7%,都優(yōu)于其他對(duì)比算法。與基準(zhǔn)算法SiamFC相比,本文算法明顯取得了很好的表現(xiàn),精確度較之提升了8.5個(gè)百分點(diǎn),成功率較之提升了5.5個(gè)百分點(diǎn)。
圖4 不同算法在OTB2015數(shù)據(jù)集上的精確率與成功率對(duì)比圖Fig.4 Comparison of accuracy and success rates of different algorithms on OTB2015 datasets
對(duì)于OTB2015數(shù)據(jù)集中各類難點(diǎn)屬性的結(jié)果如圖5所示,特別是對(duì)物體的低分辨率(low resolution)、快速運(yùn)動(dòng)(fast motion)、運(yùn)動(dòng)模糊(motion blur)等有很好的表現(xiàn),在精確率方面分別取得了0.933、0.832、0.849,進(jìn)一步證明了條件對(duì)抗生成網(wǎng)絡(luò)模型和多層特征融合在目標(biāo)跟蹤上的有效性。
圖5 不同算法在11類挑戰(zhàn)下精確率的對(duì)比圖Fig.5 Comparison of accuracy rates of different alogorithms under 11 types of challenges
3.3.2 OTB2015定性分析
為了對(duì)比本文算法與其他優(yōu)秀算法的差異,選擇了OTB2015的測試結(jié)果進(jìn)行定性分析。測試結(jié)果如圖6所示,由上到下分別為Skating1、Coke、MotorRolling、Skiing、CarScale、Football視頻序列,六個(gè)視頻序列包含了光照變化、遮擋、運(yùn)動(dòng)模糊、低分辨率、尺度變化、相似背景干擾等六種挑戰(zhàn)場景。紅色為本文算法,綠色、藍(lán)色、黑色、粉色分別為SiamDW、SiamFC、CFNet、SiamRPN算法。
圖6 在OTB2015不同視頻序列下各類算法跟蹤效果Fig.6 Tracking effect of various algorithms in different OTB2015 video sequences
(1)光照變化:在Skating1視頻序列中,目標(biāo)快速移動(dòng),其中還包括了遮擋,光照變化等情況,對(duì)跟蹤過程造成了極大的影響。在第173幀左右,目標(biāo)被遮擋,各算法均出現(xiàn)了一定程度的跟蹤漂移。第312幀左右,由于光照變化,目標(biāo)特征不明顯,SiamFC算法跟蹤跟蹤失敗,本文算法由于多特征融合模型的加入,可以獲取到更多的目標(biāo)特征,從而可以對(duì)當(dāng)前目標(biāo)位置做出有效判斷。
(2)遮擋:在跟蹤過程中,目標(biāo)被遮擋會(huì)給跟蹤帶來較大的干擾。Coke視頻序列中,隨著目標(biāo)移動(dòng),逐漸被綠葉遮擋,SiamFC已經(jīng)出現(xiàn)了一定的偏移,目標(biāo)繼續(xù)移動(dòng),在整個(gè)跟蹤過程中,相比其他對(duì)比算法,本文算法對(duì)目標(biāo)的整體性跟蹤效果良好。
(3)運(yùn)動(dòng)模糊:由于目標(biāo)快速運(yùn)動(dòng),會(huì)帶來圖像模糊等問題。在MotorRolling視頻序列中,摩托車快速運(yùn)動(dòng),造成了運(yùn)動(dòng)模糊,并且伴隨目標(biāo)旋轉(zhuǎn)等挑戰(zhàn),跟蹤難度較高。在32幀左右,SiamFC和CFNet已經(jīng)出現(xiàn)了目標(biāo)丟失,造成了后續(xù)的跟蹤失敗,本文算法和SiamRPN可以實(shí)現(xiàn)持續(xù)的跟蹤。
(4)低分辨率:當(dāng)圖像幀的分辨率較低的時(shí)候,提取的特征不明顯。在Skiing中,僅有本文算法和SiamRPN可以實(shí)現(xiàn)持續(xù)的跟蹤,在60幀左右,SiamFC和CFNet均丟失了目標(biāo)。而相比于SiamRPN,本文算法在低分辨率場景下有著更好的跟蹤準(zhǔn)確性,這很大一部分原因是基于對(duì)抗網(wǎng)絡(luò)模型對(duì)視頻幀的去模糊效果。
(5)尺度變化:在跟蹤過程中,經(jīng)常出現(xiàn)目標(biāo)尺度變化的情況,在CarScale視頻序列中,隨著汽車由遠(yuǎn)及近駛來,目標(biāo)不斷變大,相比于其他對(duì)比算法,本文算法擁有更好的尺度估計(jì)結(jié)果。
(6)相似背景干擾:相似目標(biāo)的干擾一直是目標(biāo)跟蹤中的難點(diǎn)問題之一,尤其在Football中,跟蹤目標(biāo)一方面運(yùn)動(dòng)較快,一方面光照變化劇烈,且存在目標(biāo)被遮擋的情況。在289幀左右,目標(biāo)被遮擋,基準(zhǔn)算法SiamFC跟蹤丟失,而本文算法在多層特征的特征增強(qiáng)下,對(duì)目標(biāo)實(shí)現(xiàn)了持續(xù)且穩(wěn)定的跟蹤。
3.3.3 VOT2018定量分析
視覺目標(biāo)跟蹤(visual object tracking,VOT)是一個(gè)專門針對(duì)單目標(biāo)跟蹤的挑戰(zhàn)賽。VOT2018一共有60個(gè)經(jīng)過精細(xì)標(biāo)注的短時(shí)跟蹤視頻集,且評(píng)價(jià)指標(biāo)更為精細(xì)。VOT2018相比OTB2015,在跟蹤序列上目標(biāo)的變化更為復(fù)雜,跟蹤難度更高。
如圖7所示,在VOT2018數(shù)據(jù)集中本文算法與其他七個(gè)算法在基線上進(jìn)行比較。表3顯示,本文算法的平均期望重疊率EAO、準(zhǔn)確率A僅低于SiamRPN,但是魯棒性R好于SiamRPN。其中準(zhǔn)確率越高性能越好,魯棒性數(shù)值越低效果越好,期望平均重疊率越高效果越好。相比基準(zhǔn)算法SiamFC,本文算法的EAO提升了16.4個(gè)百分點(diǎn)。同時(shí),運(yùn)行速度為每秒39幀,進(jìn)一步證明本文算法具有較強(qiáng)的穩(wěn)健性,滿足實(shí)時(shí)性要求,可以實(shí)現(xiàn)很好的跟蹤效果。
圖7 不同算法在VOT2018數(shù)據(jù)集上EAO的對(duì)比圖Fig.7 Comparision of EAO of different algorithms on VOT2018 datasets
表3 不同算法在VOT2018數(shù)據(jù)集上的測試結(jié)果對(duì)比Table 3 Comparision of test results of different algorithms on VOT2018 datasets
3.3.4 VOT2018定性分析
在VOT2018數(shù)據(jù)集上選取五個(gè)視頻序列進(jìn)行定量分析,證明本文算法對(duì)小目標(biāo)跟蹤和模糊目標(biāo)跟蹤優(yōu)于SiamRPN等算法。測試結(jié)果如圖8所示,紅色為本文算法,紫色、藍(lán)色、綠色分別為SiamFC、SiamRPN、KCF[27]算法,青色為VOT2018數(shù)據(jù)集自帶標(biāo)注結(jié)果。
圖8 選定VOT2018視頻序列跟蹤效果Fig.8 Selected VOT2018 video sequences tracking effect
在birds1序列,一方面序列的跟蹤對(duì)象是一個(gè)小目標(biāo),另一方面圖像較為模糊,目標(biāo)特征不明顯,本文算法仍可以有效地跟蹤到目標(biāo),而且相比于其他算法,本文算法與VOT自帶標(biāo)注結(jié)果的重疊部分更多。basketball視頻序列,圖像模糊且存在相似目標(biāo)的干擾,在265幀左右,已經(jīng)有算法出現(xiàn)了跟蹤異常的情況。在bmx序列中,由于目標(biāo)旋轉(zhuǎn)以及外觀變化,其他算法已經(jīng)無法有效跟蹤到目標(biāo)的整體特征,比如:bmx的第37、69幀。在soccer1序列,由于圖像模糊,很容易干擾到跟蹤器,在第115幀,目標(biāo)被遮擋,SiamFC出現(xiàn)了跟蹤丟失。在fernando序列,由于光照變化以及遮擋的發(fā)生,跟蹤難度較大,相比于基準(zhǔn)算法本文算法跟蹤效果優(yōu)異。
3.3.5 消融實(shí)驗(yàn)
對(duì)本文算法進(jìn)行消融實(shí)驗(yàn),分析參數(shù)影響。數(shù)據(jù)集使用OTB2015,實(shí)驗(yàn)結(jié)果如圖9所示。其中,Ours代表本文算法,Ours-VGG表示基準(zhǔn)算法只替換骨干網(wǎng)絡(luò)為VGG-19并將層次特征進(jìn)行融合,Ours-DeblurGAN表示在基準(zhǔn)算法上加入用于模糊移除的DeblurGAN模型,Ours-CGAN表示加入典型對(duì)抗生成網(wǎng)絡(luò)CGAN模型。從圖9中可以看出,條件對(duì)抗網(wǎng)與多層特征融合等改進(jìn)策略對(duì)原算法的性能均有著有效的提升,相比CGAN,DeblurGAN模型對(duì)算法性能提升更明顯。
圖9 算法關(guān)鍵環(huán)節(jié)對(duì)跟蹤性能影響Fig.9 Influence of key parts of algorithm on tracking performance
針對(duì)SiamFC在運(yùn)動(dòng)模糊和低分辨率等復(fù)雜場景下的跟蹤能力不強(qiáng)問題,本文提出一種結(jié)合條件對(duì)抗生成網(wǎng)絡(luò)和多層次特征融合的目標(biāo)跟蹤算法。在孿生網(wǎng)絡(luò)中加入了條件對(duì)抗生成網(wǎng)絡(luò)模型,對(duì)圖像進(jìn)行去模糊;并用VGG-19替換Alexnet作為孿生網(wǎng)絡(luò)骨干網(wǎng)絡(luò)。使用淺層特征提取位置信息,加入中層特征進(jìn)行融合,使用高層特征提取語義信息,提高跟蹤器的識(shí)別和定位能力。在OTB2015和VOT2018數(shù)據(jù)集上的測試結(jié)果表明,本文算法實(shí)時(shí)性能滿足實(shí)際的跟蹤需求,有效地提升了跟蹤器的跟蹤精度,在運(yùn)動(dòng)模糊以及低分辨率情況下具有良好的魯棒性。但是本文算法在面對(duì)光照變化明顯等極端情況時(shí),跟蹤效果不是非常理想,下一步的工作是嘗試采用更深、更高效的主干網(wǎng)絡(luò)來提取特征,以及引入模板更新機(jī)制。