朱文球,鄒 廣+,曾志高,汪曉毅
(1.湖南工業(yè)大學(xué) 計算機學(xué)院,湖南 株洲 412007;2.湖南工業(yè)大學(xué) 智能信息感知與處理技術(shù)湖南省重點實驗室,湖南 株洲 412007)
在目標(biāo)跟蹤任務(wù)中,由于目標(biāo)的快速運動、尺度變換、背景干擾等問題會出現(xiàn)跟蹤漂移甚至失敗,Bertinetto等[1]提出了全卷積孿生網(wǎng)絡(luò)跟蹤算法(SiamFC),將AlexNet網(wǎng)絡(luò)模型作為主干網(wǎng)絡(luò),對所提取的模板特征和搜素特征進行互相關(guān)運算得到響應(yīng)圖,根據(jù)響應(yīng)圖得分預(yù)測目標(biāo)位置。由于其主干網(wǎng)絡(luò)特征提取能力較弱,SiamFC無法得到對目標(biāo)具有強判別性的特征,且模板圖像中包含的背景信息被當(dāng)成正樣本處理,污染了模板特征。GOTURN[2]網(wǎng)絡(luò)框架同孿生網(wǎng)絡(luò)類似,通過對訓(xùn)練數(shù)據(jù)做增廣處理,使得隨機裁剪得到的樣本能服從拉普拉斯分布,但訓(xùn)練出來的網(wǎng)絡(luò)僅對目標(biāo)敏感而不對類別敏感,對相似物體判別性不強。Valmadre等[3]提出CFNet算法,將SiamFC和相關(guān)濾波結(jié)合起來,但面對目標(biāo)遮擋等問題時跟蹤效果不佳。Wang等[4]采用注意力機制[5,6]融合的方式得到目標(biāo)位置映射的算法RASNet,但僅僅用到了模板特征。ACF[7]利用注意力機制學(xué)習(xí)到幾個相關(guān)濾波器之間的注意信息。Zhang等[8]提出一個擴展了更深層數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)SiamDW,利用了深層網(wǎng)絡(luò)能提取特征更充分的優(yōu)勢。SA-Siam[9]通過語義和外觀雙分支結(jié)構(gòu)提取目標(biāo)的不同特征,并使用通道注意力機制對目標(biāo)進行特征選擇,但忽略了模板更新。Zhu等[10]提出FlowTrack,通過增加光流信息的方式來利用時序信息,考慮了幀間信息。Ashish等[11]提出Transformer,已經(jīng)被應(yīng)用到自然語言處理,計算機視覺[12]等方面。Xia等[13]提出基于光流分塊的跟蹤方法,有效利用了幀間的光流信息。
SiamFC跟蹤算法關(guān)鍵點是采用離線訓(xùn)練,在線微調(diào)的網(wǎng)絡(luò),能有效提高算法的速度。SiamFC網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。采用全卷積網(wǎng)絡(luò)時,搜索圖像的尺寸不需要同模板圖像一致,能夠為網(wǎng)絡(luò)提供更大的搜索區(qū)域,計算更多子窗口的相似度?;ハ嚓P(guān)使用的函數(shù)公式如式(1)所示
f(z,x)=φ(z)*φ(x)+b1
(1)
式中:x是輸入搜索圖像,z是輸入模板圖像;φ為特征提取網(wǎng)絡(luò);*代表卷積操作;b1表示在得分圖中每個位置取值的偏差值;f(z,x) 表示z與x的相似度得分。得分最高的位置即目標(biāo)位置。
本文基于孿生網(wǎng)絡(luò)結(jié)構(gòu),針對SiamFC等算法存在的忽略各特征通道信息的權(quán)重、僅關(guān)注模板的語義特征等問題,提出了一種融合時空上下文信息和注意力機制的算法(spatio-temporal contextual information attention mechanism with Siamese,STASiam),主要工作如下:①主干網(wǎng)絡(luò)采用結(jié)合了空洞卷積的ResNet50[14]網(wǎng)絡(luò)模型,增大感受野,并對不同網(wǎng)絡(luò)層提取的特征進行自適應(yīng)加權(quán)融合。②結(jié)合空間注意力[15]和通道注意力[16]對通道特征信息和空間位置信息進行權(quán)重選擇。③設(shè)計了一個聚合時序信息的模塊,構(gòu)建一個拉普拉斯型的包含時序信息的模板特征集合,由交叉注意力(Cross-Attention)前向傳播運動的先驗知識,從而得到更充分的目標(biāo)外觀特征。并與空間自注意力結(jié)合捕獲時空上下文信息,從而提升網(wǎng)絡(luò)判別力,更好地區(qū)分目標(biāo)和背景。④在基準(zhǔn)數(shù)據(jù)集上算法速度能達到43幀每秒(FPS),滿足實時性。
網(wǎng)絡(luò)結(jié)構(gòu)和各層對應(yīng)的操作見表1:網(wǎng)絡(luò)共分5個塊,第2個至第5個網(wǎng)絡(luò)塊的殘差塊個數(shù)分別為(3、4、6、3)。其中Block代表網(wǎng)絡(luò)塊,Dilation表示空洞卷積。Block1中的7×7代表卷積核大小,64代表輸出通道數(shù),maxp代表最大池化,s=2表示下采樣操作,步長為2。
因其ResNet50網(wǎng)絡(luò)的總步長為32,會導(dǎo)致模板圖像經(jīng)過主干網(wǎng)絡(luò)提取特征后,特征圖分辨率會變得過小,導(dǎo)致大量信息丟失。為了避免這種情況,對第4、第5個網(wǎng)絡(luò)塊不進行下采樣操作(設(shè)置步長為1),同時分別用空洞率(dilation rate)為2和4的空洞卷積代替3×3卷積,以此能夠在同樣的分辨率下獲得更寬闊的感受野。在不做池化操作損失信息的情況下,加大了感受野,能讓每個輸出都包含較大范圍的信息,聚合圖像中不同尺寸的上下文信息,獲取了多尺度信息。通過提高分辨率可以更加精確定位目標(biāo),同時消除因為卷積填補操作對目標(biāo)帶來的平移影響。算法總體模型結(jié)構(gòu)如圖2所示。算法流程如圖3所示。
圖2 STASiam網(wǎng)絡(luò)模型
圖3 算法流程
基于孿生網(wǎng)絡(luò)框架,目標(biāo)模板圖像和搜索圖像經(jīng)過主干網(wǎng)絡(luò)提取特征后,我們對第2、第4、第5這3個網(wǎng)絡(luò)塊(Block2、Block4、Block5)的輸出特征進行自適應(yīng)加權(quán)融合。經(jīng)過加權(quán)融合后模板分支通過雙注意力模塊對通道和空間位置做進一步篩選,并同結(jié)合了時序信息的模板特征集合相乘,得到的結(jié)果傳遞到搜索區(qū)域,以此聚合時間上不同的目標(biāo)表示。最后搜索分支通過一個交叉注意力模塊與原搜索分支特征相加并歸一化后得到搜索特征,通過與模板分支得到的模板特征做互相關(guān)操作得到最終響應(yīng)圖。響應(yīng)圖中得分最高的位置即為目標(biāo)位置,映射到原圖像中定位當(dāng)前目標(biāo)位置。
本文算法想要在深度卷積網(wǎng)絡(luò)中不僅僅學(xué)習(xí)目標(biāo)的語義特征,同時也學(xué)習(xí)低層顏色、輪廓等目標(biāo)外觀特征。兩者相融合,提升算法對正負樣本的辨別力。在模板和搜索雙分支下,對經(jīng)第2、第4、第5這3個網(wǎng)絡(luò)塊輸出的特征自適應(yīng)加權(quán)融合。網(wǎng)絡(luò)塊卷積特征可視化表達如圖4所示,Block2輸出的響應(yīng)圖有較為明顯的底層特征(紋理、位置、顏色等),能凸出目標(biāo)的大致位置與輪廓,幫助定位目標(biāo)。Block4和Block5高層次語義特征的響應(yīng)圖對目標(biāo)與背景有更好的區(qū)分度,提高模型對正負樣本的區(qū)分能力。本文在3.5節(jié)展示了選取不同網(wǎng)絡(luò)塊組合的實驗對比結(jié)果。由于不同網(wǎng)絡(luò)塊的輸出特征圖分辨率和通道數(shù)各有不同,因此需要對特征圖做上采樣和通道壓縮。對Block2而言,算法使用一個1×1卷積對特征圖的通道進行壓縮(256→1024),圖像分辨率上采樣采用的是雙線性插值法。
圖4 網(wǎng)絡(luò)各個網(wǎng)絡(luò)塊特征可視化表達
表1 網(wǎng)絡(luò)結(jié)構(gòu)
為提取出更能表征目標(biāo)的特征,算法根據(jù)式(2)對第2、第4、第5這3個網(wǎng)絡(luò)塊輸出的特征自適應(yīng)加權(quán)融合
F=α·X1+β·X2+γ·X3
(2)
式中:F表示融合后的特征圖,α,β,γ分別為3個網(wǎng)絡(luò)塊的特征權(quán)重,通過網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí),X1,X2,X3表示3個網(wǎng)絡(luò)塊的輸出特征。特征權(quán)重可以表達為一個標(biāo)量,它們在所有特征通道上是共享的,并且α+β+γ=1,α,β,γ∈[0,1]。 通過一個softmax函數(shù)計算權(quán)重值,α的計算方式如式(3)所示,β,γ兩個參數(shù)的計算采用類似的計算方式
(3)
式中:λα,λβ,λγ為softmax函數(shù)對3個特征的權(quán)重分配控制參數(shù)。網(wǎng)絡(luò)通過一個1×1卷積計算這3個權(quán)重標(biāo)量參數(shù),并通過標(biāo)準(zhǔn)型的反向傳播學(xué)習(xí)更新這3個參數(shù),如式(4)、式(5)所示
(4)
(5)
(6)
Learning_rate表示學(xué)習(xí)率。同理,也可求得λβ,λγ。
本文通過引入雙注意力機制,聚焦在不同通道特征和空間位置特征,對圖像中目標(biāo)區(qū)域投入更多的注意力資源,抑制掉其它部分無用信息,有效提高對特征信息處理的效率和正確性。雙注意力機制由通道注意力(channel attention,C-Attn)和空間注意力(spatial attention,S-Attn)組成,沿著兩個獨立的維度對特征進行推斷。各通道、位置根據(jù)對目標(biāo)的響應(yīng)程度賦予不同的權(quán)重,自適應(yīng)地對特征進行提優(yōu)。雙注意力機制模塊可以與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)結(jié)構(gòu)一起使用,不會增加額外的參數(shù),并且能實現(xiàn)端到端訓(xùn)練。雙注意力模塊的框架如圖5所示。
圖5 雙注意力機制框架
由圖5知,通道注意力和空間注意力是以串聯(lián)的方式進行工作的,卷積層輸出的特征圖會先經(jīng)注意力模塊,得到加權(quán)結(jié)果F′后,作為空間注意力模塊的輸入,最終同輸入特征F加權(quán)得到結(jié)果F″。 整個過程表示如式(7)所示
(7)
式中:F∈RC×H×W為輸入特征,Attnc代表通道注意力塊,Attns代表空間注意力塊,?表示逐元素相乘(element-wise multiplication)。F″是最終精煉后的輸出特征。
通道注意力對輸入特征圖進行尺寸壓縮,采用全局平均池化和全局最大池化并聯(lián)的方式對通道信息加以整合。通道注意力的框架如圖6所示:首先通過使用平均池化和最大池化操作聚合特征圖的空間信息,得到兩個不同的特征描述 (F_avg, F_max), 再將這兩個特征描述輸入到共享卷積網(wǎng)絡(luò),得到經(jīng)通道注意力篩選的特征。整個運算過程如式(8)所示
Mc(F)=σ(SCN(AvgP(F))+SCN(MaxP(F)))
(8)
式中:σ(·) 代表Sigmoid函數(shù),AvgP(·) 和MaxP(·) 分別表示平均池化和最大池化,SCN(shared convolutional neetwork,SCN)是權(quán)重調(diào)節(jié)卷積共享網(wǎng)絡(luò)。兩個描述特征經(jīng)過共享網(wǎng)絡(luò)輸出后得到F_avg和F_max,采用逐元素加法合并后經(jīng)過Sigmoid函數(shù)得到特征權(quán)重向量,輸入特征與該權(quán)重向量相乘即得到權(quán)重不同的輸出特征。由圖6所示,權(quán)重調(diào)節(jié)卷積共享網(wǎng)絡(luò)SCN是基于兩個1×1卷積完成權(quán)重計算,不同于傳統(tǒng)的采用多層感知機(multilayer perceptron,MLP)的方式。SCN網(wǎng)絡(luò)相較于MLP而言,利用卷積網(wǎng)絡(luò)權(quán)值共享的特性,能大大降低全連接層網(wǎng)絡(luò)的參數(shù)量,加快計算過程,保證算法在增加注意力模塊后的實時性。
圖6 雙注意力實現(xiàn)模塊
空間注意力是對通道注意力的一種補充,對經(jīng)通道注意力篩選后的特征更進一步提優(yōu),找到對目標(biāo)區(qū)域敏感的位置。通過全局平均池化和全局最大池化對輸入特征進行表達。具體過程如下:將結(jié)果按拼接(Concatenate)的方式組合起來,經(jīng)過卷積層和Sigmoid函數(shù)的作用,得到帶權(quán)重的特征向量;將該向量同輸入特征相乘得到最后與目標(biāo)相似度高的輸出特征。過程可描述為如式(9)所示
Ms(F)=σ(k7×7([AvgP(F);MaxP(F)]))
(9)
式中:k7×7表示卷積核大小為7×7。
在一段視頻序列中,從開始幀到結(jié)束幀,幀間時序信息十分重要,它包含了豐富的上下文信息?,F(xiàn)實中的視頻幀中目標(biāo)可能因遮擋、背景干擾等帶入許多噪聲,若這種幀被當(dāng)作模板時,會造成模型嚴重漂移。通過傳達各幀之間的時序信息能夠?qū)Ω鲙卣髦g形成信息互補。因此本文算法在關(guān)注當(dāng)前幀特征的同時也沒有忽略歷史幀的重要信息。本文算法對訓(xùn)練數(shù)據(jù)集中經(jīng)過主干網(wǎng)絡(luò)提取的不同模板幀特征組成一個集合T∈n×C×H×W。T=Concat(T1,T2…Tn), 其中Ti∈C×H×W,C、H、W分別表示通道數(shù)、特征圖的高度和寬度。與集合T類似,我們構(gòu)建了一個拉普拉斯型的模板集合LTFS=Concat(LF1,LF2…LFn)。 其中LFi∈H×W的定義如式(10)所示
(10)
式中:u代表目標(biāo)的真實位置,xi為算法檢測到的目標(biāo)位置,b是尺度參數(shù)。下標(biāo)i是在時間序列上不同的模板幀表達順序。如圖2所示,LTFS與經(jīng)過混合注意力機制篩選后的模板特征相乘后作為交叉注意力的一個輸入。因此,對于搜索區(qū)域特征來說,LTFS可以被視作是一個聚合了不同模板幀特征的掩膜。它能夠聚合時間上不同的目標(biāo)表示。
本文算法使用一個交叉注意力模塊來前向傳播LTFS至搜索區(qū)域。交叉注意力模塊的實現(xiàn)如圖7所示,本質(zhì)上是一個自注意力機制。根據(jù)目標(biāo)跟蹤任務(wù)特性,我們添加了兩個全連接層增加非線性變換。根據(jù)式(11)計算得到向量Q、K的相似矩陣M,其結(jié)果與輸入向量V相乘
M=softmax(Q·KT)
(11)
式中:向量V是由LTFS與混合注意力模塊的輸出相乘得到。相似矩陣M與V相乘的結(jié)果經(jīng)過兩個全連接層和一個Relu激活函數(shù)層,再通過一個Layer Normalize層對結(jié)果做歸一化處理。Layer Normalize同Batch Normalize作用一樣,都是把輸出限制在一個均值為0,方差為1的范圍內(nèi)。不同之處在于兩者做歸一化的維度是互相垂直的。本文在這里采用Layer Normalize,根據(jù)樣本的特征數(shù)做歸一化。最后對輸出特征做張量轉(zhuǎn)換操作,調(diào)整特征圖大小。
圖7 交叉注意力實現(xiàn)框架
本文算法基于深度學(xué)習(xí)Pytorch 1.6框架實現(xiàn),利用Cuda(10.2版本)和CuDNN(7.6版本)加速計算。編程語言使用Python 3.8版本。實驗硬件設(shè)備包括:Intel(R)Core(TM)i5-9400F CPU @2.90 GHz、NVIDIA顯卡、GeForce RTX 2070Super 8 G顯存、32 GB DDR4 RAM內(nèi)存。
算法使用GOT10K[17]數(shù)據(jù)集離線訓(xùn)練,在OTB50[18]、OTB100[19]和VOT2018[20]數(shù)據(jù)集上對算法做評測,其中VOT2018作為目標(biāo)跟蹤挑戰(zhàn)賽官方數(shù)據(jù)集,包含60多個具有挑戰(zhàn)性的視頻序列。網(wǎng)絡(luò)輸入模板圖像大小為127×127×3,搜索圖像大小為255×255×3,兩者均為RGB三通道圖。主干網(wǎng)絡(luò)訓(xùn)練時設(shè)置初始學(xué)習(xí)率0.01,學(xué)習(xí)率按指數(shù)型衰減到10-5,L2懲罰項(weight_decay)設(shè)置為5e-4,動量值設(shè)置為0.9。一共訓(xùn)練50輪(epoch),每輪以批為最小單位(batch_size=8)。網(wǎng)絡(luò)總步長為8,搜索圖像按([0.9638,1,1.0375])尺度比例縮放,尺度懲罰為0.9745,多線程數(shù)設(shè)置為16。
本文算法訓(xùn)練網(wǎng)絡(luò)使用邏輯斯蒂(Logistic)函數(shù)求損失值,通過最小化損失值找到網(wǎng)絡(luò)的最優(yōu)解。網(wǎng)絡(luò)模型對輸入的正負樣本離線訓(xùn)練,正樣本定義為不超過中心一定像素距離(20~30個像素距離)的點,超出這個距離就標(biāo)記為負樣本。
網(wǎng)絡(luò)訓(xùn)練時采用所有位置點的平均損失值來表示損失,如式(12)所示
(12)
式中:M表示得分圖;m為得分圖中某個搜索位置;v[m] 表示某個位置的得分;y[m] 為某個位置的真實標(biāo)簽,l表示求單點loss值函數(shù)
(13)
(14)
本文算法在Logistic損失函數(shù)的基礎(chǔ)上添加了一個時間序列上的權(quán)重函數(shù)ω(i,j), 其中μ是一個常數(shù),i和j代表得分圖中某個位置。權(quán)重函數(shù)的作用是避免網(wǎng)絡(luò)挑選到相隔較遠的圖像對。算法選取相鄰幀圖像對能夠有效避免過擬合,因為選取到的模板圖像中目標(biāo)可能被部分遮擋,導(dǎo)致帶入過多的背景信息,使得損失值過小,陷入過擬合狀態(tài)。
網(wǎng)絡(luò)訓(xùn)練時采用隨機梯度下降(stochastic gradient descent,SGD)來最小化損失函數(shù),如式(15)所示
(15)
式中:θ為網(wǎng)絡(luò)參數(shù),E表示數(shù)學(xué)期望。
OTB官方數(shù)據(jù)集使用跟蹤精度(Precision)和跟蹤成功率(Success)兩個指標(biāo)對跟蹤算法進行評價。跟蹤精度的評估標(biāo)準(zhǔn)是中心位置誤差在T1(實驗設(shè)置為20)個像素以內(nèi)的幀數(shù)占整個視頻序列幀數(shù)的百分比。跟蹤成功率是算法預(yù)測的目標(biāo)框和真實目標(biāo)框之間的交并比IoU(intersection-over-union)大于閾值T2(實驗設(shè)置為0.5)的幀數(shù)占整個視頻序列幀數(shù)的百分比。
VOT2018數(shù)據(jù)集使用準(zhǔn)確率(Accurary)、魯棒性(Robustness)和期望平均重疊率(expected averaged overlap,EAO)3個指標(biāo)對跟蹤算法進行評估。算法準(zhǔn)確率是指視頻中每幀預(yù)測目標(biāo)框同真實目標(biāo)框之間的交并比(IoU)在整個視頻序列上的平均值。魯棒性用來評估算法的穩(wěn)健性,其數(shù)值越大,穩(wěn)健性越差。
期望平均重疊率EAO的計算同準(zhǔn)確率和魯棒性這兩個量有關(guān),它可作為算法綜合性能評估的指標(biāo)。定義視頻序列中幀長度為Ns的平均幀覆蓋率如式(16)所示
(16)
式中:Φi為預(yù)測目標(biāo)框與真實目標(biāo)框之間的準(zhǔn)確率。EAO的計算如式(17)所示,Nhi為序列末尾幀,Nlo為序列起始幀
(17)
3.3.1 OTB測試集實驗結(jié)果分析
OTB50測試集上的跟蹤成功率和跟蹤精度如圖8所示,結(jié)果表明本文算法在Success和Precison兩個指標(biāo)上都優(yōu)于SiamFC和CSR-DCF[21]算法,其中在Success指標(biāo)上分別提升了12.7%和11.3%。同時,也優(yōu)于目前一流的跟蹤算法RASNet,在Success和Precison兩個指標(biāo)上分別提升2.4%和1.1%。
圖8 OTB50成功率圖和跟蹤精度
如圖9所示,本文算法在OTB100數(shù)據(jù)集上的Success和Precision分別為68.14%和0.891,跟蹤性能均優(yōu)于SiamFC和CSR-DCF算法,比結(jié)合深度學(xué)習(xí)和相關(guān)濾波的CFNet算法分別高出9.75%和0.096。本文算法性能同樣優(yōu)于引入了ResNet50網(wǎng)絡(luò)的SiamDW算法,對比目前流行的SiamRPN[22]算法,本文算法的Success和Precision指標(biāo)分別提升了5.23%和0.046。此外,均優(yōu)于對比的算法。
圖9 OTB100成功率圖和跟蹤精度
3.3.2 VOT測試集實驗結(jié)果分析
如表2所示,本文算法在VOT2018測試集上的Accurary、Robustness、EAO指標(biāo)上均優(yōu)于其它算法,與SiamFC對比,Accurary提高了0.102,EAO提高了0.128。本文算法同樣優(yōu)于目前跟蹤性能優(yōu)秀的基于相關(guān)濾波器的算法ECO,在Accurary和EAO指標(biāo)上分別提升0.119和0.034。同時本文算法魯棒性也得到了增強,平均速度為45 FPS,雖然實時性不如ECO,但已滿足實際跟蹤的實時性,且準(zhǔn)確率更高。在VOT2018測試集上的實驗結(jié)果進一步驗證了本文算法的有效性。
表2 在VOT2018數(shù)據(jù)集上的評估結(jié)果
為了對比分析本文算法和其它算法在復(fù)雜場景下的跟蹤效果,從OTB數(shù)據(jù)集挑選了4個包含多個挑戰(zhàn)性的序列(Couple、Dog、Human8、Shaking)對算法進行測試。如表3所示,所選的這4個序列包括以下挑戰(zhàn):平面內(nèi)旋轉(zhuǎn)(in-plane rotation,IPR)、平面外旋轉(zhuǎn)(out-of-plane rotation,OPR)、尺度縮放(scale variation,SV)、光照變化(illumination variation,IV)、發(fā)生形變(deformation,DEF)、快速運動(fast motion,F(xiàn)M)、背景干擾(background clutters,BC)等。如圖10所示,共對比了4種算法,包括本文算法、基于梯度更新目標(biāo)模板的GradNet、基于孿生網(wǎng)絡(luò)算法SiamFC和基于通道加權(quán)可靠性的算法CSR-DCF。在面對視頻序列中的復(fù)雜場景,本文算法都實現(xiàn)了比較好的跟蹤效果。
表3 各測試序列包含的挑戰(zhàn)屬性
在Couple序列中,第92幀和第109幀其它3種算法均出現(xiàn)了丟失目標(biāo)的情況,而本文算法能準(zhǔn)確捕獲目標(biāo)??梢娫趫D像分辨率低和背景干擾的情況下,本文算法魯棒性更好。在Dog序列和Shaking序列,面對光照強度變化、尺度縮放、目標(biāo)形變等場景,本文算法同其它3種也都能較好地跟住目標(biāo),但在Shaking序列第8幀和第77幀,CSR-DCF出現(xiàn)了丟失目標(biāo)的情況。在Human8序列中,SiamFC和GradNet算法在第17幀開始出現(xiàn)背景變暗時丟失目標(biāo),且在后續(xù)幀中無法找回目標(biāo),魯棒性更低,而本文算法能較好地完成跟蹤任務(wù)。由此可見,本文算法在應(yīng)對具有挑戰(zhàn)性的場景時,也能較好地完成跟蹤任務(wù),實現(xiàn)比其它對比算法更好的跟蹤效果,并且算法魯棒性更好。
為了驗證本文算法所提的改進策略的有效性,對改進策略進行消融實驗研究。我們在基準(zhǔn)數(shù)據(jù)集OTB100和VOT2018上進行主要部件的消融實驗。
表4展示了在固定其它部件的情況下,不同網(wǎng)絡(luò)塊組合后進行自適應(yīng)加權(quán)融合對算法性能的影響。我們可以看到Block1+Block2+Block3和Block1+Block2+Block4網(wǎng)絡(luò)塊的組合效果后對算法效果提升幅度不大,這種組合沒有能夠得到目標(biāo)的語義信息,僅有外觀和位置信息,特征表達不具魯棒性。同樣,對Block3+Block4+Block5組合而言,特征中缺乏目標(biāo)的外觀、位置等低層次信息,使得定位目標(biāo)變得困難。對于Block1+Block3+Block5按等差數(shù)列選取的平衡層次而言,會因為特征圖分辨率過高,導(dǎo)致計算量增大。經(jīng)過實驗對比,按Block2+Block4+Block5組合進行特征自適應(yīng)加權(quán)融合能得到最好的跟蹤效果。
表4 不同網(wǎng)絡(luò)塊組合在OTB100數(shù)據(jù)集上實驗結(jié)果
與此同時,我們在OTB100數(shù)據(jù)集上的前20個視頻序列上對比特征固定權(quán)重方式和特征自適應(yīng)加權(quán)融合方式的各個算法對比。對比指標(biāo)分別為平均中心位置誤差(CLE)、平均重疊率(OP)和平均精度(DP),對比結(jié)果見表5??梢娮赃m應(yīng)加權(quán)融合方式明顯優(yōu)于其它算法和特征固定權(quán)重的方式。
表5 不同算法的平均CLE、OP和DP對比
為了驗證雙注意力機制的有效性,對其組成部件單獨進行實驗。如圖11所示,其中Base是指除雙注意力機制外的其它算法模塊,CA代表通道注意力,SA代表空間注意力,本文算法在OTB100數(shù)據(jù)集上進行消融實驗,并對比SiamFC和CSR-DCF算法,單獨融合通道注意力模塊的方法在跟蹤精度指標(biāo)上比SiamFC提高0.066,驗證了本文算法所提雙注意力機制策略的有效性。
圖11 雙注意力機制部分在OTB100上實驗對比
如表6所示,在VOT2018數(shù)據(jù)集上,本文算法在各部件單獨作用的情況下,在準(zhǔn)確率(A)、魯棒性(R)和平均重疊率(EAO)指標(biāo)上比SiamFC均有提升,并且隨著獨立部件的增加,指標(biāo)A和指標(biāo)EAO都隨之提高。固定算法其它模塊的情況下增加空間注意力模塊,在準(zhǔn)確率和平均重疊率指標(biāo)上比SiamFC分別提升6.2%和7.1%。在此基礎(chǔ)上,算法融合通道注意力后,EAO指標(biāo)比SiamFC提高了10.2%。同時,算法的魯棒性得到了明顯提升(0.585→0.310)。
表6 雙注意力機制部分在VOT2018上實驗對比
如表7所示,我們在OTB50數(shù)據(jù)集上對算法的3個組成模塊(自適應(yīng)加權(quán)融合模塊、混合注意力模塊、聚合時序信息模塊)進行對比實驗,其中Base1是指融合了空洞卷積的ResNet50為主干網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)跟蹤算法。AdaptiveFusion是指自適應(yīng)加權(quán)融合,DualAttn指雙注意力機制,LTFS+CroAttn表示聚合時序信息模塊。從表中結(jié)果可以看到聚合時序信息模塊對算法整體性能提升最明顯,混合注意力模塊次之。通過實驗結(jié)果對比,能夠驗證本文所提出算法的有效性。
表7 算法3個組成模塊在OTB50上實驗對比
本文基于孿生網(wǎng)絡(luò)框架提出了一種改進的算法STASiam,使用融合空洞卷積的改良的深層次主干網(wǎng)絡(luò)ResNet50作為特征提取器。同時多層特征自適應(yīng)加權(quán)融合,結(jié)合雙通道注意力機制和聚合時序信息模塊,前向傳播時間運動上的先驗信息給搜索區(qū)域,加強網(wǎng)絡(luò)模型對目標(biāo)的辨別力,提升了孿生網(wǎng)絡(luò)算法在處理目標(biāo)遮擋、變形、旋轉(zhuǎn)時的魯棒性。在OTB和VOT數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明了本文算法的有效性。本文算法適用于通用目標(biāo)跟蹤,可以應(yīng)用于包括視頻監(jiān)控、車輛跟蹤等應(yīng)用領(lǐng)域。