李虹瑾,彭 力
物聯(lián)網(wǎng)技術(shù)應用教育部工程研究中心(江南大學 物聯(lián)網(wǎng)工程學院),江蘇 無錫214122
目標跟蹤作為計算機視覺領(lǐng)域的重要分支,一直是研究的熱點與難點,在智慧安防、視頻人機交互、現(xiàn)代化軍事等諸多領(lǐng)域都具有廣泛的應用[1]。近年來提出的跟蹤算法多以犧牲速度換取精度,而在真實場景任務(wù)中對跟蹤算法的速度卻有著很高的要求,這也使得很多優(yōu)秀算法難以真正落地,因此設(shè)計一種兼顧速度與精度的跟蹤器具有較大的現(xiàn)實意義。
縱觀目標跟蹤技術(shù)十幾年的發(fā)展,其經(jīng)歷了從經(jīng)典算法到基于核相關(guān)濾波算法,再到基于深度學習孿生網(wǎng)絡(luò)方法的過程。目前主流的算法依然是基于相關(guān)濾波方法以及深度網(wǎng)絡(luò)方法兩大類,前者以Henriques等人提出的KCF(kernelized correlation filter)[2]核化相關(guān)濾波器為代表。這類跟蹤算法利用自身循環(huán)移位來構(gòu)建虛擬訓練樣本,雖然運行效率高,但是會出現(xiàn)邊界效應問題,在復雜跟蹤場景下的魯棒性較差,因此跟蹤精度一直不高。隨著計算機計算能力大幅提升,深度學習幾乎主導了計算機視覺領(lǐng)域,同時也極大地推動了后者算法的發(fā)展。Bertinetto 等人提出了SiamFC(fully-convolutional Siamese networks)[3]算法,開辟了孿生網(wǎng)絡(luò)應用于目標跟蹤的先河。該算法使用孿生網(wǎng)絡(luò)結(jié)構(gòu)提取目標模板圖像與搜索圖像的特征,接著利用交叉相關(guān)計算兩者的相似度,最終預測目標位置為響應圖的峰值處。此后眾多優(yōu)秀的跟蹤算法皆在此之上提出,He 等人提出SA-Siam(semantic and appearance Siamese network for realtime object tracking)[4]跟蹤算法,使用兩個孿生網(wǎng)絡(luò)分別學習目標的語義特征與外觀特征,提升了跟蹤器的泛化能力。Zhang 等人提出SiamDW(deeper and wider Siamese networks for real-time visual tracking)[5]算法,將主干網(wǎng)絡(luò)替換成CIResNet,并且設(shè)計了剪裁殘差單元,有效解決了深度模型應用到目標跟蹤上的退化問題。注意力機制由于其可以減少無關(guān)信息,強調(diào)重要信息,已經(jīng)被廣泛應用于許多視覺任務(wù)中。Li等人[6]引入了一個編碼器-解碼器注意力模塊,通過壓縮特征圖并建立孿生網(wǎng)絡(luò)中各通道之間的關(guān)系,以實現(xiàn)對不同特征的過濾。文獻[7]通過整合不同類型的注意力機制,包括空間注意力、殘差注意力和通道注意力,極大地緩解了過擬合情況。SiamAttn(deformable Siamese attention networks)跟蹤算法[8]提出一種新的孿生注意力機制,包括可變形的自注意力機制和互注意力機制。其中,自注意力機制通過通道注意力和空間注意力學習了豐富的上下文信息以及選擇性地加強通道特征之間的依賴,該算法在各個數(shù)據(jù)集上的實驗結(jié)果都達到了先進水平,并且可以保持實時速度。如今,大部分研究人員都將工作重心放在提升跟蹤準確率上,但是隨著深度網(wǎng)絡(luò)結(jié)構(gòu)越發(fā)龐大,在線跟蹤的機制也更加復雜,導致了模型參數(shù)量和計算量劇增,雖然提升了精度但是也極大犧牲了速度。
本文在SiamFC 算法的基礎(chǔ)上,旨在兼顧跟蹤精度與速度,提出一種基于特征增強的輕量級孿生網(wǎng)絡(luò)的高速跟蹤算法,具體包含以下三項改進:(1)使用改進后的輕量級網(wǎng)絡(luò)ShuffleNet[9]作為骨干網(wǎng)絡(luò)用于特征提取,調(diào)整結(jié)構(gòu)使其適用于跟蹤。(2)為了提升模型特征判別能力,引入通道和空間雙重注意力機制,突出對跟蹤有利的特征。(3)設(shè)計一種分層特征融合策略,從多個層級完善目標的外觀表達,生成更高質(zhì)量的相似度響應圖。實驗結(jié)果表明所提跟蹤算法在OTB100 和VOT2018 數(shù)據(jù)集上較基準的SiamFC 算法的跟蹤準確率與速度都有大幅提升。在NVIDIA GTX1070 顯卡上的跟蹤速度達到約110 FPS的同時,在OTB100 數(shù)據(jù)集上距離精度和重疊成功率分別領(lǐng)先了8.3 個百分點和6.5 個百分點,更好地兼顧了精度與實時性。
本文在SiamFC 的基礎(chǔ)上提出一種特征增強的輕量級高速跟蹤算法,算法框架如圖1 所示。首先,使用輕量級網(wǎng)絡(luò)ShuffleNetV2 作為骨干網(wǎng)絡(luò),通過裁剪卷積后得到特征圖的最外層特征,減少填充操作(padding)帶來的位置偏差。其次,融合了骨干網(wǎng)絡(luò)提取的深層與淺層特征,豐富了對目標的表征。最后,在模板分支的末端嵌入雙重注意力模塊,使模板特征更具分辨能力。
圖1 本文跟蹤算法框架Fig.1 Overall network architecture of proposed tracker
本文算法使用的是孿生網(wǎng)絡(luò)結(jié)構(gòu),由特征提取網(wǎng)絡(luò)與相似度計算模塊兩部分構(gòu)成。每一路分支采用同樣的網(wǎng)絡(luò)結(jié)構(gòu)且權(quán)值共享,這樣既減少了模型的參數(shù)量也保證了映射空間的一致性。使用孿生網(wǎng)絡(luò)做相似性學習,可以將跟蹤過程簡化為目標與候選區(qū)域進行匹配的過程。
在一個搜索區(qū)域內(nèi)使用互相關(guān)進行模板圖片z和搜索圖片x之間的相似性度量,如式(1)所示。
其中,φθ表示經(jīng)過參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)得到的特征圖,b?1 表示偏置項,?為互相關(guān)運算,fθ(z,x)反映了輸入圖像對的相似度。整個跟蹤過程可以描述為:把第一幀提供的目標圖像作為模板圖像,后續(xù)幀作為搜索圖像,將模板圖像和搜索圖像都放入深度孿生網(wǎng)絡(luò)中,得到兩者的特征圖;然后進行互相關(guān)操作,即以模板分支得到的特征圖作為卷積核在搜索分支最終特征圖上進行卷積操作,得到最終的得分響應圖。與目標相似度越高的區(qū)域在響應圖上的值就越大,反之則會產(chǎn)生很小的響應值,由此就可以通過響應圖追溯到原圖中待跟蹤目標的位置。
在離線訓練過程中,定義響應圖上各點的邏輯損失為式(2):
其中,v代表送入圖像對的實際得分,y∈{-1,1}表示樣本的真實標簽值。不同的搜索區(qū)域?qū)臉撕炛岛凸乐狄膊煌?,最終由全部搜索區(qū)域構(gòu)成一張相似度相應圖D。在算法訓練時定義損失函數(shù)為響應圖的均值,如式(3):
其中,u表示響應圖D上的各個位置點,真實標簽值y(u)生成如式(4),正樣本代表相似即與響應圖中心c距離不超過R,用1 表示,剩下位置皆為不相似,用-1表示。
1.2.1 深度可分離卷積
SiamFC 算法使用AlexNet 作為骨干網(wǎng)絡(luò)提取目標特征,但是該網(wǎng)絡(luò)只有五個卷積層,參數(shù)量較小,雖然帶來了可觀的跟蹤速度,但是由于淺層網(wǎng)絡(luò)對目標特征的判別能力不足,導致了跟蹤準確率受限。如果直接將網(wǎng)絡(luò)替換成更深層次的網(wǎng)絡(luò),意味著網(wǎng)絡(luò)結(jié)構(gòu)會更復雜,參數(shù)量劇增。此時為了滿足高速指標就只能使用性能優(yōu)越的大型服務(wù)器,而在實際應用中很難達到這一硬性條件。
隨著谷歌公司提出一種新的卷積操作——深度可分離卷積[10],輕量級網(wǎng)絡(luò)自此在計算機視覺領(lǐng)域初露鋒芒。因此本文算法選擇比AlexNet[11]層數(shù)更多,參數(shù)量和計算量更小的ShuffleNetV2 作為主干網(wǎng)絡(luò)。ShuffleNetV2 使用深度可分離卷積,是一種高性能輕量級網(wǎng)絡(luò)。
深度可分離卷積可分為逐通道卷積和逐點卷積兩部分。逐通道卷積實際上是在二維平面內(nèi)進行,如圖2 所示,輸入的每一個通道都會由一個卷積核進行滑窗運算,這就要求卷積核的數(shù)量要與輸入通道數(shù)相同。由于對輸入層的每個通道進行獨立運算,忽略了通道不同但空間位置相同的特征信息,即輸入的各個通道沒有關(guān)聯(lián),因此需要第二步的逐點卷積。圖3 展示了逐點卷積的過程,輸出通道數(shù)等于卷積核數(shù)目,其本質(zhì)就是使用寬高為1 的卷積核將不同層的特征信息在深度方向上進行加權(quán)組合,生成最終的特征圖。用DF表示輸出特征的大小,DK表示卷積核的大小,M和N代表輸入輸出的通道數(shù),則一次標準卷積的計算量如式(5):
圖2 逐通道卷積Fig.2 Depthwise convolution
圖3 逐點卷積Fig.3 Pointwise convolution
而一次深度可分離卷積的計算量如式(6):
兩者計算量之比α表示為式(7):
可以明顯看出卷積核越小,兩者的運算量相差就會越大。ShuffleNet 中卷積核的大小為3,理論上深度可分離卷積是標準卷積運算量的1/9。
深度可分離卷積的計算量主要集中在逐點卷積M×N的運算,因此在ShuffleNet 中各通道關(guān)聯(lián)的方式不直接采用1×1 的卷積進行加權(quán)組合,而是進行通道重排。該過程可表示為圖4,輸入特征按照通道分組后進行交叉重排形成新的特征分布,每一組特征都源自上層不同分組,如此一來通道不同的特征信息可以在不同分組之間輪轉(zhuǎn)實現(xiàn)通道通信。
圖4 通道重排Fig.4 Channel shuffle
1.2.2 網(wǎng)絡(luò)結(jié)構(gòu)改進
為了使ShuffleNetV2 能夠有效地完成跟蹤任務(wù),需要對網(wǎng)絡(luò)結(jié)構(gòu)做出幾點改進。實驗發(fā)現(xiàn),直接使用更深層的網(wǎng)絡(luò)如ResNet[12]、Vgg[13]替換SiamFC 算法中的AlexNet 無法帶來性能增益,主要原因在于填充操作以及網(wǎng)絡(luò)總步長。
本文研究發(fā)現(xiàn)Padding 操作會帶來位置偏差,導致跟蹤成功率急劇下降。在卷積操作時為了保證輸入輸出特征圖尺寸不變通常會進行邊緣填充,一般是在特征圖四周補零。圖5 展示了Padding 操作帶來的位置偏差。如果深度網(wǎng)絡(luò)采用了填充操作,那么模板特征不僅包含了原始圖像信息,還具備邊緣的填充信息,如圖5(a);當目標運動到圖像邊緣時,位于邊緣處的候選區(qū)域同時包含了原始信息以及填充信息,如圖5(b)中橙色區(qū)域;而其余候選區(qū)域卻只包含了圖像本身信息,如圖5(b)中藍色區(qū)域。由于模板圖像與搜索圖像都是以目標為中心進行剪裁,隨著特征嵌入信息改變,即使得到了最大響應值,最終的相似性度量也發(fā)生偏差,導致最后跟蹤失敗。為了減少Padding 帶來的偏差影響,通過剪裁操作去掉主干網(wǎng)絡(luò)中部分特征圖最外圍特征,在確保特征圖尺寸適宜的前提下盡可能提升跟蹤精度。
圖5 填充導致的位置偏見Fig.5 Position bias caused by padding
原始ShuffleNetV2 網(wǎng)絡(luò)總步長為32,適用于完成圖像分類任務(wù),但是步長越大,空間信息就會越模糊,難以適應跟蹤任務(wù)。對于目標跟蹤而言,它關(guān)注的重點在于待跟蹤目標的精準定位而不是目標屬于哪一類,因此需要捕獲更多有效的空間信息來幫助定位。除此之外,步長會直接影響到特征圖輸出的尺寸以及感受野的大小。如果網(wǎng)絡(luò)步長過大,那么最終特征圖的尺寸就會較小,同時空間分辨率很低,難以保留深層特征圖中的大量特征信息。另一方面感受野也會越大,導致特征提取區(qū)域變大最終反映到對目標位置信息不夠敏感。當然網(wǎng)絡(luò)感受野也不宜過小,不僅會出現(xiàn)目標無法完全覆蓋的問題,還會帶來計算負擔導致跟蹤速度下降。在權(quán)衡跟蹤精度與速度指標后,最終調(diào)整網(wǎng)絡(luò)總步長為8。
本文算法以ShuffleNetV2 為骨干網(wǎng)絡(luò),在原先網(wǎng)絡(luò)的基礎(chǔ)上,裁剪掉受Padding 操作影響的特征圖的最外圍特征,刪除了原先ShuffleNetV2 的Stage4 和第一次卷積后的最大池化層,同時將Stage3 中的BottleNeck 的重復次數(shù)由8 變?yōu)?,保證了網(wǎng)絡(luò)總步長為8。表1 展示了修改后的骨干網(wǎng)絡(luò)結(jié)構(gòu)。
表1 骨干網(wǎng)絡(luò)的主要結(jié)構(gòu)Table 1 Detailed backbone configuration of proposed tracker
在原始SiamFC 算法中,深度網(wǎng)絡(luò)提取到圖像特征后是平等地對待各通道的特征信息,然而對于卷積網(wǎng)絡(luò)來說,即使是同一個卷積層,不同的特征通道的響應值也不一致,響應值較大的通道說明該通道提取特征較為重要,反之則作用不大。SENet(squeezeand-excitation networks)[14]作為代表性的通道注意力網(wǎng)絡(luò),給每個通道賦予權(quán)重突出重要特征信息。CBAM(convolutional block attention module)[15]在此基礎(chǔ)上又引入了空間注意力,提升網(wǎng)絡(luò)對空間特征信息敏感性。BAM(bottleneck attention module)[16]是繼CBAM 后的又一次嘗試,不同于CBAM 先經(jīng)過通道注意力再進入空間注意力,BAM 采用的是兩種注意力并行連接的方式。
本文受BAM 的啟發(fā),為了提升骨干網(wǎng)絡(luò)對于特征信息的判別能力,僅在模板分支嵌入輕量級設(shè)計的通道和空間注意力模塊。不同于BAM 中激活函數(shù)使用ReLU(rectified linear unit)[17],本文算法將通道與空間注意力中的激活函數(shù)全部替換為PReLU(parametric rectified linear unit)[18]。ReLU 是目前深度學習中常用的激活函數(shù),它的數(shù)學表達式如式(8):
PReLU 的數(shù)學表達式如式(9):
PReLU 激活函數(shù)能夠自適應學習參數(shù),并在幾乎不產(chǎn)生額外計算成本的條件下提高精度,與本文追求精度與速度兼?zhèn)涞母櫵惴ǖ淖谥枷嗥鹾?。所嵌入的雙重注意力結(jié)構(gòu)可表示為圖6,紅色虛線框部分表示通道注意力,藍色虛線框表示空間注意力。對于一張給定的特征圖F可以得到一個注意力映射M(F),加強后的特征圖F′可以表示為式(10),其中?為對應元素逐個相乘。
圖6 空間與通道注意力模塊結(jié)構(gòu)Fig.6 Detailed spatial and channel attention module architecture
由于每個通道都包含著特定的特征響應,通道注意力模塊的任務(wù)就是要篩選出響應大的神經(jīng)元讓它們盡可能大地發(fā)揮作用,同時抑制不太重要的特征信息,讓各個通道響應值差距拉大,使接下來的相似性度量計算更為準確。為了在通道分支中充分利用通道間的關(guān)系以及聚合特征圖在每個通道的信息,首先采用全局平均池化,接著通過兩個全連接層,在最后添加批量歸一化層(batch normalization,BN)來調(diào)整通道分支輸出的尺度。通道注意力的計算可以總結(jié)為式(11):
與通道注意力相似,空間注意力的目的是突出或削弱在不同空間位置的特征信息。文獻[19]提到如果感受野較大就可以有效地利用上下文信息,知道應該去關(guān)注哪些空間位置。因此,在空間分支主要用到空洞卷積來放大感受野,圖7 和圖8 分別為標準卷積和空洞卷積的示例。相比普通卷積,空洞卷積能夠在不丟失分辨率的情況下仍然擴大感受野,此外隨著參數(shù)設(shè)置的不同,它還可以捕獲多尺度上下文信息。因此,空間分支主要流程為:首先經(jīng)過1×1 的卷積對通道維數(shù)進行整合壓縮,接著利用兩個3×3 空洞卷積充分利用上下文信息,最后通過一個1×1 的卷積將通道壓縮為1??臻g注意力的計算可以總結(jié)為式(12):
圖7 標準卷積Fig.7 Standard convolution
圖8 空洞卷積Fig.8 Dilated convolution
經(jīng)過通道注意力分支可得到Mc(F),空間注意力分支得到Ms(F),兩者融合得到最終的注意力映射M(F),如式(13)。
孿生網(wǎng)絡(luò)跟蹤算法中至關(guān)重要的一步就是衡量相似度生成得分響應圖,根據(jù)響應圖估計目標的位置。本文在SiamFC 的基礎(chǔ)上,為了進一步提升算法精度與魯棒性,采取了分層特征融合策略。文獻[20]中提到,不同位置的卷積層蘊含的信息有所不同,淺層卷積可以更好地保留目標位置輪廓等結(jié)構(gòu)特征,而深層卷積側(cè)重點在于提取目標語義特征。圖9 為模板圖像與搜索圖像分別經(jīng)過淺層卷積與深層卷積后得到的特征圖。
圖9 淺層與深層特征圖Fig.9 Shallow and deep feature maps
為兼顧淺層結(jié)構(gòu)特征與深層語義特征實現(xiàn)更精準的跟蹤,算法以改進后的ShuffleNetV2 作為主干網(wǎng)絡(luò),對Stage2 最后一層輸出特征進行下采樣操作,分別使用采樣后的特征和最后一層卷積的特征對模板圖片和搜索圖片進行相似度衡量,生成兩張尺寸一樣的響應圖。圖10分別展示了利用Stage2末層、最后一層生成的響應圖以及最終響應圖。Stage2末層特征保留了豐富的空間信息,生成淺層的響應圖有利于對目標的定位,而最后一層特征蘊含了目標的語義信息,生成深層的響應圖能夠有效處理目標變化。因此將兩張響應圖按照通道維度進行拼接,再利用1×1 卷積生成通道數(shù)為1的最終響應圖,可表示為式(14):
圖10 三種響應圖Fig.10 Three types of response maps
其中,r、rlast及r2分別表示最終響應圖、最終層及Stage2 末層通過式(1)得到的響應圖,klast和k2是通過學習得到各個響應圖的權(quán)重,b是卷積核的偏置項。通過式(14)可以看出,兩張響應圖是采取線性加權(quán)融合的方式,通過端到端的離線訓練,學習到一個相對穩(wěn)定和魯棒的權(quán)值參數(shù)。所提分層融合策略能夠在提取到豐富的語義信息的同時保留淺層結(jié)構(gòu)信息,從多個層面表征目標,提升最終響應圖的質(zhì)量,最終實現(xiàn)更為精準魯棒的跟蹤。
本文算法是基于Pytorch0.4.1 深度學習框架實現(xiàn)的,操作系統(tǒng)為Ubuntu16.04,16 GB 內(nèi)存,CPU 為英特爾i7-8700,顯卡是NVIDIA GeForce GTX 1070,8 GB 顯存。
實驗選用Got-10K 數(shù)據(jù)集進行模型離線訓練,該數(shù)據(jù)集包含大約10 000 個視頻序列和150 萬個手動標注的邊界框。整個訓練過程經(jīng)歷了50 個階段,每個階段有約10 000 個圖片對,使用ShuffleNetV2 預訓練模型對卷積層參數(shù)進行初始化,利用動量為0.9 的隨機梯度下降法來優(yōu)化網(wǎng)絡(luò),學習率由10-2指數(shù)衰減到10-5。圖11展示了訓練階段損失函數(shù)的收斂曲線。
圖11 損失函數(shù)收斂曲線Fig.11 Convergence curve of loss function
在線跟蹤過程中,輸入模板圖像大小為127×127×3,搜索圖像大小為255×255×3,圖像對進入到各自的網(wǎng)絡(luò)分支最終得到大小為17 的得分圖。使用縮放因子為1.037 5 的3 個不同尺度的搜索圖像塊分別與模板圖像進行相似性度量,響應最大的值就對應了當前幀最佳的尺度。
OTB100 數(shù)據(jù)集是一個公開的目標跟蹤測試基準,共包含100 個人工標注的視頻序列。OTB100 的測評方法是一次評估(one-pass evaluation,OPE),使用歐氏距離精度圖和重疊成功率圖來衡量跟蹤算法的優(yōu)劣。歐式距離精度圖是根據(jù)中心位置的誤差進行繪制,衡量的是跟蹤器預測的目標框與實際目標框中心的歐氏距離,可表示為式(15):
其中,(xA,yA)是跟蹤器預測的目標中心,(xG,yG)是實際的目標中心。而重疊成功率評估的是跟蹤器預測的目標框與實際目標框之間的重疊率,也稱為交并比,數(shù)學定義為式(16):
其中,BA和BG分別表示跟蹤器得到的目標框與實際的目標框。
為了驗證本文提出跟蹤算法的性能,將與其他8種跟蹤算法在OTB100 數(shù)據(jù)集上進行對比實驗,對比算法包括SiamRPN[21]、CIResNet22-FC(又稱SiamDW)、MemTrack[22]、UDT+[23]、DCFNet[24]、SiamTri[25]、CFNet[26]和SiamFC,OPE 實驗結(jié)果如圖12 所示。本文算法不論是在距離精度指標還是重疊成功率指標都取得了最好的結(jié)果,相較于基礎(chǔ)算法SiamFC,更是在距離精度上提升了8.3 個百分點,在重疊成功率上領(lǐng)先了6.5個百分點,驗證了提出的幾點改進方法是具有可觀增益的。相比同在SiamFC 基礎(chǔ)上改進的SiamDW算法,本文算法在距離精度和重疊成功率上分別取得了2.5 個百分點和1.4 個百分點的增益。SiamDW以CIResNet22 作為骨干網(wǎng)絡(luò)提取特征,所提算法在使用ShuffleNet 的基礎(chǔ)上嵌入了雙重注意力機制進行特征提取,融合了分層響應圖,故而具備更強的特征判別能力。不同于SiamRPN 使用大規(guī)模數(shù)據(jù)集進行網(wǎng)絡(luò)訓練,本文算法在訓練時只使用了少量數(shù)據(jù)集,雖然在兩項指標上只取得了少量的提升,但是極具發(fā)展?jié)摿Α?/p>
圖12 9 種算法在OTB100 上的總體精度和成功率圖Fig.12 Overall precision and success rate plot with 9 trackers on OTB100 benchmark
為了與其他跟蹤算法進行更全面的對比,在OTB100 數(shù)據(jù)集上測試了不同困難場景下的跟蹤表現(xiàn),圖13 與圖14 展示了測評結(jié)果。實驗1 共評估了11 項挑戰(zhàn)屬性:快速運動、背景擾動、運動模糊、形變、光照變化、平面內(nèi)旋轉(zhuǎn)、低分辨率、遮擋、平面外旋轉(zhuǎn)、出視野、尺度變化。本文算法無論是距離精度指標還是重疊成功率指標都處于領(lǐng)先地位。在重疊成功率這項指標上,所提算法在其中7 項挑戰(zhàn)中表現(xiàn)最優(yōu),在3 項挑戰(zhàn)中表現(xiàn)次優(yōu)。在運動模糊挑戰(zhàn)中,本文算法在重疊成功率指標取得了0.674 的佳績,說明跟蹤器具有較強的魯棒性。對比DCFNet相關(guān)濾波算法通過將網(wǎng)絡(luò)輸出定義為目標位置的概率熱圖完成在線學習和跟蹤,所提算法使用端到端的離線學習,避免了在線訓練更新十分耗時的問題,同時融合了淺層結(jié)構(gòu)特征與深層語義特征增強魯棒性,在大幅度提升精度的同時速度也得到了保證。在11 項困難因素中表現(xiàn)出的優(yōu)異結(jié)果都證明了所提改進方法的有效性。
圖13 9 種跟蹤器在OTB100 上各挑戰(zhàn)屬性的精度圖Fig.13 Attribute-based precision plots with 9 trackers on OTB100 benchmark
圖14 9 種跟蹤器在OTB100 上各挑戰(zhàn)屬性的成功率圖Fig.14 Attribute-based success rate plots with 9 trackers on OTB100 benchmark
圖15 展示了幾種算法在OTB100 數(shù)據(jù)集上4 個序列的跟蹤結(jié)果可視化,對所提算法進行定性分析。實驗結(jié)果表明,本文算法在這些序列上能夠準確地定位目標。Board 序列的跟蹤難點在于運動模糊、快速運動、平面外旋轉(zhuǎn)以及背景復雜。當目標快速運動到264 幀位置時,SiamFC 和SiamRPN 已完全跟丟目標,611 幀目標做平面外旋轉(zhuǎn),SiamFC 一直丟失目標,SiamRPN 重新找回目標,而本文跟蹤器與CIResNet22-FC 一直準確跟蹤目標。整個運動過程目標都處于背景復雜的條件下且周圍有相似物體產(chǎn)生干擾,而所提算法能夠在每一幀都成功定位目標,這得益于分層特征融合,實現(xiàn)了從結(jié)構(gòu)到語義多方面地表征物體。ClifBar 序列具備尺度變化、遮擋、運動模糊、快速運動以及出視野的跟蹤難點。目標在155 幀出現(xiàn)運動模糊,除了本文算法能夠跟準目標,其他算法都出現(xiàn)或多或少的偏移。269 幀目標發(fā)生尺度變化,本跟蹤器和CIResNet22-FC 依然能夠準確定位目標,SiamFC 和SiamRPN 已完全丟失目標。DragonBaby 序列跟蹤難點是遮擋、運動模糊、快速運動、平面內(nèi)旋轉(zhuǎn)以及平面外旋轉(zhuǎn)。在第52 幀,目標快速移動造成了運動模糊,由于CIResNet22-FC 只學習了深度特征,缺乏一定的空間信息最終跟蹤失敗,而本文算法嵌入了雙重注意力機制,增強了對目標重要特征的表達,實現(xiàn)了精準的跟蹤。Tiger2 序列存在光照變化、遮擋、形變以及出視野的困難因素。在第174 幀,目標所處環(huán)境光照發(fā)生劇烈變化,只有本文算法預測框能夠準確完整鎖定目標,進一步體現(xiàn)所提算法應對復雜環(huán)境具備較強的魯棒性。
圖15 OTB100 數(shù)據(jù)集上一些序列的跟蹤結(jié)果Fig.15 Tracking results of some sequences on OTB100 benchmark
從上述分析可以看出,所提算法能夠在多種困難挑戰(zhàn)下對目標進行精準的定位,實現(xiàn)了高精度跟蹤這一目標。
VOT 是視覺領(lǐng)域一年一度的目標跟蹤競賽,VOT 數(shù)據(jù)集也成為當前業(yè)內(nèi)主流測試集之一。VOT2018 數(shù)據(jù)集一共包括60 組視頻序列,它定義的真實目標框是旋轉(zhuǎn)矩形框,相比OTB100 軸對齊矩形框更加精細,跟蹤也更具難度。VOT2018 主要有三項跟蹤性能衡量指標,分別為平均期望重疊率EAO(expect average overlap rate)、準確率A(accuracy)、魯棒性R(robustness)。
為進一步驗證所提算法的通用性,表2 展示了在VOT2018 數(shù)據(jù)集上的測試結(jié)果,對比算法包括DSiam[27]、DCFNet、DensSiam[28]、SiamFC、Staple[29]以及KCF,表中加粗字體表示最優(yōu)結(jié)果,下劃線表示次優(yōu)結(jié)果??梢钥闯?,所提算法在平均期望重疊率指標位列第一,有著不錯的跟蹤表現(xiàn)。對比基準算法SiamFC,本文算法EAO 指標提升近0.06,同時準確率和魯棒性都得到了大幅改進。DensSiam 算法同樣是以SiamFC 為基礎(chǔ)做改進,將其骨干網(wǎng)絡(luò)AlexNet 替換為密集連接的DenseNet,提高特征提取水平。而本文算法在替換骨干網(wǎng)絡(luò)為輕量級的ShuffleNet 的同時,嵌入了通道與空間雙重注意力機制來突出重要特征,進一步強化了特征判別能力,故在各項指標跟蹤表現(xiàn)更為優(yōu)異。相比使用傳統(tǒng)特征的Staple 算法,所提算法學習到更強大的深度特征,EAO 指標提升0.077。同時,本文算法跟蹤速度可以達到110 FPS,高于基準SiamFC 算法的90 FPS,雖然不及KCF 算法能達到150 FPS,但在精度方面占據(jù)了更大優(yōu)勢。綜上來看,本文算法能夠更好地平衡跟蹤精度與速度,具備更大的發(fā)展空間。
表2 7 種算法在VOT2018 上的表現(xiàn)對比Table 2 Performance comparison of 7 trackers on VOT2018 benchmark
通過與SiamFC 算法的骨干網(wǎng)絡(luò)的參數(shù)量、計算量以及模型大小三項指標進行對比,進一步驗證本文算法的輕量程度。參數(shù)量指的是神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的數(shù)目,計算量包含神經(jīng)網(wǎng)絡(luò)中卷積層與批量歸一化層的乘法和加法的次數(shù)總和,模型大小則是指通過離線訓練得到最終模型占用的存儲量。設(shè)輸入模板圖像的大小為127,對比結(jié)果如表3。所提算法由于使用了深度可分離卷積和通道重排策略,在三項指標中均表現(xiàn)優(yōu)異。從參數(shù)量和計算量來看,SiamFC 幾乎是本文算法的10 倍,ResNet 則更多。此外,本文算法的模型占用空間僅有約1 MB,也遠遠小于另外兩種模型。
表3 不同模型的參數(shù)量、計算量和模型大小Table 3 Number of parameters,calculation amount and model size of different models
從上述分析可以看出所提算法不僅計算量少,模型存儲占用也很小,在保持輕量的同時兼顧跟蹤精度,發(fā)展?jié)摿εc應用價值都可見一斑。
2.5.1 成分有效性分析
為了驗證本文所提出的三點改進策略——使用改進后的輕量級網(wǎng)絡(luò)ShuffleNet 作為骨干網(wǎng)絡(luò)提取特征、通道與空間雙重注意力機制(spatial and channel attention,SCA)以及分層特征融合(hierarchical feature fusion,HF)的有效性,在OTB100 數(shù)據(jù)集上進行了消融實驗,以SiamFC 作為基礎(chǔ)算法,實驗結(jié)果如表4 所示。
表4 本文算法與基礎(chǔ)算法消融實驗Table 4 Ablation experiment of proposed algorithm and benchmark algorithms
從實驗結(jié)果可以看出,替換SiamFC 主干網(wǎng)絡(luò)為輕量級的ShuffleNet,跟蹤準確率得到了明顯的提升,其中在重疊成功率指標提升了0.039,這得益于深層網(wǎng)絡(luò)較淺層網(wǎng)絡(luò)更強的特征表達能力。其次,使用分層特征融合策略在重疊成功率指標獲得了0.008 的增益,而嵌入通道與空間雙重注意力機制提升了0.006。最后,同時融合三點改進策略得到最佳跟蹤效果。
2.5.2 特征融合可視化分析
為了更加直觀地說明分層特征融合策略在應對復雜場景中目標變化的有效性,本小節(jié)對算法中衡量相似度時用到的Stage2 末層和最后一層生成的響應圖,以及最終融合后的響應圖進行了可視化,如圖16??梢暬Y(jié)果第一列為原圖像,其中被跟蹤的目標由紅框標注;第二、三列展示了Stage2末層和最后一層經(jīng)過相似度量得到的響應圖;最后一列是特征融合后的響應圖??梢钥闯?,融合后的響應圖相比單一的響應圖能量更加集中,在干擾較少的區(qū)域幾乎沒有能量響應。在第2 幀中,目標周圍有相似干擾物,Stage2 末層的響應圖的峰值很突出,但最后一層的響應圖卻是能量分散沒有聚焦。而在第117 幀中,目標也幾乎與其他球員重疊,最后一層的響應圖卻比Stage2 末層的響應圖能量更加集中。由此可以看出,單單使用一層特征生成的響應圖是不夠全面的,相反,不同層提取的特征可以進行互補完善,因此,使用分層特征融合可以從多個角度對目標進行表征,改善響應圖質(zhì)量從而提升跟蹤質(zhì)量。
圖16 特征融合可視化Fig.16 Feature fusion visualization
本文在SiamFC 算法的基礎(chǔ)上為兼顧跟蹤精度與速度,提出了一種特征增強的輕量級孿生網(wǎng)絡(luò)高速跟蹤算法。使用改進后的ShuffleNetV2 作為骨干網(wǎng)絡(luò)提取目標特征,通過在網(wǎng)絡(luò)的最后嵌入通道與空間雙重注意力增強特征信息,突顯重要特征,最后分層融合特征響應圖,提升模型泛化能力。所提算法在OTB100 和VOT2018 數(shù)據(jù)集上進行了大量的實驗,結(jié)果表明了本文算法在跟蹤精度、成功率以及速度上遙遙領(lǐng)先基準SiamFC 算法。在OTB100 上的跟蹤精度和成功率分別達到了0.854和0.647;在VOT2018數(shù)據(jù)集上的預期平均重疊率達到了0.246;同時在NVIDIA 1070 下的速度達到110 FPS 實現(xiàn)了高速跟蹤。所提算法在跟蹤精度提升的前提下,大幅度提升了跟蹤速度,完成了高速而準確的跟蹤,具有一定的應用價值與發(fā)展?jié)摿Α?/p>