張立國, 章玉鵬, 金 梅, 張 升, 耿星碩
(1.燕山大學(xué)河北省測試計量技術(shù)與儀器重點(diǎn)實(shí)驗(yàn)室,河北秦皇島066004;2.燕山大學(xué)電氣工程學(xué)院,河北秦皇島066004)
目前的跟蹤器是在給定視頻序列初始幀的目標(biāo)狀態(tài)下,跟蹤器盡可能地預(yù)測后續(xù)所有幀的目標(biāo)狀態(tài)。然而,由于在復(fù)雜背景下的視頻目標(biāo)跟蹤經(jīng)常受外界照明變化、遮擋等因素的影響;而且在極端環(huán)境下,非剛性物體外觀可能發(fā)生顯著變化,影響跟蹤的準(zhǔn)確性。因此開發(fā)一個能快速并且準(zhǔn)確的目標(biāo)跟蹤器依舊是一個高挑戰(zhàn)性的任務(wù)。
目前主流的目標(biāo)跟蹤算法是基于孿生網(wǎng)絡(luò)(siamese networks)。孿生網(wǎng)絡(luò)將目標(biāo)跟蹤問題描述為一個目標(biāo)匹配的任務(wù),旨在學(xué)習(xí)目標(biāo)模板和搜索區(qū)域之間的一般相似度。Bertinetto L等[1]構(gòu)建了一個完全卷積的孿生網(wǎng)絡(luò)來訓(xùn)練跟蹤器SiamFC,利用離線訓(xùn)練的骨干網(wǎng)絡(luò)從模板圖像和搜索圖像提取深度特征,然后采用在搜索區(qū)域進(jìn)行野蠻的多尺度測試,進(jìn)行目標(biāo)定位。Li B等[2]利用區(qū)域建議網(wǎng)絡(luò)構(gòu)建了SiamFPN跟蹤器,通過聯(lián)合訓(xùn)練分類分支和回歸分支進(jìn)行目標(biāo)跟蹤任務(wù),有效地減少了多尺度測試的耗時步驟;后來的跟蹤器SiamRPN++[3]和SiamDW[4]以不同的方式去除填充等影響因素。隨著無錨框檢測器的出現(xiàn),2020年Xu Y等[5]提出了SiamFC++跟蹤器,它去除了預(yù)定義的先驗(yàn)框,增加了質(zhì)量評估分支,以及后續(xù)提出的SiamCAR跟蹤器[6],添加了中心度分支,極大提高了目標(biāo)跟蹤的精確度和準(zhǔn)確性,但在GOT-10K[7]等挑戰(zhàn)性數(shù)據(jù)集基準(zhǔn)上的實(shí)時性和準(zhǔn)確性依舊比不上那些基于錨框的跟蹤器?,F(xiàn)有的跟蹤器在目標(biāo)發(fā)生頻繁的外觀變化、快速運(yùn)動、各類型遮擋等情況下很難實(shí)現(xiàn)跟蹤的準(zhǔn)確性,即讓主流的Siamese跟蹤器在將目標(biāo)模板初始化過程中丟失部分底層信息,導(dǎo)致視頻后續(xù)跟蹤失敗。
本文充分利用全卷積網(wǎng)絡(luò)的表達(dá)能力,提出了一種基于歸一化注意力機(jī)制和特征模板在線更新的孿生卷積網(wǎng)絡(luò)跟蹤器。首先,為防止跟蹤器在特征提取過程中丟失重要的淺層特征信息,引入一種注意力機(jī)制,抑制不顯著的特征信息;同時,提出了一種路徑增強(qiáng)策略,降低在特征提取過程中特征信息的損失;其次,為捕捉跟蹤過程中目標(biāo)外觀變化,提升算法魯棒性,提出了一種插件式的模板在線更新方法。
圖1所示為跟蹤器整體框架圖,該框架由4部分組成:①NAM模塊,對骨干網(wǎng)絡(luò)提取的特征進(jìn)行識別,抑制較不顯著的權(quán)重;②路徑增強(qiáng)模塊(PA_head),通過分裂合并策略,將主干網(wǎng)絡(luò)的后4層特征進(jìn)行自下而上的路徑增強(qiáng);③模板在線更新模塊,它是在推理過程中利用主干網(wǎng)絡(luò)后3層結(jié)構(gòu)的特征和參數(shù),與分類分支預(yù)測的得分圖加權(quán)計算,實(shí)現(xiàn)模板更新;④分類和回歸。
圖1 跟蹤器整體框架Fig.1 Overall framework of tracker
經(jīng)典的孿生卷積網(wǎng)絡(luò)一般包含目標(biāo)模板分支和目標(biāo)搜索分支兩個分支。目標(biāo)模板分支輸入尺寸為127×127像素的模板圖片Z,目標(biāo)搜索分支輸入尺寸為255×255像素的搜索圖片X。利用相同的主干模型輸出映射φ(Z)和φ(X),最后兩個分支通過深度互相關(guān)操作,計算公式如下:
ψ=φ(X)*φ(Z)
(1)
式中:φ表示卷積特征嵌入;*表示逐通道的互相關(guān)操作;ψ表示生成的響應(yīng)映射。
以往的研究是通過注意力機(jī)制捕捉顯著特征,參數(shù)量巨大,影響跟蹤速度。本文引入一種注意力機(jī)制,在不影響跟蹤速度的前提下捕捉顯著特征。NAM模塊如圖2所示。
引入的注意力機(jī)制采用了輕量注意力CBAM[8]的模塊,重新設(shè)計了信道注意力子模塊,在骨干網(wǎng)絡(luò)的4個殘差塊末端將其嵌入,通過訓(xùn)練模型權(quán)重的方差,抑制不顯著權(quán)重,突出顯著權(quán)重。其計算公式如下:
(2)
圖2 NAM模塊Fig.2 NAM module
本文提出的路徑增強(qiáng)模塊如圖3所示,它是一種特殊的特征融合機(jī)制,可以使梯度信息利用最大化,同時縮短特征信息的傳播路徑,最大程度利用網(wǎng)絡(luò)的低層次特征。
路徑增強(qiáng)策略通過分裂合并后再創(chuàng)建并行路徑,以此來更好地收集在神經(jīng)網(wǎng)絡(luò)底層的特征信息。以NAM模塊輸出的特征信息作為基本結(jié)構(gòu),用{P2,P3,P4,P5}表示經(jīng)過NAM模塊后的4層輸出特征,添加一個特征金字塔結(jié)構(gòu)骨架,并用{M3,M4,M5}來表示與{P3,P4,P5}對應(yīng)的新生成的特征層。用{N3,N4,N5}來表示與{M3,M4,M5}對應(yīng)的新生成的特征圖。通過通道級聯(lián)的方式,將高層次特征和低層次特征融合,最大程度地保留低層次特征。
圖3 路徑增強(qiáng)模塊Fig.3 Path enhancement module
將模板圖片和搜索圖片輸入主干網(wǎng)絡(luò),經(jīng)過NAM模塊抑制不顯著特征,通過路徑增強(qiáng)策略提升神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力,生成后3層特征分別進(jìn)行公式(1)的深度互相關(guān)操作,生成結(jié)果記為ψ3,ψ4,ψ5,再將生成的3層特征映射進(jìn)行組合,計算公式如下:
φ(X)=Cat(ψ3,ψ4,ψ5)
(3)
式中:ψ3,ψ4,ψ5是由模板分支和搜索分支經(jīng)過深度互相關(guān)得到的特征映射,故均包含256個信道。
為不影響后續(xù)的計算速度,需減少參數(shù)量,是通過降維的方式將φ(X)的信道數(shù)減小到256。最終得到的降維響應(yīng)映射圖ψ*作為后續(xù)分類和回歸模塊的輸入。
以往的孿生網(wǎng)絡(luò)跟蹤器,將目標(biāo)分類任務(wù)與目標(biāo)邊框回歸任務(wù)分開計算,這限制了任務(wù)的性能[9]。本文采用無錨框跟蹤器,將跟蹤問題轉(zhuǎn)化為分類回歸問題。
對于計算分類得分,先前的孿生網(wǎng)絡(luò)是從特征圖中固定的區(qū)域進(jìn)行估計目標(biāo)的位置,這種方式不能根據(jù)目標(biāo)尺度變化而進(jìn)行改變。將回歸信息處理后指導(dǎo)分類任務(wù)可以很好解決這一問題。即對于分類圖的每一位置(di,dj),都有對應(yīng)回歸分支預(yù)測的邊界框(l,t,r,b),將分類分支的固定采樣區(qū)域轉(zhuǎn)換到預(yù)測的邊界框中來提高采樣的準(zhǔn)確性。在分類網(wǎng)絡(luò)中如圖1所示,將降維響應(yīng)映射ψ*輸入分類分支,其中一個分支經(jīng)過4個信道數(shù)為256的3×3卷積和一個輸出信道數(shù)為2的3×3卷積得到特征圖Cls1,另一個分支利用轉(zhuǎn)換后的采樣區(qū)域經(jīng)過一個標(biāo)準(zhǔn)的3×3卷積操作,得到特征圖Cls2。將兩個分支得到的特征圖進(jìn)行加權(quán)融合。即:
Cls=γ′Cls1+(1-γ)Cls2
(4)
式中:γ′為超參數(shù),γ′=0.6。
本算法對分類分支簡單采用Faster-RCNN中的分類損失,即交叉熵?fù)p失。對于回歸分支,本算法未采用常用的IOU損失,而是采用優(yōu)化的DIOU損失,DIOU損失是在IOU損失基礎(chǔ)上引入一個懲罰項(xiàng),由此可以避免預(yù)測框和真實(shí)框在沒有任何重疊的情況下不提供移動梯度。總體損失函數(shù)為
L=LCls+τLDIOU
(5)
式中:Lcls表示用于分類的交叉熵?fù)p失;LDIOU表示用于回歸的DIOU損失;在實(shí)驗(yàn)過程中,超參數(shù)τ經(jīng)試驗(yàn)驗(yàn)證τ=3時效果最佳。
受ATOM[10]的啟發(fā),提出了一種插件式的在線更新模型模塊,以對目標(biāo)的外觀變化進(jìn)行建模,進(jìn)一步提高分類精度。如圖1所示,該分支利用主干網(wǎng)絡(luò)的最后3層特征層的輸出,生成特征圖Conline。在推理過程中采用ATOM提出快速共軛梯度算法對該分支進(jìn)行在線訓(xùn)練,最后將其與孿生網(wǎng)絡(luò)中分類分支的特征進(jìn)行加權(quán)。公式如下:
C′=?Cls+(1-?)Conline
(6)
式中:?為超參數(shù),在實(shí)驗(yàn)中設(shè)置為0.6; 在線更新模型過程中,使用加權(quán)生成的模板特征C′取代公式(1)中的φ(Z)。
此次實(shí)驗(yàn)過程均是在一臺PC機(jī)進(jìn)行的,所用機(jī)器的處理器是Intel(R)i5-10400 CPU,GPU是GeFore RTX 3060,顯存12G。本次實(shí)驗(yàn)共訓(xùn)練20個epoch。在前5個epoch中使用0.001到0.005的預(yù)熱學(xué)習(xí)率,在后面的15個epoch中使用從0.005到0.000 05的指數(shù)衰減學(xué)習(xí)率。另外,在前10個epoch,對路徑增強(qiáng)模塊和后面的分類和回歸分支進(jìn)行訓(xùn)練;后10個epoch,解凍骨干網(wǎng)絡(luò),以當(dāng)前學(xué)習(xí)率的1/10,對當(dāng)前的骨干網(wǎng)絡(luò)進(jìn)行微調(diào)。由實(shí)驗(yàn)將權(quán)重衰減設(shè)置為0.000 1,動量設(shè)置為0.9。在OTB100數(shù)據(jù)集上實(shí)現(xiàn)具有代表性的結(jié)果,圖4為本文設(shè)計的跟蹤器與主流跟蹤器SiamFC, SiamRPN, SiamFC++, SiamCAR的跟蹤效果對比。本文提出的算法具有良好的跟蹤性能,較之SiamFC, SiamRPN跟蹤更準(zhǔn)確,略優(yōu)于SiamFC++, SiamCAR。
本文評價跟蹤器在視頻上的跟蹤效果使用成功率(Success)、準(zhǔn)確率(Precision)、速度(FPS)3個評價指標(biāo)。定義準(zhǔn)確率為目標(biāo)跟蹤算法預(yù)測的目標(biāo)框與真實(shí)目標(biāo)框的重疊程度,數(shù)值越大,表示該算法的準(zhǔn)確性越好。使用成功率曲線下面積(AUC)來評價跟蹤器在所有跟蹤視頻中的跟蹤效果優(yōu)秀。邊框重疊率表示預(yù)測目標(biāo)框和真實(shí)目標(biāo)框的重疊比率,成功率定義為邊框重疊率大于閾值的跟蹤幀所占視頻總幀數(shù)的比例,分別記錄不同閾值下跟蹤成功率的變化情況得到成功率曲線。將本文算法在OTB2015和UAV123[11]上進(jìn)行測試,并與已有的先進(jìn)跟蹤算法(SiamFC, SiamRPN, SiamFC++, SiamCAR)進(jìn)行比較,可以看出提出的算法性能明顯優(yōu)于其他4種。
3.2.1 OTB100結(jié)果分析
OTB100數(shù)據(jù)集包含了外界光照變化(IV)、圖像尺度變化(SV)、目標(biāo)遮擋(OCC)、目標(biāo)變形(DEF)、目標(biāo)運(yùn)動模糊(MB)、目標(biāo)快速運(yùn)動(FM)、平面內(nèi)旋轉(zhuǎn)(IPR)、平面外旋轉(zhuǎn)(OPR)、目標(biāo)在視野外(OV)、圖像背景雜波(BC)和低分辨率(LR)11個方面。表1為本文所提出算法與目前4種主流的跟蹤器(SiamFC,SiamRPN,SiamFC++,SiamCAR)在OTB100數(shù)據(jù)集上做比較。相比較于經(jīng)典的跟蹤器SiamFC和SiamRPN,成功率分別提高了7.7%和6.4%,準(zhǔn)確率分別提高了10.0%和8.2%。
圖5是對5OTB100的各種屬性結(jié)果分析圖。將4種主流跟蹤器與提出的跟蹤器在OTB100上的各種屬性的成功率與準(zhǔn)確率進(jìn)行對比,與較先進(jìn)的跟蹤器SiamFC++和SiamCAR相比,本文提出的跟蹤器各方面均處于較先進(jìn)水平。
表1 在OTB100的性能對比
表2是在光照變化和背景復(fù)雜的性能對比情況,對于跟蹤背景復(fù)雜和發(fā)生光照變化的目標(biāo)分別取得了60.7%和64.5%的高成功率。
表2 在光照變化和背景復(fù)雜的性能對比
3.2.2 UAV123結(jié)果分析
UAV123數(shù)據(jù)集是比較常見的目標(biāo)跟蹤性能評價的數(shù)據(jù)集,它包括目標(biāo)快速運(yùn)動和外界光照變化以及目標(biāo)遮擋等方面。
表3為UAV123的性能對比,將提出的跟蹤器與主流跟蹤器進(jìn)行比較,所提出的跟蹤器與主流跟蹤器SiamRPN相比,成功率提升了7.2%,準(zhǔn)確率提高了6.2%。
表3 在UAV123的性能對比
從表3可以看出:本文提出的跟蹤器在保證跟蹤成功的同時幀率保持在36幀,而一般實(shí)時性要求要保持25幀,很明顯本文提出的跟蹤器達(dá)到了實(shí)時速度。
表4 跟蹤結(jié)果消融分析Tab.4 Ablation analysis of tracking results
本文針對當(dāng)前目標(biāo)跟蹤領(lǐng)域外界光照變化、圖像背景復(fù)雜等問題提出一種基于歸一化注意力機(jī)制的特征自適應(yīng)融合的無錨框?qū)\生卷積網(wǎng)絡(luò)目標(biāo)跟蹤算法(參見文獻(xiàn)[16]~文獻(xiàn)[18])。利用輕量級的注意力機(jī)制和路徑增強(qiáng)策略,強(qiáng)化網(wǎng)絡(luò)對淺層特征信息的學(xué)習(xí)。同時在推理過程利用在線跟蹤模塊對目標(biāo)模板進(jìn)行更新,提高了跟蹤器的魯棒性。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文算法在外界發(fā)生光照變化和圖像背景復(fù)雜時(參見文獻(xiàn)[19]~文獻(xiàn)[23])分別取得86.3%和82.8%較高的準(zhǔn)確率,優(yōu)于主流的其他4種跟蹤器。后續(xù)工作將進(jìn)一步致力于更高跟蹤精確度的研究。