王向軍,郝忻,王霖
(1.天津大學(xué)精密測(cè)試技術(shù)及儀器國(guó)家重點(diǎn)實(shí)驗(yàn)室,天津 300072;2.天津大學(xué)微光機(jī)電系統(tǒng)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,天津 300072)
近年來(lái),隨著科學(xué)技術(shù)的不斷發(fā)展,計(jì)算機(jī)視覺(jué)已成為一個(gè)熱門的領(lǐng)域。其中,目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方向[1],也受到了越來(lái)越多的關(guān)注。目前,目標(biāo)跟蹤技術(shù)在監(jiān)控安防、無(wú)人駕駛和增強(qiáng)現(xiàn)實(shí)等不同領(lǐng)域都有了廣泛的應(yīng)用[2-3]。目標(biāo)跟蹤任務(wù)包括單目標(biāo)跟蹤和多目標(biāo)跟蹤,單目標(biāo)跟蹤(Single Object Tracking,SOT),是指在視頻的某一幀中框選出需要跟蹤目標(biāo)的矩形坐標(biāo)框,并在后續(xù)的視頻序列中,通過(guò)某種相似度計(jì)算,尋找并給出跟蹤對(duì)象在后續(xù)幀序列中的信息,包括位置和尺度等信息。
目前目標(biāo)跟蹤算法的主要方向有兩類:生成式目標(biāo)跟蹤算法和判別式目標(biāo)跟蹤算法,其中判別式目標(biāo)跟蹤算法又可以細(xì)分為相關(guān)濾波類目標(biāo)跟蹤算法和深度學(xué)習(xí)類目標(biāo)跟蹤算法。相關(guān)濾波類目標(biāo)跟蹤通過(guò)對(duì)第一幀框選的模板進(jìn)行建模,利用“相關(guān)性”[4]計(jì)算得到目標(biāo)的跟蹤信息,設(shè)計(jì)并訓(xùn)練出一種能鑒別搜索區(qū)域中目標(biāo)與背景的分類器。然而隨著近年來(lái)機(jī)器學(xué)習(xí)的不斷發(fā)展,深度學(xué)習(xí)也逐漸應(yīng)用于目標(biāo)跟蹤領(lǐng)域,算法在強(qiáng)大的GPU 支持下完成離線訓(xùn)練和在線跟蹤。2016 年,Bertinetto 等[5]提出了SiamFC(Fully-Convolutional Siamese Networks)算法,利用孿生網(wǎng)絡(luò)(Siamese Network)提取模板和搜索區(qū)域圖像特征,再經(jīng)過(guò)互相關(guān)方法和后端網(wǎng)絡(luò)得到輸出響應(yīng),成功將孿生網(wǎng)絡(luò)與深度學(xué)習(xí)目標(biāo)跟蹤相結(jié)合;2018 年Li 等[6]將檢測(cè)網(wǎng)絡(luò)中的區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network,RPN)引入到了目標(biāo)跟蹤領(lǐng)域,提出的SiamRPN[7]算法分別對(duì)前背景分類和偏移回歸進(jìn)行了預(yù)測(cè),在提高尺度估計(jì)精度和效率的同時(shí),加快了模型的收斂速度;2019 年,Li等[8]提出了SiamRPN++算法,通過(guò)均勻分布的采樣方式讓目標(biāo)在中心點(diǎn)附近進(jìn)行偏移,緩解了網(wǎng)絡(luò)因?yàn)槠茐牧藝?yán)格平移不變性帶來(lái)的影響,并利用深度可分離卷積進(jìn)一步提升了網(wǎng)絡(luò)精度;隨著Transformer 結(jié)構(gòu)在深度學(xué)習(xí)中的流行,2021 年,Yan等[9]利用Transformer 的編碼器和解碼器具有全局感受野的優(yōu)勢(shì)來(lái)進(jìn)行目標(biāo)跟蹤,并輸出跟蹤框?qū)屈c(diǎn)的預(yù)測(cè),在LaSOT 和GOT10K 等數(shù)據(jù)集上取得了當(dāng)時(shí)最好的效果,為后續(xù)跟蹤模型提供了使用Transformer 跟蹤框架的思路。
針對(duì)跟蹤算法面對(duì)變化目標(biāo)以及低分辨率場(chǎng)景時(shí)跟蹤性能下降的問(wèn)題[10],本文在SiamRPN++算法的跟蹤結(jié)構(gòu)框架基礎(chǔ)上進(jìn)行了改進(jìn),對(duì)原有的深度可分離卷積進(jìn)行替換,使用了模板與搜索區(qū)域像素級(jí)特征融合的方法,并為后續(xù)輸出增加自適應(yīng)的模塊,以應(yīng)對(duì)低分辨率下小目標(biāo)特征不足的問(wèn)題;同時(shí),為特征抽取網(wǎng)絡(luò)的輸出部分增加了深度特征抽取模塊;最后,設(shè)計(jì)基于時(shí)間上下文的模板更新策略,在跟蹤任務(wù)中依據(jù)判據(jù),從歷史信息中篩選出合適的時(shí)空特征,利用跟蹤特征的相關(guān)性,提升算法在跟蹤目標(biāo)不斷變化時(shí)的適應(yīng)能力和算法魯棒性。
本文跟蹤算法采用經(jīng)典孿生網(wǎng)絡(luò)的結(jié)構(gòu),具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)的輸入有兩個(gè),分別為參考模板z(Template)和依據(jù)上一幀目標(biāo)為中心進(jìn)行裁剪后的搜索區(qū)域x(Search Region),輸入圖像經(jīng)Resnet50 骨干網(wǎng)絡(luò)提取特征后,將其中的Layer3、Layer4 和Layer5 三級(jí)特征抽取出來(lái)。經(jīng)過(guò)Neck 層將多級(jí)特征整合,再分別通過(guò)預(yù)測(cè)器分支,用來(lái)預(yù)測(cè)圖像中的前景背景類和回歸錨框偏移量,其中每個(gè)預(yù)測(cè)器中均加入了基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的特征深層提取模塊,用于提取深度語(yǔ)義特征信息。將模板與搜索區(qū)域特征通過(guò)像素級(jí)特征融合進(jìn)行互相關(guān)計(jì)算得到響應(yīng)置信圖,最后依據(jù)預(yù)測(cè)器得到的分類響應(yīng)和回歸響應(yīng)結(jié)果計(jì)算目標(biāo)前景背景及錨框偏移量。同時(shí),為跟蹤器加入了基于時(shí)間上下文信息的模板更新策略,提升網(wǎng)絡(luò)魯棒性。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
為尋找模板與搜索區(qū)域之間的關(guān)聯(lián)性,進(jìn)行精確定位,本文改進(jìn)算法使用了像素級(jí)卷積方法[11]以替代深度可分離卷積。深度可分離卷積相較于粗樸素卷積提升了互相關(guān)操作的速度,將模板特征逐通道地與搜索區(qū)域進(jìn)行卷積,降低了計(jì)算復(fù)雜度,進(jìn)而提升了推理速度。但仍存在兩個(gè)問(wèn)題:①為了提升計(jì)算速度,深度可分離卷積將目標(biāo)特征逐通道拆分,損失了部分模板特征通道間的關(guān)聯(lián)性;②利用整個(gè)模板特征去滑窗與搜索區(qū)域特征進(jìn)行匹配,鄰近的特征窗之間會(huì)產(chǎn)生相似的響應(yīng),從而損失很多邊緣信息,造成空間信息的模糊;像素級(jí)卷積方法以模板特征中的所有通道上同一個(gè)位置的像素值為卷積核,與單個(gè)通道上整個(gè)搜索區(qū)域的特征進(jìn)行互相關(guān)運(yùn)算,使輸出響應(yīng)可以逐通道地編碼目標(biāo)模板中每個(gè)像素點(diǎn)的信息,同時(shí)相較其他兩種互相關(guān)方法,輸出響應(yīng)中包含了更多搜索區(qū)域的目標(biāo)邊緣和尺度信息。圖2 是三種互相關(guān)方法的示意圖。
圖2 三種互相關(guān)方法示意圖
像素級(jí)互相關(guān)計(jì)算可以用式(1)表示,其中,輸入的模板特征為z,其尺寸為b、c、hz、wz;搜索區(qū)域特征為x,尺寸為b、c、hx、wx,經(jīng)過(guò)像素級(jí)卷積f作用后,網(wǎng)絡(luò)的輸出響應(yīng)則會(huì)變成b、hz×wz、hx、wx。
像素級(jí)特征融合方法較粗樸素卷積和深度可分離卷積來(lái)說(shuō)更關(guān)注模板與搜索區(qū)域間的邊緣信息等像素級(jí)細(xì)節(jié)特征,但對(duì)隱含在模板內(nèi)像素空間信息關(guān)聯(lián)性的挖掘有所降低。本文在使用像素級(jí)特征融合方法替代深度可分離卷積的同時(shí),設(shè)計(jì)了輸出適應(yīng)模塊,在補(bǔ)充跟蹤器對(duì)目標(biāo)全局信息關(guān)注的同時(shí),提升維度,便于預(yù)測(cè)結(jié)果計(jì)算。模塊參考GoogLeNet的Inception[12]結(jié)構(gòu)并進(jìn)行了一定的改造,設(shè)計(jì)了圖3 所示的輸出適應(yīng)結(jié)構(gòu),網(wǎng)絡(luò)塊由兩部分組成,其中一部分是經(jīng)4×4 的卷積核將特征維度由16 直接提升到128,用來(lái)進(jìn)行特征維度的粗提升;另一部分是先經(jīng)2×2 的卷積核將特征維度提升到64,然后再經(jīng)過(guò)3×3 的卷積核將特征維度提升到128,用于特征維度的精提升。最后將2 組特征響應(yīng)圖并聯(lián)拼接起來(lái)(Concatenate),以重新聚合形成新的高維融合特征響應(yīng)。這種網(wǎng)絡(luò)塊以兩種方式對(duì)輸入的響應(yīng)圖進(jìn)行特征抽取,同時(shí)讓信息通過(guò)更少的連接傳遞以達(dá)到更加稀疏的特性。
圖3 像素級(jí)特征融合的輸出適應(yīng)模塊
為提高跟蹤器特征抽取的性能,本文設(shè)計(jì)了基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的模塊來(lái)對(duì)骨干網(wǎng)絡(luò)輸出的三級(jí)特征進(jìn)行深層挖掘。本文特征深層抽取網(wǎng)絡(luò)塊主要參考了ResNeXt[13]的設(shè)計(jì)思想,不需要人工設(shè)計(jì)復(fù)雜的Inception 結(jié)構(gòu)細(xì)節(jié),而是每個(gè)分支都采用相同的拓?fù)浣Y(jié)構(gòu),另外在輸出結(jié)果處引入殘差部分,防止網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于復(fù)雜帶來(lái)過(guò)擬合問(wèn)題。其中唯一的超參數(shù)為基數(shù)(Cardinality),來(lái)控制分組卷積組的個(gè)數(shù),最后將結(jié)果并聯(lián)起來(lái),以得到更深層特征的輸出。網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。
圖4 基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的特征深層抽取模塊
網(wǎng)絡(luò)塊的主要運(yùn)行邏輯為:分割-變換-合并(Split-transform-merge),提取基礎(chǔ)算法SiamRPN++的骨干網(wǎng)絡(luò)ResNet50 的Layer3、Layer4 和Layer5 的特征作為本網(wǎng)絡(luò)塊的輸入,輸入的特征維度為256維,首先輸入分別進(jìn)入4 組結(jié)構(gòu)相同但參數(shù)不共享的拓?fù)浣Y(jié)構(gòu)中,每條分支均完成:將輸入經(jīng)過(guò)2 次1×1的卷積核以提取深層特征,同時(shí)將特征向量由256 維降維到64,再將4 種64 維度的分支特征合并,重新獲得與輸入結(jié)構(gòu)相同的特征。最后,再將原256 維輸入作為殘差與合并后的特征進(jìn)行相加操作。本文設(shè)計(jì)這種殘差結(jié)構(gòu)的目的是解決加深網(wǎng)絡(luò)可能帶來(lái)的過(guò)擬合問(wèn)題,最終得到可靠的輸出響應(yīng)。
在線目標(biāo)跟蹤任務(wù)(Online)較離線目標(biāo)跟蹤任務(wù)(Offline)缺少了視頻圖像序列的全局信息,在線跟蹤器很難獲得一個(gè)全局最優(yōu)解,并且在線跟蹤任務(wù)若有其中的任何一幀跟蹤丟失,跟蹤器就會(huì)產(chǎn)生巨大偏移,從而極大地影響跟蹤結(jié)果的精度。本文為充分利用在線目標(biāo)跟蹤任務(wù)中包含大量目標(biāo)時(shí)序信息的特點(diǎn),設(shè)計(jì)使用基于時(shí)間上下文信息的模板更新策略作為更新判據(jù),來(lái)對(duì)跟蹤器進(jìn)行實(shí)時(shí)更新,更新策略流程如圖5 所示。
圖5 基于時(shí)間上下文信息的模板更新策略流程圖
基于時(shí)間上下文信息的模板更新策略執(zhí)行流程是:首先,初始化網(wǎng)絡(luò)并保存第一幀的目標(biāo)模板特征;后續(xù)的視頻序列圖像依據(jù)上一幀跟蹤器推理得到的目標(biāo)坐標(biāo)截取搜索區(qū)域,完成跟蹤網(wǎng)絡(luò)對(duì)于本幀圖像的推理;跟蹤網(wǎng)絡(luò)經(jīng)后處理會(huì)得到預(yù)測(cè)的目標(biāo)空間信息及置信度得分,模板更新策略會(huì)先對(duì)當(dāng)前視頻序列幀數(shù)進(jìn)行判斷,若間隔幀數(shù)超過(guò)設(shè)定閾值,這時(shí)對(duì)當(dāng)前幀推理得到的目標(biāo)置信度得分進(jìn)行判斷:當(dāng)目標(biāo)此時(shí)得分大于設(shè)定閾值,說(shuō)明當(dāng)前目標(biāo)包含了足夠特征信息且還包含很多的時(shí)間信息,可以進(jìn)行更新來(lái)提升跟蹤器對(duì)后續(xù)圖像的適應(yīng)能力,以獲取更好的跟蹤結(jié)果;若得分太低,說(shuō)明當(dāng)前對(duì)跟蹤器進(jìn)行模板更新會(huì)影響跟蹤性能,這種情況包括未達(dá)到規(guī)定更新間隔閾值,均正常進(jìn)行下一幀的跟蹤。完成所有視頻序列的跟蹤后,跟蹤結(jié)束。
本文網(wǎng)絡(luò)模型利用Pytorch 框架實(shí)現(xiàn)。模型的構(gòu)建、訓(xùn)練及推理實(shí)現(xiàn)使用一臺(tái)搭載AMD 的5800x處理器(主頻3.8GHz)、32G 內(nèi)存和一塊NVIDIA RTX 3080 顯卡的計(jì)算機(jī)。
骨干網(wǎng)絡(luò)使用經(jīng)過(guò)ImageNet 數(shù)據(jù)集訓(xùn)練后的ResNet50。跟蹤模型的訓(xùn)練使用數(shù)據(jù)集為COCO、ImageNet DET、ImageNet VID 和YouTube-Bounding-Boxes。訓(xùn)練時(shí)圖像被裁減為255×255 和127×127的尺寸,分別作為搜索區(qū)域圖像和模板圖像同時(shí)輸入網(wǎng)絡(luò)中,經(jīng)跟蹤網(wǎng)絡(luò)前向運(yùn)行得到分類和回歸結(jié)果并計(jì)算損失,以反向修正網(wǎng)絡(luò)參數(shù)。
本文網(wǎng)絡(luò)訓(xùn)練時(shí)使用的優(yōu)化器(Optimization)為隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD),批次大小(Batchsize)為16,并且使用不斷變化的學(xué)習(xí)率對(duì)網(wǎng)絡(luò)的訓(xùn)練進(jìn)行調(diào)整,前5 個(gè)訓(xùn)練周期使用0.001 到0.005 逐漸遞增的學(xué)習(xí)率,之后的周期學(xué)習(xí)率從0.005 指數(shù)衰減到0.000 5。
網(wǎng)絡(luò)RPN 層輸出的每個(gè)特征點(diǎn)給出5 個(gè)推薦錨框(Anchor Number),輸出分類向量的維度為10,回歸向量的維數(shù)為20;骨干網(wǎng)絡(luò)為ResNet50 時(shí),跟蹤器抽取骨干網(wǎng)絡(luò)的3、4、5 層特征進(jìn)行后續(xù)回歸和分類。
為驗(yàn)證本文算法的有效性,分別在2 個(gè)目標(biāo)跟蹤領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)集VOT2018 和OTB2015 上進(jìn)行了測(cè)試,并與多種優(yōu)秀算法進(jìn)行了整體性能的比較,以及針對(duì)特定場(chǎng)景分析了本文算法較其他優(yōu)秀算法的優(yōu)勢(shì)所在。完整模型在Ubuntu 系統(tǒng)下推理運(yùn)行速度為65 fps(Frame Per Second)以上。
VOT2018 公共數(shù)據(jù)集是目前用于評(píng)估在線單目標(biāo)跟蹤的主流數(shù)據(jù)集之一,由60 個(gè)視頻序列組成并具有不同的挑戰(zhàn)因素。VOT 系列主要涉及三個(gè)重要的評(píng)價(jià)指標(biāo):準(zhǔn)確性(Accuary)、魯棒性[14](Robustness)和EAO(Expected Average Overlap)。
準(zhǔn)確性,是通過(guò)數(shù)據(jù)集來(lái)評(píng)價(jià)算法在跟蹤目標(biāo)任務(wù)中跟蹤精度的指標(biāo)[15]。對(duì)于單個(gè)視頻序列,用Np表示整個(gè)序列的有效幀數(shù)量,A(i)表示跟蹤器在該視頻序列上重復(fù)跟蹤N次時(shí)在第i幀的準(zhǔn)確度,則準(zhǔn)確性的計(jì)算如下:
式中:對(duì)于跟蹤器重復(fù)跟蹤N次視頻序列的某單幀的準(zhǔn)確度A(i),定義為:
式中:A(i,k)表示跟蹤器在第k次跟蹤第i幀圖像的準(zhǔn)確率,若用Ag(i,k)表示跟蹤標(biāo)注框內(nèi)的圖像像素區(qū)域,At(i,k)表示跟蹤器預(yù)測(cè)的跟蹤框內(nèi)的圖像像素區(qū)域,準(zhǔn)確率表示為:
魯棒性,是用來(lái)評(píng)價(jià)跟蹤算法在完成跟蹤任務(wù)時(shí)穩(wěn)定性能的指標(biāo)。跟蹤器的魯棒性可用跟蹤器在同一個(gè)視頻序列下重復(fù)跟蹤N次的平均魯棒性來(lái)表示:
式中:R(i)表示跟蹤器對(duì)視頻序列進(jìn)行第i次重復(fù)跟蹤時(shí)跟蹤丟失的次數(shù)。當(dāng)視頻序列中某一幀的標(biāo)注框與跟蹤器預(yù)測(cè)框無(wú)重疊時(shí),跟蹤丟失次數(shù)加1。
EAO,即期望平均覆蓋率,是對(duì)準(zhǔn)確率和魯棒性的綜合評(píng)估,是VOT2018 用來(lái)評(píng)估在線單目標(biāo)跟蹤算法的主要指標(biāo)。
利用VOT2018 數(shù)據(jù)集對(duì)本文算法以及其他優(yōu)秀算法進(jìn)行評(píng)估,得到結(jié)果如表1 所示。由表1 中數(shù)據(jù)可以發(fā)現(xiàn),本文改進(jìn)算法較基礎(chǔ)算法SiamRPN++來(lái)說(shuō),EAO 值由0.414 提升到了0.436,提升了5.31%;準(zhǔn)確率由0.6 提升到了0.605,提升了0.83%;魯棒性由0.234 降低到了0.225,降低了3.85%。相較于UPDT來(lái)說(shuō),本文算法雖然在算法魯棒性方面不如UPDT,上升了0.041,但在算法精度方面提升明顯,比其0.536的準(zhǔn)確率高了12.87%,且EAO 值也比UPDT 的0.378高了0.058,提升了15.34%。圖6 中所示準(zhǔn)確率作為橫軸,魯棒性作為縱軸時(shí),將各算法的性能更明確地繪制出來(lái)??梢园l(fā)現(xiàn),本文算法在VOT2018 評(píng)價(jià)中取得了最優(yōu)的準(zhǔn)確率和EAO 值,以及不錯(cuò)的魯棒性,并且本文算法能在NVIDIA RTX 3080 顯卡上運(yùn)行達(dá)到65 幀/s 以上的速度。
表1 VOT2018 數(shù)據(jù)集各算法結(jié)果對(duì)比
圖6 VOT2018 數(shù)據(jù)集各算法魯棒性和準(zhǔn)確性
OTB100 數(shù)據(jù)集包含有100 個(gè)富有挑戰(zhàn)性的視頻序列,這些視頻序列被官方分為11 個(gè)標(biāo)注屬性,包括快速運(yùn)動(dòng)(Fast Motion,F(xiàn)M)、背景雜波(Background Variation,BV)、運(yùn)動(dòng)模糊(Motion Blur,MB)、目標(biāo)形變(Deformation,DEF)、光照變 化(Illumination Variation,IV)、平面內(nèi)旋轉(zhuǎn)(In-Plane Rotation,IPR)、低分辨率(Low Resolution,LR)、目標(biāo)遮擋(Occlusion,OCC)、平面外旋轉(zhuǎn)(Out-of-Plane Rotation,OPR)、目標(biāo)超出視野(Out-of-View,OV)、尺度變化(Scale Variation,SV)。
本文選擇OTB100 測(cè)試數(shù)據(jù)集對(duì)算法性能進(jìn)行評(píng)價(jià),并與相關(guān)濾波算法CSK、VTD、STRUCK 和深度學(xué)習(xí) 類算法 SiamFC、SiamRPN、SiamDW、DaSiamRPN 以及基礎(chǔ)算法SiamRPN++進(jìn)行對(duì)比實(shí)驗(yàn)。9 種算法的精確率和成功率對(duì)比如圖7 所示。每種算法在該屬性下的評(píng)估性能指標(biāo)標(biāo)在中括號(hào)中。本文算法精確率為91.4%,成功率為71.7%,與基礎(chǔ)算法SiamRPN++相比,精確率提升了3.28%,成功率提升了5.13%。
圖7 OTB100 數(shù)據(jù)集各算法精確率和成功率
針對(duì)幾種特殊情況,對(duì)算法有效性進(jìn)行分析:
①尺度變化(SV):本文算法在標(biāo)注為尺度變化的數(shù)據(jù)集上精確率為91.7%,成功率為72.9%,高于基礎(chǔ)算法精確率3.26%,成功率6.73%;表2 和表3中統(tǒng)計(jì)了OTB100 數(shù)據(jù)集上幾種算法在標(biāo)注為尺度變化的典型視頻序列的精確率和成功率,其中波浪線表示幾種算法中的指標(biāo)最優(yōu),雙下劃線表示指標(biāo)排名第二,單下劃線表示指標(biāo)第三。
表2 OTB100 數(shù)據(jù)集各算法成功率對(duì)比
表3 OTB100 數(shù)據(jù)集各算法精確率對(duì)比
本文算法在目標(biāo)尺度發(fā)生變化時(shí)仍能較為準(zhǔn)確地進(jìn)行跟蹤,在幾個(gè)視頻序列中精確率和成功率都位居第一第二位。圖8 中的測(cè)試序列是一位行人在過(guò)馬路的過(guò)程,目標(biāo)周圍有汽車和人的運(yùn)動(dòng),同時(shí)場(chǎng)景由近及遠(yuǎn)再到近處,跟蹤任務(wù)包括了遮擋、相似物干擾和尺度變化等影響因素,本文改進(jìn)后算法的精確率和正確率均為第一,主要原因是利用基于時(shí)間上下文信息的模板更新策略在復(fù)雜場(chǎng)景下目標(biāo)尺度發(fā)生變化時(shí),及時(shí)對(duì)跟蹤器的跟蹤模板進(jìn)行調(diào)整以實(shí)現(xiàn)了更好跟蹤。
圖8 目標(biāo)可視化跟蹤結(jié)果(目標(biāo)尺度變化)
②低分辨率(LR):在OTB100 數(shù)據(jù)集標(biāo)注為低分辨率的測(cè)試序列中,本文改進(jìn)算法較基礎(chǔ)算法的準(zhǔn)確率和成功率分別提高了2.75%和0.2%。低分辨率場(chǎng)景是當(dāng)搜索區(qū)域中目標(biāo)的圖像特征較少時(shí),以考驗(yàn)算法的跟蹤性能,本文改進(jìn)算法使用了像素級(jí)互相關(guān)方法以及基于殘差結(jié)構(gòu)和拓?fù)渚W(wǎng)絡(luò)的特征深層提取,對(duì)比基礎(chǔ)算法SiamRPN++,在有限的骨干網(wǎng)絡(luò)特征中提取到了更深層的語(yǔ)義信息,輔助網(wǎng)絡(luò)的跟蹤。如圖9 中為RedTeam 跟蹤序列,視頻序列為一輛汽車在遠(yuǎn)方道路行駛,汽車不斷由遠(yuǎn)到近,再由近到遠(yuǎn),目標(biāo)像素最小為13×7,本文改進(jìn)算法較其他算法有更為良好的跟蹤表現(xiàn)。
圖9 目標(biāo)可視化跟蹤結(jié)果(低分辨率)
為比較改進(jìn)算法每一部分在整體跟蹤模型中的作用,本文在VOT2018 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。
如表4 所示,當(dāng)像素級(jí)特征融合及輸出適應(yīng)網(wǎng)絡(luò)塊單獨(dú)作用于基礎(chǔ)算法時(shí),EAO 提升2.86%;當(dāng)基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的特征深層提取網(wǎng)絡(luò)塊單獨(dú)作用于基礎(chǔ)算法時(shí),EAO 提升1.27%;而當(dāng)兩者結(jié)合作用時(shí),算法EAO 提升為4.35%,高于兩種方案的單獨(dú)作用,說(shuō)明像素級(jí)特征融合更適合作用于更深層的語(yǔ)義信息,并且殘差結(jié)構(gòu)在保留了原特征的同時(shí),很好地避免了過(guò)擬合的問(wèn)題;當(dāng)基于時(shí)間上下文信息的模板更新策略加入時(shí),跟蹤器充分結(jié)合了空間與時(shí)間的信息,跟蹤EAO 達(dá)到最高0.436。與未添加時(shí)間信息的跟蹤器相比,EAO 提升了0.004,提升了0.93%。
表4 VOT2018 數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果
為更為直觀地展現(xiàn)改進(jìn)方法的有效性,將各改進(jìn)方法與基礎(chǔ)算法的不同組合得到的輸出響應(yīng)圖進(jìn)行可視化。如圖10 所示,不加入時(shí)序信息更新策略的改進(jìn)算法可明顯降低基礎(chǔ)算法中噪點(diǎn)帶來(lái)的錯(cuò)誤目標(biāo)預(yù)測(cè)估計(jì),且加入更新策略后,目標(biāo)更加突出,很好地突出了目標(biāo)而降低了其他噪聲的影響。
圖10 輸出響應(yīng)圖可視化結(jié)果
本文對(duì)復(fù)雜場(chǎng)景中的目標(biāo)跟蹤算法進(jìn)行了研究,并針對(duì)目標(biāo)尺度變化和低分辨率的場(chǎng)景進(jìn)行了三點(diǎn)主要的算法改進(jìn):本文將深度可分離卷積替換為像素級(jí)卷積,將模板和搜索區(qū)域的多層特征進(jìn)行融合計(jì)算,以得到更為準(zhǔn)確的輸出響應(yīng);本文在原網(wǎng)絡(luò)提取到的多層特征基礎(chǔ)上,加入了基于殘差網(wǎng)絡(luò)和拓?fù)浣Y(jié)構(gòu)的模塊以對(duì)圖像特征進(jìn)行深度挖掘;本文通過(guò)對(duì)跟蹤器歷史信息進(jìn)行判別以更新目標(biāo)模板,來(lái)提高改進(jìn)算法的魯棒性。在VOT2018 數(shù)據(jù)集上,本文改進(jìn)算法比基礎(chǔ)算法的EAO 值高5.31%,準(zhǔn)確率提高到了0.605,魯棒性為0.225;在OTB100 數(shù)據(jù)集上,本文算法精確度為91.4%,成功率為71.7%,與基礎(chǔ)算法相比,精確度提升了3.28%,成功率提升了5.13%。