楊曉強,劉文昊
西安科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,西安 710000
近年來,目標(biāo)跟蹤在智能機器人、視頻監(jiān)控、人機交互等領(lǐng)域取得廣泛的應(yīng)用。但目標(biāo)經(jīng)常遭受快速運動、尺度變化、背景干擾和遮擋等問題的干擾,此外,復(fù)雜的環(huán)境也給目標(biāo)跟蹤帶來很大的困難[1]。因此,目標(biāo)跟蹤仍然是一項具有挑戰(zhàn)性的工作[2]。
基于孿生神經(jīng)網(wǎng)絡(luò)(Siamese neural network,Siamese)的目標(biāo)跟蹤算法利用相同參數(shù)的主干網(wǎng)絡(luò)的輸出進行互相關(guān)操作,使得跟蹤精度高、運算速度快。全卷積孿生網(wǎng)絡(luò)(fully-convolutional Siamese,SiamFC)[3]首次利用Alexnet[4]網(wǎng)絡(luò)提取目標(biāo)模板和搜索區(qū)域的特征,利用其網(wǎng)絡(luò)具備平移不變性的優(yōu)點解除對輸入圖片的尺寸限制,由于較淺的主干網(wǎng)絡(luò)且不需要模板更新,運行速度達到86 FPS。CFNet(correlation filter Siamese network)[5]將相關(guān)濾波器引入到SiamFC 框架中進行分層訓(xùn)練,通過降低實時性提高跟蹤精度。此后,SiamRPN(Siamese region proposal network)[6]受區(qū)域建議網(wǎng)絡(luò)的啟發(fā),利用孿生網(wǎng)絡(luò)輸出的特征圖進行區(qū)域建議提取,并取得良好的跟蹤效果。但是,SiamRPN不能解決與目標(biāo)相似的干擾物。隨后,基于SiamRPN 的(distractoraware Siamese region proposal network,DaSiamRPN)算法[7]增強了對目標(biāo)相似干擾物的區(qū)分效果,從而提高了模型的魯棒性。(deeper and wider Siamese networks,SiamDW)算法[8]在ResNet[9]和Inception網(wǎng)絡(luò)中加入殘差塊裁剪單元,從而使得跟蹤的精度和魯棒性得到進一步改善。SiamRPN++(Siamese region proposal network++)[10]算法將AlexNet 網(wǎng)絡(luò)替換為更深層次的特征提取網(wǎng)絡(luò)ResNet。在ResNet網(wǎng)絡(luò)中加入空間感知采樣策略,在一定程度上克服了深層次網(wǎng)絡(luò)嚴格的平移不變性對于目標(biāo)跟蹤的影響,并采用逐通道互相關(guān)運算取代SiamFC中簡單的互相關(guān)操作,提高了跟蹤精度。SiamBan(Siamese box adaptive network)算法[11]引入空洞卷積,通過增大感受野來提高特征提取的性能,并用橢圓對目標(biāo)進行分類回歸。SiamCAR(Siamese fully convolutional classification and regression)算法[12]在SiamRPN++的基礎(chǔ)上,以一種端到端的方式進行跟蹤訓(xùn)練,并提出了中心度回歸方法,提高跟蹤器在復(fù)雜環(huán)境中的魯棒性。
雖然SiamCAR目標(biāo)跟蹤算法在成功率和速度方面都有很好的表現(xiàn),但深層次網(wǎng)絡(luò)中的填充操作仍然會影響此類算法平移不變性。在特征提取階段,隨著主干網(wǎng)絡(luò)的層數(shù)不斷加深,降采樣過程中的填充操作會導(dǎo)致提取到的目標(biāo)變得更加抽象,深層次網(wǎng)絡(luò)應(yīng)用到目標(biāo)跟蹤中仍然存在諸多問題?;赟iamCAR 算法,提出了一種改進的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法(BsSiamCAR)。在ResNet-50 網(wǎng)絡(luò)中加入一個低通濾波器,改善填充操作對于網(wǎng)絡(luò)嚴格平移不變性的影響,提高網(wǎng)絡(luò)在特征提取階段的穩(wěn)定性。為了跟蹤時更好地關(guān)注目標(biāo)本身,降低背景干擾、尺度變化等復(fù)雜環(huán)境對跟蹤效果的影響,引入通道注意力,通道注意力機制能選擇出有利于跟蹤過程的特征通道,提高網(wǎng)絡(luò)在復(fù)雜環(huán)境中的魯棒性。實驗表明,BsSiamCAR在OTB100[13]、VOT2018[14]、UAV123[15]數(shù)據(jù)集上具有良好的精度和魯棒性。
SiamCAR[12]提出一種無錨框的孿生分類回歸網(wǎng)絡(luò),將跟蹤問題分解為孿生子網(wǎng)和分類回歸子網(wǎng),分別用于特征提取和目標(biāo)框預(yù)測。如圖1所示,孿生子網(wǎng)構(gòu)建出搜索分支X和目標(biāo)分支Z,Z在視頻序列的第一幀中給出。這兩個分支采用相同CNN 架構(gòu)的ResNet-50 網(wǎng)絡(luò)。通過式(1)學(xué)習(xí)?(i)來計算搜索區(qū)域與目標(biāo)圖像最佳匹配的位置。
圖1 SiamCAR框架Fig.1 SiamCAR framework
其中,*為互相關(guān)操作;C為相似度偏移量;目標(biāo)分支和搜索分支?(i)共享網(wǎng)絡(luò)權(quán)重參數(shù)。在Res Net-50 的后三個卷積塊中引入空洞卷積,提取到擁有豐富類別信息和語義信息的特征圖,并用1×1 的卷積核進行中心裁剪,從而降低超參量。
分類回歸子網(wǎng)利用RPN 實現(xiàn)目標(biāo)的分類和回歸,并采用唯一的響應(yīng)圖來直接預(yù)測對象的位置和邊界框。分類是返回搜索區(qū)域?qū)?yīng)位置的分數(shù),并區(qū)分前景和背景。前景代表著目標(biāo)區(qū)域,背景代表著其他區(qū)域?;貧w則通過返回搜索區(qū)域中目標(biāo)位置到四條邊的距離來確定目標(biāo)的大小。
為了提高跟蹤器的魯棒性,SiamCAR 提出了中心度分支,它與分類分支并行抑制響應(yīng)圖中目標(biāo)位移過大的情況。如圖1 所示,該分支輸出一個中心度得分圖,其中w和h代表特征提取的寬和高,在該特征圖中,每個點的值表示相應(yīng)位置的中心得分,中點的分數(shù)C(i,j)由式(2)確定:
算法的總體損失函數(shù)L為式(5):
其中,Lcls表示分類分支的交叉熵損失,Lreg表示回歸損失。常數(shù)ω1是中心度損失的權(quán)重參數(shù),ω2是回歸損失的權(quán)重參數(shù)。
在SiamCAR 算法[12]基礎(chǔ)上,設(shè)計了一種改進的孿生網(wǎng)絡(luò)跟蹤算法(BsSiamCAR)。圖2 表示該算法的總體框架,在主干網(wǎng)絡(luò)ResNet-50 的第一個卷積塊之后引入一個低通濾波器,與最大池化相融合,改善降采樣過程中填充操作對網(wǎng)絡(luò)嚴格平移不變性的破壞,提高孿生網(wǎng)絡(luò)在特征提取階段的穩(wěn)定性。同時添加通道注意力機制(squeeze-and-excitation network,SENet),抑制復(fù)雜背景對目標(biāo)的干擾,提高算法的整體性能。
圖2 BsSiamCAR的整體結(jié)構(gòu)Fig.2 Overall structure of BsSiamCAR
在特征提取階段,只有在沒有填充操作的情況下,網(wǎng)絡(luò)才會出現(xiàn)嚴格的平移不變性,如AlexNet 網(wǎng)絡(luò)。ResNet-50網(wǎng)絡(luò)中的填充操作會破壞網(wǎng)絡(luò)嚴格的平移不變性。本文利用ResNet-50網(wǎng)絡(luò)構(gòu)造孿生網(wǎng)絡(luò)的兩個分支。當(dāng)用ResNet-50 代替AlexNet 網(wǎng)絡(luò)時,深層次網(wǎng)絡(luò)能提取到更為完整的語義信息,但填充操作會使網(wǎng)絡(luò)提取到的特征發(fā)生移位,進而破壞了網(wǎng)絡(luò)嚴格的平移不變性。受文獻[16]的啟發(fā),本文引入一種低通濾波器和最大池化相融合,來抑制降采樣過程中填充操作對網(wǎng)絡(luò)嚴格平移不變性的破壞。如圖3所示,在特征提取階段的第一個卷積塊之后,加入一個低通濾波器與最大池化相融合,有效緩解網(wǎng)絡(luò)嚴格的平移不變性,使ResNet-50網(wǎng)絡(luò)更加穩(wěn)定,提高主干網(wǎng)絡(luò)的魯棒性。
圖3 BsSiamCAR的特征提取網(wǎng)絡(luò)Fig.3 Feature extraction network of BsSiamCAR
隨著網(wǎng)絡(luò)結(jié)構(gòu)越來越深,填充操作會使得網(wǎng)絡(luò)失去平移不變性。主干網(wǎng)絡(luò)微小的輸入變化會導(dǎo)致較大的輸出改變,使得跟蹤過程中很容易失去目標(biāo)。如圖4中的信號為[0,0,1,1,0,0,1,1](圓形)。如果進行最大池化操作將導(dǎo)致輸出為[0,1,0,1,0](方塊)。然后改變輸入將最大池化過程中Max 操作之前的降采樣步幅(shift)減1,會得到不同的采樣結(jié)果[1,1,1,1](菱形)。實驗結(jié)果證明,最大池化操作不能提供很好的抗鋸齒能力,在最大池化中,改變降采樣中的填充操作會產(chǎn)生不同的結(jié)果,從而導(dǎo)致降采樣過程中網(wǎng)絡(luò)嚴格的平移不變性受到了破壞。將最大池化操作分為Max操作和降采樣(Subsample)操作,如式(6),將最大池化寫成兩個函數(shù)的組成:
圖4 最大池化中移位對網(wǎng)絡(luò)敏感性的影響Fig.4 Effect of shift on network sensitivity in max pooling
其中,MaxPool表示最大池化操作,Max操作是以滑動窗口的方式進行評估的,它保持了網(wǎng)絡(luò)的平移不變性。但降采樣沒有保持網(wǎng)絡(luò)的平移不變性,降采樣時的填充操作會導(dǎo)致提取的特征更為抽象。因此本文添加一個核為5×5的低通濾波器,記為Blur。用式(7)表示:
其中,BlurPool表示將降采樣和低通濾波器融合,低通濾波器通過減少填充操作對降采樣過程的影響,進而抑制最大池化對網(wǎng)絡(luò)平移不變性的影響。如圖5,在Max和降采樣之間加入低通濾波器來作為抗混疊的一個手段,信號通過低通濾波器后的降采樣結(jié)果為[0.5,1,0.5,1,0.5](三角),將降采樣過程中的步幅(shift)減1,得到的采樣結(jié)果為[0.75,0.75,0.75,0.75](正方形)。它們彼此接近,能一定程度上緩解降采樣操作對于網(wǎng)絡(luò)嚴格平移不變性的破壞,提高ResNet-50網(wǎng)絡(luò)的穩(wěn)定性,防止可能丟失的一些重要特征。
圖5 BlurPool對網(wǎng)絡(luò)平移不變性的改善Fig.5 BlurPool’s improvement of network translation invariance
為進一步驗證特征提取階段低通濾波器與最大池化融合模塊的有效性,將本文算法中的B_ResNet-50網(wǎng)絡(luò)與ResNet-50 網(wǎng)絡(luò)在OTB100 數(shù)據(jù)集上的Jump 視頻序列中進行特征圖對比??梢暬Ч鐖D6所示,左邊為Resnet-50網(wǎng)絡(luò),從圖中可以看出ResNet-50網(wǎng)絡(luò)提取到的目標(biāo)高響應(yīng)區(qū)域較為分散,目標(biāo)會逐漸發(fā)生偏移,而右邊的B_ResNet-50 網(wǎng)絡(luò)中的高響應(yīng)部分集中在目標(biāo)周圍,網(wǎng)絡(luò)在特征提取階段具有更高的穩(wěn)定性。
圖6 特征提取網(wǎng)絡(luò)的可視化熱力圖Fig.6 Visualized thermodynamic diagram of feature extraction network
通道注意力SENet[17]能通過調(diào)整不同通道之間的權(quán)重,有效的抑制干擾物,增強網(wǎng)絡(luò)的特征表達能力。在特征提取之后,如圖7 所示,本文引入通道注意力機制(SENet),它可以通過網(wǎng)絡(luò)學(xué)習(xí)全局信息實現(xiàn)對目標(biāo)的重新校準(zhǔn),來選擇性地增強對跟蹤有用的特征,并且抑制無用的特征。
圖7 SENet結(jié)構(gòu)Fig.7 SENet structure
首先對特征圖X進行卷積操作,并利用擠壓操作把一個信道上的全部空間信息重新編碼為一個整體,并通過平均池化來實現(xiàn)。
其中,H、W、C表示原始特征圖的高、寬、通道數(shù),F(xiàn)sq表示特征圖的壓縮,Uc(i,j)表示第c個通道中的第i行、第j列的像素;Z為擠壓操作的輸出。通過全連接層FC將全局特征Z降維到1/c,經(jīng)過ReLU 激活函數(shù),然后再次經(jīng)過全連接層FC將維度升到原始維度c。
其中,W1表示降維參數(shù);W2為升維參數(shù);Fe表示特征提取,為激活函數(shù);δ=max(0,x)為ReLU 激活函數(shù)。最后通過特征拼接輸出的值更新特征圖,實現(xiàn)特征的重標(biāo)定。
其中,F(xiàn)S表示特征拼接操作,Sc為特征拼接學(xué)習(xí)到的各個信道的輸出,表示經(jīng)過重標(biāo)定后的特征圖。本文用1×1卷積核將后三層的特征圖進行中心裁剪,得到7×7×256的目標(biāo)特征,而搜索分支沒有中心裁剪運算,得到特征圖的尺寸為31×31×256。如圖2 所示,將SENet添加到特征提取網(wǎng)絡(luò)之后,通過選擇目標(biāo)信息更加豐富的通道得到不同通道之間的關(guān)系,實現(xiàn)更精確的跟蹤。
本實驗使用一臺CPU為Intel?Core?i5-72 00U的PC。采用python 在PyTorch 框架上完成BsSi-amCAR算法,并在GTX2080Ti 上進行訓(xùn)練。目標(biāo)區(qū)域的輸入為127 像素,搜索區(qū)域的輸入為255 像素。用改進的ResNet-50 為訓(xùn)練的主干網(wǎng)絡(luò),在ImageNet[18]上對網(wǎng)絡(luò)預(yù)訓(xùn)練并進行初始化。在模型訓(xùn)練時,使用隨機梯度下降SGD 訓(xùn)練20 個epoch。初始學(xué)習(xí)率為0.001,批大小為28,在前10 個epoch 的訓(xùn)練和回歸時,孿生子網(wǎng)中的參數(shù)被凍結(jié)。在后10個epoch中,ResNet-50網(wǎng)絡(luò)后3 個block 被解凍用于訓(xùn)練。整個網(wǎng)絡(luò)采用GOT-10k[19]數(shù)據(jù)集進行訓(xùn)練,OTB100、VOT2018、UAV123 數(shù)據(jù)集進行測試。
3.2.1 OTB100結(jié)果分析
OTB100[13]是2015年提出的一個典型跟蹤測試數(shù)據(jù)集。它包含了100個帶標(biāo)注用于跟蹤的視頻序列,該數(shù)據(jù)集包含平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、快速運動、尺度變化等11 種跟蹤中復(fù)雜的場景。將提出的算法與CFNet[5]、Ocean[20]、SRDCF[21]、SiamFC[3]、DASiamRPN[7]、SiamRPN[6]、SiamDW[8]、SiamRPN++[10]、SiamCAR[12]九種性能較好的跟蹤器在OTB 100 數(shù)據(jù)集上對比。如圖8、9 所示,BsSiamCAR 算法的成功率(success,S)排在第一,在精度(precision,P)方面也處于領(lǐng)先的地位。同時,本文算法與基準(zhǔn)算法SiamCAR 相比,由于引入通道注意力SENet,跟蹤器整體成功率提高2.1%,并加入低通濾波器來保證跟蹤器的穩(wěn)定性,使得精度提高0.3%。
圖8 OTB100的跟蹤成功率Fig.8 Tracking success rate on OTB100
圖9 OTB100的跟蹤精度Fig.9 Tracking accuracy on OTB100
將本文算法與SiamRPN++、Ocean等先進跟蹤器在OTB100 數(shù)據(jù)集的11 種屬性上進行對比。如表1 所示,BsSiamCAR在平面內(nèi)旋轉(zhuǎn)、尺度變化、快速運動、平面外旋轉(zhuǎn)的跟蹤精度和成功率均得到明顯改善,平面內(nèi)旋轉(zhuǎn)和尺度變化兩個屬性的S分別提高5%和4.1%。實驗結(jié)果顯示,BsSiamCAR在引入SENet后能夠更好地適應(yīng)復(fù)雜的背景干擾和尺度變化等問題。并且,在引入低通濾波器和最大池化的融合模塊之后,提出算法的S在所有挑戰(zhàn)屬性上相比SiamCAR算法均有提升。證明了跟蹤器的穩(wěn)定性,可以適用于各種復(fù)雜環(huán)境。與SiamRPN++、SiamDW等優(yōu)秀跟蹤器相比,仍具有一定的優(yōu)勢。
表1 OTB100數(shù)據(jù)集在四種挑戰(zhàn)屬性上的成功率和精度Table 1 Success rate and accuracy of OTB100 on four challenge attributes
3.2.2 VOT2018結(jié)果分析
VOT2018[14]數(shù)據(jù)集由VOT 挑戰(zhàn)賽在2018 年推出的。在此基礎(chǔ)上,本文采用精確率(accuracy,A)、魯棒性(robustness,R)、期望平均重疊率(expected average overlap,EAO)和FPS 對跟蹤器評估。精確率是指跟蹤時,所預(yù)測的區(qū)域和目標(biāo)實際區(qū)域的平均交并比,其數(shù)值越大,則說明精確率越高。魯棒性是指在跟蹤過程中出現(xiàn)的跟蹤失敗率,數(shù)值越小,表明跟蹤失敗的概率越低。EAO評分標(biāo)準(zhǔn)是根據(jù)跟蹤成功的視頻序列求出重疊曲線的平均值[22]。
如表2所示,將提出的BsSiamCAR算法和SiamFC[3]、SiamRPN[6]、DaSiamRPN[7]、ECO[23]、ATOM[24]、Staple[25]、SiamCAR[12]等方法對比。本文算法的EAO 值最高為0.438,R 為0.192。本文算法在VOT2018 上的跟蹤效果較好,相較于基礎(chǔ)算法SiamCAR,提出的BsSiamCAR算法EAO值提高1.5%。A提升3.6%。
表2 VOT2018數(shù)據(jù)集上的對比實驗Table 2 Comparative experiment on VOT2018 dataset
本文的跟蹤器在獲得較高EAO 的同時,速度保持在43 FPS。由于采用ResNet-50 深層網(wǎng)絡(luò)進行特征提取,同時增加了通道注意力,因此在處理速度上要比SiamCAR 慢。通常跟蹤系統(tǒng)需要25 FPS 實時跟蹤速度,而本文的跟蹤系統(tǒng)的速度明顯滿足了這個指標(biāo)。并且,與同是ResNet-50 網(wǎng)絡(luò)特征提取的SiamCA R 跟蹤器相比,本文算法引入低通濾波器,提高了跟蹤器在特征提取階段的穩(wěn)定性。
3.2.3 UAV123結(jié)果分析
UAV123[15]數(shù)據(jù)集是由無人機拍攝的包括車輛、行人、船只、建筑物等多種跟蹤對象的數(shù)據(jù)集。視頻序列包含遮擋、形變、尺度變化、背景干擾、快速運動等常見跟蹤中具有挑戰(zhàn)性的場景。如圖10、11 所示,將本文算法與HiFT[26]、CGACD[27]、SiamRPN[6]、SiamDW[8]、SiamRPN++[10]、SiamCAR[12]等6 種先進的跟蹤器比較。實驗結(jié)果表明,在引入通道注意力之后,提出的BsSiamCAR 跟蹤器在成功率S 和精確度P 和經(jīng)典算法相比,性能都得到了較大的提升,與基準(zhǔn)算法SiamCAR相比,在引入低通濾波器和通道注意力SENet之后,成功率和精確度分別提升了0.5%和1.1%,進一步驗證了算法的魯棒性。
圖10 UAV123的跟蹤成功率Fig.10 Tracking success rate on UAV123
圖11 UAV123的跟蹤精度Fig.11 Tracking accuracy on UAV123
為了驗證低通濾波器與最大池化融合的特征提取模塊、通道注意力模塊在算法中的有效性,本文基于OTB100 數(shù)據(jù)集進行消融實驗。如表3 所示,采用SiamCAR 作為基準(zhǔn)算法,分別將兩個模塊引入基準(zhǔn)算法。實驗結(jié)果表明,在SiamCAR的基礎(chǔ)上,引入低通濾波器與最大池化融合的特征提取模塊在特征提取階段的穩(wěn)定性有所提高。算法的S 和P 均得到不同程度提升,分別提高0.9%和0.02%。在引入通道注意力模塊之后,S提高1%,而由于其輕量化的模型,使得FPS仍然保持在50 左右。因此,每個模塊都能一定程度提高跟蹤器的性能。本文同時引入兩個模塊的算法在成功率和精度上均達到最優(yōu),并且43 FPS 的實時性可以滿足日常需求。
表3 消融實驗結(jié)果Table 3 Results of ablation experiment
為了進一步驗證通道注意力SENet的有效性,如表4所示,分別引入SENet、雙重注意力CBAM[28]、全局注意力GAM[29]、和自注意力PSA[30],通過比較各個模型的運算量(GFLOPs)和參數(shù)量(Params)的變化。并對OTB100數(shù)據(jù)集上的成功率和FPS進行對比,進一步驗證本文所引入通道注意力SENet的有效性和輕量化。
表4 不同注意力機制對比結(jié)果Table 4 Comparison results of different attention mechanisms
在B_SiamCAR 的基礎(chǔ)上,添加通道注意力SENet后,由于其輕量化的特點,算法的GFLOPs 和Params 分別提高0.393和2.26×106,在實時性基本不受影響的情況下,成功率提高1.3%,證明了SENet 的有效性。CBAM雙重注意力機制由于引入空間注意力而更關(guān)注圖像的局部區(qū)域,導(dǎo)致算法的跟蹤效果提升不明顯。GAM 全局注意力機制通過減少池化操作盡量保留圖像的全局信息。雖然提高了算法的成功率,但是算法的GFLOPs和Params 分別較大程度提高31.397 和63.73×106,F(xiàn)PS僅為11,算法無法以實時速度運行。PSA自注意力沒有對空間維度和通道維度進行一定程度的壓縮,導(dǎo)致模型參數(shù)量和運算量分別增加10.737 和29.55×106,算法成功率提升只有0.6%,而FPS降至21。
為了更加直觀地表現(xiàn)出BsSiamCAR跟蹤器的先進性,本文在OTB100[13]數(shù)據(jù)集中選出6 個具有代表性的視頻,每個視頻包含三個視頻幀,與其他5 種先進的跟蹤器進行對比。如圖12所示,從上到下依次是Bird1視頻,Board視頻,CarScale視頻,Tiger1視頻,Diving視頻,Liquor 視頻。圖片的左上角表明了當(dāng)前圖片為視頻序列的第幾幀。圖中紅色矩形框代表本文算法。其他框則分別代表SiamFC[3]、SiamCAR[12]、SiamRPN[6]、Siam-RPN++[10]、SiamDW[8]五種算法的跟蹤結(jié)果。
圖12 BsSiamCAR等6種跟蹤器的可視化結(jié)果Fig.12 Visualization results of 6 kinds of trackers such as BsSiamCAR
“Bird1”視頻序列有著尺度變化、背景干擾、部分遮擋、快速運動等各種跟蹤過程中面臨的挑戰(zhàn)性問題,在第188 幀中SiamCAR、SiamFC、SiamRPN 丟失了目標(biāo)。本文算法可以準(zhǔn)確地捕捉到目標(biāo)的位置,主要是因為在特征提取時引入低通濾波器來保證網(wǎng)絡(luò)嚴格的平移不變性,使得提取到的結(jié)果更加穩(wěn)定。從而能處理更加復(fù)雜多變的目標(biāo)。
“CarScale”視頻、“Tiger1”視頻包含了部分遮擋、尺度變化等跟蹤問題,在“CarScale”視頻中的第212 幀和第233 幀,SiamDW、SiamCAR、SiamRPN、SiamFC 都只框到了目標(biāo)的一部分,“Tiger1”在第96 幀和第306 幀也不同程度地出現(xiàn)這種狀況。本文算法預(yù)測出的目標(biāo)框和其他跟蹤器相比更加吻合目標(biāo)真實值。能夠更好地適應(yīng)物體尺度變化的能力。
“Board”視頻在進行跟蹤時,SiamFC和SiamRPN++都在第63 幀出現(xiàn)背景干擾就丟失了目標(biāo),在497 幀處,SiamRPN++找回了目標(biāo),而SiamRPN 只框到了目標(biāo)的一半。在“Liquor”視頻序列中,SiamFC 和SiamRPN 同樣也在相似物干擾的情況下丟失了目標(biāo)。相比之下本文算法引入通道注意力,從而有效地將目標(biāo)與相似物區(qū)分。因此,本文提出的算法能克服背景干擾、相似物干擾常見跟蹤問題。
在跟蹤“Diving”視頻序列時,目標(biāo)發(fā)生了明顯的變形,SiamFC 出現(xiàn)了跟丟目標(biāo)的現(xiàn)象,但本文提出的BsSiamCAR 成功地捕捉到目標(biāo)。經(jīng)過上述分析,提出的BsSiamCAR跟蹤器在各種跟蹤挑戰(zhàn)問題上都能有較好的處理,更加準(zhǔn)確地跟蹤到目標(biāo)。
本文在SiamCAR 算法的基礎(chǔ)上,設(shè)計了一種改進的目標(biāo)跟蹤算法,算法在降采樣過程中引入低通濾波器與最大池化相融合,改善了網(wǎng)絡(luò)嚴格的平移不變性對跟蹤性能的影響,提高算法的穩(wěn)定性。在特征提取之后嵌入了通道注意力SENet,來提升網(wǎng)絡(luò)的判別能力,SENet使得網(wǎng)絡(luò)更加關(guān)注目標(biāo)本身,從而解決了跟蹤中背景干擾的問題。本文算法在三個數(shù)據(jù)集上取得具有競爭力的實驗結(jié)果。然而,與一些自適應(yīng)模板更新算法仍然有所差距,接下來將在保證實時性的情況下改進模板更新的方法,提高跟蹤器性能。