• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于孿生網(wǎng)絡和Transformer的小目標跟蹤算法SiamTrans

      2024-01-09 04:00:16公海濤陳志華盛斌祝冰艷
      計算機應用 2023年12期
      關鍵詞:子網(wǎng)集上精度

      公海濤,陳志華*,盛斌,祝冰艷

      基于孿生網(wǎng)絡和Transformer的小目標跟蹤算法SiamTrans

      公海濤1,陳志華1*,盛斌2,祝冰艷1

      (1.華東理工大學 信息科學與工程學院,上海 200237; 2.上海交通大學 電子信息與電氣工程學院,上海 200240)(?通信作者電子郵箱czh@ecust.edu.cn)

      針對現(xiàn)有小目標跟蹤算法的魯棒性差、精度及成功率低的問題,提出一種基于孿生網(wǎng)絡和Transformer的小目標跟蹤算法SiamTrans。首先,基于Transformer機制設計一種相似度響應圖計算模塊。該模塊疊加若干層特征編碼-解碼結構,并利用多頭自注意力機制和多頭跨注意力機制在不同層次的搜索區(qū)域特征圖中查詢模板特征圖信息,從而避免陷入局部最優(yōu)解,并獲得一個高質(zhì)量的相似度響應圖;其次,在預測子網(wǎng)中設計一個基于Transformer機制的預測模塊(PM),并利用自注意力機制處理預測分支特征圖中的冗余特征信息,以提高不同預測分支的預測精度。在Small90數(shù)據(jù)集上,相較于TransT(Transformer Tracking)算法,所提算法的跟蹤精度和跟蹤成功率分別高8.0和9.5個百分點??梢?,所提出的算法具有更優(yōu)異的小目標跟蹤性能。

      目標跟蹤;小目標;孿生網(wǎng)絡;注意力機制;Transformer

      0 引言

      目標跟蹤是計算機視覺研究中的一個重要方向,通過對視頻中不同幀之間目標位置的連續(xù)預測實現(xiàn)對目標運動的穩(wěn)定跟蹤。從任務結果看,目標跟蹤與目標檢測任務存在著一定的相似性,目的都是預測圖片中目標的位置;但是目標跟蹤需要處理在時間上具有連續(xù)性的不同視頻幀。此外,目標的運動過程還受到形變、遮擋、背景模糊等因素的干擾,因此目標跟蹤任務更具挑戰(zhàn)性。

      本文將小目標定義為目標面積小于圖片面積1%的目標。小目標是一種特殊的目標,自身尺度較小,無法為跟蹤器提供足夠的特征進行學習。另外,小目標在運動過程中更易受到環(huán)境因素的影響,比如:簡單的遮擋就會導致小目標在運動視野中完全消失;低分辨率圖像中小目標可提供的特征更少。這些問題導致對小目標穩(wěn)定跟蹤的難度更大。隨著無人機、無人駕駛等產(chǎn)業(yè)的發(fā)展,小目標跟蹤技術也存在廣泛的應用前景,但是因為技術上的難度以及相關產(chǎn)業(yè)的滯后性,目標跟蹤任務的研究重點多為常規(guī)目標,專門跟蹤小目標的研究相對較少。將針對常規(guī)目標設計的跟蹤算法直接應用在小目標跟蹤任務中存在較大問題,如Henriques等[1]提出的KCF(Kernelized Correlation Filters)算法、Li等[2]提出的SiamRPN(Siamese Region Proposal Network)算法、Guo等[3]提出的SiamCAR(Siamese fully Convolutional classification And Regression)算法在跟蹤小目標時容易丟失目標,還存在預測精度較低的問題;此外,現(xiàn)有的小目標跟蹤算法漏檢、誤檢問題也較多。

      針對上述問題,本文基于孿生網(wǎng)絡和Transformer算法[4]提出了一種小目標跟蹤算法SiamTrans。在目前已提出的單目標跟蹤算法中,孿生網(wǎng)絡架構優(yōu)越性顯著,王夢亭等[5]總結了基于孿生網(wǎng)絡的經(jīng)典單目標跟蹤算法,因此本文算法也選擇孿生網(wǎng)絡架構。通過設計基于Transformer算法的相似度響應圖計算模塊,本文算法提高了相似度響應圖的計算精度,為預測子網(wǎng)提供了高精度的輸入信息;此外,在預測子網(wǎng)中設計了一個基于Transformer算法的預測模塊(Prediction Module, PM),通過自注意力機制提高目標位置預測的準確性。

      本文的主要工作如下:

      1)基于Transformer算法提出了一種相似度響應圖計算模塊,該模塊中包含特征編碼-解碼結構,利用多頭自注意力機制和多頭跨注意力機制實現(xiàn)目標特征與搜索區(qū)域特征的有效融合,提高相似度響應圖的計算精度,從而為預測子網(wǎng)提供高質(zhì)量輸入信息。

      2)基于Transformer算法提出了一種預測模塊,該模塊利用自注意力機制增強了對目標前景、背景和目標位置信息的關注度,準確預測了目標位置。

      3)提出了一種基于孿生網(wǎng)絡與Transformer的小目標跟蹤算法SiamTrans,將相似度響應圖計算模塊和預測模塊嵌入孿生網(wǎng)絡,實現(xiàn)了對小目標的有效跟蹤。在Small90[6]、LaTOT(Large-Scale Tiny Object Tracking benchmark)[7]、UAV123(Unmanned Aerial Vehicle123)[8]等數(shù)據(jù)集上的測試結果表明SiamTrans具有較優(yōu)的性能。

      1 相關技術

      1.1 小目標跟蹤算法

      為了增強目標跟蹤的魯棒性,常用的方法是特征融合或者注意力機制,如朱文球等[9]提出的目標跟蹤算法中提出了融合空間注意力和通道注意力的混合注意力機制。已有的小目標跟蹤算法主要通過增強特征的方式實現(xiàn)目標跟蹤。Ahmadi等[10]在跟蹤算法中整合空間特征信息和頻率特征信息,增強了目標特征圖中的目標特征信息,從而提高了目標位置預測的準確度。相似地,Ahmadi等[11]為了解決復雜環(huán)境中小目標跟蹤的問題,提出了一種多層次的小目標跟蹤算法,增強了小目標跟蹤的魯棒性。Marvasti-Zadeh等[12]則提出了一種雙流網(wǎng)絡,該網(wǎng)絡訓練時會學習不同尺寸的特征信息并通過注意力機制過濾不相關的特征信息。通過這些策略,目標跟蹤算法較好地解決了目標運動過程中的遮擋以及視角變化問題。Liu等[6]提出了一種目標特征簽名機制,通過特征簽名算法提高了小目標特征在特征圖中的區(qū)別度使得目標更容易被預測。盡管這些方法已經(jīng)在小目標跟蹤任務上取得了一定的進展,但是仍然存在一些問題,比如在計算相似度響應圖時僅利用單層特征圖,未充分利用目標特征信息與當前幀不同特征層之間的特征關系;此外,利用互相關操作計算相似度響應圖容易丟失語義信息并陷入局部最優(yōu)解。這些問題制約著小目標跟蹤算法的性能。

      1.2 常規(guī)目標跟蹤算法

      常規(guī)目標跟蹤算法可以分為基于相關濾波的跟蹤算法和基于深度學習的跟蹤算法。早期階段,基于相關濾波的跟蹤算法在跟蹤速度以及精度上表現(xiàn)優(yōu)異,很多優(yōu)秀的算法,如KCF[1]、CSK(Circulant Structure of tracking-by-detection with Kernels)[13]、SAMF(Scale Adaptive Multiple Feature)[14]、ECO(Efficient Convolution Operators)[15]等算法被先后提出。盡管這些算法在相關數(shù)據(jù)集上的測試結果具有明顯優(yōu)點,但是也存在著明顯缺點,如學習目標特征的能力不足,在復雜場景中算法不能穩(wěn)定跟蹤目標等。這些因素制約了相關濾波算法的進一步發(fā)展。

      深度學習方法在巨量數(shù)據(jù)的基礎上,對模型中的參數(shù)進行調(diào)整,使得模型不斷得到優(yōu)化,擬合能力不斷增強。這也意味著深度學習算法有著強大的特征學習能力,這一能力使它在目標跟蹤、目標檢測、語義分割等任務中具有巨大優(yōu)勢。在跟蹤任務中,基于孿生網(wǎng)絡的算法將跟蹤問題建模為一個相似度匹配問題,通過端到端的訓練實現(xiàn)了跟蹤精度與速度的平衡,并在多個數(shù)據(jù)集上超越了基于相關濾波的跟蹤算法。SiamFC(Fully-Convolutional Siamese network)算法[16]是目標跟蹤任務中首個全卷積的跟蹤網(wǎng)絡,它設計了一種非常簡潔的模型結構,通過計算搜索區(qū)域中不同位置與目標特征的相似度實現(xiàn)對目標位置的準確預測。此后,基于孿生網(wǎng)絡結構的優(yōu)秀跟蹤模型大量涌現(xiàn),如SiamRPN[2]將在目標檢測任務中大獲成功的RPN(Region Proposal Network)引入跟蹤任務中,在不增加計算量的前提下,利用預制的錨框?qū)崿F(xiàn)了對目標位置的高質(zhì)量回歸。在SiamRPN[2]的基礎上,SiamRPN++算法[17]優(yōu)化了特征提取子網(wǎng)以及相似度計算方法,并在多個數(shù)據(jù)集上獲得了更好的結果。此外,DaSiamRPN(Distractor-aware SiamRPN)[18]、SiamMask[19]、SiamBAN(Siamese Box Adaptive Network)[20]等算法也是基于孿生網(wǎng)絡的代表性工作。

      Transformer算法[4]是一種完全基于注意力機制的算法,它成功應用于自然語言處理任務和計算機視覺任務中。Yan等[21]提出了包含一種編碼-解碼的Transformer組件的跟蹤算法,該組件會編碼視頻幀序列中包含的時間、空間特征信息,并利用解碼模塊直接預測候選框。相似地,Wang等[22]也設計了一個包含編碼-解碼結構的Transformer模塊并整合到基于孿生網(wǎng)絡結構的跟蹤算法中,Transformer模塊的目的是融合視頻幀中的時序信息以提升相似度計算的準確性。與前兩種算法不同的是,Blatter等[23]則是在預測子網(wǎng)的分支中引入了Transformer模塊,通過替換預測子網(wǎng)分支中的卷積結構并引入一個輕量級的特征提取模塊,模型在CPU上就達到了較高的處理速度。上述針對常規(guī)目標設計的跟蹤算法直接應用到小目標跟蹤任務中會存在漏檢、誤檢的問題,但這些方法的設計思想對小目標跟蹤算法的設計具有啟發(fā)性。

      2 本文算法設計

      2.1 特征提取子網(wǎng)

      2.2 相似度響應圖計算模塊

      2.2.1特征編碼模塊

      2.2.2特征解碼模塊

      FDM的結構如圖2(b)所示。FDM的作用是融合模板特征圖以及搜索區(qū)域特征圖,從而得到與互相關操作輸出結果類似的相似度響應圖。與FEM不同,在FDM中設計一個多頭跨注意力機制層,該層的輸入信息為FEM輸出的模板特征編碼響應圖以及上一層FDM輸出的相似度響應圖。此外,為了強化相似度響應圖中的目標位置信息,在該模塊中同樣引入目標的空間編碼信息。該模塊中多頭跨注意力機制的計算公式如式(6)所示:

      2.3 預測子網(wǎng)

      在跟蹤任務中,用預測子網(wǎng)預測目標位置?,F(xiàn)有的基于孿生網(wǎng)絡的跟蹤算法中,預測子網(wǎng)由卷積結構組成,包含分類分支和回歸分支兩個分支:前者用來區(qū)分搜索區(qū)域中的前景和背景;后者用來預測目標預測框的位置。在預測任務中,跟蹤算法需要重點關注前景信息和目標位置信息,過濾冗余信息,因此基于Transformer[4]設計了預測模塊,模塊中包含了一個自注意力層,以增強跟蹤器對前景信息以及目標位置的感知能力,提高目標預測的精度。預測模塊的結構如圖2(c)所示。算法分別在分類分支以及回歸分支中嵌入6個預測模塊,兩個分支末尾分別引入了1個卷積層以調(diào)整輸出結果,最終得到對目標位置的預測結果。

      圖2 FEM,F(xiàn)DM和PM的結構

      3 實驗與結果分析

      實驗的硬件設備如下:顯卡型號為NVIDIA Geforce RTX 3090,CPU型號為8核心 2.1 GB Intel Xeon Silver 4208,內(nèi)存型號為16 GB DDR4 RAM。算法使用梯度下降法在COCO(Common Objects in COntext)[25]、ImageNet DET(ImageNetwork DETection)[26]、LaTOT[7]以及GOT-10k[27]等數(shù)據(jù)集進行訓練。特征提取子網(wǎng)兩個分支的輸入圖像大小分別設定為256×256、128×128。算法選擇在ImageNet數(shù)據(jù)集上預訓練的ResNet-50作為特征提取器。模型一共訓練800輪,批處理尺寸設置為16,學習率設置為0.000 1,訓練400輪學習率衰減至1/10。訓練好的算法在5個數(shù)據(jù)集上進行了測試,分別是Small90[6]、Small112[6]、UAV123_10fps[8]、UAV20L[8]和LaTOT[7],具體的實驗結果如下。

      3.1 Small90數(shù)據(jù)集

      為了評估提出的小目標跟蹤算法的性能,Liu等[6]在UAV123[8]等數(shù)據(jù)集的基礎上收集了90個視頻序列,提出了Small90數(shù)據(jù)集。Small90數(shù)據(jù)集中視頻序列包含的目標均為小目標。根據(jù)目標運動過程中的特點,這些視頻序列包含光照變化、尺度變化、遮擋、形變,運動模糊、快速運動、平面內(nèi)旋轉、平面外旋轉、目標消失、背景雜波和低分辨率這11個屬性。通過分析跟蹤算法在不同屬性上的跟蹤精度可以準確評估跟蹤器針對目標不同運動特點的魯棒性。圖3為本文算法與其他跟蹤算法的對比結果。從圖3可以看出,本文算法明顯優(yōu)于其他對比算法,其中方括號數(shù)值為測試算法的精度和成功率為曲線下面積值(Area Under Curve, AUC)。具體地,SiamTrans算法在跟蹤精度和成功率上分別比次優(yōu)算法TransT(Transformer Tracking)[28]高8.0個百分點和9.5個百分點。表1對比了SiamTrans與SCT(Structuralist Cognitive Tracker)[29]、KCF_AST(Kernelized Correlation Filters_Aggregation Signature Tracker)[6]、MDNet_AST(Multi-Domain Convolutional Neural Networks_Aggregation Signature Tracker)[6]和ECO(Efficient Convolution Operators)[15]在不同視頻屬性上的表現(xiàn),SiamTrans僅在遮擋、低分辨率屬性上表現(xiàn)略差,在其他屬性上表現(xiàn)最優(yōu)。

      圖3 不同算法在Small90數(shù)據(jù)集上的結果

      表1不同算法在Small90數(shù)據(jù)集上不同屬性下的跟蹤精度以及成功率比較結果

      Tab.1 Comparison results of tracking precision and success rate for different algorithms in different attributes on Small90 dataset

      3.2 Small112數(shù)據(jù)集

      與Small90數(shù)據(jù)集[6]相比,Small112數(shù)據(jù)集[6]又加入了22個更具有挑戰(zhàn)性的視頻序列,新增的視頻序列對算法的跟蹤能力提出了更高的要求。Small112數(shù)據(jù)集的實驗結果如表2所示,SiamTrans與6個跟蹤算法作了對比。DaSiamRPN_AST(Distractor-Aware Siamese Networks_Aggregation Signature Tracker)[6]在Small112數(shù)據(jù)集上的成功率最高,SiamTrans的跟蹤精度最優(yōu)。

      3.3 UAV123_10fps數(shù)據(jù)集

      小目標跟蹤任務的一個重要應用場景是無人機領域,可以利用無人機對特定目標進行長時跟蹤。UAV123_10fps數(shù)據(jù)集[8]中的123個視頻序列由無人機在低空拍攝,因為拍攝角度和高度的特殊性,視頻中的目標尺寸更小,跟蹤難度更高。比如,遠距離拍攝導致目標更加難以判別、拍攝視野中的目標更加容易丟失。圖4為跟蹤算法在UAV123_10fps數(shù)據(jù)集上的跟蹤結果,分別測試了本文算法與CSK[13]、SAMF[14]、OAB(Online version of the AdaBoost Algorithm)[30]、MEEM(Multiple Experts using Entropy Minimization)[31]和TransT[28]。在跟蹤精度上SiamTrans與TransT算法[28]表現(xiàn)相近。在跟蹤成功率上,SiamTrans超過次優(yōu)算法1.2個百分點,表現(xiàn)最優(yōu)。

      圖4 不同算法在UAV123_10fps數(shù)據(jù)集上的結果

      3.4 UAV20L數(shù)據(jù)集

      UAV20L數(shù)據(jù)集[8]對跟蹤算法的長時跟蹤能力提出了更高的要求,因為數(shù)據(jù)集中包含的20個視頻序列的平均幀數(shù)超過1 000,均為長時視頻。如果跟蹤器沒有魯棒的跟蹤能力,就容易在跟蹤過程中丟失目標,影響跟蹤的成功率和跟蹤精度。UAV20L數(shù)據(jù)集的跟蹤結果如表2所示。與DaSiamRPN_AST[6]等6個跟蹤算法相比,本文算法在成功率和精度上都表現(xiàn)最優(yōu),這也表明SiamTrans具有優(yōu)秀的長時跟蹤能力。

      3.5 LaTOT數(shù)據(jù)集

      深度學習有海量數(shù)據(jù)的支撐,而小目標跟蹤任務缺乏大規(guī)模訓練數(shù)據(jù)集的支撐。LaTOT數(shù)據(jù)集[7]在一定程度上解決了這個問題。LaTOT數(shù)據(jù)集中的數(shù)據(jù)海量且多樣,包含了434個視頻序列,超過217 000幀圖像,覆蓋了48個類別,270個場景。這一大規(guī)模數(shù)據(jù)集的出現(xiàn)在一定程度上彌補了它與常規(guī)目標跟蹤任務之間的差距。圖5是在LaTOT數(shù)據(jù)集上的可視化結果。本文算法的對比算法包括MDNet算法[32]、SiamRPN++算法[17]和SiamCAR算法[3]。表3是本文算法與其他算法在LaTOT數(shù)據(jù)集上的對比結果。小目標跟蹤算法MKDNet(Multilevel Knowledge Distillation Network)[7]在LaTOT數(shù)據(jù)集中尺度變化、目標消失兩個屬性上的成功率優(yōu)于SiamTrans,在其他屬性上SiamTrans表現(xiàn)最優(yōu)。

      表2不同算法在Small112和UAV20L數(shù)據(jù)集上的跟蹤成功率和精度比較結果

      Tab.2 Comparison results of tracking success rate and precision for different algorithms on Small112 and UAV20L datasets

      圖5 SiamTrans算法跟蹤結果的可視化結果

      表3 不同算法在LaTOT數(shù)據(jù)集上不同屬性下的跟蹤成功率

      4 消融實驗與結果

      為了證明相似度響應圖計算模塊以及預測模塊的作用,在本章設計相應的消融實驗。

      4.1 相似度響應圖計算模塊

      在相似度響應圖計算模塊中疊加了若干個特征編碼模塊以及特征解碼模塊。為了驗證模塊以及FEM-FDM疊加層數(shù)的有效性,在消融實驗中驗證了只使用互相關操作計算相似度響應圖以及疊加不同層FEM-FDM對跟蹤器預測精度的影響,結果如表4所示。從表4中可見,與其他層數(shù)的FEM-FDM相比,疊加6層FEM-FDM的效果最好。作為經(jīng)典的相似度響應圖計算方法,互相關操作仍然具有一定優(yōu)勢,它在UAV123_10fps數(shù)據(jù)集[8]上跟蹤精度最高,但是在Small90數(shù)據(jù)集[6]上的跟蹤精度和成功率以及UAV123_10fps數(shù)據(jù)集上的成功率均低于疊加6層編碼-解碼模塊的模型。

      表4相似度響應圖計算模塊的消融實驗結果

      Tab.4 Ablation experimental results of similarity response map calculation module

      4.2 預測模塊

      在預測模塊的消融實驗中,設計僅使用卷積模塊的預測分支以及疊加不同層預測模塊的預測分支。表5展示了消融實驗的結果。從實驗結果可以看出,在預測分支中設計6層預測模塊時的結果優(yōu)于僅有卷積結構時模型的結果以及添加其他層數(shù)預測模塊時模型的表現(xiàn)。

      圖6為預測分支的特征圖的可視化結果。

      表5預測模塊的消融實驗結果

      Tab.5 Ablation experiment results of prediction module

      圖6 預測分支的特征圖的可視化結果

      圖6中選擇的視頻幀為Small90數(shù)據(jù)集中group_2視頻序列中的第1、51、91幀。從圖6可以看出,因為圖片中存在多個相似的目標,在未添加預測模塊時,特征圖中存在多個峰值,不利于預測分支預測目標位置。在添加預測模塊后,特征圖中的其他峰值得到抑制,目標特征被突出,這有利于跟蹤器實現(xiàn)準確的預測。

      5 結語

      本文將孿生網(wǎng)絡和Transformer結合,提出了小目標跟蹤算法SiamTrans。在模型中,提出了基于Transformer結構的相似度響應圖計算模塊以及基于Transformer結構的預測模塊,豐富了小目標跟蹤任務的解決方案,增強了跟蹤小目標的魯棒性。實驗結果表明,相較于其他跟蹤算法,SiamTrans算法對小目標的跟蹤精度以及準確率均有了明顯提升。實驗過程中,發(fā)現(xiàn)模型在一些特殊場景下仍然會出現(xiàn)丟失目標的問題,這也是將來需要改進的地方。

      [1] HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

      [2] LI B, YAN J, WU W, et al. High performance visual tracking with Siamese region proposal network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8971-8980.

      [3] GUO D, WANG J, CUI Y, et al. SiamCAR: Siamese fully convolutional classification and regression for visual tracking [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 6268-6276.

      [4] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

      [5] 王夢亭,楊文忠,武雍智. 基于孿生網(wǎng)絡的單目標跟蹤算法綜述[J]. 計算機應用, 2023, 43(3):661-673.(WANG M T, YANG W Z, WU Y Z. Survey of single target tracking algorithms based on Siamese network [J]. Journal of Computer Applications, 2023, 43(3): 661-673.)

      [6] LIU C, DING W, YANG J, et al. Aggregation signature for small object tracking [J]. IEEE Transactions on Image Processing, 2020, 29: 1738-1747.

      [7] ZHU Y, LI C, LIU Y, et al. Tiny object tracking: a large-scale dataset and a baseline[EB/OL]. (2022-02-11)[2022-09-16].https://arxiv.org/pdf/2202.05659.pdf.

      [8] MUELLER M, SMITH N, GHANEM B. A benchmark and simulator for UAV tracking [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 445-461.

      [9] 朱文球,鄒廣,曾志高. 融合層次特征和混合注意力的目標跟蹤算法[J]. 計算機應用, 2022, 42(3): 833-843.(ZHU W Q, ZOU G, ZENG Z G. Object tracking algorithm with hierarchical features and hybrid attention[J]. Journal of Computer Applications, 2022, 42(3): 833-843.)

      [10] AHMADI K, SALARI E. Small dim object tracking using frequency and spatial domain information[J]. Pattern Recognition, 2016, 58: 227-234.

      [11] AHMADI K, SALARI E. Small dim object tracking using a multi objective particle swarm optimisation technique[J]. IET Image Processing, 2015, 9(9): 820-826.

      [12] MARVASTI-ZADEH S M, KHAGHANI J, CHANEI-YAKHDAN H, et al. COMET: context-aware IoU-guided network for small object tracking [C]// Proceedings of the 2020 Asian Conference on Computer Vision, LNCS 12623. Cham: Springer, 2021: 594-611.

      [13] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]// Proceedings of the 2012 European Conference on Computer Vision, LNCS 7575. Berlin: Springer, 2012: 702-715.

      [14] LI Y, ZHU J. A scale adaptive kernel correlation filter tracker with feature integration[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8926. Cham: Springer, 2015: 254-265.

      [15] DANELLJAN M, BHAT G, SHAHBAZ KHAN F, et al. ECO: efficient convolution operators for tracking [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6931-6939.

      [16] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9914. Cham: Springer, 2016: 850-865.

      [17] LI B, WU W, WANG Q, et al. SiamRPN++: evolution of Siamese visual tracking with very deep networks [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4282-4291.

      [18] ZHU Z, WANG Q, LI B, et al. Distractor-aware Siamese networks for visual object tracking[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11213. Cham: Springer, 2018: 103-119.

      [19] WANG Q, ZHANG L, BERTINETTO L, et al. Fast online object tracking and segmentation: a unifying approach [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 1328-1338.

      [20] CHEN Z, ZHONG B, LI G, et al. Siamese box adaptive network for visual tracking[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 6667-6676.

      [21] YAN B, PENG H, FU J, et al. Learning spatio-temporal Transformer for visual tracking [C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 10428-10437.

      [22] WANG N, ZHOU W, WANG J, et al. Transformer meets tracker: exploiting temporal context for robust visual tracking [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 1571-1580.

      [23] BLATTER P, KANAKIS M, DANELLJAN M, et al. Efficient visual tracking with Exemplar Transformers [C]// Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2023: 1571-1581.

      [24] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

      [25] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8693. Cham: Springer, 2014: 740-755.

      [26] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

      [27] HUANG L, ZHAO X, HUANG K. GOT-10k: a large high-diversity benchmark for generic object tracking in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1562-1577.

      [28] CHEN X,YAN B,ZHU J,et al. Transformer tracking[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2021:8122-8131.

      [29] CHOI J, CHANG H J, JEONG J, et al. Visual tracking using attention-modulated disintegration and integration[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4321-4330.

      [29] NAM H, HAN B. Learning multi-domain convolutional neural networks for visual tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4293-4302.

      [30] GRABNER H, GRABNER M, BISCHOF H. Real-time tracking via on-line boosting [EB/OL]. [2022-11-20]. https://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=0653CED71417C5E6632E7117161E2201?doi=10.1.1.91.8743&rep=rep1&type=pdf.

      [31] ZHANG J, MA S, SCLAROFF S. MEEM: robust tracking via multiple experts using entropy minimization [C]// Proceedings of the 2014 European Conference on Computer Vision,LNCS 8694. Cham:Springer, 2014:188-203.

      [32] ZHANG Z, PENG H, FU J, et al. Ocean: object-aware anchor-free tracking [C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12366. Cham: Springer, 2020: 771-787.

      [33] CHEN X, YAN B, ZHU J, et al. Transformer tracking[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 8122-8131.

      SiamTrans: tiny object tracking algorithm based on Siamese network and Transformer

      GONG Haitao1, CHEN Zhihua1*, SHENG Bin2, ZHU Bingyan1

      (1,,200237,;2,,200240,)

      Aiming at the problems of poor robustness, low precision and success rate in the existing tiny object tracking algorithms, a tiny object tracking algorithm, SiamTrans, was proposed on the basis of Siamese network and Transformer. Firstly, a similarity response map calculation module was designed based on the Transformer mechanism. In the module, several layers of feature encoding-decoding structures were superimposed, and multi-head self-attention and multi-head cross-attention mechanisms were used to query template feature map information in feature maps of different levels of search regions, which avoided falling into local optimal solutions and obtained a high-quality similarity response map. Secondly, a Prediction Module (PM) based on Transformer mechanism was designed in the prediction subnetwork, and the self-attention mechanism was used to process redundant feature information in the prediction branch feature maps to improve the prediction precisions of different prediction branches. Experimental results on Small90 dataset show that, compared to the TransT (Transformer Tracking) algorithm, the tracking precision and tracking success rate of the proposed algorithm are 8.0 and 9.5 percentage points higher, respectively. It can be seen that the proposed algorithm has better tracking performance for tiny objects.

      object tracking; tiny object; Siamese network; attention mechanism; Transformer

      This work is partially supported by Fund Project of National Key Laboratory of Space Intelligent Control (HTKJ2022KL502010).

      GONG Haitao, born in 1998, M. S. candidate. His research interests include computer vision, deep learning.

      CHEN Zhihua, born in 1969, Ph. D., professor. His research interests include computer vision, machine learning.

      SHENG Bin, born in 1981, Ph. D., professor. His research interests include virtual reality, computer graphics.

      ZHU Bingyan, born in 1998, M. S. candidate. Her research interests include computer vision, deep learning.

      TP391.4

      A

      1001-9081(2023)12-3733-07

      10.11772/j.issn.1001-9081.2022111790

      2022?12?06;

      2023?02?23;

      2023?02?27。

      空間智能控制技術全國重點實驗室開放基金課題(HTKJ2022KL502010)。

      公海濤(1998—),男,山東臨沂人,碩士研究生,主要研究方向:計算機視覺、深度學習;陳志華(1969—),男,江西上饒人,教授,博士,CCF杰出會員,主要研究方向:計算機視覺、機器學習;盛斌(1981—),男,湖北武漢人,教授,博士,CCF會員,主要研究方向:虛擬現(xiàn)實、計算機圖形學;祝冰艷(1998—),女,安徽六安人,碩士研究生,主要研究方向:計算機視覺、深度學習。

      猜你喜歡
      子網(wǎng)集上精度
      一種簡單子網(wǎng)劃分方法及教學案例*
      計算機時代(2023年1期)2023-01-30 04:08:22
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      子網(wǎng)劃分問題研究及應用
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      復扇形指標集上的分布混沌
      子網(wǎng)劃分的簡易方法
      GPS/GLONASS/BDS組合PPP精度分析
      改進的Goldschmidt雙精度浮點除法器
      基于安全協(xié)議的虛擬專用子網(wǎng)研究
      河南科技(2014年16期)2014-02-27 14:13:04
      弋阳县| 绿春县| 汤阴县| 崇礼县| 苏尼特左旗| 台北市| 襄汾县| 焉耆| 田阳县| 广安市| 剑川县| 鹤峰县| 抚远县| 内江市| 专栏| 邓州市| 汽车| 桐城市| 广灵县| 禹城市| 遵义县| 克拉玛依市| 玛纳斯县| 长岭县| 周口市| 南充市| 施秉县| 明星| 晴隆县| 钟祥市| 金门县| 白水县| 张掖市| 虎林市| 伊宁县| 义马市| 龙海市| 合阳县| 凉山| 长治县| 监利县|