郭凡 盧鉉宇 李嘉怡 王紅梅
摘 要:????? 目標(biāo)跟蹤是根據(jù)視頻序列中目標(biāo)的前續(xù)信息, 對(duì)目標(biāo)的當(dāng)前狀態(tài)進(jìn)行預(yù)測(cè)。 深度學(xué)習(xí)在目標(biāo)跟蹤領(lǐng)域逐漸廣泛應(yīng)用, 本文闡述了目標(biāo)跟蹤算法和深度學(xué)習(xí)的發(fā)展背景, 對(duì)傳統(tǒng)目標(biāo)跟蹤進(jìn)行了回顧, 根據(jù)不同的網(wǎng)絡(luò)任務(wù)功能, 將基于深度學(xué)習(xí)的目標(biāo)跟蹤算法分為: 基于分類的深度學(xué)習(xí)目標(biāo)跟蹤算法、 基于回歸的深度學(xué)習(xí)目標(biāo)跟蹤算法、 基于回歸與分類結(jié)合的目標(biāo)跟蹤算法, 并選取了具有代表性的目標(biāo)跟蹤算法進(jìn)行實(shí)驗(yàn), 對(duì)比不同算法之間的特點(diǎn); 最后對(duì)目前基于深度學(xué)習(xí)的目標(biāo)跟蹤方法存在的問(wèn)題進(jìn)行分析, 對(duì)未來(lái)發(fā)展方向進(jìn)行展望。 實(shí)驗(yàn)結(jié)果證明, 深度孿生跟蹤網(wǎng)絡(luò)在精度與速度上均占優(yōu), 成為當(dāng)前主流的跟蹤算法框架。
關(guān)鍵詞:???? 目標(biāo)跟蹤; 深度學(xué)習(xí); 神經(jīng)網(wǎng)絡(luò); 卷積神經(jīng)網(wǎng)絡(luò); 孿生神經(jīng)網(wǎng)絡(luò); 生成對(duì)抗網(wǎng)絡(luò)
中圖分類號(hào):??? ??TJ760; TP273
文獻(xiàn)標(biāo)識(shí)碼:??? A
文章編號(hào):??? ?1673-5048(2024)01-0001-12
DOI: 10.12132/ISSN.1673-5048.2022.0226
0 引? 言
目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)領(lǐng)域十分重要的分支, 其技術(shù)被廣泛應(yīng)用于軍事制導(dǎo)、 自動(dòng)駕駛、 社會(huì)安防等各個(gè)領(lǐng)域。 在實(shí)際應(yīng)用中存在諸多挑戰(zhàn), 如: 相似目標(biāo)干擾、 目標(biāo)形變較大、 目標(biāo)快速移動(dòng)等, 因此在面對(duì)實(shí)際干擾因素時(shí), 提高目標(biāo)跟蹤的精度與實(shí)時(shí)性是使其更加廣泛應(yīng)用于各領(lǐng)域的關(guān)鍵所在。
目標(biāo)跟蹤的一般執(zhí)行步驟可描述為: 首先對(duì)當(dāng)前目標(biāo)的候選樣本進(jìn)行特征提取, 并基于目標(biāo)的特征信息與候選樣本的特征信息進(jìn)行對(duì)比與匹配, 由觀測(cè)模型選定最終跟蹤結(jié)果[1]。
傳統(tǒng)目標(biāo)跟蹤方法主要使用手工特征, 由觀測(cè)模型的不同劃分為兩類: 生成式模型方法、 判別式模型方法。
生成式模型方法通過(guò)搜索當(dāng)前圖像中與目標(biāo)最相似的區(qū)域作為跟蹤結(jié)果實(shí)現(xiàn)目標(biāo)跟蹤。 Comaniciu等人[2]提出用一個(gè)各向同性的核在空域處理目標(biāo), 這樣就可以定義出一個(gè)在空域上平滑的相似函數(shù), 目標(biāo)定位問(wèn)題就簡(jiǎn)化為尋找該相似函數(shù)的低谷。 Kwon等人[3]提出一種基于視覺(jué)跟蹤分解和采樣的跟蹤框架, 該框架從跟蹤器中選擇最優(yōu)混合模型, 從多角度特征對(duì)目標(biāo)進(jìn)行魯棒跟蹤; 在跟蹤過(guò)程中采用更優(yōu)的跟蹤器代替當(dāng)前跟蹤器, 并且通過(guò)增加更優(yōu)跟蹤器或舍棄次優(yōu)跟蹤器來(lái)改變跟蹤器的總數(shù)量。 Wang等人[4]提出基于稀疏原型的在線目標(biāo)跟蹤算法, 將傳統(tǒng)的PCA和稀疏表示結(jié)合。 生成式模型方法主要尋找目標(biāo)的最相似區(qū)域, 但容易忽略背景信息。
判別式模型方法通過(guò)判別函數(shù)搜索決策邊界, 將目標(biāo)歸為前景, 并與其他作為背景的非目標(biāo)區(qū)域區(qū)分開(kāi), 以達(dá)到跟蹤的目的。 此類方法大量使用了機(jī)器學(xué)習(xí)方法。 文獻(xiàn)[5]將基于光流法的跟蹤和SVM結(jié)合實(shí)現(xiàn)長(zhǎng)時(shí)跟蹤; 基于特征選擇框架的在線boosting[6]及其與半監(jiān)督學(xué)習(xí)結(jié)合可以解決更多樣的實(shí)時(shí)跟蹤問(wèn)題; Saffari等人[7]結(jié)合在線bagging和隨機(jī)森林算法, 提出在線決策樹(shù)生長(zhǎng)的方法, 實(shí)現(xiàn)更加穩(wěn)定的跟蹤效果; 文獻(xiàn)[8]使用線性核函數(shù)結(jié)合混合特征通道實(shí)現(xiàn)了復(fù)雜情況下的線性相關(guān)濾波跟蹤。
綜上所述, 目前傳統(tǒng)的目標(biāo)跟蹤算法已取得較大發(fā)展, 但由于手工特征無(wú)法全面描述語(yǔ)義信息, 因此在目標(biāo)產(chǎn)生較為顯著的外觀變化時(shí), 傳統(tǒng)目標(biāo)跟蹤算法的精度無(wú)法滿足實(shí)際需求。
由于深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的語(yǔ)義信息提取能力及泛化能力, 深度學(xué)習(xí)方法逐漸在跟蹤領(lǐng)域被廣泛使用并取得了諸多顯著成績(jī)。?? 因此, 本文根據(jù)網(wǎng)絡(luò)對(duì)目標(biāo)跟蹤任務(wù)的理解與求解方式, ?將基于深度學(xué)習(xí)的目標(biāo)跟蹤方法分為: 基于分類的深度學(xué)習(xí)目標(biāo)跟蹤、 基于回歸的深度學(xué)習(xí)目標(biāo)跟蹤、 基于分類和回歸結(jié)合的目標(biāo)跟蹤。
目前已存在一些基于深度學(xué)習(xí)的目標(biāo)跟蹤算法綜述, 例如Marvasti-Zadeh等人[9]從網(wǎng)絡(luò)結(jié)構(gòu)、 網(wǎng)絡(luò)訓(xùn)練方式、 網(wǎng)絡(luò)功能、 網(wǎng)絡(luò)輸出等多個(gè)不同的角度對(duì)當(dāng)前的深度學(xué)習(xí)目標(biāo)跟蹤算法進(jìn)行介紹; Fiaz等人[10]將當(dāng)前的目標(biāo)跟蹤算法分為基于相關(guān)濾波與非相關(guān)濾波兩類進(jìn)行介紹, 并將以上兩類按照不同的網(wǎng)絡(luò)框架結(jié)構(gòu)分別對(duì)不同的目標(biāo)跟蹤算法進(jìn)行進(jìn)一步的分類介紹, 此外提出新的目標(biāo)跟蹤數(shù)據(jù)集OTTC, 并在該數(shù)據(jù)集上進(jìn)行不同算法之間的對(duì)比實(shí)驗(yàn); Javed等人[11]主要進(jìn)行了對(duì)基于判別式相關(guān)濾波與基于深度孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法的對(duì)比研究, 并在多個(gè)數(shù)據(jù)集上分析了判別式相關(guān)濾波與深度孿生跟蹤網(wǎng)絡(luò)的性能評(píng)估; Soleimanitaleb等人[12]將當(dāng)前目標(biāo)跟蹤算法分為基于特征、 分割、 估計(jì)、 學(xué)習(xí)的四種類別, 其中著重介紹基于學(xué)習(xí)的跟蹤算法; Han等人[13]對(duì)目標(biāo)跟蹤中面臨的挑戰(zhàn)進(jìn)行了分析, 著重對(duì)基于相關(guān)濾波與基于孿生網(wǎng)絡(luò)的深度目標(biāo)跟蹤算法進(jìn)行介紹; 同時(shí), 也有一些對(duì)多目標(biāo)跟蹤問(wèn)題進(jìn)行總結(jié)的綜述文章[14-15]。 本文從網(wǎng)絡(luò)功能方面更全面地對(duì)算法進(jìn)行詳盡分類, 并對(duì)常用數(shù)據(jù)集及性能指標(biāo)進(jìn)行介紹, 此外對(duì)部分代表性算法進(jìn)行實(shí)驗(yàn)對(duì)比, 針對(duì)性地對(duì)當(dāng)前現(xiàn)存的基于深度學(xué)習(xí)的單目標(biāo)跟蹤算法進(jìn)行更加全面詳盡的闡述。
1 深度神經(jīng)網(wǎng)絡(luò)
近年來(lái), 深度學(xué)習(xí)已經(jīng)在計(jì)算機(jī)視覺(jué)領(lǐng)域獲得了顯著成績(jī)。 2006年, Hinton等人[16]首次提出深度學(xué)習(xí)的概念, 隨即應(yīng)用于圖像處理領(lǐng)域, 并取得優(yōu)異效果。 AlexNet[17]包含5個(gè)卷積層和3個(gè)全連接層, 使用激活函數(shù)ReLu以及dropout策略, 在ILSVRC中AlexNet以絕對(duì)優(yōu)勢(shì)勝出, 自此深度學(xué)習(xí)開(kāi)始在圖像領(lǐng)域被廣泛使用。 2014年Simonyan等提出VGG[18], 它是由卷積層和池化層反復(fù)疊加構(gòu)成的CNN。 Szegedy等人[19]提出了GoogleNet結(jié)構(gòu), 其特點(diǎn)是既有縱向的網(wǎng)絡(luò)深度, 也有橫向的寬度, 即Inception結(jié)構(gòu), 使用了多個(gè)大小不同的濾波器, 再合并這些結(jié)果, 其結(jié)構(gòu)如圖1所示。 He等人[20]提出了由跨層結(jié)構(gòu)組成的ResNet。 該結(jié)構(gòu)跳過(guò)兩個(gè)卷積層, 將輸入直接并入輸出, 從而解決了由網(wǎng)絡(luò)加深引起的梯度消失問(wèn)題。
2 基于深度學(xué)習(xí)的目標(biāo)跟蹤算法
2.1 基于分類的深度學(xué)習(xí)目標(biāo)跟蹤
基于分類的深度學(xué)習(xí)目標(biāo)跟蹤方法可分多個(gè)步驟進(jìn)行, 首先, 在目標(biāo)可能出現(xiàn)的位置生成若干候選框, 再由分類網(wǎng)絡(luò)計(jì)算候選框?yàn)槟繕?biāo)的分支, 最后, 認(rèn)定跟蹤結(jié)果為網(wǎng)絡(luò)評(píng)分最高的候選框。 由于分類任務(wù)并非是直接面向跟蹤框的位置, 而是通過(guò)分類間接尋找跟蹤框的位置, 因此本文基于該問(wèn)題導(dǎo)向出發(fā), 對(duì)基于分類的深度學(xué)習(xí)目標(biāo)跟蹤算法進(jìn)行梳理。 其主要脈絡(luò)如圖2所示。
最初使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)跟蹤任務(wù)的Wang等人[21]提出一種利用多層自編碼網(wǎng)絡(luò)進(jìn)行特征生成的深度學(xué)習(xí)跟蹤方法(DLT), 但基于全連接的網(wǎng)絡(luò)對(duì)特征的表征能力較弱。 為了加強(qiáng)特征的表征能力, Wang等人[22]提出一種學(xué)習(xí)分層特征的跟蹤方法, 對(duì)于給定的跟蹤序列, 通過(guò)其提出的調(diào)整模塊對(duì)預(yù)學(xué)習(xí)到的特征進(jìn)行在線調(diào)整; Wang等人[23]提出一種基于全卷積神經(jīng)網(wǎng)絡(luò)的跟蹤方法; 文獻(xiàn)[24]提出用深度特征SRDCF[25]中的HOG特征, 從而保留SRDCF中的空域正則化, 使邊界區(qū)域的濾波系數(shù)受到一定懲罰, 背景處的響應(yīng)得到明顯抑制。 相關(guān)濾波模型一般通過(guò)使用滑動(dòng)窗口來(lái)確定候選區(qū)域, 在整個(gè)訓(xùn)練過(guò)程中, 整個(gè)候選區(qū)域都無(wú)差別看待, 因此會(huì)導(dǎo)致跟蹤器的漂移, 尤其在候選區(qū)域包含復(fù)雜背景時(shí)更加嚴(yán)重。 為了解決上述問(wèn)題, Cui等人[26]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)的目標(biāo)周期性參與的跟蹤方法, 在跟蹤過(guò)程中得到效果較好的響應(yīng)圖用于相關(guān)濾波的正則化, RTT中的RNN模型從訓(xùn)練中得到, 因此在面對(duì)局部遮擋時(shí)更具魯棒性。
最初將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)跟蹤的方法, 隨著網(wǎng)絡(luò)加深, 跟蹤精度也越好, 但加深到一定程度后, 網(wǎng)絡(luò)的加深則會(huì)帶來(lái)跟蹤框的漂移。 Danelljan等人提出的C-COT[27]結(jié)合淺層表觀信息和深層語(yǔ)義信息, 在頻域空間進(jìn)行插值得到連續(xù)分辨率響應(yīng)圖, 最終通過(guò)迭代得到最佳目標(biāo)尺度和目標(biāo)位置。 在迭代過(guò)程中, 最終的置信函數(shù)是通過(guò)所有特征通道中的全部濾波器的卷積響應(yīng)加起來(lái)得到的, 計(jì)算量較大, 速度較慢, 因此Danelljan等人在C-COT基礎(chǔ)上提出ECO[28], 通過(guò)卷積因式分解減小模型維數(shù)大小、 合并簡(jiǎn)化訓(xùn)練集、 使用模型更新策略來(lái)提高跟蹤速度。 C-COT[27]和ECO[28]通過(guò)提取多分辨率深度特征圖進(jìn)行插值得到空間連續(xù)分辨率特征響應(yīng)圖, 因此可以實(shí)現(xiàn)對(duì)子像素的定位, 這對(duì)于特征點(diǎn)的跟蹤任務(wù)至關(guān)重要。 Bertinetto等人提出孿生網(wǎng)絡(luò)跟蹤方法SiamFC[29], 該網(wǎng)絡(luò)由兩個(gè)完全一樣且權(quán)值共享的分支構(gòu)成, 兩分支的輸入分別為目標(biāo)模板圖像和搜索圖像, 在搜索圖像中產(chǎn)生候選框, 如果目標(biāo)模板圖像和搜索圖像的候選框一致, 則返回匹配分值高, YCNN[30]方法與之類似。 SiamFC作為早期孿生網(wǎng)絡(luò)的跟蹤方法, 可以滿足實(shí)時(shí)跟蹤的要求, 但精度較差且無(wú)法適應(yīng)目標(biāo)的尺度變化。 針對(duì)SiamFC在面對(duì)目標(biāo)形變、 遮擋時(shí)跟蹤失敗的問(wèn)題, 馮琪堯[31]等人提出使用通道注意力和空間注意力的混合注意力模塊提高網(wǎng)絡(luò)的識(shí)別能力。
將跟蹤問(wèn)題視為分類任務(wù)時(shí), 在跟蹤相似物體時(shí)很容易受到干擾。 SANet[32]使用RNN建立結(jié)構(gòu)感知網(wǎng)絡(luò)提取目標(biāo)的自身結(jié)構(gòu)信息, 從而不僅提高了從背景中區(qū)分目標(biāo)的能力, 也提高了對(duì)相似物體的判別能力。 由于跟蹤失敗的情況可以通過(guò)學(xué)習(xí)歷史視覺(jué)語(yǔ)義和歷史跟蹤結(jié)果得到解決, Ning等人[33]提出一種基于RNN、 在空間域和時(shí)間域都進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)分析的跟蹤方法。
針對(duì)正負(fù)樣本的失衡, 以及由于正樣本在空間上高度重合而無(wú)法獲得豐富的表觀特征的問(wèn)題, Song等人[34]提出VITAL方法, 使用生成對(duì)抗網(wǎng)絡(luò)GAN, 在增強(qiáng)正樣本特征的同時(shí)獲得豐富的表觀變化, 還使用一個(gè)高階代價(jià)敏感損失函數(shù)來(lái)尋找難以區(qū)分的負(fù)樣本, 以此解決正負(fù)樣本不平衡的問(wèn)題。 VITAL對(duì)特征圖隨機(jī)生成權(quán)重掩膜, 和原始的特征圖進(jìn)行dropout, 進(jìn)入分類全連接層, 并且把隨機(jī)生成權(quán)重掩膜和dropout操作視為對(duì)抗特征生成器, 分類全連接層視為生成器進(jìn)行對(duì)抗訓(xùn)練。 文獻(xiàn)[35]為了提高視覺(jué)跟蹤的魯棒性, 通過(guò)正樣本生成網(wǎng)絡(luò), 得到與訓(xùn)練樣本相似的目標(biāo)甚至是像訓(xùn)練序列幀之間這樣沒(méi)有出現(xiàn)在訓(xùn)練數(shù)據(jù)集中的樣本, 對(duì)正樣本生成網(wǎng)絡(luò)的輸出添加遮擋, 使其成為難區(qū)分的正樣本。 GradNet[36]以SiamFC為基礎(chǔ), 利用梯度的判別信息, 通過(guò)前饋和反饋更新孿生網(wǎng)絡(luò)中的匹配模板。 Quadruplet Network[37]以SiamFC為基礎(chǔ), 在訓(xùn)練前進(jìn)行預(yù)訓(xùn)練, 從范例和實(shí)例中通過(guò)強(qiáng)化分?jǐn)?shù)懲罰, 將正樣本和負(fù)樣本在評(píng)分上區(qū)分開(kāi), 而后利用Triplet[38]思想搭建了由范例、 實(shí)例、 正樣本和負(fù)樣本輸入生成的樣本三元損失和樣本對(duì)損失共同構(gòu)成總損失函數(shù), 很好地挖掘了實(shí)例間的潛在關(guān)系, 提升了網(wǎng)絡(luò)的訓(xùn)練效果。 對(duì)SiamFC在目標(biāo)形變、 遮擋和快速運(yùn)動(dòng)等復(fù)雜場(chǎng)景中易導(dǎo)致跟蹤失敗的問(wèn)題, 提出一種利用混合注意力機(jī)制增強(qiáng)網(wǎng)絡(luò)識(shí)別能力的算法。
不同于檢測(cè)、 分類等任務(wù)擁有數(shù)量龐大的訓(xùn)練數(shù)據(jù)集, 對(duì)于跟蹤任務(wù)而言, 僅僅只有序列第一幀的邊界框有精確位置, 因此從零開(kāi)始訓(xùn)練得到跟蹤網(wǎng)絡(luò)難度很大, 針對(duì)這一問(wèn)題, 鑒于深度特征具有較強(qiáng)的通用性, 直接采用在大量圖像數(shù)據(jù)集上預(yù)訓(xùn)練的網(wǎng)絡(luò)來(lái)進(jìn)行特征提取, 尤其是VGGNet和AlexNet這樣普遍性更強(qiáng)的網(wǎng)絡(luò)。 FCNT[23]使用VGG網(wǎng)絡(luò)的conv4-3和conv5-3提取到的特征圖分別作為其設(shè)計(jì)的分類網(wǎng)絡(luò)和通用網(wǎng)絡(luò)的輸入, 分類網(wǎng)絡(luò)和通用網(wǎng)絡(luò)進(jìn)行在線更新, 最終的目標(biāo)位置是通過(guò)融合這兩個(gè)網(wǎng)絡(luò)的輸出得到的。 TCNN[39]的網(wǎng)絡(luò)結(jié)構(gòu)由三個(gè)卷積層和三個(gè)全連接層構(gòu)成, 卷積層使用VGG-M, 全連接層隨機(jī)初始化后進(jìn)行在線更新。 CREST[40]使用VGG-16進(jìn)行特征提取, 再用DCF來(lái)判別目標(biāo)。 類似的預(yù)訓(xùn)練網(wǎng)絡(luò)和在線微調(diào)結(jié)合的算法參見(jiàn)文獻(xiàn)[41-43]等。
以上預(yù)訓(xùn)練跟蹤網(wǎng)絡(luò)節(jié)省了大量的訓(xùn)練時(shí)間, 但實(shí)際的跟蹤任務(wù)是針對(duì)于不同任務(wù)的, 在對(duì)特定目標(biāo)進(jìn)行跟蹤時(shí), 網(wǎng)絡(luò)缺乏針對(duì)性, 因此便產(chǎn)生了針對(duì)于不同跟蹤任務(wù)的離線訓(xùn)練方法。 SINT[44]使用兩個(gè)在ImageNet上預(yù)訓(xùn)練好的分支來(lái)構(gòu)成孿生網(wǎng)絡(luò), 再離線使用視頻序列對(duì)孿生網(wǎng)絡(luò)進(jìn)行訓(xùn)練調(diào)整。 SiamFC[29]的網(wǎng)絡(luò)結(jié)構(gòu)與AlexNet[17]類似, 利用孿生網(wǎng)絡(luò)使用ILSVRC2015[45]對(duì)網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練, 完成相似函數(shù)的學(xué)習(xí)。
對(duì)基于分類的深度學(xué)習(xí)目標(biāo)跟蹤方法而言, 生成候選框的數(shù)量是影響跟蹤效果的主要因素。 隨著候選框數(shù)量的增多, 計(jì)算量增大, 雖然跟蹤精度有所提高, 但實(shí)時(shí)性會(huì)受到較大影響。
2.2 基于回歸的深度學(xué)習(xí)目標(biāo)跟蹤
基于回歸的深度學(xué)習(xí)目標(biāo)跟蹤方法是通過(guò)前向網(wǎng)絡(luò)根據(jù)前一幀的目標(biāo)位置利用回歸方法計(jì)算出當(dāng)前幀的預(yù)測(cè)框來(lái)實(shí)現(xiàn)目標(biāo)跟蹤, 算法框架如圖3所示。
Ma等人[46]提出的HCF整體以KCF[8]為框架, 將KCF中的HOG特征換為深度特征, 并發(fā)現(xiàn)淺層特征保留了較好的空間信息, 可以精確定位目標(biāo); 深層特征具有很強(qiáng)的語(yǔ)義信息, 可以更好地應(yīng)對(duì)形變, 即由語(yǔ)義信息找到目標(biāo)的大概位置, 再用低層次的特征信息進(jìn)行精確定位。 所以HCF不使用全連接層的輸出, 而是將conv3, conv4, conv5的輸出進(jìn)行加權(quán)得到最大響應(yīng)位置。 他們還提出一種將相關(guān)濾波和CNN結(jié)合的跟蹤方法[41], 由于相關(guān)濾波器的定位精度更好, 因此將相關(guān)濾波器嵌入CNN中。 與KCF不同的是, HCF在conv4-4和conv5-4中, 用一個(gè)相關(guān)濾波器來(lái)計(jì)算得到響應(yīng)圖, 再將三個(gè)響應(yīng)圖進(jìn)行加權(quán), 得到最終的最大響應(yīng)位置。
GOTURN[47]使用孿生網(wǎng)絡(luò)框架, 一個(gè)分支的輸入是之前幀中的目標(biāo)區(qū)域, 另一分支的輸入是當(dāng)前幀中在上一幀附近一定范圍內(nèi)的區(qū)域, 兩分支分別經(jīng)過(guò)特征提取后進(jìn)行特征融合, 回歸出當(dāng)前幀中的目標(biāo)位置。 兩分支均為五層卷積層, 兩個(gè)卷積分支的輸出進(jìn)入三層的全連接層, 該模型中的卷積層參數(shù)是通過(guò)在ImageNet上訓(xùn)練的CaffeNet的前五層, 再使用視頻序列對(duì)模型中的其他部分進(jìn)行離線訓(xùn)練得到的。 CFNet[48]是在SiamFC的模板分支上加入相關(guān)濾波器, 以此取得保證精度的同時(shí)減少網(wǎng)絡(luò)層的效果, 區(qū)別在于搜索分支是以上一幀目標(biāo)為中心的一定范圍區(qū)域進(jìn)行互響應(yīng)操作, 回歸出最大響應(yīng)位置。 邵江南等人[49]在SiamFC基礎(chǔ)上加入殘差結(jié)構(gòu), 融合淺層結(jié)構(gòu)信息和深層語(yǔ)義信息, 并融合通道注意力, 有效提高模型的表征能力與泛化能力。
TRACA[50]使用上下文感知網(wǎng)絡(luò)選出最適合當(dāng)前目標(biāo)的編碼器, 作用于VGG網(wǎng)絡(luò)提取出的特征, 得到壓縮特征圖, 對(duì)于每一個(gè)目標(biāo)類別都分別訓(xùn)練一個(gè)與其對(duì)應(yīng)的專家自編碼器, 但僅使用最佳專家自編碼器用來(lái)跟蹤當(dāng)前目標(biāo)。 同時(shí), 引入額外的去噪過(guò)程和正交損失項(xiàng)對(duì)專家自編碼器進(jìn)行預(yù)訓(xùn)練和微調(diào), 壓縮特征圖以取得更佳的跟蹤效果。 還存在與此類似的跟蹤算法, 使用自編碼器盡可能地保留主要特征, 有效減少計(jì)算量[51-53]。
由于回歸網(wǎng)絡(luò)是在前一幀的基礎(chǔ)上直接回歸出當(dāng)前目標(biāo)位置, 因此目標(biāo)存在較大形變、 快速移動(dòng)等問(wèn)題時(shí)容易出現(xiàn)跟蹤漂移。
2.3 基于分類和回歸結(jié)合的深度學(xué)習(xí)目標(biāo)跟蹤
前述基于深度神經(jīng)網(wǎng)絡(luò)的跟蹤方法, 基本都是將其視為分類任務(wù), 或視為回歸任務(wù)。 在進(jìn)行分類時(shí)普遍需要大量的候選區(qū)域來(lái)實(shí)現(xiàn)高精度跟蹤, 通常算法的計(jì)算量較大, 實(shí)時(shí)性較差; 在進(jìn)行回歸時(shí)更容易產(chǎn)生跟蹤目標(biāo)的漂移; 又由于目標(biāo)區(qū)域的橫縱比是固定比例, 在跟蹤過(guò)程中, 一旦目標(biāo)橫縱比產(chǎn)生較大的改變, 則會(huì)導(dǎo)致跟蹤失敗。 基于分類和回歸結(jié)合的深度學(xué)習(xí)目標(biāo)跟蹤算法如圖4所示。
MDNet[54]使用回歸方法得到最佳候選框集, 基于遷移學(xué)習(xí)的思想, 建立針對(duì)于不同視頻序列的二分類全連接層作為其對(duì)應(yīng)的分類分支, 分類分支都共享特征提取層, 得分最高的候選框作為跟蹤結(jié)果; MDNet在離線訓(xùn)練時(shí), 針對(duì)每個(gè)視頻序列新建其對(duì)應(yīng)域的分類分支, 所有分類分支共享提取特征的卷積層, 在跟蹤的同時(shí)進(jìn)行在線微調(diào)。 在線微調(diào)分為長(zhǎng)周期和短周期, 長(zhǎng)周期是固定每隔幾幀進(jìn)行一次在線更新, 短周期是每當(dāng)目標(biāo)得分低于0.5時(shí)進(jìn)行一次在線網(wǎng)絡(luò)更新。 文獻(xiàn)[55-57]與之類似。 ADT[58]使用對(duì)抗學(xué)習(xí)方法將分類任務(wù)和回歸任務(wù)結(jié)合, 其中, 回歸網(wǎng)絡(luò)是由全卷積孿生神經(jīng)網(wǎng)絡(luò)構(gòu)成, 用來(lái)生成擁有目標(biāo)位置和大小信息的響應(yīng)圖供分類網(wǎng)絡(luò)進(jìn)行最優(yōu)選擇。 回歸網(wǎng)絡(luò)和分類網(wǎng)絡(luò)使用大量的視頻訓(xùn)練數(shù)據(jù)進(jìn)行端到端的對(duì)抗訓(xùn)練。 在跟蹤環(huán)節(jié), 回歸網(wǎng)絡(luò)生成能夠反映目標(biāo)在每個(gè)候選搜索區(qū)域中的位置和大小的響應(yīng)圖, 分類網(wǎng)絡(luò)選擇出最佳的響應(yīng)圖。 同時(shí), 通過(guò)使用注意力機(jī)制, ADT能夠注意到在跟蹤過(guò)程中目標(biāo)出現(xiàn)的位置區(qū)域。
SiamRPN[59]使用孿生網(wǎng)絡(luò)同時(shí)進(jìn)行分類和回歸, 兩分支結(jié)果進(jìn)一步進(jìn)行精確定位, SiamRPN的特征提取網(wǎng)絡(luò)由AlexNet去掉conv2和conv4構(gòu)成, 當(dāng)特征提取網(wǎng)絡(luò)在ImageNet上訓(xùn)練結(jié)束后, 再使用從ILSVRC中隨機(jī)間隔選取和連續(xù)的Youtube-BB[60]數(shù)據(jù)集對(duì)區(qū)域建議網(wǎng)絡(luò)進(jìn)行訓(xùn)練。 張宏偉等人[61]在此基礎(chǔ)上提出一種兩階段的跟蹤方法加強(qiáng)網(wǎng)絡(luò)的判別能力。 由于大多數(shù)深度跟蹤算法使用AlexNet或VGG作為特征提取網(wǎng)絡(luò), 在學(xué)習(xí)過(guò)程中會(huì)產(chǎn)生位置偏見(jiàn), 過(guò)分關(guān)注圖片中心而忽略了邊緣, SiamRPN++[62]在訓(xùn)練過(guò)程中使用隨機(jī)平移的采樣策略, 以此消除位置偏見(jiàn)。 陳志旺等人[63]在SiamRPN++基礎(chǔ)上加入目標(biāo)的在線分類和自適應(yīng)模板更新, 有效解決特征缺少上下文信息的問(wèn)題。 SiamMask[64]使用不進(jìn)行在線更新的孿生網(wǎng)絡(luò), 通過(guò)對(duì)搜索圖像和模板圖像的互相關(guān)操作, 得到具有最大響應(yīng)值的候選框, 再由卷積分割網(wǎng)絡(luò)生成二值掩膜, 由該二值掩膜信息得到最終的邊界框信息。 基于Mask R-CNN, Track R-CNN[65]使用三維卷積來(lái)綜合上下文信息, 進(jìn)而完成目標(biāo)跟蹤。 在跟蹤過(guò)程中, 三維卷積得到的特征圖經(jīng)過(guò)區(qū)域建議網(wǎng)絡(luò), 由分類得分、 生成掩膜信息和關(guān)聯(lián)向量, 利用歷史幀的跟蹤結(jié)果進(jìn)行在線關(guān)聯(lián)跟蹤。 DS[66]通過(guò)區(qū)域建議網(wǎng)絡(luò), 使用空間和語(yǔ)義卷積特征對(duì)目標(biāo)進(jìn)行定位, 同時(shí)使用2DPCA在保留最多有效信息的前提下減少空域特征維數(shù), 進(jìn)而通過(guò)尺度相關(guān)濾波估計(jì)目標(biāo)尺寸。 SPM-Tracker[67]使用粗糙匹配階段(CM)提高跟蹤器的魯棒性, 精調(diào)匹配階段(FM)提高了跟蹤器的判別能力, 其中CM使用SiamRPN的網(wǎng)絡(luò)結(jié)構(gòu), 初步得到目標(biāo)的候選框, 將CM的輸出作為FM的輸入, 進(jìn)一步提高對(duì)于相似物體的抗干擾能力。
目前流行的孿生網(wǎng)絡(luò)大多基于錨框進(jìn)行跟蹤, 但當(dāng)預(yù)測(cè)值開(kāi)始出現(xiàn)偏差時(shí)會(huì)迅速累積誤差, 使跟蹤出現(xiàn)嚴(yán)重漂移, 這是因?yàn)榛阱^框的跟蹤器只保留IoU大于設(shè)定閾值的錨框, 其余錨框全部舍棄。 因此, Zhang等人提出無(wú)錨框的跟蹤網(wǎng)絡(luò)Ocean[68], 網(wǎng)絡(luò)架構(gòu)與孿生網(wǎng)絡(luò)一致, 依然分為回歸分支與分類分支; 回歸分支用來(lái)估計(jì)邊界框內(nèi)每一個(gè)像素點(diǎn)到邊界框四個(gè)邊的距離, 由于單獨(dú)考慮了邊界框內(nèi)的所有像素點(diǎn), 因此在IoU非常小的情況下, 這些被視為目標(biāo)區(qū)域的像素點(diǎn)也可以用來(lái)預(yù)測(cè)目標(biāo)的位置尺度信息; 分類分支則對(duì)采樣點(diǎn)增加偏移向量, 使其可以根據(jù)目標(biāo)的尺度變化進(jìn)行采樣點(diǎn)分類置信度計(jì)算。 孿生網(wǎng)絡(luò)這種基于全局匹配的跟蹤方法很大程度上保留了背景信息, 并且忽略了搜索圖像與模板圖像之間的局部對(duì)應(yīng)關(guān)系。 基于此, Guo等人提出基于圖感知網(wǎng)絡(luò)的跟蹤方法SiamGAT[69], 建立圖感知模塊, 將模板特征信息傳遞至搜索特征, 以此在目標(biāo)外觀嚴(yán)重變化時(shí)保留目標(biāo)信息, 忽略背景信息; 使用目標(biāo)感知模板區(qū)域選擇模塊, 實(shí)現(xiàn)只有模板邊界框中的特征作為模板特征, 進(jìn)一步在目標(biāo)橫縱比較為極端時(shí)抑制背景信息。
此外, 孿生網(wǎng)絡(luò)本質(zhì)就是在搜索圖像中尋找與模板信息匹配度最高的區(qū)域, 這種線性的匹配方法極易丟失語(yǔ)義信息且陷入局部最優(yōu)。 Chen等人提出基于Transformer特征融合的跟蹤方法TransT[70], 使用基于Transformer架構(gòu)的特征融合模塊實(shí)現(xiàn)語(yǔ)義增強(qiáng)和孿生分支的特征交互融合。 由于Transformer強(qiáng)大的特征表征能力, Lin等人提出完全基于注意力的Transformer跟蹤方法SwinTrack[71]。
大多數(shù)跟蹤方法都是在視頻序列的第一幀標(biāo)定邊界框位置, 隨后繼續(xù)尋找后續(xù)幀中的邊界框位置。 這種調(diào)整邊界框位置的方法會(huì)出現(xiàn)第一幀的邊界框中可能同時(shí)有兩個(gè)目標(biāo), 則會(huì)產(chǎn)生歧義。 因此Wang等人[72]提出使用自然語(yǔ)言進(jìn)行跟蹤任務(wù)的AdaSwitcher以及一個(gè)自然語(yǔ)言跟蹤數(shù)據(jù)集TNL2K。
基于回歸和分類的跟蹤方法結(jié)合了速度和精度的優(yōu)點(diǎn), 成為近年來(lái)目標(biāo)跟蹤的主流方法[73-83]。
2.4 其他深度學(xué)習(xí)目標(biāo)跟蹤算法
(1) 基于強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)目標(biāo)跟蹤算法
強(qiáng)化學(xué)習(xí)用于解決如何通過(guò)學(xué)習(xí)策略使智能體與環(huán)境交互時(shí)獲得最大回報(bào)。 當(dāng)智能體做出某種決策使環(huán)境給智能體正反饋獎(jiǎng)勵(lì)時(shí), 則智能體加強(qiáng)這一決策趨勢(shì), 其基礎(chǔ)是馬爾可夫決策理論。
Yun等人提出ADNet[84]利用強(qiáng)化學(xué)習(xí)理論得到目標(biāo)框的運(yùn)動(dòng)情況, 由策略函數(shù)得到跟蹤器的執(zhí)行動(dòng)作, 以此定義下一幀目標(biāo)的運(yùn)動(dòng)情況, 通過(guò)迭代得到最佳候選框。 ACT[85]使用Actor-Critic框架, 通過(guò)強(qiáng)化學(xué)習(xí)方法得到計(jì)算目標(biāo)移動(dòng)的Actor網(wǎng)絡(luò), Critic網(wǎng)絡(luò)由MDNet構(gòu)成, 由Critic的分類結(jié)果來(lái)監(jiān)督Actor的位移輸出。 Wang等人[86]引入基于多智能體強(qiáng)化學(xué)習(xí)的束搜索策略, 使用束搜索算法生成不同的圖像描述, 將目標(biāo)特征與貪心搜索的結(jié)果送入第一個(gè)智能體中進(jìn)行決策, 其輸出與目標(biāo)特征送入后續(xù)智能體中進(jìn)行不同的預(yù)測(cè), 所有幀處理結(jié)束后, 選擇累積得分最高的軌跡作為跟蹤結(jié)果。
(2) 基于集成學(xué)習(xí)的深度學(xué)習(xí)目標(biāo)跟蹤算法
當(dāng)面向不同對(duì)象不同任務(wù)時(shí), 同一個(gè)網(wǎng)絡(luò)模型無(wú)法對(duì)所有對(duì)象都表現(xiàn)優(yōu)越, 即缺乏一定的針對(duì)性, 因此集成學(xué)習(xí)將多個(gè)弱監(jiān)督模型組合, 構(gòu)成一個(gè)能夠應(yīng)對(duì)多種問(wèn)題的強(qiáng)監(jiān)督模型。
MDNet[54]建立針對(duì)不同視頻序列的分類全連接層作為其對(duì)應(yīng)的分類分支, 分類分支都共享特征提取層, 得分最高的候選框作為跟蹤結(jié)果。 GLELT[87]針對(duì)長(zhǎng)時(shí)跟蹤中難以解決的目標(biāo)移出視野和目標(biāo)遮擋問(wèn)題, 提出使用集成多個(gè)局部跟蹤器對(duì)全局進(jìn)行跟蹤, 解決單一局部跟蹤器的信息丟失問(wèn)題。
(3) 基于元學(xué)習(xí)的深度學(xué)習(xí)目標(biāo)跟蹤
元學(xué)習(xí)認(rèn)為特定任務(wù)的訓(xùn)練集服從于特定的任務(wù)分布, 通過(guò)讓模型學(xué)習(xí)任務(wù)分布, 可以讓模型具有解決該類任務(wù)的能力。 元學(xué)習(xí)利用找到的最優(yōu)超參數(shù), 使各任務(wù)在超參數(shù)的基礎(chǔ)上訓(xùn)練出最優(yōu)參數(shù)后測(cè)試得到的損失值的和最小。
Meta-tracker[88]使用元學(xué)習(xí)方法, 意圖在于學(xué)到網(wǎng)絡(luò)的初始模型, 并且在訓(xùn)練過(guò)程中利用后續(xù)幀的信息, 使模型更加魯棒。 Wang等人[89]提出使用MAML利用初始幀構(gòu)建一個(gè)檢測(cè)器, 并在后續(xù)幀中利用該檢測(cè)器進(jìn)行檢測(cè), 以此實(shí)現(xiàn)跟蹤的目的。 基于元學(xué)習(xí)的深度學(xué)習(xí)目標(biāo)跟蹤能夠?qū)崿F(xiàn)對(duì)小樣本訓(xùn)練集的較快收斂。
綜上所述, 表1對(duì)個(gè)別代表性目標(biāo)跟蹤算法進(jìn)行總結(jié)對(duì)比。
3 數(shù)據(jù)集和評(píng)價(jià)準(zhǔn)則
隨著目標(biāo)跟蹤算法的發(fā)展完善, 可以更好地對(duì)復(fù)雜問(wèn)題下的目標(biāo)進(jìn)行跟蹤, 因此需要對(duì)跟蹤算法從不同角度進(jìn)行全面的性能評(píng)估, 隨之需要更全面、 更大規(guī)模的視頻跟蹤數(shù)據(jù)集。 為了適應(yīng)目標(biāo)跟蹤算法的發(fā)展, 逐漸發(fā)展出很多完善的大型公開(kāi)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)。
3.1 數(shù) 據(jù) 集
3.1.1 OTB數(shù)據(jù)集
Wu等人[90]在2013年建立了較為全面的OTB2013(Online Object Tracking Benchmark)。 該數(shù)據(jù)集包含50個(gè)全標(biāo)注的視頻序列, 由于跟蹤效果會(huì)受多因素的影響, 為了更加全面地評(píng)估算法性能, 該數(shù)據(jù)集引入11種挑戰(zhàn)因素的標(biāo)注, 包括光照變化(IV)、 尺度變化(SV)、 遮擋(OCC)、 形變(DEF)、 運(yùn)動(dòng)模糊(MB)、 快速移動(dòng)(FM)、 平面內(nèi)旋轉(zhuǎn)(IPR)、 平面外旋轉(zhuǎn)(OPR)、 移出視野(OV)、 背景雜亂(BC)、 低分辨率(LR)。 2015年, OTB被進(jìn)一步擴(kuò)展為OTB-100, 由100個(gè)全標(biāo)注的目標(biāo)序列構(gòu)成(由于一些序列包含了多個(gè)目標(biāo), 視頻序列小于100), 同時(shí)由于部分目標(biāo)相似或者較為容易跟蹤, 因此選出了50個(gè)更困難且具有代表性的目標(biāo)構(gòu)成OTB-50。 該數(shù)據(jù)集更側(cè)重于人類數(shù)據(jù), 其中36個(gè)為人體序列, 26個(gè)為人臉序列。 OTB-100和OTB-50關(guān)于上述11類影響因素的分布情況如圖5所示。
3.1.2 VOT挑戰(zhàn)數(shù)據(jù)集
自2013年以來(lái), VOT(Visual Object Tracking)競(jìng)賽[91-96]每年都會(huì)舉辦一次, 隨著不足的發(fā)現(xiàn)改進(jìn), 每年的VOT數(shù)據(jù)集都在逐漸變化完善。
當(dāng)前視覺(jué)跟蹤算法中被廣泛使用的VOT2018[93]分為短程跟蹤任務(wù)和長(zhǎng)程跟蹤任務(wù)。 短程跟蹤任務(wù)挑戰(zhàn)和VOT2017[96]相比沒(méi)有變化, 包括60個(gè)公開(kāi)序列和60個(gè)未公開(kāi)序列, VOT數(shù)據(jù)集中的目標(biāo)由旋轉(zhuǎn)邊界框標(biāo)注, 并且序列中的每一幀標(biāo)注以下挑戰(zhàn)因素: 遮擋、 光照變化、 運(yùn)動(dòng)變化、 尺度變化和攝像機(jī)運(yùn)動(dòng), 沒(méi)有被上述五種標(biāo)注的幀則標(biāo)注為未賦值。 長(zhǎng)程跟蹤任務(wù)使用LTB35[97]數(shù)據(jù)集, 目標(biāo)由平齊的邊界框標(biāo)注, 并對(duì)序列標(biāo)注以下挑戰(zhàn)因素: 完全遮擋、 移出視野、 局部遮擋、 攝像機(jī)移動(dòng)、 快速移動(dòng)、 尺度變化、 橫縱比變化、 視角變化、 相似目標(biāo)。
3.1.3 TempleColor128數(shù)據(jù)集
TempleColor128[98]是由Liang等人提出專注于彩色序列的數(shù)據(jù)集, 包含128個(gè)全標(biāo)注的彩色序列。 該數(shù)據(jù)集標(biāo)注的挑戰(zhàn)因素屬性與OTB-100相同, 其分布如圖6所示。 TempleColor數(shù)據(jù)集由兩部分構(gòu)成, 第一部分是在以往學(xué)習(xí)中常用的50個(gè)彩色序列, 第二部分包含78個(gè)從網(wǎng)絡(luò)選取的彩色序列, 涉及到高速公路、 機(jī)場(chǎng)、 火車站等情景, 并且它們都不是為了評(píng)價(jià)跟蹤算法而錄制的, 包含了諸多挑戰(zhàn)因素, 例如目標(biāo)的完全遮擋、 光照的大幅變化、 大幅目標(biāo)形變和低分辨率。
3.1.4 ALOV++數(shù)據(jù)集
ALOV++[99]的目的是盡可能多地覆蓋不同的挑戰(zhàn)因素。 該數(shù)據(jù)集一共包含315個(gè)視頻序列, 其中65個(gè)視頻序列已經(jīng)在PETS數(shù)據(jù)集中出現(xiàn)過(guò), 250個(gè)為新的視頻序列, 數(shù)據(jù)是從YouTube搜索到的64個(gè)現(xiàn)實(shí)生活中的目標(biāo), 包括人臉、 球體、 章魚、 手機(jī)、 塑料袋、 汽車等。
3.1.5 UAV數(shù)據(jù)集
UAV123[100]數(shù)據(jù)集由123段用無(wú)人機(jī)拍攝的高分辨率視頻序列構(gòu)成, 總共超過(guò)110K幀。 UAV123包含三部分, 第一部分包含103個(gè)用專業(yè)無(wú)人機(jī)在5~25 m高度跟隨不同的目標(biāo)拍攝的視頻序列; 第二部分包含12個(gè)由安裝在低成本無(wú)人機(jī)上的普通攝像機(jī)拍攝的視頻序列, 這部分視頻序列質(zhì)量較差, 噪聲較大; 第三部分包含由UAV模擬器得到的8個(gè)生成序列。 UAV123包含的挑戰(zhàn)因素有橫縱比變化(ARC)、 背景雜亂(BC)、 攝像機(jī)運(yùn)動(dòng)(CM)、 快速移動(dòng)(FM)、 完全遮擋(FOC)、 光照變化(IV)、 低分辨率(LR)、 移出視場(chǎng)(OV)、 部分遮擋(POC)、 相似目標(biāo)(SOB)、 尺度變化(SV)和視角變化(VC)。 其中一些長(zhǎng)序列被分割為多個(gè)子序列, 從而保證數(shù)據(jù)集的復(fù)雜度合理。 為了長(zhǎng)時(shí)跟蹤算法, 合并這些子序列, 然后挑選最長(zhǎng)的20個(gè)序列, 構(gòu)成平均每個(gè)序列達(dá)2 934幀的UAV20L。
3.1.6 TrackingNet數(shù)據(jù)集
TrackingNet[101]數(shù)據(jù)集包括30 643個(gè)平均時(shí)長(zhǎng)為16.6 s的視頻序列, 共達(dá)14 431 266幀。 從YouTube- Bounding Boxes[60]中選取30 132個(gè)訓(xùn)練集序列和511個(gè)測(cè)試集序列。 TrackingNet包含15個(gè)挑戰(zhàn)因素, 其中, 尺度變化、 橫縱比變化、 快速移動(dòng)、 低分辨率、 移出視野這5個(gè)因素是由分析邊界框來(lái)自動(dòng)標(biāo)注的, 光照變化、 攝像機(jī)移動(dòng)、 運(yùn)動(dòng)模糊、 背景雜亂、 相似目標(biāo)、 形變、 平面內(nèi)旋轉(zhuǎn)、 平面外旋轉(zhuǎn)、 部分遮擋、 完全遮擋這10個(gè)因素則是由人工標(biāo)注。
3.2 評(píng)價(jià)指標(biāo)
為了評(píng)估不同算法的跟蹤性能, 提出了多種評(píng)價(jià)指標(biāo), 分為三類: 基于一次性通過(guò)評(píng)估(OPE)的評(píng)價(jià)指標(biāo)、 基于在線監(jiān)督的評(píng)價(jià)指標(biāo)和基于長(zhǎng)時(shí)目標(biāo)跟蹤的評(píng)價(jià)指標(biāo)。
3.2.1 基于一次性通過(guò)評(píng)估(OPE)的評(píng)價(jià)指標(biāo)
一次性通過(guò)指用已知第一幀真值位置初始化的序列運(yùn)行算法來(lái)獲得平均精度或成功率[84]。
(1) 中心位置誤差(CLE)
CLE指目標(biāo)的估計(jì)位置中心和實(shí)際位置中心的平均歐幾里得距離。 CLE是最早的評(píng)價(jià)指標(biāo), 對(duì)于數(shù)據(jù)集的標(biāo)注敏感并且沒(méi)有考慮跟蹤失敗的情況。
式中: Ns為序列幀數(shù); pt為目標(biāo)實(shí)際位置中心; p^t為目標(biāo)估計(jì)位置中心。
(2) 目標(biāo)區(qū)域交并比(IoU)
IoU是指目標(biāo)的估計(jì)邊界框區(qū)域和實(shí)際邊界框區(qū)域之間交集和并集的比值, 計(jì)算公式如下:
(3) 重疊率精度(OP)
OP是指IoU大于或等于某一預(yù)定閾值的幀數(shù)在所有幀數(shù)中的百分比, 計(jì)算公式如下:
式中: υ為設(shè)定閾值。
(4) 精度曲線(Precision Plot)
給定不同閾值, 精度曲線繪制CLE小于等于某一閾值幀數(shù)在所有幀數(shù)中的百分比。
(5) 成功率曲線(Success Plot)
成功率曲線繪制IoU大于等于某一閾值幀數(shù)在所有幀數(shù)中的百分比。
(6) 曲線下面積(AUC)
成功率曲線和坐標(biāo)軸所圍成的面積。
3.2.2 基于在線監(jiān)督的評(píng)價(jià)指標(biāo)
基于在線監(jiān)督的過(guò)程是在初始化跟蹤算法后, 對(duì)跟蹤結(jié)果進(jìn)行在線監(jiān)督, 如果出現(xiàn)跟蹤失敗的情況, 則在5幀后再次初始化跟蹤算法。
(1)準(zhǔn)確性(Accuracy)
準(zhǔn)確性為所有有效幀的平均IoU, 綜合考慮了位置和區(qū)域, 以測(cè)量估計(jì)目標(biāo)的漂移率直到其失敗。
式中: N為有效幀的幀數(shù)。
(2)魯棒性(Robustness)
魯棒性是指跟蹤過(guò)程中跟蹤失敗的次數(shù), 當(dāng)目標(biāo)區(qū)域交并比為0時(shí)視為跟蹤失敗。
(3)期望平均重疊率(EAO)
EAO綜合考慮了準(zhǔn)確性和魯棒性, 對(duì)于一個(gè)Ns幀長(zhǎng)的序列, 計(jì)算公式如下:
式中: Φi為全部序列中每一幀的平均交并比。
3.2.3 基于長(zhǎng)時(shí)目標(biāo)跟蹤的評(píng)價(jià)指標(biāo)
對(duì)于長(zhǎng)時(shí)目標(biāo)跟蹤, 可能會(huì)出現(xiàn)目標(biāo)移出視場(chǎng)或長(zhǎng)時(shí)間被遮擋。
(1)精度(Pr)
精度由真實(shí)位置和預(yù)測(cè)目標(biāo)位置的交并比計(jì)算, 由存在預(yù)測(cè)值的幀數(shù)進(jìn)行歸一化, 在所有精度閾值上的精度綜合表征總體的跟蹤精度。
式中: Gt為t時(shí)刻的目標(biāo)真實(shí)位置; At(θt)為目標(biāo)的估計(jì)位置; θt為預(yù)測(cè)置信度, Ω(At(θt),Gt)為交并比; Np為估計(jì)值存在的幀數(shù)。
(2)跟蹤召回率(Re)
與精度類似, 跟蹤召回率由存在真實(shí)目標(biāo)的幀數(shù)進(jìn)行歸一化, 計(jì)算公式如下:
式中: Ng為真實(shí)目標(biāo)存在的幀數(shù)。
(3) F-Score
F-Score綜合考慮了精度和召回率, 計(jì)算公式如下:
(4) 最大幾何平均數(shù)(MaxGM)
MaxGM綜合了TPR(True Positive Rate)和TNR(True Negative Rate), TPR表征了正確定位目標(biāo)的情況, TNR表征正確識(shí)別缺失目標(biāo)的情況。
4 實(shí)驗(yàn)對(duì)比
本文選取了9種具有代表性的基于深度學(xué)習(xí)的目標(biāo)跟蹤算法在OTB-100中選取16個(gè)序列進(jìn)行實(shí)驗(yàn), 對(duì)比跟蹤性能, 這些算法分別為: HCF, ECO, MDNet, VITAL, SiamFC, CFNet, SiamnRPN, SiamRPN++, SiamMask。
圖7為HCF, ECO, VITAL, MDNet, SiamFC, CFNet, SiamRPN, SiamRPN++, SiamMask在OTB-100上綜合所有挑戰(zhàn)因素下的精度曲線和成功率曲線, 以及分別在背景雜亂、 運(yùn)動(dòng)模糊、 目標(biāo)變形、 光照變化、 平面內(nèi)旋轉(zhuǎn)、 平面外旋轉(zhuǎn)和尺度變化挑戰(zhàn)因素單獨(dú)影響下的精度曲線和成功率曲線。
表2給出了不同網(wǎng)絡(luò)的跟蹤速度。
綜合圖7和表2可以看出:
(1)? 基于分類方法的跟蹤器ECO和VITAL為了取得良好的跟蹤效果, 需要加入數(shù)量較多的候選框, 因此實(shí)時(shí)性受到較大影響, 而使用孿生網(wǎng)絡(luò)的SiamFC分類跟蹤方法顯然在速度上取得巨大突破。
(2) HCF作為早期具有代表性的使用深度神經(jīng)網(wǎng)絡(luò)的回歸跟蹤算法, 速度相較于同期的分類方法具有一定優(yōu)勢(shì), 但在面對(duì)背景影響以及目標(biāo)出現(xiàn)較大形變、 遮擋等問(wèn)題時(shí), 容易出現(xiàn)邊界框的漂移; 同時(shí)CFNet因加入相關(guān)濾波器, 在保證實(shí)時(shí)性的前提下, 相對(duì)于SiamFC精度得到顯著改善。
(3) MDNet結(jié)合分類任務(wù)與回歸任務(wù), 面對(duì)所有挑戰(zhàn)因素均表現(xiàn)良好, 但由于采用在線更新策略, 實(shí)時(shí)性受到嚴(yán)重影響。 SiamRPN, SiamRPN++, SiamMask等算法的魯棒性較強(qiáng), 挑戰(zhàn)因素的出現(xiàn)均未造成明顯影響, 且相比于網(wǎng)絡(luò)在速度上有明顯優(yōu)勢(shì), 即在保證精度的前提下, 顯著提高跟蹤速度, 體現(xiàn)出孿生網(wǎng)絡(luò)的優(yōu)越性能。
5 發(fā)展展望
由實(shí)驗(yàn)結(jié)果可以看出, 基于孿生網(wǎng)絡(luò)的跟蹤方法可以實(shí)現(xiàn)在保證精度的前提下, 顯著提高跟蹤速度, 因此孿生網(wǎng)絡(luò)逐漸成為當(dāng)前目標(biāo)跟蹤領(lǐng)域的主流算法。
基于深度學(xué)習(xí)的目標(biāo)跟蹤方法在各數(shù)據(jù)集上都取得了優(yōu)異的成績(jī), 但現(xiàn)實(shí)中的目標(biāo)跟蹤依然面臨很多問(wèn)題, 具體如下:
(1) 長(zhǎng)程跟蹤問(wèn)題。 當(dāng)前基于深度學(xué)習(xí)的目標(biāo)跟蹤算法對(duì)短程跟蹤已經(jīng)有了很好的結(jié)果, 但在實(shí)際跟蹤中往往都是長(zhǎng)程跟蹤問(wèn)題, 如軍事制導(dǎo)、 無(wú)人駕駛等。 在長(zhǎng)程跟蹤中不僅會(huì)面臨短程跟蹤的問(wèn)題, 還會(huì)面臨更大挑戰(zhàn), 如目標(biāo)頻繁移出又返回視場(chǎng)、 頻繁遮擋、 目標(biāo)形變極大以及環(huán)境變化極端等問(wèn)題。
當(dāng)跟蹤失敗時(shí), 進(jìn)行目標(biāo)重檢測(cè)是一種較為有效的方法, 然而跟蹤再檢測(cè)也就意味著計(jì)算量大, 會(huì)對(duì)跟蹤的實(shí)時(shí)性產(chǎn)生較大影響, 因此可以考慮簡(jiǎn)化檢測(cè)模型, 對(duì)重檢測(cè)模型進(jìn)行可靠的輕量化, 以滿足目標(biāo)重檢測(cè)時(shí)的實(shí)時(shí)性問(wèn)題, 或者提出其他行之有效的應(yīng)對(duì)由于遮擋、 移出視野等原因?qū)е碌母櫴?wèn)題的方法。
(2) 數(shù)據(jù)集難以獲得。 不同于檢測(cè)、 分類任務(wù)的數(shù)據(jù)集, 一個(gè)跟蹤序列已經(jīng)包含數(shù)幀圖像, 對(duì)于跟蹤任務(wù)的訓(xùn)練, 需要對(duì)其進(jìn)行逐幀標(biāo)注, 因此工作量巨大。
當(dāng)前對(duì)于這一問(wèn)題, 大多采用在大量分類檢測(cè)數(shù)據(jù)集上訓(xùn)練得到特征提取網(wǎng)絡(luò), 再使用數(shù)量較為有限的跟蹤數(shù)據(jù)集對(duì)跟蹤網(wǎng)絡(luò)進(jìn)行訓(xùn)練, 以此緩解跟蹤數(shù)據(jù)集缺少的問(wèn)題, 但這也只是權(quán)宜之計(jì), 在面臨不同類型的目標(biāo)時(shí), 網(wǎng)絡(luò)缺乏針對(duì)性。 考慮到當(dāng)前主流的孿生算法本質(zhì)都是在搜索圖像中尋找與模板圖像最相似的部分作為跟蹤結(jié)果, 因此可以考慮小樣本的學(xué)習(xí)方法, 僅以視頻序列的第一幀作為正樣本對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
(3) 實(shí)時(shí)跟蹤問(wèn)題。 深度網(wǎng)絡(luò)參數(shù)較多, 若只對(duì)其進(jìn)行離線訓(xùn)練, 可以提高跟蹤速度, 但只有首幀的目標(biāo)位置是準(zhǔn)確的。 隨著目標(biāo)自身變化以及環(huán)境變化, 網(wǎng)絡(luò)對(duì)目標(biāo)的跟蹤能力也會(huì)減弱, 無(wú)法正確跟蹤目標(biāo)。 如果對(duì)網(wǎng)絡(luò)模型進(jìn)行在線訓(xùn)練更新, 大量的模型參數(shù)調(diào)整會(huì)嚴(yán)重影響跟蹤的實(shí)時(shí)性, 因此如何從深度網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的角度提高目標(biāo)跟蹤速度, 仍然是一個(gè)需要解決的問(wèn)題。
參考文獻(xiàn):
[1] 李璽, 查宇飛, 張?zhí)熘?等. 深度學(xué)習(xí)的目標(biāo)跟蹤算法綜述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2019, 24(12): 2057-2080.
Li Xi, Zha Yufei, Zhang Tianzhu, et al. Survey of Visual Object Tracking Algorithms Based on Deep Learning[J]. Journal of Image and Graphics, 2019, 24(12): 2057-2080.(in Chinese)
[2] Comaniciu D, Ramesh V, Meer P. KernelBased Object Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(5): 564-577.
[3] Kwon J, Lee K M. Tracking by Sampling and Integrating Multiple Trackers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1428-1441.
[4] Wang D, Lu H C, Yang M H. Online Object Tracking with Sparse Prototypes[J]. IEEE Transactions on Image Processing, 2013, 22(1): 314-325.
[5] Avidan S. Support Vector Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(8): 1064-1072.
[6] Grabner H, Bischof H. OnLine Boosting and Vision[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006: 260-267.
[7] Saffari A, Leistner C, Santner J, et al. OnLine Random Forests[C]∥IEEE 12th International Conference on Computer Vision Workshops, 2010: 1393-1400.
[8] Henriques J F, Caseiro R, Martins P, et al. HighSpeed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[9] MarvastiZadeh S M, Cheng L, GhaneiYakhdan H, et al. Deep Learning for Visual Tracking: A Comprehensive Survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(5): 3943-3968.
[10] Fiaz M, Mahmood A, Javed S, et al. Handcrafted and Deep Trackers[J]. ACM Computing Surveys, 2020, 52(2): 1-44.
[11] Javed S, Danelljan M, Khan F S, et al. Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(5): 6552-6574.
[12] Soleimanitaleb Z, Ali Keyvanrad M. Single Object Tracking: A Survey of Methods, Datasets, and Evaluation Metrics[EB/OL]. (2022-01-31)[2022-10-28]. https:∥arxiv. org/ abs/2201.13066.pdf.
[13] Han R Z, Feng W, Guo Q, et al. Single Object Tracking Research: A Survey[EB/OL]. (2022-04-25)[2022-10-28]. https:∥arxiv.org/abs/2204.11410.pdf.
[14] Ciaparrone G, Luque Sánchez F, Tabik S, et al. Deep Learning in Video MultiObject Tracking: A Survey[J]. Neurocomputing, 2020, 381: 61-88.
[15] Bashar M, Islam S, Hussain K K, et al. Multiple Object Tracking in Recent Times: A Literature Review[EB/OL]. (2022-09-11)[2022-10-28]. https:∥arxiv.org/abs/2209. 04796. pdf.
[16] Hinton G E, Osindero S, Teh Y W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[18] Simonyan K, Zisserman A. Very Deep Convolutional Networks for LargeScale Image Recognition[EB/OL]. (2014-09-04)[2022-10-28]. https:∥arxiv.org/abs/1409. 1556.pdf.
[19] Szegedy C, Liu W, Jia Y Q, et al. Going Deeper with Convolutions[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[20] He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[21] Wang N Y, Yeung D Y. Learning a Deep Compact Image Representation for Visual Tracking[J]. Advances in Neural Information Processing Systems, 2013: 809-817.
[22] Wang L, Liu T, Wang G, et al. Video Tracking Using Learned Hierarchical Features[J]. IEEE Transactions on Image Processing, 2015, 24(4): 1424-1435.
[23] Wang L J, Ouyang W L, Wang X G, et al. Visual Tracking with Fully Convolutional Networks[C]∥ IEEE International Conference on Computer Vision, 2016: 3119-3127.
[24] Danelljan M, Hger G, Khan F S, et al. Convolutional Features for Correlation Filter Based Visual Tracking[C]∥ IEEE International Conference on Computer Vision Workshop, 2016: 621-629.
[25] Danelljan M, Hger G, Khan F S, et al. Learning Spatially Regularized Correlation Filters for Visual Tracking[C]∥ IEEE International Conference on Computer Vision, 2016: 4310-4318.
[26] Cui Z, Xiao S T, Feng J S, et al. Recurrently TargetAttending Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1449-1458.
[27] Danelljan M, Robinson A, Shahbaz Khan F, et al. Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking[C]∥Computer VisionECCV, 2016: 472-488.
[28] Danelljan M, Bhat G, Khan F S, et al. ECO: Efficient Convolution Operators for Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6931-6939.
[29] Bertinetto L, Valmadre J, Henriques J F, et al. FullyConvolutional Siamese Networks for Object Tracking[M]. Cham: Springer International Publishing, 2016: 850-865.
[30] Chen K, Tao W B. Once for All: A TwoFlow Convolutional Neural Network for Visual Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(12): 3377-3386.
[31] 馮琪堯, 張?bào)@雷. 基于混合注意力機(jī)制的目標(biāo)跟蹤算法[J]. 計(jì)算機(jī)工程與科學(xué), 2022, 44(2): 276-282.
Feng Qiyao, Zhang Jinglei. An Object Tracking Algorithm Based on Mixed Attention Mechanism[J]. Computer Engineering & Science, 2022, 44(2): 276-282.(in Chinese)
[32] Fan H, Ling H B. SANet: StructureAware Network for Visual Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2017: 2217-2224.
[33] Ning G H, Zhang Z, Huang C, et al. Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking[C]∥ IEEE International Symposium on Circuits and Systems, 2017: 1-4.
[34] Song Y B, Ma C, Wu X H, et al. VITAL: Visual Tracking via Adversarial Learning[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8990-8999.
[35] Wang X, Li C L, Luo B, et al. SINT: Robust Visual Tracking via Adversarial Positive Instance Generation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 4864-4873.
[36] Li P X, Chen B Y, Ouyang W L, et al. GradNet: GradientGuided Network for Visual Object Tracking[C]∥IEEE/CVF International Conference on Computer Vision, 2020: 6161-6170.
[37] Dong X P, Shen J B, Wu D M, et al. Quadruplet Network with OneShot Learning for Fast Visual Object Tracking[J]. IEEE Transactions on Image Processing, 2019, 28(7): 3516-3527.
[38] Hoffer E, Ailon N. Deep Metric Learning Using Triplet Network[M]. Cham: Springer International Publishing, 2015: 84-92.
[39] Nam H, Baek M, Han B. Modeling and Propagating CNNS in a Tree Structure for Visual Tracking[EB/OL]. (2016-08-25)[2022-10-28]. https:∥arxiv.org/abs/1608. 07242.pdf.
[40] Song Y B, Ma C, Gong L J, et al. CREST: Convolutional Residual Learning for Visual Tracking[C]∥IEEE International Conference on Computer Vision, 2017: 2574-2583.
[41] Ma C, Xu Y, Ni B B, et al. When Correlation Filters Meet Convolutional Neural Networks for Visual Tracking[J]. IEEE Signal Processing Letters, 2016, 23(10): 1454-1458.
[42] Chi Z Z, Li H Y, Lu H C, et al. Dual Deep Network for Visual Tracking[J]. IEEE Transactions on Image Processing, 2017, 26(4): 2005-2015.
[43] Wang N Y, Li S Y, Gupta A, et al. Transferring Rich Feature Hierarchies for Robust Visual Tracking[EB/OL]. (2015-01-19)[2022-10-28].https:∥arxiv.org/abs/1501.04587.pdf.
[44] Tao R, Gavves E, Smeulders A W M. Siamese Instance Search for Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1420-1429.
[45] Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[46] Ma C, Huang J B, Yang X K, et al. Hierarchical Convolutional Features for Visual Tracking[C]∥IEEE International Conference on Computer Vision, 2016: 3074-3082.
[47] Held D, Thrun S, Savarese S. Learning to Track at 100 FPS with Deep Regression Networks[C]∥European Conference on Computer Vision, 2016: 749-765.
[48] Valmadre J, Bertinetto L, Henriques J, et al. EndtoEnd Representation Learning for Correlation Filter Based Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017: 5000-5008.
[49] 邵江南, 葛洪偉. 融合殘差連接與通道注意力機(jī)制的Siamese目標(biāo)跟蹤算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2021, 33(2): 260-269.
Shao Jiangnan, Ge Hongwei. Siamese Object Tracking Algorithm Combining Residual Connection and Channel Attention Mechanism[J]. Journal of ComputerAided Design & Computer Graphics, 2021, 33(2): 260-269.(in Chinese)
[50] Choi J, Chang H J, Fischer T, et al. ContextAware Deep Feature Compression for HighSpeed Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 479-488.
[51] Zhang J, Shan S G, Kan M N, et al. CoarsetoFine AutoEncoder Networks (CFAN) for RealTime Face Alignment[C]∥European Conference on Computer Vision, 2014: 1-16.
[52] Ni Z L, Bian G B, Xie X L, et al. RASNet: Segmentation for Tracking Surgical Instruments in Surgical Videos Using Refined Attention Segmentation Network[C]∥ 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society, 2019: 5735-5738.
[53] Yan B, Peng H W, Fu J L, et al. Learning SpatioTemporal Transformer for Visual Tracking[EB/OL]. (2021-03-31)[2022-10-28]. https:∥arxiv.org/abs/2103. 17154.pdf.
[54] Nam H, Han B. Learning MultiDomain Convolutional Neural Networks for Visual Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4293-4302.
[55] Zhuang B H, Wang L J, Lu H C. Visual Tracking via Shallow and Deep Collaborative Model[J]. Neurocomputing, 2016, 218: 61-71.
[56] Chen K X, Zhou X, Xiang W, et al. Data Augmentation Using GAN for MultiDomain NetworkBased Human Tracking[C]∥IEEE Visual Communications and Image Processing, 2019: 1-4.
[57] Yang Y J, Gu X D. Learning Edges and Adaptive Surroundings for Discriminant Segmentation Tracking[J]. Digital Signal Processing, 2022, 121: 103309.
[58] Zhao F, Wang J Q, Wu Y, et al. Adversarial Deep Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(7): 1998-2011.
[59] Li B, Yan J J, Wu W, et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8971-8980.
[60] Real E, Shlens J, Mazzocchi S, et al. YouTubeBoundingBoxes: A Large HighPrecision HumanAnnotated Data Set for Object Detection in Video[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7464-7473.
[61] 張宏偉, 李曉霞, 朱斌, 等. 基于孿生神經(jīng)網(wǎng)絡(luò)的兩階段目標(biāo)跟蹤方法[J]. 紅外與激光工程, 2021, 50(9): 341-352.
Zhang Hongwei, Li Xiaoxia, Zhu Bin, et al. TwoStage Object Tracking Method Based on Siamese Neural Network[J]. Infrared and Laser Engineering, 2021, 50(9): 341-352.(in Chinese)
[62] Li B, Wu W, Wang Q, et al. SiamRPN: Evolution of Siamese Visual Tracking with very Deep Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 4277-4286.
[63] 陳志旺, 張忠新, 宋娟, 等. 在線目標(biāo)分類及自適應(yīng)模板更新的孿生網(wǎng)絡(luò)跟蹤算法[J]. 通信學(xué)報(bào), 2021, 42(8): 151-163.
Chen Zhiwang, Zhang Zhongxin, Song Juan, et al. Tracking Algorithm of Siamese Network Based on Online Target Classification and Adaptive Template Update[J]. Journal on Communications, 2021, 42(8): 151-163.(in Chinese)
[64] Wang Q, Zhang L, Bertinetto L, et al. Fast Online Object Tracking and Segmentation: A Unifying Approach[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1328-1338.
[65] Shuai B, Berneshawi A G, Modolo D, et al. MultiObject Tracking with Siamese TrackRCNN[EB/OL]. (2020-04-16)[2022-10-28].https:∥arxiv.org/abs/2004.07786.pdf.
[66] Zhang J M, Jin X K, Sun J, et al. Spatial and Semantic Convolutional Features for Robust Visual Object Tracking[J]. Multimedia Tools and Applications, 2020, 79(21/22): 15095-15115.
[67] Wang G T, Luo C, Xiong Z W, et al. SPMTracker: SeriesParallel Matching for RealTime Visual Object Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 3638-3647.
[68] Zhang Z P, Peng H W, Fu J L, et al. Ocean: ObjectAware AnchorFree Tracking[M]. Cham: Springer International Publishing, 2020: 771-787.
[69] Guo D Y, Shao Y Y, Cui Y, et al. Graph Attention Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 9538-9547.
[70] Chen X, Yan B, Zhu J W, et al. Transformer Tracking[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 8122-8131.
[71] Lin L T, Fan H, Zhang Z P, et al. SwinTrack: A Simple and Strong Baseline for Transformer Tracking[EB/OL]. (2021-12-02)[2022-10-28].https:∥arxiv.org/abs/2112.00995.pdf.
[72] Wang X, Shu X J, Zhang Z P, et al. Towards more Flexible and Accurate Object Tracking with Natural Language: Algorithms and Benchmark[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13758-13768.
[73] Guo D Y, Wang J, Cui Y, et al. SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 6268-6276.
[74] Ma Z A, Zhang H T, Wang L Y, et al. RPT++: Customized Feature Representation for Siamese Visual Tracking[EB/OL]. (2021-10-23)[2022-10-28]. https:∥ arxiv. org/abs/2110.12194.pdf.
[75] Fu Z H, Liu Q J, Fu Z H, et al. STMTrack: TemplateFree Visual Tracking with SpaceTime Memory Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13769-13778.
[76] Han W, Huang H T, Yu X X. TAPL: Dynamic PartBased Visual Tracking via AttentionGuided Part Localization[EB/OL]. (2021-10-25)[2022-10-28].https:∥ arxiv.org/abs/2110.13027.pdf.
[77] Zhang Y P, Huang X M, Yang M. A Hybrid Visual Tracking Algorithm Based on SOM Network and Correlation Filter[J]. Sensors, 2021, 21(8): 2864.
[78] 宋建鋒, 苗啟廣, 王崇曉, 等. 注意力機(jī)制的多尺度單目標(biāo)跟蹤算法[J]. 西安電子科技大學(xué)學(xué)報(bào), 2021, 48(5): 110-116.
Song Jianfeng, Miao Qiguang, Wang Chongxiao, et al. MultiScale Single Object Tracking Based on the Attention Mechanism[J]. Journal of Xidian University, 2021, 48(5): 110-116.(in Chinese)
[79] Yan S, Yang J Y, Kpyl J, et al. DepthTrack: Unveiling the Power of RGBD Tracking[C]∥IEEE/CVF International Conference on Computer Vision, 2022: 10705-10713.
[80] 劉嘉敏, 謝文杰, 黃鴻, 等. 基于空間和通道注意力機(jī)制的目標(biāo)跟蹤方法[J]. 電子與信息學(xué)報(bào), 2021, 43(9): 2569-2576.
Liu Jiamin, Xie Wenjie, Huang Hong, et al. Spatial and Channel Attention Mechanism Method for Object Tracking[J]. Journal of Electronics & Information Technology, 2021, 43(9): 2569-2576.(in Chinese)
[81] 楊梅, 賈旭, 殷浩東, 等. 基于聯(lián)合注意力孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法[J]. 儀器儀表學(xué)報(bào), 2021, 42(1): 127-136.
Yang Mei, Jia Xu, Yin Haodong, et al. Object Tracking Algorithm Based on Siamese Network with Combined Attention[J]. Chinese Journal of Scientific Instrument, 2021, 42(1): 127-136.(in Chinese)
[82] 王殿偉, 方浩宇, 劉穎, 等. 一種基于改進(jìn)RT-MDNet的全景視頻目標(biāo)跟蹤算法[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2020, 52(10): 152-160.