金國(guó)棟, 薛遠(yuǎn)亮, 譚力寧, 許劍錕
(火箭軍工程大學(xué)核工程學(xué)院, 陜西 西安 710025)
視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺的基礎(chǔ)領(lǐng)域之一,也是一項(xiàng)具有挑戰(zhàn)性的問題,受到學(xué)者的廣泛關(guān)注。視覺目標(biāo)跟蹤是指在視頻序列的初始幀中給定跟蹤目標(biāo),算法能持續(xù)穩(wěn)定地對(duì)后續(xù)幀中的跟蹤目標(biāo)進(jìn)行狀態(tài)估計(jì)和定位的過程,廣泛應(yīng)用于民用和軍用領(lǐng)域,如民用智能視頻監(jiān)控、汽車自動(dòng)駕駛、智能人機(jī)交互和軍事目標(biāo)情報(bào)收集和精準(zhǔn)打擊、導(dǎo)彈制導(dǎo)等,目標(biāo)跟蹤無(wú)論在國(guó)防軍事還是民用方面都具有重要的研究意義和廣闊的應(yīng)用前景。
傳統(tǒng)的跟蹤算法(基于光流法、卡爾曼濾波、核跟蹤方法的跟蹤算法)通過單一的數(shù)學(xué)模型描述待跟蹤目標(biāo),具有很大局限性,很大程度影響模型準(zhǔn)確性,且計(jì)算過程繁瑣,導(dǎo)致跟蹤速度難以得到本質(zhì)提升。為解決上述問題,目前的目標(biāo)跟蹤算法主要分為基于相關(guān)濾波的跟蹤算法和基于深度學(xué)習(xí)的跟蹤算法。相關(guān)濾波(correlation filter, CF)本是通信領(lǐng)域用于計(jì)算兩個(gè)信號(hào)的相關(guān)性,最小輸出平方誤差和算法(minimum output sum of squared error, MOOSE)將其用于計(jì)算目標(biāo)模板與后續(xù)搜索圖像的相關(guān)性,并且該過程是在頻域中完成的,跟蹤速度高達(dá)600幀每秒(frames per second, FPS)。核相關(guān)濾波算法(kerneli-zed CF, KCF)使用循環(huán)矩陣對(duì)正負(fù)樣本進(jìn)行密集采樣,解決負(fù)樣本數(shù)量不足的問題,同時(shí)將高斯核引入嶺回歸中,大大減少計(jì)算量和模型大小??紤]到KCF對(duì)多尺度目標(biāo)的跟蹤效果不理想,尺度自適應(yīng)與多特征跟蹤算法(scale adaptive with multiple features tracker, SAMF)從7個(gè)不同尺度的目標(biāo)模板中選擇響應(yīng)值最大的尺度,解決尺度變化問題,而區(qū)別尺度空間跟蹤算法(discriminative scale space tracker, DSST)則單獨(dú)設(shè)計(jì)一個(gè)濾波器進(jìn)行跟蹤目標(biāo)的尺度估計(jì)。空間正則化辨別相關(guān)濾波器(spatially regularized discriminative CF, SRDCF)針對(duì)目標(biāo)快速運(yùn)動(dòng)時(shí)產(chǎn)生的邊界效應(yīng),加入正則化約束以抑制背景信息,提高算法的準(zhǔn)確度。相較于傳統(tǒng)跟蹤算法,基于相關(guān)濾波的算法無(wú)論在精度還是速度方面都有著很大的提升,但都是使用手工設(shè)計(jì)的特征進(jìn)行目標(biāo)的描述,如灰度、顏色、方向梯度直方圖(histogram of oriented gradients, HOG)特征等。
近幾年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)提取的深度特征魯棒性好、描述能力強(qiáng),在目標(biāo)跟蹤領(lǐng)域中漸漸取代了傳統(tǒng)手工設(shè)計(jì)的特征?;谏疃葘W(xué)習(xí)的跟蹤算法主要分為兩類。一類算法與CF跟蹤算法結(jié)合,如分層卷積特征跟蹤器(hierarchical convolutional features tracker, HCF)、深度空間正則化辨別相關(guān)濾波器(deepSRDCF)、連續(xù)卷積跟蹤算法 (continuous convolution operators for visual tracking, C-COT)等。利用現(xiàn)成的神經(jīng)網(wǎng)絡(luò)模型,為CF跟蹤算法提供深度特征。與使用手工特征的CF算法相比,使用深度特征的CF算法的精度和魯棒性都有著顯著提升,但是其使用的神經(jīng)網(wǎng)絡(luò)是在圖像分類數(shù)據(jù)集中預(yù)先訓(xùn)練好的,更適合分類任務(wù),而不是專門為目標(biāo)跟蹤任務(wù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),與目標(biāo)跟蹤任務(wù)的聯(lián)系不夠緊密。為了充分發(fā)揮神經(jīng)網(wǎng)絡(luò)的能力,不再局限于使用現(xiàn)成的神經(jīng)網(wǎng)絡(luò)來(lái)提取特征,而是構(gòu)造出一個(gè)端對(duì)端訓(xùn)練的跟蹤器,另一類跟蹤算法則通過神經(jīng)網(wǎng)絡(luò)通過端對(duì)端的訓(xùn)練,完成目標(biāo)的特征提取和定位跟蹤如多域卷積神經(jīng)網(wǎng)絡(luò)(multi-domain convolutional neural network, MDNet)跟蹤器等,其中基于孿生神經(jīng)網(wǎng)絡(luò)的跟蹤算法SINT (siamese instance search for tracking)等得到廣泛應(yīng)用。CF算法與孿生跟蹤算法相比:(1) 手工設(shè)計(jì)的傳統(tǒng)特征應(yīng)對(duì)復(fù)雜場(chǎng)景的能力不足,而神經(jīng)網(wǎng)絡(luò)提取的深度特征中有著豐富的語(yǔ)義特征,能更加魯棒地表征目標(biāo),以應(yīng)對(duì)相似目標(biāo)干擾、環(huán)境變化、背景雜亂等挑戰(zhàn);(2) CF算法的多尺度搜索策略需要得到每個(gè)尺度上的響應(yīng)值,再找出最合適的目標(biāo)尺度,過程繁瑣且耗時(shí)。孿生跟蹤算法中使用的錨框機(jī)制和無(wú)錨框機(jī)制都能更有效地估計(jì)目標(biāo)尺度,更好地應(yīng)對(duì)尺度變化;(3) 兩種算法都將最大響應(yīng)值的位置作為目標(biāo)位置,而孿生跟蹤算法還會(huì)進(jìn)行前背景分類和邊界框回歸,提高跟蹤結(jié)果的準(zhǔn)確度。綜上所述:CF算法使用的手工特征相對(duì)簡(jiǎn)單、計(jì)算量少,應(yīng)用于計(jì)算資源十分有限的平臺(tái)(如無(wú)人機(jī)等),但手工特征的表征能力有限、魯棒性不夠,精度得不到保證。隨著深度學(xué)習(xí)技術(shù)和硬件配置的發(fā)展,絕大多數(shù)跟蹤平臺(tái)(如自動(dòng)駕駛汽車等)都能輕易部署孿生跟蹤算法。因此魯棒性和精度更好、跟蹤速度也滿足實(shí)時(shí)要求(≥30 FPS)的孿生跟蹤算法,成為了目標(biāo)跟蹤領(lǐng)域的主流方法。
本文對(duì)近幾年來(lái)孿生跟蹤算法的發(fā)展進(jìn)行梳理總結(jié)。首先,介紹孿生跟蹤算法的常見挑戰(zhàn)、主要組成、跟蹤流程、常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。其次,對(duì)目前的孿生跟蹤算法進(jìn)行分類總結(jié)。這些工作按照主要改進(jìn)的方向可分為:改進(jìn)特征提取部分的跟蹤算法、優(yōu)化相似度計(jì)算部分的跟蹤算法和優(yōu)化跟蹤結(jié)果生成部分的跟蹤算法。然后,選取20個(gè)有代表性的主流跟蹤算法進(jìn)行測(cè)試與分析。最后,分析目前孿生跟蹤算法的主要問題與不足,并展望未來(lái)的研究方向。
孿生神經(jīng)網(wǎng)絡(luò)由兩個(gè)分支的神經(jīng)網(wǎng)絡(luò)組成,而這兩個(gè)分支的神經(jīng)網(wǎng)絡(luò)的權(quán)重是共享的,利用雙分支的輸出可以計(jì)算出兩條分支的輸入之間的相似度,因此最初用于銀行系統(tǒng)的客戶簽名驗(yàn)證,后續(xù)還應(yīng)用于人臉識(shí)別和地空?qǐng)D像匹配等領(lǐng)域。SINT是第一個(gè)使用孿生神經(jīng)網(wǎng)絡(luò)用于目標(biāo)跟蹤的算法,將目標(biāo)跟蹤任務(wù)看作是一種相似度度量的問題,為目標(biāo)跟蹤提供了一種新思路。后來(lái)Bertinetto等人提出的全卷積孿生網(wǎng)絡(luò)(fully-convolutional siamese networks, SiamFC)跟蹤算法,簡(jiǎn)化了相似度的計(jì)算過程,大大提高了跟蹤速度,證明孿生跟蹤算法在精度和速度上的巨大潛力,因此后續(xù)的孿生跟蹤算法大多都是基于SiamFC進(jìn)行研究的。
如圖1所示,目標(biāo)跟蹤的挑戰(zhàn)對(duì)算法的穩(wěn)定性與精度有著較大影響,常見挑戰(zhàn)如下。
圖1 常見挑戰(zhàn)
(1) 目標(biāo)尺度變化:隨著目標(biāo)或者拍攝設(shè)備的運(yùn)動(dòng),視角下的目標(biāo)所占區(qū)域面積發(fā)生較大變化。如果跟蹤算法的尺度適應(yīng)能力不足,將包含過多的背景信息,污染正樣本信息。
(2) 背景雜亂:跟蹤過程中背景中含有與目標(biāo)差異較小的干擾信息,算法容易將背景信息錯(cuò)認(rèn)為跟蹤目標(biāo),考驗(yàn)了算法對(duì)背景和目標(biāo)的區(qū)分能力。
(3) 運(yùn)動(dòng)模糊:由于相機(jī)抖動(dòng)或者目標(biāo)運(yùn)動(dòng)過快,視野中的目標(biāo)輪廓難以區(qū)分、特征信息難以提取,需要跟蹤算法有較強(qiáng)的辨別能力,依靠模糊的特征信息也能辨認(rèn)出跟蹤目標(biāo)。
(4) 相似目標(biāo)干擾:跟蹤視野中出現(xiàn)了與跟蹤目標(biāo)外觀、顏色等信息相似的目標(biāo),考驗(yàn)跟蹤算法對(duì)目標(biāo)的表征能力。能力不足將受到相似目標(biāo)的干擾,從而跟蹤失敗。
(5) 出視野:相機(jī)的視角變化不及時(shí),導(dǎo)致目標(biāo)丟失在視野中,需要跟蹤算法在目標(biāo)丟失的過程中有重檢測(cè)能力,在目標(biāo)重新出現(xiàn)之后及時(shí)發(fā)現(xiàn)目標(biāo),繼續(xù)跟蹤。
(6) 遮擋:跟蹤過程中相機(jī)與目標(biāo)之間有障礙物,使得視野中的目標(biāo)信息不完整,需要跟蹤算法能通過不完全的目標(biāo)信息來(lái)辨認(rèn)出第一幀中的跟蹤目標(biāo),考驗(yàn)算法對(duì)目標(biāo)的辨別能力。
(7) 外觀變化:目標(biāo)在運(yùn)動(dòng)過程中,其外觀與形狀發(fā)生較大變化,目標(biāo)的邊界框會(huì)發(fā)生較大的縱橫比變化。外觀和形狀是目標(biāo)的細(xì)節(jié)信息,變化的細(xì)節(jié)信息要求算法不能單純依靠細(xì)節(jié)信息來(lái)表征目標(biāo),還需要有更高級(jí)的、更抽象的特征信息來(lái)描述目標(biāo)。
(8) 環(huán)境變化:目標(biāo)所處環(huán)境不斷變化,目標(biāo)信息與初始目標(biāo)信息產(chǎn)生差異,跟蹤模板的可靠度下降,算法只有通過一定周期的模板更新才能有效應(yīng)對(duì)目標(biāo)信息的變化。
和SiamFC的網(wǎng)絡(luò)結(jié)構(gòu)(見圖2)一樣,大多數(shù)孿生跟蹤算法由特征提取部分(·)、相似度計(jì)算部分(*)和跟蹤結(jié)果生成部分組成。特征提取部分為孿生神經(jīng)網(wǎng)絡(luò),一個(gè)分支輸入初始幀的目標(biāo)圖像作為模板、輸出為模板特征圖(),另一個(gè)分支輸入的是后續(xù)幀的搜索圖像、輸出為搜索特征圖();相似度計(jì)算部分(*)用于整合兩條分支的特征圖上的特征信息,計(jì)算搜索特征圖與模板特征圖的相似度,生成相似度響應(yīng)圖(,);跟蹤結(jié)果生成部分根據(jù)得到的響應(yīng)圖來(lái)預(yù)測(cè)搜索圖像上的目標(biāo)位置,一般認(rèn)為最大響應(yīng)的位置即為目標(biāo)預(yù)測(cè)位置,然后在預(yù)測(cè)位置進(jìn)行目標(biāo)尺度估計(jì)和邊界框回歸。
圖2 SiamFC網(wǎng)絡(luò)結(jié)構(gòu)
(,)=()*()+·
(1)
式中:(·)為特征提取部分;*為互相關(guān)運(yùn)算;為每個(gè)位置的偏差;為單位矩陣。
端對(duì)端訓(xùn)練好的孿生跟蹤算法跟蹤流程如圖3所示,主要包括:
圖3 跟蹤流程
視頻序列逐幀輸入到特征提取部分;
若為第一幀,模板分支提取目標(biāo)特征作為模板特征;
若不是第一幀,搜索分支提取當(dāng)前幀的目標(biāo)特征作為搜索特征;
相似度計(jì)算部分根據(jù)兩條分支各自提取的特征圖,計(jì)算二者之間的相似度,生成響應(yīng)圖;
跟蹤結(jié)果生成部分利用相似度響應(yīng)圖,預(yù)測(cè)當(dāng)前幀中的目標(biāo)位置;
重復(fù)步驟3~步驟5,直至視頻序列的最后一幀。
141 訓(xùn)練集
待跟蹤目標(biāo)的類別是未知的,而大多數(shù)孿生跟蹤算法是以離線、端對(duì)端訓(xùn)練的方法來(lái)學(xué)習(xí)一個(gè)相似度匹配函數(shù),因此為提高算法對(duì)未知類別目標(biāo)的跟蹤效果,包含目標(biāo)類別多的大規(guī)模訓(xùn)練集是必不可少的。跟蹤算法的訓(xùn)練集大多數(shù)為圖像分類和目標(biāo)檢測(cè)領(lǐng)域的數(shù)據(jù)集,這些數(shù)據(jù)集包含物體類別多、圖片數(shù)量多,能提高算法的泛化能力。目標(biāo)跟蹤常用訓(xùn)練集如下:
(1) ImageNet VID和DET:有30個(gè)基本級(jí)別的目標(biāo)類別、200個(gè)子集的目標(biāo)檢測(cè)數(shù)據(jù)集。VID、DET數(shù)據(jù)集分別有112萬(wàn)和45萬(wàn)張圖片。
(2) YouTube-BoundingBoxes:從38萬(wàn)個(gè)視頻片段中截取的1 050萬(wàn)張圖片,包含560萬(wàn)個(gè)人工標(biāo)注的邊界框,23個(gè)類別的日常物體。
(3) COCO:包含91個(gè)對(duì)象類型,328千張圖像,總共有250萬(wàn)個(gè)標(biāo)注框。
(4) GOT-10k:中科院專門為目標(biāo)跟蹤設(shè)計(jì)的數(shù)據(jù)集。由10 000個(gè)視頻片段和150萬(wàn)個(gè)人工標(biāo)注的邊界框組成,包含現(xiàn)實(shí)世界中超過560個(gè)類別的運(yùn)動(dòng)目標(biāo)和超過80種運(yùn)動(dòng)模式。訓(xùn)練集和測(cè)試集中的目標(biāo)類別沒有重合,確保了算法的泛化能力。
(5) LaSOT:擁有387萬(wàn)張圖片的1 550個(gè)視頻序列;85個(gè)目標(biāo)類別,平均每個(gè)類別有10~20個(gè)序列;平均視頻序列長(zhǎng)度為2 500幀,適合長(zhǎng)時(shí)跟蹤。
(6) TrackingNet:提供超過30 000個(gè)視頻的大規(guī)模數(shù)據(jù)集、超出其他數(shù)據(jù)集兩個(gè)數(shù)量級(jí),并標(biāo)注1 400萬(wàn)個(gè)邊界框。
(7) Youtube-VOS:包含4 000多個(gè)高分辨率視頻片段、90多個(gè)目標(biāo)類別,19萬(wàn)個(gè)高質(zhì)量手工標(biāo)注邊界框的半監(jiān)督視頻目標(biāo)分割數(shù)據(jù)集。
142 測(cè)試集
用于評(píng)估目標(biāo)跟蹤算法性能的測(cè)試集如表1所示,主要有目標(biāo)跟蹤基準(zhǔn)(object tracking benchmark, OTB)競(jìng)賽(OTB2013、OTB2015)和視覺目標(biāo)跟蹤(visual object tracking, VOT)競(jìng)賽(VOT2013~VOT2020)所使用的基準(zhǔn)數(shù)據(jù)集、ALOV300++、NUS-PRO、TColor-128、TLP、Nfs、LTB35(LTB50)、OxUvA、TrackingNet、GOT-10k、LaSOT、Small90(Small112)、HOB、ROB、TNL2K、UAV123(UAV20L)、DTB70、UAVDT、VisDrone2019-SOT和UAVDark135。其中大部分的數(shù)據(jù)集專注于短時(shí)跟蹤任務(wù)中,其平均序列長(zhǎng)度小于600幀(即30 FPS速度下的視頻時(shí)長(zhǎng)小于20 s),而長(zhǎng)時(shí)跟蹤數(shù)據(jù)集的數(shù)量則相對(duì)較少??紤]到短期數(shù)據(jù)集下的評(píng)估效果不能很好地反映真實(shí)應(yīng)用場(chǎng)景中跟蹤器的真實(shí)性能,從而限制了其實(shí)際部署,因此從VOT2018開始的VOT競(jìng)賽增加了一條長(zhǎng)時(shí)跟蹤賽道。
表1 主要測(cè)試集
續(xù)表1
目標(biāo)跟蹤算法主要使用的評(píng)價(jià)指標(biāo)中通常包括兩個(gè)基本參數(shù),中心定位誤差(center location error, CLE)和重疊分?jǐn)?shù)。其中,如圖4(a)和式(2)所示,中心定位誤差是計(jì)算視頻序列中每一幀的預(yù)測(cè)框中心位置(,)與對(duì)應(yīng)的真實(shí)框中心位置( , )的歐氏距離,然后取所有幀的定位誤差之和的平均值作為評(píng)價(jià)指標(biāo)。
圖4 評(píng)價(jià)參數(shù)
(2)
式中:(,)分別為預(yù)測(cè)框中心的橫、縱坐標(biāo);( , )分別為真實(shí)框中心的橫、縱坐標(biāo)。
重疊分?jǐn)?shù)是計(jì)算序列每一幀的預(yù)測(cè)框 與真實(shí)框 的面積交并比(intersection over union, IoU),然后取所有幀的交并比之和的平均值作為評(píng)價(jià)指標(biāo),如圖4(b)所示,其表達(dá)工為
(3)
式中: 、 分別為預(yù)測(cè)框和真實(shí)框。
跟蹤算法跟丟目標(biāo)時(shí)的跟蹤框位置是隨機(jī)的,因此直接取平均值的CLE,不能正確地衡量算法的性能。文獻(xiàn)[58-59]提出,通過計(jì)算CLE小于給定閾值的幀數(shù)量所占的百分比是更好的一個(gè)衡量標(biāo)準(zhǔn)。因此,OTB競(jìng)賽使用準(zhǔn)確率曲線和成功率曲線來(lái)衡量算法性能,其中準(zhǔn)確率曲線由CLE小于不同閾值時(shí)的幀數(shù)量所占百分比組成,而成功率曲線由重疊分?jǐn)?shù)大于閾值(從0到1)時(shí)的幀數(shù)量的百分比組成。將定位誤差閾值為20像素點(diǎn)時(shí)的準(zhǔn)確率和重疊閾值為0.5時(shí)的成功率作為算法最終的準(zhǔn)確率和成功率。另外,成功率還可以由成功率曲線與坐標(biāo)軸面積圍成的面積,即曲線下面積(area under curve, AUC)計(jì)算得到。這種使用第一幀的目標(biāo)真實(shí)框來(lái)初始化算法,計(jì)算成功率和準(zhǔn)確率的方法叫做一次性評(píng)估(one-pass evaluation, OPE)方法。此外,為檢驗(yàn)算法的魯棒性,OTB還提出了時(shí)間魯棒性評(píng)估(temporal robustness evaluation, TRE)方法和空間魯棒性評(píng)估(spatial robustness evaluation, SRE)方法,讓算法分別從不同時(shí)刻的幀、不同大小的邊界框開始跟蹤,檢驗(yàn)算法的時(shí)間、空間魯棒性。
此外,VOT2014競(jìng)賽提出了準(zhǔn)確率(accuracy, A)、魯棒性(robustness, R)和等效濾波操作(equivalent filter operations, EFO)。準(zhǔn)確率A衡量算法的預(yù)測(cè)框與真實(shí)框的平均重疊率;魯棒性R代表算法跟蹤過程中跟蹤失敗的次數(shù)(當(dāng)重疊分?jǐn)?shù)為0時(shí)認(rèn)為跟蹤失敗);等效濾波操作EFO用于測(cè)量算法的跟蹤速度,減少硬件平臺(tái)和編程語(yǔ)言等外在因素對(duì)跟蹤速度的影響。VOT2015還提出了一個(gè)新的評(píng)價(jià)指標(biāo)—期望平均重疊分?jǐn)?shù)(expected average overlap, EAO),用于整體地衡量算法的準(zhǔn)確率和魯棒性。不同數(shù)據(jù)集都會(huì)存在不同的評(píng)價(jià)指標(biāo),但大多數(shù)的目標(biāo)跟蹤算法都采用OTB和VOT的評(píng)價(jià)指標(biāo)對(duì)算法性能進(jìn)行測(cè)試。
提取區(qū)分度高、魯棒性好的目標(biāo)特征是一個(gè)優(yōu)良跟蹤算法的前提,因此后續(xù)研究針對(duì)特征提取部分做了許多改進(jìn)和優(yōu)化。
SINT的特征提取部分要求搜索圖像塊和模板圖像大小必須一樣,因此為保證一定的搜索范圍,需要輸入搜索圖像上大量的小尺寸搜索圖像塊。盡管SINT使用了感興趣區(qū)域池化(region of interest pooling, ROI pooling)來(lái)篩選重疊的搜索圖像塊,但是留下的搜索圖像塊數(shù)量仍然較多,其跟蹤速度(2 FPS)遠(yuǎn)不及實(shí)時(shí)要求。SiamFC則使用全卷積神經(jīng)網(wǎng)絡(luò)作為特征提取部分,跟蹤過程中直接輸入大尺寸的搜索圖像,避免了搜索圖像塊的重復(fù)輸入,大大提高了跟蹤速度(86 FPS)。全卷積網(wǎng)絡(luò)(fully convolutional network, FCN)跟蹤算法考慮到淺層特征辨別性強(qiáng)和深層特征語(yǔ)義信息豐富,為深淺層神經(jīng)層設(shè)計(jì)獨(dú)特的模塊,分別作為目標(biāo)類別檢測(cè)器和相似干擾辨別器。如式(4)所示,CF跟蹤網(wǎng)絡(luò)(CF network, CFNet)將相關(guān)濾波器=()作為一個(gè)可微分的神經(jīng)層,整合到SiamFC的模板分支上,利用深度特征訓(xùn)練相關(guān)濾波器,同時(shí)結(jié)合了兩種方法的長(zhǎng)處,可有效提升淺層神經(jīng)網(wǎng)絡(luò)的跟蹤效果。Huang等人發(fā)現(xiàn)對(duì)于簡(jiǎn)單場(chǎng)景下的跟蹤任務(wù),淺層神經(jīng)層提取的特征足以應(yīng)對(duì),不需要再繼續(xù)輸入到深層神經(jīng)層。于是設(shè)計(jì)一個(gè)判斷機(jī)制插入到特征提取部分的每一層,根據(jù)當(dāng)前跟蹤場(chǎng)景自適應(yīng)地選擇某一特征層作為輸出,這種及時(shí)停止特征提取的機(jī)制能在保證跟蹤效果的前提下提高跟蹤速度。而語(yǔ)義外觀雙分支跟蹤算法(semantec and appearance twofold branch siamese network, SA-Siam)則發(fā)現(xiàn)淺層神經(jīng)網(wǎng)絡(luò)提取的特征缺乏語(yǔ)義信息,因此將SiamFC的特征提取網(wǎng)絡(luò)作為外觀分支,又加入一條圖像分類中預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)作為語(yǔ)義分支,獨(dú)立訓(xùn)練的兩條分支提取的特征信息是相互補(bǔ)充的,能提升SiamFC的魯棒性。
(,)=s(())*()+
(4)
式中:,為尺度和偏差參數(shù);(·)為可微分的相關(guān)濾波器。
深層神經(jīng)網(wǎng)絡(luò)(ResNet、Inception等)通過加深網(wǎng)絡(luò)深度,提取到的深層特征同樣具有豐富的語(yǔ)義信息。雖然廣泛應(yīng)用在圖像分類、目標(biāo)檢測(cè)等領(lǐng)域,但是在更深更寬孿生網(wǎng)絡(luò)(deeper and wider siamese networks, SiamDW)跟蹤算法和非常深層網(wǎng)絡(luò)的改進(jìn)孿生區(qū)域建議(siamese region proposal network with very deep network, SiamRPN++)跟蹤算法之前的孿生跟蹤算法[23,68-69]都是用Alexnet或VGG作為特征提取網(wǎng)絡(luò),主要原因是有填充存在的深層網(wǎng)絡(luò)在學(xué)習(xí)過程中會(huì)產(chǎn)生位置偏見:過分關(guān)注圖片中心位置而忽視邊緣位置。SiamDW設(shè)計(jì)一種裁切殘差模塊以抑制填充的影響,既能加深網(wǎng)絡(luò)深度又不會(huì)產(chǎn)生位置偏差。SiamRPN++則是在訓(xùn)練過程中使用了一種隨機(jī)平移的采樣策略,同樣消除了位置偏見。為了解決目前手工設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)不是專門為目標(biāo)跟蹤設(shè)計(jì)的問題,Yan等人結(jié)合一次神經(jīng)結(jié)構(gòu)搜索(neural architecture search, NAS)設(shè)計(jì)出一種適合目標(biāo)跟蹤任務(wù)的搜索算法,得到的跟蹤器LightTrack性能更好且參數(shù)量更少,可部署在移動(dòng)平臺(tái)上。
如圖5所示,卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是具有平移不變性的,但是由于其具有旋轉(zhuǎn)等變性,不適合處理目標(biāo)旋轉(zhuǎn)情況,因此旋轉(zhuǎn)等變孿生網(wǎng)絡(luò)(rotation equivariant siamese networks, RE-SiamNets)跟蹤器為了解決跟蹤目標(biāo)出現(xiàn)的平面內(nèi)旋轉(zhuǎn),設(shè)計(jì)一組方向可控濾波器,組成旋轉(zhuǎn)不變模塊來(lái)替換現(xiàn)有跟蹤器中的卷積層。模板分支輸入一組不同方向的目標(biāo)圖像,得到的響應(yīng)圖通過最大池化層選取最佳旋轉(zhuǎn)方向的響應(yīng)圖,實(shí)現(xiàn)算法對(duì)目標(biāo)旋轉(zhuǎn)角度的估計(jì)。更佳匹配孿生網(wǎng)絡(luò)(better match in siamese network, Siam-BM)跟蹤器同樣將搜索分支輸入一組角度和尺度不同的搜索圖像進(jìn)行訓(xùn)練,訓(xùn)練的算法能有效預(yù)測(cè)目標(biāo)的角度和尺度變化。密集孿生網(wǎng)絡(luò)(densely-siamese network, DensSiam)跟蹤器設(shè)計(jì)出密集連接的孿生主干網(wǎng)絡(luò),能捕獲對(duì)外觀變化具有魯棒性的非局部特征,實(shí)現(xiàn)了特征的重復(fù)利用,提高了泛化能力。
圖5 RE-SiamNets的CNN旋轉(zhuǎn)非等變性示意圖
文獻(xiàn)[75]專注于處理目標(biāo)跟蹤過程中的尺度變化問題,設(shè)計(jì)的尺度等變化模塊用于替換傳統(tǒng)的卷積層、池化層和互相關(guān)運(yùn)算,構(gòu)建了一個(gè)內(nèi)置尺度等變化屬性的卷積網(wǎng)絡(luò),能準(zhǔn)確捕獲目標(biāo)的尺度變化。尺度等變化模塊的參數(shù)設(shè)置需要評(píng)估目標(biāo)在跟蹤過程中的變化情況,然而這一先驗(yàn)信息通常是難以預(yù)料的。而文獻(xiàn)[76]則專注于處理十分具有挑戰(zhàn)性的遮擋情況,針對(duì)不同的遮擋情況設(shè)計(jì)了不同的結(jié)構(gòu)化丟失方法,并將對(duì)應(yīng)的互相關(guān)輸出相加得到最終預(yù)測(cè)結(jié)果,能夠有效模擬出被遮擋時(shí)的目標(biāo)狀態(tài)。同樣是處理遮擋情況,文獻(xiàn)[77]使用遮擋感知模塊判斷遮擋是否發(fā)生,如果發(fā)生遮擋則基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)的預(yù)測(cè)模塊開始工作,根據(jù)遮擋前的運(yùn)動(dòng)軌跡預(yù)測(cè)目標(biāo)在后續(xù)幀中的運(yùn)動(dòng)軌跡,從而解決目標(biāo)丟失的問題。
主干網(wǎng)絡(luò)認(rèn)為特征圖的空間和通道維度上的各個(gè)位置都是一樣重要的,而融合注意力機(jī)制則能幫助網(wǎng)絡(luò)更好地關(guān)注輸入中的重要信息(跟蹤目標(biāo)的特征),抑制不重要信息的干擾。SA-Siam在語(yǔ)義分支中使用通道注意力,使得在目標(biāo)位置周圍的通道激活程度高,從而有選擇性地分配通道權(quán)重。Siam-BM發(fā)現(xiàn)當(dāng)目標(biāo)的縱橫比遠(yuǎn)離1(即垂直或水平)時(shí),背景信息中容易有顯著目標(biāo)的干擾,而相比于通道注意力有限的抗干擾能力,在特征圖上應(yīng)用空間掩膜有著更強(qiáng)的背景抑制能力和穩(wěn)定性。殘差注意力孿生網(wǎng)絡(luò)(residual attentional siamese network, RASNet)在特征提取部分中疊加殘差注意力和通用注意力模塊(如圖6)用于學(xué)習(xí)不同視頻中目標(biāo)的共同特性和區(qū)別,同時(shí)又融合通道注意力模塊以適應(yīng)目標(biāo)的外觀變化。文獻(xiàn)[79]在主干網(wǎng)絡(luò)最后一層加入非局部注意力模塊以得到空間維度的自注意力特征圖,和引入通道注意力篩選通道維度上的特征。
圖6 注意力模塊
而改進(jìn)的基于目標(biāo)感知的無(wú)錨框(object-aware anchor-free network plus, Ocean-plus)跟蹤算法認(rèn)為傳統(tǒng)的通道和空間注意力缺乏對(duì)其如何工作的理論解釋,提出了一種注意力檢索網(wǎng)絡(luò),利用特征和存有模板特征的查找表來(lái)生成一種親和矩陣,由此計(jì)算得到加權(quán)特征圖,同樣能為提取特征增加一種平滑的空間約束。孿生注意力網(wǎng)絡(luò)(siamese attention networks, SiamAttn)在SiamRPN++的基礎(chǔ)上設(shè)計(jì)了可變形孿生注意力模塊,包括可變形注意力、自注意力和交叉注意力。其中可變形卷積組成的可變形注意力模塊,用于應(yīng)對(duì)目標(biāo)復(fù)雜的幾何變換;自注意力通過空間注意力來(lái)學(xué)習(xí)明顯的上下文信息,通道注意力來(lái)選擇性地強(qiáng)調(diào)通道特征;交叉注意力指導(dǎo)搜索分支來(lái)學(xué)習(xí)目標(biāo)的模板信息,生成一個(gè)更有分辨力的表示,有助于更準(zhǔn)確地識(shí)別目標(biāo),同時(shí)還會(huì)自適應(yīng)地更新模板特征。柏羅等人為提高SiamFC對(duì)目標(biāo)的整體感知能力,設(shè)計(jì)一個(gè)局部上下文感知模塊,同時(shí)嵌入一個(gè)高效通道注意力模塊用于增強(qiáng)目標(biāo)與背景的差異化表示。
訓(xùn)練過程中正負(fù)樣本數(shù)量的不平衡和難負(fù)樣本的缺少,導(dǎo)致孿生跟蹤算法的正負(fù)樣本辨別力和對(duì)相似物體的抗干擾能力不足。干擾物感知的孿生區(qū)域建議網(wǎng)絡(luò)(distractor-aware siamese region proposal networks, DaSiamRPN)算法在訓(xùn)練樣本中加入DET和COCO數(shù)據(jù)集以提升正樣本數(shù)量,同時(shí)生成了同類語(yǔ)義信息和不同類語(yǔ)義信息的負(fù)樣本,提高了算法對(duì)干擾物的感知能力。孿生重檢測(cè)跟蹤器(siamese re-detection architecture, SiamR-CNN)同樣設(shè)計(jì)難樣本挖掘策略來(lái)訓(xùn)練網(wǎng)絡(luò),并且提出一種跟蹤片段動(dòng)態(tài)規(guī)劃算法:同時(shí)檢測(cè)出包括干擾物在內(nèi)的所有潛在目標(biāo),再利用動(dòng)態(tài)規(guī)劃算法篩選出最優(yōu)跟蹤結(jié)果,性能領(lǐng)先但實(shí)時(shí)性遠(yuǎn)遠(yuǎn)不夠。
SINT中的相似度計(jì)算部分,需要逐個(gè)匹配初始幀和后續(xù)幀,過程繁瑣且費(fèi)時(shí)。如圖7(a)所示,SiamFC在全卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)了一種相似度計(jì)算方法——互相關(guān)運(yùn)算(cross correlation, Xcorr),可以看作是一種卷積運(yùn)算:模板特征圖作為卷積核,在搜索特征圖上逐個(gè)滑動(dòng)地計(jì)算相似度,十分靈活簡(jiǎn)潔。
考慮到特征圖的各個(gè)位置對(duì)Xcorr的貢獻(xiàn)并不應(yīng)該是相同的,RASNet在注意力機(jī)制的基礎(chǔ)上提出了一種加權(quán)Xcorr,有選擇性地利用特征圖的各個(gè)位置。Xcorr得到的單通道響應(yīng)圖包含信息較少,因此孿生區(qū)域建議網(wǎng)絡(luò)(siamese region proposal network, SiamRPN)跟蹤算法Xcorr中整合了錨框等高級(jí)信息,生成的是多通道響應(yīng)圖,因通道數(shù)量隨之增加,也叫上通道Xcorr(up-channel-Xcorr, UP-Xcorr),如圖7(b)所示。但是UP-Xcorr過大的參數(shù)量導(dǎo)致SiamRPN的訓(xùn)練過程難以收斂,SiamRPN++設(shè)計(jì)了一種輕量化的深度Xcorr(DepthWise-Xcorr, DW-Xcorr),如圖7(c)所示,參數(shù)量減少10倍并且得到的多通道響應(yīng)圖具有正交特性:不同通道上的響應(yīng)圖代表的語(yǔ)義信息不同。
圖7 相似度計(jì)算方法
Xcorr在進(jìn)行相似度匹配時(shí)僅利用了二維的長(zhǎng)寬信息,而忽視了時(shí)間和空間維度的信息,匹配精度不高。孿生時(shí)空匹配(siamese spatio-temporal matching, SiamSTM)算法因此設(shè)計(jì)了用于空間維度匹配的Xcorr以及用于限制相鄰幀之間響應(yīng)圖中突變的抑制模塊,跟蹤結(jié)果更加魯棒和精確。細(xì)節(jié)的空間信息是實(shí)現(xiàn)準(zhǔn)確邊框估計(jì)的關(guān)鍵,而Xcorr和DW-Xcorr的卷積核過大以致于會(huì)模糊掉部分空間信息。于是文獻(xiàn)[86]引入視頻目標(biāo)分割中的像素Xcorr(Pixel-XCorr),如圖7(d)所示,將卷積核分解之后再進(jìn)行Xcorr,更好地保留和利用了細(xì)節(jié)空間信息。孿生圖注意力(siamese graph attention tracking, SiamGAT)跟蹤器認(rèn)為基于Xcorr的匹配算法中使用固定大小的目標(biāo)模板限制了跟蹤性能,提出了一種自適應(yīng)感知目標(biāo)尺寸變化的模板生成方法,并且設(shè)計(jì)了基于圖注意力的相似度度量模塊,更多衡量的是目標(biāo)的部分之間相似度而不是整體,有效應(yīng)對(duì)目標(biāo)尺度變化和外觀變化。而文獻(xiàn)[89]分析出DW-Xcorr的局限性主要是因?yàn)槠涫且粋€(gè)不能學(xué)習(xí)的模塊、無(wú)法從大規(guī)模的離線學(xué)習(xí)中受益,設(shè)計(jì)了一個(gè)可學(xué)習(xí)的非對(duì)稱卷積模塊(asymmetric convolution module, ACM)取代Xcorr,通過離線訓(xùn)練能更好地捕獲語(yǔ)義相關(guān)信息、并且還整合了初始幀的邊界框等非視覺信息用于輔助跟蹤。
為了應(yīng)對(duì)目標(biāo)跟蹤中常見的出視野情況,DaSiamRPN使用從局部到全局的搜索策略;文獻(xiàn)[90]同樣擴(kuò)大搜索區(qū)域來(lái)應(yīng)對(duì)部分遮擋和快速運(yùn)動(dòng)情況,同時(shí)融合卡爾曼濾波對(duì)目標(biāo)位置進(jìn)行預(yù)測(cè),有效解決完全遮擋的情況。單次判別式分割跟蹤器(discriminative single shot segmentation tracker, D3S)設(shè)計(jì)的幾何不變模型(geometrically invariant model, GIM)和幾何約束的歐幾里德模型(geometrically constrained Euclidean model, GEM),分別完成對(duì)跟蹤目標(biāo)的細(xì)粒度分割和魯棒性定位,二者生成的響應(yīng)圖互補(bǔ)地提高算法的精度定位和辨別力。文獻(xiàn)[79]將非局部注意力和通道注意力級(jí)聯(lián)處理得到的響應(yīng)圖與原本的響應(yīng)圖進(jìn)行加權(quán)融合,提高算法的魯棒性。
相比于多尺度搜索策略,文獻(xiàn)[92]提出的一種基于角點(diǎn)檢測(cè)的跟蹤算法,能靈活適應(yīng)目標(biāo)的尺度變化。因?yàn)閭鹘y(tǒng)Xcorr不能計(jì)算像素級(jí)相似度,所以使用Pixel-Xcorr來(lái)計(jì)算RoI與模板特征上像素的相似度,編碼得到角點(diǎn)的空間信息,再使用空間、通道注意力模塊突出響應(yīng)圖上的角點(diǎn)特征信息,提高角點(diǎn)檢測(cè)的準(zhǔn)確度。孿生角點(diǎn)網(wǎng)絡(luò)(siamese corner networks, SiamCorners)跟蹤算法則是使用改進(jìn)的角點(diǎn)池化層來(lái)預(yù)測(cè)目標(biāo)的角點(diǎn),多層特征融合策略幫助池化層生成跟蹤目標(biāo)的多個(gè)候選角點(diǎn),再使用懲罰機(jī)制從中選取最優(yōu)跟蹤框。Liu等人發(fā)現(xiàn)小目標(biāo)在跟蹤過程中容易出現(xiàn)極度模糊和丟失的情況,因此將小目標(biāo)信息整合到四元數(shù)離散余弦變換圖像特征中,通過不斷迭代生成目標(biāo)的聚合特征,能有效提高響應(yīng)圖上小目標(biāo)的顯著性響應(yīng),提高對(duì)小目標(biāo)的辨別能力。同時(shí)聚合特征還增強(qiáng)了小目標(biāo)的重檢測(cè)過程,當(dāng)發(fā)生跟蹤漂移時(shí),觸發(fā)以跟蹤目標(biāo)為優(yōu)先的顯著性檢測(cè),重新定位跟蹤目標(biāo)。
跟蹤結(jié)果生成部分根據(jù)相似度響應(yīng)圖來(lái)預(yù)測(cè)搜索圖像上的目標(biāo)位置,因此響應(yīng)圖信息是否得到充分利用直接決定著跟蹤結(jié)果的精確與否。許多研究都著力于優(yōu)化跟蹤結(jié)果的生成部分,實(shí)現(xiàn)更好地利用響應(yīng)圖信息、生成更精確的目標(biāo)跟蹤結(jié)果。
目標(biāo)尺度在跟蹤過程中會(huì)發(fā)生變化,為實(shí)現(xiàn)準(zhǔn)確的跟蹤結(jié)果,尺度估計(jì)是跟蹤算法必不可少的環(huán)節(jié)。圖8(a)為SiamFC的多尺度搜索策略,同時(shí)計(jì)算多個(gè)尺度的搜索圖像的響應(yīng)值,響應(yīng)值最大的尺度為目標(biāo)的最佳尺度,這種搜索策略的尺度估計(jì)能力有限且影響跟蹤速度的提升。最大重合度跟蹤(accurate tracking by overlap maximization, ATOM)算法的目標(biāo)估計(jì)部分通過計(jì)算候選邊界框與真實(shí)值的IoU值,將IoU值最大的邊界框作為預(yù)測(cè)結(jié)果。但是ATOM的IoU損失函數(shù)無(wú)法優(yōu)化邊界框完全包含在另一個(gè)邊界框的情況,DIoUTrack則使用距離交并比視覺跟蹤(distance-IoU for visual tracking, DIoUTrack)算法損失函數(shù)進(jìn)行改進(jìn),在保持IoU損失函數(shù)優(yōu)勢(shì)的同時(shí),最小化兩個(gè)邊界盒中心點(diǎn)之間的距離,從而使目標(biāo)估計(jì)更加準(zhǔn)確。文獻(xiàn)[96]使用ROI Align模塊將大小不同的模板特征組成特征金字塔,分別與搜索特征計(jì)算相似度,提高網(wǎng)絡(luò)的尺度適應(yīng)能力,同時(shí)引入全局上下文信息提高網(wǎng)絡(luò)對(duì)干擾物的辨別能力。
圖8 尺度估計(jì)方法
411 引入?yún)^(qū)域建議網(wǎng)絡(luò)
如圖9所示,SiamRPN拋棄了傳統(tǒng)的尺度搜索策略,引入?yún)^(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN),其包含了區(qū)分前背景的分類分支和估計(jì)邊界框的回歸分支,將跟蹤任務(wù)看作局部的目標(biāo)檢測(cè)任務(wù)。如圖8(b)所示,預(yù)先定義一組大小不同的錨框完成對(duì)目標(biāo)尺度變化的估計(jì),達(dá)到跟蹤速度和跟蹤精度平衡優(yōu)勢(shì)。速度快且精度高的RPN模塊在目標(biāo)跟蹤領(lǐng)域得到了大幅應(yīng)用:SiamRPN++通過加權(quán)融合多個(gè)RPN模塊,進(jìn)一步精確跟蹤結(jié)果;預(yù)先定義的錨框很難通過一次回歸就完成目標(biāo)的準(zhǔn)確定位,導(dǎo)致SiamRPN不能有效應(yīng)對(duì)相似物體干擾和大尺度變化,因此級(jí)聯(lián)孿生RPN (siamese cascaded RPN, C-RPN)算法級(jí)聯(lián)多個(gè)RPN模塊,逐步回歸實(shí)現(xiàn)目標(biāo)的精確定位;跟蹤過程中目標(biāo)尺度變化是隨機(jī)的,而RPN模塊中回歸分支依賴于預(yù)先定義的錨框,導(dǎo)致在快速運(yùn)動(dòng)和小目標(biāo)情況下定位不準(zhǔn)確,于是基于運(yùn)動(dòng)感知的孿生網(wǎng)絡(luò)(siamese motion-aware network, SiamMan)跟蹤算法引入一條定位分支和多尺度注意力模塊來(lái)幫助回歸分支精度定位,并且設(shè)計(jì)空洞空間金字塔模塊用于多個(gè)尺度的上下文信息。為了降低模型參數(shù),循環(huán)優(yōu)化跟蹤模型(recurrently optimizing tracking model, ROAM)使用可動(dòng)態(tài)變換大小的卷積濾波器代替錨框機(jī)制來(lái)完成對(duì)目標(biāo)尺度變化的估計(jì)。
圖9 RPN模塊示意圖
由于RPN模塊中回歸分支與分類分支是獨(dú)立訓(xùn)練的,回歸分支的最佳邊界框與分類分支的最高得分所對(duì)應(yīng)的結(jié)果容易出現(xiàn)不一致的情況。為了確保最佳分類分?jǐn)?shù)與最佳邊框的統(tǒng)一,孿生互補(bǔ)跟蹤(siamese reciprocal classification and regression tracking, SiamRCR)在回歸和分類分支中互相建立一種互惠連接,加強(qiáng)兩條分支之間的交流,提高跟蹤結(jié)果的準(zhǔn)確度?;貧w分支同時(shí)衍生一條定位分支,用于在推理階段輔助分類分支的分?jǐn)?shù)預(yù)測(cè)。石國(guó)強(qiáng)等人簡(jiǎn)化了正樣本IoU的計(jì)算,將IoU引入分類損失函數(shù),使得IoU越大的樣本對(duì)分類得分的影響也越大,還將IoU作為回歸分支的權(quán)重系數(shù),提高中心樣本的貢獻(xiàn)。IoU作為一個(gè)紐帶,加強(qiáng)回歸和分類分支的耦合,進(jìn)行聯(lián)合優(yōu)化。Cheng等人設(shè)計(jì)了檢測(cè)模塊和優(yōu)化模塊,優(yōu)化模塊將兩條分支結(jié)合起來(lái),共同預(yù)測(cè)目標(biāo)位置。然后,為了解決干擾物體的影響,以小樣本方式訓(xùn)練的檢測(cè)模塊獲得了較強(qiáng)的辨別力,能有效過濾背景中的干擾物體。
412 無(wú)錨框跟蹤器
RPN模塊中的回歸分支預(yù)先定義錨框的參數(shù)時(shí),需要數(shù)據(jù)集中的目標(biāo)尺度作為先驗(yàn)信息,而文獻(xiàn)[27]認(rèn)為通用目標(biāo)跟蹤的出發(fā)點(diǎn)應(yīng)該是跟蹤算法擺脫對(duì)目標(biāo)先驗(yàn)信息的依賴,如錨框中對(duì)尺度比例的預(yù)定義。并且錨框的超參數(shù)設(shè)置對(duì)算法的性能影響很大,影響魯棒性的提升。
Chen等人提出的無(wú)錨框跟蹤器——孿生邊界自適應(yīng)網(wǎng)絡(luò)(siamese box adaptive network, SiamBAN)跟蹤器,避免了設(shè)計(jì)錨框時(shí)所引入的超參數(shù)。如圖10所示,回歸分支不再回歸錨框的尺寸,而是每個(gè)正樣本像素與真實(shí)框的偏移量、、、。之前的分類分支是通過計(jì)算錨框與真實(shí)框的IoU來(lái)判斷正負(fù)樣本,因此為無(wú)錨框跟蹤算法提出一種新的正負(fù)樣本判別方法:將響應(yīng)圖的像素映射回搜索圖像中,落在橢圓之外為負(fù)樣本;落在橢圓內(nèi)則為正樣本。
圖10 前背景分類和邊界框回歸
無(wú)錨框跟蹤算法在逐像素生成預(yù)測(cè)框的過程中遠(yuǎn)離目標(biāo)中心的像素點(diǎn)會(huì)生成低質(zhì)量的預(yù)測(cè)框,影響跟蹤性能。因此無(wú)錨框?qū)\生分類回歸(siamese classification and regression, Siam CAR)算法在分類分支基礎(chǔ)上設(shè)計(jì)一條中心分支來(lái)移除生成的分類極端值,同時(shí)為防止相鄰幀的跟蹤結(jié)果發(fā)生抖動(dòng),由多個(gè)像素點(diǎn)的預(yù)測(cè)框加權(quán)平均得到每一幀跟蹤結(jié)果。無(wú)錨框的SiamFC(SiamFC++)同樣為了消除分類產(chǎn)生的極端值對(duì)跟蹤結(jié)果的影響,設(shè)計(jì)分類質(zhì)量評(píng)估分支,賦予目標(biāo)中心位置的像素更高的權(quán)重。相比有錨框跟蹤算法的模糊分類分?jǐn)?shù),SiamFC++計(jì)算的是模板與搜索圖像之間的置信度,確保分類的直接有效,降低了假正樣本的出現(xiàn)幾率。Zhang等人發(fā)現(xiàn)基于錨框的跟蹤算法的回歸分支是在IoU大于閾值的錨框中訓(xùn)練得到的,而忽視了IoU小于閾值的錨框。跟蹤過程中復(fù)雜場(chǎng)景下會(huì)產(chǎn)生錯(cuò)誤累計(jì),預(yù)測(cè)框的IoU一旦小于閾值,回歸分支會(huì)因缺乏對(duì)低IoU跟蹤結(jié)果的修正能力而跟蹤失敗。于是設(shè)計(jì)了一種應(yīng)對(duì)復(fù)雜場(chǎng)景能力強(qiáng)、魯棒性好的無(wú)錨框跟蹤算法基于目標(biāo)感知的無(wú)錨框網(wǎng)絡(luò)(object-aware anchor-free network, Ocean)跟蹤算法,對(duì)目標(biāo)逐像素預(yù)測(cè)回歸,修正不精確的邊框估計(jì);分類分支中加入特征對(duì)齊模塊,利用目標(biāo)的整體特征來(lái)提高分類分?jǐn)?shù)的可靠度,同時(shí)也提高了對(duì)目標(biāo)的感知能力和尺度適應(yīng)能力。
發(fā)現(xiàn)半監(jiān)督的視頻目標(biāo)分割類似于目標(biāo)跟蹤都需要提供初始幀信息和準(zhǔn)確定位運(yùn)動(dòng)目標(biāo)等,Wang等人創(chuàng)造性地提出了一種能同時(shí)實(shí)現(xiàn)視頻目標(biāo)分割和目標(biāo)跟蹤的統(tǒng)一框架孿生分割跟蹤(siamese mask tracking, SiamMask)算法,在SiamRPN的RPN模塊中設(shè)計(jì)一條目標(biāo)分割分支用于預(yù)測(cè)目標(biāo)的掩膜,并設(shè)計(jì)二值分割損失函數(shù)用于加強(qiáng)網(wǎng)絡(luò)的像素級(jí)分割能力。在預(yù)測(cè)的像素級(jí)掩膜作為輔助信息的幫助下,算法對(duì)目標(biāo)的辨別能力得到增強(qiáng),同時(shí)生成的旋轉(zhuǎn)跟蹤框?qū)δ繕?biāo)的定位更加準(zhǔn)確,避免過多背景信息的干擾。
由圖11可見,旋轉(zhuǎn)跟蹤框?qū)δ繕?biāo)的估計(jì)更加靈活準(zhǔn)確,也不會(huì)包含過多的干擾信息。VOT中基準(zhǔn)數(shù)據(jù)集也開始采用旋轉(zhuǎn)框標(biāo)注目標(biāo)信息,如VOT2016和VOT2018。近年來(lái),目標(biāo)跟蹤領(lǐng)域一個(gè)明顯的趨勢(shì)是開始預(yù)測(cè)目標(biāo)的二值掩膜,VOT2020的基準(zhǔn)數(shù)據(jù)集中掩膜也取代傳統(tǒng)的邊界框來(lái)編碼目標(biāo)信息,并且提出一種評(píng)估跟蹤器的新方法。
圖11 不同跟蹤框的跟蹤結(jié)果
許多研究開始縮小目標(biāo)跟蹤和視頻目標(biāo)分割的差距,SiamR-CNN將跟蹤模型預(yù)測(cè)的邊界框作為空間約束,使用現(xiàn)成的分割模型預(yù)測(cè)其中物體的掩膜,提高了算法的跟蹤指標(biāo)但跟蹤速度受到影響。文獻(xiàn)[112]認(rèn)為直接融合多層主干特征而忽略其中的背景干擾特征雖然有效但容易引入漏檢目標(biāo),降低分割準(zhǔn)確率。因此,在無(wú)錨框跟蹤器Ocean的基礎(chǔ)上引入輕量化分支用于掩膜分割,設(shè)計(jì)注意力檢索網(wǎng)絡(luò)以過濾主干特征,和多分辨率多級(jí)分割網(wǎng)絡(luò)利用預(yù)測(cè)的掩膜進(jìn)一步減弱背景干擾的影響。
D3S利用兩個(gè)幾何模塊GEM和GIM分別完成對(duì)目標(biāo)的定位和分割,二者同時(shí)進(jìn)行且相互彌補(bǔ),共同提高算法準(zhǔn)確率和魯棒性。僅在YouTube-VOS分割數(shù)據(jù)集上訓(xùn)練,就能在多個(gè)數(shù)據(jù)集上取得第一。孿生優(yōu)化算法Alpha-Rene在SiamRPN++中設(shè)計(jì)一個(gè)掩膜預(yù)測(cè)分支,提供目標(biāo)形狀信息,輔助其他分支提取更多的細(xì)節(jié)空間信息,同時(shí)也將預(yù)測(cè)的目標(biāo)掩膜作為一種像素監(jiān)督,提高算法的辨別力。
圖12 目標(biāo)分割分支
孿生跟蹤算法是一種基于模板匹配的方法,大多數(shù)算法在推理階段的模板從初始幀提取之后就固定不變。在處理遮擋和出視野時(shí),搜索范圍允許的情況下能實(shí)現(xiàn)目標(biāo)的重新跟蹤。一旦目標(biāo)在跟蹤過程中發(fā)生較大的外觀變化,與初始模板差異很大時(shí)跟蹤算法容易跟蹤失敗。因此,擁有魯棒的目標(biāo)匹配模板,對(duì)于目標(biāo)跟蹤任務(wù)、特別是長(zhǎng)時(shí)跟蹤任務(wù)來(lái)說至關(guān)重要。
4.3.1 模板更新策略
構(gòu)建目標(biāo)的模板庫(kù),并從中更新匹配模板是一種常見的更新策略。文獻(xiàn)[113]認(rèn)為模板更新應(yīng)有合適的頻率,過快或者過慢都會(huì)造成跟蹤漂移,首先將每個(gè)候選目標(biāo)稀疏表示在聯(lián)合字典中,然后使用粒子濾波框架下的動(dòng)態(tài)模板更新聯(lián)合字典中的正樣本,負(fù)樣本的更新則是新樣本替換舊樣本。文獻(xiàn)[100]在孿生跟蹤算法的基礎(chǔ)上,利用高斯混合模型對(duì)以往的跟蹤結(jié)果進(jìn)行建模并建立目標(biāo)特征模板庫(kù),使用感知哈希算法計(jì)算當(dāng)前幀跟蹤結(jié)果與模板庫(kù)的相似度,判斷當(dāng)前幀是否為目標(biāo)的新狀態(tài)。如果是新狀態(tài)則提取特征并保存在模板集中,若為已存在類別狀態(tài)則直接替換模板集中的特征,使網(wǎng)絡(luò)能夠自適應(yīng)目標(biāo)的外觀變化。記憶網(wǎng)絡(luò)目標(biāo)跟蹤(memory networks for object tracking, MemTrack)算法使用動(dòng)態(tài)記憶網(wǎng)絡(luò)檢索跟蹤過程中生成的殘差模板,并將殘差模板與初始模板進(jìn)行結(jié)合,得到一個(gè)合成模板。其中長(zhǎng)短期記憶(long short term memory,LSTM)模塊作為檢索操作的控制器,其學(xué)習(xí)質(zhì)量決定著跟蹤器的整體表現(xiàn)。時(shí)空記憶網(wǎng)絡(luò)跟蹤(tracking with space-time memory networks, STMTrack)算法同樣使用時(shí)空記憶網(wǎng)絡(luò)檢索目標(biāo)之前的跟蹤結(jié)果,引導(dǎo)跟蹤器關(guān)注當(dāng)前幀中有用信息最豐富的區(qū)域。與MemTrack不同的是,當(dāng)前幀控制著檢索操作,因此它可以自適應(yīng)地獲得所需要的一切信息。
大多數(shù)在線更新算法由于梯度下降法和有限內(nèi)存下的過度更新策略的存在,導(dǎo)致算法收斂效果不好和容易對(duì)模板庫(kù)產(chǎn)生過擬合。因此文獻(xiàn)[116]提出了一種基于遞歸最小二乘估計(jì)(recursive least-squares estimation, RLSE)算法的在線更新機(jī)制,利用正態(tài)方程分別用LSE算法將各全連接層連接起來(lái),以遞歸的方式保存內(nèi)存,保證算法不會(huì)過度拋棄舊樣本,降低過擬合的幾率。并在此基礎(chǔ)上使用改進(jìn)的小批量隨機(jī)梯度下降算法來(lái)指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí),提高了在所有歷史訓(xùn)練樣本上計(jì)算代價(jià)函數(shù)時(shí)的收斂性能。文獻(xiàn)[117]發(fā)現(xiàn)目標(biāo)跟蹤只有初始幀信息作為先驗(yàn)知識(shí),與小樣本學(xué)習(xí)任務(wù)類似,于是在SiamRPN++和ROI Align得到的候選目標(biāo)集中訓(xùn)練小樣本學(xué)習(xí)器,學(xué)習(xí)器用于區(qū)分正負(fù)樣本并更新模板庫(kù),同時(shí)模板庫(kù)也會(huì)幫助小樣本學(xué)習(xí)器進(jìn)行更好地學(xué)習(xí)。模板更新方法如圖13所示。
圖13 模板更新方法
另外還可以直接對(duì)匹配模板進(jìn)行更新,避免了模板庫(kù)的建立,以提高在線更新的速度。CFNet在每一幀中都計(jì)算一個(gè)模板,并將其與之前幀的模板進(jìn)行平均,作為新的模板,但是更新頻率過快容易造成錯(cuò)誤累計(jì)。動(dòng)態(tài)孿生網(wǎng)絡(luò)(dynamic siamese network, DSiam)跟蹤算法使用歸一化線性回歸計(jì)算一種能夠動(dòng)態(tài)學(xué)習(xí)目標(biāo)外觀變化的模型,利用前一幀跟蹤模板糾正匹配模板,充分考慮了目標(biāo)跟蹤過程中的平滑時(shí)間變化。Li等人提出了一種梯度引導(dǎo)的孿生網(wǎng)絡(luò)(gradient-guided siamese network, GradNet)跟蹤算法,創(chuàng)造性地從梯度信息中提取出有助于辨別的信息,在前向和后向傳播中被用于目標(biāo)模板的更新。并且模板也是在多個(gè)不同目標(biāo)類別的搜索區(qū)域中生成的,提高了模板的魯棒性,避免對(duì)某個(gè)類別的過擬合。文獻(xiàn)[120]則是在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,智能體根據(jù)預(yù)測(cè)結(jié)果的分?jǐn)?shù)來(lái)決定是否更新匹配模板,匹配方法的選擇也由智能體的決策記錄同時(shí)確定,并且同時(shí)完成了目標(biāo)的跟蹤與分割任務(wù)。
432 在線更新網(wǎng)絡(luò)模型
相比于利用跟蹤過程中的樣本信息來(lái)更新匹配模板,直接更新模型參數(shù)能更好地提高模型的辨別能力。Ocean為捕獲目標(biāo)的外觀變化,使用快速共軛梯度算法在跟蹤階段訓(xùn)練一條在線更新分支。ROAM為了有效地使模型適應(yīng)目標(biāo)的外觀變化,離線訓(xùn)練了循環(huán)神經(jīng)優(yōu)化器以元學(xué)習(xí)的方式更新模型,可以在幾個(gè)梯度步驟就收斂模型。Bhat等人為實(shí)現(xiàn)端對(duì)端的訓(xùn)練,將模型在線學(xué)習(xí)整合到跟蹤框架中。設(shè)計(jì)的辨別預(yù)測(cè)式跟蹤(discriminative model prediction for tracking, DiMP)算法首先對(duì)初始幀使用數(shù)據(jù)增強(qiáng)的方式得到一組訓(xùn)練集,并且直接利用來(lái)訓(xùn)練模型預(yù)測(cè)器。當(dāng)預(yù)測(cè)器能生成可靠的結(jié)果時(shí),將其加入到,當(dāng)樣本數(shù)超過50時(shí)拋棄舊樣本。這些方法只注重結(jié)合之前跟蹤結(jié)果中的目標(biāo)特征,忽略了梯度信息的重要性。
大部分處理長(zhǎng)時(shí)跟蹤器都是離線訓(xùn)練的孿生結(jié)構(gòu),不能有效應(yīng)對(duì)長(zhǎng)期跟蹤過程中的不確定和嘈雜的影響因素,文獻(xiàn)[122]設(shè)計(jì)的元學(xué)習(xí)更新器有效地將幾何線索、判別線索和外觀線索按順序整合在一起,然后利用設(shè)計(jì)的級(jí)聯(lián)LSTM對(duì)序列信息進(jìn)行挖掘,學(xué)習(xí)得到的二進(jìn)制輸出用于決定跟蹤器是否更新。為了同時(shí)滿足魯棒性和準(zhǔn)確性,Zhou等人設(shè)計(jì)了一個(gè)雙模態(tài)的跟蹤框架,在線回歸模塊用于對(duì)目標(biāo)的魯棒定位、離線分類模塊進(jìn)行目標(biāo)的精確定位,利用分?jǐn)?shù)投票策略融合二者的輸出,得到的跟蹤結(jié)果魯棒性好且準(zhǔn)確性也高。文獻(xiàn)[124]將SiamFC主干網(wǎng)絡(luò)的前三層作為通用特征提取部分,后兩層作為個(gè)性特征提取部分并根據(jù)樣本在線更新網(wǎng)絡(luò)參數(shù),不同的更新方式確保了網(wǎng)絡(luò)的跟蹤速度和準(zhǔn)確度。
Nam等人考慮到直接使用在ImageNet數(shù)據(jù)集上訓(xùn)練得到的CNN為目標(biāo)跟蹤提取特征,限制了跟蹤算法的性能。設(shè)計(jì)的MDNet,使用多個(gè)特定分支在不同視頻序列中訓(xùn)練,從中學(xué)習(xí)到適合目標(biāo)跟蹤任務(wù)的通用目標(biāo)特征表示。但是其一部分訓(xùn)練集來(lái)源于測(cè)試集,存在過擬合的可能。文獻(xiàn)[125]發(fā)現(xiàn)當(dāng)目標(biāo)存在尺度變化和旋轉(zhuǎn)情況時(shí),Siam FC的跟蹤結(jié)果會(huì)變得不準(zhǔn)確。于是將對(duì)數(shù)極坐標(biāo)系下的相關(guān)濾波算法作為尺度和旋轉(zhuǎn)估計(jì)模塊,繼續(xù)對(duì)跟蹤位置進(jìn)行精確細(xì)化,提高了Siam FC算法的定位精度。高琳等人為了提高CNN分類結(jié)果的可靠性,將孿生跟蹤算法嵌入一致性預(yù)測(cè)框架。根據(jù)算法隨機(jī)性水平來(lái)計(jì)算樣本的置信度,選取高置信度的樣本組成候選目標(biāo)集,再利用優(yōu)化時(shí)空能量函數(shù)篩選候選目標(biāo)集,從而得到跟蹤結(jié)果。并根據(jù)上一段序列的結(jié)果更新CNN參數(shù),提升了算法的穩(wěn)健性。動(dòng)態(tài)多目標(biāo)式跟蹤(tracking via dynamic convolutions and multi object tracking philosophy, DMTrack)算法首先使用動(dòng)態(tài)卷積組成的輕量檢測(cè)器對(duì)搜索區(qū)域的所有潛在目標(biāo)進(jìn)行檢測(cè),潛在目標(biāo)特征與模板特征之間再進(jìn)行重識(shí)別,完成跟蹤目標(biāo)的搜索。借助多目標(biāo)跟蹤原理,通過掌握所有潛在相似物體的狀態(tài)信息來(lái)區(qū)分出跟蹤目標(biāo)與干擾物,實(shí)現(xiàn)干擾物的快速且準(zhǔn)確的感知。
本文利用常用的測(cè)試數(shù)據(jù)集OTB2015對(duì)20種主流跟蹤算法進(jìn)行測(cè)試與分析,其中孿生跟蹤算法有:SiamAttn、SiamDW、SiamCAR、SiamR-CNN、MDNet、DaSiamRPN、SiamRPN++、GradNet、SiamRPN、CFNet、SiamFC;相關(guān)濾波算法有:DeepSRDCF、MEEM、SRDCF、Staple、SAMF、DSST、fDSST、Struck。評(píng)價(jià)指標(biāo)為第1.4節(jié)中的成功率和準(zhǔn)確率,使用到的算法結(jié)果由數(shù)據(jù)集和作者官方提供。圖14為這20種算法在OTB2015上的成功率和準(zhǔn)確率曲線,其中SiamDWrpn與SiamDWfc分別為SiamDW應(yīng)用在SiamRPN和SiamFC上的跟蹤算法。
圖14 算法在OTB2015上的測(cè)試結(jié)果
從圖14中可以看出:
(1) 相關(guān)濾波算法的排名整體靠后。排名最靠前的相關(guān)濾波算法為DeepSRDCF,也是基于深度特征的相關(guān)濾波算法。說明CNN提取的深度特征具有更強(qiáng)的表達(dá)能力和魯棒性;
(2) 成功率、準(zhǔn)確率排名前五的算法均為孿生跟蹤算法,為使用了注意力模塊和模板特征更新的SiamAttn、加深網(wǎng)絡(luò)深度的SiamDWrpn、無(wú)錨框跟蹤器SiamCAR、多域?qū)W習(xí)的MDNet以及有重檢測(cè)功能和目標(biāo)分割輔助跟蹤的SiamR-CNN。其中的MDNet一部分訓(xùn)練集來(lái)源于測(cè)試集,存在過擬合的可能。
表2為20種算法的具體性能對(duì)比,其中CNN代表卷積神經(jīng)網(wǎng)絡(luò)提取的深度特征、HOG代表方向梯度直方圖特征、CH代表顏色直方圖特征、CN為顏色特征、Gray為灰度特征、Haar為Haar角點(diǎn)特征。表中右上角標(biāo)①的數(shù)據(jù)為結(jié)果中的第1名,標(biāo)②的數(shù)據(jù)為第2名,標(biāo)③的數(shù)據(jù)為第3名。可以看出:
表2 算法在OTB2015上的具體性能對(duì)比
(1) 基于傳統(tǒng)特征的相關(guān)濾波算法速度較快,但成功率和準(zhǔn)確率不高。因此,大多數(shù)相關(guān)濾波算法為了提高跟蹤性能,會(huì)結(jié)合多種傳統(tǒng)特征來(lái)表示跟蹤目標(biāo),但是其跟蹤速度會(huì)受到影響。
(2) 整體性能排名前10的跟蹤算法中9個(gè)為孿生跟蹤算法,唯一的相關(guān)濾波算法DeepSRDCF也是基于深度特征的。并且成功率和準(zhǔn)確率排名前3的算法都是孿生跟蹤算法,分別為SiamAttn、SiamR-CNN、SiamCAR和SiamAttn、SiamCAR、SiamDWrpn。跟蹤速度排名前3中的第1名和第3名為孿生跟蹤算法SiamRPN和SiamDWfc。引入RPN模塊的SiamRPN證明了孿生跟蹤算法可以同時(shí)具有速度和精度的雙重優(yōu)勢(shì),因此孿生跟蹤算法逐漸代替相關(guān)濾波算法,成為了目標(biāo)跟蹤領(lǐng)域的主流算法。
(1) 跟蹤速度不夠快,訓(xùn)練周期較長(zhǎng):孿生跟蹤算法的特征提取部分的網(wǎng)絡(luò)層數(shù)一般較多,為提高模型的泛化能力,需要在ImageNet圖像分類數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練;并且訓(xùn)練過程中的數(shù)據(jù)集數(shù)量級(jí)較大,所需訓(xùn)練時(shí)間較長(zhǎng)。
(2) 缺少專門為目標(biāo)跟蹤設(shè)計(jì)的主干網(wǎng)絡(luò):目前孿生跟蹤算法的主干網(wǎng)絡(luò)都是使用現(xiàn)成或者微調(diào)的分類網(wǎng)絡(luò)(Alexnet、VGG、ResNet等),而這些網(wǎng)絡(luò)不一定就適合目標(biāo)跟蹤任務(wù)且計(jì)算昂貴。
(3) 相較于短時(shí)跟蹤任務(wù)中的優(yōu)異表現(xiàn),孿生跟蹤算法在長(zhǎng)時(shí)跟蹤任務(wù)中的性能一般。主要原因有兩點(diǎn):① 在長(zhǎng)時(shí)跟蹤過程中,目標(biāo)的外觀和環(huán)境都會(huì)發(fā)生變化,而孿生跟蹤算法作為基于模板的匹配方法,匹配模板跟不上目標(biāo)的變化,則會(huì)出現(xiàn)跟蹤漂移現(xiàn)象;② 在目標(biāo)出視野或者完全被遮擋之后重新出現(xiàn)時(shí),目前孿生跟蹤算法的解決辦法:目標(biāo)丟失時(shí)擴(kuò)大搜索區(qū)域和利用目標(biāo)檢測(cè)網(wǎng)絡(luò)作為重檢測(cè)模塊,但這些耗時(shí)的目標(biāo)搜索策略都會(huì)嚴(yán)重阻礙跟蹤速度,影響其實(shí)際應(yīng)用。
未來(lái)研究方向可以從以下方面進(jìn)行研究:
(1) 優(yōu)化主干網(wǎng)絡(luò)。利用剪枝、量化等模型壓縮技術(shù)對(duì)跟蹤模型進(jìn)行輕量化處理,減少不必要的網(wǎng)絡(luò)計(jì)算有助于提高算法的跟蹤速度。也可利用神經(jīng)架構(gòu)搜索的方式,根據(jù)任務(wù)特點(diǎn),自動(dòng)搜索出專門為目標(biāo)跟蹤設(shè)計(jì)的主干網(wǎng)絡(luò)。
(2) 無(wú)監(jiān)督訓(xùn)練或者小樣本訓(xùn)練的跟蹤網(wǎng)絡(luò)。跟蹤任務(wù)中的目標(biāo)信息是不可能提前知道的,為提高對(duì)未知類別目標(biāo)的跟蹤性能,現(xiàn)有的跟蹤算法使用了大量的訓(xùn)練數(shù)據(jù)集來(lái)提高算法的泛化能力。為了擺脫對(duì)訓(xùn)練集的嚴(yán)重依賴,訓(xùn)練跟蹤網(wǎng)絡(luò)的方法可考慮無(wú)監(jiān)督訓(xùn)練或者小樣本訓(xùn)練,利用僅有的初始幀目標(biāo)信息作為正樣本來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
(3) 重檢測(cè)機(jī)制是良好的長(zhǎng)時(shí)跟蹤算法中必不可少的模塊。可考慮在跟蹤算法中加入輕量化檢測(cè)網(wǎng)絡(luò)、傳統(tǒng)的光流法或者卡爾曼濾波進(jìn)行目標(biāo)的運(yùn)動(dòng)檢測(cè)和軌跡預(yù)測(cè)。也可以單獨(dú)訓(xùn)練一個(gè)小網(wǎng)絡(luò)完成對(duì)目標(biāo)的軌跡預(yù)測(cè),并與現(xiàn)有的跟蹤網(wǎng)絡(luò)加權(quán)融合,互補(bǔ)地提升長(zhǎng)時(shí)跟蹤能力。
(4) 以自注意力為主的Transformer模型在自然語(yǔ)言處理領(lǐng)域中取得優(yōu)異表現(xiàn),受其強(qiáng)大表示能力的啟發(fā),Transformer已開始應(yīng)用在目標(biāo)分類、檢測(cè)和分割等計(jì)算機(jī)視覺領(lǐng)域,并展示出競(jìng)爭(zhēng)性甚至更好的性能。因其關(guān)注全局信息、能建模長(zhǎng)距離依賴關(guān)系等特點(diǎn),可與關(guān)注局部信息、全局信息捕捉能力弱的CNN結(jié)合,共同互補(bǔ)地改善孿生跟蹤框架,為目標(biāo)跟蹤領(lǐng)域開拓更寬的思路。
視頻目標(biāo)跟蹤是其他視頻理解任務(wù)(如姿態(tài)估計(jì)、行為識(shí)別)的基礎(chǔ),魯棒性好且成功率高的目標(biāo)跟蹤算法能更好地幫助計(jì)算機(jī)理解視頻內(nèi)容。孿生跟蹤算法作為目標(biāo)跟蹤領(lǐng)域的主流算法,本文首先介紹了孿生跟蹤算法的常見挑戰(zhàn)、主要組成、常見數(shù)據(jù)集、常用的評(píng)價(jià)指標(biāo)和跟蹤流程;然后根據(jù)在孿生跟蹤框架的不同部分的改進(jìn),介紹了近年來(lái)的主要工作,可分為對(duì)特征提取部分的改進(jìn)、對(duì)相似度計(jì)算部分的優(yōu)化以及對(duì)跟蹤結(jié)果生成部分的優(yōu)化;接下來(lái),選取有代表性的20個(gè)主流跟蹤算法進(jìn)行測(cè)試、分析;最后對(duì)目前孿生跟蹤算法存在的問題進(jìn)行總結(jié)并提出未來(lái)的研究方向。