李震鑫, 張選德
(陜西科技大學(xué) 電子信息與人工智能學(xué)院, 陜西 西安 710021)
視覺目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域的基本問題之一,在視頻監(jiān)控[1,2]、智能交通[3]、醫(yī)療診斷[4]、戰(zhàn)場監(jiān)控[5]等諸多實(shí)際場景中都有著廣泛應(yīng)用.該問題可闡述為:在視頻幀或圖像序列第一幀中,給定任意感興趣目標(biāo)的中心位置以及目標(biāo)邊界框的大小,在后續(xù)視頻幀或圖像序列中對目標(biāo)的位置和大小進(jìn)行估計(jì),為其它視覺任務(wù)提供可用信息.
單目標(biāo)視覺跟蹤的算法可以根據(jù)外觀模型的統(tǒng)計(jì)策略進(jìn)行分類,包括生成式模型和判別式模型.簡單而言,生成式模型是通過學(xué)習(xí)先驗(yàn)分布來推導(dǎo)后驗(yàn)分布而進(jìn)行分類;判別式模型是直接學(xué)習(xí)后驗(yàn)分布來進(jìn)行分類.具體而言,生成式模型首先學(xué)習(xí)一個(gè)表示目標(biāo)的模型,然后在圖像的搜索區(qū)域優(yōu)化樣本誤差,即找到與模型最匹配的區(qū)域.判別式模型則是對目標(biāo)與周圍背景分別建模,將跟蹤問題轉(zhuǎn)換為回歸或二元分類問題,目標(biāo)作為正樣本,背景作為負(fù)樣本,尋找一個(gè)判別函數(shù)將目標(biāo)從背景中提取出來,以達(dá)到跟蹤的目的.
傳統(tǒng)的目標(biāo)跟蹤算法由于不能充分地利用數(shù)據(jù)來建模漸漸被基于深度學(xué)習(xí)的目標(biāo)跟蹤算法所取代.雖然基于深度學(xué)習(xí)的單目標(biāo)跟蹤算法取得了一些效果,但它們無法兼顧速度的實(shí)時(shí)性和精度的魯棒性.孿生網(wǎng)絡(luò)[6]的出現(xiàn)打破了這一瓶頸,現(xiàn)如今的基于孿生網(wǎng)絡(luò)的單目標(biāo)視覺跟蹤算法在保證實(shí)時(shí)的條件下,跟蹤性能已經(jīng)超過了之前的跟蹤器.
視覺目標(biāo)跟蹤是用來解決視頻中特定目標(biāo)的定位問題,每個(gè)跟蹤視頻都可以看作相互獨(dú)立的不同任務(wù),視頻數(shù)據(jù)的第一幀為各個(gè)視頻跟蹤任務(wù)的唯一訓(xùn)練樣本,故視覺目標(biāo)跟蹤可看作小樣本的學(xué)習(xí)任務(wù),因此可用元學(xué)習(xí)的相關(guān)方法來解決.近些年來,基于元學(xué)習(xí)的目標(biāo)跟蹤算法備受關(guān)注.
在基于孿生網(wǎng)絡(luò)的單目標(biāo)跟蹤算法中,相關(guān)性計(jì)算是解決其分類問題的關(guān)鍵步驟,但現(xiàn)有算法均采用固定的距離來度量相關(guān)性,比如歐式距離或者余弦距離等[7].這些度量指標(biāo)嚴(yán)重依賴于學(xué)習(xí)到的特征空間,對于目標(biāo)跟蹤算法中目標(biāo)和背景的分類有一定的局限性.在元學(xué)習(xí)領(lǐng)域,關(guān)系網(wǎng)絡(luò)[8]不僅可以學(xué)習(xí)深度特征的特征映射,而且可以學(xué)習(xí)特征間的非線性度量,稱其為相似性函數(shù).相比之下,關(guān)系網(wǎng)絡(luò)學(xué)習(xí)得到的非線性相似性度量可以更好地進(jìn)行分類.
基于以上考慮,本文提出一種基于關(guān)系網(wǎng)絡(luò)的孿生單目標(biāo)視覺跟蹤網(wǎng)絡(luò).關(guān)系網(wǎng)絡(luò)的引入可以改善跟蹤器對于目標(biāo)和背景的分類性能,從而提高單目標(biāo)跟蹤的準(zhǔn)確率.在OTB2015[9](Object tracking benchmark)、VOT2018[10](Visual Object Tracking)兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,提出的算法與目前幾個(gè)代表性算法相比,具有一定的競爭力.
基于深度學(xué)習(xí)的目標(biāo)跟蹤算法在精度上取得了較好的成績,但由于深度網(wǎng)絡(luò)參數(shù)過多會導(dǎo)致計(jì)算效率下降,實(shí)時(shí)性會受到不同程度的影響.為了便于實(shí)時(shí)跟蹤,Bertinetto等[11]采用全卷積的孿生網(wǎng)絡(luò)進(jìn)行目標(biāo)和搜索區(qū)域的模板匹配.此后,基于孿生網(wǎng)絡(luò)的跟蹤算法因其高效和魯棒性能,國內(nèi)外研究者們不斷地在此基礎(chǔ)上創(chuàng)新與拓展,取得了較大地進(jìn)步,Valmadre等[12]提出一種非對稱的Siamese網(wǎng)絡(luò)的跟蹤算法,引入相關(guān)濾波方法在網(wǎng)絡(luò)層的末端創(chuàng)建一個(gè)可微的卷積神經(jīng)網(wǎng)絡(luò)層.He等[13]提出了一種雙 Siamese網(wǎng)絡(luò)的實(shí)時(shí)目標(biāo)跟蹤方法.Wang等[14]在孿生網(wǎng)絡(luò)跟蹤框架中引入不同的注意機(jī)制來適應(yīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了魯棒的視覺跟蹤.Li等[15]提出了基于Siamese和區(qū)域候選網(wǎng)絡(luò)(Siamese region proposal network,Siamese-RPN)的目標(biāo)跟蹤方法.Fan等[16]在孿生網(wǎng)絡(luò)框架中引入級聯(lián)的區(qū)域候選網(wǎng)絡(luò).
與此同時(shí),Bhat等[17]為了提高目標(biāo)狀態(tài)估計(jì)精度,提出了一種新的跟蹤算法ATOM(Accurate Tracking of Overlap Maximization),該體系結(jié)構(gòu)由兩部分構(gòu)成,一部分是目標(biāo)估計(jì)子網(wǎng)絡(luò),另一部分是分類子網(wǎng)絡(luò),其中目標(biāo)估計(jì)網(wǎng)絡(luò)通過預(yù)測目標(biāo)對象和估計(jì)的邊界框之間的重疊比來訓(xùn)練,該方法提高了單目標(biāo)跟蹤算法中估計(jì)目標(biāo)邊界框的精度.繼而,Danelljan等[18]為了實(shí)現(xiàn)目標(biāo)跟蹤網(wǎng)絡(luò)的端到端訓(xùn)練并且可以在線更新,受到判別學(xué)習(xí)損失的啟發(fā),提出了一個(gè)可以同時(shí)利用目標(biāo)的外觀信息和背景信息來預(yù)測目標(biāo)的模型DiMP(Learning Discriminative Model Prediction for Tracking),大幅地提升了目標(biāo)跟蹤的精度.
從一個(gè)或者幾個(gè)實(shí)例中學(xué)習(xí)知識的能力是人類智能的基本特點(diǎn),例如,一個(gè)第一次見過狗的人,在之后也能從不同動物中快速辨認(rèn)出狗,而機(jī)器卻需要大量數(shù)據(jù)進(jìn)行訓(xùn)練才能區(qū)分出不同類別的動物.相比較而言,元學(xué)習(xí)的出現(xiàn)正是讓機(jī)器僅僅給定少量樣本的情況下,具備這種有效學(xué)習(xí)的能力.
目前,元學(xué)習(xí)領(lǐng)域和視覺目標(biāo)跟蹤雖然沒有產(chǎn)生十分廣泛的交集和聯(lián)系,但是已經(jīng)存在相關(guān)研究者嘗試將元學(xué)習(xí)的相關(guān)方法引入到視覺目標(biāo)跟蹤領(lǐng)域來,并且取得了一定的效果.
Park E等[19]首次將元學(xué)習(xí)引入視覺跟蹤領(lǐng)域,通過MAML[20](Model-agnostic Meta-Learning)元學(xué)習(xí)的方式,將復(fù)雜的多域簡化為單域,訓(xùn)練一個(gè)更為魯棒的特征初始化提取器,改進(jìn)了MDNet[21](Learning Multi-Doamin Network for Visual Tracking)的跟蹤結(jié)果.Wang等[22]將跟蹤看作一個(gè)特殊的檢測問題,并利用元學(xué)習(xí)在跟蹤序列上訓(xùn)練檢測器FCOS(Fully Convolutional One-Stage Object Detection)和RetinaNet,使得檢測器從單幀中僅需幾步梯度下降便可對目標(biāo)進(jìn)行較好的定位,從而極大地提升了跟蹤的實(shí)時(shí)性.
對于單目標(biāo)跟蹤,相似度匹配是提高目標(biāo)和背景分類精度的關(guān)鍵.元學(xué)習(xí)中,基于度量學(xué)習(xí)的方法旨在最大程度地提取任務(wù)樣本內(nèi)含的特征,以便使用特征比對的方式來進(jìn)行樣本分類,這種方法為相似度匹配提供了很好的解決方案,如何提取最能代表樣本特點(diǎn)的特征是該方法的研究重點(diǎn).
孿生網(wǎng)絡(luò)作為早期工作的代表之一,是通過相同的網(wǎng)絡(luò)結(jié)構(gòu)分別對兩張圖片提取特征,使得提取的特征具有很好的判別性.匹配網(wǎng)絡(luò)[23]對于支撐集和查詢集的圖片經(jīng)過特征提取后,在特征空間利用余弦距離來度量特征相似性,對測試樣本通過相似度匹配程度進(jìn)行分類.原型網(wǎng)絡(luò)[24]主要利用聚類思想,將標(biāo)注樣本的特征投影到一個(gè)度量空間,在歐式距離基礎(chǔ)上獲取向量均值,基于測試樣本到每個(gè)原型的距離進(jìn)行分類.
由于圖像包含十分豐富的信息,在特征空間內(nèi)利用經(jīng)典的歐式距離或余弦距離難以準(zhǔn)確度量樣本間的相關(guān)性.為了緩解這一問題,關(guān)系網(wǎng)絡(luò)提出了單獨(dú)的非線性比較模塊,該模塊學(xué)習(xí)得到一種非線性相似性度量,替換了匹配網(wǎng)絡(luò)和原型網(wǎng)絡(luò)中的余弦距離和歐式距離度量.學(xué)習(xí)得到的度量是依賴于樣本的,相比“固定”的經(jīng)典距離能更好地描述樣本間的相似性.為了充分利用關(guān)系網(wǎng)絡(luò)的這種優(yōu)勢,本文以孿生網(wǎng)絡(luò)為出發(fā)點(diǎn),基于關(guān)系網(wǎng)絡(luò)構(gòu)建單目標(biāo)跟蹤模型.該模型利用關(guān)系網(wǎng)絡(luò)學(xué)習(xí)深度嵌入函數(shù)和深度非線性距離度量函數(shù),且對二者聯(lián)合訓(xùn)練.
模型主要包括以下四個(gè)方面:(1)基于關(guān)系網(wǎng)絡(luò)的特征提取模塊,主要負(fù)責(zé)樣本的特征提取和非線性度量函數(shù)的學(xué)習(xí);(2)分類分支和回歸分支,分類分支負(fù)責(zé)從包含目標(biāo)的背景中區(qū)分出目標(biāo),回歸分支負(fù)責(zé)目標(biāo)邊界框的準(zhǔn)確回歸;(3)離線訓(xùn)練過程,通過離線訓(xùn)練確定網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)和優(yōu)化;(4)在線跟蹤過程,利用在線跟蹤對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行微調(diào),提高泛化能力.具體在下列各節(jié)展開.
這里關(guān)系網(wǎng)絡(luò)將作為整個(gè)目標(biāo)跟蹤網(wǎng)絡(luò)的特征提取模塊,該部分主要由兩種模塊組成:嵌入模塊fθ和關(guān)系模塊gφ,所提出的整個(gè)基于關(guān)系網(wǎng)絡(luò)的孿生單目標(biāo)跟蹤網(wǎng)絡(luò)框架如圖1所示.
在圖1中,關(guān)系網(wǎng)絡(luò)使用4個(gè)嵌入模塊,每個(gè)模塊與一個(gè)關(guān)系模塊匹配,具體而言,每個(gè)模塊都是由多個(gè)SENet(Squeeze and Excitation Network)塊構(gòu)成,SENet具體細(xì)節(jié)如圖2所示.
圖1 基于關(guān)系網(wǎng)絡(luò)的孿生單目標(biāo)跟蹤網(wǎng)絡(luò)框架圖
圖2 SENet模塊
如圖1所示,將來自支撐集和查詢集中的一對圖像xi和xj作為輸入,首先使用一個(gè)7*7卷積,經(jīng)過一個(gè)3*3的最大池化層,再傳入4個(gè)嵌入模塊,然后,多級嵌入模塊將隨機(jī)特征輸出到相應(yīng)的多級關(guān)系模塊,并學(xué)習(xí)多級關(guān)系模塊的關(guān)系分?jǐn)?shù)和權(quán)重;最后,整個(gè)關(guān)系網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)跟蹤中分類問題的加權(quán)非線性度量.
(1)
式(1)中:ε是從高斯分布中隨機(jī)采樣得到的,這樣使得每個(gè)模塊每次重構(gòu)時(shí)得到的特征圖都帶有隨機(jī)性,這就能夠起到數(shù)據(jù)增強(qiáng)的效果;⊙表示元素的乘積.
(2)
(3)
對于所提出的基于關(guān)系網(wǎng)絡(luò)的孿生目標(biāo)跟蹤算法,經(jīng)過上述的特征提取模塊之后,分別進(jìn)入目標(biāo)跟蹤算法的分類分支和回歸分支,對于分類分支,本文遵循DiMP算法中所提出的目標(biāo)模型預(yù)測模塊來預(yù)測最終用來分類的模型,為了解決原來只利用目標(biāo)所在區(qū)域的模板分支進(jìn)行訓(xùn)練帶來的問題,使用支持向量機(jī)中的hinge-like損失函數(shù),利用背景信息使得目標(biāo)和背景分類結(jié)果更好.
對于回歸分支,本文利用ATOM中介紹的重疊最大化策略來實(shí)現(xiàn)精確的目標(biāo)邊界框回歸.首先給定一個(gè)目標(biāo)外觀特征的參考值,訓(xùn)練邊界框估計(jì)分支用來預(yù)測目標(biāo)和在測試圖像上產(chǎn)生的一組候選框之間的交并重疊比.通過從目標(biāo)的外觀特征計(jì)算調(diào)制向量,將目標(biāo)信息集成到IoU(Inter-section over Union)預(yù)測中.計(jì)算出的矢量用于調(diào)制來自測試圖像的特征,然后用于IoU預(yù)測.IoU預(yù)測網(wǎng)絡(luò)輸入的是是可微的邊界框坐標(biāo),允許在跟蹤過程中通過最大化預(yù)測IoU來細(xì)化候選對象.
訓(xùn)練集的圖片來自LaSOT(A High-quality Benchmark for Large-scale Single Object Tracking)數(shù)據(jù)集[26],對于特征提取網(wǎng)絡(luò)的訓(xùn)練有兩個(gè)步驟,首先訓(xùn)練嵌入網(wǎng)絡(luò),然后確定嵌入網(wǎng)絡(luò)的參數(shù)之后再訓(xùn)練關(guān)系網(wǎng)絡(luò),即運(yùn)行由嵌入模塊和關(guān)系模塊構(gòu)成的整個(gè)特征提取網(wǎng)絡(luò),但只更新關(guān)系模塊的參數(shù).使用交叉熵?fù)p失CE訓(xùn)練嵌入網(wǎng)絡(luò)θ作為目標(biāo)跟蹤網(wǎng)絡(luò)中目標(biāo)和背景的分類器,為了利用層級式的嵌入模塊,添加了一個(gè)特征方差正則化項(xiàng),該參數(shù)可由公式(4)計(jì)算:
(4)
式(4)中:σi是每個(gè)嵌入模塊輸出特征圖方差的均值,m是輸入視頻幀的總數(shù),λ是微調(diào)正則化項(xiàng)影響的超參數(shù)(本文設(shè)為0.01).
這確保了網(wǎng)絡(luò)可以學(xué)習(xí)良好的特征分布,同時(shí)也可以視為一種為關(guān)系模塊的特征層次結(jié)構(gòu)可學(xué)習(xí)的數(shù)據(jù)增廣策略,該策略可以提高網(wǎng)絡(luò)的泛化性能,經(jīng)過嵌入網(wǎng)絡(luò)的訓(xùn)練之后,嵌入模塊的參數(shù)是固定的.
在訓(xùn)練該嵌入網(wǎng)絡(luò)的同時(shí),我們還要對目標(biāo)跟蹤網(wǎng)絡(luò)的分類分支和回歸分支進(jìn)行訓(xùn)練,對于分類分支的訓(xùn)練,經(jīng)過嵌入網(wǎng)絡(luò)提取到對應(yīng)的特征,得到的特征輸入到預(yù)測網(wǎng)絡(luò)中得到濾波器f,然后將f在查詢集上測試,然后計(jì)算一個(gè)損失,其損失可由公式(5)計(jì)算:
(5)
式(5)中:閾值T表示目標(biāo)和背景所在區(qū)域,s表示預(yù)測的置信度分?jǐn)?shù),z表示標(biāo)簽的置信度值,該損失只懲罰背景樣本,該式即為hinge-like損失函數(shù).
分類分支的損失函數(shù)可由公式(6)計(jì)算:
(6)
回歸分支的損失函數(shù)Lbb是通過計(jì)算在查詢集上得到的預(yù)測交并重疊比值和真實(shí)值之間的均方誤差.
接下來,在相同的數(shù)據(jù)集上訓(xùn)練關(guān)系網(wǎng)絡(luò),同樣使用交叉熵?fù)p失函數(shù)CE進(jìn)行訓(xùn)練,為了對四個(gè)關(guān)系模塊V進(jìn)行加權(quán),還設(shè)計(jì)一種可學(xué)習(xí)的注意力權(quán)重用于計(jì)算每個(gè)模塊的關(guān)系相似性分?jǐn)?shù)整個(gè)關(guān)系網(wǎng)絡(luò)的訓(xùn)練損失可由公式(7)計(jì)算:
(7)
在線跟蹤時(shí),將各個(gè)視頻序列中帶有目標(biāo)中心位置和邊界框的第一幀作為支撐集,取相同視頻序列中的任意后續(xù)視頻幀產(chǎn)生多個(gè)候選區(qū)域的集合作為查詢集.首先經(jīng)過關(guān)系網(wǎng)絡(luò),利用嵌入模塊提取不同層級的特征,經(jīng)過相應(yīng)的關(guān)系模塊計(jì)算關(guān)系分?jǐn)?shù),關(guān)系分?jǐn)?shù)可由公式(8)計(jì)算,求得最佳候選區(qū)域.
(8)
在跟蹤過程中,本文通過每20幀執(zhí)行一次優(yōu)化器遞歸,或者每當(dāng)檢測到干擾峰值時(shí)執(zhí)行一次遞歸來優(yōu)化目標(biāo)模型f.邊界框估計(jì)子網(wǎng)絡(luò)的使用與文獻(xiàn)[18]中設(shè)置相同.
本文提出的算法實(shí)現(xiàn)平臺為Ubuntu18.04系統(tǒng)下Pycharm2019中實(shí)現(xiàn),配置為Intel Xeon Gold 6226R和NVIDIA GeForce GTX 2080Ti,所提出的整個(gè)網(wǎng)絡(luò)架構(gòu)是在Pytorch1.4.0框架上進(jìn)行訓(xùn)練的,選擇了近年來數(shù)個(gè)先進(jìn)算法來進(jìn)行對比實(shí)驗(yàn),從而驗(yàn)證本文提出算法的有效性.由于大多數(shù)算法在性能綜合評估時(shí)采用OTB和VOT數(shù)據(jù)集,故而選擇OTB2015和VOT2018兩個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行評估.
OTB2015 評測數(shù)據(jù)庫一共包含100個(gè)視頻序列,主要通過兩個(gè)評價(jià)指標(biāo)來對算法性能進(jìn)行評估:基于中心位置誤差的精確率(Precision rate)和基于重疊率的成功率(Success rate).OTB還提供了3個(gè)度量指標(biāo)OPE、TRE、SRE.本實(shí)驗(yàn)中采用的評估方法為一次通過評價(jià)OPE(One Pass Evaluation),即在所有測試視頻上目標(biāo)跟蹤算法都只運(yùn)行一次,計(jì)算目標(biāo)跟蹤算法在跟蹤目標(biāo)過程中的精確率與成功率,生成 OPE 指標(biāo).
將本文提出的算法與各自不同的目標(biāo)跟蹤算法進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示.
圖3 OTB-2015中算法整體對比結(jié)果圖
圖3為OTB-2015數(shù)據(jù)集下的測試結(jié)果,進(jìn)行對比的算法有:ATOM算法,DiMP算法的兩個(gè)版本DiMP18和DiMP50,及改進(jìn)版本PrDiMP18和PrDiMP50,高效卷積算法使用深度特征的版本ECO_deep和使用手工特征的版本ECO-hc,連續(xù)域卷積相關(guān)濾波算法CCOT,VOT2015的冠軍算法MDNet,VOT2018的冠軍算法DaSiamRPN,相關(guān)濾波算法UPDT.
圖3(a)為各種算法在OTB2015的精確率結(jié)果圖.由圖3(a)可知,圖中藍(lán)色實(shí)線即為本文所提出的算法結(jié)果,其OPE指標(biāo)中的精確度達(dá)到了0.907,雖然比CCOT和UPDT算法僅僅高出0.1個(gè)百分點(diǎn),但是相比于基線算法DiMP和ATOM分別超出了1.3個(gè)百分點(diǎn)和3.2個(gè)百分點(diǎn),由此說明,關(guān)系網(wǎng)絡(luò)的引入對目標(biāo)跟蹤的精度提高起到了一定的改善.
圖3(b)為各種算法在OTB2015的成功率結(jié)果圖.由圖3(b)可知,本文提出的算法相比于DiMP和ATOM兩個(gè)跟蹤器,分別獲得了0.692和2.358的增益.
VOT 是一個(gè)自 2013 年開始每年舉辦一次的目標(biāo)跟蹤比賽,一般作為 ICCV和 ECCV 會議的研討會.從 VOT2016 開始,主要采用三個(gè)衡量目標(biāo)跟蹤算法性能的指標(biāo):
(1)準(zhǔn)確性(Accuracy).在測試視頻中目標(biāo)跟蹤算法預(yù)測的跟蹤框,計(jì)算預(yù)測的目標(biāo)邊界框與手工標(biāo)記的目標(biāo)邊界框之間的重疊程度,通過邊界框的重疊程度來衡量算法的性能,重疊率越高則目標(biāo)跟蹤算法的精確性越好.
(2)魯棒性(Robustness).目標(biāo)跟蹤算法完整地跑完測試視頻,可能不會一次性就能成功,其中可能需要好幾次重新初始化才能成功,目標(biāo)跟蹤算法在運(yùn)行過程中丟失了跟蹤目標(biāo)導(dǎo)致跟蹤失敗那么需要重新進(jìn)行初始化操作來保證對目標(biāo)的持續(xù)跟蹤,一般設(shè)置初始化的位置在跟蹤失敗的圖像幀節(jié)點(diǎn)后面幾幀,統(tǒng)計(jì)跟蹤算法在完成一個(gè)完整的視頻序列的跟蹤任務(wù)需要重新初始化跟蹤算法的次數(shù),越少則表明算法的魯棒性越好.
(3)平均重疊期望(Expected Average Overlap,EAO).在短時(shí)圖像序列上,目標(biāo)的外觀會因?yàn)槌霈F(xiàn)遮擋等情況發(fā)生變化導(dǎo)致跟蹤過程中目標(biāo)丟失,算法的魯棒性是通過重置算法進(jìn)行初始化的次數(shù)進(jìn)行衡量,EAO 則是在目標(biāo)跟蹤失敗后不再重新初始化算法,然后計(jì)算目標(biāo)跟蹤算法預(yù)測生成的目標(biāo)邊界框與實(shí)際的邊界框的期望重疊程度來表征算法的跟蹤度,值越大則目標(biāo)跟蹤算法的精度越高.對比實(shí)驗(yàn)結(jié)果如表1所示.
表1 本文算法在VOT2018上的對比結(jié)果
表1列出了一些追蹤器的具體性能數(shù)據(jù).對比算法還加入了文獻(xiàn)[22]所提出的兩種基于元學(xué)習(xí)的目標(biāo)跟蹤器,由表1可知,本文所提出的算法在EAO和魯棒性方面排名第一,精確度方面略低于FCOS-MAML算法,相比于其他算法,本文所提算法有較好的性能表現(xiàn),值得注意的是,本文所提出的算法相比于DiMP50和ATOM具有更加優(yōu)秀的表現(xiàn),其期望平均重疊率達(dá)到了0.462,相比于DiMP50有明顯提升.
將單目標(biāo)跟蹤算法作為小樣本學(xué)習(xí)的問題,提出一種基于關(guān)系網(wǎng)絡(luò)的孿生單目標(biāo)跟蹤算法,該算法利用關(guān)系網(wǎng)絡(luò)中的兩種模塊提取不同層級的特征并且計(jì)算相應(yīng)的關(guān)系分?jǐn)?shù),能夠有效地提高目標(biāo)和背景的分類效果,繼而提升單目標(biāo)跟蹤的精度.通過在OTB2015和VOT2018兩個(gè)基準(zhǔn)數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法可以有效提升跟蹤的性能.另外,本文也為元學(xué)習(xí)和目標(biāo)跟蹤結(jié)合提供了一種新的思路,未來將考慮引入更有效的結(jié)合方式,不僅實(shí)現(xiàn)更好的跟蹤性能,而且要滿足跟蹤器的實(shí)時(shí)性.