張?zhí)炻?張 強(qiáng)
目標(biāo)跟蹤要求已知第一幀目標(biāo)的位置后,在視頻序列中確定該目標(biāo)的位置[1],這是計算機(jī)視覺研究領(lǐng)域中一個重要且基礎(chǔ)性的研究課題,具有廣泛的應(yīng)用前景.
近年來,基于RGB圖像的目標(biāo)跟蹤研究已經(jīng)取得許多突破,出現(xiàn)大量基于不同理論框架的跟蹤算法,這些算法在運(yùn)行速度和精度兩個方面都顯著提升目標(biāo)跟蹤的性能.但是,現(xiàn)階段的RGB目標(biāo)跟蹤技術(shù)仍然面臨許多挑戰(zhàn)性問題,尤其是在各種復(fù)雜的環(huán)境條件(如低光照、惡劣天氣、煙霧、部分遮擋等)下,RGB圖像的成像質(zhì)量受到顯著影響,使僅依靠RGB圖像的跟蹤算法性能下降,甚至失效,極大限制了目標(biāo)跟蹤技術(shù)的應(yīng)用范圍[2].
隨著傳感器技術(shù)的發(fā)展和制造成本的降低,各種類型的傳感器在軍事領(lǐng)域和民用領(lǐng)域都得到廣泛的應(yīng)用.近年來,隨著熱紅外傳感器的普及,RGB-熱紅外(RGB-Thermal, RGB-T)目標(biāo)跟蹤技術(shù)在計算機(jī)視覺領(lǐng)域受到越來越多的關(guān)注.RGB圖像可以捕獲豐富的顏色、細(xì)節(jié)和紋理等信息,但容易受到環(huán)境影響,這導(dǎo)致基于RGB圖像的目標(biāo)跟蹤算法受光照變化、雨雪霧等惡劣天氣的影響較大,難以滿足復(fù)雜場景下的應(yīng)用需求.中段波長(3 μm~8 μm波段)和長段波長(8 μm~15 μm波段)的熱紅外圖像(Thermal Infrared, TIR)利用目標(biāo)自身發(fā)射的熱輻射成像,對光照變化不敏感,具有較強(qiáng)的穿透霧霾的能力,在光照昏暗和惡劣天氣等條件下也具有較好的成像效果.本文的TIR圖像特指波長為3 μm~15 μm波段的TIR,已有的RGB-T目標(biāo)跟蹤算法及數(shù)據(jù)集也通常針對此波段范圍的熱紅外圖像展開研究.
雖然TIR圖像能夠體現(xiàn)物體的溫度信息,但是通常會缺失物體的邊緣、紋理和幾何等細(xì)節(jié)信息,因此當(dāng)形態(tài)相似且溫度相近的物體的運(yùn)動軌跡發(fā)生交叉,會產(chǎn)生熱交叉現(xiàn)象[3],導(dǎo)致跟蹤失敗.
在RGB目標(biāo)跟蹤的基礎(chǔ)上,RGB-T目標(biāo)跟蹤進(jìn)一步研究如何恰當(dāng)合理地使用RGB圖像和TIR圖像,克服一些環(huán)境條件對單模態(tài)目標(biāo)跟蹤的影響.例如,在光照昏暗、惡劣天氣等情況下,針對RGB圖像常無法有效區(qū)分目標(biāo)和背景,但只要目標(biāo)和周圍環(huán)境存在溫差,TIR圖像就能夠區(qū)分目標(biāo)和背景,從而進(jìn)行魯棒的目標(biāo)跟蹤.當(dāng)目標(biāo)和溫度相似的物體發(fā)生熱交叉無法區(qū)分目標(biāo)時,RGB圖像能夠提供目標(biāo)的細(xì)節(jié)信息,進(jìn)而實現(xiàn)魯棒的目標(biāo)跟蹤.RGB-T目標(biāo)跟蹤更關(guān)注于挖掘兩種模態(tài)圖像的互補(bǔ)信息,提高跟蹤的準(zhǔn)確性和魯棒性.
早期的RGB-T目標(biāo)跟蹤算法利用人工設(shè)計視覺特征,利用匹配或分類算法進(jìn)行快速有效的目標(biāo)跟蹤.由于在抑制噪聲、減少誤差方面表現(xiàn)較優(yōu),稀疏表示[4]被用于RGB-T目標(biāo)跟蹤研究中,并且取得較好的效果,但稀疏表示模型計算復(fù)雜度較高,難以實時處理.隨著相關(guān)濾波理論在單模態(tài)跟蹤中取得較魯棒的效果,Zhai等[5]在RGB-T目標(biāo)跟蹤中引入跨模態(tài)相關(guān)濾波器,有效進(jìn)行RGB和紅外模態(tài)的融合.為了改善RGB-T目標(biāo)跟蹤中的模型漂移現(xiàn)象,研究者在RGB-T目標(biāo)跟蹤中引入圖理論,自適應(yīng)地使用RGB圖像和TIR圖像信息學(xué)習(xí)模態(tài)權(quán)重[6-7].
然而,上述算法使用手工設(shè)計的特征,不能較好地適應(yīng)具有挑戰(zhàn)性的環(huán)境,如劇烈的外觀變化、復(fù)雜背景、目標(biāo)快速移動和遮擋等.受深度學(xué)習(xí)在各類計算機(jī)視覺任務(wù)的成功應(yīng)用的啟發(fā),一些RGB-T跟蹤器嘗試使用深度學(xué)習(xí)技術(shù)改善跟蹤性能.Li等[8]首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)應(yīng)用于RGB-T目標(biāo)跟蹤,提出基于雙流網(wǎng)絡(luò)(Two-Stream Network)和多模態(tài)特征自適應(yīng)融合的RGB-T目標(biāo)跟蹤算法.此后,基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤逐漸成為一個研究熱點,學(xué)者們陸續(xù)提出許多不同類型的深度學(xué)習(xí)算法[9-14].
目前,學(xué)者們已對部分2018年~2020年間基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法進(jìn)行整理和綜述.丁正彤等[15]從融合方式角度對基于手工特征的RGB-T目標(biāo)跟蹤算法和早期基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法進(jìn)行簡略介紹.Zhang等[16]從早期融合、中期融合和晚期融合三類融合方式的角度對RGB-T單目標(biāo)跟蹤算法進(jìn)行歸納總結(jié),但缺少對最新算法的系統(tǒng)介紹.
因此,本文對2018年~2022年間基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法進(jìn)行系統(tǒng)描述.與之前的綜述不同,考慮到大多數(shù)RGB-T目標(biāo)跟蹤算法是在已有的RGB目標(biāo)跟蹤框架上設(shè)計的,本文根據(jù)采用的基線(Baseline)方法不同,將已有方法劃分為基于多域網(wǎng)絡(luò)(Multi-domain Network, MDNet)的目標(biāo)跟蹤算法,基于孿生網(wǎng)絡(luò)(Siamese Network)的目標(biāo)跟蹤算法和基于判別式相關(guān)濾波器(Discriminative Correlation Filter, DCF)的目標(biāo)跟蹤算法.2022年之前,基于MDNet的目標(biāo)跟蹤算法是RGB-T目標(biāo)跟蹤領(lǐng)域的主流,本文進(jìn)一步將基于MDNet的RGB-T目標(biāo)跟蹤算法細(xì)化分類為基于多模態(tài)特征融合的目標(biāo)跟蹤算法、基于多模特征表示的目標(biāo)跟蹤算法、基于多模態(tài)特征表示-融合聯(lián)合的目標(biāo)跟蹤算法和基于屬性驅(qū)動的目標(biāo)跟蹤算法,并對各算法的網(wǎng)絡(luò)結(jié)構(gòu)特點進(jìn)行總結(jié).
對于RGB-T目標(biāo)跟蹤任務(wù),主要面臨的挑戰(zhàn)可分為兩類.一類是目標(biāo)跟蹤任務(wù)固有的挑戰(zhàn),包括形狀變化、遮擋、尺度變化、背景干擾以及目標(biāo)移動等情形,部分挑戰(zhàn)如圖1所示.上述情況往往導(dǎo)致視頻序列中跟蹤目標(biāo)依賴的特征,如外觀、形狀或背景等信息,隨時間變化存在較大的不一致性,使跟蹤器在后續(xù)視頻幀中無法準(zhǔn)確識別和跟蹤目標(biāo).
1)形狀及尺度變化.在跟蹤過程中,非剛性運(yùn)動目標(biāo)(如運(yùn)動場上的運(yùn)動員)本身會發(fā)生形變.此外,目標(biāo)在運(yùn)動過程中也可能發(fā)生較大的尺度變化.
目標(biāo)的形狀及尺度變化會使不同幀之間的目標(biāo)存在較大的外觀差異,從而導(dǎo)致在跟蹤過程中發(fā)生漂移[17].在這種場景下,RGB圖像和TIR圖像的作用通常取決于不同模態(tài)圖像的成像質(zhì)量.
2)遮擋.目標(biāo)在跟蹤過程中可能被場景中的物體部分遮擋或者完全遮擋.在發(fā)生部分遮擋時,圖像中目標(biāo)僅有部分區(qū)域可視,跟蹤器容易將遮擋物或者背景視為目標(biāo)的一部分,從而導(dǎo)致跟蹤失敗.在發(fā)生長時間的完全遮擋時,往往會造成跟蹤器無法有效更新,從而在目標(biāo)重新出現(xiàn)時跟蹤失敗[18].當(dāng)煙霧造成目標(biāo)不可見時,紅外圖像往往能夠提供有效的定位信息用于跟蹤.
3)背景雜亂.背景雜亂是指在跟蹤的目標(biāo)周圍存在對目標(biāo)跟蹤造成干擾的相似語義目標(biāo)或背景區(qū)域,需要防止跟蹤器無法準(zhǔn)確地區(qū)分目標(biāo)和外觀相似干擾物體.當(dāng)存在與目標(biāo)外觀相似的背景區(qū)域干擾,且目標(biāo)與背景區(qū)域溫度特性存在較大差異時,TIR圖像更有利于定位目標(biāo).當(dāng)存在與目標(biāo)語義相似的干擾物時,RGB圖像由于能夠提供豐富的顏色和紋理信息,更有利于區(qū)分語義信息相似的目標(biāo)和干擾物.
4)目標(biāo)移動.目標(biāo)跟蹤研究的對象主體往往是運(yùn)動的目標(biāo),目標(biāo)移動對目標(biāo)跟蹤造成的困難主要包括目標(biāo)快速運(yùn)動和目標(biāo)運(yùn)動模糊等情形. 由于目標(biāo)跟蹤通常采取在目標(biāo)前一幀所處位置周圍區(qū)域進(jìn)行搜索的策略,因此目標(biāo)快速運(yùn)動可能造成目標(biāo)前后幀位置差異較大,甚至超出搜索區(qū)域.另一方面,目標(biāo)移動本身造成的運(yùn)動模糊也會造成目標(biāo)前景虛化,從而影響目標(biāo)特征表達(dá).同樣地,相機(jī)移動甚至?xí)斐烧鶊D像的模糊,也是影響目標(biāo)跟蹤效果的挑戰(zhàn)之一.RGB圖像和TIR圖像都存在由于運(yùn)動模糊造成成像質(zhì)量降低的問題.除了上述目標(biāo)跟蹤任務(wù)固有的通用挑戰(zhàn)因素以外,由于RGB-T數(shù)據(jù)的引入,還存在另一類聯(lián)合利用RGB-T圖像時面臨的特有挑戰(zhàn),包括熱交叉、低光照、極端光照、空間不對齊等,部分挑戰(zhàn)如圖2所示.上述情況往往導(dǎo)致RGB-T數(shù)據(jù)內(nèi)某一模態(tài)數(shù)據(jù)或某一區(qū)域數(shù)據(jù)不可靠或存在大量干擾信息,使跟蹤器在跟蹤過程中受到干擾而無法準(zhǔn)確跟蹤.
(a)尺度變化 (b)遮擋
1)熱交叉.熱交叉是指目標(biāo)與背景的溫度或形態(tài)接近時,TIR圖像內(nèi)目標(biāo)與背景難以區(qū)分,當(dāng)目標(biāo)與背景軌跡交叉時,無法準(zhǔn)確定位目標(biāo)位置.
2)低光照和極端光照.低光照和極端光照現(xiàn)象都是RGB圖像受光照條件的影響,無法在夜晚或強(qiáng)光環(huán)境下捕獲有效的目標(biāo)信息,造成成像質(zhì)量差或目標(biāo)不可見.
(a)RGB圖像
3)空間不對齊.由于RGB-T數(shù)據(jù)通常由兩個不同的成像平臺采集,因此成像范圍及角度有所差異,已有RGB-T目標(biāo)跟蹤數(shù)據(jù)集預(yù)處理的第一步就是對多模態(tài)圖像進(jìn)行空間配準(zhǔn).但多模態(tài)圖像的空間不對齊問題在已有的公開數(shù)據(jù)集上廣泛存在,容易影響多模態(tài)特征之間的有效交互,并干擾目標(biāo)定位.
在實際的跟蹤場景中,固有挑戰(zhàn)和特有挑戰(zhàn)通常同時出現(xiàn).RGB圖像與TIR圖像對這些通用挑戰(zhàn)的影響常取決于跟蹤場景的特有挑戰(zhàn)屬性.
為了實現(xiàn)準(zhǔn)確魯棒的RGB-T目標(biāo)跟蹤,算法在設(shè)計過程中不僅需要考慮如何應(yīng)對目標(biāo)跟蹤任務(wù)中的通用挑戰(zhàn),還需要考慮如何充分利用RGB-T數(shù)據(jù)的互補(bǔ)信息以應(yīng)對RGB-T目標(biāo)跟蹤任務(wù)中的特有挑戰(zhàn).
相比傳統(tǒng)的RGB-T目標(biāo)跟蹤算法,基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法獲益于CNN的特征提取和表示能力,獲得比傳統(tǒng)算法更優(yōu)的跟蹤結(jié)果,吸引計算機(jī)視覺領(lǐng)域研究人員的廣泛關(guān)注.雖然目前基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法發(fā)展只有數(shù)年,但已出現(xiàn)大量具有影響力的工作,跟蹤性能也得到大幅提升.
本文對近年來基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法的發(fā)展歷程進(jìn)行總結(jié),通過時間線的方式繪制一些具有影響力的工作,如圖3所示.
基于深度學(xué)習(xí)的RGB-T跟蹤器通常是在RGB跟蹤器的基礎(chǔ)上設(shè)計的.因此,根據(jù)基線跟蹤方法的不同,基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法可以分為3類:基于多域網(wǎng)絡(luò)的目標(biāo)跟蹤算法,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法和基于判別式相關(guān)濾波的目標(biāo)跟蹤算法.從算法優(yōu)化角度將基于MDNet的RGB-T目標(biāo)跟蹤算法進(jìn)一步細(xì)化分類為:基于多模態(tài)特征融合的目標(biāo)跟蹤算法、基于多模態(tài)特征表示的目標(biāo)跟蹤算法、基于多模態(tài)特征表示-融合聯(lián)合的目標(biāo)跟蹤算法和基于屬性驅(qū)動的目標(biāo)跟蹤算法.
圖3 基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法發(fā)展歷程
MDNet[19]是一種早期的完全基于CNN的目標(biāo)跟蹤算法,也是VOT-2015挑戰(zhàn)賽的冠軍算法.MDNet通過分類的方式確定目標(biāo)位置,并使用在線更新的策略訓(xùn)練分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò),采取的在線學(xué)習(xí)策略對訓(xùn)練數(shù)據(jù)集規(guī)模要求較低.2022年前,RGB-T目標(biāo)跟蹤數(shù)據(jù)集規(guī)模較小,缺乏大規(guī)模訓(xùn)練數(shù)據(jù),因此,在2018年~2021年期間大部分RGB-T目標(biāo)跟蹤算法選擇MDNet作為其基線跟蹤算法.
MDNet具體結(jié)構(gòu)如圖4所示.MDNet包含共享層(Shared Layers)和特定域?qū)?Domain-Specific La- yers),這里的域?qū)?yīng)訓(xùn)練集上不同的視頻序列.在共享層,MDNet在每個域上迭代訓(xùn)練,獲取通用的目標(biāo)表示.在測試序列上,MDNet固定預(yù)訓(xùn)練共享層,并在線訓(xùn)練特定域?qū)?獲取特定視頻序列的目標(biāo)表示.根據(jù)目標(biāo)上一幀位置隨機(jī)選取區(qū)域候選框,利用二分類網(wǎng)絡(luò)判定候選區(qū)域是否為目標(biāo),實現(xiàn)目標(biāo)跟蹤任務(wù).此外,MDNet還使用第一幀圖像訓(xùn)練回歸網(wǎng)絡(luò),對候選框進(jìn)行回歸.
圖4 MDNet結(jié)構(gòu)圖[19]
MDNet雖然在當(dāng)時取得較優(yōu)的跟蹤效果,然而在GPU上僅有約1幀/秒的運(yùn)行速度,無法滿足實時運(yùn)行的需求.這是由于MDNet在跟蹤過程中首先生成區(qū)域候選框,再在每幀圖像上進(jìn)行裁剪,并將多個裁剪后的圖像送入特征提取網(wǎng)絡(luò),獲取候選區(qū)域特征.為此,受Faster RCNN[20]中使用ROI Align的啟發(fā),Jung等[21]提出RT-MDNet(Real-Time MDNet),在MDNet的基礎(chǔ)上,使用ROI Align操作,加速候選區(qū)域的特征提取過程,并加入多任務(wù)損失函數(shù),獲取更優(yōu)的目標(biāo)建模方式.RT-MDNet的運(yùn)行速度是MDNet的25倍,但兩者卻有相似的跟蹤精度.
MDNet和RT-MDNet都在RGB-T目標(biāo)跟蹤領(lǐng)域中得到廣泛使用,并在其基礎(chǔ)上從多模態(tài)特征融合、多模態(tài)特征表示等角度進(jìn)一步優(yōu)化RGB-T目標(biāo)跟蹤算法的性能.
2.1.1基于多模態(tài)特征融合的方法
一些基于MDNet的RGB-T目標(biāo)跟蹤算法[22-24]關(guān)注于通過多模態(tài)特征融合挖掘不同模態(tài)特征間的互補(bǔ)信息.這類方法由早期的級聯(lián)融合、相加融合等操作不斷向更有效、更復(fù)雜的融合方式發(fā)展.
Zhang等[9]將MDNet應(yīng)用于RGB-T目標(biāo)跟蹤任務(wù),引入多模態(tài)數(shù)據(jù),提高跟蹤的魯棒性,具體算法結(jié)構(gòu)如圖5所示.算法首先使用一個雙流網(wǎng)絡(luò),分別提取RGB圖像特征和TIR圖像特征,再將兩種模態(tài)特征以級聯(lián)的方式融合,輸入特定域?qū)雍突貧w網(wǎng)絡(luò),獲得最終的跟蹤結(jié)果,在當(dāng)時取得優(yōu)于傳統(tǒng)RGB-T目標(biāo)跟蹤算法的結(jié)果.
圖5 文獻(xiàn)[9]算法結(jié)構(gòu)圖
為了充分挖掘不同模態(tài)圖像和層級特征包含的互補(bǔ)信息,Zhu等[10]提出DAPNet(Dense Feature Aggregation and Pruning Network),具體結(jié)構(gòu)如圖6所示.首先,設(shè)計密集聚合模塊,獲得兩種模態(tài)圖像的魯棒特征表示.然后,設(shè)計特征剪枝模塊,選擇不同模態(tài)特征,減少冗余特征和干擾信息的影響.在特征剪枝模塊中,首先使用全局平均池化(Global Average Pooling, GAP)操作,獲得每個特征通道的激活狀態(tài),再使用WRS(Weighted Random Samp-ling)[25]進(jìn)行通道選擇.剪枝特征同樣被分別用于分類任務(wù)和回歸任務(wù).
圖6 DAPNet結(jié)構(gòu)圖[10]
Zhang等[23]基于注意力機(jī)制和競爭學(xué)習(xí)策略,提出MaCNet(RGB-T Object Tracking Algorithm Based on a Modal-Aware Attention Network and Competitive Learning).不同于上述算法采用雙流網(wǎng)絡(luò)提取多模態(tài)特征,MaCNet為三分支結(jié)構(gòu),具體如圖7所示.首先,使用雙流網(wǎng)絡(luò)分別提取RGB圖像特征和TIR圖像特征.然后,使用模態(tài)感知注意力層,生成不同層級內(nèi)不同模態(tài)特征的權(quán)重,在跨模態(tài)特征融合層內(nèi)采用加權(quán)融合的方式獲得融合特征,并將融合特征逐層加入RGB特征提取分支和TIR特征提取分支.最終,級聯(lián)雙流網(wǎng)絡(luò)的輸出特征用于分類和回歸任務(wù).
圖7 MaCNet結(jié)構(gòu)圖[23]
模態(tài)感知注意力層由一層平均池化層、兩層全連接層和一層ReLU層組成,輸入級聯(lián)的多模態(tài)圖像后預(yù)測得到所有特征層的模態(tài)權(quán)重.此外,分類網(wǎng)絡(luò)使用3個并行分類層,分別用于RGB特征分支、TIR特征分支和融合特征分支,并通過構(gòu)建競爭學(xué)習(xí)損失函數(shù),引導(dǎo)網(wǎng)絡(luò)向多模態(tài)合作互補(bǔ)的方向優(yōu)化.具體地,首先使用交叉熵?fù)p失函數(shù)分別計算3個分支的損失函數(shù)LFUS、LRGB和LTIR,再融合分支增加懲罰項的損失函數(shù):
LF=LFUS+max(LFUS-LRGB,LFUS-LTIR).
同時,RGB特征分支和TIR特征分支也使用融合分支作為競爭者,RGB分支損失函數(shù)或紅外分支損失函數(shù)為:
其中M∈(RGB,TIR).通過競爭學(xué)習(xí)的策略,網(wǎng)絡(luò)在訓(xùn)練中向充分利用多模態(tài)圖像互補(bǔ)信息的方向上優(yōu)化.Mei等[26]指出兩種模態(tài)圖像特征的充分交互能夠進(jìn)一步挖掘多模態(tài)數(shù)據(jù)內(nèi)的互補(bǔ)信息,進(jìn)而提升跟蹤的魯棒性,為此提出HDINet(Hierarchical Dual-Sensor Interaction Network),在不同層級內(nèi)使用互注意力機(jī)制,將一種模態(tài)內(nèi)的關(guān)聯(lián)特征補(bǔ)充到另一種模態(tài)特征內(nèi),實現(xiàn)不同模態(tài)特征的信息交互.
上述RGB-T目標(biāo)跟蹤算法采用離線訓(xùn)練的靜態(tài)卷積操作,不能以動態(tài)濾波的方式處理測試數(shù)據(jù),Wang等[27]指出這可能導(dǎo)致次優(yōu)的跟蹤結(jié)果.因此,文獻(xiàn)[27]提出MFGNet(Dynamic Modality-Aware Filter Generation Network),使用在線訓(xùn)練方式預(yù)測每個輸入數(shù)據(jù)的特定卷積核,促進(jìn)不同模態(tài)之間的交流.首先,使用一個單流網(wǎng)絡(luò),獲取每個模態(tài)圖像的單模態(tài)特征.再級聯(lián)RGB特征和TIR特征,送入兩個獨(dú)立的模態(tài)感知濾波器生成網(wǎng)絡(luò),預(yù)測模態(tài)特有的卷積核.然后,進(jìn)行動態(tài)卷積運(yùn)算,得到模態(tài)特有特征.最后,兩種模態(tài)特有特征以級聯(lián)的方式融合,獲取最終的多模態(tài)融合特征,用于分類和回歸任務(wù).
在RGB數(shù)據(jù)和TIR數(shù)據(jù)中都包含部分低質(zhì)量信息,而這些低質(zhì)量信息中不僅包含大量的噪聲信息,而且還包含一些具有鑒別力的特征.然而,低質(zhì)量信息的潛力并沒有在上述算法中得到較好的探索.為了解決該問題,在MANet(Multi-adapter Con-volutional Network)[28]的基礎(chǔ)上,Lu等[24]提出DMC- Net(Duality-Gated Mutual Condition Network),充分利用所有模態(tài)內(nèi)的鑒別信息,同時抑制干擾噪聲的影響.
DMCNet在融合過程中,以一個模態(tài)特征的目標(biāo)信息作為參考,指導(dǎo)另一個模態(tài)特征的學(xué)習(xí).DMCNet模塊包括RGB特征到TIR特征調(diào)制和TIR特征到RGB特征調(diào)制兩個方向,具體結(jié)構(gòu)如圖8所示.
圖8 DMCNet模塊結(jié)構(gòu)[24]
G=σ(Conv(f)),
其中,f表示輸入特征,σ(·)表示Sigmoid激活函數(shù),Conv(·)表示1×1卷積層.
RGB特征到TIR特征調(diào)制可以表示為
其中,⊙表示逐像素相乘操作,G1和G2表示兩個抑制多尺度條件噪聲和融合特征的門控模塊,
在TIR特征到RGB特征調(diào)制中生成.
此外,DMCNet還根據(jù)幀間的光流判斷是否出現(xiàn)攝像機(jī)位移,從而設(shè)置重采樣策略,提高跟蹤的魯棒性.多模態(tài)圖像內(nèi)的全局上下文關(guān)系在區(qū)分目標(biāo)與干擾物時具有重要作用.為了挖掘多模態(tài)數(shù)據(jù)內(nèi)的全局上下文關(guān)系,Mei等[29]提出AGMINet(Asy-mmetric Global-Local Mutual Integration Network),在多模態(tài)特征融合階段,設(shè)計全局-局部交互模塊,用于挖掘多模態(tài)數(shù)據(jù)之間的全局上下文關(guān)系,并聚合全局關(guān)聯(lián)信息與局部特征.
與AGMINet相似,Mei等[30]提出DRGCNet(Differential Reinforcement and Global Collabo-ration Network),旨在同時挖掘模態(tài)內(nèi)和模態(tài)間的全局上下文關(guān)系,并使用自適應(yīng)權(quán)重融合模態(tài)內(nèi)和模態(tài)間的上下文信息.
2.1.2基于多模態(tài)特征表示的方法
一些基于MDNet的RGB-T目標(biāo)跟蹤算法關(guān)注點在特征提取階段,重點提高不同模態(tài)圖像的特征表征能力,從而提升跟蹤性能[28,31-32].
Li等[28]指出,大部分工作主要通過引入模態(tài)權(quán)值以實現(xiàn)自適應(yīng)多模態(tài)特征融合.雖然這些方法可以有效利用模態(tài)特性,但忽略模態(tài)共享線索和實例感知信息的潛在價值.事實上,RGB模態(tài)和TIR模態(tài)包含大量共有信息,包括目標(biāo)邊界和部分細(xì)粒度紋理.同時,也存在一些模態(tài)特有信息,如TIR圖像的熱輻射信息和RGB圖像的顏色信息.為此,Li等[28]提出MANet,用于RGB-T目標(biāo)跟蹤.MANet包含3種適配器:通用適配器(Generality Adapter, GA)、模態(tài)適配器(Modality Adapter, MA)、實例適配器(Instance Adapter, IA).MANet結(jié)構(gòu)如圖9所示.
MANet使用VGG-M[33]構(gòu)建單流網(wǎng)絡(luò),GA分別提取RGB模態(tài)和TIR模態(tài)的共有信息,網(wǎng)絡(luò)共有3層,卷積核大小分別為7×7×96、5×5×256、3×3×512.GA在有效性和效率之間進(jìn)行良好協(xié)調(diào).GA考慮到RGB圖像和TIR圖像存在的模態(tài)差異,MA設(shè)計與GA并行的雙流網(wǎng)絡(luò),提取模態(tài)特有信息.MA使用相對GA卷積核更小的卷積層提取特征,卷積核大小分別為3×3×96、1×1×256、1×1×512.IA使用MDNet[19]的特定域?qū)咏D硞€對象的外觀屬性.
圖9 MANet結(jié)構(gòu)圖[28]
在MANet的基礎(chǔ)上,LU等[31]提出MANet++.首先,設(shè)計HD loss(Hierarchical Divergence Loss),提高GA和MA輸出特征的差異,從而更好地挖掘模態(tài)特有信息和模態(tài)共有信息.然后,為了實現(xiàn)不同模態(tài)特征的質(zhì)量感知融合,在IA中設(shè)計動態(tài)融合模塊,預(yù)測模態(tài)權(quán)重.最后,將基線跟蹤算法由MDNet[19]替換為運(yùn)行速度更快的RT-MDNet[21],大幅提升運(yùn)行速度.
Xu等[32]指出多層級深度特征在目標(biāo)定位和分類中起著重要作用.如何有效地聚合來自不同層級的RGB特征和TIR特征是實現(xiàn)魯棒目標(biāo)跟蹤的關(guān)鍵.然而,大多數(shù)RGB-T目標(biāo)跟蹤算法僅使用特征提取網(wǎng)絡(luò)最后一層的語義信息,或使用簡單的操作(如求和、級聯(lián))從每個模態(tài)聚合多層級深度特征,從而限制多層級特征的有效性.
為此,Xu等[32]提出CBPNet(Quality-Aware Cross-Layer Bilinear Pooling Network),用于RGB-T目標(biāo)跟蹤.首先,使用通道注意力機(jī)制[34],在實現(xiàn)分層特征融合之前,對所有卷積層特征實現(xiàn)特征通道的自適應(yīng)標(biāo)定.然后,通過交叉積對任意兩層特征進(jìn)行雙線性池化操作.兩層特征相互作用后的雙線性特征表示為:
bAB=FA×FB,
其中,FA∈RH×W×N和FB∈RH×W×N表示2個經(jīng)過通道注意力機(jī)制以及分辨率調(diào)整后的層級特征.
雙線性特征矩陣bAB沿列池化的結(jié)果為:
最終的融合特征由對ξAB執(zhí)行平方根操作和L2歸一化操作得到.這是一種二階計算,可有效聚合目標(biāo)的深層語義信息和淺層紋理信息.
Li等[35]同樣研究如何更好地挖掘兩種模態(tài)內(nèi)的多層級特征,提出MBAFNet(Multibranch Adap-tive Fusion Network).該網(wǎng)絡(luò)在使用一個單流特征提取網(wǎng)絡(luò)挖掘多模態(tài)共有信息的基礎(chǔ)上,設(shè)計兩個并行的多層級適配器,分別挖掘兩種模態(tài)圖像的多層級特征.具體地,在每個多層級適配器內(nèi),使用不同卷積核大小的卷積層獲取多尺度特征,并使用注意力機(jī)制聚合多尺度特征.
為了挖掘多尺度的模態(tài)共有信息和模態(tài)特有信息并抑制目標(biāo)預(yù)測框漂移,Xia等[36]提出CIRNet(Cross-Modality Interaction and Re-identification Network).該網(wǎng)絡(luò)由多尺度模態(tài)共有融合網(wǎng)絡(luò)和模態(tài)互補(bǔ)網(wǎng)絡(luò)構(gòu)成,分別挖掘多尺度模態(tài)共有信息和模態(tài)特有信息;同時設(shè)計一個目標(biāo)感知分支評估目標(biāo)框質(zhì)量,從而抑制目標(biāo)框漂移現(xiàn)象.
2.1.3基于多模態(tài)特征表示-融合聯(lián)合的方法
多個基于MDNet的RGB-T跟蹤算法同時考慮多模態(tài)特征融合和特征表示問題[12-13,37],在兩個優(yōu)化方向上同時進(jìn)行改進(jìn)以改善跟蹤性能.
Gao等[13]提出DAFNet(Deep Adaptive Fusion Network),遞歸自適應(yīng)聚合不同層級和不同模態(tài)特征,使用雙流網(wǎng)絡(luò)提取RGB特征和TIR特征,并設(shè)計AFM(Adaptive Fusion Module),用于每一層級的特征融合,預(yù)測RGB特征、TIR特征和上一層級特征權(quán)重,實現(xiàn)加權(quán)相加融合.DAFNet結(jié)構(gòu)如圖10所示,能高效、自適應(yīng)地聚合來自所有層的RGB特征和TIR特征.
圖10 DAFNet結(jié)構(gòu)圖[13]
在DAPNet[10]的基礎(chǔ)上,Zhu等[37]設(shè)計TFNet(Trident Fusion Network),保留DAPNet的密集聚合網(wǎng)絡(luò),并加入三分支結(jié)構(gòu),聚合融合特征、RGB特征及TIR特征.并且每個分支內(nèi)都加入特征剪枝模塊,剪除冗余特征,避免網(wǎng)絡(luò)過擬合問題.
Zhu等[12]提出FANet(Quality-Aware Feature Aggregation Network),指出挖掘多層級特征的重要性.FANet在每個模態(tài)中聚集多層級特征,處理由低光照、變形、背景雜波和遮擋引發(fā)的外觀顯著變化的挑戰(zhàn).Zhu等[12]還設(shè)計自適應(yīng)聚合子網(wǎng)絡(luò),根據(jù)不同模態(tài)的可靠性聚合特征,能夠緩解低質(zhì)量源引入的噪聲影響.自適應(yīng)聚合子網(wǎng)絡(luò)使用全連接層和Softmax激活層生成不同模態(tài)和不同層級特征的權(quán)重,實現(xiàn)特征融合.
2.1.4基于屬性驅(qū)動的方法
上述基于MDNet的RGB-T目標(biāo)跟蹤算法未考慮目標(biāo)在不同場景屬性下的外觀變化,可能會限制跟蹤性能.在RGB跟蹤領(lǐng)域,Qi等[38]設(shè)計基于屬性表示的CNN模型,用于目標(biāo)跟蹤.受此啟發(fā),一些基于MDNet的RGB-T目標(biāo)跟蹤算法嘗試?yán)脭?shù)據(jù)集上不同場景的屬性標(biāo)注,使跟蹤器學(xué)習(xí)不同屬性下的魯棒特征表示.
Li等[39]提出CAT(Challenge-Aware RGBT Tra-cker),是第一個考慮場景屬性的RGB-T目標(biāo)跟蹤算法,具體結(jié)構(gòu)如圖11所示.CAT將已有的RGB-T跟蹤數(shù)據(jù)集上的場景屬性劃分為如下5類:光照變化(Illumination Variation, IV)、快速移動(Fast Motion, FM)、尺度變化(Scale Variation, SV)、遮擋(Occlusion, OCC)和熱交叉(Thermal Crossover, TC).可以發(fā)現(xiàn)一些屬性是模態(tài)無關(guān)的,包括快速移動、尺度變化和遮擋,而一些屬性是模態(tài)相關(guān)的,包括熱交叉和光照變化.對于熱交叉屬性的場景,RGB數(shù)據(jù)較可靠,而對于光照變化屬性的場景,TIR數(shù)據(jù)較有效.
圖11 CAT結(jié)構(gòu)圖[39]
基于上述觀察,對于模態(tài)共有挑戰(zhàn),CAT使用相同的卷積分支提取目標(biāo)的外觀表征.對于模態(tài)特有挑戰(zhàn),設(shè)計一個引導(dǎo)模塊,將一個模態(tài)具有辨別力的特征補(bǔ)充到另一個模塊內(nèi),同時避免噪聲信息的傳播.具體地,在熱交叉屬性中,RGB特征使用門控引導(dǎo)變換層增強(qiáng)TIR模態(tài)的識別能力,在光照變化屬性中,TIR特征使用門控引導(dǎo)變換層增強(qiáng)RGB模態(tài)的識別能力.并使用自適應(yīng)聚合層(Adaptive Aggregation Layer, AAL)聚合多種屬性特征.
Zhang等[40]指出以往的工作主要是利用有限的屬性建立屬性特定模型,無法覆蓋所有的跟蹤場景.CAT僅使用一個通用的分支處理屬性不可知的跟蹤場景,算法實現(xiàn)較冗余,遠(yuǎn)不能達(dá)到實時的運(yùn)行速度,為此Zhang等[40]提出ADRNet(Attribute-Dri-ven Representation Network),具體結(jié)構(gòu)如圖12所示.
首先,根據(jù)RGB-T跟蹤場景中的外觀變化,將主要挑戰(zhàn)和特殊挑戰(zhàn)分為4個典型屬性: 極端光照(Extreme Illumination, EI)、遮擋(OCC)、運(yùn)動模糊(Motion Blur, MB)和熱交叉(TC).再為每個屬性設(shè)計一個ADRB(Attribute Driven Residual Branch),挖掘?qū)傩蕴囟ǖ奶卣?然后,利用AENet(Attribute Ensemble Network),將這些特征表示在通道和像素級別上進(jìn)行聚合,適應(yīng)屬性不可知的跟蹤過程.屬性集成網(wǎng)絡(luò)內(nèi)包含一個CENet(Channel Ensemble Network),預(yù)測不同屬性特征的通道權(quán)重.同時包含一個SENet(Spatial Ensemble Network),在空間維度上強(qiáng)調(diào)目標(biāo)區(qū)域特征并抑制干擾區(qū)域響應(yīng).通道權(quán)重和空間權(quán)重將以逐元素相乘的方式生成3D權(quán)重,用于多種屬性特征的聚合.
圖12 ADRNet結(jié)構(gòu)圖[40]
Xiao等[41]通過場景屬性分解融合過程,提出APFNet(Attribute-Based Progressive Fusion Net-work),以較少的參數(shù)提高融合有效性,同時減少對大規(guī)模訓(xùn)練數(shù)據(jù)的依賴.
APFNet首先為每個屬性設(shè)計融合分支,學(xué)習(xí)屬性特有的融合權(quán)重.具體地,將所有跟蹤場景歸類為光照變化(IV)、快速移動(FM)、尺度變化(SV)、遮擋(OCC)和熱交叉(TC)5種屬性,對每種屬性特定的融合分支,使用一個參數(shù)較少的模型實現(xiàn)融合,減少對大規(guī)模訓(xùn)練數(shù)據(jù)的需要.然后,設(shè)計聚合融合網(wǎng)絡(luò),聚合每個屬性分支的所有融合特征.最后,設(shè)計基于Transformer的特征增強(qiáng)模塊,增強(qiáng)聚合特征和模態(tài)特有特征.
具體地,使用3個Transformer塊中的編碼器分別對兩種模態(tài)特有特征和聚合特征進(jìn)行自注意力增強(qiáng),使用2個Transformer塊中的解碼器用于聚合特征和模態(tài)特有特征的交互增強(qiáng).
2.1.5其它方法
Wang等[42]發(fā)現(xiàn)兩種模態(tài)圖像之間的模式相關(guān)關(guān)系廣泛存在,并且由于視頻序列的連續(xù)性,相同的模式會在相鄰幀中反復(fù)出現(xiàn).基于上述觀察,設(shè)計CMPP(Cross-Modal Pattern-Propagation),用于模態(tài)間和幀間的模式傳播,具體結(jié)構(gòu)如圖13所示.設(shè)計IMPP(Intermodal Pattern-Propagation)模塊,在兩模態(tài)間相互傳播相關(guān)模式,減少不同模態(tài)特征的差異.具體地,在每個模態(tài)內(nèi)采用自注意力機(jī)制[43],計算每個像素點與其它像素點的關(guān)聯(lián),得到模態(tài)內(nèi)親和性矩陣.再將兩模態(tài)的親和性矩陣逐像素相乘,獲得模態(tài)間關(guān)系矩陣,實現(xiàn)模態(tài)間的模式傳播.考慮到目標(biāo)跟蹤任務(wù)中歷史幀有利于目標(biāo)定位,CMPP設(shè)計LTCP(Longterm Context Propagation),自適應(yīng)利用歷史幀信息.
圖13 CMPP結(jié)構(gòu)圖[42]
Tu等[44]指出,在跟蹤過程中對困難樣本進(jìn)行分類是一個很具有挑戰(zhàn)性的問題.現(xiàn)有方法僅僅關(guān)注于區(qū)分正樣本和負(fù)樣本,而忽略對困難樣本的魯棒分類.
為此,Tu等[44]提出M5L(Multi-modal Multi-margin Metric Learning Framework), 將所有樣本分為普通正樣本、普通負(fù)樣本、困難負(fù)樣本、困難正樣本四類.并設(shè)計Multi-modal Multi-margin Structural Loss,在訓(xùn)練階段保留不同種類樣本的關(guān)系,利于不同種類樣本之間的關(guān)系,提高特征嵌入的魯棒性.同時設(shè)計基于注意力機(jī)制的多模態(tài)特征融合模塊,生成模態(tài)權(quán)重,用于加權(quán)融合多模態(tài)圖像特征.
判別式相關(guān)濾波算法的原理是兩個相關(guān)信號的響應(yīng)大于不相關(guān)信號.在目標(biāo)跟蹤中,濾波器只對感興趣的目標(biāo)產(chǎn)生高響應(yīng),對背景產(chǎn)生低響應(yīng).所以目標(biāo)跟蹤任務(wù)可以近似地視為對搜索圖像使用依據(jù)目標(biāo)特征設(shè)計的濾波器進(jìn)行相關(guān)濾波,輸出響應(yīng)圖的最大值位置就是目標(biāo)位置.在近期工作中,相關(guān)濾波算法的建模方式被廣泛應(yīng)用于基于深度學(xué)習(xí)的目標(biāo)跟蹤框架中.
Bhat等[45]提出DiMP,具體結(jié)構(gòu)如圖14所示.DiMP使用離線訓(xùn)練預(yù)測真實框與預(yù)測框之間的交并比(Intersection over Union, IoU)分?jǐn)?shù),并在測試階段通過梯度上升優(yōu)化進(jìn)行目標(biāo)框確定.同時,采用共軛梯度策略結(jié)合深度學(xué)習(xí)框架進(jìn)行快速優(yōu)化,對分類器進(jìn)行參數(shù)更新,提高目標(biāo)跟蹤算法的判別力.
Zhang等[14]提出mfDiMP,引入DiMP作為基線跟蹤算法,研究不同層次的融合機(jī)制,尋找最優(yōu)的融合方法,包括早期融合、中期融合和晚期融合.早期融合將RGB圖像和TIR圖像沿通道方向進(jìn)行級聯(lián),再將級聯(lián)的 RGB-T 圖像輸入特征提取網(wǎng)絡(luò)中.中期融合分別對RGB圖像和TIR圖像進(jìn)行特征提取,再對RGB特征和TIR特征進(jìn)行級聯(lián),并將級聯(lián)特征輸入分類預(yù)測網(wǎng)絡(luò)和回歸預(yù)測網(wǎng)絡(luò)中.晚期融合將使用結(jié)構(gòu)相同但參數(shù)不同的特征提取網(wǎng)絡(luò)、分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)分別處理RGB圖像和TIR圖像,再對兩個模態(tài)的響應(yīng)圖進(jìn)行求和,獲得融合響應(yīng)圖確定目標(biāo)位置.最終,mfDiMP采用中期融合的方式取得最優(yōu)的跟蹤效果.mfDiMP結(jié)構(gòu)如圖15所示.
圖14 DiMP結(jié)構(gòu)圖[45]
圖15 mfDiMP結(jié)構(gòu)圖[14]
此外,針對缺乏大規(guī)模訓(xùn)練數(shù)據(jù)集用于離線訓(xùn)練的問題,mfDiMP使用pix2pix[46]在RGB目標(biāo)跟蹤數(shù)據(jù)集GOT10K[47]上生成合成的RGB-T數(shù)據(jù)集,并用于模型訓(xùn)練.
Zhao等[48]提出CEDiMP(Channel Exchaning DiMP),基于通道動態(tài)交換的融合方式,增強(qiáng)多模態(tài)特征表示.具體來說,利用批歸一化(Batch Norma-lization, BN)[49]的尺度因子衡量每個對應(yīng)通道的重要性.如果當(dāng)前模態(tài)某一通道對應(yīng)的比例因子接近于零,則使用另一模態(tài)對應(yīng)的通道值替換當(dāng)前通道值.針對缺乏訓(xùn)練數(shù)據(jù)集的問題,同樣使用圖像轉(zhuǎn)換模型[46],生成一個用于長時跟蹤器訓(xùn)練的RGB-T數(shù)據(jù)集LaSOT-RGBT[50].借助于LaSOT-RGBT數(shù)據(jù)集,提高跟蹤器應(yīng)對長時跟蹤中典型挑戰(zhàn)的能力和泛化能力.
Zhang等[51]提出HMFT(Hierarchical Multi-modal Fusion Tracker),以便同時挖掘中期融合和晚期融合的潛力.設(shè)計CIF(Complementary Image Fusion)模塊,學(xué)習(xí)兩種模態(tài)內(nèi)的共有模式.設(shè)計DFF(Discriminative Feature Fusion)模塊,融合多模態(tài)圖像特征.設(shè)計ADF(Adaptive Decision Fu-sion)模塊,從互補(bǔ)分類器和判別式分類器中選擇最終的分類結(jié)果.HMFT具體結(jié)構(gòu)如圖16所示.在CIF模塊中,使用單流網(wǎng)絡(luò)提取RGB圖像和TIR圖像的共有特征,并引入KL散度損失函數(shù)約束兩種模態(tài)的特征分布.在DFF模塊中,使用雙流特征網(wǎng)絡(luò)挖掘RGB圖像和TIR圖像的特有特征,預(yù)測不同模態(tài)特征的通道權(quán)重,并進(jìn)行加權(quán)融合,獲取互補(bǔ)信息.在ADF模塊中,根據(jù)兩種響應(yīng)得分的模態(tài)置信度進(jìn)行響應(yīng)圖融合,獲取最終的分類結(jié)果.并且,根據(jù)LTMU[52]跟蹤框架,建立長時跟蹤版本HMFT_LT,用于長時RGB-T目標(biāo)跟蹤.
圖16 HMFT結(jié)構(gòu)圖[51]
盡管上述算法研究多種融合方式以挖掘多模態(tài)數(shù)據(jù)內(nèi)的互補(bǔ)信息,但都忽略多模態(tài)特征存在的模態(tài)差異,直接使用RGB特征和TIR特征進(jìn)行特征融合,從而丟失多模態(tài)數(shù)據(jù)內(nèi)部分有效信息.為此,Zhang等[53]提出MFNet,設(shè)計MDC(Modality Diffe-rence Compensation Module)模塊,衡量RGB特征與TIR特征之間的差異信息,并進(jìn)行跨模態(tài)特征增強(qiáng),縮小RGB特征與TIR特征之間的模態(tài)差異.此外,為了避免某一模態(tài)數(shù)據(jù)包含大量噪聲信息時降低融合特征的表征能力,還提出FRS(Feature Re-selection Module)模塊,對多模態(tài)融合特征和單模態(tài)特征進(jìn)行自適應(yīng)選擇,獲取辯別力較高的特征,用于后續(xù)跟蹤任務(wù).
大多數(shù)RGB-T目標(biāo)跟蹤算法主要利用目標(biāo)的外觀信息進(jìn)行跟蹤,對目標(biāo)的軌跡信息研究較少.Zhang等[54]指出,目標(biāo)的運(yùn)動信息對于目標(biāo)準(zhǔn)確定位也非常重要,特別是當(dāng)目標(biāo)外觀信息不可靠(如目標(biāo)被遮擋或攝像機(jī)移動導(dǎo)致運(yùn)動模糊等跟蹤場景)時,僅根據(jù)目標(biāo)外觀特征難以定位目標(biāo),而目標(biāo)的運(yùn)動信息可輔助推斷目標(biāo)位置.據(jù)此,Zhang等[54]設(shè)計JMMAC(Jointly Modeling Motion and Appea-rance Cues).JMMAC在ECO(Efficient Convolution Operators)[55]的基礎(chǔ)上實現(xiàn),外觀模型采用生成融合權(quán)重的晚期融合策略融合響應(yīng)圖,該外觀模型采用離線訓(xùn)練的方式直接用于跟蹤,無需在線微調(diào)參數(shù).
目標(biāo)運(yùn)動預(yù)測網(wǎng)絡(luò)采用卡爾曼濾波跟蹤器,根據(jù)目標(biāo)運(yùn)動信息預(yù)測目標(biāo)在當(dāng)前幀的位置.考慮到外觀信息在大多數(shù)場景上更可靠,設(shè)計轉(zhuǎn)換模塊,判斷采用外觀模型還是運(yùn)動模型.該模塊主要根據(jù)外觀模型的預(yù)測可靠性和可變形的DDIS(Deformable Diversity Similarity)[56]計算得到的相似度得分自適應(yīng)切換使用外觀線索和運(yùn)動線索.在獲取目標(biāo)跟蹤框后,考慮到ECO采用的多尺度搜索策略回歸精度有限,使用YOLOv2[57],在RGB圖像上對目標(biāo)包圍框進(jìn)行進(jìn)一步細(xì)化回歸.
自2016年孿生網(wǎng)絡(luò)(Siamese Network)首次應(yīng)用于目標(biāo)跟蹤任務(wù)之后[58],基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法迅速發(fā)展為目標(biāo)跟蹤任務(wù)中的主流算法之一.該算法將目標(biāo)跟蹤視為模板匹配任務(wù),通過尋找和第一幀模板最相似的候選區(qū)域進(jìn)行目標(biāo)定位.由于孿生跟蹤算法的前景、背景判別能力是通過離線階段大量數(shù)據(jù)訓(xùn)練得到的,不需要模型的在線更新,因此具有極為出色的跟蹤效率.考慮到孿生網(wǎng)絡(luò)在RGB目標(biāo)跟蹤上的成功應(yīng)用,一些工作[59-62]嘗試將孿生網(wǎng)絡(luò)引入RGB-T目標(biāo)跟蹤中,用于提升計算效率.
孿生網(wǎng)絡(luò)定義為包含兩個相同網(wǎng)絡(luò)分支(參數(shù)共享)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通常用于度量兩分支輸入的相似性.Bertinetto等[58]提出SiamFC(Siamese Fully-Convolutional Network),具體結(jié)構(gòu)如圖17所示.SiamFC上層分支z表示目標(biāo)模板圖像,由視頻序列第1幀給定的目標(biāo)區(qū)域生成.下層分支的輸入是當(dāng)前幀搜索區(qū)域,x表示搜索區(qū)域內(nèi)部不同的目標(biāo)候選圖像.z和x經(jīng)過相同的特征映射操作φ將原始圖像映射到特征空間,得到具有相同通道數(shù)的特征向量,最后經(jīng)過互相關(guān)操作得到響應(yīng)圖.其中,各個位置的值表示不同目標(biāo)候選圖像與目標(biāo)模板圖像的相似度,通過取最大值選擇最相似目標(biāo)候選區(qū)域,完成目標(biāo)定位跟蹤.圖17中特征映射操作φ由卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn),并且兩個分支中φ具有相同的網(wǎng)絡(luò)結(jié)構(gòu),因此稱為孿生網(wǎng)絡(luò).而且在SiamFC中網(wǎng)絡(luò)結(jié)構(gòu)只包含卷積層和池化層,因此也是一種典型的全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese Network).
圖17 SiamFC結(jié)構(gòu)圖[58]
Zhang等[63]提出SiamFT(RGB-Infrared Fusion Tracking Method Based on Fully Convolutional Sia- mese Networks),使用兩個并行的孿生網(wǎng)絡(luò)分別提取RGB圖像特征和紅外圖像特征,并手工設(shè)計生成模態(tài)權(quán)重的方法,用于多模態(tài)特征融合.具體地,RGB分支和TIR分支分別使用互相關(guān)操作,得到RGB響應(yīng)得分圖RRGB和TIR響應(yīng)得分圖RTIR.基于模態(tài)可靠性越高、響應(yīng)得分越高的假設(shè),選擇每個模態(tài)的響應(yīng)最大值作為模態(tài)權(quán)重,同時考慮到目標(biāo)在幀間的平滑運(yùn)動假設(shè),對兩幀間目標(biāo)位移過大的模態(tài)加入懲罰系數(shù).隨后,對兩種模態(tài)權(quán)重進(jìn)行歸一化處理,獲取最終的融合響應(yīng)圖.
Zhang等[59]提出DSiamMFT(Dynamic Siamese Networks with Multi-layer Fusion),設(shè)計基于動態(tài)孿生網(wǎng)絡(luò)[60]的RGB-T跟蹤器,在互相關(guān)操作前采用級聯(lián)的融合方式融合多模態(tài)特征.盡管基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法達(dá)到更快的運(yùn)行速度,但其跟蹤性能與最優(yōu)的多模態(tài)跟蹤算法仍存在很大差距.并且,由于缺乏大規(guī)模的RGB-T目標(biāo)跟蹤數(shù)據(jù)集,已有的基于孿生網(wǎng)絡(luò)的算法只能使用RGB目標(biāo)跟蹤數(shù)據(jù)集進(jìn)行訓(xùn)練,無法充分利用RGB-T數(shù)據(jù)的互補(bǔ)信息.
針對基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法與目前先進(jìn)的跟蹤算法性能存在巨大差距的問題,Zhang等[61]提出SiamCDA(Complementarity-and Distractor-Aware RGB-T Tracker Based on Siamese Network),結(jié)構(gòu)如圖18所示.具體地,在融合階段,提出基于互補(bǔ)感知的RGB-T多模態(tài)特征融合模塊,使模型有選擇性地融合有效信息,增強(qiáng)模型的辨別力.在候選框選擇階段,提出基于干擾感知的候選框選擇模塊,提高跟蹤器對干擾物的魯棒性.最后,針對目前缺少大規(guī)模RGB-T多模態(tài)跟蹤數(shù)據(jù)集的問題,提出語義感知的圖像生成方法,構(gòu)建大規(guī)模的RGB-T合成數(shù)據(jù)集.
Kang等[64]認(rèn)為已有的算法從全局角度出發(fā)融合多模態(tài)特征,但是當(dāng)圖像中僅包含部分有效信息(如大范圍遮擋)時,算法并未表現(xiàn)出良好的性能.因此,提出FS-Siamese(Four-Stream Oriented Sia-mese Network),使用一個四分支孿生結(jié)構(gòu),其中兩個分支用于嵌入不同模態(tài)的模板特征,另外兩個分支用于嵌入不同模態(tài)候選區(qū)域的特征.算法借鑒基于注意力的圖像雙線性池化方法,探索RGB圖像和TIR圖像部分特征的相互作用,以此確定正確的目標(biāo)區(qū)域.此外,還采用元學(xué)習(xí)更新雙線性池化的結(jié)果,通過在線更新的方式更好地區(qū)分目標(biāo)和背景.
Transformer的單模態(tài)目標(biāo)跟蹤算法可顯著提升跟蹤性能.受此啟發(fā),Feng等[65]在TransT(Trans-former Tracking)[66]的基礎(chǔ)上,提出RWTransT(Re- liable Modal Weight with Transformer for Robust RGBT Tracking).首先,在淺層進(jìn)行多模態(tài)特征融合,再將融合后的特征送入TransT,獲取最終的跟蹤結(jié)果.借助強(qiáng)有力的基線跟蹤算法,顯著提升基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法性能,并保持實時的運(yùn)行速度.
Yang等[67]考慮到目前仍缺乏多模態(tài)數(shù)據(jù)集的問題,提出ProTrack(Multi-modal Prompt Tracker),將多模態(tài)輸入數(shù)據(jù)以提示范式(Prompt Paradigm)的方式生成單模態(tài)數(shù)據(jù),將此單模態(tài)數(shù)據(jù)輸入基于Transformer的目標(biāo)跟蹤算法中,獲取最終的跟蹤結(jié)果.值得注意的是,由于ProTrack在數(shù)據(jù)輸入階段進(jìn)行多模態(tài)數(shù)據(jù)融合,因此不需要使用RGB-T目標(biāo)跟蹤數(shù)據(jù)集進(jìn)行模型訓(xùn)練,而是使用大規(guī)模的RGB目標(biāo)跟蹤數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練.
圖18 SiamCDA結(jié)構(gòu)圖[61]
公開的RGB-T目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)集將為RGB-T目標(biāo)跟蹤算法提供訓(xùn)練數(shù)據(jù)和性能評估.本文對2016年以來提出的RGB-T目標(biāo)跟蹤數(shù)據(jù)集進(jìn)行簡要介紹,主要包括GTOT[68]、RGBT234[2]、LasHeR[69]和VTUAV[51]這4個數(shù)據(jù)集.其中,RGBT234數(shù)據(jù)集包含RGBT210[6]和VOT2019-RGBT[70]數(shù)據(jù)集.各數(shù)據(jù)集具體信息如表1所示.
2016年,Li等[68]建立第1個標(biāo)準(zhǔn)的RGB-T目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)集——GTOT數(shù)據(jù)集,由50個RGB-T視頻序列組成.場景包括辦公區(qū)、公共道路、水池等.包括遮擋(OCC)、大尺度變化(Large Scale Vari-ation, LSV)、快速運(yùn)動(FM)、低光照(Low Illu-mination, LI)、熱交叉(TC)、小物體(Small Object, SO)和形變(Deformation, DEF)7個視頻級別的場景性標(biāo)注.數(shù)據(jù)集上包含較多的小尺寸目標(biāo).
2017年,Li等[6]建立RGBT210數(shù)據(jù)集,包含210個視頻序列,并引入更多的場景屬性用于評估算法性能.2019年,Li等[2]擴(kuò)充RGBT210數(shù)據(jù)集,得到RGBT234數(shù)據(jù)集,提供兩個模態(tài)下的真實框標(biāo)RGBT234數(shù)據(jù)集標(biāo)注12個視頻級別的場景屬性,包括無遮擋(No Occlusion, NO)、局部遮擋(Partial Occlusion, PO)、嚴(yán)重遮擋(Heavy Occlu- sion, HO)、低光照(LI)、低分辨率(Low Resolution, LR)、熱交叉(TC)、變形(DEF)、快速運(yùn)動(FM)、尺度變化(SV)、運(yùn)動模糊(MB)、相機(jī)移動(Camera Moving, CM)和復(fù)雜背景(Background Clutter, BC).最長的視頻序列約4 000 幀,整個數(shù)據(jù)集包含20萬幀以上的RGB-T圖像.
表1 公開的RGB-T跟蹤基準(zhǔn)數(shù)據(jù)集信息
注.2019年的VOT-RGBT競賽[70]從RGBT234數(shù)據(jù)集上選取60 個視頻序列,建立VOT2019-RGBT數(shù)據(jù)集.
GTOT、RGBT234數(shù)據(jù)集上部分示例及對應(yīng)場景屬性如圖19所示.
2022年,Li等[69]建立大規(guī)模的RGB-T目標(biāo)跟蹤數(shù)據(jù)集——LasHeR數(shù)據(jù)集,共包含1 224個RGB-T視頻序列.在室內(nèi)外環(huán)境拍攝20多個具有不同特征的場景.為了進(jìn)一步提高目標(biāo)多樣性,跟蹤目標(biāo)類別共32種.LasHeR數(shù)據(jù)集在RGBT234數(shù)據(jù)集12個場景屬性的基礎(chǔ)上進(jìn)一步增加7個視頻級別的場景屬性,包括透明物體遮擋(Hyaline Occlusion, HO),高光照(High Illumination, HI),光照快速變化(Abrupt Illumination Variation, AIV),相似外觀(Similar Appearance, SA),縱橫比變化(Aspect Ratio Change, ARC),視線外(Out-of-View, OV)和缺失幀(Frame Lost, FL).劃分979個視頻序列作為訓(xùn)練數(shù)據(jù)集,剩余245個視頻序列作為測試數(shù)據(jù)集.透明物體遮擋時TIR圖像缺少目標(biāo)信息,而熱成像儀采用非均勻校正時會停止成像,從而造成部分TIR幀缺失.這兩種屬性的示例如圖20所示.
(a)BlackCar(OCC,LSV,FM,LI) (b)BlackSwan1(LSV,TC,SO,DEF)
(a)HO
2022年,Zhang等[51]構(gòu)建高分辨率的無人機(jī)RGB-T目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)集——VTUAV數(shù)據(jù)集,是目前規(guī)模最大、分辨率最高的RGB-T目標(biāo)跟蹤數(shù)據(jù)集.VTUAV數(shù)據(jù)集包括長時跟蹤、短時跟蹤和視頻目標(biāo)分割3種類型的任務(wù),由專業(yè)無人機(jī)(DJI Matrice 300 RTK)搭載Zenmuse H20T相機(jī)拍攝.考慮到已有數(shù)據(jù)集在道路、學(xué)校和安全監(jiān)控等場景下采集,場景數(shù)量和目標(biāo)類別有限,該工作在2個城市的15個場景下采集視頻,包括5大類(行人、交通工具、動物、火車、船只)和15個子類的目標(biāo)類別.數(shù)據(jù)集采取稀疏標(biāo)注的方式(每隔10幀標(biāo)注一次),并逐幀標(biāo)注13個挑戰(zhàn)因素,包括目標(biāo)模糊、攝像機(jī)移動、極端光照、變形、部分遮擋、完全遮擋、尺度變化、熱交叉、快速移動、背景聚類、視野外、低分辨率和熱可見分離.VTUAV數(shù)據(jù)集共包含500個視頻序列,分辨率為1 920×1 080.將250個視頻序列作為訓(xùn)練數(shù)據(jù)集,剩余250個視頻序列作為測試數(shù)據(jù)集.并且提供100個像素級標(biāo)注的視頻序列(其中50個序列作為訓(xùn)練集,另外50個序列作為測試集),序列分割掩碼標(biāo)注示例如圖21所示.
(a)序列1 (b)序列2
為了評估算法性能,本節(jié)介紹已有RGB-T目標(biāo)跟蹤算法使用的評估指標(biāo).
1)精確率(Precision Rate, PR).精確率表示跟蹤算法預(yù)測的目標(biāo)框中心與標(biāo)注的目標(biāo)框中心之間的歐氏距離小于選定閾值的視頻幀數(shù)占該視頻總幀數(shù)的百分比,閾值通常根據(jù)不同數(shù)據(jù)集進(jìn)行手工設(shè)置.計算公式如下:
其中,fo表示該視頻總幀數(shù),fp表示跟蹤算法預(yù)測的目標(biāo)框中心與標(biāo)注的目標(biāo)框中心之間的歐氏距離小于選定閾值的視頻幀數(shù).由于GTOT數(shù)據(jù)集上目標(biāo)較小,因此,GTOT數(shù)據(jù)集上閾值通常設(shè)定為 5,而在RGBT234、LasHeR數(shù)據(jù)集上閾值設(shè)定為20.
2)成功率(Success Rate, SR).成功率指輸出邊界框與真值邊界框之間的重疊率大于閾值的幀的百分比.改變閾值可以獲得SR圖.通過計算SR曲線下面積得到成功率.
3)標(biāo)準(zhǔn)化精確率(Normalized Precision Rate, NPR).由于精確率度量容易受到圖像分辨率和目標(biāo)框大小的影響,NPR進(jìn)一步將精確率標(biāo)準(zhǔn)化,計算見LaSOT(Large-Scale Single Object Tracking)[50].
根據(jù)數(shù)據(jù)集的默認(rèn)設(shè)置,在GTOT、RGBT234數(shù)據(jù)集上使用PR和SR評估算法性能,在LasHeR數(shù)據(jù)集上使用PR、SR和NPR評估算法性能.
本文在GTOT[68]、RGBT234[2]和LasHeR[69]數(shù)據(jù)集上選擇25個基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法進(jìn)行性能對比,結(jié)果如表2所示.
在表2中, 基于多模態(tài)特征融合的目標(biāo)跟蹤算法表示為A,基于多模態(tài)特征表示的目標(biāo)跟蹤算法表示為B,基于多模態(tài)特征表示-融合聯(lián)合的目標(biāo)跟蹤算法表示為C,基于屬性驅(qū)動的目標(biāo)跟蹤算法表示為D.
表2 各算法在3個數(shù)據(jù)集上的實驗結(jié)果
由于2022年前缺少大規(guī)模RGB-T目標(biāo)跟蹤數(shù)據(jù)集,基于MDNet的目標(biāo)跟蹤算法在RGB-T跟蹤領(lǐng)域占據(jù)主流,且通過多模態(tài)特征融合、特征表示、屬性指導(dǎo)等多種角度提高跟蹤性能.早期基于MDNet的目標(biāo)跟蹤算法取得領(lǐng)先的跟蹤性能,但運(yùn)行速度較慢.后續(xù)算法逐漸將基線跟蹤器替換為運(yùn)行效率更高的RT-MDNet[21].其中, DMCNet[24]在MANet[28]增強(qiáng)特征表示的基礎(chǔ)上,提出挖掘低質(zhì)量模態(tài)內(nèi)的辨別力信息,在RGBT234數(shù)據(jù)集上取得最優(yōu)的精確率和成功率.基于屬性指導(dǎo)的APFNet[41]和挖掘模態(tài)間模式相關(guān)性的CMPP[42]也取得先進(jìn)的性能.但上述算法均計算效率較低.同時,基于MDNet的目標(biāo)跟蹤算法在目標(biāo)定位上優(yōu)勢明顯,但回歸精度不足.
基于判別式相關(guān)濾波的RGB-T目標(biāo)跟蹤算法同樣采用在線更新的策略訓(xùn)練分類器.由于基線跟蹤器DiMP[45]的出色設(shè)計,HMFT[51]在GTOT[68]、VTUAV[51]數(shù)據(jù)集上均取得最先進(jìn)的跟蹤性能,并保持實時的運(yùn)行速度.
基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法在運(yùn)行速度上具有明顯優(yōu)勢.其中,SiamCDA[61]僅使用RGB目標(biāo)跟蹤數(shù)據(jù)集合成的RGB-T目標(biāo)跟蹤數(shù)據(jù)集訓(xùn)練模型,因此性能受到制約,雖可達(dá)到37幀/秒的運(yùn)行速度,但性能仍有明顯差距.在引入Transformer后,基于孿生網(wǎng)絡(luò)的RGB-T目標(biāo)跟蹤算法性能具有顯著提升.其中,RWTransT[65]在GTOT、RGBT234數(shù)據(jù)集上都取得最優(yōu)的成功率,并在LasHeR數(shù)據(jù)集上獲得十分顯著的提升.相比最優(yōu)的基于MDNet的目標(biāo)跟蹤算法APFNet[41],RWTransT在成功率和精確率上分別提升28.0%和26.4%.
為了進(jìn)一步研究不同算法在不同屬性跟蹤場景下的性能,分別選取MANet[28]、MANet++[31]、MaCNet[23]、DAFNet[13]、DMCNet[24]和mfDiMP[14]、JMMAC[54]、SiamCDA[61]等部分先進(jìn)算法,在RGB- 234數(shù)據(jù)集上開展基于屬性的性能對比,結(jié)果如表3所示.
從表3可以發(fā)現(xiàn),對于無遮擋(NO)和局部遮擋(PO)場景,大部分先進(jìn)的RGB-T目標(biāo)跟蹤算法都具備良好性能,而在嚴(yán)重遮擋(HO)場景下,所有算法性能都明顯下降.在低光照(LI)場景下,基于孿生網(wǎng)絡(luò)的SiamCDA表現(xiàn)優(yōu)異;在存在形變(DEF)、尺度變化(SV)場景下,基于MDNet的目標(biāo)跟蹤算法回歸性能有限,與采用離線訓(xùn)練的JMMAC、mfDiMP、SiamCDA差距明顯.但在熱交叉(TC)場景下,使用合成數(shù)據(jù)集訓(xùn)練的mfDiMP和SiamCDA表現(xiàn)很差,這表明目前生成的合成數(shù)據(jù)集與真實數(shù)據(jù)還存在一些差異,影響跟蹤器在此類場景下的性能.
同時,在復(fù)雜背景(BC)、運(yùn)動模糊(MB)和快速運(yùn)動(FM)場景下,僅依靠外觀模型很難實現(xiàn)準(zhǔn)確魯棒的目標(biāo)跟蹤,因此目前根據(jù)目標(biāo)外觀進(jìn)行跟蹤的大部分算法(如MANet、mfDiMP、SiamCDA等)仍無法取得理想效果.
表2給出不同算法的實驗平臺和運(yùn)行速度,可以發(fā)現(xiàn),基于MDNet的目標(biāo)跟蹤算法無法達(dá)到實時運(yùn)行速度,僅可達(dá)到2幀/秒左右的運(yùn)行速度,基于RT-MDNet的目標(biāo)跟蹤算法速度有所提升.ADRNet可在2080Ti GPU上達(dá)到25幀/秒的運(yùn)行速度.但基于DiMP的mfDiMP和基于孿生網(wǎng)絡(luò)的SiamFT和SiamCDA在速度上具有明顯優(yōu)勢.
部分公布代碼的算法的模型尺寸及其在RGBT234數(shù)據(jù)集上的性能對比如圖22所示.
圖22 不同算法的參數(shù)量對比
由圖22可以發(fā)現(xiàn),由于使用參數(shù)量較少的VGG-M作為特征提取網(wǎng)絡(luò),大部分基于MDNet的RGB-T目標(biāo)跟蹤算法參數(shù)量更低.其中,DAFNet的參數(shù)量僅為5.50 M.基于屬性驅(qū)動的方法通常使用多分支的結(jié)構(gòu),具有較多的參數(shù)量.基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法和基于判別式相關(guān)濾波的目標(biāo)跟蹤算法由于使用更復(fù)雜的特征提取網(wǎng)絡(luò),因此參數(shù)量顯著提高.
考慮到早期算法使用的訓(xùn)練數(shù)據(jù)集有所差異,且訓(xùn)練數(shù)據(jù)集的規(guī)模限制算法的性能,本文選擇MANet[28]、DAFNet[13]、FANet[12]和mfDiMP[14]這4個典型算法,使用LasHeR訓(xùn)練數(shù)據(jù)集[69]重新訓(xùn)練,并在規(guī)模較大的RGBT234[2]、LasHeR[69]測試數(shù)據(jù)集上進(jìn)行測試,結(jié)果如表4和表5所示.
由表4和表5可以發(fā)現(xiàn),使用更大規(guī)模的真實訓(xùn)練數(shù)據(jù)集之后,算法性能都有明顯提升.mfDiMP盡管采用簡單的級聯(lián)融合策略,但獲益于DiMP[45]的優(yōu)異性能和真實的訓(xùn)練數(shù)據(jù)集,也可取得最佳的跟蹤性能,在LasHeR數(shù)據(jù)集上的PR和SR指標(biāo)分別提升13.6%和11.2%.
表4 重新訓(xùn)練的跟蹤算法在RGBT234數(shù)據(jù)集上的性能對比
表5 重新訓(xùn)練的跟蹤算法在LasHeR數(shù)據(jù)集上的性能對比
而基于MDNet的MANet、DAFNet和FANet性能上升幅度小于mfDiMP,這是由于采用的基線跟蹤算法網(wǎng)絡(luò)結(jié)構(gòu)簡單,并使用在線訓(xùn)練的回歸器,無法從更大的訓(xùn)練數(shù)據(jù)集上由離線訓(xùn)練的方式獲取更多性能收益.近年來,出現(xiàn)越來越多的大規(guī)模RGB-T目標(biāo)跟蹤數(shù)據(jù)集,這意味著未來研究的重點將轉(zhuǎn)向基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法和基于判別式相關(guān)濾波的目標(biāo)跟蹤算法.
從2018年Li等[8]首次提出基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法開始,不足五年的時間內(nèi),RGB-T目標(biāo)跟蹤領(lǐng)域的研究工作已經(jīng)取得巨大的進(jìn)展,但仍有很多問題有待研究和解決.下文分別從模型設(shè)計、數(shù)據(jù)集建立和實際應(yīng)用三個角度討論RGB-T目標(biāo)跟蹤領(lǐng)域未來的研究方向和可能的解決方案.
1)多模態(tài)特征融合方法研究.相比使用單模態(tài)數(shù)據(jù)的目標(biāo)跟蹤任務(wù),RGB-T目標(biāo)跟蹤可以利用多模態(tài)數(shù)據(jù)的互補(bǔ)信息,提高跟蹤的魯棒性和準(zhǔn)確性.由于RGB圖像和TIR圖像成像機(jī)理不同,多模態(tài)圖像存在信息差異和特征分布差異,而大多數(shù)已有算法首先使用雙流網(wǎng)絡(luò)或?qū)\生網(wǎng)絡(luò)進(jìn)行多模態(tài)特征提取,隨后直接進(jìn)行多模態(tài)特征融合,忽略不同模態(tài)特征分布之間的差異,容易削弱融合特征的辨別力.如何降低模態(tài)差異對融合特征的影響,進(jìn)而提高多模態(tài)目標(biāo)跟蹤的性能是一個需要研究的問題.此外,現(xiàn)有算法主要研究中期融合策略以自適應(yīng)從多模態(tài)數(shù)據(jù)內(nèi)選擇具有辨別力的信息,對其它融合算法(如早期融合和晚期融合)未充分研究.事實上,早期融合具備降低計算復(fù)雜度、減小特征分布差異的優(yōu)勢,而晚期融合可減少某一模特數(shù)據(jù)內(nèi)存在的噪聲對融合性能的影響.因此,進(jìn)一步充分挖掘不同融合方式以利用多模態(tài)數(shù)據(jù)的互補(bǔ)性也是一個有待解決的問題.
2)更高效的目標(biāo)跟蹤算法框架.大部分RGB-T目標(biāo)跟蹤算法在RGB目標(biāo)跟蹤算法的基礎(chǔ)上設(shè)計.使用的基線跟蹤算法大多是早期的RGB目標(biāo)跟蹤算法,如MDNet[19]、RT-MDNet[21]和SiamFC[58]等.這些基線算法本身存在一定的局限性,如基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法雖然達(dá)到實時的運(yùn)行速度,但存在辨別力不足問題,在復(fù)雜場景下跟蹤性能有限.基于MDNet的目標(biāo)跟蹤算法存在回歸精度較差問題,無法從更大規(guī)模的訓(xùn)練數(shù)據(jù)集上獲取顯著的性能收益.基于DCF的目標(biāo)跟蹤算法盡管在高性能的硬件設(shè)備下可取得優(yōu)異的跟蹤性能和實時的運(yùn)行速度,但由于其在線訓(xùn)練的策略,在性能更弱的移動端設(shè)備上難以實現(xiàn)性能和速度的平衡.此外,已有算法通常依賴目標(biāo)的外觀信息進(jìn)行跟蹤,對于跟蹤場景信息(如目標(biāo)與背景間的上下文關(guān)系)以及跟蹤目標(biāo)的軌跡信息研究較少.這些問題限制RGB-T目標(biāo)跟蹤算法的跟蹤魯棒性和精度.
最近,基于Transformer的目標(biāo)跟蹤算法[66,71]在RGB目標(biāo)跟蹤領(lǐng)域取得優(yōu)異性能,在性能和速度上達(dá)到良好的平衡,并且挖掘跟蹤場景內(nèi)的上下文信息以提高跟蹤的魯棒性.而RGB-T跟蹤領(lǐng)域?qū)ransformer的研究雖然已經(jīng)取得一定進(jìn)展,但研究仍不充分.設(shè)計基于Transformer 的RGB-T目標(biāo)跟蹤算法,并解決上述跟蹤框架的固有問題是未來的研究熱點之一.
3)輕量化網(wǎng)絡(luò)設(shè)計.RGB-T目標(biāo)跟蹤任務(wù)由于需要額外的模態(tài)數(shù)據(jù),通常使用雙流網(wǎng)絡(luò)進(jìn)行特征提取,增加網(wǎng)絡(luò)的計算復(fù)雜度,從而導(dǎo)致現(xiàn)有的目標(biāo)跟蹤框架難以滿足實時運(yùn)行的要求.大量算法采用在線更新策略[19,45]對硬件設(shè)備具有更高的要求.已有的跟蹤框架通常包括多模態(tài)特征提取、多模態(tài)特征融合和分類及回歸網(wǎng)絡(luò)三部分.為了減少RGB-T目標(biāo)跟蹤算法的計算復(fù)雜度,需分別減少上述3個部分的計算量.如何使用特征選擇[10]、知識蒸餾[72]、網(wǎng)絡(luò)結(jié)構(gòu)搜索[73]等技術(shù)加速網(wǎng)絡(luò)的前向推理速度將是未來研究的一個重點.
4)視頻目標(biāo)分割.已有RGB-T目標(biāo)跟蹤算法使用矩形包圍框表示目標(biāo)的位置及所在區(qū)域.但邊界框內(nèi)通常包含大量的背景信息,對于旋轉(zhuǎn)、可變形的目標(biāo)變化描述不夠精確,從而在跟蹤過程中造成目標(biāo)與背景邊界的混淆,甚至導(dǎo)致錯誤的區(qū)分目標(biāo)與背景干擾物.在這種情況下,預(yù)測精確的目標(biāo)掩碼可以更好地明確目標(biāo)區(qū)域,獲取更準(zhǔn)確的跟蹤結(jié)果.因此,在RGB目標(biāo)跟蹤領(lǐng)域,一些跟蹤方法結(jié)合視頻目標(biāo)分割算法[74],在視頻序列中預(yù)測目標(biāo)掩碼以更好地描述目標(biāo)狀態(tài).然而在RGB-T目標(biāo)跟蹤領(lǐng)域,目標(biāo)跟蹤結(jié)合視頻目標(biāo)分割算法還未得到研究.同時,已有的大部分RGB-T目標(biāo)跟蹤數(shù)據(jù)集僅提供目標(biāo)的邊界框標(biāo)注,缺乏大規(guī)模的RGB-T視頻目標(biāo)跟蹤數(shù)據(jù)用于模型訓(xùn)練.對多模態(tài)視頻進(jìn)行像素級標(biāo)注將耗費(fèi)大量的時間和人力.如何使用已有的邊界框級別標(biāo)注數(shù)據(jù),采用弱監(jiān)督訓(xùn)練等策略獲取RGB-T視頻目標(biāo)分割模型同樣是未來研究的重點.
5)長時目標(biāo)跟蹤.已有的大多數(shù)RGB-T目標(biāo)跟蹤算法通常在短時序列(幀數(shù)小于600幅圖像)中跟蹤目標(biāo).然而,在實際應(yīng)用中,往往需要在長時序列(幀數(shù)大于2 000幅圖像)中跟蹤目標(biāo),并應(yīng)對可能出現(xiàn)的目標(biāo)消失、目標(biāo)遮擋和目標(biāo)重現(xiàn)等挑戰(zhàn).在基于RGB圖像的目標(biāo)跟蹤任務(wù)中,長時目標(biāo)跟蹤已經(jīng)得到廣泛的關(guān)注和研究.然而,在RGB-T目標(biāo)跟蹤算法中,缺乏對此問題的深入分析和研究.在RGB-T目標(biāo)跟蹤領(lǐng)域,進(jìn)一步研究利用多模態(tài)數(shù)據(jù)的互補(bǔ)性提高長時目標(biāo)跟蹤的魯棒性和目標(biāo)重檢測的準(zhǔn)確性將是未來研究的重點.
1)大規(guī)模數(shù)據(jù)集.近年來,隨著RGB-T目標(biāo)跟蹤的發(fā)展,多個RGB-T目標(biāo)跟蹤數(shù)據(jù)集被提出.其中,LasHeR[69]、VTUAV[51]數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,但目標(biāo)跟蹤任務(wù)需要更大規(guī)模的訓(xùn)練數(shù)據(jù)集,以提高模型的泛化性能.相比RGB目標(biāo)跟蹤數(shù)據(jù)集的規(guī)模,已有RGB-T目標(biāo)跟蹤數(shù)據(jù)集的規(guī)模通常較小,例如,常用的RGB跟蹤數(shù)據(jù)集GOT10K包含9 340個視頻用于模型訓(xùn)練.而目前大規(guī)模的RGB-T目標(biāo)跟蹤數(shù)據(jù)集僅包含979個視頻用于模型訓(xùn)練,如表6所示.訓(xùn)練數(shù)據(jù)集規(guī)模上的顯著差異導(dǎo)致模型訓(xùn)練過程中容易出現(xiàn)過擬合問題,且場景多樣性的缺乏導(dǎo)致跟蹤泛化性能的不足.此外,仍缺乏大規(guī)模的RGB-T目標(biāo)分割數(shù)據(jù)集用于訓(xùn)練視頻目標(biāo)分割算法.VTUAV數(shù)據(jù)集上僅包含50個視頻序列用于訓(xùn)練,相比RGB視頻目標(biāo)分割算法使用的數(shù)據(jù)集Youtube-VOS[75],視頻序列數(shù)量太少,對于網(wǎng)絡(luò)的設(shè)計和訓(xùn)練造成較大困難.在未來構(gòu)建更大規(guī)模的RGB-T目標(biāo)跟蹤數(shù)據(jù)集并提供目標(biāo)的像素級標(biāo)注,仍是未來研究的重要工作.
表6 各數(shù)據(jù)集規(guī)模對比
2)模態(tài)對齊.已有的RGB-T目標(biāo)跟蹤算法通常假設(shè)RGB圖像和TIR圖像在空間上嚴(yán)格對齊,這在實際中很難實現(xiàn).雖然使用配準(zhǔn)算法可以改善不對齊現(xiàn)象,但仍然難以保證所有局部區(qū)域的精確對齊.在GTOT[68]、RGBT234[2]、VTUAV[51]數(shù)據(jù)集上,不對齊問題仍廣泛存在.對此,本文統(tǒng)計RGBT234、VTUAV數(shù)據(jù)集上目標(biāo)在兩種模態(tài)內(nèi)的中心像素偏差(即目標(biāo)在兩種模態(tài)圖像下中心點的像素距離),如表7所示.空間未對齊問題會導(dǎo)致多模態(tài)特征融合過程中信息的無效傳播,從而影響目標(biāo)回歸的精度和目標(biāo)分類的魯棒性.一方面,可以設(shè)計更準(zhǔn)確的圖像配準(zhǔn)方法,實現(xiàn)RGB圖像和TIR圖像的像素級精確配準(zhǔn);另一方面,還可以考慮如何在現(xiàn)有的RGB-T跟蹤模型中嵌入相應(yīng)的多模態(tài)圖像特征局部對齊模塊,提高模型對輸入圖像弱配準(zhǔn)時的魯棒性.
表7 RGB-TIR模態(tài)邊界框中心距離對比
RGB-T目標(biāo)跟蹤能夠在具有挑戰(zhàn)性的環(huán)境中實現(xiàn)強(qiáng)大的跟蹤性能,具有廣泛的應(yīng)用價值.
1)智能監(jiān)控系統(tǒng).監(jiān)控系統(tǒng)已經(jīng)廣泛應(yīng)用于各種實際場景中,而目標(biāo)跟蹤技術(shù)是智能監(jiān)控系統(tǒng)的重要組成部分.RGB-T目標(biāo)跟蹤技術(shù)能夠全時段、全天候工作.在公安系統(tǒng)方面,可對監(jiān)控視頻中的嫌疑人進(jìn)行跟蹤和行為分析,有效提高辦案效率.在智能交通方面, RGB-T目標(biāo)跟蹤技術(shù)可以監(jiān)測道路交通狀況并實時檢測違規(guī)車輛,對肇事逃逸車輛進(jìn)行追蹤以降低人力要求.RGB-T目標(biāo)跟蹤技術(shù)也可以部署在無人機(jī)上,實現(xiàn)更加靈活的檢測監(jiān)控.
2)軍事領(lǐng)域.在軍事領(lǐng)域,RGB-T目標(biāo)跟蹤技術(shù)可用于制導(dǎo)和導(dǎo)彈預(yù)警,例如,通過精確捕獲目標(biāo)位置以確保遠(yuǎn)程打擊的精確性,或及時預(yù)警來襲導(dǎo)彈位置.RGB-T目標(biāo)跟蹤技術(shù)也可用于實時監(jiān)測戰(zhàn)場狀態(tài),評估打擊效果和敵方軍備調(diào)動情況.
3)智能導(dǎo)航與定位.在自動駕駛中,可使用RGB-T目標(biāo)跟蹤技術(shù)對周圍的行人及物體進(jìn)行跟蹤定位,實現(xiàn)自動駕駛的最優(yōu)路線規(guī)劃并保持最合適的車速.
4)人機(jī)交互與虛擬現(xiàn)實.RGB-T目標(biāo)跟蹤可在各種場景下跟蹤人的動作,并結(jié)合檢測算法識別表情及動作類型,使計算機(jī)發(fā)出相應(yīng)的操作指令,從而實現(xiàn)機(jī)器和用戶之間的交互,也可在未來應(yīng)用于虛擬現(xiàn)實技術(shù)中.
隨著傳感器技術(shù)的不斷發(fā)展,RGB-T目標(biāo)跟蹤因其全天候、全場景工作特性逐漸成為計算機(jī)視覺領(lǐng)域的研究熱點.本文首先介紹RGB-T目標(biāo)跟蹤任務(wù)目前面臨的諸多挑戰(zhàn),包括目標(biāo)跟蹤任務(wù)的通用挑戰(zhàn)和RGB-T目標(biāo)跟蹤任務(wù)的特有挑戰(zhàn).接著詳細(xì)介紹目前基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤算法,并對它們進(jìn)行分類和對比.然后,介紹RGB-T目標(biāo)跟蹤任務(wù)常用的公開數(shù)據(jù)集及評估指標(biāo),并對現(xiàn)有方法在各個數(shù)據(jù)集上的性能進(jìn)行整理及對比分析.最后,本文還對RGB-T目標(biāo)跟蹤未來的研究方向進(jìn)行思考與展望,以期為廣大研究人員的工作提供一些參考和幫助.