楊 洋,宋品德,鐘春來,曹立佳
1.四川輕化工大學 自動化與信息工程學院,四川 宜賓 644000
2.四川輕化工大學 計算機科學與工程學院,四川 宜賓 644000
3.人工智能四川省重點實驗室,四川 宜賓 644000
4.企業(yè)信息化與物聯網測控技術四川省高校重點實驗室,四川 宜賓 644000
基于深度學習的多目標跟蹤(multi-object tracking,MOT)作為計算機視覺與遙感領域的重要課題,在智慧城市、農業(yè)生產、災害預警以及地質探勘等領域有著廣泛應用[1-3]。隨著無人機(unmanned aerial vehicle,UAV)技術的快速發(fā)展,無人機已被廣泛應用于災后搜救、農業(yè)生產及軍事打擊等各個方面[4-5]。得益于優(yōu)秀的網絡模型設計和硬件性能的提升,使得無人機平臺有望能夠完成空對地多目標跟蹤任務[6-7]。然而,與普通視角下相比,無人機視角下的多目標跟蹤(multi-object tracking from the UAV perspective,UAV-MOT)仍然面臨著諸多挑戰(zhàn)。這些挑戰(zhàn)主要包括目標尺度的變化、相似目標的干擾、目標被遮擋、目標分布不均勻、目標運動的非線性、相機抖動以及實時性等。由于無人機運動和目標移動,目標在機載相機的成像平面上的尺度會頻繁變化導致跟蹤失敗。無人機視角下目標尺度較小,使得能夠提取的特征較少,相似目標(如穿著相同顏色衣服的行人、同一樣式的車輛等)會導致頻繁的身份切換,使得跟蹤系統生成較多碎片軌跡。無人機飛行高度較高,雖然增大了信息獲取能力,但也會將更多建筑物、樹木等背景元素納于成像平面中,使得跟蹤環(huán)境更加復雜。在這種復雜動態(tài)環(huán)境中,目標與目標之間存在相互遮擋,背景元素同樣會遮擋目標,導致跟蹤失敗。以無人機視角下的城市交通為例,成像平面中所有的目標集中在道路及其兩側,使得遮擋發(fā)生更為頻繁,導致跟蹤失敗。由于無人機和目標之間存在較強的運動耦合,即成像平面上目標的運動實際上是機載相機的運動與目標運動疊加的結果,使得以假設目標線性運動為主的普通視角下的多目標跟蹤算法難以適用于UAV-MOT 任務。例如無人機跟蹤正在移動的目標時,若目標與無人機同向且同速度移動,目標在機載相機的成像平面上的坐標將不會變化;若目標與無人機運動方向相反,目標在機載相機的成像平面上的坐標將出現較大變化,這些情況均會使得目標運動非線性,導致軌跡難以預測。由于無人機飛行環(huán)境復雜,在飛行過程中容易受到各種干擾,如慣性測量單元(inertial measurement unit,IMU)等傳感器誤差導致飛行不穩(wěn)定、強風等外部干擾導致的晃動和機架的結構設計和裝配缺陷導致無法自穩(wěn)等,使得機載相機抖動,導致成像平面中同一目標在相鄰幀出現較大位移,最終跟蹤失敗。無人機因為自身載荷限制,無法搭載較大算力的設備,使得基于深度學習的MOT算法,無法滿足無人機多目標跟蹤系統的實時性。這些問題受到學術界和工業(yè)界的廣泛關注,也成為了大量研究的熱點[8-9]。
作為計算機視覺領域的重要問題,多目標跟蹤在其發(fā)展過程中經歷了從傳統方法階段到基于深度學習的不斷演進。在傳統方法中,需要通過手工設計特征來實現多目標跟蹤,這不僅過程繁瑣,還效率低下[10]。此外,傳統方法在應對目標尺度變化、相似目標干擾、目標被遮擋等復雜場景時表現不佳,難以實現準確和魯棒的多目標跟蹤。然而,隨著深度學習技術的發(fā)展,特別是卷積神經網絡(convolutional neural network,CNN)的興起,基于深度學習的多目標跟蹤方法逐漸嶄露頭角?;谏疃葘W習的多目標跟蹤方法使用CNN來提取目標的視覺特征,然后利用這些特征進行多目標跟蹤。這種方法可以更好地適應不同場景下的目標變化,并且在復雜環(huán)境中表現出更好的魯棒性。目前,基于深度學習的多目標跟蹤方法已成為多目標跟蹤的主流框架,基于深度學習的MOT 方法分為基于檢測的跟蹤(tracking by detection,TBD)和聯合檢測的跟蹤(joint detection tracking,JDT)。TBD算法采用了多階段設計結構,將檢測與跟蹤模塊分離,使得這兩個模塊可以單獨進行優(yōu)化。然而,這種設計可能導致不能得到最優(yōu)解。相比之下,JDT 算法融合了檢測模塊與跟蹤模塊,雖然提高了推理速度,在簡單場景下優(yōu)于TBD算法,但在復雜場景下表現不佳。
文獻[11]提出了基于TBD設計模式的SORT(simple online and realtime tracking)算法,其利用FRCNN(faster region CNN)進行目標檢測,設計了一種基于卡爾曼濾波器(Kalman filter,KF)和匈牙利算法的實時跟蹤器,并利用相鄰幀邊界框的IoU(intersection over union)距離處理目標的短期遮擋,其匹配速度非???,但是無法解決目標長時間遮擋和相似目標干擾等問題,而導致對同一個目標生成大量ID(identity)切換。文獻[12]在SORT 的基礎上提出了DeepSORT 算法,其引入ReID(re-identification)網絡提取的外觀特征,對目標進行深度關聯度量,匹配策略上同時考慮了運動信息和外觀特征,有效降低了被跟蹤目標的ID切換,與SORT相比,身份切換數量減少了45%。文獻[13]提出MOTDT 框架,利用R-FCN 對觀測框進行進一步的前景和背景分類,使用KF完成目標的運動估計;將觀測框和跟蹤框合并,并做NMS(non-maximum suppression)操作,以修正其中每個目標框的置信度;先基于ReID相似度進行匹配,再對剩余的利用IoU 進行關聯。文獻[14]提出了基于DeepSORT 的MF-SORT 算法,在數據關聯中引入目標的運動特征,能夠有效且高效地跟蹤靜態(tài)攝像機中的物體。文獻[15]提出Bot-SORT 算法,使用全局運動補償(global motion compensation,GMC)技術將相機運動補償引入跟蹤器以解決相機抖動帶來的干擾,通過融合IoU 距離矩陣和余弦距離矩陣作為新的匹配方法。文獻[16]提出了ByteTrack算法,為解決低檢測得分而不能跟蹤的問題,將每個檢測框根據得分分成兩類,高分框和低分框進行兩次匹配。文獻[17]提出了StrongSORT,針對檢測缺失和關聯缺失的問題,提出了高斯平滑插值算法(Gaussian smoothed interpolation algorithm,GSI),使用高斯過程回歸算法來修復插值邊界框,用于解決檢測缺失的問題;提出了一種外觀無關的鏈接模型(appearance free link model,AFLink),僅利用時空信息來預測兩個輸入軌跡是否屬于同一個目標,用于解決關聯缺失的問題。文獻[18]提出了OC-SORT,針對高幀率放大了使用KF進行狀態(tài)估計時的噪聲和目標被遮擋而導致狀態(tài)估計的噪聲隨著KF更新階段沒有可用觀測值而不斷累積的問題,設計了以觀察為中心的重新更新(observation-centric re-update,ORU)和以觀察為中心的動量(observation-centric momentum,OCM),使用目標狀態(tài)觀察來減少目標重識別后的累積噪聲。SORT方法在處理目標重識別時存在困難。當目標在跟蹤過程中發(fā)生遮擋或目標外觀發(fā)生變化時,其很難準確識別是否為同一個目標。DeepSORT 通過引入ReID 網絡提高了目標重識別能力,但是隨著跟蹤目標數量的增加,ReID網絡的推理速度降低,會嚴重影響系統實時性。而且在高密度目標場景中,DeepSORT還會面臨相似目標ID沖突和目標重疊的問題。MOTDT 通過從檢測框和跟蹤框中共同生成候選框來解決檢測不可靠的問題。MFSORT 在面臨機載相機抖動時表現不佳。Bot-SORT 通過結合運動和外觀信息,并引入相機運動補償,提高了跟蹤系統魯棒性,但與DeepSORT一樣面臨實時性較低的問題。ByteTrack雖然提高了低檢測得分目標的跟蹤準確性,但面臨遮擋時無法保證跟蹤魯棒性。StrongSORT具有較強的跟蹤魯棒性,但是其實時性較低。其有良好的關聯丟失回復能力,但是無法處理錯誤關聯。OC-SORT使用ORU和OCM提高了跟蹤系統的實時性和魯棒性,但仍存在目標關聯錯誤的問題。
文獻[19]提出了一種基于JDT設計模式的ConvNet架構,通過改進的R-FCN(region-based fully convolutional network)檢測網絡,在傳統目標檢測的分類和回歸任務上增加了一個跟蹤分支。這樣的設計使得模型能夠同時進行目標檢測和目標跟蹤,將跟蹤任務轉化為預測相鄰兩幀各目標位置相對偏移量的回歸任務。文獻[20]提出Tracktor++算法,其檢測部分不僅僅用于前景和背景的進一步分類,還利用回歸對目標進行了進一步修正。算法核心在于利用跟蹤框和觀測框代替原有的RPN(region proposal network)模塊,從而得到真正的觀測框,最后利用數據關聯實現跟蹤框和觀測框的匹配。文獻[21]提出了FFT(flow fuse tracker)算法,其基于Tracktor++的框架,直接增加一個光流預測分支,將Tracktor++中的跟蹤框和觀測框,變成了光流預測框和觀測框。文獻[22]基于Tracktor++框架,將FrRCNN 換成CenterNet 提出了CenterTrack,除了對相鄰兩幀利用CenterNet進行檢測之外,預測同時存在于兩幀中目標的相對位移,由此進行跟蹤預測。文獻[23]提出了FairMOT算法,通過兩個平行的分支來預測像素級的目標得分和ReID特征。這種任務之間的公平性設計使得FairMOT在多目標檢測和跟蹤任務中都能獲得高水平的精度。ConvNet 存在數據依賴性和計算復雜度高的問題。其性能高度依賴于大規(guī)模標注的數據集,但目前應用于無人機視角下的多目標跟蹤數據集較少。其使用深度神經網絡同時進行檢測和跟蹤任務,使得網絡計算復雜,推理速度慢,無法滿足跟蹤系統實時性。Tracktor++在目標被遮擋和目標尺度變化時具有較強魯棒性,但仍然存在檢測器性能影響跟蹤性能的問題,而且其模型難以訓練。FFT避免了ReID網絡,提高了系統實時性,但由于引入光流,無法用于運動的相機。CenterTrack具有較高的跟蹤準確性和實時性,但面臨目標被遮擋時表現不佳。FairMOT在一定程度上改善了計算復雜度,但仍存在對環(huán)境中的背景雜波和相似目標敏感的問題,這會導致跟蹤器性能下降。
近年來,國內多目標跟蹤研究進展迅速。文獻[24]針對跟蹤過程出現的軌跡漏檢、誤檢及身份切換等問題,將vision transformer(ViT)引入到YOLO(you only look once)X 的骨干網絡,增強網絡的局部特征提取能力,并采用BYTE 數據關聯方法和非線性卡爾曼濾波。該算法提高跟蹤算法的實時性和魯棒性,但仍存在目標重識別能力弱的問題。文獻[25]針對JDT 模式中檢測器性能影響跟蹤系統性能的局限,基于標簽多伯努利(labeled multi-bernoulli,LMB)濾波設計了目標重識別方法,并對算法采用并行計算提高運行效率。該算法能夠在短時間內維持標簽的不變性,減少碎片化軌跡及標簽跳變數,提高跟蹤魯棒性,但仍存在較多相似目標干擾下算法表現不佳的問題。文獻[26]基于CNN 和Transformer,提出一種基于CNN-Transformer雙分支主干網絡進行特征提取和融合的多目標跟蹤算法CTMOT(CNNtransformer multi object tracking)。該算法在跟蹤的實時性和準確性上達到了較好的平衡,但仍存在數據關聯階段設計簡單,導致ID錯誤匹配的問題。本文總結了近來基于深度學習的MOT技術發(fā)展路線,如圖1所示。
圖1 2016—2023基于深度學習的MOT發(fā)展路線Fig.1 2016—2023 MOT development route based on deep learning
在無人機視角下的對地多目標跟蹤中,大多數研究采用了TBD 的設計模式。本文以TBD 模式為主要框架,首先,闡述并分析了基于目標特征建模、基于目標軌跡預測和基于SOT 輔助等多目標跟蹤算法。這些算法可幫助在無人機視角下實現更準確和魯棒的多目標跟蹤。其次,總結了無人機視角下的多目標跟蹤性能指標、相關數據集和應用。這些信息對評估和比較不同算法的性能以及實際應用中的選擇具有重要意義。最后,分析了當前無人機視角下多目標跟蹤所面臨的挑戰(zhàn)和未來發(fā)展方向,希望能夠為該領域的進一步發(fā)展提供有益的參考和指導。
通過目標的外觀特征實現多目標跟蹤是一種常見的方法。該方法利用相似性準則,可以在相鄰幀中找到最相似的目標,從而實現目標的連續(xù)跟蹤。在多目標跟蹤過程中,目標可能會由于遮擋等原因導致檢測丟失。為了解決這個問題,可以利用ReID 網絡,對目標的ID進行恢復,從而實現目標的重識別。通過重識別,系統能夠將目標在不同幀中的觀測進行關聯,確保目標的連續(xù)性和正確性。這種基于目標外觀特征的多目標跟蹤方法在很多場景下表現出較好的魯棒性和準確性。不過需要注意的是,目標的外觀特征提取和重識別過程,隨著目標的增多會增加計算負擔,尤其在大規(guī)模多目標場景中。因此,在實際應用中,需要根據具體場景和系統要求進行權衡和優(yōu)化,以實現高效且準確的多目標跟蹤。
文獻[27]針對目標尺度變化導致外觀模型質量下降,從而影響跟蹤精度的問題,基于空間和時間正則化來對兩個相鄰幀之間的殘差進行建模的方法,提出了殘差感知相關濾波器,同時設計了一種尺度細化策略。該算法增強了尺度估計的準確性,提高了跟蹤精度,但是仍存在對遮擋敏感的問題。文獻[28]針對目標外觀變化以及背景雜波、相似目標等復雜場景,導致跟蹤漂移甚至失敗的問題,設計了目標濾波器和全局濾波器,采用雙回歸策略,提出了雙回歸相關濾波方法。該算法增強了目標特征學習能力,但增加了計算量,降低了系統實時性。文獻[29]為了提高跟蹤器的判別能力,將上下文注意力、維度注意力和時空注意力,集成到基于相關濾波器的訓練和檢測階段。該算法通過使用上下文注意力來考慮目標與其周圍目標的關系,使用維度注意力來選擇與目標跟蹤相關的特征維度,并使用時空注意力來捕獲目標的運動軌跡,增強了跟蹤系統的魯棒性,但仍然存在無法處理的目標尺度劇烈變化的問題。文獻[30]針對空間邊界效應會顯著降低判別相關濾波器學習性能的問題,通過聯合稀疏特征學習來有效處理邊界效應,同時抑制背景像素和噪聲的影響,提出了一種增強魯棒空間特征選擇和相關濾波器學習的方法。該算法提高了濾波器學習性能,能夠顯著抑制背景像素和噪聲的影響,但仍然存在學習階段收斂速度慢的問題。文獻[31]針在對弱光照和黑暗環(huán)境中,跟蹤魯棒性較差,甚至跟蹤失敗的問題,提出了一種基于判別相關濾波器的算法,該算法具有光照自適應和抗暗能力。該算法提高了弱光環(huán)境下的跟蹤魯棒性。文獻[32]為了提高跟蹤實時性,提出基于哈希集匹配算法(HashSet matching algorithm,HSMA)的多目標跟蹤算法。該算法結合了HOG(histogram of oriented gradients)和光流特征進行目標跟蹤,進一步提高了實時處理速度,但仍然存在跟蹤精度低的問題。
文獻[33]針對遮擋導致跟蹤失敗的問題,提出了一種硬軟注意網絡來提高ReID性能并獲得不同目標的魯棒外觀特征。該網絡包含姿勢引導硬注意(pose-guided hard attention,PHA)模塊和區(qū)域軟注意(regional soft attention,RSA)模塊,并使用基于密度的空間聚類算法(density-based spatial clustering algorithm,DSCAN)對行人進行分組。該算法有效解決了由于遮擋導致的跟蹤失敗,但仍存在實時性較低的問題。文獻[34]為了提高特征提取能力,設計了一個基于圖神經網絡的重新識別網絡,其使用中心點外觀特征以加強整體特征提取能力,并且在訓練過程中加入了基于類別的三元組損失,以提高中心點外觀特征的辨別能力。該算法提高目標的ReID 性能,但仍存在視野邊緣跟蹤差的問題。文獻[35]針對外觀和運動特征在現有方法中是單獨使用或通過權重融合,而不能適應復雜環(huán)境的問題,提出了一種融合外觀相似性和運動一致性的自平衡方法。文獻[36]設計了一種新穎的相似性度量,將位置、外觀和大小信息結合在一起,提出了PAS-Tracker算法,并利用相機運動補償模型來對齊跨幀的跟蹤位置。上述兩種算法在復雜環(huán)境中具有較強的跟蹤魯棒性,但仍存在動態(tài)權重策略設計復雜和權重設計沒有通用性的問題。文獻[37]針對無人機視角下捕獲的目標體積通常很小,目標的外觀信息并不總是可靠的問題,使用基于邊界的四元組和深度網絡來跟蹤擁擠環(huán)境中的目標。應用深度四元組網絡(deep quadruplet network,DQN)來跟蹤從擁擠環(huán)境中檢測的目標的移動,并對其進行建模以利用新的四元組損失函數來研究特征空間,該算法在擁擠環(huán)境中能夠有效跟蹤目標的移動,但仍存在由于神經網絡設計簡單,特征提取較少導致跟蹤丟失的問題。文獻[38]提出一種基于YOLOv5和DeepSORT的無人機多目標跟蹤算法。此算法引入了時空注意力模塊的殘差網絡作為特征提取網絡,以加強網絡感知微小外觀特征及抗干擾的能力,最后采用三元組損失函數加強神經網絡分辨類內差異的能力。該算法加強了網絡感知微小外觀特征及抗干擾的能力,但仍存在無法滿足實時性的問題。文獻[39]針對目標外觀變化、遮擋等問題,提出了一種具有空間特征和視覺特征的堆疊雙向前向長短期記憶網絡(stacked bidirectional-forward long short term memory,SBF-LSTM)跟蹤器用于對象跟蹤,并基于邊界框距離、外觀和大小度量來處理對象關聯,有效減少了對象身份切換,從而提高了跟蹤精度,但仍存在網絡推理速度較慢,無法滿足實時性的問題。文獻[40]為解決無人機視場中拍攝場景復雜、目標特征不明顯造成相似物易混淆、跟蹤性能下降的問題,提出了一種基于門限卷積孿生網絡的無人機對地目標跟蹤方法,其以SiameseFC(fully-convolutional siamese network)作為基礎網絡,在目標特征提取階段,引入上下文門限卷積以修改方形卷積核的權重,增強網絡對全局上下文的關注能力,突出目標本身的特征,提升網絡模型的魯棒性。文獻[41]提出了一種時間特征聚合跟蹤算法來解決圖像特征提取過程中由于微小目標而導致的特征信息不足的問題。上述兩種算法提升了跟蹤魯棒性,但仍存在無法處理目標被遮擋的問題。文獻[42]為提高目標分類性能,基于Siamese 神經網絡,設計了一種用于UAV-MOT的方法。該算法解決了訓練階段正、負樣本之間的數據不平衡問題,但仍存在無法處理相似目標的問題。文獻[43]針對無人機應用場景復雜,運動目標分辨率低,目標特征提取和識別難度大的問題,采用多尺度學習、殘差塊及注意力機制等方法提出了名為倒置瓶頸聚合網絡的重識別網絡。文獻[44]針對UAV 視角下目標嚴重的尺度變化導致跟蹤失敗的問題,提出了一種基于Siamese的無模型尺度感知跟蹤器。文獻[45]針對重識別精度低的問題,設計了一個ReID head,其結合了非局部塊和Transformer層來探索全局語義關系。上述三種算法增強了尺度變化中的特征處理能力,提高跟蹤系統的準確度,但仍存在實時性較低或無法實時的問題。表1對無人機視角下基于特征的多目標跟蹤進行了分析總結。
表1 基于特征的UAV-MOT算法總結Table 1 Summary of feature-based UAV-MOT algorithms
基于相關濾波器和光流的UAV-MOT 算法具有實時性高的優(yōu)點以及通過歷史觀測來預測目標的未來狀態(tài),從而實現對跟蹤軌跡的平滑性,有助于提高跟蹤穩(wěn)定性。然而,由于存在特征學習能力較低以及有限全局上下文的問題,該類算法無法處理尺度變化頻繁、遮擋等場景。其次,相關濾波方法通常依賴于目標的運動模型,當目標的運動模式變化時,跟蹤性能可能受到影響。再次,目標丟失或重新獲得時可能需要一些時間來適應新的觀測信息,這可能導致跟蹤的中斷或不穩(wěn)定。相關研究通過提高特征提取能力、提高尺度適應能力以及增強上下文信息關聯能力等,以克服這些限制。
基于外觀特征的UAV-MOT算法具有判別類表示、對光照變化的魯棒性以及有效的處理遮擋和重新識別的能力。通常不依賴于目標運動模型,因此適用于各種不同的目標運動模式和場景。然而,受數據集限制,泛化能力差、對環(huán)境變化的敏感、處理尺度變化困難以及高維特征空間等問題,該類算法無法處理未學習過的新目標、無法適應尺度變化影響外觀特征以及實時性差等。特別是在具有較多相似目標場景和目標劇烈運動或發(fā)生較大外觀變化時,會出現跟蹤失敗的情況。相關研究通過融合外觀與運動特征、設計更有效的ReID 網絡以及提高尺度適應能力等,以克服這些限制。
基于目標軌跡預測的方法一般使用卡爾曼濾波器,其中包含預測和更新兩步。預測步驟使用狀態(tài)模型估計目標在下一幀中的位置,而更新步驟基于觀測模型由當前觀測值更新目標的位置。通過交替進行預測和更新,卡爾曼濾波器能夠動態(tài)地預測目標的位置,并根據觀測信息實時地更新目標的狀態(tài)。這使得卡爾曼濾波器在許多實時目標跟蹤應用中表現優(yōu)秀。
文獻[46]針對目標運動之間的相互作用引起遮擋的問題,提出了一種用于UAV 視角下多目標跟蹤的四階段層次關聯框架,結合了基于數據關聯的跟蹤方法和使用壓縮跟蹤方法的目標跟蹤,以有效地處理局部軌跡生成、局部軌跡構建、全局漂移軌跡校正和全局碎片軌跡鏈接,該算法減少了碎片軌跡生成,提高了軌跡預測魯棒性,但仍存在多階段設計難以計算最優(yōu)解的問題。文獻[47]針對無人機和跟蹤目標存在相對運動,使得基于勻速運動模型的KF 無法有效跟蹤的問題,提出了一種基于環(huán)境反饋的變速KF 算法。同時,對匹配過程進行了改進,通過引入了更多的環(huán)境信息和特征,該算法提高了目標和軌跡匹配的準確性和跟蹤魯棒性,但仍存在無法處理運動模糊的問題。文獻[48]為了減少在真實環(huán)境下的軌跡預測噪聲,提出了一種稱為深度擴展卡爾曼濾波器(deep extended Kalman filter,DeepEKF)的運動學預測模型。該算法提高了跟蹤的精度和穩(wěn)定性,但仍存在由于網絡復雜而無法實時的問題。文獻[49]為了提高軌跡預測精度,使用LSTM作為跟蹤位置預測器。該算法能夠準確預測目標軌跡,但仍存在無法處理過多跟蹤目標的問題。文獻[50]針對機載相機移動導致的無人機視頻中對象的不規(guī)則運動問題,提出了一種自適應運動濾波器用于復雜運動目標的跟蹤。該算法提高了跟蹤的準確性和魯棒性,但仍存在設計的運動狀態(tài)有限而沒有通用性的問題。文獻[51]提出一種基于運動模型的無人機對地視覺目標跟蹤方法。該算法通過解耦目標與機載相機的運動,提高目標軌跡預測精度,但仍存在無法適應目標和無人機的快速運動的問題。文獻[52]為了減少低質量檢測對跟蹤的影響,設計了名為G-Byte的數據關聯方法,其保留所有檢測框,并通過置信度將它們分為高分和低分框,使用噪聲尺度自適應卡爾曼濾波器和廣義交并集(generalized intersection over union,GIoU)度量來預測軌跡在新坐標系中的位置。該算法提高了低檢測置信度目標的跟蹤能力,但仍存在過多跟蹤目標導致實時性降低的問題。文獻[53]針對機載相機運動下的多目標跟蹤存在目標位置漂移和狀態(tài)預測失效等問題,提出了一種基于薄板樣條函數的無人機多目標跟蹤方法。該算法提高了軌跡預測精度和跟蹤魯棒性,但仍存在實時性低的問題。文獻[54]針對無人機和目標高速運動導致運動模糊以及機載相機的全局運動與目標運動的運動耦合等問題,提出了一種用于無人機多目標跟蹤的算法。該算法使用混合去模糊模塊、特征匹配和非線性軌跡預測的方法,能夠有效地處理無人機和目標高速運動引起的運動模糊和全局運動耦合問題,提高了目標檢測和跟蹤的準確性和魯棒性,但仍存在特征設計復雜,通用性低的問題。表2 對無人機視角下基于目標軌跡預測的多目標跟蹤進行了分析總結。
表2 基于目標軌跡預測的UAV-MOT算法總結Table 2 Summary of UAV-MOT algorithm based on target trajectory prediction
基于目標軌跡預測的UAV-MOT具有長時跟蹤、適應目標動態(tài)變化、數據關聯等方面具有顯著優(yōu)勢。軌跡預測信息可以在目標關聯階段起到積極作用,幫助系統更好地將觀測到的目標與已知軌跡進行關聯,從而減少遮擋、交叉等情況帶來的干擾。然而,由于存在預測噪聲、計算復雜性以及運動模型不準確等問題,該類算法無法處理目標突然運動變化和大規(guī)模復雜場景。在復雜動態(tài)環(huán)境中,目標的運動可能會受到其他目標或障礙物的影響,這可能導致軌跡預測失效或不準確。而且,實現準確的目標軌跡預測通常需要設計復雜的運動模型,這會增加算法的復雜性和調試難度,同時,不同類型的目標可能需要不同的軌跡預測模型和參數設置。相關研究通過設計魯棒性更高的自適應預測模型、更有效的數據關聯機制等,以克服這些限制。
除了上述的方法外,基于SOT輔助和基于JDT的方法同樣也被應用于UAV-MOT。在UAV-MOT 中,可以借助單目標跟蹤的技術來輔助多目標跟蹤。通過先對單個目標進行跟蹤,獲取目標的位置和特征信息,再將這些信息應用于多目標跟蹤中,有助于提高多目標跟蹤的準確性和魯棒性。JDT 算法將目標檢測和多目標跟蹤兩個步驟合并為一個聯合優(yōu)化問題,從而在簡單場景下可能優(yōu)于傳統的分離式方法。然而,在復雜場景下,JDT 算法可能無法適應目標的尺度變化和遮擋等問題。Transformer 是一種基于自注意力機制的神經網絡結構,最初用于自然語言處理任務,但近年來在計算機視覺領域也取得了顯著的成果??梢岳肨ransformer網絡來建模目標之間的關系和上下文信息,從而增強多目標跟蹤器的性能。
(1)基于SOT輔助的UAV-MOT
文獻[55]針對在復雜環(huán)境下檢測器工作性能受干擾而引入較大噪聲的問題,將單個目標跟蹤和數據關聯方法集成在一個統一的框架中,提出了一種具有空間和時間注意機制的雙重匹配注意網絡(double match attention network,DMAN)的MOT 方法。該算法提高了遮擋發(fā)生時的跟蹤魯棒性,但仍存在隨目標增多,實時性降低甚至無法保證實時性的問題。文獻[56]針對機載相機快速移動的問題,提出了一種通過單應矩陣的二范數來定位幀的方法,在此基礎上,設計了一種分層MOT 算法。該算法提高多目標跟蹤的性能,但仍存在SOT 性能影響整體跟蹤性能的問題。文獻[57]針對傳統的運動模型不可避免地受到無人機自主運動影響的問題,提出了一種基于條件生成對抗網絡(generative adversarial network,GAN)的模型,用以預測無人機視角下的復雜運動。該算法能夠較準確預測目標的運動軌跡,但仍存在模型難以訓練的問題。
(2)基于JDT的UAV-MOT
JDT 框架迅速發(fā)展,受到了許多研究UAV-MOT 學者的重視,并得到了推廣和應用。文獻[58]針對無人機圖像幀序列具有平臺高速運動、視角旋轉強烈的問題,提出一種基于粗匹配-精細匹配的雙級旋轉不變特征空間檢測與并行特征提取跟蹤的無人機對地目標圖像幀序列自動快速目標檢測與跟蹤算法。該算法增強了無人機在高速運動、強烈視角旋轉時的跟蹤魯棒性,但仍存在相似目標較多的場景表現不佳的問題。文獻[59]針對UAV視角下目標尺度變化頻繁且種類不平衡的問題,在將檢測跟蹤架構融合的同時,提出了一種分層深度高分辨率網絡(hierarchical deep high-resolution network,HDHNet)。該算法提高了目標尺度頻繁變化時的跟蹤穩(wěn)定性,但仍存在無法實時的問題。文獻[60]為了提高推理速度,將目標檢測和重新識別結合在一個統一的網絡中,通過使兩個子任務共享特征來顯著減少計算開銷,并提出了一種特征解耦網絡(feature decoupling network,FDN)。該算法有效提高了模型推理速度,但仍存在不能處理碎片軌跡的問題。文獻[61]使用深度聚合網絡作為目標檢測的骨干網絡,并構建目標檢測和特征提取的聯合網絡。提出了相機運動判別模型,并將圖像配準應用于多目標跟蹤,以解決在無人機視角下的復雜環(huán)境中目標跟蹤的問題。該算法有效提高了跟蹤實時性,但仍存在重識別效率低的問題。文獻[62]為了充分利用時間信息決策,提高跟蹤性能,基于FairMOT框架,構建了一個基于時序信息的特征增強結構。該算法提高了模型的訓練效率,但仍存在時序信息特征設計復雜的問題。文獻[63]基于Transformer提出了TransTrack算法,設計了基于注意力的查詢密鑰機制,將前一幀的對象特征應用為當前幀的查詢,并引入一組學習的對象查詢來檢測新出現的對象。該算法簡化了跟蹤方法中復雜設計,但仍存在無法處理相似目標干擾的問題。文獻[64]以基于窗口注意力的Swin Transformer結構作為骨干網絡,提出了一種端到端的基于注意力機制的無人機對地多目標跟蹤算法。該算法提升了跟蹤系統的魯棒性,但仍存在無法保證實時性的問題。文獻[65]為了平衡跟蹤器的速度與精度,將Transformer 結合Siamese 特征提取網絡,提出了SiamTrans 算法,并提出跟蹤漂移抑制策略(tracking drift suppression strategy,TDSS)來抑制相似目標的漂移。該算法框架簡單,避免了傳統跟蹤中的超參數,而且提高了跟蹤性能,但仍存在無法處理機載相機快速運動的問題。文獻[66]針對UAV視角下由于尺寸變化、分辨率低、目標遮擋等場景導致跟蹤目標框漂移的問題,提出一種基于Transformer的自適應更新的DUTrack算法。文獻[67]針對夜間UAV難以進行跟蹤的問題,提出了一種基于空間通道Transformer 的低光增強器。上述兩種算法在復雜環(huán)境中具有較強的跟蹤魯棒性,但仍存在實時性低或無法保證實時性的問題。表3 對無人機視角下的其他多目標跟蹤進行了分析總結。
表3 其他的UAV-MOT算法總結Table 3 Summary of other UAV-MOT algorithms
基于SOT 輔助的UAV-MOT 具有魯棒性高和適應動態(tài)環(huán)境方面具有優(yōu)勢。通過使用單目標跟蹤,可以減少多目標跟蹤階段的計算復雜度,因為只需要在單目標跟蹤的基礎上對每個目標進行關聯。同時,單目標跟蹤可以提取目標的外觀特征和運動特征,這些特征可以用于多目標關聯和識別,提高多目標跟蹤的性能。然而,由于存在有限的全局上下文、數據關聯復雜性、SOT 性能影響MOT 的問題,該類算法無法適應大規(guī)模跟蹤場景。特別是單目標跟蹤的失敗或錯誤可能會影響整體多目標跟蹤的性能,因為多目標跟蹤依賴于單目標跟蹤的結果,同時也需要考慮計算開銷和目標關聯等問題。相關研究應平衡單目標跟蹤輔助的優(yōu)點和局限性,以克服這些限制。
基于JDT 的UAV-MOT 具有同時檢測和跟蹤、改進數據關聯、目標軌跡的一致性和連續(xù)性、處理檢測模糊性以及對動態(tài)場景的適應性方面具有優(yōu)勢。將目標檢測和跟蹤階段融合在一起,可以在同一框架內處理目標的檢測、初始化、跟蹤和關聯,簡化了多目標跟蹤的流程。由于融合了檢測和跟蹤信息,聯合檢測跟蹤在目標關聯階段可能更加準確,能夠更好地處理遮擋、交叉等復雜場景。然而,由于存在對檢測錯誤的敏感性、可擴展性差等問題,該類算法無法處理目標運動劇烈變化和檢測錯誤導致的累計誤差。其次,受到底層目標檢測算法的影響,如果目標檢測算法性能較差,可能會影響整體跟蹤性能。再次,JDT算法通常需要設計復雜的模型來融合檢測和跟蹤信息,這會增加算法的設計和調優(yōu)難度。相關研究通過提高檢測精度、引入圖像配準、引入Transformr以及在檢測網絡中設計ReID分支等,以克服這些限制。
MOT 的主要目的是找到正確的目標,并精確的估計目標在所有視頻幀里的位置,為了保證在時間序列上,保持對目標跟蹤的一致性應該為每個目標分配一個ID,并保持目標與ID在連續(xù)幀間正確關聯。由于UAVMOT與MOT目的相同,因此UAV-MOT與MOT的評價指標一致,其應遵循以下設計標準。
(1)目標位置精度:確保跟蹤器準確估計目標在每一幀中的位置,這是跟蹤任務的關鍵指標之一。
(2)正確跟蹤目標軌跡:每個目標只應該對應一條唯一的軌跡,避免出現軌跡重疊或分割的情況。目標軌跡的連續(xù)性對于跟蹤任務的準確性和可靠性非常重要。
(3)減少目標ID切換:目標ID的頻繁切換可能導致跟蹤的不連續(xù)和混亂。因此,跟蹤器應該盡量減少目標ID的切換,保持目標在不同幀中的穩(wěn)定關聯。
針對上述標準,文獻[68]提出了MOTA與MOTP指標,用于評估跟蹤的精度。文獻[69]設計了IDF1、IDP及IDR 指標,用于評估目標ID 的魯棒性。文獻[70]基于MOTA 指標,使用相似系數設計了HOTA 指標,其將檢測、關聯和定位綜合到統一的度量,同時也分解為數個子指標,以便分析跟蹤器性能的不同組成部分。表4對比分析了各個指標的優(yōu)缺點。
表4 主要評價指標優(yōu)缺點分析Table 4 Analysis of advantages and disadvantages of evaluation indicators
MOTA指標用于評估跟蹤準確度,受檢測器精度影響較大,計算方法如式(1)所示:
其中,FN為漏檢,FP為誤檢,ID_sw為ID的切換數量,GT是ground truth的數量,由式(1)看出其數值越大越好。
MOTP指標用于衡量跟蹤位置誤差,計算方法如式(2)所示:
其中,ct表示第t幀的匹配個數,匹配誤差表示第t幀下目標與其配對假設位置之間的距離,由式(2)看出其數值越大越好。
IDP 指標為識別精度指每個邊界框中目標ID 的識別精度,如式(3)所示,其中IDTP 表示真正的ID 數,IDFP表示假陽的ID數。
IDR指標是指每個邊界框中目標ID識別的回召率,如式(4)所示,其中IDFN是假陰ID數。
IDF1指標是針對邊界框中目標ID綜合考慮IDP和IDR,其引入ID 信息,更加關注跟蹤器減少同一個目標的ID變化,如式(5)所示:
HOTA 指標是高階跟蹤精度,建立在MOTA 基礎上,將檢測、關聯和定位的效果平衡為一個統一指標,在閾值為α的情況下,如式(6)所示:
其中,Λ(c)如式(7)所示:
其中,TPA(c)表示對同一個目標,預測的ID 和ground truth的ID都為c;FNA(c)表示對同一個目標,預測的ID不為c,而ground truth 的ID 為c;FPA(c)表示對同一個目標,預測的ID為c,而ground truth的ID不為c。
HOTA 指標考慮了不同的閾值,即0.05,0.10,…,0.90,0.95,如式(8)所示:
綜合來看,上述幾種評價指標在評估無人機視角下的多目標跟蹤算法時具有重要作用。由于每種指標仍然存在不足,為更全面地評估算法的性能,應將這幾種指標一起使用。同時,針對具體的應用場景和目標特點,選擇適合的性能評價指標非常重要。
對于深度學習而言,數據集有著不可缺少的重要性。文獻[9]總結了2020 年以前主流的UAV 視角下的航拍數據集,如Stanford Drone數據集[71]、UAVDT(UAV detection and tracking)數據集[72]、VisDrone2018 數 據集[73]、VisDrone2019數據集[74]、BIRDSAI數據集[75]等。隨著不斷有學者將研究重點放在UAV-MOT上,無人機視角下的航拍數據集數量正在飛速增加。表5 統計了目前主流的用于無人機視角下多目標跟蹤的數據集。
表5 主流的無人機視角下多目標跟蹤數據集Table 5 Multi-target tracking dataset from mainstream UAV perspective
文獻[41]提出了T2UAV數據集,使用無人機捕捉各種不同場景的視頻數據,共收集了20 個視頻序列。其中訓練集包含15 個視頻序列,測試集包含5 個視頻序列,視頻總幀數為10 912 幀,平均視頻長度超過600幀。文獻[67]提出了DarkTrack2021,在夜間城市中,從較高的高度捕捉,具有大量嚴重的光照變化和過度曝光/曝光不足的場景,其包含110 個具有挑戰(zhàn)性的序列,總共100 377 幀。序列的最短、最長和平均長度分別為92、6 579和913幀。對象包含人、公共汽車、汽車、卡車、摩托車、狗、建筑物等,涵蓋了現實世界無人機夜間跟蹤任務的豐富場景。文獻[76]針對夜間數據集缺失的問題,提出了UAVDARK135 數據集,其總共包含標準UAV夜間捕獲的135個序列,并對其進行手工標注。該數據集包括各種跟蹤場景,例如十字路口、丁字路口、道路、高速公路,并由不同類型的跟蹤對象組成,如人、船、公共汽車、汽車、卡車、運動員、房屋等。該基準測試還包含一些來自YouTube 的在海上拍攝的序列?;鶞蕼y試的總幀數、平均幀數、最大幀數和最小幀數分別為125 466、929、4 571 和216,適合大規(guī)模評估。文獻[77]提出了UAVHuman數據集,專用于無人機視角下人類目標識別與跟蹤,通過飛行無人機在多個城市和農村地區(qū)的白天和夜間在內進行收集,涵蓋了不同背景、照明與天氣變化、遮擋、相機運動和無人機飛行姿態(tài)變化的跟蹤場景,其中包含67 428個多模態(tài)視頻序列和119個用于動作識別的對象,22 476個用于姿勢估計的幀,41 290個幀和1 144個用于人員重新識別的身份。
文獻[78]設計了基于特征補償矩陣的跟蹤算法,用于無人機視角下的海上多個船只跟蹤。在保證實時性的情況下,具有良好的跟蹤精度。文獻[79]使用YOLO+JPDA 設計了一個實時檢測與跟蹤的系統,并將其部署到小型四旋翼無人機上,用于車輛交通監(jiān)控。文獻[80]設計了一個MOTHe(multi-object tracking in heterogeneous environments),用于野外環(huán)境下的動物跟蹤。文獻[81]設計了一個具有精確相機定位、快速圖像處理和多模態(tài)信息融合能力的智能云臺系統和用于多目標跟蹤的自適應的多尺度目標特征模型,并將其部署在無人機平臺,開發(fā)了基于UAV 的目標跟蹤和識別系統。文獻[82]使用YOLOv4+DeepSORT算法,設計了基于UAV的車輛檢測與跟蹤算法,并設計了車輛目標位置估計模型。文獻[83]使用YOLOv5+DeepSORT算法,并將其部署在無人機平臺,設計了一個實時的應用于無人機平臺的目標跟蹤系統。文獻[84]針對無人機高度和視頻分辨率的變化,設計了一種車輛速度從像素空間到現實世界的指數映射模型,通過將跟蹤過程與車輛重識別算法相關聯,從而將運動特征與車輛的深度特征相結合,降低了數據關聯的錯誤率,提出了一種基于UAV 的車輛跟蹤和速度估計系統。
隨著無人機技術與深度學習算法的快速發(fā)展,無人機視角下基于深度學習的多目標跟蹤研究取得優(yōu)秀的成果,但仍面臨諸多挑戰(zhàn):
(1)機載視頻噪聲干擾:由于無人機的快速運動和拍攝環(huán)境的不確定性,機載視頻中會存在大量的運動模糊和噪聲。這些噪聲和干擾可能降低目標檢測和特征提取的準確性,對跟蹤器的性能產生負面影響。
(2)目標運動狀態(tài)和無人機飛行狀態(tài)非線性:目標和無人機的快速運動可能引起非線性運動狀態(tài),使得目標跟蹤變得更加復雜。這樣的非線性運動可能導致跟蹤器難以準確地預測目標的位置和運動軌跡。
(3)存在相似目標干擾:無人機視角下往往存在多個相似目標,如形狀、顏色等相似,這會增加目標跟蹤的難度。區(qū)分相似目標并正確地將其與相應的ID關聯是一個具有挑戰(zhàn)性的任務。
(4)目標存在遮擋的情況:在復雜環(huán)境下,目標很容易被背景環(huán)境或者其他目標遮擋,導致目標跟蹤失敗。解決遮擋問題對于提高跟蹤的穩(wěn)定性和魯棒性至關重要。
(5)網絡模型復雜,實時性差:神經網絡雖然有較強的特征提取能力,但是其龐大的參數量和計算量給無人機搭載的小算力設備帶來了存儲和計算上的災難,當前的UAV-MOT無法平衡跟蹤的準確性和實時性。
(6)數據集稀少:由于無人機視角下環(huán)境復雜,數據集難以依靠自動標注獲取準確的標注信息,而人工標注雖然準確,但人力成本過高導致用于跟蹤的數據集較少,這限制了深度學習算法在該領域的發(fā)展。
目前UAV視角下基于深度學習的多目標跟蹤算法雖然發(fā)展迅速,但其跟蹤效果良莠不齊,將普通視角下的優(yōu)秀多目標跟蹤算法用于無人機平臺時,仍有不少改進之處。
(1)設計更有效的目標跨幀信息傳播機制:不同于目標檢測,多目標跟蹤需要在幀間傳遞目標的信息,以適應目標在圖像序列中的變化。開發(fā)有效的信息傳播和更新策略可以降低噪聲干擾,提高長時間多目標跟蹤的能力。
(2)利用多傳感器融合:在復雜的UAV 場景中,光學相機所提供的目標特征可能不足以應對各種挑戰(zhàn)。利用多模態(tài)傳感器(如深度相機、雙目相機、激光雷達等)進行數據融合可以提高跟蹤性能,特別是應對目標尺度變化等問題。
(3)設計魯棒性更高的無人機與目標相對運動模型:準確的目標軌跡預測對于UAV-MOT的性能至關重要。改進運動模型,使其更加準確地預測目標在幀間的運動軌跡,有助于提高數據關聯階段的準確性和跟蹤器的魯棒性。
(4)設計多無人機視角下的多目標跟蹤算法:在復雜動態(tài)環(huán)境下,利用多無人機協同可以彌補單無人機視角下的局部信息缺失和全局信息不完整的問題。多無人機協同能夠提高跟蹤性能,使系統具備更好的適應性和魯棒性。
(5)設計輕量化的特征提取網絡:在無人機平臺上,輕量化的網絡模型對于實時性至關重要。通過應用剪枝和重參等技術,降低網絡模型的參數量和計算量,可以提高UAV-MOT的實時性,使其在資源受限的設備上也能發(fā)揮良好的性能。
(6)使用有限的標記數據進行學習:如前所述,由于無人機場景的復雜性,收集UAV-MOT的標記數據具有挑戰(zhàn)性。未來的研究可以探索半監(jiān)督或無監(jiān)督學習的技術,以更好地利用有限的標記數據。還可以研究遷移學習和領域適應方法,以利用從其他相關數據集或模式中學習到的知識。
本文首先對普通視角下的經典多目標跟蹤算法進行了梳理,這是為了建立無人機視角下多目標跟蹤研究的基礎。然后,以TBD框架為主,綜合分析了無人機視角下的多目標跟蹤領域的主要技術路線和最新方法。本文還介紹了該領域的性能評估方法和主流數據集,這對于評估無人機多目標跟蹤算法的有效性和魯棒性至關重要。本文分析了當前無人機視角下多目標跟蹤面臨的主要挑戰(zhàn),包括機載視頻噪聲干擾、目標運動狀態(tài)和無人機飛行狀態(tài)非線性、存在相似目標干擾、目標存在遮擋等問題。這些挑戰(zhàn)突出了該領域的復雜性和難度,也為后續(xù)研究的方向提供了指導。最后,本文對未來無人機視角下的多目標跟蹤研究趨勢進行了展望,提出了有效的目標跨幀信息傳播機制、多傳感器融合、魯棒運動模型、多無人機視角下的多目標跟蹤、輕量化特征提取網絡,以及有限的標記數據進行學習等改進方向,希望能提供有價值的參考。