苑玉彬,吳一全,趙朗月,陳金林,趙其昌
南京航空航天大學(xué) 電子信息工程學(xué)院,南京 211106
多目標(biāo)檢測與跟蹤作為遙感領(lǐng)域的重要課題之一,廣泛應(yīng)用于智慧城市、環(huán)境監(jiān)測、地質(zhì)探測、精準(zhǔn)農(nóng)業(yè)和災(zāi)害預(yù)警等民用和軍事領(lǐng)域[1-4]。傳統(tǒng)的遙感數(shù)據(jù)獲取主要基于衛(wèi)星和載人飛機平臺,這類平臺運行在固定軌道上或遵循預(yù)定路徑,其成本及飛行員的安全問題限制了應(yīng)用范圍。隨著電子通信技術(shù)的發(fā)展,無人機(Unmanned Aerial Vehicle,UAV)以輕便 性、易操作、低成本等優(yōu)勢得到快速推廣,彌補了傳統(tǒng)手段受天氣、時間等限制造成的部分信息缺失。同時,相比固定攝像頭,UAV的高機動性可以使航拍范圍更為靈活可變。UAV獲取的視頻數(shù)據(jù)無論在內(nèi)容上還是在時間上信息量都極大,推動了無人機航拍視頻在目標(biāo)檢測和跟蹤多個領(lǐng)域中發(fā)揮著日益重要的作用[5-7]:① 智能交通流量監(jiān)控與紅綠燈配時控制,提升交通通行能力;② 對特定區(qū)域內(nèi)的人群或車輛進行安防監(jiān)控、跟蹤及定位;③ 對水面艦船檢測、識別與跟蹤;④ 檢測野生動物的數(shù)量并跟蹤其運動軌跡;⑤ 分析體育運動員動作與軌跡,實現(xiàn)相應(yīng)戰(zhàn)術(shù)分析;⑥ 農(nóng)業(yè)區(qū)域繪圖,自動繪制飛行路線。但是,無人機航拍視頻與普通視角視頻中的多目標(biāo)檢測和跟蹤任務(wù)相比,面臨諸多挑戰(zhàn),例如圖像退化、目標(biāo)分布密度不均勻、目標(biāo)尺寸小,以及實時性等問題,近年來引起學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注和大量研究。
作為計算機視覺的基本問題之一,多目標(biāo)檢測和跟蹤經(jīng)歷了從傳統(tǒng)方法階段到基于深度學(xué)習(xí)方法階段的演變。傳統(tǒng)方法需要手動設(shè)計特征,過程繁瑣且準(zhǔn)確率低[8-9]。隨著UAV與深度學(xué)習(xí)技術(shù)的發(fā)展,航拍視頻的數(shù)據(jù)采集愈加便捷,易于獲得海量數(shù)據(jù),而深度神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到具有足夠樣本數(shù)據(jù)的分層特征[10]。自2015年以來,深度神經(jīng)網(wǎng)絡(luò)已成為多目標(biāo)檢測和跟蹤的主流框架[11-12]。多目標(biāo)檢測和跟蹤包括多目標(biāo)檢測和多目標(biāo)跟蹤2個部分。經(jīng)典的深度目標(biāo)檢測網(wǎng)絡(luò)分為2大類:雙階段網(wǎng)絡(luò)和單階段網(wǎng)絡(luò)。其中,雙階段檢測算法檢測精度高,但運行速度慢;單階段檢測算法運行速度快,但誤報率高。雙階段網(wǎng)絡(luò),如RCNN(Region-CNN)[13]、Fast R-CNN[14]、Faster R-CNN[15]和Cascade RCNN[16]等,首先需要生成候選區(qū)域,然后對候選區(qū)域進行分類和定位,適于具有更高檢測精度要求的應(yīng)用;單階段網(wǎng)絡(luò),如SSD(Single Shot Multi Box Detector)[17]、YOLO(You Only Look Once)[18-22]系列和CenterNet[23],直接生成坐標(biāo)位置和類概率,比雙階段網(wǎng)絡(luò)更快。因此,更快的單階段網(wǎng)絡(luò)在具有高速要求的UAV實際應(yīng)用中極具優(yōu)勢。
本文以無人機航拍視頻的雙階段和單階段目標(biāo)檢測算法為主線,回顧了2類算法的發(fā)展歷程,總結(jié)了其代表性工作,重點介紹了應(yīng)對無人機視角引起的小目標(biāo)增多、目標(biāo)尺度跨度大、數(shù)據(jù)集頭尾分類不均衡等問題,以及提升檢測精度,采取的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、引入注意力機制、多種特征融合、多種網(wǎng)絡(luò)綜合等措施。將多目標(biāo)檢測從靜態(tài)圖像擴展到視頻連續(xù)幀的范圍時,延展到了多目標(biāo)跟蹤(Multiple Objects Tracking,MOT)課題?;谏疃葘W(xué)習(xí)的MOT方法可分為基于檢測的跟蹤(Tracking Based Detection,TBD)和聯(lián)合檢測的跟蹤(Joint Detection Tracking,JDT)2類[11]。TBD算法的多階段設(shè)計結(jié)構(gòu)清晰,容易優(yōu)化,但多階段的訓(xùn)練可能導(dǎo)致次優(yōu)解;JDT 算法融合了檢測模塊和跟蹤模塊,達到了更快的推理速度,但存在各模塊協(xié)同訓(xùn)練的問題。TBD策略可分別優(yōu)化檢測和跟蹤,更加靈活,適用于復(fù)雜場景,但推理時間長。相反,JDT將檢測與跟蹤模型合并到一個統(tǒng)一的框架中,通過添加跟蹤分支來修改檢測器,并根據(jù)目標(biāo)的共性實現(xiàn)檢測和跟蹤。在普通視角下的應(yīng)用中,JDT在簡單場景中比TBD表現(xiàn)得更好更快,但處理復(fù)雜的場景時效果不佳,因此UAV視角下的多目標(biāo)跟蹤多遵循TBD模式。本文以TBD模式為主要框架,闡述了基于目標(biāo)特征建模、基于目標(biāo)軌跡預(yù)測、基于單目標(biāo)跟蹤(Single Object Tracking,SOT)輔助、基于記憶網(wǎng)絡(luò)增強等多目標(biāo)跟蹤算法。
除了針對具體問題對多目標(biāo)檢測與跟蹤算法改進之外,基于無人機航拍視頻的多目標(biāo)檢測與跟蹤數(shù)據(jù)集的構(gòu)建與挑戰(zhàn)賽的舉辦也推動了其快速發(fā)展,其中數(shù)據(jù)集正向大規(guī)模、長時間、多樣化的方向進一步發(fā)展。本文全面梳理和比較了近年來無人機航拍視頻的多目標(biāo)檢測與跟蹤任務(wù)的數(shù)據(jù)集,對面向無人機視角的多目標(biāo)檢測與跟蹤的標(biāo)桿挑戰(zhàn)賽VisDrone Challenge的主要結(jié)果進行了對比與分析。盡管在無人機視角下多目標(biāo)檢測與跟蹤算法在上述數(shù)據(jù)集上取得了較高的精度,但距離實際應(yīng)用還存在一定的差距,為此本文最后從諸多方面詳盡探討了未來的發(fā)展趨勢。
目前可查閱到的關(guān)于無人機視角下的多目標(biāo)檢測與跟蹤的綜述有文獻[24-29]。文獻[24]介紹了深度學(xué)習(xí)在無人機航拍圖像中的目標(biāo)檢測、視頻中的目標(biāo)檢測和視頻中的目標(biāo)跟蹤3個方向的應(yīng)用,并對一些先進的方法使用4個基準(zhǔn)數(shù)據(jù)集進行了性能評估,但在對UAV視角下的算法介紹中糅雜了普通視角下的算法。文獻[25]梳理了基于無人機的深度學(xué)習(xí)算法在環(huán)境監(jiān)測、城市治理和農(nóng)業(yè)管理不同領(lǐng)域中的應(yīng)用。文獻[26]總結(jié)了利用無人機航拍圖像進行地面車輛檢測的深度學(xué)習(xí)技術(shù)。文獻[27]介紹了UAV視角下2D目標(biāo)檢測的最新進展,重點關(guān)注普通視角與UAV視角之間的差異。文獻[28]綜述了無人機視角下的基于相關(guān)濾波的跟蹤算法和基于深度學(xué)習(xí)的跟蹤算法研究現(xiàn)狀。文獻[29]綜述了普通視角和無人機視角中目標(biāo)檢測的算法,發(fā)現(xiàn)YOLO系列是應(yīng)用最廣泛的網(wǎng)絡(luò)。但現(xiàn)有文獻仍然缺乏對多目標(biāo)檢測與跟蹤最新進展的全面綜述。本文以UAV航拍視頻為研究對象,全面回顧了基于深度學(xué)習(xí)的無人機航拍視頻多目標(biāo)檢測和跟蹤算法,通過系統(tǒng)地總結(jié)最新公開的研究論文,討論需要解決的關(guān)鍵問題和面臨的難點,并展望了未來的發(fā)展方向。本文其余部分組織如下:第1節(jié)概述了普通視角下多目標(biāo)檢測與跟蹤算法進展,第2節(jié)闡述了基于深度學(xué)習(xí)的無人機航拍視頻的多目標(biāo)檢測算法,第3節(jié)總結(jié)了基于深度學(xué)習(xí)的無人機航拍視頻的多目標(biāo)跟蹤算法,第4節(jié)介紹了無人機航拍視頻多目標(biāo)檢測與跟蹤常用數(shù)據(jù)集并對標(biāo)桿挑戰(zhàn)賽Vis-Drone Challenge的結(jié)果進行了分析,第5節(jié)指出了基于深度學(xué)習(xí)的無人機航拍視頻多目標(biāo)檢測與跟蹤面臨的困難與挑戰(zhàn),第6節(jié)結(jié)合研究現(xiàn)狀對后續(xù)的研究方向進行了展望。
普通視角下的多目標(biāo)檢測與多目標(biāo)跟蹤之間存在諸多聯(lián)系。多目標(biāo)檢測只需檢測出所有指定類別的目標(biāo),無需關(guān)注多個目標(biāo)之間的關(guān)系;多目標(biāo)跟蹤需要記錄所有目標(biāo)在時間序列圖像中的關(guān)系,也就是目標(biāo)的運動路徑。本節(jié)對普通視角下多目標(biāo)檢測和多目標(biāo)跟蹤的主要發(fā)展路線與框架進行回顧,介紹了其主要聯(lián)系與區(qū)別。
多目標(biāo)檢測算法的發(fā)展脈絡(luò)可劃分為2個時期:傳統(tǒng)目標(biāo)檢測算法時期和基于深度學(xué)習(xí)的目標(biāo)檢測算法時期。而基于深度學(xué)習(xí)的目標(biāo)檢測算法又分別沿著單階段與雙階段算法2條主要技術(shù)路線發(fā)展。圖1展示了從2001―2022年目標(biāo)檢測的發(fā)展路線圖。
圖1 目標(biāo)檢測發(fā)展路線Fig.1 Development route of target detection
1.1.1 傳統(tǒng)目標(biāo)檢測器
以往的傳統(tǒng)目標(biāo)檢測算法主要基于手工提取特征,代表性的檢測器主要有VJ(Viola Jones)檢測器[30]、HOG (Histogram of Oriented Gradients)檢測器[31]、DPM (Deformable Parts Model)檢測器[32]等。傳統(tǒng)檢測算法的流程通常為:選取感興趣區(qū)域→定位包含目標(biāo)的區(qū)域→對目標(biāo)進行特征提取→檢測分類。
基于自動提取特征的傳統(tǒng)目標(biāo)檢測算法主要以幀差法為代表,通過對視頻圖像序列中相鄰幀作差分運算來獲得運動目標(biāo)輪廓。Abughalieh等基于運動和顏色直方圖投影濾波器找到目標(biāo),并使用幀差法檢測運動目標(biāo),以便實現(xiàn)UAV視角下的目標(biāo)跟蹤[33]。Baykara等采用幀差法實現(xiàn)運動目標(biāo)檢測,對每個單獨的目標(biāo)應(yīng)用形態(tài)學(xué)膨脹,提升檢測精度[34]。Jiang等利用三幀差分法和中值背景減法相結(jié)合實現(xiàn)目標(biāo)檢測,達到檢測響應(yīng)和現(xiàn)有的軌跡假設(shè)之間有效關(guān)聯(lián)的目的[35]。然而幀差法也存在明顯的問題,其對環(huán)境穩(wěn)定性要求較高,易造成目標(biāo)范圍內(nèi)相鄰幀差的目標(biāo)重疊。
上述傳統(tǒng)目標(biāo)檢測算法主要有以下3個缺點:準(zhǔn)確率不高、運算速度慢、可能產(chǎn)生多個結(jié)果。
1.1.2 基于深度學(xué)習(xí)的目標(biāo)檢測器
傳統(tǒng)目標(biāo)檢測算法發(fā)展陷入瓶頸,性能低下。直到2012年卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的興起將目標(biāo)檢測領(lǐng)域推向了新的階段?;贑NN的單階段和雙階段檢測算法,其優(yōu)缺點對比如表1所示。
表1 單階段和雙階段檢測算法的優(yōu)缺點對比Table 1 Comparison of algorithms for one-stage and two-stage detection
基于深度學(xué)習(xí)的目標(biāo)檢測算法最初以圖像分類算法為基準(zhǔn),將圖像進行切塊分類,圖像塊的位置和類別作為檢測結(jié)果。隨著基于分類的算法出現(xiàn)了邊界目標(biāo)無法檢測、定位不準(zhǔn)確、目標(biāo)多尺度等問題,相應(yīng)地提出了滑動窗口、增加邊界框回歸任務(wù)、圖像金字塔等解決方法,誕生了如圖2所示的雙階段多目標(biāo)檢測框架,在一定程度上緩解了部分問題。由于待分類的圖像較多,導(dǎo)致速度慢,難以滿足實時檢測的需求。隨著具備層次結(jié)構(gòu)的選擇性搜索策略的引入,將空間相鄰且特征相似的圖像塊逐步合并到一起,快速地生成可能包含目標(biāo)的區(qū)域,RCNN隨之問世。RCNN首先通過區(qū)域提議找出可能包含目標(biāo)的框,對于每一個提議區(qū)域,將其拉伸或者縮放到固定的尺寸,送入卷積神經(jīng)網(wǎng)絡(luò)得到其特征,最后對邊界框進行修正和分類。
圖2 雙階段多目標(biāo)檢測框架Fig.2 Two-stage multi-object detection framework
RCNN算法在提取特征操作中存在大量冗余,運行緩慢。Fast RCNN在RCNN的基礎(chǔ)上加入了 ROI(Region of Interest)池化,將特征映射到每個輸入ROI區(qū)域,提升了運行速度。由于使用了選擇性搜索來預(yù)先提取候選區(qū)域,F(xiàn)ast RCNN并沒有實現(xiàn)端到端模式。Faster RCNN使用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Networks,RPN)提取候選框,將候選區(qū)域生成、特征提取、分類器分類、回歸全都交給深度神經(jīng)網(wǎng)絡(luò)來做,大幅提高了效率。在此基礎(chǔ)上衍生出眾多雙階段檢測器。
由于雙階段檢測器在第2階段僅針對候選區(qū)域內(nèi)容進行處理,造成了目標(biāo)在整幅圖像中位置信息的缺失。單階段多目標(biāo)檢測器的提出彌補了這一缺陷,其流程框圖如圖3所示。單階段目標(biāo)檢測算法無需區(qū)域提議階段,直接產(chǎn)生目標(biāo)的類別概率和位置坐標(biāo)值,經(jīng)過一個階段即可直接得到最終的檢測結(jié)果,因此有著更快的檢測速度。
圖3 單階段多目標(biāo)檢測框架Fig.3 One-stage multi-object detection framework
將靜態(tài)圖像中的目標(biāo)檢測結(jié)果應(yīng)用到多目標(biāo)跟蹤時,需要首先實現(xiàn)視頻目標(biāo)的精確檢測。與靜態(tài)圖像目標(biāo)檢測不同的是,目標(biāo)在視頻中是動態(tài)變化的,即其自身屬性諸如顏色、形狀、尺寸、紋理等會動態(tài)地改變,檢測過程中視頻序列需要在時間和空間維度保持一致以防檢測目標(biāo)丟失,這成為視頻目標(biāo)檢測任務(wù)的研究難點。
目標(biāo)跟蹤是給定目標(biāo)的一個初始狀態(tài),然后在視頻序列中估計目標(biāo)每一時刻的狀態(tài)。為了實現(xiàn)目標(biāo)跟蹤,對于初始幀,通過檢測算法,得到一系列目標(biāo)的位置坐標(biāo),在視頻流中的后續(xù)幀之間進行目標(biāo)關(guān)聯(lián)。理想化的目標(biāo)跟蹤算法具有以下特點:僅在起始幀中進行目標(biāo)檢測處理;滿足實時處理;在目標(biāo)淡出或超出畫面、重新進入視圖、目標(biāo)被遮擋等特殊情況下能夠穩(wěn)定跟蹤。
目標(biāo)跟蹤又分為單目標(biāo)跟蹤與多目標(biāo)跟蹤,單目標(biāo)跟蹤旨在僅當(dāng)目標(biāo)的初始狀態(tài)已知時,估計未知的視覺目標(biāo)軌跡,不依賴于其他任何約束。跟蹤方式有2種主流方向:第1種是判別式跟蹤,通過在線刻畫樣本特征,屬于基于參數(shù)的機制,能夠非常好地區(qū)分前景與背景,并且可以在線隨時更新;第2種是生成式跟蹤,依據(jù)某種相似性度量離線構(gòu)建一個泛化性較強的嵌入空間。這2種方式在元學(xué)習(xí)的框架下達到統(tǒng)一,前者可理解為參數(shù)回歸;后者可視為無參的最近鄰分類。
多目標(biāo)跟蹤是在目標(biāo)數(shù)量與類別未知的情況下,對視頻中的行人、汽車、動物等多個目標(biāo)進行檢測并賦予ID,實現(xiàn)后續(xù)的軌跡預(yù)測、精準(zhǔn)查找等。多目標(biāo)跟蹤主要解決帶有ID分類的目標(biāo)跟蹤中的數(shù)據(jù)關(guān)聯(lián)問題,運動特征、外觀特征等可用于輔助解決關(guān)聯(lián)問題。多目標(biāo)跟蹤既要面對單目標(biāo)跟蹤存在的遮擋、變形、運動模糊、擁擠場景、快速運動、光照變化、尺度變化等挑戰(zhàn),又要面臨如軌跡的初始化與終止、相似目標(biāo)干擾等復(fù)雜問題。
在任務(wù)設(shè)定上,SOT、MOT、視頻目標(biāo)檢測(Video Object Detection,VOD)都屬于目標(biāo)檢測問題。VOD在目標(biāo)檢測上添加了時序信息的推廣;單目標(biāo)跟蹤類似于視頻層次的小樣本目標(biāo)檢索任務(wù),并在一個局部小區(qū)域上操作;而多目標(biāo)跟蹤則是視頻層級的實例檢測問題,可以理解為VOD加上幀間ID數(shù)據(jù)關(guān)聯(lián),并在視角全局進行操作。SOT領(lǐng)域近期效果較好的框架,均將單目標(biāo)跟蹤看作全局條件檢測,未來關(guān)聯(lián)會更加緊密。
普通視角下的多目標(biāo)檢測與跟蹤算法采用的數(shù)據(jù)集,大部分數(shù)據(jù)由人手持相機或固定機位拍攝,因此絕大多數(shù)圖像為側(cè)視圖。而無人機航拍視頻與普通視角視頻相比,采集到的視頻數(shù)據(jù)為俯瞰圖,具有不同的特征,導(dǎo)致普通視角下的多目標(biāo)檢測與跟蹤算法不能直接應(yīng)用到無人機航拍視角,主要表現(xiàn)在以下幾個方面。
首先,無人機航拍過程中,受限于設(shè)備的精度與穩(wěn)定性以及環(huán)境的變化,獲取的視頻存在抖動、模糊增加、分辨率降低、光線干擾、畫面畸變等問題,導(dǎo)致視頻質(zhì)量低,需要增加更多的預(yù)處理來提升檢測與跟蹤精度。
其次,航拍視角下的目標(biāo)分布密度不均且尺寸小得多。行人、汽車之類的目標(biāo)可能在普通視角下占據(jù)大量像素,但在航拍視角下可能僅有幾個像素并且分布不均,導(dǎo)致目標(biāo)失真,增加了多目標(biāo)檢測與跟蹤的難度,需要設(shè)計針對性的網(wǎng)絡(luò)模塊進行特征提取。
最后,在普通視角和航拍視角下的遮擋不同。在普通視角下,目標(biāo)可能被另一目標(biāo)遮擋,例如汽車前面的人。但航拍視角中的遮擋多為環(huán)境遮擋,如樹木、建筑物等。
綜上,通過普通視角視頻數(shù)據(jù)集訓(xùn)練得到的多目標(biāo)檢測和跟蹤算法,無法直接應(yīng)用到無人機航拍視頻,需要針對無人機航拍視頻的特點,設(shè)計相應(yīng)的算法,以滿足任務(wù)需求。
UAV視角給多目標(biāo)檢測帶來了小目標(biāo)增多、單維度信息包含特征不足、目標(biāo)類別分布稀疏及不均勻帶來的檢測效率低、目標(biāo)檢測干擾、尺度變化帶來的目標(biāo)漏檢和誤檢、推理速度慢等問題。為了使檢測器更好地適應(yīng)UAV視角下的多目標(biāo)檢測,眾多學(xué)者進行了諸多針對性的改進。本節(jié)將從雙階段檢測器和單階段檢測器2個角度分別針對上述問題各學(xué)者提出的改進方式進行闡述。
雙階段目標(biāo)檢測算法在第1階段就針對目標(biāo)檢測任務(wù)進行了獨特設(shè)計,直接將常規(guī)視角下的算法遷移到無人機航拍視頻的效果較差,需要根據(jù)無人機航拍視頻的目標(biāo)特點,進行優(yōu)化。
1) 針對UAV造成的小目標(biāo)增多問題。Avola等構(gòu)建了一種多流結(jié)構(gòu),模擬多尺度圖像分析。將此結(jié)構(gòu)作為Fast R-CNN網(wǎng)絡(luò)的主干,設(shè)計了MS-Faster R-CNN目標(biāo)檢測器,能夠持續(xù)穩(wěn)定地檢測UAV視頻序列中的目標(biāo)[36]。Stadler 使用Cascade R-CNN網(wǎng)絡(luò)作為目標(biāo)檢測器,將默認錨框的大小減半以考慮較小的目標(biāo),并將預(yù)估的目標(biāo)數(shù)量增加了1倍[37]。Huang等提出HDHNet用于提取小目標(biāo)特征,作為主干網(wǎng)絡(luò)與HTC(Hybrid Task Cascade)、Cascade RCNN等方法相結(jié)合,在檢測不同類型和規(guī)模的目標(biāo)過程中提取到更為有效和全面的特征[38]。Zhang等采用多種特征融合方法構(gòu)建目標(biāo)特征,引入顏色直方圖和HOG描述算子進行特征提取,同時充分利用ResNet-18中第1和第3卷積層的特征,緩解了UAV場景的復(fù)雜性和小目標(biāo)帶來的挑戰(zhàn)[39]。Liu等提出一種高分辨率檢測網(wǎng)絡(luò)HRDNet,采用多分辨率輸入,具有多種深度主干。同時,設(shè)計了多深度圖像金字塔網(wǎng)絡(luò)(Multi-Depth Image Pyramid Network,MD-IPN)和多尺度特征金字塔網(wǎng)絡(luò)(Multi-Scale Feature Pyramid Network,MS-FPN)。MD-IPN使用多個深度主干維護多個位置信息,從高分辨率到低分辨率提取各種特征,解決了小目標(biāo)上下文信息丟失的問題,并保持對中大型目標(biāo)的檢測性能[40]。Liu等提出多分支并行特征金字塔網(wǎng)絡(luò)(Multi-branch Parallel Feature Pyramid Networks,MPFPN),旨在以較小的尺寸提取更豐富的目標(biāo)特征信息,并行分支能夠恢復(fù)深層中缺失的特征,同時采用監(jiān)督空間注意力模塊(Supervised Spatial Attention Module,SSAM)來削弱背景噪聲推理和聚焦目標(biāo)信息的影響[41]。
2) 針對單維度信息包含特征不足問題。Azimi等使用Siamese網(wǎng)絡(luò)提取視覺特征,并與LSTM(Long Short-Term Memory)和圖卷積神經(jīng)網(wǎng)絡(luò)進行配合,融合了目標(biāo)的外觀、時間和圖形信息[42]。Du等提出基于HTC網(wǎng)絡(luò)的檢測器DetectorRS,引入遞歸特征金字塔,代替原來的特征金字塔網(wǎng)絡(luò)[43]。T?ttrup等提出Track R-CNN網(wǎng)絡(luò),結(jié)合檢測、跟蹤和分割的思想,擴展了具有3D卷積的Mask R-CNN,將目標(biāo)檢測的分辨率提升到了像素級[44]。Albaba等為了解決UAV引起的目標(biāo)變化及紋理特征差異的問題,在Cascade RCNN中引入CenterNet,降低了誤報率,提高了檢測質(zhì)量[45]。Cao等提出D2Det網(wǎng)絡(luò),同時實現(xiàn)了精確定位和分類,設(shè)計了一種密集局部回歸網(wǎng)絡(luò),不限制固定區(qū)域的關(guān)鍵點集,用于預(yù)測目標(biāo)提議的多個密集盒偏移,實現(xiàn)精確定位[46]。
3) 針對無人機視角下目標(biāo)類別分布稀疏及不均勻帶來的檢測效率低的問題。Yang等將聚類思想引入目標(biāo)檢測,提出ClusDet網(wǎng)絡(luò),先由聚類網(wǎng)絡(luò)CPNet生成目標(biāo)簇區(qū)域,使用ScaleNet網(wǎng)絡(luò)估計這些區(qū)域的目標(biāo)比例,最后再將聚類區(qū)域送入DetecNet網(wǎng)絡(luò)進行目標(biāo)檢測,減少了檢測運算量,提升了檢測效率[47]。Zhang等提出GDF-Net (Global Density Fused convolutional Network )網(wǎng)絡(luò),由FPN (Feature Pyramid Network)主干網(wǎng)絡(luò)、全局密度模型(Global Density Model,GDM)和目標(biāo)檢測網(wǎng)絡(luò)組成。GDM通過應(yīng)用擴展卷積網(wǎng)絡(luò)來細化密度特征,提供更大的感受野并生成全局密度融合特征[48]。Yu等 提 出DSHNet(Dual Sampler and Head detection Network)網(wǎng)絡(luò),包括類偏置采樣器(Class-Biased Samplers,CBS)和 雙 邊 箱 頭(Bilateral Box Heads,BBH),以雙路方式處理尾類和頭類目標(biāo),顯著提高了尾類的檢測性能[49]。
4) 針對無人機視角下目標(biāo)的視角變化、光線變化、目標(biāo)遮擋等帶來的檢測干擾問題。Zhang等設(shè)計了Cascade ResNet50網(wǎng)絡(luò),在ResNet網(wǎng)絡(luò)加入可變形卷積層(Deformable Convolution Layer,DCN)進行特征提取,結(jié)合FPN組合不同尺度的特征,同時集成RPN以提取感興趣區(qū)域,在VisDrone 2019數(shù)據(jù)集中達到了22.61的平均精度[50]。Yang等提出一種針對UAV視角的車輛檢測體系結(jié)構(gòu),包括相鄰連接模塊(Adjacent Connection Module,ACM)、錨點細化模塊(Anchor Refinement Module,ARM)和目標(biāo)檢測模塊(Object Detection Module,ODM)。ACM提供了有效的上下文信息并減少干擾,ARM實現(xiàn)二分類和默認框粗略回歸,ODM則細化選定的框以執(zhí)行分類,能夠準(zhǔn)確實時地檢測小型車輛[51]。Wu等采用對抗式學(xué)習(xí)框架,提出滋擾分離特征變換(Nuisance Disentangled Feature Transform,NDFT)框架,無需任何額外的領(lǐng)域適配或采樣/標(biāo)記,并與Faster-RCNN網(wǎng)絡(luò)相結(jié)合,有效地降低了因無人機高度變化、天氣變化、角度變化等對目標(biāo)檢測帶來的影響[52]。Zhang等設(shè)計多尺度和遮擋感知網(wǎng) 絡(luò)(Multi-Scale and Occlusion Aware Network,MSOA-Net),該網(wǎng)絡(luò)包括多尺度特征自適應(yīng)融合網(wǎng)絡(luò)(Multi-Scale Feature Adaptive Fusion Network,MSFAF-Net)和基于區(qū)域注意力的三頭網(wǎng)絡(luò)(Regional Attention based Triple Head Network,RATH-Net)。MSFAF-Net從多個層次自適應(yīng)地聚合層次特征圖,以幫助FPN處理目標(biāo)的比例變化;RATH-Net引導(dǎo)位置敏感子網(wǎng)絡(luò)增強感興趣的車輛,并抑制遮擋引起的背景干擾[53]。
5) 針對無人機平臺上因尺度變化帶來的目標(biāo)漏檢和誤檢問題。Chen等提出Ada Resampling增強策略,將圖像輸入預(yù)訓(xùn)練的語義分割網(wǎng)絡(luò),并與Hour Glass模塊相結(jié)合,設(shè)計了RRNet網(wǎng)絡(luò),在VisDrone2019 Challenge中,達到AP50、AR10和AR100的 最 優(yōu) 性 能[54]。Wang等以FPN網(wǎng)絡(luò)為基礎(chǔ),提出空間優(yōu)化模塊(Spatial-Refinement Module,SRM)和感受野擴 展 模 塊(Receptive Field Expansion Block,RFEB)來細化多尺度特征。RFEB增加高級語義特征的感受野大小,并將生成的特征通過SRM修復(fù)多尺度目標(biāo)的空間細節(jié),將模塊與Cascade RCNN網(wǎng)絡(luò)相結(jié)合,驗證了有效性[55]。Tang等提出點估計網(wǎng)絡(luò)(Points Estimated Network,PENet),使 用 掩 碼 重 采 樣 模 塊(Mask Resampling Module,MRM)來增強不平衡數(shù)據(jù)集,使用粗檢測器來有效預(yù)測目標(biāo)簇的中心點,使用精細檢測器來精確定位小目標(biāo)[56]。Dike等對Faster RCNN框架進行改進,包括關(guān)鍵參數(shù)的校準(zhǔn)、多尺度訓(xùn)練、使用線性單元卷積來挖掘空間-光譜特征[57]。Lin等在Cascade RCNN的基礎(chǔ)上設(shè)計ECascade RCNN(Enhanced Cascade RCNN),提出Trident-FPN網(wǎng)絡(luò)用來提取多尺度特征并進行特征融合,同時設(shè)計雙頭注意機制來提高檢測器的性能,在處理UAV目標(biāo)檢測任務(wù)中的多尺度問題上取得較好效果[58]。Youssef等采用FPN生成多尺度特征表示,結(jié)合Cascade RCNN網(wǎng)絡(luò),產(chǎn)生了更穩(wěn)健的區(qū)域建議,實現(xiàn)了在不同的空間分辨率下目標(biāo)的檢測和分類[59]。
6) 為了緩解由于特征提取與目標(biāo)檢測分開執(zhí)行導(dǎo)致推理速度較低的問題。Lee等開發(fā)了同時執(zhí)行目標(biāo)檢測和嵌入提取的單次激發(fā)方法,以EfficientDet-D0網(wǎng)絡(luò)作為特征網(wǎng)絡(luò),使用BiFPN作為特征嵌入網(wǎng)絡(luò),在保持較高推理速度的同時,擁有較高的準(zhǔn)確性[60]。
表2展示了基于雙階段的UAV視角下多目標(biāo)檢測主要方法對比。
表2 基于雙階段的UAV視角下多目標(biāo)檢測主要算法對比Table 2 Comparison of main multi-object detection algorithms for UAV based on two-stage detection
在UAV視角下的多目標(biāo)檢測,單階段檢測器YOLO系列和SSD系列因優(yōu)勢明顯得到了廣泛的應(yīng)用。Makarov等采用YOLO V2網(wǎng)絡(luò),實現(xiàn)了UAV視角下汽車、大型車輛、建筑物、飛機、直升機和船舶等6類物體的識別[61]。Hossain等將YOLO V3與SSD遷移到邊緣端板載GPU Jetson TX2、Jetson Xavier上實現(xiàn)了UAV對地目標(biāo)的檢測,提供了精確的目標(biāo)位置及類別信息[62]。Li等利用YOLO V3檢測UAV視角中的車輛,通過光流法獲取匹配特征點,精確計算單應(yīng)矩陣[63]。Emiyah等使用YOLO V4實現(xiàn)了UAV視角下的人員與車輛檢測[64]。Yang等以YOLO V3-608網(wǎng)絡(luò)實現(xiàn)目標(biāo)檢測,并使用NMS算法過濾多個檢測邊界框得到最優(yōu)檢測結(jié)果[65]。
除了將原始的單階段檢測器直接應(yīng)用到UAV視角下的多目標(biāo)檢測以外,還有不少學(xué)者針對UAV視角引入的各項問題,從網(wǎng)絡(luò)模型優(yōu)化、引入注意力機制、多尺度特征融合、多種網(wǎng)絡(luò)綜合等多個方面進行改進。
1) 針對UAV造成的小目標(biāo)增多問題。Liu等使用Res Unit_2對YOLO中的ResNet單元和主干網(wǎng)絡(luò)進行改進,連接Darknet的Resblock中具有相同寬度和高度的2個ResNet單元,提出UAV-YOLO網(wǎng)絡(luò),同時預(yù)測多個邊界框和這些框的類概率,減少了因感受野受限導(dǎo)致的小目標(biāo)漏檢問題[66]。Ning等提出YOLO V5m-opt網(wǎng)絡(luò),通過將小目標(biāo)檢測分支的通道尺寸加倍,并減少大目標(biāo)檢測分支的一半通道來優(yōu)化YOLO V5m網(wǎng)絡(luò),實現(xiàn)了精度與速度的平衡[67]。Kapania等聯(lián)合YOLO V3和RetinaNet,利用RetinaNet網(wǎng)絡(luò)在處理小目標(biāo)擁擠情況下的優(yōu)良性能,提升了UAV視角下的檢測精度[68]。Tian等借鑒雙階段設(shè)計理念,提出一種DNOD方法,利用VGG網(wǎng)絡(luò)提取UAV圖像的特征圖,和疑似區(qū)域的位置信息結(jié)合起來進行二次識別,降低了小目標(biāo)的漏檢率,分別與YOLO V4和EfficientDet-D7相結(jié)合,驗證了算法的可靠性和有效性[69]。引入其他網(wǎng)絡(luò)的方法能夠?qū)o人機航拍視頻多目標(biāo)檢測的不同場景特點,選擇不同的結(jié)構(gòu)。但此類方法在處理包含多場景的任務(wù)時,遷移能力與泛化性較差。
2) 針對單維度信息包含特征不足問題。Zhang等在YOLO V3網(wǎng)絡(luò)的3個檢測頭前的第5和第6卷積層之間,插入3個空間金字塔池化(Spatial Pyramid Pooling,SPP)模 塊,設(shè) 計 出SlimYOLO V3-SPP3網(wǎng)絡(luò),豐 富深層特征[70]。劉芳等設(shè)計了TA-ResNet,添加卷積注意力模塊的主干網(wǎng)絡(luò)。提取了目標(biāo)在多個維度上的注意力信息,精簡了網(wǎng)絡(luò)參數(shù)并有效融合了卷積核不同位置的注意力信息[71]。Saetchnikov等通過改進YOLO V4網(wǎng)絡(luò)提出YOLO V4eff網(wǎng)絡(luò),使用4組Cross-stage-partial進行主干網(wǎng)絡(luò)與頸部網(wǎng)絡(luò)的連接,使用Swish函數(shù)作為激活函數(shù),Letterbox 設(shè)為1以保持使用效率[72]。注意力機制通過不同的權(quán)重分配學(xué)習(xí)通道間的特征信息,加強特征的提取能力。但如何合理地使用注意力機制仍值得研究。
3) 針對無人機視角下目標(biāo)類別分布稀疏及不均勻帶來的檢測效率低的問題。Li等提出DS YOLO V3,增加了連接到主干網(wǎng)絡(luò)不同層的多個檢測頭來檢測不同規(guī)模的目標(biāo),并設(shè)計了一個多尺度通道注意力融合模塊,利用通道信息互補[73]。
4) 針對無人機視角下目標(biāo)的視角變化、光線變化、目標(biāo)遮擋等帶來的檢測干擾問題。Liang等在F-SSD的基礎(chǔ)上添加反卷積模塊的額外分支和平均池化來調(diào)整特征融合模塊,反卷積模塊為網(wǎng)絡(luò)引入非線性,增強了網(wǎng)絡(luò)的表示能力;平均池化抑制了因減少參數(shù)總數(shù)和背景信息帶來的網(wǎng)絡(luò)過擬合[74]。Wang等設(shè)計SPB(Strip Bottleneck Module)模塊,可以更好地捕捉目標(biāo)的寬度-高度依賴關(guān)系,達到特征增強的目的,并將其嵌入到Y(jié)OLO V5網(wǎng)絡(luò),得到SPBYOLO網(wǎng)絡(luò),具有較好的檢測多尺度目標(biāo)的能力[75]。
5) 針對無人機平臺上因尺度變化帶來的目標(biāo)漏檢和誤檢問題。Liu等提出擴展卷積和注意力機制相結(jié)合的D-A-FS SSD。在特征提取主干網(wǎng)絡(luò)中使用擴展卷積,增強了網(wǎng)絡(luò)對目標(biāo)分布的特征表達;將負責(zé)檢測小目標(biāo)的低級特征圖與包含更多語義信息的高階特征圖相結(jié)合,提高了小目標(biāo)的檢測精度[76]。Zhang等在YOLO V3的基礎(chǔ)上進行改進提出DAGN網(wǎng)絡(luò),通過注意力模塊與特征連接相結(jié)合,以區(qū)分2個尺度上重要和不重要的特征。將一些標(biāo)準(zhǔn)卷積替換為深度可分離卷積,以抵消注意力模塊帶來的額外計算,并提出聯(lián)合引導(dǎo)Gaussian NMS來提高密集區(qū)域的性能[77]。Jadhav等提出DAN網(wǎng)絡(luò),將RetinaNet每個階段的最后一個殘差塊的特征通過SE(Squeeze and Excitation)模塊傳遞,自適應(yīng)地校準(zhǔn)信道響應(yīng),然后將其送到特征金字塔網(wǎng)絡(luò),產(chǎn)生更好的檢測結(jié)果[78]。Pi等利用FCOS模型在檢測小目標(biāo)方面的出色性能,并將多尺度特征融合技術(shù)應(yīng)用于原始SSD,設(shè)計了F-SSD網(wǎng)絡(luò)。分別從不同層的多個特征圖中生成目標(biāo)位置信息并識別目標(biāo)類別,通過多尺度特征融合模塊,融合了包含精細細節(jié)的淺層特征和具有語義信息的深層特征[79]。Liang等設(shè)計了特征對齊注意網(wǎng)絡(luò)(Feature-aligned Attention Network,F(xiàn)AANet),以RepVGG網(wǎng)絡(luò)作為主網(wǎng)絡(luò),融合空間注意力模塊和特征對齊聚合模塊,集成了多尺度特征[80]。Zhang等以RetinaNet50網(wǎng)絡(luò)為基準(zhǔn),在FPN的P3和P4中添加一個CONV層,將高層特征添加到低層特征,實現(xiàn)了特征融合[81]。Wu等將YOLO V3網(wǎng)絡(luò)的輸入圖像分辨率從224更改為320、416和608這3個可選比例,同時使用金字塔方法檢測3個尺度的目標(biāo)[82]。多尺度特征融合能夠結(jié)合各多層級特征信息,最大限度地利用了多尺度輸出,但在融合過程中常采用串聯(lián)操作,并未客觀地反映各層級之間的信息相關(guān)性,缺少信息交互。如何高效地進行特征融合仍是未來的研究方向。
6) 為了緩解由于計算量大導(dǎo)致推理速度較低的問題。Kyrkou等設(shè)計DroNet網(wǎng)絡(luò),以Tiny-YOLO網(wǎng)絡(luò)為基準(zhǔn),減少了網(wǎng)絡(luò)層數(shù)和每層濾波器的數(shù)量,以提升檢測速度,并隨著網(wǎng)絡(luò)加深,逐漸增加濾波器的數(shù)量,以保持計算需求[83]。Balamuralidhar等提出MultiEYE 網(wǎng)絡(luò),將YOLO V4網(wǎng)絡(luò)的主干網(wǎng)絡(luò)替換為CSPDarkNet53(Lite),參數(shù)量降為原始的1/4,選用ENet做分割頭,增加3組跳躍連接,在減少參數(shù)量的同時提取足夠多的特征[84]。為了減少模型參數(shù)和計算成本,Li等提出ComNet,刪除MobileNetv2中的平均池化層和最后一個卷積層,用改進的Mobile-Netv2替 換YOLO V3網(wǎng)絡(luò)中的DarkNet53[85]。Zhang等在SSD網(wǎng)絡(luò)之前加入PeleNet,以較少的層數(shù)降低了計算量,設(shè)定更寬的網(wǎng)絡(luò)層補償檢測精度,并在最終預(yù)測層之前加入殘差塊,有助于主干網(wǎng)絡(luò)獲得更強的表示能力。殘差塊中使用1×1卷積核替代3×3卷積核減少了21.5%的計算成本,從而加快了模型的推理過程[86]。Wu等以YOLO V5為基準(zhǔn)網(wǎng)絡(luò),與寬殘差CNN網(wǎng)絡(luò)相結(jié)合,只使用YOLO V5檢測的目標(biāo)斑塊作為目標(biāo)特征提取的輸入,在提取到足夠多的目標(biāo)特征的同時,降低了參數(shù)量[87]。
表3展示了基于單階段的UAV視角下多目標(biāo)檢測算法對比。
表3 基于單階段的UAV視角下多目標(biāo)檢測算法對比Table 3 Comparison of main multi-object detection algorithms for UAV based on one-stage detection
回顧近年來UAV視角下基于深度學(xué)習(xí)的多目標(biāo)檢測算法進展,可以總結(jié)得到以下幾點:
1) 雙階段目標(biāo)檢測算法發(fā)展迅速,檢測精度也在不斷提高,但是自身體系結(jié)構(gòu)的問題限制了檢測速度。單階段目標(biāo)檢測算法沒有候選區(qū)域推薦階段,訓(xùn)練過程也相對簡單,可以在一個階段直接確定目標(biāo)類別并得到位置檢測框。
2) 針對UAV視角,進行的改進措施:① 修改網(wǎng)絡(luò)結(jié)構(gòu),擴大感受野;②網(wǎng)絡(luò)輕量化設(shè)計,減少參數(shù)量,提升檢測速度;③ 引入注意力機制,加強特征提?。虎?多尺度特征融合,結(jié)合淺層與深層的特征信息。
3) 發(fā)展趨勢:更多新的方法技巧,如注意力機制、無錨框策略、上下文關(guān)系等,開始應(yīng)用于無人機航拍視頻的多目標(biāo)檢測任務(wù),但并未形成完整體系,主流方法仍然是以基于雙階段和基于單階段的算法。在后續(xù)的研究中,雙階段目標(biāo)檢測算法一是要實現(xiàn)參數(shù)共享以提升運行速度,另一方面是提出新的訓(xùn)練策略使得算法走向端到端的演化。單階段的多目標(biāo)檢測算法需構(gòu)建具有更強表征能力的主干網(wǎng)絡(luò)以提升算法的精度,以及解決目標(biāo)檢測過程中遇到的樣本不均衡等問題。此外,2類網(wǎng)絡(luò)都無法完全有效解決UAV視角帶來的小目標(biāo)問題,因此研究面向UAV視角的小目標(biāo)檢測的深度學(xué)習(xí)算法框架具有重要意義。
多目標(biāo)跟蹤已成為近年來計算機視覺的研究熱點,基于無人機航拍視頻的多目標(biāo)跟蹤(Multi Object Tracking Based on UAV Aerial Video, MOT-UAV) 技術(shù)也得到迅速發(fā)展,目前,TBD已成為MOT-UAV任務(wù)最有效的框架。TBD的跟蹤步驟通常由2個主要部分組成:① 運動模型和狀態(tài)估計,用于預(yù)測后續(xù)幀中軌跡的邊界框;② 將新的幀檢測結(jié)果與當(dāng)前軌跡相關(guān)聯(lián)。處理關(guān)聯(lián)任務(wù)的主要思想有2種:① 目標(biāo)的外觀模型和解決重新識別任務(wù);② 目標(biāo)定位,主要是預(yù)測軌跡邊界框和檢測邊界框之間的交并比。這2種方法都將關(guān)聯(lián)內(nèi)容量化為距離,并將關(guān)聯(lián)任務(wù)作為全局分配問題進行求解。本節(jié)分別對基于目標(biāo)特征建模、基于目標(biāo)軌跡預(yù)測、以及其他方法對無人機視角下的多目標(biāo)跟蹤的研究進展進行綜述。
基于檢測的MOT-UAV其基本流程如圖4所示,TBD通過檢測器獲得目標(biāo)檢測結(jié)果后,將其進行關(guān)聯(lián),分配與前一幀檢測目標(biāo)相關(guān)數(shù)據(jù)的ID。該類型算法能夠聯(lián)合最新的高性能檢測算法,跟蹤部分則被視為數(shù)據(jù)關(guān)聯(lián)問題,旨在提高關(guān)聯(lián)過程的質(zhì)量。
圖4 基于檢測的MOT-UAV框架Fig.4 MOT-UAV framework based on detection
基于目標(biāo)特征建模的多目標(biāo)跟蹤算法是在UAV視角下應(yīng)用最廣泛的TBD方法,通過提取目標(biāo)的顏色、紋理、光流等特征,實現(xiàn)多目標(biāo)跟蹤。提取的這些特征必須是唯一的,以便在特征空間中區(qū)分目標(biāo)。一旦提取出特征,即可利用相似性準(zhǔn)則,在下一幀中找到最相似的目標(biāo)。
1) 基于外觀特征的目標(biāo)建模
Al-Shakarji等提出SCTrack目標(biāo)跟蹤系統(tǒng),使用三階段數(shù)據(jù)關(guān)聯(lián)方案,基于目標(biāo)外觀模型,結(jié)合空間距離以及顯式遮擋處理單元。不僅依賴于被跟蹤目標(biāo)的運動模式,還取決于環(huán)境約束,在處理遮擋目標(biāo)上取得較好效果[88]。Wang等設(shè)計了OSIM網(wǎng)絡(luò),通過VeRi數(shù)據(jù)集訓(xùn)練寬殘差網(wǎng)絡(luò),提取目標(biāo)外觀特征。使用檢測到的邊界框馬氏距離作為運動度量;計算邊界框內(nèi)的像素最小余弦距離作為外觀相似性度量。將2個度量指標(biāo)加權(quán)融合,使用級聯(lián)匹配進行數(shù)據(jù)關(guān)聯(lián),實現(xiàn)了多目標(biāo)的穩(wěn)健跟蹤[89]。Yu等為了解決外觀和運動之間的融合比例常由主觀設(shè)置的問題,提出融合外觀相似性和運動一致性的自適應(yīng)方法,在最新一幀中,計算目標(biāo)與其周圍目標(biāo)之間的外觀相似性,利用Social LSTM網(wǎng)絡(luò)預(yù)測目標(biāo)的運動,使用加權(quán)外觀相似性和運動預(yù)測生成當(dāng)前目標(biāo)和前幀目標(biāo)的關(guān)聯(lián)[90]。Makarov等將Kuhn-Munkres算法用于建立幀間目標(biāo)一對一的對應(yīng)關(guān)系,算法中矩陣的元素是2個連續(xù)幀上目標(biāo)邊界框之間的歐氏距離,并比較目標(biāo)的顏色直方圖來處理目標(biāo)在視野中消失和出現(xiàn)的情況。若直方圖的Bhattacharya距離度量低于某個閾值,則判定此目標(biāo)重新進入視野[61]。Dike等為了解決目標(biāo)物體外觀信息獲取不穩(wěn)定的問題,應(yīng)用深度四元組網(wǎng)絡(luò)(Deep Quadruplet Network,DQN)來跟蹤從擁擠環(huán)境中捕獲的目標(biāo)軌跡?;谒脑M損失函數(shù)來研究特征空間,使用具有6層連接的深度CNN來挖掘空間-光譜特征[57]。
2) 基于光流特征的目標(biāo)建模
光流是圖像中亮度模式的表觀運動,光流算法計算亮度模式在相鄰幀之間的位移,估計圖像中特定像素的位移張力。一些研究人員基于光流進行目標(biāo)建模。Ahn等將CNN和光流相結(jié)合,CNN進行特征提取和分類,同時計算像素的光流矢量,其與運動目標(biāo)對應(yīng),使用KLT(Kanade Lucas-Tomasi)特征實現(xiàn)多目標(biāo)跟蹤[91]。Li等通過光流法獲取匹配特征點,消除檢測目標(biāo)時帶來的誤差,精確計算單應(yīng)矩陣,確定當(dāng)前幀中的真實運動軌跡[63]。Lusk等使用KLT跟蹤算法提取光流特征,生成目標(biāo)的測量值;采用基于單應(yīng)性的圖像配準(zhǔn)方法,將測量值映射到同一坐標(biāo)系中,允許檢測獨立移動的物體;引入R-RANSAC算法使用視覺測量提取雜波中的目標(biāo)[92]。Li等為了解決因攝像機運動導(dǎo)致的檢測精度降低的問題,融合光流信息,設(shè)計了Flowtracker跟蹤器。使用光流網(wǎng)絡(luò)降低攝像機運動干擾,采用輔助跟蹤器處理檢測缺失的問題,同時融合外觀和運動信息來提高匹配精度[93]。Yang等為了解決在目標(biāo)位置變化過大的低幀速率情況下引起的跟蹤丟失問題,提出基于密集軌跡投票的方法,將問題建模為密集光流軌跡到目標(biāo)ID的投票問題,計算相鄰幀中的密集光流,根據(jù)每個檢測邊界框中光流軌跡的結(jié)果測量相鄰幀中目標(biāo)之間的相似性,并通過數(shù)據(jù)關(guān)聯(lián)獲得跟蹤結(jié)果[65]。Ard?將多目標(biāo)跟蹤問題模擬為網(wǎng)絡(luò)流優(yōu)化問題,引入廣義圖差(Generalized Graph Differences,GGD),從數(shù)據(jù)中有效地學(xué)習(xí)此類問題的權(quán)重,使用稀疏光流特征點生成KLT軌跡,將目標(biāo)錨點與目標(biāo)框連接起來,通過加入上述長連接將完整的跟蹤分解為單個跟蹤,解決了因遮擋導(dǎo)致的特征點跳躍問題[94]。
3) 基于多維特征的目標(biāo)特征建模
除了將單獨維度特征應(yīng)用于多目標(biāo)跟蹤,同時應(yīng)用外觀特征、位置信息、時間信息等進行多目標(biāo)跟蹤也是一條技術(shù)途徑。Fu等提出一種多車輛跟蹤模型,使用改進的ResNet-18網(wǎng)絡(luò)提取車輛的重識別特征,結(jié)合軌跡信息和位置信息構(gòu)建相似矩陣,獲得幀間車輛目標(biāo)的最佳匹配[95]。Zhang等提出Tracklet Net多目標(biāo)跟蹤算法,利用時間和外觀信息來跟蹤地面目標(biāo)?;诙嘁晥D立體技術(shù)估計的組平面來定位跟蹤的地面目標(biāo),最大限度地減少跨幀間的光度誤差,生成準(zhǔn)確平滑的運動軌跡[81]。He等受注意力機制的啟發(fā),利用語境注意、維度注意和時空注意等多級視覺注意力,將上下文信息合并到濾波器訓(xùn)練階段,同時感知目標(biāo)和環(huán)境的外觀變化,利用響應(yīng)圖的維度和時空注意力來增強特征,以更好地抑制噪聲[96]。Stadler等設(shè)計了PAS跟蹤器,考慮了目標(biāo)的位置、外觀和大小信息,計算所有檢測結(jié)果和預(yù)測軌跡之間的相似性度量,并將其收集在成本矩陣中,用匈牙利方法求解分配問題[97]。
4) 相關(guān)濾波器
相關(guān)濾波源自信號處理領(lǐng)域,相關(guān)性用于表示2個信號的相似程度。通過對下一幀的圖像與指定濾波模板做卷積操作,將響應(yīng)最大的區(qū)域判定為預(yù)測的目標(biāo),實現(xiàn)多目標(biāo)跟蹤。其流程為:候選樣本獲取→特征提取→目標(biāo)定位→模型更新。
Li等設(shè)計了一種基于時隙的跟蹤算法,將跟蹤過程劃分為多個時隙。為了利用真實背景信息,采用背景感知相關(guān)濾波器(Backgroundaware Correlation Filter,BACF)擴大搜索區(qū)域,從背景中提取真實的負訓(xùn)練樣本[98]。Li等以BACF作為基準(zhǔn)濾波器,融合上下文學(xué)習(xí)策略,提出基于相關(guān)濾波器的Keyfilter感知跟蹤器,利用上下文信息賦予濾波器更強的識別能力,有效地緩解了背景雜波、描述不足、遮擋、光照變化等問題。從周期性關(guān)鍵幀中生成Keyfilter,抑制了當(dāng)前濾波器的損壞變化,充分提高了跟蹤效率[99]。Balamuralidhar等使用相關(guān)濾波器以較高的計算速度和精度估計被跟蹤目標(biāo)的位置,將最小輸出平方誤差和(Minimum Output Sum of Squared Error,MOSSE)算法用于目標(biāo)跟蹤[84]。使用前2幀進行初始化,檢測邊界框裁剪自序列的第1幀,使用自然對數(shù)變換和離散傅里葉變換對其實現(xiàn)對比度的增強并轉(zhuǎn)至頻域表示,此后生成一個合成目標(biāo)用于初始化跟蹤器并在跟蹤過程中更新濾波器[70]。
基于目標(biāo)特征建模的多目標(biāo)跟蹤算法在無人機航拍視頻上取得了穩(wěn)健的跟蹤,但在處理長時跟蹤、消失又重現(xiàn)的特殊目標(biāo)時仍存在問題。
表4展示了基于目標(biāo)特征建模的UAV視角下多目標(biāo)跟蹤主要算法對比。
表4 基于目標(biāo)特征建模的UAV視角下多目標(biāo)跟蹤主要算法對比Table 4 Comparison of main algorithms for multi-object tracking for UAV based on target feature modeling
基于目標(biāo)軌跡預(yù)測的方法將跟蹤描述為估計問題,通過目標(biāo)的位置狀態(tài)向量描述目標(biāo)的動態(tài)行為。其一般框架取自貝葉斯濾波器,包含預(yù)測和更新2步。預(yù)測步驟使用狀態(tài)模型估計目標(biāo)在下一幀中的位置,而更新步驟基于觀測模型由當(dāng)前觀測值更新目標(biāo)的位置。常用的基于目標(biāo)軌跡的方法主要有卡爾曼濾波與DeepSORT框架。
1) 基于卡爾曼濾波的目標(biāo)軌跡預(yù)測
卡爾曼濾波是遞歸貝葉斯估計在誤差為高斯分布時的一種特例,通過卡爾曼濾波(Kalman Filter,KF)預(yù)測下一幀中的目標(biāo)軌跡邊界框,再將其與檢測邊界框相關(guān)聯(lián)實現(xiàn)跟蹤。Baykara等采用Squeeze Net網(wǎng)絡(luò)檢測目標(biāo),使用卡爾曼濾波進行目標(biāo)跟蹤,實現(xiàn)了UAV視角下多目標(biāo)的跟蹤與分類[34]。Xu等在概率數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上聯(lián)合卡爾曼濾波,提出JPDA(Joint Probabilistic Data Association)方案。估計每個目標(biāo)所有可能的匹配情況,基于聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)似然方法,將更新后的狀態(tài)作為下一幀的前一個目標(biāo)狀態(tài),但未建模運動可能導(dǎo)致目標(biāo)虛假跟蹤[100]。Lee等將移動目標(biāo)的質(zhì)心作為跟蹤的輸入,采用卡爾曼濾波估計目標(biāo)的動態(tài)狀態(tài)[101]。王旭辰等使用 Car-Reid數(shù)據(jù)集訓(xùn)練殘差網(wǎng)絡(luò)提取目標(biāo)外觀信息,使用卡爾曼濾波提取目標(biāo)運動信息,2種信息經(jīng)整合得到成本矩陣,最后由匈牙利匹配算法得到跟蹤結(jié)果[102]。Luo等將YOLO V5用于特征提取,卡爾曼濾波器提取目標(biāo)運動信息并更新預(yù)測,利用匈牙利匹配算法得到跟蹤結(jié)果[103]。
除了將卡爾曼濾波直接應(yīng)用到目標(biāo)軌跡預(yù)測之外,也有不少學(xué)者對其進行了改進或融合其他方法。Wu等為了解決因UAV導(dǎo)致的目標(biāo)偏移,基于卡爾曼濾波和單應(yīng)性變換(Kalman Filter and Homography Transformation,KFHT) 設(shè)計了運動補償模型,預(yù)測目標(biāo)位置并補償位置偏移。利用目標(biāo)的特征相似性和位置關(guān)聯(lián)匹配完成目標(biāo)識別,減少了目標(biāo)ID交換的數(shù)量[87]。Khalkhali等提出SAIKF(Situation Assessment Interactive Kalman Filter),利用從同一環(huán)境的交通歷史中提取的態(tài)勢評估信息,來提高跟蹤性能[104]。
2) 基于DeepSORT的目標(biāo)軌跡預(yù)測
以卡爾曼濾波為基礎(chǔ)的DeepSORT框架是現(xiàn)階段在UAV視角下多目標(biāo)跟蹤中應(yīng)用最多的框架,其假設(shè)目標(biāo)運動為勻速狀態(tài),如圖5所示[105]。Kapania等在MARS數(shù)據(jù)集上預(yù)訓(xùn)練CNN模型生成深度關(guān)聯(lián)矩陣,結(jié)合外觀特征和運動信息,通過減少ID交換的數(shù)量,提高軌跡準(zhǔn)確性,在DeepSort框 架 中 實 現(xiàn) 多 目 標(biāo) 跟 蹤[68]。Emiyah等使用YOLO V4進行目標(biāo)檢測,在DeepSORT框架下實現(xiàn)了UAV視角下的目標(biāo)跟蹤[64]。Ning等采用YOLO V5獲得目標(biāo)實時位置,聯(lián)合DeepSORT框架實現(xiàn)了目標(biāo)的速度測量[67]。Jadhav等設(shè)計深度關(guān)聯(lián)網(wǎng)絡(luò),根據(jù)深度特征相似性對目標(biāo)評分,同時跟蹤相似類的多個目標(biāo),將檢測器提供的置信度與深度關(guān)聯(lián)度量融合,傳遞到DeepSORT網(wǎng)絡(luò)中,生成目標(biāo)軌跡,提升了對目標(biāo)置信度較高但深度關(guān)聯(lián)較低的目標(biāo)的跟蹤準(zhǔn)確率[78]。Avola等利用從邊界框得到的視覺外觀,結(jié)合Deep SORT描述UAV航拍視頻序列中的目標(biāo)軌跡[36]。
圖5 DeepSORT框架[105]Fig.5 DeepSORT framework[105]
除了將DeepSORT直接應(yīng)用于UAVMOT,眾多學(xué)者針對UAV視角下多目標(biāo)跟蹤出現(xiàn)的問題做出了各種相應(yīng)改進。Huang等通過不同的預(yù)測網(wǎng)絡(luò)生成目標(biāo)邊界框,對所有軌跡和檢測結(jié)果進行級聯(lián)匹配,通過GIOU匹配進行未匹配跟蹤和檢測,生成最終軌跡[38]。Du等以Deep-SORT為基礎(chǔ)框架,采用全局信息和一些優(yōu)化策略,設(shè)計了GIAO Tracker。用OSNet替換Deep-SORT中的簡單特征提取器,利用全局線索將其關(guān)聯(lián)到軌跡中,并提出EMA(Exponential Moving Average)策略,實現(xiàn)小軌跡和檢測結(jié)果之間更精確的關(guān)聯(lián)[43]。Wu等針對DeepSORT預(yù)訓(xùn)練的外觀提取模型未包含車輛外觀信息的問題,利用輕型ShuffleNet V2網(wǎng)絡(luò)對VeRi數(shù)據(jù)進行車輛重識別訓(xùn)練,提取外觀信息,加入到DeepSORT中[106]。Wu等將YOLO V4 Tiny與DeepSORT網(wǎng)絡(luò)相結(jié)合,設(shè)計了SORT-YM網(wǎng)絡(luò),利用目標(biāo)在被遮擋前的信息,通過多幀信息來預(yù)測目標(biāo)的位置,一定程度上解決了目標(biāo)遮擋的問題[107]。
表5展示了基于目標(biāo)軌跡預(yù)測的UAV視角下多目標(biāo)跟蹤主要算法對比。
表5 基于目標(biāo)軌跡預(yù)測的UAV視角下多目標(biāo)跟蹤算法對比Table 5 Comparison of multi-object tracking algorithms for UAV based on target trajectory prediction
除了上述基于目標(biāo)特征與軌跡預(yù)測的多目標(biāo)跟蹤算法以外,基于單目標(biāo)跟蹤輔助、記憶網(wǎng)絡(luò)增強、交并比(Intersection over Union,IOU)、聯(lián)合檢測與跟蹤等方法也被應(yīng)用于無人機航拍視頻的多目標(biāo)跟蹤。
1) 基于單目標(biāo)跟蹤輔助的UAV-MOT
基于單目標(biāo)跟蹤輔助的算法分別對單個目標(biāo)實行完整的跟蹤策略,相對于檢測類算法,SOT使用的跟蹤器包含了當(dāng)前目標(biāo)外觀特征和位置等時序更新的信息,已成功應(yīng)用于多種場景。Chen等提出四階段級聯(lián)框架用于UAV航拍視角下的多目標(biāo)跟蹤,將基于數(shù)據(jù)關(guān)聯(lián)與使用壓縮的多目標(biāo)跟蹤算法相結(jié)合。在每個關(guān)聯(lián)階段,將不同的軌跡集合和檢測結(jié)果關(guān)聯(lián)起來,同時單目標(biāo)跟蹤與假設(shè)匹配結(jié)合后,用于目標(biāo)重識別,在處理小目標(biāo)跟蹤、目標(biāo)遮擋時取得較好效果[108]。Yu等將目標(biāo)和UAV運動分別視為個體運動和全局運動。利用Social LSTM網(wǎng)絡(luò)來估計個體運動,構(gòu)建連體網(wǎng)絡(luò)來生成全局運動,利用Siamese網(wǎng)絡(luò)提取相鄰幀的視圖變化進行全局運動分析,個體運動與全局運動信息輸入生成對抗網(wǎng)絡(luò),獲得了穩(wěn)健的MOT性能[109]。Pan等結(jié)合SOT和卡爾曼濾波提出HMTT (Hierarchical Multi Target Tracker)方法,使用具有學(xué)習(xí)全尺度特征能力的OSNet網(wǎng)絡(luò)提取ReID特征以表示邊界框,計算每對邊界框與兩條軌跡的歐氏特征距離。盡管緩解了遮擋問題,但在目標(biāo)長期消失的情況下跟蹤效果差[110]。Bahmanyar等提出基于卷積神經(jīng)網(wǎng)絡(luò)的方法SMSOT-CNN來跟蹤UAV航拍視頻中的多個車輛和行人,利用Micro CNNs負責(zé)單個目標(biāo)跟蹤任務(wù),使用雙流CNN從每個目標(biāo)的連續(xù)幀中提取特征,預(yù)測目標(biāo)在當(dāng)前幀中的位置[111]。
2) 基于記憶網(wǎng)絡(luò)增強的UAV-MOT
MOT可以通過歷史軌跡信息判斷新的目標(biāo)狀態(tài)。因此,可以設(shè)計一個能夠記憶歷史信息的網(wǎng)絡(luò)結(jié)構(gòu),并基于該歷史信息學(xué)習(xí)匹配相似性度量,從而提高MOT的性能。在所有RNN中,LSTM網(wǎng)絡(luò)在處理序列問題上表現(xiàn)出了可靠的性能。LSTM的特殊結(jié)構(gòu)使其能夠長時間保留信息,并且可以克服傳統(tǒng)RNN的梯度消失和爆炸問題。Azimi等設(shè)計AerialMPTNet網(wǎng)絡(luò),使用LSTM獲取時間信息,通過信道自適應(yīng)加權(quán),采用GSD自適應(yīng)歐氏距離進行連續(xù)幀中的目標(biāo)關(guān)聯(lián)[42]。Saetchnikov等為了能夠同時保留目標(biāo)的特征信息和軌跡的長時信息,設(shè)計了雙向LSTM,分別用于前向序列和后向序列,能夠更好地理解視頻序列。將LSTM中的完全連接層替換為卷積層,解決了標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)通過全連接層進行矢量化和編碼造成的空間信息丟失的問題[72]。
3) 基于IOU的TBD的方法
除了上述2類基于檢測的UAV-MOT方法,也有應(yīng)用IOU擴展的方法。Marvasti-Zadeh等為了解決小目標(biāo)的問題,引入一種上下文感知IOU引導(dǎo)跟蹤器,利用多任務(wù)雙流網(wǎng)絡(luò)和離線參考建議生成策略,網(wǎng)絡(luò)僅從ResNet-50的block3和block4中提取特征,以利用空間和語義特征,同時減少了參數(shù)數(shù)量,通過多尺度特征學(xué)習(xí)和注意力模塊充分利用目標(biāo)相關(guān)信息[112]。Youssef等使用匈牙利算法生成最優(yōu)軌跡,替代原始使用的貪婪方法進行軌跡分配,并使用特定閾值篩選假陽性軌跡,但沒有利用到目標(biāo)檢測器提取的豐富圖像特征,在最終的跟蹤效果上有一點劣勢[59]。
4) 基于聯(lián)合檢測與跟蹤的UAV-MOT
JDT框架以及計算機硬件發(fā)展迅速,其受到了UAV視角下多目標(biāo)跟蹤研究者的重視,并得到了推廣應(yīng)用。Zhang等將目標(biāo)跟蹤中關(guān)注的特定實例替換為同類目標(biāo),設(shè)計了BES(Boundingbox Estimation State)網(wǎng)絡(luò),含2個子網(wǎng)絡(luò):實例感知注意力網(wǎng)絡(luò)用于對給定目標(biāo)基于實例的先驗知識進行建模,實例感知IOU網(wǎng)絡(luò)則根據(jù)不同提議估計IOU分數(shù)。跟蹤過程中通過梯度上升使得分值最大化來獲得最終的限定框[39]。Lee等以FairMOT網(wǎng)絡(luò)為基礎(chǔ)設(shè)計了能夠同時執(zhí)行目標(biāo)檢測和特征提取的Single-Shot MOT網(wǎng)絡(luò),提高了推理速度,以EfficientNet作為主干生成3個多尺度特征圖,特征通過雙向特征金字塔網(wǎng)絡(luò)進行特征融合,完成目標(biāo)的匹配[60]。Liang等設(shè)計了特征對齊注意網(wǎng)絡(luò)(Feature Aligned Attention Network,F(xiàn)AANet),以RepVGG網(wǎng)絡(luò)為主網(wǎng)絡(luò),融合空間注意模塊和特征對齊聚合模塊,集成了多尺度特征,同時采用JDT框架和結(jié)構(gòu)重參數(shù)化技術(shù)提升了實時性[80]。
表6展示了其他UAV視角下多目標(biāo)跟蹤算法對比。
表6 其他UAV視角下多目標(biāo)跟蹤算法對比Table 6 Comparison of other multi-object tracking algorithms for UAV
回顧近年來UAV視角下基于深度學(xué)習(xí)的多目標(biāo)跟蹤進展,經(jīng)分析總結(jié)得到以下幾點:
1) TBD框架的優(yōu)點:檢測器與特征提取應(yīng)用深度學(xué)習(xí)對多目標(biāo)跟蹤效果提升明顯?;谏疃葘W(xué)習(xí)的特征提取器提取到了更加精確的外觀特征,在處理目標(biāo)遮擋、目標(biāo)重現(xiàn)、背景干擾等問題上表現(xiàn)良好,獲得了穩(wěn)定的多目標(biāo)跟蹤性能。
2) TBD框架的缺點:運行效率低。TBD模式不能同時執(zhí)行目標(biāo)檢測和特征提取,導(dǎo)致基于TBD模式的多目標(biāo)跟蹤算法難以實現(xiàn)精度和速度的均衡。
3) TBD框架的改進方法:① 進一步發(fā)揮深度特征的優(yōu)勢,將更有效的特征與TBD框架相結(jié)合;② 融合多種特征,提取更多的有效信息,包括外觀、時間、圖形等特征;③ 與LSTM相結(jié)合,借助其能夠長時間保留信息的能力。
4) UAV視角下基于深度學(xué)習(xí)的多目標(biāo)跟蹤發(fā)展趨勢:近年來的主流框架仍然為TBD框架。JDT框架、循環(huán)神經(jīng)網(wǎng)絡(luò)、動態(tài)記憶網(wǎng)絡(luò)等更多新的網(wǎng)絡(luò)結(jié)構(gòu)和注意力機制、無錨點策略、上下文關(guān)系等方法技巧,開始應(yīng)用于UAV視角下多目標(biāo)跟蹤任務(wù)。此外,無論是早期的算法還是后來的網(wǎng)絡(luò),都無法有效應(yīng)對長時間多目標(biāo)跟蹤任務(wù), 因此面向長時間多目標(biāo)跟蹤的深度學(xué)習(xí)算法框架將對多目標(biāo)跟蹤領(lǐng)域具有重要意義。
隨著基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法的發(fā)展,研究人員為數(shù)據(jù)集的構(gòu)建做出了巨大貢獻,促進了相關(guān)課題的算法驗證與性能對比。
Stanford Drone 數(shù)據(jù)集[113]:Stanford大學(xué)于2016年公布的大規(guī)模目標(biāo)跟蹤數(shù)據(jù)集,使用無人機在校園擁擠的時間段以俯視的方式收集了8個不同的場景下20 000個物體的軌跡交互信息,每個物體的軌跡都標(biāo)注唯一的 ID,包含10種目標(biāo)類型,19 000多個對象,包括112 000名行人、64 000輛自行車、13 000輛汽車、33 000名滑板手、22 000輛高爾夫球車和11 000輛公共汽車,均可用于多目標(biāo)檢測與跟蹤。數(shù)據(jù)集重點關(guān)注了目標(biāo)與目標(biāo)之間、目標(biāo)與環(huán)境之間的交互信息。當(dāng)2個目標(biāo)有交集時,目標(biāo)的軌跡將發(fā)生變化,標(biāo)注了185 000個目標(biāo)之間的交互信息。當(dāng)目標(biāo)在其周圍沒有其他目標(biāo)的情況下軌跡偏離線性軌跡時,目標(biāo)會與空間發(fā)生交互作用,標(biāo)注了大約40 000個目標(biāo)與環(huán)境的交互。
UAVDT (UAV Detection and Tracking)數(shù)據(jù)集[114]:中國科學(xué)院大學(xué)于2018年設(shè)計的大型車輛檢測和跟蹤數(shù)據(jù)集,包含100段視頻和80 000個視頻幀,大約2 700輛車和84萬個邊界框,圖像分辨率為1 080×540,包括廣場、主干道、收費站、高速公路、路口等場景,可用于車輛目標(biāo)檢測、單車跟蹤、多車跟蹤等任務(wù)。針對MOT數(shù)據(jù)集涵蓋了各種天氣條件(白天、夜晚和霧)、目標(biāo)遮擋和距地高度。特別的,在日光下拍攝的視頻會引入陰影的干擾,夜景下幾乎沒有任何紋理信息,在霧中拍攝的幀缺少清晰的細節(jié),因此目標(biāo)的輪廓在背景中消失。在高海拔視角下,大量的目標(biāo)則不太清晰。針對多目標(biāo)檢測還標(biāo)記了另外3個屬性,包括車輛類別、車輛遮擋率和截斷率。遮擋率表示目標(biāo)被遮擋部分的占比,截斷率表示目標(biāo)出現(xiàn)在幀外部分的占比。車輛類別包括轎車、卡車和公共汽車;車輛遮擋率分為無遮擋(0%)、小遮擋(1%~30%)、中等遮擋(30%~70%)和大遮擋(70%~100%)4檔;車輛在視野邊緣的截斷率分為無截斷(0%)、小截斷(1%~30%)和中等截斷(30%~50%)3檔,當(dāng)視野外占比>50%時,目標(biāo)將被丟棄。
VisDrone2018數(shù)據(jù)集[115]: 天津大學(xué)、GE全球研究院和天普大學(xué)于2018提出的大型視覺目標(biāo)檢測和跟蹤數(shù)據(jù)集,包含263段視頻,共計179 264個視頻幀和10 209個靜態(tài)圖像,標(biāo)注有超過250萬個目標(biāo)信息,涵蓋行人、汽車、自行車和三輪車等多個目標(biāo)。圖像分辨達到了3 840×2 166,能夠應(yīng)用于目標(biāo)檢測、單目標(biāo)跟蹤和多目標(biāo)跟蹤等任務(wù)。刪除了目標(biāo)較少區(qū)域的標(biāo)注
VisDrone 2019數(shù) 據(jù) 集[116]:與VisDrone2018相比,VisDrone 2019增加了25段長跟蹤視頻,共82 644幀,12個視頻采集與白天,其余在晚上采集,提升了數(shù)據(jù)集小目標(biāo)數(shù)量和背景干擾。Vis-Drone2019共計包含了288段視頻,共計261 908個代表幀和10 209個靜態(tài)圖像。數(shù)據(jù)集還提供了遮擋率和截斷率,如果目標(biāo)的截斷率>50%,則在評估期間跳過該目標(biāo)。
BIRDSAI數(shù)據(jù)集[117]:哈佛大學(xué)于2020年使用TIR攝像頭在多個非洲保護區(qū)采集的數(shù)據(jù)集,包含48段TIR視頻和124段由AirSim-W生成的合成航空TIR視頻,分辨率為640×480。該數(shù)據(jù)集包含具有尺度變化、背景雜波、角度旋轉(zhuǎn)和運動模糊等變化,目標(biāo)類別包括人和動物(獅子、大象、鱷魚、河馬、斑馬和犀牛)。如果圖像中存在偽影,則將對象標(biāo)記為包含噪聲。若目標(biāo)完全無法區(qū)分(例如,多個人類或動物靠近在一起,在熱成像中無法區(qū)分),則不標(biāo)記它們。同時,目標(biāo)超過50%的部分不在幀中,則不會對其進行標(biāo)記。
CARPK(Car Parking Lot Dataset)數(shù) 據(jù)集[118]:臺灣大學(xué)于2017年提出的大規(guī)模車輛檢測和計數(shù)數(shù)據(jù)集,是無人機視角的第1個停車場數(shù)據(jù)集,覆蓋了4個不同停車場的近90 000輛汽車。單幀圖像中的最大車輛尺寸?64×64,單個場景中的最大車輛數(shù)為188,所有標(biāo)記的邊界框都采用左上角點和右下角點進行標(biāo)注。只要確定目標(biāo)是1輛車,包括位于圖像邊緣的汽車,均對其進行標(biāo)注。
DAC-SDC(Design Automation Conference-System Design Contest)數(shù) 據(jù) 集[119]:University of Notre Dame于2018年提出的目標(biāo)檢測數(shù)據(jù)集,它包含95個類別和150 000個不同視角拍攝的圖像,分辨率640×360,大多數(shù)目標(biāo)大小占比圖像的1%~2%。在該數(shù)據(jù)集中,圖像亮度和信息量仍然保持良好的平衡,大多數(shù)圖像具有中等亮度/信息量,小部分圖像包含太大或太小的亮度/信息,類似于高斯分布。
MOR-UAV(Moving Object Recognition in UAV Videos)數(shù) 據(jù) 集[120]:Malaviya National Institute of Technology Jaipur于2020年提出的用于運動目標(biāo)檢測的大型視頻數(shù)據(jù)集,包含30段視頻,10 948個代表幀,標(biāo)注了約89 783個運動目標(biāo),分辨率從1 280×720到1 920×1 080不等。收集場景包括大量車輛出現(xiàn)的立交橋、停車場和交通信號交叉口的目標(biāo)稠密地區(qū)以及森林、農(nóng)業(yè)和其他背景復(fù)雜的目標(biāo)稀少地區(qū)。數(shù)據(jù)集涵蓋了各種場景,包括遮擋、夜間、天氣變化、相機運動、變化的高度、不同的相機視圖和角度等各種具有挑戰(zhàn)性的場景,可用于多目標(biāo)檢測與跟蹤任務(wù)。目標(biāo)最小標(biāo)注框為6×6,最大為181×106。
Drone Vehicle數(shù)據(jù)集[121]:天津大學(xué)于2020年提出的目標(biāo)檢測和計數(shù)數(shù)據(jù)集,由配備攝像頭的無人機捕獲RGB和熱紅外圖像,包含15 532對圖像,涵蓋照明、遮擋和比例變化,分辨率為840×712,拍攝范圍包括城市道路、住宅區(qū)、停車場、高速公路等。
AU-AIR (A Multi-modal Unmanned Aerial Vehicle)數(shù)據(jù)集[122]:Aarhus University于2020年通過多模式傳感器(即視覺、時間、位置、高度、IMU、速度)進行采集到的數(shù)據(jù)集,包含8段視頻,共計32 823個提取幀,分辨率1 920×1 080。數(shù)據(jù)集8種目標(biāo)類型,包括人、汽車、公共汽車、面包車、卡車、自行車、摩托車和拖車,均可用于靜態(tài)或視頻目標(biāo)檢測。數(shù)據(jù)集涵蓋了一天中所有時間段和天氣條件(陽光充足、部分陽光充足、多云)導(dǎo)致的各種照明條件。飛行高度在10、20和30 m之間變化,相機角度從45°調(diào)整到90°(垂直于地球)。同時在注釋時將邊界框重疊超過75%的目標(biāo)進行合并。
MOHR (Multi-Scale Object Detection in High Resolution UAV Images)數(shù) 據(jù) 集[123]:該數(shù)據(jù)集在郊區(qū)、山區(qū)、雪地和沙漠地區(qū)采集。包括3 048幅分辨率為5 482×3 078的圖像、5 192幅分辨率為7 360×4 912的圖像和2 390幅分辨率為8 688×5 792的圖像。標(biāo)注了90 014個帶有標(biāo)簽和邊界框的目標(biāo),其中包括25 575輛汽車、12 957輛卡車、41 468棟建筑、7 718處洪水破壞和2 296處坍塌,包含了目標(biāo)的尺度變化。建筑類別注釋側(cè)重于臨時建筑,這些建筑可能是未經(jīng)批準(zhǔn)的建筑項目,通常有顏色鮮艷、高度較低的鐵屋頂。洪水破壞的陰影總是小于崩塌圖像中的。數(shù)據(jù)集將覆蓋0.05%或更少像素的目標(biāo)定義為微小目標(biāo),低于0.5%的目標(biāo)定義為小目標(biāo)。數(shù)據(jù)集中97.08%的汽車、77.10%的卡車、31.21%的建筑、86.93%的坍塌和62.37%的洪水破壞為小目標(biāo)。
UVSD (UAV based Vehicle Segmentation Dataset)數(shù)據(jù)集[53]:基于UAV的車輛分割數(shù)據(jù)集,該數(shù)據(jù)集包括5 874幅圖像,具有多個格式注釋,其中98 600個目標(biāo)實例具有高質(zhì)量的實例級語義注釋。圖像分辨率從960×540到5 280×2 970像素不等。目標(biāo)包含視點變化、大規(guī)模變化、局部遮擋、密集分布、照明變化等特點。數(shù)據(jù)集除了常規(guī)的像素級實例注釋和水平方向邊界框的注釋格式外,還增加了OBB(Orientated Bounding Box)格式的標(biāo)注,其邊界框為相對于坐標(biāo)軸方向任意的最小的長方形,方向具有任意性,可以根據(jù)被包圍目標(biāo)的形狀特點盡可能緊密地包圍目標(biāo)。若車輛目標(biāo)的截斷率超過80%,則無需對該車輛進行標(biāo)記和測試。
表7列舉了面向UAV視角的多目標(biāo)檢測與跟蹤的主流數(shù)據(jù)集。部分數(shù)據(jù)集樣例如圖6所示,MTD代表多目標(biāo)檢測任務(wù),MOT代表多目標(biāo)跟蹤任務(wù)。
表7 面向UAV視角的多目標(biāo)檢測與跟蹤的主流數(shù)據(jù)集Table 7 Main data set of multi object detection and tracking for UAV
圖6 常用數(shù)據(jù)集示例Fig.6 Example of common datasets
混淆矩陣是深度學(xué)習(xí)模型問題的評價基礎(chǔ),可更全面地評價預(yù)測結(jié)果,統(tǒng)計正確和不正確預(yù)測的數(shù)量,并按照類別進行細分?;煜仃囋谶M行預(yù)測結(jié)果判定時不僅能展示模型的缺點,還能了解發(fā)生錯誤的類型,降低僅使用分類準(zhǔn)確率所帶來的制約?;煜仃嚾鐖D7所示。
圖7 混淆矩陣Fig.7 Confusion matrix
TP:檢測值與真實值相同,均為正樣本;TN:檢測值與真實值相同,均為負樣本;FP:檢測值與真實值不同,檢測值為正樣本;FN:檢測值與真實值不同,檢測值為負樣本。在混淆矩陣的基礎(chǔ)上,針對多目標(biāo)檢測與多目標(biāo)跟蹤的具體問題,衍生出了多種更高級的評價指標(biāo)。
4.2.1 多目標(biāo)檢測評價指標(biāo)
評價多目標(biāo)檢測算法的優(yōu)劣時,主要遵循2個原則,一是能否正確地預(yù)測框內(nèi)目標(biāo)的類別,二是預(yù)測的框和人工標(biāo)注框的重疊比例。在此基礎(chǔ)上設(shè)計的評價指標(biāo)如表8所示,所有指標(biāo)均是值越大,效果越好。
表8 多目標(biāo)檢測評價指標(biāo)Table 8 Multi object detection evaluation index
4.2.2 多目標(biāo)跟蹤指標(biāo)
多目標(biāo)跟蹤的主要目的是在所有視頻幀中找到正確數(shù)量的目標(biāo),并盡可能精確地估計每個目標(biāo)的位置,還應(yīng)該隨著時間的推移保持對每個目標(biāo)的一致跟蹤:應(yīng)該為每個目標(biāo)分配一個唯一的跟蹤ID,該ID在整個序列中保持不變。因此多目標(biāo)跟蹤的評價指標(biāo)主要遵循以下設(shè)計標(biāo)準(zhǔn):
1) 判斷跟蹤器在確定精確目標(biāo)位置時的精度。
2) 反映出其隨時間一致跟蹤目標(biāo)配置的能力,即正確跟蹤目標(biāo)軌跡,每個目標(biāo)只產(chǎn)生一條軌跡。
針對此標(biāo)準(zhǔn),Bernardin等提出MOTP、MOTA指標(biāo)[124]。為了判斷跟蹤器是否能夠長時間地對某個目標(biāo)進行準(zhǔn)確地跟蹤,Ristani等引入IDF1、IDP和IDR指標(biāo),以衡量跟蹤器的ID維持能力[125]。Luiten等基于Jaccard相似系數(shù)設(shè)計了HOTA,將精確檢測、關(guān)聯(lián)和定位的效果綜合到統(tǒng)一的度量中,同時分解為一系列子度量,能夠單獨評估多種基本錯誤類型[126]。多目標(biāo)跟蹤評價指標(biāo)對比如表9所示,帶有“↑”的指標(biāo)表示數(shù)值越大效果越好,帶有“↓”的指標(biāo)表示數(shù)值越小效果越好。
表9 多目標(biāo)跟蹤評價指標(biāo)Table 9 Multi object tracking evaluation indicators
VisDrone Challenge挑戰(zhàn)賽由計算機視覺會議ICCV(International Conference on Computer Vision)與ECCV(European Conference on Computer Vision)舉辦,數(shù)據(jù)集由天津大學(xué)機器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒炇业腁ISKYEYE團隊收集,設(shè)置了針對無人機視角下的目標(biāo)檢測與跟蹤的多條賽道,VisDrone數(shù)據(jù)集也成為無人機領(lǐng)域標(biāo)桿數(shù)據(jù)集,業(yè)界多篇論文也采用此數(shù)據(jù)集進行實驗驗證與性能對比。VisDrone挑戰(zhàn)賽側(cè)重于不同特點的無人機目標(biāo)檢測與跟蹤問題。包括:① 基于圖像的目標(biāo)檢測,旨在從無人機拍攝的單幅圖像中檢測預(yù)定類別的目標(biāo);② 基于視頻的目標(biāo)檢測,該任務(wù)與基于圖像的目標(biāo)檢測類似,但需從視頻中檢測目標(biāo);③ 單目標(biāo)跟蹤,估計單個目標(biāo)在后續(xù)視頻幀中的狀態(tài);④ 多目標(biāo)跟蹤,旨在恢復(fù)每個視頻幀中目標(biāo)的軌跡。表10和表11分別展示了VisDrone挑戰(zhàn)賽2018―2021年多目標(biāo)檢測與多目標(biāo)跟蹤賽道排名前5的算法與評估結(jié)果。
表10 VisDrone挑戰(zhàn)賽多目標(biāo)檢測競賽結(jié)果評估Table 10 Evaluation of multi object detection competition results of VisDrone Challenge
多目標(biāo)檢測競賽結(jié)果表明,多個網(wǎng)絡(luò)的組合可有效提高目標(biāo)檢測的準(zhǔn)確性。Cascade RCNN和YOLO V5分別成為雙階段和單階段的最優(yōu)檢測框架。在此基礎(chǔ)上采用了一些有效的策略來獲得更好的精確度,如注意機制、雙頭網(wǎng)絡(luò)、分層設(shè)計等。精確度最高的檢測網(wǎng)絡(luò)基于Cascade R-CNN實現(xiàn),通過級聯(lián)細化框獲得更好的定位性能。此外,將卷積替換成Transformer的TPH-YOLO V5與Swin-T網(wǎng)絡(luò)也取得了不錯的成績。但mAP的最佳分數(shù)仍低于40%,在實際應(yīng)用中要取得優(yōu)異的性能還任重道遠。此外,由于無人機平臺上的資源有限,需進一步考慮網(wǎng)絡(luò)的計算復(fù)雜度。
多目標(biāo)跟蹤競賽提交的結(jié)果顯示,成績最好的跟蹤框架都是以TBD框架,并對特征處理進行了一些修改。成績最優(yōu)的目標(biāo)檢測器都是基于雙階段檢測器Cascade R-CNN的檢測結(jié)果。為了適應(yīng)具有眾多小目標(biāo)的VisDrone數(shù)據(jù),不僅利用了目標(biāo)的外觀特征表示,還利用了單個目標(biāo)跟蹤器或其他低級運動模式的時間一致性信息。因此,基于相似性計算的重識別結(jié)果對于開發(fā)高性能MOT算法至關(guān)重要。同時由于TBD框架的性能在很大程度上受檢測器的影響,構(gòu)建一個性能優(yōu)異的檢測器非常重要。
近年來,隨著深度學(xué)習(xí)及計算機硬件的發(fā)展,基于無人機航拍視頻的多目標(biāo)檢測與跟蹤取得了長足進步,但仍面臨著多種挑戰(zhàn):
1) 原始視頻中的噪聲干擾。UAV視角下的視頻容易因目標(biāo)交互、UAV移動、環(huán)境變化等原因引入大量噪聲,視頻中的噪聲可能會嚴(yán)重影響目標(biāo)檢測過程或MOT以及視頻處理的其他階段。
2) 目標(biāo)形狀及運動復(fù)雜。由于形狀和位置的不同,目標(biāo)可能會根據(jù)其在現(xiàn)實世界中的規(guī)則進行不同的運動或呈現(xiàn)多種姿態(tài)。例如,行人可以走、跑、站或坐。同時UAV的高度變化,易造成相同的目標(biāo)在視覺畫面中尺度的變化,對目標(biāo)的檢測與跟蹤造成干擾。
3) 光照陰影。當(dāng)目標(biāo)受到來自照明源的直射光的阻礙時,陰影會出現(xiàn),陰影也可能會由于交互或其他目標(biāo)而產(chǎn)生,提升了目標(biāo)的識別難度。
4) 光照強度與視點變化。在像素級別上,亮度的變化會對目標(biāo)的識別造成干擾,目標(biāo)在各種光照條件下顯示各種顏色,將會導(dǎo)致檢測錯誤并降低模型的性能。此外,從不同視點看到的目標(biāo)可能看起來完全不同。
5) 目標(biāo)遮擋。在復(fù)雜場景和擁擠的環(huán)境中,單個目標(biāo)有可能會被完全遮擋,或者被背景的一部分遮擋,對目標(biāo)的檢測與跟蹤造成干擾,尤其是在長時跟蹤過程中,目標(biāo)有可能重新進入視野,對模型的長時跟蹤帶來更大挑戰(zhàn)。
6) 網(wǎng)絡(luò)復(fù)雜度高,實時性差。在UAV平臺上為了滿足視頻處理的實時性需求,多目標(biāo)檢測和跟蹤算法需要有較高的處理速度,對網(wǎng)絡(luò)的參數(shù)量和計算復(fù)雜度有了更加嚴(yán)苛的要求。
7) 數(shù)據(jù)集受限。當(dāng)前可用于UAV視角的多目標(biāo)檢測與跟蹤的帶注釋數(shù)據(jù)集較少,成為限制網(wǎng)絡(luò)性能的一大瓶頸。
本文通過總結(jié)及對比分析,梳理了近年來UAV視角下多目標(biāo)檢測與跟蹤領(lǐng)域的研究成果,梳理了近年來在多目標(biāo)檢測與跟蹤領(lǐng)域的主要技術(shù)路線及最新方法,對比了各類方法在UAV視角下的應(yīng)用優(yōu)勢及缺點,并介紹了該領(lǐng)域的數(shù)據(jù)集及評估方法。通過以上總結(jié)和分析,對后續(xù)的發(fā)展趨勢和進一步研究方向進行展望,期望可以提供有價值的參考。
目前面向UAV視角的多目標(biāo)檢測與跟蹤效果良莠不齊,在將傳統(tǒng)視角的優(yōu)秀算法遷移到UAV視角時仍存在較多有待改進之處,在性能提升上仍有較大空間。后續(xù)的研究工作可以多關(guān)注以下幾個方面:
1) 依托無監(jiān)督或半監(jiān)督訓(xùn)練模式。現(xiàn)有的面向UAV視角的多目標(biāo)檢測與跟蹤數(shù)據(jù)集較少,標(biāo)注成本大。基于無監(jiān)督學(xué)習(xí)與半監(jiān)督的深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練模式取得了較快發(fā)展,其網(wǎng)絡(luò)訓(xùn)練方式對標(biāo)注數(shù)據(jù)集需求較少,在處理缺少對應(yīng)數(shù)據(jù)集的UAV多目標(biāo)檢測與跟蹤問題上,此方向值得深入研究。
2) 設(shè)計有效的跨幀傳播信息機制。無論是多目標(biāo)檢測還是跟蹤算法,跨幀傳播信息都是提高它們性能的一個有效策略。對跟蹤場景內(nèi)的各目標(biāo)進行編碼標(biāo)注,并在幀間傳遞這些物體的信息,可以與更新策略有效聯(lián)合,進一步避免引入噪聲。研究跨幀傳播信息機制是克服長時目標(biāo)檢測與跟蹤困難挑戰(zhàn)的一個未來研究方向。
3) 引入對算力要求較低的模型?;贏nchor-free的檢測算法與JDT多目標(biāo)跟蹤算法擁有更少的模型參數(shù),能夠在硬件資源較少的移動端與邊緣端取得較好效果,更適用于算力受限的UAV平臺,如何將其更好地應(yīng)用到UAV平臺值得深入研究。
4) 搭建輕量級高效的目標(biāo)特征提取網(wǎng)絡(luò)。在進行多目標(biāo)跟蹤時,如何在提取到盡可能多的目標(biāo)特征的同時,降低網(wǎng)絡(luò)的復(fù)雜度,將是高效準(zhǔn)確地實現(xiàn)多目標(biāo)跟蹤數(shù)據(jù)關(guān)聯(lián)的重要環(huán)節(jié)。
5) 借助多模態(tài)數(shù)據(jù)。在進行無人機航拍視頻的多目標(biāo)檢測與跟蹤時,對于數(shù)據(jù)的類別選擇上,除了使用常規(guī)的視覺單模態(tài)視頻數(shù)據(jù)之外,可以借助UAV平臺能夠搭載的慣性處理單元、紅外相機、景深相機等多模態(tài)傳感器,實現(xiàn)多模態(tài)數(shù)據(jù)的采集與應(yīng)用,獲取到更多的數(shù)據(jù)信息,提升檢測與跟蹤精度。