陳超逸 魏沛杰 劉永峰 韋哲 薛松
摘 要 :深度學習在計算機目標檢測領(lǐng)域近幾年突飛猛進,取得了較大的成果。本文總結(jié)了迄今為止相關(guān)研究成果并分析了主要算法的利弊,從無人機航拍影響數(shù)據(jù)集和目標檢測算法的研究發(fā)展趨勢出發(fā),分析了無人機航拍的成像特點、相關(guān)計算機目標檢測算法的存在問題和改進空間。目前,無人機影像目標檢測技術(shù)正處于快速發(fā)展階段,具有廣闊的應用前景和實用價值。
關(guān)鍵字:目標檢測;深度學習;計算機視覺;無人機影像
1研究背景及意義
目標檢測作為計算機視覺研究領(lǐng)域之一,是熱點課題也是重點課題,一直以來受到廣大學者的關(guān)注和研究。傳統(tǒng)的目標檢測方式首先從指定的圖形上確定幾個候選的地區(qū),然后再以滑動的方法對這些地區(qū)提取特點,最后利用經(jīng)過訓練的分級器,對所提取的特點加以分組運算。由于采用滑動窗口的區(qū)域選擇策略沒有針對性,且時間復雜性較高,因此窗口多余嚴重,而手工設(shè)計的特征針對多樣性的改變也不能很好的魯棒性,因此傳統(tǒng)目標檢測算法難以滿足發(fā)展需求,已經(jīng)逐步淘汰。
深度學習是計算機學習研究中的全新重要領(lǐng)域,隨著學術(shù)界對關(guān)鍵技術(shù)的進一步深入研究與發(fā)展,基于深度學習的目標測試技術(shù)也獲得了突破性發(fā)展。基于學習的目標檢測算法利用深度卷積神經(jīng)網(wǎng)絡(luò)獲取目標特征,在魯棒性、準確度和檢測速度方面均超過了傳統(tǒng)算法。深度研究的實質(zhì)意義上,是指利用建立有很多隱層結(jié)構(gòu)的機器學習模型和海量的訓練數(shù)據(jù)分析,來了解更全面的系統(tǒng)特性,以便于最終提高分析或預測結(jié)果的精確度,具有良好的泛化性,相比較傳統(tǒng)算法,在完成指定場景下的檢測任務(wù)具有更好的表現(xiàn)。
隨著無人機技術(shù)的發(fā)展以及安全方面的需求,經(jīng)常需要利用無人機航拍來進行數(shù)據(jù)的采集。無人機能夠快速的獲取大量數(shù)據(jù),在農(nóng)業(yè)、軍事、建筑、地質(zhì)等許多領(lǐng)域發(fā)揮了重要作用。目前為止,常規(guī)圖像目標檢測技術(shù)的發(fā)展已經(jīng)趨向成熟,可無人機航拍時視野廣、視角高、天氣復雜,其成像不穩(wěn)定、目標尺度小,難以直接提取影像中的信息特征,深度學習目標檢測算法在此領(lǐng)域依舊需要進一步的研究與改進。
2國內(nèi)外研究現(xiàn)狀
2.1目標檢測研究現(xiàn)狀
目標檢測任務(wù)是尋找目標在給定圖像中的位置并判定目標的歸屬類別。目標檢測技術(shù)發(fā)展至今已有多年歷程,從2001年至2021年目標檢測技術(shù)發(fā)展的線路方案,大致上經(jīng)過了兩個主要發(fā)展階段——基于經(jīng)典特征信息提取的目標檢測時代、以及基于深度學習的目標檢測時代。
在深度學習時代以前,早期基于經(jīng)典特征提取的傳統(tǒng)目標檢測方式的過程主要包括了三步:候選框生成、特征矢量獲取,以及區(qū)域劃分。候選框生成的主要功能是尋找目標在圖片中可能出現(xiàn)的地方,如"感興趣區(qū)域"ROI,并通過更多尺寸的滑動窗口掃描整幅圖片;第二階段需要設(shè)計能夠捕捉語義信息和魯棒性的視覺特征用來判別任務(wù)目標;第三階段使用區(qū)域分類器,將目標對象與其他類別區(qū)分。
近年來,計算機硬件技術(shù)的飛速發(fā)展為深度卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)提供了算力保障,基于深度學習的目標檢測算法逐步成為目標檢測算法的主流?;谏疃葘W習,目標檢測分別向兩個主要研究方向發(fā)展——基于候選區(qū)域的算法和基于回歸的算法。基于候選區(qū)域的算法也叫雙階段目標檢測算法,第一階段是選取候選區(qū)域,第二階段是進行分類和邊框位置的回歸。雙階段目標檢測的代表算法主要有RCNN、Fast RCNN、Faster RCNN等?;诨貧w的算法又叫單階段目標檢測算法,該算法可以跳過對候選框的選擇,直接從卷積網(wǎng)絡(luò)中預測類別的坐標值和置信度,單階段目標檢測的代表算法主要有YOLO、YOLOv2、YOLOv3、SSD等?;谏疃葘W習的目標檢測方法,從結(jié)果分析來看,從速度和精度上都大大超越了傳統(tǒng)的目標檢測方式,并且降低了人為因素,從而擁有卓越的泛化能力,基于深度學習研究目標檢測,已逐漸成為主流。
2.2無人機航拍影像的目標檢測研究工作現(xiàn)狀
無人機因其航拍特殊性,其成像中任務(wù)目標廣泛較小、大范圍拍攝造成的尺度差異懸殊、背景多變,許多已在常規(guī)數(shù)據(jù)集上驗證有效的深度學習方法無法直接利用。因此,許多研究針對無人機影像特點改進深度學習模型,以優(yōu)化小目標檢測的精度?,F(xiàn)有的目標檢測算法在無人機影像上的檢測效果仍然不盡理想。對無人機視角下的影像進行檢測有以下幾方面的研究重點和研究難點:
(1)可用數(shù)據(jù)集缺乏。雖然無人機技術(shù)得到了飛速發(fā)展,無人機航拍影像的質(zhì)量也逐漸提升、種類更加完全,但是還是缺少大范圍的無人機航拍公開數(shù)據(jù)集,無法確保模型的充分訓練。
(2)無人機成像目標尺度小。無人機在高空拍攝時,角度高,視野廣,而任務(wù)目標在成像里往往可能只有數(shù)百像素,與全景圖像尺寸比很小。
(3) 無人機航拍目標尺度變化大、背景復雜。無人機對地面物體拍攝時的范疇較廣并且角度各異,導致圖像中涉及的目標角度和尺度差異較大,尤其是隨著無人機與目的距離的靠近。
3無人機目標檢測研究進展
針對無人機圖像中的機場、飛機、汽車等目標識別,屬于一種“大范圍、小目標”的識別應用,受限于目標尺寸、目標形態(tài)改變、背景干擾等各種因素的影響,傳統(tǒng)的目標識別方法很難達到較高的準確性,近年來基于深度學習的目標檢測方法在無人機技術(shù)應用領(lǐng)域取得了一些重要的研究進展。面向無人機圖像的深度學習目標識別方法,可以解決在復雜場景下對“大范圍、小目標”應用的快速準確定位問題。通過深度學習方法,首先對機場、飛機等目標進行識別,之后再對目標類型進行精細識別。使用候選窗口獲取和分類器辨識的識別框架:先通過區(qū)域候選計算,獲取待辨識的目標區(qū)域;在候選范圍上使用已經(jīng)訓練好的學習模塊,對范圍內(nèi)所包含主要目標類型做出分類辨識。
3.1航空影像數(shù)據(jù)集現(xiàn)狀
無人機航拍影像有其獨特顯著的特點,在公開的自然情形圖像數(shù)據(jù)集MS COCO等上面做檢測任務(wù)時取得的效果令人差強人意。
出現(xiàn)用無人機當拍攝平臺來制作數(shù)據(jù)集的時間比較晚。深度學習的結(jié)果非常依賴數(shù)據(jù)集的質(zhì)量,然而在無人機影像目標檢測上,我們?nèi)鄙俅罅恐T如ImageNet、MS COCO等成熟公開的數(shù)據(jù)集。目前,無人機航拍影像數(shù)據(jù)集的類別數(shù)量,以及目標標注過的公開數(shù)據(jù)集非常少,絕大多數(shù)現(xiàn)有的數(shù)據(jù)集收集的類別大概局限在車輛、建筑、飛機和船舶,比較下來,ImageNet里包括1000個類別共1281167張帶注釋(標簽)的訓練集圖片,所以現(xiàn)有的數(shù)據(jù)集難以表現(xiàn)現(xiàn)實世界的復雜程度;同時,目標的尺度變化和旋轉(zhuǎn)特性不夠豐富,相比于衛(wèi)星和傳統(tǒng)航空遙感平臺,無人機有著較高的靈活性,目標較為豐富的變化才能逼近無人機的實際航拍場景。因此,在采集和制作無人機影像數(shù)據(jù)集時應作如下方向努力:
1)數(shù)據(jù)集應具有較大的規(guī)模。目標類別、目標標注在數(shù)量上要足以支撐基于深度學習的方法。類別的選擇除了滿足實際應用還要平衡正負樣本的比率,從而進一步提高無人機影像目標檢測的技術(shù)水平。
2)數(shù)據(jù)集應具有較好的泛化性,淡化數(shù)據(jù)集本身的特征。使用不同傳感器進行航拍,保證相同類別目標具有不同的分辨率;拍攝時段和天氣應多樣化,從而確保影像信息之間具有偏差更加貼合實際。
3)數(shù)據(jù)集應充分表征無人機影像的特點。背景信息足夠豐富,不能刻意排除模糊、有遮擋或難以辨別的目標;采集數(shù)據(jù)時應注意同類目標的多樣性和相似性,包括尺度和形狀的變化、旋轉(zhuǎn)特性等。
3.2無人機目標檢測研究現(xiàn)狀與重難點
計算機視覺領(lǐng)域中基于深度學習的目標檢測方法在自然場景領(lǐng)域取得了巨大的成功,這對于無人機目標檢測任務(wù)是值得借鑒和參考的,很多國內(nèi)外研究提出了效果顯著的改進算法。本文從無人機影像的4個特點出發(fā),分析比較了一些具有代表性的方法。
3.2.1無人機影像中的復雜背景問題
無人機影像中目標密集區(qū)域往往存在著大量近似物體,從而導致檢測中的漏檢或誤報增加。此外,無人機影像背景中大量噪聲信息,還會使目標被弱化或遮擋,難以被連續(xù)和完整地檢測。
在解決無人機影像中的復雜背景問題時,上下文信息可以幫助模型對目標與背景的理解,從而從提取更好的目標特征,但上下文信息需要進行挑選,通常只有部分信息是對模型有用的;空洞卷積在增加感受野的同時保留細節(jié)信息,為了適應無人機影像中的目標分布和遮擋情況,多尺度空洞券積中提取的特征大小和數(shù)量顯得尤為重要:注意力機制可以有效過濾背景中的無用信息,不過在無人機目標檢測這種特定的場景下需要合理地分配權(quán)重,避免小目標的漏檢或誤報。
3.2.2無人機影像中的小目標問題
無人機影像中目標的尺度范圍大,各類目標經(jīng)常出現(xiàn)在同一圖片中。小目標在圖片中占比極小,提供的分辨率有限,從而造成檢測困難。
在解決無人機影像中的小目標問題時,特征融合的方法可以結(jié)合多層特征來進行預測,提高對多尺度目標尤其是小目標的檢測效果。根據(jù)不同場景下無人機目標檢測任務(wù)的需求,具有相應特性的CNN模型或模塊與FPN結(jié)合都取得了較好的檢測效果,但卻增加了時間成本。輕量化的網(wǎng)絡(luò)模型是一種解決方法,另一種思路則從訓練深度學習模型的角度出發(fā),在已有數(shù)據(jù)集的情況下改進訓練質(zhì)量,具有很高的實際工程適用性。
3.2.3無人機影像中的大視場問題
無人機的探測范圍較廣,且不受地理因素等限制因此得到的圖像視場往往很大。大視場下的目標檢測面臨著目標分布不均、目標稀疏等問題。
針對候選區(qū)域生成算法的缺點,一些研究將強化學習用于大視場圖片的目標搜索中。在解決無人機影像中的大視場問題時,首先要考慮的是減少目標搜索的成本,常見的方法為區(qū)域特征編碼方法的優(yōu)化,如增加ROI輸出的數(shù)量或增加ROI生成模塊感受野;對子圖片進行檢測時,目標尺度的估計對檢測精度有著較大影響。減少搜索區(qū)域的方法本質(zhì)上還是兩階段的目標檢測方法,需要遍歷整張圖片,效率較低。強化學習與CNN的結(jié)合實現(xiàn)了大視場影像中的自適應擔索,增加效率的同時保證了子圖片檢測的精度。
3.2.4無人機影像中的旋轉(zhuǎn)問題
無人機影像中的物體可能在任意位置和方向上出現(xiàn),同一類物體的角度變化也不盡相同。無人機目標檢測任務(wù)因此變得困難,旋轉(zhuǎn)的物體使位置回歸變得困難,因而大量的目標被漏檢。常見的檢測方法按照候選區(qū)域和包圍盒的形式,可分為水平檢測和旋轉(zhuǎn)檢測。
在解決無人機影像中的旋轉(zhuǎn)問題時,較為直接而簡便的方法為保持水平的ROI不變,自定義包用盒的形狀來適應目標旋轉(zhuǎn)特性;使用旋轉(zhuǎn)的RROI生成的區(qū)域特征與目標旋轉(zhuǎn)特性較為匹配,可以有效避免大量的回歸錯位,但旋轉(zhuǎn)的錨定框的生成增加了計算量;通過默認的水平錨定框轉(zhuǎn)換得到RROI避免了計算量的增加,且仍有著較高的回歸精度。而無錨點的回歸擺脫了錨定框?qū)Π鼑械南拗?,增強了模型的實時性和精度,不過回歸的穩(wěn)定性需要進一步研究。
4總結(jié)與展望
目前,無人機目標檢測算法的受關(guān)注程度與日俱增,現(xiàn)有的算法也取得了不錯的檢測效果,但還有很大的改進空間。復雜背景給目標檢測任務(wù)帶來的干擾得到了有效抑制,但現(xiàn)有的算法仍存在虛警和漏檢問題,檢測效果不太理想;基于兩階段方法的目標檢測算法在分類和回歸的精度上有優(yōu)勢,大部分小目標檢測方法都是基于此來進行改進,加之新模塊和網(wǎng)絡(luò)的引入,使得檢測速度仍然較慢;多數(shù)算法都是基于現(xiàn)有算法的改進,增加了檢測的局限性,需要有新的方法來提高定位精度。
針對上述問題和近幾年的研究趨勢,本文對無人機目標檢測未來研究的方向做出如下討論:
1)在增大感受野的同時,密集地生成不同尺度的特征。無人機影像的分辨率較高,ASPP 可以在保證特征分辨率的同時,增大感受野,但隨著擴張率的增長,空洞卷積會失效。
2)自適應地融合特征和生成ROI。無人機因應用場景的不同而獲取不同特性的影像,為了避免有用信息的丟失,在特征融合和生成ROI時可以給不同的特征層賦權(quán),通過加權(quán)融合得到相應的上下文特征和高質(zhì)量的ROI,進而提高目標檢測模型的泛化性。
3)深度學習方法與其他方法的結(jié)合。深度學習方法在目標檢測領(lǐng)域有著顯著的優(yōu)勢,也取得了極大的成功,其他算法的加入將會彌補單一方法的局限性。
4)減少進行位置回歸時的限制?;阱^點的回歸中錨定框的設(shè)置需要與待檢測的目標形狀相符合,但在無人機影像中,目標的形狀和朝向多變,預設(shè)的錨定框限制了位置回歸。對于關(guān)鍵點重合而導致的檢測結(jié)果不穩(wěn)定問題,可以對關(guān)鍵點進行二次預測和匹配來提高檢測的精確性。
參考文獻:
[1]石葉楠,鄭國磊,三種用于機加工特征識別的神經(jīng)網(wǎng)絡(luò)方法綜述[J].航空學報,2019,40(9);182-198
[2] RAZAKARIVONY S, JURIE F. Vehicle detection in aerial imagery[J]. Journal of Visual Communication and Image Representation,2016, 34(C):187-203.
[3]Fahlstrom P,Gleason T.無人機系統(tǒng)導論[M].吳漢平,施自勝,丁亞非,等,譯.二版.北京:電子工業(yè)出版社,2003.
[4]朱華勇,牛軼峰,沈林成,等.無人機系統(tǒng)資助控制技術(shù)研究現(xiàn)狀與發(fā)展趨勢[J].國防科技大學學報,2010,32(3):115-120.
[5]江波,屈若錕,李彥冬,李誠龍,基于深度學習的無人機航拍目標檢測研究綜述[J].航空學報,2021,42(4)