摘 要:""""" 隨著人工智能的飛速發(fā)展, 可見(jiàn)光目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)技術(shù)的重要組成部分, 已經(jīng)被廣泛應(yīng)用于無(wú)人機(jī)偵察領(lǐng)域。 利用深度學(xué)習(xí)技術(shù)深入挖掘復(fù)雜戰(zhàn)場(chǎng)環(huán)境和低質(zhì)量圖像中的目標(biāo)特征, 可以有效解決無(wú)人機(jī)偵察場(chǎng)景中可見(jiàn)光目標(biāo)檢測(cè)遇到的困難挑戰(zhàn), 進(jìn)一步提高可見(jiàn)光目標(biāo)檢測(cè)的準(zhǔn)確性。 因此, 對(duì)基于深度學(xué)習(xí)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)方法進(jìn)行了全面綜述。 首先, 介紹了無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)面臨的目標(biāo)小尺度、 任意方向、 高度偽裝以及運(yùn)動(dòng)模糊等諸多挑戰(zhàn)。 其次, 描述了用于可見(jiàn)光目標(biāo)檢測(cè)和圖像恢復(fù)的主要公開(kāi)數(shù)據(jù)集。 然后, 結(jié)合無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)面臨的諸多挑戰(zhàn)總結(jié)了深度學(xué)習(xí)方法在無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)中的應(yīng)用以及優(yōu)缺點(diǎn)。 最后, 展望了無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)未來(lái)可能的研究方向。
關(guān)鍵詞:"""" 無(wú)人機(jī); 復(fù)雜戰(zhàn)場(chǎng)環(huán)境; 低質(zhì)量圖像; 深度學(xué)習(xí); 可見(jiàn)光目標(biāo)檢測(cè)
中圖分類(lèi)號(hào):"""""" TJ760; V279
文獻(xiàn)標(biāo)識(shí)碼:""" A
文章編號(hào):"""" 1673-5048(2024)06-0023-13
DOI: 10.12132/ISSN.1673-5048.2024.0148
0 引" 言
現(xiàn)代戰(zhàn)場(chǎng)局勢(shì)復(fù)雜, 戰(zhàn)爭(zhēng)模式越來(lái)越向無(wú)人化與智能化轉(zhuǎn)變, “發(fā)現(xiàn)即摧毀”已成為很多軍事強(qiáng)國(guó)的作戰(zhàn)理念[1-4]。 傳統(tǒng)的方法主要依靠衛(wèi)星和有人駕駛的飛機(jī)掛載探測(cè)設(shè)備來(lái)發(fā)現(xiàn)目標(biāo), 近年來(lái), 由于無(wú)人機(jī)具有體積小、 靈活、 易于控制等優(yōu)點(diǎn), 在軍事偵察領(lǐng)域中越來(lái)越受歡迎。 無(wú)人機(jī)作為現(xiàn)代航空偵察的核心力量之一, 可以通過(guò)對(duì)地面目標(biāo)的高效檢測(cè)來(lái)幫助推斷對(duì)手軍事意圖, 制定作戰(zhàn)決策, 實(shí)現(xiàn)先發(fā)制人的打擊效果[5-7]。
無(wú)人機(jī)掛載探測(cè)設(shè)備對(duì)地偵察時(shí), 主要獲得三種圖像: 可見(jiàn)光圖像、 紅外圖像和SAR(合成孔徑雷達(dá))圖像。 現(xiàn)有公開(kāi)的紅外和SAR數(shù)據(jù)集相對(duì)較少, 基本上都是基于特定場(chǎng)景來(lái)收集圖像數(shù)據(jù), 數(shù)據(jù)集的制作難度相對(duì)可見(jiàn)光大得多。 紅外圖像缺少色彩信息, 當(dāng)目標(biāo)由于天氣溫度或躲避偵察打擊而不產(chǎn)生熱源時(shí), 紅外探測(cè)設(shè)備的成像效果很差, 另外紅外探測(cè)設(shè)備的成本相對(duì)較高。 SAR圖像同樣缺少色彩信息, 當(dāng)無(wú)人機(jī)飛行高度較高時(shí), 目標(biāo)在圖像中所占據(jù)的像素特別少, 很難將目標(biāo)像素與噪聲點(diǎn)區(qū)別開(kāi)來(lái), 導(dǎo)致目標(biāo)檢測(cè)的漏檢率與虛警率較高。 因此, 可見(jiàn)光目標(biāo)檢測(cè)是無(wú)人機(jī)對(duì)地偵察的核心任務(wù)和研究熱點(diǎn)。
傳統(tǒng)的可見(jiàn)光目標(biāo)檢測(cè)大多采用基于統(tǒng)計(jì)的方法[8], 難以解決目標(biāo)檢測(cè)過(guò)程中出現(xiàn)的計(jì)算復(fù)雜度高、 特征表示能力弱、 優(yōu)化困難等問(wèn)題。 隨著深度學(xué)習(xí)技術(shù)的發(fā)展, 深度卷積神經(jīng)網(wǎng)絡(luò)通過(guò)多個(gè)卷積層提取圖像的高級(jí)特征, 逐漸成為可見(jiàn)光目標(biāo)檢測(cè)的主體框架[9-11]。 基于深度卷積神經(jīng)網(wǎng)絡(luò)的可見(jiàn)光目標(biāo)檢測(cè)方法分為兩類(lèi): 兩階段方法和單階段方法。 兩階段方法, 例如Faster RCNN[12], Cascade RCNN[13], Mask RCNN[14]等, 首先生成區(qū)域建議, 然后對(duì)區(qū)域建議中的目標(biāo)進(jìn)行分類(lèi)和定位, 適用于具有較高檢測(cè)精度要求的應(yīng)用。 單階段方法, 例如SSD[15], RetinaNet[16], YOLO[17]系列等, 直接生成目標(biāo)的類(lèi)別概率和檢測(cè)框位置, 在具有較高檢測(cè)速度要求的應(yīng)用中有很大優(yōu)勢(shì)。 另外, 伴隨著深度學(xué)習(xí)技術(shù)的發(fā)展進(jìn)步, Transformer架構(gòu)由于其良好的并行化和全局注意機(jī)制, 被越來(lái)越多地應(yīng)用于可見(jiàn)光目標(biāo)檢測(cè), 例如Deformable DETR[18], TransMIN[19], QETR[20]等, 作為一種編碼器來(lái)提取目標(biāo)的全局上下文特征。
除此之外, 可見(jiàn)光圖像由于模糊、 噪聲、 雨霧等因素的影響經(jīng)常遭受不同程度的退化[21-22]。 將退化的圖像恢復(fù)為高質(zhì)量的圖像是非常重要的, 特別是對(duì)于后續(xù)的目標(biāo)檢測(cè)任務(wù), 退化的圖像嚴(yán)重降低了目標(biāo)檢測(cè)的精度。
在模糊圖像恢復(fù)方面, 模糊圖像恢復(fù)的方法逐漸從基于圖像先驗(yàn)的方法發(fā)展到基于深度學(xué)習(xí)的方法。 基于圖像先驗(yàn)的方法[23-27]使用自然圖像先驗(yàn)來(lái)估計(jì)模糊核, 對(duì)模糊圖像進(jìn)行反卷積操作, 將其恢復(fù)為清晰圖像。 基于深度學(xué)習(xí)的方法[28-32]使用模糊和清晰圖像對(duì)來(lái)訓(xùn)練模糊恢復(fù)模型, 隱式學(xué)習(xí)模糊和清晰圖像之間的關(guān)系, 不需要估計(jì)模糊核, 實(shí)現(xiàn)了良好的模糊圖像恢復(fù)性能。
然而, 與通用可見(jiàn)光目標(biāo)檢測(cè)相比, 無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)還存在著許多挑戰(zhàn), 如復(fù)雜的戰(zhàn)場(chǎng)環(huán)境和低質(zhì)量的偵察圖像等問(wèn)題。 因此, 對(duì)基于深度學(xué)習(xí)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)方法進(jìn)行了全面綜述。 首先, 分析了無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)與通用可見(jiàn)光目標(biāo)檢測(cè)的主要區(qū)別, 以及當(dāng)前無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)面臨的主要挑戰(zhàn)。 其次, 描述了用于可見(jiàn)光目標(biāo)檢測(cè)和圖像恢復(fù)的主要公開(kāi)數(shù)據(jù)集。 然后, 結(jié)合當(dāng)前無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)面臨的主要挑戰(zhàn)介紹了深度學(xué)習(xí)方法在無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)中的應(yīng)用以及優(yōu)缺點(diǎn)。 最后, 展望了無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)未來(lái)可能的研究方向。
1 無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)分析
1.1 無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)與通用可見(jiàn)光目標(biāo)檢測(cè)的區(qū)別
在普通視圖中, 通用可見(jiàn)光目標(biāo)檢測(cè)的數(shù)據(jù)集大多是由手持?jǐn)z像機(jī)或固定位置拍攝的, 所以大多數(shù)圖像都是側(cè)視圖。 然而, 無(wú)人機(jī)航空?qǐng)D像不同于普通視圖圖像, 它們是通過(guò)自上而下的視角拍攝的, 這意味著普通視圖中的目標(biāo)檢測(cè)方法不能直接應(yīng)用于無(wú)人機(jī)鳥(niǎo)瞰視圖。
首先, 無(wú)人機(jī)鳥(niǎo)瞰視圖中的目標(biāo)尺寸很小且形狀多變[33-41]。 例如, 行人和汽車(chē)在普通視圖中可能占據(jù)多個(gè)像素, 而在無(wú)人機(jī)鳥(niǎo)瞰視圖中可能只占據(jù)幾個(gè)像素, 并且它們形狀不規(guī)則, 導(dǎo)致呈現(xiàn)任意的方向, 這增加了無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)的難度。 其次, 無(wú)人機(jī)鳥(niǎo)瞰視圖中的偽裝不同于普通視圖[42-44]。 在普通視圖中, 目標(biāo)由于偽裝可能會(huì)被其他背景遮擋, 比如躲藏在叢林里的坦克。 然而, 在無(wú)人機(jī)鳥(niǎo)瞰視圖中, 目標(biāo)借助偽裝可能與地面環(huán)境高度相似, 比如穿純白衣服趴在雪地里的士兵。 最后, 無(wú)人機(jī)航空?qǐng)D像的質(zhì)量受到多種因素的影響, 如設(shè)備的不穩(wěn)定性導(dǎo)致的模糊、 低分辨率、 圖像失真等[45-48]。 這些問(wèn)題需要對(duì)圖像或視頻進(jìn)行預(yù)處理, 以提高無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)方法的檢測(cè)效果。
因此, 不可能將在普通視圖數(shù)據(jù)集上訓(xùn)練的目標(biāo)檢測(cè)方法直接應(yīng)用于無(wú)人機(jī)航空?qǐng)D像, 需要根據(jù)無(wú)人機(jī)航空?qǐng)D像的特有特征, 設(shè)計(jì)能夠滿(mǎn)足不同任務(wù)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)方法。
1.2 無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)的挑戰(zhàn)
無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)通常面臨著目標(biāo)小尺度、 任意方向、 高度偽裝以及運(yùn)動(dòng)模糊等諸多挑戰(zhàn)。 對(duì)不同挑戰(zhàn)的詳細(xì)解釋如下:
目標(biāo)小尺度問(wèn)題。 無(wú)人機(jī)對(duì)目標(biāo)進(jìn)行偵察時(shí), 為躲避對(duì)手防空火力的襲擾, 通常需要高空飛行, 由于無(wú)人機(jī)的飛行高度較高, 偵察收容面積較大, 使得圖像中的目標(biāo)呈現(xiàn)小尺度的特點(diǎn)。
目標(biāo)任意方向問(wèn)題。 無(wú)人機(jī)對(duì)目標(biāo)進(jìn)行偵察時(shí), 為深入了解對(duì)手防御縱深、 要點(diǎn), 通常需要俯視或斜視拍攝圖像, 由于無(wú)人機(jī)的飛行航跡與目標(biāo)的運(yùn)動(dòng)方向不一致, 使得圖像中的目標(biāo)呈現(xiàn)任意方向的特點(diǎn)。
目標(biāo)高度偽裝問(wèn)題。 無(wú)人機(jī)對(duì)目標(biāo)進(jìn)行偵察時(shí), 為躲避偵察打擊, 目標(biāo)通常會(huì)借助各種復(fù)雜背景偽裝自己, 目標(biāo)與復(fù)雜背景之間具有高度的紋理相似性, 使得圖像中的目標(biāo)呈現(xiàn)高度偽裝的特點(diǎn)。
目標(biāo)運(yùn)動(dòng)模糊問(wèn)題。 無(wú)人機(jī)對(duì)目標(biāo)進(jìn)行偵察時(shí), 為縮減在任務(wù)區(qū)內(nèi)的滯留時(shí)間、 降低對(duì)手防空系統(tǒng)的反應(yīng)幾率, 通常需要高速飛行。 由于無(wú)人機(jī)相機(jī)的高速運(yùn)動(dòng), 獲得的航空?qǐng)D像往往是缺乏高頻信息的模糊圖像, 使得圖像中的目標(biāo)呈現(xiàn)運(yùn)動(dòng)模糊的特點(diǎn)。
2 相關(guān)公開(kāi)數(shù)據(jù)集
2.1 可見(jiàn)光目標(biāo)檢測(cè)的公開(kāi)數(shù)據(jù)集
近年來(lái), 基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法迅速發(fā)展, 為可見(jiàn)光目標(biāo)檢測(cè)提供了強(qiáng)大的支持。 為了促進(jìn)可見(jiàn)光目標(biāo)檢測(cè)的研究, 研究人員提出了許多經(jīng)典的可見(jiàn)光目標(biāo)檢測(cè)數(shù)據(jù)集, 這些數(shù)據(jù)集具有較大的數(shù)據(jù)規(guī)模和良好的泛化能力。
(1) 針對(duì)無(wú)人機(jī)圖像的可見(jiàn)光目標(biāo)檢測(cè)數(shù)據(jù)集
UAV123數(shù)據(jù)集[49]包含從低空無(wú)人機(jī)捕獲的123個(gè)視頻序列, 總計(jì)超過(guò)11萬(wàn)幀圖像。 這些視頻序列涵蓋了不同的場(chǎng)景, 如城市、 公園、 海灘、 學(xué)校等, 以及不同類(lèi)型的目標(biāo), 如行人、 自行車(chē)、 汽車(chē)、 船只等。 每個(gè)視頻序列都有一個(gè)相應(yīng)的注釋文件, 記錄目標(biāo)在每幀中的位置和大小。 此外, 每個(gè)視頻序列都有一個(gè)屬性文件來(lái)描述該序列的特征。
UAVDT數(shù)據(jù)集[50]由50個(gè)視頻組成, 總共有40 376張圖像, 其中24 778張圖像用于訓(xùn)練, 15 598張圖像用于測(cè)試。 這些圖像涵蓋了各種常見(jiàn)場(chǎng)景, 如道路收費(fèi)站、 高速公路交叉口和T形路口等。 該數(shù)據(jù)集主要關(guān)注車(chē)輛目標(biāo)(汽車(chē)、 卡車(chē)、 公共汽車(chē)), 圖像的分辨率為1 024×540像素。
Visdrone數(shù)據(jù)集[51]包含無(wú)人機(jī)在不同角度和不同高度獲取的圖像, 其中6 471張圖像用于訓(xùn)練, 3 190張圖像用于測(cè)試。 該數(shù)據(jù)集有卡車(chē)、 巴士等10個(gè)目標(biāo)類(lèi)別, 圖像的分辨率在960×540到1 920×1 080像素范圍內(nèi)。
DroneVehicle數(shù)據(jù)集[52]主要針對(duì)無(wú)人機(jī)航空?qǐng)D像中的車(chē)輛目標(biāo)檢測(cè)和計(jì)數(shù), 包含31 064張圖像和441 642個(gè)實(shí)例, 其中一半是RGB圖像。 這些圖像涵蓋了從白天到晚上的各種場(chǎng)景, 具有真實(shí)的環(huán)境遮擋和不同的尺度變化。 該數(shù)據(jù)集有貨車(chē)、 汽車(chē)等5個(gè)目標(biāo)類(lèi)別。
(2) 針對(duì)無(wú)人機(jī)圖像的偽裝目標(biāo)檢測(cè)數(shù)據(jù)集
MHCD數(shù)據(jù)集[53]是一個(gè)軍事高級(jí)偽裝目標(biāo)檢測(cè)數(shù)據(jù)集, 包含3 000張圖像, 其中2 400張圖像用于訓(xùn)練, 600張圖像用于測(cè)試。 每張圖像的每個(gè)目標(biāo)都被仔細(xì)地標(biāo)注了類(lèi)別和位置, 5個(gè)目標(biāo)類(lèi)別為人、 飛機(jī)、 軍用車(chē)輛、 軍艦和坦克, 其中的偽裝涉及各種現(xiàn)實(shí)場(chǎng)景, 如叢林、 沙漠、 雪地、 城鎮(zhèn)和海洋等。
2.2 可見(jiàn)光圖像恢復(fù)的公開(kāi)數(shù)據(jù)集
為了克服可見(jiàn)光圖像由于模糊、 噪聲、 雨霧等因素造成的不同程度的退化, 研究人員提出了許多經(jīng)典的圖像恢復(fù)數(shù)據(jù)集。
GoPro數(shù)據(jù)集[29]使用GoPro Hero 4相機(jī)捕捉240幀/秒的視頻序列, 通過(guò)平均連續(xù)的短曝光生成模糊圖像。 該數(shù)據(jù)集是圖像運(yùn)動(dòng)模糊的一個(gè)常見(jiàn)基準(zhǔn)數(shù)據(jù)集, 包含3 214個(gè)模糊和清晰圖像對(duì), 其中2 103對(duì)用于訓(xùn)練, 1 111對(duì)用于評(píng)估。
RSBlur數(shù)據(jù)集[54]提供了各種戶(hù)外場(chǎng)景的真實(shí)模糊圖像, 每個(gè)圖像都與9個(gè)清晰的圖像序列配對(duì), 能夠分析真實(shí)模糊與合成模糊之間的差異。 該數(shù)據(jù)集包含來(lái)自639個(gè)場(chǎng)景的12 238張真實(shí)模糊圖像, 其中來(lái)自465個(gè)場(chǎng)景的8 878張真實(shí)模糊圖像用于訓(xùn)練, 來(lái)自174個(gè)場(chǎng)景的3 360張真實(shí)模糊圖像用于評(píng)估。
3 基于深度學(xué)習(xí)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)方法
隨著無(wú)人機(jī)技術(shù)的發(fā)展, 配備攝像機(jī)和嵌入式系統(tǒng)的無(wú)人機(jī)已廣泛應(yīng)用于軍事偵察領(lǐng)域。 無(wú)人機(jī)對(duì)地偵察通常要求無(wú)人機(jī)具有感知環(huán)境、 理解場(chǎng)景和作出及時(shí)反應(yīng)的能力, 其中最基本的是自動(dòng)、 高效的目標(biāo)檢測(cè)。 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)或Transformer架構(gòu)自動(dòng)提取圖像特征, 大大提高了目標(biāo)檢測(cè)的性能和偵察情報(bào)判讀的準(zhǔn)確性[55-58]。
因此, 對(duì)目前基于深度學(xué)習(xí)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)的論文進(jìn)行了重點(diǎn)研究。 首先, 介紹了目標(biāo)檢測(cè)方法的發(fā)展過(guò)程。 然后, 介紹了圖像恢復(fù)方法的發(fā)展過(guò)程。 最后, 針對(duì)無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)的不同挑戰(zhàn), 分別介紹了不同的基于深度學(xué)習(xí)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)方法。
3.1 目標(biāo)檢測(cè)方法的發(fā)展過(guò)程
目標(biāo)檢測(cè)方法的發(fā)展過(guò)程如圖1所示, 可以分為兩個(gè)階段: 傳統(tǒng)的目標(biāo)檢測(cè)方法和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法。 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法進(jìn)一步分為兩種技術(shù)路線(xiàn): 基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法和基于Transformer架構(gòu)的目標(biāo)檢測(cè)方法。 基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法按照目標(biāo)檢測(cè)的任務(wù)階段又分為單階段方法和兩階段方法。
傳統(tǒng)的目標(biāo)檢測(cè)方法主要基于滑動(dòng)窗口和人工特征提取, 一般包括區(qū)域建議、 特征提取和分類(lèi)回歸三個(gè)步驟。 首先, 通過(guò)區(qū)域建議獲取目標(biāo)可能所在的感興趣區(qū)域。 然后, 利用人工特征提取方法將感興趣區(qū)域中的目標(biāo)轉(zhuǎn)換為特征向量。 最后, 分類(lèi)回歸器根據(jù)提取的特征向量對(duì)目標(biāo)進(jìn)行分類(lèi)和回歸。 傳統(tǒng)的目標(biāo)檢測(cè)方法具有計(jì)算復(fù)雜度高、 特征表示能力弱、 優(yōu)化困難等缺點(diǎn), 代表性方法主要有VJ Det[59]和HOG Det[60]等。
基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法采用深度卷積神經(jīng)網(wǎng)絡(luò), 從輸入圖像中自動(dòng)提取高級(jí)特征并對(duì)目標(biāo)進(jìn)行分類(lèi)和回歸, 具有速度快、 精度高、 魯棒性強(qiáng)等優(yōu)點(diǎn)。 兩階段目標(biāo)檢測(cè)方法在第一階段生成區(qū)域建議, 并在第二階段對(duì)區(qū)域建議內(nèi)的目標(biāo)進(jìn)行分類(lèi)和回歸。 兩階段目標(biāo)檢測(cè)方法生成了目標(biāo)的區(qū)域建議, 檢測(cè)精度通常較高, 但由于額外的階段處理, 檢測(cè)速度通常較慢, 代表性方法主要有Faster RCNN[12], Cascade RCNN[13], Mask RCNN[14]等。 單階段目標(biāo)檢測(cè)方法沒(méi)有生成區(qū)域建議, 直接從圖像中生成目標(biāo)的位置和類(lèi)別, 具有較快的檢測(cè)速度。 然而, 單階段目標(biāo)檢測(cè)方法的分類(lèi)和回歸分支通常是簡(jiǎn)單的, 難以捕獲目標(biāo)的詳細(xì)特征, 導(dǎo)致檢測(cè)精度較低, 代表性方法主要有SSD[15], RetinaNet[16], YOLO[17]系列等。
基于Transformer架構(gòu)的目標(biāo)檢測(cè)方法作為一種編碼器來(lái)提取目標(biāo)的全局上下文特征, 具有良好的并行化和全局注意機(jī)制, 能夠以端到端的方式直接預(yù)測(cè)目標(biāo)的邊界框和類(lèi)別標(biāo)簽。 然而, 基于Transformer架構(gòu)的目標(biāo)檢測(cè)方法更多地關(guān)注目標(biāo)檢測(cè)的準(zhǔn)確性, 忽略了模型的大小和目標(biāo)檢測(cè)的時(shí)效性, 阻礙了其在資源有限的環(huán)境中的部署, 代表性方法主要有Deformable DETR[18], TransMIN[19], QETR[20]等。
3.2 圖像恢復(fù)方法的發(fā)展過(guò)程
圖像恢復(fù)是從退化圖像中獲得高質(zhì)量圖像, 退化的典型例子包括模糊、 噪聲、 雨霧等[21-22]。 接下來(lái), 主要從模糊圖像恢復(fù)方面介紹圖像恢復(fù)方法的發(fā)展過(guò)程, 如圖2所示。
模糊圖像恢復(fù)的方法逐漸從基于圖像先驗(yàn)的方法發(fā)展到基于深度學(xué)習(xí)的方法。 基于圖像先驗(yàn)的方法使用自然圖像先驗(yàn)來(lái)估計(jì)模糊核, 對(duì)模糊圖像進(jìn)行反卷積操作, 將其恢復(fù)為清晰圖像, 代表性方法主要有極端通道先驗(yàn)[24]、 局部最大梯度先驗(yàn)[26]、 局部最大差分先驗(yàn)[27]等。 然而, 基于圖像先驗(yàn)的方法的建模依賴(lài)于先驗(yàn)約束, 許多先驗(yàn)僅針對(duì)特定的模糊場(chǎng)景設(shè)計(jì)," 不能推廣到真實(shí)的模糊圖像。 相反, 基于深度學(xué)習(xí)的方法使用模糊和清晰圖像對(duì)來(lái)訓(xùn)練模糊恢復(fù)模型, 隱式學(xué)習(xí)模糊和清晰圖像之間的關(guān)系, 而不估計(jì)模糊核, 代表性方法主要有MPRNet[21], AMD-GAN[61], MGSTNet[62]等。 然而, 基于深度學(xué)習(xí)的方法依賴(lài)于成對(duì)的訓(xùn)練數(shù)據(jù), 當(dāng)訓(xùn)練數(shù)據(jù)有限時(shí), 模糊圖像的恢復(fù)效果將會(huì)下降。
3.3 解決目標(biāo)小尺度問(wèn)題的可見(jiàn)光目標(biāo)檢測(cè)方法
在無(wú)人機(jī)航空?qǐng)D像中, 由于無(wú)人機(jī)飛行高度高、 拍攝角度寬等原因, 通常目標(biāo)特征信息較少、 分辨率較低。 此外, 由于深度神經(jīng)網(wǎng)絡(luò)中的降采樣和池化操作, 目標(biāo)保留的特征信息會(huì)更少, 可能只有10個(gè)像素左右, 這將嚴(yán)重影響目標(biāo)檢測(cè)效果。 為解決無(wú)人機(jī)航空?qǐng)D像中的目標(biāo)小尺度問(wèn)題, 提出了許多先進(jìn)的小目標(biāo)檢測(cè)方法。
3.3.1 基于多尺度特征的小目標(biāo)檢測(cè)
Lin等[63]提出一種特征金字塔網(wǎng)絡(luò)(FPN), 通過(guò)融合深層特征和淺層特征獲得多層特征圖。 Ghaisi等[64]提出神經(jīng)結(jié)構(gòu)搜索-特征金字塔網(wǎng)絡(luò)(NAS-FPN), 采用神經(jīng)結(jié)構(gòu)搜索, 通過(guò)自上而下和自下而上連接的組合來(lái)融合跨尺度的特征信息。 Liu等[65]提出一種路徑聚合特征金字塔網(wǎng)絡(luò)(PAFPN), 通過(guò)自下而上的路徑增強(qiáng)來(lái)增強(qiáng)小目標(biāo)特征, 縮短了特征信息的傳輸路徑。 Xu等[19]提出一種Transformer引導(dǎo)的多交互網(wǎng)絡(luò)(TransMIN), 通過(guò)FPN中的Transformer實(shí)現(xiàn)跨層特征交互, 以捕獲小目標(biāo)特征與FPN特征之間的相關(guān)性。 Sun等[66]提出一種實(shí)時(shí)小目標(biāo)檢測(cè)方法(RSOD), 引入多尺度特征融合模塊和自適應(yīng)錨框生成模塊, 以提高小目標(biāo)的特征表達(dá)和定位能力。 Li等[67]提出一種尺度感知的三分支網(wǎng)絡(luò)(TridentNet), 引入不同接受域的多分支檢測(cè)頭, 用于多尺度預(yù)測(cè)。 Liu等[68]提出一種高分辨率目標(biāo)檢測(cè)網(wǎng)絡(luò), 使用多分辨率圖像作為輸入, 依次從高分辨率到低分辨率提取目標(biāo)特征。
3.3.2 基于上下文信息的小目標(biāo)檢測(cè)
MCFPN[69]提出了交叉上下文聚合模塊, 采用多分支交互融合方法對(duì)相鄰維度的上下文進(jìn)行整合, 以充分提取小目標(biāo)的上下文信息。 PADN[70]在提取上下文信息的基礎(chǔ)上增加了注意力模塊, 從空間和通道兩個(gè)維度對(duì)小目標(biāo)的上下文信息進(jìn)行自適應(yīng)選擇。 SCA[71]將上下文特征進(jìn)行反卷積, 并對(duì)每一層特征進(jìn)行批歸一化和級(jí)聯(lián), 實(shí)現(xiàn)了小目標(biāo)不同層次的上下文特征融合。 ION[72]采用空間遞歸神經(jīng)網(wǎng)絡(luò)來(lái)傳遞上下文信息, 通過(guò)跳躍池化提取小目標(biāo)不同尺度的特征。 AC-CNN[73]通過(guò)堆疊長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來(lái)探索全局上下文信息, 旨在完善小目標(biāo)特征信息的表達(dá)。
3.3.3 基于超分辨率特征的小目標(biāo)檢測(cè)
小目標(biāo)像素較少, 可利用的有效信息有限, 可以采用超分辨率技術(shù)將其擴(kuò)展為高分辨率、 高質(zhì)量的特征表示, 以增強(qiáng)小目標(biāo)的細(xì)節(jié)信息。 MTGAN[74]提出基于端到端多任務(wù)生成對(duì)抗網(wǎng)絡(luò)的小目標(biāo)檢測(cè)方法, 對(duì)小目標(biāo)進(jìn)行圖像級(jí)別的超分辨率重建。 PGAN[75]提出將小目標(biāo)特征作為殘差網(wǎng)絡(luò)的輸入, 利用生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)小目標(biāo)與大目標(biāo)特征之間的偏差, 直接生成高分辨率的特征表示。 BFFB[76]構(gòu)建超分辨率特征提取網(wǎng)絡(luò), 超分辨率特征提取網(wǎng)絡(luò)與骨干網(wǎng)絡(luò)共享網(wǎng)絡(luò)參數(shù), 通過(guò)擴(kuò)展卷積操作和池化操作匹配小目標(biāo)的感受野, 提高小目標(biāo)的檢測(cè)精度。
3.3.4 小目標(biāo)檢測(cè)方法的定量與定性分析
表1和圖3顯示了上述小目標(biāo)檢測(cè)方法在Visdrone數(shù)據(jù)集上的定量與定性比較結(jié)果。
表1中, mAP表示全類(lèi)平均精度(mean Average Precision, mAP), FPS表示每秒處理的圖像數(shù)量(Frame Per Second, FPS)。
圖3(a)中, 單階段目標(biāo)檢測(cè)方法YOLOv3在13個(gè)小型車(chē)輛(紫色邊界框)中只檢測(cè)到了3個(gè), 檢測(cè)精度相對(duì)較低。 圖3(b)中, 兩階段目標(biāo)檢測(cè)方法Faster RCNN在13個(gè)小型車(chē)輛(紫色邊界框)中檢測(cè)到了10個(gè), 檢測(cè)精度相比單階段目標(biāo)檢測(cè)方法有了很大提升。 圖3(c)~(d)中, 基于多尺度特征的目標(biāo)檢測(cè)方法TransMIN和TridentNet都成功檢測(cè)到了所有的小型車(chē)輛(紫色邊界框), 檢測(cè)精度得到進(jìn)一步提升, 但都存在將圖片右上角的石墩和左下角的路燈陰影錯(cuò)誤檢測(cè)成小型車(chē)輛的問(wèn)題。 圖3(e)中, 基于上下文信息的目標(biāo)檢測(cè)方法ION成功檢測(cè)到了所有的小型車(chē)輛(紫色邊界框), 并且圖片左邊的大型公交車(chē)(橙色邊界框)也被成功地檢測(cè)到, 但存在將圖片右上角的石墩和左下角的路燈陰影錯(cuò)誤檢測(cè)成小型車(chē)輛的問(wèn)題。 圖3(f)中, 基于超分辨率特征的目標(biāo)檢測(cè)方法PGAN成功檢測(cè)到了所有的小型車(chē)輛(紫色邊界框)和圖片左邊的大型公交車(chē)(橙色邊界框), 但存在將圖片右上角的石墩和右下角的路燈錯(cuò)誤檢測(cè)成小型車(chē)輛的問(wèn)題。
通過(guò)比較結(jié)果可以發(fā)現(xiàn), 當(dāng)前為解決目標(biāo)小尺度問(wèn)題而提出的目標(biāo)檢測(cè)方法雖然取得了良好的檢測(cè)效果, 但仍然存在一定的小目標(biāo)誤檢漏檢情況, 這些問(wèn)題需要在未來(lái)進(jìn)一步解決, 總結(jié)如下:
(1) TransMIN和TridentNet等方法將多尺度特征進(jìn)行融合, 可以同時(shí)考慮細(xì)節(jié)輪廓和高層語(yǔ)義信息, 豐富了小目標(biāo)特征的表達(dá)。 然而, 不同尺度特征的分辨率不同, 對(duì)輸出特征的貢獻(xiàn)不一, 按位相加或者直接級(jí)聯(lián)缺乏對(duì)各個(gè)特征之間的重要性建模, 小目標(biāo)特征容易被淹沒(méi), 并且特征圖中的背景噪聲可能隨著特征融合不斷累積。
(2) MCFPN和ION等方法通過(guò)提取小目標(biāo)的上下文信息來(lái)完善小目標(biāo)特征信息的表達(dá), 提升了小目標(biāo)的檢測(cè)效果。 然而, 上下文語(yǔ)義建模無(wú)法建立像素與像素之間的直接聯(lián)系, 不相鄰的像素之間缺乏長(zhǎng)距離依賴(lài)關(guān)系建模, 全局信息可以彌補(bǔ)小目標(biāo)特征信息少的不足, 增強(qiáng)小目標(biāo)的特征表達(dá), 但只有疊加深層的網(wǎng)絡(luò)結(jié)構(gòu)才能捕獲長(zhǎng)距離特征關(guān)系, 網(wǎng)絡(luò)優(yōu)化訓(xùn)練的時(shí)間較長(zhǎng)。
(3) MTGAN和PGAN等方法采用超分辨率技術(shù)來(lái)增強(qiáng)小目標(biāo)的細(xì)節(jié)信息。 然而, 超分辨率技術(shù)在圖像尺寸較大時(shí)會(huì)帶來(lái)較高的計(jì)算復(fù)雜度, 而且容易導(dǎo)致訓(xùn)練困難, 如何加速計(jì)算是超分辨率技術(shù)廣泛應(yīng)用的前提。
3.4 解決目標(biāo)任意方向問(wèn)題的可見(jiàn)光目標(biāo)檢測(cè)方法
無(wú)人機(jī)航空?qǐng)D像中的目標(biāo)具有任意方向, 當(dāng)采用通用目標(biāo)檢測(cè)方法進(jìn)行目標(biāo)檢測(cè)時(shí), 由于使用水平錨框來(lái)檢測(cè)目標(biāo), 生成的目標(biāo)檢測(cè)框不可避免地會(huì)引入背景噪聲或無(wú)關(guān)的前景特征[77]。 為解決無(wú)人機(jī)航空?qǐng)D像中的目標(biāo)任意方向問(wèn)題, 研究人員提出了許多先進(jìn)的定向目標(biāo)檢測(cè)方法。
3.4.1 基于特征增強(qiáng)的定向目標(biāo)檢測(cè)
AARN[33]利用密集排列的親和力來(lái)檢測(cè)定向目標(biāo), 親和力圖構(gòu)造模塊選擇與參考框高度相似的檢測(cè)框, 動(dòng)態(tài)增強(qiáng)模塊利用注意力機(jī)制學(xué)習(xí)鄰域信息, 動(dòng)態(tài)地確定特征增強(qiáng)的權(quán)重。 Oriented R-CNN[78]引入定向區(qū)域建議網(wǎng)絡(luò)來(lái)直接預(yù)測(cè)水平錨框的定向建議。 RoI-Transformer[79]將水平目標(biāo)區(qū)域轉(zhuǎn)換為旋轉(zhuǎn)目標(biāo)區(qū)域, 提取旋轉(zhuǎn)不變特征進(jìn)行定向目標(biāo)的分類(lèi)和回歸。 ADT-Det[80]提出特征金字塔Transformer, 通過(guò)特征交互機(jī)制來(lái)增強(qiáng)定向目標(biāo)檢測(cè)框架的特征提取功能。 S2A-Net[81]通過(guò)錨框細(xì)化生成高質(zhì)量的定向錨框, 自適應(yīng)地將卷積特征與錨框?qū)R。 R3Det[82]提出特征細(xì)化模塊并構(gòu)建對(duì)齊的特征映射, 以適應(yīng)定向檢測(cè)框的定位偏移。 SCRDet[83]提出引入像素級(jí)語(yǔ)義信息的細(xì)粒度特征融合分支, 以充分提取定向目標(biāo)的特征信息。
3.4.2 基于樣本分配的定向目標(biāo)檢測(cè)
良好的樣本分配可以減輕分類(lèi)與回歸任務(wù)之間的不一致。 DCFL[35]以動(dòng)態(tài)的方式對(duì)先驗(yàn)、 樣本分配和目標(biāo)表示進(jìn)行建模, 利用粗糙的先驗(yàn)匹配和精細(xì)的后驗(yàn)約束來(lái)動(dòng)態(tài)地分配樣本, 為不同的目標(biāo)提供適當(dāng)?shù)暮拖鄬?duì)平衡的監(jiān)督。 Rotated-RetinaNet[16]基于固定的Max-IoU策略分配樣本, 采用區(qū)域建議和地面真實(shí)值之間的交并比(IoU)作為選擇度量。 DAL[84]根據(jù)輸入先驗(yàn)IoU與輸出預(yù)測(cè)IoU之間的不一致性定義了一個(gè)預(yù)測(cè)感知匹配度, 然后利用它來(lái)重新確定錨框的權(quán)重, 實(shí)現(xiàn)了動(dòng)態(tài)樣本學(xué)習(xí)。 SASM[85]根據(jù)目標(biāo)的形狀信息和特征分布動(dòng)態(tài)分配樣本。 Oriented RepPoints[86]提出Max-Convex-IoU樣本分配方案用于自適應(yīng)點(diǎn)學(xué)習(xí), 不僅從分類(lèi)和回歸中選擇點(diǎn)樣本, 而且從方向和點(diǎn)特征相關(guān)中選擇點(diǎn)樣本。
3.4.3 基于回歸損失優(yōu)化的定向目標(biāo)檢測(cè)
Gliding Vertex[87]通過(guò)在水平邊界上滑動(dòng)頂點(diǎn)來(lái)學(xué)習(xí)檢測(cè)框四個(gè)角的偏移量, 進(jìn)而預(yù)測(cè)定向檢測(cè)框。 CSL[88]通過(guò)將定向目標(biāo)回歸轉(zhuǎn)化為分類(lèi)任務(wù)來(lái)處理超出范圍的旋轉(zhuǎn)角度。 PIoU[89]通過(guò)累積內(nèi)部重疊像素的貢獻(xiàn)來(lái)計(jì)算回歸損失。 GWD[90]和KLD[91]將定向目標(biāo)框和地面真實(shí)框分別建模為高斯分布, 然后通過(guò)高斯瓦瑟斯坦距離和庫(kù)勒散度構(gòu)造一個(gè)新的損失函數(shù)來(lái)衡量分布之間的差異, 以此作為回歸損失。 Attention-Points[34]設(shè)計(jì)了由引導(dǎo)注意損失(GALoss)和盒點(diǎn)損失(BPLoss)組成的注意力網(wǎng)絡(luò), GALoss使用一個(gè)實(shí)例分割掩模作為地面真實(shí)圖像來(lái)學(xué)習(xí)目標(biāo)的注意特征, BPLoss利用目標(biāo)的注意特征來(lái)預(yù)測(cè)定向目標(biāo)檢測(cè)框的位置。 KRRD[92]提出了R-DIoU損失, 將地面真實(shí)邊界框與預(yù)測(cè)邊界框之間的中心點(diǎn)距離納入定向目標(biāo)檢測(cè)的回歸過(guò)程中, 以加速網(wǎng)絡(luò)的收斂速度。
3.4.4 定向目標(biāo)檢測(cè)方法的定量與定性分析
表2和圖4顯示了上述定向目標(biāo)檢測(cè)方法在UAV123數(shù)據(jù)集上的定量與定性比較結(jié)果。
圖4(a)~(b)中, 基于特征增強(qiáng)的目標(biāo)檢測(cè)方法AARN在33個(gè)船只(紫色邊界框)中只檢測(cè)到了3個(gè), S2A-Net在33個(gè)船只(紫色邊界框)中只檢測(cè)到了5個(gè), 檢測(cè)精度相對(duì)較低。 圖4(c)~(d)中, 基于樣本分配的目標(biāo)檢測(cè)方法SASM在33個(gè)船只(紫色邊界框)中檢測(cè)到了6個(gè), DCFL在33個(gè)船只(紫色邊界框)中檢測(cè)到了11個(gè), 檢測(cè)精度雖有提升, 但仍然較低。 圖4(e)~(f)中, 基于回歸損失優(yōu)化的目標(biāo)檢測(cè)方法Attention-Points和KRRD在33個(gè)船只(紫色邊界框)中檢測(cè)到了12個(gè), 檢測(cè)精度進(jìn)一步提升, 并且其生成的目標(biāo)邊界框更加貼近船只的真實(shí)形狀。
通過(guò)比較結(jié)果可以發(fā)現(xiàn), 當(dāng)前為解決目標(biāo)任意方向問(wèn)題而提出的目標(biāo)檢測(cè)方法雖然取得了一定的檢測(cè)效果, 但仍然存在大量的定向目標(biāo)漏檢情況, 這些問(wèn)題需要在未來(lái)進(jìn)一步解決, 總結(jié)如下:
(1) AARN和RoI-Transformer等特征增強(qiáng)方法由于精心設(shè)計(jì)的特征增強(qiáng)模塊, 使得網(wǎng)絡(luò)變得沉重且復(fù)雜, 參數(shù)數(shù)量明顯增加。 另外, 這些方法在每個(gè)位置上設(shè)置了不同角度、 比例和高寬比的錨框, 密集旋轉(zhuǎn)的錨框?qū)е铝藱z測(cè)效率明顯降低并存在大量的計(jì)算開(kāi)銷(xiāo)和內(nèi)存占用。
(2) SASM和DCFL等樣本分配方法都設(shè)置了一些超參數(shù), 如SASM的動(dòng)態(tài)IoU閾值和DCFL的目標(biāo)尺度范圍, 超參數(shù)的不同設(shè)置將會(huì)產(chǎn)生非常不同的檢測(cè)結(jié)果, 甚至出現(xiàn)目標(biāo)的漏檢情況。
(3) Attention-Points和KRRD等回歸損失優(yōu)化方法不能根據(jù)定向目標(biāo)的高度和寬度動(dòng)態(tài)調(diào)整梯度, 例如具有大高寬比的船只目標(biāo)對(duì)位置的偏移很敏感, 輕微的角度誤差就會(huì)導(dǎo)致檢測(cè)精度的嚴(yán)重下降甚至出現(xiàn)目標(biāo)的漏檢情況。
3.5 解決目標(biāo)高度偽裝問(wèn)題的可見(jiàn)光目標(biāo)檢測(cè)方法
偽裝目標(biāo)為躲避偵察打擊通常位于復(fù)雜的背景中, 如戰(zhàn)場(chǎng)、 叢林和城鎮(zhèn), 并且與復(fù)雜的背景具有高度的紋理相似性。 當(dāng)采用通用目標(biāo)檢測(cè)方法進(jìn)行目標(biāo)檢測(cè)時(shí), 由于復(fù)雜的戰(zhàn)場(chǎng)環(huán)境以及前景和背景之間高度的紋理相似性, 這些方法往往不能檢測(cè)到偽裝的目標(biāo), 導(dǎo)致出現(xiàn)遺漏檢測(cè), 嚴(yán)重影響無(wú)人機(jī)偵察打擊等軍事任務(wù)的效果。 為解決無(wú)人機(jī)航空?qǐng)D像中的目標(biāo)高度偽裝問(wèn)題, 研究人員提出了許多先進(jìn)的偽裝目標(biāo)檢測(cè)方法。
3.5.1 基于手工設(shè)計(jì)特征的偽裝目標(biāo)檢測(cè)
基于手工設(shè)計(jì)特征的偽裝目標(biāo)檢測(cè)方法通過(guò)手工設(shè)計(jì)的特征來(lái)計(jì)算對(duì)比度, 使偽裝目標(biāo)與背景分離。 基于手工設(shè)計(jì)特征的偽裝目標(biāo)檢測(cè)方法可以分為基于強(qiáng)度對(duì)比的方法[93]、 基于顏色對(duì)比的方法[94]、 基于紋理對(duì)比的方法[95]、 基于光流對(duì)比的方法[96]和基于特征融合對(duì)比的方法[97]。 然而, 這些方法缺乏豐富的語(yǔ)義表達(dá)能力, 不能處理復(fù)雜的背景和有噪聲干擾的實(shí)際場(chǎng)景。
3.5.2 基于語(yǔ)義分割的偽裝目標(biāo)檢測(cè)
隨著CAMO[98]和COD10K[99]等偽裝數(shù)據(jù)集的發(fā)布, 許多基于語(yǔ)義分割的偽裝目標(biāo)檢測(cè)方法被提出, 并取得很大進(jìn)展。 這些方法大致可以分為四種類(lèi)型:" 一是設(shè)計(jì)先進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)探索偽裝目標(biāo)的鑒別性特征, 如C2FNet[100], TANet[101], DTCNet[102], UGTR[103], FSANet[104]和CRI-Net[105];" 二是將輔助任務(wù)與目標(biāo)檢測(cè)任務(wù)相結(jié)合以提高偽裝目標(biāo)檢測(cè)的性能, 如邊界探索[106]、 顯著目標(biāo)檢測(cè)[107]和偽裝目標(biāo)排名[108]等;" 三是采用受自然界捕食者行為啟發(fā)的仿生機(jī)制來(lái)執(zhí)行偽裝目標(biāo)檢測(cè), 如SINet[109]和MirrorNet[110]; 四是提出紅外和可見(jiàn)光圖像融合方法來(lái)輔助偽裝目標(biāo)檢測(cè), 如SeAFusion[111]和SuperFusion[112]。
3.5.3 基于錨框的偽裝目標(biāo)檢測(cè)
由于公共數(shù)據(jù)集的嚴(yán)重限制, 基于錨框的偽裝目標(biāo)檢測(cè)方法的研究相對(duì)較少。 MHNet[53]提出一種端到端的感知和識(shí)別框架來(lái)檢測(cè)軍事偽裝目標(biāo), 在整個(gè)檢測(cè)過(guò)程中包含了生物視覺(jué)機(jī)制的全局先驗(yàn)、 關(guān)系挖掘和視覺(jué)恢復(fù)。 TCPM[113]提出一種基于三元級(jí)聯(lián)感知的方法來(lái)檢測(cè)偽裝目標(biāo), 提取了偽裝目標(biāo)的空間信息與關(guān)鍵點(diǎn)的位置信息之間的關(guān)系。 CPDN[114]提出一種基于錨框的偽裝人員檢測(cè)方法, 在卷積神經(jīng)網(wǎng)絡(luò)中增加了有效的通道注意和改進(jìn)的接受域塊, 以關(guān)注偽裝人員的更多特征。
3.5.4 偽裝目標(biāo)檢測(cè)方法的定量與定性分析
表3和圖5顯示了上述偽裝目標(biāo)檢測(cè)方法在MHCD數(shù)據(jù)集上的定量與定性比較結(jié)果。
圖5(a)~(b)中, 基于語(yǔ)義分割的目標(biāo)檢測(cè)方法C2FNet和FSANet通過(guò)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)探索偽裝目標(biāo)的鑒別性特征, 對(duì)于偽裝的狙擊手(紫色邊界框)的檢測(cè)精度只有30%左右, 并且生成的目標(biāo)邊界框偏離了狙擊手的輪廓形狀。 圖5(c)中, 基于語(yǔ)義分割的目標(biāo)檢測(cè)方法SINet采用受自然界捕食者行為啟發(fā)的仿生機(jī)制來(lái)執(zhí)行偽裝目標(biāo)檢測(cè), 對(duì)于偽裝的狙擊手(紫色邊界框)的檢測(cè)精度達(dá)到了63%, 但生成的目標(biāo)邊界框未能緊密匹配狙擊手的輪廓形狀。 圖5(d)~(e)中, 基于錨框的目標(biāo)檢測(cè)方法TCPM和MHNet對(duì)于偽裝的狙擊手(紫色邊界框)的檢測(cè)精度達(dá)到了98%~99%, 并且生成的目標(biāo)邊界框能夠緊密匹配狙擊手的輪廓形狀。
通過(guò)比較結(jié)果可以發(fā)現(xiàn), 當(dāng)前為解決目標(biāo)高度偽裝問(wèn)題而提出的目標(biāo)檢測(cè)方法雖然取得了良好的檢測(cè)效果, 但仍然存在一定的目標(biāo)邊界框不準(zhǔn)確情況, 這一問(wèn)題需要在未來(lái)進(jìn)一步解決, 總結(jié)如下:
(1) C2FNet, FSANet和SINet等語(yǔ)義分割方法由于偽裝目標(biāo)與背景之間高度的紋理相似性, 提取的偽裝目標(biāo)特征較為有限, 不能很好地區(qū)分偽裝目標(biāo)與背景的模糊邊界。
(2) TCPM和MHNet等基于錨框的方法能夠獲得偽裝目標(biāo)更高的檢測(cè)精度, 并且生成的目標(biāo)邊界框能夠緊密匹配偽裝目標(biāo)的輪廓形狀。 然而, 當(dāng)前主流方法側(cè)重于偽裝目標(biāo)的語(yǔ)義分割, 對(duì)偽裝目標(biāo)的檢測(cè)關(guān)注較少, 目前幾乎沒(méi)有專(zhuān)門(mén)為偽裝目標(biāo)檢測(cè)而設(shè)計(jì)的數(shù)據(jù)集。
3.6 解決目標(biāo)運(yùn)動(dòng)模糊問(wèn)題的模糊圖像恢復(fù)方法
無(wú)人機(jī)航空?qǐng)D像已被廣泛應(yīng)用于偵察情報(bào)判讀和重點(diǎn)區(qū)域監(jiān)測(cè)。 然而, 當(dāng)無(wú)人機(jī)相機(jī)快速移動(dòng)并且有多個(gè)運(yùn)動(dòng)目標(biāo)時(shí), 無(wú)人機(jī)航拍圖像將變得高度模糊。 因此, 恢復(fù)模糊的圖像是非常重要的, 特別是對(duì)于后續(xù)的目標(biāo)檢測(cè)任務(wù), 模糊的圖像嚴(yán)重降低了目標(biāo)檢測(cè)的精度。 為解決無(wú)人機(jī)航空?qǐng)D像中的目標(biāo)運(yùn)動(dòng)模糊問(wèn)題, 研究人員提出了許多先進(jìn)的模糊圖像恢復(fù)方法。
3.6.1 基于圖像先驗(yàn)的模糊圖像恢復(fù)
基于圖像先驗(yàn)的模糊圖像恢復(fù)方法主要利用不同的圖像先驗(yàn)從模糊圖像中恢復(fù)清晰圖像。 例如, Ren等[23]采用結(jié)合低秩先驗(yàn)和梯度圖的最小化加權(quán)核范數(shù)方法, 以提高圖像去模糊的有效性。 Yan等[24]將暗通道和亮通道相結(jié)合, 設(shè)計(jì)了一種圖像去模糊的極端通道先驗(yàn)方法。 同時(shí), 基于局部先驗(yàn)信息的圖像去模糊方法也取得了重大成果, 如基于局部最大梯度先驗(yàn)[26]的方法和基于局部最大差分先驗(yàn)[27]的方法。
3.6.2 基于深度學(xué)習(xí)的模糊圖像恢復(fù)
隨著深度學(xué)習(xí)的快速發(fā)展, 設(shè)計(jì)不同的網(wǎng)絡(luò)結(jié)構(gòu), 學(xué)習(xí)從模糊圖像到清晰圖像的非線(xiàn)性映射, 無(wú)需對(duì)不同的模糊場(chǎng)景進(jìn)行復(fù)雜的參數(shù)調(diào)整, 已經(jīng)取得了重大進(jìn)展。 基于深度學(xué)習(xí)的模糊圖像恢復(fù)方法主要通過(guò)大量成對(duì)的訓(xùn)練數(shù)據(jù), 以端到端的方式訓(xùn)練去模糊模型。 例如, MIMO-UNet[28]提出一種用于圖像去模糊的多輸入多輸出U-Net網(wǎng)絡(luò)。 DeepDeblur[29]提出一種從粗到細(xì)的去模糊網(wǎng)絡(luò), 通過(guò)堆疊多個(gè)子網(wǎng)絡(luò)實(shí)現(xiàn)了良好的去模糊性能。 MAXIM[30]提出一種基于多軸多層感知機(jī)的架構(gòu), 其中每個(gè)模塊都有一個(gè)全局和局部感知域, 提高了去模糊模型的學(xué)習(xí)能力。 DeblurGAN[31]提出一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的去模糊方法, 可以在去模糊圖像中生成更真實(shí)的細(xì)節(jié)。 DSADN[115]提出一種具有并行融合流的去模糊網(wǎng)絡(luò)來(lái)生成清晰的圖像, 融合了底層紋理特征和高層語(yǔ)義特征來(lái)擴(kuò)展圖像的接受域。 Ref-MFFDN[116]提出一種基于參考的多層特征融合網(wǎng)絡(luò)進(jìn)行圖像去模糊, 從同一位置不同時(shí)刻的清晰參考圖像中提取紋理, 以幫助恢復(fù)模糊圖像。 IdemDeblur[117]在去模糊框架中引入了冪等約束, 提出一種深度冪等網(wǎng)絡(luò), 在穩(wěn)定的再去模糊條件下實(shí)現(xiàn)更好的非均勻圖像去模糊。 SDD-GAN[118]提出一種用于圖像去模糊的端到端GAN, 引入特征對(duì)齊模塊和特征重要性選擇模塊來(lái)恢復(fù)模糊圖像的紋理和細(xì)節(jié)。 AMD-GAN[61]提出一種用于圖像去模糊的自適應(yīng)多尺度融合GAN, 采用圖像模糊度自適應(yīng)地引導(dǎo)網(wǎng)絡(luò)進(jìn)行特征圖的多尺度融合。 MGSTNet[62]設(shè)計(jì)了一種多尺度廣義收縮閾值網(wǎng)絡(luò), 能夠自適應(yīng)地學(xué)習(xí)深度幾何先驗(yàn)信息的重要性, 以增強(qiáng)模糊圖像恢復(fù)的效果。
3.6.3 模糊圖像恢復(fù)方法的定量與定性分析
表4和圖6顯示了上述模糊圖像恢復(fù)方法在GoPro數(shù)據(jù)集上的定量與定性比較結(jié)果。
圖6的第1列中, 部分方法不能準(zhǔn)確地恢復(fù)由高度移動(dòng)的行人造成的模糊邊緣。 圖6的第2列中, 部分方法不能準(zhǔn)確地處理高度模糊的場(chǎng)景, 特別是圖像右下角的標(biāo)志牌和崗?fù)ぁ?圖6的第3列中, 部分方法不能準(zhǔn)確地恢復(fù)紅框中窗戶(hù)的結(jié)構(gòu)。
另外, 利用上述模糊圖像恢復(fù)方法對(duì)DroneVehicle數(shù)據(jù)集中的真實(shí)模糊圖像進(jìn)行圖像恢復(fù), 運(yùn)用常見(jiàn)的目標(biāo)檢測(cè)方法RetinaNet對(duì)上述模糊圖像恢復(fù)方法恢復(fù)后的圖像進(jìn)行目標(biāo)檢測(cè), 定性比較結(jié)果如圖7所示。 圖7(a)中, DeblurGAN方法恢復(fù)的圖像對(duì)于道路上的直行和掉頭箭頭依然模糊不清, 同時(shí)對(duì)于車(chē)輛的檢測(cè)精度只達(dá)到了67.0%。 圖7(b)~(e)中, DeepDeblur, AMD-GAN, NAFNet和IdemDeblur這四種方法恢復(fù)的圖像對(duì)于道路上的直行和掉頭箭頭的清晰度逐漸增加, 同時(shí)對(duì)于車(chē)輛的檢測(cè)精度分別達(dá)到了79.6%, 83.0%, 83.7%和84.8%, 但由于車(chē)輛模糊邊緣的影響, 生成的目標(biāo)邊界框未能緊密匹配車(chē)輛的輪廓形狀。 圖7(f)中, MGSTNet方法恢復(fù)的圖像對(duì)于車(chē)輛的檢測(cè)精度達(dá)到了最高的86.7%, 并且生成的目標(biāo)邊界框緊密匹配了車(chē)輛的輪廓形狀。
通過(guò)比較結(jié)果可以發(fā)現(xiàn), 當(dāng)前為解決目標(biāo)運(yùn)動(dòng)模糊問(wèn)題而提出的模糊圖像恢復(fù)方法雖然取得了良好的效果, 但是對(duì)模糊邊緣恢復(fù)等一些細(xì)節(jié)的處理并不令人滿(mǎn)意, 仍然存在一些問(wèn)題需要在未來(lái)進(jìn)一步解決, 總結(jié)如下:
(1) 極端通道先驗(yàn)、 局部最大梯度先驗(yàn)和局部最大差分先驗(yàn)等基于圖像先驗(yàn)的方法的建模依賴(lài)于先驗(yàn)約束, 許多先驗(yàn)僅針對(duì)特定的模糊場(chǎng)景而設(shè)計(jì)。 此外, 基于圖像先驗(yàn)的方法往往很耗時(shí), 需要仔細(xì)調(diào)整針對(duì)不同數(shù)據(jù)集的參數(shù)。
(2) NAFNet, IdemDeblur和MGSTNet等基于深度學(xué)習(xí)的方法恢復(fù)的模糊圖像在多層和多尺度特征的聚合和對(duì)齊過(guò)程中, 由于不斷的雙線(xiàn)性降采樣和轉(zhuǎn)置卷積操作, 可能會(huì)丟失高頻細(xì)節(jié)信息。 此外, 基于深度學(xué)習(xí)的方法依賴(lài)于成對(duì)的訓(xùn)練數(shù)據(jù), 當(dāng)訓(xùn)練數(shù)據(jù)有限時(shí), 模糊圖像的恢復(fù)效果將會(huì)下降。
4 未來(lái)研究方向
近幾年來(lái), 研究人員對(duì)基于深度學(xué)習(xí)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)的研究越來(lái)越感興趣, 現(xiàn)有的方法已經(jīng)取得了一些階段性研究成果, 但無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)作為無(wú)人機(jī)偵察領(lǐng)域和人工智能應(yīng)用的核心任務(wù), 仍存在許多問(wèn)題與難點(diǎn)亟待解決。 對(duì)基于深度學(xué)習(xí)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)的未來(lái)研究方向進(jìn)行了以下討論:
(1) 無(wú)監(jiān)督或半監(jiān)督訓(xùn)練。 現(xiàn)有的無(wú)人機(jī)目標(biāo)檢測(cè)數(shù)據(jù)集標(biāo)注成本較高, 無(wú)監(jiān)督或半監(jiān)督訓(xùn)練方法可以從未標(biāo)注或少量標(biāo)注數(shù)據(jù)中學(xué)習(xí)有用的特征和知識(shí), 實(shí)現(xiàn)高效的目標(biāo)檢測(cè)。 此外, 還可以使用來(lái)自其他領(lǐng)域或任務(wù)的預(yù)訓(xùn)練模型, 如自然場(chǎng)景普通視圖中的目標(biāo)檢測(cè)模型, 對(duì)無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)模型進(jìn)行初始化或微調(diào), 利用來(lái)自其他領(lǐng)域或任務(wù)的知識(shí)來(lái)提高目標(biāo)檢測(cè)性能。
(2) 數(shù)據(jù)預(yù)處理。 目標(biāo)檢測(cè)的效果很大程度上取決于輸入數(shù)據(jù)的質(zhì)量, 由于無(wú)人機(jī)飛行高度和飛行姿態(tài)的限制, 目標(biāo)重疊、 覆蓋、 位移等問(wèn)題是不可避免的。 基于深度學(xué)習(xí)的無(wú)人機(jī)可見(jiàn)光目標(biāo)檢測(cè)方法可以通過(guò)數(shù)據(jù)預(yù)處理來(lái)減少冗余特征, 提高目標(biāo)檢測(cè)的效率。
(3) 多模態(tài)數(shù)據(jù)。 多模態(tài)數(shù)據(jù)是指從紅外等傳感器或雷達(dá)中獲得的數(shù)據(jù)。 多模態(tài)數(shù)據(jù)可以提供更豐富、 更完整的信息, 有助于克服單模態(tài)數(shù)據(jù)的局限性和不足。 多模態(tài)數(shù)據(jù)融合的應(yīng)用非常廣泛, 然而在數(shù)據(jù)融合過(guò)程中存在著一些挑戰(zhàn), 例如數(shù)據(jù)質(zhì)量問(wèn)題、" 噪聲問(wèn)題等。 為了解決這些問(wèn)題, 有必要將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和分辨率, 促進(jìn)多模態(tài)數(shù)據(jù)的融合與處理。
參考文獻(xiàn):
[1] 符成山, 吳惟誠(chéng), 雷東. 美軍無(wú)人機(jī)裝備現(xiàn)狀及發(fā)展趨勢(shì)[J]. 飛航導(dǎo)彈, 2019(9): 46-52.
Fu Chengshan, Wu Weicheng, Lei Dong. Current Situation and Development Trend of US UAV Equipment[J]. Aerodynamic Missile Journal, 2019(9): 46-52.(in Chinese)
[2] 魯亞飛, 陳清陽(yáng), 吳岸平. 中空長(zhǎng)航時(shí)察打一體無(wú)人機(jī)運(yùn)用特點(diǎn)分析[J]. 飛航導(dǎo)彈, 2020(9): 75-79.
Lu Yafei, Chen Qingyang, Wu Anping. Analysis on the Application Characteristics of Unmanned Aerial Vehicle with Hollow Long Endurance Inspection and Strike[J]. Aerodynamic Missile Journal, 2020(9): 75-79.(in Chinese)
[3] 胡勁松, 黃文濤. 無(wú)人化裝備給偵察情報(bào)帶來(lái)的新變化[J]. 軍事文摘, 2020(19): 27-30.
Hu Jinsong, Huang Wentao. New Changes Brought by Unmanned Equipment to Reconnaissance Intelligence[J]. Military Digest, 2020(19): 27-30.(in Chinese)
[4] 王耀南, 安果維, 王傳成, 等. 智能無(wú)人系統(tǒng)技術(shù)應(yīng)用與發(fā)展趨勢(shì)[J]. 中國(guó)艦船研究, 2022, 17(5): 9-26.
Wang Yaonan, An Guowei, Wang Chuancheng, et al. Technology Application and Development Trend of Intelligent Unmanned System[J]. Chinese Journal of Ship Research, 2022, 17(5): 9-26.(in Chinese)
[5] Zhao Q, Liu B H, Lyu S C, et al. TPH-YOLOv5++: Boosting Object Detection on Drone-Captured Scenarios with Cross-Layer Asymmetric Transformer[J]. Remote Sensing, 2023, 15(6): 1687.
[6] Deng S T, Li S, Xie K, et al. A Global-Local Self-Adaptive Network for Drone-View Object Detection[J]. IEEE Transactions on Image Processing, 2021, 30: 1556-1569.
[7] Huang Y C, Chen J X, Huang D. UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(1): 1026-1033.
[8] 邱荷茜. 視覺(jué)目標(biāo)檢測(cè)關(guān)鍵技術(shù)研究[D]. 成都: 電子科技大學(xué), 2022.
Qiu Heqian. Research on Key Technologies of Visual Object Detection[D]. Chengdu: University of Electronic Science and Technology of China, 2022. (in Chinese)
[9] 馮彥卿. 基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)與跟蹤技術(shù)研究[D]. 長(zhǎng)沙: 國(guó)防科技大學(xué), 2020.
Feng Yanqing. Research on Visual Object Detection and Tracking Technology Based on Deep Learning[D]. Changsha: National University of Defense Technology, 2020. (in Chinese)
[10] 丁鵬欣. 基于深度學(xué)習(xí)的圖像目標(biāo)檢測(cè)關(guān)鍵技術(shù)研究[D]. 成都: 四川大學(xué), 2021.
Ding Pengxin. Research on Key Technologies of Image Object Detection Based on Deep Learning[D]. Chengdu: Sichuan University, 2021. (in Chinese)
[11] 曹家樂(lè), 李亞利, 孫漢卿, 等. 基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)技術(shù)綜述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2022, 27(6): 1697-1722.
Cao Jiale, Li Yali, Sun Hanqing, et al. A Survey on Deep Learning Based Visual Object Detection[J]. Journal of Image and Graphics, 2022, 27(6): 1697-1722.(in Chinese)
[12] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[13] Cai Z W, Vasconcelos N. Cascade R-CNN: High Quality Object Detection and Instance Segmentation[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[14] He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397.
[15] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]∥ European Conference on Computer Vision, 2016: 2325-2341.
[16] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]∥ IEEE International Conference on Computer Vision, 2017.
[17] Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[18] Zhu X Z, Su W J, Lu L W, et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection[C]∥ International Conference on Learning Representations, 2021.
[19] Xu G M, Song T C, Sun X, et al. TransMIN: Transformer-Guided Multi-Interaction Network for Remote Sensing Object Detection[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 3230973.
[20] Ma X Y, Lv P Y, Zhong Y F. QETR: A Query-Enhanced Transformer for Remote Sensing Image Object Detection[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 6005905.
[21] Zamir S W, Arora A, Khan S, et al. Multi-Stage Progressive Image Restoration[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.
[22] Chen L Y, Chu X J, Zhang X Y, et al. Simple Baselines for Image Restoration[C]∥ European Conference on Computer Vision, 2022: 4676-4696.
[23] Ren W Q, Cao X C, Pan J S, et al. Image Deblurring via Enhanced Low-Rank Prior[J]. IEEE Transactions on Image Processing, 2016, 25(7): 3426-3437.
[24] Yan Y Y, Ren W Q, Guo Y F, et al. Image Deblurring via Extreme Channels Prior[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[25] Ge X Y, Tan J Q, Zhang L. Blind Image Deblurring Using a Non-Linear Channel Prior Based on Dark and Bright Channels[J]. IEEE Transactions on Image Processing, 2021, 30: 6970-6984.
[26] Chen L, Fang F M, Wang T T, et al. Blind Image Deblurring with Local Maximum Gradient Prior[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[27] Liu J, Tan J Q, He L, et al. Blind Image Deblurring via Local Maximum Difference Prior[J]. IEEE Access, 2020, 8: 219295-219307.
[28] Cho S J, Ji S W, Hong J P, et al. Rethinking Coarse-to-Fine Approach in Single Image Deblurring[C]∥ IEEE/CVF International Conference on Computer Vision, 2021.
[29] Nah S, Kim T H, Lee K M. Deep Multi-Scale Convolutional Neural Network for Dynamic Scene Deblurring[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[30] Tu Z Z, Talebi H, Zhang H, et al. MAXIM: Multi-Axis MLP for Image Processing[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022.
[31] Kupyn O, Budzan V, Mykhailych M, et al. DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[32] Kupyn O, Martyniuk T, Wu J R, et al. DeblurGAN-V2: Deblurring (Orders-of-Magnitude) Faster and Better[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[33] Fang T T, Liu B, Zhao Z W, et al. Affinity-Aware Relation Network for Oriented Object Detection in Aerial Images[C]∥Asian Conference on Computer Vision, 2022: 3343-3360.
[34] Doloriel C T C, Cajote R D. Improving the Detection of Small Oriented Objects in Aerial Images[C]∥IEEE/CVF Winter Conference on Applications of Computer Vision Workshops, 2023.
[35] Xu C, Ding J, Wang J W, et al. Dynamic Coarse-to-Fine Learning for Oriented Tiny Object Detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023.
[36] 楊建秀. 無(wú)人機(jī)視角下車(chē)輛目標(biāo)檢測(cè)的算法研究[D]. 西安: 西安電子科技大學(xué), 2021.
Yang Jianxiu. Research on Vehicle Detection Algorithms from UAV Imagery[D]. Xi’an: Xidian University, 2021. (in Chinese)
[37] 韓偉. 基于深度神經(jīng)網(wǎng)絡(luò)的高分辨率遙感影像弱小目標(biāo)檢測(cè)[D]. 武漢: 中國(guó)地質(zhì)大學(xué), 2021.
Han Wei. Small Weak Object Detection in High-Resolution Remote Sensing Images Based on Deep Neural Network[D]. Wuhan: China University of Geosciences, 2021. (in Chinese)
[38] 李雪森, 譚北海, 余榮, 等. 基于YOLOv5的輕量化無(wú)人機(jī)航拍小目標(biāo)檢測(cè)算法[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2024, 41(3): 71-80.
Li Xuesen, Tan Beihai, Yu Rong, et al. Small Target Detection Algorithm for Lightweight UAV Aerial Photography Based on YOLOv5[J]. Journal of Guangdong University of Technology, 2024, 41(3): 71-80.(in Chinese)
[39] 王乾勝, 展勇忠, 鄒宇. 基于改進(jìn)Yolov5n的無(wú)人機(jī)對(duì)地面軍事目標(biāo)識(shí)別算法[J]. 計(jì)算機(jī)測(cè)量與控制, 2024, 32(6): 189-197.
Wang Qiansheng, Zhan Yongzhong, Zou Yu. Recognition Algorithm for UAV Ground Military Targets Based on Improved Yolov5n[J]. Computer Measurement amp; Control, 2024, 32(6): 189-197.(in Chinese)
[40] 牛為華, 魏雅麗. 基于改進(jìn)YOLOv 7的航拍小目標(biāo)檢測(cè)算法[J]. 電光與控制, 2024, 31(1): 117-122.
Niu Weihua, Wei Yali. Small Target Detection in Aerial Photography Images Based on Improved YOLOv7 Algorithm[J]. Electro-nics Optics amp; Control, 2024, 31(1): 117-122.(in Chinese)
[41] 沈?qū)W利, 王靈超. 基于YOLOv8n的無(wú)人機(jī)航拍目標(biāo)檢測(cè)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2024, 33(7): 139-148.
Shen Xueli, Wang Lingchao. UAV Aerial Photography Target Detection Based on YOLOv8n[J]. Computer Systems and Applications, 2024, 33(7): 139-148.(in Chinese)
[42] Liang Y H, Qin G H, Sun M H, et al. A Systematic Review of Image-Level Camouflaged Object Detection with Deep Learning[J]. Neurocomputing, 2024, 566: 127050.
[43] 孫備, 黨昭洋, 吳鵬, 等. 多尺度互交叉注意力改進(jìn)的單無(wú)人機(jī)對(duì)地偽裝目標(biāo)檢測(cè)定位方法[J]. 儀器儀表學(xué)報(bào), 2023, 44(6): 54-65.
Sun Bei, Dang Zhaoyang, Wu Peng, et al. Multi Scale Cross Attention Improved Method of Single Unmanned Aerial Vehicle for Ground Camouflage Target Detection and Localization[J]. Chinese Journal of Scientific Instrument, 2023, 44(6): 54-65.(in Chinese)
[44] 賴(lài)杰, 彭銳暉, 孫殿星, 等. 融合注意力機(jī)制與多檢測(cè)層結(jié)構(gòu)的偽裝目標(biāo)檢測(cè)[J]. 中國(guó)圖象圖形學(xué)報(bào), 2024, 29(1): 134-146.
Lai Jie, Peng Ruihui, Sun Dianxing, et al. Detection of Camouflage Targets Based on Attention Mechanism and Multi-Detection Layer Structure[J]. Journal of Image and Graphics, 2024, 29(1): 134-146.(in Chinese)
[45] Zhang K H, Ren W Q, Luo W H, et al. Deep Image Deblurring: A Survey[J]. International Journal of Computer Vision, 2022, 130(9): 2103-2130.
[46] 蔡鍔, 鄧春華. 基于深度信念沙漏網(wǎng)絡(luò)的無(wú)人機(jī)運(yùn)動(dòng)模糊圖像的恢復(fù)[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2022, 39(5): 260-266.
Cai E, Deng Chunhua. Restoration of Motion-Blurred UAV Images Based on Deep Belief Hourglass Networkor[J]. Computer Applications and Software, 2022, 39(5): 260-266.(in Chinese)
[47] 王馨. 基于三維重建應(yīng)用場(chǎng)景下的無(wú)人機(jī)圖像去模糊算法的研究[D]. 天津: 天津理工大學(xué), 2023.
Wang Xin. Research on Image Deblurring Algorithm of UAV Based on 3d Reconstruction Application Scenario[D]. Tianjin: Tianjin University of Technology, 2023. (in Chinese)
[48] 張文政, 吳長(zhǎng)悅, 趙文, 等. 融合對(duì)抗網(wǎng)絡(luò)和維納濾波的無(wú)人機(jī)圖像去模糊方法研究[J]. 無(wú)線(xiàn)電工程, 2024, 54(3): 607-614.
Zhang Wenzheng, Wu Changyue, Zhao Wen, et al. Research on UAV Image Deblurring Method Based on Adversarial Network and Wiener Filter[J]. Radio Engineering, 2024, 54(3): 607-614.(in Chinese)
[49] Mueller M, Smith N, Ghanem B. A Benchmark and Simulator for UAV Tracking[C]∥ European Conference on Computer Vision, 2016: 445-461.
[50] Du D W, Qi Y K, Yu H Y, et al. The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking[C]∥European Conference on Computer Vision," 2018: 375-391.
[51] Zhu P F, Wen L Y, Du D W, et al. Detection and Tracking Meet Drones Challenge[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(11): 7380-7399.
[52] Sun Y M, Cao B, Zhu P F, et al. Drone-Based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(10): 6700-6713.
[53] Liu M Z, Di X G. Extraordinary MHNet: Military High-Level Camouflage Object Detection Network and Dataset[J]. Neurocomputing, 2023, 549: 126466.
[54] Rim J, Kim G, Kim J, et al. Realistic Blur Synthesis for Learning Image Deblurring[C]∥European Conference on Computer Vision, 2022: 487-503.
[55] Tan M X, Pang R M, Le Q V. EfficientDet: Scalable and Efficient Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020.
[56] 呂璐, 程虎, 朱鴻泰, 等. 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究與應(yīng)用綜述[J]. 電子與封裝, 2022, 22(1): 72-80.
Lü Lu, Cheng Hu, Zhu Hongtai, et al. Progress of Research and Application of Object Detection Based on Deep Learning[J]. Electronics amp; Packaging, 2022, 22(1): 72-80.(in Chinese)
[57] 謝富, 朱定局. 深度學(xué)習(xí)目標(biāo)檢測(cè)方法綜述[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2022, 31(2): 1-12.
Xie Fu, Zhu Dingju. Survey on Deep Learning Object Detection[J]. Computer Systems and Applications, 2022, 31(2): 1-12.(in Chinese)
[58] 那振宇, 程留洋, 孫鴻晨, 等. 基于深度學(xué)習(xí)的無(wú)人機(jī)檢測(cè)和識(shí)別研究綜述[J]. 信號(hào)處理, 2024, 40(4): 609-624.
Na Zhenyu, Cheng Liuyang, Sun Hongchen, et al. Survey on UAV Detection and Identification Based on Deep Learning[J]. Journal of Signal Processing, 2024, 40(4): 609-624.(in Chinese)
[59] Viola P, Jones M. Rapid Object Detection Using a Boosted Cascade of Simple Features[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001.
[60] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition ," 2005.
[61] Zhu B Y, Lv Q B, Tan Z. Adaptive Multi-Scale Fusion Blind Deblurred Generative Adversarial Network Method for Sharpening Image Data[J]. Drones, 2023, 7(2): 96-119.
[62] Feng Y J, Yang Y, Fan X H, et al. A Multiscale Generalized Shrinkage Threshold Network for Image Blind Deblurring in Remote Sensing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 3368760.
[63] Lin T Y, Dollar P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition , 2017.
[64] Ghiasi G, Lin T Y, Le Q V. NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2019.
[65] Liu S, Qi L, Qin H F, et al. Path Aggregation Network for Instance Segmentation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[66] Sun W, Dai L, Zhang X R, et al. RSOD: Real-Time Small Object Detection Algorithm in UAV-Based Traffic Monitoring[J]. Applied Intelligence, 2022, 52(8): 8448-8463.
[67] Li Y H, Chen Y T, Wang N Y, et al. Scale-Aware Trident Networks for Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[68] Liu Z M, Gao G Y, Sun L, et al. HRDNet: High-Resolution Detection Network for Small Objects[C]∥IEEE International Conference on Multimedia and Expo, 2021.
[69] Wang B Y, Ji R Y, Zhang L B, et al. Bridging Multi-Scale Context-Aware Representation for Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(5): 2317-2329.
[70] Zhao Y, Zhao L J, Li C Y, et al. Pyramid Attention Dilated Network for Aircraft Detection in SAR Images[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(4): 662-666.
[71] Lim J S, Astrid M, Yoon H J, et al. Small Object Detection Using Context and Attention[C]∥International Conference on Artificial Intelligence in Information and Communication, 2021.
[72] Bell S, Zitnick C L, Bala K, et al. Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks[C]∥ IEEE Conference on Computer Vision and Pattern Recognition , 2016.
[73] Li J N, Wei Y C, Liang X D, et al. Attentive Contexts for Object Detection[J]. IEEE Transactions on Multimedia, 2017, 19(5): 944-954.
[74] Bai Y C, Zhang Y Q, Ding M L, et al. SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network[C]∥European Conference on Computer Vision, 2018: 210-226.
[75] Li J N, Liang X D, Wei Y C, et al. Perceptual Generative Adversarial Networks for Small Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition , 2017.
[76] Noh J, Bae W, Lee W, et al. Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution for Small Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[77] 曹連雨. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的遙感影像目標(biāo)檢測(cè)技術(shù)研究及應(yīng)用[D]. 北京: 北京科技大學(xué), 2021.
Cao Lianyu. Research and Application on Object Detection of Remote Sensing Images Based on Deep Convolution Neural Network[D]. Beijing: University of Science and Technology Beijing, 2021. (in Chinese)
[78] Xie X X, Cheng G, Wang J B, et al. Oriented R-CNN for Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2021.
[79] Ding J, Xue N, Long Y, et al. Learning RoI Transformer for Oriented Object Detection in Aerial Images[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[80] Zheng Y B, Sun P, Zhou Z T, et al. ADT-Det: Adaptive Dynamic Refined Single-Stage Transformer Detector for Arbitrary-Oriented Object Detection in Satellite Optical Imagery[J]. Remote Sensing, 2021, 13(13): 2623.
[81] Han J M, Ding J, Li J, et al. Align Deep Features for Oriented Object Detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5602511.
[82] Yang X, Yan J C, Feng Z M, et al. R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(4): 3163-3171.
[83] Yang X, Yang J R, Yan J C, et al. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[84] Ming Q, Zhou Z Q, Miao L J, et al. Dynamic Anchor Learning for Arbitrary-Oriented Object Detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(3): 2355-2363.
[85] Hou L P, Lu K, Xue J, et al. Shape-Adaptive Selection and Measurement for Oriented Object Detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(1): 923-932.
[86] Li W T, Chen Y J, Hu K X, et al. Oriented RepPoints for Aerial Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2022.
[87] Xu Y C, Fu M T, Wang Q M, et al. Gliding Vertex on the Horizontal Bounding Box for Multi-Oriented Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(4): 1452-1459.
[88] Yang X, Yan J C. Arbitrary-Oriented Object Detection with Circular Smooth Label[C]∥European Conference on Computer Vision, 2020: 677-694.
[89]" Chen Z M, Chen K A, Lin W Y, et al. PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments[C]∥European Conference on Computer Vision, 2020: 195-211.
[90] Yang X, Yan J C, Ming Q, et al. Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss[C]∥ International Conference on Machine Learning, 2021: 11830-11841.
[91] Yang X, Yang X J, Yang J R, et al. Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence[J]. Advances in Neural Information Processing Systems, 2021, 34: 1-16.
[92] Zhu H F, Huang Y H, Xu Y, et al. Unmanned Aerial Vehicle (UAV) Object Detection Algorithm Based on Keypoints Representation and Rotated Distance-IoU Loss[J]. Journal of Real-Time Image Processing, 2024, 21(2): 58.
[93] Tankus A, Yeshurun Y. Convexity-Based Visual Camouflage Breaking[J]. Computer Vision and Image Understanding, 2001, 82(3): 208-237.
[94] Boot W R, Neider M B, Kramer A F. Training and Transfer of Training in the Search for Camouflaged Targets[J]. Attention, Perception amp; Psychophysics, 2009, 71(4): 950-963.
[95] Neider M B, Zelinsky G J. Searching for Camouflaged Targets: Effects of Target-Background Similarity on Visual Search[J]. Vision Research, 2006, 46(14): 2217-2235.
[96] Beiderman Y, Teicher M, Garcia J, et al. Optical Technique for Classification, Recognition and Identification of Obscured Objects[J]. Optics Communications, 2010, 283(21): 4274-4282.
[97] Liu Z, Huang K Q, Tan T N. Foreground Object Detection Using Top-Down Information Based on EM Framework[J]. IEEE Transactions on Image Processing, 2012, 21(9): 4204-4217.
[98] Le T N, Nguyen T V, Nie Z L, et al. Anabranch Network for Camouflaged Object Segmentation[J]. Computer Vision and Image Understanding, 2019, 184: 45-56.
[99] Fan D P, Ji G P, Sun G L, et al. Camouflaged Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2020.
[100] Sun Y J, Chen G, Zhou T, et al. Context-Aware Cross-Level Fusion Network for Camouflaged Object Detection[C]∥Thirtieth International Joint Conference on Artificial Intelligence, 2021: 1025-1031.
[101] Ren J J, Hu X W, Zhu L, et al. Deep Texture-Aware Features for Camouflaged Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(3): 1157-1167.
[102] Zhai W, Cao Y, Xie H Y, et al. Deep Texton-Coherence Network for Camouflaged Object Detection[J]. IEEE Transactions on Multimedia, 2023, 25: 5155-5165.
[103] Yang F, Zhai Q, Li X, et al. Uncertainty-Guided Transformer Reasoning for Camouflaged Object Detection[C]∥ IEEE/CVF International Conference on Computer Vision, 2021.
[104] Zhang Z J, Wang T, Wang J, et al. Features Split and Aggregation Network for Camouflaged Object Detection[J]. Journal of Imaging, 2024, 10(1): 1-16.
[105] Ge Y L, Ren J C, Zhang Q, et al. Camouflaged Object Detection via Cross-Level Refinement and Interaction Network[J]. Image and Vision Computing, 2024, 144: 104973.
[106] Zhang Q, Sun X X, Chen Y R, et al. Attention-Induced Semantic and Boundary Interaction Network for Camouflaged Object Detection[J]. Computer Vision and Image Understanding, 2023, 233: 103719.
[107] Li A X, Zhang J, Lv Y Q, et al. Uncertainty-Aware Joint Salient Object and Camouflaged Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2021.
[108] Lü Y Q, Zhang J, Dai Y C, et al. Simultaneously Localize, Segment and Rank the Camouflaged Objects[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2021.
[109] Fan D P, Ji G P, Cheng M M, et al. Concealed Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6024-6042.
[110] Yan J N, Le T N, Nguyen K D, et al. MirrorNet: Bio-Inspired Camouflaged Object Segmentation[J]. IEEE Access, 2021, 9: 43290-43300.
[111] Tang L F, Yuan J T, Ma J Y. Image Fusion in the Loop of High-Level Vision Tasks: A Semantic-Aware Real-Time Infrared and Visible Image Fusion Network[J]. Information Fusion, 2022, 82: 28-42.
[112] Dong H, Gu W H, Zhang X J, et al. SuperFusion: Multilevel LiDAR-Camera Fusion for Long-Range HD Map Generation[C]∥IEEE International Conference on Robotics and Automation , 2024.
[113] Jiang X H, Cai W, Ding Y, et al. Camouflaged Object Detection Based on Ternary Cascade Perception[J]. Remote Sensing, 2023, 15(5): 1188.
[114] Xu B, Wang C Q, Liu Y, et al. An Anchor-Based Convolutional Network for the Near-Surface Camouflaged Personnel Detection of UAVs[J]. The Visual Computer, 2024, 40(3): 1659-1671.
[115] Song Z B, Zhang Z Y, Fang F Y, et al. Deep Semantic-Aware Remote Sensing Image Deblurring[J]. Signal Processing, 2023, 211: 109108.
[116] Li Z Y, Guo J Y, Zhang Y T, et al. Reference-Based Multi-Level Features Fusion Deblurring Network for Optical Remote Sensing Images[J]. Remote Sensing, 2022, 14(11): 2520.
[117] Mao Y X, Wan Z X, Dai Y C, et al. Deep Idempotent Network for Efficient Single Image Blind Deblurring[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(1): 172-185.
[118] Zhu B Y, Lv Q B, Yang Y B, et al. Blind Deblurring of Remote-Sensing Single Images Based on Feature Alignment[J]. Sensors, 2022, 22(20): 7894.
A Survey of UAV Visible-Light Object Detection
Based on Deep Learning
Liu Keshun, Zuo Xiaotong, Zhang Yuhua, Wang Changlong, Yang Sen*
(Shijiazhuang Campus of Army Engineering University of PLA, Shijiazhuang 050003, China)
Abstract: With the rapid development of artificial intelligence, visible-light object detection, as an important part of computer vision technology, has been widely used in the unmanned aerial vehicle (UAV) reconnaissance field. Using deep learning technology to deeply explore object features in complex battlefield environments and low-quality images can effectively solve the difficulties and challenges of visible-light object detection in UAV reconnaissance scenario, and further improve the accuracy of visible-light object detection. Therefore, a comprehensive survey is conducted on UAV visible-light object detection methods based on deep learning. First, various challenges of UAV visible-light object detection are introduced, such as small scale, arbitrary orientation, high camouflage, and motion blur. Second, main public datasets for visible-light object detection and image restoration are described. Then, combined with various challenges faced by UAV visible-light object detection, the application, advantages and disadvantages of deep learning methods in UAV visible-light object detection are summarized. Finally, the future possible research direction for UAV visible light object detection is discussed.
Key words:" UAV; complex battlefield environment; low-quality image; deep learning; visible-light object detection