廖育榮,王海寧,林存寶,李陽(yáng),方宇強(qiáng),倪淑燕
(1.航天工程大學(xué)電子與光學(xué)工程系,北京 101416;2.航天工程大學(xué)研究生院,北京 101416)
光學(xué)遙感圖像目標(biāo)檢測(cè)的主要任務(wù)是在光學(xué)遙感圖像中對(duì)感興趣目標(biāo)進(jìn)行定位和分類[1],在情報(bào)偵察、目標(biāo)監(jiān)視、災(zāi)害救援、工業(yè)應(yīng)用及日常生活等領(lǐng)域都發(fā)揮著重要作用,同時(shí)也是后續(xù)目標(biāo)跟蹤、場(chǎng)景分類、圖像理解等工作的基礎(chǔ)。遙感圖像目標(biāo)檢測(cè)關(guān)注的對(duì)象通常包括港口、橋梁、飛機(jī)、艦船、車輛等多類型目標(biāo),由于遙感目標(biāo)自身存在任意方向旋轉(zhuǎn)、小目標(biāo)、多尺度、密集分布等情形,疊加不同成像條件及環(huán)境因素等對(duì)遙感圖像的影響,導(dǎo)致針對(duì)多場(chǎng)景遙感圖像目標(biāo)的檢測(cè)具有很大挑戰(zhàn)。
傳統(tǒng)的遙感圖像目標(biāo)檢測(cè)算法一般可以分為基于模板匹配的算法和基于人工特征建模的算法。具體地,基于模板匹配的算法計(jì)算輸入圖像中特定區(qū)域的特征向量與模板特征向量的匹配度,如結(jié)構(gòu)相似性測(cè)量[2]與Hausdorff 距離匹配[3],根據(jù)匹配度大小來(lái)檢測(cè)目標(biāo)?;谌斯ぬ卣鹘5乃惴ɑ趯<蚁闰?yàn)規(guī)則以選取候選區(qū)域,進(jìn)而建立目標(biāo)的特征表示,如視覺(jué)顯著性檢測(cè)[4]、尺度不變特征變換[5]、定向梯度直方圖[6]和稀疏多模態(tài)學(xué)習(xí)[7]等,再通過(guò)分類器實(shí)現(xiàn)對(duì)目標(biāo)的檢測(cè)。傳統(tǒng)遙感目標(biāo)檢測(cè)算法雖然理論完備,但其難以對(duì)多種復(fù)雜任務(wù)場(chǎng)景及目標(biāo)進(jìn)行充分特征表示,且滑動(dòng)窗口式等操作限制了算法效率,導(dǎo)致其目標(biāo)檢測(cè)的精度和速度難以滿足實(shí)際需求,針對(duì)不同類型的檢測(cè)對(duì)象泛化能力仍需提高。
隨著人工智能技術(shù)的發(fā)展以及數(shù)據(jù)樣本不斷擴(kuò)充,研究人員開始致力于使用深度學(xué)習(xí)技術(shù)來(lái)解決遙感圖像目標(biāo)檢測(cè)問(wèn)題[8-9],目前仍呈增加之勢(shì)。當(dāng)前基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測(cè)算法可以分為兩大類:基于候選區(qū)域[10-12]和基于回歸分析[13-14]的算法,二者有時(shí)又被稱為雙階段與單階段算法。雖然基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法可解釋性仍需進(jìn)一步研究,但其在多個(gè)公開數(shù)據(jù)集上的目標(biāo)檢測(cè)效果已遠(yuǎn)超傳統(tǒng)算法,特別是經(jīng)過(guò)近10 年的迅速發(fā)展已形成一批優(yōu)秀成果。文獻(xiàn)[15-17]針對(duì)遙感圖像目標(biāo)檢測(cè)相關(guān)問(wèn)題進(jìn)行綜述,重點(diǎn)圍繞代表性方法、數(shù)據(jù)集、遙感圖像所存在的特殊問(wèn)題、特定目標(biāo)類型等進(jìn)行歸納總結(jié)。正是因?yàn)檫b感圖像智能目標(biāo)檢測(cè)算法的飛速發(fā)展,珍貴的遙感圖像數(shù)據(jù)才得以被充分解譯,這也促進(jìn)了遙感技術(shù)服務(wù)于當(dāng)今社會(huì)發(fā)展的潛力。因此,總結(jié)該領(lǐng)域中的深度學(xué)習(xí)目標(biāo)檢測(cè)算法研究進(jìn)展具有重要的意義。
本文在充分參考相關(guān)研究及綜述工作的基礎(chǔ)上,首先,對(duì)遙感圖像目標(biāo)檢測(cè)領(lǐng)域基于候選區(qū)域與回歸分析的兩大類算法進(jìn)行了歸納綜述;其次,針對(duì)最常見的遙感圖像目標(biāo)檢測(cè)特定任務(wù)場(chǎng)景算法改進(jìn)進(jìn)行了總結(jié);再次,介紹了遙感圖像目標(biāo)檢測(cè)常用數(shù)據(jù)集,并對(duì)典型算法的測(cè)試結(jié)果進(jìn)行了對(duì)比分析;最后,對(duì)未來(lái)遙感圖像目標(biāo)檢測(cè)研究值得關(guān)注的問(wèn)題進(jìn)行了展望。
光學(xué)遙感圖像在成像視角、空間分辨率、下視背景、目標(biāo)屬性等方面相對(duì)常規(guī)圖像具有明顯差異,因此對(duì)其目標(biāo)檢測(cè)需結(jié)合任務(wù)特點(diǎn)進(jìn)行算法設(shè)計(jì)。基于候選區(qū)域的目標(biāo)檢測(cè)算法將問(wèn)題分為2 個(gè)階段:第一階段用于生成一系列可能包含目標(biāo)的候選區(qū)域;第二階段則對(duì)這些候選區(qū)域進(jìn)行目標(biāo)或背景分類及邊界框回歸?;诤蜻x區(qū)域的光學(xué)遙感目標(biāo)檢測(cè)算法流程如圖1 所示,其中最具代表性的算法為區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN,region convolutional neural network)及其改進(jìn)系列算法。
圖1 基于候選區(qū)域的光學(xué)遙感目標(biāo)檢測(cè)算法流程
文獻(xiàn)[18]于2014 年提出R-CNN 算法,其首先通過(guò)選擇性搜索算法生成2 000 個(gè)候選區(qū)域,然后對(duì)每個(gè)候選區(qū)域進(jìn)行尺度歸一化,并送入CNN 進(jìn)行特征提取,最后基于所提取特征進(jìn)行支持向量機(jī)分類和邊界框回歸。2015 年,文獻(xiàn)[19]提出Fast R-CNN 算法,使用感興趣區(qū)域池化(ROI Pooling,region of interest pooling)層進(jìn)行區(qū)域特征選擇。2017 年,Ren 等[20]提出了Faster R-CNN 算法,將候選區(qū)域生成融入整體網(wǎng)絡(luò)中,實(shí)現(xiàn)了端到端的深度學(xué)習(xí)目標(biāo)檢測(cè)框架,極大地提高了算法檢測(cè)速度和精度?;贔aster R-CNN 的優(yōu)異性能,研究人員將其廣泛拓展到遙感圖像檢測(cè)領(lǐng)域,以期實(shí)現(xiàn)對(duì)遙感目標(biāo)的有效檢測(cè)?,F(xiàn)有工作主要聚焦于提高目標(biāo)特征表示的有效性、感興趣區(qū)域定位的準(zhǔn)確性,以及預(yù)測(cè)位置回歸的準(zhǔn)確性這3 個(gè)方面。
1.1.1 增強(qiáng)目標(biāo)特征表示的改進(jìn)研究
特征表示是將目標(biāo)信息映射到特征向量的過(guò)程,其直接影響后續(xù)分類的精度。Faster R-CNN 算法的淺層網(wǎng)絡(luò)中雖含有較多目標(biāo)特征信息,但語(yǔ)義信息不夠豐富,容易造成目標(biāo)定位與分類誤差。其深層網(wǎng)絡(luò)中語(yǔ)義信息相對(duì)豐富,但計(jì)算量較大,難以滿足遙感圖像目標(biāo)檢測(cè)速度要求。為了提高Faster R-CNN 算法對(duì)遙感圖像目標(biāo)的特征表示能力,通常采用特征融合策略進(jìn)行特征增強(qiáng)[21-25],同時(shí),也可以通過(guò)改進(jìn)卷積層結(jié)構(gòu)或處理策略以增強(qiáng)目標(biāo)特征表示,如使用層次選擇濾波層[26]、非局部特征增強(qiáng)卷積層[27]等。此外,Cheng 等[28]在淺層卷積特征提取時(shí)使用旋轉(zhuǎn)不變正則化器和Fisher 判別正則化器,消除了目標(biāo)特征旋轉(zhuǎn)與類間相似性對(duì)目標(biāo)特征提取的影響。Han 等[29]通過(guò)將生成候選區(qū)域與檢測(cè)網(wǎng)絡(luò)這2 個(gè)階段的特征進(jìn)行共享集成,增強(qiáng)了檢測(cè)網(wǎng)絡(luò)的目標(biāo)特征表示能力。
1.1.2 優(yōu)化感興趣區(qū)域生成與處理的改進(jìn)研究
候選區(qū)域生成網(wǎng)絡(luò)(RPN,region proposal network)與RoI Pooling 層的引入是Faster R-CNN 相比原有R-CNN 系列算法的重大改進(jìn),對(duì)提高目標(biāo)檢測(cè)性能至關(guān)重要。針對(duì)遙感目標(biāo)多方向、多尺度、多成像條件等特點(diǎn),研究人員主要聚焦從候選RPN與ROI Pooling 層2 個(gè)方面進(jìn)行改進(jìn),以提高算法對(duì)遙感目標(biāo)的檢測(cè)效果。一方面,RPN 用于為ROI 提供有效的候選框集合,其準(zhǔn)確性將直接影響后續(xù)目標(biāo)定位與分類精度,因此對(duì)RPN 的改進(jìn)是優(yōu)化ROI 最直接有效的方式[30-33]。另一方面,ROI Pooling 層在RPN 的基礎(chǔ)上篩選訓(xùn)練樣本,并且由不同大小的候選區(qū)域生成相同尺度的特征圖,使遙感圖像的ROI更好地保留或融合空間位置信息[34-40]。
1.1.3 提高目標(biāo)定位精度的改進(jìn)研究
遙感圖像中普遍存在目標(biāo)方向各異、密集排列的情況,導(dǎo)致準(zhǔn)確確定目標(biāo)位置具有較大難度,并且目標(biāo)與目標(biāo)之間可能出現(xiàn)區(qū)域重疊,干擾預(yù)測(cè)位置回歸的準(zhǔn)確性。一方面,交并比(IoU,intersection over union)值作為衡量錨點(diǎn)框定位精度的優(yōu)化目標(biāo),其無(wú)法區(qū)分2 個(gè)重疊對(duì)象在不同方向上有相同交叉的情況。因此對(duì)IoU 的改進(jìn)重點(diǎn)在于增強(qiáng)其自適應(yīng)能力,如文獻(xiàn)[38]設(shè)計(jì)的自適應(yīng)IoU 計(jì)算,文獻(xiàn)[41]提出的旋轉(zhuǎn)框IoU 計(jì)算,文獻(xiàn)[42]提出的聯(lián)合交集IoU 計(jì)算等方法,有效緩解了因閾值設(shè)置帶來(lái)的檢測(cè)結(jié)果敏感性問(wèn)題。另一方面,由于目標(biāo)定位精度依賴于非極大值抑制(NMS,non-maximum suppression)算法篩除冗余預(yù)選框,因而針對(duì)傳統(tǒng)NMS 的改進(jìn)也是提高遙感目標(biāo)定位精度的一個(gè)重要途徑[43-44]?;诤蜻x區(qū)域的遙感目標(biāo)檢測(cè)算法相關(guān)信息如表1 所示。
推掃型和凝視型成像遙感衛(wèi)星生成的可見光遙感圖像通常具有較高的像元數(shù)量,而對(duì)于遙感衛(wèi)星典型應(yīng)用,通常具有較高的目標(biāo)檢測(cè)時(shí)效要求。基于回歸分析的目標(biāo)檢測(cè)算法不需要單獨(dú)候選區(qū)域生成,而是從輸入圖像的多個(gè)位置直接回歸分析出目標(biāo)的邊界框與類別,具有比基于候選區(qū)域算法更快的處理速度,因此在遙感圖像目標(biāo)檢測(cè)領(lǐng)域獲得了廣泛關(guān)注?;诨貧w分析的光學(xué)遙感圖像目標(biāo)檢測(cè)主要包含基于YOLO(you only look once)[45]和SSD(single shot multibox detector)[46]框架的兩類算法,其基本流程如圖2 所示。
表1 基于候選區(qū)域的遙感目標(biāo)檢測(cè)算法相關(guān)信息
圖2 基于回歸分析的光學(xué)遙感目標(biāo)檢測(cè)基本流程
1.2.1 YOLO 系列遙感目標(biāo)檢測(cè)算法
遙感目標(biāo)檢測(cè)的實(shí)時(shí)性是性能評(píng)價(jià)的關(guān)鍵因素,因此更快速的YOLO 系列目標(biāo)檢測(cè)算法得到了廣泛關(guān)注。Redmon 等[45]提出了YOLOv1 算法,通過(guò)端到端的單階段網(wǎng)絡(luò)同時(shí)實(shí)現(xiàn)對(duì)目標(biāo)的分類與定位,在兼顧檢測(cè)精度的同時(shí)大幅提高了檢測(cè)速度。YOLO 算法在發(fā)展過(guò)程中不斷被改進(jìn)[47-49],逐步向高效率檢測(cè)方向發(fā)展。Jocher 等[50]針對(duì)實(shí)時(shí)目標(biāo)檢測(cè)提出了YOLOv5 算法,通過(guò)采用模型剪裁等技術(shù)進(jìn)一步壓縮了模型大小,提高了檢測(cè)速度。Ge等[51]提出了YOLOX 算法,通過(guò)數(shù)據(jù)增強(qiáng)、無(wú)錨點(diǎn)檢測(cè)以及標(biāo)簽分類等巧妙的集成方案,實(shí)現(xiàn)了算法精度與速度的進(jìn)一步提升。
YOLO 系列目標(biāo)檢測(cè)算法因其便于輕量化部署的優(yōu)勢(shì),在高像素、高實(shí)時(shí),特別是資源受限的在軌處理等遙感領(lǐng)域具有較大潛力。研究人員基于改進(jìn)的YOLO 系列算法,已成功探索其在地震房屋受損檢測(cè)[52]、深海石油探測(cè)[53]、特殊農(nóng)作物種植檢測(cè)[54]等遙感領(lǐng)域應(yīng)用。當(dāng)前提升YOLO 算法對(duì)遙感目標(biāo)的檢測(cè)精度一方面可以從特征提取角度展開,能夠更加有效地使網(wǎng)絡(luò)進(jìn)行特征迭代[55-58];另一方面,使用注意力機(jī)制可以突出遙感目標(biāo)的資源分配權(quán)重[59-60],或采用密集連接網(wǎng)絡(luò)以增強(qiáng)層級(jí)之間的信息傳輸[61],從而達(dá)到基于YOLO 網(wǎng)絡(luò)進(jìn)行遙感圖像目標(biāo)檢測(cè)任務(wù)更深入、更準(zhǔn)確的訓(xùn)練。此外,由于不同的遙感場(chǎng)景中目標(biāo)的形態(tài)特點(diǎn)各式各樣、方向排序千差萬(wàn)別,因此YOLO 檢測(cè)算法衍生出多種專項(xiàng)組合網(wǎng)絡(luò),分別用于小目標(biāo)[62-63]、多尺度[64-65]、多模態(tài)變化[66]等具有挑戰(zhàn)性的遙感檢測(cè)場(chǎng)景,并取得了比原網(wǎng)絡(luò)更優(yōu)的檢測(cè)效果。
1.2.2 SSD 框架在遙感檢測(cè)中的應(yīng)用
Faster R-CNN 的錨點(diǎn)框機(jī)制和YOLO 算法的回歸思想在遙感目標(biāo)檢測(cè)中有各自的優(yōu)勢(shì)?;趦烧叩膬?yōu)勢(shì),2016 年Liu 等[46]提出了SSD 算法,將Faster R-CNN 中錨點(diǎn)框改為先驗(yàn)框,并且直接使用回歸分析過(guò)程,有效提升了遙感目標(biāo)檢測(cè)的速度。此外,SSD 算法從多尺度特征圖中生成預(yù)測(cè),克服了光學(xué)遙感圖像常出現(xiàn)的目標(biāo)尺寸不同的問(wèn)題。
基于SSD 算法在目標(biāo)檢測(cè)速度和精度上的均衡優(yōu)勢(shì),研究人員分別從網(wǎng)絡(luò)結(jié)構(gòu)[67-69]、回歸策略[70],以及特定場(chǎng)景適應(yīng)性[71-75]等角度出發(fā),進(jìn)行算法改進(jìn)研究,以此抑制光學(xué)遙感圖像中噪聲對(duì)目標(biāo)檢測(cè)的影響,提高檢測(cè)精度。表2 總結(jié)了基于回歸分析的遙感目標(biāo)檢測(cè)算法相關(guān)信息。盡管當(dāng)前針對(duì)上述問(wèn)題設(shè)計(jì)出多種改進(jìn)方案,但遙感目標(biāo)檢測(cè)仍是一項(xiàng)開放的、具有挑戰(zhàn)性的創(chuàng)新型工作。
遙感圖像中非規(guī)則排列的目標(biāo)因呈現(xiàn)方向多樣性特點(diǎn),被稱作旋轉(zhuǎn)目標(biāo)。常規(guī)深度學(xué)習(xí)目標(biāo)檢測(cè)網(wǎng)絡(luò)由于并未針對(duì)旋轉(zhuǎn)目標(biāo)進(jìn)行針對(duì)性設(shè)計(jì),因此通常對(duì)該類目標(biāo)特征提取能力相對(duì)較弱,進(jìn)而影響對(duì)該類目標(biāo)的檢測(cè)效果。為了解決這一問(wèn)題,一種解決思路是通過(guò)旋轉(zhuǎn)變換來(lái)擴(kuò)充訓(xùn)練樣本[27,76],該方法依舊使用水平框標(biāo)記檢測(cè)到的目標(biāo),雖然能夠在一定程度上增強(qiáng)模型對(duì)旋轉(zhuǎn)目標(biāo)的穩(wěn)健性,但也容易造成水平框與旋轉(zhuǎn)目標(biāo)實(shí)際尺寸不符的結(jié)果。另一種解決思路是采用回歸旋轉(zhuǎn)目標(biāo)的角度信息,在目標(biāo)周圍生成合適的傾斜框,從而提高對(duì)旋轉(zhuǎn)目標(biāo)的特征表示能力。目前常用旋轉(zhuǎn)框參數(shù)表示方法包括以90°或180°為周期的五參數(shù)表示法和有序四邊形表示法[77-78],如圖3 所示。其中,五參數(shù)表示法使用目標(biāo)中心點(diǎn)坐標(biāo)、框?qū)捀摺 軸與框邊夾角來(lái)表示旋轉(zhuǎn)框的位置;有序四邊形表示法采用4 個(gè)頂點(diǎn)坐標(biāo)對(duì)水平框與衍生旋轉(zhuǎn)框做逆時(shí)針排列。
現(xiàn)階段大多數(shù)研究工作使用上述表示法進(jìn)行旋轉(zhuǎn)角度回歸,生成準(zhǔn)確的預(yù)測(cè)邊界框。文獻(xiàn)[79-80]將旋轉(zhuǎn)錨定采樣與多層特征相結(jié)合,構(gòu)造了針對(duì)旋轉(zhuǎn)目標(biāo)的特征提取與融合結(jié)構(gòu),然而在角度預(yù)測(cè)過(guò)程中會(huì)產(chǎn)生較大的損失值,形成難以消除的邊界誤差。文獻(xiàn)[81-83]較好地平衡了旋轉(zhuǎn)角度分類所帶來(lái)的理論誤差問(wèn)題。除了角度回歸方法以外,研究人員還提出了自適應(yīng)感受野[84]、中線預(yù)測(cè)[85-86]、掩模分支預(yù)測(cè)[87]等技術(shù),文獻(xiàn)[88]則提出在損失函數(shù)中添加正則化項(xiàng)來(lái)約束旋轉(zhuǎn)前后的特征映射關(guān)系,從而實(shí)現(xiàn)對(duì)旋轉(zhuǎn)目標(biāo)的有效檢測(cè)。
圖3 常用旋轉(zhuǎn)框參數(shù)表示方法
遙感圖像中通常會(huì)包含一些僅有幾十甚至十幾個(gè)像素的小目標(biāo)。小目標(biāo)給遙感目標(biāo)檢測(cè)帶來(lái)了一定挑戰(zhàn):一方面小目標(biāo)特征相對(duì)較少,傳統(tǒng)CNN的降采樣處理會(huì)減小特征圖的尺度,因此小目標(biāo)容易在降采樣的特征圖中消失,導(dǎo)致算法難以有效進(jìn)行特征提?。涣硪环矫娈?dāng)小目標(biāo)與背景顏色接近時(shí),易出現(xiàn)目標(biāo)與背景難以區(qū)分,導(dǎo)致對(duì)小目標(biāo)定位不準(zhǔn)的問(wèn)題。當(dāng)前改進(jìn)算法主要通過(guò)增大小目標(biāo)特征圖尺度和設(shè)計(jì)有效的特征融合提取模塊的方式來(lái)提高檢測(cè)能力。
關(guān)于增大特征圖尺度,常用的方法是增強(qiáng)淺層網(wǎng)絡(luò)的特征信息,或者在深層特征中進(jìn)行上采樣操作[35,64,75,89-90]。文獻(xiàn)[44]提出了一種小目標(biāo)檢測(cè)增強(qiáng)架構(gòu),通過(guò)上采樣操作增大深層特征圖尺度。值得注意的是,在保證深層特征中始終存在小目標(biāo)時(shí)上采樣才有意義,否則需要重新優(yōu)化淺層網(wǎng)絡(luò)。關(guān)于設(shè)計(jì)小目標(biāo)特征融合提取模塊,其目的是豐富特征圖中的小目標(biāo)信息,并在后續(xù)傳遞過(guò)程中減少信息損失。文獻(xiàn)[80]提出了級(jí)聯(lián)特征的融合策略,通過(guò)整合淺層位置信息和深層語(yǔ)義信息,達(dá)到融合各層特征并增強(qiáng)級(jí)聯(lián)效果的目的。文獻(xiàn)[68]利用擴(kuò)展卷積設(shè)計(jì)了一種高效特征融合網(wǎng)絡(luò),增強(qiáng)了深層特征的有效感受野。由于真實(shí)遙感圖像中的小目標(biāo)尺度可能不同,特征融合模塊難以在深層特征中拼接,因此僅使用特征融合模塊的方式可能會(huì)成為檢測(cè)的瓶頸,而現(xiàn)有工作已驗(yàn)證注意力機(jī)制與特征融合模塊相結(jié)合在小目標(biāo)檢測(cè)的有效性[67]。此外,特征嵌入[26]、特征遷移[33]等技術(shù)也被應(yīng)用于遙感小目標(biāo)檢測(cè)特征融合方法中。在實(shí)際檢測(cè)中,根據(jù)任務(wù)需要將特征圖尺度調(diào)節(jié)與特征融合策略相結(jié)合,使2 種思路實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),能夠緩解目標(biāo)尺度過(guò)小對(duì)檢測(cè)帶來(lái)的影響。
表2 基于回歸分析的遙感目標(biāo)檢測(cè)算法相關(guān)信息
在卷積神經(jīng)網(wǎng)絡(luò)中,目標(biāo)的語(yǔ)義結(jié)構(gòu)信息可能出現(xiàn)在任何卷積層,各層特征的分布與目標(biāo)的尺度大小有關(guān)。在遙感場(chǎng)景中,經(jīng)常會(huì)出現(xiàn)不同類別尺度的目標(biāo)或者同一類別不同大小的目標(biāo)在同一視野的情況。這些目標(biāo)的尺度差距較大,使不同目標(biāo)的特征難以同步傳遞至深層網(wǎng)絡(luò),導(dǎo)致以特征圖表征作為預(yù)測(cè)基礎(chǔ)的深度卷積網(wǎng)絡(luò)不能有效獲取多尺度目標(biāo)的特征,進(jìn)而影響多尺度目標(biāo)的檢測(cè)精度。因此尺度變化范圍大的遙感圖像目標(biāo)檢測(cè)仍是一項(xiàng)具有挑戰(zhàn)性的問(wèn)題。
當(dāng)前遙感多尺度目標(biāo)檢測(cè)主要圍繞多尺度信息融合模塊進(jìn)行改進(jìn)[22,91-93]。一種較具代表性的算法是利用特征金字塔結(jié)構(gòu)來(lái)充分獲取多尺度目標(biāo)的特征信息,使不同尺度的特征得以保留[94-96]。多尺度目標(biāo)中通常同時(shí)包含小目標(biāo),利用金字塔結(jié)構(gòu)等特征提取融合模塊能夠有效兼顧淺層與深層特征,在對(duì)多尺度目標(biāo)進(jìn)行有效檢測(cè)的同時(shí)也兼顧了對(duì)小目標(biāo)的高精度檢測(cè)[97]。此外,Transformer 模型[98]所引入的注意力機(jī)制被證明在多尺度目標(biāo)檢測(cè)中具有良好效果,文獻(xiàn)[99]利用Transformer 模型改進(jìn)YOLOv5 的預(yù)測(cè)網(wǎng)絡(luò),結(jié)合自注意力機(jī)制實(shí)現(xiàn)了對(duì)多尺度目標(biāo)的有效檢測(cè)。
光學(xué)遙感圖像密集目標(biāo)檢測(cè)的難點(diǎn)在于各個(gè)目標(biāo)位置相距較近導(dǎo)致易出現(xiàn)位置預(yù)測(cè)不準(zhǔn)確和邊界框重疊的情況。同時(shí),當(dāng)采用水平邊界框進(jìn)行目標(biāo)位置預(yù)測(cè)時(shí),由于水平邊界框包圍面積一般大于目標(biāo)實(shí)際面積,使在對(duì)密集目標(biāo)檢測(cè)時(shí)會(huì)加劇邊界框重疊問(wèn)題,特別是當(dāng)目標(biāo)密集斜向排列時(shí)。為提高對(duì)遙感密集目標(biāo)檢測(cè)效果,當(dāng)前主要從特征增強(qiáng)和精確定位2 個(gè)方向?qū)λ惴ㄟM(jìn)行改進(jìn)。
在特征增強(qiáng)方面,文獻(xiàn)[79]通過(guò)采用監(jiān)督式空間注意力和通道注意力組合機(jī)制,在增強(qiáng)密集目標(biāo)特征的同時(shí)削弱了背景特征,使密集目標(biāo)之間的界限更清晰。文獻(xiàn)[56]設(shè)計(jì)了特征精細(xì)化模塊來(lái)進(jìn)行特征重建,使特征與目標(biāo)對(duì)齊,同時(shí)采用了微調(diào)旋轉(zhuǎn)錨點(diǎn)框以適應(yīng)密集目標(biāo)檢測(cè)任務(wù)場(chǎng)景。文獻(xiàn)[100]通過(guò)采用多尺度檢測(cè)算法來(lái)增強(qiáng)對(duì)密集目標(biāo)的特征提取能力,結(jié)合圓形平滑標(biāo)簽(CSL,circular smooth label)技術(shù)來(lái)改進(jìn)損失函數(shù),以此降低對(duì)密集目標(biāo)重復(fù)檢測(cè)的概率。在精確定位方面,文獻(xiàn)[31]提出了基于無(wú)監(jiān)督的邊界框回歸算法,并利用非極大值抑制方式優(yōu)化密集目標(biāo)的邊界框,從而實(shí)現(xiàn)對(duì)密集目標(biāo)的準(zhǔn)確定位。此外,密集標(biāo)簽編碼[82]、特征選擇與動(dòng)態(tài)優(yōu)化[84]等方式從特征匹配角度出發(fā),也為密集遙感目標(biāo)檢測(cè)提供了新的研究思路。以上算法的相關(guān)信息如表3 所示。
綜上,遙感圖像目標(biāo)檢測(cè)中的復(fù)雜任務(wù)場(chǎng)景激發(fā)了多類算法改進(jìn)。需要注意的是,雖然上述總結(jié)分析是對(duì)四類特定任務(wù)場(chǎng)景進(jìn)行闡述,但實(shí)際中一幅遙感圖像可能同時(shí)包含其中的多類情形,針對(duì)某一任務(wù)場(chǎng)景的改進(jìn)有時(shí)也會(huì)有利于其他任務(wù)場(chǎng)景。因此,在光學(xué)遙感圖像目標(biāo)檢測(cè)領(lǐng)域,面向各類問(wèn)題的多任務(wù)優(yōu)化目標(biāo)可以協(xié)同解決。
光學(xué)遙感圖像數(shù)據(jù)集在遙感目標(biāo)檢測(cè)任務(wù)中發(fā)揮著至關(guān)重要的作用,它能夠?yàn)槟P陀?xùn)練提供珍貴標(biāo)準(zhǔn)的遙感數(shù)據(jù),同時(shí)也為不同網(wǎng)絡(luò)及算法對(duì)比提供客觀統(tǒng)一的基準(zhǔn)。近年來(lái)隨著衛(wèi)星遙感技術(shù)的發(fā)展,一些高質(zhì)量的光學(xué)遙感圖像目標(biāo)檢測(cè)數(shù)據(jù)集流行起來(lái),本文選取具有代表性的15 個(gè)數(shù)據(jù)集進(jìn)行介紹,各數(shù)據(jù)集樣例的統(tǒng)計(jì)信息如表4 所示,包括發(fā)布者及內(nèi)容描述、數(shù)據(jù)集所含目標(biāo)類別數(shù)與圖像數(shù)。正是這些公開的光學(xué)遙感圖像數(shù)據(jù)集,使基于深度學(xué)習(xí)的遙感目標(biāo)檢測(cè)技術(shù)快速發(fā)展。
當(dāng)前評(píng)價(jià)光學(xué)遙感圖像目標(biāo)檢測(cè)算法常用的性能指標(biāo)是精確度(Precision)、召回率(Recall)、平均精度均值(mAP,mean average precision)以及幀率(FPS,frame per second)。精確度反映了檢測(cè)結(jié)果中的真實(shí)正樣本占比。召回率反映了在所有待檢測(cè)正樣本中被正確檢測(cè)到的正樣本占比,精確度和召回率存在權(quán)衡組合的關(guān)系。其中,將精確度作為縱坐標(biāo),召回率作為橫坐標(biāo)作圖,可得到精度-召回率曲線(PR,precision-recall curve);曲線下的面積表示某類別目標(biāo)的平均精確度(AP,average precision);多個(gè)類別的AP 均值即平均精度均值mAP,表示算法在數(shù)據(jù)集上的整體性能。幀率是每秒可以處理的圖片數(shù)量,用于評(píng)估算法的檢測(cè)速度。
表3 面向特定任務(wù)場(chǎng)景的遙感目標(biāo)檢測(cè)算法相關(guān)信息
表4 常用的光學(xué)遙感圖像目標(biāo)檢測(cè)數(shù)據(jù)集概述
各算法性能評(píng)價(jià)大多采用NWPU VHR-10 與DOTA 數(shù)據(jù)集,典型光學(xué)遙感圖像目標(biāo)檢測(cè)算法性能對(duì)比如表5 所示。結(jié)合前述對(duì)各類型算法原理特點(diǎn)的闡述分析,以及表5 中典型算法在相同數(shù)據(jù)集上的性能對(duì)比,可以得出以下結(jié)論。
表5 典型光學(xué)遙感圖像目標(biāo)檢測(cè)算法性能對(duì)比
1) 由于不同遙感圖像數(shù)據(jù)集在空間分辨率、背景復(fù)雜性、目標(biāo)多樣性、成像質(zhì)量上存在差異,同一算法在場(chǎng)景復(fù)雜與簡(jiǎn)單的數(shù)據(jù)集的mAP 值差異明顯,如CAD-Net[25]算法。這表明復(fù)雜任務(wù)場(chǎng)景下的目標(biāo)檢測(cè)依然是當(dāng)前一個(gè)具有挑戰(zhàn)性的問(wèn)題。
2) 由于算法結(jié)構(gòu)本身的約束使選取不同的主干網(wǎng)絡(luò)會(huì)得出不同的結(jié)果,因此要在實(shí)驗(yàn)中匹配合適的主干網(wǎng)絡(luò)層數(shù),使模型的性能整體上得到提升。從表5 中可以看出,高性能網(wǎng)絡(luò)模型逐漸成為主干網(wǎng)絡(luò)的首選。此外,從不同層數(shù)ResNet 主干網(wǎng)絡(luò)對(duì)應(yīng)算法性能來(lái)看,主干網(wǎng)絡(luò)層數(shù)也并非越深越好,需要與算法框架進(jìn)行匹配設(shè)計(jì)。主干網(wǎng)絡(luò)層的非線性擬合能力與算法的匹配結(jié)合問(wèn)題,也是當(dāng)前進(jìn)行深度學(xué)習(xí)解釋性研究工作的難點(diǎn)。
3) 算法針對(duì)確切場(chǎng)景問(wèn)題從而做出的改進(jìn)是有效的。例如GWD[83]專門用以解決目標(biāo)方向旋轉(zhuǎn)的問(wèn)題,HyNet[97]專門用以解決目標(biāo)多尺度變化的問(wèn)題。此外,由FMSSD[75]和HSF-Net[26]等的性能對(duì)比可以看到,針對(duì)小目標(biāo)檢測(cè)所改進(jìn)的增強(qiáng)網(wǎng)絡(luò)特征提取能力,在一定程度上也會(huì)提升對(duì)密集目標(biāo)的檢測(cè)效果。因此,針對(duì)某一任務(wù)場(chǎng)景的改進(jìn)有時(shí)也會(huì)有利于其他任務(wù)場(chǎng)景,面向各類問(wèn)題的多任務(wù)優(yōu)化目標(biāo)可以協(xié)同解決。
近年來(lái),基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測(cè)研究迅速發(fā)展。從遙感圖像目標(biāo)檢測(cè)技術(shù)未來(lái)能夠廣泛應(yīng)用于民用領(lǐng)域來(lái)看,提高各類復(fù)雜任務(wù)場(chǎng)景的檢測(cè)精度和速度,進(jìn)而提高算法整體性能依然是遙感圖像目標(biāo)檢測(cè)的主要發(fā)展方向。與此同時(shí),伴隨著航天、載荷等技術(shù)的發(fā)展,遙感圖像目標(biāo)檢測(cè)未來(lái)在以下4 個(gè)方面值得進(jìn)一步研究。
1) 遙感小樣本無(wú)監(jiān)督學(xué)習(xí)目標(biāo)檢測(cè)。盡管近年來(lái)搭載有光學(xué)載荷的成像衛(wèi)星頻繁發(fā)射,公開遙感圖像數(shù)據(jù)集也接連發(fā)布,但受限于衛(wèi)星總體數(shù)量、特定遙感數(shù)據(jù)的敏感性,以及對(duì)目標(biāo)類別型號(hào)檢測(cè)的更高要求,依然缺乏稀有目標(biāo)或偶發(fā)事件的足夠訓(xùn)練數(shù)據(jù),通常需要在小樣本或仿真數(shù)據(jù)下進(jìn)行模型訓(xùn)練和驗(yàn)證,文獻(xiàn)[114-115]已開展相關(guān)研究。由于部分遙感數(shù)據(jù)存在無(wú)標(biāo)注或標(biāo)注不明確情況,因此還需要采用無(wú)監(jiān)督學(xué)習(xí)來(lái)解決問(wèn)題。
2) 遙感視頻影像動(dòng)態(tài)目標(biāo)檢測(cè)。高分辨率視頻影像在提供更加豐富信息的同時(shí),也對(duì)遙感影像目標(biāo)檢測(cè)及后續(xù)處理提出了新的需求。遙感視頻影像具有目標(biāo)微小、干擾復(fù)雜的特點(diǎn),因此基于深度學(xué)習(xí)的遙感視頻目標(biāo)檢測(cè)仍面臨巨大的挑戰(zhàn)[116]。當(dāng)前遙感目標(biāo)檢測(cè)主要針對(duì)單幀影像,探索基于視頻影像的高效目標(biāo)檢測(cè)策略和算法,包括構(gòu)建遙感視頻影像目標(biāo)檢測(cè)數(shù)據(jù)集及評(píng)價(jià)準(zhǔn)則,將會(huì)是未來(lái)計(jì)算機(jī)與遙感通信交叉領(lǐng)域的一項(xiàng)重要研究?jī)?nèi)容。
3) 多源數(shù)據(jù)融合目標(biāo)檢測(cè)。當(dāng)前遙感目標(biāo)檢測(cè)主要基于可見光圖像,限制了其在情報(bào)偵察、災(zāi)害救援等涉及夜間、微光、云霧、偽裝等條件下的應(yīng)用。伴隨著多光譜、紅外、合成孔徑雷達(dá)(SAR,synthetic aperture radar)載荷先后發(fā)射升空,未來(lái)天基遙感數(shù)據(jù)將包含多源異構(gòu)數(shù)據(jù)。遙感圖像目標(biāo)檢測(cè)算法也將在主要處理可見光圖像的基礎(chǔ)上,進(jìn)一步拓展到對(duì)多光譜、紅外、SAR 圖像的處理,以及對(duì)多源異構(gòu)遙感數(shù)據(jù)的融合目標(biāo)檢測(cè)[117]。
4) 遙感在軌實(shí)時(shí)處理檢測(cè)。在航天情報(bào)偵察與目標(biāo)跟蹤等應(yīng)用領(lǐng)域,往往對(duì)情報(bào)信息的準(zhǔn)確性和時(shí)效性有著嚴(yán)格要求。當(dāng)前,一方面受限于算法性能,另一方面受限于衛(wèi)星硬件算力及資源消耗,遙感目標(biāo)檢測(cè)算法主要針對(duì)衛(wèi)星下傳數(shù)據(jù)進(jìn)行離線處理和人機(jī)結(jié)合應(yīng)用。從航天技術(shù)未來(lái)發(fā)展來(lái)看,在軌實(shí)時(shí)目標(biāo)檢測(cè)將成為遙感領(lǐng)域的必然發(fā)展方向之一,也必將促進(jìn)適用于衛(wèi)星在軌處理的目標(biāo)檢測(cè)硬件加速技術(shù)的發(fā)展[118]。
隨著衛(wèi)星技術(shù)的迅速發(fā)展與遙感數(shù)據(jù)集規(guī)模的日益擴(kuò)增,基于深度學(xué)習(xí)的光學(xué)遙感圖像目標(biāo)檢測(cè)技術(shù)已經(jīng)證明其在特征表征、訓(xùn)練表達(dá)等方面的優(yōu)越性。本文首先對(duì)當(dāng)前基于候選區(qū)域與回歸分析的兩大類光學(xué)遙感圖像目標(biāo)檢測(cè)算法進(jìn)行了歸納,在此基礎(chǔ)上針對(duì)四類常見特定任務(wù)場(chǎng)景目標(biāo)檢測(cè)改進(jìn)算法進(jìn)行了綜述;然后結(jié)合常用遙感目標(biāo)數(shù)據(jù)集對(duì)不同算法的性能進(jìn)行了對(duì)比分析;最后對(duì)未來(lái)遙感圖像目標(biāo)檢測(cè)值得關(guān)注的問(wèn)題進(jìn)行了展望,進(jìn)一步說(shuō)明了該領(lǐng)域面臨的挑戰(zhàn)與巨大應(yīng)用前景。