李陽(yáng)陽(yáng),毛鶴亭,張小龍,陳彥橋,柴興華
(1.西安電子科技大學(xué) 人工智能學(xué)院,陜西 西安 710071;2.中國(guó)電子科技集團(tuán)公司第五十四研究所 航天信息應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北 石家莊 050081)
遙感圖像目標(biāo)檢測(cè)作為一個(gè)基礎(chǔ)且具有挑戰(zhàn)性的視覺任務(wù),在軍事領(lǐng)域,如準(zhǔn)確獲取戰(zhàn)場(chǎng)信息并對(duì)敵方進(jìn)行精準(zhǔn)打擊;在民用領(lǐng)域,如土地利用、城市規(guī)劃、礦產(chǎn)資源勘探等得到了廣泛應(yīng)用[1-2]。遙感圖像中普遍存在小目標(biāo),但從遙感圖像中精確的檢測(cè)出小目標(biāo)并不容易。遙感圖像中小目標(biāo)的檢測(cè)主要面臨兩大難點(diǎn):① 目標(biāo)特征信息少。由于小目標(biāo)本身在圖像中所占的像素較少,且被復(fù)雜的背景信息包圍,導(dǎo)致網(wǎng)絡(luò)很難提取小目標(biāo)的有效特征,進(jìn)一步影響后續(xù)的定位和識(shí)別任務(wù)。② 目標(biāo)定位困難。相對(duì)于大目標(biāo)而言,小目標(biāo)的正樣本匹配率低,導(dǎo)致小目標(biāo)在網(wǎng)絡(luò)訓(xùn)練時(shí)沒有太多貢獻(xiàn)度,進(jìn)而影響網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)能力。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法逐漸發(fā)展出兩個(gè)分支:① 追求高精度的二階段目標(biāo)檢測(cè)方法,具有代表性的算法有更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region Convolutional Neural Network,F(xiàn)aster R-CNN)[3]、基于區(qū)域的全卷積網(wǎng)絡(luò)(Region-based Fully Convolutional Network,R-FCN)[4]等;② 追求實(shí)時(shí)檢測(cè)的單階段目標(biāo)檢測(cè)方法,具有代表性的算法有一種快速和準(zhǔn)確的實(shí)時(shí)目標(biāo)檢測(cè)算法(You Only Look Once,YOLO)[5]、RetinaNet[6]、CornerNet[7]等。對(duì)于遙感圖像中的大尺寸目標(biāo)而言,現(xiàn)階段基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法已經(jīng)取得了非常不錯(cuò)的檢測(cè)效果。然而,這些優(yōu)秀的目標(biāo)檢測(cè)方法在檢測(cè)小尺寸目標(biāo)時(shí)仍然存在巨大的挑戰(zhàn)。由此,一些學(xué)者開始關(guān)注遙感圖像中的小目標(biāo)檢測(cè)問(wèn)題,提出了許多有效的改進(jìn)模型。改善特征金字塔網(wǎng)絡(luò)(Refine Feature Pyramid Networks,Refine FPN)[8]解決了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)[9]在上采樣過(guò)程中產(chǎn)生的混疊效應(yīng),并通過(guò)對(duì)構(gòu)建模塊進(jìn)行改進(jìn)以及在同一層的輸入輸出間增加了一個(gè)恒等映射,解決了小目標(biāo)的特征在深層網(wǎng)絡(luò)中易丟失的問(wèn)題,提高了光學(xué)遙感圖像小目標(biāo)的檢測(cè)性能??鐚幼⒁饬W(wǎng)絡(luò)(Cross layer Attention Network,CA-Net)[10]設(shè)計(jì)了一種改進(jìn)的非局部注意力模塊,并將該模塊嵌入到二階段檢測(cè)網(wǎng)絡(luò)中,利用目標(biāo)的上下文信息來(lái)輔助辨認(rèn)小目標(biāo)。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在檢測(cè)遙感圖像小目標(biāo)方面表現(xiàn)不錯(cuò),并且能夠很好地處理多尺度目標(biāo)場(chǎng)景。以上兩個(gè)網(wǎng)絡(luò)均是從充分挖掘小目標(biāo)特征信息的角度出發(fā),網(wǎng)絡(luò)能夠很好地提取特征,但是在定位方面的性能并不算理想,存在重復(fù)檢測(cè)與邊界框定位不精準(zhǔn)的問(wèn)題,需要進(jìn)一步的改進(jìn)與完善。而在目標(biāo)檢測(cè)定位方面,目前常見的目標(biāo)檢測(cè)算法,如Faster R-CNN、R-FCN和YOLO等均采用單一交并比(Intersection-over-Union,IoU)閾值進(jìn)行判斷。然而,文獻(xiàn)[11]發(fā)現(xiàn)單一的IoU閾值不能同時(shí)權(quán)衡邊界框的數(shù)量與質(zhì)量,故提出了一種級(jí)聯(lián)目標(biāo)檢測(cè)網(wǎng)絡(luò)Cascade R-CNN。該網(wǎng)絡(luò)通過(guò)設(shè)置逐漸增大的多個(gè)IoU閾值來(lái)訓(xùn)練一組多階段的目標(biāo)檢測(cè)網(wǎng)絡(luò),實(shí)驗(yàn)表明在自然圖像中能夠獲得更高質(zhì)量的預(yù)測(cè)邊界框。
針對(duì)上述問(wèn)題,筆者提出一種基于非局部上下文信息的檢測(cè)方法,用來(lái)改進(jìn)小目標(biāo)檢測(cè)網(wǎng)絡(luò)中的定位性能。該算法的主干網(wǎng)絡(luò)提取的特征更加豐富且包含了非局部信息,此外,將級(jí)聯(lián)網(wǎng)絡(luò)應(yīng)用到遙感圖像中,改善小目標(biāo)定位框質(zhì)量,并針對(duì)遙感圖像小目標(biāo)特性設(shè)計(jì)了一個(gè)上下文轉(zhuǎn)移模塊,為區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)生成的每一個(gè)感興趣區(qū)域(Region of Interest,RoI)賦予上下文信息,進(jìn)一步輔助小目標(biāo)的定位。
眾所周知,定位難一直都是遙感圖像小目標(biāo)檢測(cè)的難點(diǎn)問(wèn)題之一。之前的一些研究解決了小目標(biāo)的特征在深層網(wǎng)絡(luò)中易丟失的問(wèn)題,但在定位方面的性能并不算理想。筆者對(duì)遙感圖像小目標(biāo)檢測(cè)的檢測(cè)網(wǎng)絡(luò)進(jìn)行了改進(jìn),整體結(jié)構(gòu)如圖1所示。算法采用Refine FPN和CA-Net的組合結(jié)構(gòu)作為主干網(wǎng)絡(luò),用于提取小目標(biāo)的更強(qiáng)特征信息,采取級(jí)聯(lián)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Cascade Region Convolutional Neural Network,Cascade R-CNN)作為檢測(cè)網(wǎng)絡(luò),用于提高邊界框質(zhì)量。同時(shí),提出了一個(gè)上下文轉(zhuǎn)移模塊(Context Transfer Module,CTM),將目標(biāo)的上下文信息傳遞給對(duì)應(yīng)的感興趣區(qū)域,賦予其上下文感知能力,使其更適用于遙感圖像小目標(biāo)檢測(cè)問(wèn)題。
使用的主干網(wǎng)絡(luò)由Refine FPN和CA-Net組成。Refine FPN是基于特征金字塔網(wǎng)絡(luò)FRN進(jìn)行改進(jìn)的,作用于深度殘差網(wǎng)絡(luò)(deep Residual Network,ResNet)[12]各個(gè)階段最后一個(gè)殘差塊輸出的特征激活輸出,分別將其表示為C2、C3、C4和C5。在高階特征圖與低階特征圖融合之前,對(duì)低階特征進(jìn)行的上采樣過(guò)程中,使用最近鄰插值和卷積的組合代替反卷積或簡(jiǎn)單的插值操作,能夠有效減少棋盤效應(yīng)或混疊效應(yīng)。此外,為了更好地使用小目標(biāo),Refine FPN中對(duì)構(gòu)建模塊進(jìn)行了改進(jìn)。網(wǎng)絡(luò)中使用一個(gè)1×1的卷積(可以減少通道維度)和一個(gè)3×3的卷積來(lái)進(jìn)一步提取低層的詳細(xì)位置信息,并在兩個(gè)卷積層之間應(yīng)用線性整流函數(shù)(Rectified Linear Unit,ReLU)來(lái)獲得非線性表示。然后,通過(guò)元素相加將高級(jí)語(yǔ)義特征與低級(jí)位置特征融合,并通過(guò)一個(gè) 3×3 卷積和兩個(gè) ReLU 層獲得融合后的特征圖。重復(fù)這個(gè)過(guò)程,直到生成最高分辨率的特征圖。最后,會(huì)得到一組多尺度特征圖,對(duì)應(yīng)每一層的融合特征圖,定義為{P2,P3,P4,P5}。圖1中P6是P5通過(guò)最大池化得到的特征圖,它是為了匹配更大尺寸的候選框而引入的,這與FPN的相同。
圖1 筆者提出算法整體網(wǎng)絡(luò)的示意圖
為了給像素對(duì)的位置關(guān)系進(jìn)行建模,在主干網(wǎng)絡(luò)中又添加了CA-Net所提出的非局部注意力機(jī)制,以及跨層聚合與均衡模塊。文獻(xiàn)[13] 提出非局部注意力機(jī)制可以計(jì)算出某個(gè)像素點(diǎn)的全局上下文信息,而文獻(xiàn)[14]發(fā)現(xiàn)對(duì)于同一個(gè)特征圖上的不同查詢點(diǎn),注意力特征圖幾乎相同。因此,CA-Net網(wǎng)絡(luò)使用了一個(gè)改進(jìn)的非局部注意力模塊,特征圖上每個(gè)像素點(diǎn)不再單獨(dú)計(jì)算注意力特征圖,而是共享同一張注意力特征圖,該模塊可以在得到全局上下文信息的同時(shí),減輕網(wǎng)絡(luò)的計(jì)算量。又由于注意力模塊在各層上捕獲的信息會(huì)各有側(cè)重,因此使用跨層聚合與均衡模塊,先聚合各層的特征信息,而后再均衡分配給各層,使得最終給檢測(cè)網(wǎng)絡(luò)提供的特征強(qiáng)且均衡。
使用Faster R-CNN提出的區(qū)域生成網(wǎng)絡(luò)在圖像上生成一組與目標(biāo)相關(guān)的感興趣區(qū)域,然后基于感興趣區(qū)域預(yù)測(cè)目標(biāo)的位置。由于使用的網(wǎng)絡(luò)主干屬于金字塔結(jié)構(gòu)類型,所以區(qū)域生成網(wǎng)絡(luò)需要在多層特征圖上計(jì)算感興趣區(qū)域。區(qū)域生成網(wǎng)絡(luò)計(jì)算出感興趣區(qū)域之后,需要根據(jù)感興趣區(qū)域的尺寸將其劃分到主干網(wǎng)絡(luò)對(duì)應(yīng)的層級(jí)上,計(jì)算方式如下所示:
(1)
其中,w和h分別表示RoI的寬和高,k0表示FPN中的P4層,對(duì)應(yīng)感興趣區(qū)域的尺寸為w×h=224,該尺寸為標(biāo)準(zhǔn)的ImageNet[15]預(yù)訓(xùn)練尺寸。根據(jù)式(1)可知,當(dāng)感興趣區(qū)域的尺寸變得更小時(shí)(如w×h=1122),它將會(huì)被分配到更低的一層的特征圖上(如P3層)。接著,在對(duì)應(yīng)的特征層上應(yīng)用感興趣區(qū)域?qū)R(Region of Interest Align,RoI Align)[16]提取RoI的特征得到區(qū)域候選框,送入下一階段的網(wǎng)絡(luò)中。
根據(jù)式(1)可以看出,小尺寸感興趣區(qū)域會(huì)被分配到低層,而大尺寸感興趣區(qū)域會(huì)被分配到高層,而每一個(gè)感興趣區(qū)域的層級(jí)從某種程度上可以代表其所屬的上下文環(huán)境?;诖耍P者提出了如圖2所示的上下文轉(zhuǎn)移模塊(Context Transfer Module,CTM)。具體的操作是,對(duì)RoI所屬層級(jí)對(duì)應(yīng)的特征圖進(jìn)行平均池化操作獲取上下文信息,與感興趣區(qū)域的局部信息進(jìn)行元素相加,得到一個(gè)擁有上下文感知能力的RoI。
圖2 上下文轉(zhuǎn)移模塊結(jié)構(gòu)示意圖
CAI等人提出了一種級(jí)聯(lián)目標(biāo)檢測(cè)網(wǎng)絡(luò)——Cascade R-CNN,其核心思想是通過(guò)多階段級(jí)聯(lián)的檢測(cè)子網(wǎng)絡(luò)來(lái)不斷提高預(yù)測(cè)邊界框的質(zhì)量?;谄浜诵乃枷?,設(shè)計(jì)了適用于小目標(biāo)檢測(cè)的級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),具體結(jié)構(gòu)如圖3所示。
圖3 級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)包含3個(gè)階段的檢測(cè)子網(wǎng)絡(luò),每一階段的檢測(cè)子網(wǎng)絡(luò)都旨在尋找一組更好的基準(zhǔn)邊界框用于訓(xùn)練下一階段,并且每一個(gè)階段的檢測(cè)子網(wǎng)絡(luò)采用的IoU閾值會(huì)越來(lái)越高,以確保邊界框的質(zhì)量越來(lái)越高。在這個(gè)過(guò)程中,每一階段預(yù)測(cè)的邊界框于下一階段的檢測(cè)子網(wǎng)絡(luò)而言都是一組感興趣區(qū)域,在送入下一階段的檢測(cè)子網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)之前都需要通過(guò)感興趣區(qū)域池化(Region of Interest Pooling,RoI Pooling)或者RoI Align 計(jì)算出對(duì)應(yīng)的區(qū)域候選框。B0表示RPN階段生成的所有感興趣區(qū)域,每一階段預(yù)測(cè)的邊界框于下一階段的檢測(cè)子網(wǎng)絡(luò)而言都是一組感興趣區(qū)域。考慮到小目標(biāo)問(wèn)題,在送入下一階段的檢測(cè)子網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)之前,使用RoI Align提取前一階段得到的邊界框特征,避免RoI Pooling的多次量化過(guò)程造成小目標(biāo)的特征丟失問(wèn)題。
在Cascade R-CNN中,回歸任務(wù)被構(gòu)建為一個(gè)級(jí)聯(lián)回歸問(wèn)題,因此定義一個(gè)級(jí)聯(lián)回歸器:
g(x,b)=gT°gT-1°…°g1(x,b0) ,
(2)
其中,T是級(jí)聯(lián)階段數(shù)目。需要注意的是,每一階段的回歸器gt都是以t-1階段預(yù)測(cè)得到的邊界框?yàn)榛鶞?zhǔn)進(jìn)行優(yōu)化的,b0則表示區(qū)域生成網(wǎng)絡(luò)階段生成的所有感興趣區(qū)域,如圖3中的B0。
根據(jù)前述分析可做一個(gè)假設(shè)。假設(shè)經(jīng)過(guò)逐階段的訓(xùn)練之后,檢測(cè)質(zhì)量得到了改善,那么最后一階段的檢測(cè)器質(zhì)量是最佳的,因此Cascade R-CNN的整體損失函數(shù)可以定義如下:
L(xt,l)=Lcls(ct(xt),yt)+λ[yt≥1]Lreg(gt(xt,bt),l) ,
(3)
其中,bt=gt-1(xt-1,bt-1),表示t階段得到的邊界框,l是對(duì)應(yīng)的標(biāo)簽框。Lcls(·)是Cascade R-CNN的分類損失函數(shù),可以由下式計(jì)算:
Lcls(c(x),y)=-∑c(x)logy,
(4)
其中,c(x)表示分類器,y表示預(yù)測(cè)框x的類別,其定義為
(5)
其中,ly表示標(biāo)簽框l的類別,u表示預(yù)先設(shè)定的IoU閾值。
上式中的λ和Lreg(·)分別表示平衡參數(shù)和網(wǎng)絡(luò)定位損失,其中l(wèi)的值為1。Lreg(·)計(jì)算公式如下:
(6)
其中,t和t*分別表示目標(biāo)的預(yù)測(cè)邊界框與候選框之間的偏移量和標(biāo)簽邊界框與候選框之間的偏移量。
文中使用的硬件環(huán)境是一張Intel Core i7-7800X CPU與一張NVIDIA GeForce RTX 2080 Ti GPU,基于Ubuntu18.04作為實(shí)驗(yàn)平臺(tái),編程使用Python 3.6編程語(yǔ)言,PyTorch 1.0.0深度學(xué)習(xí)框架,Cuda 10.0環(huán)境。實(shí)驗(yàn)使用的數(shù)據(jù)集是Small-DOTA數(shù)據(jù)集、DIOR數(shù)據(jù)集和OHD-SJTU-S數(shù)據(jù)集。對(duì)實(shí)驗(yàn)結(jié)果分析時(shí),采用定量評(píng)價(jià)指標(biāo)平均精度(Average Precision,AP)和平均精度均值(mean Average Precision,mAP)對(duì)算法性能做定量分析,并展示算法的最終檢測(cè)結(jié)果圖以做定性分析。
DOTA數(shù)據(jù)集[17]是一個(gè)大型的、公開的用于遙感圖像目標(biāo)檢測(cè)任務(wù)的數(shù)據(jù)集。DOTA 1.5版本是一個(gè)更新版本,與DOTA 1.0相比包含更多小目標(biāo),總共有涵蓋16個(gè)類別的400 000個(gè)目標(biāo)實(shí)例。所以從DOTA 1.5中選擇了小目標(biāo)占比較高的類別,組成了Small-DOTA數(shù)據(jù)集,專門用于遙感圖像小目標(biāo)檢測(cè)。Small-DOTA數(shù)據(jù)集總共包含1 508幅遙感圖像和227 656個(gè)目標(biāo)實(shí)例,圖像尺寸從800×800到4 000×4 000像素不等,囊括的4個(gè)類別有小型車輛、船、儲(chǔ)油罐和大型車輛。在實(shí)驗(yàn)中,采用Small-DOTA數(shù)據(jù)集中的1 157幅圖像用于訓(xùn)練、351幅圖像用于測(cè)試。此外,考慮到圖像尺寸過(guò)大,使用大小為1 024×1 024、重疊為200個(gè)像素的滑動(dòng)窗口將Small-DOTA數(shù)據(jù)集的每幅圖像裁剪為尺寸大小為1 024×1 024,尺寸不足則進(jìn)行補(bǔ)0處理,處理后將其送入網(wǎng)絡(luò)模型中用于訓(xùn)練和預(yù)測(cè)。
DIOR[18]是一個(gè)大型的用于評(píng)估遙感領(lǐng)域目標(biāo)檢測(cè)的公開數(shù)據(jù)集,包括23 463個(gè)圖像和190 288個(gè)目標(biāo),總共有20個(gè)目標(biāo)類別:棒球場(chǎng)、飛機(jī)、籃球場(chǎng)、火車站、高速公路服務(wù)區(qū)、風(fēng)車、快遞收費(fèi)站、立交橋、船舶、港口、高爾夫球場(chǎng)、橋梁、地面場(chǎng)地、煙囪、大壩、儲(chǔ)罐、體育場(chǎng)、網(wǎng)球場(chǎng)、機(jī)場(chǎng)和車輛。DIOR數(shù)據(jù)集中使用水平邊界框標(biāo)記,圖像的大小為800×800像素,“Google地球”是DIOR數(shù)據(jù)集的數(shù)據(jù)來(lái)源。在實(shí)驗(yàn)中,使用11 725幅圖像用于訓(xùn)練,11 738幅圖像用于測(cè)試。
OHD-SJTU-S數(shù)據(jù)集[19]是楊學(xué)團(tuán)隊(duì)新開源的用于遙感圖像目標(biāo)檢測(cè)的大型場(chǎng)景圖像數(shù)據(jù)集。該數(shù)據(jù)集圖像同樣來(lái)源于“Google 地球”,圖像尺寸大小為10 000×10 000像素和16 000×16 000像素,共有43幅圖像,包含飛機(jī)和船這兩個(gè)類別。對(duì)OHD-SJTU-S數(shù)據(jù)集做了兩個(gè)預(yù)處理工作:① 由于OHD-SJTU-S數(shù)據(jù)集使用任意四邊形標(biāo)注目標(biāo)實(shí)例,將每個(gè)目標(biāo)實(shí)例的原始任意四邊形標(biāo)簽轉(zhuǎn)化為水平邊界框標(biāo)簽;② 在送入模型訓(xùn)練或者測(cè)試之前,使用窗口大小為600×600、重疊為200像素的滑動(dòng)窗口將OHD-SJTU-S數(shù)據(jù)集中的所有圖像裁剪為600×600像素的小圖。
考慮到數(shù)據(jù)集的規(guī)模,在Small-DOTA數(shù)據(jù)集和DIOR數(shù)據(jù)集上使用101層的ResNet、Refine FPN和CA-Net作為主干網(wǎng)絡(luò)用于提取圖像特征,而在OHD-SJTU-S數(shù)據(jù)集上使用的主干網(wǎng)絡(luò)則是50層的ResNet、Refine FPN和CA-Net。鑒于文中所提算法屬于基于候選框的算法,需要事先設(shè)置候選框的尺寸,具體尺寸為{322,642,1282,2562,5122},分別對(duì)應(yīng)FPN的5層特征圖,每層上設(shè)置的候選框比例為{1∶1,1∶2,2∶1}。在模型訓(xùn)練階段,采用隨機(jī)梯度下降算法訓(xùn)練網(wǎng)絡(luò)模型,訓(xùn)練圖像的批大小設(shè)置為2,動(dòng)量設(shè)置為0.9,權(quán)值衰減設(shè)置為0.000 1,學(xué)習(xí)率設(shè)置為0.002 5,并且在前500輪的時(shí)候使用預(yù)熱策略對(duì)學(xué)習(xí)率進(jìn)行了預(yù)熱操作。模型總共需要訓(xùn)練12代,并且在第8代和第11代的時(shí)候,學(xué)習(xí)率會(huì)衰減到0.000 25和0.000 03。文中所提算法總共包括3個(gè)檢測(cè)階段,每個(gè)檢測(cè)階段設(shè)置的IoU閾值分別為0.5,0.6和0.7,以逐步優(yōu)化邊界框的質(zhì)量。另外,每個(gè)檢測(cè)網(wǎng)絡(luò)的損失權(quán)重分別設(shè)置為1.00,0.50和0.25。
采用AP和mAP這兩個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型的檢測(cè)性能,對(duì)比算法有Faster R-CNN、FPN、Refine FPN、Cascade R-CNN以及CA-Net*。其中CA-Net*是Refine FPN與提出的CA-Net的組合結(jié)構(gòu),沒有上下文轉(zhuǎn)移模塊和級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò),即,僅使用文中主干網(wǎng)絡(luò)的算法。通過(guò)與CA-Net*比較,能夠進(jìn)一步說(shuō)明文中提出的兩個(gè)改進(jìn)模塊的有效性。各種算法在Small-DOTA、OHD-SJTU-S和DIOR數(shù)據(jù)集上的檢測(cè)結(jié)果分別如表1至表3所示。
表1 不同方法在Small-DOTA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 %
表2 不同方法在OHD-SJTU-S數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 %
表3 不同方法在DIOR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 %
根據(jù)表1、表2和表3的實(shí)驗(yàn)結(jié)果可知,筆者提出的算法在3個(gè)數(shù)據(jù)集上都取得了最佳成績(jī),其mAP與對(duì)比方法相比達(dá)到了最高。值得注意的是,相比于Refine FPN和CA-Net*,筆者提出的算法在3個(gè)數(shù)據(jù)集上都有不同程度的提升。而且在DIOR數(shù)據(jù)集中小目標(biāo)比較多的船、車輛和風(fēng)車這3個(gè)類別上,筆者提出算法的AP也達(dá)到了最高,這說(shuō)明了筆者提出方法的有效性,表明文中算法確實(shí)能進(jìn)一步改善遙感圖像小目標(biāo)檢測(cè)性能。
為了更好地展示筆者提出的檢測(cè)方法對(duì)遙感圖像中小目標(biāo)定位的性能提升,將文中方法、Refine FPN和CA-Net*在DIOR數(shù)據(jù)集上的檢測(cè)結(jié)果進(jìn)行了可視化。如圖4所示,其中圖4 (a) 為Refine FPN的檢測(cè)結(jié)果,圖4 (b) 為CA-Net*的檢測(cè)結(jié)果,圖4 (c) 為文中算法的檢測(cè)結(jié)果。3個(gè)算法中使用了相同IoU閾值下的非極大值抑制操作??梢钥闯觯趫D4 (a) 和圖4 (b) 中均出現(xiàn)了近似假陽(yáng)性邊界框問(wèn)題,由曲線標(biāo)注。這些近似假陽(yáng)性樣本無(wú)法精準(zhǔn)地表示小目標(biāo)的位置,形成了噪聲檢測(cè)框,而在文中算法的檢測(cè)結(jié)果中,近似假陽(yáng)性邊界框的問(wèn)題并未出現(xiàn)。由此可見,筆者提出的算法具有較強(qiáng)的對(duì)抗近似假陽(yáng)性樣本的能力,并且能夠有效提升遙感圖像小目標(biāo)的預(yù)測(cè)邊界框質(zhì)量。
(a) Refine FPN檢測(cè)結(jié)果
筆者主要研究了遙感圖像小目標(biāo)檢測(cè)難的問(wèn)題,在現(xiàn)有算法的基礎(chǔ)上進(jìn)行改進(jìn),提出了一種基于非局部上下文信息的遙感圖像小目標(biāo)檢測(cè)方法。實(shí)驗(yàn)使用了Small-DOTA、DIOR和OHD-SJTU-S遙感圖像數(shù)據(jù)集。其中Small-DOTA數(shù)據(jù)是由DOTA 1.5中小目標(biāo)較多的4個(gè)類別組成,能夠評(píng)估模型應(yīng)對(duì)密集小目標(biāo)場(chǎng)景的能力。從定量角度分析,所提方法在3個(gè)數(shù)據(jù)集上的平均精度均值都高于其他方法;從定性角度分析,所提方法相比其他方法,檢測(cè)結(jié)果中的近似假陽(yáng)性檢測(cè)框更少,獲得了高質(zhì)量的小目標(biāo)預(yù)測(cè)邊界框。
但是,筆者提出的方法仍然存在改進(jìn)空間。在今后的研究中,可以嘗試模型輕量化操作,進(jìn)一步縮減模型的規(guī)模和計(jì)算量,便于工程應(yīng)用和輕量級(jí)硬件(如無(wú)人機(jī))的部署。