周秦漢, 王 振
(空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安 710000)
近年來(lái)隨著遙感衛(wèi)星、無(wú)人機(jī)的飛速發(fā)展,產(chǎn)生了海量高分辨率的遙感大數(shù)據(jù),為遙感圖像處理提供了數(shù)據(jù)支撐。遙感圖像目標(biāo)檢測(cè)是一種為檢測(cè)特定目標(biāo)(汽車、艦船或飛行器等)[1-3]而提出的基于計(jì)算機(jī)視覺(jué)的方法,被廣泛應(yīng)用于智能導(dǎo)航、目標(biāo)跟蹤、材料檢測(cè)、航空航天等多個(gè)領(lǐng)域。
遙感圖像存在背景復(fù)雜、目標(biāo)分布密集、尺寸形態(tài)多樣化等特點(diǎn),使得在遙感圖像中準(zhǔn)確提取目標(biāo)特征、進(jìn)行精確分類和定位面臨諸多困難。傳統(tǒng)的檢測(cè)定位方法通常包括特征提取、特征轉(zhuǎn)換和分類器預(yù)測(cè)等多個(gè)步驟。在特征提取階段,針對(duì)目標(biāo)主要提取如顏色、紋理、形狀、角度等特征。常用的特征提取方法有尺度不變特征變換(Scale Invariant Feature Transform,SIFT[4]),定向梯度直方圖(Histogram of Oriented Gradients,HOG[5])和變形部分模型(Deformable Part Model,DPM[6])。設(shè)計(jì)分類器的目的是確定目標(biāo)的具體類別,常用的分類器有支持向量機(jī)(Support Vector Machine,SVM[7]),隨機(jī)森林(Random Forest,RF[8]),決策樹(shù)模型(Decision Tree Model,DTM[9])和樸素貝葉斯分類器(Naive Bayes Classifier,NBC[10])。許多研究人員依據(jù)特征提取方法提出了具體的遙感目標(biāo)檢測(cè)算法。李湘眷等[11]使用多尺度顯著度、仿射協(xié)變區(qū)域?qū)Ρ榷?、邊緣密度?duì)比度,以及超像素完整度作為特征提取結(jié)果,然后通過(guò)樸素貝葉斯框架進(jìn)行特征融合,并訓(xùn)練了多個(gè)分類器對(duì)遙感目標(biāo)進(jìn)行檢測(cè);畢福昆等[12]通過(guò)引入一種自適應(yīng)形態(tài)學(xué)的顯著圖生成策略快速搜尋整個(gè)視場(chǎng)中的顯著區(qū)域,并在其引導(dǎo)下利用分類器融合技術(shù)從特征屬性相似的顯著物中區(qū)分出任務(wù)目標(biāo)。傳統(tǒng)方法的遙感圖像目標(biāo)檢測(cè)方法特征提取和分類器選擇都是基于人工經(jīng)驗(yàn)的選擇,效率不高。目標(biāo)特征提取能力低,尤其是深層語(yǔ)義信息提取能力較差,受樣本影響較大,導(dǎo)致這些檢測(cè)方法的魯棒性和泛化能力較差。
隨著越來(lái)越多的基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用,目標(biāo)檢測(cè)準(zhǔn)確率和速度都有了較大提升,更為關(guān)鍵的是深度學(xué)習(xí)模型可以主動(dòng)學(xué)習(xí)數(shù)據(jù)中的特征,為遙感圖像目標(biāo)檢測(cè)提供了一個(gè)新的思路和框架?,F(xiàn)有目標(biāo)檢測(cè)的深度學(xué)習(xí)模型主要有以劉偉等提出的SSD[13]和REDMON等提出的YOLO[14]系列為代表的一階段檢測(cè)算法和以RCNN[15],F(xiàn)PN[16]為代表的兩階段檢測(cè)算法?;谏疃葘W(xué)習(xí)模型的卷積結(jié)構(gòu)能夠有效提取圖像特征。但是遙感圖像的背景復(fù)雜多變,地面目標(biāo)的尺度變換多樣,使用單一的特征提取操作不能很好地兼顧淺層細(xì)節(jié)信息和深層語(yǔ)義信息,易造成密集小目標(biāo)的錯(cuò)檢和漏檢。
本文提出一種基于多尺度特征增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Scale Feature Enhancement Convolution Neural Networks,MSFE-CNNs) 的遙感目標(biāo)檢測(cè)算法。網(wǎng)絡(luò)利用特征增強(qiáng)模塊對(duì)卷積層提取的淺層特征和深層特征進(jìn)行增強(qiáng),強(qiáng)化目標(biāo)特征提取能力。利用自注意力機(jī)制在增強(qiáng)不同特征間相關(guān)性的同時(shí)擴(kuò)大模型局部和全局的感受野,抑制背景特征信息干擾。利用特征金字塔注意力機(jī)制進(jìn)行多特征融合,增強(qiáng)了不同特征之間的非線性關(guān)系,因此可以有效識(shí)別目標(biāo)類別,定位目標(biāo)位置。
雖然SSD算法使用多尺度結(jié)構(gòu)來(lái)檢測(cè)目標(biāo),但遙感圖像淺層特征的檢測(cè)對(duì)語(yǔ)義信息表達(dá)能力較差,導(dǎo)致遙感圖像小目標(biāo)檢測(cè)精度較低。此外,SSD算法的深度特征丟失了大量遙感圖像的細(xì)節(jié)信息,不利于遙感目標(biāo)區(qū)域的精確定位。為了減少背景信息干擾,增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,提高圖像小目標(biāo)檢測(cè)精度,在SSD算法的基礎(chǔ)上提出了本文算法,將淺層特征增強(qiáng)模塊、深層特征增強(qiáng)模塊、自注意力機(jī)制模塊和特征金字塔注意力模塊引入SSD算法,算法網(wǎng)絡(luò)框架如圖1所示。
淺層特征增強(qiáng)模塊借鑒了多分支卷積Inception-V2[17]和殘差網(wǎng)絡(luò)ResNet[18]模型的思想,在減少了參數(shù)的同時(shí)使用了更多的激活函數(shù),增強(qiáng)了非線性表達(dá)能力;基于雙路徑網(wǎng)絡(luò)(Dual Path Network,DPN[19])的思想,提出深層特征增強(qiáng)模塊;在骨干網(wǎng)中引入自注意力機(jī)制(Self-Attention Mechanism,SAM)模塊,增強(qiáng)卷積層之間特征圖的相關(guān)性;基于空間金字塔結(jié)構(gòu)(Spatial Pyramid Structure,SPS)的多尺度特征提取思想,在模型中引入金字塔注意力機(jī)制(Pyramid Attention Mechanism,PAM)模塊,充分提取目標(biāo)區(qū)域的全局信息。
如圖2所示,特征增強(qiáng)模塊包括淺層特征增強(qiáng)模塊和深層特征增強(qiáng)模塊。淺層特征增強(qiáng)模塊是一個(gè)多分支結(jié)構(gòu),其中一個(gè)分支通過(guò)1×1卷積和3×3空洞卷積使得網(wǎng)絡(luò)能夠?qū)W習(xí)更多的非線性關(guān)系,結(jié)合殘差網(wǎng)絡(luò)和空洞卷積,提取更多的目標(biāo)特征信息;深層特征增強(qiáng)模塊是一個(gè)多通道卷積操作,將特征圖分為不同卷積通道,使用1×1和k×k大小的卷積核來(lái)分離輸入特征圖,再經(jīng)過(guò)級(jí)聯(lián)和拼接操作進(jìn)一步融合提取的特征。
圖2 特征增強(qiáng)模塊Fig.2 Structure of feature enhancement module
在淺層特征增強(qiáng)模塊中一個(gè)分支使用分組卷積將k×k卷積核分解為1×k和k×1,在保證局部感受野保持不變的情況下節(jié)省訓(xùn)練時(shí)間,同時(shí),3×3空洞卷積用來(lái)強(qiáng)化模型局部感受野,另一個(gè)分支反向組合k×1和1×k卷積,使用級(jí)聯(lián)操作對(duì)得到的特征圖結(jié)果進(jìn)行特征融合,將剩余分支的1×1卷積結(jié)果進(jìn)行拼接融合操作。其形式描述如下。
1) 卷積層定義為
xl=f(Wlxl-1+bl)
(1)
式中:l代表層數(shù);W代表卷積權(quán)值;b代表偏移量;f為激活函數(shù)。
2) 空洞卷積算式為
(2)
3) 殘差學(xué)習(xí)算式為
xl+1=xl+F′(xl,Wl)
(3)
式中:xl為當(dāng)前層;xl+1為下一層;Wl為l層權(quán)值;F′為殘差運(yùn)算。
4) 級(jí)聯(lián)和拼接算式分別為
(4)
(5)
式中:xi,yi分別代表不同的通道的輸入;c為通道個(gè)數(shù);ki為對(duì)應(yīng)的卷積核;*為卷積運(yùn)算。
深層特征增強(qiáng)模塊是基于DPN算法思想,結(jié)合殘差網(wǎng)絡(luò)ResNet[18]和密集網(wǎng)絡(luò)DenseNet[20]在特征提取方面的優(yōu)勢(shì),不僅加深了整個(gè)網(wǎng)絡(luò)結(jié)構(gòu),而且隱含地完成了淺層和深層的特征融合,使深層網(wǎng)絡(luò)的特征信息更加豐富,采用分組卷積可以提高模塊的特征處理效率。深層特征增強(qiáng)模塊計(jì)算過(guò)程如下。
1) DenseNet網(wǎng)絡(luò)的密集連接計(jì)算過(guò)程為
xl=Hl([x0,x1,…,xl-1])
(6)
式中:Hl(·)為非線性變換;[x0,x1,…,xl-1]表示對(duì)第l層之前所有層輸出整合特征圖尺寸維度后在通道維度進(jìn)行拼接,作為第l層輸入。
2) 分組卷積,假設(shè)輸入為H×W×C1維,有C2個(gè)H×W×C1維的卷積核,卷積后輸出為H×W×C2維,設(shè)置分組系數(shù)為2,則每組卷積的卷積核是H×W×C1/2維,即每組都有C2個(gè)H×W×C1/2維的卷積核。因此,分組卷積的運(yùn)算量和卷積核參數(shù)個(gè)數(shù)是對(duì)應(yīng)正常卷積層的一半。
3) 級(jí)聯(lián)和拼接運(yùn)算過(guò)程如式(4)、式(5)所示。
在卷積神經(jīng)網(wǎng)絡(luò)中,由于卷積核大小有限且固定,每次卷積操作只能覆蓋卷積核計(jì)算的面積,導(dǎo)致離圖像中目標(biāo)較遠(yuǎn)的特征不易被卷積核捕獲。隨著卷積層數(shù)的增加,卷積和池化操作使得特征圖的寬度和高度變小,局部感受野變大,卷積核映射所覆蓋的區(qū)域也相應(yīng)地比原始圖像大。由于特征層的映射不能完全反映原始圖像的特征,為了增強(qiáng)遙感圖像中目標(biāo)之間的相關(guān)性,使卷積層提取的特征更具相關(guān)性,引入了自注意力機(jī)制,自注意力機(jī)制模塊如圖3所示。
圖3 自注意力機(jī)制模塊Fig.3 Structure of self-attention mechanism
假設(shè)輸入特征圖N大小為C×W×H維,C代表特征圖通道數(shù),W,H分別為寬度和高度,自注意力機(jī)制模塊運(yùn)算步驟如下所述。
1) 對(duì)輸入特征圖進(jìn)行3個(gè)卷積,其中第1和第2個(gè)卷積分別采用1×1卷積核進(jìn)行卷積運(yùn)算壓縮特征圖通道數(shù)量,然后利用矩陣相乘擴(kuò)展變換到矩陣Q和K,第3個(gè)卷積依然采用1×1卷積核進(jìn)行卷積運(yùn)算,但不減少通道數(shù),然后將輸入大小擴(kuò)展到矩陣V,然后進(jìn)行3×3和5×5卷積運(yùn)算,進(jìn)一階段提取目標(biāo)特征。
2) 對(duì)矩陣Q進(jìn)行轉(zhuǎn)置,然后乘以矩陣K得到尺度特征映射矩陣E=QTK。
19世紀(jì)70年代后,隨著中外貿(mào)易的興起,各式外語(yǔ)學(xué)館在沿海通商口岸次第開(kāi)辦。在清末新政期間全國(guó)性教育改革開(kāi)始之前半個(gè)世紀(jì)內(nèi),東南沿海的五個(gè)通商口岸已經(jīng)設(shè)立66所新式學(xué)堂。[5]
3) 利用SoftMax函數(shù)對(duì)尺度特征矩陣E在列方向上進(jìn)行歸一化處理,得到特征圖中所有特征點(diǎn)與某一特征點(diǎn)之間的關(guān)系,這就是注意力矩陣特征圖,其矩陣元素為
(7)
式中:βj,i表示得到的注意力矩陣特征圖中對(duì)應(yīng)的每個(gè)元素;Ei j表示尺度特征映射矩陣中對(duì)應(yīng)的每個(gè)元素;N′表示尺度特征映射矩陣中的元素個(gè)數(shù)。
4) 用注意力矩陣特征圖與第3分支提取出來(lái)的特征圖進(jìn)行矩陣乘法運(yùn)算得到自注意力特征圖,自注意力機(jī)制模塊運(yùn)算結(jié)束。
特征金字塔結(jié)構(gòu)可以提取不同像素目標(biāo)尺度的特征,并行計(jì)算多個(gè)感受野信息,對(duì)不同大小的目標(biāo)具有較好的識(shí)別效果[16]。而在傳統(tǒng)的特征金字塔結(jié)構(gòu)中,不同比例尺特征圖之間的信息融合是通過(guò)簡(jiǎn)單的線性疊加完成的,忽略了不同層次分支之間的非線性關(guān)系。該注意力機(jī)制通過(guò)聚焦重要區(qū)域信息和抑制次要信息來(lái)提取不同層次的非線性信息,增加模型效果,可用于不同尺寸大小特征圖的非線性信息融合。結(jié)合特征金字塔結(jié)構(gòu)和注意力機(jī)制的優(yōu)勢(shì),提出了應(yīng)用于遙感目標(biāo)識(shí)別的金字塔注意力機(jī)制。本文算法金字塔注意力模塊結(jié)構(gòu)如圖4所示。
圖4 金字塔注意力模塊結(jié)構(gòu)Fig.4 Structure of pyramid attention module
金字塔注意力機(jī)制包括金字塔特征提取模塊和注意力特征融合模塊,該結(jié)構(gòu)中金字塔特征提取模塊包含4層卷積結(jié)構(gòu),其中,3×3卷積運(yùn)算用于多特征提取,利用2×2矩陣卷積進(jìn)行下采樣用于減小特征圖分辨率。利用金字塔特征提取模塊可以獲得5個(gè)不同尺寸的特征圖,且特征圖的個(gè)數(shù)不同。為了充分整合金字塔特征提取模塊的特征學(xué)習(xí)結(jié)果,采用分層構(gòu)造的方式構(gòu)建注意力特征融合模塊,分別使用3×3,5×5,7×7和9×9卷積核進(jìn)行分層特征提取。各層特征提取結(jié)果采用2×2上采樣操作生成注意力權(quán)值圖,并通過(guò)疊加對(duì)當(dāng)前層對(duì)應(yīng)的卷積運(yùn)算結(jié)果進(jìn)行標(biāo)定。為了避免在金字塔特征提取融合過(guò)程中對(duì)原始輸入特征圖的誤判,將原始特征圖經(jīng)過(guò)1×1卷積運(yùn)算后與金字塔融合模塊的結(jié)果線性疊加,得到該模塊的輸出。金字塔注意力機(jī)制模塊的形式化描述如下
S=Conv1×1(I)+fpa(N1)
(8)
式中:S表示輸出;I表示輸出;N1為金字塔注意力機(jī)制模塊中的層數(shù)。
fpa(N1)=Convm×n(Ii)+U(fpa(i-1))
(9)
式中:m×n表示卷積核大?。籙(·)表示上采樣操作;fpa(i-1)表示第i-1層金字塔注意力機(jī)制模塊的輸出;Ii表示金字塔注意力機(jī)制模塊第i層輸入,即
Ii=Conv3×3(D(Ii-1))
(10)
式中,D(·)表示下采樣操作。
為了識(shí)別遙感圖像中不同尺寸的目標(biāo),設(shè)計(jì)了不同寬高比的邊界框進(jìn)行目標(biāo)匹配。假設(shè)n個(gè)卷積層的卷積特征被用來(lái)進(jìn)行目標(biāo)檢測(cè),則第i層特征圖的候選邊界框尺寸為
(11)
式中,Smin和Smax分別代表淺層和深層特征圖邊界框的比例系數(shù)。
(12)
式中,|fk|表示第k層特征圖的尺寸大小。
為了解決因?yàn)檫b感圖像模型訓(xùn)練過(guò)程中正負(fù)樣本不平衡引發(fā)的模型退化問(wèn)題,本文算法基于SSD算法損失函數(shù),結(jié)合Focal分類損失函數(shù)[21]進(jìn)行優(yōu)化和訓(xùn)練,即
(13)
式中:N2為正樣本邊界框的數(shù)量;x為輸入圖像;c為類別置信度預(yù)測(cè)值;l為先驗(yàn)框所對(duì)應(yīng)邊界框的位置預(yù)測(cè)值;g為真實(shí)邊界框位置參數(shù);a為分類預(yù)測(cè)誤差和邊界框預(yù)測(cè)誤差平衡系數(shù);Lf 1(x,c)和Lloc(x,l,g)分別為Focal分類損失函數(shù)和邊界框回歸損失函數(shù)。函數(shù)Lloc(x,l,g)利用Faster R-CNN[22]中的位置回歸函數(shù),其表達(dá)式為
(14)
(15)
函數(shù)Lf 1(x,c)計(jì)算分類損失函數(shù),其表達(dá)式為
(16)
為了驗(yàn)證算法的檢測(cè)性能,DOTA數(shù)據(jù)集上截取采集了1729幅大小為500像素×375像素、包含6種不同場(chǎng)景光學(xué)遙感目標(biāo),空間分辨率為0.5 ~ 2 m。具體的目標(biāo)類別包括飛機(jī)、輪船、汽車、儲(chǔ)油罐、棒球場(chǎng)、網(wǎng)球場(chǎng)等,其中包含9740個(gè)實(shí)例樣本,7065個(gè)目標(biāo)作為訓(xùn)練數(shù)據(jù)集,2675個(gè)目標(biāo)作為測(cè)試數(shù)據(jù)集。同時(shí)對(duì)圖像按照{(diào)20°,40°,…,340°}的角度進(jìn)行旋轉(zhuǎn)變換,使訓(xùn)練樣本集增加17倍。另外,按照目標(biāo)尺寸大小進(jìn)行分類,按照像素大小32×32和64×64兩個(gè)閾值把目標(biāo)分為小目標(biāo)、中等目標(biāo)和大型目標(biāo)3類,訓(xùn)練樣本以中小目標(biāo)為主。
選取平均精度均值(mAP)、每秒處理幀數(shù)(FPS)和召回率作為網(wǎng)絡(luò)模型預(yù)測(cè)評(píng)價(jià)指標(biāo)。具體來(lái)說(shuō),精度指標(biāo)表示預(yù)測(cè)檢測(cè)結(jié)果中包含的目標(biāo)區(qū)域的比例,mAP表示不同類別精度均值的平均值;FPS反映了模型檢測(cè)速度;召回率是指正確檢測(cè)到的目標(biāo)的百分比。在計(jì)算mAP前,需要計(jì)算出每一類的平均精度AP值,每個(gè)類別平均精度AP在不同置信度r下計(jì)算模型預(yù)測(cè)準(zhǔn)確率(Precision)和召回率(Recall)得到P-R坐標(biāo)(橫坐標(biāo)是Recall,縱坐標(biāo)是Precision)下PR曲線,PR曲線下的面積就是該類別的AP。
首先,通過(guò)非極大值抑制取預(yù)測(cè)邊界框類別置信度最高的類別作為預(yù)測(cè)邊界框中目標(biāo)所屬類別,刪除同一目標(biāo)重疊度較高的預(yù)測(cè)邊界框,確定最終的預(yù)測(cè)結(jié)果。目標(biāo)檢測(cè)任務(wù)區(qū)分預(yù)測(cè)結(jié)果是否正確需要滿足兩個(gè)條件:1) 類別置信度滿足閾值條件;2) 檢測(cè)結(jié)果邊界框與真實(shí)邊界框IoU滿足預(yù)先設(shè)置的閾值。IoU計(jì)算目標(biāo)邊界框與檢測(cè)結(jié)果邊界框之間的交集區(qū)域和并集區(qū)域的比值,其算式為
(17)
式中:area(Ddet∩Dgt)表示真實(shí)目標(biāo)邊界框與預(yù)測(cè)結(jié)果邊界框之間的交集區(qū)域;area(Ddet∪Dgt)表示真實(shí)目標(biāo)邊界框與檢測(cè)結(jié)果邊界框之間的并集區(qū)域。
評(píng)估指標(biāo)的具體公式如下。
(18)
(19)
(20)
(21)
式中:TTP表示預(yù)測(cè)結(jié)果同時(shí)滿足置信度閾值和IoU閾值的正確預(yù)測(cè)框數(shù)量;FFP表示預(yù)測(cè)結(jié)果與實(shí)際目標(biāo)不滿足IoU閾值條件的預(yù)測(cè)邊界框數(shù)量;FFN表示沒(méi)有檢測(cè)到的真實(shí)邊界框數(shù)量。
實(shí)驗(yàn)在一臺(tái)11 GiB NVIDIA 2080Ti的PC機(jī)上運(yùn)行,操作系統(tǒng)是Ubuntu 16.04,編程環(huán)境是帶有CUDA內(nèi)核的Keras。遙感圖像數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集包括960幅圖像,驗(yàn)證和測(cè)試數(shù)據(jù)集包括280幅遙感圖像。為防止過(guò)擬合增強(qiáng)泛化能力,在ImageNet數(shù)據(jù)集中對(duì)主干網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后在遙感圖像數(shù)據(jù)集中對(duì)預(yù)訓(xùn)練的模型進(jìn)行訓(xùn)練。在訓(xùn)練和驗(yàn)證數(shù)據(jù)集中采用批處理訓(xùn)練方法對(duì)MSFE-CNNs模型進(jìn)行實(shí)驗(yàn),每批包含32幅圖像。模型遍歷所有的訓(xùn)練數(shù)據(jù)集稱為一次迭代,實(shí)驗(yàn)中將迭代次數(shù)設(shè)置為10 000。采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam)算法優(yōu)化MSFE-CNNs的目標(biāo)函數(shù),動(dòng)量因子設(shè)置為0.92,批數(shù)設(shè)置為8,權(quán)重衰減為0.005。MSFE-CNNs的訓(xùn)練過(guò)程分為3個(gè)階段。第1階段是在ImageNet數(shù)據(jù)集中對(duì)骨干網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,此階段初始學(xué)習(xí)速率設(shè)置為0.001,衰減系數(shù)為0.1,每1000次迭代衰減一次;第2階段是對(duì)遙感圖像數(shù)據(jù)集中的預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,該階段采用遷移學(xué)習(xí)方法,只訓(xùn)練預(yù)訓(xùn)練對(duì)象的部分權(quán)重,此階段訓(xùn)練參數(shù)設(shè)置與第1階段相同;最后,基于第2階段訓(xùn)練的模型,對(duì)MSFE-CNNs的整體模型結(jié)構(gòu)進(jìn)行訓(xùn)練,這個(gè)階段的初始學(xué)習(xí)率設(shè)置為0.000 1,每經(jīng)過(guò)3000次迭代學(xué)習(xí)率衰減0.1。
IoU閾值是影響模型mAP的重要指標(biāo)。選擇不同IoU閾值對(duì)本文算法(MSFE-CNNs)進(jìn)行測(cè)試,對(duì)比結(jié)果如表1所示。
隨著IoU閾值的增加,所有正樣本檢測(cè)準(zhǔn)確率下降,召回率上升。mAP指標(biāo)先上升后下降,當(dāng)IoU閾值達(dá)到0.5時(shí)得到最優(yōu)值;由式(18)可知,精度由TTP和FFP決定,所以隨著IoU閾值的增加,FFP也相應(yīng)增加,導(dǎo)致準(zhǔn)確率變小;由式(19)可知,召回率由TTP和FFN決定,所以隨著IoU閾值的增加,TTP值逐漸增加,召回率也隨之增加。
表1 不同IoU閾值對(duì)模型性能影響對(duì)比
對(duì)本文算法(MSFE-CNNs)的性能進(jìn)行計(jì)算評(píng)估,與SSD,YOLOV3,Faster R-CNN等多種目標(biāo)檢測(cè)算法進(jìn)行了比較。在相同實(shí)驗(yàn)設(shè)置下,4種目標(biāo)檢測(cè)算法的結(jié)果如表2所示。
表2 MSFE-CNNs與其他算法性能的比較
此外,為公平評(píng)價(jià)檢測(cè)精度,將所有比較模型的參數(shù)IoU閾值設(shè)置為0.5。表2給出了各算法對(duì)不同目標(biāo)的檢測(cè)性能,評(píng)價(jià)指標(biāo)包括mAP,F(xiàn)PS。與SSD算法相比,mAP從0.774提高到0.810,表明所提出改進(jìn)算法的有效性,并且優(yōu)于其他最新算法。與單階段檢測(cè)方法YOLOV3和兩階段檢測(cè)方法Faster R-CNN相比,所提方法的mAP分別提高了0.054和0.092。具體分析發(fā)現(xiàn)對(duì)于汽車、輪船、飛機(jī)等小目標(biāo),MSFE-CNNs相較于其他算法精度均值(AP)提高較大,分別比次優(yōu)值高出0.051,0.023和0.034。同時(shí)FPS也有一定提高,說(shuō)明該算法具有較強(qiáng)的實(shí)時(shí)性。圖5展示了SSD算法和本文算法在不同場(chǎng)景下針對(duì)飛機(jī)目標(biāo)檢測(cè)分類檢測(cè)效果。效果圖說(shuō)明與SSD算法相比本文算法在對(duì)小目標(biāo)檢測(cè)準(zhǔn)確性有了明顯提高。在不同場(chǎng)景下,本文算法對(duì)遙感圖像數(shù)據(jù)集部分檢測(cè)結(jié)果如圖6所示,在光照不同(第1,2幅)、密集分布(第3幅)、以及小尺寸多角度目標(biāo)(第4幅)等情況下,算法均可精確地檢測(cè)出相關(guān)的目標(biāo)物體,證明本文所設(shè)計(jì)的MSFE-CNNs能夠有效地提高復(fù)雜背景下多尺度遙感圖像中的目標(biāo)物體檢測(cè)能力,特別是對(duì)于密集小目標(biāo),能夠完成精確的檢測(cè)和定位。
圖5 不同算法檢測(cè)結(jié)果對(duì)比Fig.5 Performance comparison of different algorithms
圖6 本文算法對(duì)小目標(biāo)群體檢測(cè)結(jié)果Fig.6 Detection result of small target group based on MSFE-CNNs
本文提出一種基于多尺度特征增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的遙感目標(biāo)檢測(cè)算法。該算法的目的是為了有效提高CNN模型的特征提取能力和不同特征層之間的非線性關(guān)系。在網(wǎng)絡(luò)骨干中引入自注意力機(jī)制模塊,擴(kuò)展局部和全局感受野,獲得全局特征信息。同時(shí),利用特征增強(qiáng)模塊增強(qiáng)淺層卷積和深層卷積的特征提取效果。此外,利用特征金字塔注意力機(jī)制增強(qiáng)不同特征層之間的非線性關(guān)系。實(shí)驗(yàn)結(jié)果表明,MSFE-CNNs對(duì)遙感圖像檢測(cè)性能,尤其是對(duì)于密集小目標(biāo)檢測(cè)效果優(yōu)于現(xiàn)有的最新深度學(xué)習(xí)方法,證明了所提算法的有效性和魯棒性。未來(lái),將在基于深度學(xué)習(xí)模型的遙感圖像目標(biāo)檢測(cè)框架中直接添加特征增強(qiáng)結(jié)構(gòu),提高其檢測(cè)性能,同時(shí),改進(jìn)邊界框損失函數(shù),提高收斂速度和檢測(cè)效果。