李廣帥, 蘇 娟, 李義紅, 李 響
(1.火箭軍工程大學(xué)核工程學(xué)院, 陜西 西安 710025; 2.中國(guó)人民解放軍96882部隊(duì),江西 南昌 330200; 3.中國(guó)人民解放軍96823部隊(duì), 云南 昆明 650200)
合成孔徑雷達(dá)(synthetic aperture radar,SAR)主動(dòng)發(fā)射微波信號(hào),通過相干機(jī)制進(jìn)行成像,突破了光照的限制,且受雨雪霧等不良天氣影響較小,具有全天時(shí)、全天候的觀測(cè)優(yōu)勢(shì)。隨著SAR技術(shù)的不斷發(fā)展,利用脈沖壓縮和孔徑合成技術(shù),得到的距離向和方位向二維圖像的分辨率也越來越高。因SAR具有上述獨(dú)特優(yōu)勢(shì),在環(huán)境保護(hù)監(jiān)測(cè)、地形測(cè)繪、戰(zhàn)場(chǎng)態(tài)勢(shì)偵察、目標(biāo)識(shí)別等領(lǐng)域有著廣闊的應(yīng)用前景。飛機(jī)作為一種重要軍事目標(biāo),實(shí)現(xiàn)SAR圖像中飛機(jī)目標(biāo)的檢測(cè)也成為了一個(gè)重要研究問題。
不同于光學(xué)圖像,由于相干機(jī)制成像,SAR圖像存在較多斑點(diǎn)噪聲,且飛機(jī)目標(biāo)在圖像中的連續(xù)性較差,增加了檢測(cè)任務(wù)的難度,當(dāng)前傳統(tǒng)的SAR圖像飛機(jī)目標(biāo)檢測(cè)算法大多基于目標(biāo)散射特征和結(jié)構(gòu)特征。Fu等人[1]提出一種基于散射結(jié)構(gòu)特征和模板匹配的SAR圖像飛機(jī)檢測(cè)識(shí)別的方法,利用高斯混合模型對(duì)目標(biāo)散射特征進(jìn)行建模,并通過樣本決策優(yōu)化算法提高模板匹配的效率。He等人[2]提出一種用于SAR圖像目標(biāo)檢測(cè)的多分量模型,該模型基于混合統(tǒng)計(jì)分布,實(shí)現(xiàn)了較好的SAR飛機(jī)檢測(cè)效果。高君等人[3]提出一種基于幾何特征的SAR圖像飛機(jī)檢測(cè)算法,利用機(jī)翼、機(jī)身形成的T型或Y型結(jié)構(gòu)特征并結(jié)合先驗(yàn)知識(shí)實(shí)現(xiàn)目標(biāo)檢測(cè),在微小SAR圖像中取得了較好的檢測(cè)結(jié)果。傳統(tǒng)的SAR圖像飛機(jī)檢測(cè)算法一般需要預(yù)處理、典型特征設(shè)計(jì)等步驟,過程較為繁瑣復(fù)雜,且算法存在著泛化能力弱、檢測(cè)效率低等缺點(diǎn)。
隨著深度學(xué)習(xí)理論的不斷發(fā)展與成熟,在圖形處理器等技術(shù)的支持下,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法得到了較大的研究成果,當(dāng)前主流的檢測(cè)算法主要分為兩大類:雙階段檢測(cè)和單階段檢測(cè)。雙階段檢測(cè)主要有雙階段檢測(cè)主要有區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region with convolutional neural networks,R-CNN)[4]、快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(fast region with convolutional neural networks,F(xiàn)ast R-CNN)[5]、更快區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region with convolutional neural networks,F(xiàn)aster R-CNN)[5-6]、PVANET[7]和掩膜區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask region with convolutional neural networks,Mask R-CNN)[8]等,單階段的檢測(cè)主要有單次多盒檢測(cè)器(single shot multibox detector,SSD)系列[9-11]、YOLO(you only look once)系列[12-14]和反向連接目標(biāo)先驗(yàn)網(wǎng)絡(luò)(reverse connection with objectness prior networks,RON)[15]等。得益于大規(guī)模數(shù)據(jù)集ImageNet[16]、COCO(microsoft common objects in context)[17]等的公開,深度學(xué)習(xí)的目標(biāo)檢測(cè)算法大多應(yīng)用于光學(xué)圖像,在SAR圖像目標(biāo)檢測(cè)中的應(yīng)用較少。Chu等人[18]提出一種基于組件的多層并行網(wǎng)絡(luò)并用于SAR圖像飛機(jī)目標(biāo)的檢測(cè),通過標(biāo)注將飛機(jī)組件信息引入到網(wǎng)絡(luò)結(jié)構(gòu)中,幫助算法模型檢測(cè)到完整的飛機(jī)目標(biāo),并在TerraSAR-X數(shù)據(jù)上進(jìn)行測(cè)試,結(jié)果表明該方法具有較高的檢測(cè)精度,但組件標(biāo)注任務(wù)又引入了更多的工作量。王思雨等人[19]為解決定位不精確和虛警的問題,提出一種全新的SAR圖像飛機(jī)檢測(cè)算法。首先利用顯著性預(yù)檢測(cè)方法在大場(chǎng)景SAR圖像中實(shí)現(xiàn)粗定位,再設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)候選飛機(jī)目標(biāo)的精確檢測(cè)。由于該方法使用多尺度滑動(dòng)窗口進(jìn)行顯著性預(yù)測(cè),使得檢測(cè)過程耗時(shí)較長(zhǎng)。Zhang等人[20]在Faster R-CNN和殘差網(wǎng)絡(luò)的基礎(chǔ)上提出一種級(jí)聯(lián)三視網(wǎng)絡(luò),該網(wǎng)絡(luò)包含機(jī)場(chǎng)監(jiān)視、飛機(jī)探測(cè)和機(jī)場(chǎng)跑道提取3個(gè)方面的內(nèi)容,在測(cè)試數(shù)據(jù)上的F-score值達(dá)到了0.67,但網(wǎng)絡(luò)級(jí)聯(lián)方式增加了計(jì)算成本,導(dǎo)致對(duì)SAR圖像飛機(jī)的檢測(cè)效率有所下降。
因此針對(duì)以上問題,本文在Faster R-CNN算法的基礎(chǔ)上,提出一種基于深度可分離卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的SAR圖像飛機(jī)檢測(cè)算法,通過實(shí)驗(yàn)驗(yàn)證該模型在SAR圖像飛機(jī)數(shù)據(jù)集中的檢測(cè)效果。本文的創(chuàng)新點(diǎn)主要有:
(1)采用深度可分離卷積代替特征提取網(wǎng)絡(luò)中卷積核為3×3的傳統(tǒng)卷積,減少網(wǎng)絡(luò)參數(shù)量,并結(jié)合逆殘差結(jié)構(gòu)防止特征信息丟失問題,以提高檢測(cè)精度。
(2)提出多尺度空洞卷積—空間注意力模塊,使網(wǎng)絡(luò)關(guān)注有效的空間信息。同時(shí)引入全局上下文模塊,賦予各通道特征圖更有代表性的權(quán)值,捕捉通道間語(yǔ)義相關(guān)性。
(3)遷移學(xué)習(xí)的應(yīng)用:使用運(yùn)動(dòng)和靜止目標(biāo)獲取與識(shí)別(moving and stationary target acquisitionand recognition,MSTAR)數(shù)據(jù)集和SAR艦船檢測(cè)數(shù)據(jù)集(SAR ship detection dataset,SSDD)數(shù)據(jù)集在檢測(cè)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,將得到的模型參數(shù)對(duì)本算法的特征提取層進(jìn)行初始化,再利用SAR數(shù)據(jù)集(SAR aircraft dataset, SAD)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)。
Ren等人[6]使用區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)替代選擇性搜索(search selective,SS)方式,提出了Faster R-CNN檢測(cè)算法,大幅提高了網(wǎng)絡(luò)的檢測(cè)速度。Faster R-CNN檢測(cè)網(wǎng)絡(luò)的整體流程如圖1所示。
圖1 Faster R-CNN檢測(cè)網(wǎng)絡(luò)
Faster R-CNN使用VGG16作為特征提取網(wǎng)絡(luò),該網(wǎng)絡(luò)較為簡(jiǎn)單,使用若干卷積和池化組合堆疊構(gòu)成,共包含13個(gè)卷積層和4個(gè)池化層,并且卷積核尺寸均設(shè)置為3×3。區(qū)域建議網(wǎng)絡(luò)在輸出的特征圖上每點(diǎn)生成9種錨框,是由[8,16,32]3種尺寸和[1∶2,1∶1,2∶1]3種比例組合得到,區(qū)域建議網(wǎng)絡(luò)的提出極大提升了檢測(cè)框的生成速度。感興趣區(qū)域池化層將輸入的特征圖分區(qū)域池化,可將不同尺寸大小的特征圖轉(zhuǎn)化為固定長(zhǎng)度輸出至全連接層,然后對(duì)錨框邊界進(jìn)行回歸和對(duì)錨框內(nèi)目標(biāo)類別進(jìn)行確定,從而實(shí)現(xiàn)檢測(cè)任務(wù)。
Faster R-CNN將建議框生成、目標(biāo)分類和邊界框回歸統(tǒng)一至網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,實(shí)現(xiàn)了端到端的檢測(cè)任務(wù),提高了檢測(cè)的效率。Faster R-CNN采用多任務(wù)損失函數(shù),其表達(dá)式如下:
(1)
經(jīng)典的Faster R-CNN針對(duì)多類目標(biāo),模型參數(shù)多、計(jì)算量大,訓(xùn)練時(shí)占用計(jì)算機(jī)內(nèi)存資源多。文獻(xiàn)[21]中指出,卷積神經(jīng)網(wǎng)絡(luò)存在大量參數(shù),這是限制了其在實(shí)際中的應(yīng)用,在SAR圖像識(shí)別任務(wù)中,在保證識(shí)別精度的同時(shí),要注意減少網(wǎng)絡(luò)參數(shù)和計(jì)算量。深度可分離卷積(depthwise separable convolution, DS-Conv)[22]是傳統(tǒng)卷積(traditional convolution, T-Conv)的一種變體,在參數(shù)減少的情況下可以實(shí)現(xiàn)與T-Conv近似的效果[23]。因此,本文使用深度可分離卷積網(wǎng)絡(luò)提取特征,降低運(yùn)算復(fù)雜度,提高檢測(cè)效率[21]。同時(shí)為提高檢測(cè)精度引入注意力機(jī)制,具體做法如下:基礎(chǔ)特征網(wǎng)絡(luò)采用結(jié)合特征金字塔網(wǎng)絡(luò)(feature pyramid networks,FPN)的殘差網(wǎng)絡(luò)ResNet50,使用深度可分離卷積替換傳統(tǒng)卷積運(yùn)算。同時(shí)為挖掘特征之間的語(yǔ)義相關(guān)性,增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力,引入通道和空間注意力模塊。改進(jìn)后的網(wǎng)結(jié)構(gòu)示意圖如圖2所示,圖中MDC-SA為改進(jìn)的空間注意力模塊,GC為通道注意力模塊,其具體結(jié)構(gòu)見第2.2節(jié)。
圖2 本文檢測(cè)算法
殘差網(wǎng)絡(luò)ResNet使用函數(shù)F(x)=H(x)-x的思想設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),當(dāng)F(x)=0時(shí),實(shí)現(xiàn)H(x)與x的恒等映射,使得深層網(wǎng)絡(luò)更加容易訓(xùn)練。ResNet搭建層數(shù)更深的網(wǎng)絡(luò)以增強(qiáng)特征表達(dá)能力,引入恒等快捷連接跳過多個(gè)中間層,并通過1×1卷積降低特征圖數(shù)量,加快網(wǎng)絡(luò)收斂速度,減少訓(xùn)練時(shí)間成本。因此,特征提取網(wǎng)絡(luò)使用殘差網(wǎng)絡(luò)ResNet50替代原來的VGG16,ResNet50網(wǎng)絡(luò)中殘差塊結(jié)構(gòu)如圖3所示。
圖3 殘差塊結(jié)構(gòu)
由于成像原理的不同,SAR圖像中的紋理、梯度、深層語(yǔ)義信息等沒有光學(xué)圖像豐富。為進(jìn)一步減少計(jì)算冗余、輕量網(wǎng)絡(luò)參數(shù)以提升檢測(cè)效率,使用參數(shù)量少和計(jì)算復(fù)雜度低的DS-Conv[21]替代ResNet50中卷積核尺寸為3×3的傳統(tǒng)卷積。F-Conv的結(jié)構(gòu)如圖4(a)所示,M個(gè)卷積核與輸入數(shù)據(jù)的所有通道進(jìn)行卷積操作,所有卷積結(jié)果融合后輸出,輸出共有M個(gè)通道。DS-Conv的結(jié)構(gòu)如圖4(b)所示,由深度卷積(depthwise convolution,D-Conv)和逐點(diǎn)卷積(pointwise convolution,P-Conv)組成,DS-Conv對(duì)輸入數(shù)據(jù)的各通道進(jìn)行D-Conv操作,然后利用D-Conv將中間輸出結(jié)果線性連接起來,得到M通道數(shù)的輸出結(jié)果。
圖4 傳統(tǒng)卷積和深度可分離卷積示意圖
當(dāng)輸入數(shù)據(jù)為H×W×N時(shí),共有M個(gè)核大小為k×k、滑動(dòng)步長(zhǎng)為1的卷積核,F-Conv積的參數(shù)量為
PT-Conv=k×k×N×M
(2)
DS-Conv的參數(shù)量為
PDS-Conv=k×k×N+N×M
(3)
DS-Conv與F-Conv參數(shù)量比值為
(4)
由式(4)可知,當(dāng)輸出向量的通道數(shù)很大時(shí),DS-Conv參數(shù)量大約為F-Conv的1/k2,一般k>1。這從理論上證明了DS-Conv比F-Conv有著更少的計(jì)算量,對(duì)提升SAR圖像飛機(jī)目標(biāo)的檢測(cè)速度具有促進(jìn)作用。DS-Conv拆分F-Conv結(jié)構(gòu),解耦通道和空間相關(guān)性[22],可以達(dá)到與F-Conv相近的效果[23],利用D-Conv和P-Conv大幅壓縮了卷積過程的參數(shù)量,從而提高檢測(cè)效率。
使用D-Conv替換T-Conv后,由于DS-Conv過程無法改變通道數(shù),經(jīng)過激活函數(shù)ReLU時(shí)負(fù)值輸入為零,部分神經(jīng)元靜默導(dǎo)致特征信息的丟失。為此,借鑒逆殘差(inverted residuals,IR)[24]模塊的思想,將ResNet網(wǎng)絡(luò)中殘差塊“降維—變換—升維”的模式轉(zhuǎn)換為“升維—變換—降維”,利用通道擴(kuò)張減少特征信息的丟失。逆殘差塊具體結(jié)構(gòu)如圖5所示。
圖5 IR塊結(jié)構(gòu)
在IR模塊中引入擴(kuò)張因子f(f=2),對(duì)N維數(shù)據(jù)的輸入利用1×1卷積實(shí)現(xiàn)通道數(shù)的擴(kuò)張,輸出N×f通道數(shù),有效防止殘差網(wǎng)絡(luò)ResNet通道壓縮時(shí)因非線性激活引起的特征信息丟失問題,同時(shí)使用Leaky ReLU替換ReLU激活函數(shù),解決負(fù)值輸入神經(jīng)元不學(xué)習(xí)的問題,最后再利用1×1卷積實(shí)現(xiàn)降維輸出N通道數(shù)。
近年來為提高卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力,一些注意力機(jī)制模型被提出,如CBMA[25]、SENet[26]、GCNet[27]等。文獻(xiàn)[28]指出,SAR圖像的視覺顯著性不同于自然圖像,飛機(jī)目標(biāo)在SAR圖像中表現(xiàn)為強(qiáng)散射區(qū)。在網(wǎng)絡(luò)中加入注意力機(jī)制,通過學(xué)習(xí)中間注意力圖,對(duì)源特征圖上各元素賦予不同權(quán)值,可以使模型捕捉到圖像中貢獻(xiàn)顯著的特征區(qū)域[29]。SAR圖像中飛機(jī)目標(biāo)常表現(xiàn)為高亮區(qū)域,為選擇出顯著特征區(qū)域,提升網(wǎng)絡(luò)特征表達(dá)能力,借鑒空間注意力模塊思想[25]提出一種多尺度空洞卷積-空間注意力模塊(multi-scale dilated convolution spatial attention module,MDC-SA),以進(jìn)一步提升檢測(cè)精度,更好地完成檢測(cè)任務(wù),其公式表達(dá)如下:
fs=sigmoid{c7×7[GAP(f′),GMP(f′)]}
(5)
f′=F[f,D_Conv2(f),D_Conv4(f)]
(6)
式中:fs為輸出特征圖;c7×7表示7×7卷積;GAP表示全局平均池化;GMP表示全局最大池化;sigmoid{·}為激活函數(shù);D_Conv2和D_Conv4分別表示空洞因子為2和4的空洞卷積;F[·]表示上采樣融合操作,其具體結(jié)構(gòu)如圖6所示。
圖6 多尺度空洞卷積-空間注意力模塊
為兼顧檢測(cè)速度,本文僅在特征提取網(wǎng)絡(luò)L2層加入多尺度空洞卷積—空間注意力模塊,如圖2所示。L2層特征經(jīng)過卷積層數(shù)少、特征圖分辨率較大,如圖7所示,在該層中加入空間注意力模塊可以更好利用淺層細(xì)節(jié)信息,同時(shí)使用引導(dǎo)流進(jìn)行{2,4,8}倍下采樣后融合至{C3,C4,C5}中,跳層連接融合可以增加淺層與深層特征之間的信息流動(dòng),利于網(wǎng)絡(luò)關(guān)注有效的空間信息。
圖7 原始SAR圖像和淺層特征圖
SENet[26]是作為ImageNet 2017競(jìng)賽分類任務(wù)的冠軍模型,具有易擴(kuò)展、輕量化等優(yōu)點(diǎn)。GCNet[27]作為SENet的改進(jìn)版本,在網(wǎng)絡(luò)中融合了Non-local Block,有效實(shí)現(xiàn)對(duì)全局上下文信息的建模,又保持了SENet網(wǎng)絡(luò)的輕量特點(diǎn)。因此本文借鑒GCNet[27]思想在特征提取網(wǎng)絡(luò)中引入全局上下文模塊。全局上下文模塊主要用于捕獲通道間依賴關(guān)系,并實(shí)現(xiàn)了全局上下文的建模,是一種通道注意力機(jī)制,該模塊的公式表達(dá)如下:
zi=F[xi,δ(*)]
(7)
(8)
(9)
式中:∑αjxj表示上下文模塊,αj為注意力池化的權(quán)值;δ(*)表示轉(zhuǎn)換模塊,用于捕獲通道間依賴關(guān)系;LN表示層歸一化操作。
全局上下文模塊由特征獲取、特征轉(zhuǎn)換和特征融合3部分組成。特征獲取:通過1×1卷積Wc和Softmax函數(shù)得到注意力權(quán)值αj,使用注意力池化捕獲全局上特征,實(shí)現(xiàn)上下文建模。特征轉(zhuǎn)換:利用1×1卷積Wt實(shí)現(xiàn)特征轉(zhuǎn)換,并進(jìn)行歸一化,使模型訓(xùn)練更加容易優(yōu)化,提高泛化性。特征融合:使用加法實(shí)現(xiàn)全局上下文特征的聚合。全局上下文模塊的具體結(jié)構(gòu)如圖8所示。
圖8 全局上下文模塊
不同尺度(C3∶113×75、C4∶57×38,C5∶19×29)特征圖對(duì)比如表1所示,由表1可以看出,相比于原始Faster R-CNN得到的特征圖,融入注意力機(jī)制后使網(wǎng)絡(luò)更好地重利用淺層特征和全局上下文信息,不同尺度下的特征圖保留了更多的目標(biāo)信息,有助于幫助網(wǎng)絡(luò)有效地關(guān)注到圖像中可能存在的物體目標(biāo)。
表1 不同尺度特征圖對(duì)比
遷移學(xué)習(xí)一般借助有標(biāo)記的源域知識(shí)學(xué)習(xí)目標(biāo)域的知識(shí),減少二者間的差異性,實(shí)現(xiàn)知識(shí)遷移。在深度學(xué)習(xí)圖像處理領(lǐng)域,遷移學(xué)習(xí)的基本思路是使用預(yù)訓(xùn)練模型,利用現(xiàn)有的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,以學(xué)習(xí)數(shù)據(jù)組織模式,遷移應(yīng)用于新的任務(wù)中,待訓(xùn)練的數(shù)據(jù)集規(guī)模較小時(shí)一般使用預(yù)訓(xùn)練的ImageNet初始化模型,以加速模型訓(xùn)練。
現(xiàn)有的預(yù)訓(xùn)練模型多數(shù)基于光學(xué)圖像,而光學(xué)圖像與SAR圖像成像原理不同,數(shù)據(jù)分布存在較大的差異性。遷移學(xué)習(xí)的關(guān)鍵是源任務(wù)領(lǐng)域和目標(biāo)任務(wù)領(lǐng)域有一定的相似性[30],因此考慮使用同源的SAR圖像數(shù)據(jù)集對(duì)模型預(yù)訓(xùn)練,可以有效避免負(fù)遷移現(xiàn)象的發(fā)生。本文使用公開SAR圖像數(shù)據(jù)MSTAR和SSDD進(jìn)行預(yù)訓(xùn)練,對(duì)2 650張MSTAR圖像數(shù)據(jù)進(jìn)行標(biāo)注,包含主戰(zhàn)坦克T72、步兵戰(zhàn)車BMP2、自行榴彈炮2S1等10類目標(biāo),融入1 160張SSDD中SAR艦船圖像,制作了數(shù)據(jù)集MASD(mSTAR and ship dataset),共包含3 810張SAR圖像,包含11類目標(biāo)。隨機(jī)選取數(shù)據(jù)集中3 048張圖像,利用裁剪、平移等方法將數(shù)據(jù)集擴(kuò)充至6 095張進(jìn)行訓(xùn)練,直至損失函數(shù)完全收斂,得到基于SAR圖像的預(yù)訓(xùn)練模型。使用預(yù)訓(xùn)練好的模型參數(shù)對(duì)ResNet50最后全連接層之前的特征提取層進(jìn)行初始化,最后利用SAD[31]對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),具體過程如圖9所示。
圖9 遷移學(xué)習(xí)示意圖
深度學(xué)習(xí)框架為Pytorch和Tensorflow,并使用CUDA8.0和cuDNN5.0加速訓(xùn)練,編程語(yǔ)言使用python語(yǔ)言和C語(yǔ)言,操作系統(tǒng)為Ubuntu 16.04 LTS,仿真硬件平臺(tái)為inter?CoreTM7-6850K CPU@3.60 GHz×12,圖像處理器為NVIDIA TITAN Xp GPU,內(nèi)存為64 G。數(shù)據(jù)集使用SAD[31],共包含647張SAR圖像,2 294架飛機(jī)目標(biāo),并使用“留出法”將SAD按照7∶3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集。
訓(xùn)練參數(shù)設(shè)置:訓(xùn)練batch_size設(shè)為1,初始學(xué)習(xí)率設(shè)為0.001,權(quán)重衰減系數(shù)取0.000 04,最大迭代次數(shù)max_epochs取100,采用梯度下降法(stochastic gradient descent,SGD)更新網(wǎng)絡(luò)參數(shù),動(dòng)量因子momentum設(shè)為0.9,利用旋轉(zhuǎn)、加噪等方法將訓(xùn)練樣本進(jìn)行擴(kuò)充至1 034張。
為客觀描述算法的檢測(cè)性能,使用平均準(zhǔn)確率(average precision,AP)、F-score值、平均交并比(mIoU)、檢測(cè)速度(frame per second,FPS)和準(zhǔn)確率—召回率(precision-recall,P-R)曲線作為評(píng)價(jià)指標(biāo),其表達(dá)式如下:
(10)
(11)
(12)
(13)
式中:AP為平均準(zhǔn)確率;R和P分別代表召回率和準(zhǔn)確率;F為F-score值;β為調(diào)和因子,一般取值為1;mIoU 為平均交并比;N為檢測(cè)框數(shù)量;IoU為交并比;bpt為預(yù)測(cè)框;bgt為真實(shí)框。
表2為不同方法檢測(cè)結(jié)果對(duì)比,表3為檢測(cè)模型比,方法中1、2、3分別代表VGG16、ResNet50和ResNet101網(wǎng)絡(luò)。由表2可以看出,本文算法平均準(zhǔn)確率達(dá)到86.3%,相比于原始算法的79.8%,提升了6.5%。F-score值由76.3%提升至84.6%,平均交并比由71.3%提升至74.4%,召回率和準(zhǔn)確率也提升了約8%。由表3可以看出,使用深度可分離卷積替換殘差網(wǎng)絡(luò)中的3×3卷積,使得網(wǎng)絡(luò)相比于Faster R-CNN-2和Faster R-CNN-3具有更少的參數(shù)量,同時(shí)訓(xùn)練得到的模型也更小。本文算法參數(shù)量和模型大小相比于Faster R-CNN-2減少了37.1%和37.8%,相比于Faster R-CNN-3減少了51.2%和60.0%,模型的優(yōu)化使檢測(cè)速度得到提升,達(dá)到22.4 fps/s。P-R曲線如10所示,對(duì)比可看出本文算法曲線下降最為緩慢,表明相比于原始Faster R-CNN,本文算法利用空間注意力模塊和通道注意力模塊增強(qiáng)了網(wǎng)絡(luò)特征表達(dá)能力,對(duì)檢測(cè)性能的提升有一定的促進(jìn)作用。
表2 檢測(cè)結(jié)果對(duì)比
表3 檢測(cè)模型對(duì)比
圖10 P-R曲線
通過對(duì)關(guān)鍵模塊的加減對(duì)比分析各改進(jìn)模塊對(duì)算法檢測(cè)性能的影響和作用,特征提取網(wǎng)絡(luò)均使用ResNet50。模型組件性能對(duì)比如表4所示,表中W表示遷移學(xué)習(xí)得到的預(yù)訓(xùn)練權(quán)重。對(duì)比第1行和第2行可以看出,使用深度可分離卷積網(wǎng)絡(luò)提取特征,檢測(cè)速度提升了8.1 fps/s,平均準(zhǔn)確率下降了1.5%,表明深度可分離卷積網(wǎng)絡(luò)通過對(duì)參數(shù)和通道的壓縮,基本保持了原有檢測(cè)的平均準(zhǔn)確率同時(shí)又提升了檢測(cè)速度。對(duì)比第4行、第5行和第6行可以看出,單獨(dú)引入多尺度空洞卷積—空間注意力模塊和全局上下文模塊,平均準(zhǔn)確率分別提升了2.6%和1.9%,同時(shí)引入時(shí)平均準(zhǔn)確率提升了4.0%,說明兩個(gè)注意力模塊有互補(bǔ)促進(jìn)的關(guān)系,同時(shí)引入對(duì)檢測(cè)性能的提升作用更加明顯,額外計(jì)算的增加使得檢測(cè)速度略有下降。對(duì)比第2行和第3行、第6行和第7行可以看出,預(yù)訓(xùn)練權(quán)重的使用對(duì)平均檢準(zhǔn)確率約有1%的提升作用。
表4 模型組件性能對(duì)比
幾種典型場(chǎng)景檢測(cè)結(jié)果圖對(duì)比如表5所示。由表5可看出,對(duì)于密集分布的SAR飛機(jī)圖像,特征提取網(wǎng)絡(luò)使用VGG16、ResNet50和ResNet101的Faster R-CNN算法出現(xiàn)一定的漏檢和誤檢;獨(dú)立分布的SAR飛機(jī)圖像,飛機(jī)目標(biāo)存在離散性特點(diǎn),增加了檢測(cè)的難度,原始Faster R-CNN算法易將機(jī)身、機(jī)尾等檢測(cè)為飛機(jī)目標(biāo);大幅面場(chǎng)景和復(fù)雜場(chǎng)景中,由于建筑物等人造目標(biāo)的干擾,原始Faster R-CNN算法出現(xiàn)不同程度的誤檢現(xiàn)象。本文算法引入多尺度空洞卷積—空間注意力模塊和全局上下文模塊,使網(wǎng)絡(luò)關(guān)注有效的空間信息和調(diào)整各通道權(quán)值分配,對(duì)上下文信息的建模有助于網(wǎng)絡(luò)關(guān)注飛機(jī)目標(biāo)整體,同時(shí)使用SAR圖像MASD數(shù)據(jù)集得到的預(yù)訓(xùn)練權(quán)重初始化網(wǎng)絡(luò)參數(shù),使得模型更加準(zhǔn)確、全面地檢測(cè)到飛機(jī)目標(biāo)。
表5 檢測(cè)結(jié)果圖
本文提出一種基于深度可分離卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的SAR圖像飛機(jī)檢測(cè)算法,使用深度可分離卷積取代殘差網(wǎng)絡(luò)中3×3傳統(tǒng)卷積,大幅減少網(wǎng)絡(luò)參數(shù)量,使得檢測(cè)速度達(dá)到20 fps/s以上。同時(shí)在網(wǎng)絡(luò)中融合空間注意力模塊和通道注意力機(jī)制模塊,在小幅增加計(jì)算量的情況下進(jìn)一步提升了算法對(duì)SAR圖像飛機(jī)目標(biāo)檢測(cè)的平均準(zhǔn)確率,達(dá)到了86.3%。實(shí)驗(yàn)結(jié)果表明了本文算法在SAR圖像飛機(jī)檢測(cè)應(yīng)用方向的可行性,對(duì)于提升雙階段目標(biāo)檢測(cè)算法的平均準(zhǔn)確率與速率有一定的現(xiàn)實(shí)意義。