張?zhí)煳? 張曉玲,*, 邵子康, 曾天嬌
(1. 電子科技大學(xué)信息與通信工程學(xué)院, 四川 成都 611731;2. 電子科技大學(xué)航空航天學(xué)院, 四川 成都 611731)
合成孔徑雷達(dá)(synthetic aperture radar, SAR)具有全天時、全天候工作的能力[1],并因此特性被廣泛應(yīng)用于艦船檢測領(lǐng)域[2]。傳統(tǒng)SAR艦船檢測方法依靠專家提取的手工特征[3],例如基于恒虛警率檢測[4]和基于視覺顯著性檢測[5]。近年來,基于深度學(xué)習(xí)的SAR艦船檢測方法受到學(xué)者廣泛關(guān)注[6-7]。文獻(xiàn)[8]改進(jìn)了深度殘差網(wǎng)絡(luò)(residual network, ResNet)網(wǎng)絡(luò),實現(xiàn)了復(fù)數(shù)SAR圖像艦船檢測。文獻(xiàn)[9]改進(jìn)了YOLOX[10],實現(xiàn)了近岸復(fù)雜場景的輕量化SAR艦船檢測。文獻(xiàn)[11]基于平衡學(xué)習(xí),提出了一種能夠平衡復(fù)雜場景與簡單場景的SAR艦船檢測機(jī)制。大多數(shù)學(xué)者實現(xiàn)了框等級檢測,而未實現(xiàn)SAR艦船的像素級表征[12]。
為了實現(xiàn)SAR艦船的像素級表征,一些學(xué)者將實例分割引入至SAR艦船檢測領(lǐng)域。文獻(xiàn)[13]發(fā)布了用于SAR艦船實例分割的HRSID數(shù)據(jù)集,但未提供新的方法論。文獻(xiàn)[14]設(shè)計了一種基于協(xié)同注意力機(jī)制的實例分割方法,但在復(fù)雜場景中精度較差。文獻(xiàn)[15]基于設(shè)計了一種基于上下文機(jī)制和壓縮激勵機(jī)制的實例分割方法,但其方法精度有限。以上方法未實現(xiàn)掩模交互或提供交互收益有限,可能阻礙實例分割精度提高。
因此,本文提出一種基于掩模注意型交互網(wǎng)絡(luò)(mask attention interaction network, MAI-Net)的SAR艦船實例分割方法,主要創(chuàng)新點如下:
(1) MAI-Net使用了膨脹空間金字塔池化(atrous spatial pyramid pooling, ASPP),來獲取多分辨率特征響應(yīng),增強(qiáng)了對背景鑒別能力。
(2) MAI-Net使用了非局部模塊(non-local block, NLB),來抑制低價值信息,實現(xiàn)了空間特征自注意。
(3) MAI-Net提出了拼接混洗注意力模塊(concatenation shuffle attention block, CSAB),來充分利用多階段掩模信息,進(jìn)一步提高實例分割精度。
MAI-Net網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,類似于經(jīng)典的雙階段實例分割網(wǎng)絡(luò)混合任務(wù)級聯(lián)(hybrid task cascade, HTC)[16],MAI-Net由骨干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)[17]、區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)和檢測網(wǎng)絡(luò)構(gòu)成。輸入圖像首先由骨干網(wǎng)絡(luò)和FPN提取多尺度特征圖,接著由RPN和感興趣區(qū)域?qū)R(region of interest alignment, ROIAlign)提取特征子集,最后將特征子集輸入檢測網(wǎng)絡(luò)來獲得實例分割結(jié)果。
圖1 MAI-Net結(jié)構(gòu)圖Fig.1 Structure of MAI-Net
本文提出的MAI-Net基于HTC模型,將其檢測網(wǎng)絡(luò)改進(jìn)為注意型交互檢測網(wǎng)絡(luò),具體結(jié)構(gòu)如圖2所示。掩模交互指在多階段掩模預(yù)測中,下一階段的輸入在原有輸入特征圖的基礎(chǔ)上融合上一個階段的掩模預(yù)測輸出特征圖。MAI-Net在每個掩模預(yù)測階段使用ASPP和NLB提取前一階段中更具有代表性的多視野特征和全局空間依賴特征,并將其與下一階段的輸入特征圖進(jìn)行融合。這里,ASPP輸入為前一階段掩模特征圖輸出Mi-1(F),其中F記為ROIAlign特征子集,ASPP輸出記為FASPP。NLB輸入為FASPP,NLB輸出記為FNLB。此外,MAI-Net使用CSAB進(jìn)行特征求和,這樣可以平衡前一階段掩模特征圖Mi-1(F)和注意型交互檢測網(wǎng)絡(luò)的輸入特征圖F兩種類型的特征輸入的貢獻(xiàn),從而解決可能存在深淺層特征語義不平衡的問題[18]。這里,CSAB輸入為FNLB和F,CSAB輸出記為FCSAB。通過使用ASPP,NLB和CSAB模塊,MAI-Net獲取了多分辨率響應(yīng),進(jìn)行了精細(xì)化提煉,平衡了不同特征圖的貢獻(xiàn),從而增強(qiáng)了網(wǎng)絡(luò)的掩模交互性能。下面詳細(xì)介紹MAI-Net的各項改進(jìn)。
圖2 注意型交互檢測網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of attentive interactive detection network
艦船周圍包含各種類型的上下文環(huán)境,如模糊輪廓、旁瓣、相干斑噪聲和岸上設(shè)施等[19]。這些背景上下文信息都會影響最終的艦船像素預(yù)測性能。為了關(guān)注艦船上下文信息,獲取多分辨率響應(yīng),受文獻(xiàn)[20]和文獻(xiàn)[21]啟發(fā),引入ASPP。ASPP通過使用具有不同膨脹率的膨脹卷積在單分辨率分支中提取多分辨率的特征響應(yīng),使多階段掩模預(yù)測網(wǎng)絡(luò)中能夠充分利用先前階段的多視野特征,增強(qiáng)掩模交互的多分辨率響應(yīng)。圖3展示了ASPP具體結(jié)構(gòu)。
圖3 ASPP結(jié)構(gòu)圖Fig.3 Structure of ASPP
由圖3可知,ASPP使用4個3×3膨脹卷積對輸入特征圖處理,并設(shè)置膨脹率d分別為經(jīng)驗值2、3、4、5,每個膨脹卷積輸出被拼接起來得到通道被擴(kuò)展4倍的特征圖;為保持原有維度便于后續(xù)操作,一個1×1卷積被用來進(jìn)行通道降維,得到ASPP輸出FASPP。以上過程可描述為
(1)
在ASPP中采用4個并行的3×3卷積能夠提取不同范圍上下文的特征,但是當(dāng)擴(kuò)張率較大時,ASPP可能會引入過多的低價值背景的干擾,從而導(dǎo)致定位精度的下降[22]。因此,受文獻(xiàn)[23]和文獻(xiàn)[24]的啟發(fā),本文使用NLB來對ASPP的輸出進(jìn)行精細(xì)化提煉。NLB建模輸入特征圖中每個元素在整個空間中的全局依賴關(guān)系,抑制低價值信息,從而抑制掩模交互過程中的低價值信息,NLB可描述為
(2)
式中:x是NLB的輸入;xi對應(yīng)第i位置的輸入;xj對應(yīng)第j位置的輸入;ζ(·)是一個學(xué)習(xí)映射函數(shù),用于計算第i位置和第j位置之間的空間內(nèi)容相似度;f(·)是一個學(xué)習(xí)映射函數(shù),用來表征第j位置的空間特征;g(·)表示歸一化系數(shù),用來對輸入每個位置響應(yīng)進(jìn)行歸一化操作。式(2)中第i位置表示當(dāng)前位置響應(yīng),第j位置表示除i之外全局響應(yīng),故加權(quán)求和需遍歷所有參數(shù)j,即?j。
NLB的具體結(jié)構(gòu)如圖4所示。類似于文獻(xiàn)[25],使用一個卷積層(記為g)來自適應(yīng)學(xué)習(xí)第j位置的空間特征表征:
g(FASPP)=Wg·FASPP
(3)
式中:Wg為1×1卷積層g的權(quán)重系數(shù)。使用一個嵌入高斯函數(shù)來計算第i位置和第j位置之間的空間內(nèi)容相似度f,即
f(xi,xj)=eθT(xi)φ(xj)
(4)
式中:T表示轉(zhuǎn)置;θ(FASPP,i)=Wθ·FASPP,i,表示第i位置的特征嵌入,使用一個1×1卷積層(記為θ)來學(xué)習(xí)權(quán)重系數(shù)Wθ;φ(FASPP,j)=Wφ·FASPP,j,為第j位置特征嵌入,使用一個1×1卷積層(記為φ)來學(xué)習(xí)權(quán)重系數(shù)Wφ。
圖4 NLB結(jié)構(gòu)圖Fig.4 Structure of NLB
此外,歸一化系數(shù)ζ(·)通過輸入所有位置相似度求和得到,即
(5)
基于以上卷積實現(xiàn),式(4)可實例化為
(6)
最終,式(6)可通過一個softmax計算函數(shù)來實現(xiàn),softmax函數(shù)定義為
(7)
如圖4所示,首先兩個1×1卷積層θ和φ分別被用來計算Wθ和Wφ,然后通過矩陣乘法計算θTφ,得到相似度f。另外一個1×1卷積層g被用來計算Wg,得到特征表示。最后,被softmax函數(shù)激活過的f與特征表示g的乘積得到NLB的輸出yi。此外,yi還由另外一個1×1卷積層(記為o)處理進(jìn)行維度變化,目的是使輸出和輸入維度一致,便于后續(xù)殘差連接操作,即
FNLB=Wo·yi+FASPP
(8)
式中:Wo為該1×1卷積層o的權(quán)重系數(shù);FNLB表示NLB的輸出。
為平衡兩種類型的特征圖,即掩模交互過程中前一階段掩模特征圖和注意型交互檢測網(wǎng)絡(luò)的輸入特征圖,對檢測結(jié)果的貢獻(xiàn),從而解決可能存在的深淺層特征語義不平衡的問題,本文提出了CSAB來對兩種類型輸入特征進(jìn)行處理。圖5展示了拼接混洗注意力模塊CSAB的網(wǎng)絡(luò)結(jié)構(gòu)示意圖。由圖5可知,CSAB主要由特征拼接、通道混洗和特征注意這3個基本步驟組成,下面將進(jìn)行詳細(xì)介紹。
圖5 CSAB結(jié)構(gòu)圖Fig.5 Structure of CSAB
步驟 1特征拼接。將兩種類型輸入特征圖FNLB和F拼接起來,然后使用一個3×3分組卷積對拼接后的特征圖進(jìn)行通道降維,便可以對不同輸入進(jìn)行差異的特征提取,分組系數(shù)設(shè)為2。以上過程可以描述為
(9)
步驟 2通道混洗。為了盡可能降低因通道協(xié)同一致性效應(yīng)可能導(dǎo)致的特征學(xué)習(xí)局部優(yōu)化,將步驟1輸出特征圖FCat的通道進(jìn)行隨機(jī)打亂操作,得到FShuffle。
步驟 3特征注意。使用通道注意力機(jī)制和空間注意力機(jī)制對通道混洗后特征圖FShuffle進(jìn)行細(xì)化處理,學(xué)習(xí)得到自適應(yīng)通道加權(quán)系數(shù)和自適應(yīng)空間加權(quán)系數(shù)來平衡兩種不同輸入特征的貢獻(xiàn)。通道注意力模塊操作過程可描述為
FCA=WCA·FShuffle=sigmoid{MLP[GAP(FShuffle)]+ MLP[GMP(FShuffle)]}·FShuffle
(10)
式中:GAP(·)表示全局平均池化操作;GMP(·)表示全局最大池化操作;MLP(·)表示多層感知機(jī)處理;sigmoid(·)表示sigmoid激活函數(shù)。最終,產(chǎn)生的通道權(quán)重WCA=(w1,w2,…,wn)T,其中n為輸入特征圖通道數(shù),wi來衡量第i個通道重要性,通過這種通道加權(quán)方式便可實現(xiàn)通道間特征注意。
空間注意力模塊操作過程可描述為
FSA=WSA·FCA=sigmoid{DS-Conv7×7· (GAP(FCA)?GMP(FCA))}·FCA
(11)
式中:DS-Conv7×7(·)表示7×7深度可分離卷積。最終,產(chǎn)生的WSA=(wi,j)1≤i≤l,1≤j≤l,其中l(wèi)示輸入特征圖二維空間尺寸,wi,j表示輸入(i,j),通過空間信息加權(quán)方式可實現(xiàn)空間上特征注意。
本文在多邊形分割SAR艦船檢測數(shù)據(jù)集(polygon segmentation SAR ship detection dataset, PSeg-SSDD)[26]上進(jìn)行實驗。表1展示了PSeg-SSDD的信息概覽。如表1所示,PSeg-SSDD有來自多個衛(wèi)星的1 160個樣本,其中圖像平均尺寸為500像素×500像素,PSeg-SSDD數(shù)據(jù)集中共有2 587只艦船,其中最小尺寸艦船所占像素為66像素,最大艦船所占像素為78 597像素。
表1 PSeg-SSDD數(shù)據(jù)集信息Table 1 Information of PSeg-SSDD
MAI-Net的骨干網(wǎng)絡(luò)使用在ImageNet數(shù)據(jù)集[27]上預(yù)訓(xùn)練過的ResNet-101[28],這可加速網(wǎng)絡(luò)收斂。訓(xùn)練及測試的輸入圖像大小均統(tǒng)一調(diào)整為512像素×512像素,除此以外對輸入圖像沒有其他的數(shù)據(jù)增強(qiáng)預(yù)處理操作。使用隨機(jī)梯度下降(stochastic gradient descent, SGD)優(yōu)化器[29]來訓(xùn)練模型,設(shè)置學(xué)習(xí)率為0.004,動量為0.9,權(quán)重衰減系數(shù)為0.000 1,總訓(xùn)練迭代次數(shù)為12次,當(dāng)?shù)螖?shù)到第8次和第11次時,學(xué)習(xí)率降低為原來的10倍。由于圖形處理單元內(nèi)存限制,訓(xùn)練批次大小設(shè)置為2。
訓(xùn)練MAI-Net的損失函數(shù)由分類損失和回歸損失兩部分組成,分類損失LCLS選擇經(jīng)典交叉熵?fù)p失[30],回歸損失LREG選擇經(jīng)典平滑L1[31],即
(12)
(13)
(14)
(15)
(16)
(17)
smoothL1為平滑L1損失,定義為
(18)
MAI-Net的分類損失LCLS除上述類別預(yù)測損失外,還包含像素預(yù)測損失,該像素預(yù)測損失也使用經(jīng)典交叉熵?fù)p失。在測試期間,使用非極大值抑制(non-maximum suppression, NMS)[32]去除冗余重復(fù)的檢測框,NMS的重疊度(intersection over union, IOU)閾值設(shè)置為經(jīng)驗值0.5。
本文采用COCO數(shù)據(jù)集[33]的評價指標(biāo)來評估SAR艦船實例分割性能。記實例分割平均精度為AP,定義為
(19)
式中:r表示召回率;p表示準(zhǔn)確率;p(r)表示精度召回率曲線。詳細(xì)評價指標(biāo)如表2所示,APS表示小型目標(biāo)的實例分割精度,APM表示中等目標(biāo)的實例分割精度,APL表示大型目標(biāo)的實例分割精度,AP反映了在不同IOUM閾值條件下的綜合檢測性能,因此被選擇作為衡量SAR艦船實例分割精度的唯一核心指標(biāo)[34],計算公式為
(20)
式中:IOUM∈[0.50∶0.05∶0.95]。IOUM計算公式為
(21)
式中:MaskG為艦船真值像素掩模;MaskP為艦船預(yù)測像素掩模。
表2 實例分割精度評估指標(biāo)Table 2 Instance segmentation accuracy evaluation index
表3展示了在艦船實例分割數(shù)據(jù)集PSeg-SSDD上,MAI-Net和其他11種現(xiàn)有方法的SAR艦船實例分割的定量對比結(jié)果。包括掩膜區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask region-convolutional neural network, Mask R-CNN)[35]、Mask scoring R-CNN[36]、級聯(lián)Mask R-CNN[37]、HTC[16]、路經(jīng)聚合網(wǎng)絡(luò)(path aggregation network, PANet)[38]、YOLACT(you only look at coefficients)[39]、GRoIE(generic RoI extractor)[40]、HQ-ISNet-w18(high-quality instance segmentation-w18)[41]、HQ-ISNet-w32[41]、HQ-ISNet-w40[41]和SA R-CNN(synergistic attention R-CNN)[42]。前7個方法為通用實例分割網(wǎng)絡(luò),后4種方法為SAR艦船實例分割網(wǎng)絡(luò),通用性模型參數(shù)與它們的原始工作基本保持一致。其他SAR艦船檢測任務(wù)模型超參數(shù)與MAI-Net基本保持一致。其中,最優(yōu)檢測結(jié)果用加粗字體標(biāo)出,次優(yōu)檢測結(jié)果用下劃線標(biāo)出。
表3 定性對比實驗結(jié)果Table 3 Quantitative comparison of experimental results %
由表3可知,本文提出的MAI-Net提供了精度最高的SAR艦船實例分割,具體地,其AP達(dá)到了61.1%,比其他11種對比方法中最優(yōu)模型PANet還要高出1.5% AP,這充分表明了MAI-Net更優(yōu)越的SAR艦船實例分割性能。此外,MAI-Net的其他所有指標(biāo)均優(yōu)于其他11種對比方法,這充分證明了MAI-Net對于多尺度目標(biāo)均有較好的實例分割性能。相較于同樣具有掩模交互結(jié)構(gòu)的網(wǎng)絡(luò)HTC,MAI-Net由于使用了ASPP、NLB和CSAB等模塊,增強(qiáng)了掩模交互性能,可以進(jìn)一步改善多尺度艦船檢測精度。雖然在數(shù)學(xué)上難以對掩模交互性能做出準(zhǔn)確定義,但是實驗結(jié)果從側(cè)面證明了MAI-Net具有更好的掩模交互性能??偠灾?根據(jù)以上定量評估對比結(jié)果,本文提出的MAI-Net可以提供更優(yōu)越的SAR艦船實例分割精度。
圖6展示了在PSeg-SSDD數(shù)據(jù)集上,本文提出的MAI-Net和HTC的SAR艦船實例分割定性檢測結(jié)果對比。由于MAI-Net是在HTC模型基礎(chǔ)上進(jìn)行改進(jìn)的,受限于篇幅,這里只展示其與HTC的定性檢測結(jié)果對比。
圖6 實例分割定性結(jié)果對比Fig.6 Instance segmentation qualitative results comparison
由圖6可知,MAI-Net具有良好的虛警抑制能力,例如對比圖6(a)和圖6(b)中第1行第2列圖像中的艦船實例分割結(jié)果,HTC在陸地和海面產(chǎn)生了許多虛警,但是MAI-Net可以成功抑制該虛警。又例如,對比圖6(a)和圖6(b)中第1行第3列圖像中的艦船實例分割結(jié)果,HTC在檢測一些并排停泊在港口中的艦船時,出現(xiàn)了很多由于艦船船體交疊導(dǎo)致的檢測虛警,但是MAI-Net沒有產(chǎn)生任何虛警。又例如,對比圖6(a)和圖6(b)中第2行第2列圖像中艦船實例分割結(jié)果,HTC在檢測海面小尺度艦船時,錯誤地將島嶼檢測為艦船,但是MAI-Net沒有產(chǎn)生虛警。這都表明了MAI-Net具有更優(yōu)越的復(fù)雜場景適應(yīng)能力。
此外,MAI-Net相較于HTC模型,能夠檢測出更多艦船,具有更低的漏檢概率,例如對比圖6(a)和圖6(b)中第2行第2列圖像中艦船實例分割結(jié)果,HTC遺漏了很多小尺寸艦船,但是MAI-Net檢測遺漏較少,這也表明MAI-Net具有更優(yōu)越的小目標(biāo)實例分割性能。
最后,MAI-Net還能提供更好的艦船定位準(zhǔn)確度,例如對比圖6(a)和圖6(b)中第1行第1列圖像中艦船檢測結(jié)果,HTC和MAI-Net都能夠成功檢測出該只艦船。不同的是,HTC檢測框和真值框存在較大空間錯位,因此其框定位準(zhǔn)確度不夠高,但是MAI-Net檢測框更貼近真值框,所以MAI-Net能夠更準(zhǔn)確地定位艦船,當(dāng)框定位準(zhǔn)確度被提高,框中艦船船體實例分割精度也會得到相應(yīng)的改善。根據(jù)以上定性評估結(jié)果, MAI-Net可以提供更高實例分割精度。
表4 MAI-Net逐漸加入改進(jìn)模塊對精度影響Table 4 Impact of gradually adding improvement block to MAI-Net on accuracy %
針對現(xiàn)有SAR艦船實例分割方法未實現(xiàn)多階段掩模預(yù)測或未充分利用多階段掩模預(yù)測信息的問題,本文提出了一種基于MAI的SAR艦船實例分割方法MAI-Net。首先,MAI-Net使用了膨脹空間金字塔池化,來獲取多分辨率特征響應(yīng),增強(qiáng)了對背景鑒別能力;其次,MAI-Net使用了非局部注意力模塊,來抑制低價值信息,實現(xiàn)了空間特征自注意;最后,MAI-Net提出了拼接混洗注意力模塊,來增強(qiáng)掩模交互性能,提高了實例分割精度。在公開數(shù)據(jù)集PSeg-SSDD上的實驗結(jié)果顯示,MAI-Net的檢測精度高于其他11種對比模型,高于次優(yōu)模型1.5%。消融實驗證明了MAI-Net每項改進(jìn)的有效性。