周一鳴,滕旭陽
(杭州電子科技大學,浙江杭州 310018)
目前,在中國城鎮(zhèn)化改造的背景下,對于一個地區(qū)城市變遷的分析需求日益強烈。SAR 圖像相較于傳統(tǒng)的光學圖像,具有成像幅寬大、抗干擾能力強等優(yōu)點,對于房屋建筑面積的變化情況、人口密度的分析、人口遷徙情況的觀察和違章建筑的監(jiān)督等研究具有重要意義[1]。然而,隨著近年SAR 圖像數(shù)據(jù)的急速增加,對于SAR 圖像的識別和分割工作相對落后,因此,對于SAR 圖像的語義分割、目標識別和對檢測結果的分析等方面的研究具有重要意義。
在計算機視覺領域,關于SAR圖像的解譯一直是研究的熱點,但受斑點噪聲的影響,使得SAR 圖像的分割工作變得十分困難[2]。在傳統(tǒng)的檢測分割方法中,郭拯危等人[3]提出了基于模糊聚類與最大類間方差法的混合模糊分割算法,該算法優(yōu)化了聚類中心,在噪聲較大、背景環(huán)境復雜的SAR 圖像中有較大優(yōu)勢。齊千慧等人[4]提出了基于馬爾科夫隨機場的改變勢函數(shù)的遙感圖像分割方法,該方法將圖像鄰域像素點的相關性引入勢函數(shù),提高了檢測系統(tǒng)的泛化能力。武堯等人[5]提出了基于機器視覺的多目標圖像分割方法,對檢測圖像通過搜索范圍來繪制灰度直方圖,并以自適應算法確定最佳閾值,完成閾值分割。邢濤等人[6]提出了基于動態(tài)K均值的毫米波SAR圖像分割方法,用圖像數(shù)目的正比函數(shù)對適應度函數(shù)進行加以平均,提高了分割效率。上述傳統(tǒng)分割方法提高了SAR 圖像的分割效率,緩解了人工壓力,但依然存在圖像預處理復雜,使用場景受限,魯棒性較差等問題。
現(xiàn)階段,隨著深度學習的研究不斷深入,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的提出為SAR 圖像的分割帶來了新的研究方向,CNN[7]可以通過淺層學習的紋理特征和深層學習的語義特征,對SAR 圖像的特征進行識別和分割。目前廣泛使用的語義分割網(wǎng)絡包括U-Net[8]、DeepLab 系列[9-12]網(wǎng)絡、CBAM[13]、DANet[14]等。烏蘭等人[15]提出了基于改進DeepLabv3+的馬鈴薯根系圖像分割方法,DeepLabv3+可獲得不同尺度的特征信息,但解碼器部分易損失較多的細節(jié)信息。范藝華等人[16]提出了結合上下文編碼和特征融合的SAR圖像分割方法,降低了模型的復雜度和對計算資源的需求,但在物體的邊緣分割上存在缺陷。
受成像機制的影響,SAR 圖像在成像的過程中,房屋建筑由于平臺的不穩(wěn)定導致幾何形變,也會由于斜距成像產(chǎn)生透視收縮,此外,房屋還會和有一定高度的地物產(chǎn)生疊掩現(xiàn)象,這些都大大增加了圖像信息的提取難度。所以,基于傳統(tǒng)的深度學習方法對SAR圖像中的建筑進行分割,效果往往不盡如人意。本文提出了一種基于多尺度混合注意力機制融合的SAR圖像房屋分割網(wǎng)絡。首先在特征提取部分引入CBAM 注意力模塊對重要通道和關鍵位置進行特征增強,并對主干網(wǎng)絡引入不同膨脹率的空洞卷積擴大感受野。然后將提取到的特征圖輸入至DANet 雙通道自注意力網(wǎng)絡,提取上下文信息,避免相同特征受透視收縮和幾何形變而變化。在解碼部分,采用多尺度特征融合處理,增強各局部特征的依賴性。
CBAM 注意力機制由通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)串行組成。其中CAM 對輸入特征圖進行基于寬度和高度的全局最大池化和全局平局池化,然后通過多層感知機激活,最后將兩模塊進行基于元素的加和得到輸入特征圖中每個通道的權值,將權值與原始特征圖點乘,以加強關鍵通道的特征表現(xiàn)。公式可表示為:
其中F為輸入特征圖,Mc()為通道注意力模塊,σ為sigmoid激活函數(shù),MPL為多層感知模塊,AvgPool和MaxPool分別為全局平局池化和全局最大池化。
針對SAR 圖像中的房屋建筑分割存在部分目標小,邊界難以劃分的問題,可通過SAM 模塊進行特征增強,強化邊界特征。SAM對輸入特征圖進行基于通道的全局最大池化和全局平均池化,然后對兩特征圖進行通道拼接,最后降維后得到每個特征點的權值,將權值與原始特征圖點乘,以加強關鍵位置的特征表現(xiàn)。公式表示為:
其中Ms()為空間注意力模塊,f7×7為7 × 7 的卷積核,[· ;·]為基于通道維度的拼接。
圖1 CBAM網(wǎng)絡結構
CBAM 模塊可以加強對關鍵通道和重要位置的特征表現(xiàn),但是無法捕捉相同特征的長距離依賴,和上下文信息,受SAR圖像成像過程中幾何形變和透視收縮的影響,需對網(wǎng)絡增加自注意模塊,加強相同特征的長距離依賴關系。
DANet 注意力機制由空間自注意力機制和通道自注意力機制兩部分并行組成,該注意力機制可自適應地將局部特征與全局特征進行集成,捕捉豐富的上下文信息??臻g自注意力模塊可將特征圖中相似的特征進行關聯(lián),捕獲網(wǎng)絡中局部特征的長距離關系;通道自注意力模塊可加強不同通道間的相互依賴關系。通過加強相似特征間的關聯(lián)性,解決SAR圖像中房屋幾何形變和透視收縮等帶來的問題。
對于尺寸為C×H×W的輸入特征圖A,空間自注意力模塊處理步驟如下:
其中,A 為輸入的特征圖,B、C、D 為經(jīng)過卷積層后得到的特征圖,sij為第i 個位置對第j 個位置的影響,α為尺度參數(shù),初始設置為0,E∈RC×H×W為最后的輸出特征圖。通道自注意力機制用于捕獲各個通道間的依賴關系,具體步驟如下:
其中,A*為重塑后得到的特征圖,xij為第i個通道對第j個通道的影響,β為尺度參數(shù),并初始化為0,E∈RC×H×W為最后的輸出特征圖。最后將兩個分支得到的特征圖進行相加融合,得到輸出結果。
傳統(tǒng)的特征提取網(wǎng)絡,在提取特征的過程中為增加卷積核的感受野,降低計算量,會通過下采樣降低特征圖的分辨率,造成細節(jié)特征的損失。為不丟失分辨率同時擴大感受野,本文使用空洞卷積,擴大感受野的特點可有效適應大幅寬的SAR圖像分割任務,同時通過調(diào)整卷積核的膨脹率可以得到不同尺度的信息。不同膨脹率的卷積核如圖所示,本文主干網(wǎng)絡采用ResNet50,ResNet50 包含5 個stages,共有5 種不同參數(shù)的卷積階段,可以利用ResNet50網(wǎng)絡的特殊的殘差跳連結構來避免因網(wǎng)絡加深帶來的梯度爆炸和梯度消失的問題,加快模型的收斂。本文將stage5 中的卷積改為不同膨脹率的空洞卷積來增大卷積核的感受野,網(wǎng)絡結構如下圖。
圖2 不同膨脹率的卷積核
圖3 添加了空洞卷積的ResNet網(wǎng)絡結構
在上述編碼部分,通過ResNet50主干網(wǎng)絡獲得了圖像的基本特征,空洞卷積擴大了卷積核的感受野,CBAM 注意力模塊對特征圖的重要通道和關鍵位置做了特征增強,DANet自注意力模塊在空間和通道兩個維度上建立了相同特征之間的長距離依賴,得到了輸出特征圖。為充分利用各模塊提取的特征,增強各模塊在解碼器中的表現(xiàn),本文提出了基于多尺度融合的解碼分類器。通過ResNet50 的stages4 輸出的為1 024 通道的特征圖,包含通過CBAM 注意力模塊得到的房屋特征,可通過1 × 1 的卷積核對特征圖進行逐像素點卷積降維至512維,同理將stage5得到的2 048通道的特征圖通過1 × 1的卷積核降維至512維,并進行2 倍上采樣,最后將DANet 自注意模塊的輸出特征圖與上述特征2倍上采樣后進行拼接,上采樣至初始分辨率。通過多尺度融合,可充分利用淺層特征和上下文信息。
圖4 本文算法網(wǎng)絡結構
實驗數(shù)據(jù)為高分三號(GF-3)精細模式SAR 圖像SARBuD1.0[17],該數(shù)據(jù)集包含中國不同區(qū)域、不同地形、不同建筑分布類型的建筑區(qū)共60 000 個大小為256 × 256的SAR圖像樣本,數(shù)據(jù)集中包含,不同極化方式、不同升降軌的樣本,可提高模型的泛化能力,且已完成了對數(shù)據(jù)集的預處理,包括幅度圖的生成、地理編碼、輻射定標等。本文實驗總共選取不同地形的房屋樣本3000 張,隨機抽取500 作為測試集,將剩余的樣本按照10:1 的比例隨機劃分為訓練集和驗證集進行訓練。
本實驗所使用硬件環(huán)境:處理器為Intel(R) Core(TM) i9-10920X CPU @ 3.50GHz,GPU 型 號NVIDIA GeForce RTX 3090,軟件環(huán)境:Ubuntu18.04,CUDA-11.3,PyTorch-1.10,Python-3.8。實驗相關參數(shù):權重衰減為1e-4,初始學習率0.01,批處理量為8,迭代次數(shù)為200次。
為測試訓練模型的性能,將分割結果與真實的標簽圖進行分析比較,需選取合適的評價指標,本文選取像素準確率(Pixel Accuracy,PA)、類別像素準確率(Class Pixel Accuray,CPA)、平均交并比(Mean Interisection over Union,MIou)、頻權交并比(Frequency Weighted Intersection over Union,FWIoU)四個語義分割領域常用的評價指標對分割結果進行綜合評價。各評價指標計算公式分別為:
本實驗中,SAR 圖像中的房屋建筑為正例,背景為負例。其中TP表示將各個像素點正確地劃分為正例的個數(shù),TN表示正確地劃分為負例的個數(shù),F(xiàn)P為錯誤地劃分為正例的個數(shù),F(xiàn)N 表示錯誤地劃分為負例的個數(shù)。PA則可以表示對房屋和背景正確預測的像素數(shù)占總像素數(shù)的比例。CPA 則表示在所有被預測為是房屋的像素中,真正屬于房屋的像素。MIoU 表示SAR 圖像數(shù)據(jù)集真實值和預測值兩集合交集和并集之比。各指標越接近1,代表分類器越好。
為驗證本文算法在對于SAR 圖像房屋建筑分割任務上的優(yōu)勢,在相同的實驗條件下將分割結果分別與CBAM、DANet 三個網(wǎng)絡進行對比。對比結果如表1所示。
表1 各網(wǎng)絡分割結果對比
傳統(tǒng)的深度學習網(wǎng)絡,在SAR圖像房屋建筑分割任務上,受斑點噪聲的影響,存在特征難以提取、相同特征在成像過程中易變形的問題。本文算法在編碼端添加了基于CBAM的空間和通道注意力模塊,基于DANet 的自注意力模塊用于強化特征表現(xiàn)并建立特征間的長距離依賴,避免了相同特征受透視收縮和幾何形變而難以識別,增強了網(wǎng)絡的特征提取能力。對比各個網(wǎng)絡的分割結果,本文算法在PA、MIoU、FWIoU三個指標上均為最高,PA達到96.54%且MIoU達到87.22%。與其他網(wǎng)絡相比,本文算法在MIoU 上分別提高了5.1%、0.99%。分割效果對比如圖5所示。
圖5 各網(wǎng)絡分割效果對比圖
本文算法在編碼端,在ResNet網(wǎng)絡的基礎上添加了空洞卷積用于擴大感受野,提高特征提取能力。在編碼端采用了基于多尺度特征融合的解碼方式,充分利用各個注意力模塊,提高特征表現(xiàn)能力。為驗證兩模塊在算法中的有效性,將本文算法與未改進的算法進行比較,表2為本文算法與未加入空洞卷積和未使用多尺度特征融合網(wǎng)絡的對比結果。
表2 不同模塊的性能效果
由表2 可知,使用傳統(tǒng)的解碼器,在SARBuD1.0數(shù)據(jù)集的測試上,各指標與加入多尺度融合算法的解碼器相比有明顯下降。對比數(shù)據(jù),PA 提高了1.13%,CPA提高了2.04%,MIoU提高了1.95%,F(xiàn)WIoU提高了1.67%,說明了在解碼端引入多尺度融合模塊,可有效利用淺層特征和上下文信息,充分利用各注意力模塊。由數(shù)據(jù)可知,空洞卷積的加入也使各指標有了較為明顯的提升,說明空洞卷積可有效擴大網(wǎng)絡的感受野,增加分辨率,更加精確的定位目標。
針對目前傳統(tǒng)算法對于SAR 圖像房屋檢測任務特征提取不足的問題,本文提出了基于多尺度混合注意力融合機制的SAR圖像房屋分割方法,利用CBAM模塊對于重點信息的特征增強能力和DANet 建立特征長距離依賴的能力,提高了網(wǎng)絡的特征提取能力,其次,在解碼端使用多尺度特征融合的方法充分利用上下文信息,提高了圖像的分割精度。實驗結果表明,本算法在SAR房屋建筑分割任務上與傳統(tǒng)網(wǎng)絡相比有更好的性能。PA 達到96.54%且MIoU 達到了87.22%。與CBAM 和DANet 相比,本文算法在MIoU上分別提高了5.1%、0.99%,驗證了本文算法的有效性。