謝樹春,陳志華,盛斌
(1.華東理工大學 信息科學與工程學院,上海 200237;2.上海交通大學 電子信息與電氣工程學院,上海 200240)
遙感圖像中包含非常豐富的地物信息,遙感圖像的利用價值在于可對其進行重要信息的提取,但處理過程也非常復雜。遙感圖像語義分割是提取遙感圖像重要信息的前提,也是學術界和工業(yè)界的研究難點。遙感圖像覆蓋范圍廣,地物信息復雜多樣,存在很多的小地物類別,使得分割難度加大,并且存在類間相似性和類內差異性問題,進一步加大了分割難度。
全卷積神經網絡是目前實現(xiàn)圖像語義分割的主流方法?;谌矸e神經網絡提出的FCN[1]是深度學習應用在圖像語義分割的代表方法,其為一種端到端的分割方法,應用于圖像語義分割領域時得到了很好的效果。SegNet[2]和U-Net[3]是對FCN 的改進,SegNet 引入了更多的跨層連接,U-Net 在上采樣階段依然保留有大量的通道,使得網絡可以將上下文信息向更高層分辨率傳播。ERFNet[4]使用殘差連接來加速特征學習以及消除梯度消失的現(xiàn)象,并使用深度可分離卷積來減少網絡的參數數量,提高模型推算速度。SKASNet[5]構建了一個新的殘差模塊,通過調節(jié)感受野的大小獲得多尺度信息。DeepLabv3+[6]引入語義分割常用的編解碼結構并使用可任意控制編碼器提取特征的分辨率,通過空洞卷積平衡精度和耗時?,F(xiàn)有的遙感圖像語義分割方法主要對上述模型進行微調與改進。文獻[7-8]將基于U-Net 改進的網絡結構用于遙感圖像上進行語義分割時獲得了可觀的效果。RWSNet[9]將SegNet 和隨機游走相結合,緩解了分割對象邊界模糊的問題。
近年來,研究者設計了很多用于提高語義分割網絡性能的模塊,如受到廣泛關注的注意力機制。注意力機制可以在網絡訓練過程中加強對一些重要特征區(qū)域或者重要特征通道的注意力,提升網絡對特征的表達能力。在SENet[10]中,壓縮、激勵和重標定三個部分組成注意力機制,使網絡利用全局信息有選擇地增強有用特征通道并抑制無用特征通道,實現(xiàn)特征通道自適應校準。CBAM[11]將注意力機制同時運用在通道和空間兩個維度上來提升網絡模型的特征提取能力。卷積神經網絡中的卷積單元每次只關注鄰域卷積核大小的區(qū)域,是局部區(qū)域的運算。文獻[12]提出了Non-local Neural Networks 用于捕獲長距離關系。文獻[13]在特征提取網絡中加入注意力模塊來減少分割精度損失。文獻[14]基于U-Net改進通過注意力機制以提高模型的靈敏度,并抑制無關特征區(qū)域的背景影響。文獻[15]通過全局注意力金字塔與通道注意力解碼器來解決地物小和類內尺度存在差異的問題。
特征融合也是一種提高分割性能的流行方法。高層語義特征具有大的語義結構,但對小結構丟失嚴重,低層細節(jié)特征保留了豐富的細節(jié)信息,但語義類別信息很差。文獻[16-17]通過設計一個優(yōu)秀的特征融合方法進一步提高了網絡的分割性能。FPN[16]最初用于目標檢測任務,但是也可以應用于語義分割,通過按元素相加的方式來融合全局和局部特征,而PSPNet[17]特征融合更強調全局特征,文獻[18]則提出了一種增強特征融合的解碼器來提高語義分割模型的性能。遙感圖像語義分割網絡需要設計優(yōu)異的特征融合方法來加強高低層特征的融合,對此,文獻[19]通過高層語義特征和低層細節(jié)特征融合來提高模型的分割準確率,文獻[20]設計了自適應融合模塊(AFM)。一些通過結合邊緣檢測[21]和融入深度信息[22-23]的網絡模型也能一定程度上提升語義分割的性能。此外,光照不足的條件也會導致RGB 圖像質量下降。紅外圖像可以很好地彌補光照不足等問題,捕捉到更多RGB 圖像所缺失的信息?;赗GB-IR(RGB 圖像和相對應的Infrared 圖像按通道維度疊加后得到RGB-Infrared 圖像)的語義分割模 型MFNet[24]、RTFNet[25]通過融合RGB 和紅外信息來克服光照不足以及天氣條件惡劣等問題,提高了語義分割的性能。
現(xiàn)有基于RGB-IR 的語義分割模型沒有很好地將RGB 和紅外信息充分融合,也較少提取到RGB 圖像相對于紅外圖像所缺失的信息。本文提出一個細節(jié)特征抽取模塊來提取RGB 圖像和紅外圖像的細節(jié)特征信息同時進行融合,生成更具區(qū)分性的特征表示并彌補RGB 圖像相對于紅外圖像所缺失的信息。此外,提出一種特征融合注意力模塊來有效融合細節(jié)特征和高層語義特征,得到具有更準確語義信息的優(yōu)化特征圖?;谝陨夏K,構建增強細節(jié)的RGB-IR 多通道特征融合語義分割網絡MFFNet,通過融合RGB 圖像和紅外圖像,解決現(xiàn)有方法地物邊緣分割不準確、小地物分割效果差的問題,同時提升光照不足、惡劣天氣條件情況下的分割效果。
為了解決上文提到的遙感圖像語義分割存在的難題,并提高模型的分割性能,需要提取更多的圖像細節(jié)特征,以便后續(xù)融合到高層語義特征中來進一步豐富細節(jié)信息。此外,需要將抽取到的RGB 和紅外圖像的細節(jié)特征進行深層次融合,生成更具分辨性的特征表示,彌補RGB 圖像相對于紅外圖像所缺失的信息,提高模型的特征表達能力,進而提升模型的分割性能。本文提出由注意力模塊構成的細節(jié)特征抽取模塊,如圖1 所示。
圖1 細節(jié)特征抽取模塊Fig.1 Detail feature extraction module
細節(jié)特征抽取模塊首先對某一階段的特征圖X(X是從RGB 或紅外圖像中提取到的特征圖)分別進行全局平均池化操作和全局最大池化操作,然后對得到的結果進行拼接操作,再進行Alpha 線性變換得到Alpha 特征,之后通過一個Sigmoid 激活函數來得到注意力權重以加強對重要特征區(qū)域的注意力,最后和特征圖X相乘得到優(yōu)化后的特征圖Y。由于細節(jié)特征抽取模塊是接在低層卷積層后的,因此Y包含了非常豐富的細節(jié)信息,并且一些重要的細節(jié)特征也是被加強的,此計算過程和文獻[11]中的空間注意力相似,計算公式如下:
其中:X為輸入特征圖;Wα是可學習的權重矩陣,通過空間域的7×7 卷積實現(xiàn);AvgPool 和MaxPool 分別為全局平均池化操作和全局最大池化操作。
分別對同一階段RGB 和紅外圖像中提取到的特征圖Xrgb、Xir進行上述計算得到Yrgb、Yir,然后再對這兩個優(yōu)化后的細節(jié)特征圖采用拼接操作進行融合,再通過通道注意力來自適應地為通道重新分配不同的權重,以優(yōu)化融合后的細節(jié)特征圖,最終得到融合細節(jié)特征圖Z。此過程的計算公式如下:
其中:σ為Sigmoid 激活函數為2D 卷積操作,卷積核大小為1×1,通道數從c減為為2D 卷積操作,卷積核大小為1×1,通道數從c/r增加到c,r為減少率;AvgPool 和MaxPool 分別為全局平均池化操作和全局最大池化操作。
至此,已經從RGB 圖像和紅外圖像中抽取到了細節(jié)特征信息,并且得到了融合后的細節(jié)特征圖。然后需要把這些融合后的細節(jié)特征圖整合到高級語義特征中來增加豐富細節(jié)信息,以優(yōu)化網絡的特征表達能力,從而提高模型的靈敏度。
本文提出的特征融合注意力模塊不像其他網絡那樣簡單地將低層細節(jié)特征和高層語義特征進行相加或者拼接,這樣做會把干擾或者無關信息同時也融合到高層語義特征中,并且不能很好地融合高低層特征。本文把通過細節(jié)特征抽取模塊得到的RGB和紅外圖像融合后的細節(jié)特征通過特征融合注意力模塊來融合進高層語義特征,從而在和高層語義特征進行融合時抑制干擾或者避免無關細節(jié)信息的影響,突出重要關鍵細節(jié)特征。此外,本文在特征融合注意力模塊中嵌入通道注意力模塊,產生更具分辨性的特征表示,以提高網絡的靈敏度。
特征融合注意力模塊如圖2 所示。融合高低層特征的操作一般有拼接操作和相加操作。首先采用拼接操作來結合高低層特征,并通過一個卷積核大小為1×1 的卷積層來減少通道數,提高模型的推理速度,然后經過一個卷積核大小為3×3 的卷積層,最后通過一個通道注意力機制生成新的特征圖Xfuse。
圖2 特征融合注意力模塊Fig.2 Feature fusion attention module
特征融合注意力模塊的計算公式如下:
其中:X為輸入特征圖;σ為Sigmoid 激活函數為2D 卷積操作,卷積核大小為1×1,通道數從c減為為2D 卷積操作,卷積核大小為1×1,通道數從c/r增加到c,r為減少率;AvgPool 和MaxPool 分別為全局平均池化操作和全局最大池化操作;X1為細節(jié)分支生成的低層細節(jié)特征圖;X2為高層特征圖;f3×3為2D 卷積操作,卷積核大小為3×3,此卷積操作后跟隨有BatchNorm 操作和ReLu 操作。
特征融合注意力模塊融合細節(jié)特征抽取模塊得到的RGB 和紅外圖像融合后的細節(jié)特征和高層語義特征,在每一次上采樣階段前都采用特征融合注意力模塊進行特征融合來豐富細節(jié)信息和上下文信息,保證像素語義分類準確,同時優(yōu)化小地物的分割效果,進一步提高模型的分割準確率,使網絡模型更好地定位到邊界。
本文基于細節(jié)特征抽取模塊和特征融合注意力模塊,提出一種增強細節(jié)的RGB-IR 多通道特征融合語義分割網絡MFFNet,如圖3 所示。
圖3 MFFNet 網絡結構Fig.3 Network structure of MFFNet
MFFNet 包括細節(jié)分支和語義分支這兩個分支。細節(jié)分支通過細節(jié)特征抽取模塊從RGB 圖像和紅外圖像中抽取到細節(jié)特征信息,并且得到融合后的細節(jié)特征。語義分支使用輕量級的殘差網絡ResNet18 作為主干網絡,從而進行快速下采樣以提取高層語義特征。得益于BiSeNet[26]的啟發(fā),本文在語義分支中還利用了一個注意力優(yōu)化模塊來優(yōu)化輸出特征,注意力優(yōu)化模塊結構如圖4 所示。最后,在MFFNet的上采樣階段把融合后的細節(jié)特征通過特征融合注意力模塊整合到高級語義特征中來增加豐富細節(jié)信息,以優(yōu)化網絡的特征表達能力,從而提高模型的靈敏度。
圖4 注意力優(yōu)化模塊Fig.4 Attention optimization module
為了更好地指導模型訓練進而提高地物邊界的分割效果以及模型整體的分割性能,受文獻[27]的啟發(fā),本文在遙感圖像語義分割常用的交叉熵損失函數基礎上加權邊界損失[27]和Jaccard 損失。在損失函數中,加權邊界損失可以指導模型訓練進一步生成更好的地物邊界分割效果。通過在損失函數中加權Jaccard 損失直接指導模型訓練,能夠有效提高模型整體的分割性能。
交叉熵損失函數是目前流行的語義分割任務中使用的損失函數,用于指導模型進行訓練。交叉熵損失函數Eloss的定義如下:
其中:N是小批量樣本的數量是樣本n分類為c類別的softmax 概率;是以one-hot 編碼時相應樣本類別的標簽;C是所有類別數。
交叉熵損失函數通過對所有像素的求和計算得出,不能很好地反映不平衡類。中位數頻率平衡加權交叉熵損失函數考慮到了不平衡類問題,通過在訓練集中統(tǒng)計類別的中位數頻率和實際類別頻率的比率來進行加權損失。中位數頻率平衡加權交叉熵損失函數的定義如下:
其中:wc是類別c的權重;fc是類別c的像素的頻率;median(fc|c∈C)是所有fc的中位數。
邊界損失函數建立在邊界度量邊界F1得分的基礎上,因此,應先定義邊界準確率和邊界召回率。邊界準確率P和邊界召回率R分別定義如下:
其中:Bp表示預測邊界;Bg表示真實標簽邊界;θ是預定義的閾值,實驗時默認取3;[[·]]表示邏輯表達式的指示函數。
邊界度量邊界F1得分和邊界損失函數Bloss定義如下:
Jaccard 損失函數Jloss定義如下:
其中:yp和yg分別表示預測標簽和真實標簽。
總的損失函數Lloss定義如下:
其中:a、b和c分別是中位數頻率平衡加權交叉熵損失、邊界損失和Jaccard 損失相應的權重系數。
實驗使用的測試基準數據集是由國際攝影測量與遙感協(xié)會(ISPRS)組織發(fā)布的Postdam 數據集。攝影測量學的研究方向之一是從機載傳感器獲取的數據中自動提取城市物體。這項任務的挑戰(zhàn)性在于,在高分辨率的圖像數據中,諸如建筑物、道路、樹木和汽車之類的地面物體,同類對象有著非常不同的外觀,這導致了較大的組內差異,而組間差異卻很小。Postdam 數據集包括6 種地面物體:不透水地面(例如道路),建筑物,低矮植被、樹木,汽車,雜物。Potsdam 數據集包含38 張高分辨率的RGB 和IR 遙感圖像,圖像分辨率大小均為6 000×6 000 像素。圖5 所示為Postdam 數據集的部分示例圖。
圖5 Postdam 數據集的部分示例圖Fig.5 Part of sample images in Postdam data set
平均交并比(Mean Intersection over Union,MIoU)是語義分割的標準評價指標,整體準確率、精確率、召回率和F1 分數是遙感圖像語義分割最常用的評價指標。本文使用平均交并比、整體準確率、精確率、召回率和F1 分數來度量本文提出的模型。平均交并比是對每一類預測的結果和真實值的交集與并集的比值求和平均的結果,交并比(Intersection over Union,IoU)利用混淆矩陣得到,計算公式如下:
其中:TP代表真陽性,表示某一給定類別中被正確分類的像素數;FP代表假陽性,表示被錯誤分類到特定類別的其他類別的像素數;FN表示假陰性,表示一個給定類別被錯誤分類為其他類別的像素數。
整體準確率是正確標記的像素總數除以像素總數。精確率PPrecision、召回率RRecall以及F1 分數F1利用混淆矩陣得到,計算公式如下:
本文模型使用開源庫PyTorch 1.7.1 和torchvision 0.8.2 實現(xiàn),實驗使用NVIDIA 公司的GeForce RTX 090 GPU,24 GB 的內存,CUDA 的版本是11.2。本文提出的模型是輕量級的,在訓練時設置mini-batch大小為48,使用Adam 作為優(yōu)化算法應對梯度下降問題,學習率大小設置為5×10-4,權重衰減因子設置為2×10-4,學習率衰減因子設置為0.1,每訓練120 個epoch 調整學習率,共訓練200 個epoch。
為了驗證本文提出的MFFNet 模型對RGB 遙感圖像和紅外遙感圖像融合的有效性,以及是否能夠提高小地物和邊界的分割效果,在公開的Potsdam 數據集上進行實驗。Potsdam 數據集被廣泛用于評估遙感圖像語義分割模型的性能,包含38 張高分辨率的RGB 遙感圖像和相對應紅外遙感圖像,每張圖像分辨率大小為6 000×60 000 像素。本文將該數據集圖像分為20 張訓練圖像、10 張驗證圖像和8 張測試圖像,然后進行數據預處理,通過裁剪20 張訓練圖像,每張圖像都用滑動窗口的方法進行裁剪,步長為滑動窗口的大小,獲得225 張400×400 像素的圖像,共得到4 500 張訓練圖像,然后再進行數據增強操作(包括旋轉、模糊、添加噪聲等)擴充一倍訓練數據集,最后共得到9 000 張400×400 像素的訓練圖像。使用同樣的滑動窗口方法裁剪驗證集圖像和測試集圖像,得到2 250 張400×400 像素的驗證集圖像和1 800 張400×400 像素的測試集圖像,相對應的紅外遙感圖像也以同樣的方式進行裁剪。
本文使用平均交并比、整體準確率、精確率、召回率和F1 分數來評估MFFNet,實驗結果如表1 所示,其中,加粗數據表示最優(yōu)值,3c 表示網絡是三通道,輸入只有RGB 圖像,4c 是將RBG 和IR 通道疊加作為輸入,對比實驗的網絡模型中RTFNet采用殘差網絡ResNet50作為主干網絡,DeepLabv3+和PSPNet 采用殘差網絡ResNet101 作為主干網絡。對比表1 所有RGB-IR 四通道作為輸入的網絡模型實驗結果可以看出,本文提出的MFFNet模型在上述的各個評價指標上都是最優(yōu)的,對于語義分割的標準評價指標平均交并比,MFFNet較對比模型中最優(yōu)的模型提升了2.72 個百分點,在其他各個評價指標上,MFFNet較對比模型中最優(yōu)的模型也都有很大的提升:整體準確率提升1.14 個百分點,精確率提升3.69 個百分點,召回率提升0.04 個百分點,F(xiàn)1 分數提升2.04 個百分點。此外,對比表1 所有RGB-IR四通道作為輸入的網絡模型實驗結果可以看出,本文提出的MFFNet 模型不僅僅是對于整體的分割效果是最好的,而且對于小物體類別車的分割效果在每個評價指標上也是最優(yōu)的,相對于對比實驗中最優(yōu)的模型而言有非常大的提升:交并比提升7.3 個百分點,精確率提升9.52 個百分點,F(xiàn)1 分數提升4.6 個百分點。
表1 Potsdam 數據集上不同模型的性能對比Table 1 Performance comparison of different models in Potsdam data set %
從表1 中還可以看到,在對比模型中,除PSPNet和UNet 外,其他模型直接把RGB 三通道(3c)圖像改為RGB-IR 四通道(4c)圖像作為網絡輸入,不僅不能改善反而還降低了網絡模型的分割效果,PSPNet 和UNet 直接把RGB 三通道(3c)圖像改為RGB-IR 四通道(4c)圖像作為網絡輸入,在整體分割性能上雖然有略微的一點提升,但對于小地物類別車的分割效果卻受到大幅影響。
圖6 和圖7 為在Potsdam 數據集上的部分實驗結果圖,從中可以清楚地看到,對比模型不能很好地分割小地物類別車,小地物的邊緣分割也是不準確的,并且小區(qū)域的分割效果也很差。本文提出的MFFNet 模型對小地物的分割效果明顯優(yōu)于對比模型,小地物的分割效果很好,不存在邊緣分割不準確的情況,并且對于小區(qū)域的分割效果要好很多。由此可以證明,本文模型不僅可使遙感圖像整體的分割效果有很大的提升,對于圖像中小地物的分割,效果的提升也是非常明顯的。
圖6 Potsdam 數據集上的實驗的結果圖1Fig.6 Experimental result images 1 in Potsdam dataset
圖7 Potsdam 數據集上的實驗的結果圖2Fig.7 Experimental result images 2 in Potsdam dataset
為了進一步說明本文提出的模型能夠有效地整合RGB 圖像和紅外圖像的信息,在Postdam 數據集上進行消融實驗,將RGB 和RGB-IR 分別作為MFFNet網絡輸入。將RGB 作為網絡輸入時,微調MFFNet網絡,去掉IR 細節(jié)分支,整體分割性能對比如圖8 所示,小地物車類別分割性能對比如圖9 所示,其中無填充的柱狀圖是RGB 圖像作為網絡輸入的實驗結果,有填充的柱狀圖是RGB-IR 圖像作為網絡輸入的實驗結果。在表2 中,3c 表示網絡是三通道輸入只有RGB 圖像,4c 是將RGB 和IR 通道疊加作為輸入。從表2 中數據的比較可以清楚地看出,本文提出的模型對紅外圖像融合具有有效性,對于整體的分割效果和小地物的分割性能均較優(yōu)。
圖8 RGB 和RGB-IR 分別作為MFFNet 網絡輸入的整體分割性能Fig.8 Overall segmentation performance when RGB and RGB-IR as input to the MFFNet network respectively
圖9 RGB 和RGB-IR 分別作為MFFNet 網絡輸入的車類別分割性能Fig.9 Car category segmentation performance when RGB and RGB-IR as input to the MFFNet network respectively
表2 RGB 和RGB-IR 分別作為MFFNet 網絡輸入的具體性能對比Table 2 Spectific performance comparison when RGB and RGB-IR as input to the MFFNet network %
本文構建增強細節(jié)的RGB-IR 多通道特征融合語義分割網絡MFFNet,以解決遙感圖像語義分割中存在的問題。提出一種能夠有效融合RGB 圖像和紅外圖像的細節(jié)特征抽取模塊,從而獲取豐富的融合細節(jié)信息,并提出一種新的特征融合方法——特征融合注意力模塊,將細節(jié)特征抽取模塊提取到的融合細節(jié)特征充分融合進高級語義特征中,以優(yōu)化網絡的表達能力,提高模型的靈敏度。在Postdam 數據集上的實驗結果證明了該模型的有效性。下一步將結合神經架構搜索(Neural Architecture Search,NAS)技術優(yōu)化細節(jié)特征融合模塊的結構,加強RGB 圖像和紅外圖像細節(jié)特征信息的整合,提高模型的分割性能,同時降低模型的復雜度。