孫凌輝,趙麗科,李 琛,成子怡
(1.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,河南 鄭州 450001)
遙感圖像具有的數(shù)據(jù)量大、空間相關(guān)性強(qiáng)、分辨率高的特點,適合采用卷積神經(jīng)網(wǎng)絡(luò)的方法開展語義分割的方法提取地物信息。本文根據(jù)其特點,采用融入殘差模塊的U-Net網(wǎng)絡(luò)作為主干,避免模型發(fā)生退化,同時融入通道和空間注意力模塊,增強(qiáng)地物的細(xì)節(jié)特征,改善高分辨率遙感影像語義分割的精度[1-3]。
鑒于采用編解碼結(jié)構(gòu)的UNet在語義分割中表現(xiàn)出來的優(yōu)勢,本文模型主干選用UNet網(wǎng)絡(luò)結(jié)構(gòu),同時在編碼器部分融入殘差連接模塊與通道空間注意力模塊[4]。網(wǎng)絡(luò)的主干由三部分組成,分別為獲取地物特征的編碼器、對影像進(jìn)行分類的解碼器、連接底層信息與高層信息的跳躍連接,在此基礎(chǔ)上還加入了抑制網(wǎng)絡(luò)退化的殘差結(jié)構(gòu)和提高網(wǎng)絡(luò)聚焦特征的CBAM注意力模塊,改善細(xì)節(jié)信息的特征抽取能力。
編碼器-解碼器結(jié)構(gòu)是研究語義分割方面普遍使用的一種結(jié)構(gòu),由編碼器、過渡層和解碼器共同組成。編碼器負(fù)責(zé)通過下采樣降低圖像維度;過渡層存在于編碼器和解碼器之間,提取并傳遞高維特征信息;解碼器負(fù)責(zé)通過上采樣將特征圖還原為原始維度。U-Net 網(wǎng)絡(luò)是基于編解碼結(jié)構(gòu)的經(jīng)典模型,由編碼結(jié)構(gòu)、解碼結(jié)構(gòu)和跳躍連接構(gòu)成,跳躍連接的本質(zhì)就是將下采樣過程中獲得的特征圖像融合到上采樣中,所用的融合方式就是將特征圖像通道疊加。
由于在網(wǎng)絡(luò)層數(shù)增加的過程中,預(yù)測效果越來越差,梯度消失和梯度爆炸產(chǎn)生了網(wǎng)絡(luò)退化問題,“殘差結(jié)構(gòu)”跳過一些神經(jīng)元節(jié)點,跨層相連,減弱各個網(wǎng)絡(luò)層之間的強(qiáng)聯(lián)系,提高網(wǎng)絡(luò)訓(xùn)練效率。鑒于殘差結(jié)構(gòu)的優(yōu)點,將殘差結(jié)構(gòu)融入到U-Net網(wǎng)絡(luò)中,以達(dá)到提高精度的目的。
由于遙感影像的復(fù)雜性,語義分割經(jīng)常會受到模糊或者是雜糅等區(qū)域的影響且影像本身的時相可能不同,以及數(shù)據(jù)來源、陰影等變化導(dǎo)致使用傳統(tǒng)方法不能很好地進(jìn)行各類地物的分割。因此在嵌入殘差結(jié)構(gòu)的U-Net 模型中添加CBAM 注意力模塊以強(qiáng)化地物的細(xì)節(jié)特征,提高遙感影像語義分割的精度,如圖1 為CBAM模塊的示意圖[5]。
圖1 CBAM示意圖
CBAM 憑借自身是一個輕量級通用注意力模塊的特點,可以無縫集成到各種神經(jīng)網(wǎng)絡(luò)架構(gòu)中。首先對于語義分割來說,有多個通道的特征輸出,有些通道的特征對最終的分類結(jié)果影響很大,有必要使注意力聚集在這些通道中,具體做法是通過全局池化,在通道注意力模塊中使用最大池化和均值池化,得到2 個1×1×C的特征圖,然后通過MLP進(jìn)行非線性的特征變化,進(jìn)行像素級相加后經(jīng)激活函數(shù)激活得到對應(yīng)的注意力權(quán)重,表達(dá)式為:
對于空間注意力,它是使網(wǎng)絡(luò)模型更集中于具有空間形狀的特征上,它將通道注意力特征圖作為輸入,分別進(jìn)行最大池化和均值池化,生成2個2D特征圖,之后對其進(jìn)行級聯(lián),經(jīng)卷積層降維至單通道,最后由激活函數(shù)激活得到注意力權(quán)重,表達(dá)式為:
CBAM 按照通道、空間域2 個獨立的維度對遙感影像進(jìn)行注意力“注入”,然后將已獲得“注意力”的圖像乘以讀取的特征圖像進(jìn)行圖像特征細(xì)化。CBAM對特征圖F∈RC×H×W分別進(jìn)行通道、空間注意力計算,會分別得到一維的和二維的通道和注意力權(quán)重Mc∈RC×1×1和Ms∈R1×H×W,之后對特征圖進(jìn)行加權(quán)計算,表達(dá)式為(3)。
在公式(3)中,?為矩陣與所對應(yīng)的元素依次相乘,在這個過程中,按照對應(yīng)的維度,注意力的值會進(jìn)行復(fù)制,通道和空間注意力權(quán)重分別以通道、空間維度進(jìn)行復(fù)制。最后的F''為輸出的特征圖。CBAM注意力模塊的嵌入,可以有效提升地物的細(xì)節(jié)特征,改善語義分割的精度。
為了驗證本文方法的可靠性,選用ISPRS Potsdam[6]數(shù)據(jù)集開展實驗分析,Potsdam遙感數(shù)據(jù)集一共包含38幅高分辨率遙感影像,影像的大小為6 000×6 000像素,其空間分辨率為5 cm,將每張影像劃分為6類,分別是建筑物(藍(lán)色)、非滲透表面(白色)、灌木植被(青色)、車輛(黃色)、樹木(綠色)以及雜波層(紅色)。本實驗選取17幅圖像用作訓(xùn)練、5幅圖像用作驗證、其余圖像用作測試。
為了客觀且全面地評估網(wǎng)絡(luò)模型進(jìn)行遙感影像語義分割的效果,采用了遙感影像語義分割比較常用的評價指標(biāo)客觀地評估語義分割效果[7],使用的精度評價指標(biāo)為精確度(Precision)、像素準(zhǔn)確率(PA)、召回率(Recall)、特異度(Specificity)、均交并比(MIoU)頻權(quán)交互比(FWIoU)以及F1 分?jǐn)?shù)(F1),各評價指標(biāo)的數(shù)學(xué)表達(dá)為:
式中,TP為正樣本預(yù)測正確;TN為負(fù)樣本預(yù)測正確;FP為將負(fù)樣本預(yù)測錯誤;FN為將正樣本預(yù)測錯誤。將2 種模型的預(yù)測結(jié)果與原始的標(biāo)簽圖像對比后分別計算。
Res-UNet網(wǎng)絡(luò)模型與融入了CBAM注意力機(jī)制的Res-UNet 神經(jīng)網(wǎng)絡(luò)模型在精確度、像素準(zhǔn)確率、F1、MIoU以及FWIoU 5個方面的整體平均值如表1所示。
表1 整體預(yù)測結(jié)果評估指標(biāo)
Res-UNet 網(wǎng)絡(luò)模型與融入了注意力機(jī)制的Res-UNet 神經(jīng)網(wǎng)絡(luò)模型在精確度、MIoU、特異度以及召回率4個方面的整類別平均值如表2所示。
表2 類別預(yù)測結(jié)果評估指標(biāo)
從表1 和表2 中可以看出,通道與空間注意力的融入可以明顯改善遙感影像語義分割的精度,Precision、PA、Precision、Recall、F1、MIoU 及FWIoU 各項指標(biāo)均有所提升,通道與空間注意力模塊能夠強(qiáng)化遙感影像中的細(xì)節(jié)信息,提高語義分割的精度,表明本文方法的有效性。
為了定性觀察融入CBAM模塊后遙感影像語義分割的效果,如圖2 展示了典型的遙感圖像分割結(jié)果,圖中a 為原始遙感影像,b 為真值標(biāo)簽,c 為未融入CBAM 的分割結(jié)果,d 融入CBAM 的分割結(jié)果。比較第一行c 與d 的分割結(jié)果,影像中孤立的噪聲被去除;第二行展示了遙感影像中細(xì)窄地物的分割結(jié)果,加入注意力模塊后,對細(xì)節(jié)的識別能力有所提升,分割結(jié)果更為連續(xù);第三行的圖像則表明了未融入CBAM 時,結(jié)果多呈“鋸齒狀”,融入注意力模塊后會有明顯改善;第四行展示了對面積較小地物的分割結(jié)果,融入注意力模塊后,細(xì)節(jié)信息補(bǔ)全,提高影像語義分割的精度。
圖2 實驗結(jié)果展示
本文提出一種融入通道和空間注意力模塊的Res-UNet 模型,模型主干采用編解碼結(jié)構(gòu)的UNet 模型,將殘差結(jié)構(gòu)嵌入到編碼部分,有效避免模型退化問題,將CBAM模塊連接到網(wǎng)絡(luò)中,挖掘地物間不同特征信息,增強(qiáng)地物的細(xì)節(jié),提升遙感影像語義分割精度。在ISPRS Potsdam 數(shù)據(jù)集上進(jìn)行分析驗證,該模型能夠強(qiáng)化地物的細(xì)節(jié)特征,有效去除噪聲、改善地物邊緣的分割結(jié)果,提升語義分割的精度,驗證了本文提出方法的魯棒性和科學(xué)性。但本文對地物邊界提取仍有待進(jìn)一步優(yōu)化,后續(xù)考慮增加邊緣感知模塊,改善地物邊緣特征。