李繼文,徐杰杰,劉光燦
(南京信息工程大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210044)
與自然場景相比,遙感圖像的背景信息極為復(fù)雜,圖像中含有大量無用噪聲。在目標(biāo)的定位和識(shí)別上相比于自然場景有一定的挑戰(zhàn)性[1,2]。
隨著深度卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),基于深度學(xué)習(xí)的語義分割方法在遙感領(lǐng)域的研究也得到了發(fā)展[3]。例如全卷積神經(jīng)網(wǎng)絡(luò)FCN,場景解析網(wǎng)絡(luò)PSPNet[4],金字塔池網(wǎng)絡(luò)DeeplabV3+[5]和條帶池化網(wǎng)絡(luò)SPNet[6]等都展現(xiàn)了優(yōu)異的性能。近年來,一些學(xué)者開始將注意力機(jī)制應(yīng)用到圖像分割領(lǐng)域中。注意力機(jī)制主要作用于確定特征之間的相關(guān)性,是一種從大量信息中篩選高價(jià)值信息的手段。Woo等結(jié)合了空間和通道的注意力機(jī)制提出卷積注意力模塊CBAM[7]。Hu等構(gòu)建SENet來學(xué)習(xí)通道之間的相關(guān)性[8]。Sungha等利用場景中的內(nèi)在特征,提供了一個(gè)通用的注意力網(wǎng)絡(luò)HANet[9]。盡管語義分割技術(shù)在最近的幾年里取得了一定的成功,但是在特定的遙感圖像數(shù)據(jù)集上仍然存在局限性。部分遙感影像中包含道路、樹木、建筑物和汽車等類別,這些物體通常具有大的尺寸差異。單一大小的感受野很難獲得具有足夠表征能力的物體特征,導(dǎo)致特征提取不全。其次,遙感圖像中背景復(fù)雜,外形特征相似度高,容易造成誤分類現(xiàn)象。現(xiàn)階段的網(wǎng)絡(luò)[10-12]只是將不同層之間的信息進(jìn)行簡單的加和操作,沒有注意到類間的特征相關(guān)性,無法很好解決這些問題。
為了解決上述問題,本文提出了特征融合注意力網(wǎng)絡(luò)FFANet,我們研究的主要工作如下:
(1)提出了一個(gè)多尺度特征表示模塊(multiscale feature representation,MFR),該模塊將骨干網(wǎng)絡(luò)的輸出變化為多尺度信息作為輸入[13],提取圖像不同尺度的特征,用于解決圖像中因目標(biāo)大尺度變化,難以提取特征的問題。
(2)提出了一個(gè)特征融合注意力模塊(feature fusion attention,F(xiàn)FA),利用深層特征為淺層特征提供指引[14],有效將不同層級間的語義信息進(jìn)行融合,并且將深層語義信息作為淺層語義信息的指引,加強(qiáng)類別之間的聯(lián)系,從而增強(qiáng)了空間細(xì)節(jié)信息和對目標(biāo)的識(shí)別能力。
(3)我們在上采樣過程中融合了一個(gè)特征細(xì)化模塊(feature refinement module,F(xiàn)RM),這個(gè)模塊能夠細(xì)化高分辨率特征,提高圖像的分割精度。
(4)基于上述模塊,我們搭建了一個(gè)特征融合注意力網(wǎng)絡(luò),如圖1所示。我們將該網(wǎng)絡(luò)在國際攝影測量與遙感學(xué)會(huì)(ISPRS)提供的Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并和其它分割方法作對比。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
遙感圖像目標(biāo)尺寸變化較大,常規(guī)的模型難以充分提取其中的類別特征,同時(shí)隨著遙感圖像的分辨率不斷提高,目標(biāo)的細(xì)節(jié)和空間信息變得復(fù)雜,增加了分割難度。因此,如何有效提取圖像特征是提高遙感圖像分割精度的關(guān)鍵。
本文提出的特征融合注意力網(wǎng)絡(luò)主要分為4個(gè)部分,如圖1所示:A部分為基于殘差塊的主干網(wǎng)絡(luò)ResNet-50的改進(jìn)版本(詳細(xì)參數(shù)見表1),殘差結(jié)構(gòu)的卷積網(wǎng)絡(luò)相比于普通的卷積網(wǎng)絡(luò)能夠提取圖像中更加復(fù)雜的特征[15],同時(shí)有效防止隨著卷積層數(shù)加深而產(chǎn)生的梯度消失等問題;B部分為多尺度特征表示模塊(MFR);C部分為上采樣融合模塊(FFA);D部分為特征細(xì)化模塊(FRM)。主干網(wǎng)絡(luò)包含四層殘差塊結(jié)構(gòu),每一層殘差塊輸出不同語義信息的特征圖,底層網(wǎng)絡(luò)的感受野較小,相比于高層網(wǎng)絡(luò)對語義信息提取力較弱,我們嘗試將底層殘差塊的網(wǎng)絡(luò)結(jié)構(gòu)替換成3個(gè)3×3的卷積操作,以適當(dāng)增強(qiáng)底層網(wǎng)絡(luò)特征提取能力。而在高層輸出中,感受野較大,空間細(xì)節(jié)信息表征力弱,我們將第三和第四個(gè)殘差塊的卷積步長降為1,使下采樣的分辨率維持在原圖的1/8,以減少像素流失。在網(wǎng)絡(luò)的解碼階段,為了恢復(fù)下采樣丟失的細(xì)節(jié)信息,我們令每層殘差塊輸出的特征矩陣都經(jīng)過多尺度特征表示模塊,從而獲得不同尺度的上下文信息,經(jīng)上采樣操作后連接到一起作為新的語義特征輸出??紤]到不同特征層之間特征的相關(guān)性,我們的網(wǎng)絡(luò)設(shè)置了3個(gè)特征融合注意力模塊,將殘差網(wǎng)絡(luò)每一層的輸出兩兩融合,以此類推。為了進(jìn)一步細(xì)化融合后的語義特征,在特征細(xì)化模塊中使用殘差形式的網(wǎng)絡(luò)結(jié)構(gòu)減少了因上采樣放大導(dǎo)致的信息損失,達(dá)到優(yōu)化分割結(jié)果的目的。
表1 改進(jìn)ResNet-50的詳細(xì)參數(shù)設(shè)置
在自然圖像的語義分割中,多尺度上下文信息的提取非常重要,這同樣適用于遙感圖像。正如上文所述,遙感圖像中目標(biāo)尺寸差異明顯,僅僅通過單一的尺度信息提取目標(biāo)特征沒有足夠的表征力。
為了緩解目標(biāo)大小的差異對主干網(wǎng)絡(luò)的特征提取的影響,我們構(gòu)建了多尺度特征表示模塊,并在模塊中引入了多個(gè)空洞卷積的分支[5]。與普通卷積相比,空洞卷積在相同大小特征圖下可以獲得更大感受野,同時(shí)不會(huì)引入過多的計(jì)算量。如圖2所示,當(dāng)空洞率rate=1時(shí),為普通的3×3卷積操作,當(dāng)空洞率rate=2時(shí),表示在每兩個(gè)卷積核之間插入一個(gè)零值,相當(dāng)于5×5卷積操作。
圖2 不同空洞率的空洞卷積
圖3所示為該模塊內(nèi)部結(jié)構(gòu),對于輸入特征圖E,經(jīng)過3部分融合運(yùn)算得到輸出特征圖E′。圖中第1部分是特征圖本身,第2部分為3個(gè)并行的卷積塊分支,每個(gè)分支由一個(gè)3×3的空洞卷積和一個(gè)1×1的卷積塊組成,相比于DeeplabV3+中ASPP模塊所使用的空洞卷積空洞率更小,分支更少,本文使用的遙感數(shù)據(jù)圖像大小為256×256,使用較大空洞率的空洞卷積無法對特征圖進(jìn)行有效的運(yùn)算。綜合考慮空洞率和分辨率大小的關(guān)系,空洞率分別設(shè)置為[1,3,5]能夠最大限度下改善感受野并提高分割精度。在空洞卷積后加入1×1卷積是為了降低通道數(shù)統(tǒng)一維度。第3部分為全局池化的分支,用于提取全局特征信息。
圖3 多尺度特征表示模塊
以ResNet-50作為網(wǎng)絡(luò)的主干網(wǎng)絡(luò),它的每個(gè)殘差塊對應(yīng)不同結(jié)構(gòu)的特征圖輸出。在圖像分割任務(wù)中,殘差網(wǎng)絡(luò)的最后一層往往包含更豐富的語義信息,由于頻繁的采樣導(dǎo)致圖像像素流失,通常在深層網(wǎng)絡(luò)的輸出部分進(jìn)行多尺度特征融合。然而,考慮到淺層網(wǎng)絡(luò)對小目標(biāo)特征也有一定的提取力,于是在ResNet-50的4個(gè)殘差塊后都加入了MFR模塊,以充分捕獲網(wǎng)絡(luò)各個(gè)階段的多尺度特征和上下文細(xì)節(jié)信息。
隨著神經(jīng)網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)從輸入到輸出會(huì)經(jīng)過多個(gè)下采樣卷積層,從而初步擴(kuò)大感受野,得到高層語義特征。在這個(gè)過程中,靠近底層的特征圖分辨率雖然高但缺少語義信息,而靠近高層的特征圖雖然語義信息豐富但是分辨率低,空間細(xì)節(jié)信息少[16]。以往特征融合的工作主要分為3點(diǎn):①融合高低特征層信息后進(jìn)行特征細(xì)化;②在融合高底層特征信息后只提取語義特征信息進(jìn)行加權(quán);③先提取高層語義信息進(jìn)行加權(quán),再融合高低特征信息。而我們的工作受SENet和CBAM的啟發(fā),在特征融合的過程中引入注意機(jī)制,先加強(qiáng)底層特征的空間細(xì)節(jié)信息,再利用高層特征的豐富語義信息,以加權(quán)方式提高特征的類別識(shí)別能力。
1.3.1 語義信息的增強(qiáng)
圖4所示的是SENet的一個(gè)基本單元塊,輸入特征圖A的大小為h′×w′×c′。Conv是一個(gè)標(biāo)準(zhǔn)的卷積操作,對原始的特征圖進(jìn)行降維后得到大小為h×w×c的特征矩陣A′。然后進(jìn)行壓縮和激勵(lì)兩步運(yùn)算。
圖4 SENet基本單元塊
壓縮部分是將特征圖A′進(jìn)行空間上的全局平均池化操作,獲得1×1×c的向量q,向量q代表通道上權(quán)重值,具體過程可由如下公式表示
(1)
式中:h和w分別代表特征圖的長和寬,A′c(i,j) 表示特征圖A′對應(yīng)第c個(gè)通道上坐標(biāo)為 (i,j) 的特征值Fgp(A′c),即是對這個(gè)通道維度上所有特征值的和取平均值。
激勵(lì)部分是通過兩個(gè)全連接層的變換來捕獲通道間的依賴性,其計(jì)算過程由以下公式表示
k=Ffc(q)=Sig(W2Re(W1q))
(2)
式中:W1和W2分別代表兩個(gè)全連接層的降維參數(shù),Re(·) 代表ReLU激活運(yùn)算,Sig(·) 代表Sigmoid激活運(yùn)算。Ffc(q) 的計(jì)算將上文生成的向量q進(jìn)行了維度轉(zhuǎn)換。
將輸出k與特征圖A′對應(yīng)通道元素相乘得到最終輸出特征圖A″。
1.3.2 空間信息的增強(qiáng)
圖5展示的是空間注意力模塊,對于大小為h×w×c的特征圖B,通過通道維度上的全局平局池化和全局最大池化操作獲得兩個(gè)富含空間信息的特征矩陣v和u,大小為h×w×1。兩個(gè)特征矩陣拼接后,經(jīng)卷積運(yùn)算再與原特征圖B作乘積得到最終輸出特征圖B′。具體過程如下
圖5 空間注意力模塊
FAM(B′)=Concat(Apl(B),Mpl(B))
(3)
式中:Concat(·) 指通道維度上的拼接,Apl(·) 指通道維度上的全局平均池化操作,Mpl(·) 指通道維度上的全局最大池化操作。
1.3.3 空間信息與語義信息的結(jié)合
本文提出的特征融合注意力模塊如圖6所示。在特征融合注意力模塊中,輸入的高層語義特征H經(jīng)過兩倍的上采樣得到和底層大小相同的特征H′,再與底層特征L拼接成新的特征,然后利用3×3的卷積對進(jìn)行降維得到融合特征圖U,該過程可由以下公式表示
圖6 特征融合注意力模塊
U=C3×3(Concat(L,UP(H)))
(4)
式中:UP(·) 表示雙線性插值上采樣,Concat(·) 指通道維度上的拼接,C3×3為3×3的卷積運(yùn)算。
融合后的特征圖U利用空間注意力模塊進(jìn)一步增強(qiáng)它的空間細(xì)節(jié)信息,具體過程如下
U′=U⊙C7×7(FAM(U))
(5)
FAM(H′)=Concat(Apl(U),Mpl(U))
(6)
式中:⊙表示空間維度上對應(yīng)特征的乘積運(yùn)算,C7×7為7×7的卷積運(yùn)算,Concat(·) 指通道維度上的拼接,Apl(·) 指通道維度上的全局平均池化操作,Mpl(·) 指通道維度上的全局最大池化操作。
接著通過全局平均池化提取高層語義特征H′的實(shí)數(shù)向量作為低層語義特征的指引,它的通道數(shù)對應(yīng)U通道的權(quán)重分布,二者在通道維度上作乘積運(yùn)算增強(qiáng)了通道之間的相關(guān)性。具體公式如下
U″=U′?(Ffc(Fgp(H′)))
(7)
(8)
式中:?表示通道維度上對應(yīng)特征的乘積運(yùn)算,h和w分別代表特征圖的長和寬,H′c(i,j) 表示特征圖H′對應(yīng)第c個(gè)通道上坐標(biāo)為 (i,j) 的特征值。
最后將兩個(gè)不同信息的特征圖逐像素對應(yīng)相加,獲得最終特征圖Y。具體公式如下
Y=U″⊕H′
(9)
式中:⊕表示在高層特征圖H′與底層特征圖U″按對應(yīng)像素作加和操作。
在遙感圖像上,復(fù)雜背景特征和不同尺寸的類別差異性仍會(huì)導(dǎo)致目標(biāo)邊緣粗糙等問題。為了提取更精確的特征信息,條件隨機(jī)場CRF是最常用的一種后處理方法,雖然這種方法應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),但是沒有進(jìn)行端到端的訓(xùn)練。在我們的模型中提出一種新的特征細(xì)化模塊(FRM),可以作用于端到端的網(wǎng)絡(luò)訓(xùn)練[17]。該模塊是ResNet中殘差模塊的一種變體結(jié)構(gòu),對前端網(wǎng)絡(luò)生成的粗糙結(jié)果作進(jìn)一步細(xì)化處理。
如圖7所示,特征細(xì)化模塊由1×1卷積層和殘差單元組成。1×1卷積層將輸出特征圖的通道數(shù)統(tǒng)一,殘差單元執(zhí)行特征自適應(yīng)和細(xì)化操作,殘差單元中3×3和5×5的卷積層相當(dāng)于進(jìn)行了兩次感受野不同的細(xì)化操作。我們將該模塊放在網(wǎng)絡(luò)輸出之前,將FFA模塊的輸出作為輸入特征X,最終的輸出結(jié)果為X′。在進(jìn)一步提取了特征信息的同時(shí)避免了特征圖因直接上采樣導(dǎo)致的像素流失。因此,我們認(rèn)為該模塊在一定程度上細(xì)化了輸出特征。
圖7 特征細(xì)化模塊
1.5.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)環(huán)境使用的深度學(xué)習(xí)框架為Pytorch1.7,開發(fā)環(huán)境為Python3.6,通過一張顯存為11 G的GeForce RTX20800Ti GPU計(jì)算。
實(shí)驗(yàn)參數(shù)設(shè)置如下:輸入圖片大小為256×256,每次選取18張樣本圖像訓(xùn)練網(wǎng)絡(luò),初始化學(xué)習(xí)率設(shè)置為0.01,優(yōu)化器采用SGD算法,動(dòng)量參數(shù)為0.9。網(wǎng)絡(luò)訓(xùn)練使用的損失函數(shù)為交叉熵?fù)p失函數(shù),其中交叉熵?fù)p失函數(shù)定義為
(10)
式中:N表示圖像中像素的數(shù)量,M表示類別數(shù)量,yij為符號(hào)函數(shù),如果像素i對應(yīng)標(biāo)簽類別等于類別數(shù)j則取1,反之取0,pij代表像素i屬于類別j的預(yù)測概率。
1.5.2 評價(jià)指標(biāo)
在語義分割的過程中,為評估分割方法的性能效果,我們使用了如下指標(biāo):召回率(R)、準(zhǔn)確率(P)、F1分?jǐn)?shù)(F1)、總體精確度(OA)、交并比(IoU)和平均交并比(MIoU)
(11)
(12)
(13)
(14)
其中,真正例(TP)表示正確預(yù)測正例的像素?cái)?shù),假正例(FP)表示錯(cuò)誤預(yù)測正例的像素?cái)?shù),真反例(TN)表示正確預(yù)測反例的像素?cái)?shù),假反例(FN)表示錯(cuò)誤預(yù)測反例的像素?cái)?shù)。
每一類交并比(IoUi)和平均交并比(MIoU)定義如下
(15)
(16)
式中:k為預(yù)測類別數(shù),pij和pji分別對應(yīng)假反例和假正例,pij表示屬于類別i的像素被預(yù)測成j的像素,pji表示屬于類別j的像素被預(yù)測成i的像素,而pii表示屬于類別i的像素被預(yù)測成i的像素。
實(shí)驗(yàn)包括多尺度融合注意力網(wǎng)絡(luò)模型在ISPRS的Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集上的消融實(shí)驗(yàn)以及和現(xiàn)有模型的對比實(shí)驗(yàn)。
ISPRS提供了城市分類和三維建筑重建測試的兩個(gè)最先進(jìn)的機(jī)載圖像數(shù)據(jù)集Postdam和Vaihingen。這兩個(gè)數(shù)據(jù)集都采用了高分辨率正交照片和相應(yīng)的圖像匹配技術(shù)產(chǎn)生的數(shù)字地表模型(DSM),也都涵蓋了城市場景。Potsdam是一個(gè)典型的歷史城市,有著大的建筑群和狹窄的街道,而Vaihingen是一個(gè)相對較小的村莊,有許多獨(dú)立的建筑和小的多層建筑。每個(gè)數(shù)據(jù)集內(nèi)涵蓋有6個(gè)標(biāo)記類別:路面、建筑物、低矮植被、樹木、汽車以及復(fù)雜的背景。
ISPRS的Vaihingen數(shù)據(jù)集包含3波段IRRG(紅外、紅色和綠色)圖像數(shù)據(jù)。頂層影像和DSM的空間分辨率為9 cm,有33幅大小不一的遙感圖像。由于Vaihingen數(shù)據(jù)相比于Potsdam數(shù)據(jù)的圖像較小,以相同的方式切割可能造成數(shù)據(jù)量不足。所以我們挑選其中的28張,按像素步長90,裁剪為256×256的像素大小,得到10 248張訓(xùn)練樣本,再將剩余圖像按相同方式裁剪得到2261張測試樣本。
2.2.1 Potsdam數(shù)據(jù)集消融實(shí)驗(yàn)
為了驗(yàn)證多尺度融合注意力網(wǎng)絡(luò)框架結(jié)構(gòu)的有效性,我們在Potsdam數(shù)據(jù)集上對網(wǎng)絡(luò)的3個(gè)模塊:多尺度特征表示模塊(MFR)、特征融合注意力模塊(FFA)和特征細(xì)化模塊(FRM)依次進(jìn)行消融實(shí)驗(yàn)。本實(shí)驗(yàn)中,使用ResNet-50作為骨干網(wǎng)絡(luò),所有的模型均使用相同配置環(huán)境和訓(xùn)練策略,由于在ImageNet上學(xué)習(xí)到的預(yù)訓(xùn)練參數(shù)對遙感圖像的提升較小,所以后面實(shí)驗(yàn)涉及到的模型不設(shè)預(yù)訓(xùn)練權(quán)重,具體實(shí)驗(yàn)結(jié)果見表2。
表2 FFANet在Potsdam數(shù)據(jù)集上的消融實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果表明,網(wǎng)絡(luò)中添加的多尺度特征表示模塊(MFR)、特征融合注意力模塊(FFA)和特征細(xì)化模塊(FRM)均有一定的效果,與最初的骨干網(wǎng)絡(luò)ResNet-50相比,F(xiàn)FANet的MIoU、OA和F1分別提升了2.6%、1.6%和1.7%,驗(yàn)證了該網(wǎng)絡(luò)能夠有效地提升分割精度。圖表中,各個(gè)類別的IoU也有相應(yīng)的提升,但是樹木這一類別的提升相對有限,這可能和該類的幾何特征和顏色紋理有關(guān)。在遙感圖像中,樹木枝葉間參雜著草地、路面等其它特征,使網(wǎng)絡(luò)在學(xué)習(xí)的過程中受到了噪聲影響,從而導(dǎo)致特征識(shí)別困難。
2.2.2 Potsdam數(shù)據(jù)集對比實(shí)驗(yàn)
為了對網(wǎng)絡(luò)作更全面的評估,我們在Potsdam數(shù)據(jù)集上將模型與現(xiàn)有的幾個(gè)網(wǎng)絡(luò)作對比。如表3所示,在對比的網(wǎng)絡(luò)中,F(xiàn)CN-8的MIoU和OA指標(biāo)較低,由于它使用VGG16作為骨干網(wǎng)絡(luò),相比于ResNet-50特征提取能力較弱。PSPNet使用了金字塔池化模塊提取上下文信息,DeeplabV3+使用了空洞卷積增大了感受野,在一定程度上都提升了分割的精度,但這些網(wǎng)絡(luò)在特征融合部分沒有考慮到淺層特征和深層特征之間的聯(lián)系,只是在通道維度上直接拼接,對復(fù)雜的遙感圖像背景特征提取力較差。SPNet對于道路和水流等條狀目標(biāo)的特征提取效果較好,在建筑物和汽車等遙感目標(biāo)分割上有所欠缺。我們提出的FFANet網(wǎng)絡(luò)融合注意力機(jī)制建立了不同特征層之間的聯(lián)系,同時(shí)MIoU和OA指標(biāo)均超過這些語義分割模型。FFANet的MIoU、OA和F1分別達(dá)到了74.4%、87.7%和84.9%。
表3 FFANet在Potsdam數(shù)據(jù)集上的對比實(shí)驗(yàn)
為了便于直觀比較模型的預(yù)測結(jié)果,圖8展示了不同模型下的可視化結(jié)果圖,圖中每一行表示一幅遙感圖像在各個(gè)模型下的分割圖,從左到右依次是FCN-8、DeeplabV3+、PSPNet、SegNet、SPNet和FFANet。
圖8 本文方法和其它方法在Potsdam數(shù)據(jù)集上的分割結(jié)果
對于第一幅圖,由于低矮植被這一類別紋理特征復(fù)雜,其它5個(gè)網(wǎng)絡(luò)在識(shí)別的過程中均有錯(cuò)誤分類的區(qū)域,同時(shí)測試圖左下角的一小塊建筑物分割效果較為粗糙。對于第二幅圖,由于汽車本身之間的差異性,造成了其它網(wǎng)絡(luò)的誤分類,從而引入了過多噪聲,而在FFANet中很好解決了這一問題。對于第三幅圖,體現(xiàn)了FFANet的目標(biāo)識(shí)別能力,較好區(qū)分了低矮植被和樹木這兩種特征相似的目標(biāo)。對于第四幅圖,從建筑物的分割效果可以看出FFANet相比其它網(wǎng)絡(luò)具有較好的特征提取能力。
2.2.3 多尺度特征表示模塊消融實(shí)驗(yàn)
在多尺度特征表示模塊(MFR)的消融實(shí)驗(yàn)中,我們探討了空洞率大小和模塊作用位置對于網(wǎng)絡(luò)性能的影響。如表4所示,位置×1表示添加一個(gè)MFR模塊,×4表示添加4個(gè)MFR模塊,實(shí)驗(yàn)結(jié)果表明模型的精度隨著MFR模塊數(shù)量增加而提升,所以說在主干網(wǎng)絡(luò)特征提取的初級階段也有提升的空間。與此同時(shí),我們發(fā)現(xiàn)大的空洞率并不能給模型性能帶來好的提升,空洞率設(shè)置為[1,3,5]的情況下,模型指標(biāo)達(dá)到最優(yōu),MIoU和OA分別為74.4%,87.7%,說明小的空洞率更適合該數(shù)據(jù)集圖像的分割。
表4 MFR模塊消融實(shí)驗(yàn)
2.3.1 Vaihingen數(shù)據(jù)集消融實(shí)驗(yàn)
為了驗(yàn)證本方法的泛化能力,在Vaihingen數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),同樣采用MIoU、OA和F1作為評價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果見表5,從表5中數(shù)據(jù)可以得知,本文模型較Baseline的MIoU有明顯提高,提升了2.4%。說明網(wǎng)絡(luò)的3個(gè)模塊在Vaihingen數(shù)據(jù)集上均有一定效果。
表5 FFANet在Vaihingen數(shù)據(jù)集上的消融實(shí)驗(yàn)
汽車這一類別在Vaihingen數(shù)據(jù)集中是一個(gè)較難處理的類別,因?yàn)榕c其它類別相比,汽車像素的數(shù)量遠(yuǎn)遠(yuǎn)要小,并且汽車本身也存在著較大的差異性。例如,圖像中汽車顏色的多樣性也會(huì)導(dǎo)致類別內(nèi)的巨大差異。我們的方法在汽車的類別中的識(shí)別效果較好,IoU4提升了6.3%。
2.3.2 Vaihingen數(shù)據(jù)集對比實(shí)驗(yàn)
表6給出了本方法在Vaihingen數(shù)據(jù)集上與現(xiàn)有模型的對比實(shí)驗(yàn)結(jié)果。與PSPNet、SPNet、DANet[18]、SegNet以及最近提出的一種分割方法MACUNet[22]相比,F(xiàn)FANet的MIoU、OA和F1分別達(dá)到了78.1%、91.4%和87.2%。
表6 FFANet在Vaihingen數(shù)據(jù)集上的對比實(shí)驗(yàn)
圖9給出了現(xiàn)有模型在Vaihingen數(shù)據(jù)集上的可視化結(jié)果圖。對于第一幅圖,建筑物樓頂?shù)乃嗯_(tái)被其它網(wǎng)絡(luò)錯(cuò)誤分類成道路和汽車,左上角的樹木也沒能識(shí)別出來。對于第二幅圖,在淡灰色的低矮植被區(qū)域,其它網(wǎng)絡(luò)或多或少的都有特征提取不全的地方。對于第三和第四幅圖,相比于其它網(wǎng)絡(luò),F(xiàn)FANet的分割結(jié)果圖較為清晰,不會(huì)引入過多噪聲。
圖9 本文方法和其它方法在Vaihingen數(shù)據(jù)集上的分割結(jié)果
針對遙感圖像中目標(biāo)多尺度現(xiàn)象以及特征信息復(fù)雜的問題,本文提出了一種特征融合注意力的遙感圖像分割網(wǎng)絡(luò)。在數(shù)據(jù)集處理階段有針對性地選擇了部分的遙感大圖像,切割過程中按一定步長滑動(dòng)切分,豐富了數(shù)據(jù)的多樣性。網(wǎng)絡(luò)在主干網(wǎng)絡(luò)增加了下采樣過程中特征圖的分辨率,然后利用多尺度特征表示模塊提取圖像中目標(biāo)的多尺度上下文信息,以增強(qiáng)對目標(biāo)的特征提取能力。在特征融合注意力模塊中引入了注意力機(jī)制的概念,將深層特征的通道信息作為淺層特征的指引,通過建立了二者之間的聯(lián)系來改善解碼過程中錯(cuò)誤分類等現(xiàn)象。在最后的上采樣輸出過程中,利用殘差結(jié)構(gòu)進(jìn)一步細(xì)化特征,提高了分割精度。
本文的模型仍然存在一些問題,例如:路面、建筑物、樹木和低矮植被在邊界附近任存在大量噪聲,遙感圖像在邊界信息的提取上亟待改進(jìn)。我們將繼續(xù)優(yōu)化該模型,在不降低分割精度的情況下,優(yōu)化邊緣分割效果,使分割邊界更加平滑。