徐 翔 徐 楊,2*
(貴州大學大數(shù)據與信息工程學院 貴州 貴陽 550025) 2(貴陽鋁鎂設計研究院有限公司 貴州 貴陽 550009)
隨著全球遙感技術的飛速進步,遙感圖像的分辨率越來越高。高分辨率的遙感圖像可以捕捉到詳細的地物信息,便于對地面場景中的不同目標進行準確的分析。語義分割作為圖像解析的基礎任務之一,其目標是對圖像進行像素分類。隨著遙感圖像解析的需求日益提升,對高分辨率遙感圖像進行語義分割逐漸成為了研究熱點,其應用越來越廣泛,如城市規(guī)劃[1]、土地植被分類[2]、道路提取[3]等。
近年來,卷積神經網絡[4]因其具有很強的特征表示能力在計算機視覺領域得到快速發(fā)展[5-8]。文獻[9]提出了全卷積網絡FCN,將卷積神經網絡的最后的全連接層轉換為卷積層,實現(xiàn)了端到端的語義分割。文獻[10]提出基于編碼和解碼結構的語義分割模型Unet,將不同層次的特征圖分別拼接到對應的解碼結構中,并依次進行上采樣,緩解了像素空間位置信息丟失的問題。文獻[11]提出金字塔場景解析網絡模型PSPNet,利用空間金字塔池化結構來聚合多尺度的上下文信息,提高了獲取全局信息的能力。文獻[12]提出DeepLabv3+模型,利用不同擴張率的擴張卷積提取不同尺度的特征,通過解碼器恢復目標的細節(jié)特征。文獻[13]提出多任務分割網絡UPerNet,將金字塔池化結構的輸出與多個語義層次的特征進行融合以此解析多層次的視覺概念。文獻[14]受到注意力機制的啟發(fā),將高層特征的全局信息作為權重調整低層特征并進行融合,實現(xiàn)特征重用。文獻[15]采用自級聯(lián)的方式連續(xù)聚合多尺度的上下文信息,通過殘差連接融合多層次特征。文獻[16]將自注意力機制引入語義分割任務中,通過對特征圖進行重構,融合位置特征和通道特征,增強特征圖的語義信息。文獻[17]結合了DeepLabv3+和Unet的優(yōu)點,通過超像素的后處理進一步提高了分割性能。
聚合圖像的上下文信息可以緩解由于目標大小不同而導致分割性能下降的問題,然而現(xiàn)有多尺度特征融合方法未能考慮利用通道之間的依賴關系。其次,現(xiàn)有的高層特征與低層特征的融合方法一般直接采用通道維度拼接或像素相加的方式,導致特征融合的有效性不高。因此,本文構建了一個用于遙感圖像語義分割的多特征注意力融合網絡MAFNet。首先,將基礎網絡的輸出通過不同大小的全局自適應池化聚合圖像的上下文信息,同時利用特征圖的重構獲取通道的依賴關系,然后采用信息融合提高模型的語義分類能力。最后,基于注意力機制將基礎網絡中的底層特征依次與高層特征進行選擇性融合逐級恢復目標的細節(jié)信息。在Potsdam數(shù)據集上的實驗結果表明,本文模型能夠在一定程度上提高語義分割的準確率。
本文提出的MAFNet如圖1所示,該模型基于編碼和解碼結構,包含基礎網絡、多尺度信息融合模塊(Multi-scale Information Fusion Module,MIFM)和多層次特征融合模塊(Multi-level Feature Fusion Module,MFFM)三大部分。
圖1 多特征注意力融合網絡模型
基礎網絡包含初始化層,四個殘差塊Block1、Block2、Block3和Block4。為了提取遙感圖像中的目標特征,采用深層網絡ResNet101作為基礎網絡進行特征提取,ResNet101采用跳躍連接融合輸入和輸出特征,在一定程度上避免了梯度消失的問題。本文在ResNet101的基礎上,將初始化層的7×7卷積層改為三個3×3的卷積層,在減少參數(shù)量的同時更有效地提取特征。在最后兩個殘差塊Block3和Block4中使用擴張卷積代替下采樣操作,這樣能夠保留更多的細節(jié)信息并且不增加額外的參數(shù)。基礎網絡最后輸出的特征圖尺寸為輸入尺寸的1/8。
由于高分辨率遙感圖像中存在場景復雜,目標大小不一的情況,而場景復雜度和目標尺寸大小的差異會影響基礎網絡的特征提取。為了解決這些問題,本文設計了一種多尺度信息融合模塊。多尺度信息融合模塊如圖2所示。
圖2 多尺度信息融合模塊
為了獲取不同尺度的上下文信息,采用空間金字塔池化結構提取多尺度特征。將基礎網絡提取到的特征分別通過共四個不同大小的自適應平均池化。本文根據不同目標在遙感圖像中所占像素區(qū)域大小的差異,將自適應平均池化的輸出尺寸設置為1、2、4和8,因此每個特征圖被劃分為1、4、16和64個子區(qū)域,然后分別利用1×1卷積減少通道的數(shù)量,采用雙線性插值的方式將特征圖上采樣到輸入尺寸相同的大小,最后將多個特征圖進行拼接融合。
為了獲取高層特征中不同通道之間的關聯(lián)信息,引入通道注意力結構選擇性地強調不同通道的特征。首先將多尺度特征融合后的輸出特征圖A∈RC×H×W通過降維處理改為A∈RC×N,N=H×W,其中,C、H、W分別表示特征圖的通道、高度、寬度。接著A與自身的轉置矩陣AT∈RN×C相乘,再通過Softmax得到通道特征圖X∈RC×C,如式(1)所示。
(1)
然后,將X∈RC×C與A∈RC×N矩陣相乘,再乘以尺度系數(shù)β后通過升維處理改為原來形狀,最后與輸入的特征圖A∈RC×H×W逐像素相加得到最后的輸出E∈RC×H×W,如式(2)所示。
(2)
式中:β為尺度系數(shù),初始化為0,通過逐漸學習得到更大的權重。
最后,多尺度信息融合模塊將不同尺度的上下文信息和具有辨別性信息的通道特征進行融合,增強對多尺度目標的捕獲和分類能力。
遙感圖像的語義分割過程中,高層特征圖包含豐富的語義信息,但是下采樣操作在擴大感受野的同時丟失了對象的空間位置信息,這導致分割目標的細節(jié)難以恢復。低層特征中包含豐富的邊緣細節(jié)信息,有效利用低層特征成為了提高語義分割效果的關鍵之一。傳統(tǒng)的語義分割將高層特征直接上采樣得到輸出,導致分割的精細化程度不高。本文設計了一種多層次特征融合模塊,如圖3所示。
圖3 多層次特征融合模塊
首先將低層特征通過3×3的卷積減少特征圖的通道數(shù),然后通過全局平均池化(Global Average Pooling,GAP)和1×1卷積提取高層特征的全局信息,并將全局信息作為權重與低層特征相乘,以此強調有用的特征、抑制無用的特征。然后,采用雙線性插值的方式對高層特征進行上采樣,并通過1×1卷積減少通道的數(shù)量。最后,利用像素相加融合得到新的特征。MAFNet分別將ResNet101中Block1、Block2和Block3的輸出特征圖依次輸入到多層次特征融合模塊中,通過逐級上采樣恢復目標的細節(jié)特征。
為了驗證MAFNet的分割性能,在公開的Potsdam數(shù)據集和Vaihingen數(shù)據集上進行了實驗。
實驗采用的Potsdam數(shù)據集和Vaihingen數(shù)據集來自ISPRS二維語義標注挑戰(zhàn)賽。數(shù)據集均有6類標注,分別是道路、建筑、低植被、樹木、汽車和背景。其中,Potsdam數(shù)據集共包含38幅尺寸為6 000×6 000的高分辨率遙感圖像,地面采樣距離為5 cm。本文實驗從38幅圖像中選取24幅用于訓練,14幅用于測試。Vaihingen數(shù)據集包含33幅高分辨率遙感圖像,圖像的平均大小為2 494×2 064,本文實驗中選取16幅圖像用于訓練,17幅用于測試。為了便于訓練,本文使用滑動窗口裁剪法對圖像進行裁剪,每幅圖像大小為512×512,重疊128像素。通過隨機旋轉、垂直翻轉、模糊處理和增加椒鹽噪聲等數(shù)據增強操作后,Potsdam數(shù)據集生成共13 500幅圖片,Vaihingen共生成11 000幅圖片。
所有實驗基于深度學習框架PyTorch。采用Softmax作為分類器,它可以計算每個類別的概率,所有的類別的概率之和為1,像素l屬于類別i的概率如式(3)所示。
(3)
優(yōu)化器采用隨機梯度下降,初始學習率為0.01,動量為0.9,權重衰減為0.000 1。學習率衰減采用Poly策略,最大迭代次數(shù)為200,能量因子為0.9。第iter輪的學習率如式(4)所示。
(4)
式中:lr0為初始學習率;max_iter為最大迭代次數(shù);power為能量因子。
為了定量地評估實驗的分割效果,實驗設置了兩個常用的評價指標,分別是像素精度(Pixel Accuracy,PA)、平均交并比(mean Intersection Over Union,mIOU)。計算式如式(5)和式(6)所示。
(5)
(6)
式中:k為類別總數(shù);Pii表示預測正確的像素個數(shù);Pij表示實際類別為i、預測類別為j的像素個數(shù);Pji表示實際類別為j、預測類別為i的像素個數(shù)。值得注意的是,本文實驗中mIOU均不包括背景這一類別。
為了驗證各個模塊的有效性,設計了MAFNet的消融實驗。實驗結果如表1所示。消融實驗使用Potsdam數(shù)據集,選擇ResNet101作為基本對比網絡。首先,采用ResNet101+MIFM驗證多尺度信息融合模塊的有效性,MIFM表示多尺度信息融合模塊。然后,采用ResNet101+MFFM驗證多層次特征融合模塊的有效性,MFFM表示多層次特征融合模塊。最后,將兩大模塊整合在一起,驗證網絡模型MAFNet的性能。
表1 消融實驗結果(%)
根據表1實驗結果,ResNet101+MIFM的表現(xiàn)相較于ResNet101,PA值和mIOU值分別提升了4.7百分點和5.78百分點。實驗證明MIFM通過將提取的多尺度特征與通道關聯(lián)信息進行融合提高了語義分割的精度。此外,ResNet101+MFFM的PA值為89.1%,mIOU值為78.9%,分別比ResNet101高出4.4百分點和5.24百分點。MFFM將提取的多尺度特征與通道關聯(lián)信息進行融合。實驗證明MFFM可以有效融合高層特征與低層特征,在一定程度上緩解了圖像中目標邊緣細節(jié)丟失的問題。最后,本文提出的MAFNet將所有模塊集成到一起,進一步提高了性能。與ResNet101相比,PA提升了4.9百分點,mIOU提升了5.92百分點。
消融實驗表明,本文提出的多尺度信息融合模塊和多層次特征融合模塊都能在一定程度上提高遙感圖像語義分割的性能。消融實驗可視化結果如圖4所示。
(a) 遙感圖像 (b) 標簽 (c) ResNet101
為了驗證MAFNet的分割效果,與其他的模型進行了對比實驗,對比模型選擇了FCN[9]、UNet[10]、PSPNet[11]、DeepLabv3+[12]和UPerNet[13]。
(1) Potsdam數(shù)據集的對比實驗。從表2結果可以看出,MAFNet的PA值達到89.6%,mIOU值達到了79.58%,與表現(xiàn)較好的UPerNet相比,PA提升了1.0百分點、mIOU提升了1.22百分點,不同類別的IOU值分別提高了1.6百分點、1.3百分點、0.5百分點、0.5百分點和2.2百分點。在比較的其他方法中,雖然FCN8和UNet考慮了高層特征與低層特征的融合,但是特征融合的方法只是簡單的特征圖拼接或者相加,未能考慮不同層級的特征關系。本文提出的MAFNet采用多層次特征融合模塊,逐級恢復目標的邊緣細節(jié)信息,提高了分割邊界的精細化程度。盡管PSPNet和DeepLabv3+使用不同的方式提取多尺度特征,然而未能考慮不同通道之間的依賴關系增強語義表征能力。本文提出的MAFNet采用多尺度信息融合模塊,將用于提取多尺度特征的空間金字塔池化進行改進以適應遙感圖像的尺寸差異,并與通道之間的關聯(lián)信息進行融合,提高了對目標的定位和分類能力。
表2 Potsdam測試集的對比實驗結果(%)
相較于其他模型而言,MAFNet對汽車等小目標的分割性能有明顯的提升。如圖5所示,由于汽車在總訓練圖像中所占的像素比例很小,并且容易被建筑物和樹木遮擋,其他模型很難提取出相應的特征,進而實現(xiàn)正確的像素分類。在此基礎上,MAFNet采用多尺度信息融合模塊以提高對目標的定位和分割能力,解決了遙感圖像中目標尺寸差異大導致分割精度不高的問題。因此,即使目標在圖像中占據較小的區(qū)域,也可以提取并融合成有效的特征,從而進行正確的分割。
(a) 遙感圖像 (b) 標簽
(2) Vaihingen數(shù)據集的對比實驗。從表3得到的結果來看,MAFNet在Vaihingen數(shù)據集上的PA為89.1%,mIOU的平均值為75.98%,分別比其最接近的競爭對手方法PSPNet高出1百分點和0.82百分點。雖然Vaihingen的數(shù)據量比Potsdam的數(shù)據量要小,但是MAFNet仍然獲得了不錯的分割效果。
表3 Vaihingen測試集的對比實驗結果(%)
如圖6所示,MAFNet對建筑物這類大尺度目標的內部像素的分類更為準確,目標邊緣輪廓更為清晰,而其他模型的錯誤分割現(xiàn)象嚴重,精細化程度不高。實驗結果表明MAFNet較好地解決了目標邊緣細節(jié)難以恢復的問題。從Vaihingen數(shù)據集的對比實驗可以看出,MAFNet的分割泛化性較強,不具有單數(shù)據集的偶然性,對不同的遙感數(shù)據集依然表現(xiàn)良好。
(a) 遙感圖像 (b) 標簽
針對遙感圖像中背景復雜、目標差異大等問題,本文提出一種用于遙感圖像語義分割的多特征注意力融合網絡MAFNet。設計了一種多尺度信息融合模塊增強特征圖的語義表征能力,利用空間金字塔池化結構提取多尺度特征,同時與特征通道的關聯(lián)信息融合。設計了一種多層次特征融合模塊精細化目標的分割邊界,基于注意力機制將高層特征和低層特征自適應地融合。實驗表明,MAFNet的分割精度高于其他比較的模型,各個模塊對于基礎網絡的分割性能均有不同程度的提升。由于遙感圖像的語義分割屬于監(jiān)督學習,考慮到圖像數(shù)據的標注工作量很大,下一步的研究方向是對于弱標注的遙感圖像進行語義分割。