盧麒,秦軍,姚雪東,吳艷蘭,3,朱皓辰
(1.安徽大學資源與環(huán)境工程學院,合肥 230601;2.武漢大學測繪遙感信息工程國家重點實驗室,武漢 430072;3.安徽省地理信息智能技術工程研究中心,合肥 230601)
遙感影像建筑物提取是遙感監(jiān)測的基本任務之一,在城市規(guī)劃[1]、城市變化監(jiān)測[2]等實際應用中發(fā)揮著重要作用。隨著遙感技術的不斷發(fā)展,各類型遙感衛(wèi)星傳感器生產(chǎn)高時間、高空間分辨率的遙感影像,在提供更加豐富、復雜建筑物信息的同時,提高了衛(wèi)星遙感影像信息提取算法的要求,為遙感影像建筑物提取帶來了巨大挑戰(zhàn)。
應用遙感技術進行建筑物提取的傳統(tǒng)方法主要有基于像元和面向?qū)ο?類?;谙裨倪b感影像建筑物提取方法是根據(jù)影像上由于各類地物的光譜差異所反映出的像元值差異,通過各種方法設定相應的規(guī)則來將存在差異的像元加以區(qū)分和歸類,從而實現(xiàn)不同地物的分類。目前最常用的分類規(guī)則設定方法有最大似然法[3]、支持向量機[4]、決策樹[5]、隨機森林[6]、人工神經(jīng)網(wǎng)絡[7]等。這些方法具有算法成熟、可操作性高等優(yōu)勢,但沒有綜合考慮目標的空間、紋理等信息,而高分辨率遙感影像中建筑物形態(tài)多樣、背景復雜,因此基于像元的提取方法容易出現(xiàn)“異譜同物”、“同譜異物”等問題,導致誤分、漏分,使得提取結果的精度不高。面向?qū)ο蠓诸怺8]是目前高分辨率遙感影像建筑物提取的重要方法,該方法考慮到影像中建筑物的幾何特征和紋理信息[9],有效地避免了基于像元分類中光譜差異帶來的分類誤差。但影像中復雜的場景(如樹木遮擋、建筑陰影)會造成建筑物提取不完整;同時單一的特征參數(shù)很難有效提取不同尺度的建筑信息[10]。另一方面,傳統(tǒng)遙感提取方法都要經(jīng)過人為選定分類規(guī)則,不僅存在工作量大、效率低等問題,還對不同傳感器的多源遙感影像建筑物提取的泛化能力差,因此當下需要更有效、更自動化的遙感建筑物提取技術。
近年來,利用深度學習[11]實現(xiàn)遙感影像建筑物提取已取得了廣泛應用,包括基于圖像塊[12-13]和基于全卷積神經(jīng)網(wǎng)絡(fully convolutional networks,F(xiàn)CN)[14-15]兩類方法對圖像進行像素級分類?;趫D像塊的方法通過評估像素周圍的小斑塊來分類每個像素,文獻[12]將相鄰區(qū)域的低層次形狀特征與卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)特征相結合,能夠保證建筑物提取的完整性,從而得到更精確的建筑物提取效果。但這種方法產(chǎn)生重疊斑塊會導致冗余計算,而基于FCN方法進行端到端分割,可直接對像素進行分類,無需冗余計算,相比基于圖像塊方法更準確和高效。目前,諸多學者已在基于FCN的遙感建筑物提取研究中做出貢獻,提出在網(wǎng)絡中加入深度殘差學習[16]、利用反卷積網(wǎng)絡[17]、采用新型的激活函數(shù)(ELU)提高網(wǎng)絡性能[18]、在卷積層采用更大的卷積核[19]和引入空洞卷積提取更大范圍的建筑物特征[20]等方法,能夠有效提取出具有不同尺度、豐富拓撲外觀和復雜背景的建筑物。但上述基于FCN的遙感影像建筑物提取方法仍存在以下兩個問題:一是相比輸入產(chǎn)生較低分辨率的輸出特征圖,造成小目標信息丟失,而在上采樣中對高分辨率特征的淺層細節(jié)特征利用不充分;二是特征層間的簡單卷積操作不能充分利用不同層的特征信息。Sun等[21]提出一種新的網(wǎng)絡結構即高分辨率深度神經(jīng)網(wǎng)絡,該網(wǎng)絡能夠在整個網(wǎng)絡中保持特征圖的高分辨率,在獲得深層特征的同時保留淺層特征并使深淺層特征信息不斷融合。這種網(wǎng)絡結構能夠有效結合網(wǎng)絡中深淺層特征[22],將其應用于建筑物提取能有效提高小目標建筑物的提取能力,但該網(wǎng)絡對特征抽取能力不足,信息傳遞能力難以滿足建筑物提取的精確要求。而DenseNet利用密集連接塊(DenseBlock)抽取不同層的特征信息,增強特征的復用能力,能有效提高建筑物分割的精度[23]。
針對當前小目標建筑信息丟失嚴重,現(xiàn)有網(wǎng)絡特征利用能力不足,分割精度有待提升等問題,本文提出了一種新型的多層次感知網(wǎng)絡建筑物提取方法,通過構建不同層級的并行網(wǎng)絡,在提取深層特征的同時保留目標淺層信息,并在不同層級的網(wǎng)絡中加入密集連接機制增強特征信息提取能力,同時在深層網(wǎng)絡中利用空洞空間金字塔(atrous spatial pyramid pooling,ASPP)模塊擴大感受野,獲取建筑物多尺度信息。
在CNN中,淺層特征的細節(jié)信息比較豐富,而深層特征具有豐富的語義信息[24]。傳統(tǒng)基于編碼和解碼結構的CNN主要使用池化操作來獲得高級語義信息,導致了特征分辨率和空間精度的損失,而解碼器很難恢復這種精度。同時,在多次池化過程中,細節(jié)信息丟失嚴重,容易造成小目標的丟失。
針對上述問題,本文通過多支網(wǎng)絡并行與特征融合等方式連接高低分辨率,構建了全新的多層次感知網(wǎng)絡。其中,多支網(wǎng)絡并行的結構能夠保留不同分辨率的特征信息,同時多級特征信息相互融合,有效減少空間信息的丟失;每支網(wǎng)絡中主要利用密集連接機制增強卷積層間的信息傳遞,提高特征信息的利用能力;為顧及不同尺度的地物信息,在底層網(wǎng)絡中利用ASPP結構獲取深層多尺度特征感受野信息。本文提出的多層次感知網(wǎng)絡能夠充分利用不同分辨率的特征信息,捕捉多尺度地物信息,有效地提高遙感影像建筑信息的分割精度。該網(wǎng)絡結構如圖1所示。原始影像進入網(wǎng)絡后,首先利用步長為2的卷積進行下采樣操作減少特征圖大小,降低計算量。接著,特征圖每經(jīng)過一次密集連接塊后,都將進行下采樣操作。同時每次下采樣生成的特征圖都將通過分支網(wǎng)絡保持特征圖大小,并利用密集連接塊獲取特征信息,共生成4個分支網(wǎng)絡,輸出 4 種不同分辨率的特征。4個分支網(wǎng)絡由上到下依次為第1,2,3,4分支,每個分支網(wǎng)絡利用特征融合模塊實現(xiàn)不同分支網(wǎng)絡間的多層次特征結合。為了獲取建筑物深層特征的多尺度信息,網(wǎng)絡在第4分支后增加了ASPP模塊。在恢復特征信息過程中,第2,3,4分支通過連續(xù)上采樣操作將特征圖恢復到第1分支的特征圖大小。將4支網(wǎng)絡的特征圖合并后,利用上采樣操作將特征圖恢復到原始影像大小,并利用softmax函數(shù)實現(xiàn)建筑物的精確分割。
圖1 網(wǎng)絡結構流程Fig.1 Flow chart of network structure
為保證網(wǎng)絡中層與層之間最大程度的信息傳輸,DenseNet[25]提出密集連接塊并引入FCN,加強了特征傳播,在遙感影像信息提取方面被廣泛應用[26]。密集連接塊將所有前一層的特征映射作為層的輸入直接傳遞給后面的所有層,即任何兩層之間都有直接的連接,以此達到特征復用的效果。對于一個具有L層的網(wǎng)絡,共有L(L+1)/2個連接,結構如圖2所示。密集連接的表達式如下:
圖2 包含3個卷積層的密集連接塊Fig.2 A denseblock with three convolutional layers
XL=HL([X0,X1,X2,…,XL-1]),
(1)
式中:[X0,X1,X2,…,XL-1]為L層前的所有特征圖;HL為非線性組合函數(shù),包括批量歸一化層(BN)、非線性激活層、卷積層(Conv)和dropout層。密集連接塊不僅可以解決網(wǎng)絡訓練過程中出現(xiàn)的梯度消失等問題,還能夠極大減少網(wǎng)絡中的參數(shù)量。
FCN網(wǎng)絡結構的弊端是下采樣過程中卷積和池化操作會造成空間特征的丟失,導致細節(jié)信息的丟失。Chen等[27]提出空洞卷積,利用空洞卷積替換下采樣中的池化操作,擴大感受野的同時有效地減小了空間特征的損失。但連續(xù)的空洞卷積操作會產(chǎn)生“棋盤效應”,影響目標信息的連貫性,且較大的空洞率不利于小物體分割。為了解決以上問題,ASPP[28]結構采用不同大小空洞率的空洞卷積并行連接獲取多尺度信息,每個尺度為一個獨立的分支,在網(wǎng)絡最后將各尺度合并起來進行卷積輸出。這種結構既有效獲得豐富的上下文信息,又有助于提取多尺度建筑物的特征信息。
ASPP具體組成包括:(a)多尺度空洞卷積,一個1×1卷積和3個3×3的空洞率分別為6,12,18的空洞卷積;(b)全局平均池化,獲得圖像級特征。最后,兩者拼接后卷積融合,如圖3所示。
圖3 空洞空間金字塔Fig.3 Atrous spatial pyramid pooling
為了最大程度地保留高低分辨率特征,本文構建特征融合模塊加強分支網(wǎng)絡之間的深淺層特征結合與利用。該模塊主要有3種表現(xiàn)形式,如圖4所示。圖4(a)為高分辨率特征圖保持不變,低分辨率特征圖通過1×1卷積將通道數(shù)保持與高分辨率相同維度,接著利用上采樣插值將低分辨率特征圖變?yōu)楦叻直媛侍卣鲌D相同大小,而后將高分辨率特征圖與低分辨率特征圖通道疊加,再使用ReLU激活函數(shù)輸出。圖4(b)為低分辨率特征圖保持不變,高分辨率特征圖通過卷積核大小為3×3、步長為2、通道數(shù)與低分辨率特征圖相同的卷積,將高分辨率特征圖下采樣至低分辨率特征圖相同大小后,疊加高分辨率特征圖與低分辨率特征圖通道,再使用ReLU激活函數(shù)輸出。圖4(c)為保持中分辨率特征圖不變,低分辨率特征圖通過上采樣插值變?yōu)橹蟹直媛侍卣鲌D相同大小,高分辨率特征圖通過卷積核大小為3×3、步長為2、通道數(shù)與低分辨率特征圖相同的卷積,將高分辨率特征圖下采樣至中分辨率特征圖相同大小,而后將高、中、低分辨率特征圖通道疊加,最后使用ReLU激活函數(shù)輸出。
(a)高分辨率特征圖融合方法 (b)低分辨率特征圖融合方法 (c)中分辨率特征圖融合方法
國產(chǎn)高分二號(GF-2)衛(wèi)星全色影像空間分辨率為1 m,多光譜影像空間分辨率為4 m,包含藍、綠、紅、近紅外4個波段。利用ArcMap10.2和ENVI5.3軟件,采用目前被廣泛應用的Gram-Schmidt影像融合算法完成多光譜影像和全色影像的融合,融合后影像空間分辨率為1 m。GF-2衛(wèi)星遙感影像在提供建筑物豐富的地物光譜信息的同時,還能提供更多的地物結構、形狀和紋理等細節(jié)信息。由于南北方城市的建筑物類型及分布形態(tài)存在差異,因此分別選取一景合肥市和一景天津市的GF-2遙感影像數(shù)據(jù)作為數(shù)據(jù)源。所選區(qū)域均為主城區(qū),建筑物覆蓋類型多樣且密集,能夠提供豐富的建筑物樣本,提高樣本庫的多樣性。同時,本文分別將合肥、天津影像的部分區(qū)域劃分為測試數(shù)據(jù),以安徽省合肥市部分區(qū)域為例,具體劃分范圍如圖5所示。
圖5 合肥市訓練區(qū)域和測試區(qū)域劃分范圍Fig.5 Division scope of training area and testing area in Hefei
此外本文選用其他不同傳感器和不同分辨率的數(shù)據(jù),包括高分一號(GF-1)、高分六號(GF-6)以及高景(SV1)數(shù)據(jù)對本文方法進行泛化性驗證。具體影像信息如表1。
表1 影像參數(shù)Tab.1 Image parameters
樣本示例如表2所示。
表2 原始影像與建筑物標簽數(shù)據(jù)Tab.2 image and label data of building
利用目視解譯方法以建筑物屋頂輪廓為界限勾畫建筑物矢量數(shù)據(jù)(邊界精確到單個像元),再生成標簽數(shù)據(jù)。為獲取更大的建筑信息,本文按512×512和800×800的大小對影像和標簽數(shù)據(jù)進行分割,并取多個不同切割步長來增加數(shù)據(jù)量,共生成23 372幅子圖。其中訓練數(shù)據(jù)和測試數(shù)據(jù)比例按3∶1進行隨機篩選,最終17 373張用于模型訓練,5 999張用于模型精度驗證。
本文在Tensorflow框架下進行網(wǎng)絡模型的訓練,在訓練前對網(wǎng)絡模型主要參數(shù)進行設置,訓練過程中采用交叉熵損失函數(shù),優(yōu)化器使用Adam函數(shù)初始學習率為0.001,之后根據(jù)訓練輪數(shù)epoch對學習率進行自動調(diào)整,動量參數(shù)設置為0.99。將每一輪的訓練次數(shù)設置為5 000次,batch size設置為4,正則化系數(shù)為10-3,輪數(shù)為80輪。
為了量化分析提取結果,本文采用基于像元的評價方法。通過統(tǒng)計對提取建筑物內(nèi)的像元數(shù)量,常用評價指標有總體精度(overall accuracy,OA)、交并比(intersection-over-union,IOU)和綜合評價指標F1值。其中OA是衡量分割精度的全局指標[29],能正確檢測到建筑物和非建筑物像素的個數(shù)之和與所有像素個數(shù)的比值;IOU是檢測結果與真實值的交集比上它們的并集,公式為:
(2)
(3)
(4)
式中:tp為真正值;fp為假正值;fn為假負值;r為正確像素在真實值中的比例;p為正確像素在預測結果中的比例。F1是精確度和召回率之間的幾何平均值,又稱兩者的調(diào)和平均數(shù),是衡量二分類模型精確度的一種指標,公式為:
(5)
用本文方法分別對合肥區(qū)域和天津區(qū)域進行測試,測試結果如圖6。建筑物的整體識別效果較好,各類型建筑物均能被提取出來,且沒有出現(xiàn)其他地物誤分情況。表3中統(tǒng)計了本文方法分別對2幅測試區(qū)域影像建筑物提取結果的各精度指標,由表可知本文方法的提取結果在OA,IOU和F1的平均精度分別為97.19%,74.33%和85.43%。
(a)合肥區(qū)域遙感影像 (b)地表真值標簽 (c)本文測試結果
表3 測試精度Tab.3 Test accuracy (%)
為了驗證本文方法相比于其他建筑物提取方法的優(yōu)勢,本文選取了3種經(jīng)典的傳統(tǒng)方法(最大似然法、支持向量機、面向?qū)ο蠓椒?和3種具有典型性的先進深度學習網(wǎng)絡(DenseNet[23],DeeplabV3+[28]和BiseNet[30])進行對比分析。
3.2.1 與傳統(tǒng)方法的對比分析
在最大似然法和支持向量機實驗中,本文將地物按照建筑物、植被、水體、道路、裸地作為分類目標來選擇訓練樣本,兩種方法使用同一感興趣區(qū),分類完成后將植被、水體、道路、裸地統(tǒng)一歸為背景;在面向?qū)ο蠓椒╡Cognition軟件中參數(shù)設置參考杜一民等的研究[31],最終實現(xiàn)了傳統(tǒng)方法建筑物提取工作。由表4可以看出,本文方法在多項精度指標上都優(yōu)于其他3種傳統(tǒng)方法。在OA,IOU以及F1值上比傳統(tǒng)方法中表現(xiàn)最好的支持向量機分別高了13.16,28.86和22.97百分點。
表4 與傳統(tǒng)方法提取精度對比Tab.4 Comparison of extraction accuracy with traditional methods (%)
表5為本文方法與傳統(tǒng)方法在圖6中A—D區(qū)域的提取結果。由圖可知,本文方法的建筑物提取結果相比另外3種傳統(tǒng)方法,與地表真值符合程度更高。以圖6中標記紅框的區(qū)域A的工廠建筑進行研究對比發(fā)現(xiàn),由于道路與灰色屋頂建筑的光譜特征較為接近,導致最大似然法和支持向量機對建筑物漏分和誤分現(xiàn)象比較嚴重;面向?qū)ο蠓椒ㄌ崛⌒Ч啾惹皟蓚€方法較好,但建筑物間邊界模糊不清晰。對于標記紅框區(qū)域B的農(nóng)村低矮建筑,受影像中復雜背景的影響,3種傳統(tǒng)方法的提取結果均不理想。雖然面向?qū)ο蟮姆椒ㄔ谀承﹫鼍疤岣吡俗R別能力,但其準確性取決于訓練樣本的選擇。對標記紅框區(qū)域C的高層建筑對比發(fā)現(xiàn),3種傳統(tǒng)方法主要受高層建筑陰影的影響較大,且也出現(xiàn)了道路誤提的現(xiàn)象。而標記紅框區(qū)域D的密集型建筑中,支持向量機較另外兩種傳統(tǒng)方法的提取結果減少了誤分的情況,但其相比本文方法在建筑物邊界處理上不夠精細,獨立房屋沒有被單獨識別出來。高層次特征在建筑物提取中占主導地位,深度學習方法能夠有效避免傳統(tǒng)方法出現(xiàn)的“同物異譜”、“同譜異物”和“椒鹽”噪聲等問題。
3.2.2 與深度學習方法對比分析
本文在相同的訓練條件下,分別與DenseNet,DeeplabV3+和BiseNet這3種經(jīng)典的深度學習網(wǎng)絡模型對比分析。表6統(tǒng)計了不同方法測試的結果,從表6中可以看出,本文方法提取精度整體優(yōu)于其他深度學習方法,在OA,IOU,F(xiàn)1上分別高出性能最好的DeeplabV3+方法6.18,4.32和2.72百分點,證明了該網(wǎng)絡在高分辨率遙感影像建筑物提取方面的優(yōu)越性。由表7可知,區(qū)域A中 DenseNet和BiseNet方法有明顯的漏分現(xiàn)象且識別結果破碎,DeeplabV3+在建筑物提取的完整性上表現(xiàn)較好,但邊界模糊使得多個建筑物間粘連,本文方法對邊緣細節(jié)的處理和小目標的識別均優(yōu)于其他3種方法。由區(qū)域B分析可知,對于小目標的識別本文方法更有優(yōu)勢,減少了漏分的現(xiàn)象。由區(qū)域C對比發(fā)現(xiàn),對于不規(guī)則形狀的建筑物,本文方法的識別效果更加完整。由區(qū)域D可知,對于密集型建筑的提取,DenseNet和DeeplabV3+方法的結果均存在多處多個相鄰建筑物間粘連的現(xiàn)象,BiseNet方法雖在這方面表現(xiàn)較好,但建筑物輪廓識別得不夠完整。本文方法通過改進原有平行卷積神經(jīng)網(wǎng)絡,增加了密集連接塊與ASPP結構,在提高對高空間分辨率遙感影像中建筑物的細節(jié)特征的提取能力和顧及全局上下文信息的同時,更有效地融合淺層特征的細節(jié)信息和深層特征的語義信息,對形態(tài)復雜及多尺度建筑物具有更好的提取效果。
表6 與深度學習網(wǎng)絡模型提取精度對比Tab.6 Comparison of extraction accuracy with classic deep learning network model (%)
表7 與經(jīng)典深度學習網(wǎng)絡模型提取結果對比Tab.7 Comparison of extraction results with classic deep learning network model
在遙感建筑物提取任務中,針對不同地區(qū)、不同傳感器、不同分辨率的遙感影像,基于光譜的監(jiān)督分類方法需要選取不同的感興趣區(qū),面向?qū)ο蠓诸惙椒ㄐ枰藶榇_定不同的分類規(guī)則,故傳統(tǒng)分類方法泛化性較差。本文提出的多層次感知網(wǎng)絡利用訓練好的GF-2模型可直接對不同傳感器的遙感影像進行建筑物自動化提取。為驗證本文方法的泛化能力,本文選取GF-1,GF-6和SV1影像數(shù)據(jù)進行泛化性驗證,提取結果如圖7所示。從圖7的測試結果可以看出,本文方法在不同傳感器遙感影像上的建筑物提取效果良好。對于GF-1和GF-6遙感影像,在密集城區(qū)建筑中存在部分低矮建筑的漏分和誤分,但總體來說本文方法仍具有良好的識別效果。對于SV1遙感影像中的農(nóng)村建筑,受周圍樹木遮蓋的影響,建筑物邊界輪廓不夠完整。表8為各類影像的提取精度。實驗證明,本文方法在GF-1,GF-6以及SV1影像上也具備較好的泛化性,其中高分辨率的SV1影像測試結果的總體精度達95.93%。
(a)GF-1遙感影像 (b)GF-1地表真值標簽 (c)GF-1測試結果
(d)GF-6遙感影像 (e)GF-6地表真值標簽 (f)GF-6測試結果
表8 測試精度表Tab.8 Test accuracy (%)
本文為克服遙感影像建筑物提取中小目標建筑的漏提現(xiàn)象,提出了一種多層次感知網(wǎng)絡。該網(wǎng)絡通過不斷融合不同層級之間的特征信息并增強特征抽取能力,可以有效提升建筑物的分割精度并減少小目標漏提現(xiàn)象。通過與傳統(tǒng)遙感提取方法和基于深度學習的語義分割算法的試驗結果作對比并經(jīng)過泛化性實驗,得出以下幾點結論。
1)本文方法對建筑物提取效果良好,在OA,IOU,F(xiàn)1這3種精度評價指標上分別為97.19%,74.33%,85.43%,各指標均高于傳統(tǒng)方法。相比其他深度學習的語義分割算法,能在保持較高分類精度的同時,有效地識別小目標建筑并處理邊緣細節(jié),對于多尺度建筑物具有更好的提取效果。
2)本文方法對于GF-1,GF-6和SV1遙感影像具有較好的泛化性,增加了方法的實用能力,但對于分辨率較低的遙感影像存在漏分和誤分的現(xiàn)象。后續(xù)工作將考慮加入多類傳感器的建筑物樣本,進一步提高模型的泛化性能,以期取得更佳的建筑物提取效果。