徐勝軍,張若暄*,孟月波,劉光輝,韓九強(qiáng)
(1.西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710055;2.西安市建筑制造智動化技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710055;3.西安交通大學(xué) 電子與信息學(xué)部,陜西 西安 710049)
近年來,遙感圖像建筑物分割作為遙感圖像分析中的關(guān)鍵問題之一受到了廣泛關(guān)注。建筑物作為城鄉(xiāng)區(qū)域占主體地位的地物目標(biāo),精確的建筑物分布信息對于監(jiān)測城市地區(qū)的變化、城市規(guī)劃和人口估計(jì)等科學(xué)研究具有重要意義[1]。然而與遙感圖像中水體和森林等自然景物相比,建筑物常受到光照、季節(jié)、角度和邊界不清晰以及背景信息復(fù)雜等強(qiáng)干擾的影響,這些干擾給遙感圖像建筑物的準(zhǔn)確分割帶來了很大挑戰(zhàn)。
傳統(tǒng)的遙感圖像建筑物分割方法主要以人工或機(jī)器學(xué)習(xí)方法獲取的淺層特征作為圖像分割的依據(jù)。Andres等[2]采用多閾值相結(jié)合的方法對于單一目標(biāo)進(jìn)行分類分割,提出了一種基于閾值的建筑物多框架協(xié)同分割方法。Lakshmi等[3]利用微分算子進(jìn)行邊緣檢測,設(shè)計(jì)了一種基于邊緣檢測進(jìn)行圖像分割的方法。Adams等[4]通過選取種子點(diǎn)集,并與周圍相似的像素進(jìn)行合并,不斷更新迭代直到滿足條件為止,進(jìn)行基于種子生長區(qū)域的圖像分割。李靜[5]基于歸一化轉(zhuǎn)動慣量(Normalized Moment of Inertia,NMI)特征的超像素塊相似性度量對遙感圖像進(jìn)行分割,降低了超像素對噪聲的敏感性,提高了影像分割的精度。雖然傳統(tǒng)方法取得了一定的分割效果,但由于其只能提取到圖像的淺層特征,沒有考慮圖像的深層語義特征,難以對蘊(yùn)含大量語義信息的遙感圖像建筑物進(jìn)行有效分割,因而阻礙了傳統(tǒng)方法在遙感建筑物分割領(lǐng)域的大規(guī)模應(yīng)用。
深度學(xué)習(xí)能夠有效提取圖像中的深層特征,充分利用遙感圖像中的語義信息。這類算法通過神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)圖像特征,建立圖像與分割目標(biāo)之間復(fù)雜的映射模型,可以實(shí)現(xiàn)端對端、像素對像素的語義分割,在遙感圖像分割領(lǐng)域受到廣泛關(guān)注[6-14]。Zheng等[15]將U-Net模型應(yīng)用于遙感圖像分割中,實(shí)現(xiàn)端到端的遙感圖像像素級語義分割。Hosseinpoor等[16]對U-Net進(jìn) 行 了 改進(jìn),加入特征嵌入融合(Embedding Feature Fu?sion,EFF)模塊,用于增強(qiáng)低級與高級特征的融合,在提取復(fù)雜建筑物方面取得了較好效果。Ren等[17]在U-Net模型中引入Dropout以減少過擬合,并且引入AC-Net增強(qiáng)特征提取能力,有效提高了模型準(zhǔn)確率。陳欣等[18]針對復(fù)雜背景下遙感小目標(biāo)的檢測問題,在原SSD算法中引入通道注意力模塊,通過構(gòu)建權(quán)重參數(shù)空間,將注意力集中在關(guān)注目標(biāo)區(qū)域的通道,有效降低了背景干擾。Bao等[19]基于Deeplab V3+使用輕量級網(wǎng)絡(luò)Mobile net V3提取特征,然后使用空洞金字塔結(jié)構(gòu)擴(kuò)展感受野,最后采用雙線性插值法對輸出特征圖像進(jìn)行上采樣得到像素級預(yù)測分割圖,取得了良好的分割效果。Pan等[20]針對邊緣像素易被誤分割問題,提出一種漸進(jìn)式邊緣引導(dǎo)網(wǎng)絡(luò)(PEG-Net),利用檢測模塊(Edge Detection Mod?ule,EDM)和引導(dǎo)模塊(Guidance Module,GM)對特征空間進(jìn)行重構(gòu),通過重新學(xué)習(xí)易出錯的邊緣像素提高分割模型的判別能力。Pan等[21]注意到上采樣重建過程中小區(qū)域變化難以檢測等問題,設(shè)計(jì)了一個密集連接的特征融合網(wǎng)絡(luò)(DCFF-Net),通過兩個VGG流架構(gòu)差異提取網(wǎng)絡(luò),在融合過程引入注意力,有效彌補(bǔ)了池化操作造成的高分辨率位置信息丟失。
隨著深度學(xué)習(xí)網(wǎng)絡(luò)深度的增加,在卷積網(wǎng)絡(luò)的訓(xùn)練過程中易出現(xiàn)梯度過多或消失的情況,導(dǎo)致訓(xùn)練無法正常進(jìn)行。為了解決這一問題,He等[22]提出深度殘差網(wǎng)絡(luò)(Resnet),通過在卷積層中加入殘差學(xué)習(xí)單元,能有效緩解網(wǎng)絡(luò)訓(xùn)練問題。王宇等[23]利用Resnet學(xué)習(xí)建筑物特征并建立高維強(qiáng)非線性分割模型,通過條件隨機(jī)場的成對勢函數(shù)調(diào)節(jié)各像素點(diǎn)之間的關(guān)聯(lián)關(guān)系,構(gòu)成全連接條件隨機(jī)場對分割結(jié)果進(jìn)行調(diào)節(jié),有效提升分割精度。徐勝軍等[24]在Resnet的基礎(chǔ)上中引入空洞卷積增大特征提取的感受野,以捕捉更豐富的多尺度細(xì)節(jié)特征,這種方法不僅提高了分割精度,而且有效克服了道路、樹木等因素的干擾,得到了較清晰的建筑物邊界。Zhao等[25]將注意力機(jī)制應(yīng)用于通用ASPP模塊以提高模型性能,對Resnet網(wǎng)絡(luò)進(jìn)行了細(xì)化調(diào)整,同時(shí)引入CNN模型中的池化層(Pooling layers in CNN models,PIC)模塊將高級特征與低級特征進(jìn)行融合,能夠有效地捕獲多尺度信息。
基于深度學(xué)習(xí)網(wǎng)絡(luò)的遙感圖像建筑物的準(zhǔn)確分割依賴于對建筑物圖像特征信息的有效表達(dá),然而建筑物由于光照、季節(jié)、角度和邊界不清晰等數(shù)據(jù)本身存在的干擾,導(dǎo)致深度學(xué)習(xí)網(wǎng)絡(luò)難以真正學(xué)習(xí)到其本質(zhì)邊緣特征,因此常造成遙感建筑物圖像分割邊緣的模糊。分形維數(shù)(Fractal Dimension)作為刻畫分形集合性質(zhì)的維數(shù),不僅可以反映圖像的空間結(jié)構(gòu)信息,而且能定量描述圖像的復(fù)雜性[26]。遙感圖像中,樹木、河流、草地等自然景物具有強(qiáng)分形,而建筑物、道路等人造物體具有弱分形。受此啟發(fā),提出了一種融合分形幾何特征Resnet遙感圖像建筑物的分割模型,根據(jù)遙感圖像中不同物體的分形特征先驗(yàn)知識,利用分形先驗(yàn)知識增強(qiáng)深度學(xué)習(xí)網(wǎng)絡(luò)對不同物體圖像特征的描述能力,從而提升對建筑物和復(fù)雜背景邊界的分割精度。所提模型由編碼和解碼兩部分組成,編碼部分引入融合分形先驗(yàn)的空洞空間金字塔池化模塊,通過分形維數(shù)獲得目標(biāo)鄰域的分形特征,增強(qiáng)了Resnet網(wǎng)絡(luò)的幾何特征描述能力;解碼部分引入深度可分離卷積注意力融合機(jī)制,融合編碼層特征,得到豐富語義信息的特征圖。實(shí)驗(yàn)結(jié)果表明,本模型具有良好的細(xì)節(jié)分辨率,能夠更加有效、準(zhǔn)確地提取遙感圖像中的建筑物目標(biāo)。
2.1.1分形維數(shù)概念
圖像的紋理是所有物體表面共有的一種內(nèi)在特征,分形維數(shù)可以有效表達(dá)圖像的紋理特征[27],這種紋理特征反映了圖像中同質(zhì)現(xiàn)象的視覺特征,且不依賴于圖像顏色或亮度變化。相關(guān)研究表明[28],分形維數(shù)直觀上與物體表面的粗糙程度相吻合,本質(zhì)刻畫了圖像像素鄰域灰度空間分布的規(guī)律。由于自然物體和人工物體的圖像在分形維數(shù)存在差異使得基于分形理論的圖像分析成為可能。因此,分形維數(shù)作為一種刻畫圖像表面特征的重要參數(shù),是描述分形特征的定量指標(biāo),也是描述分形圖像自相似的不確定特點(diǎn)的一個重要的參數(shù)。
2.1.2分形維數(shù)計(jì)算方法
分形維數(shù)存在多種計(jì)算方法,其中差分盒維數(shù)法(Differential Box Counting,DBC)[29]具有計(jì)算量小、計(jì)算精度高等優(yōu)點(diǎn),廣泛應(yīng)用于分形維數(shù)的計(jì)算。DBC方法的計(jì)算過程如下:
令X表示一幅大小為W×W的遙感圖像,基于分形理論,通??梢詫⑦b感圖像X劃分為大小w×w×G的立方體網(wǎng)格,其中w×w表示劃分的立方體網(wǎng)格的長和寬,G表示遙感圖像像素的灰度級。在立方體網(wǎng)格中進(jìn)行盒子劃分,劃分盒子高度為h=w×G/W,計(jì)算分割尺度為r=w/W。對每個網(wǎng)格從底層向上編號,找出最大灰度值和最小灰度值所在盒子編號作差,則可求出該網(wǎng)格差分盒子數(shù)nr,對nr求和可得總盒子數(shù)Nr。最終用最小二乘法對多組log(Nr)和log(1/r)進(jìn)行線性擬合,擬合直線的斜率即為圖像X的分形維數(shù)D。
建筑物遙感圖像具有高維性、強(qiáng)背景干擾等特征,淺層網(wǎng)絡(luò)提取的淺層特征在傳播過程中信息丟失嚴(yán)重,因而常導(dǎo)致遙感圖像分割出現(xiàn)誤分割現(xiàn)象。深度殘差神經(jīng)網(wǎng)絡(luò)(Resnet)[22]在網(wǎng)絡(luò)中引入了殘差模塊(Residual module),通過學(xué)習(xí)多個網(wǎng)絡(luò)層輸入、輸出之間的殘差,既保留了淺層特征在傳播過程中的完整性,又有效提高了位置信息的利用率,解決了網(wǎng)絡(luò)層數(shù)加深帶來的梯度消失和精度下降的問題。所采用的Resnet101網(wǎng)絡(luò)共由四個大的殘差模塊(Residual module)組成,四個Residual module中分別由3、4、23、3個小的殘差塊組成。另外在網(wǎng)絡(luò)的最前端由1個7×7的卷積層和maxpool層組成,最后端為平均池化層。Resnet101網(wǎng)絡(luò)及其殘差模塊如圖1所示。
圖1 Resnet101網(wǎng)絡(luò)及其殘差模塊Fig.1 Resnet101 network and residual module
圖1(a)表示Resnet101的網(wǎng)絡(luò)結(jié)構(gòu),圖1(b)表示其殘差模塊,該模塊在核尺寸為1×1的兩個卷積層之間連接3×3卷積層,這種架構(gòu)設(shè)計(jì)稱為瓶頸設(shè)計(jì)(Bottle Neck,BN),與兩層3×3卷積層的殘差塊相比,在幾乎不造成信息損失的同時(shí)有效降低了參數(shù)量和計(jì)算量。
由于遙感圖像中建筑物尺寸大小不一,Resnet網(wǎng)絡(luò)利用固定大小的建筑物特征無法對一些較小尺寸的建筑物實(shí)現(xiàn)精細(xì)化分割,甚至出現(xiàn)漏分割的問題,另外由于建筑物遙感圖像中存在復(fù)雜多樣的自然背景和環(huán)境噪聲,這些干擾因素導(dǎo)致深度學(xué)習(xí)網(wǎng)絡(luò)難以真正學(xué)習(xí)到其本質(zhì)邊緣特征,因此常造成建筑物圖像邊緣分割不清。針對此問題,基于分形能夠有效描述圖像幾何特征的特點(diǎn),利用分形維數(shù)描述圖像像素鄰域灰度空間分布,建立遙感圖像中不同物體的分形特征先驗(yàn)知識,并結(jié)合通道注意力機(jī)制,提出了一種融合分形特征的Resnet網(wǎng)絡(luò)模型用于遙感圖像建筑物分割,提出的網(wǎng)絡(luò)利用分形先驗(yàn)知識增強(qiáng)深度學(xué)習(xí)網(wǎng)絡(luò)對不同物體圖像特征的描述能力,從而提升對建筑物和復(fù)雜背景邊界的分割精度。提出網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖2所示。
所提出的模型整體結(jié)構(gòu)分為編碼器和解碼器兩大部分。編碼器部分以Resnet101為主干網(wǎng)絡(luò)捕獲遙感圖像特征,通過在四個殘差層后引入提出的融合分形先驗(yàn)的空洞空間金字塔池化模塊(Fractal Dimension in Atrous Spatial Pyramid Pooling,F(xiàn)D-ASPP),利用遙感圖像不同對象的分形先驗(yàn)知識增強(qiáng)網(wǎng)絡(luò)對不同遙感物體圖像特征的辨別能力。解碼部分設(shè)置了4次上采樣,可以將遙感圖像特征圖的分辨率還原為輸入圖像大小。每次上采樣之后,高層次特征圖(網(wǎng)絡(luò)的上采樣層)跳躍連接相同尺寸的低層次特征圖(網(wǎng)絡(luò)的前4個Block層),使用深度可分離卷積注意力機(jī)制(Deeply Separable Convolution At?tention Fusion,DSCAF)進(jìn)行特征融合。經(jīng)過3次融合的特征圖,保留了更深層次的語義信息。最后通過輸出層將特征圖的像素進(jìn)行二分類,獲得分割結(jié)果。
圖2 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.2 Overall structure of the proposed network
空洞空間金字塔池化(Atrous Spatial Pyra?mid Pooling,ASPP)在遙感圖像分割任務(wù)能較好提取遙感圖像特征,但對于復(fù)雜背景下的建筑物遙感圖像而言,由于多尺度感受野隨著膨脹率的增加,使得模型捕獲細(xì)節(jié)信息特征能力受到限制,因此導(dǎo)致遙感圖像建筑物分割時(shí)邊緣分割效果易受干擾因素影響。分形特征能夠增強(qiáng)深度學(xué)習(xí)網(wǎng)絡(luò)的對不同物體圖像特征的描述能力,從而提升對建筑物和復(fù)雜背景邊界的分割精度。因此,提出一種融合分形先驗(yàn)的空洞空間金字塔池化模塊,具體結(jié)構(gòu)如圖3所示。
DeeplabV3中原有的ASPP模塊包含4個空洞率為(1,6,12,18)的并行支路,由于具有不同尺度的感受野,因此可以獲取多個尺度的目標(biāo)信息。然而這種空洞率參數(shù)選擇方案會產(chǎn)生網(wǎng)格效應(yīng)[29],導(dǎo)致空洞卷積會損失信息的連續(xù)性,部分信息被人為忽略。為改善這種狀況,該模塊采用沒有最小公倍數(shù)的混合空洞率的空洞卷積,將空洞率設(shè)置為(3,5,11,15),使采樣能夠覆蓋到每個像素點(diǎn)。
圖3 融合分形先驗(yàn)的空間金字塔池化模塊Fig.3 Fractal dimension in atrous spatial pyramid pooling
FD-ASPP包含多個分支,每個卷積分支中包含兩個并行塊,分別為DBC分形維數(shù)子塊和空洞卷積子塊。DBC分形維數(shù)子塊提取遙感圖像特征的幾何特征信息,空洞卷積子塊提取遙感圖像的多層次特征信息,然后將兩個子塊分別提取的多層次特征信息和分形幾何特征信息進(jìn)行融合,得到新的融合特征作為該分支的輸出。最終將FD-ASPP中多個分支的輸出融合特征信息進(jìn)行拼接,再用1×1的卷積將通道數(shù)恢復(fù)為與原特征圖相同的通道數(shù),即可得到融合分形先驗(yàn)的多尺度特征。
所提的FD-ASPP模塊通過多尺度空洞卷積可以實(shí)現(xiàn)較高的學(xué)習(xí)效率,利用擴(kuò)大感受野的方式提取多尺度的遙感圖像特征,融合不同尺度的特征信息提升模型對細(xì)節(jié)特征的表達(dá)能力;為進(jìn)一步提取更具分辨力的先驗(yàn)特征信息,通過引入分形特征增強(qiáng)了ASPP網(wǎng)絡(luò)對遙感圖像不同對象的幾何特征描述能力,不僅能抑制建筑物附近的道路、樹木、陰影等因素的干擾,而且為遙感圖像建筑物的分割提供了更具辨別力的幾何特征信息。
遙感圖像特征提取的質(zhì)量對于基于深度學(xué)習(xí)網(wǎng)絡(luò)建筑物分割精度至關(guān)重要。待分割區(qū)域的邊緣幾何特征描述不充分常導(dǎo)致網(wǎng)絡(luò)對遙感圖像建筑物的分割精度不高。分形維數(shù)作為一種有效的紋理度量方法用于遙感圖像分割能夠有效提升深度學(xué)習(xí)網(wǎng)絡(luò)的幾何特征描述能力。由于遙感圖像具有分辨率高,數(shù)據(jù)量大的特點(diǎn),傳統(tǒng)的DBC算法[30]較為簡單,在提取遙感圖像幾何特征時(shí)常表現(xiàn)出精度不足的問題。傳統(tǒng)DBC對整張?zhí)卣鲌D或固定大小的網(wǎng)格求取分形維數(shù),而本文改進(jìn)算法以每個像素點(diǎn)為中心進(jìn)行局部區(qū)域劃分,并計(jì)算每個像素點(diǎn)所在局部區(qū)域的分形維數(shù),記為該像素點(diǎn)的分形維數(shù),最終得到輸入圖像的分形維數(shù)矩陣。
改進(jìn)的DBC算法步驟如表1所示,遙感圖像的分形特征提取過程如圖4所示。
一般來說,自然圖像的幾何結(jié)構(gòu)越復(fù)雜,其圖像的紋理特征越豐富。如圖4所示,p點(diǎn)所在圖像區(qū)域較為粗糙,而q點(diǎn)所在區(qū)域較為光滑,因此p點(diǎn)的分形維數(shù)大于q點(diǎn)。也就是說,p點(diǎn)的紋理特征比q點(diǎn)更為豐富,而分形維數(shù)的比較也正好說明了這一點(diǎn)。因此,分形維數(shù)的大小可以用來表達(dá)不同區(qū)域的遙感景物特征及其特征分布。
表1 改進(jìn)的DBC算法步驟Tab.1 Improved DBC algorithm steps
圖4 分形特征提取過程Fig.4 Fractal feature extraction process
為使FD-ASPP模塊中各分支的兩個子塊提取到的特征圖能夠匹配,需要設(shè)置尺度參數(shù)使兩個子塊在同一尺度下提取遙感圖像的局部區(qū)域特征信息。因此,設(shè)定算法1的基于改進(jìn)DBC的分形維數(shù)算法的滑動窗口參數(shù)ω與不同空洞率的空洞卷積核參數(shù)σ滿足如下關(guān)系:
其中:n為卷積核大小,r為空洞卷積采樣率。
為了將ASPP和FD兩個子塊分別提取的深度特征和分形特征進(jìn)行有效融合,在每個分支的兩個子塊之后增加了一個特征融合層。在特征融合層中采用add特征融合操作,特征融合公式如下:
由式(2)可知,所提FD-ASPP在獲取更深層信息的同時(shí)增加了分形特征,有效彌補(bǔ)了ASPP模塊對遙感圖像深度特征細(xì)節(jié)信息表達(dá)的不足,提取的分形特征對于遙感圖像不同物體的幾何本質(zhì)特征表達(dá)更具分辨力,因此提出的FDASPP模塊不僅增強(qiáng)了對細(xì)節(jié)特征的描述能力,而且為建筑物分割提供了更具辨別力的幾何特征。
FD-ASPP的參數(shù)設(shè)置及特征融合輸出如表2所 示,表 中,表 示 第n個FD-ASPP的輸出。
表2 參數(shù)設(shè)置及特征FD-ASPP輸出Tab.2 Parameter settings and FD-ASPP output
高層次特征圖具備更豐富的遙感圖像語義信息,而低層次特征圖的細(xì)節(jié)信息更為豐富,包含了更多位置性信息。由于解碼階段的高層次特征圖通過直接上采樣還原,會丟失很多細(xì)節(jié)位置特征。為了保留更多的遙感圖像細(xì)節(jié)特征,常采用高層次特征圖與低層次特征圖融合的策略,獲取更加豐富的遙感圖像語義信息和位置細(xì)節(jié)信息。針對此問題,提出一種深度可分離卷積注意力融合(Deeply Separable Convolution Atten?tion Fusion,DSCAF)機(jī)制,這種機(jī)制通過利用高層次特征圖的注意力信息,指導(dǎo)低層次特征圖與高層次特征圖的融合,通過Sigmoid分類得到最終的分割結(jié)果。
LANet網(wǎng)絡(luò)[31]中通道注意力機(jī)制中采用的全局平均池化操作對于特征圖每個位置賦予了相同的權(quán)重,這種平均池化的策略在某種程度上加強(qiáng)了非重要特征,而抑制了重要特征。為了根據(jù)特征的重要程度賦予特征圖每個位置可學(xué)習(xí)權(quán)重,提出的DSCAF融合機(jī)制利用深度可分離卷積操作替代全局平均池化,在實(shí)現(xiàn)了全局池化功能的同時(shí)賦予了特征圖每個位置可學(xué)習(xí)的權(quán)重,其結(jié)構(gòu)如圖5所示。
圖5 深度可分離卷積注意力融合模塊Fig.5 Deeply separable convolution attention fusion module
DSCAF模塊首先將高層次的特征圖H利用深度可分離卷積進(jìn)行維度壓縮,將輸入的H進(jìn)行深度卷積,H∈RC×M×M,每個通道利用一個大小為K×K的卷積核進(jìn)行卷積操作。當(dāng)K=M時(shí),得到C×1×1大小的類別信息特征圖f1,f1∈RC×1×1,然后在f1之后設(shè)置一個全連接層,其計(jì)算見公式(4),δ為每個特征通道生成權(quán)重,表征特征通道間的相關(guān)性。利用激活函數(shù)Sigmoid對δ×f1進(jìn)行運(yùn)算,將特征映射到0和1之間,表示通道重要程度,輸出為特征圖f2,f2∈RC×1×1。
低層次特征圖L∈RC×M×M,將經(jīng)過特征選擇后的特征圖f2逐通道對低層次特征圖L進(jìn)行加權(quán),完成對特征圖L在通道維度上的重標(biāo)定,再與特征圖H進(jìn)行融合得到具有更豐富語義信息的特征圖f3。計(jì)算過程如公式(4)所示:
其中:Fscale(L,f2)表示低層次特征圖L與f2進(jìn)行對應(yīng)通道相乘,⊕表示特征融合操作。
解碼器部分基于所提出的DSCAF機(jī)制,將經(jīng)過轉(zhuǎn)置卷積進(jìn)行上采樣恢復(fù)后的高層次特征圖H和低層次特征圖L利用DSCAF機(jī)制進(jìn)行特征融合,網(wǎng)絡(luò)通過3層不同尺度的注意力機(jī)制進(jìn)行融合,最后的輸出不僅包含了遙感圖像中豐富的高級語義信息,而且捕獲了空間細(xì)節(jié)位置信息,因此所提的網(wǎng)絡(luò)有效減少了建筑物邊緣像素的誤分割現(xiàn)象,提升了建筑物整體分割的準(zhǔn)確率。
遙感建筑物提取問題可看作是對像素的二分類問題,通常此類問題采用二分類交叉熵?fù)p失函數(shù)。yt表示真實(shí)標(biāo)簽類別,yp表示預(yù)測為該類別的概率值,則將二分類的交叉熵?fù)p失函數(shù)定義為:
實(shí)驗(yàn)在Ubuntu系統(tǒng)下進(jìn)行,GPU型號為NVIDIA GeForce RTX 2080Ti,環(huán) 境 配 置 為CUDA10.2+Python3.6.9+Py-Torch1.6。 實(shí)驗(yàn)采用WHU Building Dataset數(shù)據(jù)集[32],該數(shù)據(jù)集由8 189張大小為512×512像素的超高分辨率(0.3 m/pixel)包含有約22 000座獨(dú)立建筑的圖像構(gòu)成。數(shù)據(jù)集按照訓(xùn)練集(4 736張)、驗(yàn)證集(1 036張)和測試集(5 416張)進(jìn)行劃分。
模型初始學(xué)習(xí)率設(shè)置為1×10-3,訓(xùn)練的ep?och為100,batch size為8。對于所提的融合分形先驗(yàn)的Resnet遙感圖像建筑物分割網(wǎng)絡(luò),訓(xùn)練過程各項(xiàng)指標(biāo)如圖6所示,可以看出網(wǎng)絡(luò)訓(xùn)練在初期損失下降較快,訓(xùn)練到50次左右時(shí)損失下降曲線趨于平穩(wěn),最終收斂在0.2左右,說明所提網(wǎng)絡(luò)參數(shù)的訓(xùn)練結(jié)果較為理想。
圖6 網(wǎng)絡(luò)訓(xùn)練過程中損失下降曲線圖Fig.6 Graph of loss decline during network training
本次實(shí)驗(yàn)采用精準(zhǔn)率(Precision)、召回率(Recall)、F1分?jǐn)?shù)(F1-score)和均交并比(mIoU)等指標(biāo)作為衡量模型分割效果,首先定義建筑物為正樣本,非建筑物為負(fù)樣本,預(yù)測正確為真,否則為假,各類指標(biāo)計(jì)算公式如下:
精準(zhǔn)率(Precision,P)表示在所有被預(yù)測為正的樣本中實(shí)際為正的樣本概率,如式(6)所示。
召回率(Recall,R)表示在樣本中實(shí)際為建筑物的像素點(diǎn)被預(yù)測為屬于建筑物的概率,如式(7)所示。
F1分?jǐn)?shù)(F1-score,SF1)是精準(zhǔn)率與召回率的平衡點(diǎn),讓兩者同時(shí)達(dá)到最高點(diǎn),如式(8)所示。
均交并比(mIoU,mIOU)表示正樣本交并比和負(fù)樣本交并比的平均值,如式(9)所示。
其中,TP表示為預(yù)測為建筑物,且標(biāo)簽為建筑物的像素點(diǎn)個數(shù);TN表示為預(yù)測為非建筑物,且標(biāo)簽值為非建筑物的像素點(diǎn)數(shù);FP表示為預(yù)測為建筑物,但標(biāo)簽為非建筑物的像素點(diǎn)個數(shù);FN表示為預(yù)測為非建筑物,但標(biāo)簽為建筑物的像素點(diǎn)個數(shù)。
為了對比所提模型有效性,與FCN[6],Seg?net[7],Deeplab V3[8],U-net[9],SETR[10],AlignSeg[11]等模型進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)對比結(jié)果如圖7所示,其中(a)列為分辨率512×512的遙感圖像,(b)列為建筑物Ground truth圖像,(c)列為FCN網(wǎng)絡(luò)的分割結(jié)果,(d)列為Segnet網(wǎng)絡(luò)的分割結(jié)果,(e)列為Deeplab V3網(wǎng)絡(luò)的分割結(jié)果,(f)列為U-net網(wǎng)絡(luò)的分割結(jié)果,(g)列為SETR網(wǎng)絡(luò)的分割結(jié)果,(h)列為AlignSeg網(wǎng)絡(luò)的分割結(jié)果,(i)為所提模型分割結(jié)果。為了更清晰對比不同網(wǎng)絡(luò)的分割結(jié)果,在圖中用紅線圍出區(qū)域?yàn)榉指罴?xì)節(jié)對比和錯分及漏分情況。
圖7 建筑物提取局部結(jié)果對比Fig.7 Comparison of local results for building extraction
由圖7分割結(jié)果圖中能夠看出,F(xiàn)CN網(wǎng)絡(luò)分割的建筑物誤分、漏分較多,如圖7(c)中所示,第一行小型建筑物被誤分為背景,第四行的大型建筑物上方缺失。這種誤分割主要是因?yàn)镕CN網(wǎng)絡(luò)利用上采樣將融合后的特征圖直接還原到輸入圖像大小,造成特征信息丟失現(xiàn)象,導(dǎo)致FCN網(wǎng)絡(luò)的表達(dá)能力較弱。圖7(d)中,Segnet網(wǎng)絡(luò)利用了編解碼結(jié)構(gòu),將最大池化指數(shù)轉(zhuǎn)移至解碼器中,改善了分割分辨率,盡管能將大多數(shù)建筑物從背景中分離出來,但邊緣分割效果不好,且有一些細(xì)節(jié)丟失的現(xiàn)象。圖7(e)中,同樣使用了ASPP結(jié)構(gòu)來改進(jìn)Resnet的Deeplab V3網(wǎng) 絡(luò),由于缺乏幾何的細(xì)節(jié)特征,對建筑物邊緣分割效果不佳,如第一行小型建筑分割中出現(xiàn)了粘連現(xiàn)象,第三行圖中大型建筑物上方邊緣平滑性較差。圖7(f)中,U-Net網(wǎng)絡(luò)對建筑物分割效果相對較好,其通過在上采樣過程中,跳躍連接相同尺寸的特征圖并進(jìn)行特征融合。由于其利用的2倍上采樣倍數(shù)小,特征保留相對比較豐富,對小型建筑分割效果不錯,建筑物輪廓也能夠基本分割出來,但也存在一些錯分現(xiàn)象如圖7(f)中第5行大型建筑物右側(cè)集裝箱錯分為建筑物。圖7(g)中SETR使用transformer作為編碼器來替代原來的堆疊卷積進(jìn)行特征提取的方式,保持了輸入和輸出的空間分辨率不變,同時(shí)還能夠有效的捕獲全局的上下文信息,對細(xì)小建筑物分割表現(xiàn)較好,但是建筑物的邊緣分割效果不佳。圖7(h)AlignSeg利用特征對齊分割網(wǎng),采用一種簡單的可學(xué)習(xí)插值策略來學(xué)習(xí)像素的變換偏移量,可以有效緩解多分辨率特征聚合導(dǎo)致的特征錯位問題,得到了較好的邊緣分割效果。圖7(i)為所提模型分割結(jié)果,從第一行和第二行分割結(jié)果圖中能夠看出,所提模型在樹木背景干擾下仍能有效分割小型建筑物的邊緣,具有較強(qiáng)的抗干擾能力。由于受到道路的干擾,幾個經(jīng)典網(wǎng)絡(luò)模型在第四行的大型建筑物上均未能完整分割,而所提模型實(shí)現(xiàn)了較為準(zhǔn)確的分割且邊緣完整度更高,使丟失細(xì)節(jié)信息的現(xiàn)象得到了有效緩解。所有對比模型的分割結(jié)果中,所提模型在建筑物邊緣分割效果表現(xiàn)最好,預(yù)測結(jié)果也更為接近Ground truth圖。因此,所提模型不僅獲得了更好的分割準(zhǔn)確率,而且在建筑物的邊緣獲得更好的效果。
所提的融合分形先驗(yàn)的Resnet網(wǎng)絡(luò)模型由于增加了FD-ASPP模塊,因此更有效利用了不同尺度特征和分形特征信息,提升了建筑物邊緣信息上分割準(zhǔn)確性;提出的模型與其它幾種對比模型相比,建筑物分割的邊緣較為清晰平滑,明顯減少了樹木、道路、陰影等干擾下的誤分割和建筑物之間距離較近而導(dǎo)致建筑物粘連的情況,分割結(jié)果優(yōu)于FCN,Segnet,Deeplab V3,U-net,SETR和AlignSeg模型。對比實(shí)驗(yàn)的定量性能指標(biāo)如表3所示。
表3 WHU Building Dataset數(shù)據(jù)集性能對比Tab.3 WHU Building Dataset performance comparison
表中Params表示參數(shù)量,能夠衡量模型的空 間 復(fù) 雜 度;FLOPs(Floating-point Operations)表示浮點(diǎn)運(yùn)算次數(shù),能夠衡量模型的時(shí)間復(fù)雜度。與6種主流分割模型相比,所提模型由于增加了FD-ASPP和DSCAF模塊,導(dǎo)致網(wǎng)絡(luò)的訓(xùn)練參數(shù)量較大。此外,所提模型的Flops值為95.56 G,與其他模型相比,計(jì)算量并未增加太多。分割精度方面,與FCN,Segnet,Deeplab V3,U-Net,SETR和AlignSeg網(wǎng)絡(luò)模型相比,所提 模 型 在Precision、Recall、F1-score和mIoU等評價(jià)指標(biāo)上分別達(dá)到了94.48%,94.62%,94.55%和94.15%。因此,所提模型雖然在復(fù)雜度上有所增加,但有效提升了分割精度。
為了進(jìn)一步對比所提的FD-ASPP加入網(wǎng)絡(luò)的個數(shù)對遙感建筑物圖像分割任務(wù)的有效性,量化分析了不同F(xiàn)D-ASPP的數(shù)量對分割指標(biāo)的影響,對比將該模塊加入殘差網(wǎng)絡(luò)不同層的輸出后的模型分割性能,并在WHU數(shù)據(jù)集上進(jìn)行了測試??梢钥闯觯啾仍嫉腞esnet101,提出的FD-ASPP在WHU數(shù)據(jù)集上使網(wǎng)絡(luò)的召回率(Recall),平均交并比(mIoU)均有了不同程度的提升。從實(shí)驗(yàn)的比較結(jié)果中可以看出,在每層后都加入該模塊相比于單層加入該模塊來說,分割效果更好,當(dāng)Resnet101在Layer1至Layer4中均加入FD-ASPP模塊時(shí),其各項(xiàng)指標(biāo)均達(dá)到了最優(yōu)。具體實(shí)驗(yàn)結(jié)果見表4。
表4 FD-ASPP不同層對分割指標(biāo)的影響Tab.4 Influence of different layers of FD-ASPP on segmentation index
為了驗(yàn)證所提模型及其各個模塊對遙感建筑物圖像分割任務(wù)的有效性,進(jìn)行了消融實(shí)驗(yàn)對比,并在WHU數(shù)據(jù)集上進(jìn)行測試。所提模型是以Resnet101為特征提取網(wǎng)絡(luò),通過轉(zhuǎn)置卷積進(jìn)行特征恢復(fù),故選取該網(wǎng)絡(luò)結(jié)構(gòu)作為Baseline網(wǎng)絡(luò)。FD-ASPP代表融合分形先驗(yàn)的空洞空間金字塔池化模塊,DSCAF代表深度可分離卷積注意力融合機(jī)制。對比結(jié)果如表5所示。
表5 WHU Building Dataset模塊消融研究Tab.5 Ablation of void convolutional modules in the WHU Building Dataset
從實(shí)驗(yàn)結(jié)果可以看到,Baseline的Precision,Recall和mIoU的結(jié)果分別為91.41%,92.43%和91.27%;添加FD-ASPP模塊后,三個指標(biāo)分別提高了1.85%,1.60%,2.53%;添加DSCAF機(jī)制后三個指標(biāo)比Baseline分別提高了1.48%,1.13%,1.95%;最后將FD-ASPP和DSCAF都添加到Baseline中,使用所提的網(wǎng)絡(luò)模型,與Baseline相比,三個指標(biāo)分別提升了3.07%,2.19%,2.88%。
為了進(jìn)一步證明所提模型在不同場景遙感圖像中對建筑物分割提取的性能,分別針對建筑物遙感圖像中存在的道路、樹木、陰影等干擾進(jìn)行對比實(shí)驗(yàn)分析。對比實(shí)驗(yàn)分別采用FCN[6],
Segnet[7],Deeplab V3[8],U-Net[9],SETR[10],AlignSeg[11]和所提模型作為分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練測試,并對結(jié)果進(jìn)行對比分析。其分割結(jié)果如圖8~10所示。
圖8 道路干擾條件下建筑物提取局部分割Fig.8 Local segmentation of building extraction under road interference conditions
圖8為包含道路信息干擾的遙感圖像分割結(jié)果對比,從圖中可以發(fā)現(xiàn),基于FCN,Segnet,Deeplab V3,U-Net,SETR和AlignSeg等模型的建筑物分割結(jié)果中均出現(xiàn)了建筑物粘連的現(xiàn)象。并且由于建筑物常和道路比較接近,且均是人工場景,因此在復(fù)雜道路的干擾下,建筑物出現(xiàn)了錯誤分割的情況。所提出的FD-ASPP模塊有效提取了不同分割對象的分形特征,為網(wǎng)絡(luò)提供了更具分辨力的信息,受道路的干擾較小,可較好提取建筑物的邊緣。
圖9為樹木干擾情況下的遙感圖像建筑物分割對比。由圖中可知,F(xiàn)CN,Segnet,Deeplab V3,U-Net,SETR和AlignSeg等 模 型 在 提 取 建筑物邊緣特征時(shí)易受樹木和林帶的影響,建筑物邊緣存在明顯的誤分割現(xiàn)象,不能識別出被樹木部分遮擋的建筑物。所提模型受到樹木的干擾較小,可較好提取建筑物的邊緣信息。
圖9 樹木林帶干擾條件建筑物提取局部分割結(jié)果Fig.9 Building extraction local segmentation results under trees interference conditions
圖10為陰影干擾下的遙感圖像分割結(jié)果對比。由圖中可知,建筑物右側(cè)均有陰影。Segnet,U-net在受陰影干擾時(shí),邊緣均不能實(shí)現(xiàn)精細(xì)化分割,F(xiàn)CN整體受陰影干擾較小,但邊緣分割效果也不盡人意。如圖10(g)、圖10(h)所示,SETR,AlignSeg模型雖然取得了較好的分割結(jié)果,但是在圖中標(biāo)記區(qū)域,兩個對比模型對建筑物局部區(qū)域出現(xiàn)了誤分割現(xiàn)象。而所提模型在該區(qū)域具有準(zhǔn)確的分割結(jié)果。因此,和對比模型相比,所提模型可更加完整地識別建筑物主體,分割出較平滑邊緣輪廓,能有效克服陰影的干擾,可以較為準(zhǔn)確的分割建筑物。不同場景下對比實(shí)驗(yàn)結(jié)果分析如表6所示。
圖10 陰影干擾下建筑物提取局部分割結(jié)果Fig.10 Local segmentation results of buildings extracted under shadow interference
表6 不同場景下對比實(shí)驗(yàn)結(jié)果分析Tab.6 Comparative experimental results in different sce?narios
由于遙感影像建筑物與背景特征的區(qū)分度較低導(dǎo)致傳統(tǒng)的深度語義分割網(wǎng)絡(luò)分割邊界不清晰等問題,提出一種融合分形幾何特征的Resnet的遙感圖像建筑物分割模型。所提模型在編解碼結(jié)構(gòu)的基礎(chǔ)上,基于Resnet主干網(wǎng)絡(luò)將分形幾何特征融入特征圖深度信息用于遙感影像的建筑物特征提取,并在解碼階段運(yùn)用深度可分離卷積注意力機(jī)制借助高層信息指導(dǎo)底層信息進(jìn)行特征融合。在WHU Building Dataset遙感圖像建筑物數(shù)據(jù)集的分割實(shí)驗(yàn)的結(jié)果表明,所提 模 型 的Precision、Recall、F1-score以 及mIoU等評價(jià)指標(biāo)上分別達(dá)到了94.48%,94.62%,94.55%和94.15%。提出的網(wǎng)絡(luò)模型不僅有效克服了道路、樹木、陰影等因素的干擾,具有更好的建筑物分割效果,而且得到了較清晰的建筑物邊界。