武宇,張俊,李屹旭,黃康鈺
(1.貴州大學(xué)礦業(yè)學(xué)院,貴陽 550025;2.貴州大學(xué)農(nóng)學(xué)院,貴陽 550025)
現(xiàn)代科學(xué)技術(shù)的日益發(fā)展,城市建筑物外觀設(shè)計(jì)也隨之趨于復(fù)雜,表觀信息豐富,致使傳統(tǒng)低分辨遙感影像已遠(yuǎn)遠(yuǎn)不能表達(dá)現(xiàn)代建筑物的精細(xì)特征。高空間分辨率衛(wèi)星的升空使得利用高分影像對建筑物分割成為可能[1-2]。然而,盡管高分辨率遙感影像豐富的細(xì)節(jié)特征在一定程度上增大了目標(biāo)地物的類內(nèi)差異、減小了類間差異,但是“同物異譜,同譜異物”的現(xiàn)象卻變得更加普遍、明顯,同類地物在影像上的形態(tài)與特征可能大相徑庭,直接加大了類內(nèi)混合像元及陰影等因素的影響。為此,一些學(xué)者曾引入一些模式識別算法,如最大似然分類法(maximum likelihood classification,MLC)和支持向量機(jī)(support vector machine,SVM),此后,一些學(xué)者提出了一種基于數(shù)學(xué)形態(tài)的合成核SVM算法[3-5],利用空間統(tǒng)計(jì)因素作為數(shù)據(jù)源,通過不同的合成核構(gòu)造方式將空間信息和光譜信息融合,引入遙感圖像分類中。但是,這些算法僅利用圖像的光譜信息,忽略了其空間結(jié)構(gòu)紋理的作用,因而在提高分類精度的過程中還存在局限性,常常會導(dǎo)致提取精度過低、邊界不完整等問題。另外,圖像中的噪聲如傳感器產(chǎn)生的熱噪聲、脈沖噪聲和數(shù)字化過程中出現(xiàn)的量化噪聲等,也會對圖像壓縮、邊緣檢測以及圖像分割過程造成嚴(yán)重影響[6]。
近年來,逐步興起的深度學(xué)習(xí)算法在計(jì)算機(jī)視覺領(lǐng)域中帶來的顯著效益引起了大量研究者的關(guān)注。深度學(xué)習(xí)算法以數(shù)據(jù)作為驅(qū)動,更加適用于目前遙感影像數(shù)據(jù)大量積累的情況,且由于其在圖像分割中的出色表現(xiàn),很快被引入遙感影像地物提取中,并已取得了不錯的效果[7-8]。例如方旭等[9]證明利用改進(jìn)的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,FCN)可做出優(yōu)良的結(jié)果,較SVM算法提升效果約10%;2012年,Krizhevsky等[10]提出了名為AlexNet的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)結(jié)構(gòu),并在ImageNet競賽中以領(lǐng)先第二名10%的成績獲得冠軍;Mou等[11]首次將循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)應(yīng)用在高光譜圖像分類中,較SVM達(dá)到了更高的精度;陳睿敏等[12]利用U-Net深度學(xué)習(xí)模型對紅外遙感影像進(jìn)行地物分類,較傳統(tǒng)機(jī)器學(xué)習(xí)方法提升6%。
各類深度學(xué)習(xí)模型中,U-Net模型由于學(xué)習(xí)能力強(qiáng)、易于擴(kuò)展、整體性能穩(wěn)定、魯棒性強(qiáng)等特點(diǎn)而備受青睞[13-17]。但是,U-Net網(wǎng)絡(luò)模型最初被用于檢測醫(yī)學(xué)影像,而高分遙感影像不同于醫(yī)學(xué)影像,不僅具有光譜特性,還具有非常復(fù)雜的空間結(jié)構(gòu)、紋理特征和上下文關(guān)系,如果簡單地采用U-Net模型,則很可能在最大池化采樣中丟失一些細(xì)節(jié)信息,尤其是圖像邊緣特征的損失,從而導(dǎo)致分類失真[18]。為此,本文提出首先采用域變換遞歸濾波(domain transform recursive filter,DTRF)對高分影像進(jìn)行預(yù)處理,在一定程度上抑制噪聲并盡量保證影像邊緣信息,以此確保U-Net神經(jīng)網(wǎng)絡(luò)對高分影像更正確的分割;同時(shí),嘗試采用從訓(xùn)練圖像和標(biāo)簽中提取成對的補(bǔ)丁以增加訓(xùn)練數(shù)據(jù)對U-Net編碼-解碼環(huán)節(jié)進(jìn)行改進(jìn),這些補(bǔ)丁可望進(jìn)一步加強(qiáng)正反向深度學(xué)習(xí)中建筑物高維特征的獲取,以此提高建筑物識別精度,為方便簡記該方法為DTRF-Unet。
DTRF是一種實(shí)時(shí)的邊緣保留濾波,其在改善圖像分類的性能中非常有效,一維DTRF對信號經(jīng)過平滑后可以很好地去除噪聲,而且主要邊緣信息也可以得到保留[19-21]。濾波過程可分為域變換和遞歸濾波兩步,DTRF過程如下:
|t(xi,I(xi))-t(xj,I(xj))|=‖(xi,I(xi))-(xj,I(xj))‖,
(1)
ct(x+h)-ct(x)=h+|I(x+h)-I(x)|。
(2)
其中得到的R中的相鄰樣本之間歐式距離必須等于R2間的距離,h在此處為信號上兩相鄰采樣間隔,為簡化計(jì)算,通常假設(shè)ct單調(diào)遞增,上式兩端同除以h且取極限趨向0得:
ct′(x)=1+|I′(x)|。
(3)
那么在Ω中的(u,w)兩點(diǎn)間的距離可表示為:
(4)
可見,曲線ct在1范數(shù)下的弧長被保留了下來,而所有點(diǎn)之間的測地距離可以通過式(4)計(jì)算。
在實(shí)際濾波過程中,為了控制濾波器的尺寸和模糊度,常常將域變換定義為應(yīng)用近似距離變換,即對于給定的一維信號I,域變換被定義為:
(5)
式中:Ui為域變換信號;δr和δs分別為與值域標(biāo)準(zhǔn)差(控制濾波器模糊度)和與信號空域標(biāo)準(zhǔn)差(控制濾波窗口尺寸);n為像元個數(shù),輸入信號通過遞歸濾波器進(jìn)行處理,即
Ji=(1-ab)Ii+abJi-1,
(6)
式中:Ji為第i個像元的濾波輸出;a為反饋系數(shù);b為變換域中兩個相鄰樣本的距離。當(dāng)圖像接近邊緣時(shí),b不斷增大,ab趨于0,迭代運(yùn)算終止,從而達(dá)到邊緣保留的目的。
U-Net神經(jīng)網(wǎng)絡(luò)模型由Ronneberger等于2015年首次提出[22-23],最初應(yīng)用在醫(yī)學(xué)影像處理,因其形狀恰似“U”形而得名。U-Net是一種典型的編碼-解碼(encoder to decoder)結(jié)構(gòu),在encoder模塊使用卷積(conv)與最大池化(maxpooling)操作提取圖像的低級特征,在decoder模塊使用向上解碼(up-sampling)與conv恢復(fù)輸出圖像(feature map)的分辨率提取高維特征,在相對應(yīng)的conv之間融合特征信息。up-sampling僅僅是將抽象高維特征恢復(fù)到模板的過程,解碼在將編碼壓縮數(shù)據(jù)恢復(fù)的時(shí)候,特征scale會發(fā)生變化,這時(shí)橫向連接的skip connection起到了補(bǔ)充信息的作用,在高層補(bǔ)充了語義的信息,在底層則細(xì)化了分割的輪廓等[24-25]。所以從特征中已經(jīng)大致恢復(fù)了區(qū)域的分割信息,再加上原始特征的修正,可以提高最終的分割效果。
U-Net架構(gòu)對于復(fù)雜度并不高的基礎(chǔ)模型能夠達(dá)到很高的精度,且能在精度與復(fù)雜度之間達(dá)到平衡,但是遙感影像背景復(fù)雜,所包含的地物種類豐富,光譜范圍廣泛,直接采用U-Net網(wǎng)絡(luò)構(gòu)架并不能有效地提取復(fù)雜的遙感影像的像元特征。鑒于U-Net網(wǎng)絡(luò)訓(xùn)練過程中收斂速度快,為滿足包含多語義信息的高分遙感影像信息提取,本文使用上述U-Net網(wǎng)絡(luò)作為基本構(gòu)架對其進(jìn)行改進(jìn),具體過程如下:
1)該網(wǎng)絡(luò)結(jié)構(gòu)與主流的圖像分割網(wǎng)絡(luò)一樣采用對稱的encoder to decoder結(jié)構(gòu),使用隨機(jī)位移矢量算法使訓(xùn)練集產(chǎn)生彈性形變,增加訓(xùn)練集特征。
2)U-Net網(wǎng)絡(luò)進(jìn)行部分卷積優(yōu)化,從訓(xùn)練圖像和標(biāo)簽中提取成對的補(bǔ)丁,以增加訓(xùn)練數(shù)據(jù)集的大小,并使訓(xùn)練更加穩(wěn)健。
3)在訓(xùn)練過程中每個小批包含16個補(bǔ)丁,在每一個時(shí)代的每一次迭代中,都會從圖像中的隨機(jī)位置提取出上千個小批量補(bǔ)丁。
4)采用的U-Net網(wǎng)絡(luò)的up-sampling依然有大量的通道,這使得網(wǎng)絡(luò)將上下文信息向恢復(fù)feature map的更高分辨率傳播。
5)設(shè)置初始學(xué)習(xí)率為0.005,并使用L2范數(shù)控制學(xué)習(xí)率的漸變曲率。
DTRF-Unet網(wǎng)絡(luò)模型整體方案和訓(xùn)練流程如圖1所示,該方案的實(shí)施主要分為數(shù)據(jù)預(yù)處理、模型訓(xùn)練和結(jié)果分析3個模塊。為驗(yàn)證本文方法的提取效果,分別采用U-Net和DTRF-Unet網(wǎng)絡(luò)模型分別對研究區(qū)遙感影像中的建筑物進(jìn)行提取,并做對比分析。
圖1 實(shí)驗(yàn)流程圖Fig.1 Flow chart of the experiment
實(shí)驗(yàn)區(qū)定址于遼寧省盤錦市緊接渤海灣地區(qū),平均海拔約30 m,中心經(jīng)緯度分別為E121.16° ,N41.12°。實(shí)驗(yàn)區(qū)的地貌主要類型是大面積沖海積平原和潮灘,地貌類型相對單一,地勢平坦,土地類型主要為建筑用地和耕地。選用2019年9月29日高分二號影像(圖2)。高分二號衛(wèi)星搭載2臺高分辨率1 m全色、4 m多光譜相機(jī),具有米級空間分辨率。首先對高分二號影像的全色波段和多光譜數(shù)據(jù)進(jìn)行預(yù)處理,包括正射校正、數(shù)據(jù)融合和裁剪等操作[26]。因U-Net模型采用數(shù)據(jù)增強(qiáng)得方式可有效利用訓(xùn)練數(shù)據(jù),加之考慮到RTX2060顯卡計(jì)算能力和影像質(zhì)量因素,故在較多建筑物的影像中心區(qū)域,選取尺寸為1 829像素×1 410像素作為驗(yàn)證數(shù)據(jù)集,選取尺寸為954像素×936像素作為訓(xùn)練集,選取尺寸為1 718像素×1 303像素作為測試集。最后對數(shù)據(jù)集進(jìn)行人工標(biāo)注,使之成為二通道數(shù)據(jù),即建筑物標(biāo)注為1,其他標(biāo)注為0,與數(shù)據(jù)集共同輸入DTRF-Unet模型計(jì)算。
圖2 實(shí)驗(yàn)樣本Fig.2 Experimental samples
為充分發(fā)揮深度學(xué)習(xí)的優(yōu)勢,所以對訓(xùn)練集采用面向?qū)ο蠓诸惖姆椒?,充分利用遙感影像的空間信息、光譜、紋理、相鄰關(guān)系、形狀等特征進(jìn)行分割分類,采用此方法標(biāo)注影像得到地表真實(shí)地物(ground truth);然后對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),并根據(jù)數(shù)據(jù)集圖像的均值和方差對所有圖像進(jìn)行歸一化,將數(shù)據(jù)集輸入集成了多尺度交叉訓(xùn)練、多重?fù)p失計(jì)算、引入一階動量的隨機(jī)梯度下降(stochastic gradient descent+momentum,SGDM)優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型U-Net中進(jìn)行訓(xùn)練。在訓(xùn)練過程中,經(jīng)數(shù)據(jù)預(yù)處理后每次選取的訓(xùn)練樣本大小為256×256,訓(xùn)練和驗(yàn)證的數(shù)據(jù)集均包含與相應(yīng)真實(shí)地物對應(yīng)的標(biāo)簽數(shù)據(jù)集;然后將訓(xùn)練集圖像輸入到U-Net網(wǎng)絡(luò)中,進(jìn)行充分訓(xùn)練后得到優(yōu)化的網(wǎng)絡(luò)模型,最后將測試圖像輸入訓(xùn)練好的模型中,得到預(yù)測結(jié)果,根據(jù)濾波前后的訓(xùn)練結(jié)果計(jì)算分析。
經(jīng)改進(jìn)后的影像預(yù)處理的過程中需要首先使用DTRF濾波器進(jìn)行處理,為此,需要確定濾波器的信號空域標(biāo)準(zhǔn)差δs和值域標(biāo)準(zhǔn)差δr兩個平滑參數(shù),不同的平滑參數(shù)會導(dǎo)致不同的結(jié)果。經(jīng)過如下過程確定合適的取值區(qū)間,上行δs設(shè)置為30,δr分別設(shè)置為0.2,0.4,0.6;下行設(shè)置δs為60,δr分別設(shè)置為0.2,0.4,0.6。圖3以圖2中紅框區(qū)域?yàn)槔故静煌交瑓?shù)的濾波效果,其中圖3(a)為原始數(shù)據(jù)??梢钥闯?,在δs分別為30和60的情況下,當(dāng)δr為0.6時(shí)圖像發(fā)生明顯的涂抹效應(yīng),當(dāng)δs為60時(shí)會比δs為30時(shí)涂抹效應(yīng)更嚴(yán)重。但是當(dāng)濾波窗口非極大值時(shí),濾波后圖像與輸入圖像鮮有差異,同時(shí)當(dāng)超過某一范圍后,濾波結(jié)果將不會發(fā)生太大的變化。也就是說明當(dāng)參數(shù)設(shè)置恰當(dāng)時(shí),DTRF濾波不僅可以有效去除圖像中的噪聲、細(xì)節(jié)紋理等信息,同時(shí)可以增強(qiáng)圖像中空間結(jié)構(gòu)信息。
(a)原始數(shù)據(jù) (b)δs=30,δr=0.2 (c)δs=30,δr=0.4 (d)δs=30,δr=0.6
圖3已表明不同的δs和δr會帶來不同的數(shù)據(jù)處理精度,為此,進(jìn)一步取在30~60區(qū)間按步長15遍歷δs值,δr按步長0.1遍歷區(qū)間0.2~0.8,分別計(jì)算精度(precision)、標(biāo)準(zhǔn)差(standard deviation,SD)、結(jié)構(gòu)相似性(structural similarity,SSIM)和平均交并比(MIoU)4個指標(biāo)來衡量提取質(zhì)量(圖4)。
(a)SD (b)精度
SD可以反映出圖像像素值與均值的離散程度,SD值大小與圖像質(zhì)量呈正相關(guān);SSIM表現(xiàn)出處理前后數(shù)據(jù)的結(jié)構(gòu)相似性,是基于圖像的亮度、對比度和結(jié)構(gòu)3個要素來評定,值越大代表與原始數(shù)據(jù)相比保留細(xì)節(jié)越多,信息保留程度越高;MIoU也是在深度學(xué)習(xí)中衡量分割精度的重要指標(biāo),即在每個類別上計(jì)算交并比取均值,與分割精度同樣保持正相關(guān)性。整體分類精度最終結(jié)果列于表1。
表1 不同參數(shù)下DTRF-Unet整體分類精度Tab.1 Overall classification accuracy of DTRF-Unet under different parameters (%)
可以看出,當(dāng)δr在0.6~0.8之間SD最小(圖4(a));當(dāng)δr在0.5~0.6之間精度較高,最低處在δr為0.2處為80.41%(圖4(b));δr在0.2~0.6之間SSIM沒有發(fā)生明顯變化,δr為0.7~0.8時(shí)SSIM開始下滑,意味著逐漸與原圖像異質(zhì)化(圖4(c));MIoU用于測量真實(shí)和預(yù)測之間的相關(guān)度,相關(guān)度越高,該值越高,一般來說大于0.5可以認(rèn)為結(jié)果較好,圖4(d)中最低值在δr處于0.2時(shí)取到,但結(jié)果均大于0.67,在δr為0.4時(shí)取到極大值。綜合圖4可以看出:整體質(zhì)量保持在δr為0.5時(shí)精度達(dá)到最高,δs對分類質(zhì)量沒有明顯影響,基本處于同一等高線,經(jīng)濾波后的整體分類精度近似保留兩位小數(shù)后均保持在80%以上,識別效果較好。根據(jù)表1可知在δs為30,δr為0.5時(shí)取得最佳精度83.12%,較濾波前U-Net分類精度的75.99%提高了7.13百分點(diǎn),驗(yàn)證了DTRF-Unet方法作為改進(jìn)的U-Net深度學(xué)習(xí)網(wǎng)絡(luò)處理圖像的有效性。
圖5以圖2中黃色框區(qū)域?yàn)槔龑Ρ雀倪M(jìn)前后的提取效果。樣本區(qū)選擇在城市群中,分為建筑物和其他類別兩類,深藍(lán)色為建筑物類,天藍(lán)色為其他類。利用原始U-Net深度學(xué)習(xí)方法對樣本數(shù)據(jù)進(jìn)行提取,從圖5(a)提取建筑物的結(jié)果可以看出U-net在城市群處理過程中提取精度較高,建筑物輪廓較明顯,部分道路線也對城市集群有明顯的分割效果,且基本沒有細(xì)碎的噪聲斑塊,東北方向的林地也被正確地劃分到了其他類中,但是整體精度只有75.99%。最后對DTRF-Unet的21個結(jié)果匯總分析極化結(jié)果之間的差異如圖5所示,發(fā)現(xiàn)在樣本區(qū)的東北方向和中部偏南方向箭頭標(biāo)注方向有明顯差異,圖5(b)較圖5(a)和圖5(c)更接近地面真實(shí)情況,圖5(b)將部分建筑用地誤判為其他類,與上文驗(yàn)證精度相一致,但是在部分地區(qū)還是存在明顯的漏分錯分誤差,可能受到訓(xùn)練樣本數(shù)據(jù)大小和影像陰影區(qū)域較大影響。圖5(b)通過選取適當(dāng)?shù)膮?shù)有效剔除了噪聲,使建筑物邊界更加平滑,預(yù)測結(jié)果得到進(jìn)一步優(yōu)化。
(a)U-Net (b)δs=30,δr=0.5 (c)δs=30,δr=0.2
1)針對常規(guī)U-net神經(jīng)網(wǎng)絡(luò)模型在高分影像最大池化采樣中,可能丟失一些細(xì)節(jié)信息,尤其是圖像邊緣特征的損失,從而導(dǎo)致建筑物提取不全或邊緣模糊問題,提出了一種基于常規(guī)U-Net的改進(jìn)的智能建筑物識別提取方法,即DTRF-Unet模型。
2)該模型能很好地將低層高分辨率信息與高層抽象的語義信息融合減小建筑物細(xì)節(jié)特征損失,既增強(qiáng)了網(wǎng)絡(luò)的泛化表達(dá)能力,又提高了建筑物提取精度。通過與原始結(jié)果對比發(fā)現(xiàn),該方法可以近似完整地將建筑物自動分割出來,具有高效性和可實(shí)施性。
3)在濾波預(yù)處理時(shí),采用以一定步長遍歷某段區(qū)間,觀察濾波效果進(jìn)而確定DTRF兩個平滑參數(shù)的方法雖然效率較低,但是在目前尚缺乏實(shí)質(zhì)高效的自適應(yīng)方法條件下,不失為一種有益嘗試,為此類研究提供一定參考。但是受計(jì)算能力限制,模型分割不夠細(xì)致,時(shí)間性能還有待提升,同時(shí)該實(shí)驗(yàn)對于部分陰影區(qū)域的識別精度有待商榷,這將是下一步研究的重點(diǎn)內(nèi)容。