呂道雙,林 娜,2*,馮麗蓉,張小青
(1.重慶交通大學(xué) 土木工程學(xué)院,重慶 400074; 2.重慶市地理信息和遙感應(yīng)用中心,重慶 400020)
高分辨率遙感影像的激增使人們對(duì)地球的觀察和理解得到了很大的改善,已被廣泛應(yīng)用于測(cè)繪、制圖、交通導(dǎo)航、城市規(guī)劃、海洋權(quán)益保護(hù)、數(shù)字化城市建設(shè)等領(lǐng)域。這些領(lǐng)域中地物的標(biāo)注與提取是備受關(guān)注的內(nèi)容,在城市區(qū)域的遙感影像中超過(guò)80%的是人工地物或人工地物所構(gòu)成的復(fù)雜功能區(qū),建筑物就包括在其中。建筑物作為重要的人工地物目標(biāo),是地理信息的重要組成部分,在數(shù)字城市建設(shè)、智慧城市建設(shè)、數(shù)據(jù)庫(kù)更新、城市人口布局等方面具有重要意義。高分辨率遙感影像中的建筑物具有很多的紋理特征和細(xì)節(jié)信息,這些特征使人們從高分辨率遙感影像中提取建筑物成為了可能。
目前,建筑物提取的方法包括基于底層特征的建筑物提取、基于輔助信息的建筑物提取和基于深度學(xué)習(xí)的建筑物提取。其中,基于底層特征的建筑物提取主要是利用建筑物在高分辨率遙感影像中的紋理、色彩、形狀等特征或特征組合進(jìn)行提取,如HUANG X[1]等將光譜、結(jié)構(gòu)和語(yǔ)義特征進(jìn)行有效集成,提高了城市建筑物等地物的分類精度;Ghanea M[2]等利用建筑物形狀、顏色、亮度、大小和高度的變化提取建筑物,獲得了較高的精度;Dikmen M[3]等首先在過(guò)分割的影像中確定其中的陰影對(duì)象,再利用建筑物的光譜特征及其與陰影的空間關(guān)系提取建筑物;WANG J[4]等通過(guò)對(duì)幾何信息的高效監(jiān)測(cè)提取建筑物的幾何邊界,再利用線段檢測(cè)器將檢測(cè)到的線段分層分組得到矩形建筑物的候選區(qū),然后通過(guò)線段連接和閉合輪廓搜索對(duì)幾何信息進(jìn)行有效檢驗(yàn),獲得了良好的建筑物提取效果和整體精度?;谳o助信息的建筑物提取主要是利用陰影、DSM、SAR 等數(shù)據(jù)對(duì)建筑物進(jìn)行提取,如TIAN J[5]等利用高精度的DSM 數(shù)據(jù)與IRS-P5 高分影像數(shù)據(jù)對(duì)德國(guó)巴伐利亞州的森林和土耳其伊斯坦布爾的工業(yè)區(qū)進(jìn)行了變化檢測(cè),提取的建筑物具有較高的精度;LI Y[6]等通過(guò)改進(jìn)分水嶺分割的標(biāo)記點(diǎn)控制方法從DSM 數(shù)據(jù)中提取地形,再利用高分辨率遙感影像中建筑物的形狀特征提取建筑物;Saeid P[7]等采用LiDAR 與高光譜數(shù)據(jù)相融合的方法,首先利用線性判斷分析剔除冗余的數(shù)據(jù),再利用隨機(jī)森林算法提取建筑物邊界,然后利用形態(tài)學(xué)操作移除建筑物頂上的空洞并修復(fù)邊界,最終得到較好的提取精度;HUANG X[8]等利用建筑形態(tài)和陰影指數(shù)對(duì)建筑物進(jìn)行了提取,通過(guò)構(gòu)建陰影指數(shù)和建筑形態(tài)因子可以很好地減少提取的遺漏,可在不收集訓(xùn)練樣本的情況下獲得較滿意的建筑物提取結(jié)果。基于深度學(xué)習(xí)的建筑物提取主要是利用各種網(wǎng)絡(luò),通過(guò)自動(dòng)學(xué)習(xí)影像中的特征來(lái)對(duì)目標(biāo)進(jìn)行提取的過(guò)程,很多學(xué)者利用深度學(xué)習(xí)的方法對(duì)建筑物、機(jī)場(chǎng)、港口等進(jìn)行了研究,也取得了不錯(cuò)的研究成果,如王港[9]等針對(duì)我國(guó)的高分一號(hào)遙感圖像提出了一種改進(jìn)的殘差網(wǎng)絡(luò),對(duì)影像中的人工地物進(jìn)行了檢測(cè),取得了較好的效果;張歡[10]等設(shè)計(jì)了一種密集反卷積的神經(jīng)網(wǎng)絡(luò),針對(duì)卷積神經(jīng)網(wǎng)絡(luò)中網(wǎng)絡(luò)層數(shù)較少、不能充分挖掘圖像的抽象特征等問(wèn)題,將網(wǎng)絡(luò)中加入了密集的反卷積層,使網(wǎng)絡(luò)的層數(shù)達(dá)到了51 層,通過(guò)實(shí)驗(yàn)證明了該網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力較強(qiáng),且網(wǎng)絡(luò)是端對(duì)端的訓(xùn)練避免了訓(xùn)練過(guò)程中梯度消失等問(wèn)題,對(duì)復(fù)雜場(chǎng)景下的建筑物提取具有較好的效果;左童春[11]提出了一種端對(duì)端的多層融合的全卷積神經(jīng)網(wǎng)絡(luò)(FCN),將各層提取的特征融合起來(lái),利用大小不同的感受野來(lái)捕獲不同的空間上下文信息,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),將卷積核的數(shù)量減半,使網(wǎng)絡(luò)參數(shù)大大減少,節(jié)約了運(yùn)算時(shí)間,在公開(kāi)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了較好的建筑物提取精度。
本文利用基于深度學(xué)習(xí)的建筑物提取方法,首先對(duì)U-Net 網(wǎng)絡(luò)進(jìn)行改進(jìn),將底層提取的特征與高層特征進(jìn)行融合;然后在網(wǎng)絡(luò)編碼后增加尺寸不一的空洞卷積,對(duì)網(wǎng)絡(luò)編碼得到的結(jié)果進(jìn)行多尺度特征提取;最后將其融合得到更豐富的特征,以得到更好的建筑物提取結(jié)果。
深度學(xué)習(xí)經(jīng)歷了從CNN 到FCN 的過(guò)程,二者最大的差別在于,CNN 的最后一層往往是全連接層,該層的主要作用是對(duì)前面各層提取的特征作加權(quán)和,并將網(wǎng)絡(luò)提取的特征綜合起來(lái),每個(gè)神經(jīng)元與前一層的所有神經(jīng)元相連接,這就導(dǎo)致該層的數(shù)據(jù)維度很大、占用內(nèi)存空間很大、計(jì)算效率低等問(wèn)題。為了解決該問(wèn)題,LONG J[12]等提出了FCN,可對(duì)任意尺寸大小的圖像進(jìn)行語(yǔ)義分割。與CNN 相比,該網(wǎng)絡(luò)的運(yùn)算效率得到了很大提高,將反卷積代替了全連接層,減少了網(wǎng)絡(luò)參數(shù),反卷積層可將圖片尺寸還原為原來(lái)的大?。坏摼W(wǎng)絡(luò)也有一定的缺點(diǎn),即分割的結(jié)果粗糙不夠精細(xì),底層特征沒(méi)有很好地與高層特征進(jìn)行融合。2015 年Ronneberger O[13]等提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)U-Net,如圖1 所示。該網(wǎng)絡(luò)結(jié)構(gòu)是對(duì)FCN 的一種擴(kuò)展,采用對(duì)稱結(jié)構(gòu),左半部編碼結(jié)構(gòu)借鑒了VGG-Net的網(wǎng)絡(luò)結(jié)構(gòu),右半邊為解碼部分,通過(guò)上采樣將圖像復(fù)原到原始圖像大小。網(wǎng)絡(luò)中利用Concatenate 結(jié)構(gòu)將下采樣部分得到的底層特征與上采樣得到的高層特征相結(jié)合,得到更高層次的特征組合,能對(duì)分割物體進(jìn)行精確定位。
圖1 U-Net 網(wǎng)絡(luò)結(jié)構(gòu)
在CNN 模型中,卷積層后面一般是池化層,卷積層提取圖像特征后通過(guò)池化層來(lái)對(duì)其進(jìn)行降維,可有效降低網(wǎng)絡(luò)參數(shù)的規(guī)模以及獲得更大的感受野。在U-Net 網(wǎng)絡(luò)編碼階段,經(jīng)過(guò)多次的卷積池化操作,輸入圖像的大小將越來(lái)越小,但U-Net 網(wǎng)絡(luò)結(jié)構(gòu)要求輸入圖像和輸出圖像的尺寸相同,這就需要在解碼階段使用上采樣將圖像尺寸還原。在這一系列的操作過(guò)程中,雖然輸入圖片經(jīng)過(guò)尺寸變化,網(wǎng)絡(luò)提取了圖像中的語(yǔ)義信息,但在池化過(guò)程中會(huì)損失很多信息。空洞卷積的提出能很好地解決該問(wèn)題。空洞卷積可在不增加網(wǎng)絡(luò)參數(shù)和不縮小圖像尺寸的前提下有效增加卷積的感受野。
圖2a 為3×3 卷積核的普通卷積;圖2b 為空洞率為2 的空洞卷積,其效果和尺寸與7×7 卷積核的感受野相同,但在圖中只有紅色點(diǎn)參與卷積計(jì)算,其他部分不參與計(jì)算;圖2c 為空洞率為4 的空洞卷積,感受野大小為15×15,也是只有紅色點(diǎn)參與卷積計(jì)算,可以發(fā)現(xiàn),空洞卷積可在不增加卷積網(wǎng)絡(luò)參數(shù)的情況下增大感受野,避免了池化帶來(lái)的信息損失。
本文提出的改進(jìn)的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,該網(wǎng)絡(luò)共有25 層卷積層,其中卷積層為10 層,反卷積層為10 層,空洞卷積為5 層,激活函數(shù)為Relu,池化方式為最大池化。
圖2 空洞卷積和感受野
網(wǎng)絡(luò)的左半部采用類似VGG 網(wǎng)絡(luò)的結(jié)構(gòu),其中第一組卷積由32 個(gè)尺寸為3×3 的卷積核構(gòu)成,第二組卷積由64 個(gè)尺寸為3×3 的卷積核構(gòu)成,以此類推,直到網(wǎng)絡(luò)最深為512 個(gè)尺寸為3×3 的卷積核。每個(gè)卷積池化后都有歸一化層,使每一層中的特征分布更加均勻,以加快收斂速度,還可加快網(wǎng)絡(luò)的訓(xùn)練過(guò)程。為了防止網(wǎng)絡(luò)訓(xùn)練過(guò)程中出現(xiàn)的過(guò)擬合現(xiàn)象,在網(wǎng)絡(luò)的最底層加入了Dorpout 層。網(wǎng)絡(luò)的右半部分和左半部分相對(duì)稱,主要由一系列的反卷積層構(gòu)成,反卷積層除了與來(lái)自上一層反卷積得到的高層特征結(jié)合外,還通過(guò)Concatenate 結(jié)構(gòu)與來(lái)自編碼階段卷積得到的底層特征相結(jié)合,得到更加精確的提取結(jié)果。網(wǎng)絡(luò)的底部是一系列的不同空洞率的空洞卷積,空洞率被設(shè)置為3、5、7、9、11,對(duì)編碼階段提取的結(jié)果進(jìn)行不同尺度的特征提取,并將提取的結(jié)果進(jìn)行融合,得到更加豐富的特征,再將結(jié)果送入到解碼器中。
圖3 改進(jìn)后的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)
本文采用的數(shù)據(jù)集為2013 年Hinton 教授建立的建筑物和道路的公開(kāi)數(shù)據(jù)集。該數(shù)據(jù)集中的影像分辨率為0.6 m,共有151 張尺寸為1 500×1 500 的影像和對(duì)應(yīng)的標(biāo)簽,如圖4 所示。首先需對(duì)影像進(jìn)行裁剪,在裁剪過(guò)程中對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)操作,并采用隨機(jī)旋轉(zhuǎn)、增加噪聲點(diǎn)、色彩震蕩等方法對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,防止因數(shù)據(jù)太少而引起的過(guò)擬合現(xiàn)象的發(fā)生;再將數(shù)據(jù)集中按0.25 的比例劃分為驗(yàn)證集。利用U-Net、Segnet和改進(jìn)的U-Net 網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),并分析結(jié)果。
實(shí)驗(yàn)的硬件環(huán)境為:GPU NVIDIAGeForce GTX1080Ti、顯存8G、軟件Python3.6 和Tensorflow1.8.0。將數(shù)據(jù)集裁剪為一定的大小,送入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程采用SGD 算法進(jìn)行優(yōu)化,保存最優(yōu)模型。隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行,模型的精度趨于穩(wěn)定,損失值逐漸下降并趨于穩(wěn)定,驗(yàn)證集的精確度和損失率也趨于穩(wěn)定,模型收斂,網(wǎng)絡(luò)訓(xùn)練結(jié)束,保存訓(xùn)練得到的最優(yōu)模型。實(shí)驗(yàn)的學(xué)習(xí)率設(shè)置為0.01,動(dòng)量設(shè)置為0.8,權(quán)值衰減設(shè)置為1e-5,迭代次數(shù)設(shè)置為60 次,Batchsize 設(shè)置為16。
圖4 建筑物和道路的公開(kāi)數(shù)據(jù)集(部分)
本文分別計(jì)算網(wǎng)絡(luò)訓(xùn)練時(shí)的交并比(Iou)、像素精度(ACC)和召回率(Recall)3 個(gè)精度指標(biāo)。Iou為語(yǔ)義分割中常用的衡量標(biāo)準(zhǔn),表示預(yù)測(cè)值與真實(shí)值之間的交集與預(yù)測(cè)值與真實(shí)值之間的并集的比值。其計(jì)算公式為:
ACC 為預(yù)測(cè)真實(shí)值占總真實(shí)值的比例,計(jì)算公式為:
Recall 為被正確預(yù)測(cè)為建筑物的比例占總建筑物的比例,計(jì)算公式為:
式中,TP為網(wǎng)絡(luò)預(yù)測(cè)結(jié)果為正樣本,實(shí)際也是正樣本的特征數(shù);FP為網(wǎng)絡(luò)預(yù)測(cè)為正樣本,而實(shí)際是負(fù)樣本的特征數(shù);FN為預(yù)測(cè)為負(fù)樣本,而實(shí)際為正樣本的特征數(shù)。
將實(shí)驗(yàn)所用數(shù)據(jù)集裁剪擴(kuò)充為10 萬(wàn)張尺寸為256×256 的影像,采用一張GTX1080Ti 顯卡,網(wǎng)絡(luò)訓(xùn)練過(guò)程中,隨著迭代次數(shù)的增加,準(zhǔn)確率在穩(wěn)步上升,約在第60 次迭代時(shí)網(wǎng)絡(luò)的ACC 達(dá)到了穩(wěn)定狀態(tài),維持在96.26%;網(wǎng)絡(luò)損失率(Loss)也在持續(xù)下降,并保持在0.088 左右。在驗(yàn)證集中,隨著網(wǎng)絡(luò)迭代次數(shù)的增加,val_ACC 在穩(wěn)步上升,并穩(wěn)定在95.3%;val_Loss 也逐漸下降,并保持在15.19 左右。訓(xùn)練過(guò)程中的ACC 和Loss 變化如圖5 所示。由圖6 可知,本文提出的網(wǎng)絡(luò)的Iou 達(dá)到78.59%,驗(yàn)證集中的val_Iou 也達(dá)到了78.56%; 由圖7 可知,網(wǎng)絡(luò)訓(xùn)練過(guò)程中的Recall 達(dá)到95.65%,在驗(yàn)證數(shù)據(jù)集中的Recall 達(dá)到94.26%。
從實(shí)驗(yàn)結(jié)果數(shù)據(jù)來(lái)看,本文提出的方法在ACC、Iou 和Recall 方面都有一定的提高,相較于經(jīng)典的U-Net 網(wǎng)絡(luò)分別提高了6.75%、5.34%和7.09%;相較于Segnet 網(wǎng)絡(luò)分別提高了8.86%、8.33%和8.44%,如表1 所示。
圖5 訓(xùn)練過(guò)程中ACC 和Loss 變化
圖6 訓(xùn)練過(guò)程中Iou 變化
圖7 訓(xùn)練過(guò)程中Recall 變化
圖8 3 種網(wǎng)絡(luò)模型的建筑物提取結(jié)果(部分)
表1 3 種建筑物提取模型的定量評(píng)價(jià)
通過(guò)訓(xùn)練得到的3 種建筑物提取模型提取的建筑物效果如圖8 所示,其中圖8a 為數(shù)據(jù)集中的真實(shí)值;圖8b 為改進(jìn)的U-Net 網(wǎng)絡(luò)得到的建筑物提取結(jié)果;圖8c 為Segnet 網(wǎng)絡(luò)提取的建筑物結(jié)果;圖8d 為經(jīng)典U-Net 網(wǎng)絡(luò)提取的建筑物結(jié)果。由圖8c 可知,Segnet 網(wǎng)絡(luò)提取的建筑物形態(tài)較差,有一定的誤檢和錯(cuò)檢,不能很好地提取建筑物,同時(shí)存在很多的細(xì)碎小斑點(diǎn),建筑物之間有粘連,大尺寸建筑物的輪廓提取很差;由圖8d 可知,經(jīng)典U-Net 網(wǎng)絡(luò)的提取結(jié)果也存在與Segnet 網(wǎng)絡(luò)相同的問(wèn)題,對(duì)建筑物輪廓的提取較差,存在部分細(xì)碎的小斑點(diǎn),建筑物提取不完全,存在漏檢現(xiàn)象;由圖8b 可知,改進(jìn)的U-Net 網(wǎng)絡(luò)在建筑物輪廓提取方面效果較好,可準(zhǔn)確提取建筑物輪廓,建筑物邊緣整齊,建筑物之間不存在粘連,細(xì)碎的小斑點(diǎn)較少,但存在少量的誤檢。綜上所述,改進(jìn)的U-Net 網(wǎng)絡(luò)可以較好地對(duì)大尺寸建筑物進(jìn)行精確提取,空洞卷積增大了感受野,多尺度提取特征后對(duì)特征進(jìn)行融合,提高了建筑物提取的精度,對(duì)不同尺寸的建筑物均有很好的提取效果。
本文提出的改進(jìn)的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)能有效地對(duì)建筑物進(jìn)行精確提取,將不同空洞率的空洞卷積加入到網(wǎng)絡(luò)中,多尺度地對(duì)來(lái)自編碼階段的結(jié)果進(jìn)行特征提取,并融合生成更加豐富的特征。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)結(jié)構(gòu)具有較好的提取效果,與經(jīng)典U-Net 網(wǎng)絡(luò)和Segnet 網(wǎng)絡(luò)相比,其在ACC、Iou 和Recall 方面均有一定的提高,提取效果較好,建筑物無(wú)粘連現(xiàn)象,輪廓較規(guī)整。通過(guò)與地面真實(shí)值比較發(fā)現(xiàn),該網(wǎng)絡(luò)結(jié)構(gòu)能精確地對(duì)高分辨率遙感影像中的建筑物進(jìn)行提??;但由于影像中地物復(fù)雜、建筑物自身結(jié)構(gòu)差異和地物遮擋等問(wèn)題,建筑物邊緣提取精度不理想,因此后續(xù)工作將對(duì)提取結(jié)果進(jìn)行后處理,以及在保證精度的前提下對(duì)建筑物邊緣提取進(jìn)行增強(qiáng)。