許玥 馮夢(mèng)如 皮家甜 陳勇
摘 要:利用遙感圖像快速準(zhǔn)確地檢測(cè)地物信息是當(dāng)前的研究熱點(diǎn)。針對(duì)遙感圖像地表物的傳統(tǒng)人工目視解譯分割方法效率低下和現(xiàn)有基于深度學(xué)習(xí)的遙感圖像分割算法在復(fù)雜場(chǎng)景下準(zhǔn)確率不高、背景噪聲多的問(wèn)題,提出一種基于改進(jìn)的U-net架構(gòu)與全連接條件隨機(jī)場(chǎng)的圖像分割算法。首先,融合VGG16和U-net構(gòu)建新的網(wǎng)絡(luò)模型,以有效提取具有高背景復(fù)雜度的遙感圖像特征;然后,通過(guò)選取適當(dāng)?shù)募せ詈瘮?shù)和卷積方式,在提高圖像分割準(zhǔn)確率的同時(shí)顯著降低模型預(yù)測(cè)時(shí)間;最后,在保證分割精度的基礎(chǔ)上,使用全連接條件隨機(jī)場(chǎng)進(jìn)一步優(yōu)化分割結(jié)果,以獲得更加細(xì)致的分割邊緣。在ISPRS提供的標(biāo)準(zhǔn)數(shù)據(jù)集Potsdam上進(jìn)行的仿真測(cè)試表明,相較于U-net,所提算法的準(zhǔn)確率、召回率和均交并比(MIoU)分別提升了15.06個(gè)百分點(diǎn)、29.11個(gè)百分點(diǎn)和0.3662,平均絕對(duì)誤差(MAE)降低了0.02892。實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法具備有效性和魯棒性,是一種有效的遙感圖像地表物提取算法。
關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);深度可分離卷積;全連接條件隨機(jī)場(chǎng)
中圖分類號(hào):TP391.4
文獻(xiàn)標(biāo)志碼:A
Abstract: To detect surface object information quickly and accurately by using remote sensing images is a current research hot spot. In order to solve the problems of inefficiency of the traditional manual visual interpretation segmentation method as well as the low accuracy and a lot of background noise of the existing remote sensing image segmentation based on deep learning in complex scenes, an image segmentation algorithm based on improved U-net network architecture and fully connected conditional random field was proposed. Firstly, a new network model was constructed by integrating VGG16 and U-net to effectively extract the features of remote sensing images with highly complex background. Then, by selecting the appropriate activation function and convolution method, the image segmentation accuracy was improved while the model prediction time was significantly reduced. Finally, on the basis of guaranteeing the segmentation accuracy, the segmentation result was further improved by using fully connected conditional random field. The simulation test on the standard dataset Potsdam provided by ISPRS showed that the accuracy, recall and the Mean Intersection over Union (MIoU) of the proposed algorithm were increased by 15.06 percentage points, 29.11 percentage points? and 0.3662 respectively, and the Mean Absolute Error (MAE) of the algorithm was reduced by 0.02892 compared with those of U-net. Experimental results verify that the proposed algorithm is an effective and robust algorithm for extracting surface objects from remote sensing images.Key words:? deep learning; Convolutional Neural Network (CNN); depth separable convolution; fully connected conditional random field
0 引言
對(duì)地物分割的研究已有幾十年的歷史,國(guó)內(nèi)外學(xué)者針對(duì)不同的應(yīng)用場(chǎng)景和數(shù)據(jù)源,提出并發(fā)表了眾多方法和研究成果。傳統(tǒng)的分割方法多基于閾值設(shè)定,所以針對(duì)不同地物的分布、形狀、結(jié)構(gòu)、紋理與色調(diào)信息,[1]采用的方法也不一。
針對(duì)植被分割,巫兆聰?shù)萚2]結(jié)合光譜紋理和形狀結(jié)構(gòu)信息分割森林植被,改善了分割質(zhì)量;Yuan等[3]提出結(jié)合光譜和紋理特征的遙感圖像分割方法提高了不同地物目標(biāo)的分割效率和準(zhǔn)確度;Palenichka等[4]提出基于視覺(jué)注意的森林植被多尺度分割方法。針對(duì)不透水表面分割有最近鄰[5]、支持向量機(jī)[6]、隸屬度函數(shù)[7]、形態(tài)學(xué)濾波[8]、矢量化[9]等方法。針對(duì)建筑物分割有均質(zhì)區(qū)域識(shí)別[10]、形態(tài)學(xué)房屋指數(shù)計(jì)算[11]、聚類提取城市變化[12]、先驗(yàn)形狀約束水平集模型[13]等方法和模型。
以上方法只能分割單一種類地物,針對(duì)某種地物的信息特征采用對(duì)應(yīng)方法,所以以上方法不能用于解決本文的多分類問(wèn)題。
現(xiàn)階段深度學(xué)習(xí)被普遍應(yīng)用在計(jì)算機(jī)視覺(jué)領(lǐng)域,其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[14]以其局部權(quán)值共享的特殊結(jié)構(gòu)以及良好的容錯(cuò)能力、并行處理能力和自學(xué)習(xí)能力被廣泛地應(yīng)用于圖像分類[15]、對(duì)象檢測(cè)[16]、語(yǔ)義分割[17]、人臉識(shí)別[18]等諸多計(jì)算機(jī)視覺(jué)領(lǐng)域。
在Long等[17]提出了全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)原理之后,卷積神經(jīng)網(wǎng)絡(luò)的分類目標(biāo)由對(duì)象精確至像素,拓展到了語(yǔ)義分割領(lǐng)域,這種end-to-end的全卷積神經(jīng)網(wǎng)絡(luò)被用來(lái)解決PASCAL VOC2012和Microsoft COCO等數(shù)據(jù)集的像素分類問(wèn)題,達(dá)到了很好的效果并被作為基準(zhǔn)。這些數(shù)據(jù)集來(lái)自日常人類視角的生活場(chǎng)景,而在本文中所使用的是地球觀測(cè)數(shù)據(jù),因同為語(yǔ)義分割任務(wù)則選用與FCN同樣是全卷積神經(jīng)網(wǎng)絡(luò)的encoder-decoder結(jié)構(gòu)的U-net[19]作為基礎(chǔ)構(gòu)架,但由于U-net構(gòu)架較淺不能明確表征復(fù)雜的地物特征,所以在基礎(chǔ)構(gòu)架上增加網(wǎng)絡(luò)層數(shù)以表征更高維的特征信息,構(gòu)建為D-Unet;針對(duì)U-net的激活函數(shù)——線性整流函數(shù)(Rectified Linear Unit, ReLU)[20]易使神經(jīng)元失活的問(wèn)題,在D-Unet中使用ELU(Exponential Linear Units)函數(shù)[21]替換;針對(duì)加深網(wǎng)絡(luò)層而導(dǎo)致的模型體積與參數(shù)量激增的問(wèn)題,使用深度可分離卷積(Depthwise Separable Convolution)[22-23]替換標(biāo)準(zhǔn)卷積構(gòu)建新的輕量級(jí)網(wǎng)絡(luò)模型DS-Unet,降低訓(xùn)練與預(yù)測(cè)時(shí)的計(jì)算量,提高模型運(yùn)行效率;針對(duì)神經(jīng)網(wǎng)絡(luò)過(guò)擬合問(wèn)題,使用Dropout[13]降低網(wǎng)絡(luò)層節(jié)點(diǎn)間的關(guān)聯(lián)性,提高了模型泛化能力;最后將神經(jīng)網(wǎng)絡(luò)輸出結(jié)果作為全連接條件隨機(jī)場(chǎng)(Fully Connected Conditional Random Field)[24]的輸入,對(duì)分割結(jié)果進(jìn)一步優(yōu)化,進(jìn)行對(duì)比實(shí)驗(yàn)。改進(jìn)的模型擁有很強(qiáng)的學(xué)習(xí)能力,擁有較強(qiáng)的泛化能力,性能穩(wěn)定、魯棒性強(qiáng)。
1 數(shù)據(jù)集及其預(yù)處理
研究采用國(guó)際攝影測(cè)量與遙感學(xué)會(huì)(International Society for Photogrammetry and Remote Sensing, ISPRS)提供的機(jī)載圖像數(shù)據(jù)集2D Semantic Labeling Potsdam。Potsdam是一座典型的歷史悠久的城市,擁有大型建筑、狹窄的街道和密集的沉降結(jié)構(gòu),這為遙感圖像地物測(cè)繪提供了先決條件。該數(shù)據(jù)集包括高分辨率的真實(shí)正射影像(True Ortho Photo, TOP)和從密集圖像匹配技術(shù)派生的數(shù)字表面模型(Digital Surface Model, DSM)[25]。TOP和DSM的地面采樣距離為5cm,這為分割后依據(jù)像素點(diǎn)統(tǒng)計(jì)分類目標(biāo)地物提供先決條件。該數(shù)據(jù)集包含38個(gè)(相同大小的)TOP區(qū)塊(6000×6000像素),如圖1所示。
1.1 基準(zhǔn)值處理
本文分割目標(biāo)為4類(植被、不透水表面、建筑、背景)。因Potsdam數(shù)據(jù)集提供的gt共分為6類(不透水表面、建筑、低植被、樹(shù)木、車(chē)輛、背景),而本文所探討的是遙感圖像地物測(cè)繪,不透水表面上的車(chē)輛并不作為地物信息所統(tǒng)計(jì),因車(chē)輛與不透水表面在二維空間上重合,則車(chē)輛類歸類為不透水表面類。本文主要探討卷積模型的優(yōu)化改進(jìn),卷積神經(jīng)網(wǎng)絡(luò)的輸入只有R、G、B三個(gè)通道,沒(méi)有使用數(shù)據(jù)集所提供的DSM;又因低植被與樹(shù)木的光譜、形狀、空間信息相似,必須借助于DSM作為分類的依據(jù),則最終把樹(shù)木與低植被歸為植被類,用以統(tǒng)計(jì)植被覆蓋。不透水表面與車(chē)輛、低植被與樹(shù)木的類別合并后詳見(jiàn)表2。
數(shù)據(jù)集中提供的gt的每個(gè)通道的光譜分辨率為8位,而深度學(xué)習(xí)框架需要輸入的gt為灰度圖像,通過(guò)對(duì)RGB圖像的R、G、B三個(gè)分量進(jìn)行加權(quán)平均(加權(quán)平均算法)達(dá)到灰度化處理的目的,加權(quán)平均算法如式(1)所示:
1.2 使用eCognition標(biāo)注未標(biāo)注數(shù)據(jù)
原數(shù)據(jù)集提供38個(gè)區(qū)塊的TOP,僅部分TOP提供標(biāo)記的gt,其余場(chǎng)景的gt未發(fā)布,所以使用eCognition對(duì)未標(biāo)注的14個(gè)TOP進(jìn)行標(biāo)注。
eCognition采用面向?qū)ο蟮姆诸惣夹g(shù)對(duì)像素進(jìn)行分類,這是一種基于目標(biāo)對(duì)象的分類方法,因其能充分利用遙感圖像的光譜、紋理、形狀、空間信息、相鄰關(guān)系等特征對(duì)像素分類,所以精度相對(duì)較高,能夠接近人工目視解譯精度,所以本文采用此方法標(biāo)注剩余數(shù)據(jù)。面向?qū)ο蟮募夹g(shù)有兩個(gè)重要特征和技術(shù)關(guān)鍵:選取合適的分割尺度對(duì)圖像進(jìn)行分割,使檢測(cè)的地物能在最合適(圖像首先被分割成一個(gè)個(gè)object,然后進(jìn)行sample標(biāo)記,最合適意味著用最少的object表達(dá)最為精確的地物邊緣)的分割尺度中凸顯出來(lái);選取分割對(duì)象的多種典型特征建立地物的分類規(guī)則進(jìn)行檢測(cè)或分類。[26]
本文首先使用eCognition中的multiresolution segmentation算法根據(jù)不同圖像的特征設(shè)定不同的參數(shù)對(duì)地物信息進(jìn)行初始分割,遙感圖像(圖3(a))的部分區(qū)域(圖4(a))的初始分割結(jié)果如圖4(b)所示,此圖像采用的參數(shù)Scale Parameter、Shape及Compactness分別為100、0.1與0.5。其中Scale Parameter表示分割的區(qū)塊大小,一般參數(shù)設(shè)置越小,區(qū)塊越小,分割越為精細(xì);Shape表示形狀參數(shù),它與color(顏色參數(shù))的權(quán)重和為1;compactness代表緊湊度,它與smoothness(平滑度)的權(quán)重和為1。然后選取合適的特征作為地物的分類規(guī)則,本文針對(duì)不同地物的光譜反射不同選擇Layer Values特征,依據(jù)不透水表面與建筑物的面積、長(zhǎng)寬差異度大而選定Area(Pxl)、Length/Width特征,依據(jù)植被與其他地物的邊界光滑性差異度大而選擇shape index(地物邊長(zhǎng)與其面積開(kāi)四次方的比值)特征。最后使用eCognition中的classification算法對(duì)每個(gè)像素點(diǎn)進(jìn)行分類,得到gt,如圖3(b)所示。
2 遙感圖像語(yǔ)義分割模型
本文改進(jìn)的遙感圖像語(yǔ)義分割深度神經(jīng)網(wǎng)絡(luò)命名為D-Unet與DS-Unet,用于從遙感圖像中提取有效的地物信息。2.1 基于改進(jìn)U-net的遙感圖像語(yǔ)義分割模型
2.1.1 改進(jìn)U-net構(gòu)架
U-net常被用于醫(yī)學(xué)圖像的分割,它所處理的醫(yī)學(xué)圖像背景單一、復(fù)雜度低,所以使用低復(fù)雜度的基礎(chǔ)模型U-net能夠達(dá)到很高的精度且在精度與復(fù)雜度之間達(dá)到平衡,U-net的網(wǎng)絡(luò)架構(gòu)如圖5所示。
本文所使用的Potsdam遙感圖像數(shù)據(jù)背景復(fù)雜,包含豐富的地物種類,且遙感光譜范圍廣泛,U-net并不能有效地提取復(fù)雜的遙感圖像的像素特征,所以通過(guò)加深U-net的深度構(gòu)建D-Unet以提取更加復(fù)雜的光譜特征。D-Unet的網(wǎng)絡(luò)架構(gòu)如圖6所示。
網(wǎng)絡(luò)的左半部分為下采樣模塊,依據(jù)VGG16所構(gòu)建,它是卷積神經(jīng)網(wǎng)絡(luò)中的一種典型結(jié)構(gòu),通過(guò)逐漸縮減輸入數(shù)據(jù)的空間維度以提取高維特征。其核心為5組conv與MaxPooling,其中第1、2組采用2次3×3的卷積運(yùn)算,卷積核數(shù)量分別是64與128,第3、4、5組采用3次3×3的卷積運(yùn)算,卷積核數(shù)量分別為256、512、512。在每一個(gè)卷積運(yùn)算以后加入BN(Batch Normalization)層,對(duì)網(wǎng)絡(luò)層的每一層的特征都做歸一化,使得每層的特征分布更加均勻,在提高模型收斂速度的同時(shí)又能夠提高模型的容錯(cuò)能力。[26]
網(wǎng)絡(luò)的右半部分與左半部分呈中心對(duì)稱,它由一系列的上采樣層構(gòu)成,其核心為與下采樣相對(duì)應(yīng)的5組Upsampling與conv,每一組conv的輸入除了上一層進(jìn)行Upsampling得到的深層抽象特征外,還有與其對(duì)應(yīng)的下采樣層輸出的淺層局部特征,將深層特征與淺層特征通過(guò)Concatente方式融合,從而恢復(fù)了特征圖細(xì)節(jié)并保證其相應(yīng)的空間信息維度不變。[26]
從圖7可看出:相對(duì)于ReLU函數(shù),ELU函數(shù)在輸入為負(fù)值時(shí)有輸出,而且這部分輸出還具有一定的抗干擾能力,這樣可以消除在反向傳播過(guò)程中的神經(jīng)元失活問(wèn)題。由于其特性,使用ELU激活函數(shù)替換ReLU函數(shù)構(gòu)建的D-Unet(ELU)模型的分類的準(zhǔn)確率比D-Unet(ReLU)高。
2.1.3 更改卷積方式
在2.1.1節(jié)中為了增強(qiáng)網(wǎng)絡(luò)的特征提取能力加深網(wǎng)絡(luò)層,導(dǎo)致模型參數(shù)急劇增加,使得模型訓(xùn)練、預(yù)測(cè)時(shí)計(jì)算時(shí)間冗長(zhǎng),受到的Xception[22]與MobileNet[23]的啟發(fā),使用深度可分離卷積替代標(biāo)準(zhǔn)卷積以減少網(wǎng)絡(luò)模型的參數(shù)量。[26]Xception[22]中指出,對(duì)于卷積來(lái)說(shuō)卷積核可以看作是一個(gè)三維的濾波器:通道維+空間維(Feature Map的寬和高),常規(guī)的卷積操作其實(shí)就是實(shí)現(xiàn)通道相關(guān)性和空間相關(guān)性的聯(lián)合映射。在深度可分離卷積中提出將通道和區(qū)域分離,也就是對(duì)空間信息和深度信息進(jìn)行去耦,將空間信息與深度信息分開(kāi)映射能夠達(dá)到更好的效果,并且在此過(guò)程中通過(guò)拆分標(biāo)準(zhǔn)卷積有效地減少了參數(shù)量,降低了模型的復(fù)雜度,同時(shí)提高了模型的泛化能力[26]。圖8為標(biāo)準(zhǔn)卷積核。
當(dāng)卷積核大小為3×3時(shí),理論上深度可分離卷積的計(jì)算量為標(biāo)準(zhǔn)卷積的1/9。
本文主要利用深度可分離卷積降低參數(shù)量的特性,在D-Unet(ELU)基礎(chǔ)上構(gòu)建輕量級(jí)模型DS-Unet(ELU),其參數(shù)量大致減為原參數(shù)量的1/6,模型的預(yù)測(cè)時(shí)間大致為原時(shí)間的1/3。
2.1.4 預(yù)防過(guò)擬合
過(guò)擬合是所有深度模型在訓(xùn)練過(guò)程中都會(huì)遇到的問(wèn)題,一般可以采用Dropout正則化解決。Dropout是以某個(gè)概率值暫時(shí)丟棄隱藏層的神經(jīng)元來(lái)達(dá)到對(duì)網(wǎng)絡(luò)進(jìn)行“瘦身”的目的以降低網(wǎng)絡(luò)的復(fù)雜度。
當(dāng)某一節(jié)點(diǎn)在某次迭代中被隨機(jī)選為拋棄點(diǎn),那么神經(jīng)網(wǎng)絡(luò)在此次迭代中的forward過(guò)程會(huì)將此節(jié)點(diǎn)輸出設(shè)為0,在backward過(guò)程中不會(huì)更新其權(quán)重和偏置項(xiàng),則在某次迭代中節(jié)點(diǎn)隨機(jī)失活不會(huì)參與訓(xùn)練,減弱了神經(jīng)元節(jié)點(diǎn)間的聯(lián)合適應(yīng)性,增強(qiáng)了泛化能力。在此模型中添加rate=0.5的Dropout層用以防止過(guò)擬合。
2.2 基于全連接條件隨機(jī)場(chǎng)的細(xì)分割
全卷積神經(jīng)網(wǎng)絡(luò)雖然能夠?qū)崿F(xiàn)像素級(jí)別的分類,但是得到的分割結(jié)果往往不夠精細(xì),存在邊界不平滑和像素點(diǎn)定位不準(zhǔn)確等問(wèn)題,主要原因在于全卷積網(wǎng)絡(luò)在像素點(diǎn)分類過(guò)程中很難考量到像素與像素之間的空間關(guān)系,導(dǎo)致像素級(jí)分類結(jié)果缺乏空間一致性。已有研究表明,使用全卷積網(wǎng)絡(luò)得到像素級(jí)分類結(jié)果之后,再使用條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)綜合圖像的空間信息,能夠得到更加精細(xì)并且具有空間一致性的結(jié)果[24,27]。針對(duì)本文中的分割問(wèn)題,使用條件隨機(jī)場(chǎng)考量像素點(diǎn)之間的空間位置關(guān)系,可進(jìn)一步改進(jìn)像素分割結(jié)果。條件隨機(jī)場(chǎng)試圖對(duì)多個(gè)變量在給定觀測(cè)值后的條件概率進(jìn)行建模。具體來(lái)說(shuō),若令
條件隨機(jī)場(chǎng)的能量函數(shù)E(Y|X)主要由一階勢(shì)函數(shù)φ1和二階勢(shì)函數(shù)φ2組成。在像素級(jí)分類任務(wù)中,通過(guò)訓(xùn)練使條件隨機(jī)場(chǎng)的勢(shì)能最小,則可以使相似的像素有較大的概率分為同一類別,定義如式(10)所示:
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)
3.1.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)環(huán)境分為網(wǎng)絡(luò)訓(xùn)練和網(wǎng)絡(luò)測(cè)試兩個(gè)部分。
網(wǎng)絡(luò)訓(xùn)練部分使用TeslaV100,內(nèi)存16GB,共享內(nèi)存8GB;軟件環(huán)境為Ubuntu16.04,Python3.5,TensorFlow1.9.0,Keras2.2.4。
網(wǎng)絡(luò)測(cè)試部分使用MacBookPro,CPU 2.2GHz Intel Core i7,內(nèi)存16GB,顯卡Intel Iris Pro 1536MB;軟件環(huán)境為MacOSMojave10.14.3,Python3.5,Tensorflow1.9.0,Keras2.2.4。
3.1.2 數(shù)據(jù)增強(qiáng)
在第1章中的38張TOP及其對(duì)應(yīng)的gt中隨機(jī)選取24張進(jìn)行隨機(jī)切割、旋轉(zhuǎn)、鏡像、模糊、光照調(diào)整以及噪聲(高斯噪聲、椒鹽噪聲)等數(shù)據(jù)增強(qiáng)處理,生成30萬(wàn)張256×256大小的訓(xùn)練及驗(yàn)證集,剩余的14張TOP及其對(duì)應(yīng)的gt用作測(cè)試集。
3.1.3 模型訓(xùn)練
在3.1.1節(jié)中的實(shí)驗(yàn)環(huán)境下對(duì)圖5所示的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。模型在使用Tensorflow作為后臺(tái)的Keras深度學(xué)習(xí)框架下訓(xùn)練。權(quán)值初始化采用Glorot等[28]提出的方法。模型訓(xùn)練采用批處理方式,將300000×0.75(75%的圖片作為訓(xùn)練集,其余作為驗(yàn)證集)張圖片每32張作為一個(gè)批次(batch)輸入模型進(jìn)行訓(xùn)練,總共需要3984個(gè)批次完成一個(gè)epoch,設(shè)定模型總共遍歷數(shù)據(jù)集50輪。訓(xùn)練時(shí)使用multi_gpu_model()函數(shù)同時(shí)調(diào)用4個(gè)GPU進(jìn)行,優(yōu)化器選用sgd,損失函數(shù)使用多分類的對(duì)數(shù)損失函數(shù)。在模型訓(xùn)練的過(guò)程中使用Callbacks函數(shù)中的ModelCheckpoint存儲(chǔ)最優(yōu)模型,設(shè)定監(jiān)測(cè)對(duì)象為準(zhǔn)確率,當(dāng)它最大時(shí)自動(dòng)保存最優(yōu)權(quán)值;訓(xùn)練時(shí)使用Callbacks函數(shù)中的EarlyStopping監(jiān)測(cè)模型訓(xùn)練情況,當(dāng)達(dá)到指標(biāo)時(shí)可提前終止訓(xùn)練,節(jié)省時(shí)間并且能夠預(yù)防過(guò)擬合;訓(xùn)練過(guò)程中的學(xué)習(xí)率使用Callbacks函數(shù)中的ReduceLROnPlateau自適應(yīng)調(diào)整,以適應(yīng)訓(xùn)練過(guò)程中的動(dòng)態(tài)變化,如圖12所示;訓(xùn)練過(guò)程使用Tensorboard監(jiān)測(cè)并可視化。訓(xùn)練模型的部分參數(shù)如表3所示。
從圖13~14可看出,隨著迭代次數(shù)的增加,曲線波動(dòng)減小,準(zhǔn)確率與訓(xùn)練損失變化趨于平緩,模型趨于收斂。圖15~16反映了隨著迭代次數(shù)的增加,驗(yàn)證集的準(zhǔn)確率與損失值變化趨于平緩,損失函數(shù)基本收斂,表明模型達(dá)到了最優(yōu)。
3.1.4 數(shù)據(jù)可視化
使用訓(xùn)練模型預(yù)測(cè)的結(jié)果被寫(xiě)入灰度圖中,像素值位于0~3,將其轉(zhuǎn)化為RGB圖像,轉(zhuǎn)化關(guān)系如表4所示。
3.1.5 基于像素的面積測(cè)算
數(shù)據(jù)集Potsdam的地面采樣距離為5cm,為依據(jù)像素點(diǎn)數(shù)量進(jìn)行面積測(cè)算提供了先決條件,每個(gè)像素點(diǎn)所表示的面積為5×5cm2,則只要統(tǒng)計(jì)像素?cái)?shù)量即可進(jìn)行遙感圖像主要地物信息的面積測(cè)算,如式(13)所示:
其中:g為地面采樣距離;n為像素點(diǎn)數(shù)量。
3.2 分析
3.2.1 性能評(píng)價(jià)
對(duì)分類后的遙感圖像,使用混淆矩陣[29-30]、均交并比(Mean Intersection over Union, MIoU)與平均絕對(duì)誤差(Mean Absolute Error, MAE)進(jìn)行評(píng)估。遙感圖像信息提取被視為一種多分類問(wèn)題,可用混淆矩陣將預(yù)測(cè)輸出的分類結(jié)果和gt進(jìn)行像素級(jí)比較,評(píng)價(jià)每個(gè)像素的預(yù)測(cè)輸出結(jié)果,即該像素分類結(jié)果取真陽(yáng)性(True Positive,TP)、假陽(yáng)性(False Positive,F(xiàn)P)、真陰性(True Negative,TN)、假陰性(False Negative,F(xiàn)N)四種結(jié)果中的一種,然后根據(jù)這四個(gè)指標(biāo)計(jì)算以下指標(biāo):
3.2.2 結(jié)果分析
圖17前兩列為T(mén)OP、gt以及使用不同方法分割并可視化的結(jié)果,其中D-Unet(ELU)_CRF相對(duì)于D-Unet(ELU)是在粗分割的基礎(chǔ)上使用CRF進(jìn)行了細(xì)分割。
對(duì)比D-Unet(ReLU)與U-net(ReLU)的分割結(jié)果可看出:U-net網(wǎng)絡(luò)構(gòu)架改進(jìn)后能夠更精確地對(duì)地物像素點(diǎn)進(jìn)行分類;在使用ELU函數(shù)替換ReLU函數(shù)后,D-Unet(ELU)的分割結(jié)果明顯優(yōu)于D-Unet(ReLU);在使用深度可分離卷積代替標(biāo)準(zhǔn)卷積構(gòu)建為DS-Unet(ELU)后,模型分割準(zhǔn)確率會(huì)略微下降,但是其由于網(wǎng)絡(luò)參數(shù)少,預(yù)測(cè)時(shí)間減少很多,可用于對(duì)預(yù)測(cè)精度要求不高但有時(shí)效性要求的場(chǎng)景下。
對(duì)比D-Unet(ELU)_CRF與D-Unet(ELU)的分割結(jié)果可看出:在使用全連接條件隨機(jī)場(chǎng)對(duì)粗分割結(jié)果進(jìn)行優(yōu)化后,在保證地物區(qū)域完整性的前提下精細(xì)化邊界區(qū)域,增強(qiáng)了地物信息的完整性,得到了更為優(yōu)異的分割結(jié)果。
圖17后六列是對(duì)前兩列的局部細(xì)節(jié)展示,分別是各個(gè)模型對(duì)植被、不透水表面(白色區(qū)域?yàn)椴煌杆砻妫┡c建筑物的分割結(jié)果。從中可看出:D-Unet(ELU)_CRF所得結(jié)果在精確度、邊緣明晰度上要明顯優(yōu)于其他方法。在使用全連接條件隨機(jī)場(chǎng)細(xì)分割后,對(duì)于D-Unet(ELU)存在的明顯錯(cuò)分類進(jìn)行了糾正,邊緣也更加接近gt;
而D-Unet(ReLU)與DS-Unet(ELU)分割出的結(jié)果孤立點(diǎn)較多, 且建筑物分割不太完整, 邊緣的錯(cuò)誤比較顯著,U-net(ReLU)模型甚至存在嚴(yán)重的錯(cuò)分類與欠分割問(wèn)題,在建筑物的像素分類上尤為明顯。
從表5可看出:
D-Unet(ReLU)的準(zhǔn)確率、精確率、召回率、F1-score、MIoU分別較U-net提升了12.47個(gè)百分點(diǎn)、22.25個(gè)百分點(diǎn)、25.98個(gè)百分點(diǎn)、0.2604、0.3235,平均絕對(duì)誤差降低了0.01744,驗(yàn)證了模型結(jié)構(gòu)改進(jìn)的有效性;
D-Unet(ELU)的準(zhǔn)確率、精確率、召回率、F1-score、MIoU分別較D-Unet(ReLU)提升了2.59個(gè)百分點(diǎn)、2.12個(gè)百分點(diǎn)、4.13個(gè)百分點(diǎn)、0.0257、0.0427,平均絕對(duì)誤差降低了0.01148,表明改用ELU函數(shù)后模型分割的效果更佳。
在使用全連接條件隨機(jī)場(chǎng)對(duì)D-Unet(ELU)的粗分割結(jié)果優(yōu)化以后,遙感圖像分割的準(zhǔn)確率準(zhǔn)確率、精確率、召回率、F1-score、MIoU較D-Unet(ELU)有略微的提升,平均絕對(duì)誤差略微下降,說(shuō)明了所構(gòu)建的D-Unet(ELU)_CRF模型的有效性。
在使用深度可分離卷積替換標(biāo)準(zhǔn)卷積后,模型的表現(xiàn)性能有所下降,的準(zhǔn)確率、精確率、召回率、F1-score、MIoU分別較D-Unet(ELU)下降了2.85個(gè)百分點(diǎn)、1.98個(gè)百分點(diǎn)、3.7個(gè)百分點(diǎn)、0.0286、0.0474,DS-Unet(ELU)的平均絕對(duì)誤差較D-Unet(ELU)升高了0.01542,但是與D-Unet(ReLU)相比性能差異不大。其優(yōu)勢(shì)體現(xiàn)在模型體積更小與預(yù)測(cè)效率的提升,因?yàn)槠鋮?shù)量更小,為標(biāo)準(zhǔn)卷積構(gòu)成網(wǎng)絡(luò)的1/6~1/5,具體見(jiàn)表6~7。
表7比較了D-Unet(ELU)、DS-Unet(ELU)與最先進(jìn)的深度模型SegNet、FCN-8s、DeconvNet、Deeplab-ResNet以及RefineNet的復(fù)雜性。通過(guò)使用Intel Core i7對(duì)圖像(平均尺寸2392×2191像素)執(zhí)行測(cè)試的時(shí)間獲得時(shí)間復(fù)雜度,同時(shí)表7還展示了深度模型的空間復(fù)雜度??煽闯霰疚奶岢龅腄-Unet(ELU)模型在時(shí)間與空間復(fù)雜度上具有一定的競(jìng)爭(zhēng)力,在使用深度可分離卷積卷積構(gòu)建為DS-Unet(ELU)后在預(yù)測(cè)時(shí)間的消耗上大為減少,模型的大小也大為縮減。
在Potsdam的基準(zhǔn)測(cè)試中,不同方法的定量比較如表8所示。其中:SVL_3算法使用SVL(Stair Vision Library)、歸一化數(shù)字植被指數(shù)(Normalized Digital Vegetation Index,NDVI)、飽和度和歸一化數(shù)字地表模型(Normalized Digital Surface Model,NDSM)訓(xùn)練基于AdaBoost的分類器以獲得最優(yōu)結(jié)果。Volpi等[31]的算法UZ_1與AZ1算法分別構(gòu)建了不同的encoder-decoder結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)。RIT_L2算法使用RGB與合成數(shù)據(jù)(紅外線(Infrared Radiation,IR)、NDVI和NDSM)訓(xùn)練兩個(gè)SegNet并進(jìn)行特征融合。Sherrah[32]的算法DST_2使用FCN作為卷積模型并應(yīng)用CRF作后處理。
從表8可看出,所有的方法都獲得了良好的結(jié)果,本文所提出的分割模型D-Unet(ELU)的準(zhǔn)確率最高,輕量級(jí)模型DS-Unet(ELU)也獲得了較高的準(zhǔn)確率。
本文所提出的網(wǎng)絡(luò)優(yōu)勢(shì)在于只使用原始的RGB數(shù)據(jù)訓(xùn)練單個(gè)網(wǎng)絡(luò),在數(shù)據(jù)量以及模型對(duì)地物的分割精確率上都具有優(yōu)勢(shì)。
4 結(jié)語(yǔ)
針對(duì)目前人為勘測(cè)地物信息的任務(wù)耗費(fèi)人力物力、辦事效率低下等問(wèn)題,本文提出了一種全卷積神經(jīng)網(wǎng)絡(luò)和全連接條件隨機(jī)場(chǎng)的遙感圖像地物信息分割方法,構(gòu)建D-Unet(ELU)和DS-Unet(ELU)模型,對(duì)遙感圖像實(shí)現(xiàn)像素級(jí)別的分類,解決了傳統(tǒng)方法普遍存在的過(guò)程繁瑣、方法普適性低、泛化能力弱的問(wèn)題。其中D-Unet(ELU)的分割準(zhǔn)確率高,但時(shí)效性較低,適用于對(duì)分割精度高但時(shí)效性要求不高的應(yīng)用場(chǎng)景;DS-Unet(ELU)的分割精確度較D-Unet(ELU)略微降低,但時(shí)效性高,適用于對(duì)精度要求不嚴(yán)苛卻對(duì)時(shí)效性要求高且設(shè)備性能低的應(yīng)用場(chǎng)景。本文首先通過(guò)對(duì)遙感圖像進(jìn)行標(biāo)注、數(shù)據(jù)增強(qiáng),將處理好的數(shù)據(jù)放入D-Unet與DS-Unet模型中擬合;然后將輸出結(jié)果放入全連接條件隨機(jī)場(chǎng)中進(jìn)一步處理,使得分割結(jié)果更接近gt;最后利用遙感圖像具有地面采樣距離這一特點(diǎn)提出了基于像素的面積測(cè)算方法。與測(cè)試集進(jìn)行對(duì)比后發(fā)現(xiàn)所提出的方法能夠精確地分割目標(biāo)地物,具有高效性、可實(shí)施性。但因參數(shù)batchsize受限于硬件設(shè)備,不能設(shè)置為較為理想的數(shù)值,在一定程度上影響了邊緣分割的精細(xì)度, 訓(xùn)練模型的時(shí)效性還有待提升。如何在保證精確性的情況下進(jìn)一步降低模型參數(shù)減少模型訓(xùn)練時(shí)間與預(yù)測(cè)時(shí)間是接下來(lái)的工作重心。
參考文獻(xiàn)(References)
[1] 高海燕, 吳波. 結(jié)合像元形狀特征分割的高分辨率影像面向?qū)ο蠓诸怺J]. 遙感信息, 2010(6): 67-72. (GAO H Y, WU B. Object-oriented classification of high spatial resolution remote sensing imagery based on image segmentation with pixel shape feature[J]. Remote Sensing Information, 2010(6): 67-72.)
[2] 巫兆聰, 胡忠文, 張謙, 等. 結(jié)合光譜、紋理與形狀結(jié)構(gòu)信息的遙感影像分割方法[J]. 測(cè)繪學(xué)報(bào), 2013, 42(1): 44-50. (WU Z C, HU Z W, ZHANG Q, et al. On combining spectral, textural and shape features for remote sensing image segmentation[J]. Acta Geodaetica et Cartographica Sinica, 2013, 42(1): 44-50.)
[3] YUAN J, WANG D, LI R. Remote sensing image segmentation by combining spectral and texture features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(1): 16-24.
[4] PALENICHKA R, DOYON F, LAKHSSASSI A, et al. Multi-scale segmentation of forest areas and tree detection in LiDAR images by the attentive vision method[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2013, 6(3): 1313-1323.
[5] 都偉冰, 王雙亭, 王春來(lái). 基于機(jī)載LiDAR粗糙度指數(shù)和回波強(qiáng)度的道路提取[J]. 測(cè)繪科學(xué)技術(shù)學(xué)報(bào), 2013, 30(1): 63-67. (DU W B, WANG S T, WANG C L. Road extraction based on roughness index and echo intensity of airborne LiDAR[J]. Journal of Geomatics Science and Technology, 2013, 30(1): 63-67.)
[6] 張曦, 胡根生, 梁棟, 等. 基于時(shí)頻特征的高分辨率遙感圖像道路提取[J]. 地理空間信息, 2016, 14(6): 18-21, 24. (ZHANG X, HU G S, LIANG D, et al. Road extraction from high resolution remote sensing image based on time frequency feature[J]. Geospatial Information, 2016, 14(6): 18-21, 24.)
[7] 周紹光, 陳超, 赫春曉. 基于形狀先驗(yàn)和Graph Cuts原理的道路分割新方法[J]. 測(cè)繪通報(bào), 2013(12): 55-57. (ZHOU S G, CHEN C, HE C X. A new road segmentation based on shape prior and graph cuts[J]. Bulletin of Surveying and Mapping, 2013(12): 55-57.)
[8] 周家香, 周安發(fā), 陶超, 等. 一種高分辨率遙感影像城區(qū)道路網(wǎng)提取方法[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 44(6): 2385-2391. (ZHOU J X, ZHOU A F, TAO C, et al. A methodology for urban roads network extraction from high resolution remote sensing imagery [J]. Journal of Central South University (Science & Technology), 2013, 44(6): 2385-2391.)
[9] 曾發(fā)明, 楊波, 吳德文, 等. 基于Canny邊緣檢測(cè)算子的礦區(qū)道路提取[J]. 國(guó)土資源遙感, 2013, 25(4): 72-78. (ZENG F M, YANG B, WU D W, et al. Extraction of roads in mining area based on Canny edge detection operator[J]. Remote Sensing for Land & Resources, 2013, 25(4): 72-78.)
[10] BEUMIER C, IDRISSA M. Building change detection from uniform regions[C]// Proceeddings of the 2012 Iberoamerican Congress on Pattern Recognition, LNCS 7441. Berlin: Springer, 2012: 648-655.
[11] HUANG X, ZHANG L, ZHU T. Building change detection from multitemporal high-resolution remotely sensed images based on a morphological building index[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2013, 7(1): 105-115.
[12] 李煒明, 吳毅紅, 胡占義. 視角和光照顯著變化時(shí)的變化檢測(cè)方法研究[J]. 自動(dòng)化學(xué)報(bào), 2009, 35(5): 449-461. (LI W M, WU Y H, HU Z Y. Urban change detection under large view and illumination variations[J]. Acta Automatica Sinica, 2009, 35(5): 449-461.)
[13] 田昊, 楊劍, 汪彥明, 等. 基于先驗(yàn)形狀約束水平集模型的建筑物提取方法[J]. 自動(dòng)化學(xué)報(bào), 2010, 36(11): 1502-1511. (TIAN H, YANG J, WANG Y M, et al. Towards automatic building extraction: variational level set model using prior shape knowledge[J]. Acta Automatica Sinica, 2010, 36(11): 1502-1511.)
[14] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[15] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2012: 1097-1105.
[16] HE K, GKIOXARI G, DOLLR P, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2961-2969.
[17] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.
[18] FARFADE S S, SABERIAN M J, LI L. Multi-view face detection using deep convolutional neural networks[C]// Proceedings of the 5th ACM International Conference on Multimedia Retrieval. New York: ACM, 2015: 643-650.
[19] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// MICCAI 2015: Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234-241.
[20] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[J]. Journal of Machine Learning Research, 2011, 15: 315-323.
[21] CLEVERT D, UNTERTHINER T, HOCHREITER S. Fast and accurate deep network learning by Exponential Linear Units (ELUs) [EB/OL]. [2019-01-10]. http://de.arxiv.org/pdf/1511.07289.
[22] CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1800-1807.
[23] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1704.04861.pdf.
[24] KRHENBHL P, KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]// Proceedings of the 2011 International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2011: 109-117.
[25] ALTMAIER A, KANY C. Digital surface model generation from CORONA satellite images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2002, 56(4): 221-235.
[26] 許玥. 基于改進(jìn)Unet的遙感影像語(yǔ)義分割在地表水體變遷中的應(yīng)用[D].重慶:重慶師范大學(xué),2019:16-35. (XU Y. Application of semantic segmentation of remote sensing image based on improved unet in surface water change[D]. Chongqing: Chongqing Normal University,2019:16-35.)
[27] ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1529-1537.
[28] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks[J]. Journal of Machine Learning Research, 2010, 9: 249-256.
[29] ODENA A. Semi-supervised learning with generative adversarial networks[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1606.01583.pdf.
[30] HUANG B, ZHAO B, SONG Y. Urban land-use mapping using a deep convolutional neural network with high spatial resolution multispectral remote sensing imagery[J]. Remote Sensing of Environment, 2018, 214: 73-86.
[31] VOLPI M, TUIA D. Dense semantic labeling of subdecimeter resolution images with convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 55(2): 881-893.
[32] SHERRAH J. Fully convolutional networks for dense semantic labelling of high-resolution aerial imagery[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1606.02585.pdf.