朱皓辰,吳艷蘭,3,4,何彬方
基于改進(jìn)DenseNet模型的高分遙感影像城市裸地提取
朱皓辰1,吳艷蘭1,3,4,何彬方2*
(1. 安徽大學(xué)資源與環(huán)境工程學(xué)院,合肥 230601;2. 安徽省氣象科學(xué)研究所,合肥 230031;3. 信息材料與智能感知安徽省實(shí)驗(yàn)室,合肥 230601;4. 安徽省地理信息智能技術(shù)工程研究中心,合肥 230601)
利用遙感影像提取裸地是監(jiān)測(cè)裸地空間分布的一個(gè)重要手段。針對(duì)目前普遍存在的邊界不清晰、空間信息丟失、小面積裸地漏提和與高反射率建筑不易區(qū)分等問題,設(shè)計(jì)了一種改進(jìn)DenseNet的遙感裸地提取深度學(xué)習(xí)模型,主要采取密集連接塊、坐標(biāo)卷積和密集空洞空間金字塔3種方法,增強(qiáng)DenseNet模型在獲取坐標(biāo)信息、豐富裸地空間特征信息、對(duì)全局上下文信息感知等方面的能力,減少模型對(duì)于空間細(xì)節(jié)特征丟失環(huán)節(jié),提高裸地遙感提取的精度。實(shí)驗(yàn)表明,該方法提取裸地的總精度為97.66%、交并比為68.69%、綜合評(píng)價(jià)指標(biāo)F1為81.44%、召回率為76.62%以及虛警率為25.68%,明顯優(yōu)于其他機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。此外,該模型對(duì)于多源遙感影像上的裸地提取也具有良好的普適性,在高分一號(hào)、高分六號(hào)和哨兵二號(hào)等遙感數(shù)據(jù)集上測(cè)試的總精度分別為95.80%、93.00%和92.55%;交并比分別為75.18%、75.13%和50.47%;綜合評(píng)價(jià)指標(biāo)分別為85.83%、85.80%和67.08%。因此,改進(jìn)的DenseNet模型方法較其他方法更適用于裸地的提取。
裸地提??;DenseNet;遙感影像;深度學(xué)習(xí)
裸地是指表層為土質(zhì),基本無植被覆蓋的土地或表層為巖石、石礫,其覆蓋面積大于等于70%的土地[1],包括處于休耕時(shí)期的農(nóng)田以及城市化建設(shè)過程中的可利用土地[2]。其具有特定的時(shí)間屬性和空間屬性,隨著時(shí)間的變化,狀態(tài)和形狀也會(huì)不斷地改變。裸地能反映城市建設(shè)的整體方向,迅速地獲取裸地的空間分布信息,對(duì)于城市的規(guī)劃建設(shè)以及環(huán)境保護(hù)具有重要的意義[3-4]。
現(xiàn)有遙感影像提取裸地方法主要有兩種途徑:裸地專題提取和在土地覆蓋分類中被提取。裸地專題提取中主要有分層分類法[5-6]和指數(shù)法[7-9]。其中,分層分類法是指根據(jù)各種地物光譜信息,按照一定的標(biāo)準(zhǔn),將水體、植被和不透水面等層層分解,達(dá)到專門提取裸地的目的。但此方法需要充分地利用各類地物的光譜信息,且需要通過反復(fù)調(diào)試來獲取最佳閾值范圍。遙感指數(shù)法是目前用于裸地提取最廣泛的方法,主要是根據(jù)裸地在不同波段表現(xiàn)出的特定信息而建立的遙感特征指數(shù)?,F(xiàn)有的用于裸地提取的遙感指數(shù)有歸一化土壤指數(shù)NDSI(normalized difference soil index)[7]、裸土指數(shù)BSI(bare soil index)[8]、歸一化裸地指數(shù)NDBaI(normalized difference bareness index)[9]等。歸一化裸地指數(shù)(NDBaI)在一定程度上提高了裸地提取的精度,卻也存在與建筑用地和植被的混分。在此基礎(chǔ)之上,林楚彬等[10]通過對(duì)熱紅外波段像元的分解與重組,并結(jié)合多種變換指數(shù),構(gòu)建了Bareness Index這種新的裸土指數(shù)模型。但是,由于裸地和建筑用地的空間紋理特征和光譜特征相似,彼此依然容易混淆。為此,有研究者提出了一種增強(qiáng)建筑用地和裸地指數(shù)EBBI(enhanced built-up and bareness index)[11],其利用雙閾值提取建筑用地和裸地,實(shí)驗(yàn)表明提取精度仍低于NDBaI,僅實(shí)現(xiàn)了兩者的部分分離。而歸一化土壤指數(shù)(NDSI)和歸一化裸地指數(shù)(NDISI)的結(jié)合有效的降低了裸地和建筑用地的混淆問題[12]。由于不同類型的建筑物反射率差異較大,高反射率的建筑與裸地的光譜特征更為相似,對(duì)此,竇鵬等提出了一種增強(qiáng)型裸地區(qū)域指數(shù)(EBAI)和增強(qiáng)型簡(jiǎn)化裸地區(qū)域指數(shù)(ESBAI)[13],以提高裸地的提取精度。
基于土地覆蓋分類的裸地提取方法有支持向量機(jī)[14-15]、最大似然法[16-17]、決策樹法[18]和深度學(xué)習(xí)方法[19-20],而深度學(xué)習(xí)在大數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他機(jī)器學(xué)習(xí)(ML)方法,以高效性、人工干預(yù)少、可塑性強(qiáng)等優(yōu)點(diǎn)被運(yùn)用于各種領(lǐng)域。其能夠充分獲取遙感影像豐富的紋理特征、空間特征信息,通過多層處理,逐漸將初始的“低層”特征轉(zhuǎn)化為“高層”特征,挖掘更多的特征信息。因此,在土地覆蓋分類中裸地提取在精度和效果上明顯優(yōu)于其他方法。
總體而言,現(xiàn)有指數(shù)法提取裸地主要聚焦于基于中、低分辨率遙感影像。隨著遙感技術(shù)的空間分辨率不斷提升,尤其是系列國產(chǎn)高分衛(wèi)星的出現(xiàn),高分辨率遙感影像蘊(yùn)藏更加豐富的空間信息、幾何結(jié)構(gòu)和紋理信息,這為地物準(zhǔn)確提取提供更加可靠的數(shù)據(jù)源。同時(shí),也造成了目標(biāo)提取困難,例如國產(chǎn)高分1號(hào)、高分2號(hào)等都只有4個(gè)波段(紅、綠、藍(lán)、近紅),因缺少構(gòu)建相關(guān)指數(shù)的波段,現(xiàn)有的裸土提取指數(shù)法不適用國產(chǎn)高分影像提取。而裸地在多分類里的提取精度大約在50%~80%[21-23],存在空間信息丟失、與其他地物類別混淆等問題缺乏專項(xiàng)討論,難以滿足裸地的高精度提取要求。
針對(duì)裸地邊緣信息模糊、空間分布不規(guī)律等特點(diǎn)及上述方法的缺點(diǎn)和難點(diǎn),本研究提出了一種改進(jìn)DenseNet網(wǎng)絡(luò)的高分辨率遙感影像裸地提取模型,主要采用3個(gè)策略。一是利用DenseNet的密集連接塊(DenseBlock)在抽取特征信息過程中的特征復(fù)用功能等特點(diǎn)[24],來保證每一層之間的緊密連接,將原始特征最大程度地傳遞至每一層,能有效提高裸地分割的精度。二是引入坐標(biāo)卷積作用機(jī)制來抽取空間坐標(biāo)信息,增強(qiáng)空間信息變化的感知,緩解池化操作造成的空間特征丟失問題;三是加入密集空洞空間金字塔,擴(kuò)大感受野,以獲得較大范圍的信息,幫助抽象化特征信息,增強(qiáng)對(duì)裸地的辨識(shí)能力,減小空間特征的損失實(shí)現(xiàn)高分辨率遙感影像裸地提取目標(biāo)。
普通卷積神經(jīng)網(wǎng)絡(luò)在下采樣中隨著網(wǎng)絡(luò)的加深,更深層的網(wǎng)絡(luò)難以收斂,存在特征信息損失、梯度消失等問題,導(dǎo)致誤差加大。因此,本研究一是利用密集連接塊特征復(fù)用功能的特點(diǎn),構(gòu)建了一個(gè)改進(jìn)DenseNet的裸地提取模型。二是在網(wǎng)絡(luò)入口處加入坐標(biāo)卷積層,有利于獲取裸地坐標(biāo)信息。三是加入密集空洞空間金字塔。
在下采樣特征抽取過程中,影像首先進(jìn)入坐標(biāo)卷積層獲取坐標(biāo)信息,再通過一個(gè)卷積層來生成初始特征圖,接著連續(xù)進(jìn)入5個(gè)密集連接塊和4個(gè)轉(zhuǎn)換層來獲取抽象特征。在上采樣過程中,特征圖通過反卷積層恢復(fù)特征,再進(jìn)入密集連接塊來提取特征。為了充分利用特征信息,彌補(bǔ)卷積過程中造成特征損失,相同層級(jí)的特征圖由跳躍結(jié)構(gòu)連接并進(jìn)行融合,最后再經(jīng)一次卷積輸出裸地、背景二值影像圖。具體模型結(jié)構(gòu)如圖1所示。
此外,由于批處理歸一化層具有不穩(wěn)定性,當(dāng)批次越來越小時(shí),其錯(cuò)誤率大幅度提升。本研究使用組歸一化[25]代替批處理歸一化層,組歸一化將輸入的數(shù)據(jù)在分成的每個(gè)組別內(nèi)進(jìn)行歸一化處理,即計(jì)算歸一化的均值和方差。因而,組歸一化的計(jì)算不受batch size影響,在batch size變化時(shí),模型精度依然保持穩(wěn)定。
圖1 模型結(jié)構(gòu)圖
Figure 1 Model structure diagram
針對(duì)常規(guī)卷積神經(jīng)網(wǎng)絡(luò)無法有效顧及特征空間位置信息的問題,本研究引入坐標(biāo)卷積[26]算法。坐標(biāo)卷積是普通積層的擴(kuò)展,標(biāo)準(zhǔn)卷積層從形狀為××塊映射到新形狀'×'×'塊,坐標(biāo)卷積在保留了普通卷積較少參數(shù)和高效計(jì)算特點(diǎn)的基礎(chǔ)之上,實(shí)現(xiàn)了將額外的通道(坐標(biāo)通道和坐標(biāo)通道)加入到其中,讓卷積訪問它自己輸入的坐標(biāo)信息。具體來說,、坐標(biāo)通道是×秩為1的矩陣,對(duì)和的坐標(biāo)值進(jìn)行相關(guān)的線性縮放,最終使它們落在[?1,1]的范圍內(nèi)。加入坐標(biāo)卷積有利于獲取裸地的坐標(biāo)信息,精確裸地像素位置,達(dá)到提高空間特征和像素分割任務(wù)的精度。標(biāo)準(zhǔn)卷積和坐標(biāo)卷積對(duì)比如圖2所示。
h、w和c分別代表輸入特征的高、寬和通道數(shù),h'、w'和c'分別代表卷積之后的高、寬和通道數(shù)。
Figure 2 Comparison of standard convolutional layer and coordinate convolutional layer
圖3 密集空洞空間金字塔
Figure 3 Dense atrous spatial pyramid pooling
全卷積神經(jīng)網(wǎng)絡(luò)在下采樣中主要是對(duì)圖像進(jìn)行一系列卷積和池化操作,在減小和擴(kuò)大尺寸的過程中存在一些內(nèi)部數(shù)據(jù)結(jié)構(gòu)、空間層級(jí)化信息丟失以及小物體無法重建等問題。對(duì)此,Yu等[27]提出了空洞卷積(dilated convolutions)。而連續(xù)的空洞卷積操作會(huì)產(chǎn)生 “棋盤效應(yīng)”[28],且較大的空洞率不利于小物體分割。ASPP(atrous spatial pyramid pooling)[29]將不同空洞率的空洞卷積并行連接或者級(jí)聯(lián)堆疊來獲取多尺度的信息。但是ASPP每次計(jì)算只選取少量且不密集的像素點(diǎn)導(dǎo)致大量信息被拋棄,當(dāng)空洞率增加到一定程度,空洞卷積的效果便微乎其微。因此,本研究引用密集空洞空間金字塔(dense atrous spatial pyramid pooling, DenseASPP)[30],將DenseNet中的密集連接思想應(yīng)用到了ASPP中,其原理是每一層的輸入都是前面所有卷積層輸出和輸入特征圖的拼接,通過不同空洞率的空洞卷積來獲取不同尺度的特征,有效緩解梯度消失、彌補(bǔ)擴(kuò)張率較大時(shí)無法顧及細(xì)節(jié)信息的問題,提高網(wǎng)絡(luò)對(duì)多尺度裸地特征信息的提取。本研究使用擴(kuò)張率(d)為3、6、12的空洞卷積層進(jìn)行特征處理,在能夠以非常密集的方式生成特征的同時(shí),也能夠接受更大范圍的接收野特征。其結(jié)構(gòu)如圖3所示。
高分二號(hào)(GF-2)衛(wèi)星數(shù)據(jù)包含藍(lán)、綠、紅、近紅4個(gè)波段,具有1 m、4 m分辨率的全色、多光譜數(shù)據(jù),經(jīng)影像處理后的空間辨率為1 m。其擁有高空間分辨率和豐富的光譜信息,為實(shí)現(xiàn)裸地識(shí)別提供更加有效的信息。因此本研究使用高分二號(hào)安徽省合肥市遙感影像作為數(shù)據(jù)源,具體位置如圖4所示。為測(cè)試本研究方法的性能,選取合肥市相同日期不同區(qū)域的GF-2遙感影像作為測(cè)試區(qū)。并且選用不同地區(qū)不同分辨率和不同傳感器的遙感影像進(jìn)行普適性驗(yàn)證,使用數(shù)據(jù)包含GF-1、GF-6和Sentinel-2,其中Sentinel-2覆蓋了13個(gè)光譜波段,為保證選擇光譜信息的一致性,選擇藍(lán)、綠、紅、近紅4個(gè)波段。相關(guān)數(shù)據(jù)的具體信息如表1所示。
圖4 樣本采集及訓(xùn)練區(qū)域衛(wèi)星影像數(shù)據(jù)位置圖
Figure 4 Location map of satellite image data in sample collection and training area
表1 遙感影像參數(shù)
利用人工目視解譯的方式獲得裸地的矢量數(shù)據(jù),再生成訓(xùn)練樣本的標(biāo)簽數(shù)據(jù)。將遙感影像和標(biāo)簽數(shù)據(jù)分割成448×448和512×512的樣本數(shù)據(jù)。同時(shí)為了增加樣本的數(shù)量和多樣性,實(shí)驗(yàn)采取不同步長切割遙感影像方式,共生成樣本19 055張,將訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)按4∶1的比例進(jìn)行隨機(jī)分配,最終得到15 255張訓(xùn)練樣本和3 800張測(cè)試樣本。
采用交叉驗(yàn)證的方式進(jìn)行網(wǎng)絡(luò)訓(xùn)練,將樣本分成訓(xùn)練集和測(cè)試集(該部分?jǐn)?shù)據(jù)不參加訓(xùn)練),測(cè)試集對(duì)訓(xùn)練生成的參數(shù)進(jìn)行測(cè)試,相對(duì)客觀地判斷這些參數(shù)對(duì)訓(xùn)練集之外數(shù)據(jù)的測(cè)試效果,優(yōu)化模型的訓(xùn)練。
實(shí)驗(yàn)在Tensorflow框架下進(jìn)行。為使訓(xùn)練和對(duì)比實(shí)驗(yàn)?zāi)芨玫伢w現(xiàn)模型效果,在訓(xùn)練前對(duì)各參數(shù)進(jìn)行設(shè)置。采用內(nèi)存需求較小、能夠針對(duì)不同參數(shù)計(jì)算不同自適應(yīng)學(xué)習(xí)率的Adam優(yōu)化器,其他相關(guān)設(shè)置包括batch size設(shè)為4,輪數(shù)為100輪,每輪的迭代次數(shù)為4 100。初始學(xué)習(xí)率設(shè)置為0.001,之后為了更加快速的使網(wǎng)絡(luò)收斂,根據(jù)訓(xùn)練輪數(shù)對(duì)學(xué)習(xí)率進(jìn)行自動(dòng)調(diào)整。開發(fā)平臺(tái)選用JetBrains PyCharm 2016,開發(fā)語言使用Python。
為了量化裸地的提取結(jié)果,以人工目視解譯為基準(zhǔn),采用基于像元的評(píng)價(jià)方法和基于對(duì)象的評(píng)價(jià)方法[31]。
基于像元的評(píng)價(jià)方法采用總精度OA(overall accuracy,OA)、綜合評(píng)價(jià)指標(biāo)(F1-score,F(xiàn)1)、交并比(intersection over union,IoU)3個(gè)評(píng)價(jià)指標(biāo)來評(píng)估模型的性能。其中OA表示預(yù)測(cè)值和真實(shí)值正確匹配像素占總像素的比例。IoU表示正確識(shí)別裸地和人工標(biāo)定裸地像素的交集與并集比值。而F1是模型精確率和召回率的一種加權(quán)平均。計(jì)算公式如下:
其中tp、fp、fn和fp分別為真正、假正、假負(fù)和假正,它們均代表像素的個(gè)數(shù)。
基于對(duì)象的評(píng)價(jià)方法采用召回率、漏警率和虛警率3個(gè)評(píng)價(jià)指標(biāo)。召回率是指正確提取個(gè)數(shù)與真實(shí)目標(biāo)個(gè)數(shù)的比值;漏警率是漏提出來的目標(biāo)個(gè)數(shù)與真實(shí)目標(biāo)個(gè)數(shù)的比值;虛警率是指錯(cuò)誤提取的個(gè)數(shù)與提取目標(biāo)總個(gè)數(shù)的比值。公式如下:
采用與樣本數(shù)據(jù)相同日期不同區(qū)域的GF-2遙感影像作為測(cè)試圖像,本研究方法提取裸地結(jié)果在基于像元評(píng)價(jià)方法中的OA、IoU和F1分別為97.66%、68.69%和81.44%?;趯?duì)象評(píng)價(jià)方法中召回率、虛警率和漏警率分別為76.62%、25.68%和23.38%,裸地提取結(jié)果與目視解譯相近。
本研究提出一種改進(jìn)DenseNet深度學(xué)習(xí)模型,實(shí)現(xiàn)了高分辨率遙感影像裸地自動(dòng)提取。為驗(yàn)證該方法的有效性和先進(jìn)性,在相同環(huán)境下與最大似然法、支持向量機(jī)和決策樹3種機(jī)器學(xué)習(xí)方法以及DeeplabV3+[32]、U-Net[33]、SegNet[34]和DenseNet[35]4種深度學(xué)習(xí)模型進(jìn)行對(duì)比分析。
3.2.1 與機(jī)器學(xué)習(xí)方法的對(duì)比分析 最大似然法、支持向量機(jī)和決策樹3種機(jī)器學(xué)習(xí)方法均是從研究區(qū)選取具有代表性的感興趣區(qū)域作為訓(xùn)練樣本。
3種機(jī)器學(xué)習(xí)方法誤提現(xiàn)象明顯,噪聲大,破碎化嚴(yán)重。而本研究方法的提取結(jié)果與目視解譯結(jié)果更加接近,整體效果較好。由圖5可知,在建筑工地圖5(a)中,3種機(jī)器學(xué)習(xí)方法不能很好地將裸地與光譜特征相似的地面和建筑陰影進(jìn)行區(qū)分,而改進(jìn)的DenseNet模型方法提取完整,有效避免了地面和陰影的影響。在背景簡(jiǎn)單的條件下圖5(b),3種機(jī)器學(xué)習(xí)方法能將分散的裸地全部提取,較其他場(chǎng)景提取效果較好,但是邊緣處理粗糙。而對(duì)于在復(fù)雜背景下圖5(c)的效果不理想,邊緣信息模糊,且細(xì)節(jié)處理不好,破碎化、誤提現(xiàn)象嚴(yán)重。改進(jìn)的DenseNet模型方法則邊緣清晰,破碎化、空洞現(xiàn)象少。對(duì)于休耕地圖5(d)區(qū)域,最大似然法結(jié)果相對(duì)較好,支持向量機(jī)和決策樹方法將部分道路和耕地誤分為裸地。改進(jìn)的DenseNet模型方法提取相對(duì)完整,沒有誤提現(xiàn)象。
本研究方法在加入坐標(biāo)卷積和密集空洞空間金字塔后,誤提現(xiàn)象發(fā)生較于機(jī)器學(xué)習(xí)方法相對(duì)較少,因此可以更準(zhǔn)確地識(shí)別出裸地,更適合對(duì)裸地進(jìn)行提取研究。
由表2可知,改進(jìn)的DenseNet模型方法在各精度指標(biāo)上都優(yōu)于3種機(jī)器學(xué)習(xí)方法,其中在OA、IoU和F1上比精度最高的決策樹分別高了2.89%、17.92%和14.09%;比精度最差的支持向量機(jī)分別高了5.15%、25.27%和20.89%。
采用基于對(duì)象的評(píng)價(jià)方法時(shí),為了方便計(jì)算,剔除100 m2以下的細(xì)碎斑塊。實(shí)驗(yàn)結(jié)果如表3所示,目視解譯的斑塊為5 587個(gè),改進(jìn)的DenseNet模型方法正確提取了4 281個(gè)斑塊,漏提1 306個(gè)斑塊,誤提1 479個(gè)斑塊,召回率、漏警率和虛警率分別為76.62%、23.38%和25.68%,其中大于1 000 m2的漏提斑塊有194個(gè),說明改進(jìn)的DenseNet模型方法對(duì)于大面積的裸地具有較好的提取效果。最大似然法和決策樹的召回率比本研究方法少2.73%和0.87%,而支持向量機(jī)的召回率則高1.13%,大于 1 000 m2的斑塊漏提表現(xiàn)較好的是最大似然法。但是這3種方法由于破碎化、誤提現(xiàn)象嚴(yán)重導(dǎo)致虛警率高達(dá)76.88%、71%和65.6%,其原因是提取了大面積非裸地區(qū)域,說明這3種機(jī)器學(xué)習(xí)方法并不能很好地區(qū)分裸地與其他地物。
(a) 建筑工地細(xì)節(jié)圖;(b) 簡(jiǎn)單背景下的細(xì)節(jié)圖;(c) 復(fù)雜背景下的細(xì)節(jié)圖;(d) 休耕地細(xì)節(jié)圖。
Figure 5 Comparison of the extraction results between the improved DenseNet model method and the machine learning methods
表2 改進(jìn)的DenseNet模型方法與機(jī)器學(xué)習(xí)方法提取精度對(duì)比
表3 基于對(duì)象的精度評(píng)價(jià)
3.2.2 與深度學(xué)習(xí)方法對(duì)比分析 在相同環(huán)境下,將本研究方法與DeeplabV3+、U-Net、SegNet和DenseNet4種深度學(xué)習(xí)模型進(jìn)行對(duì)比測(cè)試和分析。圖6為局部放大圖,由圖6(a)可知,DeeplabV3+提取不完整,U-Net則基本無法識(shí)別。其他方法均能提取出大面積裸地。對(duì)于建筑工地圖6(b),改進(jìn)的DenseNet模型方法和DenseNet在完整性上表現(xiàn)較好。在簡(jiǎn)單背景條件下圖6(c),SegNet、U-Net提取結(jié)果不完整,零星破碎。其中U-Net提取結(jié)果最差,裸地特征提取不充分且存在將水體、植被誤分成裸地的情況出現(xiàn)。其他方法則表現(xiàn)較好,被建筑物、水體和植被等影響而出現(xiàn)誤分現(xiàn)象相對(duì)較少。對(duì)于不加任何機(jī)制的DenseNet提取結(jié)果與目視解譯和本研究方法接近,這也是策略一以DenseNet網(wǎng)絡(luò)為主體的原因,但在復(fù)雜背景條件下圖6(d)也存在少量將水體、不透水面和道路誤提,細(xì)節(jié)處理和完整性沒有改進(jìn)的DenseNet模型方法好。
本研究將坐標(biāo)卷積和密集空洞空間金字塔兩種機(jī)制結(jié)合在一起,在獲取坐標(biāo)信息、增強(qiáng)上下文信息感知、減少空間層級(jí)化信息丟失的同時(shí),加強(qiáng)對(duì)裸地細(xì)節(jié)特征的提取能力,有效減少上述情況的發(fā)生。使提取結(jié)果具有完整性,更加符合目視解譯的結(jié)果,相比于其他深度學(xué)習(xí)模型在裸地提取方面具有優(yōu)勢(shì)。
(a) 大面積裸地提取的細(xì)節(jié)圖;(b) 建筑工地細(xì)節(jié)圖;(c) 簡(jiǎn)單背景下的細(xì)節(jié)圖;(d) 復(fù)雜背景下的細(xì)節(jié)圖。
Figure 6 Comparison of the extraction results of the improved DenseNet model method and other deep learning models
表4 改進(jìn)的DenseNet模型方法與其他深度學(xué)習(xí)模型提取精度對(duì)比
表4統(tǒng)計(jì)了不同方法的測(cè)試精度,改進(jìn)的DenseNet模型方法的精度優(yōu)于其他深度學(xué)習(xí)的方法。其中在OA、IoU、F1上比表現(xiàn)最好的DenseNet分別高了0.25%、2.94%和2.1%,說明坐標(biāo)卷積和密集空洞空間金字塔對(duì)模型性能提升有幫助。
總體上, DeeplabV3+、U-Net和SegNet 3種深度學(xué)習(xí)方法并不能很好地抽取裸地的高級(jí)特征,無法顧及全局信息,丟失大量裸地信息,所以存在大量的漏提和少量誤提現(xiàn)象。而本研究以DenseNet網(wǎng)絡(luò)為主體,增加坐標(biāo)卷積和密集空洞空間金字塔,增加上下文的信息感知能力,相對(duì)于DenseNet而言誤分現(xiàn)象減少,能夠全面且更精細(xì)的提取出裸地,是遙感影像裸地提取的最佳方法。
基于對(duì)象精度評(píng)價(jià)如表5所示,由于漏提嚴(yán)重,DeeplabV3+、U-Net和SegNet正確提取個(gè)數(shù)遠(yuǎn)低于改進(jìn)的DenseNet模型方法,DeeplabV3+、U-Net和SegNet召回率只達(dá)到30.57%、32.99%和41.56%,而表現(xiàn)較好的DenseNet召回率也只有69.61%,其漏警率和虛警率比改進(jìn)的DenseNet模型方法高了7.01%和3.97%,大于1 000 m2的斑塊漏提為333個(gè)。綜上,本研究在DenseNet網(wǎng)絡(luò)中加入坐標(biāo)卷積和密集空洞空間金字塔,在提高召回率的同時(shí)也有效降低漏警率和虛警率,說明本研究方法比其他方法更適合裸地的提取。
表5 基于對(duì)象的精度評(píng)價(jià)
為了驗(yàn)證本研究方法的普適性,選取不同地區(qū)、不同傳感器和不同分辨率的遙感影像對(duì)其進(jìn)行測(cè)試和精度評(píng)價(jià)。機(jī)器學(xué)習(xí)方法需從研究區(qū)選取感興趣過程且具有不穩(wěn)定性等問題導(dǎo)致其普適性較差。而本研究方法不需要重復(fù)的模型訓(xùn)練和參數(shù)調(diào)整,只需要簡(jiǎn)單的調(diào)用模型。本研究選取了尺寸為2 048× 2 048像素的GF-1、GF-6以及900×900像素的Sentinel-2 3種類型的遙感影像數(shù)據(jù)進(jìn)行測(cè)試。
本研究方法在只選用GF-2的樣本數(shù)據(jù)進(jìn)行訓(xùn)練后,直接調(diào)用模型的情況下能夠?qū)⒙愕卣w提出對(duì)裸地的提取效果良好。對(duì)于GF-1遙感影像,大面積裸地具有很好的提取結(jié)果,尤其是與裸地光譜特征相似的渾濁水體得到了很好的區(qū)分。GF-6遙感影像中的細(xì)小裸地同樣具有良好的提取效果,但也存在部分高反射率的建筑和道路被誤提的情況。Sentinel-2影像由于受分辨率和不透水面的影響,在細(xì)小的裸地部分出現(xiàn)了一定的漏提和誤提問題,但能夠適應(yīng)大面積的裸地提取工作。提取結(jié)果如圖7所示。以上實(shí)驗(yàn)證明結(jié)果表明,本研究方法在GF-1、GF-6和Sentinel-2 3種影像上提取裸地具有良好的跨傳感器和普適性效果
圖7 多源遙感影像提取結(jié)果細(xì)節(jié)圖
Figure 7 Detail map of multi-source remote sensing image extraction results
表6 改進(jìn)的DenseNet模型方法提取精度表
表6統(tǒng)計(jì)了各遙感影像具體精度數(shù)據(jù),由表可知,GF-1在OA和IoU和F1的精度分別為95.80%、75.18%、85.83%。GF-6在OA、IoU和F1的精度分別為93.0%、75.13%和85.80%。而Sentinel-2提取效果則相對(duì)較差,其OA、IoU和F1分別為92.55%、50.47%和67.08%。
本研究針對(duì)現(xiàn)有提取裸地的方法存在空間信息丟失、無法顧及裸地不同形態(tài)特征、細(xì)小破碎的裸地不能高效識(shí)別等問題,提出了一種改進(jìn)DenseNet的遙感裸地提取深度學(xué)習(xí)模型,采取密集連接塊、坐標(biāo)卷積和密集空洞空間金字塔3個(gè)策略,并取得較好的提取效果,主要結(jié)論如下:
(1)通過對(duì)該網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,對(duì)裸地的提取效果較好。本研究方法在OA、IoU和F1的精度分別為97.66%、68.69%、81.44%;召回率和虛警率為76.62%和 25.68%。并與3種機(jī)器學(xué)習(xí)方法和4種深度學(xué)習(xí)算法進(jìn)行實(shí)驗(yàn)對(duì)比。結(jié)果表明改進(jìn)的DenseNet模型方法較其他方法有大幅度提升,很好處理裸地的細(xì)節(jié)特征,更適用于裸地的提取。
(2)對(duì)本研究所提出的模型進(jìn)行了普適性驗(yàn)證,結(jié)果表明對(duì)高分一號(hào)、高分六號(hào)和哨兵二號(hào)遙感影像具有良好的普適性。
(3)本研究在各種測(cè)試和對(duì)比實(shí)驗(yàn)中結(jié)果表現(xiàn)較好,但由于提取裸地遙感影像背景復(fù)雜,且邊緣信息模糊,仍存在一些不足之處。因此,后續(xù)將考慮加入多種傳感器的裸地樣本或者有針對(duì)性地加入數(shù)據(jù)集擴(kuò)充樣本的多樣性,取得更好的裸地提取效果,進(jìn)一步提高模型的適用性。
(4)實(shí)際應(yīng)用中可將本研究提出的網(wǎng)絡(luò)模型與多時(shí)相遙感影像相結(jié)合,在提取出城市裸地的基礎(chǔ)之上,實(shí)現(xiàn)監(jiān)測(cè)建筑工地動(dòng)態(tài)變化,以及城市草木和耕地還林還草還濕的變化趨勢(shì),促進(jìn)城市規(guī)劃建設(shè)的進(jìn)程;研究裸地來源,分析變化原因,切實(shí)指導(dǎo)城市建設(shè)規(guī)劃和區(qū)域生態(tài)環(huán)境惡化的防控工作。
[1] 國土資源部. 土地利用現(xiàn)狀分類:GB/T 21010-2017[S].北京:中國標(biāo)準(zhǔn)出版社,2017.
[2] NGUYEN C T, CHIDTHAISONG A, KIEU DIEM P, et al. A modified bare soil index to identify bare land features during agricultural fallow-period in Southeast Asia using landsat 8[J]. Land, 2021, 10(3): 231.
[3] KIM G, MILLER P A, NOWAK D J. Assessing urban vacant land ecosystem services: urban vacant land as green infrastructure in the City of Roanoke, Virginia[J]. Urban For Urban Green, 2015, 14(3): 519-526.
[4] CAO Q, SHI M J. Spatio-temporal distribution and classification of utilization of urban bare lots in low-slope hilly regions[J]. PLoS One, 2021, 16(2): e0246746.
[5] WU C S, MURRAY A T. Estimating impervious surface distribution by spectral mixture analysis[J]. Remote Sens Environ, 2003, 84(4): 493-505.
[6] 董婷, 焦利民, 許剛. 基于分層分類法提取城市裸地信息[J]. 測(cè)繪地理信息, 2016, 41(4): 56-61.
[7] KEARNEY M S, ROGERS A S, Townshend J R G, et al. Developing a model for determining coastal marsh “health”[C]// Third thematic conference on remote sensing for marine and coastal environments. Seattle, Washington,1995:527-537.
[8] RIKIMARU A. Landsat TM data processing guide for forest canopy density mapping and monitoring model[C]// ITTO workshop on utilization of remote sensing in site assessment and planning for rehabilitation of logged-over forest. Bangkok, Thailand, 1996,8:1-8.
[9] ZHAO H M, CHEN X L. Use of normalized difference bareness index in quickly mapping bare areas from TM/ETM[C]//Proceedings of 2005 IEEE international geoscience and remote sensing symposium, 2005. IGARSS '05. Seoul. IEEE,2005 : 1666-1668.
[10] 林楚彬, 李少青. 基于熱紅外像元分解的裸土信息自動(dòng)提取方法[J]. 遙感技術(shù)與應(yīng)用, 2014, 29(6): 1067-1073.
[11] AS-SYAKUR A R, ADNYANA I W S, ARTHANA I W, et al. Enhanced built-up and bareness index (EBBI) for mapping built-up and bare land in an urban area[J]. Remote Sens, 2012, 4(10): 2957-2970.
[12] 徐涵秋. 福建省長汀縣河田盆地區(qū)近35年來地表裸土變化的遙感時(shí)空分析[J]. 生態(tài)學(xué)報(bào), 2013, 33(10): 2946-2953.
[13] 竇鵬, 陳洋波, 張濤, 等. 基于Landsat ETM+影像的增強(qiáng)型裸地指數(shù)研究[J]. 地理與地理信息科學(xué), 2017, 33(2): 25-31.
[14] ETTEHADI P, KAYA S, SERTEL E, et al. Separating built-up areas from bare land in Mediterranean Cities using sentinel-2A imagery[J]. Remote Sens, 2019, 11(3): 345.
[15] RANJAN A K, SAHOO D, GORAI A K. Quantitative assessment of landscape transformation due to coal mining activity using earth observation satellite data in Jharsuguda coal mining region, Odisha, India[J]. Environ Dev Sustain, 2021, 23(3): 4484-4499.
[16] KARABURUN A, DEMIRCI A, SUEN I S. Impacts of urban growth on forest cover in Istanbul (1987-2007)[J]. Environ Monit Assess, 2010, 166(1): 267-277.
[17] GEBRU B, LEE W K, KHAMZINA A, et al. Hydrological response of dry afromontane forest to changes in land use and land cover in northern Ethiopia[J]. Remote Sens, 2019, 11(16): 1905.
[18] PAN T, LU D S, ZHANG C, et al. Urban land-cover dynamics in arid China based on high-resolution urban land mapping products[J]. Remote Sens, 2017, 9(7): 730.
[19] JAMILA N, JOSEPH M, LIU R Q, et al. Land-use and land-cover (LULC) change detection and the implications for coastal water resource management in the wami-ruvu basin, Tanzania[J]. Sustainability, 2021, 13(8): 4092.
[20] NAUTIYAL G, MAITHANI S, SHARMA A. Exploring the relationship between spatio-temporal land cover dynamics and surface temperature over dehradun urban agglomeration, India[J]. J Indian Soc Remote Sens, 2021, 49(6): 1307-1318.
[21] 師超, 姜琦剛, 段富治, 等. 基于Unet+CRF的GF-2土地利用分類[J]. 世界地質(zhì), 2021, 40(1): 146-153.
[22] 歐健濱, 羅文斐, 劉暢. 多源數(shù)據(jù)結(jié)合的高分一號(hào)土地利用/覆蓋分類方法研究[J]. 華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 51(5): 92-97.
[23] 宋軍偉, 張友靜, 李鑫川, 等. 基于GF-1與Landsat-8影像的土地覆蓋分類比較[J]. 地理科學(xué)進(jìn)展, 2016, 35(2): 255-263.
[24] VAN ETTEN A. You only look twice: rapid multi-scale object detection In satellite imagery[EB/OL]. 2018: arXiv: 1805.09512. https://arxiv.org/abs/1805.09512
[25] WU Y X, HE K M. Group normalization[J]. Int J Comput Vis, 2020, 128(3): 742-755.
[26] LIU R, LEHMAN J, MOLINO P, et al. An intriguing failing of convolutional neural networks and the CoordConv solution[C]//Proceedings of the 32nd international conference on neural information processing systems. New York: ACM, 2018: 9628-9639.
[27] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[EB/OL]. 2015: arXiv: 1511.07122. https://arxiv.org/abs/1511.07122.
[28] KAOTHANTHONG N, THEERAMUNKONG T, CHUN J. Improving Thai optical character recognition using circular-scan histogram[C]//2017 14th IAPR international conference on document analysis and recognition (ICDAR). IEEE, Kyoto,2017: 567-572.
[29] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Trans Pattern Anal Mach Intell, 2018, 40(4): 834-848.
[30] YANG M, YU K, ZHANG C, et al, DenseASPP for semantic segmentation in street scenes[C]//2018 IEEE/CVF conference on computer vision and pattern recognition. Salt Lake City,2018:3684-3692.
[31] GAVANKAR N L, GHOSH S K. Automatic building footprint extraction from high-resolution satellite image using mathematical morphology[J]. Eur J Remote Sens, 2018, 51(1): 182-193.
[32] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[EB/OL]. 2018: arXiv: 1802.02611. https://arxiv.org/abs/1802.02611.
[33] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[J]. Lect Notes Comput Sci Subser Lect Notes Artif Intell Lect Notes Bioinform, 2015, 9351: 234-241.
[34] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Trans Pattern Anal. Mach Intell, 2017, 39(12): 2481-2495.
[35] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//2017 IEEE conference on computer vision and pattern recognition. Honolulu, HI, USA. IEEE, 2017: 2261-2269.
Extraction of urban bare land from high-resolution remote sensing images based on improved DenseNet model
ZHU Haochen1,WU Yanlan1,3,4,HE Binfang2
(1. School of Resources and Environmental Engineering, Anhui University, Hefei 230601;2. The Anhui Province Meteorological Science Research Institute, Hefei 230031;3. Information Materials and Intelligent Sensing Laboratory of Anhui Province, Hefei 230601;4. Anhui Engineering Research Center for Geographical Information Intelligent Technology, Hefei 230601)
The extraction of bare land using remote sensing images is an important means to monitor the spatial distribution of bare land. Aiming at the problems of unclear boundaries, spatial information loss, small area bare land missing extraction and difficulty in distinguishing buildings with high reflectivity, a deep learning model from remote sensing bare land extraction with improved DenseNet was designed, mainly adopting three methods of DenseBlock, coordinate convolution and dense atrous spatial pyramid pooling to enhance the ability of DenseNet model in acquiring coordinate information, enriching spatial feature information of bare land and sensing global context information, reducing the model for spatial detail feature loss links and improving the accuracy of bare land remote sensing extraction. The experiments showed that the method extracts bare land with 97.66% overall accuracy, the IoU was 68.69%, the comprehensive evaluation index F1 was 81.44%, and the recall rate was 76.62. %, the false alarm rate was 25.68%, which was significantly better than other machine learning methods and deep learning methods. In addition, the model also has good universality for bare ground extraction on multi-source remote sensing images. The OA tested on remote sensing datasets such as GF-1, GF-6 and Sentinel-2 were 95.80%, 93.00%, and 92.55%, respectively; the IoU were 75.18%, 75.13%, and 50.47%, respectively; the F1 were 85.83%, 85.80% and 67.08%, respectively. Therefore, the improved DenseNet model method is more suitable for the extraction of bare land than other methods.
bare land extraction; DenseNet; remote sensing image; deep learning
TP75
A
1672-352X (2022)05-0799-10
10.13610/j.cnki.1672-352x.20221111.018
2022-11-15 10:32:34
[URL] https://kns.cnki.net/kcms/detail/34.1162.s.20221111.1117.036.html
2022-01-26
國家自然科學(xué)基金(41971311;42101381;41901282)和安徽省自然科學(xué)基金(2008085QD188)共同資助。
朱皓辰,碩士研究生。E-mail:zhchenwork@163.com
何彬方,高級(jí)工程師。E-mail:he_binfang@sina.com