楊建宇,周振旭,杜貞容,許全全,尹 航,劉 瑞
?
基于SegNet語義模型的高分辨率遙感影像農(nóng)村建設(shè)用地提取
楊建宇1,2,周振旭1,杜貞容1,許全全1,尹 航1,劉 瑞1
(1. 中國農(nóng)業(yè)大學土地科學與技術(shù)學院,北京 100083;2. 國土資源部農(nóng)用地質(zhì)量與監(jiān)控重點實驗室,北京 100035)
針對傳統(tǒng)分類算法、淺層學習算法不適用于高空間分辨率遙感影像中農(nóng)村建筑物信息提取的問題,該文以河北省霸州市高空間分辨率遙感影像World View-2為數(shù)據(jù)源,利用182 064幅128×128像素大小的影像切片為訓練樣本,選取基于深度卷積神經(jīng)網(wǎng)絡的SegNet圖像語義分割算法對遙感影像中的農(nóng)村建筑物進行提取,并與傳統(tǒng)分類算法中的最大似然法(maximum likelihood,ML)和ISO聚類、淺層學習算法中的支持向量機(support vector machine,SVM)和隨機森林(random forest,RF)以及深層語義分割算法中的金字塔場景解析網(wǎng)絡(pyramid scene parsing network,PSPNet)的試驗結(jié)果作對比分析。研究結(jié)果表明:SegNet不僅能夠高效利用高空間分辨率遙感影像中農(nóng)村建筑物的光譜信息而且還能夠充分利用其豐富的空間特征信息,最終形成較好的分類模型,該算法在驗證樣本中的分類總體精度為96.61%,Kappa系數(shù)為0.90,建筑物的1值為0.91,其余5種分類算法的總體精度、Kappa系數(shù)、建筑物的1值都分別在94.68%、0.83、0.87以下。該研究可以為高空間分辨率遙感影像農(nóng)村建設(shè)用地提取研究提供參考。
遙感;圖像分割;算法;深度學習;SegNet語義分割模型;高空間分辨率遙感影像;農(nóng)村建設(shè)用地提取
隨著遙感技術(shù)的不斷發(fā)展,高空間分辨率遙感影像的空間信息更加豐富和精細。同時,高空間分辨率遙感影像的復雜性也對遙感影像的分類技術(shù)提出了更高的要求。然而,面對高空間分辨率遙感影像中更明顯的幾何結(jié)構(gòu)和更豐富的紋理特征,如何設(shè)計合理的特征體系、選擇合適的分類模型從而精準、快速地掌握農(nóng)村建設(shè)用地的數(shù)量及其分布狀態(tài),對城鄉(xiāng)統(tǒng)籌、節(jié)約集約用地和實現(xiàn)可持續(xù)發(fā)展有著重要的意義,同時也對探索深度學習模型在高空間分辨率遙感影像建筑物分類中的應用具有研究意義。
近年來,在建筑物分類領(lǐng)域常用的分類算法有最大似然法(maximum likelihood,ML)[1]、ISO聚類(ISO clustering)[2]、支持向量機(support vector machine,SVM)[3-4]、隨機森林(random forest,RF)[5]、神經(jīng)網(wǎng)絡(neural network,NN)[6-7]等分類算法。然而,這些方法對光譜特征較為依賴、對空間特征利用不足,不適用于光譜分辨率較低的高空間分辨率遙感影像。目前,深度學習已在語音識別[8-9]、圖像識別[10]、信息檢索[11]等領(lǐng)域超越了傳統(tǒng)的機器學習算法。而圖像語義分割算法對光譜及空間特征較強的提取能力使更多的學者將其引入到遙感影像分類中[12],目前圖像語義分割方法主要有基于非參數(shù)轉(zhuǎn)換的數(shù)據(jù)驅(qū)動方法[13-18]、貝葉斯[19]、馬爾可夫隨機場[20]和條件隨機場[21-22],但這些方法分割效率低、計算量大。Long等[23]提出全卷積神經(jīng)網(wǎng)絡(fully convolutional networks,F(xiàn)CN),該網(wǎng)絡丟棄了全連接層,從而提高了分割效率、降低了計算復雜度,是經(jīng)典的語義分割網(wǎng)絡?;贔CN的圖像語義分割算法在建筑物提取方面的表現(xiàn)尤為突出,如Zhang等提出影像自適應分割并開發(fā)了多級分類器,使建筑提取精度進一步提高[24];Zhao等利用多尺度影像構(gòu)建多尺度樣本金字塔,充分挖掘了遙感影像中的空間信息[25]。但是,目前用于建筑物提取的圖像語義分割模型多為基于切片的網(wǎng)絡架構(gòu),與基于像素的端到端網(wǎng)絡架構(gòu)相比,這種架構(gòu)對樣本中的特征缺乏整體性理解且效率較低[26]。Badrinarayanan等[27]提出SegNet網(wǎng)絡,該網(wǎng)絡是基于像素的端到端的網(wǎng)絡架構(gòu),是對FCN 的優(yōu)化,沿用了FCN進行圖像語義分割的思想,該網(wǎng)絡融合了編碼-解碼結(jié)構(gòu)和跳躍網(wǎng)絡的特點,使得模型能夠得到更加精確的輸出特征圖,在訓練樣本有限的情況下也能得到更加準確的分類結(jié)果。
因此,針對以上存在的問題,本文提出利用基于深度學習的SegNet語義分割模型對遙感影像中農(nóng)村建筑物的光譜與空間特征進行深度分析與自動提取,形成一個完整的處理流程,在最大程度上使模型實現(xiàn)從原始輸入到最終輸出的自動化。以期為農(nóng)村地區(qū)的建筑物分布模式分析及節(jié)約集約用地實施提供技術(shù)參考,為提高高空間分辨率遙感影像建筑物分類精度提供參考價值。
文中選取的研究區(qū)位于河北省霸州市,如圖1所示,地理位置介于116°15¢—116°40¢E、39°21¢—39°50¢N,東鄰天津西青區(qū),西接雄安新區(qū),南依文安縣,北靠固安縣和永清縣兩縣。霸州市地勢低平,自西北向東南緩傾,土地總面積784 km2,其中居民用地及工礦用地150.5 km2,占土地總面積的19.20%;交通用地13.9 km2,占土地總面積的1.77%;水利設(shè)施用地3.7 km2,占土地總面積的0.47%。
圖1 霸州市位置圖
本文所使用的數(shù)據(jù)主要是河北省霸州市的全域高空間分辨率遙感影像與該地區(qū)的土地利用矢量數(shù)據(jù)。其中,霸州市的全域高空間分辨率遙感影像獲取日期為2013年9月26日,類型為World View-2彩色合成圖像,其空間分辨率為0.5 m,均含有RGB三個波段;土地利用矢量數(shù)據(jù)來自2013年土地利用現(xiàn)狀變更調(diào)查數(shù)據(jù)庫,該數(shù)據(jù)可以為樣本組織,尤其是地物對應標簽的標注提供參照,有利于增強樣本的客觀性、準確性和精確性。
文中所使用的基于深度卷積神經(jīng)網(wǎng)絡的語義分割模型SegNet整體架構(gòu)如圖2所示,該網(wǎng)絡模型主要由編碼網(wǎng)絡(Encoder Network)、解碼網(wǎng)絡(Decoder Network)和逐像素分類器(Pixel-wise Classification Layer)組成,并且每個卷積層后面都緊跟著批規(guī)范化[28](Batch Normalization)層和ReLU激活函數(shù)。
編碼網(wǎng)絡是將高維向量轉(zhuǎn)換成低維向量,實現(xiàn)了對高維特征的低維提取。編碼網(wǎng)絡通過多次最大池化操作雖然可以捕捉更多的平移不變性特征,但同樣會丟失更多特征圖的邊界信息等分割的重要依據(jù)。因此,在池化過程中同時記錄最大池化索引信息,保存了最大特征值所在的位置,然后利用最大池化索引信息對輸入特征圖進行上采,使得邊界信息得以保存。
解碼網(wǎng)絡利用編碼器下采樣時保存的相應特征層的最大池化索引信息將低分辨率的特征圖映射到高空間分辨率的特征圖,實現(xiàn)了低維向量到高維向量的重構(gòu)。在解碼過程中重復使用最大池化索引具有幾個優(yōu)點:優(yōu)化邊界輪廓描述;減少參數(shù)數(shù)量,可以端對端訓練;上采樣方式可以應用到任何編碼—解碼的網(wǎng)絡中[29-33]。在最后一層解碼器輸出高維特征表示向量,作為可訓練Softmax分類器的輸入。
圖2 SegNet結(jié)構(gòu)圖
Softmax分類器單獨地對每個像素進行分類,其輸出的是每個像素屬于各分類的概率。每個像素具有最大概率的分類即為其預測分割的分類。
本文試驗中樣本集包括訓練樣本、測試樣本和驗證樣本。從河北省霸州市的全域遙感影像中分別截取了1幅3 000×3 000像素和2幅20 00×2 000像素大小的影像切片作為訓練樣本,1幅3 000×3 000像素大小的影像切片作為驗證樣本,數(shù)據(jù)樣本的選取位置如圖3所示。
圖3 訓練樣本和驗證樣本的選取位置
本文是對農(nóng)村建設(shè)用地進行提取,然而農(nóng)村建筑物在高空間分辨率遙感影像中由于細節(jié)的充分展現(xiàn),導致其光譜特征復雜多變,并且類內(nèi)光譜差異大,類間光譜差異小,給農(nóng)村建筑物的提取增加了難度,所以本文在選取樣本過程中充分考慮農(nóng)村建筑物的光譜特征,選取光譜特征覆蓋范圍廣的區(qū)域作為樣本區(qū)域,使選取的樣本具有代表性,以避免過擬合現(xiàn)象的發(fā)生,增強模型的泛化能力。同時,又有研究表明基于深度卷積神經(jīng)網(wǎng)絡的語義分割模型對二分類中正負樣本的平衡度非常敏感,平衡的數(shù)據(jù)集可以很大程度上提高分類器的分類性能[34-35]。因為在實際選取樣本的過程中,很難做到正負樣本的平衡,所以本文通過少數(shù)類樣本過抽樣的策略來解決正負樣本的平衡問題。
由于截取的訓練樣本尺寸較大,并且軟硬件計算能力有限,所以不能直接輸入到網(wǎng)絡中進行訓練,因此在語義分割模型訓練前需要對訓練樣本進行切割。然而,在高空間分辨率遙感影像中,農(nóng)村房屋建筑呈現(xiàn)為緊湊的矩形形狀,農(nóng)村硬化道路呈現(xiàn)為規(guī)則的條狀。當切割尺度過小時,會破壞農(nóng)村建筑物的空間結(jié)構(gòu)特征,降低模型的泛化能力,影響分類的準確性。當切割尺度過大時,雖然能夠完整地保留農(nóng)村建筑物的空間結(jié)構(gòu)特征,但是訓練網(wǎng)絡模型時需要消耗大量的內(nèi)存、顯存和時間,并且切割尺度越大,樣本數(shù)據(jù)量就越小,訓練過程中越易出現(xiàn)過擬合現(xiàn)象。所以,樣本切割尺度過大或過小都將影響語義分割模型訓練的效率和最終的分類效果[36],通過基于多尺度樣本語義分割的高空間分辨率遙感影像分類試驗來探索不同地物的最佳分類尺度,根據(jù)試驗結(jié)果如圖4所示,當對影像切割大小為128′128像素、步長為32像素時,建筑物的分類精度能夠達到最高為85.19%。由于深度語義分割模型的訓練需要大量的訓練集來防止訓練過程中過擬合問題的發(fā)生,所以本文采用步長為32像素的重疊切割來擴充數(shù)據(jù)量達到數(shù)據(jù)增強的作用。
驗證樣本的組織策略與訓練樣本一致,不僅要考慮建筑物的空間特征和光譜特征,還要對其進行重疊切割,此處的重疊切割可以減少分類過程中的拼接痕跡,提高分類效果。
注:64×64×16表示按照大小為64像素×64像素,步長為16像素進行樣本圖像切割。
圖5介紹了基于深度學習的語義分割模型SegNet在提取農(nóng)村建筑物過程中的主要技術(shù)流程。本研究流程可分為樣本數(shù)據(jù)預處理、語義分割模型的訓練、遙感影像分類和分割結(jié)果對比分析4個階段。
注:測試集用來優(yōu)化調(diào)整模型參數(shù)。
樣本數(shù)據(jù)的預處理主要是對選取的樣本數(shù)據(jù)進行預處理。主要包括樣本標簽制作、樣本的切割和重疊采樣、數(shù)據(jù)格式的轉(zhuǎn)換,使預處理后的樣本數(shù)據(jù)能夠輸送到圖像語義分割網(wǎng)絡中,為語義分割模型的訓練做數(shù)據(jù)準備。
模型的訓練主要包括訓練前的參數(shù)設(shè)置和訓練中的語義分割網(wǎng)絡模型的自我優(yōu)化。進行訓練之前需對訓練參數(shù)進行設(shè)置,然后將大量預處理好的訓練樣本輸入到深層網(wǎng)絡中,根據(jù)深度網(wǎng)絡算法對數(shù)據(jù)進行大量的非線性變換組合,得到高層次的抽象特征并傳送到輸出層,再計算輸出數(shù)據(jù)與實際數(shù)據(jù)之間的差異,然后根據(jù)此差異對權(quán)重矩陣進行優(yōu)化,使輸出數(shù)據(jù)與實際數(shù)據(jù)之間的差異能夠達到最小,從而達到優(yōu)化模型的目的。
遙感影像分類是通過訓練好的語義分割網(wǎng)絡模型對驗證樣本中的建筑物進行提取。本文選取的驗證樣本大小為3 000′3 000像素,由于樣本過大不能直接輸入到模型中,所以在分類前需對驗證樣本進行切割,切割大小為128′128像素,步長為32像素的重疊切割的策略,此處重疊切割可以保證分類后圖像的連續(xù)性并減少拼接痕跡。切割后,大量驗證樣本數(shù)據(jù)被輸入到訓練好的模型中進行分類,然后對分類結(jié)果與對應的標簽進行逐像素匹配計算,最終得出混淆矩陣。
最后對SegNet的提取結(jié)果與對比試驗的提取結(jié)果進行對比。本文中5個對比試驗分別使用PSPNet語義分割網(wǎng)絡[37]、支持向量機、隨機森林、ISO聚類和最大似然法進行建筑物提取。通過計算對比試驗的影像分類結(jié)果和該影像所對應標簽的差異,得出每種分類方法的混淆矩陣。最后對各種分類方法的精度進行比較和分析。
在實際選取樣本的過程中,很難控制正負樣本的平衡,所以本文通過對少數(shù)類樣本進行復制的方式來增加少數(shù)類樣本的數(shù)量,進而解決正負樣本的平衡問題,使得最終訓練樣本中像元個數(shù)從17 000 000個增加到25 960 000,其中建筑物像元數(shù)為13 069 851個,占總像元個數(shù)的50.35%;非建筑物像元數(shù)為12 890 149個,占總像元個數(shù)的49.65%;同時通過該策略又起到了數(shù)據(jù)增強的作用,擴充了訓練樣本和驗證樣本的數(shù)量。
樣本選取后,為了使樣本不僅能夠順利地輸送到圖像語義分割網(wǎng)絡中還要保證切割后的樣本能夠達到最好的訓練效果以提高模型的分類精度,本文采取的切割大小為128′128像素,切割步長為32像素,不僅增加了數(shù)據(jù)量,還保證了分類的準確性。最后,對切割后形成的樣本數(shù)據(jù)集隨機的抽取0.81%作為測試樣本,其余為訓練樣本,最終形成含有182 064幅128′128像素大小的訓練樣本和含有1 483幅128′128像素大小的測試樣本。
在訓練前要對SegNet語義分割網(wǎng)絡模型主要參數(shù)進行設(shè)置,學習率(learning rate)可控制模型的學習進度,過低會導致模型收斂慢,過高會導致發(fā)散,該文將其初始值設(shè)為0.01;學習率變化指數(shù)(gamma)可以控制學習率變化速率,該文將其值設(shè)為0.1;動量參數(shù)(momentum)起到加速收斂的作用,該文動量參數(shù)設(shè)置為0.9;權(quán)值衰減值(weight decay)可以調(diào)節(jié)模型復雜度對損失函數(shù)的影響,該文權(quán)值衰減設(shè)置為0.0005;學習率變化頻率(stepsize)的值設(shè)為2000;訓練批尺寸(trainbatch)、測試批尺寸(testbatch)分別設(shè)為25、15;迭代代數(shù)(EpochNum)設(shè)為10次。
本文中5個對比試驗分別使用PSPNet語義分割網(wǎng)絡、支持向量機、隨機森林、ISO聚類和最大似然法進行建筑物提取。在PSPNet語義分割網(wǎng)絡模型訓練前需要對其主要參數(shù)進行設(shè)置,其學習率、學習率變化指數(shù)、動量參數(shù)、權(quán)值衰減值、學習率變化頻率、迭代次數(shù)分別設(shè)為0.01、0.1、0.9、0.00001、2000、20。進行支持向量機方法分類時,設(shè)置每個類的最大示例數(shù)為500;進行隨機森林方法分類時,設(shè)置樹的最大數(shù)量為100,樹最大深度為30;進行ISO聚類分時,聚類類別個數(shù)設(shè)置為2。
分類模型訓練結(jié)束之后需要判斷其分類性能,尤其對于二分類而言,常用的評價指標有Kappa系數(shù)、總體精度(overall accuracy,OA)、查全率(recall)、查準率(precision)、錯分率(false discovery rate,F(xiàn)DR)和1值,其中1值又稱查全率和查準率的調(diào)和平均數(shù),是衡量二分類模型精確度的一種指標;為客觀評價分類的精度,本文采用以上6種基于混淆矩陣(confusion matrix)的精度評價指標對農(nóng)村建筑物識別提取結(jié)果進行精度評估。
本文對驗證集分類結(jié)果如圖6所示。
圖6 驗證集建筑物提取結(jié)果對比
從傳統(tǒng)分類算法到淺層學習算法再到語義分割算法,其分類后的Kappa系數(shù)、總體精度、建筑物的1值不斷提升,其中SegNet語義分割算法在對高空間分辨率遙感影像建筑物提取中表現(xiàn)最優(yōu),PSPNet語義分割算法次之(表1)。使用SegNet語義分割算法分類后的Kappa系數(shù)、總體精度、建筑物的1值分別為0.90、96.61%、0.91,地面真實標簽與分類后結(jié)果兩幅圖之間吻合度較好;其余5種分類算法的Kappa系數(shù)、總體精度、建筑物的1值都分別在0.83、94.68%、0.87以下,2幅圖之間吻合度較差。并且SegNet語義分割算法對建筑物的錯分率最低,僅為9.71%,說明該算法在高空間分辨率遙感影像中對建筑物的識別能力均優(yōu)于其余5種算法。
表1 不同分割方法驗證集分類結(jié)果對比
傳統(tǒng)的基于像元光譜統(tǒng)計特征進行分類的算法如ISO聚類、最大似然法,由于“同物異譜、異物同譜”等現(xiàn)象的存在并且沒有利用到影像中像元之間的關(guān)系等豐富的空間信息,所以在本文高空間分辨率遙感影像農(nóng)村建筑物提取中精度比較低。在ISO聚類分類結(jié)果中,總體精度為90.66%,Kappa系數(shù)僅為0.65,建筑物的1值為0.71,建筑物和裸露地表之間出現(xiàn)了“異物同譜”現(xiàn)象,導致建筑物漏分現(xiàn)象比較嚴重(圖7a),建筑物的查全率僅為60.59%,所以ISO在高空間分辨率影像中對建筑物的識別能力比較差;在最大似然法分類結(jié)果中,總體精度為83.81%,Kappa系數(shù)為0.56,建筑物的1值為0.66,同樣因為建筑物與裸露地表、水體、陰影之間出現(xiàn)了“異物同譜”現(xiàn)象,導致裸露地表、水體、陰影等非建筑物錯分為建筑物的現(xiàn)象非常明顯(圖7b),建筑物的錯分率高達45.67%,在5種方法對比試驗中分類效果最差。
基于機器學習的淺層學習算法如支持向量機、隨機森林,不僅利用了影像中像元的光譜信息,還結(jié)合了像元之間的關(guān)系等豐富的空間信息。但是,由于計算單元有限并且高空間分辨率遙感影像數(shù)據(jù)量大、地物特征復雜多樣,導致其不能有效地表達復雜的地物特征。在隨機森林分類結(jié)果中,總體精度為90.16%,Kappa系數(shù)為0.72,建筑物的1值為0.78,有少量裸露地被錯分為建筑物的現(xiàn)象(圖7c),但水體和陰影被分為錯分為建筑物的現(xiàn)象幾乎不存在,相比傳統(tǒng)的分類算法,隨機森林在高空間分辨率遙感影像建筑物提取中分類效果有很大提高,錯分率比最大似然法低12.85個百分點;在支持向量機分類結(jié)果中,總體精度為90.87%,Kappa系數(shù)為0.74,建筑物的1值為0.79,其分類效果和隨機森林基本一致,無明顯差異(圖7d)。所以在高空間分辨率影像建筑物提取中,基于機器學習的淺層學習算法相比于單純依靠光譜統(tǒng)計特征的分類算法有很大提高。
注:左圖框表示被錯分的地物,右圖黑框表示錯分結(jié)果。
Note: The frame on the left shows the surface classified incorrectly, and the frame on the right shows result classified incorrectly.
圖7 分類結(jié)果細節(jié)展示
Fig.7 Classified details display
基于深度卷積神經(jīng)網(wǎng)絡的語義分割模型SegNet訓練期間,由于該模型的解碼器是上采樣與卷積的過程,有13個卷積層,并且只對它們對應的特征映射進行卷積,使之減少了訓練參數(shù),節(jié)省了計算資源。如圖8所示,SegNet相比PSPNet,SegNet網(wǎng)絡更穩(wěn)定,隨著迭代次數(shù)增加,損失函數(shù)快速下降并逐漸趨于平穩(wěn),精度快速提升并趨于平穩(wěn),收斂速度更快,最終形成適合模式分類的較理想特征,從而增強了模型的收斂和泛化能力、提高模型的分類精度。所以,在SegNet分類結(jié)果中,總體精度為96.61%,Kappa系數(shù)為0.90,建筑物的1值為0.91,如圖6g所示,分類后效果圖和地面真實標簽幾乎一致,吻合度極高,建筑物的錯分率最低僅為9.71%。在PSPNet分類結(jié)果中,總體精度為94.68%,Kappa系數(shù)為0.83,建筑物的1值為0.87,如圖6h所示,分類后建筑物邊界比較模糊,建筑物錯分率為18.89%,比SegNet的錯分率高出9.72個百分點。與基于機器學習的淺層學習算法相比,基于深度卷積神經(jīng)網(wǎng)絡的語義分割模型SegNet、PSPNet在高空間分辨率遙感影像建筑物提取中又有進一步的提升,但是SegNet在高空間分辨率遙感影像建筑物提取中優(yōu)勢更加明顯。
圖8 SegNet與PSPNet網(wǎng)絡訓練對比
本文以河北省霸州市高空間分辨率遙感影像World View-2數(shù)據(jù)為數(shù)據(jù)源,選取基于深度卷積神經(jīng)網(wǎng)絡的圖像語義分割算法SegNet對高空間分辨率遙感影像中的農(nóng)村建筑物進行提取,并與最大似然法ML、ISO聚類傳統(tǒng)分類算法、支持向量機SVM、隨機森林淺(RF)層學習算法以及PSPNet基于深度學習的語義分割算法的試驗結(jié)果作對比。
1)SVM、RF、ML、ISO聚類等算法對高分辨率遙感影像農(nóng)村建筑物分類精度較低,4種分類算法分類后的Kappa系數(shù)分別為0.74、0.72、0.65、0.56,總體精度分別為90.87%、90.16%、90.66%、83.81%。所以以上分類算法不適合于高空間分辨率遙感影像農(nóng)村建筑物提取。
2)基于深度學習的語義分割算法SegNet、PSPNet在高空間分辨率遙感影像建筑物分類結(jié)果中,兩者的Kappa系數(shù)分別為0.90、0.83,總體精度分別為96.61%、94.68%。并且SegNet在高空間分辨率遙感影像建筑物提取中錯分率較低、網(wǎng)絡更穩(wěn)定、收斂速度更快,最終形成適合模式分類的較理想特征,提高模型的分類精度。所以與本文中其他方法相比,SegNet更適合于高空間分辨率遙感影像農(nóng)村建筑物提取。
基于深度學習的語義分割模型在遙感影像分類領(lǐng)域有著不可估量的潛力,但它畢竟一種新興的技術(shù)方法,本文研究中仍然存在一些不足,例如網(wǎng)絡模型的選擇、訓練的參數(shù)設(shè)置等都沒有完善的理論依據(jù)。下一步將重點研究如何根據(jù)遙感影像的特點或者分類要素選擇合適的語義分割模型、設(shè)置最優(yōu)的訓練參數(shù)。
[1] 劉煥軍,楊昊軒,徐夢園,等.基于裸土期多時相遙感影像特征及最大似然法的土壤分類[J]. 農(nóng)業(yè)工程學報,2018,34(14):132-139. Liu Huanjun, Yang Haoxuan, Xu Mengyuan, et al. Soil classification based on maximum likelihood method and features of multi-temporal remote sensing images in bare soil period[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(14): 132-139. (in Chinese with English abstract)
[2] Tari G, Jessen L, Kennelly P, et al. Surface mapping of the Milh Kharwah salt diapir to better understand the subsurface petroleum system in the Sab’atayn Basin, onshore Yemen[J]. Arabian Journal of Geosciences,2018, 11(15): 428-438.
[3] 朱海洲,賈銀山. 基于支持向量機的遙感圖像分類研究[J]. 科學技術(shù)與工程,2010,10(15):3659-3663. Zhu Haizhou, Jia Yinshan. Remote sensing image classification based on support vector machine[J]. Science Technology and Engineering, 2010, 10(15): 3659-3663. (in Chinese with English abstract)
[4] 陳袁. 基于支持向量機的遙感影像分類[J]. 中國科技信息, 2015(17):21-22. Chen Yuan. Remote sensing image classification based on support vector machine [J]. China Science and Technology Information, 2015(17): 21-22. (in Chinese with English abstract)
[5] 陳元鵬,羅明,彭軍還,等. 基于網(wǎng)格搜索隨機森林算法的工礦復墾區(qū)土地利用分類[J]. 農(nóng)業(yè)工程學報,2017,33(14):250-257. Chen Yuanpeng, Luo Ming, Peng Junhuan, et al. Classification of land use in industrial and mining reclamation area based grid-search and random forest classifier[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(14): 250-257. (in Chinese with English abstract)
[6] 王崇倡,武文波,張建平. 基于BP神經(jīng)網(wǎng)絡的遙感影像分類方法[J]. 遼寧工程技術(shù)大學學報:自然科學版,2009,28(1):32-35. Wang Chongchang, Wu Wenbo, Zhang Jianping. Remote sensing image classification method based on BP neural network[J]. Journal of Liaoning University of Engineering and Technology: Natural Science Edition, 2009, 28 (1): 32-35. (in Chinese with English abstract)
[7] 都業(yè)軍,周肅,斯琴其其格,等. 人工神經(jīng)網(wǎng)絡在遙感影像分類中的應用與對比研究[J]. 測繪科學,2010(s1):120-121. Du Yejun, Zhou Su, Sqinqige, et al. Application and comparative study of artificial neural network in remote sensing image classification [J]. Surveying and Mapping Science, 2010 (s1): 120-121. (in Chinese with English abstract)
[8] 尹寶才,王文通,王立春. 深度學習研究綜述[J]. 北京工業(yè)大學學報,2015,41(1):48-59. Yin Baocai, Wang Wentong, Wang Lichun. A review of in-depth study[J]. Journal of Beijing University of Technology, 2015, 41(1): 48-59. (in Chinese with English abstract)
[9] 俞棟. 解析深度學習:語音識別實踐[M]. 北京:電子工業(yè)出版社,2016.
[10] 李衛(wèi). 深度學習在圖像識別中的研究及應用[D]. 武漢:武漢理工大學,2014. Li Wei. Research and Application of Deep Learning in Image Recognition[D]. Wuhan: Wuhan University of Technology, 2014. (in Chinese with English abstract)
[11] 孫志軍,薛磊,許陽明,等. 深度學習研究綜述[J]. 計算機應用研究,2012,29(8):2806-2810. Sun Zhijun, Xue Lei, Xu Yangming, et al. A review of in-depth study[J]. Computer Applied Research, 2012, 29 (8): 2806-2810. (in Chinese with English abstract)
[12] Hu F, Xia G S, Hu J W, et al. Transferring deep convolutional neural networks for the scene, classification of high-resolutionremote sensing imagery[J]. Remote Sensing, 2015, 7(11): 14680-14707.
[13] Liu C, Yuen J, Torralba A, et al. Sift flow: Dense correspondence across different scenes[C]//European conference on computer vision. Springer, Berlin, Heidelberg, 2008: 28-42.
[14] Liu C , Yuen J , Torralba A . Nonparametric scene parsing: Label transfer via dense scene alignment[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009: 1972-1979.
[15] Tighe J, Lazebnik S. Superparsing: Scalable nonparametric image parsing with superpixels[C]// European conference on computer vision. Springer, Berlin, Heidelberg, 2010: 352-365.
[16] Eigen D, Fergus R. Nonparametric image parsing using adaptive neighbor sets[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 2799-2806.
[17] Singh G, Kosecka J. Nonparametric scene parsing with adaptive feature relevance and semantic context[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2013: 3151-3157.
[18] Yang J, Price B, Cohen S, et al. Context driven scene parsing with attention to rare classes[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 3294-3301.
[19] Feng X, Williams C K I, Felderhof S N. Combining belief networks and neural networks for scene segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 467-483.
[20] Kumar S, Hebert M. Man-made structure detection in natural images using a causal multiscale random field[C]// 2003 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2003: 119.
[21] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3431-3440.
[22] Sultani W, Mokhtari S, Yun H B. Automatic pavement object detection using superpixel segmentation combined with conditional random field[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(7): 2076-2085.
[23] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3431-3440.
[24] Zhang X, Du S. Learning selfhood scales for urban land cover mapping with very-high-resolution satellite images[J]. Remote Sensing of Environment, 2016, 178: 172-190.
[25] Zhao W, Du S. Learning multiscale and deep representations for classifying remotely sensed imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 113: 155-165.
[26] Volpi M, Tuia D. Dense semantic labeling of subdecimeter resolution images with convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(2): 881-893.
[27] Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for scene segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39: 2481-2495.
[28] Ioffe S, Szegedy C. Batch Normalization: Accelerating deep network training by reducing internal covariate shift[C]// International Conference on International Conference on Machine Learning. 2015.
[29] Zheng S, Jayasumana S, Romera-Paredes B, et al. Conditional random fields as recurrent neural networks[C]// Proceedings of the IEEE International Conference on Computer Vision. 2015: 1529-1537.
[30] Badrinarayanan V, Handa A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling[J]. Computer Science, 2015.
[31] Eigen D, Fergus R. Predicting depth,surface normals and semantic labels with a common multi-scale convolutional architecture[C]// IEEE International Conference on Computer Vision, 2015: 2650-2658.
[32] Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. Computer Science, 2014(4): 357-361.
[33] Long J, Shelhamer E,Darrell T. Fully convolutional net- works for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 3431-3440.
[34] Maxwell A E, Warner T A, Fang F. Implementation of machine-learning classification in remote sensing: An applied review[J]. International Journal of Remote Sensing, 2018, 39(9): 2784-2817.
[35] Dalponte M, Orka H O, Gobakken T, et al. Tree species classification in boreal forests with hyperspectral data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(5): 2632-2645.
[36] Du P, Samat A, Waske B, et al. Random forest and rotation forest for fully polarized SAR image classification using polarimetric and spatial features[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 105: 38-53.
[37] Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]//IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2017: 2881-2890.
Rural construction land extraction from high spatial resolution remote sensing image based on SegNet semantic segmentation model
Yang Jianyu1,2, Zhou Zhenxu1, Du Zhenrong1, Xu Quanquan1, Yin Hang1, Liu Rui1
(1.100083,; 2.100035,)
With the advancement of remote sensing technology, the high spatial resolution remote sensing image contains rich special information with a great detail. At the same time, the complexity of high spatial resolution remote sensing images also requires higher the classification technology of remote sensing images. However, in the face of high spatial resolution remote sensing image more obvious geometrical structure and the more rich texture characteristics, how to design rational system of characteristics, select the appropriate sorting algorithms to accurately and quickly grasp the number of rural land of building and its distribution status, are of great significance to balance urban and rural areas, save land, and realize sustainable development. This will help in exploring the application of deep learning model in high spatial resolution remote sensing image building extraction, and have research significance for improving the classification accuracy of high resolution remote sensing image. In this paper, the semantic segmentation model (SegNet) was used for extracting buildings. SegNet is mainly composed of encoder network, decoder network and pixel-wise classification layer. The encoder network transforms high-dimensional vectors into low-dimensional vectors, enabling low-dimensional extraction of high-dimensional features. The decoder network maps low-resolution feature maps to high spatial resolution feature maps, realizing the reconstruction of low-dimensional vectors to high-dimensional vectors. The softmax classifier separately classifies each pixel, which outputs the probability that each pixel belongs to each class. In this paper, a 3000 pixel × 3000 pixel and two 2000 pixel × 2000 pixel slices were taken from the global remote sensing image of Bazhou City, Hebei Province as training samples, and a 3000 pixel × 3000 pixel slice was taken as the verification sample. In this paper, five comparative experiments were used to extract the buildings, including PSPNet, support vector machine, random forest, ISO clustering and maximum likelihood method. The confusion matrix of each classification method was obtained by calculating the difference between the classification results of the comparison experiment and the real value. From the traditional classification algorithm to the shallow learning algorithm to the deep learning algorithm, the Kappa coefficient and overall accuracy of classification kept constantly increasing, among which SegNet semantic segmentation algorithm based on the deep convolutional network performed better than the other five algorithms in extracting buildings from high spatial resolution remote sensing image. The Kappa coefficient and the overall accuracy of SegNet semantic segmentation algorithm were 0.90 and 96.61%, respectively, and the ground truth value was basically the same as the classification result. The F1Score of building extraction of SegNet semantic segmentation algorithm based on deep convolution network was 0.91, but the other five algorithms were below 0.87. SegNet had the lowest error rate of 9.71% for buildings, indicating that the ability to identify buildings of semantic segmentation algorithm from high spatial resolution remote sensing was superior to traditional classification algorithms, shallow layer learning algorithms based on machine learning, and PSPNet semantic segmentation algorithm based on deep convolution network. The Kappa coefficient and overall accuracy of the remaining five classification algorithms were respectively below 0.83 and 94.68%, and the difference between the ground truth value and the classification result was relatively large. SegNet can not only make use of spectral information but also make full use of abundant spatial information. During SegNet training, more essential features can be learned, and more ideal features suitable for pattern classification were finally formed, which can enhance the ability of convergence and generalization of the model and improve the classification accuracy. Traditional classification algorithms, such as ISO clustering and maximum likelihood method, failed to make use of the rich spatial information of the high-resolution remote sensing image, so the accuracy was relatively low. Due to limited computing units and large amount of high spatial resolution remote sensing image data, shallow layer learning algorithms based on machine learning such as support vector machines and random forest cannot effectively express complex features of ground objects, so their advantages are not obvious in building extraction from the high spatial resolution remote sensing images.The experimental results showed that the SegNet based on deep learning has the best performance, and it has important theoretical significance to explore the application of deep learning model to remote sensing image classification methods. At the same time, the research results also provide a reference for improving the classification accuracy of high resolution remote sensing images.
remote sensing; image segmentation; algorithms; deep learning; SegNet semantic segmentation model; high-resolution remote sensing image; rural construction land extraction
2018-11-12
2019-02-06
國土資源部公益性行業(yè)科研專項(201511010-06)
楊建宇,男,湖北宜昌人,副院長,教授,博士生導師,主要從事3S技術(shù)及其土地應用的研究。Email:ycjyyang@cau.edu.cn
10.11975/j.issn.1002-6819.2019.05.031
S127
A
1002-6819(2019)-05-0251-08
楊建宇,周振旭,杜貞容,許全全,尹 航,劉 瑞. 基于SegNet語義模型的高分辨率遙感影像農(nóng)村建設(shè)用地提取[J]. 農(nóng)業(yè)工程學報,2019,35(5):251-258.doi:10.11975/j.issn.1002-6819.2019.05.031 http://www.tcsae.org
Yang Jianyu, Zhou Zhenxu, Du Zhenrong, Xu Quanquan, Yin Hang, Liu Rui. Rural construction land extraction from high spatial resolution remote sensing image based on SegNet semantic segmentation model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(5): 251-258. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.05.031 http://www.tcsae.org