孫尚彪,張海明,熊靈華,張雨涵,鐘林汕,王民水,王明常,2
1.吉林大學 地球探測科學與技術學院,長春 130026;2.自然資源部 城市國土資源監(jiān)測與仿真重點實驗室,廣東 深圳 518000
在高分辨率遙感影像的城市區(qū)域中,超過80%的地物是建筑物和道路,使用這些信息可以進行城市建設的變化檢測和三維城市重建等[1]。近年來,隨著遙感技術的發(fā)展,高分辨率遙感影像能夠更加清晰地呈現(xiàn)建筑物的紋理特征和形狀特征,但依舊存在“同物異譜”和“同譜異物”的現(xiàn)象[2],且現(xiàn)代建筑物的輪廓更加復雜,傳統(tǒng)遙感影像分類方法已難以滿足對復雜建筑物的提取[3]。
深度學習的飛速發(fā)展,為遙感影像的分類提供技術參考。其中,卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)表現(xiàn)出強大的分類能力,但是傳統(tǒng)的CNN進行像素分類時因數(shù)據(jù)冗余造成內(nèi)存開銷急劇增加,而只能判定整張遙感影像的類別,不能進行語義分割任務,因此并不適用于遙感影像的分類[4]。而全卷積神經(jīng)網(wǎng)絡(fully convolutional networks, FCN)對CNN模型進行了改進,采用反卷積層取代了CNN中的全連接層,使得可以輸出與原始影像相同分辨率大小的分類結果,實現(xiàn)像素級別的分類[1]。
但FCN容易丟失細節(jié)信息且只能輸入固定的尺寸影像[5]。目前已有許多分割模型對FCN進行了改進,其中代表性的模型有SegNet模型[6]、DeconvNet模型[7]、Deeplab模型[8]和U-net模型[9]。為表現(xiàn)改進后的模型在影像分類中的優(yōu)越性,本研究采用U-net模型進行建筑物提取,該模型采用了對稱的U型結構設計,融合了低維與高維的特征,同時考慮到影像的全局信息和細節(jié)信息,最后得到每個像元的分類結果,極大提升了建筑物的分類精度。目前,國內(nèi)外學者針對U-net模型開展了一系列研究工作,王寧等[4]基于U-net模型對遙感影像中的水體進行提取,其結果優(yōu)于隨機森林模型;陳進等[5]基于U-net模型對含雜水稻籽粒進行影像分割,能夠有效識別影像中的谷物和莖稈等信息;林旭[10]等利用空洞卷積改進U-net模型,提高了對植被的提取精度;洪漢玉等[11]基于U-net模型快速檢測出影像中的繩帶信息;蘇健民等[12]驗證了U-net網(wǎng)絡的精度比SegNet網(wǎng)絡和DeconvNet網(wǎng)絡的精度更高。Buslaev et al.[13]將Resnet34作為U-net模型的編碼器,并選用兩種損失函數(shù)進行加權求和,對土地覆蓋進行分割,交并比達到64%?;谝陨戏治觯琔-net模型表現(xiàn)出強大的影像分割能力,因此本文使用U-net模型進行遙感影像分類,并采用公開的Massachusetts建筑物數(shù)據(jù)集進行模型訓練和驗證,再和傳統(tǒng)方法提取的建筑物結果進行對比,比較其提取結果和分類精度,旨在選擇一種高效的建筑物提取方法,為快速獲得建筑物的分布信息以及城市建設規(guī)劃的需要提供參考。
本實驗采用5種傳統(tǒng)遙感影像分類方法進行建筑物提取和精度對比的分析實驗,包括最大似然法、馬氏距離法、最小距離法、神經(jīng)網(wǎng)絡和支持向量機。以下詳細描述了傳統(tǒng)分類方法的基本原理。
最大似然法是一種典型的基于影像統(tǒng)計的監(jiān)督分類方法,又稱為貝葉斯分類[14]。該方法的思想是假設每一個波段的每一類統(tǒng)計都呈正態(tài)分布,計算給定像元屬于某一訓練樣本的似然度,像元最終被歸并到似然度最大的一類當中。
馬氏距離法是計算輸入影像到各訓練樣本的協(xié)方差距離,最終計算協(xié)方差距離最小的,即為此類別,但要求輸入的波段數(shù)據(jù)是正態(tài)分布的,否則會引起分類誤差[14]。
最小距離法與馬氏距離法的原理是相似的,利用訓練樣本數(shù)據(jù)計算出每一類的均值向量和標準差向量,然后以均值向量作為該類在特征空間中的中心位置,計算輸入影像中每個像元到各類中心的距離大小來決定其類別[15]。
神經(jīng)網(wǎng)絡指用計算機模擬人腦的結構,用許多小的處理單元模擬生物的神經(jīng)元,用算法實現(xiàn)人腦的識別、記憶和思考過程。在網(wǎng)絡學習階段,網(wǎng)絡通過調(diào)整權重來實現(xiàn)輸入樣本與其正確類型的對應,具有較好的預測分類能力。
支持向量機(support vector machine, SVM)是一種建立在統(tǒng)計學習理論(statistical learning theory, SLT)基礎上的機器學習方法,可以自動尋找那些對分類有較大區(qū)分能力的支持向量,由此構造出分類器,可以將類與類之間的間隔最大化,因而有較好的推廣性和較高的分類準確率,在解決小樣本、非線性和高維模式識別中具有獨特的優(yōu)勢[16]。
U-net模型是一個沒有全連接層的全卷積神經(jīng)網(wǎng)絡,為U型對稱的編碼器-譯碼器結構,由卷積層、最大池化層、反卷積層以及ReLu非線性激活函數(shù)組成,其輸入和輸出均為相同分辨率的影像[17]。它沿用了FCN進行影像語義分割的思想[18],可以利用少量的數(shù)據(jù)學習到一個對邊緣提取具有十分良好的魯棒性的模型[19],即利用卷積層、最大池化層進行特征提取,再利用反卷積層還原影像尺寸。而且U型結構的設計,可以使裁剪和拼接過程更加直觀、合理;高層特征圖與底層特征圖的拼接以及卷積的反復、連續(xù)操作,使得模型能夠從上下文信息和細節(jié)信息的組合中得到更加精確的輸出特征圖。
該模型網(wǎng)絡結構如圖1所示,其中,藍/白色框表示特征圖,藍色箭頭表示3×3卷積,用于特征提取,灰色箭頭表示跳躍連接,用于特征融合,紅色箭頭表示最大池化,用于降低維度,綠色箭頭表示上采樣,用于恢復維度,青色箭頭表示1×1卷積,用于輸出結果。模型由左半邊的壓縮通道和右半邊的擴展通道組成,壓縮通道是一個解碼器,用于逐層提取影響的特征,它重復采用2個卷積層和1個最大池化層的結構,輸入的遙感影像每進行一次池化操作后,特征圖的維數(shù)就增加1倍;擴展通道是一個解碼器,用于還原影像的位置信息,它先進行一次反卷積操作,使特征圖的維數(shù)減半,然后拼接對應壓縮通道裁剪得到的特征圖,重新組成一個2倍大小的特征圖,再采用2個卷積層進行特征提取,并重復這一結構,在最后的輸出層,用2個卷積層將64維的特征圖映射成2維的輸出圖。
圖1 U-net模型結構Fig.1 Structure of U-net model
本實驗以公開數(shù)據(jù)集中的標簽數(shù)據(jù)作為模型精度評定標準,采用準確率、召回率和F1值進行結果評價(表1)。
準確率(accuracy)表示預測符合標簽的樣本與總樣本的比例,準確率值越大,模型預測的結果越準確,其表達式如下:
(1)
表1 混淆矩陣
召回率(recall)表示正確預測正樣本占正樣本的比例,其表達式如下:
(2)
F1值是精確率和召回率的調(diào)和平均值,F(xiàn)1值越高,模型越穩(wěn)健,其表達式如下:
(3)
實驗采用Massachusetts建筑數(shù)據(jù)集,該數(shù)據(jù)集由151組航拍影像和相應的單通道標簽影像組成,其中訓練部分為137組,測試部分為10組,驗證部分為4組。數(shù)據(jù)集中所有影像的像素大小為1 500×1 500,空間分辨率為1 m。每幅影像覆蓋了2.25 km2的區(qū)域,整個數(shù)據(jù)集大約覆蓋340 km2[20]。影像數(shù)據(jù)和標簽數(shù)據(jù)如圖2所示。
a.原始遙感影像;b.對應的標簽數(shù)據(jù)。圖2 實驗所采用的部分數(shù)據(jù)Fig.2 Some data used in experiments
首先,實驗使用軟件根據(jù)遙感影像建立ROI感興趣區(qū)域,分為建筑物和非建筑物兩類,然后采用監(jiān)督分類中的最大似然法、馬氏距離法、神經(jīng)網(wǎng)絡、最小距離和支持向量機分別進行建筑物的分類(圖3)。
a.最大似然法;b.馬氏距離法;c.神經(jīng)網(wǎng)絡;d.最小距離法;e.支持向量機。圖3 傳統(tǒng)分類方法提取數(shù)據(jù)集中建筑物的結果圖Fig.3 Results of extracting buildings from dataset using traditional classification methods
由圖3可見,傳統(tǒng)遙感提取的結果中建筑物的輪廓不完整,且將部分道路等與建筑物材質(zhì)相似的區(qū)域錯分為建筑物。五種分類方法的結果相差較小,整體上均呈現(xiàn)出建筑物的分布范圍,但局部區(qū)域的建筑物信息分類不準確。
然后使用深度學習的方法進行建筑物分類,首先將數(shù)據(jù)集導入至U-net模型中,先后對遙感影像進行訓練和驗證,得到訓練和驗證的損失、準確度曲線圖(圖4)。利用數(shù)據(jù)集對模型進行訓練,選擇參數(shù)最優(yōu)的模型,并進行建筑物的提取驗證,得到的提取結果如圖5所示。
圖4 損失和準確度曲線Fig.4 Loss and accuracy curves
a.訓練預測圖;b.對應的標簽數(shù)據(jù)。圖5 模型驗證結果Fig.5 Model validation results
由圖5可見,采用深度學習的方法能夠有效避免道路和陰影造成的影響,且沒有細碎的噪聲斑塊,建筑物輪廓清晰,沒有發(fā)生斷續(xù)現(xiàn)象。
依據(jù)評定標準,計算U-net方法和傳統(tǒng)遙感分類方法提取建筑物的準確度、召回率和F1值(表2)。
表2 分割結果對比
由表2可見,由于建筑物和道路的材質(zhì)相似和陰影等造成的影響,傳統(tǒng)方法在進行分類時未進行有效分割,而將道路和建筑物分為一類,因此造成準確度、召回率和F1值相比U-net較低,準確度均為60%±10%,召回率為20%±6%,F(xiàn)1值為25%±6%。而U-net網(wǎng)絡模型可以有效提高建筑物分類精度,準確度達到95%以上,召回率為88.109%,F(xiàn)1值為82.123%。因此,本文采用的深度學習方法對建筑物提取具有一定的可行性。
(1)傳統(tǒng)分類方法需要人工建立ROI區(qū)域,提取分類特征,人工提取分類特征的優(yōu)劣直接影響建筑物的提取精度。
(2)U-net模型能夠通過對大量樣本進行訓練,不斷更新權值,能夠很好地學習分類特征,提取地物的本質(zhì)特征,極大地提高了建筑物提取的精度。
(3)深度學習網(wǎng)絡需要大量的樣本數(shù)據(jù),而建筑物數(shù)據(jù)集的有限,容易出現(xiàn)過擬合的現(xiàn)象,且網(wǎng)絡參數(shù)的調(diào)整依賴于多次試驗,對深度學習在地物提取上的應用帶來一定的挑戰(zhàn)。