梁哲,寧曉剛,張翰超,王浩
(1.遼寧工程技術(shù)大學(xué) 測(cè)繪與地理科學(xué)學(xué)院,遼寧 阜新 123000;2.中國(guó)測(cè)繪科學(xué)研究院,北京 100036)
隨著經(jīng)濟(jì)的迅速發(fā)展,城鎮(zhèn)化的趨勢(shì)不可避免,新增建設(shè)用地占用優(yōu)質(zhì)耕地情況越來越嚴(yán)重。為加強(qiáng)土地利用管理,自然資源部門實(shí)施土地變更調(diào)查監(jiān)測(cè)與核查工作,以把控土地利用情況。為了保護(hù)好耕地資源,我國(guó)制定了“堅(jiān)持世界上最嚴(yán)格的土地管理,特別是農(nóng)用地保護(hù)制度”的基本戰(zhàn)略[1]。為了準(zhǔn)確地把控土地利用情況,我國(guó)在第二次全國(guó)土地調(diào)查的基礎(chǔ)上,開展了年度土地利用變更調(diào)查監(jiān)測(cè)工作[1]。當(dāng)前,正在開展第三次全國(guó)國(guó)土調(diào)查工作。高分辨率遙感影像是新增建設(shè)用地信息提取的重要的數(shù)據(jù)源之一。目前自然資源部門主要利用高分辨率遙感影像,采用人工目視解譯的方法提取新增建設(shè)用地[2]。隨著衛(wèi)星載荷的增加和影像分辨率的不斷提高,大面積城區(qū)建設(shè)用地變化信息提取所需處理的數(shù)據(jù)量急劇增加。成本高、效率低的傳統(tǒng)人工調(diào)查的方法已難以滿足當(dāng)前形勢(shì)的需求。因此,利用人工智能算法快速、準(zhǔn)確地提取新增建設(shè)用地,對(duì)于及時(shí)準(zhǔn)確掌握全國(guó)的新增建設(shè)用地信息,輔助國(guó)土調(diào)查、年度土地利用變更調(diào)查工作具有重要的意義。
隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)[3]已經(jīng)在人臉識(shí)別、語義分割、目標(biāo)檢測(cè)等多方面的領(lǐng)域中取得了巨大的成果,在新增建設(shè)用地提取方面也有著巨大的潛力。傳統(tǒng)的深度卷積分類網(wǎng)絡(luò)如 AlexNet[4]和 VGGNet通常包含全連接層。全連接層要求圖像的輸入大小是固定的,而這些網(wǎng)絡(luò)存在存儲(chǔ)開銷大、計(jì)算效率過低,以及感知區(qū)域大小受限等缺陷。針對(duì)以上問題,Long等[5]提出了全卷積神經(jīng)網(wǎng)絡(luò)(fully convolution networks,F(xiàn)CN)。該方法是語義分割的開山之作,與上面的2種方法相比,采用了小卷積核的方式提升了處理速度。但該方法做語義分割仍然不夠精細(xì),其輸出的低分辨率圖像犧牲了定位精度,只是對(duì)像素進(jìn)行獨(dú)立的分類,并未充分考慮空間一致性的問題。Ronneberger等[6]提出的 U-net是針對(duì) FCN進(jìn)行的改進(jìn),是一種編碼解碼的結(jié)構(gòu)方式,利用淺層網(wǎng)絡(luò)來解決像素定位精度的問題,利用深層網(wǎng)絡(luò)以及各個(gè)特征的映射方法來解決空間一致性的問題,是目前推廣較好的全卷積網(wǎng)絡(luò)。然而,針對(duì)新增建設(shè)用地提取的U-net網(wǎng)絡(luò)的特征表達(dá)能力仍不強(qiáng),易出現(xiàn)過擬合的情況,導(dǎo)致網(wǎng)絡(luò)泛化性較低,無法精確提取建設(shè)用地的變化信息。
為解決現(xiàn)階段全卷積神經(jīng)網(wǎng)絡(luò)對(duì)新增建設(shè)用地信息提取的方法中特征表達(dá)能力不強(qiáng)、容易出現(xiàn)過擬合的問題,本研究基于U-net網(wǎng)絡(luò)結(jié)構(gòu),加入了新型的激活函數(shù)、批標(biāo)準(zhǔn)化以及退化學(xué)習(xí)率的方法,以防止U-net存在過擬合的問題,從而提升本研究網(wǎng)絡(luò)的泛化性。加入空洞卷積,通過擴(kuò)大感受野以感受更多的地物信息,提取更詳細(xì)的地物特征。通過與傳統(tǒng)FCN以及U-net網(wǎng)絡(luò)方法進(jìn)行比較,驗(yàn)證本文方法在新增建設(shè)用地提取中的可行性。
擴(kuò)張卷積(dilated convolutions)又名空洞卷積[7](atrous convolutions)。向卷積層引入了一個(gè)稱為 “擴(kuò)張率(dilation rate)”的新參數(shù),該參數(shù)定義了卷積核處理數(shù)據(jù)時(shí)各值的間距。擴(kuò)張卷積可以以指數(shù)的速度擴(kuò)大感受野,且不會(huì)降低特征的分辨率和大小。擴(kuò)展卷積感受野指數(shù)級(jí)計(jì)算,如式(1)所示。
F(I+1)=(2(I+2)-1)2
(1)
式中:F為感受野指數(shù)級(jí);I為圖像的高寬(只考慮等寬高的圖像)。
傳統(tǒng)的下采樣層可以非常有效地縮小參數(shù)矩陣的尺寸,從而減少最后全連層中的參數(shù)數(shù)量。使用池化層既可以加快計(jì)算速度又有防止過擬合的作用,但是感受野的縮小,導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征減少,或者一些特征丟失導(dǎo)致無法還原,從而引起空間的不一致性、分割精度不高等問題。利用空洞卷積層,降低池化層的影響,減少圖像信息的丟失[8],既可以保證空間分率等優(yōu)勢(shì),又可以擴(kuò)大感受野,使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更多的特征。
Swish函數(shù)[9]是一種更優(yōu)于Relu函數(shù)的激活函數(shù),為Relu函數(shù)的一個(gè)變種公式,即在Relu函數(shù)中乘以一個(gè)縮放參數(shù)β,如式(2)所示。
f(x)
(2)
式中:β為變量x的縮放參數(shù),一般情況下縮放參數(shù)的取值為1,但是在BN算法下,還需要對(duì)x的縮放值β進(jìn)行調(diào)節(jié)。當(dāng)β=0時(shí),Swish函數(shù)變?yōu)榫€性函數(shù),表達(dá)式如式(3)所示。
f(x)=2xf(x)=2x
(3)
式中:當(dāng)β→∞時(shí),σ(x)=0或1,則此時(shí)的Swish函數(shù)即為Relu函數(shù)。因此,Swish函數(shù)是介于Relu函數(shù)與線性函數(shù)之間的平滑函數(shù)。
學(xué)習(xí)率是深度學(xué)習(xí)中的一個(gè)重要的超參數(shù),決定著目標(biāo)函數(shù)能否收斂到局部最小值,以及何時(shí)收斂到最小值。合適的學(xué)習(xí)率能夠使目標(biāo)函數(shù)在合適的時(shí)間內(nèi),收斂到局部最小值。如何調(diào)整學(xué)習(xí)率是訓(xùn)練出好模型的關(guān)鍵要素之一。在通過隨機(jī)梯度下降求解問題的極小值時(shí),需要找到合適的梯度。
1)學(xué)習(xí)率的值過大,容易出現(xiàn)梯度爆炸的現(xiàn)象,即在梯度下降過程中極值點(diǎn)發(fā)散,或者呈現(xiàn)類似于周期函數(shù)的震蕩形式,產(chǎn)生梯度爆炸的情況。
2)學(xué)習(xí)率的值過小,會(huì)導(dǎo)致無法快速地找到好的下降方向,即在一個(gè)鞍點(diǎn)“徘徊”無法找到最優(yōu)解,隨著迭代次數(shù)增大損失基本不變。
針對(duì)以上情況,本文采用退化學(xué)習(xí)率的方式來進(jìn)行學(xué)習(xí)率的設(shè)置。退化學(xué)習(xí)率又稱衰減學(xué)習(xí)率,其原理為:在初始訓(xùn)練時(shí),利用大的學(xué)習(xí)率來加速網(wǎng)絡(luò)模型的訓(xùn)練,在之后的訓(xùn)練中不斷減小學(xué)習(xí)率以尋求最優(yōu)解,提高分類精度。公式如式(4)所示。
(4)
式中:LR為原始設(shè)定的學(xué)習(xí)率;DR為衰減速率;GS為循環(huán)次數(shù);DS為衰減間隔次數(shù)。此種方法既加快網(wǎng)絡(luò)模型的收斂速度,又防止了過擬合情況的發(fā)生,提高了分類的精度。
本實(shí)驗(yàn)使用的數(shù)據(jù)均來自于土地利用變更調(diào)查成果數(shù)據(jù),及高分辨遙感影像數(shù)據(jù),分別為2015年與2017年遼寧、山西某地遙感衛(wèi)星數(shù)據(jù)。數(shù)據(jù)源為高分二號(hào)衛(wèi)星,波段數(shù)為3,地面分辨率為1 m。部分新增建設(shè)用地信息標(biāo)注圖如圖1所示。
圖1 新增建設(shè)用地標(biāo)注結(jié)果
新增建設(shè)用地標(biāo)注樣本主要包含新增房屋建筑樣本、新增道路樣本、動(dòng)土樣本、新增橋梁樣本、新增立交橋樣本、新增光伏用地樣本。本文將所有樣本的類別統(tǒng)一劃分為新增建設(shè)用地樣本,使用的標(biāo)簽均采用土地利用動(dòng)態(tài)監(jiān)測(cè)人工標(biāo)注的數(shù)據(jù)。新增建設(shè)用地,即為規(guī)劃期間農(nóng)用地轉(zhuǎn)化為建設(shè)用地,主要是在規(guī)劃期間前時(shí)相地類為農(nóng)用地,后時(shí)相地類變化為建設(shè)用地。
在構(gòu)建新增建設(shè)用地分類體系時(shí),將新增建設(shè)用地信息提取的類別共分為2類:一類是變化區(qū)域;一類是未變化區(qū)域,即為二分類。將標(biāo)簽二值化后,分為白色與黑色,白色為變化區(qū)域,黑色為未變化區(qū)域。
本數(shù)據(jù)采用多張遼寧省、山西省城鎮(zhèn)數(shù)據(jù),將原始影像裁剪挑選出新增建設(shè)用地?cái)?shù)據(jù),標(biāo)注圖像與原始影像的大小一致,并且一一對(duì)應(yīng)。在訓(xùn)練初期,將影像調(diào)整大小為512像素×512像素,降低計(jì)算機(jī)內(nèi)存的使用。實(shí)驗(yàn)數(shù)據(jù)將一整張影像進(jìn)行裁剪,數(shù)據(jù)的數(shù)量有一定的局限性。原數(shù)據(jù)集中含有4 328張影像,隨機(jī)選取數(shù)據(jù)按照大于9∶1的比例作為訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集。為防止因缺少數(shù)據(jù)帶來的欠擬合的情況,將訓(xùn)練數(shù)據(jù)集進(jìn)行了平移、旋轉(zhuǎn)等[10]操作,以進(jìn)行數(shù)據(jù)集的擴(kuò)增,形成新的數(shù)據(jù)集。新數(shù)據(jù)集中含有5 394張影像。按照該比例選取訓(xùn)練數(shù)據(jù)集以及測(cè)試數(shù)據(jù)集,超過了總體樣本的10%[11-12],符合樣本選擇比例的要求。擴(kuò)張數(shù)據(jù)集如圖2所示。
圖2 新增建設(shè)用擴(kuò)張數(shù)據(jù)集
本研究設(shè)計(jì)的新增建設(shè)用地提取方法技術(shù)流程如圖 3所示。
圖3 技術(shù)流程圖
利用深度學(xué)習(xí)的方法做監(jiān)督分類,首先要利用帶有人工標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練;其次針對(duì)新增建設(shè)用地,對(duì)網(wǎng)絡(luò)模型進(jìn)行設(shè)計(jì),其中包括對(duì)地物特征的提取和反卷積的映射,加入了空洞卷積使其感受野增大,并通過從下到上的上采樣的計(jì)算,得出原始影像中每個(gè)像素所述類別的概率;最后利用真實(shí)值與預(yù)測(cè)值的圖像進(jìn)行對(duì)比分析,最終得出新增建設(shè)用地提取結(jié)果。
本研究是受到U-net網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)設(shè)計(jì)的。在高分辨遙感影像語義分割中,需要處理更多的細(xì)節(jié)問題,因此本研究參照全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)形式構(gòu)建新的網(wǎng)絡(luò)模型,實(shí)現(xiàn)了精確的像素級(jí)別信息提取的同時(shí),提升了擬合速度。
本研究在上采樣的過程中加入了擴(kuò)張卷積,將Relu函數(shù)替換為Swish函數(shù),并且定義了退化學(xué)習(xí)率的算法。通常池化帶來的信息損失導(dǎo)致部分細(xì)節(jié)顯示的不夠清晰,并導(dǎo)致位置信息的缺失。為保證原始影像特征的完整性,在上采樣的過程中利用擴(kuò)張卷積的操作,在保證計(jì)算參數(shù)不變的情況下,擴(kuò)大感受野增加特征信息的讀取。與傳統(tǒng)的全卷積神經(jīng)網(wǎng)絡(luò)相比,本研究采用的是最大池化層,并且將大的卷積核替換為3個(gè)3×3的卷積核以加快網(wǎng)絡(luò)模型訓(xùn)練速度。激活函數(shù)采用的是Swish函數(shù),開始的學(xué)習(xí)率為0.1,隨著迭代次數(shù)的增加,每迭代6 000次學(xué)習(xí)率衰減0.9,最大迭代次數(shù)為50 001次,批次的大小設(shè)置為10。由于采用的是影像疊加,原始的網(wǎng)絡(luò)適用于普通的3波段影像輸入,經(jīng)過影像疊加處理后的影像波段數(shù)為6,輸入通道數(shù)參數(shù)并不適合輸入。為了防止過大的通道數(shù)對(duì)新增建設(shè)用地提取產(chǎn)生冗余,以及過小的通道數(shù)容易出現(xiàn)特征表達(dá)能力不足的情況,對(duì)其進(jìn)行參數(shù)調(diào)整。因?yàn)闆]有類似于該任務(wù)的網(wǎng)絡(luò)模型,因此網(wǎng)絡(luò)的初始權(quán)重由隨機(jī)初始化得到。
卷積的過程中,卷積核的尺寸選為3×3,步長(zhǎng)為2,不填充。擴(kuò)張卷積的過程中采用3×3大小的卷積核,步長(zhǎng)為1,不填充。池化的過程中采用的是最大池化,過濾器尺寸為2×2,步長(zhǎng)為2。在卷積池化等一系列過程后,加入了批標(biāo)準(zhǔn)化層,一定程度上可以防止過擬合,提高提取結(jié)果的精度,結(jié)構(gòu)如圖4所示。
圖4 網(wǎng)絡(luò)結(jié)構(gòu)示意圖
損失函數(shù)使用交叉熵來定義,計(jì)算如式(5)所示。
(5)
式中:y代表真實(shí)值分類0或1;a代表預(yù)測(cè)值;Loss為損失值,其值越小表示越精確,反之其值越大表示損失得越大。
混淆矩陣[13]是最成熟,也是最常用的變化檢測(cè)精度評(píng)價(jià)指標(biāo),描述了數(shù)據(jù)的真實(shí)值與預(yù)測(cè)值之間的關(guān)系。采用混淆矩陣計(jì)算出精確率、召回率、F1值、總體精度及Kappa系數(shù)等指標(biāo),對(duì)新增建設(shè)用地提取結(jié)果進(jìn)行精度評(píng)價(jià)(表1)。F1值同時(shí)兼顧了精確率與召回率的平衡,是2種值的加權(quán)。其值最大為1,代表輸出的結(jié)果很好;最小值為0,代表輸出的值并不好。Kappa系數(shù)在遙感影像分類的精度評(píng)定中有著舉足輕重的作用,其取值范圍是(-1,1),實(shí)際應(yīng)用的取值范圍是(0,1)。
表1 混淆矩陣
本實(shí)驗(yàn)采用Tensorflow 1.12.0作為開發(fā)框架,計(jì)算機(jī)硬件配置為Nvidia Titan Xp(12 GB),網(wǎng)絡(luò)訓(xùn)練約14 h,本文創(chuàng)建的數(shù)據(jù)集上的訓(xùn)練準(zhǔn)確率為98%。具體精度評(píng)價(jià)如表2所示。
表2 測(cè)試數(shù)據(jù)集不同類別信息提取評(píng)價(jià)
將3種方法進(jìn)行對(duì)比實(shí)驗(yàn),從表2中可以得出,本文方法對(duì)比FCN網(wǎng)絡(luò)未變化區(qū)域F1值提升0.09,對(duì)比U-net網(wǎng)絡(luò)未變化區(qū)域提取精度基本持平。而對(duì)于敏感的變化區(qū)域,本文方法對(duì)比傳統(tǒng)的FCN變化區(qū)域F1值提高了0.11,對(duì)比U-net網(wǎng)絡(luò)變化區(qū)域F1值提高了0.05。本文方法對(duì)變化區(qū)域敏感,提取精度比FCN網(wǎng)絡(luò)有著很大提升。根據(jù)Kappa系數(shù)的得分率的規(guī)定,Kappa系數(shù)大于0.8意味著分類效果很好[14],而本文方法Kappa系數(shù)為0.89,表明本文方法可靠、可行。但由于變化檢測(cè)正負(fù)樣本比例失調(diào),導(dǎo)致變化區(qū)域?qū)W習(xí)泛化性弱,學(xué)習(xí)敏感區(qū)域的能力不強(qiáng),F(xiàn)1值有待提高。新增建設(shè)用地信息提取結(jié)果如圖5所示。
圖5 新增建設(shè)用地信息提取結(jié)果
從圖5可以看出,對(duì)于動(dòng)土樣本提取的效果,F(xiàn)CN方法提取效果沒有整體性,U-net方法將一些顏色特征變化大的非建設(shè)用地區(qū)域提取為了新增建設(shè)用地。對(duì)于建筑用地,F(xiàn)CN方法沒有檢測(cè)到上面的房屋,U-net方法與本文提取的效果基本一致。對(duì)于光伏用地,F(xiàn)CN方法缺少了下半部分變化的區(qū)域,U-net方法對(duì)中間部位的過量識(shí)別導(dǎo)致誤提。對(duì)于道路樣本,F(xiàn)CN網(wǎng)絡(luò)細(xì)節(jié)部位識(shí)別不精,U-net方法與本文方法基本一致。
綜上所述,本文提出的網(wǎng)絡(luò)最接近于真實(shí)值標(biāo)簽,而且分割細(xì)節(jié)更加完整。本研究也利用了傳統(tǒng)的FCN網(wǎng)絡(luò)進(jìn)行提取,發(fā)現(xiàn)提取的效果很難令人滿意。而FCN方法采用的大卷積核,使得計(jì)算機(jī)內(nèi)存容易溢出,訓(xùn)練的效率很低。由于FCN網(wǎng)絡(luò)采用的是VGG-net的網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致不能自由地調(diào)整輸出通道的參數(shù),以至于無法增大批次,最終導(dǎo)致網(wǎng)絡(luò)泛化能力不強(qiáng)、精度不高。
使用U-net網(wǎng)絡(luò)進(jìn)行分割時(shí),由于U-net在上采樣的過程中采用的是卷積的操作,感受野的限制導(dǎo)致出現(xiàn)一些未變化區(qū)域提取為變化區(qū)域的細(xì)碎小圖斑。實(shí)際上本文提出的網(wǎng)絡(luò)收斂更快,這主要得益于Swish函數(shù)、批標(biāo)準(zhǔn)化以及退化學(xué)習(xí)率的使用。其不僅提升了網(wǎng)絡(luò)擬合的速度、降低權(quán)重的敏感性,而且可以防止過擬合,提高了網(wǎng)絡(luò)模型的泛化能力,因此本研究的網(wǎng)絡(luò)并未設(shè)置 Dropout 層。使用擴(kuò)張卷積可以使網(wǎng)絡(luò)對(duì)一些細(xì)節(jié)部位更加敏感,提取得更加準(zhǔn)確。相同條件下,加入擴(kuò)張卷積的網(wǎng)絡(luò)與未加入擴(kuò)張卷積的網(wǎng)絡(luò)相比,精度有很明顯的提升,空間一致性更加顯著。
本文改進(jìn)的全卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)了分割與分類的過程一體化,應(yīng)用于端到端的高分辨率遙感影像新增建設(shè)用地信息提取,解決了傳統(tǒng)方法人工成本高等問題。本文采用退化學(xué)習(xí)率、批標(biāo)準(zhǔn)化以及Swish函數(shù),大大降低了過擬合的情況。在上采樣的過程中,使用了空洞卷積的方法,擴(kuò)大感受野以感受更多的地物信息,提取更詳細(xì)的地物特征。實(shí)驗(yàn)結(jié)果表明,對(duì)比傳統(tǒng)的FCN網(wǎng)絡(luò),變化區(qū)域F1值提高了0.11;對(duì)比U-net網(wǎng)絡(luò),變化區(qū)域F1值提高了0.05。此方法實(shí)現(xiàn)了新增建設(shè)用地的自動(dòng)化提取,在提取精度方面具有較大優(yōu)勢(shì),具有良好的應(yīng)用潛力。
盡管本研究提出的新增建設(shè)用地信息提取方法在二分類的問題上有著顯著的效果,并取得了不錯(cuò)的性能,但仍然有不足之處。由于變化檢測(cè)正負(fù)樣本比例失調(diào),導(dǎo)致變化區(qū)域提取精度略低于未變化區(qū)域的提取精度。如何讓神經(jīng)網(wǎng)絡(luò)著重學(xué)習(xí)敏感區(qū)域是下一步工作的重點(diǎn)。