李長城,何海清*,章李樂,涂 明
(1. 東華理工大學(xué)測繪工程學(xué)院,330000,南昌;2. 南昌市水利規(guī)劃服務(wù)中心,330000,南昌)
場景變化檢測是在場景語義的層次上,在同一地區(qū)從不同時間的遙感影像中對一定范圍區(qū)域的土地利用屬性變化情況進(jìn)行檢測和分析,識別地表場景類型的轉(zhuǎn)變和空間分布的變化[1],廣泛應(yīng)用于城市發(fā)展化檢測[2]、災(zāi)害評估和環(huán)境檢測[3]等領(lǐng)域。土地利用場景類型的精確分類是變化檢測的基礎(chǔ),影像場景分類是根據(jù)影像內(nèi)容使用不同分類方法對抽象特征分類,從不同場景影像中提取有用信息。隨著對地觀測技術(shù)和遙感技術(shù)的發(fā)展,亞米級、甚至厘米級高分辨率遙感影像被廣泛應(yīng)用在各行各業(yè),高分辨率影像不僅包含豐富的紋理、空間信息等細(xì)節(jié)特征,還具有高級的場景語義信息。因此,對高分辨率遙感影像場景分類已經(jīng)從低層特征的像素級分類到深層抽象特征的高級語義分類[4],場景分類目標(biāo)具有地物信息的復(fù)雜性和特征的多樣性。由于同一場景存在內(nèi)容差異較大、不同場景內(nèi)容相似的情況,影像場景分類已成為一項非常有挑戰(zhàn)性的任務(wù),如何有效地對影像場景分類已成為該領(lǐng)域的一個研究熱點[5]。
近年來,以Hinton[6]等提出的深度學(xué)習(xí)為代表的人工智能算法發(fā)展迅速,特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),在計算機(jī)視覺領(lǐng)域取得了很大的成功,如在影像分類與識別、目標(biāo)檢測等領(lǐng)域。CNN分類模型通過卷積層提取影像的深層語義特征,并通過反向傳播算法自動學(xué)習(xí)和調(diào)整參數(shù),最后連接分類器對目標(biāo)分類。研究結(jié)果表明,越深的網(wǎng)絡(luò)對影像的分類能力越強(qiáng),但同時學(xué)習(xí)參數(shù)的數(shù)量也在快速增加,使得模型學(xué)習(xí)變得困難,計算復(fù)雜度提高,易出現(xiàn)梯度彌散問題,難以優(yōu)化模型。一些學(xué)者提出不同結(jié)構(gòu)的模型來解決因增加模型深度而出現(xiàn)的上述問題,如Szegedy[7]等首次在GoogLeNet中引入了Inception模塊,后續(xù)又在Inception模塊上做了多種改進(jìn)[8-9]。He[10]等提出殘差結(jié)構(gòu),通過應(yīng)用剩余學(xué)習(xí)的思想,在特征提取網(wǎng)絡(luò)中添加跳轉(zhuǎn)鏈接。Huang[11]等提出密集鏈接網(wǎng)絡(luò)的概念,進(jìn)一步提高模型分類精度。
基于深度學(xué)習(xí)的分類算法在場景識別中取得較好的效果,但一般都是使用固定大小的多個滑動窗口進(jìn)行識別。因此,在場景定位中存在場景類別間差異小,即類間可分離性低,出現(xiàn)場景誤分類等問題。針對上述問題,結(jié)合簡單線性迭代聚類(Simple Linear Iterative Clustering, SLIC)算法,實現(xiàn)不同場景邊界化精細(xì)化檢測,進(jìn)一步提高場景變化檢測的準(zhǔn)確性。該方法利用遷移學(xué)習(xí)方法構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)Xception模型,從多時相高分辨率遙感影像中提取語義特征并基于softmax分類器識別場景斑塊。在上述分類結(jié)果的基礎(chǔ)上提取地物場景類別在不同時相的變化信息。
本文方法流程圖如圖1所示。在分割階段,使用SLIC算法將兩幅不同時相的遙感影像分別分割,得到地面場景對象的初始分割輪廓,按照邊界輪廓提取超像素,得到超像素場景斑塊。場景分類階段,利用改進(jìn)的Xception模型構(gòu)建影像場景分類網(wǎng)絡(luò),添加softmax分類器對超像素斑塊進(jìn)行分類預(yù)測,得到分類結(jié)果。變化檢測階段,基于不同時相分類后結(jié)果提取地物場景變化信息。
圖1 實驗流程圖
SLIC是一種超像素分割算法,由Achanta提出[12]。超像素是由一系列位置相鄰且顏色、亮度、紋理等特征相似的像素點組成的小區(qū)域,這些小區(qū)域大多保留了進(jìn)一步進(jìn)行影像分割的有效信息,且一般不會破壞影像中物體的邊界信息[13]。其是一種思想簡單、易于實現(xiàn)的分割算法,將RGB影像轉(zhuǎn)化為CLELAB顏色空間和XY坐標(biāo)下的5維特征向量,即[l,a,b,x,y],其中[l,a,b]是由CLELAB顏色空間定義的像素的特征向量表示,[x,y]表示像素坐標(biāo)。SLIC算法優(yōu)勢有:生成的超像素緊湊整齊、特征易表達(dá)、需要設(shè)置參數(shù)較少、運(yùn)行速度快、更好地獲取邊界。
Xception模型是由Francos[14]等在2017年提出的,是基于Inception V3模型結(jié)構(gòu)并結(jié)合殘差網(wǎng)絡(luò)發(fā)展起來的,同時兼顧兩者的優(yōu)點。Xception主體結(jié)構(gòu)如圖2所示,包含36層可分離卷積層,其中A-G為卷積塊,每個卷積塊包含若干個卷積層、池化層、激活層、BN層等。其中Conv為卷積網(wǎng)絡(luò),s為卷積滑動窗口步長,SepConv為可分離卷積結(jié)構(gòu),Relu為激活函數(shù),MaxPool與GlobalAveragePool分別為最大池化層與全局平均池化層。Xception模型引入了深度可分離卷積操作代替常規(guī)卷積操作,在基本上不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高了模型精度。深度可分離卷積與常規(guī)卷積運(yùn)算類似,都能用來提取特征,但其參數(shù)數(shù)量和運(yùn)算成本較低。假設(shè)一張三通道彩色影像,卷積核大小為3×3,輸出通道為32,則常規(guī)卷積運(yùn)算的參數(shù)為896個,深度可分離卷積運(yùn)算參數(shù)為155個,由此可見,深度可分離卷積大大減少了參數(shù)數(shù)量,提高了計算效率。
圖2 Xception模型結(jié)構(gòu)
遷移學(xué)習(xí)即通過將一個大型數(shù)據(jù)集上學(xué)到的知識轉(zhuǎn)移到小數(shù)據(jù)集中,通過模型與參數(shù)遷移的方式解決少量標(biāo)記樣本的訓(xùn)練問題,提高模型學(xué)習(xí)效率。遷移對象之間必須有相似的特征,一個對象才能學(xué)習(xí)另一個對象的知識。在計算機(jī)視覺領(lǐng)域,ImageNet數(shù)據(jù)集是最大、應(yīng)用最為廣泛的影像數(shù)據(jù)集之一,其包含了大約1 500萬張被人工標(biāo)記的、2.2萬個類別的影像,被廣泛用于影像分類,目標(biāo)檢測等。本文中,將Xception模型在ImageNet數(shù)據(jù)集上學(xué)習(xí)的模型參數(shù)遷移到自定義的小型數(shù)據(jù)集上再應(yīng)用到分類任務(wù)中,通過遷移學(xué)習(xí)能快速訓(xùn)練出較為準(zhǔn)確的模型,比不使用遷移學(xué)習(xí)訓(xùn)練的模型精度有很大提高。
為驗證本文方法的可行性,本文使用公開的Multi-temp Scene Wuhan(MtS-WH)數(shù)據(jù)集[15]訓(xùn)練模型,主要包括2張由IKONOS傳感器獲得的、大小為7 200×6 000的大尺寸高分辨率遙感影像,覆蓋范圍為中國武漢市漢陽區(qū)(圖3)。影像分別獲取于2002年2月和2009年6月,訓(xùn)練集和測試集的場景圖片共劃分為8個類別:停車場、水體、稀疏房屋、稠密房屋、居民區(qū)、空置地、農(nóng)田、工業(yè)區(qū)。重新通過選擇典型區(qū)域來產(chǎn)生訓(xùn)練集樣本,訓(xùn)練集每個時相均包含400張影像,每類50張,大小為150×150,但不同時相的訓(xùn)練樣本并不對應(yīng)相同位置,訓(xùn)練集影像部分如圖4所示。測試集是對大尺寸影像通過大小為150×150互不重疊的網(wǎng)格劃分產(chǎn)生測試集樣本,每個時相可以獲得1 920(48×40)張場景圖片,目視解譯為以上幾個類別。為提高模型的穩(wěn)健性、增強(qiáng)場景分類識別的準(zhǔn)確率,采用常見的數(shù)據(jù)增強(qiáng)方式來擴(kuò)充數(shù)據(jù)集,本文用到的數(shù)據(jù)增強(qiáng)方式有:影像隨機(jī)旋轉(zhuǎn)、左右翻轉(zhuǎn)、上下翻轉(zhuǎn)、隨機(jī)裁剪、添加椒鹽噪聲、直方圖均衡化。如圖5所示。
(a)2002年2月 (b)2009年6月
圖4 部分影像示例圖
(a)原始影像;(b)隨機(jī)旋轉(zhuǎn);(c)左右翻轉(zhuǎn);(d)水平翻轉(zhuǎn);(e)隨機(jī)剪切;(f)增加椒鹽噪聲;(g)直方圖均衡化
圖6顯示的是使用SLIC算法對2002年和2009年2幅影像分割結(jié)果。分別獲得946個、903個超像素塊,每個超像素斑塊對應(yīng)一個地物類型,從影像分割圖的完整分割區(qū)域中截取相應(yīng)的場景并對其分類,按照分割結(jié)果將每一個超像素塊提取出來輸入到神經(jīng)網(wǎng)絡(luò)模型并對其進(jìn)行預(yù)測分類。這些超像素斑塊基本上是由同種地物像元組成,避免了混合像元造成不同地物之間可分離性低、分類精度不高的問題。
(a)2002年2月 (b)2009年6月
本文實驗以Tensorflow為后端的keras作為深度學(xué)習(xí)框架,模型的基本參數(shù)包括:訓(xùn)練集、測試集、驗證集的比例為8:1:1,學(xué)習(xí)率為0.1~0.001之間動態(tài)變化,采用Adam優(yōu)化方法,訓(xùn)練輪次200個epochs。借助遷移學(xué)習(xí)方法,將Xception模型在ImageNet數(shù)據(jù)集上學(xué)習(xí)到的參數(shù)向量遷移到新數(shù)據(jù)集上,使得只需少量的樣本數(shù)據(jù)即可實現(xiàn)高精度的場景分類。目前,在keras框架中,已經(jīng)存在在ImageNet數(shù)據(jù)集訓(xùn)練好的Xception模型,較容易就能實現(xiàn)學(xué)習(xí)參數(shù)的遷移,省去了在ImageNet數(shù)據(jù)集上再次訓(xùn)練的麻煩。本文實驗平臺環(huán)境:聯(lián)想筆記本電腦,GPU:NVIDIA GeForce GTX 1660 Ti,CPU:intel(R) Core(TM) i7-10750 @2.60GHz,RAM:16.0GB。
由圖7可知,訓(xùn)練集精度隨著網(wǎng)絡(luò)不斷迭代在逐漸增加,精度從迭代0~50次的時候增長最快,因為使用遷移學(xué)習(xí)使得網(wǎng)絡(luò)不必再從頭學(xué)習(xí)參數(shù)知識,體現(xiàn)了遷移學(xué)習(xí)的優(yōu)越性,能夠減少訓(xùn)練時間。在150次迭代后,精度逐漸穩(wěn)定在0.96。訓(xùn)練集損失一直在下降,逐漸穩(wěn)定在0.18。
圖7 訓(xùn)練精度(a)和損失(b)圖
圖8顯示的是Xception網(wǎng)絡(luò)在測試集上產(chǎn)生的混淆矩陣。8個類別中有5個類別的分類準(zhǔn)確率大于90%,其中,水體和農(nóng)業(yè)用地的分類精度最高,達(dá)到98%和99%,因為這2種場景與其它場景類別在顏色、紋理等特征上較容易區(qū)分,能達(dá)到較高的分類精度。稀疏房屋、稠密房屋和居民區(qū)的分類準(zhǔn)確率相對較低,為82%、90%和74%,這3種場景相互之間有較大的相似度,可分離性不強(qiáng),造成分類精度不高??傮w而言,證明了Xception模型在分類上的有效性和實用性。
圖8 測試集混淆矩陣
圖9顯示的是使用本文方法得到的場景分類結(jié)果,從中可以看出,大部分的空閑地和少部分的農(nóng)業(yè)用地轉(zhuǎn)變?yōu)楣I(yè)用地和居民區(qū)。而表1土地利用類型占比統(tǒng)計中顯示,停車場、居民區(qū)和工業(yè)區(qū)的面積增加,其中工業(yè)區(qū)顯著增加,增量達(dá)到7.21 km2;水體、稀疏房屋、稠密房屋、空閑地和農(nóng)業(yè)用地占比減少,空閑地減少5.53 km2。這種土地利用類型的變化情況是城市發(fā)展過程中的典型擴(kuò)張模式。
(a)2002年2月 (b)2009年6月
表1 場景類別占比統(tǒng)計/km2
圖10顯示的是變化檢測的參考圖和利用本文方法得到的結(jié)果圖。黃色區(qū)域表示已改變的土地利用類型,白色區(qū)域表示未更改的土地利用類型,黑色區(qū)域表示不確定是否變化的場景。通過對圖10(a)和(b)的目視解譯,可以得出:圖10(b)場景變化檢測結(jié)果較為準(zhǔn)確地表明了土地利用類型變化的區(qū)域,比參考圖更好地體現(xiàn)了不同地物之間邊緣細(xì)節(jié)特征。本文的方法可用于檢測城市的發(fā)展并對未來的城市規(guī)劃提供建議。
··(a)參考結(jié)果 (b)本文方法結(jié)果
多時相場景變化檢測在城市發(fā)展規(guī)劃過程中具有重要的意義。本文提出了一種基于改進(jìn)的Xception模型的遙感場景分類方法用于變化檢測。首先對遙感影像使用SLIC分割,得到具有相似顏色、紋理等特征的超像素塊;通過遷移學(xué)習(xí)在Imagenet數(shù)據(jù)集上學(xué)習(xí)知識,利用改進(jìn)的Xception網(wǎng)絡(luò)模型對超像素塊預(yù)測分類?;诜诸惤Y(jié)果提取場景變化信息,統(tǒng)計城區(qū)變化區(qū)域大小和范圍以及不同場景前后變化情況,為城市的發(fā)展規(guī)劃提供參考建議。