竇世卿,宋瑩瑩,徐 勇,苗林林,陳治宇,鄭賀剛
(桂林理工大學 測繪地理信息學院,廣西 桂林 541006)
變化檢測是觀測不同時間下同一區(qū)域的地物變化信息的過程,衛(wèi)星遙感技術可以實時、準確、快速地檢測土地覆被的變化情況,土地利用的變化檢測也已成為遙感技術的重要應用領域之一[1]。
基于遙感技術有多種不同的變化檢測方法[2]。如Desclée[3]等將多時相影像疊加后進行分割,進行基于面向?qū)ο蟮淖兓瘷z測。Jin[4]等結(jié)合多種指數(shù)提取區(qū)域地物的變化信息,對土地覆蓋進行更新。Feng[5]等提出了一種基于視覺顯著性和隨機森林的高分辨率遙感圖像變化檢測方法。馮文卿[6]等提出了利用隨機森林進行面向?qū)ο蟮倪b感影像變化檢測。陳鵬[7]等提出了一種基于地物分布特性的違法用地變化檢測方法,實現(xiàn)違法用地變化信息自動提取。季順平[8]提出了一種基于背景模型的針對建筑物的陰影檢測及變化檢測方法。何浩[9]針對城市建筑物受成像角度差異引起的誤檢測問題,提出基于視差和陰影幾何分析的建筑物變化檢測方法。但上述研究中并沒有顧及建筑物的陰影對土地利用分類及變化檢測結(jié)果的影響。
隨機森林的分類方法是由美國統(tǒng)計學家Leo Breiman[10]在2001年提出的基于CART分類樹的組合分類算法,分類精度高且訓練速度快。谷曉天[11]分別利用支持向量機、BP神經(jīng)網(wǎng)絡、隨機森林等方法進行土地利用信息的提取,得到隨機森林分類模型的精度最高。
本文基于2幅不同時期的高分影像,首先采用改進的雙峰分裂閾值法進行建筑物的陰影去除,然后融合高分遙感影像的光譜、紋理、幾何特征,并選取合適的植被指數(shù),使用隨機森林的方法對研究區(qū)的土地覆被進行分類,并基于分類結(jié)果進行變化檢測和對比分析。
本文選擇廣西壯族自治區(qū)桂林市臨桂區(qū)六塘鎮(zhèn)為研究區(qū),位于臨桂區(qū)境南部,地處北緯24°56′17″~25°02′07″、東經(jīng)110°10′49″~110°20′02″,行政面積108 km2,地形地貌以丘陵平原為主,海拔約190 m。研究區(qū)以亞熱帶季風氣候為主,年降水量為1 900 mm。東北接桂林市雁山區(qū),東南連陽朔縣,南鄰南邊山鎮(zhèn),西界永??h,北依會仙鎮(zhèn)。研究區(qū)位置及原始影像如圖1所示。
利用2017年WorldView-2(WV2)和2020年SuperView-1(SV1)的高分辨率遙感影像為數(shù)據(jù)源,以裁剪后的兩景影像的重疊覆蓋區(qū)作為實際研究范圍。WorldView-2衛(wèi)星不僅提供0.5 m全色圖像和1.8 m分辨率的影像,還提供了海岸、黃、紅邊和近紅外4個波段。SuperView-1全色分辨率0.5 m,多光譜分辨率2 m。不僅可以獲取多點、多條帶拼接等影像數(shù)據(jù),還可以進行立體采集。兩期原始影像的RGB彩色合成影像如圖1所示。
基于ENVI 5.6平臺,對原始影像進行預處理。采用30 m分辨率的ASTER GDEM數(shù)據(jù)對影像進行正射校正,并基于NNDiffuse方法融合多光譜影像和全色影像。為了消除大氣散射的輻射誤差,對影像進行了FLAASH大氣校正。此外,前后時相影像的校正和配準對變化檢測結(jié)果有很大的影響,本文以SV1影像為基準對WV2影像進行配準,采用多項式模型進行幾何校正,重采樣方法為三次卷積內(nèi)插法。
SuperView-1的影像為4個波段光譜影像,影像中河流等水域面積無法忽略,其輻射特征與陰影非常相近,僅用4個波段的光譜數(shù)據(jù)較難將二者區(qū)分,運用簡單的特征法難以得到理想的結(jié)果[12]。因此需要先對SuperView-1影像進行建筑物陰影檢測和去除。然后,結(jié)合植被指數(shù)、紋理信息進行隨機森林分類,在此基礎上使用分類后對比的方法進行變化檢測,并通過剔除偽變化、質(zhì)量檢查等手段進行檢測結(jié)果優(yōu)化,最終獲得研究區(qū)地物變化檢測的結(jié)果。
對于云量少、天氣晴朗情況下獲取的高分辨遙感影像,高大建筑以及高大孤樹會出現(xiàn)陰影,陰影部分在特征提取時,很容易與植被或水體特征相混淆,而且不同時相影像的陰影方向及大小也不同,因此需要進行專門的陰影檢測并去除。
改進的雙峰分裂閾值法是一種效果較好的陰影檢測方法。該方法取灰度直方圖兩波峰的平均值作為分割閾值,小于閾值的像元作為陰影區(qū)域。運用該方法提取陰影的關鍵在于閾值的選取,當陰影占影像面積較大時,以雙峰波谷值作為陰影分割閾值[13]。陰影部分占比不大時,選取第一個波谷值作為陰影分割閾值[9]。具體過程是:首先將RGB(Red,Green,Blue)影像轉(zhuǎn)化為HIS(Hue,Saturation,Intensity)影像,然后統(tǒng)計I分量的像元值,再進行閾值分割。影像中陰影常處于亮度值最低的區(qū)域,根據(jù)這一特性,基于Python平臺,將RGB影像模型轉(zhuǎn)換到HSI模型,每個RGB像素的H分量,S分量和I分量計算方式為:
(1)
(2)
(3)
本文的建筑物陰影在分類中大多被分為了水體,為了不影響后續(xù)的變化檢測的實驗結(jié)果,需要保證提取出的陰影部分在隨機森林的分類過程中被計算成建筑用地。將提取出的陰影區(qū)域像元值計算為與訓練樣本中建筑用地的均值相等。然后,用陰影區(qū)域?qū)υ加跋襁M行掩膜處理,再將掩膜后的影像與重新計算后的陰影區(qū)域疊加,最后,將疊加后的影像進行分類,建筑物陰影區(qū)域則被分類為建筑用地。
2.2.1 隨機森林模型原理
隨機森林(Random Forest,RF)是一種以多個決策樹為基本學習器的機器學習算法。隨機森林通過自助采樣法(Bootstrap Sampling)隨機有放回地抽取N組樣本生成訓練樣本集并建立N棵CART決策樹[14]。樣本的2/3作為袋內(nèi)數(shù)據(jù),1/3作為袋外數(shù)據(jù)(Out of Bag,OOB)。OOB數(shù)據(jù)可以通過內(nèi)部交叉驗證并應用到所有決策樹的方法,估算整個隨機森林的泛化誤差(Out of Bag Error)。每棵決策樹的每個節(jié)點處隨機抽取m個特征進行節(jié)點分裂?;嶂笖?shù)越小,表示集合中被選中樣本被錯分的概率越?。?/p>
(4)
式中,pk表示選中的樣本屬于k類別的概率,則這個樣本被分錯的概率是(1-pk),樣本集合中有K個類別。
最后由生成的多棵決策樹構(gòu)成隨機森林分類器對數(shù)據(jù)進行分類,最終的分類結(jié)果由所有決策樹投票來決定[15]。
2.2.2 特征提取
利用高分影像豐富的空間信息和紋理信息,提取影像的光譜特征和紋理特征。有利于計算像元與像元之間及像元屬性與像元屬性間的相互關系,植被指數(shù)在植被的研究中是一個重要指標,而且還可以在一定程度上減少外界因素帶來的誤差,更好地識別地物細節(jié)的變化信息,綜合影像的地類分布特點。本文選取的特征及植被指數(shù)如下:
(1) 光譜特征:影像光譜特征的平均值(Mean)和標準差(Standard Deviation)、亮度(Brightness)[16]。
(2) 紋理特征:通過應用8個基于二階矩陣的紋理濾波提取WV2和SV1的紋理特征,包括平均值(Mean)、方差(Variance)、信息熵(Entropy)、二階矩(Second Moment)、相關性(Correlation)、異質(zhì)性(Dissimilarity)、對比性(Contrast)和協(xié)同性(Homogeneity)8個紋理參數(shù)。
(3) 光學植被指數(shù):為了減少不同輻照度對植被光譜特征的影響,更好地區(qū)分不同地物類型,提高地物的分類精度,需分別計算以下各個指數(shù)特征[17]。歸一化植被指數(shù)(Normalized Difference Vegetation Index,NDVI)是檢測植被生長狀態(tài)的重要參數(shù),也是植被覆蓋度的最佳指示因子[18],因而應用最為廣泛。歸一化水指數(shù)(Normalized Difference Water Index,NDWI)利用水體在近紅外波段強吸收而植被強反射的特點,采用綠波段和近紅外波段的比值,可以較大程度上抑制植被信息,突出水體[19]。比值植被指數(shù)(Ratio Vegetation Index,RVI)在植被覆蓋度較高時,對植被十分敏感。上述3個植被指數(shù)的計算公式如下:
NDVI=(ρNIR-ρR)/(ρNIR+ρR),
(5)
NDWI=(ρGREEN-ρNIR)/(ρGREEN+ρNIR),
(6)
RVI=ρNIR/ρR,
(7)
式中,ρNIR為近紅外波段;ρR為紅外波段;ρGREEN為綠波段。
2.2.3 分類及后處理
融合提取的特征信息及去除陰影后的影像,對隨機森林算法進行參數(shù)調(diào)優(yōu),發(fā)現(xiàn)當決策樹的數(shù)量(Ntree)和最小分割點分別為150和6時,分類精度最高,然后,將獲得的最優(yōu)參數(shù)運用于分類模型,進行分類并得到建筑用地、林地、耕地、水域和裸地5個地類的分類結(jié)果。
分類圖像經(jīng)常缺少空間連續(xù)性,導致影像分類效果較差。本文選擇聚類處理(Clump)的方法對分類后的結(jié)果進行后處理。聚類處理是運用形態(tài)學算子將臨近的類似分類區(qū)域聚類并合并[20]。低通濾波雖然可以用來平滑這些小班點,但是類別信息常常會被臨近類別的編碼干擾,聚類處理解決了這個問題。
2.2.4 分類精度評定
本文采用混淆矩陣的方法對分類結(jié)果進行精度評價。計算評價指標為總體分類精度(Overall Accuracy)和Kappa系數(shù)(Kappa Coefficient)??傮w分類精度等于被正確分類的像元總和除以總像元數(shù)。Kappa系數(shù)是一種比例,代表著分類與完全隨機的分類產(chǎn)生錯誤減少的比例。
變化檢測是土地覆被變化提取的關鍵步驟,其中包括發(fā)現(xiàn)變化、變化范圍確定、變化類型確定。變化檢測方法有多種,同一塊研究區(qū)域運用不同的檢測方法會得到不同的檢測結(jié)果[21]。因此,在變化檢測過程中,根據(jù)研究區(qū)的遙感影像質(zhì)量與類型以及環(huán)境條件選定合適的檢測方法是土地利用變化檢測的關鍵。
2.3.1 變化檢測方法
分類后比較的方法是將2幅分類圖像之間的差異編輯成一個詳細的表格,使用該程序所探測的差異與僅對2幅圖像進行簡單差值運算所得出的結(jié)果有明顯區(qū)別[22]。統(tǒng)計結(jié)果包含類別對類別(Class-for-Class)的圖像差異分析,分析識別出哪些像元發(fā)生了變化,變化為終止狀態(tài)圖像中的哪一類,并可以用像元數(shù)量、百分比和面積對這些像元進行記錄。本實驗利用隨機森林模型得到的分類精度較高,這一方法更加可行。
2.3.2 剔除偽變化
遙感變化檢測目的就是獲取地物真實的變化信息,檢測結(jié)果受很多因素影響,如陰影、配準、噪音和投影差等。針對樹木及房屋陰影這2種因素引起的偽變化信息進行提取和剔除。同時,對分類結(jié)果中出現(xiàn)的“椒鹽”現(xiàn)象進行改進處理。利用對象間的空間特征,在初始檢測結(jié)果中剔除提取到的偽變化對象,得到正確的檢測結(jié)果。
本文利用處理過的高分影像,基于Python平臺和ENVI平臺,首先對建筑物的陰影區(qū)域進行檢測和去除,融合紋理特征、光譜特征及植被指數(shù),利用隨機森林的方法進行影像分類,并基于2017年和2020年準確的地物分類結(jié)果進行變化檢測。
首先對2幅原始影像進行分類,圖2(a)為SV1原始影像的建筑物較密集的部分區(qū)域,可以看出建筑物的陰影較明顯。其中SV1影像中建筑物陰影被錯分成了水體的問題較突出,如圖2(b)所示。
(a) 2017年WV2影像
(a) SV1影像建筑部分
由于分類結(jié)果會影響到變化檢測結(jié)果的正確率,因此需要對建筑物的陰影進行檢測和去除?;诟倪M的雙峰分裂閾值法,將影像RGB模型轉(zhuǎn)換到HIS模型,取亮度分量I波段統(tǒng)計像元值,并自動計算波谷值。本實驗計算出的波谷值為23,最后對I波段進行逐像元灰度判別,如果計算出的像元灰度值小于波谷值23,則該像元被計算為陰影。陰影檢測結(jié)果如圖3所示,去除陰影后的分類結(jié)果如圖4所示。
圖3 建筑物陰影檢測結(jié)果Fig.3 Building shadow detection results
圖4 去除陰影后的分類結(jié)果Fig.4 Classification results after removal of shadows
3.2.1 選取分類訓練集
經(jīng)目視判讀,確定研究區(qū)地表覆被共可以分成建筑用地、林地、耕地、水域和裸地5種地物類型。在2個時相的影像上分別選取訓練數(shù)據(jù)集和驗證數(shù)據(jù)集,并均勻分布于整個研究區(qū),詳細信息如表1所示。
表1 訓練數(shù)據(jù)集與驗證數(shù)據(jù)集數(shù)量Tab.1 Quantity of training data set and verification data set
3.2.2 分類結(jié)果
基于隨機森林分類方法對文中2期影像進行分類,分類結(jié)果如圖5所示。各地類的統(tǒng)計面積如表2所示。結(jié)合圖5和表2可以看出,林地遍布于影像的大部分區(qū)域,2017年為400.174 hm2,2020年增長到了470.576 hm2,耕地的占比次之,主要分布于西南方河流的周圍。2017年為130.223 hm2,2020年下降到了89.543 hm2。建筑用地以村落的形式分布在耕地附近,水體主要為南北走向的一條河流,另外,研究區(qū)的西北方有幾塊大面積的池塘。2017年的建筑用地、裸地、水域分別是53.889,44.687,13.288 hm2,而2020年這3種地類的面積分別為48.583,22.224,11.326 hm2。3年間,這3種地類的面積均有所減少。在研究區(qū)東北角有一大部分林地在3年間演變?yōu)槁愕睾徒ㄖ玫?,可能與該地區(qū)建筑用地較多、人類活動較頻繁有關。
(a) 2017年WV2影像分類結(jié)果 (b) 2020年SV1影像分類結(jié)果圖5 隨機森林分類結(jié)果Fig.5 Classification results of Random Forest
表2 RF分類結(jié)果各地類統(tǒng)計表Tab.2 Statistical table of RF classification results of each category 單位:hm2
3.2.3 分類精度評價
采用混淆矩陣的方法對分類的結(jié)果進行分析,詳細結(jié)果如表3和表4所示。其中,2017年WV2影像總體分類精度為98.616%,Kappa系數(shù)為0.977;2020年SV1影像總體分類精度為98.138%,Kappa系數(shù)為0.949。
表3 2017年WV2影像隨機森林分類的混淆矩陣Tab.3 Confusion matrix of Random Forest classification of WV2 images in 2017
表4 2020年SV1影像隨機森林分類的混淆矩陣Tab.4 Confusion matrix of Random Forest classification of SV1 images in 2020
從表3和表4可以看出,融合各種植被指數(shù)的隨機森林分類方法對水域的分類效果較好,2017年WV2影像的水域分類精度可以達到100%,而2020年SV1影像的水域分類精度為99.98%。2幅影像的耕地分類效果相對較差,2017年WV2影像為90.40%,2020年SV1影像為90.99%。其中,SV1影像中對建筑用地的分類精度稍低,為92.87%,而WV2影像中建筑用地的分類精度是98.39%。由于WV2影像有額外的4個波段,因此可以更好地進行地物的識別,分類效果更顯著。對比2個時相的分類結(jié)果,除了裸地,2017年WV2影像中其他地物的分類精度均高于SV1影像,與表2相結(jié)合分析可知2017年裸地的面積更大,而裸地呈現(xiàn)的光譜特征與生長初期的耕地極為相似,因此容易產(chǎn)生錯分現(xiàn)象。而2020年裸地面積減少,錯分的概率就相應減少。
對分類結(jié)果進行對比分析,提取土地利用變化信息,詳細結(jié)果如表5和表6所示。從表5和表6可以得出,研究區(qū)內(nèi)建筑用地、林地、耕地、裸地和水域的未變化面積分別為21.553,336.070,45.709,3.145和8.583 hm2。其中,只有林地的面積是增加的,其他地類均有不同程度的下降。結(jié)合圖6和表5、表6可以看出,裸地的變化幅度最大,占2017年裸地總面積的50.268%,其中,由裸地轉(zhuǎn)變?yōu)榱值氐拿娣e為35.310 hm2,占2017年裸地總面積的79.015%,同時也有12.799 hm2的林地變化為裸地,僅占2017年林地面積的3.199%。
表5 變化檢測結(jié)果表Tab.5 Change detection results 單位:hm2
表6 變化檢測結(jié)果占比表Tab.6 Proportion of change detection results 單位:%
變化檢測的空間分布如圖6所示。
圖6 變化檢測空間分布Fig.6 Spatial distribution of change detection
從圖6可以看出,3年間地表覆被的變化特征。其中a,f,g區(qū)域是大片的林地,多是未變化的地類。變化信息復雜的區(qū)域位于西南角d區(qū)域,包括建筑用地到林地、耕地的轉(zhuǎn)變,林地到耕地、建筑用地,以及耕地到林地、建筑用地的轉(zhuǎn)變。研究區(qū)裸地轉(zhuǎn)化為林地的特征較為明顯,主要位于e區(qū)域。而在c區(qū)域,也有部分林地轉(zhuǎn)化為裸地。耕地的變化趨勢次之,有31.239%的耕地演變?yōu)槠渌仡?,其中?6.286%的耕地演變?yōu)榱值兀?3.297 hm2。
在該研究區(qū),林地的占地面積最大,雖然變化的區(qū)域僅占2017年林地總面積的17.585%,但因林地面積基數(shù)大,使得該研究區(qū)林地面積從2017年到2020年增加了70.362 hm2。其中,有33.779 hm2是由耕地演變而來,15.916 hm2的建筑用地和12.799 hm2的裸地改造成為了林地。耕地的變化量僅次于林地,減少了40.680 hm2,占2017年耕地總面積的31.239%。
本文選擇桂林市臨桂區(qū)六塘鎮(zhèn)為研究區(qū),首先進行影像建筑物陰影的檢測和去除,然后融合植被指數(shù)、紋理信息和光譜特征等進行隨機森林分類,對分類結(jié)果進行聚類處理后再使用分類后對比的方法進行變化檢測,最后通過剔除偽變化對其進行優(yōu)化,最終獲得研究區(qū)地物變化檢測的結(jié)果。在去除建筑物陰影的情況下,結(jié)合各種特征與植被指數(shù)的隨機森林分類方法對水域的分類效果最好,可以達到99%以上,對于耕地的分類效果較差,原因可能是該研究區(qū)耕地較多,有些農(nóng)村道路以及在作物生長初期的耕地,與裸地呈現(xiàn)出的光譜特征相似,不利于光學遙感的識別,而水域的光譜特征在高分辨率影像下本就比較容易辨別,再加上一些特定的植被指數(shù),就可以被很好地區(qū)分出來。
綜合分類結(jié)果及變化檢測結(jié)果,得出以下結(jié)論:
① 2017—2020年三年間,研究區(qū)內(nèi)林地的面積有所增加,其余4個地類的面積均減少,且林地在研究區(qū)內(nèi)的占地面積最大。廣西地區(qū)的氣候和土壤都適合柑橘的生長,而六塘鎮(zhèn)有大片柑橘林,部分耕地由于人為因素,將其轉(zhuǎn)化為柑橘林地,其中,“退耕還林”政策也會有一定的影響,而部分低矮破舊房屋也改造為柑橘林及其他林地,以發(fā)展經(jīng)濟效益。
② 裸地的變化量最大,2017年的研究區(qū)有44.687 hm2的裸地,而到2020年,僅剩22.224 hm2的裸地。對于這種大幅的減少,得出以下結(jié)論,2017年WV2的數(shù)據(jù)為4月份獲取的,該時期農(nóng)作物大多處于初步生長期,呈現(xiàn)的光譜特征與裸地相似,易被識別為裸地,而該時期的大部分柑橘林都還是低矮的灌木群,紋理特征較明顯的也可以被識別出來,不明顯的則會被錯分為耕地,出現(xiàn)“異物同譜”現(xiàn)象。2020年SV1的數(shù)據(jù)為11月份,該時期處于秋收時期,由圖2的(b)影像看出,影像總體呈現(xiàn)為綠色,此時,裸地與耕地及林地的光譜特征差異較大,更容易將其區(qū)分出來。