陳鑫亞,楊昆,王加勝
(1.云南師范大學(xué)信息學(xué)院;2.云南師范大學(xué)地理學(xué)部;3.西部資源環(huán)境地理信息技術(shù)教育部工程研究中心,云南昆明 650500)
山區(qū)城鎮(zhèn)化最顯著的特征是大量不透水面取代了以植被為主的自然地表。不透水面是指道路、停車(chē)場(chǎng)等人工地表,不透水面能夠阻止地表水下滲,從而破壞了地表能量平衡和生物多樣性,容易導(dǎo)致洪澇災(zāi)害、熱島效應(yīng)等問(wèn)題。城鎮(zhèn)化對(duì)山區(qū)生態(tài)環(huán)境的影響尤為顯著,因此快速、準(zhǔn)確地提取山區(qū)不透水面,可為優(yōu)化山區(qū)發(fā)展規(guī)劃、加強(qiáng)環(huán)境保護(hù)與治理提供決策支持。
遙感影像因其具有成本低、覆蓋范圍廣等優(yōu)點(diǎn)成為快速不透水面制圖的重要數(shù)據(jù)來(lái)源。由于山區(qū)地物交錯(cuò)分布,低分辨率影像受空間分辨率和地物異質(zhì)性的影響,混合像元占比較高。分辨率高的影像中的混合像元較少,Sentinel-2影像是目前免費(fèi)的分辨率最高的光學(xué)影像,常被用于不同地物的遙感提取。受山區(qū)云雨天氣的影響,光學(xué)影像的云量較高。同時(shí),不透水面與裸土等地物容易出現(xiàn)光譜混淆的情況。因此,僅使用光學(xué)影像無(wú)法準(zhǔn)確提取不透水面。有研究表明,融合Sentinel-2等光學(xué)影像和Sentinel-1合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)影像等多源數(shù)據(jù)可以提高分類(lèi)精度。
多源數(shù)據(jù)融合容易導(dǎo)致特征冗余,特征優(yōu)選能夠降低特征維度,提高分類(lèi)性能。JM距離、隨機(jī)森林(RF)和ReliefF算法是目前最為常用的3種優(yōu)選方法。例如,文獻(xiàn)[11]篩選出JM值處于一定范圍的特征用于不同分類(lèi)算法,以提取江蘇夏收作物;文獻(xiàn)[12]結(jié)合JM距離和RF算法對(duì)三七種植區(qū)進(jìn)行遙感監(jiān)測(cè);文獻(xiàn)[13]基于RF的袋外數(shù)據(jù)誤差評(píng)估特征重要性,將特征從28個(gè)降至13個(gè),以提取湖北洪湖濕地信息;文獻(xiàn)[14]采用RF的平均不純度減少衡量特征重要性后,對(duì)中南半島進(jìn)行了土地覆蓋分類(lèi);文獻(xiàn)[15]結(jié)合ReliefF算法和信息熵改進(jìn)分離閾值算法進(jìn)行特征優(yōu)選,對(duì)華北平原地區(qū)作物進(jìn)行分類(lèi);文獻(xiàn)[16]使用基于ReliefF與粒子群優(yōu)化算法的混合特征選擇法用于土地分類(lèi),總體精度為85.88%。
目前,許多研究?jī)A向于使用一種特征優(yōu)選方法進(jìn)行特征降維,并未對(duì)比不同優(yōu)選方法在具體應(yīng)用中的優(yōu)劣和有效性。此外,大多數(shù)相關(guān)研究主要針對(duì)平原地區(qū),特征優(yōu)選方法在山區(qū)不透水面提取中的應(yīng)用能力有待驗(yàn)證。為此,本文基于谷歌地球云計(jì)算平臺(tái)(Google Earth Engine,GEE),以典型山地城市昆明市為例,比較了3種常用特征優(yōu)選方法在不透水面提取中的有效性,并基于最優(yōu)特征子集提取了昆明市2020年的不透水面。
昆明市(見(jiàn)圖1)位于云南省中部,屬低緯亞熱帶高原季風(fēng)氣候,全年干濕分明。地勢(shì)由北向南呈階梯狀降低,大部分地區(qū)為海拔在1 500~2 800m之間的山區(qū)或半山區(qū)。云南省地處中國(guó)西南邊境,與南亞、東南亞多國(guó)鄰接,作為云南省的政治經(jīng)濟(jì)文化中心,昆明市城鎮(zhèn)化水平發(fā)展迅速。
Fig.1 Overview of the study area圖1 研究區(qū)概況
(1)Sentinel-2 MSI數(shù)據(jù)。Sentinel-2攜帶多光譜成像儀(MultiSpectral Instrument,MSI),最高分辨率為10m。使用GEE上2020年Level-1C級(jí)別的影像共360景,數(shù)據(jù)已經(jīng)過(guò)輻射校正和幾何校正。篩選出云量低于10%的影像,并用具有云掩膜信息的QA60波段去云。為減少植被物候因素對(duì)分類(lèi)的影響,將影像按歸一化差異植被指數(shù)的最大值進(jìn)行合成,并按研究區(qū)范圍剪裁影像。
(2)Sentinel-1 SAR數(shù)據(jù)。Sentinel-1提供的合成孔徑雷達(dá)數(shù)據(jù)最高分辨率為10m。為減少山區(qū)陰影和疊掩的影響,收集了2020年雙軌道、雙極化(VV+VH)和IW工作模式的影像共323景。影像都進(jìn)行了熱噪聲去除、輻射校準(zhǔn)和地形校正。將所有影像按均值進(jìn)行合成,并按研究區(qū)范圍進(jìn)行剪裁。
(3)DEM數(shù)據(jù)。使用GEE上用于完成航天飛機(jī)雷達(dá)地形測(cè)繪任務(wù)的數(shù)字高程模型(Digital Eevation Model,DEM),數(shù)據(jù)分辨率為30m,將其按研究區(qū)范圍進(jìn)行裁剪。使用GEE的ee.Algorithms.Terrain(input)函數(shù)計(jì)算出海拔、坡度、坡向作為地形特征。
(4)樣本數(shù)據(jù)。使用Google Earth進(jìn)行線(xiàn)上樣本采集。首先通過(guò)分層隨機(jī)采樣生成2 000個(gè)隨機(jī)均勻分布的樣本點(diǎn),再基于Google Earth上2020年的影像,通過(guò)目視解譯將樣本標(biāo)記為透水面和不透水面兩類(lèi)。透水面包括植被、水體和裸土,分別得到透水面和不透水面樣本1 748與252個(gè)。
(5)土地覆蓋分類(lèi)數(shù)據(jù)。目前可免費(fèi)獲取的基于其他方法的土地覆蓋數(shù)據(jù)有限,因此收集了2020年30m分辨率的全球地表覆蓋數(shù)據(jù)集(GLC30)、2018年30m的全球人工不透水面數(shù)據(jù)集(GAIA)和2017年10m的全球土地覆蓋觀測(cè)與監(jiān)測(cè)數(shù)據(jù)集(FROM-GLC10)用于結(jié)果精度驗(yàn)證,并將產(chǎn)品重分類(lèi)為透水面和不透水面兩類(lèi)。
本文基于GEE平臺(tái),首先獲取并對(duì)遙感數(shù)據(jù)進(jìn)行預(yù)處理,完成光譜、光譜紋理、地形及SAR紋理特征構(gòu)建;然后,分別基于JM距離、RF模型、ReliefF算法優(yōu)選出3組特征子集,評(píng)價(jià)不同特征子集的分類(lèi)精度;最后,基于最佳的特征優(yōu)選方法與RF分類(lèi)算法提取昆明市2020年的不透水面分布信息。
(1)光譜特征。通過(guò)Sentinel-2影像提取的光譜特征包括藍(lán)波段(Blue)、綠波段(Green)、紅波段(Red)、近紅外波段(NIR)、短波紅外(SWIR1、SWIR2)以及歸一化差異建筑指數(shù)(NDBI)、改進(jìn)的歸一化差異水體指數(shù)(MNDWI)、歸一化差異植被指數(shù)(NDVI)和裸土指數(shù)(BSI)。
(2)光譜紋理特征。紋理特征能夠反映地物大小形態(tài)、疏密程度和規(guī)整程度。鑒于不透水面在短波紅外波段中具有較高反射率,基于灰度共生矩陣對(duì)Sentinel-2影像的B12波段計(jì)算紋理特征。使用GEE函數(shù)glcmTexture()得到常用的5個(gè)紋理特征:角二階矩(B12_ASM)、對(duì)比度(B12_Contrast)、逆差矩(B12_IDM)、熵(B12_ENT)和方差(B12_VAR)。
(3)地形特征。地形因素通常限制著山區(qū)城市的分布與擴(kuò)張。因此,采用由DEM數(shù)據(jù)計(jì)算得到的海拔(ELEVATION)、坡度(SLOPE)和坡向(ASPECT)3個(gè)地形特征分量參與特征集構(gòu)建。
(4)SAR紋理特征。相關(guān)研究表明,SAR的紋理特征相比光譜紋理特征具有更豐富的紋理信息。本文通過(guò)glcmTexture()函數(shù)計(jì)算得到VV和VH極化方式的常用紋理特征:VV_asm、VV_contrast、VV_idm、VV_ent、VV_var、VH_asm、VH_contrast、VH_idm、VH_ent、VH_var。
特征選擇即將高維空間的特征通過(guò)映射或變換方法轉(zhuǎn)換到低維空間,剔除冗余和不相關(guān)特征。特征選擇的原則是在不顯著降低分類(lèi)精度、不影響類(lèi)分布的前提下優(yōu)選出盡可能小且穩(wěn)定的特征子集。本文構(gòu)建了4類(lèi)特征:光譜特征10個(gè),光譜紋理特征5個(gè),地形特征3個(gè),SAR紋理特征10個(gè),共28個(gè)原始特征。若不進(jìn)行優(yōu)選,冗余特征將會(huì)影響分類(lèi)性能。
2.2.1 基于JM距離的特征優(yōu)選
JM距離(Jeffries-Matusita distance)是反映類(lèi)間可分性的重要指標(biāo)。在特征正態(tài)分布的前提下,計(jì)算類(lèi)間樣本的JM距離可衡量不同類(lèi)別基于某一特征的可分離性。對(duì)于類(lèi)別i
和類(lèi)別j
,其JM值的計(jì)算方法見(jiàn)式(1)和式(2)。2.2.2 基于RF模型的特征優(yōu)選
隨機(jī)森林(Random Forest,RF)是集成多棵決策樹(shù)的學(xué)習(xí)算法,每棵決策樹(shù)通過(guò)隨機(jī)選取樣本和特征獨(dú)立生成。決策樹(shù)節(jié)點(diǎn)在分裂時(shí),由最優(yōu)分裂特征得到的子節(jié)點(diǎn)樣本在理想狀態(tài)下屬于同一類(lèi)。利用基尼指數(shù)(Gini index)衡量樣本集合的不純度,Gini index越小,樣本的錯(cuò)分概率越小?;赗F模型的特征優(yōu)選通過(guò)對(duì)比特征在決策樹(shù)上的平均貢獻(xiàn)率來(lái)評(píng)估特征重要性,通常使用Gini index或袋外數(shù)據(jù)錯(cuò)誤率作為衡量標(biāo)準(zhǔn)。本文基于Gini index進(jìn)行評(píng)估,并將所有特征貢獻(xiàn)率的均值作為閾值,優(yōu)選出貢獻(xiàn)率大于均值的特征用于分類(lèi)。
2.2.3 基于ReliefF算法的特征優(yōu)選
ReliefF特征優(yōu)化算法能夠解決分類(lèi)及回歸問(wèn)題,算法效率高且不限制數(shù)據(jù)類(lèi)型,為較常用的特征選擇方法之一。ReliefF算法每次從訓(xùn)練樣本集中隨機(jī)取出一個(gè)樣本x
,并從與x
同類(lèi)的樣本集中找出x
的k個(gè)近鄰樣本,從與x
不同類(lèi)的樣本集中找出k個(gè)近鄰樣本,然后更新每個(gè)特征權(quán)重,重復(fù)m次。特征權(quán)重計(jì)算方法見(jiàn)式(3)。Diff
()表示樣本在特征f
上的距離,H
(x
)、M
(x
)分別為與x
同類(lèi)和非同類(lèi)的最鄰近樣本,p
(x
)表示類(lèi)別x
的概率,m
為迭代次數(shù),k
為最近鄰樣本個(gè)數(shù)。特征權(quán)重越大,表示該特征對(duì)樣本的區(qū)分效果越好。本文將所有特征權(quán)重均值作為閾值選擇最優(yōu)特征子集。本文運(yùn)用RF分類(lèi)算法提取不透水面。RF是對(duì)多棵決策樹(shù)投票結(jié)果進(jìn)行集成的分類(lèi)器,采用bootstrap抽樣策略選取訓(xùn)練樣本用于生成決策樹(shù),具有分類(lèi)精度較高、不易出現(xiàn)過(guò)擬合等優(yōu)點(diǎn),較少受噪聲和特征選擇的影響,適用于多類(lèi)別與多特征分類(lèi)。決策樹(shù)數(shù)量和特征選取個(gè)數(shù)是RF建立的關(guān)鍵參數(shù),通過(guò)以50為間隔調(diào)整參數(shù)的方法,選取分類(lèi)精度最高的決策樹(shù)數(shù)量。通過(guò)多次實(shí)驗(yàn),將決策樹(shù)數(shù)量設(shè)置為200,特征個(gè)數(shù)設(shè)置為特征維數(shù)的平方根。
通過(guò)構(gòu)建混淆矩陣可對(duì)基于不同優(yōu)選方法的分類(lèi)結(jié)果進(jìn)行精度評(píng)價(jià),具體評(píng)價(jià)指標(biāo)有生產(chǎn)者精度(Producer′s Accuracy,PA)、用戶(hù)精度(User′s Accuracy,UA)、總體精度(Overall Accuracy,OA)和Kappa系數(shù)。其中,OA和Kappa系數(shù)可反映總體分類(lèi)精度,PA、UA用來(lái)衡量不透水面的錯(cuò)分和漏分誤差。運(yùn)用交叉驗(yàn)證方法,隨機(jī)選取約7/10的樣本用于模型訓(xùn)練,約3/10的樣本作為測(cè)試樣本用于精度驗(yàn)證。對(duì)每個(gè)特征子集進(jìn)行10次精度驗(yàn)證,并對(duì)10次驗(yàn)證結(jié)果求平均值。
3.1.1 基于JM距離的特征優(yōu)選結(jié)果
計(jì)算出單個(gè)特征的JM距離以及同類(lèi)特征JM距離的均值,并將同類(lèi)特征中JM距離低于均值的特征剔除,完成同類(lèi)特征優(yōu)選(見(jiàn)表1),再將優(yōu)化后的不同類(lèi)特征進(jìn)行組合,計(jì)算JM距離(見(jiàn)表2)。
Table1 Features of the same category and their JM distance after optimization表1 優(yōu)選后的同類(lèi)特征及其JM距離
Table 2 JM distance of combinations of features belong to different categories表2 不同類(lèi)特征組合的JM距離
由表1可知,對(duì)同類(lèi)特征進(jìn)行優(yōu)選后,共減少了13個(gè)特征。表2表明將不同類(lèi)特征進(jìn)行組合能增大JM距離,紋理特征的貢獻(xiàn)率較高。其中,S+T+ST和S+T+ST+D的JM距離最大。由于S+T+ST特征數(shù)量更少,因此選擇Blue、Green、Red、SWIR2、NDVI、BSI、B12_asm、B12_contrast、B12_var、VV_asm、VV_var、VH_contrast、VH_var共13個(gè)特征用于構(gòu)建特征子集。
3.1.2 基于RF模型的特征優(yōu)選結(jié)果
基于RF模型的特征重要性如圖2所示,計(jì)算出特征重要性均值為0.035 7。其中,B12_idm、B12_asm、B12_ent、B12_contrast、VV_contrast、BSI、NDVI、Blue的貢獻(xiàn)率超過(guò)3%;Red、NDBI、SLOPE、VV_idm、VV_ent、VV_asm和VH_contrast的貢獻(xiàn)率在2.5~3%之間,表明紋理特征的貢獻(xiàn)率最高,且VV紋理特征貢獻(xiàn)率高于VH紋理特征。貢獻(xiàn)率高于均值的特征包括Blue、NDVI、BSI、B12_asm、B12_contrast、B12_ent、B12_idm、VV_contrast共8個(gè)特征,用于構(gòu)建特征子集。
Fig.2 Feature contribution rate based on RF model圖2 基于RF模型的特征貢獻(xiàn)率
3.1.3 基于ReliefF算法的特征優(yōu)選結(jié)果
基于ReliefF算法的特征權(quán)重如圖3所示,特征權(quán)重的均值為0.017。NDVI、NDBI、BSI、B12_ent、B12_idm的權(quán)重超過(guò)3%,Blue、VV_ent、VV_idm、ASPECT、SLOPE的權(quán)重處于2~3%之間,其余特征的權(quán)重低于2%。因此,權(quán)重高于均值的特征包括Blue、NDBI、NDVI、BSI、B12_ent、B12_idm、VV_ent、VV_idm、SLOPE、ASPECT共10個(gè)特征,用于構(gòu)建特征子集。
Fig.3 Feature weight based on ReliefF algorithm圖3 基于Relief F算法的特征權(quán)重
基于JM距離、RF模型、ReliefF算法構(gòu)建的特征子集分別用于訓(xùn)練RF分類(lèi)器,并提取不透水面,將提取結(jié)果分別命名為JM_2020、RF_2020和ReliefF_2020?;诓煌卣髯蛹姆诸?lèi)精度和分類(lèi)模型訓(xùn)練時(shí)間見(jiàn)表3。為進(jìn)一步展現(xiàn)3種方法在不透水面提取上的差異,選取昆明市3個(gè)典型區(qū)域,對(duì)比JM_2020、RF_2020和ReliefF_2020的分類(lèi)精度,見(jiàn)圖4。
Table 3 Evaluation index of different feature selection methods表3 不同特征優(yōu)選方法評(píng)價(jià)指標(biāo)
Fig.4 Extraction results of impervious surface based on different feature optimization methods圖4 基于不同特征優(yōu)選方法的不透水面提取結(jié)果
由表3 可知,相比原始特征,特征優(yōu)選剔除了大量冗余或無(wú)關(guān)特征,提高了分類(lèi)效率和精度。其Kappa 值和PA值有所提高,模型訓(xùn)練時(shí)間驟減?;赗eliefF 算法的優(yōu)選特征數(shù)量較少,相比JM 距離和RF 模型,Kappa 值分別提高了2%和3%,PA 值分別提高了7%和4%,模型訓(xùn)練時(shí)間分別減少了84s和16s。
分析圖4 可知,(a)區(qū)域?yàn)榫用駞^(qū),RF_2020 和JM_2020 在居民樓密集區(qū)都存在不透水面高估現(xiàn)象。在(b)、(c)區(qū)域中,JM_2020的不透水面低估情況相比其他兩種方法更嚴(yán)重,漏分了大量不透水面。根據(jù)Sentinel-2 的地面真實(shí)影像,與RF_2020 和JM_2020 相比,ReliefF_2020 更接近不透水面的真實(shí)分布,提取效果明顯優(yōu)于其他兩種方法。因此,本研究將ReliefF 作為最優(yōu)的特征選擇方法,ReliefF_2020為最優(yōu)的不透水面提取結(jié)果。
為進(jìn)一步驗(yàn)證ReliefF_2020 的精度,選取昆明市內(nèi)具有不同城鎮(zhèn)化程度的3 個(gè)典型區(qū)域,將ReliefF_2020 與基于其他方法獲取的土地覆蓋數(shù)據(jù)精度進(jìn)行比較,見(jiàn)圖5。
區(qū)域(a)中FROM_GLC10和GAIA 都存在低估現(xiàn)象,區(qū)域(b)中FROM_GLC10 和ReliefF_2020 精度較高,區(qū)域(c)中的大棚作物種植區(qū)(Sentinel-2 中亮白色區(qū)域)易與不透水面混淆,F(xiàn)ROM_GLC10 和GAIA 中的混淆現(xiàn)象嚴(yán)重。GLC30 具有最低精度,ReliefF_2020 與Sentinel-2 目視解譯效果基本一致。因此,ReliefF_2020 的精度僅次于FROM_GLC10,但高于GAIA 和GLC30。
Fig.5 Accuracy comparison of land cover data圖5 土地覆蓋數(shù)據(jù)精度比較
本研究融合多源遙感數(shù)據(jù),對(duì)比了3 種特征優(yōu)選方法(JM 距離、RF 模型和ReliefF 算法)在山地城市不透水面提取中的有效性,得到以下結(jié)論:
(1)融合光學(xué)衛(wèi)星和雷達(dá)衛(wèi)星數(shù)據(jù)能有效提高山區(qū)不透水面的提取精度。在所有特征中,光譜紋理特征與SAR 紋理特征的重要性較高。
(2)特征優(yōu)選方法能減少大量冗余特征,減少模型訓(xùn)練時(shí)間,提高分類(lèi)效率和精度?;赗eliefF 算法優(yōu)選出的特征較少,模型訓(xùn)練時(shí)間最少,不透水面提取結(jié)果具有最高的Kappa和PA 值,因此成為最優(yōu)的特征優(yōu)選方法。
(3)最終提取結(jié)果中存在不透水面的高估與低估現(xiàn)象,主要與特征優(yōu)選時(shí)閾值的不確定性、研究區(qū)的特殊性、樣本的準(zhǔn)確性,以及山區(qū)的光譜混淆、混合像元等問(wèn)題有關(guān)。
以特征權(quán)重均值作為閾值具有一定的不確定性。未來(lái)研究將根據(jù)特征類(lèi)型與數(shù)量,對(duì)比不同閾值的優(yōu)選效果或?qū)ふ易詣?dòng)化的閾值確定方法。同時(shí),將樣本的線(xiàn)上選取與線(xiàn)下檢驗(yàn)相結(jié)合以提高樣本準(zhǔn)確度。