劉 聲
(廣東省有色地質(zhì)測繪院,廣東 廣州 510055)
不透水面是一種能阻止水分滲入地下的人造結(jié)構(gòu),一般由建筑、廣場、道路等構(gòu)成[1]。不透水面是城市化進程的一個重要指標(biāo),城市的擴張在改善居民生活條件的同時,也引起了一些環(huán)境問題,包括城市熱島效應(yīng)、生物多樣性減少、城市內(nèi)澇等[2-3]。因此,研究不透水面及其變化對于了解城市化過程、城市發(fā)展規(guī)劃以及智慧城市建設(shè)等具有重要意義[4]。
遙感技術(shù)給近幾十年來地球表面連續(xù)動態(tài)監(jiān)測提供了新的手段[5]。各種遙感數(shù)據(jù),如中分辨率成像光譜儀(MODIS)[6-7]和Landsat數(shù)據(jù)[8-9],以及合成孔徑雷達(SAR)數(shù)據(jù)[10]已經(jīng)廣泛用于不透水面監(jiān)測。其中,Landsat系列數(shù)據(jù)被廣泛用于以30 m的分辨率繪制大尺度不透水面地圖,但是其經(jīng)常會遇到混合像元問題,在城市地區(qū)的異質(zhì)景觀中尤為嚴(yán)重[11]。哨兵系列數(shù)據(jù)相較于Landsat系列,在空間分辨率和時間分辨率方面都得到了提高,成為不透水面研究的重要數(shù)據(jù)源。徐瑞等[12]提出了一種基于Sentinel-2數(shù)據(jù)的不透水面識別方法,經(jīng)過實驗該方法能有效改善不透水面與裸土的混淆。近年來,如Amazon Web Services、NASA Earth Exchange、Microsoft Azure 和 Google Cloud等云計算平臺的出現(xiàn)為地理空間大數(shù)據(jù)的研究提供了新的機遇[13]。Google Earth Engine(GEE)是一個開放的云計算平臺,擁有海量的衛(wèi)星影像和地理空間數(shù)據(jù),依托高性能服務(wù)器集群實現(xiàn)對海量影像的在線處理和可視化,大大提高了工作效率[14]。
本文基于GEE平臺,將Sentinel-1SAR數(shù)據(jù)和Sentinel-2光學(xué)數(shù)據(jù)結(jié)合使用,采用隨機森林算法對山東省不透水面進行提取,探究了SAR數(shù)據(jù)對不透水面提取精度的影響,以期選擇合適特征和方法快速準(zhǔn)確地提取大范圍不透水面。
山東省位于中國東部沿海,地處北緯34°22.9′~38°24.01′,東經(jīng)114°47.5′~122°42.3′之間,陸地面積約15.8萬km2。山東省下轄16個地級市,地形如圖1所示,類型包括山地、丘陵、臺地、盆地、平原、湖泊等多種類型,屬于溫帶季風(fēng)氣候。
圖1 研究區(qū)
研究中使用了Sentinel-2的L2A級多光譜數(shù)據(jù)、Sentinel-1地距格式的后向散射系數(shù)數(shù)據(jù)、SRTM30m高程數(shù)據(jù)以及訓(xùn)練和驗證樣本數(shù)據(jù)。除樣本數(shù)據(jù)外,其他數(shù)據(jù)均在GEE平臺在線調(diào)用并處理。
1.2.1 遙感數(shù)據(jù)及預(yù)處理
Sentinel-2的L2A級數(shù)據(jù)是通過歐空局sen2cor工具計算生成的,研究中使用了2020年4月覆蓋山東省的Sentinel-2影像217景,通過GEE平臺過濾云量閾值條件和去云算法去除云污染的影響,采用中值合成方法得到覆蓋研究區(qū)的完整無云影像。GEE平臺的Sentinel-1數(shù)據(jù)是使用Sentinel-1工具箱處理生成的正射校正影像,預(yù)處理過程包括輻射校正、多視、熱噪聲去除、地形校正,最終將強度數(shù)據(jù)轉(zhuǎn)換為后向散射系數(shù)數(shù)據(jù)。研究中使用2020年4月覆蓋研究區(qū)的VV(垂直發(fā)射、垂直接收電磁波)和VH(垂直發(fā)射、水平接收電磁波)極化地距格式多視影像(GRD)各70景。將所有遙感數(shù)據(jù)均采樣至10 m,通過GEE內(nèi)嵌算法實現(xiàn)不同數(shù)據(jù)源的高精度幾何配準(zhǔn)。
1.2.2 訓(xùn)練和驗證樣本
本文采用分類的方法提取不透水面,利用目視解譯從Google Earth高分辨率影像中采集樣本點。結(jié)合研究區(qū)土地覆蓋情況將樣本分為5類,共采集樣本點2 535個,各類樣本數(shù)量如表1所示。樣本將上傳至GEE平臺用于隨機森林訓(xùn)練和精度驗證,訓(xùn)練樣本和驗證樣本的比例為7∶3。
表1 樣本類型及數(shù)量
不同的遙感指數(shù)可以反映不同地物的物理特性,增強地類之間的差異,由于地物在遙感影像上普遍存在的“異物同譜”和“同物異譜”現(xiàn)象,單一指數(shù)特征難以實現(xiàn)不透水面的準(zhǔn)確提取,本文使用多特征構(gòu)建特征集,綜合利用不同遙感指數(shù)的性能側(cè)重提高不透水面的提取精度。本文選取歸一化植被指數(shù)(Normalized Difference Vegetation Index,NDVI)突出植被信息,改進的歸一化水體指數(shù)(Modified Normalized Difference Water Index,MNDWI)[15]突出水體信息,土壤調(diào)節(jié)植被指數(shù)(Soil Adjusted Vegetation Index,SAVI)[16]區(qū)分裸土和植被信息。歸一化建筑指數(shù)(Normalized Difference Built-up Index,NDBI)[17]是遙感提取不透水面的常用指數(shù),但單獨使用會出現(xiàn)裸土和建筑的混淆現(xiàn)象,結(jié)合SAVI可以減少裸土和建筑之間的混合。各個遙感指數(shù)的計算方式如下:
(1)
式中,NIR、Red、Green、SWIR分別為近紅外、紅光、綠光、短波紅外波段的反射率,L為土壤調(diào)節(jié)因子,本文取0.5。
為了增加用于隨機森林分類器的特征數(shù)量,哨兵2號的光譜波段、由SRTM30m數(shù)據(jù)提取的高程和坡向特征也被用于構(gòu)建特征空間。SAR是一種主動微波遙感技術(shù),在SAR影像上,建筑等人工地物通常有比其他地物更強的后向散射回波信號,利用這一特征可以將人工目標(biāo)和自然目標(biāo)進行區(qū)分[18]。綜上所述,選取了光譜特征、遙感指數(shù)特征、地形特征和雷達特征共18個特征構(gòu)建特征集(表2)。為了研究哨兵1號VV和VH極化特征對不透水面提取精度的影響,本文設(shè)計了兩個方案,方案1為光譜特征、遙感指數(shù)特征和地形特征,方案2為全特征參與分類。
表2 特征集說明
特征集構(gòu)建好后在GEE云平臺上部署隨機森林分類算法分別對兩個方案進行訓(xùn)練和預(yù)測。隨機森林是一種由決策樹集合組成的非參數(shù)機器學(xué)習(xí)方法,隨機森林算法創(chuàng)建多個決策樹,根據(jù)特征變量對訓(xùn)練數(shù)據(jù)的隨機子集進行分類[19]。隨機森林算法已被廣泛應(yīng)用于對遙感影像進行分類,如森林覆蓋制圖、濕地制圖、農(nóng)作物制圖和土地覆蓋制圖等[20-22]。本文在隨機森林分類器中使用了100棵決策樹,最終分類結(jié)果基于樹的多數(shù)投票。通過訓(xùn)練樣本和驗證樣本對2020年4月的山東省不透水面進行提取和精度驗證,所有分析均在GEE云平臺上進行。
為了評估隨機森林分類的準(zhǔn)確性,將最終結(jié)果分為不透水面和透水面兩類,通過從混淆矩陣中提取的生產(chǎn)者精度(PA)、用戶精度(UA)、總體精度(OA)和Kappa系數(shù)進行精度評估。2個分類方案的精度如表3所示,使用光學(xué)特征和雷達特征的方案2總體精度為92.17%,Kappa系數(shù)為0.79,均高于僅使用光學(xué)特征的方案1。哨兵1號雙極化特征的加入,使不透水面的生產(chǎn)者精度和用戶精度分別提高了4.21%和3.48%,總體精度和Kappa系數(shù)分別提高了1.89%和0.05。
表3 兩種方案的分類精度
不透水面提取結(jié)果顯示,沒有雷達特征參與提取的不透水面像元數(shù)多于雷達特征參與提取的結(jié)果(圖2)。通過分析提取結(jié)果發(fā)現(xiàn)主要原因有2個:① 無雷達特征參與的方案1存在不透水面和其他地類的混淆現(xiàn)象,不透水面被高估;② 加入雷達特征的方案2對于道路等線狀不透水面類型的提取效果不佳,導(dǎo)致部分線狀不透水面的低估。
圖2 兩種方案提取結(jié)果
圖3選取了3個不同的區(qū)域進行分析,分別為青島市、濟南市和德州市的局部區(qū)域,對應(yīng)了不同密度的不透水面以及道路分布情況。從局部對比圖可知,雷達特征的使用使不透水面的邊界更為清晰,不透水面內(nèi)部的小空洞明顯減少,提取結(jié)果更為完整。此外還減少了農(nóng)田和裸土的誤提取,對于大片建設(shè)用地范圍內(nèi)的裸土和林地等其他類型也有較好的區(qū)分效果,如圖3中(a)標(biāo)識的農(nóng)田和(b)標(biāo)識的裸土被方案1錯提為不透水面。另一方面,加入雷達特征后對于線狀不透水面如高速公路、機場跑道等提取效果不佳,相比僅使用光學(xué)特征進行提取的結(jié)果邊界不夠清晰,道路提取不全,如圖3德州市局部所示。由于SAR影像對地物的材質(zhì)、表面粗糙度等介電性質(zhì)比較敏感[23],房屋建筑地類在SAR影像上會產(chǎn)生很強的后向散射回波,而對于道路、水體這類表面光滑的地物表現(xiàn)為低反射,因而增加了道路和水體之間的混淆情況,導(dǎo)致道路的提取效果不佳。
圖3 兩種方案局部對比
為了進一步分析參與分類的各個特征對分類精度的影響,本文分析了由隨機森林算法計算得出的特征重要性(圖4)。隨機森林算法最廣泛使用的特征重要性度量之一是平均減少雜質(zhì)(MDI,或稱基尼重要性),MDI計算給定特征的所有拆分所貢獻的損失或雜質(zhì)的總減少量[24]。為方便對比,對每個特征計算得出的MDI進行標(biāo)準(zhǔn)化處理,以使所有特征的重要性總和為1。雷達特征在所有參與分類的8個特征中具有最高的重要性,其中VH極化后向散射系數(shù)占比約6.97%,VV極化后向散射系數(shù)占比約5.84%,其次為高程特征,占比約6.04%。
圖4 所有特征的重要性占比
本文利用GEE云平臺和隨機森林算法對山東省不透水面進行了提取,通過設(shè)計方案研究哨兵1號SAR特征對不透水面提取的影響,通過對提取結(jié)果進行對比分析得出以下結(jié)論:
(1)雷達和光學(xué)數(shù)據(jù)結(jié)合提取不透水面總體精度為92.17%。Kappa系數(shù)為0.79,均高于僅使用光學(xué)數(shù)據(jù)。
(2)雷達特征的重要性優(yōu)于光學(xué)特征,光學(xué)與雷達數(shù)據(jù)結(jié)合使不透水面邊界更清晰完整,顯著減少了對裸土等其他地類的錯提。
(3)雷達特征對于面狀不透水面的提取效果優(yōu)于線狀不透水面,實際使用中應(yīng)針對不同的應(yīng)用場景選擇合適的特征。