方夢陽, 劉曉煌, 孔凡全, 李明哲, 裴小龍
(1.中國地質(zhì)調(diào)查局海口海洋地質(zhì)調(diào)查中心,???570000; 2.中國地質(zhì)調(diào)查局自然資源綜合調(diào)查指揮中心,北京 100096; 3.中國地質(zhì)調(diào)查局廊坊自然資源綜合調(diào)查中心,廊坊 065000)
大尺度、長時(shí)序、高頻次、高精度的土地覆蓋數(shù)據(jù)對研究長期土地利用時(shí)空變化具有重要的意義。目前,國內(nèi)外廣泛使用的大尺度土地覆蓋數(shù)據(jù)多存在頻次和精度不能兼顧的問題。國外常用的全球土地覆蓋數(shù)據(jù)產(chǎn)品主要有美國波士頓大學(xué)生產(chǎn)的全球土地覆蓋數(shù)據(jù)產(chǎn)品(MCD12Q1數(shù)據(jù)集)[1]和歐洲空間局通過氣候變化倡議生產(chǎn)的全球土地覆蓋數(shù)據(jù)產(chǎn)品(ESA-CCI數(shù)據(jù)集)[2]。其中MCD12Q1數(shù)據(jù)集現(xiàn)有2001—2019年逐年500 m空間分辨率全球土地覆蓋數(shù)據(jù),總體精度為74.8%[3]; ESA-CCI數(shù)據(jù)集時(shí)間范圍更廣,現(xiàn)有1992—2019年逐年300 m空間分辨率全球土地覆蓋數(shù)據(jù),總體精度為74.4%[4]。國內(nèi)全國土地覆蓋數(shù)據(jù)產(chǎn)品主要有自然資源部發(fā)布的30 m全球地表覆蓋數(shù)據(jù)產(chǎn)品(GlobeLand30數(shù)據(jù)集)[5]和中科院資源環(huán)境科學(xué)數(shù)據(jù)中心提供的中國多時(shí)期土地利用土地覆被遙感監(jiān)測數(shù)據(jù)集(CNLUCC數(shù)據(jù)集)[6]。GlobeLand30數(shù)據(jù)集有2000年、2010年、2020年3期數(shù)據(jù),CNLUCC數(shù)據(jù)集則有1980年、1990年、1995年、2000年、2005年、2010年、2015年、2018年8期數(shù)據(jù),二者空間分辨率均為30 m。
總的來看,國內(nèi)外廣泛使用的逐年土地覆蓋數(shù)據(jù)多為每5 a更新一次[7],常見數(shù)據(jù)多為2000年、2005年、2010年、2015年、2020年數(shù)據(jù),缺少中間年份數(shù)據(jù)。在土地覆蓋長期監(jiān)測中,5 a一次的數(shù)據(jù)頻次明顯無法滿足監(jiān)測需求,亟須開展逐年土地覆蓋數(shù)據(jù)產(chǎn)品研究。
黃河是中華民族的重要發(fā)祥地,研究黃河流域多年土地利用情況,對科學(xué)推動(dòng)黃河流域高質(zhì)量發(fā)展有著重要的意義。Google Earth Engine(GEE)平臺(tái)是目前世界上先進(jìn)的PB級地理數(shù)據(jù)科學(xué)分析及可視化平臺(tái)[8],與傳統(tǒng)遙感數(shù)據(jù)獲取方式和數(shù)據(jù)處理軟件相比,具有長時(shí)間存檔數(shù)據(jù)、運(yùn)行穩(wěn)定、計(jì)算效率高、上手難度低、使用成本低等優(yōu)點(diǎn)[9-10]。本文以黃河流域地表覆蓋為例,通過GEE平臺(tái)快速完成2000—2020年間20 a逐年高精度黃河流域地表覆蓋提取工作,解決了現(xiàn)有土地覆蓋數(shù)據(jù)頻次與精度無法兼顧的問題,以此為大尺度、長時(shí)序、高頻次、高精度土地覆蓋數(shù)據(jù)制作提供一套基于GEE云平臺(tái)的高效技術(shù)路線。
黃河流域(圖1)從西到東橫跨青藏高原、內(nèi)蒙古高原、黃土高原和黃淮海平原4個(gè)地貌單元。
圖1 黃河流域位置
整個(gè)流域地勢為西高東低,西部河源地區(qū)平均海拔在4 000 m以上,由一系列高山組成,常年積雪,冰川地貌發(fā)育; 中部地區(qū)海拔在1 000~2 000 m之間,為黃土地貌,水土流失嚴(yán)重; 東部主要由黃河沖積平原組成。黃河流域主要屬于南溫帶、中溫帶和高原氣候區(qū)[11-12]。
本文收集并使用了不同的數(shù)據(jù)集。土地覆蓋數(shù)據(jù)集為自然資源部發(fā)布的30 m空間分辨率的GlobeLand30數(shù)據(jù)集。遙感影像數(shù)據(jù)為2000—2020年間Landsat5/7/8影像,GEE平臺(tái)自帶該影像數(shù)據(jù)集。此外,來源于SRTM3的30 m空間分辨率數(shù)字高程模型(digital elevation model,DEM)數(shù)據(jù)和來源于DMSP-OLS與NPP-VIIRS的2000—2020年逐年燈光數(shù)據(jù)作為輔助數(shù)據(jù)以提高土地覆蓋中植被和建設(shè)用地等地類的分類精度。
本文主要研究方法分為4步,技術(shù)流程見圖2。
圖2 技術(shù)流程
1)樣本選取。利用2000年、2010年及2020年土地覆蓋數(shù)據(jù),根據(jù)“一致性”和“穩(wěn)定性”原則,選取分類樣本點(diǎn),并將樣本點(diǎn)劃分為訓(xùn)練樣本和測試樣本。
2)數(shù)據(jù)處理?;贕EE平臺(tái),采用多年影像合成和云掩模的方法,獲取黃河流域2000—2020年逐年無云的大氣頂反射(top of atmosphere reflectance,TOA)影像。
3)監(jiān)督分類。利用隨機(jī)森林分類方法,對黃河流域2000—2020年逐年Landsat影像進(jìn)行分類,并利用驗(yàn)證樣本點(diǎn)對分類結(jié)果進(jìn)行檢查。
4)結(jié)果對比。選取2010年黃河流域土地覆蓋數(shù)據(jù)結(jié)果,對比GlobeLand30數(shù)據(jù)集、MCD12Q1數(shù)據(jù)集和ESA-CCI數(shù)據(jù)集同一時(shí)期數(shù)據(jù),檢驗(yàn)基于GEE平臺(tái)黃河流域土地覆蓋數(shù)據(jù)產(chǎn)品精度。
本文參考CNLUCC分類系統(tǒng),根據(jù)黃河流域?qū)嶋H土地覆蓋情況,結(jié)合以往土地覆蓋方面研究成果,確定本文中黃河流域土地覆蓋分類體系,包括以下6個(gè)類別: 林地、草地、耕地、水體、建設(shè)用地、未利用地。為便于后續(xù)對比分析,本研究將GlobeLand30數(shù)據(jù)集分類系統(tǒng)、MCD12Q1數(shù)據(jù)集采用的IGBP分類系統(tǒng)和ESA-CCI數(shù)據(jù)集采用的LCCS分類系統(tǒng)對應(yīng)至CNLUCC分類系統(tǒng)[13],對應(yīng)關(guān)系見表1。
表1 4類分類體系對應(yīng)表
樣本點(diǎn)選取是影響分類結(jié)果的重要因素。傳統(tǒng)分類方法多為人工選取樣本點(diǎn)[14],該方法針對面積較小的研究區(qū)效果較好,但對于大范圍研究區(qū),人工選取樣本點(diǎn)工作量極大。本文通過對比2000年、2010年及2020年3個(gè)時(shí)間基點(diǎn)的土地覆蓋數(shù)據(jù),選擇多年穩(wěn)定不變區(qū)域作為樣本區(qū),選擇樣本區(qū)幾何中心作為該區(qū)域樣本點(diǎn)位置,樣本類型即為該區(qū)域土地覆蓋類型。一般來講,某一區(qū)域多期次土地覆蓋類型沒有變化,即可認(rèn)為該區(qū)域整個(gè)時(shí)段土地覆蓋類型保持穩(wěn)定,而區(qū)域土地覆蓋類型變化多由邊緣至中心改變,該區(qū)域幾何中心位置變化概率最小。
通過上述方法選取10 000個(gè)樣本點(diǎn),樣本點(diǎn)分布情況見圖3。參考Google Earth Pro軟件中的歷史影像數(shù)據(jù)對所選樣本點(diǎn)進(jìn)行隨機(jī)驗(yàn)證,隨機(jī)抽取1 000個(gè)樣本點(diǎn)對照Google Earth歷史影像數(shù)據(jù)。結(jié)果表明,樣本選擇精度高于94.7%,選擇多年穩(wěn)定不變區(qū)域幾何中心作為該地類樣本點(diǎn)具有可行性。
圖3 樣本點(diǎn)分布
樣本點(diǎn)按照分類體系進(jìn)行標(biāo)注,然后導(dǎo)入GEE平臺(tái)中,以備后續(xù)分類模型使用。隨機(jī)選擇70%的樣本點(diǎn)作為模型訓(xùn)練數(shù)據(jù),余下30%的樣本點(diǎn)作為模型測試數(shù)據(jù)。
本文基于GEE平臺(tái),選取了近20 a逐年Landsat影像數(shù)據(jù)(30 m空間分辨率)進(jìn)行土地覆蓋提取,其中2000—2011年選取Landsat5 TM影像,2012—2013年選取Landsat7 ETM+影像,2014—2020年選取Landsat8 OLI影像。由于研究區(qū)跨南溫帶、中溫帶和高原氣候區(qū)3個(gè)氣候帶,植被覆蓋隨氣候有較大變化,同時(shí)高原氣候區(qū)遙感影像受云影響較大。為保證土地覆蓋提取結(jié)果穩(wěn)定性,通過GEE平臺(tái)的在線編程,篩選成像時(shí)間為當(dāng)年5—10月的無云影像,以保證合成研究區(qū)最小云量影像,平均每年數(shù)據(jù)量為53景。利用GEE平臺(tái)提供的SimpleComposite算法模塊對每年的原始Landsat系列衛(wèi)星影像進(jìn)行大氣校正、輻射定標(biāo)、影像去云處理等操作,合成年際最小云量TOA影像。
本文監(jiān)督分類方法選用隨機(jī)森林分類算法。近年來,隨機(jī)森林算法已經(jīng)應(yīng)用到滑坡制圖、城市樹林制圖和地表覆蓋分類等領(lǐng)域。研究證明,該方法比傳統(tǒng)方法運(yùn)行更準(zhǔn)確、速度更快,得到了研究者的廣泛關(guān)注[15-16]。
選用多種類型的特征數(shù)據(jù)有利于提高監(jiān)督分類精度。本文選取多光譜波段,光譜特征指數(shù): 包括歸一化植被指數(shù)(normalized difference vegetation index,NDVI)、歸一化水體指數(shù)(normalized difference water index,NDWI)、歸一化建筑指數(shù)(normalized difference built-up index,NDBI)、地形特征(高度和坡度)和燈光特征作為隨機(jī)森林算法的輸入變量。根據(jù)測試數(shù)據(jù)對分類結(jié)果進(jìn)行精度評價(jià),主要精度評價(jià)指標(biāo)包括用戶精度、制圖精度、總體精度及Kappa系數(shù)。
分類結(jié)果精度評價(jià)指標(biāo)情況見表2。結(jié)果表明,基于GEE平臺(tái)的黃河流域2000—2020年逐年土地覆蓋數(shù)據(jù)各地類用戶精度及制圖精度均超過0.76,總體精度為0.82±0.03,平均Kappa系數(shù)為0.82,總體精度優(yōu)于MCD12Q1數(shù)據(jù)集(74.8%)及ESA-CCI數(shù)據(jù)集(74.4%),略低于GlobeLand30數(shù)據(jù)集(83.50%)。樣本點(diǎn)與分類結(jié)果之間達(dá)到高度的一致性,同時(shí)多年數(shù)據(jù)的總體精度比較平穩(wěn),沒有太大的起伏差異,這表明本研究在數(shù)據(jù)選擇、特征選擇及分類算法選擇上可靠、穩(wěn)定。
表2 基于GEE平臺(tái)黃河流域逐年(2000—2020年)土地覆蓋數(shù)據(jù)分類精度
本文選取2010年作為時(shí)間基點(diǎn),分別從整體和細(xì)節(jié)對比GlobeLand30數(shù)據(jù)集、基于GEE平臺(tái)的土地覆蓋數(shù)據(jù)、MCD12Q1數(shù)據(jù)集和ESA-CCI數(shù)據(jù)集同一時(shí)期數(shù)據(jù),驗(yàn)證基于GEE平臺(tái)土地覆蓋數(shù)據(jù)產(chǎn)品的適用性(圖4)。圖4(a)為本文方法基于GEE平臺(tái)的黃河流域2010年土地覆蓋數(shù)據(jù)產(chǎn)品。整體來看,黃河流域林地主要分布于太行山與秦嶺一帶,甘肅隴南地區(qū)也有大片林地分布; 草地主要分布于黃土高原中北部; 耕地主要分布于渭河盆地及華北平原地區(qū),黃河上游銀川—呼和浩特地區(qū)也有大片耕地分布; 黃河流域較大規(guī)模水體主要分布于黃河上游源頭地區(qū); 建設(shè)用地主要為黃河流域內(nèi)城市市域; 未利用地主要分布于黃河上游下段內(nèi)蒙古高原地區(qū)。
(a) 本文方法數(shù)據(jù)產(chǎn)品(b) GlobeLand30數(shù)據(jù)產(chǎn)品
圖4-1 黃河流域2010年土地覆蓋分類圖
(c) MCD12Q1數(shù)據(jù)產(chǎn)品(d) ESA-CCI數(shù)據(jù)產(chǎn)品
圖4-2 黃河流域2010年土地覆蓋分類圖
對比4類產(chǎn)品可發(fā)現(xiàn),各類型土地整體空間分布上保持著較高的一致性。4類數(shù)據(jù)產(chǎn)品各土地類型面積占比情況見表3,結(jié)果顯示,4類數(shù)據(jù)產(chǎn)品各地類總體占比趨勢一致,主要土地類型均為草地與耕地,占比60%以上。四者出入較大的地類主要為草地與未利用地,本文選取的影像時(shí)間為當(dāng)年5—10月,因此草地占比稍高,未利用地占比較低。整體來看,基于GEE平臺(tái)的黃河流域2010年土地覆蓋數(shù)據(jù)分類結(jié)果合理可靠。
表3 4類數(shù)據(jù)產(chǎn)品各地類面積占比情況
為檢驗(yàn)本文方法土地覆蓋數(shù)據(jù)分類細(xì)節(jié)精度,本研究選取各地類典型區(qū)域作為對比區(qū)域,對比4類數(shù)據(jù)產(chǎn)品與Google Earth歷史影像,對比結(jié)果見表4。
表4 4類數(shù)據(jù)產(chǎn)品逐地類對比
結(jié)果表明,本文方法基于GEE平臺(tái)的分類結(jié)果,在水體、林地、耕地、建設(shè)用地4種分類結(jié)果上,均優(yōu)于MCD12Q1數(shù)據(jù)集和ESA-CCI數(shù)據(jù)集,接近GlobeLand30數(shù)據(jù)集,具體表現(xiàn)在輪廓更為清晰,細(xì)節(jié)更為豐富。草地與未利用地分類結(jié)果上與MCD12Q1數(shù)據(jù)集分類結(jié)果相似,優(yōu)于ESA-CCI數(shù)據(jù)集,略遜于GlobeLand30數(shù)據(jù)集。
1)本文基于GEE平臺(tái)制作的黃河流域土地覆蓋數(shù)據(jù),為GEE平臺(tái)直接計(jì)算導(dǎo)出所得結(jié)果,未進(jìn)行細(xì)碎圖斑合并、人工整飾等后續(xù)操作,導(dǎo)致部分區(qū)域夾雜較多細(xì)碎圖斑,影響了數(shù)據(jù)準(zhǔn)確性。
2)本文參照CNLUCC分類標(biāo)準(zhǔn)體系,將黃河流域土地覆蓋分為6類,對比GlobeLand30數(shù)據(jù)集分為10類、MCD12Q1數(shù)據(jù)集(IGBP分類系統(tǒng))分為17類及ESA-CCI數(shù)據(jù)集(LCCS分類系統(tǒng))分為22類,在分類標(biāo)準(zhǔn)體系的精細(xì)程度上較國內(nèi)外知名數(shù)據(jù)集仍有差距。
1)本文根據(jù)一致性和穩(wěn)定性原則,提出將多年穩(wěn)定不變區(qū)域作為樣本區(qū),選擇樣本區(qū)幾何中心作為該區(qū)域樣本點(diǎn)位置的樣本點(diǎn)選擇方法,在保證精度的同時(shí)大幅提高了監(jiān)督分類過程中樣本點(diǎn)選擇的效率。
2)本文基于GEE平臺(tái)制作的黃河流域土地覆蓋數(shù)據(jù),總體精度為0.82±0.03,平均Kappa系數(shù)為0.82,分類精度、整體及局部分類結(jié)果均優(yōu)于MCD12Q1數(shù)據(jù)集和ESA-CCI數(shù)據(jù)集。在分類級別要求較低的情況下,可以替代MCD12Q1數(shù)據(jù)集及ESA-CCI數(shù)據(jù)集使用。
3)本文為大尺度、長時(shí)序、高精度逐年土地覆蓋數(shù)據(jù)制作提供一套基于GEE云平臺(tái)的高效技術(shù)路線,在一定程度上解決了大尺度土地覆蓋數(shù)據(jù)頻次與精度無法兼顧的問題。