李 霞,劉興明,孫 斌,姜佳昌,俞慧云,吳丹丹,杜笑村,王紅霞,賈晶晶,楊紅梅
(甘肅省草原技術(shù)推廣總站, 甘肅 蘭州 730010)
草原植被長勢監(jiān)測是草原管理的基礎(chǔ)性工作,是構(gòu)建新時(shí)期草原監(jiān)測評價(jià)體系,踐行“山水林田湖草”一個(gè)生命共同體理念的具體體現(xiàn),草原地上生物量是草原資源合理利用和載畜平衡監(jiān)測的重要依據(jù),也是草原退化、草原生態(tài)系統(tǒng)健康評價(jià)、生態(tài)系統(tǒng)服務(wù)功能評價(jià)和碳匯研究的關(guān)鍵指標(biāo)[1-3]。野外實(shí)測數(shù)據(jù)與遙感數(shù)據(jù)相結(jié)合是大范圍草原生物量估算的常規(guī)方法[4-5],基于地面實(shí)測的草原地上生物量數(shù)據(jù),選取單個(gè)遙感因子(如植被指數(shù))與草原地上生物量建立回歸模型,反演研究區(qū)的草原地上生物量。這類方法估算模型形式簡單,參數(shù)也易于獲取,但只有遴選出最優(yōu)植被指數(shù),建立高精度反演模型,才能進(jìn)行較為準(zhǔn)確地估測[3,6-7]。當(dāng)區(qū)域或樣本發(fā)生變化時(shí),就需要重新遴選最優(yōu)參數(shù)與最優(yōu)統(tǒng)計(jì)模型,模型的外推性與擴(kuò)展性較差[8-10]。
近年來機(jī)器學(xué)習(xí)模型在生態(tài)等多個(gè)領(lǐng)域得到廣泛應(yīng)用,其自動(dòng)檢索和解釋數(shù)據(jù)的方法,靈活性高,可滿足各種訓(xùn)練要求,在估算草原地上生物量方面也有一定的應(yīng)用,已有研究基于機(jī)器學(xué)習(xí)模型分別對三江源地區(qū)、青藏高原、內(nèi)蒙古錫林郭勒盟和黃土高原草原地上生物量進(jìn)行了估算,結(jié)果表明機(jī)器學(xué)習(xí)模型在草原地上生物量估算方面表現(xiàn)良好[10-15]。
在此背景下,充分利用衛(wèi)星遙感數(shù)據(jù)與氣象數(shù)據(jù),構(gòu)建高精度的草原地上生物量模型,創(chuàng)新草原監(jiān)測的方式方法已成為草原監(jiān)測工作的必然趨勢[16]。本研究基于甘肅省2005-2018 年草原地上生物量實(shí)測數(shù)據(jù)以及MODIS 數(shù)據(jù)和氣象數(shù)據(jù)等變量,探索適宜于甘肅省草原地上生物量高精度反演的機(jī)器學(xué)習(xí)算法模型,對實(shí)現(xiàn)甘肅省草原地上生物量的高精度監(jiān)測具有重要的意義。
甘肅省(92°13′~108°46′ E,32°11′~42°57′ N)擁有豐富的草原資源,草原面積1 430.71 萬hm2(第三次全國土地調(diào)查),是耕地面積的2.75 倍,是林地面積的1.80 倍。草原作為甘肅省乃至西北地區(qū)重要的生態(tài)屏障,具有涵養(yǎng)水源、防風(fēng)固沙、綠化環(huán)境等一系列重要作用。
1.2.1 草原生物量地面調(diào)查
2005 年以來甘肅省草原技術(shù)推廣總站組織在各縣(市)連續(xù)開展了天然草原野外調(diào)查工作,具體監(jiān)測方案如下:
地面樣地布設(shè)以草原類型為基礎(chǔ),根據(jù)不同草原類型面積大小,選擇樣地,樣地面積大于0.5 hm2,樣地內(nèi)布設(shè)3~9 個(gè)樣方,樣方間距離不小于250 m,草原樣方大小為1 m2,灌木及高大草本類植物草原樣方大小為100 m2。調(diào)查7 月中旬至8 月上旬植物生長旺季的產(chǎn)草量、蓋度、頻度、高度。
2005-2018 年共調(diào)查樣方12 141 個(gè),樣地2 636個(gè),樣地空間分布圖如圖1 所示。刪除不完整或經(jīng)緯度有誤的記錄,最終保留樣本11 408 個(gè)。
1.2.2 遙感數(shù)據(jù)獲取及處理
覆蓋甘肅省的MODIS 遙感數(shù)據(jù)為美國國家宇航局(NASA) 的MODIS MOD13Q1 產(chǎn)品集,依據(jù)野外采樣調(diào)查的時(shí)間,下載2005-2018 年影像,提取與地面采樣時(shí)間相應(yīng)的MODIS 各項(xiàng)數(shù)據(jù)。
用于建模的參數(shù)包括Red、NIR、Blue、MIR 波段反射率,以及基于已有研究成果利用該產(chǎn)品中的波段反射率(Red、NIR)數(shù)據(jù)構(gòu)建的4 種與草原生物量密切相關(guān)的植被指數(shù)(表1)。
表1 MODIS 植被指數(shù)計(jì)算公式Table 1 Vegetation indices used in this study
1.2.3 氣象數(shù)據(jù)處理
氣象數(shù)據(jù)采用國家地球系統(tǒng)科學(xué)數(shù)據(jù)中心2000-2018 年逐月氣象插值數(shù)據(jù)集,包括空間分辨率為0.008 333 3° (約1 km)的12 個(gè)月逐月平均氣溫(℃)、最低氣溫 (℃)、最高氣溫(℃)和降水量 (mm)數(shù)據(jù)[21]。
基于甘肅省2005-2018 年實(shí)測草原地上生物量數(shù)據(jù)以及相應(yīng)時(shí)間的Red、NIR、Blue、MIR 波段反射率以及NDVI、EVI、SAVI、MSAVI、OSAVI、RVI 植被指數(shù),各月平均氣溫、各月最低氣溫、各月最高氣溫、年均溫度、年均最高溫度、年均最低溫度和各月累計(jì)降水量、年降水量63 個(gè)變量,借助R 軟件及caret 包構(gòu)建了貝葉斯規(guī)整神經(jīng)網(wǎng)絡(luò)(Bayesian regularized neural networks, brnn)、徑向基函數(shù)核支持向量機(jī) (support vector machines with radial basis function kernel,svmRadialSigma)、極端的梯度增加(extreme gradient boosting,xgbDART)、分位數(shù)隨機(jī)森林(quantile random forest,qrf)、RRF 規(guī)整隨機(jī)森林(regularized random forest,RRFglobal)、基于random Forest 和RRF 的規(guī)整隨機(jī)森林(regularized random forest,RRF)、ranger 隨機(jī)森林(random forest,ranger)、Rborist 隨機(jī)森林(random forest,Rborist)、randomForest隨機(jī)森林(random forest,rf)、并行運(yùn)算隨機(jī)森林(parallel random forest,parRF)、k 最近鄰算法(k-Nearest neighbors,kknn) 的甘肅省草原地上生物量反演模型,各個(gè)方法實(shí)現(xiàn)過程見caret 包的說明文檔(https://topepo.github.io/caret/index.html)。
本研究使用R 包中前向特征選擇方法(the forward feature selection,ffs)對63 個(gè)變量進(jìn)行篩選,該方法是依次在當(dāng)前集合中加入一個(gè)集合中沒有的屬性,然后用交叉驗(yàn)證等方法對新的集合進(jìn)行評估,找出評估結(jié)果最佳的屬性加入當(dāng)前集合。不斷重復(fù)上面的步驟,直到加入任何新的屬性都不能提高評估結(jié)果算法即停止,最終得到最優(yōu)特征變量組合。此算法可能找到局部最優(yōu)的屬性集,但不一定是全局最優(yōu)。
采用10 折交叉驗(yàn)證的方法對模型精度進(jìn)行評估。選擇平均誤差(mean absolute error,MAE)、模型的決定系數(shù)(determination coefficient,R2)和均方根誤差(root mean square error,RMSE) 3 個(gè)評價(jià)指標(biāo),每次使用90%的數(shù)據(jù)進(jìn)行建模,剩余10%的數(shù)據(jù)進(jìn)行驗(yàn)證,重復(fù)10 次,將10 次驗(yàn)證結(jié)果的均值作為最終驗(yàn)證結(jié)果。
利用最優(yōu)模型反演得到甘肅省2000-2018 年逐年草原地上生物量數(shù)據(jù)集,采用Theil-Sen median趨勢分析、Mann-Kendall 非參數(shù)檢驗(yàn)法研究甘肅省草原生物量時(shí)間變化趨勢和特征[22]。
3.1.1 模型評價(jià)及初選
圖2 基于機(jī)器學(xué)習(xí)和全變量的甘肅省草原地上生物量反演模型精度對比Figure 2 Accuracy comparisons for aboveground biomass inversion models based on machine learning using all variables in Gansu Province
3.1.2 篩選最優(yōu)建模變量
基于機(jī)器學(xué)習(xí)的全變量模型雖然能夠較好地反映甘肅省天然草原地上生物量變化情況,但首先基于全變量的模型數(shù)據(jù)量太大不便于應(yīng)用,其次雖然保留所有的變量能保證預(yù)測模型一定的魯棒性,但變量冗余會(huì)降低模型的運(yùn)行速度和預(yù)測精度,因此有必要對變量進(jìn)行篩選[23]。本研究采用基于前向特征選擇算法(ffs)對變量進(jìn)行篩選。通過該方法的分析,當(dāng)在63 個(gè)變量中選取17 個(gè)變量時(shí),模型的決定系數(shù)可達(dá)到0.757 以上,并且繼續(xù)增加變量,擬合結(jié)果的決定系數(shù)不再增加,因此選取了17 個(gè)變量作為最終篩選出的變量(圖3)。
圖3 基于 ffs 篩選后的模型精度Figure 3 Model accuracy based on forward feature selection
最終篩選出的17 個(gè)變量:近紅外(NIR),短波紅外(MIR),1 月、2 月、3 月、5 月、7 月、8 月、10 月、11 月及全年降水量、1 月和11 月最高溫、1 月和2 月最低溫、4 月和5 月均溫。
3.1.3 最優(yōu)模型選取
基于上述17 個(gè)變量構(gòu)建的變量集,重新擬合的11 個(gè)機(jī)器學(xué)習(xí)模型整體精度較全變量模型均有不同程度的提高,由此可見,變量篩選可以有效地降低冗余變量對模型精度的影響,提高模型模擬精度。在11 種機(jī)器學(xué)習(xí)模型中,隨機(jī)森林類機(jī)器學(xué)習(xí)模型的精度依舊較高(表2),其中Rborist 模型的R2最高,為0.758,RMSE 最低,為541.90 kg·hm-2。其次是RRF、ranger、RRFglobal、RF、parRF、qrf、kknn,決定系數(shù)均在0.72 以上,其余3 種方法精度較低。因此最終選取隨機(jī)森林Rborist 模型作為甘肅省草原地上生物量最優(yōu)模型。
表2 篩選變量前后的模型反演情況Table 2 Model accuracies using all variables and after variable screening
對比精度最高的前8 種模型可以看出,各模型模擬結(jié)果與實(shí)測值一致性較高(圖4),7 種隨機(jī)森林類模型模擬值與實(shí)測值絕大多數(shù)點(diǎn)分布在1 ? 1 線附近。同時(shí),實(shí)測值的絕大多數(shù)點(diǎn)分布在0~3 000 kg·hm-2。對生物量低值區(qū)的模擬效果要好于高值區(qū)。
3.2.1 甘肅省草原地上生物量空間分布
基于最優(yōu)機(jī)器學(xué)習(xí)模型(Rborist) 和篩選出的17 個(gè)變量,通過反演得到甘肅省2000-2018 年逐年草原地上生物量數(shù)據(jù)集。甘肅省草原地上生物量均值介于828.21~1 118.71 kg·hm-2(圖5)。就空間分布而言,甘肅省草原地上生物量表現(xiàn)出明顯的地域差異,將甘肅省從西到東劃分為河西地區(qū)(包括酒泉市、嘉峪關(guān)市、張掖市、金昌市和武威市)、隴中地區(qū)(包括白銀市、定西市、蘭州市、臨夏回族自治州和定西市)、甘南藏族自治州、隴南地區(qū)(包括平?jīng)鍪?、隴南市和天水市)以及慶陽市,高值區(qū)主要分布在甘南州、隴南地區(qū)和慶陽市以及祁連山一帶。低值區(qū)主要分布在河西地區(qū)。就不同地區(qū)而言,隴南和甘南地區(qū)草原地上生物量最高,其次是慶陽市,河西地區(qū)草原地上生物量最低。
圖5 2000-2018 年甘肅省草原地上生物量均值分布圖Figure 5 Distribution of mean aboveground biomass of grassland in Gansu Province from 2000 to 2018
3.2.2 甘肅省草原地上生物量年際變化分析
將試樣加工成如圖1所示的薄片,再用水砂紙將其打磨至20#,并經(jīng)過超聲波清洗、用乙醇和蒸餾水清洗吹干,從而保證試樣表面有統(tǒng)一的粗糙度與整潔度。實(shí)驗(yàn)前先稱取重量,再將試樣兩端通過夾持裝置固定在試驗(yàn)系統(tǒng)中,進(jìn)行一定溫度和硫酸濃度下的浸泡實(shí)驗(yàn)。每組試樣腐蝕12h后清洗稱重,切片封存,以便進(jìn)行進(jìn)一步的SEM和EDS檢測。
2000-2018 年,甘肅省各地區(qū)草原地上生物量近20 年來整體呈逐年增加趨勢,年均增加幅度約為8.13 kg·hm-2(圖6)。由此可見,2005 年以來甘肅省天然草原長勢整體呈現(xiàn)向好的趨勢。其中隴南和隴東地區(qū)增加速率最高,年際增幅為41.11 和36.20 kg·hm-2,其次是甘南地區(qū)19.54 kg·hm-2,河西地區(qū)年際增幅最低,僅為0.72 kg·hm-2。就各市(州)而言,2000-2018 年草原地上生物量呈減少趨勢的是白銀市、嘉峪關(guān)市、酒泉市和武威市,其余各市(州) 草原地上生物量均呈增加趨勢,隴南和天水市年際增幅最高。
圖6 2000-2018 年甘肅省不同地區(qū)草原地上生物量年際變化Figure 6 Interannual changes in aboveground biomass in different regions of Gansu Province from 2000 to 2018
就不同草原類型而言,19 年間低地草甸、溫性荒漠草原、高寒草甸草原、溫性草原化荒漠和溫性荒漠的地上生物量呈減少趨勢,其余草原類型的地上生物量均呈增加趨勢(圖7),其中暖性草叢、暖性灌草叢和溫性草甸草原的地上生物量增加幅度最高。
圖7 甘肅省不同草原類型2010-2018 年地上生物量統(tǒng)計(jì)Figure 7 Aboveground biomass statistics of different grassland types in Gansu Province from 2010 to 2018
3.2.3 甘肅省草原地上生物量年際變化特征分析
基于Theil-Sen median 趨勢分析和Mann-Kendall檢驗(yàn)的2000-2018 年甘肅省草原地上生物量的時(shí)空變化趨勢分析結(jié)果表明(圖8),甘肅省47.41%的草原呈恢復(fù)趨勢,26.00%的草原保持穩(wěn)定,而26.59%的草原呈不同程度的惡化趨勢,草原恢復(fù)區(qū)域主要分布在甘南、隴東和隴南地區(qū),惡化區(qū)域主要分布在河西地區(qū)的北部和東部區(qū)域。
圖8 2000-2018 年甘肅省草原地上生物量變化特征Figure 8 Characteristics of aboveground biomass change in Gansu Province from 2000 to 2018
就草原類型而言,溫性荒漠類、高寒草甸草原類、溫性草原化荒漠類、溫性荒漠草原類呈惡化趨勢的比例較高,其中溫性荒漠類輕微惡化44.55%、明顯惡化7.22%;高寒草甸草原類輕微惡化94.51%、明顯惡化4.15%;溫性草原化荒漠類輕微惡化56.58%、明顯惡化2.28%;溫性荒漠草原類輕微惡化35.82%、明顯惡化5.46%。而沼澤類、暖性草叢類、暖性灌草叢類、溫性草甸草原類呈恢復(fù)趨勢的比例較高,其中沼澤類輕微恢復(fù)94.75%、明顯恢復(fù)1.50%;暖性草叢類輕微恢復(fù)22.34%、明顯恢復(fù)77.66%;暖性灌草叢類輕微恢復(fù)23.23%、明顯恢復(fù)76.67%;溫性草甸草原類輕微恢復(fù)30.16%、明顯恢復(fù)69.12%。
本研究通過比對11 種不同的機(jī)器學(xué)習(xí)模型,在未進(jìn)行變量篩選時(shí),隨機(jī)森林類機(jī)器學(xué)習(xí)模型的精度較高,其中RRF 模型的擬合度最高,R2為0.752 2?;谇跋蛱卣鬟x擇算法進(jìn)行變量篩選后,有效地提升了模型的運(yùn)算速度,隨機(jī)森林模型的精度依舊較高,其中Rborist 模型的擬合度最高,R2為0.758。隨機(jī)森林算法可以快速處理海量數(shù)據(jù),簡便易用,具有高效、高包容性、高穩(wěn)定性等優(yōu)點(diǎn),且對于預(yù)測變量與響應(yīng)變量之間的分布及其關(guān)系、變量數(shù)量和類型都沒有嚴(yán)格的要求,對數(shù)據(jù)容錯(cuò)度較高,對訓(xùn)練樣本數(shù)據(jù)具有較好的擬合性,適用于樣本量大的數(shù)據(jù)挖掘工作[24-25]。但隨機(jī)森林模型雖然不會(huì)出現(xiàn)過度擬合[26],但高值區(qū)模擬效果還是沒有低值區(qū)好,可能是由于多光譜傳感器的過飽和現(xiàn)象造成的,這是使用光學(xué)傳感器估算草原地上生物量的一個(gè)常見問題[27-28]??傮w來說隨機(jī)森林算法在草原地上生物量的估算具有較好的準(zhǔn)確性和可行性,與郭超凡等[5]、邢曉語等[10]、Zeng 等[14]和Wang 等[15]的不同模型在草原地上生物量的模擬效果對比研究結(jié)果一致。
本研究在變量的選擇中主要考慮數(shù)據(jù)的可獲得性,最終選擇適用于大尺度研究的250 m 中分辨率的MODIS 遙感影像數(shù)據(jù),2005-2018 年度的月氣溫、月降水、年平均氣溫、年降水?dāng)?shù)據(jù),以及2005 以來甘肅省草原技術(shù)推廣總站開展天然草原野外調(diào)查工作積累的草原生物量地面監(jiān)測數(shù)據(jù)。
本研究相較僅使用遙感影像數(shù)據(jù)的黃土高原區(qū)域草原地上生物量隨機(jī)森林模型[15]的精度高,較使用遙感影像數(shù)據(jù)的青海省海晏縣境內(nèi)小尺度隨機(jī)森林模型精度[5]也略高。較使用經(jīng)過野外驗(yàn)證的MODIS 植被指數(shù)數(shù)據(jù)、地形數(shù)據(jù)和氣象數(shù)據(jù)建立的青藏高寒草原的地上生物量模型[29]精度略低,較使用遙感影像的小尺度如錫林郭勒盟的地上生物量反演模型[10]略差。說明隨機(jī)森林的估算方法在不同研究尺度、不同數(shù)據(jù)集及不同特征選擇的差異還是較大。甘肅省草原資源豐富,區(qū)劃復(fù)雜,長時(shí)間尺度的地面調(diào)查數(shù)據(jù)與氣象參數(shù)的加入,可以有效地提高模型的精度,但模型精度低于小尺度建模的精度,可能存在的原因主要是草原類型多樣且不同草原類的生物量差異較大,樣點(diǎn)分布不均勻等因素導(dǎo)致的。接下來需要探索針對不同草原類型分別建立隨機(jī)森林算法的草原地上生物量估算模型,并探索人類活動(dòng)影響的合理量化方式,將人類活動(dòng)的影響因素有效地結(jié)合到模型中,充分發(fā)揮隨機(jī)森林算法的優(yōu)勢,通過各個(gè)方面參數(shù)的增加,盡可能更好地反映草原地上生物量時(shí)空變化規(guī)律,以期提高大尺度、草原類型多樣區(qū)域的草原地上生物量的估算精度[10]。
本研究結(jié)合地面監(jiān)測數(shù)據(jù)、遙感數(shù)據(jù)、氣象數(shù)據(jù),通過篩選最優(yōu)建模變量和最優(yōu)機(jī)器學(xué)習(xí)模型,將地面監(jiān)測和遙感數(shù)據(jù)、氣象數(shù)據(jù)、機(jī)器學(xué)習(xí)算法有力的結(jié)合起來,克服了基于單個(gè)遙感因子的常規(guī)估算模型變量單一、精度低等缺點(diǎn),構(gòu)建出適合甘肅省草原地上生物量監(jiān)測的高精度反演模型,具有較高的應(yīng)用價(jià)值。
主要結(jié)論如下:
1)基于機(jī)器學(xué)習(xí)的草原地上生物量模型分析結(jié)果表明,隨機(jī)森林類機(jī)器學(xué)習(xí)模型的精度較高,Rborist 隨機(jī)森林模型精度最高,R2為0.758,RMSE為541.90 kg·hm-2。
2)甘肅省草原地上生物量均值介于828.21~1 118.71 kg·hm-2,近20 年來整體呈逐年增加趨勢,年均增加幅度約為8.128 kg·hm-2。
3)甘肅省47.41% 的草原呈恢復(fù)趨勢,26.00%的草原保持穩(wěn)定,而26.59%的草原呈不同程度的惡化趨勢。高寒草甸草原、溫性草原化荒漠、溫性荒漠、溫性荒漠草原呈惡化趨勢的比例較高,而暖性草叢、暖性灌草叢、沼澤、溫性草甸草原呈恢復(fù)趨勢的比例較高。