卜靈心,來 全,2*,劉心怡
(1.內(nèi)蒙古師范大學(xué)地理科學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010022;2.內(nèi)蒙古自治區(qū)遙感與地理信息系統(tǒng)重點實驗室,內(nèi)蒙古 呼和浩特 010022)
草地是地球表面最大的陸地生態(tài)系統(tǒng)[1],面積約為3.42×109hm2,約占全球陸地總面積的40%[2],是僅次于森林的第二大綠色覆被[3]。草地AGB約占全球植被總生物量的36%,是陸地生產(chǎn)力的重要組成部分,也是碳循環(huán)的重要指標(biāo)[4-5]。草地地上生物量(Aboveground biomass,AGB)的變化能夠直接反映草地退化及草場荒漠化程度[6-7],有利于監(jiān)測草場是否過度放牧以及清晰了解草場土地利用的變更情況。
傳統(tǒng)的草地生物量測算方法是基于現(xiàn)場采集樣方并帶回實驗室測量,不僅消耗大量的人力和物力,而且容易對植被造成不必要的損害,不適合進行大面積草地AGB的估算[8]。隨著遙感技術(shù)的發(fā)展,目前大部分研究仍基于單一的植被指數(shù)與生物量之間的關(guān)系建立模型,嘗試實現(xiàn)大范圍草地AGB的估算[9]。研究方法也局限于一元或多元的線性非線性回歸等相關(guān)問題,通常導(dǎo)致估算模型的精度較低[10]。針對以上問題,近年來已有學(xué)者使用機器學(xué)習(xí)算法成功建立AGB估算模型的案例,有效提高了模型的精度[11-12]。常用的算法包括:使用人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)和支持向量回歸(Support vector regression,SVR)以及隨機森林回歸(Random Forest,RF)等[13-15]。然而,常見的研究模式是在研究區(qū)域內(nèi)不區(qū)分草地類型進行估算,各類機器學(xué)習(xí)方法對不同草地類型AGB估算能力的差異性和適用性相關(guān)的研究鮮有報道。
錫林郭勒盟草地資源豐富,是我國北方重要的生態(tài)屏障[16]。近年來,隨著氣候變化和人類活動的加劇,草原生態(tài)平衡受到嚴(yán)重挑戰(zhàn)。草原荒漠化、退化嚴(yán)重,成為中國北方沙塵暴的主要來源[17]。準(zhǔn)確估算草地AGB,能夠為該區(qū)域合理放牧措施的制定、生態(tài)系統(tǒng)的保護和可持續(xù)發(fā)展提供科學(xué)依據(jù)。因此,本文利用多源遙感數(shù)據(jù),選取影響草地生長的主要因素作為特征變量,使用BP,SVM和RF三種常用機器學(xué)習(xí)算法,在不同草地類型均建立了AGB估算模型,并分析不同機器學(xué)習(xí)算法在估算研究區(qū)各類草地AGB時的反演能力。本研究結(jié)果可以為錫林郭勒盟各類草地類型AGB估算精度的提高和方法的選取提供科學(xué)建議。
錫林郭勒盟地處內(nèi)蒙古中部偏東地區(qū)(41°35′~46°46′N,111°09′~119°58′E)[18]。整體地形平坦開闊,地勢自西南向東北傾斜,海拔為729~1 939 m之間。氣候類型屬中溫帶半干旱和干旱大陸性季風(fēng)氣候,冬季寒冷,夏季炎熱。該區(qū)域內(nèi)草地類型多樣,典型草原(Typical grassland,TYG),草甸草原(Meadow grassland,MEG),荒漠草原(Desert steppe,DRS)和其他草原(主要包括田間草地、林間草地以及少量的沙地植被等,Other)等。本文主要針對草地進行研究,區(qū)域內(nèi)天然草場約1.97×108hm2,占草場總面積的97.2%(圖1)??衫貌輬雒娣e達(dá)1.78×108hm2,占草場總面積的90.6%。錫林郭勒作為內(nèi)蒙古大草原的重要組成部分,是我國重要的農(nóng)牧業(yè)基地。
圖1 錫林郭勒盟區(qū)位及高程圖(a)和生態(tài)區(qū)劃圖(b)
1.2.1樣方實測數(shù)據(jù) 2009—2015期間在內(nèi)蒙古錫林郭勒盟草原范圍內(nèi),每年8月份進行野外草地樣方采集,為了盡可能降低因樣方選址帶來的誤差,選取遠(yuǎn)離公路或者圍欄內(nèi)部以及受人類活動干擾較小的草地群落。盡量使其在每種草地類型均勻分布原則下,采集大小為1 m×1 m的樣方,記錄樣方的經(jīng)度(°)、緯度(°)、生物量(鮮重,g)和高程(m)等相關(guān)數(shù)據(jù),最后在實驗室進行烘干處理得到樣方的干重(g)。數(shù)據(jù)來源于地理科學(xué)學(xué)院,樣方的基本情況如表1所示。
表1 2009—2015年樣方采集數(shù)分布表
1.2.2遙感數(shù)據(jù) 為了計算各種植被指數(shù),采用2004年至 2015年空間分辨率為30 m,時間分辨率為16天的Landsat遙感衛(wèi)星數(shù)據(jù)(https://earthexplorer.usgs.gov/),其中包括2004—2011年Landsat 5 TM影像、2012 年Landsat 7 ETM+影像和 2013—2015年Landsat 8 OLI影像。選取日期接近草地生物量采樣時間,云覆蓋率小于20%的影像,完全覆蓋研究區(qū)共計16幅影像。對數(shù)據(jù)進行輻射定標(biāo)、大氣校正、鑲嵌和裁剪等預(yù)處理,采用最大合成法計算得到各類植被指數(shù)。
1.2.3氣象數(shù)據(jù) 氣象數(shù)據(jù)下載于中國氣象科學(xué)共享服務(wù)網(wǎng)站(http://data.cma.an/)和中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心(http://www.resdc.cn/)共16 個氣象站點,為了使插值的精度更高,分別選取了內(nèi)蒙古13個站點和周圍的3個站點,氣象站點空間分布如圖1(b)所示。采用克里金插值方法插值成30 m空間分辨率,目的是與Landsat數(shù)據(jù)的分辨率一致。
1.2.4DEM數(shù)字高程數(shù)據(jù) 考慮到高程、坡度和坡向可能對草地生物量的估算產(chǎn)生影響,本文下載了空間分辨率為30 m的DEM數(shù)據(jù),下載網(wǎng)址為(http://www.gscloud.cn/#page1/1)。對其進行鑲嵌裁剪等預(yù)處理后,得到錫林郭勒盟DEM數(shù)字高程數(shù)據(jù),之后利用ArcGIS軟件分別計算得到錫林郭勒盟的坡度和坡向數(shù)據(jù)。
1.3.1植被指數(shù)計算方法 光譜指數(shù)法是遙感反演地表參數(shù)的基本方法之一,具有一定機理性,便于掌握和使用。本文利用Landsat衛(wèi)星數(shù)據(jù)計算NDVI,DVI,RVI,EVI,LAI,F(xiàn)VC六種植被指數(shù),其中,Landsat 5 TM和Landsat 7 ETM+的藍(lán)光、紅光和近紅外對應(yīng)的波段分別為B1,B3和B4,Landsat 8 OLI影像的藍(lán)光、紅光和近紅外對應(yīng)波段分別為B2,B4和B5,植被指數(shù)計算公式見表2。
表2 植被指數(shù)計算公式表
1.3.2機器學(xué)習(xí)方法 SVM可以通過核函數(shù)將訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為高維特征空間[23],確定一個最佳超平面,使超平面與最近的正反面之間的距離達(dá)到最大[24]。本研究采用徑向基函數(shù)作為支持向量機的核函數(shù),并利用“tune.svm” and “svm”兩個函數(shù)調(diào)整參數(shù)cost和gamma[25],確定兩個參數(shù)的最佳組合。本文通過在MATLAB軟件中通過調(diào)用SVM算法包實現(xiàn)SVM的計算。
神經(jīng)網(wǎng)絡(luò)是研究非線性回歸最常用的方法。由輸入層、隱含層和輸出層組成一個多元網(wǎng)狀結(jié)構(gòu)[26],通過反向傳播算法對網(wǎng)絡(luò)的偏差和權(quán)值進行反復(fù)調(diào)整訓(xùn)練,得到最接近期望輸出值的結(jié)果,該算法稱為BP算法[27]。訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)需要調(diào)整的參數(shù)包括網(wǎng)絡(luò)結(jié)構(gòu)即(隱含層的數(shù)量)、訓(xùn)練集和測試集的比例以及訓(xùn)練算法,Levenberg-Marquardt algorithm算法是目前常用的算法之一[28]。本文以影響草地生長的11種要素作為輸入層,預(yù)測草地AGB作為輸出層。
隨機森林是一種統(tǒng)計學(xué)習(xí)方法,最早由Breiman于2001年提出[29],適用于解決分類和回歸問題。隨機森林回歸算法的原理是組合大量的回歸樹,每棵回歸樹表示一組按層次組織并從樹的根到葉依次應(yīng)用的條件或限制[30]。通過重復(fù)抽樣,每一個抽取樣本被用來構(gòu)建決策樹,不斷選擇訓(xùn)練樣本以最小化殘差平方和,直到形成完整的樹,并通過投票獲得最終預(yù)測?;貧w樹的數(shù)量一般默認(rèn)為500棵,輸入變量數(shù)一般為總體變量數(shù)的1/3[31]。本文基于多源數(shù)據(jù)利用隨機森林方法構(gòu)建草地AGB估算模型。
1.3.3模型精度評估方法 為了比較三種機器學(xué)習(xí)算法建立模型精度,本文采用R,RMSE,MSE,MAE四種誤差評價指標(biāo)對構(gòu)建的模型進行評估,計算公式如(1)~(4):
(1)
(2)
(3)
(4)
其中,xi和yi分別代表實測草地AGB和預(yù)測草地AGB,本文的流程圖如圖2所示。
圖2 不同機器算法建立生物量估算模型流程圖
2.1.1各模型對研究區(qū)AGB估算能力的分析 以研究區(qū)內(nèi)2 352個草地AGB采樣點的干重為因變量,選擇影響草地生長的11個要素為自變量。整體樣本按8∶2隨機生成500個訓(xùn)練集和測試集,采用SVM,BP和RF三種方法建立草地AGB回歸模型,用R,RMSE,MSE和MAE四個誤差評價指標(biāo)來評價模型的準(zhǔn)確性,不同算法的訓(xùn)練測試結(jié)果見圖3。可以看出,RF算法建立的模型具有較高的精度和較集中的分布,R,RMSE,MSE和MAE分別達(dá)到0.88,0.11,0.01和0.07。SVM算法的表現(xiàn)次之,BP神經(jīng)網(wǎng)絡(luò)算法較差,模型精度低,訓(xùn)練測試的結(jié)果比較分散,R,RMSE,MSE和MAE分別為0.80,0.11,0.01和0.09。與BP算法建立的模型相比,使用RF算法R增加了0.08,RMSE減少了0.03。分析結(jié)果說明在建立草地AGB估算模型時,RF比BP具有更好的適用性,可以明顯提高草地生物量估算的準(zhǔn)確性。
圖3 不同機器學(xué)習(xí)算法訓(xùn)練測試結(jié)果圖
2.1.2各模型對不同草地類型AGB估算能力分析 為評價基于不同機器學(xué)習(xí)算法建立的AGB估算模型對研究區(qū)不同草地類型AGB估算是否存在差異,本文基于圖1(b)的草地類型圖,分別采用SVM,BP和RF算法在典型草原、草甸草原、荒漠草原和其他草原上建立草地AGB估算模型,并對模型精度進行評估。圖4(4a~4c)(4j~4l)表明在典型草原和其他草原區(qū)域內(nèi),機器學(xué)習(xí)表現(xiàn)出類似的趨勢,即RF最好,SVM次之,BP最差。在典型草原區(qū)域內(nèi),由RF構(gòu)建的模型,R,RMSE,MSE和MAE分別為0.86,011,0.01和0.08,與BP構(gòu)建的模型相比,R增加了0.11,RMSE,MSE和MAE分別減少了0.02,0.01和0.02。在其他草原區(qū)域內(nèi),RF模型的R增加了0.10,而RMSE,MSE和MAE分別減少了0.04,0.01和0.03。這表明RF算法在這兩種草地類型中更具適用性。圖4(4 d~4f)(4 g~4i)顯示為草甸草原和荒漠草原的建模情況。與前兩種草地類型不同,SVM在這兩種草地類型中建模精度更高。不同算法的精度比較結(jié)果為SVM性能最好,F(xiàn)R的性能次之,BP最差。在草甸草原區(qū)域內(nèi),SVM有明顯的優(yōu)勢,相較于BP建立的模型R增加了0.10,RMSE,MSE和MAE分別減少了0.08,0.018和0.06。在荒漠草原區(qū)域內(nèi),相較于RF和BP相比SVM的R增加了0.02和0.08。該結(jié)果表明草甸草原和荒漠草原的AGB估計更推薦SVM算法。
圖4 三種機器學(xué)習(xí)算法在不同草原類型上建立估算模型的精度表現(xiàn)
2.2.1錫林郭勒盟整體AGB估算變量貢獻(xiàn)率分析 機器學(xué)習(xí)算法可以在建立模型時選擇最佳自變量來預(yù)測草地AGB。由圖5可知,在隨機森林算法建立的模型中,不同自變量對草地AGB的貢獻(xiàn)率存在差異。在各種影響草地生長的要素中,F(xiàn)VC對草地AGB的貢獻(xiàn)率達(dá)到83.2%,表明FVC對于預(yù)測草地AGB具有至關(guān)重要的作用。NDVI和EVI的貢獻(xiàn)率也較高,分別達(dá)到63.7%和48.5%。氣象要素中,降水(PRCP)的貢獻(xiàn)率達(dá)到38.6%,高于溫度的5.5%,說明錫林郭勒盟地區(qū)降水對草地AGB的影響更大。地形要素中,海拔、坡度和坡向?qū)Σ莸谹GB的貢獻(xiàn)率均較低,分別為1.4%,3.8%和2.2%。這表明,地形要素對草地AGB的影響相對較小。
圖5 隨機森林算法不同變量對草地生物量的貢獻(xiàn)率
2.2.2不同草地類型AGB估算變量貢獻(xiàn)率分析 由于三種機器學(xué)習(xí)算法建立的模型在不同草地類型AGB估算中所表現(xiàn)出的性能差異,本文針對各草地類型建立的最佳模型分別展開了變量貢獻(xiàn)率分析(圖6)。不同草地類型變量貢獻(xiàn)率差異較大。典型草原中對AGB估算的貢獻(xiàn)率排名靠前的因子與錫林郭勒盟整體草地AGB估算貢獻(xiàn)率排名靠前的因子相似。FVC的貢獻(xiàn)率最高為63.8%,其次是NDVI,貢獻(xiàn)率為53%。氣象因素中,降水對典型草原的貢獻(xiàn)率達(dá)到45%,而氣溫的貢獻(xiàn)率僅有2.5%。坡度、坡向和高程等地形要素對典型草原AGB的貢獻(xiàn)率同樣很低。與典型草原不同的是影響草甸草原和其他草原AGB的各個要素中貢獻(xiàn)率最大的是EVI和DVI,分別達(dá)到95%,90%和94%,72.5%。表明這兩個變量在很大程度上決定了草甸草原和其他草原AGB的大小。值得注意的是,影響荒漠草原AGB的各個要素中,NDVI的貢獻(xiàn)最大為93%,其次為RVI 0.87。與其他三種植被相似的是氣象要素中,降水對AGB的貢獻(xiàn)率始終大于氣溫。各地形要素對草地生物量的影響始終較小。
圖6 不同特征變量對機器方法建立模型的貢獻(xiàn)率表現(xiàn)
從2004—2015年錫林郭勒盟草地生物量空間分布圖可以看出(圖7),錫林郭勒盟草地生物量總體呈現(xiàn)東高西低、從東部到西部逐漸減少的分布特征。研究區(qū)12年的年均草地生物量為6.0×105kg。其中典型草原區(qū)草地生物量最高、草甸草原區(qū)次之,荒漠草原區(qū)的草地生物量最低,空間差異明顯。典型草原區(qū)年均草地生物量達(dá)到1.13×103kg,主要分布在東烏珠穆沁的西南部、西烏珠穆沁旗的西北部、錫林浩特市和阿巴嘎旗的大部分區(qū)域,主要的草地類型為典型草原。其中東烏珠穆沁的南部和西烏珠穆沁旗的東北部是草地生物量較高區(qū)域,草地生物量多為0.15~0.30 kg·m-2。錫林浩特市的北部和阿巴嘎旗的中西部是草地生物量較少的區(qū)域,草地生物量為0~0.15 kg·m-2。圖7(d)可以看出,與其他年份不同2007年東烏珠穆沁的西部區(qū)域草地生物量較少,其余年份典型草原的草地生物量一直保持穩(wěn)定。
位于東烏珠穆沁的東北部,西烏珠穆沁旗的西南部的草甸草原區(qū),年均草地生物量為177.59 kg,主要草地類型為草甸草原,草甸草原是錫林郭勒盟歷年草地生物量最高的區(qū)域,圖7(h)至(k)可以看出典型草原的草地生物量多為0.45~0.75 kg·m-2。在2010年草甸草原草地生物量明顯下降至0.15~0.30 kg·m-2,2015年東烏珠穆沁的東北部草甸草原草地生物量增加至0.45~0.75 kg·m-2。
圖7 2004—2015年草地生物量空間分布圖
位于錫林郭勒盟西部涵蓋二連浩特市、蘇尼特左旗和蘇尼特右旗的荒漠草原區(qū),年均草地生物量為72.88 kg?;哪菰恢笔遣莸厣锪孔钌俚膮^(qū)域。2006年以后開始零星出現(xiàn)0.15~0.30 kg·m-2的區(qū)域,2009—2011年絕大部分區(qū)域的草地生物量為0~0.15 kg·m-2。2012年是荒漠草原草地生物量最高的一年,大部分區(qū)域草地生物量為0.15~0.30 kg·m-2。
通過分析發(fā)現(xiàn),三種機器學(xué)習(xí)算法對不同草地類型AGB估算能力有所差異。在樣本點較少時,三種算法計算運行效率差異并不明顯。然而,隨著訓(xùn)練樣本數(shù)量的增加,BP的計算速度明顯加快,RF次之,SVM最低,但BP建立的模型精度較低。綜合考慮,本研究區(qū)內(nèi)建議采用RF算法模型。機器學(xué)習(xí)算法已被證明相較于傳統(tǒng)的非線性回歸分析具有更快的速度和更高的精度等優(yōu)勢。若不區(qū)分草地類型的前提上,RF模型對整個研究區(qū)的AGB反演估算能力明顯優(yōu)于其它兩種算法,這與之前的學(xué)者得出的結(jié)論具有一致性[32-33]。
盡管RF算法建立的草地AGB估算模型精度較高且誤差相對較小,但該模型仍存在改進之處。首先,Landsat衛(wèi)星影像重返周期較長為16天,部分采樣點的采樣時間與遙感成像時間難以完全吻合。其次,雖盡量選取地形平坦且草原類型單一的區(qū)域進行采樣,但以1 m×1 m的采樣面積代表Landsat遙感影像像元大小為30 m×30 m的范圍仍存在一定的誤差。最后,由于8月份是研究區(qū)雨水較密集的月份,本文為盡量選擇云覆蓋面積較小的影像,導(dǎo)致部分影像成像時間與采樣時間難以同步,誤差不可避免。
植被要素中,F(xiàn)VC對草地AGB的貢獻(xiàn)率最大,這可能是由于錫林郭勒的草地類型差異不明顯。FVC高的區(qū)域草場長勢較好,草地AGB較高。氣象要素中,降水對草地生物量的貢獻(xiàn)率較大(15.6%),氣溫只有1.5%。這主要是因為錫林郭勒地處干旱半干旱區(qū)域,研究期內(nèi)氣溫相對穩(wěn)定(18.6℃~21.7℃),降水成為影響草地生長的主要因素,與之前的學(xué)者研究結(jié)果一致[34-35]。另外,錫林郭勒的地勢以平原為主,沒有出現(xiàn)較大地形起伏,因而地形因素對草地AGB的影響較低。就不同草地類型而言,各個變量對典型草原AGB的貢獻(xiàn)率與錫林郭勒整體情況相似,這主要歸因于典型草原為該地區(qū)的主導(dǎo)草地類型,很大程度上反映了錫林郭勒草原植被生長的總體情況。而EVI在草甸草原和其他草原類型區(qū)域內(nèi)貢獻(xiàn)率最高,其原因可能是該區(qū)域內(nèi)草地長勢較好,F(xiàn)VC較高,加之NDVI易出現(xiàn)飽和現(xiàn)象,EVI能更好地表征該草地類型的生長變化。NDVI對荒漠草原生物量影響最大,究其原因可能是該地區(qū)的植被覆蓋較少,草地類型相對單一,相較于其他因素NDVI可以更好地反映該區(qū)域草地長勢和草地覆蓋情況。
本文首先基于多源數(shù)據(jù),利用SVM,BP和RF三種機器學(xué)習(xí)方法建立了錫林郭勒盟草地AGB估算模型。其次,各模型對研究區(qū)草地類型AGB的估算能力進行了評價,最后分析了影響草地AGB估算精度的因素。得出以下結(jié)論:
使用三種機器學(xué)習(xí)算法建立的模型中,RF建立的模型精度最高(R=0.88,RMSE=0.10,MSE=0.01,MAE=0.07),表明在不區(qū)分草原類型的前提下,采用RF算法實施研究區(qū)的草地AGB估算是最優(yōu)選擇。
不同草地類型上機器學(xué)習(xí)算法估算精度存在差異。典型草原和其他草原中RF建立的模型精度較高,而在荒漠草原和草甸草原SVM建立的模型精度更高。
選取的11種影響草地生長的自變量中FVC,NDVI、EVI和PRCP四種變量對研究區(qū)草地AGB估算的影響較高,依次為63.2%,43.7%,28.5%和15.6%,而地形要素對研究區(qū)AGB的估算影響較小。
錫林郭勒盟草地生物量總體呈現(xiàn)東高西低、從東北部向西南部逐漸減少的空間分布特征,其中典型草原區(qū)草地生物量最高、草甸草原區(qū)次之,荒漠草原區(qū)的草地生物量最低,空間差異明顯。