劉慧婷,潘 俊,符 玥,王光軍,樊紅波,胡孔飛
(1.核工業(yè)二三○研究所,湖南 長沙 410007;2.湖南省伴生放射性礦產(chǎn)資源評價與綜合利用工程技術(shù)研究中心,湖南 長沙 410007;3.中南林業(yè)科技大學(xué) 理學(xué)院,湖南 長沙 410004;4.中南林業(yè)科技大學(xué) 生命科學(xué)與技術(shù)學(xué)院,湖南 長沙 410004;5.湖南景輝農(nóng)林生態(tài)科技有限公司,湖南 長沙 410004)
森林在全球碳循環(huán)和森林生態(tài)系統(tǒng)中發(fā)揮著不可替代的作用[1]。森林生物量是森林生態(tài)系統(tǒng)運(yùn)行的能量基礎(chǔ)和物質(zhì)來源,是判斷森林生態(tài)系統(tǒng)碳源、碳匯的重要標(biāo)志[2-3]。為更好適應(yīng)碳循環(huán)機(jī)制和提升森林生態(tài)質(zhì)量,中國森林經(jīng)營理念提出了維護(hù)和改善生態(tài)環(huán)境、保持生態(tài)平衡、保護(hù)生物多樣性的生態(tài)公益林[4]。因此,在全球氣候變化背景下針對生態(tài)公益林對其生物量的估測研究具有重要意義[5-6]。
傳統(tǒng)的森林生物量估測方法已經(jīng)難以滿足森林結(jié)構(gòu)參數(shù)的更新需求[7]。隨著森林信息化的發(fā)展,遙感技術(shù)不僅具有監(jiān)測范圍廣、動態(tài)更新周期短的特點(diǎn),且能夠準(zhǔn)確反映植被分布、類型、長勢等情況,現(xiàn)已成為森林生物量估測研究的主要手段[8-9]。許振宇等[10]、蔣馥根等[11]、周蔚等[12]探討了不同遙感數(shù)據(jù)與森林生物量之間的關(guān)系,分別建立桂東縣森林生物量估測模型、旺業(yè)甸林場落葉松(Larixgmelinii)和樟子松(Pinussylvestris)地上生物量回歸估測模型、太平湖森林地上生物量估測模型。Landsat衛(wèi)星因長期免費(fèi)提供歷史檔案和空間分辨率而具有獨(dú)特的優(yōu)勢,使其成為廣泛運(yùn)用于估算森林生物量的光學(xué)遙感數(shù)據(jù)源[13-15]。Lu[16]利用Landsat TM影像對巴西亞馬遜地上生物量進(jìn)行估計,發(fā)現(xiàn)遙感估測模型中加入紋理信息能提高森林生物量估算精度;Kelsey等[17]以2011年的Landsat影像和森林資源調(diào)查數(shù)據(jù),采用性能最佳的神經(jīng)網(wǎng)絡(luò)模型,生成了2011年圣胡安國家森林的生物量圖;周蓉等[18]基于Landsat 8數(shù)據(jù),采用隨機(jī)森林特征重要性分析遙感特征的貢獻(xiàn)率,對比研究BP神經(jīng)網(wǎng)絡(luò)算法的2種訓(xùn)練算法、SVM支持向量機(jī)的3種核函數(shù)構(gòu)建地上生物量模型。這些研究表明,遙感影像在森林生物量估算中具有一定潛力和優(yōu)勢,但缺乏對區(qū)域代表性森林植被類型生物量的遙感監(jiān)測和分布研究。
本研究以湖南省公益林為對象,利用2021年湖南省公益林固定樣地監(jiān)測數(shù)據(jù)、Landsat 8遙感數(shù)據(jù),基于不同植被類型,采用支持向量機(jī)模型、決策樹模型和隨機(jī)森林模型估算森林生物量,比較各模型的精度,最佳模型反演生成研究區(qū)域生物量分布圖,為湖南省公益林資源的動態(tài)監(jiān)測、功能區(qū)劃和保護(hù)管理提供科學(xué)依據(jù)。
根據(jù)湖南省2021年森林資源管理“一張圖”,2021年湖南省省級以上公益林(以下簡稱“湖南省公益林”)總面積495.28×104hm2,約占全省總面積的23.36%,其中國家級公益林391.78×104hm2,省級公益林103.50×104hm2,涵蓋全省14個市(州)118個縣(市、區(qū))。將湖南省公益林植被分為5種植被類型,即針葉林、闊葉林、針闊混交林、竹林和灌木(表1)。
表1 湖南省公益林的基本描述
1.2.1 樣地數(shù)據(jù) 樣地數(shù)據(jù)采用湖南省2021年公益林面上固定樣地調(diào)查監(jiān)測數(shù)據(jù)(圖1)。利用單木生物量方程,分類逐株計算每個樣地的單木生物量,通過匯總后得到樣地總生物量。根據(jù)植被類型劃分,將樣地分為針葉林、闊葉林、針闊混交林、竹林和灌木5種類型,樣地生物量統(tǒng)計結(jié)果見表2。
圖1 研究區(qū)森林固定樣地
表2 樣地生物量統(tǒng)計結(jié)果
1.2.2 遙感影像數(shù)據(jù)及提取 利用Google Earth Engine(GEE)平臺所提供的Landsat 8地標(biāo)反射率產(chǎn)品(LC08),空間分辨率為30 m。為保證影像完整覆蓋以及與樣地調(diào)查活動同期,影像選取的時間范圍為2021年5-10月,并選擇云量<5%的266張圖像。為保證影像數(shù)據(jù)的質(zhì)量,利用CFMask算法對云、陰影、水和雪覆蓋的像素進(jìn)行掩蔽;應(yīng)用Mosaic函數(shù)和Clip函數(shù)融合、拼接和裁剪能代表研究區(qū)植被生長最好狀態(tài)的地表反射率影像。
經(jīng)過預(yù)處理后的遙感影像數(shù)據(jù),在ENVI 5.3中提取各類遙感因子用于生物量建模研究中。本研究提取的影像因子包括原始波段、波段組合、植被指數(shù)、信息增強(qiáng)以及紋理特征5類(表3)。
表3 特征變量匯總
Boruta算法是一種以隨機(jī)森林為基礎(chǔ)進(jìn)行特征提取的方法。該方法首先對原特征數(shù)據(jù)集進(jìn)行重新排列,創(chuàng)建混合副本,并生成陰影特征。然后使用隨機(jī)森林方法對陰影特征集進(jìn)行重要性排序,重要性得分越高,特征越重要[19]。在R 4.2統(tǒng)計軟件中執(zhí)行Boruta算法,針葉林、闊葉林、針闊混交林、灌木林和竹林生物量為因變量,115個遙感特征因子為自變量,變量被確定為重要變量和非重要變量。
采用支持向量機(jī)(support vector machine,SVM)、決策樹(classification and regression tree,CART)模型、隨機(jī)森林(random forest,RF)3種模型進(jìn)行研究區(qū)生物量遙感。
支持向量機(jī)是由Cortes等[20]提出的一種廣泛應(yīng)用于分類和回歸問題的機(jī)器學(xué)習(xí)方法,可以高效地適用于高維空間的數(shù)據(jù),有效處理具有許多特征的數(shù)據(jù)集,在非線性情況下可以使用核函數(shù)將數(shù)據(jù)點(diǎn)映射到高維空間中,通過選擇合適的核函數(shù)和正則化參數(shù),可以避免過擬合。支持向量機(jī)模型在R語言中,使用Kernlab包。
決策樹是一種基本的分類與回歸方法,其中CART算法[21]是應(yīng)用最廣泛的決策樹學(xué)習(xí)方法,包括特征選擇、樹的構(gòu)建及樹的剪枝三部分。該算法使用基尼指數(shù)(gini index)作為分類節(jié)點(diǎn)的衡量指標(biāo),基尼指數(shù)系數(shù)越小,該節(jié)點(diǎn)的變量分類純度就越高。CART模型通過構(gòu)建二叉樹實現(xiàn)預(yù)測目的,所構(gòu)建的模型具有易于理解和解釋、可處理高維數(shù)據(jù)、具有較好的預(yù)測能力和魯棒性等優(yōu)點(diǎn)。CART算法采用R語言Rpart包。
隨機(jī)森林(random forest,RF)是由Breiman[22]提出的一種分類和回歸算法,它是一種以決策樹為基礎(chǔ)的bagging并行集成學(xué)習(xí)算法,主要依靠樣本的隨機(jī)選取和特征的隨機(jī)選取消除過擬合問題。隨機(jī)森林模型具有確定變量重要性、減少過度擬合的穩(wěn)健性、需要調(diào)整的參數(shù)更少、對參數(shù)調(diào)整的敏感度更低、訓(xùn)練速度快等優(yōu)點(diǎn)。模型用R語言random Forest包執(zhí)行,需要調(diào)整的參數(shù)為建立的決策樹數(shù)量(ntree)和決策樹分裂時抽取的變量個數(shù)(mtry)。
為充分利用樣本以提高模型的可靠性,選擇將數(shù)據(jù)集進(jìn)行劃分,70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),30%的數(shù)據(jù)作為驗證數(shù)據(jù),進(jìn)行試驗?;貧w模型常用的評價指標(biāo)有決定系數(shù)(coefficient of determination,R2)[23]和均方根誤差(root mean square error,RMSE)[23]。其中,決定系數(shù)R2是對回歸直線擬合程度的檢驗,值越接近1,表明關(guān)聯(lián)性越高,自變量對因變量的解釋能力也就更強(qiáng)。RMSE指的是估計值與實際數(shù)據(jù)的平方和與樣本量n之比的平方和,數(shù)值愈低,則說明該方法的預(yù)測效果越好。
篩選結(jié)果見表4,在所選的變量中,近NIR波段(光譜波段5)和SWIR波段(光譜波段6、7)及其紋理特征變量在森林生物量估測中具有重要作用。除了紋理特征變量之外,對于闊葉林和針葉林,植被指數(shù)變量占據(jù)重要地位;對于總林地生物量,原始波段、植被指數(shù)和信息增加也具有十分重要的作用。
表4 建模因子篩選結(jié)果
5種植被類型以及不區(qū)分植被類型(總林地)生物量支持向量機(jī)模型驗證結(jié)果見圖2。利用支持向量機(jī)模型建模時,針葉林、竹林支持向量機(jī)模型擬合精度較好,其次是總林地,針闊混交林、灌木擬合精度較差。
5種植被類型以及不區(qū)分植被類型(總林地)生物量決策樹模型驗證結(jié)果見圖3。用決策樹CART模型建模時,針闊混交林、總林地決策樹模型擬合精度較好,其次是闊葉林、針葉林、灌木,竹林?jǐn)M合精度最差。
圖3 基于決策樹的不同植被類型生物量模型精度
5種植被類型以及不區(qū)分植被類型(總林地)生物量隨機(jī)森林模型驗證結(jié)果見圖4。利用隨機(jī)森林模型建模時,針葉林、闊葉林、針闊混交林、竹林和灌木植被類型的隨機(jī)森林模型精度擬合程度R2為0.73~0.79,RMSE為2.11~31.76 t·hm-2,結(jié)果明顯優(yōu)于不區(qū)分植被類型(總林地)的模型,這說明對森林生物量進(jìn)行分類可以提高模型擬合精度;在這5種不同植被類型的隨機(jī)森林模型中,竹林隨機(jī)森林模型的擬合程度最好。
圖4 基于隨機(jī)森林的不同植被類型生物量模型精度
通過比較3類模型,隨機(jī)森林模型估計精度最高。同時,在隨機(jī)森林模型中,竹林(RMSE=26.50 t·hm-2,R2=0.79)的精度最高,其次是針闊混交林(RMSE=15.76 t·hm-2,R2=0.76)、針葉林(RMSE=29.76 t·hm-2,R2=0.74)、灌木(RMSE=2.11 t·hm-2,R2=0.74)、闊葉林(RMSE=21.57 t·hm-2,R2= 0.73),總林地(RMSE=30.77 t·hm-2,R2=0.67)精度最低。綜上所述,隨機(jī)森林算法較適用于湖南省公益林生物量估算,同時,對植被類型進(jìn)行分類可以有效提高模型擬合精度。
結(jié)合以往熱帶和亞熱帶地區(qū)的森林生物量研究,NIR波段(B5)和SWIR波段(B6、B7)比可見光起著更重要的作用[24-26]。在森林生物量估測模型中,Landsat 8 OLI的SWIR波段(B6、B7)對林分結(jié)構(gòu)中固有的水分和陰影成分更敏感,并且大氣條件對光譜特征的影響小于其他較短波長(可見光)光譜帶[27];NIR波段(B5)可以有效排除水汽吸收影響,使它對不同類型的植被更為敏感[28];并且,SWIR波段(B6、B7)在生物量建模中比更短波長的光譜帶更有價值,對可見波段的森林光譜特征更為敏感。
不同植被類型(針葉林、闊葉林、針闊混交林、竹林和灌木)和不區(qū)分植被類型(總林地)的生物量反演模型在進(jìn)行森林生物量估測時,紋理特征是關(guān)鍵變量,但在各模型中所占比重不同,這是由于研究區(qū)的公益林工程大多是土壤條件較差、水土流失易發(fā)生地帶,森林經(jīng)營水平低、森林結(jié)構(gòu)不合理,從而使得原本林分結(jié)構(gòu)簡單的森林變得異常復(fù)雜。在針葉林模型和竹林模型中,由于樹種相對較少、結(jié)構(gòu)簡單,紋理特征顯得更為重要。在多個冠層和復(fù)雜冠層結(jié)構(gòu)的闊葉林和混交林中,模型傾向于選擇波段組合和信息增強(qiáng)變量。在不區(qū)分植被類型(總林地)生物量變量選擇過程中,單獨(dú)一個變量不能有效捕捉林分結(jié)構(gòu)的復(fù)雜性,原始波段、波段組合、信息增強(qiáng)、植被指數(shù)和紋理特征的組合更有利于提高森林生物量模型的性能。
機(jī)器學(xué)習(xí)方法可以在數(shù)據(jù)分布不確定的情況下,在植被信息和遙感圖像之間建立復(fù)雜的非線性關(guān)系,提高預(yù)測的準(zhǔn)確性[26,29]。本研究選用3種機(jī)器學(xué)習(xí)算法構(gòu)建湖南省公益林生物量估測模型,隨機(jī)森林(RF)模型在不同植被類型中始終表現(xiàn)出最佳的性能。與另外2種模型相比,RF模型可以更好地防止過度擬合以及解決變量間復(fù)雜非線性關(guān)系的問題[30-31]。在其他亞熱帶森林生物量估算研究中,同樣證明所選的隨機(jī)森林建模方法精度更高[32]。隨機(jī)森林模型雖然提升森林生物量遙感估測精度,但研究結(jié)果也顯示,它并沒有完全消除高值低估和低值高估,而這依然是影響森林生物量遙感估測精度的一個重要原因。
本研究表明,在建立RF模型時,對植被類型進(jìn)行分類可以有效提高森林生物量的估測精度,但在建立SVM模型和CART模型時,對植被類型進(jìn)行分類不足以提高模型擬合精度。植被類型通常反映不同的生長條件、土壤類型、環(huán)境因素等,將植被類型進(jìn)行分類可以提高模型的泛化性能和準(zhǔn)確性[26,33],而一些模型能夠從遙感特征中捕捉植被類型的信息,將植被類型分類可能只會增加噪聲,導(dǎo)致過擬合的問題。
RF不同植被類型公益林生物量估測模型的精度大小排序為:竹林>針闊混交林>針葉林>灌木>闊葉林。經(jīng)比較發(fā)現(xiàn),在對植被類型進(jìn)行分類建模時,進(jìn)行植被類型分類的模型精度大小順序并不是固定的。Li等[34]利用理論模型將闊葉林、針葉林和混交林這3個精度值分別提高到0.897、0.856和0.826,模型精度大小排序為:闊葉林>針葉林>混交林。Liu等[35]建立森林類型生物量的RF模型呈現(xiàn)出闊葉林>針葉林>混交林的特征,R2分別是0.742 5、0.738 6、0.690 9,Ma等[36]在回歸模型中加入地形和林分結(jié)構(gòu)因素,擬合效果針葉林R2為0.98,混交林R2為0.96,闊葉林R2為0.96,這是因為土壤、海拔、氣候等因素造成了不同植被類型生物量具有各自的物種組成和林分結(jié)構(gòu),而且遙感數(shù)據(jù)的使用以及樣本量的大小都會造成生物量估測偏差。
Boruta算法篩選變量,NIR波段(B5)和SWIR波段(B6、B7)及其紋理波段具有明顯優(yōu)勢。
對于針葉林和竹林,紋理特征更為重要;闊葉林和混交林,波段組合和信息增強(qiáng)更為重要;對于總林地生物量變量選擇過程中,多類遙感因子組合更有利于提高森林生物量模型的性能。
隨機(jī)森林模型較之多元線性回歸、支持向量機(jī)和決策樹模型,公益林生物量模型擬合能力最佳。用隨機(jī)森林模型估測的針葉林、闊葉林、針闊混交林、竹林和灌木生物量驗證R2分別為0.74、0.73、0.76、0.79和0.74,RMSE分別為31.76、21.57、15.76、25.60 t·hm-2和2.11 t·hm-2,表明模型有較好的生物量估測精度。相對于總林地的隨機(jī)森林模型R2為0.67,RMSE為30.77 t·hm-2,對植被類型進(jìn)行分類可以有效提高森林生物量的估測精度。