黃宇玲
(浙江農(nóng)林大學 信息工程學院, 浙江 臨安311300)
目前,對于森林蓄積量的傳統(tǒng)監(jiān)測方法中,常以森林資源一、二類調(diào)查為主,這類調(diào)查方式存在調(diào)查周期長,以及需要大量的人力、物力和財力等問題。然而,遙感技術(shù)能夠給地面調(diào)查提供很好的支撐與補充,是宏觀、快速、經(jīng)濟地實現(xiàn)森林蓄積量估測的有效途徑。
機器學習源于人工智能和統(tǒng)計學[1],隨著遙感技術(shù)、機器學習算法和神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,森林蓄積量的估測正朝著多源、非線性回歸模型的趨勢發(fā)展。 在數(shù)據(jù)源方面,高分遙感數(shù)據(jù)、雷達數(shù)據(jù)、數(shù)字高程模型數(shù)據(jù)得到了廣泛的運用。 在森林蓄積量估測方法方面,各種傳統(tǒng)的多元線性回歸方法得到不斷的改善,機器學習方法逐漸滲透到森林蓄積量的研究中。 應(yīng)用回歸模型對森林蓄積量進行估測,已經(jīng)成為了森林蓄積量研究的重點和難點。 因此,研究機器學習算法在森林蓄積量估測的應(yīng)用,不僅僅對精確地估算森林蓄積量有著重要的現(xiàn)實意義,對提高森林資源監(jiān)測效率也有著很大的影響。
目前對于蓄積量的估測方法,主要有:以方法或者模型為重點的森林蓄積量的估測,以及基于遙感數(shù)據(jù)的森林蓄積量的反演。
基于模型估測的方法一般通過輸入年齡、郁閉度、海拔以及坡度等建模因子建立森林蓄積量模型,以估測區(qū)域的森林蓄積量。 森林資源一、二類調(diào)查一直是傳統(tǒng)森林蓄積量的測定方法。 Jahangir M等[2]采用多元逐步線性回歸方法和回歸樹分析方法對伊拉克北部地區(qū)建立了森林蓄積量模型,結(jié)果顯示回歸樹方法建立的森林蓄積量模型較優(yōu),其均方根誤差(Root Mean Square Error,RMSE)為88.7m3/ha。 Breidenbach 等[3]用非參數(shù)學習的樸素貝葉斯方法(Bayesian Analysis)與多元線性回歸方法進行比較,對Forbach 的森林蓄積量建立估測模型進行預(yù)測,研究結(jié)果表明樸素貝葉斯方法的精度高于多元線性回歸方法。 Yim 等[4]選用K-近鄰法(K-Nearest Neighbor,KNN)建立森林蓄積量估測模型,對面積不同的兩個縣域進行蓄積量估測,研究結(jié)果顯示K-近鄰法對于小面積的森林蓄積量的反演有著良好的效果。 楊明星等[5]基于Sentinel-A 影像,通過相關(guān)性分析對研究的自變量因子進行篩選,以相關(guān)性分析特征,結(jié)果采用隨機森林方法建立了思茅松林蓄積量遙感估測模型,模型的估測精度為75.46%,得到的估測效果較好,且表明隨機森林方法在森林蓄積量建模估測研究方面具有一定的可行性與推廣性。 王海賓等[6]選用平均殘差平方和(Residual Mean Squares,RMS)方法,對可能影響森林蓄積量的自變量因子進行篩選,利用K-近鄰方法對延慶區(qū)縣域的森林蓄積量建模估測,并與偏最小二乘回歸(Partial Least-Squares Regression,PLSR)方法進行對比。 研究結(jié)果表明,基于K-近鄰方法得到的森林蓄積量估測的均方根誤差RMSE 為12.80m3/hm2,優(yōu)于偏最小二乘回歸方法建立的森林蓄積量估測的均方根誤差RMSE(21.90m3/hm2)。 劉明艷等[7]通過主成分分析方法對可能影響森林蓄積量的自變量因子進行降維,降維處理之后得到的數(shù)據(jù)集作為多元線性回歸模型的輸入,建立了老禿頂子自然保護區(qū)森林蓄積量估測模型,多元線性回歸方程調(diào)整后的決定系數(shù)(R-squared,R2)為0.810,結(jié)果表明擬合度很好,估測精度達到92.18%,研究結(jié)果滿足林業(yè)調(diào)查中對蓄積量估測的要求。
近年來,隨著遙感技術(shù)的快速發(fā)展,遙感影像的空間分辨率有了大幅的提高,許多學者對于遙感影像在林業(yè)科學中的研究也日趨深入。 李世波[8]采用國產(chǎn)高分一號遙感影像數(shù)據(jù),通過移動窗口來解決像元與樣地之間的對應(yīng)關(guān)系,選用多元線性逐步回歸法、偏最小二乘回歸法以及隨機森林方法,對湖南省醴陵市的森林蓄積量進行估測。 研究結(jié)果表明:利用高分一號遙感影像數(shù)據(jù),結(jié)合隨機森林方法建立的森林蓄積量模型,其估測效果較趨向于真實分 布。 劉 俊 等[9]基 于(Advanced Land Observing Satellite,ALOS)衛(wèi)星的2.5 m 遙感影像計算,在不同窗口情況下的紋理特征以及紋理參數(shù),研究區(qū)域為北京市懷柔區(qū)柞樹林,建立了多元逐步線性回歸柞樹蓄積量模型,最終篩選出了最優(yōu)反演模型為多元逐步回歸模型,最優(yōu)紋理生成窗口為11×11。 蔡學成等[10]利用中巴資源衛(wèi)星遙感數(shù)據(jù),通過多元線性回歸方法對貴州省黎平縣、從江縣和榕江縣建立蓄積量估測模型,最終結(jié)果顯示整體估測能力較好,有一定的利用前景。 張翔宇等[11]基于資源三號衛(wèi)星影像,以寧波市北侖區(qū)新路林場為研究區(qū)域,采用主成分回歸分析法、偏最小二乘法和多元逐步回歸方法,分別建立蓄積量反演模型。 最終發(fā)現(xiàn),基于多元逐步回歸模型反演的森林蓄積量估測精度最高。 張?zhí)K等[12]以分辨率為2 m 的高分一號衛(wèi)星遙感數(shù)據(jù)為主要數(shù)據(jù)源,采用多元線性回歸方法與支持向量機方法,對福建省將樂縣亞熱帶針葉林蓄積量進行估測,最終表明支持向量機方法的森林蓄積量模型預(yù)估結(jié)果優(yōu)于多元線性回歸方法。
Breiman[13]在2001 年提出的隨機森林方法,是一種基于決策樹的機器學習方法,也是一種Bagging(又稱套袋,是一種可以提高算法準確性的方法)集成學習方法[14],通過多個弱分類器組合在一起,最終的結(jié)果是通過投票或者取平均值,從而讓模型整體的結(jié)果具有較高的準確度和泛化性能。 隨機森林方法的重點在“隨機”和“森林”上,“隨機”使得其具有抗過擬合能力,“森林”使得它結(jié)果更加精準?!半S機”主要是指兩個方面的隨機:一是樣本隨機,即通過自助法重采樣技術(shù),從最初的訓練樣本集N中拿出樣本再放回去,一直重復(fù)隨機的取出K 個樣本,K 個樣本作為新的訓練樣本集合(N =K);二是對于特征的選擇是隨機的,即隨機森林方法在建立每一棵決策樹的時候,每棵決策樹選擇出來的特征僅僅是隨機選出來的少數(shù)特征,在這些被選出的少數(shù)特征中,選擇其中一個最優(yōu)的特征來作為決策樹的左右子樹劃分,繼而將隨機效果擴大,進一步增強了模型的泛化能力。 隨機森林方法中的“森林”是指由許許多多的決策樹建立之后形式了森林。 隨機森林方法的學習器使用CART 樹(即分類回歸樹),當數(shù)據(jù)集的因變量屬于連續(xù)性數(shù)值時,這種樹的方法就是一個回歸樹,其可以采用葉子節(jié)點觀察得到平均值來作為預(yù)測值;當輸入的數(shù)據(jù)集為離散型數(shù)值時,這種樹的方法就是一個分類樹,每個葉子節(jié)點的投票結(jié)果就是分類結(jié)果。 CART 樹是一種二叉樹,即每一個非葉子節(jié)點只能出2 個分支,因此當某個非葉子節(jié)點是多個(2 個以上)的離散變量時,那么該變量就有可能被多次使用。
隨機森林方法的基本流程如下:
(1)隨機選擇樣本。 假如給出一個數(shù)量為N 的訓練樣本集,通過從訓練樣本集中拿出樣本再放回去,如此反復(fù)地采樣,直到得到K 個樣本(N =K,K 個樣本中可能會存在相同的樣本) 構(gòu)成一個新的訓練集。 利用新的訓練集訓練出一個決策樹,作為決策樹根節(jié)點處的樣本集。
(2)隨機選擇特征。 在建立決策樹時,通過把每個特征的信息增益進行計算,選擇信息增益結(jié)果里最大值的特征作為劃分下一個子節(jié)點的走向。
(3)構(gòu)建決策樹。 在形成決策樹的過程中,每一個節(jié)點都要按照步驟(2)來進行分裂,一直到不能再分裂為止(并且決策樹形成過程中沒有進行剪枝現(xiàn)象)。
(4)隨機森林預(yù)測結(jié)果。 通過步驟(1)~(3)的持續(xù)執(zhí)行建立大量的決策樹,進一步構(gòu)成隨機森林。把測試樣本輸入到隨機森林中,利用對每一棵決策樹的分類或者回歸操作,得到最終的分類或者回歸估測結(jié)果。
隨機森林方法的主要優(yōu)點:
(1)在測試集上的表現(xiàn)很好,由于樣本以及特征都是隨機選擇的,因此隨機森林不容易陷入過擬合。
(2)可以處理高維度數(shù)據(jù),不需要進行特征選擇,對數(shù)據(jù)集的適合能力強;處理對象可以是離散型數(shù)據(jù),也可以是連續(xù)型數(shù)據(jù),并且數(shù)據(jù)不需要進行規(guī)范化操作。
(3)在訓練過程中,能夠檢測到特征間的相互影響且得出特征的重要性,具有一定的參考意義。
(4)每棵樹都可獨立、同時生成,容易做成并行化方法
(5)由于實現(xiàn)簡單、精度高、抗過擬合能力強,當面對非線性數(shù)據(jù)時,適合作為基準模型。
梯度提升(Gradient Boosting)方法是一種較新的非參數(shù)機器學習方法[15],主要用于回歸和分類問題的機器學習技術(shù)。 其以弱預(yù)測模型(通常是決策樹)集合的形式產(chǎn)生預(yù)測模型,目前,梯度提升方法在林業(yè)科學領(lǐng)域中的研究與應(yīng)用相對較少。
Gradient Boosting 算法是一種可以使用任何損失函數(shù)(只要損失函數(shù)是連續(xù)可導的)的Boosting算法,其構(gòu)建的模型抗噪音能力更強。 Gradient Boosting 以弱預(yù)測模型(通常是決策樹)集合的形式產(chǎn)生預(yù)測模型[15]。 其在建立子樹時,利用之前子樹構(gòu)建結(jié)果形成的殘差作為輸入數(shù)據(jù),再構(gòu)建下一棵子樹。 最終的估測按照子樹構(gòu)建的順序進行估測,并將估測結(jié)果相加。 Gradient Boosting 可以處理連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù),并且在相對少的調(diào)參情況下,模型的估測效果也會不錯,模型的魯棒性比較強。 但由于各子樹之間存在關(guān)聯(lián)關(guān)系,難以并行訓練模型。
Catboost 算法是由Prokhorenkova L[16](Yandex公司)在2017 年首次提出的,設(shè)計的初衷是為了更好的處理梯度提升樹(Gradient Boosting Decision Tree, GBDT ) 特 征 中 的 categorical features。Catboost 采用的策略在降低過擬合的同時保證所有數(shù)據(jù)集都可用于學習,具有性能卓越、魯棒性與通用性更好、易于使用而且更實用的優(yōu)點。 Catboos 的基本流程是先對所有樣本進行隨機排序,對每一條樣本數(shù)據(jù)都會訓練一個單獨的模型M(M 由不包含這條數(shù)據(jù)的訓練集訓練得到),依次類推,都累加到原來的模型上,得到最終的模型。
Stacking (有時也稱之為stacked generalization)是一種集成學習技術(shù),通過元分類器或元回歸聚合多個分類或回歸模型[17]。 Stacking 集成學習算法集成了各種不同的算法,較徹底地利用不同算法,從不同的數(shù)據(jù)空間和數(shù)據(jù)結(jié)構(gòu)角度對數(shù)據(jù)進行不同估測,增強了算法模型的穩(wěn)健性,得到的結(jié)果一般優(yōu)于單一算法模型。 該算法一般由兩層組成:第一層為基礎(chǔ)層次模型,第二層為元模型。 基礎(chǔ)層次模型是選擇完整的訓練集進行訓練,元模型是基于基礎(chǔ)層次模型的輸出來進行訓練。 基礎(chǔ)層次模型通常是由不同的學習算法組成的,因此集成通常是異構(gòu)的。Stacking 先從初始訓練集中基于各種不同的算法學習出初級學習器,然后生成一個新的數(shù)據(jù)集,用于訓練次級學習器。 在新數(shù)據(jù)集中,每個初級學習器對原始樣本的預(yù)測標記被作為新樣本的輸入特征,而原始樣本的原始標記被作為新樣本的輸出特征。
部分學者已嘗試將機器學習算法應(yīng)用于森林蓄積量估測。 其中,楊柳等[18]以鷲峰林場森林為研究對象,利用3 種機器學習方法(BP 神經(jīng)網(wǎng)絡(luò)、最小二乘支持向量機、隨機森林方法)分別構(gòu)建了森林蓄積量多光譜估測模型,最終結(jié)果顯示采用隨機森林方法建立的多光譜蓄積量模型的精度最高,為森林蓄積量遙感反演估測提供了一種新的方法。 向安民等[19]對黑龍江省某林業(yè)局采用K-近鄰(K-Nearest Neighbor,KNN)方法進行森林蓄積量估測研究,與最小二乘估計和穩(wěn)健估計建模進行對比,KNN 方法建立的森林蓄積量估測精度達到97.3%,并且KNN方法能夠有效克服建模變量間的復(fù)共線性問題。 李圣嬌等[20]的數(shù)據(jù)源為Landsat8 影像,對香格里拉高山松森林蓄積量建立了偏最小二乘法遙感估測模型。
本文對森林蓄積量的研究進展以及4 種機器學習算法做了簡介,闡述了目前機器學習算法在森林蓄積量方面的研究進展。 此外,由于當前森林蓄積量的研究重點是建立森林蓄積量估測模型,因此,本文詳細介紹了隨機森林算法、梯度提升算法、Catboost 算法和Stacking 集成學習算法的4 種模型。盡管機器學習算法在其它領(lǐng)域已被廣泛應(yīng)用,但在林學研究鄰域內(nèi),還有許多研究難點需要克服與探討。 本文認為隨著機器學習算法的不斷研究深入,其在森林蓄積量的研究、甚至是在林學研究領(lǐng)域?qū)〉酶喑晒桶l(fā)展。