杜雨菲, 吳保國, 陳玉玲
(北京林業(yè)大學(xué) 信息學(xué)院, 北京100083)
桉樹Eucalyptus栽培是廣西林業(yè)生產(chǎn)發(fā)展中的優(yōu)勢(shì)產(chǎn)業(yè)[1]。 作為短周期工業(yè)原料林首選的造林樹種之一, 桉樹效益高、 周期短, 但生長受立地條件影響較大, 規(guī)模栽培時(shí)需要進(jìn)行適宜性研究。 樹種適宜性研究是當(dāng)前開展適地適樹、 造林決策研究的熱點(diǎn)[2]。 王小明等[3]綜合了氣候、 土壤、 地形等環(huán)境因子建立Logistic 回歸模型用以確定香榧Torreya grandis‘Merrillii’ 適宜種植區(qū)域, 模型檢驗(yàn)數(shù)據(jù)集的總正確率達(dá)到了69.8%。 KOO 等[4]基于環(huán)境因子, 建立物種分布模型和時(shí)間模擬模型研究云杉Picea rubens適生區(qū), 模型驗(yàn)證結(jié)果的曲線下面積(area under curve, AUC)達(dá)0.99。 胡秀等[5]基于溫度、 降雨及海拔等環(huán)境因子, 采用MaxEnt 模型軟件構(gòu)建了檀香Sautalum album的適宜性預(yù)測(cè)模型, AUC 值為0.98。 高若楠等[6]選取立地因子, 利用隨機(jī)森林模型研究了杉木Cunninghamia lanceolata的適宜性, 模型泛化精度達(dá)89.5%。 PIRI-SAHRAGARD 等[7]利用隨機(jī)森林模型分別探討了環(huán)境因子與白梭梭Haloxylon persicum等5 種植物分布之間的關(guān)系, AUC 值總體在0.95 以上。 相較于傳統(tǒng)數(shù)學(xué)建模技術(shù), 物種分布模型和機(jī)器學(xué)習(xí)模型在構(gòu)建樹種適宜性評(píng)價(jià)模型時(shí)效果較好。 目前, 應(yīng)用于樹種適宜性研究的機(jī)器學(xué)習(xí)分類算法層出不窮, 但通過對(duì)比分析多種不同的分類算法, 從而進(jìn)行樹種適宜性評(píng)價(jià)的研究相對(duì)較少。 本研究以廣西桉樹為對(duì)象, 使用樸素貝葉斯(naive bayesian, NB)[8]、 支持向量機(jī)(support vector machine, SVM)[9]、隨機(jī)森林(random forest, RF)[10]等3 種機(jī)器學(xué)習(xí)分類算法, 探索立地因子與桉樹適宜性之間的關(guān)系, 開展樹種適宜性研究, 為桉樹適宜性研究提供新思路, 為科學(xué)造林提供支持。
研究區(qū)廣西國有高峰林場(chǎng)(22°49′~23°15′N, 108°08′~108°53′E)地處廣西壯族自治區(qū)南寧市, 屬低丘陵山地地帶, 平均海拔為200~500 m。 亞熱帶季風(fēng)氣候, 年平均氣溫為20.8~21.9 ℃, 年均相對(duì)濕度80%以上。 海拔300 m 以下的土壤絕大部分為赤紅壤[11]。 地理位置、 氣候和土壤條件均十分優(yōu)越, 有利于亞熱帶植物的規(guī)模化種植。
數(shù)據(jù)來源于廣西高峰林場(chǎng)森林資源規(guī)劃設(shè)計(jì)調(diào)查數(shù)據(jù)中的桉樹小班數(shù)據(jù), 包括立地因子、 林分平均年齡、 優(yōu)勢(shì)木平均高。 立地因子包括地貌類型、 海拔、 坡向、 坡位、 坡度、 凋落物厚度、 腐殖質(zhì)層厚度、 土層厚度、 石礫含量、 成土母質(zhì)和土壤類型。 地貌類型有低山、 丘陵2 種, 坡向包括東、 南、 西、北、 東北、 東南、 西北、 西南、 無坡向, 坡位包括脊部、 上坡、 中坡、 下坡、 谷地、 平地, 成土母質(zhì)包括砂巖、 第四紀(jì)紅土, 土壤類型包括赤紅壤、 黃壤、 紅壤。 整理數(shù)據(jù), 剔除缺失嚴(yán)重記錄、 異常數(shù)據(jù),得到桉樹小班數(shù)據(jù)1 883 個(gè)。
1.3.1 樸素貝葉斯算法 樸素貝葉斯算法是一種基于概率論的機(jī)器學(xué)習(xí)分類算法[8]。 針對(duì)桉樹小班數(shù)據(jù)訓(xùn)練集D, 類別集合為yj,y1代表適宜桉樹生長,y2代表不適宜桉樹生長,ai是待分類的小班, 有a1,a2, …,a11共11 個(gè)立地因子。 統(tǒng)計(jì)在各類別下各立地因子的條件概率估計(jì)值, 即估計(jì)第i個(gè)立地因子在第j個(gè)類別中出現(xiàn)的概率P(ai∣yj), 根據(jù)特征獨(dú)立性假設(shè)以及貝葉斯定理, 桉樹適宜性分類結(jié)果(hnb)可用樸素貝葉斯分類器表示為:
1.3.2 支持向量機(jī)算法 支持向量機(jī)是一種二分類機(jī)器學(xué)習(xí)算法[12]。 在由立地因子構(gòu)成的特征空間中尋找1 個(gè)分類超平面對(duì)桉樹小班數(shù)據(jù)訓(xùn)練樣本進(jìn)行歸類(適宜或不適宜), 分類超平面遵循間隔最大化原則。 設(shè)有2 類線性可分的樣本集合(gi,hi),i=1, …,n;hi∈{+1, -1}; 線性判別函數(shù)表示為:
式(2)中: ω 為平面的法向量,b為截距。 通過最大化間隔, 得到最優(yōu)分類面函數(shù)式(3)。 對(duì)線性不可分的數(shù)據(jù), 也可以通過核函數(shù)將其映射到高維空間, 使得樣本線性可分。
式(3)中:a*i是不為零的樣本, 即支持向量,b*是分類闕值。
1.3.3 隨機(jī)森林算法 隨機(jī)森林是一種集成機(jī)器學(xué)習(xí)算法[13]。 采用Bootstrap 重抽樣法對(duì)桉樹小班數(shù)據(jù)訓(xùn)練集D 進(jìn)行n次抽樣, 得到D1、 D2、 …、 Dn共n個(gè)訓(xùn)練子集; 各訓(xùn)練子集分別訓(xùn)練1 棵決策樹, 組成隨機(jī)森林。 在單棵樹的訓(xùn)練過程中, 隨機(jī)選出部分立地因子用以確定決策樹的分割節(jié)點(diǎn), 得到n種結(jié)果; 使用簡單投票法, 得到最多票數(shù)的類別或者類別之一為最終的桉樹適宜性評(píng)價(jià)模型, 輸出結(jié)果見式(4)。
式(4)中:H(x)為組合分類模型;hi(x)為單個(gè)決策樹分類模型;Y為輸出桉樹適宜性的變量;I( )為示性函數(shù)。
1.3.4 模型評(píng)價(jià)指標(biāo) 混淆矩陣(confusion matrix)也稱誤差矩陣(error matrix), 是評(píng)價(jià)模型分類效果的常用的指標(biāo)[14]。 如表1 所示: 混淆矩陣的每一列代表了桉樹適宜性評(píng)價(jià)模型的預(yù)測(cè)類別, 每一行代表該小班真實(shí)的歸屬類別, 主對(duì)角線元素的總和為被正確分類的小班總數(shù)(N)。 模型的精度(A, 包括擬合精度和泛化精度)可用小班數(shù)與小班總數(shù)的比值來表示:
式(5)中:NTP為正類預(yù)測(cè)為正類的小班數(shù);NTN為負(fù)類預(yù)測(cè)為負(fù)類的小班數(shù)。 分類誤差率(classification error rate)為該類別預(yù)測(cè)錯(cuò)誤的小班數(shù)與該類別小班總數(shù)的比值, 包括模型對(duì)于桉樹生長適宜性的分類誤差率[式(6)]和不適宜性的分類誤差率[式(7)]。 精度、 生長適宜性的分類誤差率(ε1)和不適宜性的分類誤差率(ε2)通常作為衡量桉樹適宜性評(píng)價(jià)模型判定能力的指標(biāo)[6]。
表1 混淆矩陣Table 1 Confusion matrix
式(6)和式(7)中:NFN為正類預(yù)測(cè)為負(fù)類的小班數(shù);NFP為負(fù)類預(yù)測(cè)為正類的小班數(shù)。
樹種適宜性評(píng)價(jià)標(biāo)準(zhǔn)最常用的是地位指數(shù)(site index, SI)[6], 各小班地位指數(shù)可通過林分平均年齡和優(yōu)勢(shì)木平均高得到[15]; 地位指數(shù)小于平均值的小班判定為不適宜桉樹生長, 大于或等于平均值的判定為適宜桉樹生長[6]。 本研究的1 883 個(gè)樣本數(shù)據(jù)中, 適宜桉樹生長的樣本有1 005 個(gè), 不適宜的有878個(gè), 樣本量存在一定的不平衡性。 利用機(jī)器學(xué)習(xí)算法解決分類問題時(shí), 數(shù)據(jù)集不平衡會(huì)對(duì)模型效果造成影響, 因此需要進(jìn)行平衡化處理。 在不損失原始樣本的前提下, 通過SMOTE 算法[16]對(duì)樣本構(gòu)成做平衡化處理, 共得到樣本量3 512 個(gè), 其中適宜桉樹生長的樣本1 756 個(gè), 不適宜的1 756 個(gè); 將實(shí)驗(yàn)數(shù)據(jù)按70%和30%的比例分為訓(xùn)練樣本和測(cè)試樣本, 分別用于模型的訓(xùn)練和測(cè)試。
使用naiveBayes( )函數(shù)構(gòu)建樸素貝葉斯模型、 svm( )函數(shù)構(gòu)建支持向量機(jī)模型、 randomForest( )函數(shù)構(gòu)建隨機(jī)森林模型。 3 種模型的輸入均為地貌類型、 海拔、 坡向、 坡位、 坡度、 凋落物厚度、 腐殖質(zhì)層厚度、 土層厚度、 石礫含量、 成土母質(zhì), 土壤類型, 輸出均為桉樹生長適宜性。 利用模型評(píng)價(jià)指標(biāo)對(duì)比不同模型, 取最優(yōu)模型確定為桉樹適宜性評(píng)價(jià)模型并進(jìn)行桉樹生長適宜性預(yù)測(cè)。 對(duì)給定立地因子的小班, 將立地因子輸入選取的模型, 輸出該小班適宜桉樹生長的概率, 判斷該小班是否適宜桉樹生長。 進(jìn)行立地因子重要性評(píng)估, 分析立地因子對(duì)桉樹生長的影響, 得出適宜桉樹生長的立地條件。 桉樹適宜性預(yù)測(cè)模型構(gòu)建流程如圖1 所示。
多次訓(xùn)練發(fā)現(xiàn): 樸素貝葉斯、 支持向量機(jī)、 隨機(jī)森林算法構(gòu)建的桉樹適宜性評(píng)價(jià)模型誤差變化均較穩(wěn)定, 混淆矩陣(表2)擬合精度為63.18%、 69.73%和78.03%, 使用測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行檢驗(yàn), 混淆矩陣泛化精度分別為64.33%、 67.93%和78.18%。 與樸素貝葉斯、 支持向量機(jī)算法相比, 隨機(jī)森林算法預(yù)測(cè)精度更高, 可作為桉樹適宜性評(píng)價(jià)的模型。
表2 3 種模型混淆矩陣Table 2 Partial correlation coefficient and its significance test
利用隨機(jī)森林算法構(gòu)建桉樹適宜性評(píng)價(jià)模型并對(duì)桉樹進(jìn)行生長適宜性預(yù)測(cè), 預(yù)測(cè)數(shù)據(jù)為廣西桉樹固定樣地?cái)?shù)據(jù), 各樣地的地位指數(shù)可通過查閱地位指數(shù)表得到[15]。 該數(shù)據(jù)中桉樹的地位指數(shù)的平均值為15.09, 將地位指數(shù)小于平均值的樣地判定為不適宜桉樹生長; 將地位指數(shù)大于或等于平均值的樣地判定為適宜桉樹生長。 隨機(jī)選取5 個(gè)樣本進(jìn)行模型驗(yàn)證, 將立地因子輸入模型, 輸出桉樹適宜性概率及適宜性判斷結(jié)果; 通過與地位指數(shù)的比對(duì)(表3)可知: 本研究使用隨機(jī)森林算法構(gòu)建的桉樹適宜性評(píng)價(jià)模型在實(shí)際中是可以使用的。
圖1 模型構(gòu)建流程圖Figure 1 Flowchart of model building
表3 隨機(jī)森林算法模型判斷結(jié)果Table 3 Predicted results of random forest models
利用隨機(jī)森林算法對(duì)立地因子進(jìn)行重要性評(píng)估[10]。 對(duì)某個(gè)立地因子j隨機(jī)取值, 通過評(píng)估桉樹適宜性評(píng)價(jià)模型分類準(zhǔn)確性下降的程度來評(píng)估j的重要性, 分類準(zhǔn)確性下降程度越大, 說明j越為重要。 計(jì)算方法如公式(8)所示:
式(8)中:Ejr為j的值隨機(jī)后的袋外(out of bag, OOB)誤差,Er為j的值隨機(jī)前的OOB 誤差,NT為分類樹的數(shù)量。 標(biāo)準(zhǔn)化處理后得到的平均準(zhǔn)確度降低程度(mean decrease accuracy, MDA)可用來描述立地因子j的重要性。
對(duì)分類樹節(jié)點(diǎn)作t分割, 計(jì)算使用立地因子j前與使用后基尼指數(shù)的減小值(DGj), 對(duì)所有節(jié)點(diǎn)的DGj求和后再對(duì)所有分類樹NT取平均, 得到平均基尼指數(shù)降低程度(mean decrease Gini, MDG)。 MDG 越大, 立地因子j越重要。 基尼指數(shù)Gini(t)的計(jì)算方法如公式(9)所示。
式(9)中:p(i∣t)為類別i在節(jié)點(diǎn)t處的概率,k為分類結(jié)果數(shù), 在本研究中取值為2。
使用varImpPlot( )函數(shù)對(duì)11 個(gè)立地因子進(jìn)行重要性評(píng)估。 由表4 可知: 不同重要性評(píng)估方法對(duì)立地因子的排序結(jié)果基本一致; 立地因子的重要性排序由高到低依次為: 海拔、 土層厚度、 坡向、 坡度、石礫含量、 凋落物厚度、 坡位、 腐殖質(zhì)層厚度、 土壤類型、 地貌類型、 成土母質(zhì)。
表4 立地因子重要性評(píng)估Table 4 Importance assessment of site factors
選取對(duì)桉樹生長影響最大的2 個(gè)立地因子(海拔和土層厚度), 利用隨機(jī)森林算法進(jìn)行單因素分析。由圖2 可知: 研究區(qū)海拔為200~350 m、 土層厚度為80~100 cm 的地區(qū)比較適合桉樹生長。
圖2 海拔、 土層厚度對(duì)桉樹生長的影響Figure 2 Effects of altitude and soil thickness on growth of Eucalyptus
基于樸素貝葉斯算法、 支持向量機(jī)算法、 隨機(jī)森林算法3 種算法構(gòu)建的模型擬合精度分別為63.18%、 69.73%和78.03%, 泛化精度分別為64.33%、 67.93%和78.18%; 相較于樸素貝葉斯、 支持向量機(jī)算法, 隨機(jī)森林算法對(duì)缺失數(shù)據(jù)不敏感, 在訓(xùn)練的過程中能檢測(cè)到特征與特征之間的互相影響, 模型泛化能力強(qiáng), 具有更高的預(yù)測(cè)精度, 在本研究中分類效果最好。 缺少特征獨(dú)立性假設(shè)和立地因子數(shù)據(jù)是樸素貝葉斯算法分類效果差的原因; 而缺少通用的解決方案, 對(duì)缺失數(shù)據(jù)敏感, 受核函數(shù)的影響較大等導(dǎo)致了支持向量機(jī)算法分類效果欠理想。 本研究采用的多模型對(duì)比為以后其他樹種適宜性研究選取模型提供了參考。
海拔、 土層厚度、 坡向、 坡度等立地因子對(duì)桉樹生長影響較大, 地貌類型、 成土母質(zhì)等則較小。 原因可能是海拔高度、 坡向、 坡度的改變?cè)斐煽諝鉁囟取?空氣濕度、 太陽輻射等變化[6], 從而影響桉樹生長; 土層厚度與土壤養(yǎng)分、 礦元素等密切相關(guān)[17], 研究區(qū)的桉樹種植區(qū)域, 地貌類型和成土母質(zhì)均比較單一, 因此對(duì)桉樹生長的影響并不明顯。 對(duì)海拔、 土層厚度等立地因子的單因素分析發(fā)現(xiàn): 桉樹適宜生長地區(qū)多數(shù)海拔為200~350 m, 土層厚度為80~100 cm。 研究認(rèn)為[18]: 海拔高度低于350 m, 桉樹徑生長隨海拔升高而增粗, 當(dāng)海拔大于350 m, 環(huán)境熱量不足桉樹容易引發(fā)低溫凍害[19]。 土層厚度對(duì)桉樹的影響體現(xiàn)在土壤的營養(yǎng)狀況和給樹木生長提供的養(yǎng)分上[17], 本研究發(fā)現(xiàn)土層越厚, 土壤營養(yǎng)條件越好,也越適宜桉樹生長。 總的來說, 不同的立地因子對(duì)桉樹生長的影響程度不同, 選擇桉樹種植區(qū)域時(shí)應(yīng)客觀考慮各個(gè)立地因子的影響程度, 從而合理地調(diào)整立地條件的組合, 最大程度滿足桉樹生長。
基于機(jī)器學(xué)習(xí)算法構(gòu)建的樹桉樹適宜性評(píng)價(jià)模型可以較好地對(duì)桉樹的適宜性做出預(yù)測(cè), 為科學(xué)造林提供依據(jù)。 樹種適宜性分析不僅要將立地分為適宜該樹種生長以及不適宜該樹種生長, 還可以進(jìn)一步對(duì)其進(jìn)行細(xì)分, 從二分類問題轉(zhuǎn)變?yōu)槎喾诸悊栴}, 進(jìn)一步研究機(jī)器學(xué)習(xí)算法在樹種適宜性分析中的應(yīng)用。