張勞模 羅鵬 龐麗峰 唐小明
(中國林業(yè)科學研究院資源信息研究所,北京,100091)
全球氣候變化使植物的分布區(qū)域也隨之發(fā)生改變,研究植被的潛在分布顯得越來越重要[1-4]。植被的分布主要受到生物因素和非生物因素的共同作用,其中以溫度和降水等非生物因素最為重要。近些年來,隨著數(shù)學方法和地理信息技術(shù)的發(fā)展,建立了多種潛在物種分布模型,其中主要以物種分布模型(SDMs)和數(shù)據(jù)挖掘模型應用最為廣泛。典型的物種分布模型主要有MaxEnt[5]、BIOCLIM[6]、PORSKA[7]、GAM[8]、GLM[9]、LANDIS[10]等。數(shù)據(jù)挖掘模型主要有隨機森林和分類回歸樹(CART)等。
在SDMs模型之中,最大熵模型(MaxEnt)是最可靠的模型之一[11-13]。MaxEnt模型是基于Jaynes于1957年提出的最大熵理論而建立的模型[14],而Philips將最大熵模型首次應用于物種分布[5]。MaxEnt模型在使用時,需要物種的分布數(shù)據(jù)和環(huán)境變量數(shù)據(jù),一般使用經(jīng)緯度來表征物種的分布點,而環(huán)境變量數(shù)據(jù)通常包括溫度和降水等氣候數(shù)據(jù),也包含地形地貌和植被覆蓋等信息。利用MaxEnt模型模擬物種的潛在分布結(jié)果時,對于數(shù)據(jù)量的要求比較低,即使數(shù)據(jù)有部分缺少或者樣本容量很小的情況下,依舊可以模擬出較為合適的結(jié)果[15]。目前,利用MaxEnt模型對不同尺度范圍的物種潛在分布和適宜性評價均有研究[16-20],對MaxEnt模型本身模型精度和不確定性分析以及不同物種分布模型之間的差異也有相關(guān)研究[21-24]。
近年來,數(shù)據(jù)挖掘模型也是在物種潛在分布研究中運用較為廣泛的一類模型,其中以隨機森林的模型的運用最為廣泛。隨機森林模型是典型的弱分類器組合成為強分類器的模型,利用隨機森林模型進行分析時,樣本抽樣和特征數(shù)的選取都是隨機的,每棵樹自由生長,不進行修剪,結(jié)果依靠平均值或者投票獲得[25]。目前,隨機森林模型不僅對云南松和蕎麥等植物物種以及白冠長尾雉、中華穿山甲和藏酋猴等動物物種進行了潛在分布模擬,而且也對城市需水量預測、林火發(fā)生概率模擬等[26-30]。
目前,對于MaxEnt模型和隨機森林模型單獨的研究成果有很多,但是對于這兩個模型之間的對比研究還相對較少,為了探究這兩個模型之間對于某一物種潛在分布的預測結(jié)果的差異,我們利用東北紅松作為研究對象,討論兩種模型的精度差別和模擬結(jié)果的差異。
東北林區(qū)是我們國家最大天然林區(qū),尤其是大興安嶺、小興安嶺和長白山地,森林資源十分豐富,林地面積和蓄積量分別占全國林地總面積和森林總蓄積量的27%和30%。該地區(qū)地形主要以山地和平原為主,海拔最高點是位于吉林省,海拔2 691 m。東北地區(qū)普遍緯度較高,冬長夏短,年均氣溫6 ℃,年降水量為400~1 000 mm。主要樹種為紅松(PinuskoraiensisSieb. et Zucc.)、落葉松(Larixgmelinii(Rupr.) Kuzen.)、蒙古櫟(QuercusmongolicaFisch. ex Ledeb)、水曲柳(FraxinusmandshuricaRupr.)和樟子松(Pinussylvestrisvar.mongolicaLitv.)等。紅松是我國重要的珍貴樹種,同時也是國家儲備林樹種之一。成熟紅松樹高可達40 m以上,胸徑1~2 m。由于特殊的地理和氣候條件,紅松主要分布在中國的東北部,即小興安嶺和長白山附近[31](見圖1)。近年來,由于氣候變化和人類活動增加,紅松的數(shù)量正在逐漸減少。因此,探究紅松可能的分布范圍和適宜區(qū)域,對于紅松的保護具有重要的意義。
在國家森林資源連續(xù)清查數(shù)據(jù)中收集了東北地區(qū)159個紅松分布點。國家森林資源連續(xù)清查,也叫做一類調(diào)查,是一種森林資源調(diào)查方法,調(diào)查內(nèi)容包括土地利用與覆蓋、森林資源、森林生態(tài)狀況、林業(yè)生產(chǎn)和社會經(jīng)濟情況調(diào)查等項目。國家森林資源連續(xù)清查數(shù)據(jù)為自然條件下生長的紅松數(shù)據(jù),不包括人工種植以及移栽等其他因素獲得的數(shù)據(jù)。
氣候數(shù)據(jù)來源于世界氣象(http://www.worldclim.org),其中包括了19個環(huán)境變量(年平均溫度、晝夜溫差月均值、等溫性、溫度季節(jié)變化標準差、最暖月最高溫、最冷月最低溫、氣溫年變化范圍、最濕季度平均溫、最干季度平均溫、最暖季度平均溫、最冷季度平均溫、年平均降水量、最濕月降水量、最干月降水量、降水量變異系數(shù)、最濕季度降水量、最干季度降水量、最暖季度降水量、最冷季度降水量),這些數(shù)據(jù)是根據(jù)世界各地氣象站1950—2000年的觀測數(shù)據(jù),通過空間插值實現(xiàn)的柵格數(shù)據(jù)集,被廣泛用于生態(tài)系統(tǒng)的相關(guān)研究,空間分辨率為1 km。地形數(shù)據(jù)是來源于地理空間數(shù)據(jù)云(http://www.gscloud.cn),分辨率為1 km的數(shù)字高程模型(DEM)數(shù)據(jù),并利用軟件輸出坡向和坡度信息。土壤數(shù)據(jù)下載自來源于寒區(qū)旱區(qū)科學數(shù)據(jù)中心(http://westdc.westgis.ac.cn),該數(shù)據(jù)是聯(lián)合國糧農(nóng)組織(FAO)和維也納國際應用系統(tǒng)研究所(IIASA)所構(gòu)建的世界土壤數(shù)據(jù)庫(HWSD),空間分辨率為1 km,土壤因子包括上層土壤碎石體積分婁、上層土壤中沙體積分數(shù)、上層壤土質(zhì)量分數(shù)、上層土壤黏土質(zhì)量分數(shù)、上層土壤有機碳質(zhì)量分數(shù)、下層土壤碎石體積分婁、下層土壤中沙體積分數(shù)、下層壤土質(zhì)量分數(shù)、下層土壤黏土質(zhì)量分數(shù)、下層土壤有機碳質(zhì)量分數(shù)。
圖1 研究區(qū)與紅松分布位置點
判定最大熵模型和隨機森林模型本身建模精度的指標為AUC(曲線下面積)。AUC是ROC曲線與橫坐標之間所形成區(qū)域的面積,由縱坐標的特異性和橫坐標的敏感性構(gòu)成。在圖2中,紅色曲線為ROC曲線,是以真陽性率(判定為正例,也是真正例的概率)為縱坐標,假陽性率(判定為正例,但卻不是真正例的概率)為橫坐標繪制的曲線,而曲線與橫坐標軸圍成的圖形面積(AUC),對于判斷模型本身預測能力和準確程度有著良好的應用成果,AUC通常為0.5~1.0。AUC為0.5~0.6,模型預測失敗,模型本身不具備預測能力;AUC為0.6~0.7,模型本身的預測能力很差,這種情況下的預測結(jié)果通常不予采納;AUC為0.7~0.8,預測能力一般;AUC為0.8~0.9,表示模型具備很好的預測能力;AUC為0.9~1.0是預測精度最高。
圖2 ROC曲線
2.3.1 MaxEnt模型構(gòu)建
MaxEnt生態(tài)位模型是通過收集物種的已知地理分布信息和相關(guān)環(huán)境因子,對物種的潛在適生分布區(qū)域及影響因子進行模擬分析的空間分布模型。利用MaxEnt模擬物種分布時,首先需要輸入物種在地理空間真實的點位分布數(shù)據(jù),一般用經(jīng)緯度來表示;其次需要輸入相關(guān)的環(huán)境數(shù)據(jù),環(huán)境數(shù)據(jù)要求分辨率和分布范圍相同,否則模型會無法輸出預測結(jié)果。MaxEnt模型預測物種分布的基礎(chǔ)是合理的測試結(jié)果,此部分測試結(jié)果是從輸入數(shù)據(jù)中隨機抽選得到,一般來說,模型會默認從數(shù)據(jù)中選擇70%的數(shù)據(jù)集作為訓練數(shù)據(jù),30%的數(shù)據(jù)集作為測試數(shù)據(jù)。此部分測試數(shù)據(jù)用于構(gòu)建模型,模型是否合理,是否精度達標,直接影響著模擬的結(jié)果。如果測試數(shù)據(jù)集的結(jié)果精度較好,結(jié)果合理,則可以將環(huán)境數(shù)據(jù)代入模型中,進行物種潛在分布模擬。
2.3.2 隨機森林建模過程
隨機森林模型是典型的弱分類器組成為強分類器的例子,“森林”中每個個體都是一棵“決策樹”,每個決策樹單獨運作,但是最后的結(jié)果由整個“森林”決定。對于已知的N個分布數(shù)據(jù)和M個環(huán)境因子,N個分布數(shù)據(jù)中包含了實際分布的紅松點位數(shù)據(jù)和模擬的非紅松分布的點位數(shù)據(jù),在建立模型時,首先需要從N個分布數(shù)據(jù)進行有放回地隨機抽取組成樣本集,得到n棵決策樹,在每棵決策樹進行節(jié)點分裂時,隨機抽取m(m≤M)個環(huán)境因子來與決策樹進行組合匹配,從而得到最為合理的分解組合;其次在每棵決策樹進行生長分裂時,外界不得進行干預和修剪,讓其完全自由“生長”,以確保建模結(jié)果的隨機性與合理性;最后,n棵決策樹組成的隨機森林的分類結(jié)果的眾數(shù)即為最后的結(jié)果。但是,在這一系列操作中,難免會有一些數(shù)據(jù)被遺漏,而這些經(jīng)過了n次隨機抽樣依舊沒有被抽中的數(shù)據(jù),我們將其稱為袋外數(shù)據(jù)(OOB),這些袋外數(shù)據(jù)組成測試數(shù)據(jù),用來對樣本精度進行測試。建立隨機森林模型的關(guān)鍵參數(shù)是n和m,為了最大程度上得到合理的值,在本研究中,采用K折交叉檢驗法。具體來說,對原始數(shù)據(jù)進行隨機組合子集,數(shù)目是K個,這些子集互不相交,每一次過程中,一個子集作為目的子集,用于模型檢驗,其他子集是訓練樣本集,這樣進行K次運算。結(jié)合前人的研究成果,將K設(shè)置為10。經(jīng)過10次運算,結(jié)果顯示,n=500,m=4,即生長的樹的數(shù)目是500,在每一個分裂節(jié)點處樣本預測器的數(shù)目為4最合理。
根據(jù)模型預測能力和精度判斷指標(AUC)可知,MaxEnt模型,訓練數(shù)據(jù)為0.927,檢測數(shù)據(jù)AUC為0.865,均超過0.8,表明預測結(jié)果很準確,模型具備很好的預測能力。隨機森林模型的AUC為0.902,預測精度在最高區(qū)間,表明預測結(jié)果十分精確。從模型精度來看,MaxEnt模型和隨機森林模型的精度基本都在0.9左右,可以滿足模型使用的精度要求,MaxEnt模型的精度略低于隨機森林模型,但是差距較小。
由圖3可知,MaxEnt模型的輸出結(jié)果顯示,各因子的重要性排序有明顯差距,年平均降水、降水量變異系數(shù)、溫度季節(jié)變化標準差等對于紅松的分布影響程度最大,其次是最濕季度降水量、最暖季度降水量、氣溫年變化范圍,其他的環(huán)境因子影響程度相對較小。3類環(huán)境要素對紅松分布的影響重要性順序為氣候要素大于地形要素大于土壤要素。
隨機森林模型的輸出結(jié)果顯示,各因子的重要性排序雖然也有明顯差距,然而排名靠前的幾個因素差距較小,以上層土壤黏土質(zhì)量分數(shù)、下層土壤黏土質(zhì)量分數(shù)、上層土壤有機碳質(zhì)量分數(shù)、下層壤土質(zhì)量分數(shù)、下層土壤有機碳質(zhì)量分數(shù)和上層壤土質(zhì)量分數(shù)等土壤數(shù)據(jù),以及最冷月最低溫、最冷季度平均溫、年平均溫度、溫度季節(jié)變化標準差、氣溫年變化范圍和年平均降水等氣候數(shù)據(jù),對于紅松的分布影響程度最大,并且影響能力相當。3類環(huán)境要素對紅松分布的影響重要性順序為土壤要素大于氣候要素大于地形要素。
圖3 不同模型輸出的環(huán)境變量對物種分布的影響程度排序
由圖4可知,在MaxEnt模型中,最重要的因子為年平均降水,年降水在400~900 mm,對于紅松分布的影響是呈正相關(guān)的關(guān)系,即降水越多,分布概率越大;降水量變異系數(shù)大約為98時,出現(xiàn)明顯拐點,小于拐點值時,函數(shù)趨勢略有增加,大于拐點值,則出現(xiàn)明顯的下降。溫度季節(jié)變化標準差為1 450時,出現(xiàn)明顯拐點,小于拐點值時,函數(shù)呈增加趨勢,但是趨勢較緩,大于拐點值,則出現(xiàn)明顯的下降,并且下降速度較快;最濕季度降水量小于650 mm時,函數(shù)曲線基本沒有變化,之后迅速增加至最大值,隨后保持不變。最暖季度降水量和氣溫年變化范圍的函數(shù)圖像十分相似,最暖季度降水量在270~650 mm、氣溫年變化范圍在35~65 ℃時,函數(shù)值持續(xù)增加,最后達到最大值后保持不變。
圖4 MaxEnt模型輸出的主要環(huán)境因子與紅松分布的關(guān)系
由圖5可知,在隨機森林模型中,排名靠前的土壤屬性為土壤黏土質(zhì)量分數(shù)、土壤有機碳質(zhì)量分數(shù)和土壤壤土質(zhì)量分數(shù),由于上層土壤和下層土壤的函數(shù)圖像基本一致,所以只輸出上層土壤的結(jié)果。選取年平均氣溫、年平均降水和最冷月最低溫對氣象數(shù)據(jù)進行詳細描述。上層土壤黏土質(zhì)量分數(shù)小于5%、土壤有機碳質(zhì)量分數(shù)大于21%、土壤壤土質(zhì)量分數(shù)小于15%,有利于紅松的分布,否則,不利于紅松的生長。對于氣候因子,年平均氣溫在0 ℃以下時,年平均降水在600 mm以下,以及最冷月最低溫在-28 ℃以下時,有利于紅松的生長,否則,不利于紅松的生長。
由圖6可知,紅松最合適的分布區(qū)域為遼寧省東北部和吉林省東南部的交界區(qū)域,在黑龍江的南部也有一片相對較大適生區(qū)域,最小的一片適生區(qū)域分布在黑龍江省的中北部地區(qū);整體上來看,MaxEnt模型所模擬的區(qū)域主要分布在東北地區(qū)的東部,西部地區(qū)基本沒有特別適合紅松生長的區(qū)域。隨機森林模型模擬結(jié)果可以看出,紅松的適生范圍主要分布在遼寧中北部和西南部分地區(qū)、吉林中東部,以及黑龍江省的中東部;隨機森林模擬的紅松潛在分布區(qū)域面積較大基本包含了MaxEnt模型模擬的潛在分布范圍。從整體上看,兩個模型對于紅松的模擬結(jié)果有著很大的重合度,主要集中于東北地區(qū)的中東部,說明東北地區(qū)的中東部最適合紅松的生長。
圖5 隨機森林模型輸出的主要環(huán)境因子與紅松分布的關(guān)系
圖6 紅松潛在分布模擬結(jié)果
圖7 東北地區(qū)年平均降水和年平均氣溫分布
圖8 東北地區(qū)氣候和土壤分布圖
本文利用MaxEnt和隨機森林兩種模型,結(jié)合東北三省氣候、土壤、地形數(shù)據(jù)和紅松分布樣點,分析了兩種模型在模擬紅松潛在分布時的共性與區(qū)別。結(jié)果表明兩個模型精度接近,模型模擬的紅松潛在分布結(jié)果有著很大的重合度,主要集中于東北地區(qū)的中東部,說明東北地區(qū)的東部最適合紅松的生長,但兩個模型的輸出的因子重要性排序結(jié)果卻有顯著差異。
MaxEnt模型認為重要性因子排序順序為氣候、地形和土壤,而且氣候中,年平均降水的重要性最大。由圖7可知,東北地區(qū)的降水空間差異較大,整體呈現(xiàn)由西向東、由北向南的遞增趨勢。溫度條件在該地區(qū)不是限制紅松分布的主要因子,降水的作用顯得更重要。所以紅松主要分布在東北地區(qū)的東部,這片區(qū)域溫度普遍都可以滿足紅松的生長要求,然而和西部地區(qū)相比,該地區(qū)具有充沛的降水量,水分條件成為主要限制因子。
隨機森林模型認為重要性因子排序順序為土壤、氣候和地形,但是因子的重要性程度相差無幾。由圖8可知,東北地區(qū)的土壤空間格局有很明顯的空間差異,西部平原區(qū)在各種土壤理化指標上都和其他地區(qū)有所差異,這種差異很可能導致了紅松的分布范圍偏向于中東部地區(qū)。而最冷月、最低溫、年平均氣溫和年平均降水等氣候數(shù)據(jù)顯示,氣候要素在東北地區(qū)的空間分布上也有一定差異,并且差異也非常明顯,所以氣候要素也成為限制紅松分布的重要因子。
MaxEnt模型和隨機森林模型預測物種潛在分布都有著良好的表現(xiàn),無論是預測范圍還是精度要求都很合理。MaxEnt模型的輸入信息是物種的分布數(shù)據(jù)和環(huán)境數(shù)據(jù),其中分布數(shù)據(jù)只包括實際分布的數(shù)據(jù);而隨機森林中,輸入數(shù)據(jù)同樣是分布數(shù)據(jù)和環(huán)境數(shù)據(jù),但是分布數(shù)據(jù)中不僅包括實際分布的數(shù)據(jù),也包括非分布的數(shù)據(jù),非分布數(shù)據(jù)的選取會對結(jié)果產(chǎn)生很大的影響,如果非分布數(shù)據(jù)的選擇十分合理,也確實選取的區(qū)域沒有紅松的生長分布,則會增加模型的精度,結(jié)果會更加準確,如果選取的數(shù)據(jù)有所偏差,則會適得其反。在本研究當中,非分布數(shù)據(jù)多采樣于遠離分布數(shù)據(jù)的其他區(qū)域,對于這些非分布數(shù)據(jù),如果其所帶有的環(huán)境數(shù)據(jù)與分布數(shù)據(jù)差異較大,則可能成為限制因子,例如隨機森林中的土壤數(shù)據(jù),解釋了為什么最終分布模擬結(jié)果大致類似,而環(huán)境要素重要性排序卻有顯著差異。在研究中,結(jié)合數(shù)據(jù)情況,兩種模型的因子重要性分析結(jié)果都有一定道理,而那種結(jié)果更符合實際情況則是我們接下來需要研究的內(nèi)容。同時,不同類型的訓練樣本對于輸出結(jié)果會產(chǎn)生影響。因此,在構(gòu)建物種分布模型時,需要考慮輸入樣本的合理性,分析樣本對預測物種分布可能造成的影響。