(云南省林業(yè)調(diào)查規(guī)劃院生態(tài)分院,云南 昆明 650031)
當(dāng)前,研究潛在分布的主要方法有BIOCLIM、MaxEnt、GARP、DOMAIN等模型,都是通過(guò)生態(tài)位理論為基礎(chǔ)預(yù)測(cè)物種的潛在分布和實(shí)際分布。生態(tài)位模型的簡(jiǎn)單模型模擬準(zhǔn)確度通常較低,但是可轉(zhuǎn)移性較好;復(fù)雜模型則恰恰相反,其準(zhǔn)確度較高,但是可轉(zhuǎn)移性差[1]。MaxEnt模型是目前使用最為廣泛的適用于潛在分布的生態(tài)位模型[2-4],該模型最初由美國(guó)普林斯頓大學(xué)基于物理學(xué)的最大熵原理研發(fā)的用于物理分類模型預(yù)測(cè)的軟件[5]。起初,最大熵模型在計(jì)算機(jī)科學(xué)領(lǐng)域得到廣泛應(yīng)用,隨后應(yīng)用于自然語(yǔ)言處理領(lǐng)域[6],后來(lái)被逐漸應(yīng)用于預(yù)測(cè)物種適生區(qū)領(lǐng)域。最大熵模型應(yīng)用于模擬物種空間分布開(kāi)始于美國(guó)學(xué)者Plillips在2004年利用最大熵模型分析影響植物分布的主要環(huán)境因素方面[7],隨后,在國(guó)外的廣泛研究中取得了良好效果[8-10]。在國(guó)外學(xué)者最大熵模型的研究案例中,對(duì)于全球6個(gè)地區(qū)的226種植物的空間分布的研究結(jié)果證明最大熵模型的預(yù)測(cè)精度較為理想[11],對(duì)于2種熱帶哺乳類動(dòng)物空間分布預(yù)測(cè)的研究結(jié)果證明最大熵模型預(yù)測(cè)結(jié)果精確于傳統(tǒng)的遺傳算法[12]。隨后,最大熵理論應(yīng)用于鳥(niǎo)類的空間分布、季節(jié)分布及棲息地選擇等研究領(lǐng)域[13-15]。此外,國(guó)外學(xué)者對(duì)于通過(guò)運(yùn)用最大熵模型確定瀕危動(dòng)物的最優(yōu)保護(hù)區(qū)域[16]、預(yù)測(cè)植物的潛在氣候分布區(qū)[17-18]和未來(lái)適宜生境分布[19-20]等均進(jìn)行了諸多研究。國(guó)內(nèi)最大熵模型的應(yīng)用起始于對(duì)葉疫病菌全球的潛在地理分布預(yù)測(cè)研究[21],隨后又運(yùn)用此模型對(duì)玉米霜霉病在我國(guó)的適生范圍進(jìn)行了預(yù)測(cè)以及賀蘭山巖羊的生境分布區(qū)和環(huán)境影響因子[22]。最大熵模型作為一種物種分布預(yù)測(cè)方法,能夠利用較少的物種存在點(diǎn)信息進(jìn)行預(yù)測(cè)模擬,其預(yù)測(cè)效果較其他模型更為準(zhǔn)確[23]。
MaxEnt模型基于機(jī)器學(xué)習(xí),其在自然語(yǔ)言識(shí)別方面得到了廣泛地應(yīng)用,同時(shí),它也是密度估計(jì)和物種分布預(yù)測(cè)的模型,其基礎(chǔ)是最大熵理論,目前已較為廣泛的應(yīng)用于物種的分布預(yù)測(cè),而且通過(guò)將預(yù)測(cè)結(jié)果進(jìn)行AUC分析后,表明其結(jié)果要優(yōu)于同類預(yù)測(cè)模型,鑒于其在分布點(diǎn)較少的情況下仍能得到較滿意結(jié)果的優(yōu)點(diǎn),其應(yīng)用較為廣泛,也最適用于本研究。研究利用MaxEnt模型,基于59個(gè)華山松林一類清查樣地?cái)?shù)據(jù)作為現(xiàn)存分布點(diǎn)數(shù)據(jù),主要研究多年平均溫度以及坡度等因子對(duì)華山松潛在分布的影響,旨在為華山松林的自然分布及潛在的經(jīng)濟(jì)開(kāi)發(fā)提供科學(xué)依據(jù),也為探索其景觀異質(zhì)性、資源的空間格局及資源的經(jīng)營(yíng)和管理提供參考,同時(shí)也顯示了人工管理對(duì)其生態(tài)系統(tǒng)干預(yù)的強(qiáng)度,對(duì)管理和利用其資源具有重要意義,可為今后林業(yè)管理部門在造林規(guī)劃和空間布局提供一定的輔助決策和方法借鑒。
云南省位于我國(guó)西南邊陲,是中國(guó)最西南方的一個(gè)省份,位于北緯20~30°之間,具有低緯、季風(fēng)、山原等特點(diǎn)。全省總面積約39.4萬(wàn)km2,地形極為多樣化,平均海拔2000m,正常年降水量約1 100mm。據(jù)云南省第四次森林資源規(guī)劃設(shè)計(jì)調(diào)查結(jié)果(2017年2月公布),全省林地面積2607.11萬(wàn)hm2,約占全省國(guó)土面積的68%,森林面積2273.56萬(wàn)hm2。
華山松林的現(xiàn)存分布數(shù)據(jù)來(lái)源于云南省第9次森林資源連續(xù)清查樣地?cái)?shù)據(jù)。云南省抽樣間距為6km×8km(全省共7974個(gè)樣地),樣地規(guī)格為28.28m×28.28m(樣地面積0.08hm2),調(diào)查周期為5年。氣象數(shù)據(jù)來(lái)源于云南省境內(nèi)的31個(gè)國(guó)家一、二級(jí)地面氣象自動(dòng)站1985—2007年間逐日觀測(cè)數(shù)據(jù),包括日均氣溫、日降水量、日均相對(duì)濕度、日照時(shí)數(shù)及日均地表風(fēng)速。據(jù)森林分布特征,在全省7974個(gè)樣地范圍內(nèi),篩選出最具空間代表性的樣地共59個(gè)。
MaxEnt模型首先將目標(biāo)地區(qū)x劃分為有限數(shù)量的網(wǎng)格,令p(x)為p分布賦予各網(wǎng)格的概率,則對(duì)p的估計(jì)分布1/p的最大熵模型如式(1)所示。
式中:c1,c2,…,cn,Z 為常量;f1(x),f2(x),…,fn(x)為目標(biāo)地區(qū)的各種環(huán)境特征方程;H為p分布的熵。
在物種分布無(wú)限制條件的前提下,認(rèn)為該物種在全球范圍內(nèi)等概率分布,此時(shí)熵最大。但是,由于物種分布需要符合生態(tài)位規(guī)則,需滿足某些限定條件。限定條件則是已知物種分布信息的各種環(huán)境特征,但是滿足這些限定條件的分布很多。在執(zhí)行算法前,假設(shè)目標(biāo)地區(qū)各網(wǎng)格的物種等概率均勻分布。由限定條件列出特征方程,計(jì)算目標(biāo)地區(qū)概率分布的熵值。通過(guò)持續(xù)迭代,把已知物種分布地區(qū)的概率分布持續(xù)增加,目標(biāo)地區(qū)概率分布的最大熵也隨之增大,直至達(dá)收斂閾值或執(zhí)行至最大迭代次數(shù),這時(shí)得到的熵最大分布即為最優(yōu)分布。
表1 模型輸入數(shù)據(jù)清單
經(jīng)過(guò)模型的多次運(yùn)算,得到華山松林在各生境因子變量的貢獻(xiàn)值,結(jié)果如圖1所示。分析圖1可確定并選取主導(dǎo)生境因子,分別為: alt(海拔)、bio1~bio7、bio9~ bio19和FAO90(土壤類型)。選取共20個(gè)因子參與模型運(yùn)算。
圖1 各生境因子變量的貢獻(xiàn)值
利用MaxEnt模型,對(duì)華山松林的潛在分布進(jìn)行預(yù)測(cè)模擬,得到預(yù)測(cè)結(jié)果如圖2所示。
圖2 潛在分布預(yù)測(cè)模擬
從圖2分析可知,華山松林在云南的潛在分布區(qū)較為分散,西至怒江州、保山市,南至云南紅河、臨滄,東至曲靖市、昭通市等地區(qū),均存在分布概率。在云南省境內(nèi)以滇東北和滇西北地區(qū)為其集中分布區(qū)。
本研究選取AUC值作為評(píng)價(jià)模型精度的指標(biāo)。MaxEnt模型的AUC值隨樣本容量的增加或減少而保持平穩(wěn)變化,波動(dòng)不顯著,從而證明該模型不受樣本容量的影響,亦不受閾值限制。當(dāng)模型的AUC值大于0.9時(shí),則表明該模型預(yù)測(cè)精度較高(表2)。
表2 模型評(píng)價(jià)指標(biāo)
ROC曲線的基本原理如下:設(shè)定預(yù)測(cè)正確判定標(biāo)準(zhǔn)的閾值,若該值高于標(biāo)準(zhǔn),則預(yù)測(cè)正確;若該值低于該標(biāo)準(zhǔn),則預(yù)測(cè)錯(cuò)誤。判斷預(yù)測(cè)的結(jié)果,首先分別得出正確的、錯(cuò)誤的單列數(shù)據(jù),其后與真值進(jìn)行對(duì)比,從而計(jì)算真陽(yáng)性率、假陽(yáng)性率等。ROC曲線的縱軸表示敏感度,橫軸表示特異度,將ROC工作點(diǎn)標(biāo)在縱軸與橫軸長(zhǎng)度相等的情況下形成的正方形中,再用直線連接各相鄰兩點(diǎn),從而構(gòu)建ROC曲線。若標(biāo)準(zhǔn)較嚴(yán)格,則會(huì)產(chǎn)生較低的靈敏度和較高的特異度,ROC點(diǎn)位于曲線左下方;若標(biāo)準(zhǔn)較寬松,則產(chǎn)生較高的的靈敏度和較低的特異度,ROC點(diǎn)位于曲線右上方。因此,通常采用ROC曲線下面積的AUC值反映檢驗(yàn)結(jié)果的準(zhǔn)確性。
計(jì)算并生成華山松林潛在分布預(yù)測(cè)模型的ROC曲線,如圖3所示。
圖3 精度檢驗(yàn)的ROC曲線
分析圖3可知,華山松林的ROC曲線達(dá)0.993,模型擬合效果達(dá)到“非常滿意”的級(jí)別。上述精度評(píng)價(jià)結(jié)果說(shuō)明MaxEnt模型在預(yù)測(cè)模擬華山松林的潛在分布區(qū)方面的適用性和模擬能力。
本研究最初使用了26個(gè)生境因子參與模型運(yùn)算,得到了較為滿意的預(yù)測(cè)結(jié)果。在MaxEnt模型迭代運(yùn)行完成后,最終確定了影響云南省境內(nèi)的華山松林潛在分布的主導(dǎo)生境因子,計(jì)算了影響華山松林潛在分布的各主導(dǎo)生境因子的貢獻(xiàn)率,結(jié)果如表3所示。
表3 各變量的貢獻(xiàn)率
由表3可知:在對(duì)華山松林潛在分布區(qū)預(yù)測(cè)過(guò)程中,alt海拔、bio4氣溫季節(jié)性變化、bio14最干月降水量、bio6最冷月最低氣溫和bio12年均降水量5因子對(duì)其貢獻(xiàn)最大,占總量的93.9%。
(1)影響天然華山松林空間分布預(yù)測(cè)的環(huán)境因子主要包括:alt海拔、bio4氣溫季節(jié)性變化、bio14最干月降水量、bio6最冷月最低氣溫和bio12年均降水量。
(2)MaxEnt模型預(yù)測(cè)結(jié)果顯示的 ROC 曲線的AUC值為0.993,大于隨機(jī)分布模型的AUC值0.5,說(shuō)明MaxEnt模型可用于預(yù)測(cè)華山松林的理論分布,且不受閾值的影響。
(3)預(yù)測(cè)模擬結(jié)果表明,華山松林的分布較為廣泛,華山松林的潛在分布區(qū)西至西藏錯(cuò)那縣、洛扎縣,南至云南紅河、臨滄,東至臺(tái)北宜蘭縣、湖北神農(nóng)架林區(qū)等地區(qū),北至佛坪縣、寧陜縣等地,均存在分布概率。在云南省境內(nèi)以滇東北和滇西北地區(qū)為其集中分布區(qū)。
一般來(lái)說(shuō),AUC值越高,也就更能夠說(shuō)明MaxEnt模型能準(zhǔn)確地預(yù)測(cè)華山松林在的潛在適生區(qū)范圍。本研究中由ROC曲線得知MaxEnt模型的AUC=0.993,顯著大于隨機(jī)分布模型的AUC值(0.5),且明顯高于前人利用MaxEnt模型對(duì)其它物種潛在分布的值[24-28],因此說(shuō)明本文所選取的環(huán)境影響因子具備較強(qiáng)的代表性。但是,由于部分環(huán)境影響因子是通過(guò)對(duì)全球氣候模式的輸出結(jié)果進(jìn)行降尺度所得,導(dǎo)致預(yù)測(cè)分布結(jié)果在尺度上有一定的局限性,且忽略了局部小氣候?qū)θA山松林的影響,導(dǎo)致模型的模擬結(jié)果不太適用于小尺度的局部區(qū)域研究。另外本研究的各因子的相關(guān)性(若環(huán)境因子存在強(qiáng)烈相關(guān)關(guān)系的,在建模的過(guò)程當(dāng)中容易引起過(guò)度擬合的現(xiàn)象)對(duì)分布結(jié)果的影響還有必要在今后進(jìn)行深入研究。
影響物種分布的因子除了氣候、地形、植被因子和距離因子外,還包括自然地理屏障(懸崖、大河等)、人工斑塊(如農(nóng)業(yè)用地、工業(yè)用地等)、物種間的關(guān)系(捕食、競(jìng)爭(zhēng)、寄生)以及歷史原因等其他生物因子和非生物因子。所以,如何結(jié)合非氣候影響因子對(duì)物種的分布預(yù)測(cè)是將來(lái)需要進(jìn)一步深入探討的問(wèn)題。
此外,華山松是云南地區(qū)森林群落中較為高大的喬木,因其還具備樹(shù)干端直、材質(zhì)好等優(yōu)勢(shì),在區(qū)域生態(tài)保護(hù)和社會(huì)經(jīng)濟(jì)發(fā)展中發(fā)揮著重要作用,然而由于其自然生長(zhǎng)緩慢,致使該物種資源數(shù)量并沒(méi)有顯著提升,所以需要科學(xué)、系統(tǒng)研究歸納其資源空間分布的特征和規(guī)律并進(jìn)行潛在分布區(qū)預(yù)測(cè),以此讓華山松林適度的原地和遷地保護(hù),為保持生物多樣性、保障物種遺傳能力提供理論依據(jù)。