摘" 要:由于參數(shù)設(shè)置等不確定性因素的變化,同一模型預(yù)測(cè)的物種生態(tài)分布可能會(huì)有所不同。因此,量化不同不確定性因素的貢獻(xiàn)對(duì)于減少生態(tài)預(yù)測(cè)的變化至關(guān)重要。然而,很少有研究分析特定模型的建模不確定性。該研究以秦艽為例,探討其分布預(yù)測(cè)的不確定性,重點(diǎn)關(guān)注參數(shù)設(shè)置。首先,采用主成分分析法(PCA)和生態(tài)變量組法(EVGM)篩選環(huán)境因子。參數(shù)設(shè)置使用25%的存在點(diǎn)數(shù)據(jù)和2種缺失點(diǎn)數(shù)據(jù)方法作為測(cè)試方法,建立6套模型,探討存在點(diǎn)測(cè)試集比例對(duì)模型性能的影響,綜合分析訓(xùn)練、測(cè)試AUC值和分布面積,確定物種的最佳模型參數(shù),發(fā)現(xiàn)20%的隨機(jī)測(cè)試抽樣比例是最佳的。該模型不僅可以為秦艽等野生藥材的保護(hù)和生態(tài)規(guī)劃提供指導(dǎo),也能為確定物種空間分布的最優(yōu)模型提供理論參考。
關(guān)鍵詞:參數(shù)設(shè)置;不確定性分析;MaxEnt;秦艽;存在點(diǎn)數(shù)據(jù)
中圖分類號(hào):Q948" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2096-9902(2024)15-0043-04
Abstract: Changes in uncertain factors such as parameter setting can lead to variations in the ecological distribution predicted by the same model. Therefore, quantifying the contributions of different uncertainty factors is crucial for reducing variability in ecological predictions. However, there is limited research analyzing the modeling uncertainty of specific models. This study, using Gentiana macrophylla as an example, explores the uncertainty in its distribution prediction, with a specific focus on parameter settings. Initially, principal component analysis (PCA) and ecological variable grouping method (EVGM) were employed to select environmental factors. Six sets of models were established using 25% of presence point data and two methods for handling missing point data as test methods. The study investigates the impact of the presence point test set proportion on model performance, conducting a comprehensive analysis of training, testing AUC values, and spatial distribution area. The optimal model parameters for species were determined, revealing that a 20% random testing sampling proportion was optimal. This model not only provides guidance for the conservation and ecological planning of Gentiana macrophylla and other medicinal herbs but also serves as a theoretical reference for determining the optimal model for species spatial distribution.
Keywords: parameter setting; uncertainty analysis; MaxEnt; Gentiana macrophylla; presence point data
物種分布模型是基于生態(tài)位理論構(gòu)建的一種數(shù)學(xué)推理模型。此模型已被用于預(yù)測(cè)物種的棲息地狀態(tài)[1],評(píng)估生態(tài)系統(tǒng)對(duì)全球變化的響應(yīng)[2],評(píng)估入侵物種的潛在擴(kuò)散能力[3]等應(yīng)用。此模型預(yù)測(cè)并非對(duì)所有物種都普遍可靠,不同物種的最佳預(yù)測(cè)模型存在差異,探討最佳模型的參數(shù)設(shè)置、優(yōu)化,對(duì)物種的不確定性分析具有重要的意義。
在國(guó)內(nèi),使用MaxEnt模型對(duì)物種分布預(yù)測(cè)的不確定性的研究有限。Chen等[4]探討了樣本量對(duì)MaxEnt預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性的影響,揭示了樣本量對(duì)預(yù)測(cè)的影響很小,隨著樣本量的增加,預(yù)測(cè)精度趨于穩(wěn)定。Lin等[5]討論了MaxEnt預(yù)測(cè)臺(tái)灣飛蛾分布的準(zhǔn)確性和不確定性。目前對(duì)物種分布模型不確定性的研究多集中在模型間比較,很少有分析在廣泛使用的MaxEnt模型中比較基于數(shù)據(jù)質(zhì)量、變量選擇和模型參數(shù)設(shè)置等因素的不確定性,因此,很有必要探討MaxEnt模型建模過(guò)程中的不確定性。
隨著國(guó)內(nèi)外對(duì)中藥材需求的增加,需求的增長(zhǎng)為中藥材提供了發(fā)展機(jī)遇,但也對(duì)野生藥用植物種質(zhì)資源的減少和瀕危構(gòu)成了威脅。胡亂栽培引種必然會(huì)影響藥材適宜生境的合理劃分,削弱藥材的真實(shí)性,導(dǎo)致藥材的功效成分遠(yuǎn)低于藥典標(biāo)準(zhǔn)。因此,對(duì)藥材生境適宜性進(jìn)行分析具有重要意義。然而,預(yù)測(cè)潛在的適宜生境分布涉及各種不確定性,這些不確定性會(huì)影響最終的分布圖,而不準(zhǔn)確的分布圖可能會(huì)誤導(dǎo)實(shí)際生產(chǎn)。因此,有必要探索藥材分布預(yù)測(cè)的不確定性,提高物種分布模型的準(zhǔn)確性,從而為物種的栽培引種提供依據(jù)。本研究以中藥材物種秦艽為例,基于MaxEnt模型,從3個(gè)參數(shù)設(shè)置和2個(gè)變量集方面,考慮不同的隨機(jī)測(cè)試抽樣比例,探討了其分布預(yù)測(cè)的不確定性。研究結(jié)果旨在為未來(lái)的物種分布模型提供參考和有效指導(dǎo)。
1" 方法和材料
秦艽是一種著名的傳統(tǒng)中草藥,以其顯著的治療效果而聞名,被廣泛應(yīng)用于各種疾病的治療。其傳統(tǒng)種植區(qū)主要分布在我國(guó)東北、西北等地區(qū)。此外,MaxEnt模型在宏觀尺度上對(duì)物種分布的預(yù)測(cè)也有較好的效果。因此,本研究選取秦艽作為研究對(duì)象,將中國(guó)國(guó)家級(jí)尺度作為研究范圍。預(yù)測(cè)秦艽的潛在地理分布,具有重要的現(xiàn)實(shí)意義和特殊性。該方法旨在為秦艽資源的保護(hù)和可持續(xù)管理提供科學(xué)依據(jù)。此外,還旨在指導(dǎo)物種引進(jìn)、培育和合理利用的戰(zhàn)略規(guī)劃和布局,從而促進(jìn)相關(guān)地區(qū)的生態(tài)和經(jīng)濟(jì)可持續(xù)發(fā)展。
1.1" 數(shù)據(jù)收集和處理
1.1.1" 秦艽存在點(diǎn)的采集和處理
本文檢索了中國(guó)數(shù)字植物標(biāo)本館(http://www.cvh.org.cn/)和全球生物多樣性信息設(shè)施(GBIF)的數(shù)據(jù),為獲取中國(guó)秦艽的已知分布點(diǎn)提供了便利。在消除重復(fù)坐標(biāo)和缺乏完整信息的標(biāo)本后,篩選出245個(gè)分布記錄。利用ArcGIS繪制網(wǎng)格圖,網(wǎng)格尺寸為1 km×1 km。為了解決存在點(diǎn)成群造成的潛能偏見(jiàn)問(wèn)題,每1 km2網(wǎng)格單元只有一個(gè)存在記錄,排除了多余的存在點(diǎn),通過(guò)此過(guò)程保留了164個(gè)存在點(diǎn)數(shù)據(jù)。
1.1.2" 環(huán)境因素?cái)?shù)據(jù)的收集和處理
19個(gè)全球生物氣候變量(BIO1—BIO19)來(lái)自WorldClim全球氣候數(shù)據(jù)庫(kù)(http://www.worldclim.org/)。然后,利用ArcGIS 10.2對(duì)這些變量進(jìn)行掩膜操作,以提取在中國(guó)的環(huán)境數(shù)據(jù),裁剪每個(gè)生物氣候變量層,以實(shí)現(xiàn)30 s的空間分辨率。此外,高程數(shù)據(jù)來(lái)自美國(guó)宇航局提供的全球數(shù)字高程模型(SRTM 4.1版,http://datamirror.csdb.cn/),具有100 m的空間分辨率。利用Arc Toolbox中的表面分析功能,從高程數(shù)據(jù)中導(dǎo)出坡度和坡向?qū)印?/p>
為確保分析的一致性,本研究中考慮的所有環(huán)境變量均被標(biāo)準(zhǔn)化為1 km2的統(tǒng)一空間分辨率,并在統(tǒng)一的地理坐標(biāo)系內(nèi)對(duì)齊。隨后,對(duì)研究區(qū)域的數(shù)據(jù)進(jìn)行精確提取并轉(zhuǎn)換為ASCII格式。這一過(guò)程最終收集了包含19個(gè)生物氣候因子(BIO1—BIO19)的綜合氣候數(shù)據(jù),以及包含3個(gè)因子(高程ALT、坡度SLP和坡向ASP)的地形數(shù)據(jù),共計(jì)22個(gè)不同的環(huán)境因子。
1.2" 不確定性研究設(shè)計(jì)
1.2.1" 變量選擇
共線性是指解釋變量的相互依賴性,是生態(tài)數(shù)據(jù)的共同特征。許多方法被用來(lái)解釋環(huán)境變量。本研究采用2種變量選擇方法來(lái)篩選變量因子:主成分分析(PCA)和生態(tài)變量組法(EVGM)。
1)PCA在計(jì)算中涉及所有原始變量,去除密切相關(guān)的變量,構(gòu)建盡可能少的新變量,確保新變量不相關(guān),并最大限度地保留反映物種潛在分布的信息。
2)EVGM根據(jù)前人對(duì)秦艽的研究,了解對(duì)秦艽生長(zhǎng)特性相關(guān)的主要環(huán)境因子,選擇這些環(huán)境因子(稱為生態(tài)變量組)參與MaxEnt模型中進(jìn)行物種分布建模、預(yù)測(cè)。
1.2.2" 模型參數(shù)的設(shè)置
本研究主要側(cè)重于模型測(cè)試參數(shù)的設(shè)置和分析。參數(shù)設(shè)置包括使用25%的存在點(diǎn)數(shù)據(jù)(許多研究中常見(jiàn)的比例[6])和2種假缺失點(diǎn)數(shù)據(jù)(Random Selection, RS和Buffer-out方法)作為3種方法的測(cè)試數(shù)據(jù)。模型基于3個(gè)參數(shù)設(shè)置構(gòu)建,在MaxEnt平臺(tái)下,75%的存在點(diǎn)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余25%作為測(cè)試數(shù)據(jù),隨機(jī)選擇種子,迭代次數(shù)設(shè)置為5,迭代類型設(shè)置為子樣本,使用PCA和EVGM 2組變量進(jìn)行建模。選擇這2個(gè)變量集是因?yàn)樗鼈冊(cè)谧兞窟x擇過(guò)程中不涉及測(cè)試比例,從而避免了對(duì)這部分研究的干擾。在每個(gè)變量集下建立了2個(gè)模型,結(jié)合兩類缺失點(diǎn)作為試驗(yàn)數(shù)據(jù),共構(gòu)建了6個(gè)模型。根據(jù)訓(xùn)練和預(yù)測(cè)曲線下面積(AUC)值比較了3個(gè)參數(shù)設(shè)置的有效性,選擇最佳模型,然后將隨機(jī)測(cè)試抽樣比例設(shè)置為10%、15%、20%、25%、30%、35%、40%、45%和50%。在保持原有2組變量的前提下,共構(gòu)建了18個(gè)模型。通過(guò)比較訓(xùn)練AUC值、檢驗(yàn)AUC值和預(yù)測(cè)結(jié)果的分布面積,評(píng)估最佳模型的測(cè)試數(shù)據(jù)集比例。
2" 結(jié)果
2.1" 變量篩選結(jié)果
為了完善建模的環(huán)境變量,本研究采用PCA和EVGM方法作為初步篩選機(jī)制。PCA有助于將22個(gè)影響因素濃縮為最重要的5個(gè)主成分,這些部分的累計(jì)貢獻(xiàn)率為93.108%。選取載荷大于0.8的因子,結(jié)合22個(gè)環(huán)境因子中相關(guān)系數(shù),排除相關(guān)系數(shù)小于0.85的因子,構(gòu)成主成分法變量集。
根據(jù)參考文獻(xiàn)[7],獲得了與秦艽生長(zhǎng)特性相關(guān)的10個(gè)因子,包括8個(gè)氣候變量和2個(gè)地形因子。使用SPSS進(jìn)行Pearson相關(guān)系數(shù)分析,確保變量之間的相關(guān)性小于0.85(表1),并得到最終的EVGM變量集進(jìn)行建模。
最終,本研究生成了2組變量(PCA,EVGM),利用這些變量對(duì)秦艽的分布進(jìn)行建模和預(yù)測(cè),有助于對(duì)變量集之間的不確定性因素進(jìn)行定量比較,詳見(jiàn)表2。這種綜合方法通過(guò)最小化共線性和優(yōu)化環(huán)境變量的選擇來(lái)確保穩(wěn)健的分析,從而對(duì)秦艽的分布進(jìn)行準(zhǔn)確的建模和預(yù)測(cè)。
2.2" 3種參數(shù)設(shè)置的比較
在模型預(yù)測(cè)精度方面,2組變量的3種參數(shù)設(shè)置下的模型訓(xùn)練AUC值在0.856 4~0.890 9之間(表3),表明模型模擬精度較好,預(yù)測(cè)差異很小。對(duì)于25%存在點(diǎn)參數(shù)設(shè)置,測(cè)試AUC值在0.844 1~0.851 4之間,表明模型擬合精度較好;而對(duì)于RS偽缺席點(diǎn)參數(shù)設(shè)置,測(cè)試AUC值在0.4862~0.6659之間波動(dòng)較大,性能較差。同樣,對(duì)于Buffer-out偽缺席點(diǎn)參數(shù)設(shè)置,測(cè)試AUC值在0.734 9~0.750 3之間(表4),表明模型擬合精度適中??梢钥闯?,存在點(diǎn)參數(shù)設(shè)置為25%的模型具有更高的擬合精度,這就是為什么在許多研究中通常使用該比例進(jìn)行測(cè)試。然而,使用25%的存在點(diǎn)比例獲得的模型精度是否總是最好的還有待討論,這是下一小節(jié)的方向。
2.3" 不同測(cè)試比例的性能評(píng)價(jià)
從圖1(a)可以看出,在PCA集下,不同采樣比例下模型的訓(xùn)練AUC值在0.855 2~0.870 9之間,差異不大,表明模型擬合精度較高。測(cè)試AUC值范圍為0.814 8~0.853 5,擬合精度較好。值得注意的是,當(dāng)采樣比例為10%時(shí),測(cè)試AUC值最高,表明測(cè)試精度最高。同樣,由圖1(b)可以發(fā)現(xiàn),在EVGM變量集下,各采樣比例下模型的訓(xùn)練AUC值在0.884 8~0.894 9之間,具有很好的擬合精度。測(cè)試AUC值在0.826 3~0.869 7之間,具有較好的測(cè)試精度。值得注意的是,當(dāng)采樣比例為20%時(shí),測(cè)試AUC值最高,表明測(cè)試精度最高。對(duì)比PCA和EVGM變量集對(duì)模型的檢驗(yàn)結(jié)果,選擇20%的存在點(diǎn)數(shù)據(jù)進(jìn)行檢驗(yàn)時(shí),模型的檢驗(yàn)精度最高為0.853 75,預(yù)測(cè)精度最好。
2.4" 預(yù)測(cè)分布面積對(duì)比
經(jīng)過(guò)MaxEnt模型預(yù)測(cè)分析, 依據(jù)自然分割法將秦艽的潛在分布區(qū)分為4個(gè)等級(jí), 按照分布概率P確定秦艽適生區(qū)等級(jí)劃分:Plt;0.2為非適生區(qū), 0.2≤Plt;0.5為低適生區(qū), 0.5≤Plt;0.7為中適生區(qū), P≥0.7為高適生區(qū)。將2種變量集下不同測(cè)試抽樣比的高適生區(qū)面積與最小適生區(qū)面積(164個(gè)分布點(diǎn)的20 km緩沖區(qū)面積)對(duì)比(圖2),無(wú)論是在PCA變量集還是EVGM變量集下,模型預(yù)測(cè)的分布面積都呈現(xiàn)出一致的趨勢(shì)。當(dāng)測(cè)試抽樣比例為10%和20%時(shí),分布面積范圍最接近實(shí)際分布范圍。但是,當(dāng)測(cè)試抽樣比例為20%時(shí),測(cè)試精度更高。對(duì)于其他測(cè)試采樣比例,預(yù)測(cè)的空間分布范圍隨著比例的增加而略有減小,這與用于訓(xùn)練的存在點(diǎn)的比例有關(guān)。然而,這種關(guān)系并不是嚴(yán)格線性的,并且與各個(gè)采樣點(diǎn)的環(huán)境和位置屬性高度相關(guān)??紤]到最接近實(shí)際分布和準(zhǔn)確指導(dǎo)秦艽生產(chǎn)活動(dòng)的能力,20%的隨機(jī)抽樣比例被認(rèn)為是最佳的。
3" 結(jié)論
模型參數(shù)估計(jì)的不確定性是建模過(guò)程中信息不完整的必然結(jié)果。本文以秦艽為例,基于MaxEnt模型,探討了在3個(gè)參數(shù)設(shè)置和2個(gè)變量集下預(yù)測(cè)其分布的不確定性。模型精度和分布面積預(yù)測(cè)分析表明,采用25%的存在點(diǎn)數(shù)據(jù)進(jìn)行測(cè)試,模型擬合精度較高。通過(guò)基于存在點(diǎn)測(cè)試的建模分析,綜合考慮模型精度和與實(shí)際指導(dǎo)的接近性,確定20%的隨機(jī)測(cè)試抽樣比例為最優(yōu),為確定最優(yōu)物種分布預(yù)測(cè)模型提供了有價(jià)值的參考。
參考文獻(xiàn):
[1] YAN H Y, FENG L, ZHAO Y, et al. Prediction of the spatial distribution of Alternanthera philoxeroides in China based on ArcGIS and MaxEnt [J]. Global Ecology and Conservation, 2020(21): e00856.
[2] YAN H Y, HE J, ZHAO Y, et al. Gentiana macrophylla response to climate change and vulnerability evaluation in China [J]. Global Ecology and Conservation, 2020(22): e00948.
[3] YAN H Y, FENG L, ZHAO Y, et al. Predicting the potential distribution of an invasive species, Erigeron canadensis L., in China with a maximum entropy model [J]. Global Ecology and Conservation,2020(21):e00822.
[4] CHEN X M, LEI Y C, ZHANG X Q, et al. Effects of sample sizes on accuracy and stability of maximum entropy model in predicting species distribution[J]. Scientia silvae sinicae,2012,48(1):53-59.
[5] LIN Y P, DENG D, LIN W C, et al. Uncertainty analysis of crowd-sourced and professionally collected field data used in species distribution models of Taiwanese moths[J]. Biological Conservation,2015(181):102-110.
[6] BYEON D H, JUNG S, LEE W H. Review of CLIMEX and MaxEnt for studying species distribution in South Korea [J]. Journal of Asia-Pacific Biodiversity,2018,11(3):325-333.
[7] 尚忠慧.基于MaxEnt的物種空間分布預(yù)測(cè)不確定性分析——以當(dāng)歸為例[D].西安:陜西師范大學(xué),2016.
基金項(xiàng)目:重慶市教委科學(xué)技術(shù)研究項(xiàng)目(KJQN202215901)
第一作者簡(jiǎn)介:嚴(yán)胡勇(1984-),男,博士,副教授。研究方向?yàn)樯鷳B(tài)信息學(xué)。
*通信作者:張婧月(1990-),女,碩士,副教授。研究方向?yàn)閿?shù)據(jù)挖掘。