張 鑫,楊 超,劉洪斌,武 偉
1. 西南大學(xué)資源環(huán)境學(xué)院,重慶市北碚區(qū)天生路2號 400715
2. 重慶市煙草科學(xué)研究所,重慶市北碚區(qū)天生路2號 400715
3. 西南大學(xué)計算機(jī)與信息科學(xué)學(xué)院,重慶市北碚區(qū)天生路2號 400715
土壤是煙草生長的物質(zhì)基礎(chǔ)。作為土壤性質(zhì)的關(guān)鍵指標(biāo),土壤有機(jī)質(zhì)(Soil organic matter,SOM)和土壤全氮(Soil total nitrogen,STN)受到母質(zhì)、氣候、植被、地形和人類活動的影響而具有高度的空間異質(zhì)性[1-2]。此外,SOM和STN含量(質(zhì)量分?jǐn)?shù))對土壤肥力和煙草植株的生長發(fā)育至關(guān)重要[3-8]。因此,明確SOM和STN含量及其空間分布,對煙區(qū)土壤肥力評估和養(yǎng)分管理有重要意義。近年來,隨著信息技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)算法如隨機(jī)森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)和極端梯度提升(Extreme Gradient Boosting,XGBoost)由于模型參數(shù)較少,計算簡單且不容易過擬合而被廣泛應(yīng)用于土壤屬性空間分布預(yù)測與制圖研究中[9-12]。盧宏亮等[13]利用RF模型對安徽省土壤有機(jī)碳、土壤容重和土壤黏粒含量進(jìn)行了空間分布預(yù)測和制圖。郭澎濤等[14]基于多源環(huán)境變量并使用RF算法對海南島橡膠園土壤全氮含量進(jìn)行預(yù)測,預(yù)測值與實(shí)際測定結(jié)果接近。Ottoy等[15]比較了多種機(jī)器學(xué)習(xí)模型對土壤有機(jī)碳含量的預(yù)測性能,發(fā)現(xiàn)GBDT模型預(yù)測精度最佳。Chen等[16]通過使用RF和XGBoost混合模型對全中國表層土壤pH進(jìn)行預(yù)測并取得了較好效果。然而使用機(jī)器學(xué)習(xí)方法在煙區(qū)進(jìn)行SOM和STN含量預(yù)測和制圖還鮮有報道。重慶市巫山縣篤坪鄉(xiāng)是重要的煙葉產(chǎn)區(qū)之一,具備發(fā)展優(yōu)質(zhì)煙葉的氣候和土壤條件。目前,該區(qū)域SOM和STN含量的空間變化情況及主導(dǎo)環(huán)境因子仍不清楚。為此,比較了RF、GBDT和XGBoost模型對SOM和STN含量的預(yù)測性能,并基于最優(yōu)模型進(jìn)行SOM和STN含量預(yù)測和制圖,旨在確定影響SOM和STN含量空間變化的主要環(huán)境因素。
研究區(qū)位于重慶市巫山縣篤坪鄉(xiāng),地理坐標(biāo)為110°1′~110°10′E,30°49′~30°59′N,總面積132 km2。地勢西高東低,海拔高度在190~1 891 m之間,平均海拔1 364 m(圖1)。亞熱帶季風(fēng)濕潤氣候,四季分明。年均溫度12℃,年均降雨量1 200 mm。成土母質(zhì)主要是三疊系大冶組灰?guī)r和二疊系梁山組灰?guī)r(圖2)。
圖1 研究區(qū)DEM及樣點(diǎn)分布圖Fig.1 Distribution of DEM and sampling sites in the research area
圖2 研究區(qū)環(huán)境因子的空間分布Fig.2 Spatial distribution of environmental factors in the research area
于2017年煙葉采收后進(jìn)行土壤樣本采集,遵循均勻、具有代表性的原則,每個種植單元(8 hm2)取1個樣品,共采集180個土壤樣品(0~20 cm)。土壤樣品登記編號后帶回實(shí)驗(yàn)室,經(jīng)自然風(fēng)干、去雜、過篩后備測。分別采用重鉻酸鉀氧化容量法和自動定氮儀法測定SOM和STN含量(質(zhì)量分?jǐn)?shù))[17]。
小尺度范圍內(nèi)土壤性質(zhì)與地形和成土母質(zhì)間關(guān)系密切。基于30 m×30 m的數(shù)字高程模型(Digital Elevation Model,DEM)并運(yùn)用SAGAGIS 2.2.7軟件[18]提取地形因子。為防止自變量共線而影響制圖精度,在SPSS 25軟件中對地形因子進(jìn)行方差膨脹因子檢驗(yàn)(Variance Inflation Factor,VIF),最終選出通過共線性診斷VIF≤10[19]的8個地形因子:海拔(Ele)、坡度(Slp)、坡向(Asp)、地形濕潤指數(shù)(TWI)、山谷深度(VD)、距河網(wǎng)垂直距離(VDCN)、坡高(SlpH)和中坡位(Midslp),見表1。成土母質(zhì)從1∶50 000重慶地質(zhì)圖中提取。
表1 研究區(qū)環(huán)境變量的選取Tab.1 Environmental variables of the research area
采用RF,GBDT和XGBoost模型對SOM和STN含量的空間分布特征進(jìn)行預(yù)測。其中,3個模型的基本原理參見文獻(xiàn)[20-22]。此外,RF模型有4個重要參數(shù):樹的數(shù)量(n tree)、分割節(jié)點(diǎn)的預(yù)測變量數(shù)(m try)、樹深(TD)和葉片最小數(shù)量(nodesize)。GBDT模型有3個重要參數(shù):樹數(shù)(TN)、學(xué)習(xí)率(LR)和樹深(TD)。XGBoost模型也有3個重要參數(shù):樹數(shù)(TN)、學(xué)習(xí)率(LR)和樹深(TD)。
模型均在Python 3.8環(huán)境下運(yùn)行。為評價模型性能,從原始的180個數(shù)據(jù)集中隨機(jī)抽取20%的數(shù)據(jù)作為驗(yàn)證集。采用平均絕對誤差(Mean Absolute Error,MAE)、均方 根誤 差(Root mean Squared Error,RMSE)和決定系數(shù)(Correlation of Determination,R2)評價模型。其中,MAE和RMSE越小表示預(yù)測精度越高。R2表示模型對預(yù)測變量變異的解釋度。計算公式:
式中:xi表示實(shí)測值;yi表示預(yù)測值;x表示實(shí)測值均值;n表示實(shí)測樣本數(shù)量。
研究區(qū)SOM和STN含量的描述性統(tǒng)計結(jié)果見表2。可以看出,SOM和STN含量平均值分別是32.40 g/kg和2.01 g/kg,變化范圍分別為10.28~77.15 g/kg和0.71~4.93 g/kg。整體來看,驗(yàn)證集的SOM和STN含量平均值高于訓(xùn)練集。另外,SOM和STN含量均為中等程度變異(25%~75%),偏度均大于1,經(jīng)對數(shù)轉(zhuǎn)換后數(shù)據(jù)符合正態(tài)分布。
表2 研究區(qū)采樣點(diǎn)SOM和STN含量的描述性統(tǒng)計分析Tab.2 Descriptive statistics of SOM and STN of sampling sites
SOM和STN含量與地形因子間的相關(guān)性見表3。表3結(jié)果表明,SOM和STN含量呈極顯著正相關(guān)。SOM含量與海拔呈正相關(guān),與其他地形因子均呈負(fù)相關(guān)。STN含量與所有地形因子均呈負(fù)相關(guān),其中與海拔和坡度呈顯著負(fù)相關(guān),與坡向呈極顯著負(fù)相關(guān)。
表3 SOM和STN含量與地形因子間的相關(guān)性①Tab.3 Correlations between SOM or STN contents and topographic factors
兩種成土母質(zhì)下SOM和STN含量均值比較見表4。結(jié)果表明,成土母質(zhì)為二疊系梁山組灰?guī)r發(fā)育的土壤SOM(39.95 g/kg)和STN(2.59 g/kg)含量顯著高于三疊系大冶組灰?guī)r發(fā)育土壤。
表4 兩種母質(zhì)SOM和STN含量比較①Tab.4 SOM and STN contents in two parent materials
為提高預(yù)測精度,對各模型進(jìn)行參數(shù)調(diào)整與優(yōu)化。經(jīng)多次驗(yàn)證后得到各個模型的參數(shù)。對于RF模型,預(yù)測SOM含量最合適的n tree、m try、TD和nodesize分別是500、2、5和6,預(yù)測STN含量的參數(shù)分別是500、2、5和7。對于GBDT模型,預(yù)測SOM含量的參數(shù)(TN、LR和TD)設(shè)置為120、0.02和3,預(yù)測STN含量的參數(shù)設(shè)置為100、0.04和3。XGBoost模型的參數(shù)在兩種土壤指標(biāo)預(yù)測中均設(shè)置為100、0.05和3。
模型的預(yù)測性能如表5和圖3所示。對于SOM含量的預(yù)測,RF、GBDT和XGBoost在驗(yàn)證集中的R2分別為0.583 7、0.616 7和0.554 3。同時,GBDT模型 的MAE(4.81 g/kg)高于RF(4.7 g/kg)和XGBoost(4.78 g/kg)模型,RMSE(5.94 g/kg)低于RF(6.16 g/kg)和XGBoost(6.41 g/kg)模型。對于STN含量的預(yù)測,GBDT模型的R2(0.746 8)也高于RF(0.722 0)和XGBoost(0.686 1)模型,而MAE(0.25g/kg)和RMSE(0.34 g/kg)均 低 于RF和XGBoost模型。整體上,GBDT模型預(yù)測誤差較小且解釋了SOM和STN含量空間變異的61.67%和74.68%,可作為預(yù)測最佳模型。
表5 不同模型的預(yù)測性能比較①Tab.5 Predictive performances of different models
圖3 基于GBDT模型的SOM(a)和STN(b)含量實(shí)測值和預(yù)測值散點(diǎn)圖Fig.3 Scatter plots of measured and predicted contents of SOM(a)and STN(b)based on GBDT models
圖4是各個環(huán)境變量的重要性(百分比)排序,重要性大于10%表明該變量在一定程度上影響著SOM和STN含量的空間分布。圖4結(jié)果表明,影響SOM含量的主要環(huán)境因子是Par(22.49%)、Ele(17.86%)、TWI(15.10%)和VD(14.78%),影響STN含量的主要環(huán)境因子是Par(32.71%)、SlpH(17.76%)和Ele(10.32%)??傮w上來看,成土母質(zhì)和地形因子均在一定程度上影響著SOM和STN含量的空間分布。
圖4 基于GBDT模型的SOM(a)和STN(b)的環(huán)境因子重要性Fig.4 Importance of environmental factors for SOM(a)and STN(b)based on GBDT models
基于GBDT模型的SOM和STN含量在旱地的空間分布預(yù)測結(jié)果見圖5。由圖5可見,SOM預(yù)測值的變化范圍為19.76~66.14 g/kg,STN預(yù)測值的變化范圍為1.04~4.43 g/kg,其空間分布均受到成土母質(zhì)的影響。從同種母質(zhì)的空間分布來看,二疊系梁山組灰?guī)r發(fā)育的土壤SOM和STN含量在高海拔區(qū)較高,低海拔區(qū)較低。三疊系大冶組灰?guī)r發(fā)育的土壤SOM和STN含量整體偏低。
圖5 基于GBDT模型的SOM(a)和STN(b)含量空間分布預(yù)測Fig.5 Spatial distribution predictions on SOM(a)and STN(b)contents based on GBDT models
通過對比3種機(jī)器學(xué)習(xí)模型對植煙區(qū)SOM和STN含量的預(yù)測性能發(fā)現(xiàn),RF和GBDT模型表現(xiàn)出較好的預(yù)測性,而XGBoost模型則在訓(xùn)練集上表現(xiàn)出過擬合。這說明RF和GBDT模型在預(yù)測SOM和STN含量方面較為穩(wěn)定,避免了模型過擬合,這與前人的研究結(jié)果一致[14,23-24]。但相較于RF模型,GBDT模型運(yùn)行速度更快,學(xué)習(xí)效率更高,最終表現(xiàn)出的預(yù)測精度更高且對SOM和STN含量空間變異的解釋能力也更強(qiáng)。說明在小尺度的植煙區(qū)域,GBDT模型對SOM和STN含量的預(yù)測有較好的效果。
本試驗(yàn)中發(fā)現(xiàn),成土母質(zhì)對SOM和STN含量的預(yù)測最為重要,這與前人的研究結(jié)果基本相符[14,25]。本研究中SOM和STN含量在兩種母質(zhì)中出現(xiàn)較大差異,其空間分布預(yù)測也與研究區(qū)母質(zhì)的空間分布基本一致。是因?yàn)樵搮^(qū)域三疊系地層下的巖石主要是灰?guī)r、白云巖、礫巖和石英砂巖,而二疊系地層下的巖石主要是灰?guī)r、頁巖和硅質(zhì)巖?;?guī)r、頁巖和硅質(zhì)巖受化學(xué)溶解風(fēng)化的影響,形成的土壤顆粒較細(xì)、黏粒含量高,有利于有機(jī)肥等的吸收利用[26-27]。本研究中解釋了SOM和STN含量空間變異的61.67%和74.68%,考慮到制圖的準(zhǔn)確性,需要進(jìn)一步對模型進(jìn)行優(yōu)化,同時考慮在兩種成土母質(zhì)附近采集更多樣點(diǎn)以增強(qiáng)SOM和STN含量空間預(yù)測的準(zhǔn)確性。
基于3種機(jī)器學(xué)習(xí)模型(RF、GBDT和XGBoost)對SOM和STN含量進(jìn)行數(shù)字土壤預(yù)測制圖,通過在重慶典型植煙區(qū)巫山縣篤坪鄉(xiāng)的應(yīng)用結(jié)果表明:①RF、GBDT和XGBoost模型對SOM含量的預(yù)測的R2分別為0.583 7、0.616 7和0.554 3,對STN含量預(yù)測的R2分別為0.722 0、0.746 8和0.686 1。GBDT模型可以解釋SOM和STN含量空間變異的61.67%和74.68%,可作為植煙區(qū)SOM和STN含量預(yù)測的最優(yōu)模型。②環(huán)境因子對SOM含量影響的排序依次為成土母質(zhì)>海拔>地形濕度指數(shù)>山谷深度,對STN含量影響的排序依次為成土母質(zhì)>坡高>海拔。成土母質(zhì)均排名首位,顯著影響研究區(qū)SOM和STN含量的空間變異。