顧永昇,丁建麗*,韓禮敬,李 科,周 倩
基于多源環(huán)境變量的渭–庫綠洲土壤顆粒含量預(yù)測研究①
顧永昇1,2,丁建麗1,2*,韓禮敬1,2,李 科1,2,周 倩1,2
(1 新疆大學(xué)地理與遙感科學(xué)學(xué)院智慧城市與環(huán)境建模自治區(qū)普通高校重點(diǎn)實(shí)驗(yàn)室,烏魯木齊 830046;2 新疆大學(xué)綠洲生態(tài)重點(diǎn)實(shí)驗(yàn)室,烏魯木齊 830046)
本文以渭干河–庫車河綠洲(簡稱渭–庫綠洲)土壤顆粒為研究對象,采集了綠洲內(nèi)50個(gè)典型表層(0 ~ 10 cm)土壤樣本,通過相關(guān)軟件,提取到遙感指數(shù)變量、地形和氣候等環(huán)境變量,經(jīng)過相關(guān)性分析確定環(huán)境變量和預(yù)測目標(biāo)間的關(guān)系,使用R語言構(gòu)建了預(yù)測土壤顆粒含量的隨機(jī)森林(random forest,RF)模型和極端梯度提升(extreme gradient boosting,XGBoost)模型。研究結(jié)果表明:XGBoost模型的預(yù)測結(jié)果整體好于RF模型,其中相關(guān)系數(shù)介于0.39 ~ 0.78;土壤pH、高程及衍生變量、光譜變換變量均是兩個(gè)模型預(yù)測土壤顆粒含量的重要因子;將模型預(yù)測結(jié)果、實(shí)測數(shù)據(jù)和世界土壤數(shù)據(jù)庫(HWSD)中的3種土壤顆粒數(shù)據(jù)作對比分析,結(jié)果表現(xiàn)出模型預(yù)測數(shù)據(jù)的誤差小于HWSD與實(shí)測數(shù)據(jù)的誤差。綜上所述,通過篩選環(huán)境變量建立的XGBoost模型,是預(yù)測渭–庫綠洲土壤顆粒含量的有效方法。
土壤顆粒;高光譜;環(huán)境變量;機(jī)器學(xué)習(xí)
土壤顆粒大小是劃分土壤質(zhì)地的主要依據(jù)和重要特征。土壤質(zhì)地受諸多因素影響,同時(shí)它也影響著溶質(zhì)和養(yǎng)分等物質(zhì)在土壤中的運(yùn)移和分布,對提升土壤肥力和農(nóng)業(yè)生產(chǎn)有重要的意義[1]。渭–庫綠洲是新疆主要農(nóng)業(yè)生產(chǎn)區(qū),實(shí)現(xiàn)該區(qū)域土壤顆粒的精準(zhǔn)預(yù)測,對當(dāng)?shù)剞r(nóng)業(yè)生產(chǎn)和土壤質(zhì)量評價(jià)具有現(xiàn)實(shí)意義。
目前機(jī)器學(xué)習(xí)已成為預(yù)測土壤質(zhì)地常用的方法,它具有可以控制模型過擬合、輸出變量重要性等優(yōu)點(diǎn)[2]。劉亞東等[3]通過RF方法在青藏高原地區(qū)分析黏粒含量剖面分布的影響因素,其研究結(jié)果表明,氣候和地形是影響?zhàn)ち:科拭娣植嫉臎Q定性因素。Liu等[4]利用MODIS數(shù)據(jù)的衍生變量,通過構(gòu)建RF模型對江蘇省土壤顆粒、有機(jī)質(zhì)、土壤pH等屬性進(jìn)行了預(yù)測。Lie?等[5]在厄瓜多爾山區(qū),用56個(gè)采樣點(diǎn)比較了回歸樹(RT)和隨機(jī)森林模型(RF)預(yù)測土壤顆粒的結(jié)果。Forkuor等[6]基于Landset遙感數(shù)據(jù),建立了多元線性回歸(MLR)、隨機(jī)森林回歸(RFR)、支持向量機(jī)(SVM)模型預(yù)測土壤顆粒,研究結(jié)果表明機(jī)器學(xué)習(xí)預(yù)測性能優(yōu)于MLR。da Silva Chagas等[7]在用 RF 模型和MLR方法預(yù)測巴西半干旱區(qū)土壤質(zhì)地空間分布時(shí),RF 模型取得更高的預(yù)測精度。高光譜數(shù)據(jù)和光譜變換數(shù)據(jù)是預(yù)測土壤屬性時(shí)常被選用的變量,通過光譜數(shù)據(jù)建立的模型能取得較高的預(yù)測精度[8]。喬天等[9]用篩選出的特征波段,建立土壤質(zhì)地預(yù)測模型,研究結(jié)果比全波段建模預(yù)測結(jié)果更加精確。黃明祥等[10]對海涂砂粒光譜預(yù)處理后,構(gòu)建了預(yù)測砂粒的線性和非線性模型,結(jié)果表明線性模型更加穩(wěn)定可靠。
前人對土壤顆粒預(yù)測時(shí),選擇的環(huán)境輔助變量多為高光譜數(shù)據(jù)、氣候數(shù)據(jù)和地形數(shù)據(jù),結(jié)合環(huán)境變量和高光譜數(shù)據(jù)預(yù)測土壤顆粒含量的研究少有報(bào)道。本文將環(huán)境變量結(jié)合實(shí)測高光譜數(shù)據(jù)作為模型輸入變量,以室內(nèi)實(shí)驗(yàn)獲得的土壤砂粒、粉粒和黏粒含量為預(yù)測目標(biāo),建立RF和XGBoost預(yù)測模型。研究結(jié)果有望為該地區(qū)的土壤監(jiān)測及管理提供數(shù)據(jù)基礎(chǔ)。
渭–庫綠洲位于塔里木盆地中北部,其北靠天山山脈,東臨塔克拉瑪干沙漠,地理位置(80°37′E ~ 83°59′E,41°06′N ~ 42°40′N),綠洲內(nèi)地勢呈西北高東南低。成土母質(zhì)以碳酸鈣巖和鹽巖為主,在風(fēng)化、剝蝕等外力作用下其產(chǎn)物向平原區(qū)匯集。根據(jù)世界土壤數(shù)據(jù)庫(HWSD),按照FAO-90土壤分類系統(tǒng),研究區(qū)內(nèi)主要土壤類型有鹽漠泥砂土(屬于鹽化棕漠土亞類)、火黑土(屬于石灰性灰褐土亞類)、灰淤土(屬灌淤土亞類)。
土壤樣本采集在2017年7月2日至7月6日完成。根據(jù)以往采樣經(jīng)驗(yàn)和綠洲內(nèi)土壤質(zhì)地類別,在采樣區(qū)內(nèi)(30 m × 30 m)用五點(diǎn)采樣法,共采集62個(gè)(0 ~ 10 cm)土壤樣品(圖1)。將采集的樣品混合均勻后裝入密封袋,經(jīng)室內(nèi)實(shí)驗(yàn),剔除異常值和誤差后,獲得50個(gè)有效土壤樣本。
1.2.1 土壤實(shí)驗(yàn)及數(shù)據(jù)處理 根據(jù)土水比1∶5 (∶)配成土壤溶液,經(jīng)沉淀過濾后測定土樣pH和土壤含鹽量(SSC)。土壤含水量(SMC)采用烘箱烘干后用稱重法測定。采用激光粒度儀(Mircotrace S3500)測定土壤粒徑,將測量數(shù)據(jù)按美國制分為:黏粒(< 0.002 mm)、粉粒(0.002 ~ 0.05 mm)、砂粒(0.05 ~ 2 mm)[11]。
圖1 采樣點(diǎn)示意圖
1.2.2 光譜測量及數(shù)據(jù)處理 在暗室環(huán)境下采用FieldSpec3型光譜儀,對每個(gè)樣本測量10次后取均值,即為該樣本的光譜數(shù)據(jù)。去除邊緣噪聲較大的350 ~ 400 nm和2 401 ~ 2 500 nm的光譜曲線,用一階微分(FD)和Savitzky-Golay (SG )平滑方法對其余波段進(jìn)行預(yù)處理。通過SPSS軟件對3種光譜數(shù)據(jù)進(jìn)行主成分(PCA)分析,原始光譜選擇前3個(gè)主成分(YPC1、YPC2、YPC3),一階微分選擇前5個(gè)主成分(FDPC1、FDPC2、FDPC3、FDPC4、FDPC5),SG平滑選擇前2個(gè)主成分(SGPC1、SGPC2),作為模型輸入變量。
在Google Earth Engine(GEE)平臺(tái),獲取2017年7月4日L1T級的Landsat8 OLI 影像,其空間分辨率為30 m,波段運(yùn)算后得到歸一化植被指數(shù)(NDVI)和增強(qiáng)型植被指數(shù)(EVI)。土壤容重(BD)數(shù)據(jù)來源于HWSD,空間分辨率為1 km,下載地址http://data. tpdc.ac.cn;土壤有機(jī)碳(SOC)、陽離子交換量(CEC)數(shù)據(jù)來源于https://soilgrids.org/,空間分辨率250 m,通過ArcMap處理后得到研究區(qū)土壤BD、SOC和CEC數(shù)據(jù)。
在土壤的形成和發(fā)育過程中,受母質(zhì)、時(shí)間、人類活動(dòng)諸多環(huán)境因素影響[12]。因時(shí)間和人類活動(dòng)沒有定量數(shù)據(jù)表達(dá),選擇地形和氣候作為環(huán)境變量。地形(DEM)變量及衍生變量用SAGA GIS軟件計(jì)算,數(shù)據(jù)來源https://www.gscloud.cn,空間分辨率30 m。下載2017年CRU TS氣候數(shù)據(jù)集作為氣候數(shù)據(jù),數(shù)據(jù)來源https://crudata.uea.ac.uk/cru/data/hrg/,分辨率為覆蓋陸地表面0.5°。經(jīng)ArcMap重采樣(30m空間分辨率),得到7月的月均溫(TEM)和月均降水量(PRE)。以上環(huán)境變量見表1。
表1 環(huán)境變量信息
隨機(jī)森林(RF)是多棵決策樹的組合,其中樹彼此間相互獨(dú)立,在多棵樹中完成對樣本的訓(xùn)練和預(yù)測[2]。RF不同于線性回歸要假設(shè)目標(biāo)預(yù)測變量的概率分布,并能夠防止過擬合問題[6]。在R語言中用caret包把樣本數(shù)據(jù)60% 劃為訓(xùn)練集,40% 劃為測試集,可取得較好的預(yù)測效果。模型參數(shù)ntree為 500和1 000,mtry為2、3和5。
極端梯度提升(XGBoost)算法具有正則化、并行處理運(yùn)算、內(nèi)置交叉驗(yàn)證和高度的算法靈活性等優(yōu)勢[13]。其模型結(jié)構(gòu)相對簡單,避免過擬合且準(zhǔn)確率較高。模型參數(shù)eta=0.1,gamma默認(rèn),max-depth=6,nrounds=500。
2用來表示模型預(yù)測精度,RMSE 和 MAE用于計(jì)算模型預(yù)測數(shù)據(jù)的誤差。其計(jì)算公式如下:
50個(gè)采樣點(diǎn)的土壤粒徑統(tǒng)計(jì)結(jié)果如表2所示。研究區(qū)內(nèi)土壤顆粒含量砂粒最多,粉粒其次,黏粒最少。3種土壤顆粒的變異系數(shù)隨著顆粒粒徑的減小而升高,說明研究區(qū)內(nèi)土壤顆粒含量的異質(zhì)性較強(qiáng)。
表2 土壤粒徑描述性統(tǒng)計(jì)(%)
采用SigmaPlot繪制土壤質(zhì)地三重圖(圖2)。根據(jù)美國制土壤質(zhì)地分類標(biāo)準(zhǔn),渭–庫綠洲的土壤質(zhì)地主要為砂壤質(zhì)。
圖2 土壤質(zhì)地三重圖
研究區(qū)內(nèi)土壤采樣點(diǎn)的基本理化屬性和環(huán)境條件如表3所示??梢钥闯霾蓸狱c(diǎn)土壤呈微堿性;SOC含量和NDVI值因綠洲內(nèi)土壤類別和植被覆蓋度的差異而變化較大;CEC是土壤保肥指標(biāo),綠洲內(nèi)的土壤保肥能力處于中等水平。由于綠洲內(nèi)降水少蒸發(fā)量大,加之肥力較好的成土母質(zhì),形成了發(fā)達(dá)的綠洲滴灌農(nóng)業(yè)。
表3 土壤屬性和環(huán)境描述
將預(yù)處理的環(huán)境變量和實(shí)測土壤顆粒數(shù)據(jù)進(jìn)行Pearson分析。由表4可知,pH與砂粒呈負(fù)相關(guān),由于砂粒孔隙度大,在強(qiáng)烈的蒸發(fā)下,土壤水和致酸離子解離后,導(dǎo)致土壤呈酸性。pH與粉粒呈正相關(guān),隨著土壤粒徑的減小,土壤顆粒的保水性能會(huì)提升,土壤顆粒間的OH–和H+彼此交換中改變土壤酸堿性。土壤光譜反射率受顆粒粒徑影響,粒徑大的顆粒之間能保持更多的空氣和水,使得光譜吸收率增加;粒徑小的土壤顆粒,因孔隙度的變小使顆粒間結(jié)合更為緊密,光譜反射率變大[14]。相關(guān)研究表明,光譜數(shù)據(jù)在通過微分變換后,土壤光譜反射率與土壤粒徑呈負(fù)相關(guān)[15]。由于綠洲內(nèi)高程起伏較小,減小了地形對土壤顆粒再次分配的影響,因此地形變量和土壤顆粒有較強(qiáng)的相關(guān)性[16]。
在R語言中對環(huán)境變量進(jìn)行重要性排序(圖3)。兩個(gè)預(yù)測模型中,pH、光譜變換變量和地形變量是預(yù)測砂粒和粉粒含量的重要因子。pH受生物、氣候及人類作用等因素影響,土壤中游離的酸堿離子在土壤溶液交換過程中改變土壤酸堿性[17]。相關(guān)研究表明,變換后的高光譜數(shù)據(jù),在參與建模時(shí)綜合預(yù)測能力好于原始光譜[18]。李愛迪[19]的研究結(jié)果表明:Elevation、TWI等地形因子是預(yù)測土壤質(zhì)地的重要變量。在預(yù)測黏粒含量的變量重要性排序中,兩個(gè)模型的排序出現(xiàn)較大差異,是因?yàn)镽F模型中是用均方誤差作為變量重要性的評價(jià)指標(biāo),XGBoost模型是以變量劃分后對樣本的覆蓋度為變量重要性衡量指標(biāo)。
表4 土壤顆粒與環(huán)境變量的相關(guān)性
注:*、**表示相關(guān)性達(dá)<0.05和<0.01顯著水平(雙尾)。
(A、B、C為RF模型中變量重要性排序;D、E、F為XGBoost模型中變量重要性排序)
模型預(yù)測結(jié)果如表5所示。RF模型對粉粒的預(yù)測效果最好,砂粒次之,黏粒的預(yù)測效果最差。對比RF模型,XGBoost模型的預(yù)測效果,砂粒最好,粉粒次之,黏粒有所提升。預(yù)測單個(gè)土壤顆粒時(shí),XGBoost模型對砂粒的預(yù)測效果最好;RF模型對粉粒預(yù)測有優(yōu)勢,誤差也相應(yīng)減??;XGBoost對黏粒的預(yù)測結(jié)果好于RF模型。從整體預(yù)測結(jié)果來看,XGBoost模型好于RF模型。
表5 土壤顆粒含量預(yù)測精度驗(yàn)證
通過ArcMap提取HWSD中研究區(qū)內(nèi)的土壤顆粒數(shù)據(jù)。對模型預(yù)測數(shù)據(jù)、實(shí)測土壤顆粒數(shù)據(jù)和HWSD中的3種土壤顆粒數(shù)據(jù)的誤差(RMSE、MAE)進(jìn)行對比分析。從圖4中可以看出,本研究中兩個(gè)模型的預(yù)測誤差整體上均小于HWSD和實(shí)測數(shù)據(jù)的誤差。
圖4 數(shù)據(jù)誤差對比
選擇土壤屬性變量、環(huán)境變量和光譜變量等,構(gòu)建了RF和XGBoost預(yù)測土壤顆粒含量模型。從預(yù)測結(jié)果來看(表5和圖4),本文兩種模型的預(yù)測結(jié)果比馬重陽等[20]預(yù)測土壤屬性的結(jié)果有所提升;與da Silva Chagas等[7]預(yù)測干旱區(qū)土壤顆粒的研究結(jié)果相似。模型輸入變量對預(yù)測結(jié)果也有較大影響,在相關(guān)研究中,通過高光譜數(shù)據(jù)建立的預(yù)測模型,相較于只有土壤屬性變量、環(huán)境變量和地形變量建立的預(yù)測模型,能取得更高的預(yù)測精度[21–22]。同時(shí),本研究與前人研究也存在差異之處,魏宇宸等[23]和其他學(xué)者[5,7]在預(yù)測土壤顆粒含量時(shí),RF模型預(yù)測效果最好。本研究中,RF模型在預(yù)測黏粒時(shí)精度較低,可能是因?yàn)镽F模型將FDPC4、CNBL、NDVI環(huán)境變量重要性計(jì)算為負(fù)數(shù)。
徐佳等[24]利用機(jī)器學(xué)習(xí)方法從土壤屬性角度出發(fā),推測關(guān)鍵成土的環(huán)境要素研究中發(fā)現(xiàn),各土壤屬性中pH對地表溫度、年降水量和年均溫環(huán)境變量的貢獻(xiàn)性較高。在本文中,pH也是環(huán)境變量中重要的土壤屬性因子,其對砂粒和粉粒的預(yù)測結(jié)果影響較大。DEM及相關(guān)衍生變量是影響土壤顆粒組成的重要因素,在以往的研究中常被選為預(yù)測土壤顆粒含量的關(guān)鍵因子[25]。在本研究中DEM、CNBL、CND等地形因子,在模型預(yù)測的環(huán)境變量中均占據(jù)較高的重要性。光譜信息是反映土壤屬性的有效數(shù)據(jù),用光譜數(shù)據(jù)建立機(jī)器學(xué)習(xí)評估粒徑含量和分布模型,達(dá)到較高的預(yù)測精度[26]。在本研究中,預(yù)測砂粒和粉粒含量時(shí),有較多的光譜變量參與建模,預(yù)測精度也較高;預(yù)測黏粒含量時(shí),只有較少的光譜變量參與建模,是導(dǎo)致模型預(yù)測精度較低的一部分原因。
實(shí)測土壤顆粒含量數(shù)據(jù)的離散程度,會(huì)對模型預(yù)測結(jié)果產(chǎn)生不確定性的影響[18]。研究區(qū)實(shí)測土壤顆粒數(shù)據(jù)中砂粒和粉粒的分布比較集中,兩種模型預(yù)測精度整體較高;而黏粒數(shù)據(jù)的分布較離散,使RF模型沒有發(fā)揮本有的預(yù)測性能。由于建模樣本量過小,致使本文中出現(xiàn)了驗(yàn)證集對比建模集精度下降的問題。在以后的研究中,應(yīng)采用更加科學(xué)合理的采樣方法以及增加樣本數(shù)量,利用更優(yōu)的環(huán)境變量篩選方法和多種變量組合方案,以降低模型預(yù)測的不確定性,提高預(yù)測精度。
1)通過Pearson相關(guān)性分析得出的環(huán)境變量,構(gòu)建了RF和XGBoost模型預(yù)測土壤砂粒、粉粒、黏粒含量,并取得較好的建模效果。XGBoost模型的預(yù)測精度整體較高,尤其是預(yù)測黏粒含量。
2)數(shù)字高程模型、原始光譜主成分2、土壤pH和月均溫是預(yù)測砂粒含量的重要環(huán)境變量;土壤pH、一階微分主成分2、土壤容重和數(shù)字高程模型等是預(yù)測粉粒含量的重要環(huán)境變量;歸一化植被指數(shù),河網(wǎng)基準(zhǔn)面,一階微分主成分4和谷深是預(yù)測黏粒含量的重要環(huán)境變量。
3)對模型得到的預(yù)測數(shù)據(jù)、實(shí)測數(shù)據(jù)和世界土壤數(shù)據(jù)庫(HWSD)中的土壤顆粒數(shù)據(jù)進(jìn)行對比分析,模型預(yù)測數(shù)據(jù)比HWSD中土壤顆粒數(shù)據(jù)更接近實(shí)測數(shù)據(jù)的范圍。
[1] 張世文, 王勝濤, 劉娜, 等. 土壤質(zhì)地空間預(yù)測方法比較[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2011, 27(1): 332–339.
[2] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5–32.
[3] 劉亞東, 李旺平, 趙林, 等. 青藏高原溫泉地區(qū)土壤黏粒含量剖面分布模式及其影響因素[J]. 土壤, 2021, 53(3): 637–645.
[4] Liu F, Rossiter D G, Song X D, et al. An approach for broad-scale predictive soil properties mapping in low-relief areas based on responses to solar radiation[J]. Soil Science Society of America Journal, 2020, 84(1): 144–162.
[5] Mareike Lie?, Bruno Glaser, Bernd Huwe. Uncertainty in the spatial prediction of soil texture: comparison of regression tree and Random Forest models[J]. Geoderma, 2012, 170: 70–79.
[6] Forkuor G, Hounkpatin O K L, Welp G, et al. High resolution mapping of soil properties using remote sensing variables in south-western Burkina Faso: A comparison of machine learning and multiple linear regression models[J]. PLoS One, 2017, 12(1): e0170478.
[7] da Silva Chagas C, de Carvalho W Jr, Bhering S B, et al. Spatial prediction of soil surface texture in a semiarid region using random forest and multiple linear regressions[J]. CATENA, 2016, 139: 232–240.
[8] 趙明松, 謝毅, 陸龍妹, 等. 基于高光譜特征指數(shù)的土壤有機(jī)質(zhì)含量建模[J]. 土壤學(xué)報(bào), 2021, 58(1): 42–54.
[9] 喬天, 呂成文, 肖文憑, 等. 基于遺傳算法的土壤質(zhì)地高光譜預(yù)測模型研究[J]. 土壤通報(bào), 2018, 49(4): 773–778.
[10] 黃明祥, 程街亮, 王珂, 等. 海涂土壤高光譜特性及其砂粒含量預(yù)測研究[J]. 土壤學(xué)報(bào), 2009, 46(5): 932–937.
[11] 吳克寧, 趙瑞. 土壤質(zhì)地分類及其在我國應(yīng)用探討[J]. 土壤學(xué)報(bào), 2019, 56(1): 227–241.
[12] 丁建麗, 王飛. 干旱區(qū)大尺度土壤鹽度信息環(huán)境建?!孕陆焐侥媳敝械秃0螞_積平原為例[J]. 地理學(xué)報(bào), 2017, 72(1): 64–78.
[13] Chen T Q, Guestrin C. XGBoost: A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA. New York: ACM, 2016: 785–794.
[14] 楊雪紅. 土壤粒徑對土壤光譜特征的影響[J]. 科技信息, 2010(25): 390–391, 154.
[15] 馬創(chuàng), 申廣榮, 王紫君, 等. 不同粒徑土壤的光譜特征差異分析[J]. 土壤通報(bào), 2015, 46(2): 292–298.
[16] 張世文, 黃元仿, 苑小勇, 等. 縣域尺度表層土壤質(zhì)地空間變異與因素分析[J]. 中國農(nóng)業(yè)科學(xué), 2011, 44(6): 1154–1164.
[17] 耿增超, 戴偉. 土壤學(xué)[M]. 北京: 科學(xué)出版社, 2011.
[18] 張雅梅, 施夢月, 王德彩, 等. 基于高光譜的土壤不同顆粒含量預(yù)測分析[J]. 土壤通報(bào), 2021, 52(4): 777–784.
[19] 李愛迪. 地形因素影響下重慶市主要土壤的質(zhì)地類型空間分布預(yù)測研究[D]. 重慶: 西南大學(xué), 2019.
[20] 馬重陽, 孫越琦, 巫振富, 等. 基于不同模型的區(qū)域尺度耕地表層土壤有機(jī)質(zhì)空間分布預(yù)測[J]. 土壤通報(bào), 2021, 52(6): 1261–1272.
[21] 李春蕾, 許端陽, 陳蜀江. 基于高光譜遙感的新疆北疆地區(qū)土壤砂粒含量反演研究[J]. 干旱區(qū)地理, 2012, 35(3): 473–478.
[22] 盧宏亮, 趙明松, 劉斌寅, 等. 基于隨機(jī)森林模型的安徽省土壤屬性空間分布預(yù)測[J]. 土壤, 2019, 51(3): 602–608.
[23] 魏宇宸, 趙美芳, 朱昌達(dá), 等. 基于景觀及微地形特征的丘陵區(qū)土壤屬性預(yù)測[J]. 應(yīng)用生態(tài)學(xué)報(bào), 2022, 33(2): 467–476.
[24] 徐佳, 劉峰, 吳華勇, 等. 基于人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林學(xué)習(xí)模型從土壤屬性推測關(guān)鍵成土環(huán)境要素的研究[J]. 土壤通報(bào), 2021, 52(2): 269–278.
[25] Laborczi A, Szatmári G, Takács K, et al. Mapping of topsoil texture in Hungary using classification trees[J]. Journal of Maps, 2016, 12(5): 999–1009.
[26] Parent E J, Parent S é, Parent L E. Determining soil particle-size distribution from infrared spectra using machine learning predictions: Methodology and modeling[J]. PLoS One, 2021, 16(7): e0233242.
Prediction of Soil Particle Content in Wei-Ku Oasis Based on Multi-source Environmental Variables
GU Yongsheng1, 2, DING Jianli1, 2*, HAN Lijing1, 2, LI Ke1, 2, ZHOU Qian1, 2
(1 Key Laboratory of Smart City and Environment Modelling of Higher Education Institute, College of Geography and Remote Sensing Sciences, Xinjiang University, Urumqi 830046, China; 2 Key Laboratory of Oasis Ecology, Xinjiang University, Urumqi 830046, China)
In this paper, soil particles in the Weigan River-Kuche River Oasis (referred to as the Wei-Ku oasis) were used as the research object, fifty typical surface (0 – 10 cm) soil samples were collected from the oasis, and environmental variables such as remote sensing index variables, topography and climate were extracted through relevant software. After correlation analysis to determine the relationship between environmental variables and prediction targets, a random forest (RF) model and an extreme gradient boosting (XGBoost) model for predicting soil particle contents were constructed using R language. The results show that the prediction results of the XGBoost model are better than those of the RF model, with the correlation coefficients ranging from 0.39 to 0.78. Soil pH, elevation and derivative variables, and spectral transformation variables are all important factors in the prediction of soil particle contents in both models. The errors of model prediction data are smaller than those of HWSD and measured data. In conclusion, the XGBoost model established by screening environmental variables is an effective method for predicting soil particle content in the Wei-Ku oasis.
Soil particles; Hyperspectra; Environmental variables; Machine learning
S152.3
A
10.13758/j.cnki.tr.2023.02.024
顧永昇, 丁建麗, 韓禮敬, 等. 基于多源環(huán)境變量的渭–庫綠洲土壤顆粒含量預(yù)測研究. 土壤, 2023, 55(2): 426–432.
新疆維吾爾自治區(qū)自然科學(xué)基金重點(diǎn)項(xiàng)目(2021D01D06)和國家自然科學(xué)基金項(xiàng)目(41961059)資助。
(watarid@xju.edu.cn)
顧永昇(1995—),男,甘肅武威人,碩士研究生,主要從事干旱區(qū)綠洲水鹽運(yùn)移研究。E-mail:1774600807@qq.com