唐茂淞,張楠,李國輝,趙澤藝,李明發(fā),王興鵬,4*
基于機器學習算法的棉田土壤鉀、鈉離子量預測
唐茂淞1,2,張楠1,2,李國輝1,2,趙澤藝1,2,李明發(fā)3,王興鵬1,2,4*
(1.塔里木大學 水利與建筑工程學院,新疆 阿拉爾 843300;2.塔里木大學 現(xiàn)代農(nóng)業(yè)工程重點實驗室,新疆 阿拉爾 843300;3.新疆生產(chǎn)建設兵團第一師水文水資源管理中心,新疆 阿拉爾 843300;4.農(nóng)業(yè)農(nóng)村部西北綠洲節(jié)水農(nóng)業(yè)重點實驗室,新疆 石河子 832000)
【目的】比較4種機器學習方法對南疆棉田土壤K+、Na+量的預測結果,確定一種預測準確度較高的機器學習模型作為可供參考的方法?!痉椒ā坎捎弥С窒蛄炕貧w(SVR)、隨機森林回歸(RFR)、K-最近鄰回歸(KNNR)和梯度提升回歸樹(GBRT)4種機器學習算法,2020年棉田土壤K+、Na+量數(shù)據(jù)訓練模型,2021年實測數(shù)據(jù)進行測試驗證。使用平均絕對誤差()、均方根誤差()和決定系數(shù)(2)對模型預測結果進行評估?!窘Y果】4種模型(SVR、RFR、KNNR和GBRT)對測試樣本K+量預測的分別為0.100、0.169、0.169 g/kg和0.167 g/kg;分別為0.119、0.218、0.218 g/kg和0.223 g/kg;2分別為0.687、0.437、0.430和0.395。對測試樣本Na+量預測的分別為0.841、2.841、2.826 g/kg和2.856 g/kg;分別為1.154、3.658、3.630 g/kg和3.650 g/kg;2分別為0.838、0.299、0.219和0.200。將測試樣本K+、Na+量分別按4個土層深度(0~10、10~20、20~30 cm和30~40 cm)進行預測時,SVR模型的誤差值最小,其對K+量按照4個深度預測的分別為0.122、0.114、0.056 g/kg和0.106 g/kg,分別為0.135、0.135、0.069 g/kg和0.126 g/kg;對Na+量預測的分別為0.540、0.619、0.835 g/kg和1.371 g/kg,分別為0.636、0.748、1.198 g/kg和1.710 g/kg?!窘Y論】SVR模型預測K+、Na+量的精度最高,可推薦作為南疆棉田土壤鉀、鈉離子量預測的一種方法。
南疆棉田;土壤鹽分離子;機器學習;回歸預測模型
【研究意義】降水稀少、蒸發(fā)強烈、氣候干旱及土壤母質含鹽量高是造成南疆土壤鹽漬化嚴重的內(nèi)在因素[1],而不合理的灌溉、施肥及過度開發(fā)則進一步加重了這一過程[2]。土壤中鉀(K+)、鈉(Na+)等離子量過高,將會阻滯作物對養(yǎng)分的吸收、抑制生長進而導致作物產(chǎn)量降低[3-6]?!狙芯窟M展】目前,使用機器學習算法對土壤理化指標進行預測已成為研究的熱點[7-9]。研究表明,支持向量回歸(Support Vector Regression, SVR)模型對土壤體積質量和孔隙度的預測能夠使2分別達到0.867和0.743[10],對土壤含水率的預測效果也較為理想[11]。而基于灰狼優(yōu)化算法的SVR校正模型對土壤鎘量有著更高的預測精度[12]。利用隨機森林回歸(Random Forest Regression, RFR)模型對土壤有機質量的空間分布[13]、土壤pH值預測也能夠取得較好結果[14];當采用遺傳算法和貝葉斯優(yōu)化算法分別對RFR進行改進后,在對土壤含鹽量的反演過程中能夠達到較佳結果[15]。借助K-最近鄰回歸(K-Nearest Neighbor Regression, KNNR)對土壤有機質量的空間分布進行預測[16],對土壤水熱變化趨勢的模擬精度較高[17]。利用梯度提升回歸樹(Gradient Boosting Regression Tree, GBRT)建立的土壤電導率的估算模型表現(xiàn)出較高的預測能力[18],GBRT也在對土壤水分[19]和土壤鎳量[20]的高光譜反演模擬中具有優(yōu)勢?!厩腥朦c】南疆地區(qū)土壤次生鹽漬化程度十分嚴重,離子毒害導致了棉花生產(chǎn)力下降趨勢明顯。為此,如何對上述土壤鹽分離子量進行精確的估算,將會對預判土壤鹽漬化程度及提出適宜的防治措施具有重要意義。【擬解決的關鍵問題】本研究基于不同的鹽分處理,利用SVR、RFR、KNNR和GBRT機器學習預測模型對棉花不同生育階段及不同土層深度的土壤K+、Na+量進行預測,以期為南疆棉田土壤鹽分離子量預測提供一種新的方法。
試驗區(qū)位于新疆生產(chǎn)建設兵團第一師水利灌溉試驗站(40.32°N,81.17°E,海拔1 014 m),屬暖溫帶極端大陸性干旱荒漠氣候,冬季寒冷,夏季炎熱,晝夜溫差大,降水量小,蒸發(fā)量大。試驗站多年平均氣溫11.3 ℃,年平均降水量46 mm,蒸發(fā)量1 877~2 559 mm,日照時間2 950 h,無霜期207 d,地下水埋深3.5~5.0 m,平均含鹽量1.7 g/kg。試驗站土壤質地為沙壤土,0~100 cm土壤平均體積質量為1.56 g/cm3,pH值為8.6。
2020年棉花播種和收獲日期分別為4月26日和10月27日,棉田設置了1 mS/cm(T1)、2 mS/cm(T2)和3 mS/cm(T3)3個鹽分梯度。2021年棉花播種和收獲日期分別為4月22日和11月8日,棉田設置了2 mS/cm(T4)、5 mS/cm(T5)和8 mS/cm(T6)3個鹽分梯度。每個處理3次重復,棉花施肥、除草、打藥、打頂?shù)忍镩g管理措施均與當?shù)剞r(nóng)田一致。
分別在棉花苗期、蕾期、花鈴前期和花鈴后期取土測定土壤鹽分離子量,取樣深度分別為0~10、10~20、20~30 cm和30~40 cm。土樣自然風干后,以土水質量比為1∶5制備浸提液,采用火焰光度計法測定土壤K+、Na+量。
本文采用SVR、RFR、KNNR和GBRT這4種機器學習構建回歸預測模型。訓練樣本為2020年實測的K+、Na+量,2種離子量各有144個訓練數(shù)據(jù)(包括3次重復值),測試樣本為2021年實測的K+、Na+量,2種離子量各有48個測試數(shù)據(jù)(包括3次重復均值)。模型分別以K+、Na+量為因變量,自變量為初始鹽分梯度、土層深度和棉花生育期,分類變量量化標準如表1所示,通過R語言程序進行標準化消除自變量之間的量綱差異。使用、和2對模擬結果進行評估,其中,和越小,模型預測值越接近實測值,2越接近于1,模型擬合性能越好。
表1 分類變量量化標準
1.5.1 支持向量回歸(SVR)
SVR模型是一種廣義線性模型,通過核函數(shù)進行線性回歸處理[21],SVR作為一種最大似然方法,基于結構風險最小化原則可以克服過度擬合的問題[22]。SVR表達式如式(1)所示:
式中:()為回歸函數(shù);和為超平面的系數(shù);∈R;n和*n為 樣本支持向量;(n)為非線性核函數(shù)。
SVR的建模預測流程為:首先將低維特征空間映射到高維空間,再通過線性回歸實現(xiàn)低維特征空間數(shù)據(jù)的預測。SVR作為一種監(jiān)督學習算法,使用對稱損失函數(shù)進行訓練,具有出色的泛化能力和高預測精度。
1.5.2 隨機森林回歸(RFR)
RFR模型是一種典型的機器學習算法,由分類與回歸樹組成,以強大的非線性擬合能力避免了出現(xiàn)過擬合現(xiàn)象[23],結合加權平均原則對決策樹的監(jiān)測結果進行計算后得到最終監(jiān)測結果[24]。RFR表達式如式(2)所示。
式中:為最終監(jiān)測值;為因變量個數(shù);ω()為每個因變量觀測值的權重;Y為因變量的觀測值。
RFR的建模預測流程為:對每棵樹建立一個獨立的決策樹回歸模型,最終預測結果為所有樹的平均值。
1.5.3 K-最近鄰回歸(KNNR)
KNNR模型是一種非參數(shù)模型,基于距離度量找出訓練集中與其最靠近的個訓練樣本,KNNR的歐式距離表達式如式(3)所示。
式中:為測試樣本和指定訓練樣本之間的歐氏距離;為最近鄰樣本數(shù)量;x為第1個點的第維坐標,y為第2個點的第維坐標。
KNNR的建模預測流程為:首先確定距離計算方法,確定值大小,再從訓練集中找到個與測試樣本距離最接近的樣本,最后使用個近鄰的均值作為測試樣本的預測值[25]。KNNR算法的缺點比較明顯,其對近鄰數(shù)的取值比較敏感,若值過小容易引發(fā)過擬合,若值過大可能會增大近似誤差,且KNNR計算樣本需要較長時間,特別當數(shù)據(jù)量很大時,可能會導致內(nèi)存溢出。
1.5.4 梯度提升回歸樹(GBRT)
GBRT模型是一種函數(shù)空間優(yōu)化算法,能適應復雜的非線性關系,GBRT在每一次迭代后產(chǎn)生一個精度不高的弱學習器,每個學習器之間不獨立,最終將弱學習器集成可以實現(xiàn)較高的精度[26]。GBRT表達式如式(4)所示。
式中:m()為最終的模型;為弱學習器的數(shù)量;θ為減少過擬合的系數(shù);f()為弱學習器。
GBRT的建模預測流程為:首先使用一個弱學習器輸出預測結果,再使用第二個學習器去學習特征到殘差的映射,將2個學習器的輸出結果相加得到最終預測結果,經(jīng)過多次迭代后,可得到最終預測結果。GBRT算法本質上是一個基于樹的模型,它集成了由CART算法生成的幾個弱學習器。GBRT方法屬于集成學習的增強類別,對于增強學習算法,得分高的弱學習器將獲得更高的權重。
首先采用 Microsoft Excel 2019錄入和整理試驗數(shù)據(jù),然后分別采用R語言tidyverse程序包、e1071程序包、randomForest程序包、caret程序包、h2o程序包和ggplot2程序包進行數(shù)據(jù)預處理、建立SVR模型、RFR模型、KNNR模型、GBRT模型和作圖。
不同鹽分處理下棉花全生育期內(nèi)0~40 cm土層K+、Na+量均值變化如圖1所示。通過2 a的試驗發(fā)現(xiàn),K+量隨著棉花生育期呈先增加后減少的趨勢,蕾期和花鈴前期的K+量要高于苗期和花鈴后期。Na+量在2020年的試驗中隨著棉花生育期呈下降的趨勢,在花鈴后期達到最小,而在2021年的試驗中,Na+量變化較為穩(wěn)定,各生育階段變化值較小,不同鹽分處理對K+、Na+量影響明顯。
圖1 全生育期K+、Na+量變化
以2020、2021年棉田土壤K+、Na+量實測數(shù)據(jù)為總體樣本。以2020年K+、Na+量為訓練樣本,2021年K+、Na+量為測試樣本,不同離子量統(tǒng)計特征如圖2所示。圖中為樣本數(shù)量,為平均值,為標準差,為變異系數(shù)。由圖2可知,K+量樣本集的變異系數(shù)范圍為38.72%~50.82%,Na+量樣本集的變異系數(shù)范圍為48.8%~73.47%。由于變異系數(shù)均在10%~100%的區(qū)間內(nèi),樣本集均屬于中等變異。從箱線圖可以看出,K+量總體樣本和訓練樣本各出現(xiàn)1個異常值,Na+量總體樣本和訓練樣本分別出現(xiàn)16個和3個異常值,但由于樣本集中的異常值均為極個別情況下對土壤離子量的實測值,故無需對偽異常進行處理。
使用R程序對訓練樣本訓練模型時,需修改svm()函數(shù)的參數(shù),參數(shù)和分別為訓練樣本的自變量和因變量,參數(shù)type選擇“eps-regression”建立回歸預測,參數(shù)kernel選擇“radial”使用高斯核。參數(shù)是進行非線性預測的超參數(shù),超參數(shù)是懲罰因子,由于使用了高斯核則需要對和進行同步優(yōu)化,使建立的模型精度達到最佳。使用試錯法結合bootstrap采樣進行超參數(shù)搜索,通過tune.controls()函數(shù)設置使用“bootstrap”采樣的方法進行參數(shù)搜索,得到超參數(shù)和較優(yōu)取值如表2所示。
圖2 不同離子量的統(tǒng)計特征
表2 SVR模型的超參數(shù)調優(yōu)
SVR模型對訓練樣本和測試樣本的預測結果如表3所示。在訓練樣本中,SVR對Na+量取得的決定系數(shù)最大,2為0.900。在測試樣本中,SVR對Na+量取得的決定系數(shù)最大,2為0.838。綜合來看,SVR對Na+量的預測效果較好。
表3 SVR模型的預測結果
本研究使用R程序對數(shù)值型訓練樣本訓練模型時,randomForest()函數(shù)會根據(jù)輸入變量建立回歸預測模型,參數(shù)和分別為訓練樣本的自變量和因變量,參數(shù)為訓練樣本數(shù)據(jù),超參數(shù)表示生長樹的數(shù)量。使用試錯法結合tuneRF()函數(shù)尋找較優(yōu)的超參數(shù),隨著ntreeTry參數(shù)取值遞增,OBB Error模型誤差先迅速降低,隨后略微增加,在誤差最小處確定超參數(shù)的值,得到超參數(shù)取值如表4所示。
表4 RFR模型的超參數(shù)調優(yōu)
RFR模型對訓練樣本和測試樣本的預測結果如表5所示。在訓練樣本中,RFR對Na+量取得的決定系數(shù)最大,2為0.838。在測試樣本中,RFR對K+量取得的決定系數(shù)最大,2為0.437,但是對Na+量取得的決定系數(shù)較小,2為0.299。綜合來看,RFR對K+量的預測效果較好。
表5 RFR模型的預測結果
本研究使用R程序對訓練樣本訓練模型時,需修改knnreg()函數(shù)的參數(shù),參數(shù)和分別為訓練樣本的自變量和因變量,參數(shù)為訓練樣本數(shù)據(jù),超參數(shù)的值表明近鄰的個數(shù)。隨著近鄰的個數(shù)由0開始增加,模型的預測誤差會快速減小,在近鄰數(shù)取得某個值后誤差會緩慢增大,由此可確定影響模型精度的最佳值,通過程序循環(huán),根據(jù)不同值訓練模型后比較值與誤差的關系,得到超參數(shù)取值如表6所示。
表6 KNNR模型的超參數(shù)調優(yōu)
KNNR模型對訓練樣本和測試樣本的預測結果如表7所示。在訓練樣本中,KNNR對Na+量取得的決定系數(shù)最大,2為0.919。在測試樣本中,KNNR對K+量取得的決定系數(shù)最大,2為0.430,但是對Na+量取得的決定系數(shù)較小,2為0.219。綜合來看,KNNR對K+量的預測效果較好。
表7 KNNR模型的預測結果
在研究使用R程序對訓練樣本訓練模型時,需修改h2o.gbm()函數(shù)的參數(shù),參數(shù)和分別為訓練樣本的自變量和因變量,參數(shù)_為訓練樣本數(shù)據(jù),超參數(shù)和_分別表示樹的個數(shù)和樹的最大深度。通過試錯法結合h2o.grid()函數(shù)進行超參數(shù)網(wǎng)格搜索,使用訓練樣本對GBRT參數(shù)調優(yōu),得到超參數(shù)和_取值如表8所示。
表8 GBRT模型的超參數(shù)調優(yōu)
GBRT模型對訓練樣本和測試樣本的預測結果如表9所示。在訓練樣本中,GBRT對K+量取得的決定系數(shù)最大,2為0.946。在測試樣本中,GBRT對K+量取得的決定系數(shù)最大,2為0.395。綜合來看,GBRT對K+量的預測效果較好。
表9 GBRT模型的預測結果
不同土層深度K+量的模型預測精度如表10和圖3所示,將K+量預測誤差進行對比時發(fā)現(xiàn),SVR模型均取得最低誤差,4個土層深度(0~10、10~20、20~30 cm和30~40 cm)的分別為0.122、0.114、0.056 g/kg和0.106 g/kg,分別為0.135、0.135、0.069 g/kg和0.126 g/kg,表現(xiàn)最優(yōu)。不同土層深度Na+量的模型預測精度如表11和圖4所示,將Na+量預測誤差進行對比時發(fā)現(xiàn),SVR模型均取得最低誤差,4個土層深度的分別為0.540、0.619、0.835 g/kg和1.371 g/kg,分別為0.636、0.748、1.198 g/kg和1.710 g/kg,表現(xiàn)最優(yōu)。因此,SVR模型對以深度分層的土壤K+、Na+量預測取得理想效果。
表10 不同土層深度K+量模型預測精度對比
圖3 不同土層深度K+量預測值與實測值的關系
表11 不同土層深度Na+量模型預測精度對比
圖4 不同土層深度Na+量預測值與實測值的關系
機器學習算法在土壤理化性質預測中具有應用潛力,相關研究表明,通過機器學習算法可以建立可靠有效的模型[27-29]。本研究使用SVR、RFR、KNNR、GBRT模型對棉田土壤的K+、Na+量進行預測,結果表明,SVR模型對K+、Na+量整體測試樣本的預測精度最佳,分別為0.100 g/kg和0.841 g/kg,為0.119 g/kg和1.154 g/kg,2分別達到0.687和0.838。
有研究表明,將不同試驗處理[30]、不同土層深度[31]、不同生育期[32]的樣本數(shù)據(jù)作為輸入變量建立模型是可行的,這與本文的模型構建思路一致。SVR模型和RFR模型可以實現(xiàn)對土壤有機碳的空間分布預測[33],以及反向傳播神經(jīng)網(wǎng)絡適用于土壤墑情預測[34],本文使用4種機器學習算法可以實現(xiàn)對不同土壤離子量的預測,SVR模型對鉀鈉離子的預測精度較高,而RFR、KNNR、GBRT模型的預測效果相對較差。由于本文僅使用2 a試驗數(shù)據(jù),其他模型可能存在樣本數(shù)量的限制而表現(xiàn)的預測精度較低。因此,在后續(xù)的試驗中,可連續(xù)多年在不同的棉田內(nèi)采集樣本數(shù)據(jù),使機器學習回歸預測模型在大量樣本數(shù)據(jù)的訓練下進一步提升預測精度。
本研究位于南疆棉花種植區(qū),由于南疆獨特的土壤理化性質導致土壤含鹽量較高且棉田鹽分空間變異性大,鹽分離子對作物生長產(chǎn)生較為嚴重的影響。土壤母質含鉀鈉礦物比較多是土壤鉀鈉離子主要來源,施肥和灌溉也是影響土壤中鉀鈉離子量的主要因素之一,由于土壤浸提液中鹽分一般以離子的形式存在,土壤電導率可以綜合反映出土壤浸提液中各種陰陽離子量之和,也可以在一定程度上表征土壤的含鹽量[35]。在對鹽漬化土壤進行改良時,精準預測土壤鹽分離子量,對制定適宜的改良措施具有重要的參考價值。本文通過對4種機器學習方法預測南疆棉田土壤K+、Na+量的結果進行比較分析,認為SVR模型能夠較為準確地預測K+、Na+量。在實際應用時,可在棉花播前采集土樣測定土壤K+、Na+量的本底值,再結合SVR模型即可預測出棉花不同生育期各土層的K+、Na+量。
1)K+量和Na+量受鹽分影響明顯,土壤鹽分越高則K+量和Na+量越高,且在棉花生育期內(nèi), K+量隨著棉花生育期呈先增加后減少的趨勢,Na+量隨著棉花生育期呈下降趨勢。
2)在鹽分本底值、棉花生育期及土層深度的多重影響下,建立的SVR模型對土壤K+、Na+量的預測精度最高,可作為南疆棉田土壤K+、Na+量預測的一種方法。
(作者聲明本文無實際或潛在的利益沖突)
[1] 王興鵬. 冬春灌對南疆土壤水鹽動態(tài)和棉花生長的影響研究[D]. 北京: 中國農(nóng)業(yè)科學院, 2018.
WANG Xingpeng. Effects of winter-spring irrigation on soil water-salt dynamics and cotton growth[D]. Beijing: Chinese Academy of Agricultural Sciences, 2018.
[2] 楊濤, 李生梅, 黃雅婕, 等. 海島棉資源自然復合鹽脅迫綜合評價[J]. 核農(nóng)學報, 2021, 35(7): 1 507-1 521.
YANG Tao, LI Shengmei, HUANG Yajie, et al. Comprehensive evaluation of natural compound salt stress of sea-island cotton resources[J]. Journal of Nuclear Agricultural Sciences, 2021, 35(7): 1 507-1 521.
[3] 屈忠義, 孫慧慧, 楊博, 等. 不同改良劑對鹽堿地土壤微生物與加工番茄產(chǎn)量的影響[J]. 農(nóng)業(yè)機械學報, 2021, 52(4): 311-318, 350.
QU Zhongyi, SUN Huihui, YANG Bo, et al. Effects of different amendments on soil microorganisms and yield of processing tomato in saline alkali soil[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 311-318, 350.
[4] 竇旭, 史海濱, 李瑞平, 等. 鹽漬化土壤剖面鹽分與養(yǎng)分分布特征及鹽分遷移估算[J]. 農(nóng)業(yè)機械學報, 2022, 53(1): 279-290, 330.
DOU Xu, SHI Haibin, LI Ruiping, et al. Distribution characteristics of salinity and nutrients in salinized soil profile and estimation of salt migration[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(1): 279-290, 330.
[5] 鄭復樂, 姚榮江, 楊勁松, 等. 改良材料對微咸水滴灌農(nóng)田土壤鹽分分布與離子組成的影響[J]. 灌溉排水學報, 2020, 39(8): 60-71.
ZHENG Fule, YAO Rongjiang, YANG Jinsong, et al. The effects of soil amendment with different materials on soil salt distribution and its ion composition under brackish-water drip irrigation[J]. Journal of Irrigation and Drainage, 2020, 39(8): 60-71.
[6] 王航, 周青云, 張寶忠, 等. 不同灌水處理下濱海鹽堿地土壤-玉米陽離子變化規(guī)律及相關關系研究[J]. 灌溉排水學報, 2021, 40(12): 36-43.
WANG Hang, ZHOU Qingyun, ZHANG Baozhong, et al. Irrigation affects the translocation of cations from soil to maize roots in saline-alkaline soil[J]. Journal of Irrigation and Drainage, 2021, 40(12): 36-43.
[7] 王銘鑫, 范超, 高秉博, 等. 融合半變異函數(shù)的空間隨機森林插值方法[J].中國生態(tài)農(nóng)業(yè)學報(中英文), 2022, 30(3): 451-457.
WANG Mingxin, FAN Chao, GAO Bingbo, et al. A spatial random forest interpolation method with semi-variogram[J]. Chinese Journal of Eco-Agriculture, 2022, 30(3): 451-457.
[8] 馬國林, 丁建麗, 韓禮敬, 等. 基于變量優(yōu)選與機器學習的干旱區(qū)濕地土壤鹽漬化數(shù)字制圖[J]. 農(nóng)業(yè)工程學報, 2020, 36(19): 124-131.
MA Guolin, DING Jianli, HAN Lijing, et al. Digital mapping of soil salinization in arid area wetland based on variable optimized selection and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(19): 124-131.
[9] 劉明杰, 徐卓揆, 郜允兵, 等. 基于機器學習的稀疏樣本下的土壤有機質估算方法[J]. 地球信息科學學報, 2020, 22(9): 1 799-1 813.
LIU Mingjie, XU Zhuokui, GAO Yunbing, et al. Estimating soil organic matter based on machine learning under sparse sample[J]. Journal of Geo-information Science, 2020, 22(9): 1 799-1 813.
[10] 楊瑋, 蘭紅, 李民贊, 等. 基于圖像處理和SVR的土壤容重與土壤孔隙度預測[J]. 農(nóng)業(yè)工程學報, 2021, 37(12): 144-151.
YANG Wei, LAN Hong, LI Minzan, et al. Predicting bulk density and porosity of soil using image processing and support vector regression[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(12): 144-151.
[11] ACHIENG K O. Modelling of soil moisture retention curve using machine learning techniques: Artificial and deep neural networks vs support vector regression models[J]. Computers & Geosciences, 2019, 133: 104 320.
[12] 陳穎, 張燦, 肖春艷, 等. 基于GWO-SVR的土壤鎘元素含量含水率校正預測模型研究[J]. 光學學報, 2020, 40(10): 180-187.
CHEN Ying, ZHANG Can, XIAO Chunyan, et al. Study on prediction model of soil cadmium content moisture content correction based on GWO-SVR[J]. Acta Optica Sinica, 2020, 40(10): 180-187.
[13] 尉芳, 劉京, 夏利恒, 等. 陜西渭北旱塬區(qū)農(nóng)田土壤有機質空間預測方法[J]. 環(huán)境科學, 2022, 43(2): 1 097-1 107.
WEI Fang, LIU Jing, XIA Liheng, et al. Spatial prediction method of farmland soil organic matter in Weibei Dryland of Shaanxi Province[J]. Environmental Science, 2022, 43(2): 1 097-1 107.
[14] TZIACHRIS P, ASCHONITIS V, CHATZISTATHIS T, et al. Comparing machine learning models and hybrid geostatistical methods using environmental and soil covariates for soil pH prediction[J]. ISPRS International Journal of Geo-Information, 2020, 9(4): 276.
[15] 楊練兵, 陳春波, 鄭宏偉, 等. 基于優(yōu)化隨機森林回歸模型的土壤鹽漬化反演[J]. 地球信息科學學報, 2021, 23(9): 1 662-1 674.
YANG Lianbing, CHEN Chunbo, ZHENG Hongwei, et al. Retrieval of soil salinity content based on random forests regression optimized by Bayesian optimization algorithm and genetic algorithm[J]. Journal of Geo-information Science, 2021, 23(9): 1 662-1 674.
[16] 胡貴貴, 楊粉莉, 楊聯(lián)安, 等. 基于主成分和機器學習的土壤有機質含量空間預測建模[J]. 干旱區(qū)地理, 2021, 44(4): 1 114-1 124.
HU Guigui, YANG Fenli, YANG Lian’an, et al. Spatial prediction modeling of soil organic matter content based on principal components and machine learning[J]. Arid Land Geography, 2021, 44(4): 1 114-1 124.
[17] 劉宏超, 馬俊杰, 李韌. 基于KNN機器學習方法對青藏高原唐古拉地區(qū)表層土壤水熱狀況的模擬[J]. 冰川凍土, 2021, 43(4): 1 243-1 252.
LIU Hongchao, MA Junjie, LI Ren. Simulation of the water-thermal features within the surface soil in Tanggula region, Qinghai-Tibet Plateau, by using KNN model[J]. Journal of Glaciology and Geocryology, 2021, 43(4): 1 243-1 252.
[18] 曹肖奕, 丁建麗, 葛翔宇, 等. 基于不同衛(wèi)星光譜模擬的土壤電導率估算研究[J]. 干旱區(qū)地理, 2020, 43(1): 172-181.
CAO Xiaoyi, DING Jianli, GE Xiangyu, et al. Estimation of soil conductivity based on spectral simulation of different satellites[J]. Arid Land Geography, 2020, 43(1): 172-181.
[19] 田美玲, 葛翔宇, 丁建麗, 等. 耦合機器學習和機載高光譜數(shù)據(jù)的土壤含水量估算[J]. 激光與光電子學進展, 2020, 57(9): 232-241.
TIAN Meiling, GE Xiangyu, DING Jianli, et al. Coupled machine learning and unmanned aerial vehicle based hyperspectral data for soil moisture content estimation[J]. Laser & Optoelectronics Progress, 2020, 57(9): 232-241.
[20] 傅邦杰, 牛瑞卿, 王春勝. 丹江口庫區(qū)土壤鎳含量高光譜反演方法[J]. 遙感信息, 2021, 36(3): 44-49.
FU Bangjie, NIU Ruiqing, WANG Chunsheng. Soil nickel metal content estimation based on hyper-spectrum in Danjiangkou Reservoir area[J]. Remote Sensing Information, 2021, 36(3): 44-49.
[21] 任必武, 陳瀚閱, 張黎明, 等. 機器學習用于耕地土壤有機碳空間預測對比研究: 以亞熱帶復雜地貌區(qū)為例[J]. 中國生態(tài)農(nóng)業(yè)學報(中英文), 2021, 29(6): 1 042-1 050.
REN Biwu, CHEN Hanyue, ZHANG Liming, et al. Comparison of machine learning for predicting and mapping soil organic carbon in cultivated land in a subtropical complex geomorphic region[J]. Chinese Journal of Eco-Agriculture, 2021, 29(6): 1 042-1 050.
[22] WANG Xinxin, HAN Jigang, WANG Xia, et al. Estimating soil organic matter content using sentinel-2 imagery by machine learning in Shanghai[J]. IEEE Access, 2021, 9: 78 215-78 225.
[23] 張萬濤, 吉靜怡, 李彬彬, 等. 黃土高原不同地貌區(qū)農(nóng)田土壤有機質預測方法研究[J]. 植物營養(yǎng)與肥料學報, 2021, 27(4): 583-594.
ZHANG Wantao, JI Jingyi, LI Binbin, et al. Spatial prediction of soil organic matter of farmlands under different landforms in the Loess Plateau, China[J]. Journal of Plant Nutrition and Fertilizers, 2021, 27(4): 583-594.
[24] 段維納, 競霞, 劉良云, 等. 融合SIF和反射光譜的小麥條銹病遙感監(jiān)測[J]. 光譜學與光譜分析, 2022, 42(3): 859-865.
DUAN Weina, JING Xia, LIU Liangyun, et al. Monitoring of wheat stripe rust based on integration of SIF and reflectance spectrum[J]. Spectroscopy and Spectral Analysis, 2022, 42(3): 859-865.
[25] ABEDI F, AMIRIAN-CHAKAN A, FARAJI M, et al. Salt dome related soil salinity in Southern Iran: Prediction and mapping with averaging machine learning models[J]. Land Degradation & Development, 2021, 32(3): 1 540-1 554.
[26] 金則澎, 毛峰, 程乾, 等. 梯度提升回歸樹在千島湖水體CDOM反演中的應用[J]. 遙感信息, 2022, 37(1): 110-118.
JIN Zepeng, MAO Feng, CHENG Qian, et al. Application of gradient boosting regression tree in CDOM inversion of Qiandao Lake[J]. Remote Sensing Information, 2022, 37(1): 110-118.
[27] ZHOU Tao, GENG Yajun, JI Cheng, et al. Prediction of soil organic carbon and the C:N ratio on a national scale using machine learning and satellite data: A comparison between Sentinel-2, Sentinel-3 and Landsat-8 images[J]. Science of the Total Environment, 2021, 755: 142 661.
[28] WANG Zong, DU Zhengping, LI Xiaoyan, et al. Incorporation of high accuracy surface modeling into machine learning to improve soil organic matter mapping[J]. Ecological Indicators, 2021, 129: 107 975.
[29] TAGHIZADEH-MEHRJARDI R, SCHMIDT K, TOOMANIAN N, et al. Improving the spatial prediction of soil salinity in arid regions using wavelet transformation and support vector regression models[J]. Geoderma, 2021, 383: 114 793.
[30] 王興鵬, 蔣富昌, 王洪博, 等. 基于AquaCrop模型的南疆無膜滴灌棉花灌溉制度優(yōu)化[J]. 農(nóng)業(yè)機械學報, 2021, 52(4): 293-301, 335.
WANG Xingpeng, JIANG Fuchang, WANG Hongbo, et al. Irrigation scheduling optimization of drip-irrigated without plastic film cotton in South Xinjiang based on AquaCrop model[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 293-301, 335.
[31] 牛曉倩, 賈小旭, 劉成功, 等. 關中平原農(nóng)田土壤水力參數(shù)空間分異與模擬[J]. 水土保持學報, 2021, 35(1): 198-204.
NIU Xiaoqian, JIA Xiaoxu, LIU Chenggong, et al. Spatial variations and simulations of farmland soil hydraulic parameters in the Guanzhong Plain[J]. Journal of Soil and Water Conservation, 2021, 35(1): 198-204.
[32] 譚先明, 張佳偉, 王仲林, 等. 基于PLS的不同水氮條件下帶狀套作玉米產(chǎn)量預測[J]. 中國農(nóng)業(yè)科學, 2022, 55(6): 1 127-1 138.
TAN Xianming, ZHANG Jiawei, WANG Zhonglin, et al. Prediction of maize yield in relay strip intercropping under different water and nitrogen conditions based on PLS[J]. Scientia Agricultura Sinica, 2022, 55(6): 1 127-1 138.
[33] MAHMOUDZADEH H, MATINFAR H R, TAGHIZADEH-MEHRJARDI R, et al. Spatial prediction of soil organic carbon using machine learning techniques in western Iran[J]. Geoderma Regional, 2020, 21: e00 260.
[34] 薛明, 韋波, 李娟, 等. 基于改進BP神經(jīng)網(wǎng)絡與支持向量機的土壤墑情預測方法研究[J]. 土壤通報, 2021, 52(4): 793-800.
XUE Ming, WEI Bo, LI Juan, et al. Forecast method of soil moisture based on improved BP neural network and support vector machine[J]. Chinese Journal of Soil Science, 2021, 52(4): 793-800.
[35] 劉國鋒, 徐增洪, 么宗利, 等. 沖水灌溉對西北硫酸鹽型土壤中鹽分離子變化的影響研究[J]. 干旱區(qū)資源與環(huán)境, 2019, 33(3): 118-123.
LIU Guofeng, XU Zenghong, YAO Zongli, et al. Effects of irrigation on the salt ions in sulfate-type saline-alkali soil[J]. Journal of Arid Land Resources and Environment, 2019, 33(3): 118-123.
Predicting Soil K+and Na+Contents in Cotton Field Using Machine Learning Algorithm
TANG Maosong1,2, ZHANG Nan1,2, LI Guohui1,2, ZHAO Zeyi1,2, LI Mingfa3, WANG Xingpeng1,2,4*
(1. College of Water Resource and Architecture Engineering, Tarim University, Alaer 843300, China; 2. Laboratory of Modern Agricultural Engineering, Tarim University, Alaer 843300, China; 3. Hydrology and Water Resources Management Center of the First Division of Xinjiang Production and Construction Corps, Alaer 843300, China; 4. Key Laboratory of Northwest Oasis Water-saving Agriculture, Ministry of Agriculture and Rural Affairs, PR China, Shihezi 832000, China)
【Objective】The contents of K+and Na+in soil affect soil fertility and quality, and understanding their spatiotemporal changes and the factors influencing their changes is critical to improving soil management and alleviating soil alkalization. We propose a machine learning method to predict changes in K+and Na+content in soils.【Method】Taking data measured from a cotton field in Southern Xinjiang as an example, we compared four machine learning algorithms: support vector regression (SVR), random forest regression (RFR), K-nearest neighbor regression (KNNR), and gradient lifting regression tree (GBRT). All algorithms were first trained based on K+and Na+measured in 2020, and the trained models were then tested against the data measured in 2021. The accuracy and robustness of the models were evaluated using the mean absolute errors (), root mean square error (), and the determination coefficient (2).【Result】Theof SVR, RFR, KNNR and GBRT for predicting K+content was 0.100, 0.169, 0.169 and 0.167 g/kg, respectively; their associated RMSE was 0.119, 0.218, 0.218 g/kg and 0.223 g/kg, respectively, and their2was 0.687, 0.437, 0.430, and 0.395, respectively. For predicting Na+content, theof SVR, RFR, KNNR and GBRT was 0.841, 2.841, 2.826 g/kg, and 2.856 g/kg, respectively; and theirwas 1.154, 3.658, 3.630 g/kg, and 3.650 g/kg, respectively, and2was 0.838, 0.299, 0.219, and 0.200, respectively. SVR model is most accurate for predicting soil K+and Na+in the depths of 0~10, 10~20, 20~30 and 30~40 cm, with itsfor K+at the four depths being 0.122, 0.114, 0.056 g/kg and 0.106 g/kg, respectively, andbeing 0.135, 0.135, 0.069 g/kg and 0.126 g/kg, respectively. Theof SVR for predicting Na+at the four depths was 0.540, 0.619, 0.835 g/kg and 1.371 g/kg, respectively, and itswas 0.636, 0.748, 1.198 g/kg and 1.710 g/kg, respectively.【Conclusion】Among the four algorithms we compared, SVR is most accurate for predicting soil K+and Na+at depth from 0 to 40 cm, and it can be used to predict variation in K+and Na+in response to environmental change in the cotton fields in Southern Xinjiang.
South Xinjiang cotton field; soil salt ions; machine learning; regression prediction model
1672 - 3317(2023)09 - 0032 - 08
TP181
A
10.13522/j.cnki.ggps.2022405
唐茂淞, 張楠, 李國輝, 等. 基于機器學習算法的棉田土壤鉀、鈉離子量預測[J]. 灌溉排水學報, 2023, 42(9): 32-39.
TANG Maosong, ZHANG Nan, LI Guohui, et al. Predicting Soil K+and Na+Contents in Cotton Field Using Machine Learning Algorithm[J]. Journal of Irrigation and Drainage, 2023, 42(9): 32-39.
2022-07-20
2023-05-11
2023-09-13
“十四五”國家重點研發(fā)計劃項目(2022YFD1900505);兵團重大科技項目(2021AA003);塔里木大學研究生科研創(chuàng)新項目(TDGRI202143)
唐茂淞(1997-),男。碩士研究生,主要從事灌溉排水理論與節(jié)水灌溉研究。E-mail: tms765951540@gmail.com
王興鵬(1978-),男。教授,博士生導師,博士,主要從事旱區(qū)水資源高效利用及水環(huán)境保護研究。E-mail: 13999068354@163.com
@《灌溉排水學報》編輯部,開放獲取CC BY-NC-ND協(xié)議
責任編輯:趙宇龍