張永亮, 汪 泓, 肖玖軍, 李可相, 王 宇, 邢 丹
(1.貴州大學(xué)礦業(yè)學(xué)院,貴州 貴陽 550025; 2.貴州省山地資源研究所,貴州 貴陽 550001; 3.貴州省土地綠色整治工程研究中心,貴州 貴陽 550001; 4.貴州省農(nóng)業(yè)科學(xué)院辣椒研究所,貴州 貴陽 550009)
貴州全省山地面積占比近90%,是全國唯一一個沒有平原支撐的省份[1]。山區(qū)耕地的零碎化分布,導(dǎo)致部分耕地利用率低,土壤質(zhì)地分布不均,在一定程度上限制了農(nóng)業(yè)生產(chǎn)。土壤有機質(zhì)(Soil organic matter, SOM)是存在于土壤中的含碳有機化合物的總和,具有提供養(yǎng)分、保水保肥、促進土壤團粒結(jié)構(gòu)形成及改善土壤理化性質(zhì)等作用[2-3],其含量是衡量土壤肥力的重要指標(biāo),快速、準(zhǔn)確地監(jiān)測SOM含量對于山區(qū)耕地科學(xué)管理具有重要意義。傳統(tǒng)的SOM含量測定主要通過田間取樣、實驗室化驗分析,該方法使用成本較高且效果欠佳[4]。近年來,高光譜遙感技術(shù)以其時效高、信息量大且無污染的優(yōu)勢逐漸在SOM快速檢測中得到應(yīng)用[5]。
近年來,研究者針對不同地區(qū)的土壤性質(zhì),利用高光譜遙感技術(shù)從數(shù)據(jù)處理和模型算法等方面反演出契合當(dāng)?shù)氐腟OM預(yù)測模型。韓兆迎等[6]通過相關(guān)分析確定了7個特征波段,建立了SOM含量估測模型,發(fā)現(xiàn)用二次多項式逐步回歸模型反演黃河三角洲土壤SOM含量的效果最優(yōu);勾宇軒等[7]用小波變換結(jié)合穩(wěn)定性競爭自適應(yīng)重加權(quán)采樣(Stability competitive adaptive reweighted sampling, CARS)算法,較好地反演了東北旱作農(nóng)田土壤類型的SOM含量;南鋒等[8]使用偏最小二乘回歸(Partial least squares regression, PLSR)分析方法,建立了能夠很好地反演黃土高原煤礦區(qū)復(fù)墾農(nóng)田SOM含量的模型。Nawar等[9-10]利用便攜式光譜儀(Analytical Spectral Devices FieldSpec4 Standard-Res,ASD)獲取埃及四奈北部地區(qū)土壤光譜信息,對光譜數(shù)據(jù)采用7種預(yù)處理技術(shù)預(yù)處理之后構(gòu)建線性PLSR、非線性支持向量機回歸(Support vector machine,SVM)和多元自適應(yīng)回歸樣條(Multivariate adaptive regression splines,MARS)等3種模型進行鹽漬土有機質(zhì)含量的預(yù)測,交叉驗證結(jié)果顯示,MARS模型的預(yù)測效果最佳。張娟娟等[11]將遺傳算法與SVM回歸結(jié)合進行砂姜黑土SOM含量的估測,發(fā)現(xiàn)決定系數(shù)(R2)高達0.95。張森等[12]用反向傳播(Back propagation,BP)神經(jīng)網(wǎng)絡(luò)、SVM模型對濱海濕地土壤有機質(zhì)含量進行估算,結(jié)果顯示,用SVM模型估測的SOM含量在精度方面明顯更優(yōu)。鐘亮等[13]基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)模型,探討不同網(wǎng)絡(luò)結(jié)構(gòu)對SOM含量預(yù)測的建模效果,經(jīng)大量訓(xùn)練得出,小卷積核的VGGNet-7適用于紅壤地區(qū)SOM含量的預(yù)測且CNN能夠簡化光譜預(yù)處理過程。
從以上研究結(jié)果可以看出,估測SOM含量的機器學(xué)習(xí)方法大多基于線性與非線性模型,各地區(qū)適用的模型均不相同,主要與土壤的光譜特性、數(shù)據(jù)處理和建模方法的選擇有關(guān)。從目前的研究內(nèi)容看,基于平原地區(qū)展開的研究相對偏多,這是由于其成土母質(zhì)受到適宜的濕度、光照條件的影響,使得土壤理化性質(zhì)良好,因此通過線性模型即可穩(wěn)定高效地對該地區(qū)SOM含量進行反演,如武彥清等[14]分別采用多元線性逐步回歸和PLSR 2種方法建立的模型均能滿足松嫩平原SOM含量的速測要求,陸龍妹等[15]利用PLSR方法建立的SOM含量光譜預(yù)測模型能預(yù)測出淮北平原SOM含量,文錫梅等[16]利用PLSR模型定量反演出喀斯特地區(qū)SOM含量并獲得較好的模型精度,但小范圍研究區(qū)和單一種類土壤建模的模型通用性還較為欠缺。貴州省內(nèi)地喀斯特地貌分布廣泛,地形復(fù)雜且氣候多變,土壤干旱、侵蝕現(xiàn)象較為嚴重,耕地分布零碎且土壤類型多樣,在此地進行大范圍土壤光譜監(jiān)測容易造成光譜數(shù)據(jù)冗余,反演出的模型在進行較大尺度SOM含量估算時精度欠佳。因此,運用合適的模型算法估測山區(qū)耕地SOM含量是當(dāng)前亟待解決的問題之一。本研究擬以從貴州山區(qū)耕地采集的120個土壤樣本為研究對象,通過ASD便攜式地物光譜儀采集樣品光譜,在PLSR基礎(chǔ)上探討非線性模型[SVM、隨機森林(Random forest, RF)、BP]在山區(qū)耕地SOM含量反演中的結(jié)果,通過對比分析以獲得精度最高的光譜變換和模型組合,以期為山區(qū)耕地SOM含量估測提供快速可靠的算法。
貴州省地處中國西南內(nèi)陸腹地,在地形上屬于中國西南高原山區(qū),地勢特點是自西向東低,由中向北、向東、向南傾斜。研究區(qū)選取貴州省貴陽市、遵義市、黔南州、黔東南州和畢節(jié)市等5個地區(qū)下轄的13個縣(區(qū)、市),圖1是研究區(qū)內(nèi)部分采樣點及其13個縣(區(qū)、市)的邊界范圍,采樣點耕地分布在山地、丘陵和溝谷等地域,在海拔620~1 580 m內(nèi)采集土樣,土類以黃壤、黃色石灰土、水稻土和紫泥土為主。貴州省占比最高的土壤類型是黃壤,占全省土壤面積的46.4%[17];黃色石灰土分布范圍最廣,各地均有分布,但相對集中分布在黔中地區(qū),大泥土屬于黃色石灰土的一類;水稻土是貴州省農(nóng)業(yè)生產(chǎn)中極為重要的土壤資源,92.8%水稻土分布在海拔1 400 m以下的區(qū)域;紫泥土的面積相對較少,主要分布在黔北、黔西北等高海拔地區(qū)。據(jù)前人記載,貴州省山區(qū)的SOM含量總體較高,但由于耕地分布零碎,導(dǎo)致其撂荒嚴重[18]。
圖1 研究區(qū)域的部分采樣點分布
根據(jù)貴州省土壤空間分布特征,于2020年8月至2021年3月在研究區(qū)開展土壤取樣,共計120個土壤樣品,研究區(qū)域土壤概況見表1。在研究區(qū)內(nèi)采集耕地表層20 cm以內(nèi)的土壤作為樣本,用手持全球定位系統(tǒng)(GPS)定位并隨時記錄相關(guān)信息。經(jīng)實驗室風(fēng)干、去雜、研磨后過2 mm篩,分成2份,分別用于光譜采集和有機質(zhì)含量的測定。土壤有機質(zhì)含量的測定采用重鉻酸鉀-硫酸硝化法[19]。
土壤原始光譜反射率的采集使用ASD便攜式地物波譜儀,光譜范圍為350~2 500 nm,光譜重采樣間隔為1 nm,在暗室條件下測定,將土樣放入直徑15 cm、深度2 cm的硼硅玻璃皿中,用尺子刮平表面。將高密度探頭貼近土壤樣品,使探頭視野充滿土壤樣品,固定探頭后垂直對準(zhǔn)被測物體。光源使用高密度探頭自帶光源,成功進行初始白板校正后,確保高密度探頭和土壤樣品的相對位置保持不變。在獲得原始光譜反射率后,再將土壤樣品旋轉(zhuǎn)3次,旋轉(zhuǎn)角度為90°,分別采集10條光譜曲線,土壤樣品的光譜反射數(shù)據(jù)為10條光譜曲線的均值[20]。每間隔15~20 min重新進行優(yōu)化。
由于土壤樣品光譜曲線邊緣的350~400 nm、2 400~2 500 nm部分受到外界噪聲的影響較大,因此將其去除以減少干擾。在OriginPro 2021軟件中用Savitzky-Golay(SG)[21-22]濾波進行9點平滑去噪處理,該濾波方法是一種在時域內(nèi)基于局域多項式最小二乘法擬合的濾波方法,其最大特點是在濾除噪聲的同時可以保持信號的形狀和寬度不變。為更有效篩選山區(qū)土壤光譜的特征波段,對平滑后的原始光譜反射率(R)進行一階微分(First derivative,FD)、二階微分(Second derivative, SD)、倒數(shù)對數(shù)的一階微分(First derivative of reciprocal logarithm,LRD)、連續(xù)統(tǒng)去除(Continuum removal,CR)等4種變換處理。光譜一階微分處理可在消除背景噪聲干擾的同時提高光譜分辨率、降低相關(guān)波段的尋找難度[23-25],倒數(shù)對數(shù)變換法可減少乘數(shù)因子對光照條件變化的影響[26],連續(xù)統(tǒng)去除法有利于突出光譜曲線的吸收、反射特征,分類識別提取敏感波段[27-28]。上述過程中的FD、SD、LRD處理在Matlab R 2016b、The Unscrambler X10.4軟件中完成,CR處理在ENVI 5.3中完成。
PLSR集結(jié)了主成分分析、典型相關(guān)分析和線性回歸分析的特點,在同時包含多個變量的情況下能實現(xiàn)多對多的模型構(gòu)建,并在一定程度上解決自變量之間共線的問題[29],因此采用The Unscrambler X10.4軟件的PLSR模塊完成SOM含量反演模型。
SVM可將數(shù)據(jù)從低維空間映射到高維空間中,然后在此高維空間中進行線性回歸,從而取得在原空間非線性回歸的效果[30-31]。SVM模型構(gòu)建在Matlab中完成,SVM模型參數(shù)設(shè)定如下:類型選擇C-SVC,核函數(shù)類型為RBF,懲罰因子(Cost)為1,核函數(shù)系數(shù)(Gamma)為0.001,損失函數(shù)的P值為0.01,收斂精度(Eps)為0.001[32]。
RF屬于機器模型,它通過隨機方式形成了由多個決策樹組成的一片森林,當(dāng)新樣本作為數(shù)據(jù)變量輸入到構(gòu)建好的森林中時,森林中的每棵決策樹就會分別判斷并識別這個樣本所屬的類別[33],再統(tǒng)計哪個類別被判定得最多,進而預(yù)測該樣本所屬的類別。RF可產(chǎn)生高準(zhǔn)確度的分類器,處理大量的數(shù)據(jù)變量,在判斷類別時還能考慮變量的重要性,且訓(xùn)練速度快。RF模型構(gòu)建在Matlab中完成,RF的參數(shù)設(shè)置如下:決策數(shù)目(Ntree)為200,訓(xùn)練節(jié)點變量數(shù)(Mtry)為2。
表1 研究區(qū)域的土壤概況
BP神經(jīng)網(wǎng)絡(luò)是一種非線性映射模型,具有完整的數(shù)學(xué)算法,理論上能夠無限逼近任意復(fù)雜的非線性函數(shù)[34],對于樣品較多的機器學(xué)習(xí)問題,傳統(tǒng)的線性回歸會存在欠擬合或過擬合現(xiàn)象,神經(jīng)網(wǎng)絡(luò)可以讓它們不斷訓(xùn)練以達到最好效果。BP神經(jīng)網(wǎng)絡(luò)模型在Matlab中完成,訓(xùn)練參數(shù)設(shè)置如下:迭代次數(shù)為1 000次,訓(xùn)練均方根誤差小于10-5,神經(jīng)元設(shè)置為5個,學(xué)習(xí)率為0.05,最大失敗次數(shù)為5次,經(jīng)過試湊法最終確定BP神經(jīng)網(wǎng)絡(luò)模型隱含層節(jié)點數(shù)依次為3個、6個、9個[35]。
模型精度測試用如下3個參數(shù)進行評估:決定系數(shù)(Determination coefficient,R2)、均方根誤差(Root mean square error,RMSE)和相對分析誤差(Residual predictive deviation,RPD)。其中,R2用于測量模型的穩(wěn)定性,R2>0.6表明模型能夠粗略預(yù)測SOM含量;R2>0.8,表明模型的穩(wěn)定性較強[36]。RMSE用來檢驗?zāi)P偷念A(yù)測能力,RMSE越小,表明模型的精度越高。RPD用來評價測試模型的預(yù)測能力,當(dāng)RPD>2.0時,說明模型的預(yù)測效果較好;當(dāng)1.4≤RPD≤2.0時,說明模型具有基本預(yù)測能力,經(jīng)過改進后預(yù)測效果更好;當(dāng)RPD<1.4時,模型預(yù)測能力較弱。相關(guān)公式如下:
(1)
(2)
(3)
(4)
將120個土壤樣本按有機質(zhì)含量從大到小排序,根據(jù)有機質(zhì)含量梯度,按照3∶1的比例選取訓(xùn)練樣本和測試樣本,最終確定90個訓(xùn)練樣本、30個測試樣本。由表2可以看出,土壤有機質(zhì)含量為11.40~48.60 g/kg,均值為28.91 g/kg,標(biāo)準(zhǔn)差為8.31 g/kg,訓(xùn)練樣本、測試樣本的標(biāo)準(zhǔn)差分別為8.24 g/kg、8.53 g/kg,總體變異系數(shù)偏中等。
表2 貴州山區(qū)土壤有機質(zhì)含量的統(tǒng)計分析結(jié)果
山區(qū)耕地的土壤高光譜在5種不同形式下與SOM含量之間的相關(guān)性分析結(jié)果見圖2??梢钥闯?原始光譜(R)與SOM含量整體呈負相關(guān)并在可見光部分相關(guān)系數(shù)達到極值(圖2a);4種光譜變換處理下,在可見光-近紅外光范圍內(nèi)均有波段在正負值之間波動,并且有不少波段通過0.01水平的顯著性檢驗;經(jīng)FD變換提高了光譜與SOM含量在近紅外范圍內(nèi)的相關(guān)性,敏感波段從可見光至近紅外光之間呈均勻分配,有1 494個波段通過顯著性檢驗,且與SOM含量呈極顯著相關(guān)(P≤0.01),相關(guān)系數(shù)最高為-0.635(圖2b);SD處理后的光譜在近紅外部分頻繁出現(xiàn)吸收谷、反射峰,敏感波段范圍也集中在此部分,統(tǒng)計有461個波段與SOM含量呈極顯著相關(guān)(P≤0.01),相關(guān)系數(shù)極值為-0.561(圖2c);LRD與FD數(shù)據(jù)的變換相似,共有1 455個敏感波段,由于先經(jīng)過倒數(shù)對數(shù)變換的原因,LRD與FD的相關(guān)系數(shù)圖類似于對稱分布,相關(guān)系數(shù)極值為0.512(圖2d);通過CR變換,使得土壤光譜和有機質(zhì)含量間大部分呈正相關(guān),說明CR變換能增強山區(qū)土壤光譜的吸收特征,通過顯著性檢驗的波段有1 035個,相關(guān)系數(shù)極值為0.514(圖2e)?;谙嚓P(guān)系數(shù)絕對值、通過顯著性波段數(shù)量,得出如下排序:FD>LRD>CR>SD,該排序說明,光譜數(shù)據(jù)經(jīng)過FD、LRD變換后能提高山區(qū)耕地SOM含量與光譜波段之間的相關(guān)性,更有利于篩選特征波段。
a:原始光譜;b:一階微分;c:二階微分;d:倒數(shù)對數(shù)的一階微分;e:連續(xù)統(tǒng)去除。
圖3為SOM含量與不同形式光譜間相關(guān)性分析的特征波段范圍,可以看出,原始光譜的特征波段大多集中在可見光部分,經(jīng)光譜技術(shù)變換后,在不同程度上挖掘出近紅外部分的特征光譜信息,說明可見光-近紅外光范圍都蘊含山區(qū)耕地土壤的特征波段,所以本研究通過顯著性檢驗后,在不同變換形式的光譜中篩選出它們在可見光-近紅外光部分相關(guān)系數(shù)較高的60個波段用于建模。這與于雷等[37]利用競爭性自適應(yīng)重加權(quán)-連續(xù)投影算法篩選得到的建模波段以近紅外光(1 800~2 400 nm)部分為主的結(jié)果有差異。推測其原因,可能由于研究區(qū)及土壤類型不同,前人以江漢平原的潮土、水稻田和黃棕壤為研究對象,該地區(qū)雨量充沛且土壤耕作程度高,其土壤含水量相對較高,而土壤含水量的光譜特性主要集中在近紅外波段范圍[38],因此土壤含水量會影響土壤反射率和有機質(zhì)含量相關(guān)的光譜信息。由于在1 400 nm、1 900 nm和2 200 nm等波段附近具有強烈的水分吸收谷,與黏土礦物中所含的OH-有關(guān)[39],因此最后獲得的5種光譜的特征響應(yīng)波段應(yīng)將其剔除。
CR:連續(xù)統(tǒng)去除;LRD:倒數(shù)對數(shù)的一階微分;SD:二階微分;FD:一階微分;R:原始光譜反射率。
表3是山區(qū)耕地SOM含量反演的不同光譜變化和模型組合,可以看出,訓(xùn)練集的模型預(yù)測精度基本高于測試集,可能與二者樣本數(shù)量差異有密切關(guān)系?;谄钚《嘶貧w的模型中,除了SD光譜變換反演的模型外,其余3種光譜變換的模型均能達到預(yù)測土壤有機質(zhì)含量的基本要求,表現(xiàn)最好的是LRD,測試集的R2、RPD分別為0.717(>0.600)、1.894(>1.400),而SD的精度最低(其測試集的R2、RPD分別為0.457(<0.600)、1.357(<1.400),不適用于山區(qū)耕地SOM含量的反演。SVM模型相對PLSR反演SOM含量的效果整體呈現(xiàn)略微下降的趨勢,雖然總體R2均大于0.600,但模型擬合效果一般,不能作為山區(qū)耕地SOM含量估測的首選模型。在反演SOM含量的效果上,RF模型相較于PLSR有明顯提高,其中訓(xùn)練集的R2均遠高于同等變換的其他模型,R2最高達到0.926,因此在訓(xùn)練集中,RF可作為理想的估測模型使用,測試集中FD、SD、CR的R2均大于0.750,RPD均大于2.000,整體模型預(yù)測效果表現(xiàn)良好。4類模型中,BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的預(yù)測能力最高,測試集經(jīng)過FD、LRD數(shù)據(jù)變換組合的BP神經(jīng)網(wǎng)絡(luò)模型R2均在0.800以上,與它們對等的訓(xùn)練集間的差距進一步縮小,與RF相比具有明顯優(yōu)勢,BP建模效果最佳的模型組合是FD-BP,訓(xùn)練集的R2為0.845,RMSE最小,為3.259,測試集的R2為0.838,RMSE為3.452,RPD為2.470,相對分析誤差以FD最高,說明BP神經(jīng)網(wǎng)絡(luò)模型在預(yù)測山區(qū)耕地SOM含量方面具有較高的穩(wěn)定性,可以進行有效預(yù)測。圖4為30個測試樣本代入訓(xùn)練模型所得到實測值與預(yù)測值的散點圖,通過分析20個模型各項精度指標(biāo),能夠篩選出反演效果最好的6個模型組合。
表3 不同組合形式土壤有機質(zhì)含量的光譜反演模型精度
通過綜合訓(xùn)練集和測試集各項驗證指標(biāo)分析發(fā)現(xiàn),在不同變換的光譜數(shù)據(jù)與模型組合中,FD-BP模型具有最穩(wěn)定的估測能力,其次是LRD-BP、R-BP、FD-RF、SD-RF和CR-RF模型,有良好的預(yù)估能力。在數(shù)據(jù)變換方面,能提高模型預(yù)測SOM含量精度的光譜變換排序是FD>LRD>CR>SD。在模型選擇方面,更適合山區(qū)SOM含量反演的模型依次為BP、RF、PLSR、SVM。
由建模結(jié)果可以看出,經(jīng)過FD、LRD的光譜數(shù)據(jù)變換組合的模型反演效果較好,表明FD、LRD變換不僅能消除光譜曲線周圍噪聲、提高光譜分辨率,還能突出可見光至近紅外范圍波段間的差異,提高光譜與SOM含量之間的相關(guān)性,增加敏感波段的數(shù)量,使建模精度得到保障,這與前人的研究結(jié)論相符[40];而SD變換讓光譜與SOM含量相關(guān)性分析反應(yīng)過甚,敏感波段間多重相關(guān),無法有效提取山區(qū)土壤信息,導(dǎo)致建模效果不理想;CR與原始光譜組合的模型效果對比沒有明顯變化,推測是因為相關(guān)系數(shù)偏低且敏感波段數(shù)量偏少,因此建模效果一般。
針對貴州省山區(qū)耕地分布零碎、土壤類型多樣等問題,本研究的采樣區(qū)域零星遍布于貴州省13個縣(區(qū)、市),涵蓋黃壤、黃色石灰土、水稻田和紫泥土等土壤。由于土樣種類多且研究區(qū)域廣,光譜在有效范圍內(nèi)蘊藏的土壤信息易出現(xiàn)重合、交叉等問題。與以往學(xué)者的研究結(jié)果相比,在篩選特征波段方面,本研究根據(jù)相關(guān)系數(shù)由大到小的原則,有間隔地挑選出敏感波段及波段范圍,并且在原始及其他變換的光譜中選取同樣數(shù)量的特征波段用于建模,既能降低高光譜數(shù)據(jù)冗余,又可保證后期山區(qū)耕地SOM含量反演模型的客觀性。
本研究對線性模型(PLSR)和非線性模型(SVM、RF、BP)進行試驗對比,探討不同模型對貴州山區(qū)耕地SOM含量反演的實用性。研究得出,非線性建模效果更佳,這與周偉等[41]通過PLSR、SVM、RF對三江源地區(qū)土壤有機質(zhì)含量反演得出的結(jié)論一致。經(jīng)典線性模型PLSR反演出的模型效果僅能達到山區(qū)耕地SOM含量估測的基礎(chǔ)水平,原因可能是PLSR沒有充分提取出山區(qū)SOM含量的主成分信息,在未來的試驗中,可事先采用主成分確定各類SOM含量相關(guān)性最大的波段范圍,通過綜合對比篩選出有效光譜波段進行建模以提高PLSR的精度模型。本研究與前人研究的不同之處在于,SVM模型精度沒有達到理想效果,推測與SVM所選用的RBF核函數(shù)有關(guān),本研究中測試集的特征波段數(shù)量遠大于樣本數(shù)量,當(dāng)核函數(shù)映射維度非常高時,計算量過大,導(dǎo)致SVM泛化能力變差,而可見光、近紅外光2個部分含有大量山區(qū)SOM含量不可或缺的特征波段??蛇x擇Polynomial或Sigmoid核函數(shù)再利用交叉驗證方法尋找最佳參數(shù)以優(yōu)化SVM的反演效果[42]。RF測試集與訓(xùn)練集的精度相距甚遠,離散程度大,造成測試集存在欠擬合的現(xiàn)象,可能與樣本數(shù)量有很大關(guān)系,同時說明隨機森林更適合對多變量的數(shù)據(jù)樣本進行建模。綜合4類模型比較發(fā)現(xiàn),BP神經(jīng)網(wǎng)絡(luò)模型可以更精準(zhǔn)地反演山區(qū)SOM含量,這與BP神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)以任意精度逼近任何連續(xù)函數(shù)有關(guān)[43],即它能隨研究對象復(fù)雜程度的增加,通過調(diào)節(jié)隱含層節(jié)點數(shù)以提高模型精度。
BP、RF、R、FD、SD、LRD、CR、R2見表3注。
另外,本研究重在討論適用于貴州山區(qū)耕地SOM含量的估測模型,但受到貴州山區(qū)地形條件限制,部分研究區(qū)位于山高坡陡區(qū)域,耕作化程度低且交通不便,導(dǎo)致采樣難度大、樣本數(shù)量偏少。后續(xù)研究中我們將擴大采樣范圍和樣本數(shù)量,優(yōu)化分析以進一步提升模型的通用性。
貴州山區(qū)土壤的高光譜數(shù)據(jù)通過SG光譜預(yù)處理和4種光譜數(shù)據(jù)變換,在不同程度上提高了它們與SOM含量之間的相關(guān)性,其中一階微分變換可充分挖掘山區(qū)土壤信息,通過顯著性檢驗的波段數(shù)多達1 494個,相關(guān)系數(shù)最高達到-0.635。
與SOM含量進行相關(guān)性分析得出的敏感波段數(shù)量越多且范圍(可見光-近紅外)越寬,其構(gòu)建的模型效果越好,說明通過相關(guān)系數(shù)由大到小的原則在光譜有效范圍內(nèi)均勻篩選的波段不僅能代表土樣信息,還能在建模時減少自變量之間多重相關(guān)等問題。在估測山區(qū)耕地SOM含量方面,PLSR具有粗略的估測能力;SVM模型對山區(qū)耕地SOM含量的建模效果不佳;RF優(yōu)于前兩者但測試模型精度一般;非線性模型中BP神經(jīng)網(wǎng)絡(luò)以其精度高、穩(wěn)定性好等特點而適用于山區(qū)耕地SOM含量估測,以一階微分-BP神經(jīng)網(wǎng)絡(luò)預(yù)測效果最優(yōu)(訓(xùn)練集:R2=0.845,RMSE=3.259;測試集:R2=0.838,RMSE=3.452,RPD=2.470),對于貴州多地區(qū)SOM含量的監(jiān)測更具備普適性。