樊泳灼, 李新國
新疆師范大學(xué)地理科學(xué)與旅游學(xué)院 / 新疆干旱區(qū)湖泊環(huán)境與資源實驗室,新疆 烏魯木齊 830054
土壤電導(dǎo)率是土壤重要的理化性質(zhì)之一,它包含了豐富的物理和化學(xué)信息(朱成立等,2017),現(xiàn)多采用測量土壤電導(dǎo)率來間接反映土壤鹽分含量,該方法省時省力,已成為土壤含鹽量監(jiān)測的重要方法(Srivastava et al.,2017;張一清等,2023)。傳統(tǒng)的土壤含鹽量測定費時費力,而高光譜遙感技術(shù)可以快速、準確地獲取鹽分信息(田安紅等,2019),在土壤鹽漬化防治方面發(fā)揮重要作用(Jin et al.,2015;亞森江·喀哈爾等,2019 )。Heil等(2019)利用電磁感應(yīng)法對土壤電導(dǎo)率進行現(xiàn)場測量,效果明顯好于室內(nèi)實驗測量。光譜數(shù)據(jù)通過數(shù)學(xué)變換和特征篩選能有效提高模型精度,經(jīng)一階導(dǎo)數(shù)變換后能夠消除部分線性或接近線性的噪聲光譜從而提高模型的精度(張賢龍等,2018)。吳俊等(2022)采用CARS-BPNN 方法能夠較好地預(yù)測江西省土壤有機碳含量,CARS 算法能夠在一定程度通過降低訓(xùn)練樣本的復(fù)雜度從而提升土壤SOC 的預(yù)測精度。王濤等(2019)利用去包絡(luò)線結(jié)合連續(xù)投影算法(SPA,successive projection algorithm)可以更優(yōu)的選擇特征光譜,可以快速、準確的實現(xiàn)對土壤電導(dǎo)率的檢測,SPA算法可以最大程度的消除共線性對模型的干擾。干旱區(qū)土壤電導(dǎo)率與土壤光譜之間存在著復(fù)雜的非線性關(guān)系(曹肖奕等,2020),BP 神經(jīng)網(wǎng)絡(luò)模型可以很好的解決土壤鹽分監(jiān)測中復(fù)雜的非線性函數(shù)逼近問題,提升對土壤電導(dǎo)率高光譜模型的定量估算精度(Farifteh et al.,2007;曹肖奕等,2020)。
目前大多數(shù)研究將區(qū)域土壤電導(dǎo)率作為一個整體進行電導(dǎo)率反演模型的構(gòu)建與驗證(王懂等,2022),且大多數(shù)研究多以對光譜數(shù)據(jù)進行數(shù)學(xué)變換后利用相關(guān)性篩選特征波段建模(孫亞楠等,2022),但利用競爭性自適應(yīng)重加權(quán)采樣(CARS,competitive adaptive reweighted sampling)、連續(xù)投影算法(SPA)和競爭性自適應(yīng)重加權(quán)-連續(xù)投影算法(CARS-SPA, competitive adaptive reweighting sample- successive projection algorithm)3 種篩選特征波段算法對湖濱綠洲單一土地利用類型土壤電導(dǎo)率的高光譜估算缺乏深入研究,本文以新疆博斯騰湖湖濱綠洲耕地、林地、荒地的土壤電導(dǎo)率為研究對象,利用ASDFieldSpec3 地物光譜儀采集并分析350~2 500 nm 波長范圍的光譜反射率,分別利用CARS、SPA、CARS-SPA 等3 種方法對耕地、林地、荒地及整體土地篩選特征波段構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型分析,找出研究區(qū)不同土地利用類型土壤電導(dǎo)率估算的優(yōu)選方法,以期為湖濱綠洲不同土地利用類型土壤電導(dǎo)率的光譜高效估算及方法選擇提供參考。
博斯騰湖湖濱綠洲位于新疆焉耆盆地東南部博湖縣(41°45?~42°10? N,86°15?~86°55? E),是典型的人工綠洲和自然綠洲混合的湖濱綠洲,面積約為1 360 km2(圖1),多年平均降水量83.55 mm,年均溫約8.0~8.6 ℃,光照充足,屬于大陸性荒漠氣候(趙慧等,2021a)。研究區(qū)耕地、林地的土壤類型主要是潮土、草甸土、棕漠土等,其成土母質(zhì)分別為:河流搬運沉積物、沖積湖積物及砂礫質(zhì)洪積物,荒地的土壤類型主要以鹽土為主,其富含鹽分的母質(zhì)環(huán)境使研究區(qū)土壤鹽漬化較為普遍(李志等,2018)。研究區(qū)土壤鹽分平均含量為2.84 g/kg (李新國等,2012)。
圖1 研究區(qū)位置及采樣點分布Fig.1 Location of the study area and distribution of sampling sites
根據(jù)研究區(qū)土壤現(xiàn)狀,在不同土地利用類型的區(qū)域,選取具有典型性、代表性樣地,并均勻布設(shè)樣點;每個樣點按照每10 cm為一層,采集0~20 cm 層的土壤樣品。耕地、林地、荒地的采樣點個數(shù)分別為28、15、14 個(圖1),共采集114 份土樣。土壤采樣時間為2021 年4 月13~17 日,野外數(shù)據(jù)采集時地表無植被覆蓋,能最大限度減小植被對光譜的影響;采集時去除地表的植物根系及石塊等雜質(zhì),利用GPS 記錄樣點經(jīng)緯度并記錄采樣點周圍環(huán)境,每個樣點運用四分法選取約200 g土樣裝袋標(biāo)號密封帶回實驗室,將樣品進行自然風(fēng)干、研磨并過2 mm 篩后封裝為兩部分,一部分用于土壤電導(dǎo)率的測定,另一部分用于高光譜測定(趙慧等,2021b)。土壤電導(dǎo)率測定按照5∶1 的水土浸提液比例進行配置,并測定浸提液25 ℃時的電導(dǎo)率(EC,單位為mS/cm)(亞森江·喀哈爾等,2019)。
使 用 ASDFieldSpec3 地 物 光 譜 儀(350~2 500 nm),于無風(fēng)且晴朗天氣測定采集的不同土地利用類型樣品的高光譜數(shù)據(jù),采樣時間為北京時間12:00~14:00,每個樣品的光譜曲線以對其采集的10 條光譜數(shù)據(jù)的平均值為準(牛芳鵬等,2021)。由于環(huán)境存在復(fù)雜的影響因素因素,將受噪聲及水汽影響較大的1 250~1 450、1 700~1 950和2 401~2 500 nm 波段剔除(孫亞楠等,2022)。為提升光譜曲線信噪比,利用The Unscrambler 軟件對光譜數(shù)據(jù)進行Savitzky-Golay(SG)濾波9 點平滑處理。Cloutis(1996)研究表明,對光譜數(shù)據(jù)進行低階微分處理可有效減少噪聲的干擾,因此再對SG平滑處理后數(shù)據(jù)進行一階導(dǎo)數(shù)變換,最終保留1 698個波段參與后續(xù)特征波段篩選。
采用CARS、SPA、CARS-SPA等3種方法對耕地、林地、荒地、整體土地分別篩選特征變量構(gòu)建模型,有效解決光譜信息量大、數(shù)據(jù)冗余等問題,以提高估算模型的精度和速度(唐海濤等,2021)。
CARS 算法的關(guān)鍵在于利用指數(shù)衰減函數(shù)(EDP,exponentially decreasing function)和自適應(yīng)重加權(quán)采樣法(ARS,sdaptive reweighted sampling)2 個步驟對關(guān)鍵變量進行選擇,將蒙特卡羅采樣次數(shù)設(shè)置為100,對采樣次數(shù)反復(fù)迭代,并用蒙特卡羅交叉驗證法篩選交叉驗證均方根誤差(RMSECV,root mean square error of cross-validation)最小的最優(yōu)變量組合(Jin et al.,2015)。在一定程度上可以減少光譜數(shù)據(jù)冗余,提高模型的驗證精度。
SPA算法是一種前向變量選擇算法,可以從光譜數(shù)據(jù)中選擇共線性最少的波段作為特征波段,在一定程度上壓縮光譜數(shù)據(jù)數(shù)量,從而提高模型運行效率(牛芳鵬等,2021;趙慧等,2021b)。本次運用Matlab 軟件進行波段篩選及模型的構(gòu)建(唐海濤等,2021)。
CARS-SPA 算法是利用SPA 算法對CARS 篩選過后的特征變量進行二次篩選,可以進一步的優(yōu)化變量結(jié)構(gòu),減少輸入的特征波段數(shù)目,提高模型的運行效率和精度。
BP 神經(jīng)網(wǎng)絡(luò)屬于多層神經(jīng)網(wǎng)絡(luò),一般由輸入層、隱層、輸出層三層結(jié)構(gòu)組成,在處理非線性問題上有較好的應(yīng)用,也是目前土壤高光譜定量估算中應(yīng)用較多的非線性模型(田安紅等,2020)。
采集耕地、林地、荒地、整體土地總樣本數(shù)分別為56、30、28 和114 個,采用濃度梯度法對土壤樣本按照3∶1 比例劃分訓(xùn)練集與驗證集(肖云飛等,2020),將耕地、林地、荒地及整體土地的光譜數(shù)據(jù)通過CARS、SPA、CARS-SPA 等不同算法篩選的特征波長為自變量,土壤電導(dǎo)率含量為因變量,輸入到BP 神經(jīng)網(wǎng)絡(luò)模型中進行估算。對模型的精度評價通常以決定系數(shù)(R2)、均方根誤差(RMSE)、相對分析誤差(RPD)來表示,其中
式中ym和ye分別表示土壤電導(dǎo)率的實測值和估算值,yˉ表示土壤電導(dǎo)率實測值的平均值;
式中n是樣本數(shù)量;
式中SD 是驗證集實測值的標(biāo)準偏差,RMSEv為驗證集的均方根誤差。其中R2和RPD 越大,RMSE越?。ㄚw慧等,2021a;唐海濤等,2021),則說明模型較為穩(wěn)定,估算性能較好。當(dāng)RPD<1.40 則說明模型估算性能較差;當(dāng)1.40 ≤ RPD < 2.00則說明模型估算性能一般,只能粗略進行估算;當(dāng)RPD≥2.00 時模型能較好的實現(xiàn)對土壤電導(dǎo)率含量的估算(亞森江·喀哈爾等,2019)。
由表1可知,對耕地、林地、荒地土壤電導(dǎo)率進行描述性統(tǒng)計分析,耕地、林地、荒地土壤電導(dǎo)率分別為0.02~2.22、0.07~24.70 和0.18~16.66 mS/cm,平均值分別為0.84、5.43 和5.78 mS/cm,林地和荒地的平均電導(dǎo)率明顯大于耕地,變異系數(shù)分別為61.61%、115.41%、83.72%。當(dāng)把耕地、林地、荒地作為整體進行分析時,土壤電導(dǎo)率含量在0.02~24.70 mS/cm 之間,平均值為3.26 mS/cm,相比耕地增加了2.42 mS/cm,相比林地和荒地減少了2.17 和2.52 mS/cm, 變異系數(shù)為142.31%,屬于強變異性。
表1 土壤電導(dǎo)率描述性統(tǒng)計Table 1 Descriptive statistics of soil conductivity
分別對一階求導(dǎo)變換后耕地、林地、荒地、整體土地的高光譜反射率通過CARS、SPA、CARS-SPA 等3 方法篩選特征波段,篩選結(jié)果如圖2~5。由圖可以看出,不同方法對3 種土地利用類型土壤電導(dǎo)率的高光譜反射率篩選特征波段結(jié)果存在差異。
圖2 耕地的篩選特征變量結(jié)果Fig.2 Results of cultivated land of screening characteristic variables
圖2(a)可以看出,利用CARS 方法篩選特征波段的過程中,篩選變量個數(shù)隨著采樣次數(shù)的增加逐漸減少至平緩,而RMSECV 的波動較大。紅線所表示的采樣次數(shù)為71 次時,RMSECV 值達到最小為0.31,由圖2(d)可知,在RMSECV 最小時對應(yīng)CARS 方法篩選的特征波段為14 個,該方法篩選后的特征波段占全波段的0.82%。采用濃度梯度法按照3∶1 比例劃分耕地土壤電導(dǎo)率為42 個建模集和14個驗證集并通過SPA方法進行計算,由圖2(b)可知,篩選特征波段數(shù)目為11 時,RMSECV值達到最小為0.34,特征波段分布如圖2(e)所示,特征波段數(shù)目占全波段的0.65%。CARS-SPA 方法篩選過程如圖2(c)所示,當(dāng)CARS-SPA 篩選后特征波段為12 個時,RMSECV 值達到最小為0.30,其選擇的特征波段在全波段的位置圖2(f)所示,特征波段數(shù)目占全波段的0.71%。
從圖3(a)可知,利用CARS 方法篩選林地土壤電導(dǎo)率特征波段的過程中,采樣次數(shù)為60 次時,RMSECV 值達到最小為1.77,由圖3(d)可知,在RMSECV 最小時對應(yīng)篩選的特征波段為31 個,該方法篩選后的特征波段占全波段的1.83%。利用濃度梯度法按照3∶1 比例劃分成23個建模集和7 個驗證集并通過SPA 方法進行計算,由圖3(b)可知,篩選特征波段數(shù)目為10 個時,RMSECV 值達到最小為2.34,特征波段分布如圖3(e)所示,特征波段數(shù)目占全波段的0.59%。CARS-SPA 方法篩選過 程 如圖3(c)所示,當(dāng)CARS-SPA 篩選后特征波段為10 個時,RMSECV 值達到最小為2.52,其選擇的特征波段在全波段的位置如3(f)所示,特征波段數(shù)目占全波段的0.59%。
圖3 林地的篩選特征變量結(jié)果Fig.3 Results of forest land of screening characteristic variables
由圖4(a)可知,利用CARS方法篩選荒地土壤電導(dǎo)率特征波段的過程中,當(dāng)采樣次數(shù)為64次時,RMSECV 值 達 到 最 小 為2.56,由 圖4(d)可 知,CARS 方法篩選的特征波段為23 個,該方法篩選后的特征波段占全波段的1.35%。利用濃度梯度法按照3∶1 比例劃分成21 個建模集和7 個驗證集并通過SPA 方法進行計算,由圖4(b)可知,篩選特征波段數(shù)目為2 個時,RMSECV 值達到最小為1.31,特征波段分布如圖4(e)所示,特征波段數(shù)目占全波段的0.12%。CARS-SPA 方法篩選變量過程見圖4(c)。當(dāng)CARS-SPA 篩選后特征波段為1 個時,RMSECV 值達到最小為1.91,其選擇的特征波段在全波段的位置如4(f)所示,特征波段數(shù)目占全波段的0.06%。
圖4 荒地的篩選特征變量結(jié)果Fig.4 Results of wasteland of screening characteristic variables
對整體土地的高光譜反射率進行CARS、SPA、CARS-SPA 等3 種方法篩選,特征波段結(jié)果如圖5。圖5(a)表示利用CARS 方法篩選特征波段的過程中,當(dāng)采樣次數(shù)為66 次時,RMSECV 值達到最小為3.04,由圖5(d)可知,在RMSECV 最小時,對應(yīng)CARS 方法篩選的特征波段為20 個,該方法篩選后的特征波段占全波段的1.18%。采用濃度梯度法按照3∶1比例劃分成86個建模集和28個驗證集并通過SPA 方法進行計算,由圖5(b)可知,篩選特征波段數(shù)目為18 個時,RMSECV 值達到最小為3.81,特征波段分布如圖5(e)所示,特征波段數(shù)目占全波段的1.06%。SPA 算法能有效的減少篩選的特征波段的數(shù)目,而CARS方法篩選特征波段雖然數(shù)量相較于全波段有所減少,但波段數(shù)目仍較多,模型運行效率慢,因此利用CARS-SPA方法進行篩選,過程如圖5(c)所示,當(dāng)CARS-SPA 篩選后特征波段為17 個時,RMSECV 值達到最小為3.69,其選擇的特征波段在全波段的位置圖5(f)所示,特征波段數(shù)目占全波段的1.00%。
圖5 整體土地的篩選特征變量結(jié)果Fig.5 Results of Overall land of screening characteristic variables
利用CARS、SPA、CARS-SPA 等3 種方法篩選特征光譜并結(jié)合BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建土壤電導(dǎo)率估算模型。從表2 可知,一階求導(dǎo)(FDR)后全波段建模R2比原始全波段建模R2分別提高了0.15、0.18、0.19、0.03,RPD 分 別 提 高 了0.10、0.21、0.21、0.03,進行一階求導(dǎo)變換后建模精度明顯提高。
表2 基于BP的土壤電導(dǎo)率高光譜估算模型的構(gòu)建與驗證1)Table 2 Construction and verification of soil conductivity hyperspectral estimation model based on BP
基于CARS、SPA、CARS-SPA等3 種方法篩選特征波段結(jié)合BP神經(jīng)網(wǎng)絡(luò)構(gòu)建單一土地利用類型估算模型,耕地相較于全波段建模R2分別提升了0.34、0.42、0.43,RMSE降低了0.27、0.22、0.07 mS/cm,RPD提高了0.44、0.62、0.64。林地相較于全波段建模R2分別提升了0.18、0.17、0.24,RMSE 降低了0.55、2.22、2.80 mS/cm,RPD 提高了0.35、0.33、0.58?;牡叵噍^于全波段建模R2分別提升了0.10、0.09、 0.19。 RMSE 在FDR-CARS-BP 和FDRCARS-SPA-BP 中減少了1.37 和1.49 mS/cm,在FDR-SPA-BP中增加了0.82,RPD分別提高了0.17、0.15、0.37。整體土地建模相較于全波段建模R2分別 提 升 了0.15、0.15、0.20,RMSE 降 低 了0.83、0.78、2.22 mS/cm。在耕地、林地、荒地、整體土地4 種類型下,模型精度較好的均為FDR-CARSSPA-BP模型,平均R2=0.68,RPD>1.70。
綜合對比模型驗證集可知,耕地、林地、荒地中FDR-CARS-BP 模型的平均R2相比整體土地模型由0.51提升到0.63,提高了0.12。耕地、林地、荒地的FDR-SPA-BP模型的平均R2=0.65,比整體模型R2的0.51 提高了0.14,單一土地利用類型的FDRCARS-SPA-BP模型的平均R2相比整體模型由0.56提升到0.71。因此,基于CARS、SPA、CARS-SPA等3種方法結(jié)合BP神經(jīng)網(wǎng)絡(luò)構(gòu)建耕地、林地、荒地土壤電導(dǎo)率估算模型精度明顯高于整體土地建模精度。
本文采用原位測定可以更真實的反映土壤情況,從而避免了室內(nèi)土壤光譜測定實驗所帶來的局限性,這與陳紅艷等(2018)研究發(fā)現(xiàn)一致。通過一階求導(dǎo)變換后全波段建模與原始全波段進行對比,發(fā)現(xiàn)精度有所提升,對原始光譜反射率進行一階求導(dǎo)變換能夠使部分與土壤電導(dǎo)率相關(guān)性較好的光譜信息顯露出來,從而提高模型的整體精度,這與Bannari et al.(2018)研究表明一階導(dǎo)數(shù)變換能夠增強950~2 500 nm 的光譜特征的結(jié)論基本一致。地理異質(zhì)性是影響研究區(qū)土壤電導(dǎo)率估算模型精度的重要因素之一,本文中考慮了不同土地利用類型的差異,分別構(gòu)建了單一土地利用類型的土壤電導(dǎo)率反演模型和整體模型,旨在探索地理異質(zhì)性對模型精度的影響(亞森江·喀哈爾等,2019;孫亞楠等,2022)。土壤電導(dǎo)率與土壤高光譜數(shù)據(jù)之間存在著非線性關(guān)系,機器學(xué)習(xí)通常可以更好的解決土壤屬性間的非線性問題,這與曹肖奕等(2020)研究結(jié)果基本一致。
單一土地利用類型土壤電導(dǎo)率估算模型精度高于整體土壤電導(dǎo)率建模精度,分析可能是采樣時間在春季,林地、荒地相較于耕地土壤表層結(jié)皮程度高,有研究表明(Fan et al.,2015;Bannari et al.,2018)土壤表層鹽分結(jié)皮程度高其反射率及光譜特征更高,通過不同方法篩選不同土地利用類型土壤電導(dǎo)率特征波段可以看出,耕地、林地、荒地的光譜響應(yīng)的波段存在差異性,從而使得單一土地類型的土壤電導(dǎo)率估算模型相比整體建模來說優(yōu)勢更明顯,本文中單一土地利用類型土壤電導(dǎo)率估算模型FDR-CARS-BP 平均R2相比整體模型由0.51 提升到0.63,提升了0.12。單一土地利用類型土壤電導(dǎo)率構(gòu)建FDR-SPA-BP模型比整體模型平均R2由0.51 提升到0.65?;贑ARS-SPA-BP 的單一土地利用類型土壤電導(dǎo)率估算模型的平均R2由0.56 提升到0.71,提升了0.15?;贑ARS、SPA、CARS-SPA 三種方法結(jié)合BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建耕地、林地、荒地土壤的電導(dǎo)率估算模型精度明顯高于整體土地建模精度,這與孫亞楠等(2022)研究耕地和鹽荒地土壤鹽分的結(jié)論基本一致。
與已有研究(亞森江·喀哈爾等,2019;趙慧等,2021c)相比,本文利用CARS、SPA、CARS-SPA 方法篩選最優(yōu)波段用于建立土壤電導(dǎo)率的估算模型,以提高土壤電導(dǎo)率的建模精度,為土壤鹽漬化的相關(guān)研究提供新的方法;本文篩選得出的特征波段可以為湖濱綠洲土壤電導(dǎo)率最優(yōu)波段選擇提供參考。但受限于區(qū)域差異性(彭杰等,2014),土壤電導(dǎo)率變化除了與土地利用方式有關(guān),可能還與成土母質(zhì)及土壤類型等有關(guān),本文確定的土壤電導(dǎo)率最優(yōu)建模方法具有一定的局限性。在后續(xù)研究工作中,針對不同土地利用類型土地土壤電導(dǎo)率的估算機理有待于進一步探討。
1)耕地、林地、荒地、整體土地土壤電導(dǎo)率均值分別為0.84、5.43、5.78和3.26 mS/cm。
2)通過CARS、SPA、CARS-SPA 三種方法篩選特征波段輸入模型能有效提高模型運行效率。CARS-SPA 方法是對CARS 篩選后的波段利用SPA進行二次篩選,能有效減少篩選波段數(shù)據(jù),得到耕地、林地、荒地、整體土地特征波段數(shù)據(jù)僅占全波段的0.71%、0.59%、0.06%、1.00%。
3)對耕地、林地、荒地的土壤電導(dǎo)率構(gòu)建的單獨估算模型明顯提高了研究區(qū)土壤電導(dǎo)率的估算精度,在FDR-CARS-BP、FDR-SPA-BP、FDRCARS-SPA-BP 三種模型中,耕地、林地、荒地土壤電導(dǎo)率估算模型平均R2相比整體土地建模分別提 高 了0.12、0.14、0.15,F(xiàn)DR-CARS-SPA-BP 模型為研究區(qū)土壤電導(dǎo)率高光譜估算最優(yōu)模型。