白婷,丁建麗*,王敬哲
(1. 新疆大學(xué)資源與環(huán)境科學(xué)學(xué)院,新疆 烏魯木齊 830046; 2. 新疆大學(xué)綠洲生態(tài)教育部重點實驗室,新疆 烏魯木齊 830046; 3. 新疆大學(xué)智慧城市與環(huán)境建模自治區(qū)普通高校重點實驗室,新疆 烏魯木齊 830046)
土壤有機(jī)質(zhì)(soil organic matter, SOM)是反映土壤肥力、狀態(tài)和退化程度的重要指標(biāo)[1],也是陸地生態(tài)系統(tǒng)中碳循環(huán)的重要源、庫、匯,在全球碳循環(huán)中扮演重要角色.干旱、半干旱地區(qū)碳循環(huán)在全球碳循環(huán)中的作用不容忽視,尤其是SOM的變化在土地荒漠化和區(qū)域生態(tài)環(huán)境惡化等環(huán)境問題中起到關(guān)鍵作用[2].因此,快速、有效估測SOM對干旱、半干旱地區(qū)土壤肥力評估和精準(zhǔn)農(nóng)業(yè)生產(chǎn)具有重要意義.然而,使用傳統(tǒng)分析方法建立大型土壤屬性數(shù)據(jù)庫不但耗時長而且成本高[3].鑒于SOM在可見-近紅外(VIS-NIR)區(qū)域獨特的光譜響應(yīng)特征,VIS-NIR光譜技術(shù)得以克服傳統(tǒng)方法操作復(fù)雜、消耗時間長等缺點,為SOM質(zhì)量比的定量估算提供了一種有效的手段[4].
近年來,VIS-NIR光譜技術(shù)越來越多地應(yīng)用于SOM質(zhì)量比的研究.高光譜技術(shù)具有高分辨率的同時也帶來了巨大的光譜數(shù)據(jù)量,光譜數(shù)據(jù)中與土壤屬性相關(guān)的有效信息的提取與分析需借助各種統(tǒng)計建模方法.一些以數(shù)據(jù)挖掘技術(shù)為核心的方法逐漸應(yīng)用到SOM質(zhì)量比的定量研究中,如多元自適應(yīng)回歸樣條(MARS)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、隨機(jī)森林(RF)[5-7]等.其中,RF作為一種數(shù)據(jù)挖掘方法,具有運算速度快、穩(wěn)定性好等優(yōu)勢,在處理大數(shù)據(jù)集時預(yù)測精度高,且不易產(chǎn)生過擬合.此外,通過高光譜技術(shù)獲取的土壤原始光譜中必然存在與SOM不相關(guān)的噪聲,會增加SOM光譜信息探測的難度,并且光譜數(shù)據(jù)本身具有數(shù)據(jù)量大的特點,因此,光譜數(shù)據(jù)預(yù)處理和特征波段的篩選成為提高模型精度的關(guān)鍵.
基于此,文中選取內(nèi)陸干旱區(qū)艾比湖流域為研究區(qū),利用60個表層土壤樣品的室內(nèi)高光譜數(shù)據(jù)結(jié)合實測SOM質(zhì)量比,對原始高光譜數(shù)據(jù)進(jìn)行預(yù)處理,采用競爭適應(yīng)重加權(quán)法(CARS)優(yōu)選不同預(yù)處理SOM敏感波段變量,分析比較RF建模方法結(jié)合不同變量篩選對SOM質(zhì)量比估測精度的影響,旨在為干旱區(qū)SOM高光譜估測提供適宜高效的方法.
艾比湖位于82°36′—83°50′E,44°30′—45°09′N如圖1所示,地處西北內(nèi)陸,準(zhǔn)噶爾盆地西部,南、西、北三面環(huán)山.該地區(qū)干燥少雨,年均降水量僅為100~200 mm,潛在蒸發(fā)量高達(dá)1 500~2 000 mm,屬于典型溫帶大陸性氣候.區(qū)域內(nèi)典型地帶性土壤為灰漠土、灰棕漠土和風(fēng)沙土,非地帶性土壤為鹽(鹽漬化)土、草甸土和沼澤土.
圖1 研究區(qū)位置示意圖
圖2 土壤樣品SOM統(tǒng)計特征
利用美國ASD Field Spec 3型光譜儀(波段范圍為350~2 500 nm)在暗室中采集光譜數(shù)據(jù).范圍350~1 000 nm和1 000~2 500 nm波段的采樣間隔分別為1.4, 2.0 nm,重采樣間隔1.0 nm.將制備好的樣品裝入黑色器皿 (直徑11 cm,深1.4 cm)填滿,并將其表面刮平.在暗室中所用光源為50 W的鹵素?zé)簦庠磁c樣品之間相隔50 cm,鹵素?zé)籼祉斀菫?5°,光譜儀探頭與樣品表面相距10 cm.每次測量前均用漫反射標(biāo)準(zhǔn)參考板進(jìn)行標(biāo)定[8].每個樣品重復(fù)測10次,取算數(shù)平均值作為該樣品的實際光譜反射率.
光譜數(shù)據(jù)的預(yù)處理主要包括去噪和光譜變換2個部分.為減少噪聲影響,剔除信噪比較低的邊緣波段(350~399 nm以及2 451~2 500 nm),利用Savitaky-Golay(S-G)方法對所有樣品400~2 450 nm的反射光譜進(jìn)行平滑去噪處理.為減少實驗室光學(xué)環(huán)境場差異和磨樣過篩的影響,對平滑后的光譜進(jìn)行一階導(dǎo)數(shù)R′、吸光度log(1/R)以及吸光度一階導(dǎo)數(shù)[log(1/R)]′等變換.以上預(yù)處理過程均由Origin Pro 8實現(xiàn).
CARS算法是基于達(dá)爾文生物進(jìn)化理論中的“適者生存”原則,通過自適應(yīng)重加權(quán)采樣技術(shù)(APS)、指數(shù)衰減函數(shù)(EDP)和十折交互檢驗選擇出交叉驗證均方根誤差(RMSECV)最低的子集,可有效尋出最優(yōu)變量組合,在一定程度上克服了變量選擇中的組合爆炸問題,適合高維數(shù)據(jù)的變量篩選[9].該過程借助MATLAB R2012a實現(xiàn).
RF是一種較新的機(jī)器學(xué)習(xí)算法,是包含多個決策樹的分類器.該算法通過多次bootsrap重抽樣獲得隨機(jī)樣本,并基于隨機(jī)樣本建立相應(yīng)的決策樹,然后組合多棵決策樹的預(yù)測,通過投票得出最終預(yù)測結(jié)果[10].RF模型建立的過程涉及2個關(guān)鍵參數(shù):決策樹的數(shù)量ntree和分割節(jié)點數(shù)mtry.經(jīng)反復(fù)測試,本研究設(shè)置ntree為1 000,mtry為2.RF模型建模通過MATLAB R2012a實現(xiàn).
RF模型評價指標(biāo)選取決定系數(shù)R2、均方根誤差RMSE和相對分析誤差RPD3個參量.R2用以判斷模型的穩(wěn)定程度,其值越接近1,說明模型越穩(wěn)定;RMSE用于評價模型的準(zhǔn)確性,其值越小說明精度越高;RPD用以表征模型估測效果,分為3個等級,分別為較好(RPD≥2.0)、尚可(1.4≤RPD<2.0)和無估測能力(RPD<1.4).
將所有樣品按照SOM質(zhì)量比高低分為6個等級.計算每個等級光譜的均值,形成平均光譜曲線.圖3a表明在不同SOM等級下,土壤光譜反射率曲線形態(tài)相似,且隨著SOM質(zhì)量比增加,其反射率趨于減小,λ為波長.在400~1 380 nm區(qū)間內(nèi),反射率隨著波長增大而增大,在1 380~2 450 nm區(qū)間內(nèi),由于水分吸收,于1 400,1900,2200 nm處出現(xiàn)波谷.圖3b,3d特征變量分別為R′和[log(1/R)]′,通過分解重疊混合光譜,放大局部反射特征,反射率受SOM質(zhì)量比的影響降低,不同等級的光譜曲線基本重合,表明導(dǎo)數(shù)變換能夠減弱背景噪聲,突出曲線特征.經(jīng)吸光度變換后,光譜曲線形態(tài)上與原始光譜曲線呈相反趨勢,如圖3c所示.
文中采用CARS方法突出進(jìn)行變量優(yōu)選,通過反復(fù)迭代采樣次數(shù),比較單個采樣次數(shù)的RMSECV值,直至找到最小的RMSECV值所包含的最優(yōu)變量子集.由于篇幅限制,僅以R的優(yōu)選變量過程為例進(jìn)行說明.圖4a為光譜變量篩選過程,隨著采樣數(shù)n的增加,被優(yōu)選出的波長變量數(shù)N逐漸減少,整體呈指數(shù)衰減趨勢.在采樣次數(shù)為1—30次時,RMSECV值不斷減小,表明篩選過程中剔除了與SOM無關(guān)的變量;而采樣次數(shù)達(dá)到30次以后,RMSECV呈回升趨勢,表明可能剔除了與SOM有關(guān)的變量而導(dǎo)致了RMSECV增大(見圖4b).當(dāng)采樣次數(shù)達(dá)30次時,RMSECV達(dá)到最小值12.869 g/kg,其對應(yīng)的光譜變量子集最優(yōu)(見圖4c),該子集包含了35個光譜變量(特別說明,因光譜變量分布較集中,故圖4中無法全部顯示),占全譜段的1.71%.經(jīng)變量篩選,R′,log(1/R)和[log(1/R)]′的特征變量個數(shù)分別為26,34和121,分別占全譜段的1.27%,1.66%,5.89%,大大減少了波長變量個數(shù).
圖3 不同SOM質(zhì)量比的土壤反射率及其光譜變換曲線(單位:g/kg)
圖4 CARS方法篩選關(guān)鍵變量
利用全譜段(400~2 450 nm)建立不同光譜變量的RF模型,其對應(yīng)的模型效果不同,如表1所示.總體而言,R′和[log(1/R)]′的建模集R2分別為0.961和0.982,驗證集R2分別為0.788和0.823,均高于R;建模集RMSE分別為6.051, 5.808 g/kg,驗證集RMSE分別為8.064, 7.478 g/kg,均高于R;這說明不同的光譜變量有利于提高光譜靈敏度和模型精度.全譜建模時,R′,log(1/R)和[log(1/R)]′3種模型的RPD分別為1.591,1.493和1.643,均達(dá)到1.4以上,模型具有較好的估測能力,而R的RPD僅為1.325,基本無估測能力.其中,[log(1/R)]′的R2和RPD最大.RMSE最小,模型估測效果最好.
相較于全譜段模型,基于CARS波段篩選的RF模型估測精度有所提高,模型性能更優(yōu).在CARS-RF模型中,4種模型的RPD均在1.4以上,都能較好地估測研究區(qū)SOM.其中,[log(1/R)]′的RPD達(dá)到2.177,具有較好的估測能力.4種光譜變量的SOM模型估測能力從大到小依次為[log(1/R)]′,R′,log(1/R),R. 4種模型的RPD分別為2.177,1.631,1.536,1.414,其對應(yīng)的估測精度從高到低依次為[log(1/R)]′,R′,log(1/R),R.
綜上所述,將評價指標(biāo)作為衡量的依據(jù),[log(1/R)]′在全譜段和特征波段的模型效果均最突出.相對于全譜段,CARS建模波段較少,有助于簡化模型結(jié)構(gòu),也能夠提高模型的精度.在不同的RF估測模型中,經(jīng)CARS篩選的[log(1/R)]′模型估測效果最優(yōu).
表1 不同光譜變量的SOM質(zhì)量比RF模型
基于高光譜數(shù)據(jù)快速監(jiān)測SOM質(zhì)量比對于評價干旱區(qū)土壤質(zhì)量具有重要意義[11].文中利用野外土壤樣品采集、室內(nèi)光譜數(shù)據(jù)獲取以及土壤樣品理化分析,進(jìn)行土壤光譜變換,對不同光譜變量進(jìn)行變量優(yōu)選,并利用RF建立SOM質(zhì)量比估算模型,模型估測效果較好.
土壤VIS-NIR光譜通常包含冗余波長信息,通常無法直接用于光譜建模.而特征變量的優(yōu)選一方面可以簡化模型,另一方面可以剔除不相關(guān)變量,進(jìn)而提升模型的估測性能.文中基于CARS算法提取的SOM特征波段范圍主要集中于660,710,1 970和2 340 nm附近,大多分布在可見光范圍內(nèi).基于CARS算法的RF模型性能均優(yōu)于全譜段RF模型,表明CARS算法可有效篩選出對SOM較敏感的波長變量,剔除冗余波長變量,并可以較大程度解決變量篩選時的組合爆炸問題,從而選擇出與SOM質(zhì)量比相關(guān)的最優(yōu)變量集合,提高模型估算精度,以此說明CARS算法可作為艾比湖流域提取SOM特征變量的有效方法.
RF作為一種機(jī)器學(xué)習(xí)算法,以其高效處理數(shù)據(jù)的能力和穩(wěn)健的模型性能被廣泛關(guān)注.文中在變量優(yōu)選的基礎(chǔ)上引入RF算法,表現(xiàn)出良好的性能,其驗證集RPD最高達(dá)到2.177,模型估測能力較好;其原因在于該算法對于輸入數(shù)據(jù)的分布沒有嚴(yán)格要求[12],不需要檢查變量的交互作用是否顯著,且對異常值和噪聲具有較高的容忍度.綜上所述,RF模型較適用于艾比湖流域,為該流域SOM質(zhì)量比估測提供了一種有效手段.
值得注意的是,文中通過變量優(yōu)選建立干旱區(qū)艾比湖流域SOM質(zhì)量比估算模型,為研究區(qū)SOM質(zhì)量比測定提供了有效的估測方案,但是土壤反射率除了與SOM相關(guān),還與土壤含鹽量、含水量等相關(guān).艾比湖流域作為鹽漬化的典型樣區(qū),土壤含鹽量、含水量等在一定程度上可能會對SOM質(zhì)量比的模型精度產(chǎn)生影響.此外,建模使用的土壤樣品經(jīng)過了各種預(yù)處理,消除了外界諸多環(huán)境因素的影響,因此下一步的工作將利用野外原位數(shù)據(jù)開展研究,進(jìn)而討論CARS-RF模型在光譜建模中的適應(yīng)性.
采集了艾比湖流域60個表層土樣,測定其室內(nèi)高光譜數(shù)據(jù)及SOM質(zhì)量比,在預(yù)處理的基礎(chǔ)上,引入CARS算法進(jìn)行特征波長優(yōu)選,并基于全譜段和特征波段構(gòu)建RF估算模型,通過比較分析,得到以下結(jié)論:
1) CARS算法對不同光譜變量進(jìn)行篩選后,得出4種光譜變量的優(yōu)選變量集個數(shù)分別為35,26,34和121,不同光譜變量經(jīng)CARS算法篩選后模型精度有所提高,估測效果更好.這說明CARS算法在提取特征關(guān)鍵波長變量、優(yōu)化模型結(jié)構(gòu)方面起到關(guān)鍵作用.
2) 不同光譜變量的估測精度有所差異,經(jīng)導(dǎo)數(shù)處理的RF模型結(jié)果最優(yōu),其中[log(1/R)]′建立的RF模型效果最突出.全譜段驗證集的R2,RPD值分別為0.823和1.643,特征波段驗證集的R2,RPD值分別為0.881和2.177.
3) 通過比較全譜段RF模型與CARS-RF模型這2種方案,利用[log(1/R)]′構(gòu)建的CARS-RF模型精度最高,驗證集R2,RMSE和RPD分別為0.881,6.438 g/kg和2.177,能夠較高效地對研究區(qū)SOM質(zhì)量比進(jìn)行估測.