劉翠英,張津瑞,曾 濤,樊建凌*
1. 南京信息工程大學(xué)應(yīng)用氣象學(xué)院,江蘇省農(nóng)業(yè)氣象重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210044 2. 南京信息工程大學(xué)環(huán)境科學(xué)與工程學(xué)院,江蘇省大氣環(huán)境監(jiān)測與污染控制高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210044
土壤團(tuán)聚體是土壤的基本單位,是土壤礦物通過膠結(jié)團(tuán)聚過程形成的具有一定大小的土壤基本結(jié)構(gòu)單元,具有水穩(wěn)性、力穩(wěn)性、多孔性等特點(diǎn),對土壤的理化性質(zhì)有著重要的影響[1]。 此外,土壤團(tuán)聚體的形成過程及其穩(wěn)定機(jī)制受土壤有機(jī)質(zhì),特別是其中碳氮的影響,團(tuán)聚體與有機(jī)質(zhì)含量是土壤結(jié)構(gòu)狀況和肥力水平的重要評判依據(jù)。 然而,影響土壤有機(jī)碳氮在團(tuán)聚體內(nèi)的含量與分布的因素非常復(fù)雜[2],快速、精確地了解土壤有機(jī)碳氮含量在團(tuán)聚體內(nèi)部的分布與變化將有助于了解土壤碳氮交換量、儲量變化及土壤養(yǎng)分的管理。
近幾十年來,人們對紅外光譜法預(yù)測土壤性質(zhì)進(jìn)行了大量的嘗試,利用紅外光譜可以根據(jù)樣本的光譜特征確定其中特定成分的含量,整個測量過程簡單、快速且無破壞性。 紅外光譜法已被用于對土壤有機(jī)碳、粘粒含量、全氮含量、pH、可提取態(tài)P、K、Fe、Ca、Mg及CEC等指標(biāo)的分析[3]。 由于光譜數(shù)據(jù)的復(fù)雜性,主成分回歸、多元線性回歸(MLR)、偏最小二乘法回歸(PLSR)等多元數(shù)據(jù)分析技術(shù)常被用于紅外光譜預(yù)測土壤性質(zhì)分析建模,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,支持向量機(jī)(SVM)、隨機(jī)森林(RF)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等機(jī)器學(xué)習(xí)方法也逐漸被應(yīng)用于紅外光譜數(shù)據(jù)建模。 然而,針對多元數(shù)據(jù)處理算法的比較研究還較缺乏,各種算法的優(yōu)劣及適用范圍尚不清楚。 最近,Moura-Bueno等[4]基于紅外光譜,采用PLSR、MLR、SVM和RF方法建立了土壤有機(jī)碳的預(yù)測模型,結(jié)果表明,預(yù)測效果最好的是PLSR模型; 基于隨機(jī)森林建立的模型預(yù)測效果不夠突出。 另一方面,已有研究多針對全土性質(zhì)進(jìn)行建模分析,用紅外光譜對土壤團(tuán)聚體有機(jī)碳(SOC)和全氮(TN)進(jìn)行預(yù)測的研究還不多見。 本研究以我國內(nèi)蒙古淡栗鈣土為研究對象,采用遺傳算法(genetic algorithm, GA)進(jìn)行特征波長選擇,采用PLSR、SVM、ANN和RF等方法建立了不同粒徑團(tuán)聚體SOC、TN和紅外光譜吸光度之間的關(guān)系模型,進(jìn)而評價不同模型預(yù)測土壤團(tuán)聚體中SOC和TN含量的潛力,探尋有效預(yù)測土壤團(tuán)聚體性質(zhì)的最佳算法,為實(shí)時、快速分析土壤團(tuán)聚體有機(jī)碳和全氮含量提供技術(shù)支撐。
土壤樣品采自內(nèi)蒙古自治區(qū)烏蘭察布市四子王旗,是典型的內(nèi)蒙古短花針茅荒漠草原帶,共采集24個土壤樣品,土壤類型為淡栗鈣土。 樣品運(yùn)回實(shí)驗(yàn)室后在4 ℃保存,采用濕篩法[5]對土壤團(tuán)聚體進(jìn)行分級,共分為>2,0.25~2,0.053~0.25及<0.053 mm四級團(tuán)聚體,共得到96個團(tuán)聚體樣品。 所得各級團(tuán)聚體樣品經(jīng)冷凍干燥后研磨過100目篩,用稀HCl溶液(1 mol·L-1)去除土壤樣品中的無機(jī)碳。 將土壤再次研細(xì),過100目,用元素分析儀(Vario EL IIII, Elementar, Germany)測定團(tuán)聚體土壤有機(jī)碳(SOC)和全氮(TN)含量,每個樣品重復(fù)測定三次并求平均值。
團(tuán)聚體樣品紅外光譜用傅里葉變換紅外光譜儀(Nicolet iS5, Thermo Fisher Inc.)測定,光譜范圍為400~4 000 cm-1,分辨率為4 cm-1,掃描次數(shù)為32次。 將所得光譜數(shù)據(jù)轉(zhuǎn)換為吸光度[log(1/反射率)],并校正基線。 采用Savitzky-Golay平滑法對光譜數(shù)據(jù)進(jìn)行平滑處理,然后取一階微分,預(yù)處理后的光譜如圖1所示。
圖1 經(jīng)S-G平滑(a)及一階微分(b)處理后的團(tuán)聚體FTIR光譜圖
在建立模型前,需要將樣品紅外光譜及對應(yīng)的SOC、TN數(shù)據(jù)劃分為建模數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集,采用Kennard-Stone算法進(jìn)行劃分,通過計算樣本光譜變量之間的歐氏距離,在樣本特征空間里均勻地選取建模樣本。 劃分所得建模數(shù)據(jù)集與驗(yàn)證數(shù)據(jù)集的統(tǒng)計結(jié)果如表1所示。
表1 建模數(shù)據(jù)集與驗(yàn)證數(shù)據(jù)集的樣本統(tǒng)計結(jié)果Table 1 Statistic summary of the modeling and validating data subsets
1.4.1 確定區(qū)間大小
采用遺傳算法(genetic algrothim)[6]進(jìn)行特征波長選擇,由于FTIR光譜波長數(shù)目較大(每一光譜包含7 468個數(shù)據(jù)),直接采用原始數(shù)據(jù)會使GA的優(yōu)化搜索空間過大,因此需要按一定波長區(qū)間對光譜數(shù)據(jù)進(jìn)行劃分。 按適宜波長間隔將整個光譜均分為x個區(qū)間,然后求取各區(qū)間數(shù)據(jù)的標(biāo)準(zhǔn)偏差,平均標(biāo)準(zhǔn)偏差值越小說明區(qū)間數(shù)據(jù)越相近,因此在保障區(qū)間數(shù)據(jù)相近性的前提下應(yīng)該盡量減少變量數(shù)目以優(yōu)化計算效率。
1.4.2 特征光譜的確定
經(jīng)S-G平滑及一階微分處理后的數(shù)據(jù),按適宜的波長區(qū)間對光譜進(jìn)行均分,以各區(qū)間的平均譜數(shù)據(jù)為自變量,以交叉校驗(yàn)均方根誤差RMSECV為適應(yīng)度函數(shù),采用遺傳算法(GA)進(jìn)行最優(yōu)光譜波長的選擇,設(shè)定種群大小為30,最大繁殖代數(shù)為100,交叉概率為0.5,變異概率為0.01[7],五次重復(fù)遺傳算法后,確定特征光譜。 本研究使用“caret”包進(jìn)行GA分析。
1.4.3 偏最小二乘法回歸(PLSR)
偏最小二乘回歸(PLSR)是一種廣泛用于土壤光譜定量分析的線性回歸模型,使用潛變量方法對預(yù)測變量和觀察變量的兩個投影空間中的協(xié)方差結(jié)構(gòu)進(jìn)行建模。 因此,PLSR模型克服了變量之間的共線性問題。 此外,PLSR模型在選擇特征向量時,強(qiáng)調(diào)自變量對因變量的解釋和預(yù)測,消除了無用噪聲對回歸的影響,并最大程度地減少了模型中包含的變量數(shù)量。 本研究使用“pls”包進(jìn)行PLSR建模。
1.4.4 支持向量機(jī)(SVM)
支持向量機(jī)(SVM)是一種對數(shù)據(jù)進(jìn)行二元分類的模型,SVM的基本模型是找到一個可以分隔正反數(shù)據(jù)的超平面,選擇的超平面需要離訓(xùn)練集數(shù)據(jù)盡可能遠(yuǎn); 支持向量機(jī)的關(guān)鍵在于核函數(shù),這是一個非線性的分類器。 它的學(xué)習(xí)策略就是間隔最大化,找到距離超平面間隔最小的樣本點(diǎn),然后將其間隔最大化。 本研究使用“e1071”包進(jìn)行SVM建模。
1.4.5 人工神經(jīng)網(wǎng)絡(luò)(ANN)
人工神經(jīng)網(wǎng)絡(luò)是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理,模仿生物的神經(jīng)網(wǎng)絡(luò)來對復(fù)雜的外界信息進(jìn)行處理,它是對生物神經(jīng)元網(wǎng)絡(luò)的簡易化模仿。 人工神經(jīng)網(wǎng)絡(luò)模型可以并行分布地去處理問題,擁有很高的容錯性,把信息的加工和記憶能力結(jié)合一起。 它實(shí)際上是一個復(fù)雜網(wǎng)絡(luò),連接大量的簡單元件,因此ANN具有很高的非線性,能夠進(jìn)行復(fù)雜的邏輯操作,處理非線性關(guān)系的樣本數(shù)據(jù)。 本研究使用“neuralnet”包進(jìn)行ANN建模。
1.4.6 隨機(jī)森林(RF)
隨機(jī)森林模型通過自助重采樣技術(shù),連續(xù)生成訓(xùn)練樣本和測試樣本,并從訓(xùn)練樣本中生成多個分類樹以形成隨機(jī)森林。 它通過對決策樹進(jìn)行平均來降低過擬合的風(fēng)險。 即使新的數(shù)據(jù)點(diǎn)出現(xiàn)在數(shù)據(jù)集中,整個算法也不會受到太大的影響,只會影響一個決策樹,并且很難影響所有決策樹。 本研究使用“randomForest”包進(jìn)行RF建模。
主要采用決定系數(shù)(R2)、均方根誤差(RMSE)以及相對分析誤差(RPD)對模型進(jìn)行評價。R2越大且RMSE越小說明模型精度越好、其預(yù)測效果越好。R2的判斷標(biāo)準(zhǔn)為:R2>0.90表示預(yù)測結(jié)果出色;R2在0.81~0.90之間表示預(yù)測結(jié)果很好;R2在0.66~0.80之間為預(yù)測結(jié)果一般;R2<0.66表示預(yù)測結(jié)果很差。 PRD的判斷標(biāo)準(zhǔn)為: RPD>2表明模型具有極好的預(yù)測能力; 1.4 由圖2可見,波長間隔越小,樣本的平均標(biāo)準(zhǔn)偏差越低,但同時區(qū)間數(shù)目越多。 在波長間隔大小為6 cm-1時最大標(biāo)準(zhǔn)偏差出現(xiàn)一個低谷,此時區(qū)間數(shù)為600個,因此在兼顧數(shù)據(jù)相近性與變量少量性的前提下,確定6 cm-1作為劃分區(qū)間的適宜大小,將整個光譜分為600個區(qū)間,然后將區(qū)間的平均光譜值作為自變量形成光譜曲線。 圖2 平均標(biāo)準(zhǔn)偏差和最大標(biāo)準(zhǔn)偏差與波長區(qū)間大小的關(guān)系Fig.2 Relations between the mean SD, maximumSD and wavelength interval 采用GA算法并重復(fù)5次后,篩選出團(tuán)聚體SOC特征光譜區(qū)間共計303個。 由團(tuán)聚體SOC特征光譜區(qū)間的分布(圖3)可以看出,SOC的特征光譜覆蓋范圍較廣,但在2 200~2 700及>3 700 cm-1以上波長范圍內(nèi)選取的特征光譜區(qū)間較少。 此外,在GA篩選過程中1 132~1 138,1 372~1 378,1 630~1 636,1 810~1 816,1 864~1 870cm-1這五個光譜區(qū)間在每次重抽樣中均被選為特征光譜,表明這些光譜區(qū)間對團(tuán)聚體SOC含量較為敏感。 圖3 團(tuán)聚體SOC和TN特征光譜區(qū)間分布Fig.3 Histrogam of charasteristic wavelengthsof SOC and TN in soil aggregates 對于土壤團(tuán)聚體TN,GA算法共篩選出特征光譜161個。 由團(tuán)聚體TN特征光譜區(qū)間的分布(圖3)可以看出,TN的特征光譜覆蓋范圍較平均,但在>3 200 cm-1以上波長范圍內(nèi)選取的特征光譜區(qū)間較少。 在GA篩選過程中1 114~1 120,1 258~1 264,1 264~1 270,1 276~1 282和1 408~1 414 cm-1這五個光譜區(qū)間在每次重抽樣中均被選為特征光譜,表明這些光譜區(qū)間對團(tuán)聚體TN含量較為敏感。 基于特征光譜區(qū)間,采用PLSR或ANN對團(tuán)聚體SOC的建模結(jié)果均非常出色(R2>0.90,表2),同時這兩種模型對驗(yàn)證樣本的預(yù)測結(jié)果也很好(R2>0.80)。 然而PLSR模型對驗(yàn)證樣本SOC含量較低時出現(xiàn)了較明顯的高估(圖4),導(dǎo)致模型預(yù)測結(jié)果在低值區(qū)與實(shí)測值偏差較大,RMSE值較高,使得PLSR整體預(yù)測能力較為一般(PRD<2)。 采用SVM模型對團(tuán)聚體SOC的建模結(jié)果也較好,但模型對樣本的預(yù)測能力卻較差(R2<0.66,PRD<2)。 然而,RF對團(tuán)聚體SOC的建模及預(yù)測結(jié)果均較差,基本無法對樣本進(jìn)行預(yù)測(PRD<1.4)。 總之,四種模型中ANN的建模及預(yù)測結(jié)果均是最好的,其對驗(yàn)證樣本的預(yù)測除有少數(shù)點(diǎn)偏離外,其余點(diǎn)基本均在1∶1線的附近(圖4),其RMSE值在四種模型中最低(RMSE=0.227)。 此外,ANN在對團(tuán)聚體SOC預(yù)測時并沒有受團(tuán)聚體粒徑的影響,整體表現(xiàn)出極好的預(yù)測能力(RPD>2)。 然而,本研究樣品數(shù)量相對較少,若增加建模樣品數(shù)量可能會建立效果更好的模型。 表2 不同模型對SOC和TN預(yù)測效果比較Table 2 Comprison of SOC and TN predictingresults by different models 圖4 不同模型對團(tuán)聚體SOC的預(yù)測值與實(shí)測值對比Fig.4 Comparison of predicted SOC and measured SOC in soil aggregates by different models 基于特征光譜區(qū)間,采用PLSR或SVM對團(tuán)聚體TN的建模結(jié)果均較好(R2>0.80,表2),然而這兩種模型對驗(yàn)證樣本的預(yù)測結(jié)果卻一般(0.66 圖5 不同模型對團(tuán)聚體TN的預(yù)測值與實(shí)測值對比Fig.5 Comparison of predicted TN and measured TN in soil aggregates by different models 為了驗(yàn)證特征光譜選擇對團(tuán)聚體SOC和TN估測的影響,運(yùn)用上述結(jié)果中表現(xiàn)最好的ANN模型對FTIR全譜數(shù)據(jù)進(jìn)行了建模預(yù)測。 結(jié)果表明,采用全譜數(shù)據(jù)對驗(yàn)證樣本SOC的預(yù)測結(jié)果較好,對TN的預(yù)測結(jié)果卻一般(圖6)。 此外,采用全譜數(shù)據(jù)對SOC和TN的預(yù)測效果均低于基于GA選擇的特征光譜區(qū)間的ANN模型(圖4和圖5)。 可見,采用GA進(jìn)行特征光譜區(qū)間的選擇不僅可以簡化模型的結(jié)構(gòu),剔除光譜中無關(guān)的信息,而且可以提高模型的精度和預(yù)測效果。 特征波長選擇是紅外光譜預(yù)測土壤性質(zhì)的一個重要步驟,通過對特征波長的選擇可以剔除無關(guān)的信息,提高模型的預(yù)測性能及計算效率。 由于紅外光譜數(shù)據(jù)量大,常采用相關(guān)系數(shù)法、連續(xù)投影算法、遺傳算法、粒子群算法、蟻群算法等[5-6]來選取特征波長。 如劉振堯等[9]基于隨機(jī)森林優(yōu)選信息波長,選取了215個波長信息,建立了土壤有機(jī)質(zhì)的預(yù)測模型。 本研究選用遺傳算法對特征光譜區(qū)間進(jìn)行篩選,充分利用了土壤的光譜信息,采用人工神經(jīng)網(wǎng)絡(luò)建模對團(tuán)聚體SOC和TN的預(yù)測也取得了較滿意的結(jié)果。 因此,遺傳算法從整體最優(yōu)化的角度篩選了土壤團(tuán)聚體SOC和TN的特征波段,簡化了模型的結(jié)構(gòu)并提高了模型的精度,結(jié)合人工神經(jīng)網(wǎng)絡(luò)建模,更適用于團(tuán)聚體土壤有機(jī)碳和全氮的光譜特征分析與估測模型的構(gòu)建。 紅外光譜由于測量過程簡單、快速且無破壞性,已被廣泛用于對土壤有機(jī)碳、粘粒含量、全氮含量、pH、可提取態(tài)P、K、Fe、Ca、Mg及CEC等指標(biāo)的分析[3, 10]。 Erktan等[11]采集了法國南部75個荒地土壤樣品并將其分為<1,1~2和3~5 mm三級團(tuán)聚體,利用中紅外-近紅外光譜對團(tuán)聚體穩(wěn)定性進(jìn)行了預(yù)測。 Shi等[12]采集了83個比利時土壤樣本并將其分為>250,63~250和<63 μm三級團(tuán)聚體,利用可見-近紅外光譜建立了團(tuán)聚體穩(wěn)定性的偏最小二乘法定量模型。 可見,已有研究往往針對不同粒徑組分分別建立模型進(jìn)行預(yù)測,該過程要求樣本量大且很難對所有組分同時進(jìn)行合理預(yù)測。 此外,不同研究者所選用的土壤團(tuán)聚體粒徑分級方案存在差異,獲得的團(tuán)聚體粒徑也不盡相同,不易針對不同粒徑進(jìn)行建模分析,嚴(yán)重制約了紅外光譜法在分析預(yù)測土壤團(tuán)聚體理化性質(zhì)中的應(yīng)用。 本研究發(fā)現(xiàn),雖然不同粒徑土壤團(tuán)聚體在不同波長的吸光度存在較大差異,但其FTIR光譜的整體趨勢是一致的,因此可以考慮將不同粒徑土壤團(tuán)聚體FTIR數(shù)據(jù)混合建模。 通過遺傳算法篩選特征光譜,我們發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)模型可以很好地對土壤團(tuán)聚體碳氮含量進(jìn)行預(yù)測,且不會受團(tuán)聚體粒徑的影響。 這可能由于在遺傳算法選擇特征光譜時已將某些反映土壤礦物、粘粒等特征的波長區(qū)間包含在內(nèi)(圖3),如780~800 cm-1處是石英礦物中Si—O鍵伸縮振動、910 cm-1為高嶺石和三水鋁石等粘土礦物中O—H的彎曲振動、1 034 cm-1為高嶺石礦物中Si—O鍵的伸縮振動、3 600~3 700 cm-1為粘土礦物中O—H鍵的伸縮振動[10, 13]。 由于人工神經(jīng)網(wǎng)絡(luò)的復(fù)雜性和高度的非線性,其所建立的模型可能已包含了不同粒徑對土壤碳氮含量的影響。 因此,我們認(rèn)為基于遺傳算法篩選特征波長區(qū)間并采用人工神經(jīng)網(wǎng)絡(luò)可以將不同粒徑土壤團(tuán)聚體統(tǒng)一建模,用于團(tuán)聚體土壤有機(jī)碳和全氮含量的估測。 圖6 基于全譜數(shù)據(jù)對團(tuán)聚體SOC和TN的預(yù)測值與實(shí)測值對比Fig.6 Comparison of predicted TN and measured TN in soil aggregates by different models (1)采用Savitzky-Golay平滑并取一階微分對FTIR光譜數(shù)據(jù)進(jìn)行預(yù)處理后,在波長間隔大小為6 cm-1時最大標(biāo)準(zhǔn)偏差出現(xiàn)一個低谷,同時平均標(biāo)準(zhǔn)偏差較小,區(qū)間數(shù)量適中,可以用于劃分FTIR光譜區(qū)間。 (2)基于遺傳算法篩選的特征光譜區(qū)間構(gòu)建的土壤團(tuán)聚體SOC和TN含量的ANN模型建模及預(yù)測能力均是最好的(RPD>2),顯著優(yōu)于PLSR、SVM及RF模型。 (3)基于全譜數(shù)據(jù)的ANN模型對土壤團(tuán)聚體SOC和TN的預(yù)測效果均低于基于GA選擇的特征光譜區(qū)間的ANN模型。 結(jié)果表明,采用GA進(jìn)行特征光譜區(qū)間的選擇不僅可以簡化模型結(jié)構(gòu),剔除無關(guān)的信息,而且可以提高模型的精度和預(yù)測效果。 (4)將不同粒徑土壤團(tuán)聚體FTIR數(shù)據(jù)混合建模。 通過遺傳算法篩選特征光譜,發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)模型不僅可以很好地對土壤團(tuán)聚體SOC和TN含量進(jìn)行預(yù)測,而且不會受團(tuán)聚體粒徑的影響,表明該方法可以用于團(tuán)聚體土壤有機(jī)碳和全氮含量的估測。2 結(jié)果與討論
2.1 適宜波長區(qū)間
2.2 土壤團(tuán)聚體特征光譜區(qū)間
2.3 不同建模方法對團(tuán)聚體SOC預(yù)測結(jié)果比較
2.4 不同建模方法對團(tuán)聚體TN預(yù)測結(jié)果比較
2.5 基于全譜的團(tuán)聚體SOC和TN估測
3 結(jié) 論