丁建軍,章 盛,孫 超,米 鐵
(江漢大學(xué) a.物理與信息工程學(xué)院;b.化學(xué)與環(huán)境工程學(xué)院,湖北 武漢 430056)
土壤有機(jī)碳(soil organic carbon,SOC)是土壤質(zhì)量評價(jià)和土地可持續(xù)利用管理中必須考慮的重要指標(biāo)[1]。多元線性回歸模型能有效地對土壤屬性進(jìn)行分析與預(yù)測,自WOLD等[2]于1983年提出了偏最小二乘回歸(PLSR),有效解決了多個環(huán)境因子相互間的多重線性問題[3],國內(nèi)外專家學(xué)者便開始使用多元線性回歸方法對土壤進(jìn)行研究。UDELHOVEN等[4]對未經(jīng)處理的原始土壤樣本進(jìn)行PLSR模型預(yù)測R2=0.60,精度較差。劉煥軍等[5]建立多元逐步回歸預(yù)測模型預(yù)測東北黑土土壤有機(jī)碳含量R2=0.936。劉雪梅[6]對江西紅壤樣本的有機(jī)碳含量進(jìn)行PLSR模型預(yù)測R2=0.81。
本文通過使用PLSR算法構(gòu)建土壤有機(jī)碳含量快速預(yù)測模型。由于在建立PLSR模型時(shí)發(fā)現(xiàn)以上文獻(xiàn)中均未詳細(xì)討論如何使用PLSR構(gòu)建最優(yōu)的土壤有機(jī)碳預(yù)測模型,本文詳細(xì)論證建模過程中建模組樣本數(shù)與驗(yàn)證組樣本數(shù)的數(shù)量關(guān)系,分析得出基于PLSR的土壤有機(jī)碳預(yù)測模型最優(yōu)條件。
實(shí)驗(yàn)所用土壤樣本采集于湖北省武漢市蔡甸區(qū)的典型南方水稻田,每塊稻田隨機(jī)采集5組樣本,共采集樣本105組。將采集的每個樣本逐一標(biāo)號,剔除雜質(zhì)并置于干燥通風(fēng)處風(fēng)干,研磨并過孔徑為0.25 mm的土壤篩過篩后,對各組樣本采用重鉻酸鉀容量法[7]逐一測定其有機(jī)碳含量的標(biāo)準(zhǔn)理化值。
1.2.1 數(shù)據(jù)預(yù)處理 為減少實(shí)驗(yàn)過程中外界環(huán)境如噪聲、樣本的背景信息和雜散光等因素的影響,本研究對每組土壤樣本光譜數(shù)據(jù)分別進(jìn)行了S-G平滑、一階微分、標(biāo)準(zhǔn)正態(tài)變量變換等若干種數(shù)據(jù)預(yù)處理方法。S-G平滑加一階微分預(yù)處理后的光譜曲線能清晰地表現(xiàn)出波長-反射率曲線在440~1 000 nm波段上各點(diǎn)處的明顯差異(圖1),具有明顯的區(qū)分度和顯著性,故本研究使用S-G平滑加一階微分混合預(yù)處理方法。
圖1 S-G平滑加一階微分預(yù)處理Fig.1 Pretreatment by S-G smoothing and with first order differential
1.2.2 PLSR建模與評價(jià)指標(biāo) 由于土壤的近紅外光譜中每個波長點(diǎn)可能重疊了多種成分信息,導(dǎo)致該譜區(qū)產(chǎn)生光譜復(fù)雜、譜峰重疊等各種不利因素,難以進(jìn)行直接分析,故在近紅外定量分析中需通過化學(xué)計(jì)量學(xué)方法[8],如主成分回歸(PCR)、偏最小二乘回歸(PLSR)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等建立光譜屬性與被測參數(shù)之間的相關(guān)關(guān)系模型。其中,PLSR是一種基于多因變量與多自變量之間相關(guān)關(guān)系的回歸建模方法,偏最小二乘回歸分析能較為有效地解決傳統(tǒng)多元回歸難以解決的問題[9]。PLSR算法在建模過程中對近紅外光譜矩陣X進(jìn)行分解,剔除某些影響建模的非相關(guān)信息的同時(shí)也對濃度矩陣Y進(jìn)行相應(yīng)的變換處理,并在處理光譜矩陣X的過程中考慮了濃度矩陣Y對其的二次作用。
對于所建立的校正模型必須通過對驗(yàn)證集樣本的測試以判別所建模型的質(zhì)量是否達(dá)標(biāo),模型預(yù)測效果的優(yōu)劣一般通過統(tǒng)計(jì)參數(shù)進(jìn)行評估,如建模均方根標(biāo)準(zhǔn)差(RMSEC)、預(yù)測均方根標(biāo)準(zhǔn)差(RMSEP)、決定系數(shù)(R2)等。若R2數(shù)值越大,RMSEC與RMSEP數(shù)值越小,則預(yù)測效果越好[9]。
其中yi,act為第i個樣品的實(shí)測值,yi,pre為建模集中第i個樣品的預(yù)測值,y′i,pre為驗(yàn)證集中第i個樣品的預(yù)測值,n為建模集的樣品數(shù),m為驗(yàn)證集的樣品數(shù)。
在建立PLSR模型前,需判斷所選主成分因子的數(shù)量。其采取的方法為逐步等量增加所選因子的數(shù)量,即因子數(shù)每變化一次,校正集對模型便進(jìn)行一次檢驗(yàn)。當(dāng)檢驗(yàn)的結(jié)果使RMSEC最小且R2最大時(shí),其結(jié)果即為合理取值[10]。本研究中的主成分因子數(shù)為2。
結(jié)合上述模型質(zhì)量評價(jià)指標(biāo)的數(shù)學(xué)公式定義可知,若建模集樣本的數(shù)量過少則會導(dǎo)致PLSR模型的預(yù)測能力不足;若驗(yàn)證集樣本的數(shù)量過少則會導(dǎo)致PLSR模型的精度不高。由于建模集樣本與驗(yàn)證集樣本的數(shù)量之和為一定值,故需合理確定實(shí)驗(yàn)樣本的建模集與驗(yàn)證集的數(shù)量關(guān)系。
基于上述原因,本研究通過調(diào)整建模集與驗(yàn)證集的數(shù)量關(guān)系,將土壤樣本分為3組,逐一進(jìn)行建模分析。1號組中建模集與驗(yàn)證集的數(shù)量關(guān)系為1∶1,即建模集樣本數(shù)為52、驗(yàn)證集樣本數(shù)為53;2號組中建模集與驗(yàn)證集的數(shù)量關(guān)系為1∶3,即建模集樣本數(shù)為26、驗(yàn)證集樣本數(shù)為79;3號組中建模集與驗(yàn)證集的數(shù)量關(guān)系為3∶1,即建模集樣本數(shù)為79、驗(yàn)證集樣本數(shù)為26。
當(dāng)建模集與驗(yàn)證集的數(shù)量關(guān)系為1∶1,即建模集樣本數(shù)為52、驗(yàn)證集樣本數(shù)為53時(shí),所有樣本點(diǎn)較為均勻地分布在標(biāo)準(zhǔn)分界線兩側(cè)(圖2),表明通過模型預(yù)測數(shù)值與標(biāo)準(zhǔn)理化試驗(yàn)實(shí)測數(shù)值較為吻合。
圖2 1號組分布圖Fig.2 Distribution map of group 1
當(dāng)預(yù)測集與驗(yàn)證集的數(shù)量關(guān)系為1∶3,即預(yù)測集樣本數(shù)為26、驗(yàn)證集樣本數(shù)為79時(shí),所有樣本點(diǎn)均分布在標(biāo)準(zhǔn)分界線下側(cè)(圖3),表明此時(shí)的模型預(yù)測值普遍低于標(biāo)準(zhǔn)理化試驗(yàn)實(shí)測值。
當(dāng)預(yù)測集與驗(yàn)證集的數(shù)量關(guān)系為3∶1,即預(yù)測集樣本數(shù)為79、驗(yàn)證集樣本數(shù)為26時(shí),絕大多數(shù)樣本點(diǎn)基本分布于標(biāo)準(zhǔn)分界線上側(cè)(圖4),僅有極個別樣本點(diǎn)落于標(biāo)準(zhǔn)分界線上,表明此時(shí)的模型預(yù)測值普遍高于標(biāo)準(zhǔn)理化試驗(yàn)實(shí)測值。
圖3 2號組分布圖Fig.3 Distribution map of group 2
圖4 3號組分布圖Fig.4 Distribution map of group 3
從表1中得知,基于建模集與驗(yàn)證集的數(shù)量關(guān)系為1∶1時(shí)所建立PLSR模型的1號組,RMSEC=0.25,數(shù)值遠(yuǎn)低于其他兩組;=0.98,數(shù)值遠(yuǎn)高于其他兩組,各項(xiàng)性能參數(shù)指標(biāo)計(jì)算結(jié)果均明顯優(yōu)于其他兩組。
表1 3組PLSR模型的評價(jià)參數(shù)比較Tab.1 Comparisons of evaluation parameters of three groups of PLSR models
本研究通過可見-近紅外光譜技術(shù)獲取土壤的可見-近紅外光譜作為實(shí)驗(yàn)對象,對光譜敏感波段范圍內(nèi)的反射率與有機(jī)碳含量進(jìn)行了相關(guān)性分析,使用S-G平滑加一階微分混合預(yù)處理方法對原始光譜進(jìn)行預(yù)處理,通過調(diào)整模型建模集與驗(yàn)證集的數(shù)量關(guān)系,建立了3組偏最小二乘回歸(PLSR)模型。最后通過各項(xiàng)評價(jià)指標(biāo)對3組模型進(jìn)行比較,最終得出將建模組樣本數(shù)與驗(yàn)證組樣本數(shù)的數(shù)量關(guān)系設(shè)定為1∶1時(shí),是基于PLSR建立土壤有機(jī)碳含量預(yù)測模型的最優(yōu)條件。