彭海根,金 楹,詹莜國(guó),陳雅瓊,封幸兵,錢發(fā)聰, 黃 果,黃天杰,李 杰*
(1.四川威斯派克科技有限公司,四川 成都 610041;2.云南省煙草公司昆明市公司,云南 昆明 650051; 3.中國(guó)煙草總公司云南省公司,云南 昆明 650011;4.昆明市煙草公司嵩明分公司, 云南 嵩明 651700)
土壤作為作物生長(zhǎng)的基礎(chǔ),其氮素營(yíng)養(yǎng)是決定作物產(chǎn)量和品質(zhì)的重要因素[1]。水解性氮是銨態(tài)氮、硝態(tài)氮、氨基酸、酰胺以及易水解蛋白質(zhì)的總和,是土壤氮素的重要組成部分,與土壤全氮相比,更能反映土壤近期氮素的供應(yīng)狀況[2],快速準(zhǔn)確的測(cè)定土壤中水解性氮含量并配合有效的氮肥施肥方案是作物快速生長(zhǎng)的關(guān)鍵技術(shù)環(huán)節(jié)。傳統(tǒng)土壤水解性氮的檢測(cè)方法主要有酸水解法、堿解擴(kuò)散法和堿解蒸餾法[3]等,但這些方法檢測(cè)周期長(zhǎng)、效率低,難以滿足土壤施肥方案時(shí)效性的要求。相較而言,近紅外光譜具有分析速度快、成本低、綠色無損、并能同時(shí)測(cè)定多種組分等優(yōu)點(diǎn)[4],被廣泛應(yīng)用于土壤組分含量的檢測(cè)[5-7]。
隨著現(xiàn)代近紅外光譜儀器硬件的發(fā)展,樣品光譜通常包含大量數(shù)據(jù)點(diǎn),信息復(fù)雜,譜峰寬且共線性嚴(yán)重,同時(shí)土壤中包含的大量無機(jī)組分在近紅外譜區(qū)基本無吸收,需通過對(duì)其他組分的光譜響應(yīng)或與其他組分之間的相關(guān)性才能被檢測(cè)[8]。研究發(fā)現(xiàn)采用合適的波長(zhǎng)變量篩選方法[9]可剔除不相關(guān)或非線性變量,從而簡(jiǎn)化模型并得到預(yù)測(cè)能力更強(qiáng)、更穩(wěn)健的校正模型。因此,在建立土壤養(yǎng)分近紅外定量分析模型前,有必要對(duì)土壤光譜進(jìn)行波長(zhǎng)篩選。賈生堯等[10]采用遞歸變量選擇方法在預(yù)測(cè)過程中遞歸更新土壤全氮與有機(jī)質(zhì)的特征變量,并獲得了預(yù)測(cè)效果滿意的模型;劉燕德等[11]和于雷等[12]將競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(CARS)變量篩選方法應(yīng)用于近紅外光譜檢測(cè)土壤組分,建立相應(yīng)組分的校正模型,取得了預(yù)期結(jié)果,但上述研究所采用的建模樣本較少且未針對(duì)特定地區(qū)建模。
本研究針對(duì)整個(gè)昆明地區(qū)不同類型的土壤,通過收集大量代表性樣品,以土壤中水解性氮為研究對(duì)象,結(jié)合CARS有效特征波長(zhǎng)篩選方法和偏最小二乘(PLS)建模方法,建立了在特定地區(qū)范圍內(nèi)準(zhǔn)確性和穩(wěn)健性更好的土壤組分近紅外數(shù)學(xué)模型,可為實(shí)現(xiàn)應(yīng)用近紅外光譜方法快速、高效、準(zhǔn)確地測(cè)定昆明地區(qū)土壤水解性氮的含量提供依據(jù),也可為今后有效推進(jìn)土壤平衡施肥提供重要數(shù)據(jù)支撐。
樣品取自不同地塊的表層土壤,分別屬于昆明市管轄的安寧、富民、晉寧、祿勸、石林、嵩明、尋甸和宜良8個(gè)區(qū)縣,共計(jì)963個(gè)。在制樣前,首先采用標(biāo)準(zhǔn)方法GB/T17296-2009[13]對(duì)土壤進(jìn)行分類。為減小水分和粒徑對(duì)土壤光譜的影響,按照標(biāo)準(zhǔn)方法NY/T 1121.1-2006[14]對(duì)樣品依次進(jìn)行攤鋪、清雜、風(fēng)干、研磨和過篩,過篩時(shí)確保除碎石外的全部樣品均通過20目篩網(wǎng),然后采用四分法將每份制備好的樣品分成兩部分并編號(hào),其中一部分進(jìn)行光譜數(shù)據(jù)采集,另外一部分按標(biāo)準(zhǔn)方法[15]酸水解法測(cè)定水解性氮的含量。
采用美國(guó)Galaxy公司生產(chǎn)的QuasIR3000傅里葉變換近紅外光譜儀采集土壤樣品光譜數(shù)據(jù),參數(shù)設(shè)置:采用積分球漫反射方式采集光譜,以儀器內(nèi)置背景作參比;光譜掃描范圍10 000~4 000 cm-1,其中樣品原始光譜共包含1 574個(gè)數(shù)據(jù)點(diǎn)數(shù);分辨率8 cm-1;光譜掃描次數(shù)為64次。
在建立近紅外定量模型前,將樣品分為校正集和驗(yàn)證集,其中校正集用于擬合數(shù)據(jù),建立模型,驗(yàn)證集不參與模型建立,用來評(píng)價(jià)所建模型的實(shí)際效果和預(yù)測(cè)誤差。采用Kennard-Stone(K-S)方法[16]按約1∶9的比例從全部樣品中挑選90個(gè)樣品作為驗(yàn)證集,剩余873個(gè)樣品作為校正集,具體步驟如下:首先計(jì)算所有樣本兩兩間的歐氏距離,選擇距離最遠(yuǎn)的2個(gè)樣本進(jìn)入驗(yàn)證集;然后計(jì)算剩余樣本與所選擇樣本的最短距離,把其中距離最大的樣本從未選中樣本集中移入驗(yàn)證集;最后依次迭代運(yùn)算,直至模型驗(yàn)證集中的樣本數(shù)量達(dá)到指定數(shù)目。
樣品原始光譜除樣品自身信息外,往往還包含外界因素的干擾,需對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。常用的光譜預(yù)處理方法[17]包括多元散射校正(Multiplicative scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變換(Standard normal variate transformation,SNV)、導(dǎo)數(shù)、平滑處理和小波變換(Wavelet transform,WT)等,其中MSC和SNV可消除顆粒分布不均勻及顆粒大小產(chǎn)生的散射影響,在固體顆粒漫反射光譜中應(yīng)用較廣泛;導(dǎo)數(shù)處理既可以消除基線偏移,還可以起到一定的放大和分離重疊信息的作用,但由于噪聲信號(hào)也被放大,因此通常在導(dǎo)數(shù)之前需對(duì)光譜數(shù)據(jù)做平滑處理;原始光譜經(jīng)過導(dǎo)數(shù)處理后再進(jìn)行WT去噪聲處理,可使光譜信噪比增大,從而提高分析精度。
CARS方法[18]模仿達(dá)爾文進(jìn)化理論中的“適者生存”原則,每次通過使用重加權(quán)采樣(ARS)技術(shù)篩選出PLS模型中回歸系數(shù)絕對(duì)值大的波長(zhǎng)點(diǎn),去掉權(quán)重小的波長(zhǎng)點(diǎn),利用交叉驗(yàn)證選出模型交叉驗(yàn)證均方差值最低的子集,可有效選擇與所測(cè)性質(zhì)相關(guān)的最優(yōu)波長(zhǎng)組合。其基本算法如下:假定光譜矩陣為X(m×n),m為樣本數(shù),n為變量數(shù),y(m×1)表示目標(biāo)性質(zhì)向量,e為校正誤差,PLS校正模型可用下式表達(dá):y=Xb+e,那么任一隱變量數(shù)下回歸系數(shù)向量b=[b1,b2,…,bn]。b中第i個(gè)元素的絕對(duì)值|b|(1≤i≤n)表示第i個(gè)波長(zhǎng)點(diǎn)對(duì)y的貢獻(xiàn),|bi|值越大則表示該變量越重要。為評(píng)價(jià)每個(gè)波長(zhǎng)的重要性,定義權(quán)重Wi:
通過CARS法去掉的變量,其權(quán)重Wi均設(shè)為0。
①采用蒙特卡羅采樣法采樣N次,每次從樣品集中隨機(jī)抽取一定比例(通常為50%~80%)的樣品為校正集,分別建立PLS回歸模型,得到相應(yīng)的回歸系數(shù)。
②利用指數(shù)衰減函數(shù)(Exponential decreasing function,EDF)強(qiáng)行去掉|bi|值相對(duì)較小的波長(zhǎng)點(diǎn)。
③通過N次ARS技術(shù)篩選出模型中回歸系數(shù)絕對(duì)值大的波長(zhǎng)點(diǎn),用每次產(chǎn)生的新變量子集建立PLS回歸模型,計(jì)算各模型的交互驗(yàn)證標(biāo)準(zhǔn)偏差(RMSECV),選擇RMSECV值最小的子集,即為最優(yōu)變量子集。
采用PLS[19]建立校正模型,可很好地解決自變量間存在多重相關(guān)性和樣本數(shù)量小于波長(zhǎng)數(shù)量的問題,同時(shí),對(duì)系統(tǒng)解釋能力較強(qiáng)的綜合變量能夠被有效提取,從而排除無解釋能力的信息,對(duì)變量解釋能力增強(qiáng)。本文采用交互驗(yàn)證和驗(yàn)證集驗(yàn)證相結(jié)合的方式,并以相關(guān)系數(shù)(R)、RMSECV和預(yù)測(cè)標(biāo)準(zhǔn)偏差(RMSEP)等評(píng)價(jià)參數(shù)綜合評(píng)價(jià)模型效果。其中R值越接近1,表明模型回歸(或預(yù)測(cè))結(jié)果越好,Rcv和Rp分別表示模型交互驗(yàn)證和外部驗(yàn)證過程中的模型相關(guān)系數(shù)。對(duì)于同一批次樣本,RMSECV和RMSEP值越小說明模型交互驗(yàn)證與驗(yàn)證集驗(yàn)證模型預(yù)測(cè)效果越好。應(yīng)用K-S方法挑選樣品,CARS方法篩選波長(zhǎng)變量,PLS模型建立和預(yù)測(cè)以及圖表繪制均采用Matlab R2019a實(shí)現(xiàn)。
土壤樣品的分類結(jié)果見表1,種類涵蓋昆明地區(qū)的紅壤和水稻土2種主要土壤類型,同時(shí)又各自包含6種不同類型,具有代表意義。由于采用標(biāo)準(zhǔn)方法對(duì)土壤分類對(duì)研究人員的要求較高,因此為方便方法的推廣,將2種土壤樣品混合進(jìn)行建模。
表1 樣品基本信息表Table 1 Basic information of samples
采用K-S方法劃分的水解性氮校正集與驗(yàn)證集的參考值統(tǒng)計(jì)結(jié)果見表2,水解性氮的驗(yàn)證集樣品參考值含量變化范圍包含在校正集變化范圍內(nèi),表明校正集樣品所建立的校正模型能較好地適用于驗(yàn)證集樣品。
表2 樣品參考值統(tǒng)計(jì)結(jié)果Table 2 Statistical results of sample reference value
分別采用MSC、SNV、MSC+一階導(dǎo)數(shù)+平滑、SNV+一階導(dǎo)數(shù)+平滑和WT對(duì)土壤樣品原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,并采用全波段結(jié)合PLS方法建立校正模型(表3)。結(jié)果顯示,不同預(yù)處理方法獲得的模型剔除的異常樣品數(shù)量也不同;其水解性氮PLS模型的結(jié)果差異較大,但原始光譜經(jīng)WT預(yù)處理后模型的RMSECV最小,且Rcv最大,表明該模型效果最佳。因此,波長(zhǎng)變量選擇和建模時(shí)均采用小波變換處理原始光譜圖,樣品原始光譜圖和經(jīng)WT變換后的光譜圖見圖1。圖1顯示,樣品原始光譜圖在經(jīng)過WT變換后,能夠有效地消除樣本光譜數(shù)據(jù)間的基線漂移、隨機(jī)噪聲等現(xiàn)象。
表3 不同預(yù)處理方法的模型計(jì)算結(jié)果Table 3 Calculation results of models with different pretreatment methods
采用CARS方法進(jìn)行光譜變量篩選,反復(fù)迭代采樣次數(shù)并比較每個(gè)采樣次數(shù)的RMSECV值,直至找到最小RMSECV值所包含的最優(yōu)變量子集。圖2顯示了水解性氮進(jìn)行50次CARS運(yùn)行的變量選擇過程。由圖可見,CARS方法在選擇光譜變量的過程中,隨著采樣次數(shù)的增加,被選擇的波長(zhǎng)變量數(shù)逐漸下降,下降趨勢(shì)由快變慢(圖2A),同時(shí)RMSECV曲線呈先緩慢下降至最低點(diǎn)后又逐漸上升的趨勢(shì)(圖2B)。同時(shí)發(fā)現(xiàn)有些變量回歸系數(shù)的絕對(duì)值不斷變大,而另一些變量回歸系數(shù)的絕對(duì)值卻不斷變小(圖2C),表明過程中先剔除了與水解性氮無關(guān)的波長(zhǎng)變量,使RMSECV值下降,而后又剔除了與組分相關(guān)的波長(zhǎng)變量,信息丟失導(dǎo)致RMSECV值增加。圖2中垂直星點(diǎn)標(biāo)記的位置對(duì)應(yīng)整個(gè)變量篩選過程中RMSECV值最小,對(duì)應(yīng)的變量數(shù)為178個(gè)。
分別采用小波變換方法對(duì)原始光譜進(jìn)行預(yù)處理,再采用CARS方法篩選出波長(zhǎng)變量并結(jié)合PLS建模方法,建立水解性氮的定量校正模型,最后使用K-S方法挑選出來的驗(yàn)證集驗(yàn)證模型的預(yù)測(cè)誤差,結(jié)果見表4。對(duì)比表3~4的結(jié)果發(fā)現(xiàn),采用CARS方法對(duì)土壤樣品原始光譜進(jìn)行波長(zhǎng)變量篩選后的模型參數(shù)有所改善,即模型的RMSECV分別由31.63降至25.55,Rcv由0.78提升至0.84,表明CARS方法可有效篩選土壤相關(guān)波長(zhǎng)變量,并剔除其他無關(guān)變量,從而改善模型結(jié)果,其中模型交互驗(yàn)證過程的RMSECV和Rcv隨因子數(shù)變化的趨勢(shì)如圖3所示。另外,由于實(shí)驗(yàn)所用土壤樣本數(shù)量大,難免會(huì)遇到參考值或光譜異常的樣本,本研究在模型擬合過程中剔除了39個(gè)異常樣本。為進(jìn)一步驗(yàn)證所建模型的效果,采用建立的模型預(yù)測(cè)挑選出的外部驗(yàn)證樣品,并將模型預(yù)測(cè)值和參考值進(jìn)行對(duì)比,得到模型的RMSEP為29.83,Rp為0.79,計(jì)算得參考值和預(yù)測(cè)值的平均相對(duì)偏差為12.50%。
表4 模型計(jì)算結(jié)果Table 4 Calculation results of models
圖3 水解性氮建模的RMSECV和Rcv隨因子數(shù)變化的趨勢(shì)圖Fig.3 A plot of RMSECV and Rcv versus factors for hydrolytic nitrogen
圖4 水解性氮校正集和驗(yàn)證集的參考值與預(yù)測(cè)值散點(diǎn)圖Fig.4 Scatter plot of laboratory measured values versus model predicted values for calibration set and prediction set of hydrolytic nitrogen
模型校正集和驗(yàn)證集的參考值與預(yù)測(cè)值擬合的散點(diǎn)圖見圖4。圖4顯示,模型驗(yàn)證集樣品均勻分布在土壤水解性氮整個(gè)濃度范圍內(nèi),具有代表性,表明驗(yàn)證集樣品的驗(yàn)證結(jié)果能夠真實(shí)反映模型預(yù)測(cè)結(jié)果,且驗(yàn)證集樣品的參考值和預(yù)測(cè)值偏差較小,平均相對(duì)偏差僅為12.50%,進(jìn)一步表明采用CARS方法能有效篩選土壤相關(guān)波長(zhǎng)變量,從而改善模型結(jié)果。
本研究采用CARS方法篩選土壤光譜波長(zhǎng)變量,并建立水解性氮的PLS定量分析模型,研究結(jié)果顯示:①近紅外光譜技術(shù)結(jié)合CARS方法,在大量代表性樣品建模下,可有效建立昆明地區(qū)不同土壤類型的水解性氮含量的近紅外數(shù)學(xué)模型,模型RMSECV由31.63降至25.55,Rcv由0.78提升至0.84,模型外部驗(yàn)證時(shí)的RMSEP和Rp分別是29.83和0.79,預(yù)測(cè)的平均相對(duì)偏差為12.5%;②在采取有效的波長(zhǎng)變量篩選和建模方法的基礎(chǔ)上,應(yīng)用近紅外光譜技術(shù)快速測(cè)定土壤含量較低的組分時(shí),同樣能取得較好的結(jié)果。本方法可推廣應(yīng)用于土壤其他組分的近紅外檢測(cè)。