朱龍圖 李名偉 夏曉蒙 黃東巖 賈洪雷
(1.吉林大學(xué)生物與農(nóng)業(yè)工程學(xué)院,長春 130022;2.吉林大學(xué)工程仿生教育部重點實驗室,長春 130022)
土壤有機質(zhì)是指土壤中各種含碳有機物,包括植物和動物殘體、土壤生物的細(xì)胞和組織,以及這些生物殘體不同階段的分解物質(zhì)[1],它是土壤肥力和養(yǎng)分的重要指標(biāo)。土壤有機質(zhì)對土壤的陽離子交換能力、土壤結(jié)構(gòu)、水分入滲率、持水能力、土壤的可蝕性和保持性、農(nóng)藥吸附等理化、生物特性有很強的影響[2]。因此,測量土壤有機質(zhì)含量、掌握其動態(tài)變化對改善土壤結(jié)構(gòu)和指導(dǎo)農(nóng)業(yè)生產(chǎn)具有重要意義。
目前,測量土壤有機質(zhì)含量的方法有重鉻酸鉀容量法、CO2檢測法和灼燒法等[3]。其中,重鉻酸鉀容量法因測量結(jié)果準(zhǔn)確、適用于批量測量而被廣泛使用,也是我國測量土壤有機質(zhì)含量的標(biāo)準(zhǔn)方法。然而,該方法需要在實驗室進(jìn)行分析處理,存在操作復(fù)雜、耗時長、成本高和破壞性大的缺點[4]。因此,對快速、經(jīng)濟、無損、準(zhǔn)確的土壤有機質(zhì)含量預(yù)測方法的需求越來越大[5]。近年來,由于近端土壤遙感技術(shù)的普遍應(yīng)用,可見光和近紅外(Vis-NIR)漫反射光譜法受到關(guān)注,并被認(rèn)為是一種可行的土壤分析方法[6-10]。光譜分析法雖然準(zhǔn)確,但其缺點是易受土壤粒度、土壤濕度和氧化鐵的影響[11-13]。
土壤中氣體的產(chǎn)生和消耗主要與土壤中的微生物活動過程有關(guān)[14],而土壤有機質(zhì)是土壤微生物生命活動所需養(yǎng)分和能量的主要底物[15]。在微生物的降解過程中,養(yǎng)分和能量的供應(yīng)底物在土壤中產(chǎn)生許多揮發(fā)性有機化合物(Volatile organic compounds,VOCs)和氣體[14]。因此,土壤中的VOCs和氣體必然與土壤有機質(zhì)存在某種相關(guān)性,這種相關(guān)性為土壤有機質(zhì)的快速、低成本檢測提供了可能。氣體檢測成本很低,尤其是基于固態(tài)化學(xué)傳感器的檢測[16]。然而,土壤氣體的組成成分復(fù)雜[17],采用單一的氣體傳感器對其識別很困難。由金屬氧化物半導(dǎo)體(Metal oxide semiconductor,MOS)氣體傳感器陣列和模式識別組成的人工嗅覺系統(tǒng)(又稱為電子鼻)被認(rèn)為是實現(xiàn)復(fù)雜氣體檢測的有效手段。雖然人工嗅覺系統(tǒng)不會給出任何關(guān)于揮發(fā)性氣體化合物的具體信息,也不會給出它們的特性[18],但是借助適當(dāng)?shù)哪J阶R別算法,人工嗅覺系統(tǒng)可以識別特定樣本的氣體模式,進(jìn)而將不同樣本區(qū)分開來[19-20]。目前,人工嗅覺系統(tǒng)在食品和飲料、醫(yī)藥、環(huán)境保護(hù)、工業(yè)生產(chǎn)和軍事等領(lǐng)域有著廣泛的應(yīng)用[21-24],且在土壤特性檢測方面也有研究報道。例如,LAVANYA等[25]應(yīng)用電子鼻測量了土壤中腐植酸和黃腐酸的含量,ANDRZEJ等[26]采用電子鼻評估了土壤濕度狀況。但電子鼻(或稱人工嗅覺系統(tǒng))在土壤有機質(zhì)含量方面的檢測卻鮮有文獻(xiàn)報道。
針對上述問題,本文提出一種基于人工嗅覺系統(tǒng)的土壤有機質(zhì)檢測方法。首先,采用10個由不同溫度控制的MOS氣體傳感器構(gòu)建檢測陣列;然后,以此陣列獲取土壤揮發(fā)性有機化合物的響應(yīng)曲線;通過提取曲線上的最大值、最小值、平均值、平均微分系數(shù)、響應(yīng)面積、第30秒的瞬態(tài)值以及第60秒的瞬態(tài)值等7個特征來構(gòu)建嗅覺特征空間;最后,對特征空間優(yōu)化后,采用回歸算法建立預(yù)測模型。
本研究126份土壤樣品采集于吉林省各個地區(qū),采樣點分布如圖1所示。
圖1 研究區(qū)域及采樣點分布圖
吉林省地貌差異明顯,地勢由東南向西北傾斜,呈現(xiàn)東南高、西北低的特點。吉林省的主要土壤類型為暗棕壤、黑鈣土、白漿土、草甸土和黑土,主要種植作物玉米、大豆、小麥。由于頻繁的耕作導(dǎo)致土壤退化,施用化肥成了農(nóng)業(yè)生產(chǎn)不可或缺的選擇。因此,研究土壤特性有助于優(yōu)化施肥、改良土壤結(jié)構(gòu)。采樣時間為2018年秋季,采樣前除去雜物和浮土,采樣深度為5~20 cm。每個樣品以S形布點采樣,一個樣點采集11個點位的土壤,均勻混合后,挑出落葉、秸稈和石塊,然后用“四分法”保留1 kg土壤樣品。根據(jù)試驗需求,將每個土壤樣品分成兩份,一份用于化學(xué)測量分析,另一份用于人工嗅覺分析。化學(xué)測量分析所用的各個土壤樣品經(jīng)標(biāo)記后送往實驗室,24℃無風(fēng)自然條件下風(fēng)干。人工嗅覺分析所用的土壤樣品通過噴施蒸餾水和風(fēng)干的方法使各樣品的相對濕度為65%,然后分別稱取80 g置于250 mL的密閉集氣瓶內(nèi),之后將集氣瓶存放在通風(fēng)良好的黑暗房間里24 h。
用于化學(xué)分析的各土壤樣品,經(jīng)自然干燥、研磨、過0.25 mm篩網(wǎng)處理后,采用重鉻酸鉀容量法測量。測量結(jié)果采用SPSS 13統(tǒng)計描述,結(jié)果如圖2所示。圖2中,土壤樣品的有機質(zhì)質(zhì)量比范圍為10.62~48.79 g/kg,均值為23.44 g/kg。土壤有機質(zhì)含量的變異系數(shù)(Variable coefficient,CV)為32.17%,說明樣本有機質(zhì)含量分布呈現(xiàn)出較大的空間變異性。K-S檢驗值是0.224(P>0.05),表明樣本數(shù)據(jù)服從正態(tài)分布。
圖2 土壤有機質(zhì)含量統(tǒng)計性描述結(jié)果
人工嗅覺系統(tǒng)主要由傳感器陣列、信號處理模塊、數(shù)據(jù)采集卡和計算機等構(gòu)成,如圖3所示。其中,傳感器陣列采用單類傳感器陣列,即由多個型號相同傳感器構(gòu)成。檢測陣列由10個SGAS707型傳感器構(gòu)成,放置在密閉測試盒內(nèi)。SGAS707型傳感器是美國集成設(shè)備技術(shù)公司(Integrated Device Technologies,Inc.,IDT)生產(chǎn)的一款用于檢測VOCs的專用MOS氣體傳感器,其內(nèi)部集成了一個加熱電阻,可進(jìn)行溫度調(diào)制,能為傳感器提供不同的工作溫度。傳感器陣列通過FFC軟線與信號處理模塊相連接。數(shù)據(jù)采集卡通過杜邦線連接信號處理模型的輸出接口,用于實時采集傳感器的輸出值Vout,并將采集到的數(shù)據(jù)傳輸?shù)接嬎銠C。信號處理模塊包括了溫度調(diào)制電路和測量輸出電路,如圖4所示。
圖3 人工嗅覺系統(tǒng)裝置
圖4 信號處理模塊
圖中Vheat為加熱電阻的供電電壓,通過一個三端電壓調(diào)節(jié)器LM317對其進(jìn)行調(diào)制,進(jìn)而為傳感器提供一個恒定工作溫度。調(diào)節(jié)電阻PR1,可以改變Vheat。在測量單一組分揮發(fā)性氣體(如辛烷、甲醛和異丁烯等)時,IDT公司推薦SGAS707型傳感器的最優(yōu)工作溫度為150℃。然而,諸多研究[27-29]已經(jīng)證實,MOS氣體傳感器在不同的工作溫度下,其對不同組分氣體分子的吸附能力不一樣。因此,通過溫度調(diào)制可以提高傳感器陣列對混合氣體的檢測靈敏度。為了提高單類傳感器陣列對復(fù)雜土壤氣體的選擇性以及靈敏性,本文采用不同的Vheat對SGAS707型傳感器的工作溫度進(jìn)行差異性調(diào)制。設(shè)計中,10個傳感器的Vheat分別設(shè)置為1.25、1.50、1.75、2.00、2.25、2.50、2.75、3.00、3.25、3.50 V。
系統(tǒng)工作時,先啟動測試按鈕,然后采用氦氣清洗密閉測試盒,待傳感器陣列輸出值穩(wěn)定后,停止洗氣并關(guān)閉測試按鈕;接著,再使用一個20 mL的注射器抽取集氣瓶頂部的土壤氣體,并通過密閉測試盒上面的注射孔快速轉(zhuǎn)移至密閉測試盒內(nèi),同時開啟測試按鈕。當(dāng)采樣時間到達(dá)100 s時,停止采樣,并重新用氦氣清洗密閉氣室,以便進(jìn)行下次測量。一般情況下,較高的采樣頻率更能反映傳感器的響應(yīng),但會增加后期數(shù)據(jù)處理的難度,而較低的采樣頻率會造成關(guān)鍵數(shù)據(jù)的丟失。測試過程中,采樣頻率設(shè)置為10 Hz。
人工嗅覺系統(tǒng)測量土壤VOCs的典型響應(yīng)曲線如圖5所示(以土壤有機質(zhì)質(zhì)量比為27.95 g/kg的土壤樣品為例)。圖中S1~S10分別為10個傳感器編號。從圖5可以看出,10 Hz的采樣頻率能夠有效地獲得傳感器的響應(yīng)變化曲線,確保了適宜的數(shù)據(jù)量。此外,不同溫度控制下的傳感器對土壤VOCs的響應(yīng)不同,表現(xiàn)出特定的選擇性和靈敏性。然而,在傳感數(shù)據(jù)測量中,由于外部環(huán)境變化、測量系統(tǒng)本身誤差,響應(yīng)曲線將不可避免產(chǎn)生一些毛刺。
圖5 傳感器響應(yīng)曲線
為了消除毛刺的不利影響,采用一維中值濾波算法對系統(tǒng)輸出響應(yīng)曲線進(jìn)行平滑處理,并設(shè)置平滑點數(shù)為30。圖6為濾波后的響應(yīng)曲線。為減少后期數(shù)據(jù)處理難度、加快預(yù)測模型測量效率,本研究選取測量開始后的前60 s數(shù)據(jù)作為分析區(qū)域。
圖6 濾波后的傳感器響應(yīng)曲線
從傳感器響應(yīng)曲線上提取恰當(dāng)?shù)奶卣鳂?gòu)建嗅覺特征空間是建立預(yù)測模型的前提條件。常用的特征提取方式包括[30]:最大值(Maximum value)Vmax、最小值(Minimum value)Vmin、平均值(Mean value)Vmean、平均微分系數(shù)(Mean differential coefficient value)Vmdc、響應(yīng)面積(Response area value)Vra、時刻t的瞬態(tài)值Vt和穩(wěn)態(tài)值Vs等。本研究在提取的數(shù)據(jù)分析區(qū)域采用Vmax、Vmin、Vmean、Vmdc、Vra、第30秒的瞬態(tài)值V30和第60秒的瞬態(tài)值V60這7個特征來構(gòu)建特征空間。其中,Vmdc和Vra的計算式分別為
(1)
(2)
式中Di——第i個采樣數(shù)據(jù),V
N——Di的個數(shù)
Δt——采樣間隔時間,s
經(jīng)過特征提取后,每個傳感器響應(yīng)曲線上的7個特征將被提取,而傳感器陣列由10個傳感器構(gòu)成。因此,一個樣品將被提取70個特征,所有土壤樣品將形成一個126×70的嗅覺特征空間。為了消除量綱和數(shù)量級對特征的影響,采用z-score方法對選取的特征進(jìn)行標(biāo)準(zhǔn)化處理[31]。
為建立一個適當(dāng)?shù)念A(yù)測模型,需要將嗅覺特征空間劃分為訓(xùn)練集和測試集兩部分。訓(xùn)練集可用于訓(xùn)練模型,測試集可以對模型預(yù)測性能進(jìn)行測試。合理的劃分訓(xùn)練集和預(yù)測集有利于模型性能提升,采用Kennard-Stone算法給出的較為合理的劃分比例[32],即訓(xùn)練集和測試集之比為7∶3。
主成分因子(Principal component factor,PCF)數(shù)量是造成PLSR模型過擬合或欠擬合的主要因素。本研究采用留一交叉驗證法結(jié)合赤池信息量(Akaike information criterion,AIC)準(zhǔn)則來判斷最優(yōu)PCF數(shù)量。其中,赤池信息量(AIC值)計算公式為
AIC=MlgPrss+2p
(3)
式中M——訓(xùn)練集樣本數(shù)目
Prss——訓(xùn)練集樣本的預(yù)測殘差平方和
p——PCF數(shù)量
SVR是一種基于支持向量機(Support vector machine,SVM)的回歸技術(shù)[33]。LIBSVM工具箱提供了兩類回歸方法:ε-SVR和ν-SVR。本研究采用ε-SVR建立回歸模型,應(yīng)用徑向基函數(shù)(Radial basis function,RBF)作為核函數(shù)。懲罰因子c(c>0)和內(nèi)核參數(shù)g是影響SVR建模的兩個主要參數(shù)。本文為了優(yōu)化SVR模型,采用網(wǎng)格搜索法和5-折交叉驗證法,并結(jié)合交叉驗證均方誤差(Mean square error of cross-validation,MSECV)來確定參數(shù)組合(c,g)的值。MSECV越小,參數(shù)c和g的組合越佳。
BPNN是一種典型的多層前向型神經(jīng)網(wǎng)絡(luò)。本文采用3層網(wǎng)絡(luò)構(gòu)建BPNN模型,隱含層最優(yōu)神經(jīng)個數(shù)計算公式為
(4)
式中h——隱含層神經(jīng)元節(jié)點數(shù)
n——輸入節(jié)點數(shù)
m——輸出節(jié)點數(shù)
α——1~10的正整數(shù)
其中,n等于用于建模的特征向量數(shù)量,m為預(yù)測因變量數(shù)量,本文只對有機質(zhì)含量作預(yù)測,所以m為1。
為了確定BPNN模型隱含層神經(jīng)元節(jié)點數(shù)h,首先根據(jù)式(4)確定h的范圍,然后基于h的每一次不同值在訓(xùn)練集上分別訓(xùn)練10個不同的BPNN模型,并計算這10個BPNN模型對訓(xùn)練集樣本的預(yù)測均方根誤差(Root mean square error,RMSE)的平均值,記為MRMSE,最后根據(jù)MRMSE來確定h值。MRMSE越小,對應(yīng)h值用于建模的效果越好。
在BPNN建模及h的優(yōu)選中,隱含層神經(jīng)元的激活函數(shù)選用S形傳遞函數(shù)tansig,輸出層神經(jīng)元的激活函數(shù)采用線性傳遞函數(shù)purelin,并且設(shè)置訓(xùn)練的迭代1 000次,學(xué)習(xí)率為0.01,目標(biāo)誤差為0.001。
土壤養(yǎng)分預(yù)測模型的常用評價指標(biāo)有決定系數(shù)(Coefficient of determination)R2、均方根誤差(RMSE)和預(yù)測偏差比(Ratio of prediction derivation,RPD)。R2越接近1表明模型的擬合效果越好;RMSE用于表征模型預(yù)測值和測量值之間誤差,RMSE越小,表明模型的預(yù)測精度越高。RPD是樣品標(biāo)準(zhǔn)差與預(yù)測均方誤差之間的比值,用于對模型性能進(jìn)行進(jìn)一步評價。一般RPD越大,模型性能越好。RPD在土壤檢測方面,可分為3個等級[34]:A級(RPD大于等于2.0)表示模型性能非常好,可以進(jìn)行準(zhǔn)確的定量檢測;B級(RPD大于1.4小于2.0)表示模型一般,可進(jìn)行較為粗略檢測;C級(RPD小于等于1.4)表示模型性能很差,不可用于定量檢測。
根據(jù)Kennard-Stone分配方法,可以將126個土壤樣品的嗅覺特征空間分成兩部分,即前88個樣本數(shù)據(jù)作為訓(xùn)練集,剩余的38個樣本數(shù)據(jù)用作測試集。分別構(gòu)建PLSR、SVR和BPNN預(yù)測模型,并采用訓(xùn)練集對各模型的建模參數(shù)進(jìn)行優(yōu)化。PLSR模型的參數(shù)PCF可通過AIC隨PCF數(shù)量變化曲線來確定,如圖7a所示。最優(yōu)的PCF數(shù)量可以根據(jù)較小的AIC值來確定。但是當(dāng)PCF數(shù)量選擇過大時,會使模型的復(fù)雜度增加。因此,從圖7a可以看出,將PFC數(shù)量設(shè)為3用于構(gòu)建PLSR模型較為適宜。SVR模型的參數(shù)組合(c,g)經(jīng)網(wǎng)格搜索法和5-折交叉驗證法優(yōu)化后,可設(shè)為c=2,g=0.015 6,如圖7b所示。建立BPNN模型時,較小的MRMSE更有利于優(yōu)選出合適的隱含層神經(jīng)元節(jié)點數(shù)。因此,根據(jù)圖7c,可將BPNN建模的隱含層神經(jīng)元節(jié)點數(shù)設(shè)定為10。在確定各預(yù)測模型的最佳建模參數(shù)后,分別構(gòu)建PLSR、SVR和BPNN模型,并用訓(xùn)練集對各模型進(jìn)行訓(xùn)練,同時采用測試集對模型進(jìn)行預(yù)測。預(yù)測結(jié)果如圖8所示。
圖7 各模型的建模參數(shù)優(yōu)選結(jié)果
圖8 各模型預(yù)測結(jié)果
圖8顯示3種模型的R2分別為0.69、0.86和0.65;RMSE分別為5.71、2.81、3.63 g/kg;RPD分別為1.07、2.16和1.68。這表明,土壤嗅覺特征空間與土壤有機質(zhì)含量之間存在一定的相關(guān)性。但是,土壤嗅覺特征空間并沒有得到充分的優(yōu)化,因此需要進(jìn)一步的分析來確定是否存在其他干擾。嗅覺特征空間的優(yōu)化主要包括異常樣本剔除和特征降維這兩種處理。它可以消除異常樣本和冗余特征對模型的干擾,達(dá)到準(zhǔn)確建模、預(yù)測的目的。
異常樣本產(chǎn)生的主要原因可能是操作不當(dāng)、人工嗅覺系統(tǒng)本身的誤差或溫度、濕度等外部因素。異常樣本對模型的預(yù)測精度具有重大影響。因此,有必要對異常樣品進(jìn)行識別和去除。MCS方法是基于預(yù)測誤差(或者預(yù)測殘差)對異常樣本的敏感性而提出的,被證明是一種有效的異常樣本剔除方法[35]。
圖10 去除異常樣本后各模型的預(yù)測結(jié)果
本文采用MCS對嗅覺特征空間的異常樣本進(jìn)行檢測,具體步驟如下:首先,在嗅覺特征空間中隨機選擇70%的樣本作為訓(xùn)練集,剩余30%的樣本用作驗證集;其次,基于訓(xùn)練集數(shù)據(jù)計算PLSR的最佳主成分因子數(shù),并構(gòu)建PLSR預(yù)測模型;之后,應(yīng)用構(gòu)建的PLSR預(yù)測模型對驗證集進(jìn)行預(yù)測,并計算驗證集樣本的預(yù)測殘差;然后,重復(fù)上述過程進(jìn)行多次循環(huán)采樣,可獲得所有樣品的預(yù)測殘差分布;最后,計算各樣本預(yù)測殘差的平均值(Average value,AVG)和標(biāo)準(zhǔn)偏差(Standard deviation,STD),并根據(jù)AVG-STD分布圖檢測異常樣本。
圖9為采用MCS方法得到的AVG-STD分布圖。在運行MCS方法時,將循環(huán)采樣次數(shù)設(shè)定為5 000次。圖中結(jié)果表明,1、2、22、64、32號樣本屬于離群點,可視為異常樣本。這是因為這幾個樣本不穩(wěn)定,也不適用于基于其余樣本構(gòu)建的模型。
圖9 預(yù)測殘差平均值與標(biāo)準(zhǔn)差的關(guān)系
去除這5個異常樣本后,首先按照前文所述方法重新劃定訓(xùn)練集和測試集,此時訓(xùn)練集包含85個樣本數(shù)據(jù),測試集包含36個樣本數(shù)據(jù)。之后,再基于新的訓(xùn)練集重新優(yōu)化各模型的建模參數(shù),得到PLSR的PFC為4,SVR的參數(shù)為c=4.12和g=0.011 8,BPNN的隱含層神經(jīng)元節(jié)點數(shù)為12。然后,再次建立新的PLSR、SVR和BPNN預(yù)測模型,測試集的預(yù)測結(jié)果如圖10所示。圖10顯示3種模型的R2分別為0.75、0.89和0.84;RMSE分別為5.68、2.74、3.15 g/kg;RPD分別為1.09、2.29和1.97,優(yōu)于去除異常樣本前預(yù)測結(jié)果。
特征向量是影響模型性能的另一個重要因素,這是因為原始特征空間中包含了大量的與建模無關(guān)的冗余信息。采用未降維的特征空間直接建立模型將導(dǎo)致較大的計算量,并且會干擾模型的預(yù)測精度。主成分分析(PCA)是一種較通用的特征降維方法[36],其通過計算原始特征空間的協(xié)方差矩陣的特征向量,將高維空間向量線性變換為分量不相關(guān)的低維空間向量。為了優(yōu)化土壤嗅覺特征空間,本研究采用PCA方法作為特征降維手段,步驟如下:①計算嗅覺特征空間的協(xié)方差矩陣。②求出協(xié)方差矩陣的特征值及其對應(yīng)的特征向量,并根據(jù)特征值的大小對特征向量進(jìn)行排序,得到特征向量矩陣。③選擇特征向量矩陣的前k(1≤k<70)個向量,則可將原始的嗅覺特征空間降為k維,其中k即為主成分?jǐn)?shù),可通過方差信息累計貢獻(xiàn)率G(k)來確定,計算公式為
(k=1,2,…,69)
(5)
(6)
式中λi——協(xié)方差矩陣第i(i λj——協(xié)方差矩陣第j(j≤70)個排序后特征值 αi——第i個主成分的方差信息貢獻(xiàn)率 當(dāng)G(k)大于一個設(shè)定的值時,可得到一個降至k維矩陣。 為了獲取PCA對特征空間的優(yōu)化結(jié)果,對去除異常樣本的土壤嗅覺特征空間(121(樣本)×70(維特征))采用PCA方法降維,并設(shè)置G(k)為95%,得到如圖11所示結(jié)果。從圖11可以看出,當(dāng)主成分?jǐn)?shù)k為2時,G(k)大于95%,表明采用2個主成分基本能夠反映原來特征空間的大部分信息。采用經(jīng)PCA降維后的特征空間數(shù)據(jù)分別對新建立的PLSR、SVR和BPNN模型進(jìn)行訓(xùn)練與測試,得到各模型的預(yù)測結(jié)果如圖12所示。圖中,PLSR的最優(yōu)建模參數(shù)PFC為2,SVR的最優(yōu)建模參數(shù)分別為c=104.2和g=0.000 2,BPNN的最優(yōu)隱含層神經(jīng)元節(jié)點數(shù)為14。圖12顯示,3種模型的R2分別為0.86、0.91和0.85;RMSE分別為2.49、2.05、2.68 g/kg;RPD分別為2.49、3.02和2.32。 圖11 PCA主成分累計貢獻(xiàn)結(jié)果 圖12 PCA降維后各模型的預(yù)測結(jié)果 圖8、10、12分別顯示了嗅覺特征空間優(yōu)化前后,不同測定算法所建模型的預(yù)測效果。為了更直觀地對比分析,將各模型的性能評價指標(biāo)列于表1。從表1可得出,與未優(yōu)化前模型性能相比,經(jīng)MCS方法剔除異常樣本后,PLSR、SVR和BPNN模型的R2分別提升了8.7%、3.5%和29.2%,RMSE分別降低了0.5%、2.5%和13.2%,RPD分別提升了1.9%、6.0%和17.3%。由此可見,所有模型的性能指標(biāo)均得到了提升,這說明MCS方法能有效地檢測出異常樣本。 在剔除異常樣本的基礎(chǔ)上,進(jìn)一步應(yīng)用PCA方法對特征空間降維,結(jié)果表明PLSR、SVR和BPNN這3種模型預(yù)測性能得到了更進(jìn)一步的提升。其中R2再次提升了14.7%、2.2%和1.2%;RMSE再次降低了56.2%、25.2%和14.9%;RPD再次提高128.4%、31.9%和17.8%。 表1 模型性能對比結(jié)果 如果在未優(yōu)化的特征空間上直接建模、訓(xùn)練和預(yù)測,根據(jù)土壤性質(zhì)RPD的分類方法,只有SVR模型具有較好的預(yù)測性能,屬于A級(RPD為2.16);BPNN模型屬于B級(RPD為1.68),預(yù)測性能一般,但其擬合效果(R2=0.65)較差;而PLSR的預(yù)測等級為C級(RPD小于1.4),表現(xiàn)出較差的預(yù)測性能。經(jīng)異常樣本剔除、特征降維后,PLSR、SVR和BPNN等3種模型預(yù)測等級均達(dá)到了A級(RPD大于2.0),這表明異常樣本和冗余特征信息對模型預(yù)測性能有很大的影響。在優(yōu)化后的特征空間上建模,3種模型的預(yù)測指標(biāo)R2均不小于0.85,表現(xiàn)出較強預(yù)測性能。然而,SVR的預(yù)測能力(R2=0.91、RMSE為2.05 g/kg、RPD為3.02)明顯高于PLSR和BPNN,而PLSR的預(yù)測性能略優(yōu)于BPNN。這可能因為SVR是基于結(jié)構(gòu)風(fēng)險最小化的模型,其對數(shù)據(jù)規(guī)模和數(shù)據(jù)分布的要求比較低,具有優(yōu)異的泛化能力[37]。此外,結(jié)合網(wǎng)格搜索法和5-折交叉驗證法來優(yōu)化選取SVR參數(shù)在一定程度上也提升了SVR的學(xué)習(xí)能力。 (1)提出了一種基于人工嗅覺技術(shù)的土壤有機質(zhì)含量檢測方法,結(jié)合蒙特卡羅抽樣(MCS)和PCA特征降維兩種手段,實現(xiàn)了土壤嗅覺特征空間的優(yōu)化。采用PLSR、SVR和BPNN等3種回歸算法,構(gòu)建了土壤嗅覺特征空間與土壤有機質(zhì)含量之間的關(guān)系模型。模型預(yù)測結(jié)果表明,這3種預(yù)測模型對土壤有機質(zhì)含量均有較高的預(yù)測能力,其中SVR模型的預(yù)測性能最好,可對土壤有機質(zhì)含量進(jìn)行準(zhǔn)確預(yù)測。 (2)采用人工嗅覺技術(shù)測量土壤有機質(zhì)含量是可行的??紤]到研究區(qū)域的土壤樣本具有較大的空間變異性,因此可以認(rèn)為該測量方法是穩(wěn)健的。研究結(jié)果可作為土壤有機質(zhì)含量檢測的一種參考方法。3.4 比較分析
4 結(jié)論