李 偉,張雪莉,蘇 勤,趙 銳,宋海燕
山西農(nóng)業(yè)大學(xué)農(nóng)業(yè)工程學(xué)院,山西 晉中 030801
甘藍(lán)(Cabbage),又名卷心菜,屬于十字花科,其莖葉營(yíng)養(yǎng)豐富、口感清脆深受人們喜愛,是一種非常重要的莖葉類蔬菜。為防止病蟲害、提高農(nóng)作物產(chǎn)量,蔬菜生產(chǎn)過程中需要多次噴灑農(nóng)藥,甘藍(lán)葉片層層包裹,容易形成農(nóng)藥殘留和累積[1]。毒死蜱(Chlorpyrifos)是一種結(jié)晶體有機(jī)磷農(nóng)藥,是目前農(nóng)業(yè)生產(chǎn)中應(yīng)用最廣泛的有機(jī)磷農(nóng)藥之一[2-3]。有機(jī)磷農(nóng)藥的過度使用造成的農(nóng)藥殘留問題會(huì)破壞生態(tài)環(huán)境,給人類生命健康造成嚴(yán)重威脅[4]。采用近紅外光譜進(jìn)行農(nóng)作物無損檢測(cè)已經(jīng)成為國(guó)內(nèi)外學(xué)者研究熱點(diǎn)問題[5-9]。
目前對(duì)可見近紅外光譜檢測(cè)水果、蔬菜等農(nóng)產(chǎn)品表面農(nóng)藥殘留的研究主要包括兩類,即農(nóng)藥殘留種類鑒別[5-6]和農(nóng)藥微量濃度殘留定性判別[7]。孫俊[5]等通過連續(xù)投影算法選出光譜的10個(gè)特征波長(zhǎng),用支持向量機(jī)(SVM)與10折交叉驗(yàn)證法,建立了桑葉農(nóng)藥殘留的近紅外光譜檢測(cè)模型,在SVM算法中引入自適應(yīng)提升算法獲得更好的建模效果,結(jié)果表明Ada-SVM算法預(yù)測(cè)準(zhǔn)確率達(dá)97.78%。陳淑一[6]等將對(duì)比主成分分析算法應(yīng)用到近紅外光譜數(shù)據(jù)降維模型,結(jié)果表明對(duì)比主成分分析降維算法能夠識(shí)別水果表面是否噴灑農(nóng)藥的特征。
近紅外光譜數(shù)據(jù)對(duì)農(nóng)藥殘留濃度定性判定過程中有很多干擾因素:不同果蔬表面差異較大,有些蔬菜葉面不平整,比如甘藍(lán)葉片褶皺多,會(huì)對(duì)光譜反射率產(chǎn)生干擾,另外甘藍(lán)葉片顏色深淺不一,比如甘藍(lán)外層葉片顏色深,而內(nèi)層葉片顏色淺,也會(huì)干擾光譜數(shù)據(jù)。另一方面,大多關(guān)于近紅外光譜的研究都在提取分析物質(zhì)的特征敏感波段,不同文獻(xiàn)對(duì)毒死蜱提取的敏感波長(zhǎng)、使用的敏感波段并不完全相同[10]。
本文提出一種全波段平均分組積分光譜數(shù)據(jù)預(yù)處理方法:選擇可見-近紅外光譜數(shù)據(jù)全部波段(350~2 500 nm),在保留多個(gè)敏感光譜波段的同時(shí)以探索更多潛在敏感波段,將全波段平均分為n組,分別對(duì)每組光譜數(shù)據(jù)積分求和,以達(dá)到對(duì)光譜數(shù)據(jù)降維壓縮的目的,而且極大消除了單個(gè)波長(zhǎng)光譜數(shù)據(jù)的隨機(jī)誤差對(duì)建模效果的影響。
以甘藍(lán)葉片為檢測(cè)對(duì)象,將甘藍(lán)葉片在不同體積濃度毒死蜱農(nóng)藥中浸泡3 min,后置通風(fēng)處晾曬3 h,用可見近紅外光譜儀獲取甘藍(lán)葉片譜圖信息。經(jīng)全波段平均分組積分預(yù)處理后的數(shù)據(jù)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。一般而言,神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)的維度要小于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本數(shù),全波段平均分組積分預(yù)處理方法能夠選擇n方便的控制輸入數(shù)據(jù)維度。通過實(shí)驗(yàn)對(duì)比尋求最優(yōu)的建模方案,建立甘藍(lán)葉片農(nóng)藥殘留濃度定性判別預(yù)測(cè)模型。
毒死蜱農(nóng)藥配制:毒死蜱農(nóng)藥是山東東遠(yuǎn)生物科技有限公司生產(chǎn)的45%濃度的毒死蜱乳液,不同體積濃度的毒死蜱溶液由純凈水稀釋而成,分別稀釋至200倍(1∶200)、500倍(1∶500)、800倍(1∶800)和1 000倍(1∶1 000),對(duì)照組為純凈水,將各組溶液分別標(biāo)注為5,4,3,2和1類。
從市場(chǎng)購(gòu)買普通的甘藍(lán),將甘藍(lán)葉片裁剪成直徑5 cm左右近似圓形,共150個(gè)葉片樣本,分為5組,每組30個(gè)樣本。首先將裁剪好的近圓形葉片使用純凈水做超聲波清洗處理,然后分別將各組葉片在1,2,3,4和5類溶液中浸泡3 min。后將甘藍(lán)葉片移至通風(fēng)處晾曬3 h,至毒死蜱農(nóng)藥溶液的水分蒸發(fā)干。
使用ASD公司生產(chǎn)的FieldSpec3光譜儀采集光譜數(shù)據(jù):光譜儀光源為鹵素?zé)?,光源與甘藍(lán)葉片距離15 cm,鹵素?zé)艄馀c水平線呈45°夾角。光譜采集范圍350~2 500 nm,光譜分辨率為1 nm,每個(gè)樣本掃描3次求平均值,光譜采集在實(shí)驗(yàn)室室溫[(23±0.5)℃]下進(jìn)行。原始光譜數(shù)據(jù)在ViewSpecPro軟件中進(jìn)行預(yù)處理,包括求原始光譜數(shù)據(jù)平均值,拼接校正,分別求原始光譜數(shù)據(jù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。處理后的數(shù)據(jù)導(dǎo)出,使用MATLAB2011a進(jìn)行進(jìn)一步的數(shù)據(jù)處理和建模分析。
設(shè)原始光譜反射率為
f(λ)=(f1,f2,…,fj)∈Rj
(1)
式(1)中,光譜反射率f(λ)是光譜波長(zhǎng)λ的離散函數(shù),不同波長(zhǎng)λ對(duì)應(yīng)的反射率分別為f1,f2,…,fj,光譜反射率波長(zhǎng)總數(shù)為j。
光譜反射率的一階導(dǎo)數(shù)可以表示為
(2)
光譜反射率的二階導(dǎo)數(shù)可以表示為
(3)
(Σ1,Σ2,Σ3,…,Σn)∈Rn
(4)
(5)
(6)
輸入層
[Σ1,Σ2,Σ3,…,Σn]T
(7)
隱藏層一
(8)
隱藏層二
(9)
…
輸出層
(10)
其中mi表示第i層網(wǎng)絡(luò)的節(jié)點(diǎn)個(gè)數(shù),Y(i)表示第i層網(wǎng)絡(luò)的輸出,也表示第i+1層網(wǎng)絡(luò)的輸入。
定義第k層神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為h(k),每一層神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣W和偏置向量b定義如下
那么第k層神經(jīng)網(wǎng)絡(luò)的輸出Y(k)的計(jì)算式(14)所示
(11)
net(k)=W(k)Y(k-1)+b(k)
(12)
(13)
(14)
其中net(k)表示第k層神經(jīng)網(wǎng)絡(luò)的神經(jīng)元的輸入向量,也表示第k層權(quán)重矩陣W(k)與第(k-1)層神經(jīng)網(wǎng)絡(luò)的輸出乘積再加上第k層偏置矩陣b(k)。神經(jīng)網(wǎng)絡(luò)輸出層Y即為甘藍(lán)葉片毒死蜱殘留濃度的判定標(biāo)準(zhǔn)。
神經(jīng)網(wǎng)絡(luò)模型是通過模擬動(dòng)物神經(jīng)網(wǎng)絡(luò)特征的一種建模算法,適用于復(fù)雜的非線性多維數(shù)據(jù)建模分析模型[11-12]。選擇典型BP神經(jīng)網(wǎng)絡(luò),設(shè)置輸入層、1個(gè)隱藏層(50個(gè)節(jié)點(diǎn))、輸出層。將預(yù)處理后的n維數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的輸入,各溶液組的類別標(biāo)號(hào)作為神經(jīng)網(wǎng)絡(luò)的輸出,神經(jīng)網(wǎng)絡(luò)的輸出層Y為一維數(shù)據(jù),且數(shù)值只能取1,2,3,4和5。將各組數(shù)據(jù)中前24個(gè)樣本,5組共計(jì)120個(gè)樣本作為建模訓(xùn)練集,剩下每組6個(gè)樣本,5組共計(jì)30個(gè)樣本作為預(yù)測(cè)集。
神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練結(jié)果最主要的評(píng)價(jià)指標(biāo)就是模型對(duì)建模集的識(shí)別準(zhǔn)確率p,定性判別時(shí)識(shí)別準(zhǔn)確率越高,建模效果越好。模型識(shí)別準(zhǔn)確率的計(jì)算公式如式(15)所示
(15)
圖1是不同濃度毒死蜱殘留甘藍(lán)葉片的平均光譜曲線。從圖1中可以看到,不同組別的甘藍(lán)葉片原始平均光譜反射率曲線變化規(guī)律相近,平均光譜反射率曲線在數(shù)值上略有差異,但整個(gè)光譜曲線在多個(gè)局部有細(xì)微隨毒死蜱農(nóng)藥殘留濃度變化特征明顯的波段,如圖2所示。
圖1 不同濃度毒死蜱殘留甘藍(lán)葉片平均光譜曲線Fig.1 Average spectra of cabbage leaves with different chlorpyrifos concentrations
圖2是不同濃度毒死蜱平均光譜曲線的四個(gè)局部細(xì)節(jié),分別為510~530,555~565,1 830~1 840和1 860~1 870 nm等四個(gè)特征明顯波段。在這些特征明顯波段內(nèi),光譜反射率(R)曲線的斜率隨農(nóng)藥殘留濃度的變化有明顯特征。這種特征在光譜反射率曲線的一階導(dǎo)數(shù)(FD)曲線中表現(xiàn)得更加明顯,如圖3所示。
圖2 不同濃度毒死蜱殘留甘藍(lán)葉片平均光譜曲線特征明顯波段Fig.2 Obvious characteristics bands of average spectra of cabbage leaves with different chlorpyrifos concentrations residues
圖3是原始平均光譜反射率一階導(dǎo)數(shù)(FD)曲線的四個(gè)局部特征明顯波段。如圖3所示,在特征明顯波段510~530 nm,隨毒死蜱農(nóng)藥殘留濃度的增大光譜曲線的斜率變小,光譜反射率的一階導(dǎo)數(shù)(FD)變?。欢诓ǘ?55~565,1 830~1 840和1 860~1 870 nm等特征明顯波段,隨農(nóng)藥殘留濃度的升高原始平均光譜反射率(R)曲線的斜率增大,光譜反射率一階導(dǎo)數(shù)(FD)增大。
圖3 不同濃度毒死蜱殘留甘藍(lán)葉片平均光譜曲線一階導(dǎo)數(shù)特征明顯波段Fig.3 Obvious characteristics bands of first derivative average spectra of cabbage leaves with different chlorpyrifos concentrations residues
從光譜反射率(R)曲線中共找到四段隨農(nóng)藥殘留濃度變化特征明顯的光譜波段,提取特征明顯波段分別為510~530,555~565,1 830~1 840和1 860~1 870 nm,共計(jì)54個(gè)特征明顯波長(zhǎng)。這些特征明顯波段與之前的文獻(xiàn)報(bào)道有相近之處[10]。從光譜反射率(R)曲線中發(fā)現(xiàn)更多特征明顯波段,將這54個(gè)特征明顯波長(zhǎng)作為神經(jīng)網(wǎng)絡(luò)的輸入,訓(xùn)練神經(jīng)網(wǎng)絡(luò),統(tǒng)計(jì)神經(jīng)網(wǎng)絡(luò)建模預(yù)測(cè)準(zhǔn)確率如表1所示,可見,光譜反射率一階導(dǎo)數(shù)(FD)提取的特征明顯波段建模效果最好,建模集識(shí)別準(zhǔn)確率可以達(dá)到91.67%,效果良好。
表1 特征明顯波段建模效果Table 1 Modeling effects of obvious characteristics bands
提取隨濃度變化特征明顯波段雖然能找到和農(nóng)藥殘留濃度直接相關(guān)的光譜波段,但光譜數(shù)據(jù)龐雜,有些變化明顯或敏感波段難以從光譜曲線中直接發(fā)現(xiàn)。為此提出一種新的光譜全波段平均分組積分預(yù)處理方法,將全波段光譜平均分為n組,后對(duì)每一組進(jìn)行積分求和處理,組成新的數(shù)據(jù),進(jìn)行神經(jīng)網(wǎng)絡(luò)建模。具體算法如1.3中所描述。光譜儀光譜采集數(shù)據(jù)光譜范圍為350~2 500 nm,總波長(zhǎng)數(shù)j=2 151,處理后的數(shù)據(jù)維度為n。n取不同數(shù)值(10,15,20,25,30,35和40)時(shí),對(duì)應(yīng)不同的數(shù)據(jù)維度m如表2所示。
表2 全波段平均分組積分預(yù)處理建模效果Table 2 All-band grouping integration preprocessing modeling effects
分別選擇原光譜反射率(R)、光譜反射率一階導(dǎo)數(shù)(FD)和光譜反射率二階導(dǎo)數(shù)(SD)進(jìn)行全波段平均分組積分預(yù)處理,處理后的n維數(shù)據(jù)作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)輸入,農(nóng)藥殘留葉片樣本組標(biāo)號(hào)(標(biāo)號(hào)1,2,3,4,5)作為神經(jīng)網(wǎng)絡(luò)的輸出。神經(jīng)網(wǎng)絡(luò)輸出Y的取值通過式(16)確定
(16)
如表2所示,整體而言,光譜反射率一階導(dǎo)數(shù)(FD)全波段平均分組積分(求和)預(yù)處理,BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練效果最好,建模集識(shí)別準(zhǔn)確率較高,其次是光譜反射率(R),光譜反射率二階導(dǎo)數(shù)(SD)建模效果最差,建模集識(shí)別準(zhǔn)確率最低。對(duì)光譜反射率(R)、光譜反射率一階導(dǎo)數(shù)(FD)、光譜反射率二階導(dǎo)數(shù)(SD)預(yù)處理建模識(shí)別準(zhǔn)確率都隨平均分組數(shù)n的增大呈先增大后減小的趨勢(shì),其中光譜反射率(R)在分組數(shù)為30時(shí)建模效果最好,建模集識(shí)別準(zhǔn)確率最高為81.67%。光譜反射率一階導(dǎo)數(shù)(FD)和二階導(dǎo)數(shù)(SD)均在分組數(shù)為25時(shí)取得最好建模效果,建模集識(shí)別準(zhǔn)確率最高分別為97.50%和73.33%。全波段平均分組積分預(yù)處理方法選擇全部光譜波段范圍,在保留特征明顯光譜波段的同時(shí)試圖從原始光譜數(shù)據(jù)中探索更多潛在特征明顯和敏感波段;光譜數(shù)據(jù)分組是對(duì)光譜數(shù)據(jù)的一種壓縮,能夠有效降低神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)維度;光譜數(shù)據(jù)積分將組內(nèi)所有光譜數(shù)據(jù)求和,能夠有效地減小單個(gè)光譜數(shù)據(jù)隨機(jī)誤差對(duì)建模帶來的干擾;調(diào)整分組數(shù)n的大小能夠找到最佳分組效果。
用光譜全波段平均分組積分預(yù)處理方法,取光譜反射率一階導(dǎo)(FD),且當(dāng)分組數(shù)為25時(shí),建模效果最好,建模集識(shí)別準(zhǔn)確率最高為97.50%,將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于預(yù)測(cè)集,預(yù)測(cè)集識(shí)別準(zhǔn)確率為96.67%,建模效果良好且優(yōu)于提取光譜特征明顯波段的建模效果91.67%。光譜全波段平均分組預(yù)處理神經(jīng)網(wǎng)絡(luò)建模,最佳建模效果對(duì)預(yù)測(cè)集識(shí)別如圖4所示。
圖4 預(yù)測(cè)集預(yù)測(cè)效果Fig.4 Prediction effect of prediction set
以普通甘藍(lán)為研究對(duì)象,將甘藍(lán)葉片在不同體積濃度毒死蜱農(nóng)藥溶液中浸泡3 min,經(jīng)過3 h的通風(fēng)晾曬。獲取甘藍(lán)葉片可見近紅外光譜信息,通過全波段平均分組積分預(yù)處理后建立神經(jīng)網(wǎng)絡(luò)模型,與選取特征明顯波段建模效果對(duì)比,結(jié)論如下:
(1)有毒死蜱農(nóng)藥殘留的甘藍(lán)葉片的光譜反射率曲線中發(fā)現(xiàn)四個(gè)與毒死蜱農(nóng)藥溶液體積濃度相關(guān)的特征明顯波段,分別為510~530,555~565,1 830~1 840和1 860~1 870 nm。特征明顯波段光譜反射率一階導(dǎo)數(shù)(FD)曲線隨農(nóng)藥殘留濃度變化特征最顯著。
(2)分別提取光譜反射率(R)、光譜反射率一階導(dǎo)數(shù)(FD)和光譜反射率二階導(dǎo)數(shù)(SD)光譜特征明顯波段進(jìn)行神經(jīng)網(wǎng)絡(luò)建模訓(xùn)練,對(duì)建模集識(shí)別準(zhǔn)確率分別為74.17%,91.67%和70.83%,其中光譜反射率一階導(dǎo)數(shù)(FD)訓(xùn)練效果最好,這與光譜反射率一階導(dǎo)數(shù)(FD)曲線隨毒死蜱農(nóng)藥殘留濃度特征最顯著的結(jié)果一致。
(3)分別對(duì)原光譜反射率(R)、光譜反射率一階導(dǎo)數(shù)(FD)、光譜反射率二階導(dǎo)數(shù)(SD)進(jìn)行光譜全波段平均分組積分(求和)預(yù)處理后建模,其中,光譜反射率一階導(dǎo)數(shù)(FD)全波段平均分組積分預(yù)處理后建模效果最好,其中當(dāng)分組數(shù)為25時(shí)效果最好,最好建模效果對(duì)建模集的識(shí)別準(zhǔn)確率為97.50%,對(duì)預(yù)測(cè)集識(shí)別準(zhǔn)確率可以達(dá)到96.67%。
(4)對(duì)不同的光譜數(shù)據(jù)(R,F(xiàn)D,SD)做平均分組處理能極大程度壓縮光譜數(shù)據(jù),分組后的數(shù)據(jù)做積分求和處理能夠降低單個(gè)光譜波長(zhǎng)隨機(jī)噪聲對(duì)建模效果的干擾,在保留光譜數(shù)據(jù)特征明顯波段的同時(shí)又進(jìn)一步探索更多在光譜反射率曲線上表現(xiàn)不明顯的潛在敏感波段,調(diào)整參數(shù)n能取得良好的建模效果。
通過可見近紅外光譜數(shù)據(jù)對(duì)甘藍(lán)葉片毒死蜱農(nóng)藥殘留濃度進(jìn)行定性檢測(cè)判定,快速,有效,經(jīng)濟(jì),本研究提出的全波段平均分組積分預(yù)處理方法能有效提高對(duì)甘藍(lán)葉片毒死蜱殘留濃度的判定準(zhǔn)確度,對(duì)可見近紅外光譜檢測(cè)毒死蜱農(nóng)藥在農(nóng)產(chǎn)品表面殘留濃度具有重要的參考價(jià)值。