劉紅蕓,吳雪梅,李德侖,張富貴,張大斌,黃華成
(1. 貴州大學(xué)機(jī)械工程學(xué)院,貴陽市,550025; 2. 貴州省煙草農(nóng)業(yè)科學(xué)研究院,貴陽市,550081)
采摘期煙葉含水量是煙草工藝技術(shù)指標(biāo)之一,直接影響烤后煙葉的品質(zhì)。準(zhǔn)確地檢測(cè)采摘期煙葉水分含量,對(duì)煙草工藝具有重要意義。高光譜技術(shù)是一種無損檢測(cè)技術(shù),主要是通過對(duì)物體樣品光譜信息的測(cè)量后,可在一定程度上體現(xiàn)被測(cè)物體內(nèi)部物理結(jié)構(gòu)及化學(xué)成分的差別[1-2]。與傳統(tǒng)的化學(xué)成分檢測(cè)技術(shù)相比,高光譜圖像技術(shù)是一種物理檢測(cè)技術(shù)。通過建立高光譜分析模型,可同時(shí)預(yù)測(cè)多個(gè)指標(biāo),并具有分析快速、操作簡(jiǎn)單、無損也無需對(duì)檢測(cè)樣品預(yù)處理等諸多優(yōu)勢(shì)[3-5]。目前,雖然國(guó)內(nèi)外也有相關(guān)研究從高光譜圖像技術(shù)及反射率的角度成功地估算作物的氮含量、葉綠素含量、水分含量及進(jìn)行了病害檢測(cè)等[6-13],但是目前國(guó)內(nèi)外利用高光譜技術(shù)鑒定煙葉含水量的報(bào)道較少。因此,高光譜技術(shù)可用來對(duì)采摘期鮮煙葉葉片水分含量進(jìn)行檢測(cè)。
高光譜技術(shù)對(duì)煙草葉片水分含量進(jìn)行預(yù)測(cè)時(shí),煙葉樣本中存在未知的光譜異常樣本,會(huì)直接影響模型精度[14]。在建立煙草葉片水分含量分析模型時(shí),煙葉的光譜值與化學(xué)值之間具有一定的相關(guān)性。然而,數(shù)據(jù)集中存在異常光譜樣本時(shí),會(huì)導(dǎo)致這種相關(guān)性降低,模型預(yù)測(cè)精度也會(huì)隨之降低。因此,有必要對(duì)異常樣本進(jìn)行識(shí)別和處理后再進(jìn)行建模分析。
本研究利用MSC、SNV、歸一化(Normalize)、數(shù)據(jù)中心化(Mean centering)、標(biāo)準(zhǔn)化(Autoscales)、移動(dòng)窗口平滑、SG卷積平滑法、Savitzky-Golay一階導(dǎo)數(shù)、Savitzky-Golay二階導(dǎo)數(shù)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)多種方法來對(duì)樣本的高光譜數(shù)據(jù)進(jìn)行預(yù)處理,再利用主成分分析結(jié)合馬氏距離(PCA-MD)的方法來消除異常樣本,選出最佳預(yù)處理方法,然后使用偏最小二乘法建立了煙葉水分含量模型。驗(yàn)證高光譜技術(shù)應(yīng)用于煙葉水分含量預(yù)測(cè)的可行性,實(shí)現(xiàn)快速、無損和科學(xué)的煙葉水分含量檢測(cè)。
本研究以貴州省天柱縣(黔東南地區(qū))、息烽縣(黔中地區(qū))、安龍縣(黔西南地區(qū))、道真縣(黔北地區(qū))和威寧縣(黔西北地區(qū))五個(gè)地區(qū)采摘期云煙87中部煙葉為研究對(duì)象,于2019年7月30日—8月20日期間進(jìn)行,每個(gè)地區(qū)選擇30個(gè)樣本,共采集150個(gè)煙葉樣本。
1.2.1 高光譜數(shù)據(jù)的獲取
首先選擇晴朗、無風(fēng)的天氣在戶外采用GaiaSky-mini2機(jī)載高光譜成像儀(四川雙利合譜)拍攝所采集煙葉樣本的高光譜圖像,并進(jìn)行光譜圖像的黑白校正。然后使用ENVI5.3軟件對(duì)鮮煙葉葉片感興趣區(qū)域(Region of Interesting,ROI)進(jìn)行繪制,但考慮到傳感器鏡頭邊緣存在減光現(xiàn)象,所選區(qū)域應(yīng)盡量避開主莖,遠(yuǎn)離圖像邊緣且盡可能大的包絡(luò)煙葉葉面部分。最后計(jì)算樣本ROI內(nèi)的平均光譜數(shù)據(jù)值,將其作為煙葉葉片的原始光譜。本次所拍攝的光譜數(shù)據(jù)波長(zhǎng)范圍為371.08~1 037.89 nm,包含176個(gè)波長(zhǎng)點(diǎn)。
1.2.2 葉片水分含量的測(cè)定
在采集高光譜圖像后,將每一個(gè)煙葉樣本的葉片與主莖分開,用0.01 g的電子稱稱重并記錄為煙葉的鮮質(zhì)量(記為m0),立刻使用寫好標(biāo)簽的錫紙包裹(錫紙標(biāo)簽與煙樣標(biāo)簽一致),放入液態(tài)氮中保存(保證鮮煙葉化學(xué)性質(zhì)不受到損失)。將樣本帶回實(shí)驗(yàn)室,取出液態(tài)氮所保存的樣品,使用鑷子將錫紙?jiān)坪?,然后放入真空冷凍干燥機(jī)處理后,進(jìn)行稱重并記錄為煙葉干質(zhì)量(記為m1)。通過式(1)計(jì)算水分含量。
(1)
式中:f——樣本的水分含量;
m0——樣本的鮮質(zhì)量;
m1——樣本的干質(zhì)量。
1.3.1 預(yù)處理方法
由于受到外部環(huán)境和儀器暗電流的影響,在光譜數(shù)據(jù)采集過程中會(huì)出現(xiàn)散射、高頻隨機(jī)噪聲和基線漂移等問題,影響后續(xù)建立模型精度和穩(wěn)定性[15]。為了消除這些不良因素影響,應(yīng)用多元散射校正、標(biāo)準(zhǔn)正態(tài)變量交換、歸一化、數(shù)據(jù)中心化、標(biāo)準(zhǔn)化、移動(dòng)窗口平滑、Savitzky-Golay卷積平滑、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)等方法對(duì)光譜進(jìn)行預(yù)處理。
1.3.2 主成分分析結(jié)合馬氏距離剔除異常樣本(PCA-MD)
主成分分析(PCA)是采用降維的方式,在損失很少信息的條件下將原本多變量轉(zhuǎn)化為只有維數(shù)較少且互不相關(guān)變量來替代,可以計(jì)算出每個(gè)樣本光譜各個(gè)變量的主成分得分,是采用數(shù)學(xué)方法來降低光譜數(shù)據(jù)維數(shù)的有效方法[16-17]。
馬氏距離是計(jì)算空間中兩個(gè)不同數(shù)據(jù)點(diǎn)相似度的方法[18-20]。馬氏距離考慮了不相等的方差以及特征之間的相關(guān)性,通過對(duì)數(shù)據(jù)點(diǎn)的特征分配不同的權(quán)重來充分評(píng)估數(shù)據(jù)點(diǎn)之間的距離。而且馬氏距離可以調(diào)節(jié)數(shù)據(jù)的幾何情況,使得類似數(shù)據(jù)點(diǎn)之間的間距很小。因此,它可以用來提高聚類或分類算法的性能。
本文利用每個(gè)樣品的光譜數(shù)據(jù)與校正集的平均光譜數(shù)據(jù)之間的間距作為馬氏距離,結(jié)合主成分分析所得煙葉樣本得分,計(jì)算各個(gè)樣本的馬氏距離,然后將其與閾值作比較,并通過去除異常光譜樣品來提高模型的準(zhǔn)確性,計(jì)算方法如式(2)~式(3)。
(2)
(3)
式中:M——校正集光譜主成分得分矩陣的協(xié)方差陣;
ti——樣本i的主成分得分向量;
Di——校正集樣本i的馬氏距離。
檢驗(yàn)校正集中的異常樣本存在的閾值計(jì)算如式(4)所示。
Dth=Dm+e·σd
(4)
式中:e——給定閾值調(diào)整權(quán)重系數(shù);
Dm、σd——m個(gè)樣本馬氏距離的平均值、標(biāo)準(zhǔn)差;
Dth——校正集閾值范圍。
凡滿足Di≥Dth,認(rèn)為校正集中第i個(gè)樣本是異常樣本,予以剔除;反之Di 1.3.3 PLS預(yù)測(cè)模型 偏最小二乘法(PLS)是一種高效提取信息的方法,結(jié)合了多種統(tǒng)計(jì)分析方法的優(yōu)點(diǎn),是用于光譜數(shù)據(jù)分析的重要方法。本研究將全波段波長(zhǎng)作為模型的輸入變量,利用交叉驗(yàn)證的方法(cross validation)來選取主成分?jǐn)?shù),建立煙葉水分含量的PLS預(yù)測(cè)模型,通過模型的評(píng)價(jià)指標(biāo)來確定模型精度。 利用相關(guān)系數(shù)R與均方根誤差RMSE對(duì)模型的穩(wěn)定性和估測(cè)能力進(jìn)行檢驗(yàn)。R越大,即數(shù)值越靠近1,說明該模型的擬合精度越高,并且模型越穩(wěn)定;RMSE越小,則模型估測(cè)能力便越好、準(zhǔn)確度越高。文中采用RMSEC表示校正集樣本均方根誤差及RMSEP表示預(yù)測(cè)集樣本均方根誤差,相關(guān)計(jì)算公式如式(5)~式(6)。 (5) (6) 式中:yi——各煙葉樣本的水分含量真實(shí)值; m——校正集樣本量; n——預(yù)測(cè)集樣本量。 未經(jīng)預(yù)處理的原始光譜曲線圖和經(jīng)過不同預(yù)處理方法處理后煙葉樣本光譜曲線如圖1所示。 煙葉反射率的原始光譜顯示出明顯的散射噪聲和基線漂移,盡管這種分散的光譜曲線呈現(xiàn)出相似的變化趨勢(shì)(圖1(a))。經(jīng)過多元散射校正、移動(dòng)窗口平滑、SG卷積平滑等預(yù)處理后的光譜曲線吸收和反射特征更加明顯,都有不同程度的強(qiáng)化和去噪作用。多元散射校正(圖1(b))、SNV(圖1(c))和標(biāo)準(zhǔn)化(圖1(d))處理后,光譜的重合度明顯提高,減少了散射噪聲的影響,但在400~500 nm波段范圍內(nèi)造成了光譜分散。 (a) Original spectrum (b) MSC (c) SNV 移動(dòng)窗口平滑(圖1(f))和SG卷積平滑(圖1(g))處理后,明顯減少了700~1 000 nm范圍內(nèi)曲線的波動(dòng)。歸一化(圖1(e))和數(shù)據(jù)中心化(圖1(h))處理后,光譜都?xì)w入了某個(gè)特定的數(shù)值區(qū)間之內(nèi),在一定程度上減小了尺寸差異大和數(shù)據(jù)信息結(jié)構(gòu)不同的干擾。Savitzky-Golay一階求導(dǎo)(圖1(i))、Savitzky-Golay二階求導(dǎo)(圖1(j))、直接差分一階求導(dǎo)(圖1(k))、直接差分二階求導(dǎo)(圖1(l))與原始光譜曲線相比,吸收峰數(shù)量明顯增加。 在冷凍干燥處理過程中,將液態(tài)氮所保存的樣品取出及使用鑷子將錫紙?jiān)茣r(shí),造成9個(gè)試驗(yàn)樣本損壞,最后測(cè)量水分含量的試驗(yàn)樣本總數(shù)為141。先使用Matlab2016a軟件的光譜預(yù)處理方法來進(jìn)行處理141個(gè)采摘期鮮煙葉樣本原始光譜,然后將煙葉樣本光譜數(shù)據(jù)順序隨機(jī)打亂,使得劃分樣本時(shí)水分?jǐn)?shù)據(jù)在預(yù)測(cè)集和校正集中分散均勻,然后以3∶1的比例把樣本數(shù)據(jù)集均勻地分成校正集及預(yù)測(cè)集。統(tǒng)計(jì)校正集和預(yù)測(cè)集樣本水分含量的結(jié)果如表1所示。校正集樣品煙葉水分含量變化范圍在66.98%~78.42%之間,標(biāo)準(zhǔn)偏差為2.291 7%;預(yù)測(cè)集樣品含水量在67.64%~79.22%之間,標(biāo)準(zhǔn)偏差為2.651 3%。 表1 水分含量數(shù)據(jù)統(tǒng)計(jì)Tab. 1 Statistics of moisture contents 取前15個(gè)主成分特征值的貢獻(xiàn)率進(jìn)行比較,如圖2所示。 圖2 不同光譜預(yù)處理的前15個(gè)主成分累計(jì)貢獻(xiàn)率 為了對(duì)比各個(gè)預(yù)處理方法下光譜的主成分分析效果,分別對(duì)原始光譜進(jìn)行多元散射校正(MSC)、歸一化(Normalize)、標(biāo)準(zhǔn)正態(tài)變量交換(SNV)、標(biāo)準(zhǔn)化(Autoscales)、數(shù)據(jù)中心化(Mean centering)、移動(dòng)窗口平滑、Savitzky-Golay卷積平滑法、Savitzky-Golay一階導(dǎo)數(shù)、Savitzky-Golay二階導(dǎo)數(shù)、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)的方法對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,然后采用主成分分析求得它們的主成分累積貢獻(xiàn)率。 從圖2可以看出,Savitzky-Golay卷積平滑和移動(dòng)窗口平滑預(yù)處理的前4個(gè)主成分累積貢獻(xiàn)率大于98%。結(jié)合主成分分析聚類效果,采用Savitzky-Golay卷積平滑和移動(dòng)窗口平滑法效果相對(duì)較好,選擇這兩種光譜預(yù)處理方法的前4個(gè)主成分對(duì)馬氏距離進(jìn)行計(jì)算。 采用交叉驗(yàn)證對(duì)移動(dòng)窗口平滑以及SG卷積平滑法預(yù)處理后光譜數(shù)據(jù)選取的主因子個(gè)數(shù)皆為5。106個(gè)樣本(校正集)經(jīng)過主成分分析的馬氏距離如圖3所示,使用移動(dòng)窗口平滑法確定模型的最佳閾值為0.9,馬氏距離為2.574 1,剔除樣本個(gè)數(shù)為15;Savitzky-Golay卷積平滑法最佳閾值為2.2,馬氏距離為3.700 4,剔除樣本個(gè)數(shù)為3。 (a) 移動(dòng)窗口平滑 本試驗(yàn)應(yīng)用馬氏距離法鑒別異常光譜樣品并將其去除來增加PLS煙葉水分預(yù)測(cè)模型的精確度。設(shè)置閾值調(diào)整權(quán)重系數(shù)e=0.1∶0.1∶3。使用不同的權(quán)重系數(shù)e,便會(huì)得到不同的閾值,當(dāng)馬氏距離大于設(shè)定閾值時(shí),對(duì)應(yīng)的樣本將被剔除。隨著e的增大,剔除樣品的個(gè)數(shù)逐漸減少。將異常光譜樣品剔除后,使用交叉驗(yàn)證(cross validation)法對(duì)主成分?jǐn)?shù)進(jìn)行選取。采取PLS分別建立煙葉水分預(yù)估模型時(shí),不同參數(shù)e下建立的PLS模型具有不同效果,選擇RMSEC最小時(shí)對(duì)應(yīng)的參數(shù)e和其剔除異常光譜樣本后的校正集來建立的PLS作為最終確定的煙葉水分含量定量分析模型。 以校正集煙葉樣品水分含量與估測(cè)水分含量之間的相關(guān)系數(shù)Rtrain,預(yù)測(cè)集樣品水分含量和估測(cè)水分含量的之間相關(guān)系數(shù)Rtest,校正集樣本均方根誤差RMSEC及預(yù)測(cè)集樣本均方根誤差RMSEP作為評(píng)價(jià)PLS模型優(yōu)劣的指標(biāo)。相關(guān)系數(shù)的值越高、均方根誤差的值越低,說明PLS模型對(duì)于煙葉水分含量的估測(cè)效果越好。在最佳建模參數(shù)下建立的PLS模型效果如表2、圖4所示。移動(dòng)窗口平滑法處理的PCA-DA-PLS模型,校正集Rtrain=0.833 1、RMSEC=1.299 9,預(yù)測(cè)集Rtest=0.848 3、RMSEP=1.459 6;SG平滑處理的PCA-DA-PLS模型,交叉驗(yàn)證法得到五個(gè)最佳主成分?jǐn)?shù),校正集(Rtrain=0.856 9、RMSEC=1.211 5),預(yù)測(cè)集(Rtest=0.852 7、RMSEP=1.376 6)。SG平滑法預(yù)處理的PCA-DA-PLS模型的效果最佳,建立的PLS模型對(duì)煙葉含水量預(yù)測(cè)能力相對(duì)較好,取前五個(gè)主成分計(jì)算水分含量如式(7)所示。 Y=74.02X1+79.28X2+77.26X3+69.71X4+ 58.77X5+70.897 7 (7) 式中:Y——水分預(yù)測(cè)值; Xi——第i個(gè)主成分對(duì)應(yīng)的光譜數(shù)據(jù)。 表2 最佳建模參數(shù)下建立的PLS模型效果Tab. 2 PLS model effect established under the best modeling parameters (a) 移動(dòng)窗口平滑校正集 (b) SG平滑校正集 為了檢測(cè)采摘期煙葉水分含量,獲取煙葉葉面高光譜數(shù)據(jù),本文利用主成分分析結(jié)合馬氏距離的方法來剔除異常樣本,建立煙葉含水量的PLS估測(cè)模型。 1) 采用MSC、SG卷積平滑、Moving-averag等方法預(yù)處理后的鮮煙葉樣本光譜曲線的吸收和反射特征更加明顯。比較了多種預(yù)處理方法的主成分分析結(jié)果,得出SG卷積平滑法與移動(dòng)窗口平滑法效果最佳,二者的前4個(gè)主成分累計(jì)得分達(dá)到98%。 2) 在采用PCA-MD剔除異常樣本后,SG平滑法預(yù)處理的PCA-DA-PLS模型的效果最佳,剔除3個(gè)異常樣本,交叉驗(yàn)證法得到5個(gè)最佳主成分?jǐn)?shù),建立的PLS模型對(duì)煙葉含水量估測(cè)能力最好,校正集相關(guān)系數(shù)Rtrain為0.856 9、均方差RMSEC為1.211 5,預(yù)測(cè)集相關(guān)系數(shù)Rtest為0.852 7、均方差RMSEP為1.376 6。 3) 利用高光譜圖像技術(shù)預(yù)測(cè)煙葉的水分含量效果甚佳,實(shí)現(xiàn)了煙葉水分含量快速、無損地估測(cè)。2 結(jié)果與分析
2.1 預(yù)處理
2.2 樣本劃分
2.3 不同光譜預(yù)處理的主成分分析
2.4 剔除異常品對(duì)預(yù)測(cè)效果的研究
2.5 建模預(yù)測(cè)效果比較
3 結(jié)論