章英 賀立源 葉穎澤 吳昭輝
摘要:為了探索一種快速有效的烤煙煙葉產(chǎn)地鑒別方法,利用近紅外光譜技術(shù)結(jié)合最小二乘支持向量機(LS-SVM)對烤煙煙葉的產(chǎn)地進(jìn)行了判別。選擇云南、湖北、河南三地不同等級烤煙煙葉作為研究對象,對原始光譜數(shù)據(jù)進(jìn)行平滑和附加散射校正(MSC)預(yù)處理后再進(jìn)行主成分分析,選擇4~12個主成分作為輸入變量進(jìn)行LS-SVM建模。結(jié)果顯示,該LS-SVM模型預(yù)測效果較好,預(yù)測相關(guān)系數(shù)rp≥0.990 7,預(yù)測標(biāo)準(zhǔn)誤差(SEP)和預(yù)測均方根誤差(RMSEP)分別為1.755 1和1.737 3,優(yōu)于偏最小二乘回歸(PLS)的預(yù)測結(jié)果,基于LS-SVM的近紅外光譜技術(shù)能夠很好地對煙葉產(chǎn)地進(jìn)行判別。
關(guān)鍵詞:煙葉;產(chǎn)地判別;近紅外光譜;最小二乘支持向量機
中圖分類號:TN219文獻(xiàn)標(biāo)識碼:A文章編號:0439-8114(2012)03-0583-03
Identification of Producing Area of Tobacco Leaf Based on LS-SVM
ZHANG Ying1a,1b,HE Li-yuan1b,YE Ying-ze1c,WU Zhao-hui2
(a. College of Science; b. College of Resources and Environment; c. Network Center, 1.Huazhong Agricultural University, Wuhan 430070, China; 2. Tobacco Research Center of Henan Academy of Agricultural Sciences, Xuchang 461000, Henan, China)
Abstract: In order to explore a fast and efficient method which determines the producing area of tobacco leaf, near-infrared reflectance spectroscopy with least squares-support vector machines (LS-SVM) was applied to determine producing area of tobacco leaf. Three producing areas including Yunnan, Hubei and Henan were selected as the research objects. As the pretreatments of the optimal smoothing way, moving average with three segments and multiplication scatter correction (MSC) were applied to reduce the noise of the spectra. After the principle component analysis, 4 to 12 principal components (PCs) were chosen as the inputs of LS-SVM models. The Results show that the prediction performance of the LS-SVM model with 12 PCs is better than partial least square(PLS) model. Its correlation coefficient of prediction set (rp) is 0.990 7, standard error of prediction (SEP) is 1.755 1, and root mean square error of prediction (RMSEP) is 1.737 3. It is concluded that NIR spectroscopy with LS-SVM is a feasible method to determine the producing area of tobacco leaf.
Key words: tobacco leaf; origin discriminant; NIR spectroscopy; least squares-support vector machines (LS-SVM)
煙草是我國重要的經(jīng)濟作物,煙葉的品質(zhì)與遺傳因素、栽培措施、調(diào)制技術(shù)和產(chǎn)地環(huán)境等密切相關(guān)。其中,產(chǎn)地環(huán)境(海拔、溫濕度、氣候條件等)對煙葉品質(zhì)的影響極為明顯,也是構(gòu)成不同品牌卷煙特有風(fēng)格的基礎(chǔ),但不同產(chǎn)地的煙葉特征迄今難以量化描述。目前,對烤煙煙葉產(chǎn)地的判別除依賴感官評定外,需要對其化學(xué)成分進(jìn)行分析,判別過程費時、費力。因此,研究一種能夠快速、準(zhǔn)確地對烤煙煙葉產(chǎn)地進(jìn)行判別的方法非常必要。
Maha等[1]采用神經(jīng)元網(wǎng)絡(luò)方法對美國本土及國外1 000多個煙葉樣品的近紅外光譜(NIRs)信息進(jìn)行分析,對本國煙葉取得了很好的模式識別結(jié)果。國內(nèi)研究人員曾采用NIR法預(yù)測了煙草根、莖、葉中的蛋白質(zhì)、總糖、總氮、總植物堿等[2,3],采用主成分分析的馬氏距離法判別煙葉產(chǎn)地歸屬,獲得了較佳的識別準(zhǔn)確率[4]。但上述研究均需要對煙葉進(jìn)行切絲過篩,屬于有損檢測且費時費力。用NIR法專門針對收購環(huán)節(jié)進(jìn)行完整煙葉品質(zhì)分析預(yù)測煙葉產(chǎn)地尚無研究報道。試驗采用近紅外波段(867~258 9 nm)進(jìn)行光譜掃描,應(yīng)用最小二乘支持向量機(LS-SVM),建立了LS-SVM判別分析組合模型,實現(xiàn)了烤煙煙葉產(chǎn)地的快速準(zhǔn)確判別。
1材料與方法
1.1儀器及參數(shù)
試驗使用光譜檢測設(shè)備是Ocean Optics公司的NIR256-2.5光纖光譜儀,配套的QBIF600-VIS-BX白金級Y形分叉光導(dǎo)纖維探頭,儀器光譜采樣間隔6 nm,測定波長867~2 589 nm,光纖探測器與樣品垂直,暗室溫度18~22 ℃,相對濕度22%~25%,以14.5 V、50W鹵素?zé)魹槲┮还庠矗庠磁c樣品夾角45°。開機預(yù)熱1 h后進(jìn)行光譜掃描,采樣方式是漫反射,采樣軟件是機器自帶的Spectra Suite。分析軟件采用ASD View Spec Pro、Unscramble V9和DPS(Data Procession System for Practical Statistics)。積分時間設(shè)置為250 mm,平滑度設(shè)置為9,平均次數(shù)為3,即對每個樣品自動掃描3次取平均值。
1.2樣本制備
收集了2010年10月云南、河南、湖北三省的煙草公司提供的已由專家人工定級的煙葉。為保證試驗結(jié)果的代表性,每個產(chǎn)地?zé)熑~按7個分組每組1~4個等級隨機選擇90個樣本。根據(jù)文獻(xiàn)[5]報道,直接將煙葉樣品平鋪置于載物臺上,采用漫反射模式采集近紅外光譜,光譜掃描穩(wěn)定后進(jìn)行數(shù)據(jù)采集。保存3條光譜曲線,以其平均光譜作為最終的反射光譜。從全部270個樣本中,每個產(chǎn)地隨機選擇30個共90個樣本作為預(yù)測集,剩余的180個樣本作為建模集。
1.3光譜數(shù)據(jù)預(yù)處理
首先采用Savitzky-Golay平滑法,平滑點數(shù)?。?,用以去除光譜曲線中的高頻成分,保留有用低頻信息,然后進(jìn)行附加散射校正(Multiplication Scatter Correction, MSC)處理,以降低煙葉樣本表面不均質(zhì)的散射對光譜數(shù)據(jù)造成的影響。為了消除光譜數(shù)據(jù)在首尾兩端產(chǎn)生的較大噪音,只?。?101~2 395 nm波段的數(shù)據(jù)進(jìn)行分析,以提高測量數(shù)據(jù)的信噪比[5]。
2結(jié)果與分析
2.1光譜圖分析
圖1為不同產(chǎn)地?zé)熑~樣本的光譜圖。從圖1可以看出,不同產(chǎn)地?zé)熑~的光譜交錯重疊。由于近紅外光譜包含了噪聲、環(huán)境、儀器響應(yīng)、人為操作誤差等各種干擾因素,再加上煙葉樣本表面不均質(zhì)特性,這些都對光的漫反射有一定影響。要消除這些因素的影響,需要結(jié)合化學(xué)計量學(xué)方法對所得的光譜數(shù)據(jù)進(jìn)行處理,從而建立起煙葉不同產(chǎn)地的鑒別模型。
2.2主成分分析結(jié)果
在1 101~2 395 nm光譜范圍內(nèi)一共有193個輸入變量。雖然這些輸入變量能夠作為輸入值進(jìn)行LS-SVM建模,但是為了提高模型建立的運算速度,減少其中的運算量,試驗采用主成分分析法[6,7]先提取光譜的主成分。主成分分析中主成分?jǐn)?shù)的選擇非常重要,如果建立模型使用主成分?jǐn)?shù)過少,則不能反映未知樣本被測組分產(chǎn)生的測量數(shù)據(jù)變化,其模型的預(yù)測能力就會降低;如果選擇的主成分?jǐn)?shù)過多,就會將一些代表噪聲的主成分加入到模型中,同樣會使模型的預(yù)測能力下降。
利用主成分分析法將經(jīng)過平滑和附加散射校正預(yù)處理后的光譜數(shù)據(jù)輸入變量進(jìn)行降維,得到的前12個主成分的累積貢獻(xiàn)率如表1所示。從表1可知,前12個主成分的累積可信度已達(dá)到99.84%以上,說明其能夠很好地代表原始輸入變量的信息,所以每個樣本的光譜數(shù)據(jù)可以用前12個主成分代替。
選取前3個主成分得到3個不同產(chǎn)地?zé)熑~光譜數(shù)據(jù)的主成分分析三維聚類圖(圖2)。從圖2可以看出,3個不同產(chǎn)地?zé)熑~樣本之間的界限比較模糊,無法直接從圖中加以區(qū)別。此外,前3個主成分的聚類圖只能在3個維度范圍內(nèi)進(jìn)行直觀、定性地分析,難以定量地精確區(qū)分及預(yù)測。因此采用LS-SVM對光譜數(shù)據(jù)在主成分分析基礎(chǔ)之上進(jìn)一步分析。
2.3LS-SVM建模及預(yù)測
分別用4~12個主成分進(jìn)行LS-SVM建模,通過比較基于不同主成分?jǐn)?shù)建立的預(yù)測模型的精度,最終確定最優(yōu)主成分?jǐn)?shù),模型參數(shù)和精度比較結(jié)果如表2所示。由表2可知,以12個主成分?jǐn)?shù)作為輸入變量建立的LS-SVM模型預(yù)測效果最好,其預(yù)測相關(guān)系數(shù)rp達(dá)到0.990 7,且預(yù)測標(biāo)準(zhǔn)誤差(Standard Error of Prediction,SEP)和預(yù)測均方根誤差(Root Mean Square Error of Prediction,RMSEP)均較小,分別為1.755 1和1.737 3。
同時選用偏最小二乘法(PLS)建立的模型對煙葉產(chǎn)地進(jìn)行預(yù)測,比較結(jié)果見表3,可以看到LS-SVM模型的預(yù)測效果好于PLS模型。說明LS-SVM模型能夠更好地提取光譜中的有用信息,從而更加精確地預(yù)測煙葉產(chǎn)地。
3小結(jié)
基于收購環(huán)節(jié)的烤煙煙葉質(zhì)量評價及產(chǎn)地分析一直是煙草行業(yè)備受關(guān)注的問題,近紅外無損檢測過程比常見的化學(xué)方法簡單、操作性強。試驗進(jìn)行了基于近紅外光譜技術(shù)無損鑒別烤煙煙葉產(chǎn)地的研究,采用近紅外光譜技術(shù)對不同產(chǎn)地的烤煙煙葉進(jìn)行了檢測。選擇4~12個主成分?jǐn)?shù)分別作為輸入變量建立了LS-SVM模型,通過比較模型參數(shù)確定當(dāng)輸入變量為前12個主成分時,LS-SVM模型預(yù)測效果最好,預(yù)測相關(guān)系數(shù)可以達(dá)到0.990 7,且預(yù)測結(jié)果優(yōu)于PLS模型。結(jié)果表明,運用基于LS-SVM的近紅外光譜技術(shù)可以快速、無損地檢測烤煙煙葉的產(chǎn)地,為今后進(jìn)一步研究光譜技術(shù)應(yīng)用于烤煙煙葉收購質(zhì)量的檢測提供了新的途徑。
參考文獻(xiàn):
[1] MAHA H, MCCLURE W F. Applying artificial neural networks. II. Using near infrared data to classify tobacco types and identify native grown tobacco[J]. J Near Infrared Spectra,1997(5):19-25.
[2] 鄧發(fā)達(dá),朱立軍,戴亞,等. 近紅外技術(shù)測定成品卷煙中總糖和還原糖及綠原酸的含量[J].安徽農(nóng)業(yè)科學(xué), 2010, 38(12):6181-6182,6188.
[3] 覃鑫. 在線近紅外光譜(NIR)快速測定煙草化學(xué)成分[J].西昌學(xué)院學(xué)報(自然科學(xué)版), 2010,24(1):52-54,79.
[4] 束茹欣,王國東,張建平,等. 國產(chǎn)烤煙煙葉的NIRS模式識別[J].煙草科技,2006(8):12-15,20.
[5] 章英,賀立源. 基于近紅外光譜的烤煙煙葉自動分組方法[J].農(nóng)業(yè)工程學(xué)報,2011,27(4):350-354.
[6] 王徽蓉,李衛(wèi)軍,劉揚陽,等. 基于遺傳算法與線性鑒別的近紅外光譜玉米品種鑒別研究[J].光譜學(xué)與光譜分析,2011,31(3):669-672.
[7] 趙磊,李繼海,朱大洲,等. 5種鹿茸營養(yǎng)成分的主成分分析[J].光譜學(xué)與光譜分析,2010(9):2571-2575.
(責(zé)任編輯王曉芳)
收稿日期:2011-08-08
基金項目:國家科技支撐計劃項目(2006BAD10A1304);云南省煙草煙葉公司攻關(guān)項目(2009YN010)
作者簡介:章英(1978-),女,湖北枝江人,講師,在職博士研究生,從事數(shù)字圖像處理技術(shù)和農(nóng)業(yè)信息化的研究工作,(電話)15307115201
(電子信箱)zy@mail.hzau.edu.cn;通訊作者,賀立源,男,河南鞏縣人,教授,從事農(nóng)業(yè)信息化的研究工作,(電話)13971622358
(電子信箱)heliyuan@mail.hzau.edu.cn。