刁 航,吳永明,楊宇虹,歐陽進,李軍會,勞彩蓮,徐興陽*
1. 中國農(nóng)業(yè)大學現(xiàn)代精細農(nóng)業(yè)系統(tǒng)集成教育部重點實驗室,北京 100083 2. 云南省煙草公司昆明市公司,云南 昆明 650051 3. 云南省煙草農(nóng)業(yè)科學研究院,云南 昆明 650021
田間原位光譜的鮮煙葉成熟度判別模型的研究
刁 航1,吳永明2,楊宇虹3,歐陽進2,李軍會1,勞彩蓮1,徐興陽2*
1. 中國農(nóng)業(yè)大學現(xiàn)代精細農(nóng)業(yè)系統(tǒng)集成教育部重點實驗室,北京 100083 2. 云南省煙草公司昆明市公司,云南 昆明 650051 3. 云南省煙草農(nóng)業(yè)科學研究院,云南 昆明 650021
在田間原位對煙葉成熟度進行判別,能夠有效減少由于對成熟度判斷錯誤而導致的煙葉損失率升高、質(zhì)量下降的問題,而傳統(tǒng)的人眼結合葉齡的田間成熟度判別方法缺少客觀性,因此提出采用光譜特征參數(shù)結合支持向量機的方法對田間原位煙葉成熟度進行判別。以專家評定并在田間原位進行測量的五個成熟度等級共351個煙葉反射光譜作為試驗樣品,五個成熟度等級分別為M1,M2,M3,M4,M5。通過對反射光譜的分析發(fā)現(xiàn),不同成熟度煙葉的光譜在可見光波段能夠得到區(qū)分,而在近紅外波段區(qū)分不明顯,因此在可見光波段進行分析建模。分別采用可見光范圍內(nèi)的連續(xù)光譜(350~780 nm)、特征波段(496~719 nm)、光譜特征參數(shù)(綠峰幅值、綠峰位置、紅邊幅值、藍邊幅值、紅邊面積、藍邊面積、紅邊位置、藍邊位置)作為輸入變量,采用支持向量機方法(supportvector machine,SVM)建立煙葉成熟度判別模型。結果表明,應用可見光光譜特征參數(shù)作為輸入變量所建立的模型的正確識別率達到98.85%,而應用可見光連續(xù)譜、可見光特征波段作為輸入變量的正確識別率分別為90.80%和93.10%。因此使用可見光光譜特征參數(shù)建立支持向量機的鮮煙葉成熟度判別模型對田間原位煙葉成熟度進行判別是可行的。
可見光譜; 光譜特征參數(shù); 支持向量機; 煙葉; 成熟度
煙葉成熟度判別是生產(chǎn)優(yōu)質(zhì)煙葉的關鍵之一。通過準確地掌握田間鮮煙葉的成熟度,并且選擇恰當?shù)臅r機進行采收,可以降低煙葉的田間損失率和烘烤損失率。目前國內(nèi)對于田間煙葉成熟度的判別一般采用行業(yè)專家的目測評定方法,主觀性較強,而且費時費力。因此,研發(fā)出一種客觀而又快速的煙葉成熟度判別方法將為煙草采收提供科學指導,以保證生產(chǎn)過程中的煙葉質(zhì)量。
光譜分析技術是依靠分子的振動、轉動以及能量躍遷,從而反應官能團以及整個分子特征的一種分析方法[1]。由于其快速、無損等特點,被廣泛應用于農(nóng)產(chǎn)品檢測[2-3]、工業(yè)生產(chǎn)監(jiān)測[4-5]、食品分析[6-7]、煙草[8-10]等領域。植物葉片中的葉綠素、類胡蘿卜素等色素對可見光波段的紅光和藍紫光有特征吸收; 植物葉片的結構,總糖、總氮、煙堿等生理生化組分和水分含量影響近紅外波段。研究表明,煙葉的成熟度不同,顏色、厚度等外觀特征以及葉綠素、類胡蘿卜素等色素含量也不同,所表現(xiàn)的反射光譜特征也不同。王建偉等研究發(fā)現(xiàn)不同煙葉成熟度的光譜在550~680 nm的波長范圍內(nèi)能夠得到區(qū)分[9]; 余志虹等利用比值植被指數(shù)與葉綠素含量相關性高的特點,構建了烤煙中部鮮煙葉成熟度監(jiān)測模型[10]。
為了更好地將光譜分析技術應用于指導煙葉采收時的質(zhì)量控制,研究開發(fā)一種在田間原位進行鮮煙葉成熟度判別的方法以田間測量為基礎,以煙草的鮮煙葉為研究對象,使用便攜式地物波譜儀結合支持向量機方法建立田間煙葉成熟度的光譜判別方法。
1.1 試驗與材料
試驗于2014年在云南省昆明市石林縣上趙進行,試驗地肥力中等,試驗品種為K326。樣品是由專家選出的、具有代表性的鮮煙葉。光譜采集時間從煙草下部葉生青時開始,直到上部葉的過熟葉片采集完畢后結束。鮮煙葉成熟度評判標準由煙葉成熟度評判專家結合生產(chǎn)經(jīng)驗與文獻[11]給出,如表1所示。
表1 鮮煙葉成熟度等級標準
1.2 田間光譜采集
煙葉反射光譜的測量在大田環(huán)境中進行。測量儀器為ASD FieldSpec3便攜式地物波譜儀,波長范圍是350~2 500 nm,分辨率3 nm@700 nm,10 nm@1 400 nm, 2 100 nm,接觸式葉片測量還需使用光譜儀配套的植被探頭和葉片夾持器。試驗共采集351個鮮煙葉光譜,包含上部葉、中部葉、下部葉三個部位,其中M1等級70個,M2等級63個,M3等級73個,M4等級75個,M5等級70個,對每一個選定的葉片樣本,在葉面中部、中脈兩側各選取兩個點采集光譜,每個點重復采集三次。將每個煙葉樣本4個點所采集得到的12條光譜取平均值作為該煙葉樣本的反射光譜。
1.3 模型輸入變量的確定
如圖1(a)為鮮煙葉的原始反射光譜圖,為了更加方便觀察不同成熟度之間的光譜差異,圖1(b)展示了對原始光譜進行歸一化處理并在每個成熟度下求取平均值的反射光譜圖,可以發(fā)現(xiàn)不同成熟度的光譜在可見光范圍內(nèi)(350~780 nm)可以得到區(qū)分,且存在成熟度等級越高光譜反射率越高的趨勢,這與不同成熟度時期的煙葉顏色變化規(guī)律相符,而煙葉成熟度在近紅外區(qū)域的區(qū)分卻不明顯。對區(qū)分明顯的可見區(qū)反射峰面積做方差分析如圖2,發(fā)現(xiàn)各成熟度之間有不同程度的重疊,不能直接使用峰面積作為判別依據(jù)。因此,通過對光譜的觀察分析,確定在可見光波段內(nèi)選取參數(shù)作為模型的輸入變量。
為了研究模型的輸入變量對建模結果的影響,我們選取三種用于建模的輸入變量,并對建模結果進行對比。三種輸入變量分別為: 可見光連續(xù)譜、可見光特征波段和可見光光譜特征參數(shù)。下面分別介紹三種輸入變量。
(1)可見光連續(xù)譜是將可見光范圍內(nèi)(350~780 nm)的所有波長點共431個作為模型的輸入變量。
(2)可見光特征波段的選取方法是在每個波長下對兩兩成熟度之間的反射光譜樣本逐一使用方差分析的方法,選出均達到顯著水平(p<0.05)的光譜點作為輸入變量。
圖1 煙葉原始反射光譜圖、不同成熟度煙葉 的平均歸一化反射光譜圖
Fig.1 Original reflectance spectra(a)and Average- Normalized reflectance spectra at different maturity levels (b)of tobacco leaf
圖2 煙葉光譜可見區(qū)反射峰面積的箱線圖
(3)可見光光譜特征參數(shù)是光譜中用于表示顏色信息的參數(shù)。本文中選用一些可見光波段常用的光譜特征參數(shù),分別有王建偉等提出的8個參數(shù)[9]: 綠峰幅值、綠峰位置(綠光范圍內(nèi)反射率的最大值以及最大反射率對應的波長)、紅光吸收谷幅值、紅光吸收谷位置(紅光范圍內(nèi)反射率的最小值以及最小反射率對應的波長)、紅邊幅值、藍邊幅值(光譜一階導數(shù)中紅邊與藍邊范圍內(nèi)的最大值)、紅邊面積、藍邊面積(光譜一階導數(shù)曲線在紅邊和藍邊范圍內(nèi)所圍成的面積)。以及在此基礎上增加的2個參數(shù): 紅邊位置(紅邊幅值對應的波長)和藍邊位置(藍邊幅值對應的波長),總共10個光譜特征參數(shù)。由于10個光譜特征參數(shù)與煙葉成熟度的相關程度不同,因此對這10個光譜特征參數(shù)使用方差分析的方法進行篩選,選出對煙葉成熟度判別貢獻大的參數(shù),方法為: 在每兩個成熟度之間使用方差分析,選出兩兩組間差異均不低于顯著水平(p<0.05)的光譜特征參數(shù),使用選出的光譜特征參數(shù)作為建模的輸入數(shù)據(jù)。最終在10個光譜特征參數(shù)中選出8個作為輸入變量,見表2。
表2 光譜特征參數(shù)的選擇
1.4 建模方法
支持向量機是目前應用廣泛的一種可用于分類的模式識別方法,在解決小樣本以及高維模式識別中表現(xiàn)其優(yōu)勢,被前人用于解決分類問題[12-13],因此被選擇來解決樣本數(shù)量小、維數(shù)相對較高的問題。支持向量機是建立在統(tǒng)計學習理論中的VC維理論和結構風險最小理論基礎上的,基本思想是: 將n維樣本空間映射到特征空間中,并在此高維特征空間中構造最優(yōu)線性決策函數(shù),即使得分類間隔最大的決策函數(shù)[14-15]。
使用可見光連續(xù)譜、可見光特征波段和篩選出來的光譜特征參數(shù)這三種變量作為支持向量機的輸入,建立煙葉成熟度判別模型,比較三種輸入變量所建模型差別,并最終確定煙葉成熟度判別方法??梢姽馓卣鞴庾V的選取、光譜特征參數(shù)的選取、比對與支持向量機的建模、檢驗使用Matlab R2012a軟件和臺灣大學林智仁教授的LIBSVM工具箱(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)實現(xiàn)。
2.1 煙葉部位對成熟度判別的影響
使用的351個不同成熟度的鮮煙葉光譜樣本來自上部葉、中部葉、下部葉三個部位,因此需要判斷不同部位的煙葉是否會對成熟度判別產(chǎn)生影響。對可見光連續(xù)波段的光譜進行主成分分析,查看樣本的空間分布情況。不同成熟度光譜的第一、第二維主成分空間分布如圖3所示。
由圖3可見,三個部位在同一成熟度下無明顯區(qū)別的分布在一起,不能得到區(qū)分。五個成熟度下光譜的第一和第二主成分貢獻率總和分別為97.59%,98.66%,99.34%,96.36%,96.40%,前兩個主成分的貢獻率很高,可以很好表達光譜的信息。因此,在成熟度判別時,可以排除部位因素的影響,合并三個部位的樣本進行建模。
圖3 不同部位可見光波段煙葉光譜的主成分分析得分圖
2.2 應用可見光連續(xù)譜作為輸入建立模型
對351個五個不同成熟度的鮮煙葉樣本按照3∶1的比例隨機劃分建模集和檢驗集,然后使用支持向量機方法建立成熟度判別模型。支持向量機核函數(shù)選擇高斯函數(shù)RBF,對于高斯核函數(shù)的參數(shù)g和懲罰參數(shù)c的選擇,選用網(wǎng)格搜索法以及K折交叉驗證(K=10),K折交叉驗證能夠有效的避免過學習以及欠學習的發(fā)生。
將可見光連續(xù)譜(350~780 nm)共431個波長點作為支持向量機的輸入,建立成熟度判別模型,模型的懲罰參數(shù)c和高斯核函數(shù)參數(shù)g分別為9.190和0.109,模型的建模集正確識別率和檢驗集正確識別率如表3所示。由表3可知,使用可見光連續(xù)譜作為輸入變量建立的支持向量機模型中,建模集的正確識別率為96.97%,檢驗集正確識別率為90.80%。模型輸入變量過多,建模速度比較慢,模型正確率有待提高。造成正確率不高的可能原因: 光譜中包含冗余的信息,將可見光連續(xù)譜不加篩選的作為輸入變量,其中所包含的冗余信息也參與建模,影響模型質(zhì)量,導致模型正確率下降,為此在下面兩節(jié)中,使用篩選、處理過的光譜數(shù)據(jù)進行建模。
2.3 應用可見光特征波段作為輸入建立模型
使用1.3中介紹的方法,對可見光連續(xù)譜進行特征波長提取,提取了496~719 nm,共224個波長點作為可見光特征波段。將特征波段的光譜作為支持向量機的輸入變量進行成熟度判別建模,模型的懲罰參數(shù)c和高斯核函數(shù)參數(shù)g分別為27.858和0.574,模型的建模集正確識別率和檢驗集正確識別率如表3所示。由表3可知,使用可見光特征波段作為輸入變量建立的模型中,建模集正確識別率為98.11%,檢驗集正確識別率為93.10%。相較使用可見光連續(xù)譜作為輸入變量的模型正確識別率有所提升,輸入變量個數(shù)減少到224個,可以看出使用篩選過后的特征光譜能夠減少光譜中的冗余信息,提高模型質(zhì)量和模型的正確識別率,但依然存在模型輸入變量多、建模時間長的問題。
2.4 應用光譜特征參數(shù)作為輸入建立模型
將可見光光譜特征參數(shù)共8個變量作為支持向量機的輸入,建立成熟度判別模型,模型的懲罰參數(shù)c和高斯核函數(shù)參數(shù)g分別為3.031和5.278,模型的建模集正確識別率和檢驗集正確識別率如表3所示??梢姽夤庾V特征參數(shù)主要是表達顏色信息的參數(shù),可以將數(shù)量大的光譜信息融合成幾個具有代表性的特征變量,進一步減少了光譜中的冗余信息,同時也減少了建模所需要的輸入變量個數(shù)。由表3可知,模型的建模集正確識別率為99.24%,檢驗集正確識別率為98.85%,優(yōu)于使用可見光連續(xù)譜和可見光特征波段作為輸入變量的建模結果。同時由于輸入變量數(shù)明顯下降,建模所需要的時間也明顯縮短。因此,應用光譜特征參數(shù)作為輸入變量建立模型有利于建模時間的縮短和煙葉成熟度判別模型識別效果的提高。
表3 三種輸入變量的煙葉成熟度判別模型的性能比較
進一步對光譜特征參數(shù)作為輸入變量的模型中發(fā)生誤判的樣本進行分析,建模集中M2的正確識別率為97.87%,M4的正確識別率為98.21%,其余三個成熟度的正確識別率為100%,誤判中,M2被誤判為M1,M4被誤判為M5; 檢驗集中M5的正確識別率為94.44%,其余四個成熟度的正確識別率為100%,誤判中,M5被誤判為M4。誤判均發(fā)生在相鄰兩個成熟度之間,即若M2發(fā)生誤判,只會被誤判為M1或者M3,而不會被誤判為M4和M5,不存在越級誤判的情況。
建立了一種基于光譜技術的田間原位煙葉成熟度判別方法。實驗結果表明,應用可見光光譜特征參數(shù)作為支持向量機輸入變量的模型,其建模集和檢驗集的正確識別率均達到98%以上,并且通過分析證明部位因素對煙葉成熟度判別沒有影響,模型可用于煙草的各部位。說明使用光譜特征參數(shù)結合支持向量機的方法進行田間原位煙葉成熟度判別是可行的。本方法具有快速、無損等特點,能夠減少由于人為判斷的主觀性差異產(chǎn)生的失誤,為煙葉成熟度判別提供了一種更加客觀的方法。在此研究基礎上,為提高模型的穩(wěn)定性和普適性,還需要在后續(xù)工作中繼續(xù)增加不同年份的樣本、樣本數(shù)量以及煙草的品種來對模型進行修正。
[1] YAN Yan-lu, ZHAO Long-lian, HAN Dong-hai, et al(嚴衍祿,趙龍蓮,韓東海,等). Foundation and Application of NIR Spectra Analysis(近紅外光譜分析基礎與應用). Beijing: China Light Industry Press(北京: 中國輕工業(yè)出版社), 2005. 13.
[2] WANG Ren-hong, SONG Xiao-yu, LI Zhen-hai, et al(王仁紅,宋曉宇,李振海,等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學報), 2014, 30(19): 191.
[3] QIAO Hong-bo, SHI Yue, SI Hai-ping, et al(喬紅波,師 越,司海平,等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學報), 2014, 30(20): 172.
[4] Cruz M V, Sarraguca M C, Freitas F, et al. Journal of Biotechnology, 2015, 194: 1.
[5] Wu Yongjiang, Jin Ye, Li Yerui, et al. Vibrational Spectroscopy, 2012, 58: 109.
[6] Laroussi-Mezghani S, Vanloot P, Molinet J, et al. Food Chemistry, 2015, 173: 122.
[7] Arana V A, Medina J, Alarcon R, et al. Food Chemistry, 2015, 175: 500.
[8] TIAN Kuang-da, QIU Kai-xian, LIU Zu-hong, et al(田曠達,邱凱賢,劉祖紅,等). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2014, 34(12): 3262.
[9] WANG Jian-wei, ZHANG Yan-ling, LI Hai-jiang, et al(王建偉,張艷玲,李海江,等). Tobacco Science & Technoligy(煙草科技), 2013, (5): 64.
[10] YU Zhi-hong, CHEN Jian-jun, Lü Yong-hua, et al(余志虹,陳建軍,呂永華,等). Tobacco Science & Technoligy(煙草科技), 2013, 2: 77.
[11] YANG Shu-xun(楊樹勛). Chinese Tobacco Science(中國煙草科學), 2003, 24(4): 34.
[12] Wang Y, Yang M, Wei G, et al. Sensors and Actuators B: Chemical, 2014, 193: 723.
[13] Devos O, Downey G, Duponchel L. Food Chemistry, 2014, 148: 124.
[14] Burges C J C. Data Mining and Knowledge Discovery, 1998, 2(2): 121.
[15] Fu JuiHsi, Lee SingLing. Expert Systems with Applications, 2012, 39(3): 3127.
(Received Mar. 12, 2015; accepted Jul. 5, 2015)
*Corresponding author
Study on the Determination of the Maturity Level of Tobacco Leaf Based on In-Situ Spectral Measurement
DIAO Hang1,WU Yong-ming2,YANG Yu-hong3,OUYANG Jin2,LI Jun-hui1,LAO Cai-lian1,XU Xing-yang2*
1. Key Laboratory of Modern Precision Agriculture System Integration, Ministry of Education, China Agricultural University, Beijing 100083, China 2. Yunnan Tobacco Company Kunming Branch, Kunming 650051, China 3. Yunnan Academy of Tobacco Agricultural Sciences, Kunming 650021, China
Discriminating the maturity levels of tobacco leaf with in-situ measurement can effectively reduce loss rate and quality decline due to misjudgment of the maturity levels of tobacco leaf. In the meantime, the regular way we use to determine the maturity levels of tobacco, which is depend on tobacco leaf age and judgment of tobacco grower, lacks of objectivity. So this paper proposed a method to identify maturity levels of tobacco leaf by using spectral feature parameters combined with the method of support vector machine (SVM). In this paper, a total of 351 tobacco leaf samples collected in 5 maturity levels including immature (M1), unripe (M2), mature (M3), ripe (M4), and mellow (M5) determined by experts were scanned by field spectroscope(ASD FieldSpec3) with in-situ measurement for getting their reflectance spectrum. Through spectral analysis we found that the spectrum of tobacco leaf with different levels of maturity can be distinguished in visible band but not easily be distinguished in near-infrared band, so we use the tobacco leaf spectrum in visible band as the sensitive bands to analyze and model. To find the most suitable input variables for modeling, we use continuous spectrum (350~780 nm), feature band (496~719 nm) and spectral feature parameters (the reflectance of green peak, location of green peak, first order differential value of red-edge and blue-edge, red-edge and blue-edge area, location of red-edge and blue-edge) in visible region as the input variables, and using these three kinds of input variables in the method of SVM to establish a discriminant model for identifying maturity levels of tobacco leaf. The result shows that, the model using spectral feature parameters gains the accuracy rate of 98.85%. While the accuracy rates of other two models were 90.80% and 93.10%, respectively. The conclusion was drawn that using spectral feature parameters in visible spectrum as the input variables in SVM can improve the model performance. It is feasible to use this method to identify maturity level of tobacco leaf with in-situ measurement.
Visible spectrum; Spectral feature parameters; SVM; Tobacco; Maturity level
2015-03-12,
2015-07-05
國家自然科學基金項目(61144012)和中國煙草總公司云南省公司項目(2013YN17)資助
刁 航,1990年生,中國農(nóng)業(yè)大學信息與電氣工程學院碩士研究生 e-mail: diaohang1027@163.com *通訊聯(lián)系人 e-mail: yy_xxy@sina.com
S132
A
10.3964/j.issn.1000-0593(2016)06-1826-05