潘 曦 李 冉 魏 敏 衛(wèi) 青 邱昌桂
(1. 湖北中煙工業(yè)有限責(zé)任公司技術(shù)研發(fā)中心,湖北 武漢 430040;2. 云南瑞升煙草技術(shù)〔集團(tuán)〕有限公司,云南 昆明 650106)
卷煙品牌是煙草工業(yè)企業(yè)發(fā)展的核心基礎(chǔ)和生存之本,不同品牌的卷煙主要采用調(diào)整煙葉原料的葉組配方和香精香料配方等技術(shù)達(dá)到維持卷煙品牌的內(nèi)在品質(zhì)質(zhì)量與風(fēng)格特征的目的。煙草行業(yè)中,卷煙內(nèi)在品質(zhì)質(zhì)量和風(fēng)格特征主要通過感官質(zhì)量評價[1]、主流煙氣[2-3]和煙絲化學(xué)成分[4-5]等方法進(jìn)行判斷和鑒別。近年來,近紅外光譜技術(shù)(NIRS)逐漸成為區(qū)分和鑒別卷煙內(nèi)在質(zhì)量和風(fēng)格特征的重要分析方法[6-7],該技術(shù)具有樣品無需預(yù)處理、無污染、無損分析、綠色環(huán)保以及操作簡便和檢測速度快等優(yōu)點[8],結(jié)合化學(xué)計量學(xué)方法可實現(xiàn)樣品的定量定性快速分析,被廣泛應(yīng)用于食品和制藥等行業(yè)[9]。王家俊等[10-13]采用近紅外光譜技術(shù)實現(xiàn)了煙草中多種化學(xué)成分含量及物理特性的快速測定。其在煙葉模式識別方面也被廣泛應(yīng)用,如煙葉類型分類判別[14]、卷煙配方結(jié)構(gòu)識別[15]、卷煙質(zhì)量投影識別[6]、卷煙生產(chǎn)過程監(jiān)測及質(zhì)量評價[16-18]和卷煙真?zhèn)舞b別[19]等,特別是與機(jī)器學(xué)習(xí)方法結(jié)合應(yīng)用,極大地提高了模式識別的準(zhǔn)確率[20-21]。曹妙玲[22]以前16個近紅外光譜主成分及12個抽提的綜合特征為分類特征所建立的KNN判別模型的平均預(yù)測正確率為92.65%~96.23%。謝有超等[21]采用連續(xù)小波變換(CWT)進(jìn)行近紅外光譜數(shù)據(jù)預(yù)處理,概率主成分分析(PPCA)方法進(jìn)行數(shù)據(jù)降維,基于Linear核函數(shù)的支持向量機(jī)(SVM)方法建立的卷煙牌號識別模型的正確識別率值達(dá)97.20%,提升了卷煙牌號的識別準(zhǔn)確率。但SVM模型的分類準(zhǔn)確率在很大程度上取決于SVM參數(shù)值的選取,而參數(shù)值的選取目前還主要依賴于經(jīng)驗值的試取。
研究擬以6種不同牌號卷煙的成品煙絲為試驗對象,采用近紅外光譜技術(shù)結(jié)合螢火蟲算法優(yōu)化的支持向量機(jī)建立預(yù)測模型,對不同牌號卷煙進(jìn)行更詳細(xì)的牌號區(qū)分,以期為品牌卷煙的內(nèi)在質(zhì)量和風(fēng)格特征及不同牌號卷煙內(nèi)在質(zhì)量特征快速鑒別研究提供依據(jù),為進(jìn)一步利用近紅外光譜技術(shù)進(jìn)行卷煙產(chǎn)品質(zhì)量維護(hù)、卷煙過程質(zhì)量監(jiān)測和卷煙配方設(shè)計提供技術(shù)指導(dǎo)。
傅里葉變換近紅外光譜儀:Nicolet Antaris II型,美國Thermo fisher公司;
恒溫恒濕箱:KBF 540型,德國 Binder公司。
以湖北中煙某廠黃鶴樓品牌卷煙制絲生產(chǎn)線的葉絲段加香工序后的某固定位置采集的6個不同牌號成品煙絲為樣品,正常生產(chǎn)條件下,每次約間隔90 s取樣(樣品量約為200 g),每批次取樣30次,置于密封袋中待用。
光譜掃描前,近紅外光譜儀器開機(jī)預(yù)熱時間 >1 h,以保證儀器運(yùn)行穩(wěn)定。近紅外光譜儀工作參數(shù):光譜波數(shù)10 000~4 000 cm-1;分辨率8 cm-1;掃描次數(shù)64。將成品煙絲樣品直接放置在儀器自帶的旋轉(zhuǎn)杯中,用壓塊自然壓實,采用旋轉(zhuǎn)樣品杯的方式采集近紅外光譜,每個成品煙絲樣品采集3次,取平均值。
按表1對樣品進(jìn)行編號,每種牌號成品煙絲樣品根據(jù)70%為訓(xùn)練集,30%為測試集的原則采用隨機(jī)的方法劃分訓(xùn)練集和測試集,即從300個成品煙絲樣品中選擇210個煙絲樣品作為訓(xùn)練集,剩余的90個煙絲樣品作為測試集。
表1 6種卷煙牌號樣品集的劃分Table 1 Sample numbers in sample sets of cut filler of 6 cigarette brands
由于成品煙絲是由不同等級、物理特性的片狀、絲條狀煙草原料混合而成,光譜采集過程中存在煙絲結(jié)構(gòu)、成分和外觀不均勻性以及光譜噪聲所引起的散射影響,需對光譜進(jìn)行預(yù)處理以減小煙絲表面特征不均勻和成品煙絲厚度的不一致性等因素影響。即采用一些數(shù)學(xué)方法減弱或消除非目標(biāo)因素對煙絲光譜的影響,以利于從復(fù)雜的近紅外光譜數(shù)據(jù)中提取有用的光譜信息,提高煙絲SVM分類模型方法的準(zhǔn)確性和可靠性。為消除背景和環(huán)境噪聲、其他信息以及絲條狀、片狀煙絲特征不均勻等因素的影響,采用的光譜預(yù)處理方法包括:多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、Savitzky-Golay濾波器(SG)、一階微分(1D)、二階微分(2D)及組合方法。
1.6.1 SVM算法的基本原理 支持向量機(jī)(SVM)是由Vapnik團(tuán)隊提出的基于統(tǒng)計學(xué)習(xí)理論的新穎的機(jī)器學(xué)習(xí)方法[23-24],其進(jìn)行分類的基本思想是通過一個非線性映射函數(shù)將原始數(shù)據(jù)映射到高維特征空間中,在高維特征空間進(jìn)行內(nèi)積運(yùn)算構(gòu)造一個最優(yōu)分類超平面作為決策面,不但使分類間隔距離最大,而且能實現(xiàn)分類中的兩類樣本正確分開。其中構(gòu)造最優(yōu)分類超平面轉(zhuǎn)化為數(shù)據(jù)模型即求函數(shù)的全局最優(yōu)解:
(1)
對于訓(xùn)練集,為實現(xiàn)正確分類,需滿足如下條件:
yi(ω·xi+b)-1≥0,i=1,2,…,m,
(2)
式中:
m——訓(xùn)練集個數(shù);
xi——訓(xùn)練集原始數(shù)據(jù);
yi——訓(xùn)練集的類別;
ω——分類超平面的系數(shù)向量;
b——閾值。
核函數(shù)能顯著影響支持向量機(jī)的分類性能,但對于如何選擇、確定核函數(shù)尚無成熟理論。常用的核函數(shù)主要有線性核函數(shù)(Linear)、多項式核函數(shù)(Poly)、多層感知器核函數(shù)(Sigmoid)和Gauss徑向基核函數(shù)(RBF)等[25]。文中選取應(yīng)用最廣泛的具有良好的學(xué)習(xí)能力、能夠逼近任何非線性函數(shù)的徑向基核函數(shù)(RBF)進(jìn)行分類研究,其形式為:
K(x·xi)=exp(-g‖x-xi‖2),g>0,
(3)
式中:
g——核函數(shù)參數(shù)(核寬度)。
影響支持向量的分類模型的精度和泛化能力的參數(shù)主要為核函數(shù)參數(shù)g和懲罰因子參數(shù)c。其中,核函數(shù)參數(shù)g控制函數(shù)的回歸誤差,直接影響初始的特征向量和特征值,懲罰參數(shù)c對支持向量的分類模型的精度和泛化能力影響顯著。通常,對支持向量機(jī)兩個參數(shù)的選擇多以經(jīng)驗選取為主,其分類精度和速度均無法得到保證,為了提高SVM的學(xué)習(xí)和泛化能力,采用螢火蟲算法優(yōu)化SVM分類器的兩個參數(shù)g和c,以尋求SVM兩個參數(shù)的最優(yōu)值。
1.6.2 螢火蟲算法的基本原理 螢火蟲算法(FA)是Yang[26]在2008年受螢火蟲自身趨光性特點啟發(fā)而提出的一種新穎的仿生智能優(yōu)化算法,通過模擬螢火蟲之間因發(fā)光吸引而移動的行為規(guī)則實現(xiàn)螢火蟲位置的迭代更新,從而達(dá)到尋優(yōu)的目的。螢火蟲算法中,螢火蟲彼此吸引是由螢火蟲自身亮度和吸引度兩個因素所決定,亮度低的螢火蟲被亮度高的螢火蟲吸引而向其移動,從而更新自身位置[27]。亮度與吸引度是螢火蟲空間距離有關(guān)的兩個因素,隨著螢火蟲空間距離的增加,螢火蟲的亮度與吸引度均減小。螢火蟲的相對螢光亮度為:
(4)
(5)
式中:
L0——螢火蟲最大螢光亮度;
γ∈[0.1,2.0]——螢光強(qiáng)度的吸收系數(shù);
rij——兩個螢火蟲i與j之間的空間距離。
螢火蟲之間的吸引度βij定義為:
(6)
式中:
β0——螢火蟲的最大吸引度,通常取[0.8,1.0]。
低亮度的螢火蟲i向高亮度的螢火蟲j移動的位置更新表示為:
(7)
式中:
α——步長因子;
t——迭代次數(shù);
rand——介于[0,1]的隨機(jī)數(shù);
β——相對吸引度。
根據(jù)式(7)計算螢火蟲更新后的位置,然后根據(jù)式(4)~式(7)重新計算更新后的螢火蟲亮度和位置,螢火蟲通過多次向高亮度的螢火蟲方向移動后,所有螢火蟲個體都將聚集在亮度最高的螢火蟲位置上,從而實現(xiàn)尋優(yōu)。
1.6.3 螢火蟲算法優(yōu)化支持向量機(jī)參數(shù)流程 SVM的核函數(shù)選用RBF核函數(shù),采用螢火蟲算法優(yōu)化SVM的核函數(shù)參數(shù)g和懲罰因子參數(shù)c,即運(yùn)用FA算法的搜索能力尋找螢火蟲亮度最大的位置X(c,g),從而得到參數(shù)的最優(yōu)解(c*,g*)?;贔A-SVM的卷煙牌號分類識別的具體流程如圖1所示。
圖1 基于FA-SVM的卷煙牌號分類識別流程圖Figure 1 Flowchart of types of cigarette classify discrimination based on FA-SVM
以煙絲樣品訓(xùn)練集和測試集的分類正確率(正確分類的樣品數(shù)占總樣品數(shù)的百分比)作為SVM模型分類效果和SVM參數(shù)優(yōu)化的評價指標(biāo)。訓(xùn)練集和測試集的正確率越接近于100%,SVM分類模型的精度越高,說明SVM參數(shù)和分類模型的效果越好。
由圖2可知,6種牌號成品煙絲的近紅外光譜由于含有樣品的信息和其他信息及噪聲,近紅外光譜曲線的吸收峰位置和峰形均較為相似,不能直觀地通過近紅外光譜曲線鑒別不同牌號的成品煙絲,需經(jīng)預(yù)處理后,再對牌號成品煙絲進(jìn)行鑒別。
圖2 成品煙絲的近紅外原始光譜Figure 2 Raw NIR spectra of finished cut tobacco samples
采用SNV和SNV+1D光譜預(yù)處理方法變換后的光譜圖如圖3所示。由圖3可知,經(jīng)SNV預(yù)處理后消除了不同形狀(煙絲片狀、絲條狀)樣品產(chǎn)生的散射影響,增強(qiáng)了光譜有效信息。SNV消除樣品散射影響后,經(jīng)1D預(yù)處理后的光譜圖像能夠有效減小光譜的噪聲以及消除光譜的基線漂移。因此,經(jīng)SNV+1D預(yù)處理后的近紅外光譜能夠有效減小噪聲,便于牌號成品煙絲的分類。
圖3 SNV和SNV+1D預(yù)處理后的近紅外光譜Figure 3 The NIR spectral data after SNV and SNV+1D preprocessing
使用FA優(yōu)化SVM分類算法分別對6種牌號成品煙絲樣品進(jìn)行分類,固定螢火蟲數(shù)目為20,迭代次數(shù)為20,使用5折交叉驗證,重復(fù)測試10次,對比5種光譜數(shù)據(jù)預(yù)處理方法的平均預(yù)測準(zhǔn)確率,結(jié)果見表2。由表2可知,采用SNV+1D預(yù)處理方法的成品卷煙訓(xùn)練集和測試集的分類準(zhǔn)確率最高,訓(xùn)練集和測試集的平均分類正確率分別為100.00%,98.33%,分類效果最差的是MSC預(yù)處理方法。因此,選擇SNV+1D作為成品卷煙鑒別模型的光譜數(shù)據(jù)預(yù)處理方法,可能與SNV+1D能更好地消除光譜數(shù)據(jù)中的背景干擾和基線漂移有關(guān)。
表2 不同光譜數(shù)據(jù)預(yù)處理方法下FA-SVM鑒別模型統(tǒng)計表Table 2 The result of different recognition models under different spectral data pre-processing methods(n=10)
為了考察螢火蟲性能隨種群數(shù)目和迭代次數(shù)的變化情況,分別選取螢火蟲數(shù)量為10,20,30,迭代次數(shù)分別為10,20,40來表示螢火蟲的尋優(yōu)趨勢,使用5折交叉驗證,重復(fù)測試10次,并以平均分類準(zhǔn)確率為預(yù)測指標(biāo)評價FA優(yōu)化SVM的分類鑒別性能,結(jié)果見表3。由表3可知,在試驗范圍內(nèi),螢火蟲的數(shù)目和迭代次數(shù)對訓(xùn)練集的分類識別正確率均為100.00%,并且對測試集的分類正確率也達(dá)到了96.00%以上,說明采用螢火蟲算法優(yōu)化支持向量機(jī)能夠較好地分類鑒別卷煙同品牌不同牌號。其中,分類準(zhǔn)確率最高是螢火蟲數(shù)目為20,迭代次數(shù)為20的組合,卷煙測試集的平均分類識別正確率為98.33%。分類效果最差的是螢火蟲數(shù)目為10、迭代次數(shù)為20的組合,測試集的平均分類正確率為96.00%。
表3 不同種群數(shù)量和迭代次數(shù)的分類準(zhǔn)確率Table 3 Classification accuracy of different population numbers and iteration times
選擇最優(yōu)的預(yù)處理、螢火蟲數(shù)目和迭代次數(shù),即螢火蟲的種群數(shù)量為20,迭代次數(shù)為20,光譜數(shù)據(jù)的預(yù)處理方法為SNV+1D,支持向量機(jī)懲罰參數(shù)c值為[0.01,100.00],核函數(shù)參數(shù)g值為[0.01,100.00],采用FA-SVM算法對6種牌號300個成品煙絲樣品進(jìn)行分類,使用5折交叉驗證,重復(fù)測試10次。圖4為第一次對訓(xùn)練集的成品煙絲樣品數(shù)據(jù)使用5折交叉驗證的螢火蟲算法優(yōu)化支持向量機(jī)參數(shù)c、g的適應(yīng)度曲線。圖5為成品煙絲樣品訓(xùn)練集和測試集的分類效果圖。
由表4和圖4、圖5可知,優(yōu)化過程中,螢火蟲種群中的最優(yōu)個體適應(yīng)度隨迭代次數(shù)的增加逐漸增加,當(dāng)?shù)螖?shù)為4時開始趨于穩(wěn)定,并穩(wěn)定于97.14%,表明此時的支持向量機(jī)的兩個參數(shù)(懲罰參數(shù)與核函數(shù)參數(shù))的組合達(dá)到性能最優(yōu),即支持向量機(jī)的最佳懲罰參數(shù)c=85.75,最佳核函數(shù)參數(shù)g=92.35,訓(xùn)練集和測試集的分類正確率均為100.00%。此外,重復(fù)測試10次,F(xiàn)A-SVM算法的訓(xùn)練集分類正確識別率均為100.00%,測試集的分類正確識別率為96.67%~100.00%,說明近紅外光譜技術(shù)結(jié)合FA-SVM分類模型能準(zhǔn)確地鑒別卷煙牌號。
圖4 FA-SVM算法參數(shù)優(yōu)化的適應(yīng)度曲線Figure 4 FA-SVM algorithm fitness optimization process curve
圖5 訓(xùn)練集和測試集的分類效果圖Figure 5 Classification effect diagram of training set and test set
表4 FA-SVM算法對不同成品煙絲的分類結(jié)果Table 4 Classification results of cigarette in finished cut tobacco samples of different brand with FA-SVM algorithm
以湖北中煙黃鶴樓品牌的6個牌號為研究對象,提出了一種基于近紅外光譜數(shù)據(jù)結(jié)合螢火蟲算法優(yōu)化支持向量機(jī)鑒別卷煙牌號的方法。結(jié)果表明:采用標(biāo)準(zhǔn)正態(tài)變量變換結(jié)合一階導(dǎo)數(shù)對近紅外光譜進(jìn)行預(yù)處理,當(dāng)螢火蟲種群數(shù)目為20,迭代次數(shù)為20時,成品煙絲訓(xùn)練集正確識別率均為100%,測試集的正確識別率為96.67%~100.00%。因此,螢火蟲算法優(yōu)化支持向量機(jī)算法結(jié)合近紅外光譜技術(shù)可實現(xiàn)對卷煙牌號的準(zhǔn)確鑒別。但該方法僅對近紅外全光譜進(jìn)行研究,后續(xù)將結(jié)合近紅外光譜不同波長的篩選方法,以期進(jìn)一步提升卷煙牌號的鑒別能力。