王文俊,沙云菲,汪陽(yáng)忠,于 潔,劉太昂,張旭峰,孟祥周,葛 炯*
1.上海煙草集團(tuán)有限責(zé)任公司技術(shù)中心,上海 200082 2.上海真譜信息科技有限公司,上海 200444 3.同濟(jì)大學(xué)環(huán)境科學(xué)與工程學(xué)院,上海 200092
烤煙香型不僅是中式卷煙風(fēng)格主要因素之一,也對(duì)煙葉品質(zhì)的區(qū)分有著重要的參考價(jià)值。煙草著名專家朱尊權(quán)院士最早將烤煙香型分為清香型、中間香型和濃香型3大類[1]。對(duì)于不同香型烤煙的差別,人們進(jìn)行了大量的研究。早期的研究人員如劉金霞、席元肖等主要考察不同香型烤煙化學(xué)成分的差異,這些化學(xué)成分主要集中在總植物堿、總糖、還原糖、總氮等常規(guī)化學(xué)成分[2-3]。有研究者嘗試基于這些常規(guī)化學(xué)成分建立烤煙香型的模式識(shí)別模型。如郭東鋒等基于常規(guī)化學(xué)成分建立烤煙香型機(jī)器學(xué)習(xí)分類模型[4]。煙葉中的致香成分對(duì)烤煙香型的影響更大、更直接。后續(xù)的研究人員如許永等更加深入的研究了烤煙中的茄酮、糠醛、二氫獼猴桃內(nèi)酯、巨豆三烯酮共45中致香成分的差異。利用逐步回歸篩選出14種致香成分,并基于這14種致香成分建立7種烤煙香型分類模型[5-6]。在進(jìn)行致香成分檢測(cè)時(shí),需要復(fù)雜的化學(xué)方法,費(fèi)時(shí)、費(fèi)力、費(fèi)錢。近紅外光譜分析可以實(shí)現(xiàn)快速、無損檢測(cè),已經(jīng)有非常多的學(xué)者進(jìn)行了研究[7]。三種香型烤煙的致香成分存在差異,這些差異可以用近紅外光譜分析得到。束茹欣等收集了3 914個(gè)煙葉樣品的近紅外光譜,并基于這些光譜數(shù)據(jù)建立了烤煙香型的分類識(shí)別模型[8]。其中清香型和濃香型的識(shí)別結(jié)果都比較高,但中間香型的識(shí)別結(jié)果偏低,可能的原因是近紅外光譜包括的信息還不夠全面。如果對(duì)近紅外信息進(jìn)行補(bǔ)充,可能會(huì)得到更好的烤煙香型識(shí)別結(jié)果[9]。在對(duì)烤煙粉末進(jìn)行中紅外掃描時(shí),用到的量非常少,代表性不強(qiáng),另外中紅外光譜包含的致香成分信息也不清晰。本研究嘗試?yán)秒娮颖?electronic nose, EN)風(fēng)味分析儀獲取致香成分信息,然后將這些信息作為近紅外光譜數(shù)據(jù)的補(bǔ)充,實(shí)現(xiàn)近紅外和電子鼻數(shù)據(jù)融合,并基于新的融合數(shù)據(jù)實(shí)現(xiàn)烤煙香型的識(shí)別。
選取2018年—2019年清香型、中間香型、濃香型的煙葉樣本共401個(gè),其中清香型157個(gè),中間香型151個(gè),濃香型93個(gè)。401個(gè)樣本中隨機(jī)選取20%共80個(gè)樣本作為驗(yàn)證集,剩余的321個(gè)樣本作為建模集。
收集煙葉樣品,先進(jìn)行去梗、切絲等預(yù)處理,然后取約40 g煙絲在40 ℃條件下烘干、磨碎、過60目篩后獲得進(jìn)行近紅外掃描的實(shí)驗(yàn)樣品。煙葉NIR光譜數(shù)據(jù)采集的掃描條件設(shè)置如下:儀器選擇Thermo Fisher Antaris Ⅱ傅里葉變換近紅外光譜儀,分辨率為4 cm-1,掃描次數(shù)64次,光譜范圍為10 000~3 800 cm-1,在室溫下掃描。煙葉近紅外數(shù)據(jù)如圖1所示。由于10 000~8 000 cm-1光譜范圍對(duì)應(yīng)的信息量很小,因此在數(shù)據(jù)處理中直接刪除了這部分光譜數(shù)據(jù)。雖然刪除了部分?jǐn)?shù)據(jù),但剩余的近紅外光譜數(shù)據(jù)依然高達(dá)1 090維。
圖1 近紅外光譜
取3克煙葉粉末裝樣品瓶中,在Fox 4000電子鼻風(fēng)味分析儀上進(jìn)行電子鼻掃描,該傳感器包含18種不同的傳感器。傳感器信號(hào)的測(cè)量在以下環(huán)境條件下完成:空氣溫度20~22 ℃,空氣濕度30%~45%,單個(gè)測(cè)試測(cè)量窗口時(shí)間為120 s。煙葉電子鼻數(shù)據(jù)如圖2所示。在數(shù)據(jù)處理中取對(duì)應(yīng)時(shí)間為3~40 s的信息量大的數(shù)據(jù),電子鼻儀器有18種不同的傳感器,這樣總的數(shù)據(jù)維數(shù)達(dá)到了666維。
圖2 煙葉電子鼻數(shù)據(jù)
主成份分析法(principal component analysis, PCA)是常用的降維方法,可以把多維變量組合為少數(shù)幾維互不相關(guān)的變量,而且在降維過程,盡可能多保留了原變量的數(shù)據(jù)結(jié)構(gòu)特征。由于近紅外光譜數(shù)據(jù)和電子鼻數(shù)據(jù)都是高維數(shù)據(jù),因此利用PCA進(jìn)行數(shù)據(jù)降維[10]。
支持向量機(jī)分類算法(support vector classification,SVC)的核心內(nèi)容是在進(jìn)行建模分類過程中,構(gòu)建出一個(gè)最優(yōu)分類面,此最優(yōu)分類面可以將樣本正確分開,而且要使兩類的分類空隙最大。對(duì)于構(gòu)建最優(yōu)分類面過程即為求函數(shù)全局最優(yōu)解的過程。在利用支持向量機(jī)分類算法建立分類模型的過程中懲罰參數(shù)c是一個(gè)重要的影響參數(shù),對(duì)于建立的分類模型的準(zhǔn)確率和預(yù)報(bào)能力影響顯著[11]。在此選用徑向基核函數(shù),懲罰因子C取18。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)通過模擬生物神經(jīng)網(wǎng)絡(luò)信息處理機(jī)制來進(jìn)行信息處理,對(duì)于輸入和輸出關(guān)系復(fù)雜數(shù)據(jù),人工神經(jīng)網(wǎng)絡(luò)有比較好的非線性擬合能力。但人工神經(jīng)網(wǎng)絡(luò)在建模過程中往往出現(xiàn)“過擬合”,對(duì)外推預(yù)報(bào)結(jié)果不夠準(zhǔn)確[12]。
為了提高數(shù)據(jù)信噪比,對(duì)近紅外譜圖數(shù)據(jù)進(jìn)行一階導(dǎo)數(shù)和S-G平滑預(yù)處理。預(yù)處理結(jié)果如圖3所示。電子鼻數(shù)據(jù)不進(jìn)行預(yù)處理。
圖3 近紅外光譜數(shù)據(jù)一階導(dǎo)數(shù)圖
在數(shù)據(jù)處理中,近紅外光譜數(shù)據(jù)為1 090維,電子鼻數(shù)據(jù)為666維,兩種融合后數(shù)據(jù)維數(shù)更是高達(dá)1 756位。建模樣本數(shù)為321個(gè),變量數(shù)遠(yuǎn)大于樣本數(shù)。因此需要對(duì)數(shù)據(jù)進(jìn)行降維。降維方法是PCA。在PCA降維過程中,前20個(gè)PCA因子的累積貢獻(xiàn)率已經(jīng)超過99.99%,選擇了前20個(gè)PCA因子進(jìn)行建模和預(yù)報(bào)。
選取上述321個(gè)三種香型煙葉建模數(shù)據(jù)集樣本,首先用PCA算法對(duì)1 090維的近紅外光譜數(shù)據(jù)進(jìn)行降維,然后選取降維后的PCA因子,再建立支持向量機(jī)分類判別模型,最后用該模型對(duì)80個(gè)驗(yàn)證集樣本進(jìn)行預(yù)報(bào),驗(yàn)證模型的可靠性。基于降維后的前20個(gè)PCA因子建立的煙葉香型支持向量機(jī)分類模型建模和預(yù)報(bào)結(jié)果如表1所示?;贜IR數(shù)據(jù)的煙葉香型分類模型其建模準(zhǔn)確率雖然很高,達(dá)到了99.69%,但其預(yù)報(bào)準(zhǔn)確率偏低,只有80.00%,而且對(duì)于中間香型和濃香型的預(yù)報(bào)結(jié)果更低,只有72.14和73.33%。
表1 基于NIR數(shù)據(jù)的SVC模型準(zhǔn)確率
PCA算法對(duì)666維的電子鼻數(shù)據(jù)進(jìn)行降維,基于降維后的前20個(gè)PCA因子建立的煙葉香型支持向量機(jī)分類模型建模和預(yù)報(bào)結(jié)果如表2所示?;贓N數(shù)據(jù)的煙葉香型分類模型其建模準(zhǔn)確率較高,為了89.72%,預(yù)報(bào)準(zhǔn)確率很低,只有71.25%,和基于NIR模型的情況相似,也是對(duì)于中間香型和濃香型的預(yù)報(bào)結(jié)果差,只有68.97和53.33%。
表2 基于EN數(shù)據(jù)的SVC模型準(zhǔn)確率
PCA算法對(duì)1756維的近紅外和電子鼻融合數(shù)據(jù)進(jìn)行降維,基于降維后的前20個(gè)PCA因子建立的煙葉香型支持向量機(jī)分類模型建模結(jié)果如表3所示?;贜IR+EN融合數(shù)據(jù)的煙葉香型分類模型不僅建模準(zhǔn)確率較高,為96.26%,預(yù)報(bào)準(zhǔn)確精度也比較高,為83.75%。特別是對(duì)于中間香型和濃香型的預(yù)報(bào)結(jié)果和單一的NIR和單一的EN模型預(yù)報(bào)結(jié)果相比有明顯的提高,分別達(dá)到了82.76%和80.00%。
表3 基于NIR+EN融合數(shù)據(jù)的SVC模型準(zhǔn)確率
為了進(jìn)一步考察支持向量機(jī)算法的可行性和可靠性,進(jìn)行了ANN算法,對(duì)比兩者結(jié)果?;贜IR和EN融合數(shù)據(jù)降維后的前20個(gè)PCA因子建立的煙葉香型ANN分類判別模型的建模和預(yù)報(bào)結(jié)果如表4所示。ANN模型的建模準(zhǔn)確率高,超過了99%,但預(yù)報(bào)結(jié)果明顯的低,只有65%,明顯低于SVC算法,這是因?yàn)锳NN算法的過擬合缺點(diǎn)導(dǎo)致。
表4 基于NIR+EN融合數(shù)據(jù)的ANN模型準(zhǔn)確率
利用NIR和EN融合數(shù)據(jù)建立煙葉香型分類判別研究,無論是其建模結(jié)果準(zhǔn)確率,還是其預(yù)報(bào)結(jié)果準(zhǔn)確率都比較高,這對(duì)烤煙香型風(fēng)格的考察及對(duì)煙葉品質(zhì)的區(qū)分有著重要潛在應(yīng)用價(jià)值。對(duì)比基于NIR和EN融合數(shù)據(jù)的煙葉香型分類模型和僅僅基于NIE數(shù)據(jù)或僅僅基于EN數(shù)據(jù)的煙葉香型分類模型,雖然這三個(gè)模型的建模準(zhǔn)確率基本一致,但預(yù)報(bào)準(zhǔn)確率有這明顯的差別,特別是對(duì)于中間香型和濃香型這兩個(gè)類型,基于NIR和EN融合數(shù)據(jù)模型中間香型和濃香型的預(yù)報(bào)準(zhǔn)確率分別為82.75%和80.00%,明顯高于其他兩個(gè)模型不到74%的預(yù)報(bào)準(zhǔn)確率??赡艿脑蚴牵弘娮颖秋L(fēng)味分析儀對(duì)于影響中間香型和濃香型的煙葉致香成分感應(yīng)更加靈敏,捕獲的信息也更多,這些新的信息可以作為NIR數(shù)據(jù)信息的有利補(bǔ)充,可用于建立煙葉香型分類判別準(zhǔn)確率更高的模型。ANN算法比SVC算法結(jié)果差,可能的原因是ANN算法出現(xiàn)了過擬合現(xiàn)象。研究表明對(duì)于煙葉香型的判別,EN數(shù)據(jù)可以為NIR數(shù)據(jù)補(bǔ)充有用的信息,從而提高煙葉香型的判別準(zhǔn)確率,特別是判別中間香型和濃香型的準(zhǔn)確率,這為快速鑒別煙葉香型風(fēng)格提供支撐,為煙草系統(tǒng)的專業(yè)評(píng)吸人員提供輔助的鑒別方法。