摘要" 為探究應(yīng)用近紅外光譜技術(shù)建立的模型對雪茄鮮煙葉部位等級的識別效果,以雪茄鮮煙葉部位等級識別模型為研究對象,選取634個雪茄鮮煙葉樣本數(shù)據(jù)作為訓(xùn)練集,構(gòu)建包括PLS-DA、隨機(jī)森林和KNN等機(jī)器學(xué)習(xí)分類模型,并基于Stacking方法構(gòu)建單個部位等級識別融合模型,以273個雪茄鮮煙葉樣本數(shù)據(jù)作為測試集評估融合模型的識別效果。結(jié)果表明,在3種基礎(chǔ)模型中,PLS-DA模型在測試集上的預(yù)測效果最佳,平均準(zhǔn)確率和F1均值分別為0.707和0.672。融合模型在測試集上的平均準(zhǔn)確率和F1均值分別為0.756和0.752,且融合模型對雪茄鮮煙葉各部位等級的識別效果均較好。綜合來看,基于近紅外光譜數(shù)據(jù)構(gòu)建的雪茄鮮煙葉部位等級融合模型具有較好的識別效果,為雪茄鮮煙葉部位等級的快速測定提供參考。
關(guān)鍵詞" 近紅外光譜;雪茄鮮煙葉;部位等級;模型;分類效果
中圖分類號" O657.33;S572 """文獻(xiàn)標(biāo)識碼" A """文章編號" 1007-7731(2025)05-0023-05
DOI號" 10.16377/j.cnki.issn1007-7731.2025.05.006
Classification of cigar fresh tobacco positive grade based on near infrared technology
DUAN Jie ZHANG Cheng ZHAO Gang XIONG Tiane ZHOU Houfa HE Yuansheng"" XU Jie
ZHANG Yongjun YANG Honghui HUANG Jinsheng LI Benhui
(Yunnan Tobacco Lincang Area Company, Lincang 677099, China)
Abstract" In order to explore the identification effect of the model established by near infrared spectroscopy on cigar fresh tobacco position grade, the cigar fresh tobacco position grade recognition model was selected as the research object, 634 cigar fresh tobacco sample data were selected as the training set, and machine learning classification models including PLS-DA, Random Forest and KNN were constructed. A fusion model for the rank recognition of individual positions was constructed based on the Stacking method. 273 fresh cigar leaf samples were used as the test set to evaluate the recognition effect of the fusion model. The results showed that among the 3 basic models, the PLS-DA model had the best prediction effect on the test set, and the average accuracy and F1 mean were 0.707 and 0.672, respectively. The average accuracy and F1 mean of the fusion model on the test set were 0.756 and 0.752, respectively, and the fusion model had a good effect on the position grade recognition of each part of fresh cigar tobacco. In summary, the cigar leaf position grade fusion model based on the near infrared spectral data had a good recognition effect. The results provide a reference for the rapid determination of cigar fresh tobacco position grade.
Keywords" near infrared spectroscopy; cigar fresh tobacco; position grade; model; classification effect
南方地區(qū)以福建、廣東和云南等地?zé)煵莘N植范圍較廣[1]。各地區(qū)種植的煙草主要用于生產(chǎn)卷煙,雪茄煙的生產(chǎn)相對較少。近年來,隨著部分企業(yè)開始關(guān)注高端煙草產(chǎn)品,雪茄煙產(chǎn)業(yè)逐漸興起。與卷煙不同,雪茄鮮煙葉采收后的加工步驟并非烘烤而是晾制。其晾制成功取決于兩個基本的環(huán)境條件:晾房內(nèi)環(huán)境溫度和相對濕度。晾制過程需密切注意濕度,根據(jù)煙葉變色失水情況,人為調(diào)控、勤查勤管,通過調(diào)整煙桿密度、通風(fēng)排濕窗的開閉和晾制桿位置以及加熱等措施進(jìn)行合理調(diào)控[2]。根據(jù)雪茄煙葉部位和等級的不同,溫濕度要求和所需晾制時間存在差異,因此在進(jìn)行晾制前,需根據(jù)煙葉部位或等級進(jìn)行分類,便于后續(xù)晾制過程順利進(jìn)行。目前,近紅外光譜儀正逐漸從實驗室靜態(tài)檢測轉(zhuǎn)向手持式移動設(shè)備,這種趨勢主要與手持式近紅外光譜儀價格實惠、攜帶方便,方便在野外和現(xiàn)場進(jìn)行分析有關(guān),該光譜儀在煙草、食品和農(nóng)產(chǎn)品等領(lǐng)域的現(xiàn)場檢測應(yīng)用中扮演著重要角色[3-5]。此前,雪茄鮮煙葉部位和等級的分類主要依靠專業(yè)人員判斷,該方式易受個人主觀因素影響,識別效率較低??焖佟?zhǔn)確地區(qū)分雪茄鮮煙葉部位和等級,有利于后續(xù)加工過程的順利進(jìn)行,研究雪茄鮮煙葉部位等級快速識別方法對完善其后續(xù)加工過程具有重要意義。劉藝琳等[6]基于近紅外光譜技術(shù)建立了可靠性較好的煙葉等級識別模型。趙高坤等[7]應(yīng)用近紅外光譜技術(shù)分析不同產(chǎn)地雪茄煙葉相似性,發(fā)現(xiàn)云南玉溪、文山和普洱地區(qū)之間的煙葉相似性高。梁瑩等[8]基于近紅外光譜技術(shù)和隨機(jī)森林算法建立了不同病害類別的訓(xùn)練模型,該模型的分類準(zhǔn)確率、靈敏度較高,性能較優(yōu)異。目前,鮮煙葉等級的識別主要是基于近紅外光譜技術(shù)或圖像識別技術(shù)對其進(jìn)行識別,但基于近紅外光譜技術(shù)并應(yīng)用機(jī)器學(xué)習(xí)模型的雪茄鮮煙葉部位的等級識別方面的研究相對較少。本研究基于雪茄鮮煙葉的近紅外光譜數(shù)據(jù),應(yīng)用機(jī)器學(xué)習(xí)方法建立雪茄鮮煙葉部位等級識別模型,并分析該模型的分類識別效果,為雪茄鮮煙葉部位等級的快速檢測提供參考。
1 材料與方法
1.1 試驗材料與儀器
供試雪茄品種為云雪1號,鮮煙葉于2024年在云南臨滄市采集。使用的近紅外光譜采集設(shè)備為AURA手持式近紅外光譜儀(德國Carl Zeiss公司),波長點(diǎn)數(shù)701個,波長950~1 650 nm,光柵陣列檢測器。
1.2 測定方法
1.2.1 取樣規(guī)格 根據(jù)實際情況,將鮮煙葉的部位分為上部(B)、中部(C)和下部(X)3個部位,其中各部位的鮮煙葉分為1、2和n共3個等級,分別對上述各部位和等級煙葉進(jìn)行取樣100片。雪茄鮮煙葉部位等級判定結(jié)果均由專家提供。雪茄鮮煙葉的近紅外光譜樣本和部位等級數(shù)據(jù)按照分層抽樣的方式進(jìn)行劃分,訓(xùn)練集與測試集樣本數(shù)量的比例為7∶3。
1.2.2 樣品預(yù)處理 常見的近紅外光譜預(yù)處理方法通常有多元散射校正、標(biāo)準(zhǔn)正態(tài)變量校正、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、矢量歸一化和波長選擇等[9-11]。采用了標(biāo)準(zhǔn)正態(tài)變量校正和一階導(dǎo)數(shù)結(jié)合的方法處理雪茄鮮煙葉的近紅外光譜數(shù)據(jù),取相同部位等級的光譜均值作為該類光譜的代表值。
1.2.3 光譜測定 利用原位采集法使用手持式近紅外設(shè)備采集雪茄鮮煙葉光譜數(shù)據(jù),在雪茄鮮煙葉表面直接進(jìn)行光譜掃描,原位采集前需對儀器進(jìn)行背景校正,以防測定的光譜發(fā)生偏移[12]。應(yīng)確保雪茄鮮煙葉表面干凈、平整且無雜質(zhì)或污物,否則可能影響獲取光譜信號。如圖1所示,采集過程中,應(yīng)將手持式近紅外光譜儀對準(zhǔn)待測樣品表面,確保二者間保持適當(dāng)?shù)木嚯x。根據(jù)雪茄鮮煙葉的主葉脈,將煙葉分為左右兩部分,分別連續(xù)掃描主葉脈兩側(cè)自葉尖至葉基的煙葉表面,此時會生成2個近紅外光譜,取其平均值作為該雪茄鮮煙葉的最終近紅外光譜代表值。
1.2.4 模型構(gòu)建 運(yùn)用偏最小二乘判別分析(Partial Least Squares Discriminant Analysis,PLS-DA)、K近鄰(K-Nearest Neighbors,KNN)和隨機(jī)森林(Random Forest,RF)模型進(jìn)行模型訓(xùn)練。
1.2.5 模型預(yù)測效果 通過混淆矩陣預(yù)測模型效果,其是一個N×N的方陣(N為類別數(shù)量),行代表樣本的真實類別,列代表模型的預(yù)測結(jié)果,對角線元素表示各類別被正確分類的樣本數(shù)量,非對角線元素則表示被誤判的樣本數(shù)量。
1.3 樣本信息
雪茄鮮煙葉樣本共907個,其中634個樣本用于構(gòu)建雪茄鮮煙葉部位等級識別模型,273個樣本用于測試雪茄鮮煙葉部位等級識別模型的分類效果。其中,用于模型構(gòu)建的訓(xùn)練集樣本和用于模型評估的測試集樣本為不同部位等級煙葉的訓(xùn)練集和測試集樣本合并,具體煙葉樣本數(shù)量見表1。
2 結(jié)果與分析
2.1 雪茄鮮煙葉部位等級識別模型的構(gòu)建
2.1.1 訓(xùn)練集與測試集投影 使用主成分分析將訓(xùn)練集與測試集數(shù)據(jù)進(jìn)行降維并投影至二維平面,其分布如圖2所示。經(jīng)降維后的訓(xùn)練集和測試集數(shù)據(jù)分布基本一致,表明測試集的選取能夠代表完整數(shù)據(jù)集。
2.1.2 樣品預(yù)處理 采用標(biāo)準(zhǔn)正態(tài)變量校正和一階導(dǎo)數(shù)結(jié)合的預(yù)處理方法,將相同部位等級的光譜取均值作為該類光譜的代表進(jìn)行展示,原始光譜和預(yù)處理后光譜的對比結(jié)果如圖3所示。光譜經(jīng)標(biāo)準(zhǔn)正態(tài)變量校正和一階導(dǎo)數(shù)協(xié)同處理后,其基線漂移明顯消除且吸收峰間的差異顯著提高。
2.1.3 模型構(gòu)建 利用網(wǎng)格搜索的方法對上述3種基礎(chǔ)模型進(jìn)行超參數(shù)優(yōu)化,3種基礎(chǔ)模型在測試集上的平均準(zhǔn)確率≥0.590、F1均值≥0.585。其中,PLS-DA模型在測試集上的平均準(zhǔn)確率和F1均值最高,分別達(dá)0.707和0.672;RF模型的平均準(zhǔn)確率和F1均值次之,分別為0.696和0.695;KNN模型在測試集上的平均準(zhǔn)確率和F1均值分別為0.590和0.585。說明PLS-DA模型在測試集上的測試結(jié)果最佳(表2)。
2.2 雪茄鮮煙葉部位等級識別模型預(yù)測效果
由圖4可知,PLS-DA模型的分類表現(xiàn)較佳,但其對部位等級C-2的雪茄鮮煙葉分類效果不理想,因此考慮應(yīng)用Stacking方法將上述3種模型進(jìn)行融合,使融合模型對各部位等級的煙葉分類均達(dá)到較好的效果。
利用Stacking方法將上述3種模型進(jìn)行融合,得到雪茄鮮煙葉部位等級識別融合模型,其在測試集上的預(yù)測效果如圖5所示,其在測試集上的測試結(jié)果如表3所示。融合模型對于雪茄鮮煙葉各部位等級的識別效果較好,其中,融合模型對于部位等級B-n的雪茄鮮煙葉識別效果最佳,準(zhǔn)確率和召回率分別達(dá)0.853和0.967。該模型在測試集上的平均準(zhǔn)確率和F1均值分別為0.756和0.752,對于部位等級C-2的雪茄鮮煙葉分類效果遠(yuǎn)優(yōu)于PLS-DA模型,且對各部位等級煙葉的分類效果優(yōu)于3種基礎(chǔ)模型。
3 結(jié)論與討論
本研究使用手持式近紅外光譜儀采集雪茄鮮煙葉的光譜信息,通過標(biāo)準(zhǔn)正態(tài)變量校正和一階導(dǎo)數(shù)的預(yù)處理方法對光譜數(shù)據(jù)進(jìn)行處理,基于機(jī)器學(xué)習(xí)中的PLS-DA、KNN和RF 3種基礎(chǔ)模型建立雪茄鮮煙葉部位等級識別模型,并利用Stacking方法將上述模型進(jìn)行融合,得到的融合模型在測試集上的平均準(zhǔn)確率和F1均值分別為0.756和0.752。說明基于手持式近紅外光譜數(shù)據(jù)與機(jī)器學(xué)習(xí)模型建立雪茄鮮煙葉部位等級分類模型的方法具有可行性。
目前,關(guān)于鮮煙葉等級分類的研究主要集中在鮮煙葉部位的分類,涉及雪茄鮮煙葉部位等級分類的研究較少。孫利等[13]利用近紅外光譜技術(shù),采用SNV+FD預(yù)處理算法和CARS特征波長選擇算法建立的煙葉品種判別模型效果最佳。郝賢偉等[14]使用偏最小二乘法等數(shù)據(jù)處理方法建立了片煙常規(guī)化學(xué)成分、香型、部位等的近紅外光譜預(yù)測模型,結(jié)果表明,該模型預(yù)測準(zhǔn)確率較高,且預(yù)測結(jié)果與感官評吸結(jié)果一致性較高。楊睿等[15]基于近紅外光譜與圖像識別技術(shù)建立了近紅外光譜判別、圖像判別等模型,其中近紅外光譜模型對煙葉成熟度識別正確率較高。本研究利用Stacking方法將PLS-DA、KNN和RF 3種基礎(chǔ)分類模型進(jìn)行融合,相比PLS-DA模型,融合模型對雪茄鮮煙葉部位等級C-2的分類效果較好,對各部位等級煙葉的分類均具有較高的準(zhǔn)確率,對雪茄鮮煙葉部位等級的分類識別具有較高的應(yīng)用價值。
綜上,本研究提出的雪茄鮮煙葉部位等級識別融合模型可實現(xiàn)雪茄鮮煙葉部位等級的快速識別,其在測試集上的平均準(zhǔn)確率和F1均值分別為0.756和0.752,為雪茄鮮煙葉的收購和后續(xù)雪茄煙智能化晾制的參數(shù)調(diào)控提供參考。
參考文獻(xiàn)
[1] 王彥亭,謝劍平,李志宏. 中國煙草種植區(qū)劃[M]. 北京:科學(xué)出版社,2010.
[2] 高婭北,鐘秋,王松峰,等. 雪茄茄衣晾制過程中煙葉顏色和含水量變化及其相關(guān)分析[J]. 中國煙草科學(xué),2019,40(2):57-63,72.
[3] 胡建軍,馬明,李耀光,等. 煙葉主要化學(xué)指標(biāo)與其感官質(zhì)量的灰色關(guān)聯(lián)分析[J]. 煙草科技,2001,34(1):3-7.
[4] 褚小立. 化學(xué)計量學(xué)方法與分子光譜分析技術(shù)[M]. 北京:化學(xué)工業(yè)出版社,2011.
[5] 湯朝起,王平,竇玉青,等. 河南烤煙主要化學(xué)成分與吸食品質(zhì)的關(guān)系[J]. 中國煙草科學(xué),2009,30(5):41-45,49.
[6] 劉藝琳,張海燕,彭海根,等. 應(yīng)用近紅外光譜判別煙葉等級模型的可靠性及化學(xué)成分特征分析[J]. 光譜學(xué)與光譜分析,2020,40(10):3260.
[7] 趙高坤,李嘉辰,吳玉萍,等. 應(yīng)用近紅外光譜分析不同產(chǎn)地雪茄煙葉的相似性[J]. 光譜學(xué)與光譜分析,2024,44(11):3195-3198.
[8] 梁瑩,馬琨,張馨予,等. 基于近紅外光譜和隨機(jī)森林的煙葉病害種類識別[J]. 激光與光電子學(xué)進(jìn)展,2024,61(15):362-369.
[9] 尼珍,胡昌勤,馮芳. 近紅外光譜分析中光譜預(yù)處理方法的作用及其發(fā)展[J]. 藥物分析雜志,2008,28(5):824-829.
[10] 褚小立,袁洪福,陸婉珍. 近紅外分析中光譜預(yù)處理及波長選擇方法進(jìn)展與應(yīng)用[J]. 化學(xué)進(jìn)展,2004,16(4):528-542.
[11] 王欣. 近紅外分析中光譜預(yù)處理方法的研究與應(yīng)用進(jìn)展[J]. 科技資訊,2013,11(15):2.
[12] 蔡健榮,黃楚鈞,馬立鑫,等. 一維卷積神經(jīng)網(wǎng)絡(luò)的手持式可見/近紅外柑橘可溶性固形物含量無損檢測系統(tǒng)[J]. 光譜學(xué)與光譜分析,2023,43(9):2792-2798.
[13] 孫利,張毅,孟廣云,等. 基于近紅外光譜的醇化雪茄煙葉品種判別模型研究[J]. 天津農(nóng)業(yè)科學(xué),2024,30(4):82-90.
[14] 郝賢偉,黃文勇,徐志強(qiáng),等. 基于近紅外光譜技術(shù)的云南片煙綜合質(zhì)量評價[J]. 中國煙草科學(xué),2022,43(2):58-63.
[15]楊睿,賓俊,蘇家恩,等. 基于近紅外光譜與圖像識別技術(shù)融合的煙葉成熟度的判別[J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2021,47(4):406-411, 418.
(責(zé)任編輯:吳思文)