摘要:對于卷煙工業(yè)企業(yè)而言,原料的選取非常關(guān)鍵。由于煙葉為農(nóng)產(chǎn)品,穩(wěn)定性不足,為了解決在判斷煙葉等級的過程中主觀因素影響大、穩(wěn)定性不高的問題,《模型集群分析—隨機(jī)森林方法在煙葉分類中的應(yīng)用》[1]一文提出思路,結(jié)合近紅外光譜數(shù)據(jù)與機(jī)器學(xué)習(xí)方法,探索如何對近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理,以最有效的提高機(jī)器學(xué)習(xí)方法提高對煙葉進(jìn)行分類的準(zhǔn)確性。本文結(jié)合較為常用的機(jī)器學(xué)習(xí)算法以及近紅外光譜數(shù)據(jù),探討數(shù)據(jù)預(yù)處理方法對于使用機(jī)器學(xué)習(xí)分類方法開展煙葉分類工作的影響,探討使用何種數(shù)據(jù)預(yù)處理方法對近紅外光譜的煙葉數(shù)據(jù)能夠產(chǎn)生最有效的結(jié)果,方便企業(yè)在后續(xù)使用這些數(shù)據(jù)進(jìn)行煙葉分類、煙葉選擇時,提升工作效率,最終企業(yè)能夠提升基于自身特色的煙葉選擇能力。
關(guān)鍵詞:近紅外光譜;煙葉分類;數(shù)據(jù)預(yù)處理;機(jī)器學(xué)習(xí)
中圖分類號:TB 文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.16723198.2025.16.073
0 引言
對于卷煙工業(yè)企業(yè)而言,原料是核心資源,煙葉的質(zhì)量在相當(dāng)程度上是決定企業(yè)發(fā)展,影響卷煙品牌獲得成功的關(guān)鍵要素之一。原料選得好不好、原料用得對不對直接影響卷煙產(chǎn)品的質(zhì)量好壞。按照行業(yè)對于卷煙品牌發(fā)展的思路,圍繞品牌配置資源將是煙草行業(yè)發(fā)展的主要方向。在此過程中,品牌配置的原料資源是關(guān)鍵之一。
1 研究背景與現(xiàn)狀
對于各工業(yè)企業(yè)而言,不斷追求獲得更多優(yōu)質(zhì)原料、提高原料的普遍質(zhì)量是所有煙草人的共同追求,但是從客觀上講,優(yōu)質(zhì)原料的數(shù)量有限,因此,對于原料的判斷和確定顯得非常重要。對于各個工業(yè)企業(yè)而言,為了適配不同品牌的原料需求,需要有其自己獨(dú)特的原料選擇和判斷方法,以提高原料選擇的精準(zhǔn)度。因此,選料方法成為各個工業(yè)企業(yè)在形成自身特色產(chǎn)品時所考慮的重要因素。對原料進(jìn)行分類和確定的效率,在各個品牌發(fā)展過程中,將發(fā)揮越來越重要的作用。
多年來,近紅外光譜分析技術(shù)在煙草行業(yè)被廣泛應(yīng)用在煙葉的主要化學(xué)成分、在線控制、葉組配方等分析中,由于其快速、無損的特點(diǎn),可以有效地提高測定煙葉化學(xué)成分的速度,減少人力投入,提高生產(chǎn)力[29]。目前,在煙草行業(yè)中,煙葉等級劃分是評判煙葉質(zhì)量的主要手段,而分級判斷主要根據(jù)煙葉的外觀特征[10]。目前,我國在煙草行業(yè)內(nèi)部,對于怎么劃分和確定煙葉等級,是根據(jù)我國的煙葉等級的品質(zhì)規(guī)定來劃分的,主要是依賴于人工分級,而對標(biāo)準(zhǔn)的確定則更多是依賴于人的感官判斷,通過對照標(biāo)準(zhǔn)規(guī)定來對煙葉劃分等級。這種方式在相當(dāng)程度上依靠人的主觀判定,存在一定程度的不穩(wěn)定性,效率較低。同時,由于人的感官標(biāo)準(zhǔn)程度不一,受客觀因素影響存在波動,可復(fù)制性也有所欠缺。為此,《模型集群分析-隨機(jī)森林方法在煙葉分類中的應(yīng)用》已經(jīng)開始探討利用機(jī)器學(xué)習(xí)方法結(jié)合近紅外光譜的技術(shù)對煙葉等級進(jìn)行建模,通過模型集群分析-隨機(jī)森林(MPA-RF)方法,取得了較好的分類結(jié)果。在這個結(jié)果上,本項目進(jìn)行了數(shù)據(jù)和方法上的創(chuàng)新性研究,通過研究對近紅外光譜數(shù)據(jù)的處理,使得運(yùn)用近紅外光譜進(jìn)行煙葉等級分類的工作可以更加順暢。在經(jīng)過預(yù)處理程序后,對這些煙葉近紅外光譜數(shù)據(jù)使用多種機(jī)器學(xué)習(xí)方法進(jìn)行分類的準(zhǔn)確性有了明顯提升。這有利于企業(yè)開展基于自身特色的煙葉選擇工作,可以為工業(yè)企業(yè)構(gòu)建自己的獨(dú)特性提供幫助與支持,提高機(jī)器學(xué)習(xí)方法對于煙葉分類工作的準(zhǔn)確度。
2 試驗(yàn)材料和方法
2.1 項目步驟
首先,通過近紅外光譜儀進(jìn)行煙葉原料進(jìn)行光譜數(shù)據(jù)采集。然后整理各等級煙葉樣本的數(shù)據(jù),通過對數(shù)據(jù)進(jìn)行預(yù)處理,整理出幾套經(jīng)過預(yù)處理的數(shù)據(jù)集。再對各套數(shù)據(jù)集進(jìn)行訓(xùn)練集和驗(yàn)證集的劃分,運(yùn)用SVM、決策樹以及隨機(jī)森林這3種較為常見的機(jī)器學(xué)習(xí)方法,對數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證。最后通過比對訓(xùn)練以及驗(yàn)證的結(jié)果,分析各種數(shù)據(jù)預(yù)處理的效果,探索對近紅外光譜數(shù)據(jù)最有效的數(shù)據(jù)預(yù)處理及機(jī)器學(xué)習(xí)方法。
2.2 數(shù)據(jù)集
選取國內(nèi)梅州五華地區(qū)煙葉的6種不同等級的初烤煙樣本(B1F,B2F,B3F,C2F,C3F,X2F,由廣東中煙工業(yè)有限責(zé)任公司提供),每片煙葉均勻取樣,對于每個取出來的煙都要進(jìn)行近紅外光譜掃描,每個點(diǎn)掃描1條光譜。對總共528個樣本進(jìn)行劃分,其中422個為訓(xùn)練集,106個為測試集。
2.3 機(jī)器學(xué)習(xí)方法
2.3.1 支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)[11]是一種常用的分類工具,能夠結(jié)合統(tǒng)計學(xué)習(xí)優(yōu)化方法和核函數(shù)方法,通過最小化訓(xùn)練誤差和測試錯誤,找到最優(yōu)的分類超平面。常用的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、sigmoid核函數(shù)和徑向基核函數(shù)(RBF核函數(shù))[12]。
2.3.2 決策樹
決策樹是一種預(yù)測模型,通過構(gòu)建樹狀結(jié)構(gòu),將對象屬性與對象值之間建立映射關(guān)系,用于分類和回歸分析[13]。
2.3.3 隨機(jī)森林
隨機(jī)森林(Random Forest,RF)是一種集成學(xué)習(xí)算法,通過Bootstrap方法生成多個決策樹模型,并對模型進(jìn)行投票,最終得出分類結(jié)果[1415]。
3 數(shù)據(jù)預(yù)處理
3.1 小波變換
小波變換(wavelet transform,WT)小波變換是一種信號時頻分析工具,能夠根據(jù)頻率動態(tài)調(diào)整分析窗口,適用于非平穩(wěn)信號的分析和局部特征提取。
3.2 歸一化及標(biāo)準(zhǔn)化
3.2.1 歸一化
是為了將數(shù)據(jù)映射到0~1之間,去掉量綱的過程,讓計算更加合理,不會因?yàn)榱烤V問題導(dǎo)致1米與100mm產(chǎn)生不同。
3.2.2 標(biāo)準(zhǔn)化
所取用的數(shù)據(jù)在經(jīng)過了標(biāo)準(zhǔn)化后能夠使得每個特征的平均值都為0,標(biāo)準(zhǔn)差變?yōu)?,可以被廣泛的使用在許多機(jī)器學(xué)習(xí)算法中(例如:支持向量機(jī)、邏輯回歸和類神經(jīng)網(wǎng)絡(luò))。
從圖中可以看出,歸一化和標(biāo)準(zhǔn)化后大幅度弱化了差異性較小的光譜波段所展現(xiàn)出的差異性。
3.3 二階差分
當(dāng)間距相等時,用下一個數(shù)值,減去上一個數(shù)值,就叫“一階差分”,做兩次相同的動作,即再在一階差分的基礎(chǔ)上用后一個數(shù)值再減上一個數(shù)值一次,就叫“二階差分”。
當(dāng)自變量從x變到x+1時,函數(shù)y=y(x)一階差分的差分稱為二階差分。
Δ(Δy(x))=Δ(y(x+1)-y(x))=Δy(x+1)-Δy(x)
=(y(x+2)-y(x+1))-(y(x+1)-y(x))
=y(x+2)-2y(x+1)+y(x)
從圖示可以看出,通過二階差分,讓數(shù)據(jù)序列更平滑,同時可以消除數(shù)據(jù)中存在的噪聲,讓數(shù)據(jù)呈現(xiàn)極為規(guī)律的對稱形狀。
4 模型訓(xùn)練
使用SVM、決策樹以及隨機(jī)森林的方式分別對經(jīng)過預(yù)處理(4種方法)的數(shù)據(jù)進(jìn)行模型的訓(xùn)練,看最終訓(xùn)練結(jié)果并對結(jié)果進(jìn)行分析判斷。由于小波變換是我們?nèi)粘9ぷ髦袑浖t外光譜進(jìn)行預(yù)處理的一般方法,因此可以把其視為原始數(shù)據(jù)。
4.1 SVM
使用SVM對小波變換、標(biāo)準(zhǔn)化、歸一化以及二階差分的數(shù)據(jù)進(jìn)行分析,得出的結(jié)果分別是57.55%、54.37%、53.40%以及99.03%。明顯看出使用了二階差分的預(yù)處理對煙葉數(shù)據(jù)分類成效明顯,準(zhǔn)確性有了顯著提升。
由于SVM是較為常用的分類工具,因此可以作為其他分類的對照組進(jìn)行對比,以下的決策樹和隨機(jī)森林均會與SVM進(jìn)行比對。
4.2 決策樹
使用決策樹對小波變換、標(biāo)準(zhǔn)化、歸一化以及二階差分的數(shù)據(jù)進(jìn)行分析,得出的結(jié)果分別是46.23%、97.09%、52.43%以及99.03%。對于決策樹而言,標(biāo)準(zhǔn)化和二階差分的數(shù)據(jù)預(yù)處理均有不錯的表現(xiàn)。
4.3 隨機(jī)森林
使用隨機(jī)森林對小波變換、標(biāo)準(zhǔn)化、歸一化以及二階差分的數(shù)據(jù)進(jìn)行分析,得出的結(jié)果分別是53.77%、61.17%、56.31%以及98.06%。對于隨機(jī)森林而言,二階差分的數(shù)據(jù)預(yù)處理有不錯的表現(xiàn)。
4.4 分析比對
從上表可以看出,二階差分的數(shù)據(jù)預(yù)處理方法在SVM、決策樹以及隨機(jī)森林三種機(jī)器學(xué)習(xí)方法中均取得了比較好的結(jié)果,以決策樹為例分析經(jīng)過了二階差分優(yōu)化后的數(shù)據(jù)集,在使用機(jī)器學(xué)習(xí)模型訓(xùn)練后的測試集精準(zhǔn)度、召回率、準(zhǔn)確率都有了大幅度提升。
5 結(jié)束語
對于卷煙工業(yè)企業(yè)而言,原料是非常重要的一種資源,因此,原料的評判能力非常關(guān)鍵。準(zhǔn)確、高效地進(jìn)行原料等級的判斷,是很多卷煙工業(yè)企業(yè)未來或者是現(xiàn)在能夠進(jìn)行高質(zhì)量發(fā)展的重要能力之一。能夠快速、準(zhǔn)確地識別出符合企業(yè)特色的煙葉原料是企業(yè)能夠構(gòu)建自身競爭力的重要基礎(chǔ)工作。本次工作通過對目前常用的近紅外光譜外數(shù)據(jù)使用二階差分的數(shù)據(jù)預(yù)處理方法,使得不同的機(jī)器學(xué)習(xí)方法均實(shí)現(xiàn)了對梅州五華產(chǎn)區(qū)6種等級煙葉高達(dá)99%左右的分類準(zhǔn)確率??梢詾橄码A段對全國產(chǎn)區(qū)、全等級煙葉進(jìn)行全面高效分類工作起到一定的參考,并為企業(yè)運(yùn)用人工智能技術(shù)在實(shí)際生產(chǎn)經(jīng)營中提供一定的實(shí)踐經(jīng)驗(yàn)。
主要參考文獻(xiàn)
[1]譚觀萍,賓俊,范偉,等.模型集群分析——隨機(jī)森林方法在煙葉分類中的應(yīng)用[J].江西農(nóng)業(yè)學(xué)報,2017,29(1):6974.
[2]Shao Y N,He Y,Wang Y Y.A new approach to discriminatevarieties of tobacco using vis /near infrared spectra [J].European Food Research and Technology,2007,224(5):591596.
[3]Le J M,Chen Y,Ding Y.Nearinfrared spectroscopic prediction of composition of a series of petrochenical process streams for aromatics production[J].Guizhou Agric Sci,2005,33(3):6263.
[4]Huang Z,Turner B J,Dury S J.Estimating foliage nitrogen concentration from HYMAP data using continum removal analysis[J].Remote Sens Environ,2004,93(1):1829.
[5]蔣錦峰,李莉,趙明月.應(yīng)用近紅外檢測技術(shù)快速測定煙葉主要化學(xué)成分[J].中國煙草學(xué)報,2006,12(2):812.
[6]張雅娟,馬翔.近紅外漫反射線性加和光譜在煙葉復(fù)烤配方中的應(yīng)用[J].光譜學(xué)與光譜分析,2011,31(2):390393.
[7]邵平,王鈞,王星麗,等.近紅外漫反射光譜技術(shù)快速無損識別靈芝和云芝提取物研究[J].核農(nóng)學(xué)報,2015,(3):499505.
[8]孫通,吳宜青,許朋,等.近紅外光譜聯(lián)合CARSPLSLDA的山茶油檢測[J].核農(nóng)學(xué)報,2015,(5):925931.
[9]李勇,魏益民,王鋒.影響近紅外光譜分析結(jié)果準(zhǔn)確性的因素[J].核農(nóng)學(xué)報,2005,(3):236240.
[10]李紅梅.基于線性回歸和SVM 的煙葉質(zhì)量分析及等級預(yù)測模型[D].昆明:昆明理工大學(xué),2013:89.
[11]Liang Y.The expand and application research of SVM classifier[J].Hunan University,2008,(9):1728.
[12]Zheng H.The support vector machine method investigate[J].Northwestern University,2010,(6):1016.
[13]曹賽玉.幾種決策概率模型在現(xiàn)實(shí)生活中的應(yīng)用.理論月刊,2006,(5):9193.
[14]Breiman LRandom forests [J].Machine Learning,2001,45(1):532.
[15]Zhang G Y,Zhang C X,Zhang J S.Outofbag estimation of the optimal hyperparameter in subbag ensemble method[J].Communications in StatisticsSimulation and Computation,2010,39(10):18771892.