* *
(1.陜西中煙工業(yè)有限責(zé)任公司,寶雞 721013;2.中國農(nóng)業(yè)大學(xué),北京 100193)
香精香料具有改善卷煙吸味品質(zhì),賦予卷煙特征香氣的作用,是構(gòu)成卷煙品牌風(fēng)格和保證卷煙產(chǎn)品質(zhì)量的重要因素。目前煙用香精香料質(zhì)量分析方法主要有理化指標測定(相對密度、折光系數(shù)、揮發(fā)分總量、酸值、乙醇、丙二醇、丙三醇)與四類指標(外觀、混溶度、香氣與香味質(zhì)量)感官評價兩大類方法。這些檢測方法技術(shù)要求高、涉及分析儀器多,且過程非常繁瑣,檢測周期長、允差范圍較大和重復(fù)性較差;煙草企業(yè)通常需要的香精香料品種繁多,且香精香料質(zhì)量受到原料、加工等多種因素的影響,加上香料的成分通常又過于復(fù)雜,這給原料管理和質(zhì)量保證造成極大的困難,因此,香精香料種類現(xiàn)場快速識別對于原料確認和卷煙質(zhì)量保證具有重要的意義。
近紅外光譜技術(shù)具有速度快、無損、無前處理、成本低、樣品損耗量少等特點,非常適合產(chǎn)品質(zhì)量現(xiàn)場分析,已廣泛應(yīng)用于煙草行業(yè)的諸多領(lǐng)域,如在煙草化學(xué)指標測定、產(chǎn)地溯源、品種識別、葉片部位和等級鑒定等方面,但在煙用香精香料質(zhì)量分析上僅有個別定量模型分析的報道。由于近紅外光譜特征峰較寬,重疊嚴重,指紋圖譜特征性不夠明顯,對復(fù)雜樣品辨識度不足。在香精香料樣品中,主要是乙醇、丙二醇等溶劑,天然香氣成分含量通常在5%以下,要實現(xiàn)較大種類低含量香精香料的分類識別,無論是分析技術(shù)本身還是模式識別算法均存在較大困難。
監(jiān)督模式識別算法包括k最近鄰法[1]、貝葉斯分類器、軟獨立建模聚類分析(Soft Independent Modelling of Class Analogies,SIMCA)、線性判別分析(Linear Discriminant Analysis, LDA)、非負矩陣分解[2]等。對線性不可分體系,可采用支持向量機、神經(jīng)網(wǎng)絡(luò)分類器、隨機森林等算法用于解決非線性分類問題,還有些新改進模式識別算法[3]主要是解決收斂過程慢、過程調(diào)試參數(shù)多的問題。目前較為熱門的模式識別算法有最優(yōu)路徑森林算法(Optimal-path Forest)[4]、基于規(guī)則深度分類法(Deep Rule-Based Classifier, DRB)[5]等?;谝?guī)則深度分類法是一種新型的深度學(xué)習(xí)分類器,與傳統(tǒng)的分類算法不同,其無需設(shè)置多個參數(shù),通過自組織學(xué)習(xí)并建立“類別云”,可有效地對未知樣品進行分類。在遙感方面不同屬性場地、手寫字識別準確率均較好于傳統(tǒng)模式識別方法。
綜上所述,本實驗采用DRB算法結(jié)合近紅外光譜技術(shù)對57類715個香精香料進行種類識別方法研究,并與SIMCA模型結(jié)果進行了比較。
成品煙用香精香料進廠時,根據(jù)行業(yè)抽樣的標準[6]抽取香精香料并將其按行業(yè)標準進行存儲[7]。共收集715個批次的樣品,其中大于5批次的樣品共57類。潤寶包括潤寶-B和潤寶-C,歸為一類的緣由在于使用ICR-FT-MS(傅里葉變換離子回旋共振質(zhì)譜儀,Fourier-Transform Ion Cyclotron Resonance Mass Spectrometry)發(fā)現(xiàn)其組成成分相似。圖1中上半部分為潤寶-B的質(zhì)譜圖,下半部分為潤寶-C的質(zhì)譜圖。
圖1 潤寶-B與潤寶-C的質(zhì)譜圖
傅里葉近紅外光譜儀(ThermoFisher IS5N,美國);光譜范圍10000cm-1~4000cm-1,分辨率為16cm-1,掃描次數(shù)為48次,液體漫透射法測試,比色杯厚度為1mm。每個樣品重復(fù)測試3次。
DRB是由Plamen P. Angelov于2017年提出,主要運用于圖像的多分類問題。該算法基于樣本數(shù)據(jù)特征矢量進行模型訓(xùn)練,核心類別判定規(guī)則為‘IF OR THEN’模糊尺度;同時,基于圖像原型使用‘one-pass’類型訓(xùn)練模型。本實驗中數(shù)據(jù)處理軟件為Matlab R2014a,可以把二維光譜數(shù)據(jù)構(gòu)造成三維數(shù)據(jù),再使用該軟件對數(shù)據(jù)進行類別判定。具體算法實行步驟如下:
(1)近紅外光譜數(shù)據(jù)圖像顯示;
(2)DRB系統(tǒng)的訓(xùn)練;
(a)系統(tǒng)初始化:將光譜數(shù)據(jù)進行規(guī)范化。對每條光譜數(shù)據(jù)進行平方并加和,再進行開根號取值,獲得規(guī)范化數(shù)值。接著對該矢量的所有數(shù)據(jù)點進行規(guī)范化數(shù)值規(guī)范。
(b)數(shù)據(jù)云及系統(tǒng)升級:數(shù)據(jù)云的構(gòu)建主要是基于公式(1)。本實驗采用的θ為30°,將定義數(shù)據(jù)云邊緣的最大相似程度。系統(tǒng)升級階段則是通過兩個條件來約束,條件約束如(2)與(3)。約束條件(2)主要檢驗未知樣本是否為新型的密度樣本,其中D為數(shù)據(jù)密度值;約束條件(3)主要用于某一類別訓(xùn)練集樣本的更新,當絕對值小于rc,Nc,則表明無需類內(nèi)更新,反之絕對值大于rc,Nc,則需要模型更新。
(1)
If(D(Ic,k)>max(D(Pc,j)))or (2) If(||Xc,k—pc,n||≤rc,Nc) (3) (3)模糊規(guī)則的產(chǎn)生:當訓(xùn)練進程結(jié)束,系統(tǒng)將是基于原形識別的‘AnYa’模糊規(guī)則。規(guī)則如(4): Rulec:IF(I~Pc,1)OR(I~Pc,2)OR… (4) 式中:Rulec為類別C的規(guī)則。I為未知類別的樣本矢量數(shù)據(jù)。Pc,1、Pc,2……Pc,Nc為C類別的矢量數(shù)據(jù)。當未知樣本符合C類規(guī)則,則將未知樣本歸類到C類。 (3)Lambda的獲得:通過已建立的系統(tǒng)對未知樣本進行分類。未知樣本與系統(tǒng)中的每個類別之間可以產(chǎn)生一個最大的Lambda。Lambda的計算如下公式(5)。式中,x為未知樣本向量;Pc,j為系統(tǒng)第C類第j個矢量數(shù)據(jù)。 LambdacI=argmaxexp-x-pc,j2 (5) (4)類別決策機制:采用“winner-takes-all”原則進行未知樣本的類別判定。即未知樣本與不同類別間分別有個最大的Lambda。將這些Lambda進行大小比較,最大的Lambda所對應(yīng)的類別則將該未知樣本歸類到此類當中。該算法與傳統(tǒng)模式識別算法有較大的區(qū)別在于其未訓(xùn)練模型、無迭代訓(xùn)練樣本,高度地展現(xiàn)出計算互不干擾能力與計算效率。算法運行示意流程如圖2所示。對于判定未知類別樣本的類別時,DRB分類器的運行機理如圖3所示。 圖2 DRB算法運行示意流程圖 圖3 未知類別樣本DRB運行示意流程圖 為使系統(tǒng)更具有穩(wěn)定性、提升模型的預(yù)測能力,需要對異常光譜數(shù)據(jù)進行剔除。因此,需要在系統(tǒng)生成之前對異常數(shù)據(jù)進行檢測并剔除。本研究濾去異常值的方法為杠桿值法,濾去高杠桿值的光譜數(shù)據(jù),再建立類別判定系統(tǒng)。高杠桿值法主要通過兩個參數(shù)主成分數(shù)和杠桿限制值來測試異常光譜數(shù)據(jù)。本研究采用的主成分數(shù)為1,杠桿限制值為3,剔除后光譜數(shù)據(jù)1294張,共57類樣品。剔除異常光譜圖4所示,剔除結(jié)果圖5所示。可以清晰地看見光譜數(shù)據(jù)質(zhì)量有明顯提升。兩種模式識別算法都以80%作為校正集,20%作為預(yù)測集。這就意味著1035張光譜作為校正集,使用259張光譜作為預(yù)測集。 圖4 剔除異常光譜數(shù)據(jù) 圖5 吸光度VS變量上半部分未剔除異常光譜;下半部分剔除異常光譜 上文提到,SIMCA算法擬采用F檢驗來判定未知光譜類別。置信水平采用6個層次,分別為75%、80%、85%、90%、95%及97%。結(jié)果如表1所示,可以發(fā)現(xiàn)置信水平達到97%,校正集準確度與預(yù)測集準確度都達到最高,分別為87.923%與83.398%。采用DRB算法,校正集準確度與預(yù)測集準確度分別為95.07%與88.8%。識別準確度優(yōu)于SIMCA算法的結(jié)果。由于DRB算法是基于原始圖像的分類,所以其無須進行迭代與參數(shù)優(yōu)化。因此,訓(xùn)練速度相比于其他模式識別算法快。 圖6(A)中是兩類相似香精香料的SIMCA樣本投影圖,其中橫坐標為第一主成分,縱坐標為第二主成分,可以發(fā)現(xiàn)不同類別香精香料的投影基本不可分。與之相對應(yīng)的DRB算法給出的結(jié)果(圖6(B))則正好相反,其中橫坐標為樣本數(shù)目,縱坐標為Lambda值。符號‘+’與‘o’代表的是第16類樣本,區(qū)別在于符號‘+’為第16類云系統(tǒng)對于第16類樣本Lambda值的預(yù)測,而‘o’則是第26類云系統(tǒng)對于第16類樣本Lambda值的預(yù)測。符號‘▽’與‘☆’代表的是第26類樣本,區(qū)別在于符號‘▽’為第26類云系統(tǒng)對于第26類樣本Lambda值的預(yù)測,而‘☆’則是第16類云系統(tǒng)對于第26類樣本Lambda值的預(yù)測。可以發(fā)現(xiàn),第16類云系統(tǒng)計算第26類樣品的Lambda值較第26類云系統(tǒng)計算第26類樣本的低,反之亦是,說明近紅外光譜圖相似的兩個樣品可實現(xiàn)有效判別。實際上,第16類樣品與第26類樣品的近紅外光譜圖如圖7所示,就譜圖峰的形狀、吸光度大小可以發(fā)現(xiàn)二者非常相似。 表1 不同置信水平SIMCA判定結(jié)果 圖6 (A)相似香精香料主成分投影圖及(B)基于DRB算法的Lambda值 圖7 第16類樣品與第26類樣品的近紅外光譜圖疊加 對于SIMCA算法來說,主要是為了尋找一個投影面(或稱為載荷矩陣),使得參與建模的樣本能盡可能的在這個投影面盡量散開。因此,當光譜比較相似的時候,通過投影面投影很有可能就落在這些樣本點中間。第16類樣品的第一載荷矢量與第26類樣品的第一載荷矢量的標準偏差如圖8所示??梢园l(fā)現(xiàn)標準偏差很小,說明二類的第一載荷矢量很是相似,故導(dǎo)致二者不可分。相反的,DRB則是基于歐式距離分別計算未知樣本與不同類別樣本的距離,通過公式(3)計算Lambda,再依據(jù)Lambda值將未知樣本歸類,避開了樣本投影最大化問題。因此,在分類能力上優(yōu)越于SIMCA算法,圖6(B)即可表明克服SIMCA算法存在的問題。 圖8 第16類樣品與第26類樣品的第一載荷矩陣的標準偏差 在對光譜矩陣進行模式識別之前,首先需要考慮到近紅外光譜除樣品自身信息外還包含許多無關(guān)信息,有電噪聲、樣品背景等,而這些噪聲或無關(guān)信息會降低模型的穩(wěn)健性。因此,有必要對光譜數(shù)據(jù)進行預(yù)處理以提高模型的穩(wěn)健性。大量研究結(jié)果表明:首先對光譜數(shù)據(jù)進行預(yù)處理再建立起的模型,提升了模型穩(wěn)健性以及預(yù)測類別的準確度、降低指標建模的預(yù)測均方根誤差。采用的預(yù)處理方法包括S-G一階導(dǎo)數(shù)法(5點、7點、9點及11點)、標準正態(tài)變量變換(SNV,Standard Normal Variate transformation)、S-G移動窗口法(5點、7點、9點及11點)、多元散射校正算法(MSC, Multiple Scattering Correctionalgorithm)、矢量歸一化(NOR)、標準化法(Auto-scaling)。結(jié)果如表2所示,從表2中可以發(fā)現(xiàn),不同預(yù)處理方法,對結(jié)果準確度有較大影響,其中一階導(dǎo)(S-G,7)效果最佳,校正集與驗證集的識別準確度分別為98.74%與98.07%。與無預(yù)處理的預(yù)測集準確度相比高了近10%。說明采用漫透反射附件,存在譜圖基線漂移的現(xiàn)象。因此有必要對數(shù)據(jù)進行預(yù)處理后再進行類別歸屬。說明為了降低光譜基線對識別準確率的影響,有必要采用的預(yù)處理方法為一階導(dǎo)數(shù)法。 表2 不同預(yù)處理方法與準確度的關(guān)系 分別采用了典型模式識別SIMCA算法與新型模式識別DRB算法對不同類別煙用香精香料進行類別判定。首先采用高杠桿值法篩選并剔除異常光譜,光譜數(shù)據(jù)得到明顯改善,可提高模型的穩(wěn)健性。比對不同模式識別的準確度,由于DRB算法不基于方差最大化,因而算法DRB在不同類別樣品的分類效果更為出色。同時,基于DRB算法,采用不同預(yù)處理方法,準確度發(fā)生明顯變化,原因在于其選擇漫透反射附件導(dǎo)致光譜基線漂移。采用DRB算法校正集與驗證集的識別準確率最優(yōu)可達到98.74%與98.07%。說明可以基于DRB模式識別結(jié)合近紅外光譜技術(shù)可做到很好的定性分析,近紅外光譜技術(shù)可達成‘一譜多用’的目標。
(D(Ic,k)
THEN(Ic,kisassignedtoPc,n)
OR(I~Pc,Nc)THEN(classc)3 結(jié)果與討論
3.1 異常光譜的剔除
3.2 數(shù)據(jù)處理結(jié)果
3.3 結(jié)果的理論分析
3.4 分類器優(yōu)化
4 結(jié)論