吳麗君, 殷沛沛, 殷艷飛, 王浩雅, 王保興, 武士杰, 劉恩芬*
(1.云南中煙工業(yè)有限責(zé)任公司,云南昆明 650106;2.云南中煙再造煙葉有限責(zé)任公司,云南昆明 650106)
造紙法再造煙葉最早起源于奧地利、美國、法國和德國等國家,主要目的是回收利用煙草加工過程中產(chǎn)生的煙草廢棄物,提高煙草原料利用率,以及制作雪茄煙的包皮材料等,屬于煙草資源再利用的一種產(chǎn)品[1,2]。而我國煙草行業(yè)在規(guī)?;a(chǎn)、產(chǎn)品質(zhì)量提升和規(guī)模化應(yīng)用等方面取得了突破性進(jìn)展[3,4]。因此,開發(fā)一套高效簡(jiǎn)便、快速的再造煙葉產(chǎn)品分類方法對(duì)于再造煙葉質(zhì)量監(jiān)控有著十分重要的意義。
近紅外光譜分析已經(jīng)在食品[5]、醫(yī)藥[6]、生物[7]和石油化工[8]等領(lǐng)域廣泛應(yīng)用。模式識(shí)別20世紀(jì)60年代末被引入化學(xué)領(lǐng)域[9],目前應(yīng)用很廣泛[10,11]。模式識(shí)別常見的方法有偏最小二乘判別分析(Partial Least Squares-Discriminant Analysis,PLS-DA)、 簇獨(dú)立軟模式法(Soft Independent Modeling of Class Analogy,SIMCA)和支持向量機(jī)(Support Vector Machines,SVM)。SIMCA 法為每個(gè)類建立了獨(dú)立的 PCA 模型,從而能夠使用類成員。當(dāng)近紅外光譜數(shù)據(jù)不同類中的子空間都非常接近時(shí),由于類之間不必要的重疊,從而存在產(chǎn)生非優(yōu)化鑒別模型的危險(xiǎn)[12,13]。PLS-DA 法是基于 PLS 回歸的一種判別分析方法[14,15],在構(gòu)造因素時(shí)考慮到了輔助矩陣以代碼形式提供的類成員信息,具有比 SIMCA 法更高效的鑒別能力[16]。目前,采用PLS-DA對(duì)造紙法再造煙葉產(chǎn)品進(jìn)行分類的研究尚未見報(bào)道。為此,本文通過采集162個(gè)再造煙葉樣品的近紅外(NIR)光譜,并結(jié)合PLS-DA算法對(duì)其品種進(jìn)行分類,旨在對(duì)不同牌號(hào)再造煙葉產(chǎn)品分類提供一種新的快速鑒別分析的方法,同時(shí)可初步監(jiān)測(cè)再造煙葉產(chǎn)品質(zhì)量穩(wěn)定性。
162個(gè)再造煙葉樣品由國內(nèi)再造煙葉企業(yè)提供,分別為KM-13、YX-6和RSHN-113三個(gè)型號(hào)的產(chǎn)品。其中KM-13優(yōu)選云南清香型煙葉原料,產(chǎn)品清香、甜香風(fēng)格突出、香氣飽滿圓潤、清晰飄逸,雜氣少,余味舒適,與卷煙配伍性好,能有效提升卷煙清香風(fēng)格。RSHN-113是針對(duì)一類卷煙開發(fā)的濃香型產(chǎn)品,產(chǎn)品具有煙氣細(xì)膩、順暢、潤感好,香氣飽滿、濃郁、豐富,余味干凈、雜氣輕、刺激小的特點(diǎn)。樣品測(cè)量前在溫度40 ℃下烘烤6 h,研磨成粉,在干燥器中保存。
MPA近紅外光譜儀(德國,Bruker),配備內(nèi)徑10 cm的鍍金積分球采樣附件,光斑向上,光斑直徑2 cm,用于水平測(cè)試樣品,鍍金背景,直徑51 mm的樣品杯,不銹鋼壓樣制樣器。光譜采集在OPUS7.2軟件中進(jìn)行。數(shù)據(jù)處理、模型建立及預(yù)測(cè)在The Unscrambler9.7 軟件(挪威,CAMO)中進(jìn)行。
取再造煙葉樣品置于樣品杯中,用壓樣器輕輕壓平杯中樣品,放到光譜儀旋轉(zhuǎn)臺(tái)上掃描。掃描時(shí)以積分球鍍金內(nèi)壁作背景。光譜采集的掃描范圍:4 000~10 000 cm-1;分辨率:8 cm-1;掃描次數(shù):72次。
采用Unscrambler軟件建立PLS-DA分類模型并進(jìn)行預(yù)測(cè)。將再造煙葉產(chǎn)品KM-13、YX-6和RSHN-113分別賦值為0、1 和2,預(yù)測(cè)驗(yàn)證集樣品。首先建立訓(xùn)練集樣本的分類變量,建立分類變量和光譜數(shù)據(jù)間的PLS模型,計(jì)算驗(yàn)證集的分類變量值(Ypre)。判定原則如下:(1)當(dāng)Ypre<0.5、Ydev<0.5,判定樣本屬于KM-13;(2)當(dāng)1.5>Ypre>0.5,Ydev<0.5,判定樣本屬于YX-6;(3)當(dāng)Ypre>2.0、Ydev<0.5,判定樣品屬于RSHN-113;(4)Ydev>0.5,無法確定樣本的歸屬。
近紅外光譜包含一些與待測(cè)樣品性質(zhì)無關(guān)因素帶來的干擾,如樣品的狀態(tài)、光的散射、雜散光以及儀器響應(yīng)等的影響,導(dǎo)致近紅外光譜的基線漂移和光譜的不重復(fù)[17]。因此,在用化學(xué)計(jì)量學(xué)方法建立模型時(shí),消除光譜數(shù)據(jù)無關(guān)信息和噪音的預(yù)處理方法顯得尤為重要。常用的譜圖預(yù)處理方法有數(shù)據(jù)中心化、平滑、導(dǎo)數(shù)、標(biāo)準(zhǔn)正態(tài)變量變換、多元散射校正等。
中心化的目的是改變數(shù)據(jù)相對(duì)于坐標(biāo)軸的位置,使數(shù)據(jù)集的均值與坐標(biāo)軸的原點(diǎn)重合。若Xik表示第i個(gè)樣本的第k個(gè)測(cè)量數(shù)據(jù),中心化就是從數(shù)據(jù)矩陣中的每一個(gè)元素中減去該元素所在列的均值的運(yùn)算:
(1)
MSC主要消除顆粒分布不均勻及顆粒大小產(chǎn)生的散射影響。運(yùn)用MSC法時(shí),假定所有樣品在各波長點(diǎn)具有同的散射系數(shù),通過對(duì)每條光譜進(jìn)行移位、旋轉(zhuǎn)等變化,使其盡可能的與平均光譜成線性關(guān)系。每條光譜與平均光譜的線性關(guān)系由最小二乘法擬合:
(2)
式中,Xi為第i樣品的光譜,為該組樣品的平均光譜,ei為殘差光譜,ai和bi分別為線性回歸的截距和斜率,可由樣品光譜集線性回歸獲得,并用于校正每條光譜:
xi,MSC=(xi-ai)/bi
(3)
光譜的一階和二階導(dǎo)數(shù)是NIR光譜分析中常用的基線校正和光譜分辨預(yù)處理方法。對(duì)光譜求導(dǎo)一般有兩種方法:直接差分法和Savitzky-Golay求導(dǎo)法。
(4)
(5)
由上式知,導(dǎo)數(shù)分別用于消除光譜基線的平移和漂移,可有效消除背景干擾,分辨重疊峰,提高分辨率和靈敏度。
從表1中可以看出,不同光譜預(yù)處理方法對(duì)PLS-DA建模結(jié)果有不同的影響,一階導(dǎo)數(shù)效果較好,選擇不同的平滑點(diǎn)數(shù)對(duì)建模結(jié)果亦有影響,點(diǎn)數(shù)過小,噪聲會(huì)偏大從而影響所建分析模型的預(yù)測(cè)能力;點(diǎn)數(shù)過大,平滑過度又會(huì)失去大量的有用信息。當(dāng)平滑點(diǎn)數(shù)為5時(shí),效果最好,所以采用一階導(dǎo)數(shù)5點(diǎn)平滑預(yù)處理。圖1、圖2分別為再造煙葉產(chǎn)品的近紅外漫反射原始光譜和光譜預(yù)處理圖。
表1 不同光譜預(yù)處理下PLS-DA模型結(jié)果
R2(Determination Coefficient),the correlation between true and predicted values.
圖1 近紅外光譜原始圖Fig.1 The raw NIR spectra
圖2 一階導(dǎo)數(shù)光譜圖 Fig.2 1st derivative spectra
圖3 樣品異常值檢測(cè)圖Fig.3 Outliers test of model
在近紅外光譜定量分析過程中,分析結(jié)果的可靠性首先取決于原始數(shù)據(jù)的準(zhǔn)確性,其次還取決于近紅外分析模型的適應(yīng)性[17]。由于測(cè)量?jī)x器、測(cè)試方法和環(huán)境等客觀因素的影響以及技術(shù)人員本身主觀因素的作用,分析中會(huì)存在異常值。異常值有兩類:一類是異常值樣品的化學(xué)值分析或光譜的掃描有較大誤差,模型中剔除這些樣品可提高建模數(shù)據(jù)的有效信息率;另一類是樣品的化學(xué)與光譜都是準(zhǔn)確的,但此類樣品和建模的大部分樣品有較大差異。所以,異常樣本的存在會(huì)影響甚至改變整體數(shù)據(jù)的分布趨勢(shì),從而影響校正模型的準(zhǔn)確性。異常樣本的發(fā)現(xiàn)和有效剔除是模型及數(shù)據(jù)分析結(jié)果可靠的關(guān)鍵。傳統(tǒng)的辨識(shí)光譜數(shù)據(jù)中奇異點(diǎn)的方法主要有馬氏距離法、杠杠值法和主成分得分圖等。本實(shí)驗(yàn)中采用杠桿值檢測(cè)異常值,杠桿值表征了樣本對(duì)模型的影響程度,若樣品杠桿值大于樣品集平均值的3倍,即判定為異常樣品。杠桿值反應(yīng)樣品對(duì)模型的影響程度,計(jì)算公式如下:
(6)
ti為樣品i的因子向量,TTT為建模集的因子得分矩陣。圖3為162個(gè)再造煙葉樣品異常值檢測(cè)結(jié)果,從圖3可知,實(shí)驗(yàn)中無需剔除異常值。
圖4 主成分分析圖Fig.4 The results of PCA
2.3.1PCA模型主成分分析(PCA)是一種最常用的信號(hào)特征提取和數(shù)據(jù)降維的多元統(tǒng)計(jì)分析技術(shù),可對(duì)含有噪聲和高度相關(guān)的測(cè)量數(shù)據(jù)進(jìn)行冗余分析和特征提取[12,13]。PCA算法的特點(diǎn)是在各樣本指標(biāo)間的相關(guān)性比較高時(shí),能消除樣本指標(biāo)間信息的重疊,而且能根據(jù)樣本內(nèi)各指標(biāo)所提供的原始信息自動(dòng)生成非人為的權(quán)系數(shù);其缺陷是沒有考慮樣本間相互存在的重要度差異。利用傳統(tǒng)PCA算法對(duì)再造煙葉產(chǎn)品進(jìn)行分類,結(jié)果如圖4所示,KM-13出現(xiàn)在右下,RSHN-113出現(xiàn)在左上,但YX-6分散,可見使用PCA及其衍生的分類方法SIMCA等無法準(zhǔn)確區(qū)分三種產(chǎn)品。然而,PLS-DA的優(yōu)點(diǎn)在于光譜特征分解時(shí)考慮到校正集類別信息(Ytrain),所以在PLS的特征空間中可準(zhǔn)確區(qū)分三類產(chǎn)品。
2.3.2PLS-DA模型的建立PLS-DA法基于PLS回歸方法,利用校正樣本的自變量矩陣X和分類變量Y建立回歸模型,根據(jù)待分類樣本的PLS預(yù)測(cè)值判斷樣本所屬類別。PLS-DA將回歸分析中的Y變量設(shè)定為類別變量,對(duì)類別變量進(jìn)行賦值,用類別變量和光譜矩陣進(jìn)行線性回歸。按照校正集和預(yù)測(cè)集樣本數(shù)比例為3∶1的關(guān)系,選擇3/4的樣品共117個(gè)用于PLS-DA模型建立,剩余45個(gè)樣品作為預(yù)測(cè)集。
首先需確定適宜主成分?jǐn)?shù),在近紅外光譜數(shù)據(jù)主成分分析過程中,增加主成分?jǐn)?shù)可更多提取光譜數(shù)據(jù)矩陣信息,但過多的主成分?jǐn)?shù),易引入一些不必要的噪聲,導(dǎo)致類模型預(yù)測(cè)能力下降。在進(jìn)行光譜預(yù)處理和異常值檢驗(yàn)之后,建立PLS-DA判別模型,選擇RMSECV最小值對(duì)應(yīng)的值為最佳主成分?jǐn)?shù),如圖5(a)所示確定模型的最佳維數(shù)為6。模型結(jié)果如圖5(b),預(yù)測(cè)正確率為100.0%。校正集模型的建模結(jié)果表明,所建模型具有良好的自我預(yù)測(cè)能力。
圖5 PLS-DA模型結(jié)果Fig.5 The result of PLS-DA
2.3.3PLS-DA模型的驗(yàn)證使用隨機(jī)挑選的45個(gè)樣品作為預(yù)測(cè)集對(duì)所建立的分類模型進(jìn)行外部驗(yàn)證,結(jié)果見表2。44個(gè)樣品的預(yù)測(cè)偏差均小于0.5,說明模型的預(yù)測(cè)穩(wěn)定性較好,有1個(gè)屬于KM-13的樣品(預(yù)測(cè)值0.54)被錯(cuò)判為YX-6的樣品,有1個(gè)樣品的預(yù)測(cè)偏差大于0.5,無法判別其歸屬,其余樣品的分類均正確,模型預(yù)測(cè)正確率為95.5%。利用PLS-DA建立的分類模型具有較高的預(yù)測(cè)準(zhǔn)確度和預(yù)測(cè)穩(wěn)定性。
表2 PLS-DA 模型預(yù)測(cè)集預(yù)測(cè)結(jié)果
(續(xù)表2)
NumTrue valuePredicted valueDeviationNumTrue valuePredicted valueDeviation900.380.303222.150.481000.120.063321.920.411100.220.213421.990.371200.040.103521.890.011300.120.283622.060.441400.140.253722.180.291500.120.293821.910.361610.530.013922.260.341710.550.014021.960.141810.600.024121.820.221910.550.004221.960.302010.610.084321.830.092110.500.524421.650.442210.850.304521.940.292310.800.09
從生產(chǎn)線取得不同牌號(hào)的再造煙葉樣品30個(gè)(每個(gè)牌號(hào)樣品各取10個(gè)),利用所建的PLS-DA模型進(jìn)行預(yù)測(cè),其中有一個(gè)樣品被誤判,有兩個(gè)樣品由于預(yù)測(cè)偏差大于0.5,無法判別其歸屬。初步認(rèn)為是產(chǎn)品質(zhì)量波動(dòng)導(dǎo)致的,進(jìn)而按照標(biāo)準(zhǔn)測(cè)定樣品的理化指標(biāo),其中一個(gè)樣品的還原糖含量和總氮含量偏低導(dǎo)致被誤判。所以,利用PLS-DA建立的不同牌號(hào)再造煙葉產(chǎn)品分類模型可初步檢測(cè)產(chǎn)品質(zhì)量的波動(dòng)情況。
本文利用近紅外漫反射光譜技術(shù)針對(duì)不同牌號(hào)的造紙法再造煙葉進(jìn)行掃描獲得光譜數(shù)據(jù),采用化學(xué)計(jì)量學(xué)模式識(shí)別方法對(duì)樣品進(jìn)行光譜定性判別分析。首先分析了不同光譜預(yù)處理方法對(duì)判別結(jié)果的影響,最終選擇一階導(dǎo)數(shù)5點(diǎn)平滑作為最優(yōu)預(yù)處理方法,利用PLS-DA建立判別模型,結(jié)果表明,采用近紅外光譜結(jié)合PLS-DA算法所建模型擬合性較好,訓(xùn)練集和預(yù)測(cè)集的正確率分別為100.0%和95.5%。所建的分類模型具有很好的分類能力,可以用于再造煙葉產(chǎn)品分類。與PCA相比,PLS-DA對(duì)不同牌號(hào)再造煙葉產(chǎn)品的分類具有更加良好的效果,方法簡(jiǎn)單易用、快速、易于推廣,為不同牌號(hào)再造煙葉產(chǎn)品分類提供了一種新的快速鑒別分析的思路,對(duì)初步監(jiān)測(cè)再造煙葉產(chǎn)品質(zhì)量穩(wěn)定性具有重要意義。