秦玉華, 張海濤, 高 銳, 張 磊
(1. 青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院, 山東 青島 266061;2. 云南中煙工業(yè)有限責(zé)任公司 技術(shù)中心, 云南 昆明 650024; 3. 中國海洋大學(xué) 信息科學(xué)與工程學(xué)院, 山東 青島 266100)
在卷煙生產(chǎn)過程中,及時(shí)監(jiān)控產(chǎn)品質(zhì)量、保證產(chǎn)品的均質(zhì)化和穩(wěn)定性從而避免不合格產(chǎn)品流入市場,對(duì)于企業(yè)提高產(chǎn)品質(zhì)量和實(shí)際生產(chǎn)指導(dǎo)具有重要意義。以往企業(yè)多采用感官評(píng)吸、化學(xué)成分等方法進(jìn)行卷煙產(chǎn)品質(zhì)量一致性檢測控制,該方法耗時(shí)長,效率低,產(chǎn)品質(zhì)量難以精確把握。
近年來,隨著科技的進(jìn)步和計(jì)算機(jī)技術(shù)的發(fā)展,近紅外光譜分析技術(shù)在煙草及各行業(yè)均得到了廣泛的應(yīng)用[1-2],該技術(shù)不但具有簡單、快速、準(zhǔn)確、無損、重現(xiàn)性好等優(yōu)點(diǎn),而且樣品的近紅外光譜還包含了包括其化學(xué)和物理特性的整體信息,目前該技術(shù)在卷煙化學(xué)成分快速檢測[3-4]、真?zhèn)舞b別[5]等領(lǐng)域應(yīng)用較成熟,但在產(chǎn)品質(zhì)量穩(wěn)定性分析領(lǐng)域研究相對(duì)較少且缺少直觀的可視化結(jié)果展示。此外,近紅外光譜數(shù)據(jù)還具有高維、小樣本的特點(diǎn)[6],樣本往往為幾十或上百,特征波長數(shù)據(jù)卻高達(dá)幾千維,包含較多噪聲和冗余信息[7-8],導(dǎo)致計(jì)算變得復(fù)雜,因此,為獲得更好的模型性能,分析時(shí)需先對(duì)其進(jìn)行特征信息的提取。
針對(duì)上述問題,本文以云南某品牌不同批次卷煙產(chǎn)品為研究對(duì)象,提出了一種近紅外指紋圖譜特征提取新方法。首先將卷煙近紅外光譜進(jìn)行主成分降維,并以雷達(dá)圖可視化形式描述產(chǎn)品質(zhì)量穩(wěn)定性趨勢(shì),進(jìn)而提取重心特征對(duì)樣品內(nèi)部結(jié)構(gòu)進(jìn)行了展示,建立了質(zhì)量穩(wěn)定性及異常類型判別模型,以期實(shí)現(xiàn)對(duì)質(zhì)量異常樣本的快速識(shí)別,為卷煙產(chǎn)品質(zhì)量監(jiān)控提供技術(shù)保障。
選取云南紅塔集團(tuán)不同批次的某A品牌卷煙150個(gè)質(zhì)量合格煙絲樣品,按照企業(yè)內(nèi)部標(biāo)準(zhǔn),將樣品置入烘箱中,40 ℃下干燥4 h,粉碎過40目篩。將樣品存放在密封袋中,常溫下平衡4 h后進(jìn)行光譜采集。另外再按同樣方法制備120個(gè)代表質(zhì)量異常的A品牌卷煙樣品(包括常規(guī)化學(xué)成分超標(biāo)、B品牌卷煙、A品牌與B品牌不同比例的摻配樣品各40個(gè)),在此基礎(chǔ)上進(jìn)行A品牌卷煙產(chǎn)品質(zhì)量穩(wěn)定性實(shí)驗(yàn)對(duì)比分析。
采用Nicolet Antaris Ⅱ 近紅外光譜儀,光譜掃描范圍為4 000~10 000 cm-1,掃描次數(shù)64次,分辨率為8 cm-1,采用漫反射方式,室溫保持在18~22 ℃,將樣品置于樣品杯中用壓樣器輕壓樣品,每個(gè)樣品均重復(fù)裝樣測定3次,計(jì)算其平均值作為最終光譜。
雷達(dá)圖是一種將多屬性數(shù)據(jù)進(jìn)行平面綜合描述的圖形評(píng)價(jià)方式,能將多維數(shù)據(jù)與平面圖形對(duì)應(yīng),數(shù)據(jù)維數(shù)不多時(shí)可以直觀地觀察多維數(shù)據(jù)屬性的特點(diǎn)和變化趨勢(shì)[9]。但近紅外光譜數(shù)據(jù)特征波長往往高達(dá)幾千維且相鄰波長相關(guān)程度較高,無法直接用雷達(dá)圖進(jìn)行特征空間描述和直觀理解,需先進(jìn)行降維處理。
主成分分析[10](Pricipal component analysis,PCA)是一種常用的數(shù)據(jù)降維方法,它借助于一個(gè)正交變換,將原來具有一定相關(guān)性的指標(biāo)重新組合成一組新的相互無關(guān)的綜合指標(biāo),主成分分析通過選取方差較大的前幾個(gè)主成分來代替原來的指標(biāo),能夠保留原始信息的同時(shí)降低所研究的空間維數(shù)。實(shí)踐證明,指標(biāo)間相關(guān)程度越高,主成分分析效果越好,因此特別適合相鄰波長相關(guān)程度較高的光譜數(shù)據(jù)的特征降維處理。
由此本文提出先對(duì)光譜數(shù)據(jù)進(jìn)行主成分降維處理,選取前k個(gè)主成分(方差貢獻(xiàn)率≥90%)作為主要特征屬性進(jìn)行雷達(dá)圖的繪制,從而直觀地表現(xiàn)樣本光譜數(shù)據(jù)的特征,保證了圖譜數(shù)據(jù)整體性與模糊性的統(tǒng)一。
對(duì)于選取的k個(gè)主成分構(gòu)成的可視化多邊形,因其具有較強(qiáng)的主觀性,實(shí)際應(yīng)用中較難規(guī)定圖形特征的統(tǒng)一標(biāo)準(zhǔn)。研究表明[11-12],圖形的重心可能是一種圖形辨別的重要特征,因此針對(duì)可視化圖形的模糊性,本文提出對(duì)包含樣本全局信息的多邊形重心特征進(jìn)行提取,從而進(jìn)一步對(duì)樣本間的內(nèi)部結(jié)構(gòu)進(jìn)行展示,進(jìn)而建立質(zhì)量一致性判別模型,實(shí)現(xiàn)對(duì)產(chǎn)品質(zhì)量的監(jiān)控。提取的重心特征包括重心矢量幅值和角度[13],其極坐標(biāo)表示如下:
(1)
選取的150個(gè)質(zhì)量合格卷煙產(chǎn)品的原始光譜如圖1所示,可以看到樣品光譜在吸光度軸上差異較大,為充分提取有效信息,提高模型性能,需對(duì)光譜進(jìn)行預(yù)處理從而消除基線漂移及光散射等干擾的影響。經(jīng)過比較,本文選用一階導(dǎo)數(shù)+Norris 11點(diǎn)平滑作為預(yù)處理方法,經(jīng)過預(yù)處理后的光譜如圖2所示,可以看出,預(yù)處理后的光譜能有效消除原始譜圖的漂移現(xiàn)象。
圖1 原始光譜
同時(shí),適當(dāng)?shù)墓庾V范圍選擇也是光譜信息有效提取的重要環(huán)節(jié)之一,本文選取4 000~8 000 cm-1譜段進(jìn)行分析。
圖2 預(yù)處理后的光譜
選取100個(gè)A品牌質(zhì)量合格卷煙樣品作為基準(zhǔn)樣本集,剩余50個(gè)質(zhì)量合格樣品作為測試集1,120個(gè)質(zhì)量異常樣品作為測試集2,對(duì)基準(zhǔn)樣本集進(jìn)行主成分變換,選取前10個(gè)主成分歸一化后的雷達(dá)圖如圖3(a)所示,對(duì)測試集1、2樣本按照與基準(zhǔn)樣本集同樣的系數(shù)矩陣進(jìn)行主成分變換后的雷達(dá)圖如圖3(b)、(c)、(d)所示。
圖3 主成分雷達(dá)圖
可以看出,基準(zhǔn)樣本集與測試集1均為A品牌卷煙,其雷達(dá)圖形狀類似,與代表質(zhì)量異常的測試集2的卷煙產(chǎn)品的雷達(dá)圖形狀明顯不同,基本可以通過可視化圖形對(duì)產(chǎn)品類別進(jìn)行辨別,從而達(dá)到對(duì)質(zhì)量異常波動(dòng)的監(jiān)控。但該方法主觀性較強(qiáng),實(shí)際應(yīng)用中較難規(guī)定圖形特征的統(tǒng)一標(biāo)準(zhǔn),只能作為產(chǎn)品鑒別和質(zhì)量異常波動(dòng)的參考,因此需對(duì)圖形特征進(jìn)行進(jìn)一步提取。
對(duì)上述所有樣本的主成分雷達(dá)圖按照2.4方法進(jìn)行重心特征提取,其結(jié)果投影圖如圖4所示,圖5為主成分降維后第1、2主成分投影圖。
圖4 雷達(dá)圖特征提取投影圖
圖5 主成分投影圖
由圖4和圖5可以看出,基準(zhǔn)樣本集與測試集1均為卷煙A質(zhì)量合格產(chǎn)品,兩樣本集基本重合,并均與卷煙B能較好地區(qū)分,說明兩種方法都能較好地實(shí)現(xiàn)同品牌卷煙與其他品牌卷煙的識(shí)別,可用于卷煙的真?zhèn)舞b別中。但在主成分投影圖中,質(zhì)量異常樣品(包括化學(xué)成分超標(biāo)、不同比例卷煙A、B摻配樣品)與卷煙A合格產(chǎn)品混雜在一起,區(qū)分界限不明顯,因此無法達(dá)到對(duì)質(zhì)量異常樣品的較好識(shí)別。而雷達(dá)圖重心特征提取投影圖中,代表質(zhì)量異常的測試集2樣本與基準(zhǔn)樣本集基本能較好地區(qū)分,其中化學(xué)成分超標(biāo)、摻配卷煙A比例越高的樣品靠基準(zhǔn)樣本集越近,說明該模型具備識(shí)別產(chǎn)品異常波動(dòng)的能力。
選取上述質(zhì)量合格卷煙A樣品和質(zhì)量異常樣品各120個(gè),每類的前80個(gè)作為訓(xùn)練集,剩余的樣品作為測試集,分別以提取的重心特征、前10個(gè)主成分、光譜全波長作為輸入指標(biāo),建立質(zhì)量穩(wěn)定性判別模型,實(shí)現(xiàn)對(duì)質(zhì)量異常樣品的識(shí)別。選取KNN、SVM作為分類器,表1為不同輸入特征的分類性能對(duì)比。
表1 分類正確識(shí)別率對(duì)比
可以看出,兩種分類模型中,采用提取的雷達(dá)圖重心特征作為輸入特征的正確識(shí)別率均最高,明顯高于其他2種輸入特征的識(shí)別率,主成分降維方法次之,全波長作為輸入特征模型正確識(shí)別率最差,這主要是由于高維光譜數(shù)據(jù)中含有較多噪聲和冗余信息,全波長作為輸入特征無法對(duì)光譜信息進(jìn)行有效的提取,而本文所提出的雷達(dá)圖重心提取的方法能更好地表達(dá)樣本的全局信息和樣本間的內(nèi)部結(jié)構(gòu),實(shí)現(xiàn)對(duì)光譜信息的全局提取,因此能更好地識(shí)別卷煙產(chǎn)品生產(chǎn)過程中的質(zhì)量波動(dòng)。
為了更進(jìn)一步驗(yàn)證本方法的有效性,分別以提取的重心特征、前10個(gè)主成分作為輸入指標(biāo)對(duì)質(zhì)量異常樣品的類型(包括常規(guī)化學(xué)成分超標(biāo)、不同比例卷煙A、B摻配品、卷煙B)進(jìn)行了判別分析。選取SVM作為分類器,表2為對(duì)不同質(zhì)量異常類型的正確識(shí)別率對(duì)比。
表2 質(zhì)量異常類型正確識(shí)別率對(duì)比
可以看出,對(duì)于卷煙A的3種不同質(zhì)量異常類型的識(shí)別,雷達(dá)圖重心特征方法的正確識(shí)別率均明顯好于主成分特征方法,從而進(jìn)一步表明了該方法的優(yōu)越性。從對(duì)質(zhì)量異常類型的識(shí)別來看,2種方法對(duì)卷煙B均能較好地識(shí)別,可用于不同品牌卷煙產(chǎn)品的真?zhèn)握鐒e,而對(duì)于化學(xué)成分超標(biāo)和卷煙A與B的摻配品這2種質(zhì)量異常類型的識(shí)別要稍差一些,這也與3.3的投影分析結(jié)果一致。
本文針對(duì)卷煙生產(chǎn)過程中質(zhì)量穩(wěn)定性監(jiān)控效率低及缺少可視化結(jié)果展示等問題,提出了以主成分雷達(dá)圖可視化形式描述產(chǎn)品穩(wěn)定性趨勢(shì)并提取圖形重心特征進(jìn)行質(zhì)量一致性判別。實(shí)驗(yàn)結(jié)果表明,和其他方法相比,該特征提取方法取得了更好的識(shí)別效果。該方法可進(jìn)一步推廣到煙絲等其他狀態(tài)產(chǎn)品的在線質(zhì)量監(jiān)控,這對(duì)企業(yè)及時(shí)了解、提升產(chǎn)品質(zhì)量,改進(jìn)生產(chǎn)技術(shù)具有重要意義。