黃文萍,趙依琳,楊如玲,韋 濤,孟 玥,張正勇
(南京財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,江蘇 南京 210023)
在全面建設(shè)社會(huì)主義現(xiàn)代化國家的新征程中,人們?nèi)找嬖鲩L的高品質(zhì)食品需求與潛在的制假售假間的矛盾成為食品質(zhì)量安全管理領(lǐng)域關(guān)注的核心問題之一,鑒別技術(shù)是解決這一問題的關(guān)鍵支撐。乳制品作為食品的重要組成部分,受2008 年三聚氰胺等事件影響,時(shí)至今日,其仍舊是質(zhì)量安全監(jiān)管部門和消費(fèi)者關(guān)注的重點(diǎn)對象[1-2]?,F(xiàn)有的鑒別方法主要包括以下4 種類型:① 感官檢驗(yàn),主要是依靠人的感覺器官進(jìn)行判斷,具有一定的主觀性;② 理化檢測法,主要依據(jù)一些物理特性值如旋光性[3],或者一些特征化學(xué)成分如氨基酸、同位素[4-7]進(jìn)行鑒別;③ 生化檢測法,主要是依據(jù)乳品基因序列進(jìn)行判別[8-9];④ 計(jì)算機(jī)智能鑒別算法與譜圖數(shù)據(jù)相結(jié)合進(jìn)行模式識(shí)別[10-12],較之前的3 種方法,計(jì)算機(jī)輔助鑒別技術(shù)具有運(yùn)算速度快、結(jié)果評價(jià)客觀等優(yōu)勢,成為鑒別技術(shù)研發(fā)的熱點(diǎn)。
譜圖數(shù)據(jù)可以表征乳制品的化學(xué)質(zhì)量特性,并作為智能鑒別算法的數(shù)據(jù)輸入,經(jīng)過判別函數(shù)運(yùn)算構(gòu)建鑒別模型,用以未知樣品類別歸屬測算。本實(shí)驗(yàn)選用可以高效表征乳制品分子振動(dòng)特性并具有采集速度快、可無損檢測等優(yōu)勢的拉曼光譜,開展譜圖數(shù)據(jù)小波變換處理等研究,以期為挖掘譜圖數(shù)據(jù)信息,提高鑒別模型適應(yīng)性提供技術(shù)參考。
實(shí)驗(yàn)用乳酪制品均購置于南京蘇果超市,原味口味,選取3 個(gè)品牌,分別標(biāo)記為品牌xx(a),品牌yy(b)和品牌zz(c),每個(gè)品牌25 個(gè)樣品,共計(jì)75 個(gè)樣品。
Prott-ezRaman-D3 型激光拉曼光譜儀:美國Enwave Optronics 公司;96 孔板:美國Corning Incorporated 公司。
取一定量的乳酪制品置于96 孔板的各獨(dú)立小孔內(nèi),使得小孔恰好被樣品充滿。將激光拉曼光譜儀的探頭固定于小孔上方(恰好直射樣品)。激光拉曼光譜儀控制參數(shù):激光波長為785 nm,激光最大功率約為450 mW,CCD 檢測器,溫度為-85 ℃,樣品采集積分時(shí)間為80 s,掃描次數(shù)為1 次,光譜波數(shù)收集范圍為250~2 000 cm-1,光譜分辨率為1 cm-1。
測試獲得樣品譜圖數(shù)據(jù)后,使用光譜儀自帶的SLSR Reader V8.3.9 軟件進(jìn)行基線校正,校正后的譜圖數(shù)據(jù)歸一化處理使用mapminmax 函數(shù),歸一化至[0,1]區(qū)間。小波軟閾值降噪使用wden 函數(shù),小波增強(qiáng)使用wavedec 函數(shù)進(jìn)行譜圖數(shù)據(jù)小波分解,而后使用waverec 函數(shù)進(jìn)行小波重構(gòu)。小波變換處理、歸一化、k 近鄰算法的運(yùn)算平臺(tái)采用Matlab 軟件(美國MathWorks 公司,版本為2016 a)。
實(shí)驗(yàn)采集的乳酪制品為乳黃色含水分的近似固體,可以直接上樣測試,無需樣品前處理,且由于水分子的拉曼散射界面較小,無明顯拉曼信號(hào)也不影響拉曼測試。實(shí)驗(yàn)采集的3 種不同品牌乳酪制品的拉曼光譜圖如圖1 所示。由圖1 可以看出,3 個(gè)品牌乳酪制品的拉曼光譜在同一個(gè)波數(shù)附近都出現(xiàn)了波峰,起伏程度也十分接近,且有相似性,結(jié)合已有文獻(xiàn)報(bào)道[13-15]可知,該類波峰的產(chǎn)生主要源于乳制品中糖類、脂肪、蛋白質(zhì)分子相關(guān)的變形振動(dòng)、伸縮振動(dòng)與扭曲振動(dòng)等。3 個(gè)品牌乳酪制品的拉曼光譜在800~1 800 cm-1區(qū)間振動(dòng)較為劇烈,出峰明顯。其中:與糖類有關(guān)的拉曼譜峰有850 cm-1,源于C—C—H 變形振動(dòng)和 C—O—C 變形振動(dòng);940 cm-1處的峰,源于C—O—C 變形振動(dòng)、C—O—H 變形振動(dòng)以及C—O 伸縮振動(dòng);1 079 cm-1和1 145 cm-1處的峰,源于C—O—H 變形振動(dòng)、C—O 伸縮振動(dòng)以及C—C 伸縮振動(dòng);與脂肪有關(guān)的峰有1 314 cm-1,源于脂肪酸的—CH2扭曲振動(dòng);1 760 cm-1處的峰,源于C ═O 伸縮振動(dòng);與蛋白質(zhì)有關(guān)的峰有1 019 cm-1處的,源于苯丙氨酸的環(huán)振動(dòng)即環(huán)內(nèi)C—C 對稱伸縮振動(dòng);最高峰1 457 cm-1則是源自糖類和脂肪分子—CH2變形振動(dòng);以及1 670 cm-1是源自蛋白質(zhì)的酰胺I 鍵C ═O 伸縮振動(dòng)和不飽和脂肪酸C ═C 伸縮振動(dòng)??梢?,拉曼光譜表征出豐富的乳酪制品分子信息,但由于譜圖信號(hào)較為相似,僅憑裸眼難以實(shí)現(xiàn)高效分類鑒別,需要借助計(jì)算機(jī)識(shí)別算法開展進(jìn)一步判別分析。
將采集獲得的乳酪制品拉曼光譜數(shù)據(jù)導(dǎo)入k 近鄰算法,判別條件為馬氏距離,k = 1,隨機(jī)選擇80%的樣品數(shù)據(jù)為訓(xùn)練集,余下20%的樣品數(shù)據(jù)為測試集[16],重復(fù)隨機(jī)循環(huán)測試100 次,計(jì)算得出測試平均值,記為識(shí)別率,結(jié)果為82.27%。由于實(shí)驗(yàn)樣品的拉曼譜圖較為相似,直接使用原始數(shù)據(jù)進(jìn)行類別判別,識(shí)別率有限;而且拉曼光譜原始數(shù)據(jù)中含有隨機(jī)噪聲、冗余信息,制約了鑒別模型的準(zhǔn)確性。因此,實(shí)驗(yàn)進(jìn)一步運(yùn)用小波變換方法的多尺度、多分辨特性,首先進(jìn)行了小波降噪處理,基本思路是將拉曼光譜信號(hào)進(jìn)行小波分解,保留高于閾值的小波系數(shù),濾除小于閾值的噪聲系數(shù),而后通過逆小波重構(gòu)獲得降噪后的譜圖數(shù)據(jù)。實(shí)驗(yàn)采用wden 函數(shù),綜合比較分析了小波基(wname)、分解尺度(n)、閾值處理噪聲水平(scal)、函數(shù)選擇閾值使用方式(sorh)以及閾值選擇標(biāo)準(zhǔn)(tptr)參數(shù)條件下的模型識(shí)別率。實(shí)驗(yàn)采用小波軟閾值去噪法,因此在考慮閾值使用方式(sorh)時(shí),設(shè)定sorh = s,(注:sorh = s,為軟閾值;sorh = h,為硬閾值)。設(shè)置tptr 的變量為4 個(gè),分別為:rigrsure、heursure、sqtwolog 和minimaxi;設(shè)置scal 的變量為3 個(gè),分別為:one、sln 和mln;設(shè)置分解尺度為5個(gè),即n=1、2、3、4、5,研究了4 類小波中各5 個(gè)常見小波基,分別為Biorthogonal 小波系中bior1.1、bior1.5、bior2.2、bior2.4 與bior3.1,Coiflet 小波系中的coif1、coif2、coif3、coif4 與coif5,Daubechies 小波系中db1、db2、db3、db4 和db5,Symlets 小波系中sym1、sym2、sym3、sym4 和sym5。最終選擇了tptr= heursure,sorh = s,scal = mln,n = 4,wname = coif1為小波降噪條件,降噪后的乳酪制品拉曼光譜結(jié)果如圖2 所示,識(shí)別率為86%。此結(jié)果表明,運(yùn)用合適的小波降噪方法,可以有效降低隨機(jī)噪聲,改善譜圖質(zhì)量,還可以減少噪聲對模型識(shí)別效果的影響,一定程度上提高了分類算法的準(zhǔn)確率。
小波降噪后分類算法識(shí)別率有所上升,提示譜圖各波段對于識(shí)別結(jié)果的影響有所不同,進(jìn)一步開展特征提取實(shí)驗(yàn)。首先采用小波增強(qiáng)方法,增強(qiáng)有效貢獻(xiàn)信號(hào),基本思路是采用小波函數(shù)對譜圖數(shù)據(jù)進(jìn)行分解,而后對分解系數(shù)進(jìn)行選擇性增強(qiáng)與削弱,再通過小波重構(gòu)獲取處理后譜圖。選用sym5 小波函數(shù)對前述拉曼光譜數(shù)據(jù)進(jìn)行了2 層分解,對于>100 的小波分解系數(shù)賦予2 倍增強(qiáng),對于≤100的小波分解系數(shù)賦予0.5 倍削弱,在融合后系數(shù)基礎(chǔ)上進(jìn)行了譜圖重構(gòu),結(jié)果如圖3 所示,識(shí)別率為87.07%。此結(jié)果表明,小波增強(qiáng)法進(jìn)一步凸顯了特征波段,一定程度上提高了識(shí)別率。進(jìn)一步將圖3所示譜圖波段劃分為10 個(gè)特征波段區(qū)間,計(jì)算得到對應(yīng)的識(shí)別率如表1 所示。各波段對識(shí)別率影響不同,進(jìn)一步開展融合分析。將10 個(gè)特征波段區(qū)間融合,識(shí)別結(jié)果為86.8%。而當(dāng)1 240 ~1 400 cm-1與1 595 ~1 710 cm-1波段融合后,識(shí)別率可以達(dá)到88.6%,運(yùn)算時(shí)間由全波段數(shù)據(jù)小波增強(qiáng)處理后的1.15 s 減少到0.60 s,提高了約48%的運(yùn)算效率。
表1 基于乳酪制品拉曼光譜的特征波段及對應(yīng)識(shí)別結(jié)果
實(shí)驗(yàn)進(jìn)一步研究了歸一化處理對模型識(shí)別效果的影響,通過歸一化處理可以消除量綱的影響,減少數(shù)據(jù)的分散性,提高識(shí)別效率[17]。k 近鄰算法設(shè)置同前,乳酪制品拉曼光譜數(shù)據(jù)經(jīng)coif1 小波降噪及歸一化處理后導(dǎo)入分類算法,實(shí)驗(yàn)數(shù)據(jù)歸一化至[0,1]區(qū)間,識(shí)別率為93.73%,識(shí)別率較前有較大提高。進(jìn)一步進(jìn)行小波增強(qiáng),實(shí)驗(yàn)條件為選用sym5 小波函數(shù)對拉曼光譜數(shù)據(jù)進(jìn)行了2 層分解,對于>0.2 的小波分解系數(shù)賦予1 倍增強(qiáng),對于≤0.2的小波分解系數(shù)賦予0.5 倍削弱,在融合后系數(shù)基礎(chǔ)上進(jìn)行譜圖重構(gòu),識(shí)別結(jié)果為94.4%。進(jìn)一步將小波增強(qiáng)后的拉曼光譜譜圖波段,劃分為10 個(gè)特征波段區(qū)間,計(jì)算得到對應(yīng)的識(shí)別率如表2 所示。結(jié)果也表明不同波段對識(shí)別率的影響不同,且經(jīng)過歸一化后,識(shí)別率最高波段為波段1 595 ~1 710 cm-1不同于未做歸一化處理時(shí)的波段1 240 ~1 400 cm-1。進(jìn)一步開展融合分析,將10 個(gè)特征波段區(qū)間融合,識(shí)別結(jié)果為92.6%。而當(dāng)1 415~1 515 cm-1與1 595~1 710 cm-1波段融合后,識(shí)別率可以達(dá)到95.4%,運(yùn)算時(shí)間也減少到0.60 s。
表2 基于乳酪制品歸一化拉曼光譜的特征波段及對應(yīng)識(shí)別結(jié)果
實(shí)驗(yàn)采集了不同品牌乳酪制品的拉曼光譜數(shù)據(jù),與k 近鄰算法聯(lián)用,研究討論了不同譜圖處理?xiàng)l件下鑒別算法的識(shí)別準(zhǔn)確率,并建立起了一套基于譜圖數(shù)據(jù)處理的鑒別算法優(yōu)化流程。研究結(jié)果表明,小波變換處理可以有效實(shí)現(xiàn)譜圖數(shù)據(jù)的噪聲濾除與特征信號(hào)增強(qiáng)。拉曼光譜數(shù)據(jù)未經(jīng)處理時(shí),鑒別算法識(shí)別率僅為82.27%;經(jīng)coif1 小波降噪處理、歸一化處理、sym5 小波增強(qiáng)以及波段1 415~1 515 cm-1與1 595 ~1 710 cm-1融合處理后,識(shí)別率可達(dá)到95.4%。