吳靜珠,石瑞杰,陳 巖,劉翠玲,徐 云
(1.北京工商大學(xué)計算機與信息工程學(xué)院,北京100048;2.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京100083)
基于PLS-LDA和拉曼光譜快速定性識別食用植物油
吳靜珠1,石瑞杰1,陳 巖1,劉翠玲1,徐 云2
(1.北京工商大學(xué)計算機與信息工程學(xué)院,北京100048;2.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京100083)
以6種食用油共計23個樣本為分析對象,采用偏最小二乘線性判別分析法(PLS-LDA)和拉曼光譜進行單一種類(橄欖油、花生油和玉米油)食用油快速定性檢測,通過自適應(yīng)迭代懲罰最小二乘法(airPLS)對拉曼信號進行背景扣除,以及蒙特卡洛無信息變量消除法篩選波長變量,不但有效減少了波長點數(shù),降低了建模運算量,而且提高了單一種類食用油的識別率,使得總體識別率均高于90%,并在此基礎(chǔ)上進一步提出了采用PLS-LDA進行多種類食用油識別的檢測流程。實驗結(jié)果表明PLS-LDA在食用油定性識別檢測中具有較好的應(yīng)用前景和可行性,該方法也可為定性檢測食品及農(nóng)產(chǎn)品品質(zhì)提供借鑒。
偏最小二乘線性判別分析法,拉曼光譜,食用植物油,蒙特卡洛無信息變量消除法
食用植物油是人們膳食結(jié)構(gòu)中不可缺少的組成部分,其質(zhì)量優(yōu)劣對人體健康有著重要的影響。一些不法商家為追求利潤,用廉價的植物油與正常油品摻雜,以次充好,以假亂真,從中牟取暴利,尤其是橄欖油、花生油等價格較為昂貴的植物油是重點被摻雜和假冒的對象。因此,為保護合法生產(chǎn)經(jīng)營者和消費者的利益,對食用植物油品種進行準確快速鑒別是非常必要的。
傳統(tǒng)的食用油品種鑒別方法為感官評定,該方法的檢測結(jié)果受主觀因素影響較大,不適用于大批量樣本的檢測。拉曼光譜(Raman)是近年蓬勃發(fā)展起來的一種極具前景的快速檢測手段,具有無污染、無需前處理、無接觸、樣品量少等優(yōu)點,在食品、石油化工、珠寶考古等領(lǐng)域得到初步的應(yīng)用和探索[1-3]。食用油的拉曼光譜信息非常豐富,油脂結(jié)構(gòu)中的“C=C”對拉曼光譜中的分子振動有較大的貢獻,不同種類植物油中的脂肪酸主要差異表現(xiàn)為其數(shù)量變化。Zhang等采用主成分分析(PCA)方法和拉曼光譜對橄欖油摻假進行識別,對摻假量5%以上的樣品取得了較好的識別結(jié)果[4]。PIETER SAMYN等采用中紅外和拉曼光譜,結(jié)合PCA和偏最小二乘法(PLS)回歸模型,對巴西植物油進行質(zhì)量評估和統(tǒng)計分類[5]。Stewart FrancisGraham等采用近紅外和拉曼技術(shù)結(jié)合PCA檢測飼料行業(yè)用油是否摻入礦物油的研究[6]。周秀軍等選取食用油不飽和度特征的兩處拉曼峰值結(jié)合多重光譜預(yù)處理方法對食用植物油品種進行快速分類,各類別樣本聚集效果比PCA好[7]。目前國內(nèi)食用油市場亟需快檢手段監(jiān)管食用油生產(chǎn)和銷售的整個環(huán)節(jié)。基于近紅外的食用油品質(zhì)檢測技術(shù)具有快速、簡便的特點被大量研究和應(yīng)用,但是近紅外光譜存在譜峰重疊嚴重,檢測所需樣品量大等問題,不利于量少樣品及微量物質(zhì)的檢測。拉曼的譜峰清晰尖銳,其特征峰位置、強度和線寬提供分子振動、轉(zhuǎn)動方面的信息,據(jù)此可以反映出分子中不同的化學(xué)鍵或官能團。拉曼光譜技術(shù)具有操作簡便,測定時間短,靈敏度高且所需樣品量少等優(yōu)點,適合于定量研究、數(shù)據(jù)庫搜索以及運用差異分析進行定性研究。目前國內(nèi)基于拉曼光譜的食用油品質(zhì)檢測的報道較少,研究尚處于起步階段。
本工作擬采用拉曼光譜結(jié)合偏最小二乘-線性判別分析(PLS-LDA)方法,以食用油中橄欖油,花生油和玉米油三個品種為例,建立單一種類的食用油的識別模型,通過MCUVE挑選特征波長變量優(yōu)化該定性模型,提升其預(yù)測能力。并在此基礎(chǔ)上,探索基于PLS-LDA的多種類食用油識別的可行性。
1.1 材料與儀器
23個食用植物油樣品 購于北京物美超市,其中橄欖油樣本6個、花生油樣本5個、玉米油樣本4個、葵花籽油樣本4個、稻米油樣本2個、亞麻籽油樣本2個;石油醚 分析純。
拉曼光譜儀 Thermofisher公司的DXR激光顯微拉曼光譜儀(光譜儀參數(shù)如下:780nm激光光源;奧林巴斯BX51研究級顯微鏡,10×目鏡聚焦;拉曼位移范圍50~3300cm-1)。
1.2 拉曼光譜采集
采用DXR激光顯微拉曼光譜儀采集食用油的拉曼光譜。由于待測對象是液體樣品,因此采用金屬制容器裝樣,以避免干擾待測對象的拉曼信號。全部樣品未經(jīng)任何化學(xué)處理,采用移液槍逐一裝樣掃描樣品。每次測量前均用石油醚清洗金屬質(zhì)容器,避免樣品間交叉污染。食用油樣品的拉曼譜圖如圖1所示。
圖1 食用油拉曼譜圖Fig.1 Raman spectra of edible oil
1.3 airPLS方法
airPLS可以用來對拉曼信號進行背景扣除,且無需用戶的任何介入和初始信息(如峰值檢測等)。該方法主要包括兩個方面:懲罰最小二乘算法對信號的平滑和自適應(yīng)迭代將懲罰過程轉(zhuǎn)變成一個基線估計的懲罰最小二乘算法[8]。其中參數(shù)λ可以用來調(diào)節(jié)擬合基線的平滑度和精確度之間的平衡[9-10]。本實驗采用airPLS對食用油拉曼光譜進行基線校正。
1.4 PLS-LDA方法
本文采用PLS-LDA方法建立判別模型。PLSLDA的基本思路:首先利用PLS算法將矩陣X和y進行主成分分解,得到X矩陣的主成分T,然后利用T和各樣本的y值做線性判別分析,最終導(dǎo)出判別函數(shù)[1]。本實驗中采用PLS算法進行主成分分解結(jié)合Fisher線性判別法進行分析[11]。在windows 7操作系統(tǒng)和MATLAB 7.6.0的軟件平臺下,調(diào)用軟件包CARS_PLSLDA V3.5實現(xiàn)上述算法(下載地址:http://code.google.com/p/ cars2009/downloads)。
1.5 模型評價指標
根據(jù)文獻[12],蒙特卡洛交叉校驗得到的模型指標與K折交叉校驗和留一法交叉校驗相比,更接近于實際預(yù)測能力。采用蒙特卡洛交叉校驗的模型指標來評價模型預(yù)測能力更有意義實際。因此本實驗采用蒙特卡洛法進行抽樣建模。
通常采用真實樣本識別率,假冒樣本識別率及總體識別率對模型識別的性能進行評價。設(shè)真實樣本個數(shù)n1,假冒樣本個數(shù)n2,樣本總體個數(shù)則為n1+n2;設(shè)被正確識別的真實樣本個數(shù)m1,被正確識別的假冒樣本個數(shù)m2,則真實樣本識別率(%)=m1/n1,假冒樣本識別率(%)=m2/n2,總體識別率(%)=(m1+m2)/(n1+n2)。
2.1 譜圖預(yù)處理
食用植物油的拉曼光譜中位于1650cm-1處特征峰的峰值直接反映了不飽和烯烴鍵(C=C)的含量,而位于1260cm-1處的特征峰則反映了不飽和烯烴鍵所在碳原子碳氫鍵(=C-H)的含量,這兩個特征峰均體現(xiàn)了食用油的不飽和程度[7]。另外,從上圖1中可以看到位于兩端的光譜信號毛刺較多,噪聲較大。因此本實驗選取包含上述特征峰,且避開兩端的光譜區(qū)域(1109~1784cm-1)作為區(qū)別食用植物油品種的理論依據(jù)。
拉曼信號在采集過程中,易受到儀器自身和樣本擺放位置等因素的干擾影響,因此對拉曼光譜進行預(yù)處理是很有必要的。本實驗采用airPLS對選中的譜區(qū)進行基線校正,當(dāng)選取λ=105,如圖2所示。
2.2 基于PLS-LDA的單一種類食用油的識別
考慮到本實驗食用油樣本集中一些種類的食用油樣本個數(shù)較少,因此實驗只選擇三種食用油:橄欖油,花生油和玉米油分別進行單一種類識別。以橄欖油識別為例,若為真實橄欖油樣品,則類別標記為1,若非橄欖油樣品,則類別標記為-1。在本實驗樣本集中,橄欖油真實樣本有6個,假冒樣本有17個。
本實驗采用蒙特卡洛采樣方法隨機抽樣1000次,每次按80%的比例隨機在樣品集中抽樣作為訓(xùn)練集,20%作為測試集。根據(jù)每次抽樣得到的訓(xùn)練集建立PLS-LDA識別模型,計算測試集樣本的種類識別率。根據(jù)抽樣比例,每次抽樣,測試集樣本23×20%≈5個樣本,因此1000次抽樣得到測試集樣本共有5000個。表1中的結(jié)果是1000次抽樣得到的測試集的平均識別率。
圖2 airPLS光譜預(yù)處理Fig.2 Spectra preprocessing based on airPLS
表1 基于PLS-LDA的食用植物油定性識別結(jié)果Table.1 Classification of edible vegetable oil based on PLS-LDA
一般情況下,變量篩選可以提高模型的預(yù)測精度和增強模型的解釋性[13-14]。鑒于表1中識別率不高,因此這里采用蒙特卡洛無信息變量消除法(MCUVE)挑選波長變量。本實驗通過MCUVE-PLSLDA變量篩選[15]后的波長如圖3所示。從圖3中可以看出,三種植物油識別模型挑選的拉曼光譜在位于1650cm-1附近處有重疊區(qū)域,而該處的特征峰的峰值直接反映了不飽和烯烴鍵(C=C)的含量,正是區(qū)別不同食用油種類的理論依據(jù)。
在MCUVE-PLSLDA變量篩選后,重復(fù)蒙特卡洛交互檢驗,建立PLS-LDA識別模型,結(jié)果如表2所示。表2中三種植物油的真實樣本識別率,假冒樣本識別率和總體識別率均高于變量篩選前的識別率。
2.3 基于PLS-LDA的多種類食用油識別
根據(jù)上述實驗結(jié)果,PLS-LDA可用于單一種類的食用油識別,即二元識別。若想將其用于多元識別,即多種類食用油的識別,可采用如圖4所示流程圖。本實驗隨機選取了橄欖油樣本、花生油樣本、玉米油樣本及亞麻籽油樣本各一個,采用上述選取的波長變量建立的PLS-LDA模型及圖4所示多種類食用油的識別流程,進行測試。4個樣本均得到了正確的分類。
圖3 MCUVE篩選的食用油光譜拉曼光譜波長變量Fig.3 Wavelength variable selection on Raman of edible oil by MCUVE
表2 基于MCUVEPLS-LDA的食用植物油定性識別結(jié)果Table.2 Result of Classification of edible vegetable oil based on MCUVEPLS-LDA
本文采用PLS-LDA進行單一種類食用油快速定性識別研究,通過MCUVE篩選特征波長變量大大提高了本實驗中3種食用植物油的識別率,總體識別率均大于90%,并提出了采用PLS-LDA進行多種類食用油識別流程。實驗結(jié)果表明PLS-LDA方法在食用油定性識別中具有較好的應(yīng)用前景和可行性,并可探索將此方法拓展到類似的農(nóng)產(chǎn)品和食品的定性檢測應(yīng)用。從應(yīng)用統(tǒng)計學(xué)的角度而言,食用油樣本(種類和數(shù)量)的收集是否合理是影響到模型實用性的根本,就目前檢索的研究報道,都沒有涉及到這方面的工作。因此本工作后期將從統(tǒng)計學(xué)角度進一步收集食用油樣本數(shù)據(jù),探索解決基于PLS-LDA食用油定性識別模型的實用化過程中遇到的問題。
圖4 基于PLS-LDA的多種類食用油識別流程圖Fig.4 Flowchart of identifying different kinds of edible oil based on PLS-LDA
[1]褚小立.化學(xué)計量學(xué)方法與分子光譜分析技術(shù)[M].北京:化學(xué)工業(yè)出版社,2011.
[2]陳健,肖凱軍,林福蘭.拉曼光譜在食品分析中的應(yīng)用[J].食品科學(xué),2007,28(12):554-558.
[3]施玉珍,陳志春,林賢福.拉曼光譜與紅外光譜無損檢測技術(shù)新進展[J].分析化學(xué),2005,33(2):272-276.
[4]Xiaofang Zhang,Xiaohua Qi,Mingqiang Zou,et al.Rapid Authentication of Olive Oil by Raman Spectroscopy Using Principal Component Analysis[J].Analytical Letters,2011,44(12):2209-2220.
[5]PIETER SAMYN,DIETER VAN NIEUWKERKE,GUSTAAF SCHOUKENS,et al.Quality and statistical classification of brazilian vegetable oils using mid-infrared and Raman spectroscopy[J].Applied Spectroscopy,2012,66(5):552-562.
[6]Stewart Francis Graham,Simon Anthony Haughey,Robert Marc Ervin,et al.The application of near-infrared(NIR)and Raman spectroscopy to detect adulteration of oil used in animal feed production[J].Food Chemistry,2012,132:1614-1619.
[7]周秀軍,戴連奎,李晟.基于拉曼光譜的食用植物油快速鑒別[J].光譜學(xué)與光譜分析,2012,32(7):1829-1833.
[8]房承宣,李建華,梁逸曾.拉曼光譜結(jié)合背景扣除化學(xué)計量學(xué)方法用于汽油中MTBE含量的快速測定研究[J].分析測試學(xué)報,2012,31(5):541-545.
[9]Z-M Zhang,S Chen,Y-Z Liang.Baseline correction using adaptive iteratively reweighted penalized least squares[J].Analyst,2010,135(5):1138-1146.
[10]陳珊.拉曼背景扣除算法及其應(yīng)用研究[D].長沙:中南大學(xué),2011.
[11]Li H-D,Zeng M-M,Tan B-B,et al.Recipe for revealing informative metabolites based on model population analysis[J]. metabolomics,2011,doi:10.1007/s11306-010-0213-z.
[12]袁大林,梁逸曾,許青松.QSAR/QSPR模型中的蒙特卡羅交叉效驗評價[J].計算機與應(yīng)用化學(xué),2006,23(6):569-573. [13]Li H-D,Y-Z Liang,Q-S Xu,et al.Model population analysis for variable selection[J].J Chemometr,2009,24:418-423.
[14]Roman M Balabin,Sergey V Smirnov.Variable selection in near-infrared spectroscopy:Benchmarking of feature selection methods on biodiesel data[J].Analytica Chimica Acta,2011,692:63-72.
[15]Wensheng Cai,Yankun Li,Xueguang Shao.A variable selection method based on uninformative variable elimination formultivariate calibration of near-infrared spectra[J]. Chemometricsand IntelligentLaboratorySystems,2008,90:188-194.
Rapid qualitative identification method of edible vegetable oil based on PLS-LDA and Raman
WU Jing-zhu1,SHI Rui-jie1,CHEN Yan1,LIU Cui-ling1,XU Yun2
(1.School of Computer and Information Engineering,Beijing Technology and Business University,Beijing 100048,China;2.College of Information and Electrical Engineering,China Agricultural University,Beijing 100083,China)
This paper choose 6 kinds of edible vegetable oils for a total of 23 samples as a typical tested object. Partial Least Squares-Linear Discriminant Analysis(PLS-LDA)method was employed to quickly identify a certain kind of edible vegetable oil(olive oil,peanut oil and corn oil)based on Raman.Raman backgrounds were subtracted by adaptive iteratively reweighted Penalized Least Squares(airPLS)method and wavelength variables were selected by Monte Carlo Uninformative Variable Elimination(MCUVE)method.The above spectra preprocessing not only effectively reduced the wavelength points and modeling computation,but also improved the general recognition rates higher than 90%,respectively.The process of identifying different kinds of edible oil using PLS-LDA method was suggested further on above basis.The experimental results showed that the PLS-LDA method had good application prospects and feasibility to identify edible oil species.This method provided a reference for processing the similar problems in food and agricultural products quality detection.
Partial Least Squares-Linear Discriminant Analysis(PLS-LDA);Raman;edible vegetable oil;Monte Carlo Uninformative Variable Elimination(MCUVE)
TS207.3
A
1002-0306(2014)06-0055-04
2013-08-14
吳靜珠(1979-),女,博士,副教授,主要從事基于分子光譜技術(shù)的農(nóng)產(chǎn)品及食品檢測方面的研究。
北京市自然科學(xué)基金面上項目(4132008);北京教委重點項目(KZ201310011012);北京市屬高等學(xué)校人才強教項目。