李艷坤,許東情
(華北電力大學(保定)環(huán)境科學與工程系,河北省燃煤電站煙氣多污染物協(xié)同控制重點實驗室,河北 保定 071003)
作為食物烹飪過程中的基礎材料之一,食用植物油的安全和質量至關重要.當前市場上,由于不同類型的植物食用油成分含量、加工工藝、產地等不同,導致不同食用油之間的價格差異較大,從而發(fā)生在價格較高的食用油中摻兌低價格食用油或非食用油或將廢棄食用油脂等進行脫水、脫色等簡單加工后提煉出“地溝油”的現象.這些劣質油經過了酸敗、氧化、分解等一系列的化學過程后質量極差,會產生含砷、鉛等對人體有毒有害的物質.再加上油脂本身成分復雜多樣,每種油的經典理化特性(酸值、過氧化值、碘價等)數值范圍很寬以及所含微量成分和特殊成分的差異,使得目前用于食用植物油(摻偽)檢測的傳統(tǒng)理化指標檢測法有時難以檢出攙兌或鑒別準確度不高.此時需要聯(lián)合多種儀器方法檢測多種指標參數,如熒光分光光度法、核磁共振法和氣相色譜技術[1-3].這些實驗方法存在費時長、費用高、預處理或檢測過程繁瑣等弊端,而且易引入有毒有害試劑.
傅里葉變換中紅外光譜法(fourier transform infrared, FTIR)是目前廣泛應用的一種分析方法.絕大多數有機和無機化合物的化學鍵振動基頻均在中紅外區(qū)域出現,分子的結構特點主要由吸收波長的位置及其強度反映出來.目前該技術已應用于茶葉質量、葡萄酒參數檢測、中藥材[4-6]等食品藥品領域的分析.它能夠對體系進行整體、宏觀地鑒定,但對于含有大量有機物組分的復雜體系,中紅外譜峰的重疊、移位或特征減弱等會給傳統(tǒng)的譜圖鑒別帶來很大的局限和困難.目前,相關中紅外光譜的研究大多集中于對植物油多種品質指標的檢測[7-8],尚未系統(tǒng)地展開化學計量學模型對食用油品質判別的研究.因此,本研究系統(tǒng)展開了各種模式識別(分類)方法[9]結合傳統(tǒng)傅里葉透射紅外光譜對食用油摻偽的解析.結果表明:非相關線性判別分析模型[10-11](uncorrelated linear discrimination analysis, ULDA)可以有效地提取出類別相關特征信息,實現摻偽食用油的定性及定量分析,為油脂品質的評價與控制提供新的方法借鑒.
德國布魯克公司傅里葉變換紅外光譜儀(Tensor 2.0);市售正品食用油:魯花5S壓榨一級花生油(山東魯花集團有限公司,河北省衡水市);炸貨油:個體攤點反復油炸食物的植物油(濾去固體雜質).
1.2.1 樣本配置
不同比例摻偽樣本的配制:在上述正品食用油基礎上,分別摻入質量分數為5%、15%、25%、35%、45%、55%、65%、75%、85%、95%的炸貨油.每個質量分數下平行配制6個樣本,共計60個樣本;另配置23個正品食用油和23個炸貨油樣本.
1.2.2 光譜采集
戴上手指套,在KBr窗口片中央滴1滴油試樣,使其分散均勻后,用另一KBr窗口片壓于其上.窗片上下加橡膠墊圈裝入液體池,然后裝入傅里葉變換紅外光譜儀測試架進行測定.測試完成后取下液體池及KBr窗片,用酒精棉擦洗窗片表面,并待酒精全部揮發(fā)后,重復進行下一個樣品的測定.紅外光譜儀需開機預熱30 min后采集常規(guī)透射光譜,掃描條件:波數400~4 000 cm-1,掃描間隔約1.42 cm-1、掃描32次.參比為空氣,環(huán)境溫度為25 ℃,每個樣品重復測定3次,取其平均值作為原始光譜(2 525個變量).
樣本集劃分:純正品油和炸貨油樣本中分別隨機選取12個樣本組成24個樣本做訓練集,其余22個樣本做為預測集;為使訓練樣本覆蓋所有摻偽比例(5%~95%),每種摻偽比例下隨機抽取3個樣本組成30個摻偽樣本做為訓練集,其余30個樣本做為預測集.
光譜預處理:經過優(yōu)化,對原始光譜進行5點Savitzky-Golay平滑求二階導數(second derivative, SD)預處理,以消除光譜中的背景噪音,增強樣本中成分相關的光譜吸收信息.
使用MATLAB R2018b建模分析.模型識別靈敏度、特異度和準確度計算公式如下:
(1)
(2)
(3)
其中,SEN為靈敏度,SPE為特異度,ACC為準確度,A為實際的摻偽樣數目,B為實際的正品油樣數目,C為模型預測的假摻偽樣數目,D為模型預測的假正品油樣數目.本文計算時將炸貨油樣看作是摻偽比例為100%的摻偽油樣.
模式(分類)識別方法根據有無訓練樣本分為有監(jiān)督識別方法和無監(jiān)督識別方法.無監(jiān)督識別是在沒有樣本類別歸屬信息的情況下直接根據某種規(guī)則進行分類決策,包括主成分聚類分析(principal component analysis, PCA)、距離判別分析(distance discriminant analysis, DDA)、非負矩陣(因式)分解(nonnegative matrix factorization, NMF)等;有監(jiān)督識別方法包括偏最小二乘判別分析(partial least squares discrimination analysis, PLS-DA)、線性判別分析方法(linear discrimination analysis, LDA)、支持向量機(support vector machine, SVM)等.本研究主要采用以下方法進行綜合解析:
主成分分析[12]是一種把多指標轉化為少數幾個綜合指標的降維方法.通過保留低階主成分,忽略高階主成分,從而減少數據集維數,同時保持數據集中對方差貢獻最大的特征;非負矩陣分解[13]是在數據分解過程中加入非負矩陣的約束條件,使原矩陣由低維的系數矩陣和基矩陣乘積所表示;距離判別分析將每個樣本看成多維空間的一個點,通過度量樣本間的某種空間距離來衡量其相似程度,從而實現樣本的聚類;偏最小二乘判別分析[14]是基于偏最小二乘校正與線性判別分析相結合,將原始數據降維后得到的得分矢量進行線性判別分析,得到分類判別函數從而建立分類模型.
非相關線性判別分析方法(uncorrelated linear discrimination analysis, ULDA)[15]的基本思想是在傳統(tǒng)Fisher判別的基礎上,對轉換矩陣向量間的不相關性加以考慮,以此來減少數據在降維后的冗余度.從而得到最有效的分類特征,盡可能地使類內樣本距離最小化,類間樣本距離最大化.通過找出原始光譜數據矩陣X的轉換矩陣G后,將X投影得到新的低維矩陣(非相關判別矢量UDV),從UDV投影圖可以直觀地進行樣本類別的判斷.轉換矩陣G可以看做是變量的“負荷量”,它以初始變量組合為特征,其絕對值大小可以反映出對應變量對于識別類別特征的重要性,據此本文進行了特征波長(變量)篩選的研究與探討.
UDV=XG.
(4)
將正品油、摻偽油和炸貨油按照上述的實驗方法進行測定,隨機抽取樣本的原始中紅外光譜如圖1所示.由圖1可以看出,在3 010 cm-1附近呈現不飽和碳鏈的C—H伸縮振動峰,在2 926、2 856 cm-1附近出現飽和碳鏈C—H的伸縮振動峰,1 747 cm-1附近出現C=O的伸縮振動峰,1 465 cm-1附近有甲基的變形振動峰,1 164 cm-1附近出現甘油三酯C—O的伸縮振動峰,在725 cm-1附近出現順式烯烴彎曲振動峰,以上基團特征峰位標于圖1中.
經比較,3類油樣的中紅外光譜透射圖輪廓近似,特征譜峰的峰形、峰位幾乎相同,而且透過率值也很相近.單憑觀察比對譜圖參數的差異,基本無法實現區(qū)分鑒別.因此,采取將二階導數處理后的光譜數據結合化學計量學模型進行特征類別的提取與鑒別分析.
a.正品油;b.炸貨油;c.摻偽油圖1 原始中紅外光譜圖Fig.1 Example of raw mid-infrared spectra
首先,采用傳統(tǒng)的主成分分析方法對光譜數據進行解析,經計算前2個主成分PC1與PC2累計所占方差貢獻率為99.60%,因此提取樣本的第1和第2主成分進行分析.如圖2所示,正品油、摻偽油和炸貨油在各自類內有一定的聚集趨勢,但在類間分布上相互交叉重疊嚴重,無法實現區(qū)分.同樣采用非負矩陣分解法進行解析,分類結果如圖3所示.3類樣本都不具有各自的聚集區(qū)域,分布雜亂.盡管許多模型學習過程中的降維任務由PCA完成,但當數據變量間存在多重相關性時,即使是簡單的線性組合,PCA對分類特征的解釋及提取能力變差[16],會影響樣本聚類結果的準確性;而NMF雖實現了非線性的維數約減,但受其分解后產生分量的非負性要求約束,可能丟失原光譜的類特征信息,因而使樣本聚類變得困難.
圖2 主成分分析的分類結果Fig.2 Analysis results of PCA
圖3 非負矩陣分解的分類結果Fig.3 Analysis results of NMF
3.3.1 偏最小二乘判別分析(PLS-DA)
將正品油標記為1類[1,0,0],摻偽油標記為2類[0,1,0],炸貨油標記為3類[0,0,1],與相對應的訓練集樣本光譜之間建立PLS-DA模型,然后對預測集樣本進行分類,結果如圖4所示.結果表明:正品油中有1個樣本分類錯誤,摻偽油中出現8個樣本分類錯誤,炸貨油中有2個樣本分類錯誤,判別靈敏度為80.39% (41/51),特異度為91.67%(11/12),準確度為78.85%(41/52).相對于PCA,PLS-DA更關注相應變量的特征,消除了不包含分類信息但卻具有強烈共線性的變量對數據分析的影響,使得偏最小二乘的特征變量吸取了更多的相應變量的特征信息,從而得到更好的分類效果.然而,當存在變量含有部分分類信息同時又有一定的共線性時,PLS-DA可能會受這類變量的影響,做出不正確的判斷[15].
圖4 偏最小二乘判別分析分類結果Fig.4 Analysis results of PLS-DA
3.3.2 非相關線性判別分析(ULDA)
a.全部變量;b.500個變量圖5 非相關線性判別分析的分類結果Fig.5 Analysis results of ULDA
同時,將訓練集光譜與其摻偽比例之間采用偏最小二乘法建立定量關系模型,對預測集樣本的摻偽比例進行預測,結果如圖6所示,預測結果和實際結果呈現出很好的線性關系.因此,可用于植物油摻偽比例的定量預測.
利用各種聚類和判別的模式識別方法、光譜預處理方法結合中紅外光譜對食用植物油摻偽進行了較系統(tǒng)的研究.通過綜合解析,提出了高效、精確的判別食用油摻偽的SD-ULDA模型.基于此提出特征波長篩選策略,構建了更加簡潔、高效的定性判別模型.同時,對食用油摻偽比例也進行了準確地預測.研究成果對于油脂的品質鑒定和質量分析具有理論和應用價值,為光譜特征波長的篩選提供新方法,可以有效提升模型的預測能力,有望拓展應用到其他食品的真?zhèn)巍?yōu)劣的鑒別中.
圖6 PLS預測摻偽比例的結果Fig.6 Quantitative prediction results of PLS