龐佳烽,湯 諶,李艷坤,2*,徐崇然,卞?;?/p>
1. 華北電力大學(保定)環(huán)境科學與工程系,河北 保定 0710032. 河北省燃煤電站煙氣多污染物協(xié)同控制重點實驗室,河北 保定 0710033. 天津工業(yè)大學化學與化工學院,天津 300387
奶粉中蛋白質(zhì)的含量是決定奶粉品質(zhì)的一個重要指標。然而通過在奶粉中添加三聚氰胺以虛假提高奶粉中的表觀蛋白質(zhì)含量,從而獲取更多的利潤。三聚氰胺摻雜物嚴重危害了消費者的身體健康和消費權(quán)益。2008年三鹿奶粉污染事件發(fā)生之后,國家質(zhì)量監(jiān)督檢驗檢疫總局頒布了《原料乳與乳制品中三聚氰胺檢測方法》(GB/T 22388—2008): 高效液相色譜法、液相色譜-質(zhì)譜/質(zhì)譜法和氣相色譜-質(zhì)譜聯(lián)用法; 之后衛(wèi)生部又公布三聚氰胺限量值: 嬰幼兒食品中為1 mg·kg-1,其他普通食品中為2.5 mg·kg-1。上述三種實驗方法雖可以精確測定奶粉中的三聚氰胺,但是需要對奶粉進行消解、萃取等預(yù)處理,檢測手段較繁瑣,費用較高。同時也出現(xiàn)了一些應(yīng)用近紅外光譜和拉曼光譜對含有三聚氰胺的奶粉進行鑒別。其中,近紅外光譜儀器普及性相對較差,并不適于低含量三聚氰胺的識別[1]; 而采用拉曼光譜檢測時,熒光背景干擾往往導(dǎo)致有些區(qū)域的拉曼光譜信號較弱,需要采用表面增強拉曼光譜技術(shù)[2-5]。
傅里葉變換中紅外光譜法(FTIR)是一種常用的分析方法,可以對復(fù)雜體系進行整體宏觀鑒定,并且快捷、分辨率高。由于奶粉成分多樣、譜峰重疊引起的譜圖特征減弱; 由于生產(chǎn)工藝和配方的不同,奶粉組成、顏色及顆粒大小等差異較大,因此將化學計量學技術(shù)[6]引入中紅外光譜以實現(xiàn)客觀量化的解析,克服通過比對譜圖及譜圖參數(shù)(峰位、峰高、峰面積等)差異的傳統(tǒng)鑒別方法的局限性、復(fù)雜性及主觀性。本文采用計量學技術(shù)中的多種模式識別(分類)方法對奶粉及摻低含量三聚氰胺奶粉的中紅外光譜進行快速識別。通過比較解析,發(fā)現(xiàn)采用非相關(guān)線性判別分析方法(ULDA)成功地識別了摻偽奶粉。并且利用ULDA方法進行了紅外光譜重要變量(特征波長)的篩選,考察了保留變量與識別準確度的關(guān)系,在保留較少變量數(shù)目下實現(xiàn)了純奶粉與摻三聚氰胺奶粉的鑒別,識別靈敏度和特異度均達到100%。為奶粉的摻偽鑒別、質(zhì)量控制提供了有效的途徑。
德國布魯克公司傅里葉變換紅外光譜儀(Tensor2.0)。
于大型超市購買國產(chǎn)品牌奶粉,包括伊利(女士奶粉、全脂甜奶粉、全脂奶粉和學生奶粉); 蒙牛(全脂甜奶粉、學生高鈣高鐵奶粉、女士高鈣高鐵奶粉、全家高鈣高鐵奶粉和多維高鈣高鐵奶粉); 飛鶴(加鋅加鈣奶粉和全脂甜奶粉); 貝因美健力學配方奶粉; 維恩(加鈣奶粉和早餐奶粉); 維維(維他型豆奶粉、兒童豆奶粉和蔗糖豆奶粉); 三元全家甜奶粉、完達山全脂甜奶粉、永和豆奶粉、大慶老奶粉、樂福記豆奶粉和古城全脂加糖奶粉。
樣品配置: (1)純奶粉樣品: 上述純奶粉每種制樣兩個,共制備46個樣品; (2)摻三聚氰胺奶粉樣品: 選取伊利、飛鶴、貝因美、三元、完達山品牌奶粉與三聚氰胺混合,采用逐級稀釋法在純奶粉中混合少量三聚氰胺,每種奶粉在0.01‰,0.05‰,0.01%,0.05%,0.1%和0.2%(質(zhì)量)濃度下分別制樣兩個,共制備60個樣品。
使用溴化鉀與奶粉進行混合研磨壓片后,采用傅里葉變換紅外光譜儀采集透射光譜。參數(shù): 波數(shù)范圍4 000~400 cm-1,分辨率約1.4 cm-1、掃描次數(shù)32。參比為空氣,環(huán)境溫度25 ℃,每個樣品重復(fù)掃描3次,取其平均光譜作為原始光譜(2 524個變量)。
采用Kennard-Stone分組法劃分訓(xùn)練集與預(yù)測集。46個純奶粉樣本中選取23個做訓(xùn)練集,其余樣本做預(yù)測集; 60個摻三聚氰胺奶粉樣本中選取30個做訓(xùn)練集(三聚氰胺質(zhì)量濃度為0.01‰~0.2%),其余樣本做預(yù)測集(三聚氰胺質(zhì)量濃度為0.01‰~0.2%)。
對原始光譜數(shù)據(jù)首先進行最大最小歸一化預(yù)處理(離差標準化)。通過對原數(shù)據(jù)的線性變換,將結(jié)果映射到集合[0,1]里。
(1)
式(1)中,xmax是樣本數(shù)據(jù)最大值,xmin為樣本數(shù)據(jù)最小值。
使用MATLAB R2014a對數(shù)據(jù)進行建模分析。識別靈敏度和特異度分別為
SEN=A/(A+C)×100%
(2)
SPE=B/(B+D)×100%
(3)
ACC=[1-(C+D)/(A+B)]×100%
(4)
式(2)—式(4)中,SEN為靈敏度,SPE為特異度,ACC為準確度,A為真實摻偽樣數(shù)目,B為真實純樣數(shù)目,C為預(yù)測假摻偽樣數(shù)目,D為預(yù)測假純樣數(shù)目。
主成分分析(principal component analysis,PCA)是尋找最小均方誤差意義下代表原始數(shù)據(jù)投影的方法; 非負矩陣分解(non-negative matrix factorization,NMF)是用兩個非負矩陣的乘積表示原一個非負矩,從而進行數(shù)據(jù)降維的方法; 距離判別分析(distance discriminant analysis,DDA) 是以代判樣品到各總體的距離遠近為判據(jù)的一種直觀判別方法; 偏最小二乘判別分析(partial least squares discrimination analysis,PLS-DA)是將定量PLS用于判別分析的一種策略; 線性判別分析(linear discriminant analysis,LDA)尋找分類的有效投影方向,投影后兩類樣本均值之間的距離盡可能大[7-9]。
非相關(guān)線性判別分析(uncorrelated linear discriminant analysis,ULDA)方法[10-12]是在線性判別分析基礎(chǔ)上,對變換矩陣列向量間的不相關(guān)性加以考慮,以此來減少數(shù)據(jù)在降維后的冗余度。與傳統(tǒng)Fisher判別分析不同,ULDA的非相關(guān)判別矢量(uncorrelated discriminant vector,UDV)之間互不相關(guān),因此可以保留更多信息。ULDA可以使樣本的類內(nèi)距離最小化,類間距離最大化,從而有效地獲取最佳分類特征。
將純奶粉和摻三聚氰胺奶粉按照上述實驗方法進行測定,原始紅外光譜分別如圖1(a)和(b)所示。圖2中曲線a,b分別為隨機選取的純奶粉和摻三聚氰胺奶粉(質(zhì)量濃度為0.05%)的譜圖比較。從圖1可以看出,不同品牌奶粉的紅外光譜近似。1 746 cm-1出現(xiàn)油脂的羰基特征峰,2 925 cm-1處為油脂的亞甲基特征峰,2 854 cm-1對應(yīng)油脂的甲基特征峰,1 655 cm-1為奶粉中蛋白質(zhì)的羰基特征峰,1 159 cm-1為碳水化合物的羰基特征峰,3 383 cm-1是碳水化合物的羥基特征峰[13],峰位均標在了圖2中。從圖2可以看出,純奶粉和摻三聚氰胺奶粉光譜圖的形狀大體相同,并且吸光度值相近。這是由于純奶粉和摻少量三聚氰胺奶粉所包含的主要成分復(fù)雜多樣且相同、質(zhì)量也相近,而中紅外光譜只能識別基團特征峰,無法識別含相同基團的其他物質(zhì)的干擾。因此,單純以肉眼觀察比對譜圖參數(shù)(峰位、峰高等)的差異來區(qū)分不同類樣本具有復(fù)雜性及主觀性,很難實現(xiàn)客觀的解析。因此,將歸一化后的數(shù)據(jù)分別輸入幾種有監(jiān)督和無監(jiān)督的模式識別模型進行綜合比對分析。
圖1 奶粉紅外原始光譜疊加圖(a): 純奶粉; (b): 摻入三聚氰胺的奶粉Fig.1 Raw Infrared spectra of milk powder(a): Pure milk powder;(b): Melamine-containing milk powder
圖2 純奶粉和摻三聚氰胺奶粉的光譜例圖a: 摻入三聚氰胺的奶粉; b: 純奶粉Fig.2 Spectra examples of pure milk powder andmelamine-containing milk powdera: Melamine-containing milk powder; b: Pure milk powder
3.2.1 主成分分析(PCA)和非負矩陣分解(NMF)
對光譜數(shù)據(jù)進行主成分分析,前兩個主成分累計方差貢獻率為98.6%,因此將兩類樣本的第一和第二主成分做圖,如圖3所示。摻三聚氰胺奶粉和純奶粉樣本沒有各自的聚集區(qū)域,分布雜亂。采用非負矩陣分解法,得到兩類奶粉的分類圖(圖4)。純奶粉和摻三聚氰胺奶粉仍然沒有各自聚集區(qū)域,兩類樣本交叉重疊嚴重,無法分開。PCA對樣品分類,有時無法識別即使是簡單的線性組合特征,這可能是導(dǎo)致PCA無法對純奶粉和摻三聚氰胺奶粉準確分類的原因。非負矩陣分解在分解過程中加入矩陣元素均為非負的約束條件,即所得矩陣中的元素都為非負,原矩陣用兩個非負矩陣的乘積表示。雖然NMF具有收斂速度快、左右非負矩陣存儲空間小等優(yōu)點,但在多組分體系光譜數(shù)據(jù)降維過程中可能會導(dǎo)致原特征信息的丟失,給聚類分析帶來困難。
圖3 PCA分類結(jié)果+: 摻入三聚氰胺的奶粉; ◇: 純奶粉Fig.3 The classification results of PCA+: Melamine-containing milk powder;◇: Pure milk powder
圖4 非負矩陣分解的分類結(jié)果+: 摻入三聚氰胺的奶粉; ◇: 純奶粉Fig.4 The classification results of NMF+: Melamine-containing milk powder;◇: Pure milk powder
3.2.2 距離判別分析(DDA)
采用距離判別分析方法中的歐氏距離(Euclidean Distance)和皮爾遜相關(guān)系數(shù)(pearson correlation coefficient,PCC)方法。歐氏距離分析對純奶粉和摻三聚氰胺奶粉樣本分類的靈敏度為78.9%(60/76)、特異度為74.2%(46/62); 皮爾相關(guān)系數(shù)方法對兩類樣品的分類的靈敏度為71.4%(60/84)、特異度為65.7%(46/70)。聚類結(jié)果表明,這兩種距離未能有效地體現(xiàn)出純奶粉、摻三聚氰胺奶粉之間的真實差異。因此,無法對奶粉進行準確分類。
以上無監(jiān)督聚類方法均未能實現(xiàn)兩類樣本的區(qū)分識別,因而采用有監(jiān)督判別方法進行分析。
3.3.1 偏最小二乘判別分析(PLS-DA)
純奶粉標記為[1,0],摻三聚氰胺奶粉標記為[0,1],與對應(yīng)光譜之間建立PLS-DA模型,然后對預(yù)測集分類,結(jié)果如圖5(a,b)所示。純奶粉中有12個樣品分類錯誤,摻三聚氰胺奶粉有10個樣品分類錯誤。預(yù)測靈敏度為71.4%(30/42),特異度為69.7%(23/33)。PLS-DA應(yīng)變量反映自變量的隸屬類型,通過尋找光譜矩陣和樣品分組信息的最大協(xié)方差,從而在新的低維坐標系中對樣品重新排序。PLS-DA雖然可以減少變量間多重共線性產(chǎn)生的影響,但自變量相關(guān)程度過高或難以擬合非線性,可能導(dǎo)致模型丟失最佳分類特征。
圖5 偏最小二乘判別分析分類結(jié)果(a): 摻入三聚氰胺的奶粉; (b): 純奶粉Fig.5 The classification results of PLS-DA(a): Melamine-containing milk powder;(b): Pure milk powder
圖6 線性判別分析分類結(jié)果+: 摻入三聚情胺的奶粉; ◇: 純奶粉Fig.6 The classification results of LDA+: Melamine-containing milk powder;◇: Pure milk powder
3.3.2 線性判別分析(LDA)和非相關(guān)線性判別分析(ULDA)
LDA方法用訓(xùn)練集建模,對預(yù)測集樣本進行識別,結(jié)果如圖6所示。摻假奶粉和純奶粉的判別矢量(discriminant vector,DV)值有差異,能很好地將兩者分開。
同樣采用ULDA對預(yù)測集樣本進行分類,如圖7所示。從非相關(guān)判別矢量(UDV)可以發(fā)現(xiàn),純奶粉、摻三聚氰胺奶粉通過ULDA算法得到了很好的區(qū)分,具有100%的靈敏度和100%的特異性。對比圖6發(fā)現(xiàn),ULDA使兩類樣本間的距離(類間距)更遠,分類效果更好。由于ULDA在Fisher判別準則基礎(chǔ)上,轉(zhuǎn)換矩陣中的任意兩個列向量相互需滿足“S-正交”,這也是LDA與ULDA的主要區(qū)別。在這一約束下,原始數(shù)據(jù)轉(zhuǎn)換成的新的矩陣中的變量(UDV)是不相關(guān)的,這對于特征提取非常有利,可以使新變量的信息冗余度最小。其中的線性轉(zhuǎn)換矩陣為G,圖8給出了光譜全部2 524個變量的G的絕對值圖。G可以看作ULDA的載荷,G絕對值越大,相應(yīng)變量對分類的重要性越高。但保留的變量數(shù)目過少,在摒棄冗余信息的同時,會導(dǎo)致攜帶有效信息變量的丟失,因此考察了預(yù)測準確度隨著保留變量數(shù)目的變
圖7 非相關(guān)線性判別分析分類結(jié)果+: 摻入三聚氰胺的奶粉; ◇: 純奶粉Fig.7 The classification results of ULDA+: Melamine-containing milk powder;◇: Pure milk powder
圖8 ULDA的轉(zhuǎn)換矩陣圖Fig.8 The transformation vector plot for ULDA
化情況。考察了G絕對值從0.68~1.34(間隔0.03)取值對應(yīng)保留變量數(shù)目在1 189~592(占原變量數(shù)目的47.1%~23.5%)范圍內(nèi)所得到的識別準確率值,發(fā)現(xiàn)預(yù)測準確度大體隨變量數(shù)目減少呈現(xiàn)下降趨勢,準確度逐漸從100%降低到52.8%。而且當只有兩類樣本時,ULDA僅用一個判別矢量實現(xiàn)了對樣本的區(qū)分,結(jié)果直觀。ULDA算法為準確鑒別低含量三聚氰胺奶粉提供了一種非常有效的途徑。
采用包括無監(jiān)督(聚類)和有監(jiān)督(判別)的多種模式識別方法對奶粉及含低含量三聚氰胺奶粉的中紅外光譜進行綜合分析比較,提出快捷、準確地定性識別奶粉中低含量三聚氰胺的最優(yōu)ULDA模型,識別靈敏度和特異度均達到100%。并且利用ULDA方法挑選了紅外光譜中表征分類信息的特征變量,考察了保留變量與識別準確度的關(guān)系,在保留較少特征變量數(shù)目下實現(xiàn)了純奶粉與摻三聚氰胺奶粉的鑒別區(qū)分。為奶粉的摻偽識別提供了非常有效的途徑,并有望拓展應(yīng)用到其他食品真?zhèn)蝺?yōu)劣的篩查中。