顧從英, 唐倩倩, 相秉仁, 徐建平
(1.中國(guó)藥科大學(xué)分析測(cè)試中心,江蘇南京 210009;2.中國(guó)藥科大學(xué)理學(xué)院,江蘇南京 210009;3.山東綠葉制藥有限公司藥物分析研究室,山東煙臺(tái) 264000;4.中健藥業(yè)有限公司,廣東中山 528437)
食用植物油含有人體必需的脂肪酸和脂溶性維生素,是人類日常生活的必需品。但一些不法商販將劣質(zhì)油作為合格食用油出售,嚴(yán)重?fù)p害消費(fèi)者健康。因此,如何識(shí)別不合格的食用植物油就非常必要。但不合格的食用植物油在感官上是難以辨認(rèn)的。目前,人們對(duì)食用油的檢測(cè)常采用的方法有:用質(zhì)譜方法分析食用油的溶劑殘留[1]、砷化合物[2];用色譜方法分析食用油的抗氧化劑[3];用頂空固相微萃取結(jié)合多變量分析方法來(lái)區(qū)別食用油和烹調(diào)過(guò)的油[4]等。但這些方法的分析速度一般不快,而且經(jīng)常需要復(fù)雜的樣品前處理,因而會(huì)帶來(lái)化學(xué)污染問(wèn)題。近紅外光譜[5,6]是利用物質(zhì)在近紅外光譜區(qū)的光學(xué)特性快速測(cè)定某種物質(zhì)中的一種或多種化學(xué)成分含量的新技術(shù),具有分析速度快、樣品準(zhǔn)備簡(jiǎn)單、不破壞樣品、沒(méi)有化學(xué)污染等優(yōu)點(diǎn)[7,8]。近幾年,近紅外光譜在油的定量[9 - 13]和定性[14 - 16]分析中都有應(yīng)用。
偏最小二乘判別分析法(PLSDA)[17,18]是一種基于偏最小二乘[19]回歸分析的多元線性統(tǒng)計(jì)方法。最小二乘支持向量機(jī)(LSSVM)[20]是經(jīng)典向量機(jī)的一種改進(jìn),降低了計(jì)算復(fù)雜性,加快了求解速度。偏最小二乘判別分析法及最小二乘支持向量機(jī)的判別分析的輸出值都為表征類別的一組虛擬變量,對(duì)于未知樣本,其預(yù)測(cè)值若接近代表某個(gè)類別的虛擬變量,則標(biāo)明該樣本屬于對(duì)應(yīng)的類別。近紅外(NIR)光譜與偏最小二乘判別分析[21]相結(jié)合,或者與最小二乘支持向量機(jī)的判別分析[22,23]相結(jié)合都可以應(yīng)用于定性分析方面。
本研究以過(guò)氧化值為參考,采用近紅外光譜結(jié)合判別方法初步鑒別食用植物油的質(zhì)量。首先使用Kennard-stone(KS)及SPXY(既考慮了光譜X矩陣又考慮了性質(zhì)參數(shù)Y矩陣的訓(xùn)練集和驗(yàn)證集劃分方法)這兩種方法對(duì)訓(xùn)練集和驗(yàn)證集樣本進(jìn)行劃分,再使用偏最小二乘判別分析和最小二乘支持向量機(jī)的判別分析對(duì)食用植物油的近紅外光譜進(jìn)行建模和預(yù)測(cè),該方法可對(duì)食用植物油的質(zhì)量控制提供參考。
共收集了不同品種或同一品種但不同批次的210個(gè)食用植物油樣品,根據(jù)ISO 3960-2001中的方法檢測(cè)所有食用植物油樣品的過(guò)氧化值。
過(guò)氧化值的測(cè)定過(guò)程簡(jiǎn)述如下:(1) 稱取一定量的食用植物油于錐形瓶中;(2) 將食用植物油用50 mL的冰乙酸-異辛烷(體積比為60∶40)溶解;(3) 加入0.5 mL飽和KI溶液,蓋上塞子使其反應(yīng),時(shí)間為1 min±1 s,同時(shí)振搖錐形瓶;(4) 立即加入蒸餾水;(5) 用約0.01 mol/L的Na2S2O3溶液滴定上述溶液,滴定的同時(shí)用力振搖,直至黃色幾乎消失;(6) 添加約0.5 mL淀粉溶液,繼續(xù)滴定,臨近終點(diǎn)時(shí)不斷振搖,使所有的碘從溶劑層釋放出來(lái),至藍(lán)色消失,即為終點(diǎn)。過(guò)氧化值的計(jì)算公式為:
(1)
其中,V與V0為食用植物油和空白消耗的Na2S2O3溶液的體積,單位為 mL;c為Na2S2O3溶液的濃度,單位為 mol/L;m為食用植物油的質(zhì)量,單位為 g;過(guò)氧化值的單位為 meq/kg。
圖1 金龍魚(yú)食用調(diào)和油(第二代)的原始近紅外光譜Fig.1 Original near infrared spectra for Jinlongyu edible blend oil(second generation)
利用配有積分球檢測(cè)器的YDZ1-1近紅外光譜儀(南京中地儀器有限公司)采集食用植物油的漫反射光譜,波長(zhǎng)范圍為1 100~2 300 nm,分辨率為2 nm,測(cè)量溫度為25±2 ℃??偣驳玫?10個(gè)近紅外譜圖。圖1是金龍魚(yú)食用調(diào)和油(第二代)的原始近紅外光譜。
近紅外分析技術(shù)必須依賴數(shù)學(xué)模型。如何挑選具有代表性的樣本組成訓(xùn)練集,是該技術(shù)的核心問(wèn)題。根據(jù)不同的方法選擇的樣本作為訓(xùn)練集,模型的預(yù)測(cè)結(jié)果肯定也不同。常用的方法包括KS及SPXY法等。KS法[24]是通過(guò)計(jì)算樣本之間的歐氏距離來(lái)選擇訓(xùn)練集樣本,具體步驟如下:
首先按照下式計(jì)算所有樣本兩兩之間的歐氏距離,選擇距離最大的兩個(gè)作為第一個(gè)和第二個(gè)訓(xùn)練集樣本。
(2)
其中,xp(j)和xq(j)是p和q樣本在j波長(zhǎng)處的光譜參數(shù),J是光譜的波長(zhǎng)個(gè)數(shù),N是樣本個(gè)數(shù)。
然后計(jì)算每個(gè)剩余樣本與已選的兩個(gè)樣本之間的距離,其中最短距離被選擇;等所有的剩余樣本計(jì)算完,選擇這些最短距離中的最長(zhǎng)距離所對(duì)應(yīng)的樣本作為第三個(gè)訓(xùn)練集樣本。
重復(fù)上一個(gè)步驟,直至所選的訓(xùn)練集樣本的個(gè)數(shù)等于預(yù)先確定的數(shù)目為止。
KS法的一個(gè)缺點(diǎn)就是它僅僅考慮了樣本間的光譜差異,而光譜差異包含著儀器差異和環(huán)境差異等,它們會(huì)干擾KS法選擇樣本。為了尋求樣本間差異的更好的表示方法,在計(jì)算樣本間差異時(shí),最好同時(shí)考慮樣本間的光譜差異和性質(zhì)參數(shù)差異。
SPXY[25]法是在KS法的基礎(chǔ)上發(fā)展而來(lái)的,是綜合考慮光譜和性質(zhì)參數(shù)差異來(lái)選擇訓(xùn)練集。在公式(2)基礎(chǔ)上考慮了性質(zhì)空間因素dy(p,q), 即:
(3)
式中,yp和yq是p和q樣本的性質(zhì)參數(shù)。
SPXY法的逐步選擇過(guò)程和KS法相似,但用dxy(p,q)(見(jiàn)公式(4))代替了dx(p,q)。式中將dx(p,q)和dy(p,q)分別除以它們?cè)跀?shù)據(jù)集中的最大值,是為了確保樣本在光譜空間和性質(zhì)空間具有相同的權(quán)重。
(4)
SPXY法能夠有效地覆蓋多維向量空間,從而有可能改善所建模型的預(yù)測(cè)能力。
Matlab7.6.0(Math Works Inc.Natick,USA), PLS 6.2 版工具箱(http://www.eigenvector.com/software/pls-toolbox.htm 下載), LSSVMlab v.1.8(http://www.esat.kuleuven.be/sista/lssvmlab 下載)。
分別采用KS法及SPXY法從210個(gè)樣本中抽取三分之二的樣本作為訓(xùn)練集,另外三分之一的樣本作為驗(yàn)證集。對(duì)于不同的劃分訓(xùn)練集和驗(yàn)證集的方法,訓(xùn)練集中都有140個(gè)食用植物油樣本,驗(yàn)證集中都有70個(gè)食用植物油樣本。
根據(jù)國(guó)際食品法典委員會(huì)規(guī)定的食用油脂的過(guò)氧化值衛(wèi)生標(biāo)準(zhǔn),過(guò)氧化值小于或等于10 meq/kg的食用植物油為合格油,否則為不合格油。因此在偏最小二乘判別分析法中,將過(guò)氧化值小于或等于10 meq/kg的食用植物油樣本賦值為0,將過(guò)氧化值大于10 meq/kg的食用植物油樣本賦值為1。采取留一交互驗(yàn)證,閾值是PLS Toolbox 6.2 自動(dòng)設(shè)定的。假如預(yù)測(cè)值大于閾值,則判斷該食用植物油的質(zhì)量不合格;假如預(yù)測(cè)值小于閾值,則判斷該食用植物油的質(zhì)量合格。偏最小二乘判別分析模型的預(yù)測(cè)能力是用所有樣本的總正確率來(lái)評(píng)估的。一般認(rèn)為總正確率越高,模型越好。
表1是不同的劃分訓(xùn)練集和驗(yàn)證集方法及不同的前處理方法的偏最小二乘判別分析的預(yù)測(cè)結(jié)果。由表1可見(jiàn),對(duì)同種劃分訓(xùn)練集和驗(yàn)證集的方法,數(shù)據(jù)中心化及方差比例的預(yù)測(cè)結(jié)果一般稍好于正交信號(hào)校正。最好的預(yù)測(cè)結(jié)果是:用SPXY法劃分訓(xùn)練集和驗(yàn)證集,當(dāng)前處理方法為數(shù)據(jù)中心化或者方差比例時(shí),訓(xùn)練集中只有1個(gè)樣本被誤判,驗(yàn)證集中也只有11個(gè)樣本被誤判,所有樣本的判別總正確率為94.3%。圖2和圖3分別是用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的偏最小二乘判別分析的訓(xùn)練集和驗(yàn)證集的預(yù)測(cè)結(jié)果圖。
表1 偏最小二乘判別分析的預(yù)測(cè)結(jié)果
圖2 用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的偏最小二乘判別分析的訓(xùn)練集的預(yù)測(cè)結(jié)果Fig.2 Prediction results in calibration set(partial least squares discriminant analysis,pretreatment method is mean centre,and method of selecting for calibration set is SPXY)
圖3 用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的偏最小二乘判別分析的驗(yàn)證集的預(yù)測(cè)結(jié)果Fig.3 Prediction results in validation set(partial least squares discriminant analysis,pretreatment method is mean centre,and method of selecting for calibration set is SPXY)
表1中的潛變量數(shù)是根據(jù)總正確率并參照交互驗(yàn)證均方根誤差選擇的。圖4是用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的總正確率與潛變量數(shù)之間的關(guān)系。圖5是用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的交互驗(yàn)證均方根誤差與潛變量數(shù)之間的關(guān)系。
圖4 用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的偏最小二乘判別分析總正確率與潛變量數(shù)之間的關(guān)系Fig.4 Relationship between overall rate of accuracy and latent variable number(partial least squares discriminant analysis,pretreatment method is mean centre,and method of selecting for calibration set is SPXY)
圖5 用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的偏最小二乘判別分析交互驗(yàn)證均方根誤差與潛變量數(shù)之間的關(guān)系Fig.5 Relationship between RMSECV and latent variable number(partial least squares discriminant analysis,pretreatment method is mean centre,and method of selecting for calibration set is SPXY)(RMSECV:root-mean-square-error of cross validation)
最小二乘支持向量機(jī)的判別分析將過(guò)氧化值小于或等于10 meq/kg的食用植物油樣本賦值為-1,認(rèn)為質(zhì)量合格,將過(guò)氧化值大于10 meq/kg的食用植物油樣本賦值為1,認(rèn)為質(zhì)量不合格。
采用徑向基核函數(shù)[26],構(gòu)建最小二乘支持向量機(jī)模型需要先確定兩個(gè)重要模型參數(shù),即正則化參數(shù)Gam和核函數(shù)參數(shù)Sig2。采用二步格點(diǎn)搜索法和留一交叉驗(yàn)證法相結(jié)合對(duì)這兩個(gè)模型參數(shù)進(jìn)行尋優(yōu)。前處理方法為數(shù)據(jù)中心化。以KS法劃分訓(xùn)練集和驗(yàn)證集時(shí),Gam和Sig2的搜索范圍分別為2.54~7 568.62、1.89~280.45。以SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí),Gam和Sig2的搜索范圍分別為0.35~1 055.85、2.33~346.08。優(yōu)化后的Gam和Sig2值見(jiàn)表2。
不同的劃分訓(xùn)練集和驗(yàn)證集方法的最小二乘支持向量機(jī)的預(yù)測(cè)結(jié)果見(jiàn)表2。不管用KS法還是用SPXY法劃分訓(xùn)練集和驗(yàn)證集,前處理方法為數(shù)據(jù)中心化時(shí),所有樣本的判別總正確率都在94%左右。
表2 最小二乘支持向量機(jī)的預(yù)測(cè)結(jié)果
ROC曲線被用來(lái)評(píng)價(jià)二分類最小二乘支持向量機(jī)模型的性能。圖6和圖7分別為用SPXY法劃分時(shí)的最小二乘支持向量機(jī)模型的訓(xùn)練集和驗(yàn)證集ROC曲線,其中橫坐標(biāo)為1-特異度,縱坐標(biāo)為靈敏度,ROC曲線下的面積越大表示兩類樣本的分類準(zhǔn)確率越高。由圖6和圖7可知,所建最小二乘支持向量機(jī)二分類模型的訓(xùn)練集和驗(yàn)證集ROC曲線面積分別為0.9992和0.9160,表明此模型判別能力較強(qiáng)。
由表1和表2可見(jiàn),雖然訓(xùn)練集與驗(yàn)證集的樣品數(shù)目相同,但偏最小二乘判別分析和最小二乘支持向量機(jī)的預(yù)測(cè)結(jié)果略有不同。對(duì)于相同前處理方法的偏最小二乘判別分析,SPXY法的預(yù)測(cè)結(jié)果比KS法稍好(表1);對(duì)于相同前處理方法的最小二乘支持向量機(jī),SPXY法的預(yù)測(cè)結(jié)果和KS法相近(表2)??梢?jiàn),不同的訓(xùn)練集選擇方法對(duì)PLSDA和LSSVM的預(yù)測(cè)結(jié)果影響均較小。
圖6 用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的最小二乘支持向量機(jī)的訓(xùn)練集的ROC曲線Fig.6 Receiver operating characteristic curve of calibration set(least squares support vector machines,pretreatment method is mean centre,and method of selecting for calibration set is SPXY)
圖7 用SPXY法劃分訓(xùn)練集和驗(yàn)證集時(shí)前處理方法為數(shù)據(jù)中心化的最小二乘支持向量機(jī)的驗(yàn)證集的ROC曲線Fig.7 Receiver operating characteristic curve of validation set(least squares support vector machines,pretreatment method is mean centre,and method of selecting for calibration set is SPXY)
當(dāng)前處理方法為數(shù)據(jù)中心化時(shí),利用SPXY法劃分訓(xùn)練集和驗(yàn)證集,PLSDA和LSSVM的判別總正確率分別為94.3%和93.8%;用KS法劃分訓(xùn)練集和驗(yàn)證集時(shí),PLSDA與LSSVM的判別總正確率分別為93.8%與94.3%。可見(jiàn)在以過(guò)氧化值為參考方法的基礎(chǔ)上,PLSDA與LSSVM這兩種方法判別能力相近,都可以與近紅外光譜結(jié)合用來(lái)初步鑒別食用植物油的質(zhì)量。
根據(jù)過(guò)氧化值為參考方法,用偏最小二乘判別分析和最小二乘支持向量機(jī)這兩種方法對(duì)食用植物油的近紅外光譜進(jìn)行建模和預(yù)測(cè),可初步鑒別食用植物油的質(zhì)量。實(shí)驗(yàn)分析了數(shù)據(jù)中心化、方差比例、正交信號(hào)校正三種不同的前處理方法對(duì)PLSDA預(yù)測(cè)結(jié)果的影響,對(duì)同種劃分訓(xùn)練集和驗(yàn)證集的方法,數(shù)據(jù)中心化的預(yù)測(cè)結(jié)果都比較好。同時(shí)分析了KS法及SPXY法這兩種不同的訓(xùn)練集和驗(yàn)證集劃分方法對(duì)PLSDA和LSSVM的預(yù)測(cè)結(jié)果的影響,結(jié)果表明訓(xùn)練集和驗(yàn)證集劃分方法都對(duì)兩者的影響較小,最后比較PLSDA與LSSVM的判別能力,結(jié)果顯示,在以過(guò)氧化值為參考方法的基礎(chǔ)上,兩種方法的判別能力相近。
近紅外光譜法快速價(jià)廉,PLSDA可靠直觀,LSSVM適用范圍廣。近紅外光譜法結(jié)合這兩種判別法中的任意一種很快就可以測(cè)一個(gè)樣品,相對(duì)于常用的質(zhì)譜法或色譜法,既快速價(jià)廉又容易操作。將這兩種方法中的任意一種用于初步篩選合格的食用植物油具有一定的現(xiàn)實(shí)意義。