陳洪亮,曾 山,王 斌
(1.南京財(cái)經(jīng)大學(xué) 信息工程學(xué)院,南京 210046; 2.武漢輕工大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,武漢 430040)
芝麻油是一種營(yíng)養(yǎng)豐富的植物油,富含油酸和亞油酸,其特有的香味和出色的氧化穩(wěn)定性使其成為備受青睞的調(diào)味品[1]。近年來(lái),芝麻油的營(yíng)養(yǎng)價(jià)值日益受到各行業(yè)的廣泛關(guān)注[2]。由于芝麻油具有較高的營(yíng)養(yǎng)價(jià)值,其售價(jià)遠(yuǎn)高于大豆油、菜籽油等常見(jiàn)食用油,因此一些不法生產(chǎn)者和經(jīng)營(yíng)者將低價(jià)格油摻入芝麻油中銷售,這種做法嚴(yán)重?fù)p害了廣大消費(fèi)者和商家的利益。
目前,國(guó)內(nèi)外學(xué)者對(duì)食用油摻偽檢測(cè)方法的研究已取得了一定的進(jìn)展,一些物理和化學(xué)方法被應(yīng)用于食用油摻偽檢測(cè)[3-4]。常規(guī)理化方法操作簡(jiǎn)便,不需要昂貴的儀器,但耗時(shí)長(zhǎng),測(cè)定過(guò)程往往要多名實(shí)驗(yàn)人員配合完成,無(wú)法滿足快速檢測(cè)油脂摻偽的要求[5]。色譜法與核磁共振波譜法分析快速,適合大批量油脂樣本的摻偽檢測(cè),但所用儀器價(jià)格昂貴,且需要專業(yè)人員操作[6-7]。
近紅外光譜(NIR)目前逐漸被應(yīng)用到食用油的定性定量分析領(lǐng)域[8-9],相較傳統(tǒng)的食用油分析方法,近紅外光譜分析技術(shù)具有靈敏度高、穩(wěn)定、能實(shí)現(xiàn)快速在線分析等優(yōu)點(diǎn)。近紅外技術(shù)在食用油摻偽檢測(cè)方面已有研究。涂斌等[10]以激光近紅外光譜分析技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法對(duì)稻米油摻偽進(jìn)行定性-定量分析,對(duì)比了偏最小二乘法(PLS)和支持向量機(jī)回歸(SVR)兩種方法,二者均有較高的預(yù)測(cè)精確度。冼瑞儀等[11]采用可見(jiàn)和近紅外透射光譜分析技術(shù)結(jié)合區(qū)間偏最小二乘法(iPLS)、聯(lián)合間隔偏最小二乘法(SiPLS)和反向區(qū)間偏最小二乘法(BiPLS)對(duì)摻雜不同含量煎炸老油的橄欖油建模分析,SiPLS和BiPLS所建模型均取得了較好的預(yù)測(cè)效果,為合格植物油中摻雜其他不良油品的檢測(cè)提供了參考。丁輕針等[12]采用標(biāo)準(zhǔn)正態(tài)變量變換(SNV)和偏最小二乘法(PLS)建立了芝麻油摻偽定量分析模型,當(dāng)摻入量達(dá)到10%以上時(shí),可以準(zhǔn)確、可靠地實(shí)現(xiàn)快速檢測(cè)。
雖然基于近紅外光譜的食用油摻偽檢測(cè)方法已有研究,但均未對(duì)預(yù)測(cè)食用油摻偽含量的最優(yōu)特征波段進(jìn)行探索,本研究應(yīng)用近紅外光譜分析技術(shù)結(jié)合無(wú)信息變量消除法、聯(lián)合間隔偏最小二乘法和帶極值擾動(dòng)的簡(jiǎn)化粒子群優(yōu)化算法優(yōu)選特征波段建立芝麻油-大豆油摻偽含量分析模型,以期對(duì)波長(zhǎng)變量做充分篩選后建立芝麻油摻偽含量預(yù)測(cè)模型取得相較單一SiPLS模型更好的預(yù)測(cè)效果。
食用油摻偽定量鑒別試驗(yàn)樣品:為配制具有代表性的摻偽樣本,購(gòu)買市售不同品牌、原料品種、加工工藝的芝麻油和大豆油,將大豆油以一定比例摻入芝麻油中,共配制32種摻偽含量。其中每種摻偽含量配制12份樣品,共384個(gè)摻偽樣品,每份樣品約10 g,充分振蕩混合均勻后,在實(shí)驗(yàn)室靜置12 h待測(cè)。具體芝麻油摻偽樣本中大豆油的摻偽含量見(jiàn)表1。
表1 芝麻油摻偽樣本中大豆油的摻偽含量
1.2.1 試驗(yàn)流程
基于近紅外光譜的無(wú)信息變量消除法-聯(lián)合間隔偏最小二乘法-帶極值擾動(dòng)的簡(jiǎn)化粒子群優(yōu)化算法(UVE-SiPLS-tsPSO)對(duì)芝麻油摻偽含量定量分析的具體實(shí)現(xiàn)流程如圖1所示。由圖1可知,芝麻油摻偽含量快速檢測(cè)方法的步驟主要可概括劃分為近紅外光譜數(shù)據(jù)采集、光譜預(yù)處理、波長(zhǎng)變量初步篩選和選擇最優(yōu)特征波段建立摻偽含量預(yù)測(cè)模型。
1.2.2 光譜采集
摻偽油樣品光譜的采集采用激光近紅外植物油品質(zhì)快速檢測(cè)儀,其主機(jī)為Axsun XL410型激光近紅外光譜儀。Axsun XL410型光譜儀以新型的超輻射發(fā)光二極管(SLED)作為光源,光譜測(cè)定范圍1 350~1 800 nm,掃描次數(shù)32次,分辨率3.5 cm-1,波長(zhǎng)重復(fù)性0.01 nm,信噪比(250 ms, RMS)大于5 500∶1,溫控范圍20~100℃。將光譜儀與工業(yè)電腦主板連接,方便待測(cè)樣品光譜數(shù)據(jù)的采集和保存。試驗(yàn)中選用2 mm光程的比色皿,首先將油樣滴在比色皿中,然后將比色皿放入光譜儀內(nèi)便可開(kāi)始采集光譜。
圖1 芝麻油摻偽含量快速檢測(cè)方法流程圖
1.2.3 光譜預(yù)處理及樣本劃分
近紅外光譜技術(shù)屬于二次分析技術(shù),采集的光譜含有豐富的信息,但存在影響模型預(yù)測(cè)效果的因素,如譜帶重疊嚴(yán)重、光譜信息專屬性差、信噪比低等,建立模型前,為了去除光譜信號(hào)的高頻隨機(jī)噪聲、比色皿對(duì)光程的影響及光線散射和雜散光影響,首先需要對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,確?;诮t外光譜建立的定量檢測(cè)模型具有較好的性能。采用標(biāo)準(zhǔn)正態(tài)變量變換(SNV)進(jìn)行光譜預(yù)處理[13]。此外,本試驗(yàn)對(duì)樣本光譜數(shù)據(jù)采用SPXY樣本劃分法[14],按3∶1的比例劃分訓(xùn)練集和測(cè)試集,該方法能夠覆蓋多維向量空間,從而提升模型的預(yù)測(cè)能力。
1.2.4 建模及參數(shù)優(yōu)化
首先采用無(wú)信息變量消除法(UVE)[15]排除與被測(cè)組分濃度無(wú)關(guān)的波長(zhǎng)變量,利用SPXY樣本劃分法劃分訓(xùn)練集和測(cè)試集后,采用聯(lián)合間隔偏最小二乘法(SiPLS)結(jié)合帶極值擾動(dòng)的簡(jiǎn)化粒子群優(yōu)化算法(tsPSO)優(yōu)選最佳波長(zhǎng)區(qū)間組合建立摻偽含量預(yù)測(cè)模型。
間隔偏最小二乘法(iPLS)是由Norgaard等[16]提出的,其原理是將整個(gè)光譜分成若干等寬子區(qū)間,對(duì)每個(gè)區(qū)間進(jìn)行偏最小二乘回歸,比較全光譜模型和每個(gè)子區(qū)間模型的性能,最終選擇誤差最小的子區(qū)間。聯(lián)合間隔偏最小二乘法(SiPLS)[17]是間隔偏最小二乘法的拓展,它通過(guò)若干子區(qū)間的組合使誤差最小。
粒子群優(yōu)化算法(PSO)由Kennedy和Eberhart在1995年提出[18],該算法通過(guò)模擬鳥(niǎo)群、魚群等生物捕食行為中相互合作機(jī)制尋找問(wèn)題最優(yōu)解。但是粒子群優(yōu)化算法在進(jìn)化后期收斂速度變慢,同時(shí)算法收斂精度不高,在多極值的復(fù)雜優(yōu)化問(wèn)題中易陷入局部最優(yōu)解。本文采用帶極值擾動(dòng)的簡(jiǎn)化粒子群優(yōu)化算法(tsPSO)[19],首先去掉了PSO進(jìn)化方程的粒子速度項(xiàng),避免由粒子速度項(xiàng)引起的后期收斂速度慢和精度低的問(wèn)題,同時(shí)增加極值擾動(dòng)算子用于使粒子跳出局部極值點(diǎn)繼續(xù)優(yōu)化。
采用標(biāo)準(zhǔn)正態(tài)變量變換(SNV)對(duì)32種芝麻油-大豆油摻偽樣品的近紅外光譜進(jìn)行預(yù)處理,能夠有效去除光譜噪聲。芝麻油-大豆油摻偽樣本的近紅外光譜如圖2所示。
圖2 芝麻油-大豆油摻偽樣品近紅外光譜圖
分析圖2,原始光譜和SNV預(yù)處理后光譜圖中各有384條曲線,每條曲線代表一個(gè)樣本在近紅外波段各波長(zhǎng)下的吸光度,對(duì)比可見(jiàn)原始光譜及經(jīng)SNV預(yù)處理后的光譜,光譜的形狀總體保持不變,只是排列更為緊湊。
對(duì)SNV預(yù)處理后的光譜數(shù)據(jù)采用UVE初步篩選特征波長(zhǎng),得到的光譜數(shù)據(jù)包含436個(gè)波長(zhǎng)變量,經(jīng)UVE篩選后的光譜圖如圖3所示。
圖3中,橫坐標(biāo)表示經(jīng)過(guò)UVE篩選后剩余波長(zhǎng)變量由低到高排序,可見(jiàn)UVE在篩選掉經(jīng)SNV預(yù)處理后的光譜中無(wú)信息波長(zhǎng)變量的同時(shí),沒(méi)有破壞總體的光譜結(jié)構(gòu)。
采用SiPLS方法建立模型時(shí),波段的選擇對(duì)模型的預(yù)測(cè)準(zhǔn)確度存在一定的影響,波段分割過(guò)寬或選取波段數(shù)過(guò)多,會(huì)造成信息冗余;波段分割過(guò)窄或選取波段數(shù)過(guò)少,可能會(huì)丟失建模所需必要信息,因此選擇合適的波段分割間隔和用于建模的波段數(shù)尤為重要。采用帶極值擾動(dòng)的簡(jiǎn)化粒子群優(yōu)化算法(tsPSO)優(yōu)化模型能很好地解決這一問(wèn)題。
為證明本研究方法的優(yōu)越性,首先建立全波段摻偽含量預(yù)測(cè)模型和UVE模型作為對(duì)比試驗(yàn)。利用SPXY樣本劃分法對(duì)光譜經(jīng)SNV預(yù)處理后的摻偽樣本劃分為訓(xùn)練集和測(cè)試集,采用PLS方法,將訓(xùn)練集光譜數(shù)據(jù)和摻偽含量數(shù)據(jù)作為輸入量,建立全波段芝麻油摻偽含量預(yù)測(cè)模型。采用UVE對(duì)經(jīng)SNV預(yù)處理后的光譜篩選波長(zhǎng)變量,對(duì)降維后的光譜數(shù)據(jù)和摻偽含量數(shù)據(jù)采用SPXY樣本劃分法劃分為訓(xùn)練集和測(cè)試集,對(duì)所得訓(xùn)練集樣本利用PLS方法建立芝麻油摻偽含量預(yù)測(cè)模型,3種模型預(yù)測(cè)結(jié)果見(jiàn)表2。
表2 3種模型測(cè)試結(jié)果
從表2可看出,所建全波段模型訓(xùn)練集和測(cè)試集相關(guān)系數(shù)(R2)均接近1,均方根誤差(RMSE)分別為7.34E-2和6.69E-2,芝麻油摻偽含量預(yù)測(cè)精度一般。而利用UVE篩選后的光譜數(shù)據(jù)建立的PLS模型,均方根誤差(RMSE)分別為7.32E-2和6.50E-2,相較全波段模型,略微降低了預(yù)測(cè)誤差,此外參與建模的波長(zhǎng)變量由451個(gè)降低到436個(gè),縮短了建模時(shí)間。
經(jīng)過(guò)tsPSO優(yōu)化得到參與芝麻油-大豆油摻偽定量分析模型建立的特征波段為1 350~1 353 nm、1 364~1 366 nm、1 368~1 391 nm、1 485~1 515 nm、1 581~1 611 nm、1 643~1 673 nm、1 705~1 718 nm、1 720~1 800 nm,如圖4所示。模型測(cè)試結(jié)果如表2所示。
圖4 芝麻油-大豆油摻偽樣品近紅外光譜特征波段
由表2可知,參與建模的變量銳減到219個(gè),訓(xùn)練集和測(cè)試集均方根誤差(RMSE)分別為4.39E-2和3.99E-2,并且相關(guān)系數(shù)(R2)均接近1,相較全波段和UVE模型,顯著降低了預(yù)測(cè)誤差,縮短了建模時(shí)間。圖4中灰色區(qū)域即為所選用于預(yù)測(cè)的最優(yōu)特征波段組合,可見(jiàn)所選特征波段大部分集中在波峰、波谷附近,說(shuō)明波峰、波谷位置的吸光度比其他波段的差異更為顯著,附近范圍內(nèi)的波段更適合用于摻偽含量定量分析模型的建立。
圖5顯示了試驗(yàn)建立的UVE-SiPLS-tsPSO芝麻油摻偽樣本測(cè)試集預(yù)測(cè)結(jié)果與真實(shí)值的對(duì)比。由圖5可知,此模型具有很高的預(yù)測(cè)準(zhǔn)確度。
圖5 芝麻油中大豆油摻偽含量預(yù)測(cè)結(jié)果
本文基于芝麻油中摻偽大豆油樣本的近紅外光譜,首先用SNV對(duì)光譜進(jìn)行預(yù)處理,再采用無(wú)信息變量消除法(UVE)對(duì)摻偽芝麻油近紅外光譜變量進(jìn)行初步篩選,然后采用tsPSO選取SiPLS中的最優(yōu)特征波段組合建立芝麻油中大豆油摻偽含量快速檢測(cè)模型。所建模型通過(guò)特征波長(zhǎng)變量的粗選與細(xì)選相結(jié)合的方式顯著降低了芝麻油中大豆油摻偽含量預(yù)測(cè)誤差,同時(shí)減少了建模變量和建模時(shí)間。此外,本研究為其他食用植物油的摻偽檢測(cè)提供了一種可供借鑒的方法,在食用油摻偽研究領(lǐng)域體現(xiàn)出良好的可行性和參考價(jià)值。