胡曉云,卞?;? , 3*,項(xiàng) 洋,張 環(huán),魏俊富
1.天津工業(yè)大學(xué)省部共建分離膜與膜過程國(guó)家重點(diǎn)實(shí)驗(yàn)室,環(huán)境科學(xué)與工程學(xué)院,天津 300387 2.青海大學(xué)省部共建三江源生態(tài)與高原農(nóng)牧業(yè)國(guó)家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810016 3.宜賓學(xué)院過程分析與控制四川省高校重點(diǎn)實(shí)驗(yàn)室,四川 宜賓 644000
食用油是人們獲取營(yíng)養(yǎng)物質(zhì)的來源之一,中國(guó)食用油消費(fèi)市場(chǎng)龐大,食用油調(diào)和油因其脂肪酸營(yíng)養(yǎng)均衡和風(fēng)味獨(dú)特在市場(chǎng)中占據(jù)重要地位。市場(chǎng)中食用油的種類參差不齊,價(jià)格差異也較大,導(dǎo)致一些商家在利益驅(qū)使下做出錯(cuò)誤標(biāo)注調(diào)和油配比的欺詐行為,例如夸大價(jià)格昂貴油的比例或加大廉價(jià)油的比例,極大損害了消費(fèi)者的權(quán)益。針對(duì)此種現(xiàn)象,國(guó)家標(biāo)準(zhǔn)GB2716—2018明確規(guī)定食用植物調(diào)和油的標(biāo)簽標(biāo)識(shí)應(yīng)注明各種食用植物油的比例。然而,仍然缺乏統(tǒng)一的調(diào)和油定量檢測(cè)參考方法。主要原因在于調(diào)和油成分復(fù)雜,定量檢測(cè)十分困難。因此,有關(guān)多元調(diào)和油快速準(zhǔn)確定量檢測(cè)的研究對(duì)于調(diào)和油市場(chǎng)質(zhì)量控制具有重要意義。
目前可用于調(diào)和油定量分析的方法較多,大體上可分為兩類。一類為包括氣相色譜法和高效液相色譜法在內(nèi)的間接分析技術(shù),需要樣品前處理和色譜柱分離,耗時(shí)費(fèi)力。另一類為直接分析技術(shù),無需樣品前處理,主要包括紫外光譜法、拉曼光譜法、熒光光譜法、傅里葉變換紅外光譜法、質(zhì)譜法、近紅外光譜法等[1]。然而,以往對(duì)于調(diào)和油定量分析的研究大多集中于二元、三元和四元調(diào)和油[2-3],對(duì)于含有更多組分調(diào)和油的研究很少,難以滿足調(diào)和油檢測(cè)需求。原因是更高元數(shù)調(diào)和油組分更加復(fù)雜,定量分析更加困難。
近紅外光譜技術(shù)因其快速、無損、綠色、樣品無需預(yù)處理等優(yōu)點(diǎn),已經(jīng)廣泛應(yīng)用于農(nóng)業(yè)和食品[4]等領(lǐng)域。但由于復(fù)雜樣品的近紅外光譜的譜帶較寬,吸收峰重疊,基于近紅外光譜的定量分析需要借助化學(xué)計(jì)量學(xué)建立多元校正模型[5]。主成分回歸(principal component regression,PCR)、偏最小二乘(partial least squares,PLS)、支持向量回歸(support vector regression,SVR)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)和極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)是近紅外光譜分析中常用的多元校正方法。其中PCR和PLS是線性方法,適用于變量?jī)?nèi)部高度線性相關(guān)的問題。PLS克服了PCR只對(duì)光譜矩陣分解的缺點(diǎn),可以有效地降低模型的維數(shù),使建模結(jié)果更加準(zhǔn)確可靠[6]。SVR,ANN和ELM為非線性方法。SVR是一種應(yīng)用廣泛的機(jī)器學(xué)習(xí)算法,在解決小樣本、高維數(shù)據(jù)的回歸問題方面具有計(jì)算速度快、泛化能力強(qiáng)大的優(yōu)點(diǎn)[7]。ANN針對(duì)復(fù)雜的非線性變量數(shù)據(jù)具有明顯優(yōu)勢(shì)[8]。ELM是一種單隱藏層前饋神經(jīng)網(wǎng)絡(luò)算法,計(jì)算速度快且結(jié)構(gòu)簡(jiǎn)單[9]。有研究表明近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)是實(shí)現(xiàn)調(diào)和油定量的良好分析工具[10-11]。近紅外光譜信號(hào)中的背景、噪聲、基線、雜散光的干擾會(huì)影響校正模型的準(zhǔn)確性和穩(wěn)定性,因此通常需要對(duì)光譜進(jìn)行預(yù)處理。常用的預(yù)處理方法有SG平滑(savitzky golag smoothing,SG smoothing)、一階導(dǎo)數(shù)(first derivative,1stDer)、二階導(dǎo)數(shù)(second derivative,2ndDer)、標(biāo)準(zhǔn)正態(tài)變量(standard normal variate,SNV)、多元散射校正(multiplicative scatter correction,MSC)和連續(xù)小波變換(continuous wavelet transform,CWT)等。SG平滑可以去除噪聲,提高信噪比。一、二級(jí)導(dǎo)數(shù)通常用于減少背景效應(yīng)對(duì)信號(hào)的干擾。MSC和SNV是消除顆粒大小不同或分布不均引起散射效應(yīng)的常用方法。CWT兼具了平滑和導(dǎo)數(shù)的作用,不僅可以去除噪聲,提高信噪比,而且可以扣除背景干擾[12]。由于光譜變量很多是冗余的非信息噪聲或與目標(biāo)屬性無關(guān)的干擾變量,因此為了提高模型的預(yù)測(cè)性能和穩(wěn)定性,在建模前通常需要進(jìn)行變量選擇。常用的變量選擇算法有蒙特卡羅無信息變量消除(Monte Carlo uninformative variable elimination,MCUVE)、隨機(jī)檢驗(yàn)(randomization test,RT)和競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling,CARS)等[13]。
本研究的目的是探討近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)對(duì)五元調(diào)和油定量分析的可行性。五元調(diào)和油由玉米油、大豆油、稻米油、葵花油和芝麻油配制而成。考察了包括PCR,PLS,SVR,ANN和ELM五種多元校正方法對(duì)調(diào)和油各組分定量分析的建模效果以選取最佳建模方法。為了提高模型的預(yù)測(cè)準(zhǔn)確性,比較了SG平滑、1stDer、2ndDer、MSC、SNV和CWT六種光譜預(yù)處理方法對(duì)模型預(yù)測(cè)性能的影響。最后在最佳預(yù)處理方法的基礎(chǔ)上進(jìn)一步利用CARS和MCUVE算法篩選與預(yù)測(cè)組分相關(guān)的變量,以建立快速準(zhǔn)確的五元調(diào)和油定量分析模型。
實(shí)驗(yàn)采用玉米油、大豆油、稻米油、葵花油和芝麻油配制五元調(diào)和油樣品。五種食用油均是從天津大型超市購(gòu)買的不同品牌的純油,其中常規(guī)食用油包括玉米油、大豆油、稻米油和葵花油購(gòu)買自魯花、福臨門和金龍魚三個(gè)品牌,而由于芝麻油是非常規(guī)食用油,品牌眾多,因此除了魯花、福臨門和金龍魚三個(gè)品牌外,還購(gòu)買了李錦記、思盼、李耳等品牌的芝麻油作為實(shí)驗(yàn)樣品。將五種食用油配制成質(zhì)量分?jǐn)?shù)均在0~40%的51個(gè)五元調(diào)和油樣品。對(duì)每個(gè)配制樣品手動(dòng)振蕩后再超聲處理20 min,使其充分均勻混合。
實(shí)驗(yàn)所用測(cè)試儀器為Vertex 70型多波段紅外/近紅外光譜儀(Bruker光學(xué)公司,德國(guó))。以空氣為參比,在透射模式下采集樣品的近紅外光譜。近紅外光譜儀的掃描范圍為12 000~4 000 cm-1,每個(gè)光譜由32次連續(xù)掃描平均得到,分辨率為4 cm-1,掃描間隔1.93 cm-1,獲得4 148個(gè)波長(zhǎng)點(diǎn)。每個(gè)樣品平行測(cè)量三次,然后計(jì)算平均光譜用于建模。
1.3.1 樣品集劃分
采用光譜-理化值共生距離(sample set partitioning based on joint x-y distances,SPXY)算法[14]將51個(gè)樣品劃分為包含38個(gè)樣品的校正集和13個(gè)樣品的預(yù)測(cè)集,分別用于建立校正模型和外部預(yù)測(cè)。與僅考慮光譜值X進(jìn)行分區(qū)的Kennard-Stone(KS)算法相比,SPXY算法同時(shí)采用光譜值X和濃度值Y計(jì)算樣品間距離,可以更有效地覆蓋多維向量空間,改善樣本間差異性過小和預(yù)測(cè)模型泛化能力差的情況,以提高模型的預(yù)測(cè)性能。
1.3.2 多元校正方法
多元校正方法是建立樣本光譜信號(hào)與目標(biāo)分析物含量之間定量分析模型必不可少的化學(xué)計(jì)量學(xué)工具,因此選取合適的多元校正方法是建立可靠定量模型的關(guān)鍵。為了建立穩(wěn)健且具有良好預(yù)測(cè)性能的五元調(diào)和油定量分析模型,分別研究了PCR,PLS,SVR,ANN和ELM五種多元校正方法的建模效果以選取最佳方法建立模型。
1.3.3 光譜預(yù)處理
在樣品檢測(cè)過程中,光譜常常會(huì)受到噪聲、背景、基線漂移、雜散光的干擾,因此需要對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,以提高模型的預(yù)測(cè)性能。考察了SG平滑、1stDer、2ndDer、MSC、SNV和CWT等六種光譜預(yù)處理方法對(duì)調(diào)和油各組分的預(yù)處理效果,并確定每種組分的最佳預(yù)處理方法。CWT處理時(shí),玉米油、大豆油、稻米油、葵花油和芝麻油的最佳小波函數(shù)和分解尺度分別為db5,sym4,db19,coif5,db4以及37,22,40,40,25。
1.3.4 變量選擇
變量選擇是近紅外光譜建立多元校正定量模型過程中的關(guān)鍵步驟,在建立多元校正模型之前進(jìn)行變量選擇可以去除噪聲和與目標(biāo)屬性無關(guān)的干擾變量,從而提高模型的預(yù)測(cè)性能,使模型更加可靠。在預(yù)處理后光譜的基礎(chǔ)上,進(jìn)一步采用了MCUVE和CARS兩種方法對(duì)光譜進(jìn)行變量選擇。MCUVE利用蒙特卡羅技術(shù)確定訓(xùn)練子集并建立大量PLS模型,基于在建模過程中得到的每個(gè)變量相應(yīng)系數(shù)的穩(wěn)定性來篩選變量,穩(wěn)定性低于閾值的變量被淘汰。與MCUVE篩選變量的方法不同,CARS在每次蒙特卡羅采樣建模過程中,通過指數(shù)遞減函數(shù)強(qiáng)制變量選擇和自適應(yīng)重加權(quán)采樣競(jìng)爭(zhēng)變量選擇結(jié)合的方法選擇出PLS模型回歸系數(shù)絕對(duì)值大的變量。最終從N次蒙特卡羅采樣中選出交叉驗(yàn)證均方根誤差(root mean squarederror of cross validation, RMSECV)最小值對(duì)應(yīng)的變量子集。
使用PLS建立模型,利用RMSECV來優(yōu)化模型的相關(guān)參數(shù)。采用預(yù)測(cè)均方根誤差(root mean squared error of prediction, RMSEP)、預(yù)測(cè)相關(guān)系數(shù)(correlation coefficientof prediction,Rp)和剩余預(yù)測(cè)偏差(residual predictive deviation,RPD)評(píng)價(jià)模型優(yōu)劣。RPD高于2.5的模型可認(rèn)為是穩(wěn)健的,它適用于預(yù)測(cè)目標(biāo)屬性[15]。
圖1 五元調(diào)和油樣品近紅外光譜圖
在優(yōu)化后參數(shù)的基礎(chǔ)上,分別采用PCR,PLS,SVR,ANN和ELM五種多元校正方法建立五元調(diào)和油中各組分油定量分析的模型,從而選取最佳的多元校正方法。五種多元校正方法對(duì)五元調(diào)和油各組分含量預(yù)測(cè)的RMSEP值,見表1。模型的RMSEP值越低,表明的模型預(yù)測(cè)準(zhǔn)確性越好。從表1可以看出,除玉米油外,就其他組分而言,PLS模型的RMSEP值最低,具有最佳的預(yù)測(cè)準(zhǔn)確性。此外,玉米油PLS模型的RMSEP值也較低。因此,選取PLS為最佳的多元校正方法,用于建立五元調(diào)和油各組分的定量分析模型。
表1 五種多元校正方法對(duì)五元調(diào)和油各組分含量預(yù)測(cè)的RMSEP值
盡管PLS為最佳建模方法,但所建立模型的預(yù)測(cè)性能仍不理想,尤其是葵花油。采用SG平滑、1stDer、2ndDer、MSC、SNV和CWT對(duì)光譜進(jìn)行預(yù)處理,以提高模型的預(yù)測(cè)準(zhǔn)確性。光譜預(yù)處理后,五元調(diào)和油各組分PLS模型含量預(yù)測(cè)的RMSEP值總結(jié)在表2中。如表2所示,除SNV和MSC外,SG平滑、CWT、1stDer和2ndDer均使調(diào)和油各組分PLS模型的RMSEP值不同程度降低。其中就玉米油而言,SG平滑使PLS模型的RMSEP值降低程度最大;就其他四種組分而言,CWT預(yù)處理的降低程度最大。因此,玉米油組分的最佳預(yù)處理方法為SG平滑,其他四種組分的最佳預(yù)處理方法為CWT。
表2 不同預(yù)處理方法結(jié)合PLS對(duì)五元調(diào)和油各組分含量預(yù)測(cè)的RMSEP值
SNV和MSC預(yù)處理效果不理想可能是由于調(diào)和油樣品粒徑分布均勻,光譜本身受散射光影響很小。SG平滑預(yù)處理前后的近紅外光譜圖如圖2所示。從圖2(a)調(diào)和油樣品光譜圖中看不出存在噪聲,但是將12 000~10 000 cm-1區(qū)域的光譜圖放大后如圖2(b)所示,可以看出光譜存在明顯的噪聲。而SG平滑預(yù)處理后12 000~10 000 cm-1區(qū)域的光譜圖如圖2(c)所示,不能看到明顯的光譜變化,但將12 000~10 000 cm-1區(qū)間光譜圖放大后如圖2(d)所示,可以看出光譜變得很平滑,噪聲被有效消除。因此,SG平滑因有效去除噪聲而具有較為理想的預(yù)處理效果。1stDer和2ndDer只具有減少背景效應(yīng)的作用,雖然有一定的預(yù)處理效果但不如CWT預(yù)處理效果理想。CWT對(duì)四種組分都是最佳的預(yù)處理方法,從CWT預(yù)處理前后的光譜尋找原因。CWT預(yù)處理前后的近紅外光譜圖如圖3所示。從圖3(a)調(diào)和油樣品光譜圖中只能看到輕微的基線漂移,看不到存在噪聲,但將12 000~7 500 cm-1區(qū)域的光譜圖放大后如圖3(b)所示,可以看出光譜存在明顯的噪聲和基線漂移。CWT預(yù)處理后的光譜圖如圖3(c)所示,基線漂移得到明顯改善,進(jìn)一步放大12 000~7 500 cm-1區(qū)域的光譜圖,見圖3(d)可以看出噪聲也被有效消除,且能看到增多的譜峰。因此,CWT具有除玉米油外的最佳預(yù)處理效果的原因是它兼具了平滑和求導(dǎo)的作用[17],不僅可以有效消除噪聲,而且同時(shí)去除了基線漂移對(duì)信號(hào)的干擾并增強(qiáng)了光譜的分辨率。
圖2 SG平滑預(yù)處理前(a)和后(c)的近紅外光譜圖,其中(b)和(d)分別為(a)和(c)在12 000~10 000 cm-1區(qū)域的放大圖
圖3 CWT預(yù)處理前(a)和后(c)的近紅外光譜圖,其中(b)和(d)分別為(a)和(c)在12 000~7 500 cm-1區(qū)域的放大圖
盡管光譜預(yù)處理后,PLS模型的預(yù)測(cè)準(zhǔn)確性大大提高,但是用于建模的變量還包含很多非信息的和與目標(biāo)屬性無關(guān)的干擾變量。為了進(jìn)一步優(yōu)化模型性能,本研究采用了CARS和MCUVE算法在預(yù)處理后光譜的基礎(chǔ)上進(jìn)一步進(jìn)行變量選擇。
采用變量數(shù)、RMSECV值、校正集交叉驗(yàn)證相關(guān)系數(shù)(correlation coefficients of cross validation,Rcv)和RPD評(píng)估與比較CARS和MCUVE兩種變量選擇方法對(duì)模型性能的影響,計(jì)算結(jié)果總結(jié)于表3中。RMSECV值越小,Rcv和RPD值越大,模型的預(yù)測(cè)性能越好。從表3可以看出,與全光譜模型相比,變量選擇后所有單組分油模型的變量數(shù)均顯著減少且CARS選擇的變量數(shù)均少于MCUVE。同時(shí),基于選擇變量的模型在RMSECV,Rcv和RPD方面的結(jié)果更好。表明光譜預(yù)處理后,合適的變量選擇方法不僅可以降低模型復(fù)雜度,而且可以進(jìn)一步提高模型的預(yù)測(cè)準(zhǔn)確度。通過綜合比較,MCUVE在除玉米油和大豆油外的其他三種食用油模型中都比CARS結(jié)果略好。因此,玉米油和大豆油最佳變量選擇方法為CARS,而其他三種油的最佳變量選擇方法為MCUVE。
表3 不同方法校正集樣品各組分預(yù)測(cè)結(jié)果
五元調(diào)和油各組分最佳變量選擇方法所選變量的分布如圖4所示,作為參考,還在圖中繪制了平均光譜圖。綠色和藍(lán)色短豎線分別為玉米油SG-CARS-PLS模型和大豆油CWT-CARS-PLS模型選擇的變量,紅色、橙色和紫色短豎線分別為稻米油、葵花油和芝麻油CWT-MCUVE-PLS模型選擇的變量。需要說明的是變量選擇是基于統(tǒng)計(jì)標(biāo)準(zhǔn)的,不考慮化學(xué)因素,以篩選特征變量建立高質(zhì)量的校正模型為最終目的。從圖4可以看出,不同食用油組分選擇的變量不同,其中玉米油選擇變量的范圍主要集中在12 000~9 500 cm-1,其他四種食用油選擇變量的范圍主要集中在7 000~4 000 cm-1。因此,認(rèn)為12 000~9 500 cm-1范圍的變量被玉米油模型選擇的概率更高,可能包含更多與玉米油含量相關(guān)的信息,上述討論中SG平滑通過去除主要存在于12 000~9 500 cm-1范圍的光譜噪聲而對(duì)玉米油具有最佳預(yù)處理效果的結(jié)論也與此相符。而7 000~4 000 cm-1范圍內(nèi)的變量被其他四種食用油模型選擇的概率更高,可能包含更多與它們含量相關(guān)的信息。
圖4 五元調(diào)和油各組分最佳變量選擇方法所選變量的分布圖
基于最佳的光譜預(yù)處理、變量選擇和多元校正方法分別建立調(diào)和油各組分最佳模型并用于預(yù)測(cè)集五元調(diào)和油樣品各組分含量的預(yù)測(cè)。圖5(a)—(e)和(f)—(j)分別顯示了PLS模型和最佳模型預(yù)測(cè)值和真實(shí)值間的相關(guān)關(guān)系。通過比較圖5(a)—(e)和(f)—(j)可以明顯看出,與PLS模型相比,最佳模型的點(diǎn)分布更加聚集且靠近回歸線,模型具有很好的相關(guān)性。此外,玉米油、大豆油、稻米油、葵花油和芝麻油最佳模型的RMSEP值分別由最初的5.564 4,5.559 2,3.592 6,7.421 8,4.193 0下降到1.955 3,0.562 4,1.145 0,1.619 0,1.067 1,預(yù)測(cè)準(zhǔn)確度得到了很大的提升,各組分RPD均大于3且Rp均大于0.98,表明模型穩(wěn)健且具有良好的預(yù)測(cè)準(zhǔn)確度。
圖5 五元調(diào)和油各組分建模的預(yù)測(cè)值與真實(shí)值間的相關(guān)關(guān)系圖
探討了近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)對(duì)五元調(diào)和油中各單組分油定量分析的可行性。對(duì)比五種多元校正方法的建模效果得出PLS模型預(yù)測(cè)效果優(yōu)于其他模型。為了提高模型的預(yù)測(cè)準(zhǔn)確度,進(jìn)一步研究了六種光譜預(yù)處理和兩種變量選擇算法對(duì)PLS模型性能的影響以選取最佳方法。研究結(jié)果表明,最終建立的玉米油最佳模型為SG-CARS-PLS,大豆油最佳模型為CWT-CARS-PLS,稻米油、葵花油和芝麻油最佳模型均為CWT-MCUVE-PLS,最佳模型的RMSEP值分別為1.955 3,0.562 4,1.145 0,1.619 0和1.067 1,RPD值均大于3且Rp值均大于0.98,模型穩(wěn)健且具有良好的預(yù)測(cè)準(zhǔn)確度。近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)可以對(duì)五元調(diào)和油中各單組分油進(jìn)行快速準(zhǔn)確定量分析,是非常有前景的多元調(diào)和油定量分析工具。