李壯壯, 吳瓊水, 黃 莎
(武漢大學(xué)電子信息學(xué)院,光譜成像實驗室,武漢 430072)
葵花籽富含維生素、不飽和脂肪酸和微量元素,營養(yǎng)價值較高,是當(dāng)代人民喜愛的休閑食品。并且作為中國四大油料作物之一,其產(chǎn)量和需求量都相當(dāng)大。不同種類、不同批次、不同品質(zhì)的葵花籽的價值有很大區(qū)別,價格也高低不等。就是在這種“高差價”的情況下,許多商家一味謀求利潤,使用存儲不當(dāng)?shù)目ㄗ岩源纬浜?,?yán)重侵害消費者的權(quán)益[1]。因此,葵花籽的品質(zhì)分析變得非常重要。
目前,一直使用直接烘干法和索氏提取法進(jìn)行油料作物含水量和含油量測定,雖然這些方法測量結(jié)果準(zhǔn)確可靠,但是時間久,破壞樣本完整性且污染環(huán)境,無法實現(xiàn)快速無損檢測。近年來快速發(fā)展的近紅外光譜法(near infrared spectroscopy,NIRS)以其無損檢測、無污染、一鍵導(dǎo)出結(jié)果等特點被廣泛應(yīng)用于農(nóng)業(yè)檢測領(lǐng)域[2],它可以通過光譜信息和多變量校準(zhǔn)模型對不同類型的谷物進(jìn)行定性和定量評估,自1994年以來,NIRS已被批準(zhǔn)并用于官方檢測系統(tǒng),用于小麥蛋白和大豆蛋白與油的測定。近年來,將近紅外光譜法使用在農(nóng)業(yè)檢測領(lǐng)域取得了不錯的效果。例如呂都等[3]利用近紅外光譜技術(shù)結(jié)合化學(xué)計量學(xué)成功測定面條中馬鈴薯全粉的含量;代啟虎等[4]利用近紅外光譜實現(xiàn)食品脂肪含量檢測;王燕等[5]利用近紅外光譜法預(yù)測大豆中粗蛋白、粗脂肪、粗灰分,得到的結(jié)果與化學(xué)法測定的結(jié)果決定系數(shù)高達(dá)0.96。葵花籽的蛋白質(zhì)、脂肪等有機(jī)物都含有大量的含氫官能團(tuán),這些官能團(tuán)在近紅外波段具有吸收,并且目前中國將近紅外光譜法使用在葵花籽定量分析上的應(yīng)用幾乎為空白,因此,利用近紅外光譜分析法對葵花籽的蛋白質(zhì)、油脂、水含量等指標(biāo)進(jìn)行定量分析,以此來判斷葵花籽的品質(zhì)具有實用意義。
方案采用的葵花籽近紅外數(shù)據(jù)來源于熒颯光學(xué)科技(上海)有限公司,原始數(shù)據(jù)包含454份葵花籽樣品的近紅外光譜和蛋白質(zhì)、脂肪、水這3個成分參數(shù)信息。圖1給出葵花籽樣本的近紅外光譜曲線及對應(yīng)的蛋白質(zhì)含量。隨機(jī)選取一組作為測試集用于建模(383份),另一組用作驗證集(71份)。對測試集進(jìn)行不同的光譜預(yù)處理,之后再分別建立偏最小二乘回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型。通過驗證集的樣本驗證其預(yù)測效果并對預(yù)測結(jié)果做出評價。
圖1 葵花籽樣本近紅外光譜與對應(yīng)的蛋白質(zhì)含量
為了減弱噪聲信號、校正基線漂移,需要對光譜數(shù)據(jù)進(jìn)行預(yù)處理。使用一階卷積求導(dǎo)[Savitzky-Golay(SG)卷積求導(dǎo)]、多元散射校正(multiplicative scatter correction,MSC)、標(biāo)準(zhǔn)化(auto scaling)、均值中心化(mean centering)、小波變換等預(yù)處理方法[6],并在后續(xù)預(yù)測時比較其預(yù)測均方根誤差(root mean square error of prediction,RMSEP),判斷其預(yù)處理方法的優(yōu)劣。
近紅外光譜分析定量技術(shù)可以按照是否線性分為線性定量分析和非線性定量分析。線性定量分析主要使用偏最小二乘分析法,非線性定量分析則使用BP神經(jīng)網(wǎng)絡(luò)。
偏最小二乘回歸法(partial least-square method,PLS)廣泛應(yīng)用于分析化學(xué)、物理化學(xué)等領(lǐng)域。PLS能夠在自變量嚴(yán)重相關(guān)性的條件下進(jìn)行回歸建模,并且對樣本點數(shù)量沒有嚴(yán)格要求,最終的模型也全部包含原有的自變量[7-9]。
3.1.1 算法原理
PLS回歸分析主要分為如下兩部分。
(1)為了研究自變量和因變量的統(tǒng)計關(guān)系,首先需要做主因子分析。設(shè)待測樣品的近紅外光譜(自變量矩陣)為X,樣品濃度數(shù)據(jù)(因變量矩陣)為Y,將X和Y作分解
(1)
式(1)中:矩陣T和U分別代表矩陣X和Y的得分矩陣;P和Q分別表示矩陣X和Y的主成分矩陣;E和F是殘差矩陣。
(2)對得分矩陣T和U做回歸運算得到關(guān)聯(lián)矩陣B,將B代入式(2)的第二個方程可以得到濃度關(guān)系與光譜矩陣的直接關(guān)系:
(2)
在對未知樣品進(jìn)行預(yù)測時,可以由未知樣品X和經(jīng)過校正處理得到的P,就可以求得未知樣品X的得分矩陣T,然后通過矩陣B和Q得出未知樣品濃度矩陣。
3.1.2 交叉驗證
采用留一法的交叉驗證方式,也就是從n個樣本中取出一個樣本作為驗證對象,剩下的n-1個樣本用來建模,然后交替驗證對象,讓所有的樣本都被驗證。為了評估模型預(yù)測的效果,一般使用均方根誤差(root mean square error of cross-validation,RMSECV):
(3)
式(3)中:SSE(j)表示第j個濃度成分的預(yù)測誤差平方和。RMSECV越小,模型的預(yù)測能力越好。
3.1.3 實證分析
以葵花籽中的蛋白為例進(jìn)行實證分析。設(shè)置PLS的最大主成分?jǐn)?shù)為25,預(yù)處理方法選擇無預(yù)處理,記錄每個主成分下的RMSECV,得到基于交叉驗證的PLS多元回歸曲線,如圖2所示。發(fā)現(xiàn)選擇極小值即8個主成分時,達(dá)到局部RMSECV最小,擬合效果較好,建模效果最佳。
圖2 交叉驗證的蛋白質(zhì)PLS建模最佳組分選取
BP神經(jīng)網(wǎng)絡(luò)類似于PLS,在數(shù)據(jù)擬合過程中讓預(yù)測值和實際值的偏差盡可能小,以達(dá)到最佳的擬合效果[10-14]。采用Levenber-Marquardt優(yōu)化算法,因為其具有收斂快、誤差小的特點同時適用于函數(shù)擬合的特點。對383個樣本進(jìn)行訓(xùn)練,并使用71個樣本進(jìn)行驗證。對不做預(yù)處理的樣本集采用Levenberg-Marquardt優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練如圖3所示,網(wǎng)絡(luò)的預(yù)設(shè)訓(xùn)練步數(shù)為1 000步,訓(xùn)練步數(shù)為17時網(wǎng)絡(luò)訓(xùn)練自動停止,此時使用測試集進(jìn)行預(yù)測得到的均方根誤差為0.412 2。
圖3 Levenberg-Marquardt 優(yōu)化算法的訓(xùn)練圖
使用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)對葵花籽樣品的蛋白含量進(jìn)行預(yù)測,圖4為對葵花籽蛋白進(jìn)行預(yù)測時BP神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果,其中為預(yù)測值與實際值對比曲線,圖5為預(yù)測的誤差曲線。
圖4 BP模型的葵花籽蛋白量預(yù)測值與真值
圖5 BP模型的葵花籽蛋白量預(yù)測誤差
使用驗證集驗證模型的有效性。評判標(biāo)準(zhǔn)使用均方根預(yù)測誤差。
把建模集訓(xùn)練得到的模型運用到驗證集上,可以得到模型預(yù)測精度,模型預(yù)測精度的均方根誤差(root mean square error of prediction,RMSEP)計算公式為
(4)
表1列出對三種成分分別采用不同的預(yù)處理方法并進(jìn)行PLS建模得到最終的RMSECV及RMSEP,并選取兩者的平均值作為最終評判標(biāo)準(zhǔn)。可以看到不同的預(yù)處理方法最終對模型的精度產(chǎn)生不同程度的影響,其中小波變換的預(yù)處理方法對蛋白質(zhì)及水分含量的預(yù)測最好;標(biāo)準(zhǔn)化的預(yù)處理方法對脂肪含量的預(yù)測最好。
表2列出使用BP神經(jīng)網(wǎng)絡(luò)在經(jīng)過不同預(yù)處理方法下進(jìn)行建模得到最終的RMSEP值。其中一階導(dǎo)數(shù)+均值中心化對蛋白質(zhì)含量的預(yù)測最好;一階卷積導(dǎo)數(shù)對水分含量的預(yù)測最好;一階導(dǎo)數(shù)+標(biāo)準(zhǔn)化對脂肪含量的預(yù)測最好。
表3列出了基于PLS和基于BP神經(jīng)網(wǎng)絡(luò)兩種不同定量分析模型的預(yù)測結(jié)果分析,其中BP神經(jīng)網(wǎng)絡(luò)的模型選取RMSEP最小的作為最終的預(yù)測結(jié)果,PLS模型選擇平均值最小的作為最終預(yù)測結(jié)果,通過對比發(fā)現(xiàn)PLS定量分析方法預(yù)測精度要高于BP神經(jīng)網(wǎng)絡(luò)分析方法,出現(xiàn)此類問題很有可能是因為樣本集太少或者樣品代表性不足,導(dǎo)致試驗中BP神經(jīng)網(wǎng)絡(luò)的預(yù)測精度低于PLS。
利用熒颯光學(xué)科技(上海)有限公司提供的油料普查作物葵花籽為測試對象,對蛋白質(zhì)、水分及脂肪三種含量使用不同的預(yù)處理方法后做PLS建模與BP神經(jīng)網(wǎng)絡(luò)建模進(jìn)行定量分析,結(jié)果發(fā)現(xiàn):①PLS模型預(yù)測中發(fā)現(xiàn)小波變換的預(yù)處理方法對蛋白質(zhì)含量的預(yù)測最好RMSECV=0.343,RMSEP=0.296,小波變換的預(yù)處理方法對水分含量的預(yù)測最好RMSECV=0.299,RMSEP=0.354,標(biāo)準(zhǔn)化的預(yù)處理方法對脂肪含量的預(yù)測最好RMSECV=0.285,RMSEP=0.316;BP神經(jīng)網(wǎng)絡(luò)預(yù)測中一階導(dǎo)數(shù)+均值中心化對蛋白質(zhì)含量的預(yù)測最好RMSEP=0.341,一階導(dǎo)數(shù)對水分含量的預(yù)測最好RMSEP=0.329,一階導(dǎo)數(shù)+標(biāo)準(zhǔn)化對脂肪含量的預(yù)測最好RMSEP=0.312。②BP神經(jīng)網(wǎng)絡(luò)模型與PLS模型預(yù)測對比發(fā)現(xiàn),PLS模型預(yù)測精度要高于BP神經(jīng)網(wǎng)絡(luò)模型,出現(xiàn)該種問題主要原因有可能是因為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本較少或者樣本的代表性不足。需要說明的是這兩種建模預(yù)測都未進(jìn)行分類識別,因此后續(xù)還可以對葵花籽進(jìn)行定性分析獲取不同的批次,再分別進(jìn)行定量建模,然后比較哪種預(yù)測準(zhǔn)確率更高,為以后實現(xiàn)葵花籽的無損檢測提供更精確的預(yù)測。
表2 BP神經(jīng)網(wǎng)絡(luò)對葵花籽預(yù)測結(jié)果分析
表3 BP神經(jīng)網(wǎng)絡(luò)和PLS定量分析模型預(yù)測結(jié)果分析