袁 凱 張志勇 席 前 伍鎣芮 郭東升 何國康
(山西農(nóng)業(yè)大學(xué)工學(xué)院,山西 太谷 030801)
水分是生鮮肉品質(zhì)評價的一個重要參數(shù),對肉質(zhì)、口感以及肉的加工、運(yùn)輸、貯藏有直接影響[1]。研究[2-4]表明,近紅外光譜能應(yīng)用于生鮮肉品質(zhì)的快速、無損檢測。高分辨率的近紅外光譜儀器能采集到豐富的物質(zhì)成分信息,但數(shù)據(jù)中往往包含大量冗余信息,直接用其建模不僅增加了建模難度,且影響模型的精確度和泛化能力,因此特征變量選擇成為解決這一問題的有效途徑[5-7]。當(dāng)面對高維數(shù)據(jù)時,一些尋找最優(yōu)變量子集的方法容易過度擬合且需要大量計算,有些方法則不適用,因此結(jié)合兩種或兩種以上的有效變量選擇方法成為解決這一問題的新思路。孔慶明等[8]利用iPLS-SPA對小麥秸稈近紅外光譜進(jìn)行特征波長選擇,波長數(shù)量從520降至10;Tang等[9]利用CARS-SPA選擇的變量比單獨(dú)使用CARS選擇的變量更少,且用所選波長建模精度要優(yōu)于全光譜建模;Xu等[10]利用CARS-GA選取特征波長,波長數(shù)量從1 557 降至53,建立了預(yù)測竹筍粗纖維含量的模型;Li等[11]用MC-UVE-SPA選取特征波長,建立了預(yù)測梨果實(shí)SSC和硬度的LV-SVM模型,這些研究主要使用了兩種方法相結(jié)合進(jìn)行特征波長選擇,第2種方法對第1種方法選擇的變量進(jìn)一步組合、優(yōu)化。
試驗擬基于近紅外光譜多元校正中有效變量選擇的3步混合策略(初篩、精挑、細(xì)選)[12],提出一種iPLS-iVISSA-IRIV 3種方法相結(jié)合的特征變量選擇方法,旨在為基于分立波長元件的便攜式雞肉水分檢測儀的設(shè)計提供依據(jù)。
近紅外光譜儀:Field Spec3型,波長范圍350~2 500 nm,美國ASD公司;
電熱鼓風(fēng)箱:101-2AB型,北京心雨儀器儀表有限公司;
分析天平:BSM120.4型,精度0.1 mg,上海卓精電子科技有限公司;
海爾電冰箱:BC/BD-101HBZ型,青島海爾特種電冰柜有限公司;
恒溫水浴鍋:HH-W600型,濟(jì)南歐萊博科學(xué)儀器有限公司;
手動絞肉機(jī):NS-001型,4 mm孔徑,浙江省榮博廚具有限公司。
冷鮮雞胸肉:60塊,購買后立即運(yùn)往無菌實(shí)驗室,在超凈工作平臺上將雞胸肉修整成4 cm×4 cm×1.5 cm的肉塊,隨后裝入保鮮袋并放入0 ℃的冰箱中保存,5 d內(nèi)完成雞胸肉反射光譜的采集和水分測定,市售。
自制的光譜采集裝置如圖1所示,每次采集樣本光譜前,將待采集的雞胸肉從冰箱取出,室溫下解凍30 min,且光譜儀開機(jī)預(yù)熱30 min后開始采集。采集時將肉塊置于樣品臺上,為了減小每個樣本距離光源和探頭不一致的誤差,調(diào)節(jié)平臺使所有肉塊上表面高度保持一致。考慮到雞肉內(nèi)部組織差異性較大,光譜儀掃描次數(shù)設(shè)為3次,取平均值作為樣本原始光譜。
1. 計算機(jī) 2. 數(shù)據(jù)線 3. 光譜儀 4. 光纖 5. 暗箱 6. 采集探頭 7. 光源 8. 入射與反射光線 9. 樣品 10. 樣品臺(高度可調(diào)節(jié))
每個雞肉樣本在采集完光譜數(shù)據(jù)后,根據(jù)國家食品安全標(biāo)準(zhǔn)《食品中水分的測定》中的直接干燥法進(jìn)行水分測定。
采用Matlab 2015b軟件進(jìn)行數(shù)據(jù)處理。由于350~400 nm的光譜數(shù)據(jù)存在較大噪聲信號,且1 451~2 500 nm 的光譜數(shù)據(jù)幾乎沒有起伏變化,可視為“無信息變量”,故選取401~1 450 nm作為原始光譜,如圖2所示。多元散射校正(Multiplicative scatter correction, MSC)能有效改善樣本顆粒大小不一、表面散射不均以及光程變化對漫反射光譜采集的影響,而中心化法(Mean centering, MC)能增強(qiáng)樣品光譜之間的特異性。因此,后續(xù)的模型構(gòu)建中,采用兩種方法聯(lián)合對光譜數(shù)據(jù)進(jìn)行預(yù)處理,圖3為60個樣本經(jīng)預(yù)處理后的光譜圖。
1.5.1 3步混合策略 有效波長變量選擇的3步混合策略分為初篩、精挑和細(xì)選。初篩的目的是選出幾個含信息量豐富的波長區(qū)間,通過波長間隔選擇算法來實(shí)現(xiàn)。精挑是從第1步所選的波長間隔中進(jìn)一步選擇,濾除波長間隔中的噪聲和非信息變量,再次縮小變量空間。細(xì)選是對第2步所保留的波長變量進(jìn)一步組合、優(yōu)化,達(dá)到使所選變量最優(yōu)、最少的目的。此策略能避免變量選擇方法的隨機(jī)組合,克服單種方法對大量變量難以達(dá)到最優(yōu)選擇和組合的缺點(diǎn)[12]。
1.5.2 特征波長選擇方法
(1) 區(qū)間偏最小二乘(Interval partial least squares, iPLS):iPLS是一種最具代表性的波長區(qū)間選擇算法,具有對變量解釋性強(qiáng)的優(yōu)點(diǎn)[13]。首先按設(shè)定寬度將整個光譜區(qū)域劃分為n個子區(qū)間,在每個子區(qū)間上建立待測品質(zhì)的局部PLS回歸模型,得到n個子模型,取前k個交叉驗證均方根誤差(RMSECV)最低的子模型所在區(qū)間為特征波長區(qū)間。
圖2 原始光譜Figure 2 Original spectrum
圖3 預(yù)處理光譜Figure 3 Pretreatment spectrum
(2) 區(qū)間變量迭代空間收縮法(Interval variable iterative space shrinkage approach, iVISSA):該算法也是一種波長間隔選擇算法,基于模型總體分析(MPA),利用權(quán)重二進(jìn)制矩陣采樣(WBMS)法更改各變量權(quán)重,若所有子模型的均方根誤差與預(yù)測誤差不再改變,取權(quán)重為1的變量為特征變量,且將選中變量的相鄰變量放入子模型中進(jìn)行回歸分析,全局分析和局部分析交替進(jìn)行,能同時對光譜間隔、位置和組合進(jìn)行優(yōu)化[14]。
(3) 迭代保留信息變量算法(Iteratively retaining informative variables, IRIV):該算法將波長變量按重要性分成4個等級,分別為強(qiáng)信息變量、弱信息變量、無信息變量和干擾信息變量[15]。將采樣矩陣采集到的變量隨機(jī)組合,并分別建立各組合的PLS回歸模型,用RMSECV衡量各模型精度?;贛PA,每次循環(huán)迭代都計算包含和不包含此變量時的RMSECV平均值之差,并根據(jù)Mann-Whitney U檢驗的P值來判定該變量的等級,最后經(jīng)反向消除保留強(qiáng)信息變量和弱信息變量,從而獲得最優(yōu)特征波長變量。
1.5.3 模型構(gòu)建方法 偏最小二乘回歸(Partial least squares regression, PLSR)是一種多元統(tǒng)計分析方法。首先對光譜矩陣X和水分參照值矩陣Y進(jìn)行特征分解,分別得到X和Y的特征因子矩陣(得分矩陣),然后建立特征因子矩陣的多元線性回歸模型,最優(yōu)潛在變量數(shù)由交叉驗證法得到的RMSECV值確定,潛在變量數(shù)確定回歸系數(shù)矩陣B也隨之確定,最后經(jīng)數(shù)據(jù)重構(gòu)得到X和Y的回歸模型。
表1為60個雞肉樣本水分含量統(tǒng)計表,用Kennard-Stone[16]將樣本按4∶1比例劃分為48個校正集和12個預(yù)測集。
偏最小二乘回歸(PLSR)是近紅外分析中最典型、最常用的建模方法。校正集用來構(gòu)建模型,預(yù)測集用來檢驗?zāi)P偷姆€(wěn)定性,并根據(jù)RMSECV值確定最佳主因子數(shù)。用全波段光譜數(shù)據(jù)建模,當(dāng)RMSECV值最小為0.782 9 時,主因子數(shù)為7,此時校正模型RC=0.886 6,RMSEC=0.568 8;預(yù)測模型RP=0.877 9,RMSEP=0.905 4,結(jié)果如圖4所示,表明模型精度有待提高。
表1 樣本水分統(tǒng)計表
2.3.1 初篩 將401~1 450 nm整個光譜區(qū)以40 nm的波長間隔分成26個區(qū)間,選出前10個RMSECV值最低的波長區(qū)間,結(jié)果如圖5所示。用所選波段建模,結(jié)果如圖6 所示,模型的RMSECV值最小為0.699 4時的主因子數(shù)為7,此時校正模型RC=0.900 0,RMSEC=0.536 1;預(yù)測模型RP=0.893 7,RMSEP=0.820 3,相比全波段建模,模型精度有所提高。由圖5可知,選中波段大多是波峰和波谷段,例如760,980 nm附近有明顯的吸收峰,特別是980 nm附近。而760,980 nm處為水的特征吸收波長,說明iPLS能有效篩選出與水分相關(guān)的變量,供下一步選擇。
圖4 全波段建模Figure 4 Full spectrum modeling
圖5 iPLS所選波段Figure 5 iPLS selected band
圖6 iPLS所選波段建模Figure 6 iPLS selected band modeling
2.3.2 精選 從第1步選擇的400個波長中選中191個波長,如圖7所示,760,980 nm附近的波長再次被選中,說明經(jīng)iVISSA精選,能實(shí)現(xiàn)對波長間隔、位置和組合的同時優(yōu)化,在保留重要變量的同時,濾除了iPLS所選變量中的噪聲和非信息變量。使用所選波長建立PLS模型,結(jié)果如圖8所示,RMSECV最小值為0.690 3時的主因子數(shù)為8,此時校正模型RC=0.915 6,RMSEC=0.494 3;預(yù)測模型RP=0.923 4,RMSEP=0.732 3,模型精度和穩(wěn)定性再次提高。
圖7 iVISSA所選波段Figure 7 iVISSA selected band band
圖8 iVISSA所選波段建模Figure 8 iVISSA selected band modeling
2.3.3 細(xì)選 由第2步所選變量結(jié)果可知,變量大都集中于401~450 nm和500~600 nm,而連續(xù)波長之間存在較強(qiáng)的共線性關(guān)系,說明此結(jié)果仍存在繼續(xù)優(yōu)化、精簡的可能性。經(jīng)IRIV細(xì)選,從第2步所選的191個波長中選出8個波長,如圖9所示,分別為402,442,452,553,555,586,999,1 042 nm,用所選波長建立PLS模型,結(jié)果如圖10所示,RMSECV值最小為0.652 6,校正模型RC=0.907 7,RMSEC=0.516 1;預(yù)測模型RP=0.943 5,RMSEP=0.612 3。與第2步建模結(jié)果相比,校正相關(guān)系數(shù)基本保持不變,預(yù)測相關(guān)系數(shù)再次提高,且RMSECV值持續(xù)降低。說明經(jīng)IRIV細(xì)選,變量空間大幅縮減,模型精度和穩(wěn)定性再次有所提高。
圖9 IRIV所選波長Figure 9 IRIV selected variables
圖10 IRIV所選波長建模Figure 10 IRIV selected variables modeling
由圖11可知,經(jīng)3步混合選擇,變量空間從1 050維縮減至8維,RMSECV值逐步降低。雖然經(jīng)過第3步IRIV,模型的校正相關(guān)系數(shù)有略微下降,但預(yù)測相關(guān)系數(shù)再次提高,整體而言,模型在逐步簡化、穩(wěn)定。最終選定的8個特征波長包含999 nm,此波長位于水的特征吸收波長(980 nm)附近,表明基于3步混合策略提出的iPLS-iVISSA-IRIV方法能有效篩選出雞肉光譜數(shù)據(jù)中與水分相關(guān)的信息。
圖11 試驗結(jié)果統(tǒng)計Figure 11 Statistics of test results
基于3步混合策略提出了iPLS-iVISSA-IRIV特征波長選擇方法,結(jié)合偏最小二乘回歸建立了生鮮雞肉水分檢測模型,取得了較為滿意的結(jié)果。結(jié)果表明,iPLS、iVISSA和IRIV 3步混合能有效篩選出檢測雞肉水分的特征波長,在穩(wěn)步縮減變量空間的同時,減小了有效變量誤剔除的可能性以及建模的復(fù)雜度,并逐步提高模型的精確度和穩(wěn)定性。最終選定8個特征波長所建模型的校正相關(guān)系數(shù)為0.907 7,預(yù)測相關(guān)系數(shù)為0.943 5。