陳素彬
(南充職業(yè)技術(shù)學(xué)院,四川 南充 637131)
杏仁蛋白軟糖是重要的食品和食品生產(chǎn)原料,可用作蛋糕內(nèi)餡、糕面及富有色彩的糕點裝飾,制作小杏仁蛋糕、杏仁餅及餅干。杏仁蛋白軟糖富含蛋白質(zhì)、單不飽和脂肪酸、維生素E、纖維和鎂等物質(zhì),不僅能改善食品的風(fēng)味、口感和外觀,而且還具有很高的醫(yī)用價值。
根據(jù)GB/T 20977—2007《糕點通則》之規(guī)定,杏仁蛋白軟糖的理化指標(biāo)應(yīng)包括干燥失重(水分)、蛋白質(zhì)、粗脂肪和總糖,其中總糖含量檢驗方法為其附錄A給出的斐林氏容量法;水分含量按GB 5009.3—2016《食品安全國家標(biāo)準(zhǔn) 食品中水分的測定》的第一法測定。這些方法的優(yōu)勢為準(zhǔn)確度高、重復(fù)性好、設(shè)備成本較低,適用于仲裁檢驗,但需用儀器設(shè)備和化學(xué)試劑較多,具有操作復(fù)雜、耗時長、污染環(huán)境等缺點[1],致其測定結(jié)果易受人為因素影響,不利于食品生產(chǎn)中的大樣本快速檢測。近年來,隨著化學(xué)計量學(xué)方法的發(fā)展和儀器研制水平的提高,近紅外光譜(Near infrared spectroscopy,NIRS)分析方法檢測高效、操作簡便、無化學(xué)污染、支持多成分同時測定等優(yōu)勢日益凸顯,作為一種非破壞性的“瞬間分析”技術(shù)[2],被越來越多地應(yīng)用于食品行業(yè)的各種定性和定量分析,但目前中國尚未見以NIRS法檢測杏仁蛋白軟糖組分的報道。
NIRS法是一種間接定量分析技術(shù)[3],在確保樣品光譜和待測成分參考值準(zhǔn)確性的情況下,其預(yù)測結(jié)果取決于所建定標(biāo)模型的質(zhì)量。在實際應(yīng)用和相關(guān)研究中,通常采用隨近紅外光譜儀器附送的OPUS、TQ Analyst、QUANT等分析軟件[4-5],以偏最小二乘法(Partial least squares,PLS)進行建模和預(yù)測。對于食品營養(yǎng)成分、品質(zhì)指標(biāo)檢測,李路等[6]用PLS法和BP神經(jīng)網(wǎng)絡(luò)法建立了大米總糖、水分等成分的近紅外檢測模型,其決定系數(shù)(R2)均大于0.9、相對標(biāo)準(zhǔn)差均小于2.6%。陳沖等[7]建立了冬棗水分、糖分無損檢測的PLS和主成分回歸(Principal component regression,PCR)分析模型,其水分預(yù)測PLS模型的相關(guān)系數(shù)(R)為0.997 45、校正均方差(Root mean square error of calibration,RMSEC)為0.044 5、預(yù)測均方差(Root mean square error of prediction,RMSEP)為0.367,糖分預(yù)測PLS模型的相關(guān)系數(shù)(R)、RMSEC和RMSEP分別為0.960 78,0.853,1.64。何云嘯等[8]建立了諾麗果粉在真空冷凍干燥過程中水分含量與紅外光譜的定量模型,當(dāng)水分含量在5.00%~9.00%時模型的R2為0.98、交互驗證均方根誤差(Root mean square error of cross validation,RMSECV)為0.26。賈柳君等[9]利用近紅外光譜分析技術(shù)對葡萄酒的主要成分進行定量分析,其總糖預(yù)測模型的R2、RMSEP和相對分析誤差(Residual predictive deviation,RPD)分別達到0.943 5,0.263 6,4.21。這些研究為應(yīng)用NIRS分析技術(shù)進行食品營養(yǎng)指標(biāo)檢測提供了有益參考,但未充分運用化學(xué)計量學(xué)方法和軟件技術(shù)優(yōu)化模型性能,主要體現(xiàn)在:① 忽略了異常樣本和不同的樣本集劃分結(jié)果對模型預(yù)測能力和穩(wěn)健性的影響,未進行異常樣本判斷和樣本集劃分方法選擇。② 根據(jù)譜圖外觀或待測成分對應(yīng)的化學(xué)基團選擇變量區(qū)間,建模波長較多,模型運算量大而運行效率較低;或用組合方法優(yōu)選特征波長,增加了建模過程的復(fù)雜性。
杏仁蛋白軟糖:南充多家糕點企業(yè);近紅外光譜儀:NIRSystems 6500型,丹麥FOSS公司。其光源為鎢鹵燈,波長范圍400~2 500 nm,檢測器為硅(400~1 100 nm)和硫化鉛(1 100~2 500 nm);取點間隔2 nm,掃描速度1.8次/s,掃描次數(shù)32,工作溫度15~32 ℃。配有往復(fù)移動式樣品池,以標(biāo)準(zhǔn)陶瓷片為參比。
按GB/T 20977—2007規(guī)定之方法和數(shù)量,在南充糕點企業(yè)采集杏仁蛋白軟糖樣品32個,用四分法縮減、混勻后分成4份,取其中2份為試驗樣品,分別用于水分、總糖含量參考值測定和光譜數(shù)據(jù)采集。試樣裝入廣口瓶,保存在冰箱中。
1.3.1 水分 稱取試樣8 g(精確至0.000 1 g),按GB 5009.3—2016的第一法測定。
1.3.2 總糖 準(zhǔn)確稱取樣品2.0 g,按GB/T 20977—2007附錄A的斐林氏容量法測定。
1.4.1 樣品近紅外光譜采集 依次將試樣裝入樣品杯,以近紅外光譜儀掃描。設(shè)置波長范圍450~2 448 nm、間隔2 nm,每個試樣重復(fù)裝樣、掃描10次,取其平均值為樣品光譜。
1.4.2 NIRS定標(biāo)模型建立及其性能評價 以KS法將樣品按2∶1劃分為定標(biāo)集和驗證集。用定標(biāo)集光譜數(shù)據(jù)和水分含量參考值建立PLS定標(biāo)模型,并將驗證集光譜數(shù)據(jù)代入該模型預(yù)測相應(yīng)的樣品水分含量;用同樣方法建模、預(yù)測驗證集樣品的總糖含量。
(2)制定相應(yīng)的優(yōu)惠政策。如高速公路服務(wù)區(qū)旅游廁所建設(shè)減免收投資許可證、行政事業(yè)單位免收公廁拆遷建設(shè)管理費用等。
以校正決定系數(shù)(Rc2)、預(yù)測決定系數(shù)(Rp2)、RMSEC、RMSEP和RPD為評價指標(biāo),分析所得水分和總糖測定的NIRS定標(biāo)模型性能。
1.5.1 異常樣本剔除 以蒙特卡洛采樣法(Monte Carlo sampling,MCS)從全部樣本中抽取80%為校正集、其余為驗證集,建立PLS模型進行預(yù)測,計算各樣本的預(yù)測殘差。重復(fù)該過程使全部樣本被預(yù)測,計算各樣本預(yù)測殘差的均值(MEAN)和標(biāo)準(zhǔn)差(Standard deviation,STD),繪制全部樣本預(yù)測殘差的MEAN-STD分布圖,圖中位于均值和標(biāo)準(zhǔn)差較高區(qū)域的樣本即為異常樣本[10]。
1.5.2 光譜變換處理與樣本集劃分 以多種算法分別對定標(biāo)集和驗證集光譜數(shù)據(jù)進行變換處理,包括均值中心化(Mean centralization,MC)、薩維茨基—戈萊平滑(Savitzky-Golay smoothing,SG)、標(biāo)準(zhǔn)正態(tài)變量變換(Standard normal variable,SNV)、去趨勢(De-trending,DT)和多元散射校正(Multiple scattering correction,MSC)以及基于MC的組合算法;同時分別以KS法和SPXY法按2∶1劃分樣本集,用變換處理后的光譜數(shù)據(jù)與相應(yīng)待測成分參考值分別建立PLS模型預(yù)測水分和總糖含量,比較其性能指標(biāo)以確定最優(yōu)光譜預(yù)處理和樣本集劃分方案。
1.5.3 特征波長選取 用MCS法抽取80%樣本構(gòu)成校正集、其余為驗證集,建立PLS模型進行預(yù)測,計算波長j對目標(biāo)的貢獻|bj|和權(quán)重wj,以指數(shù)遞減函數(shù)計算波長點的保留率ri=ae-ki(a、k為常數(shù),i為采樣次數(shù));去掉|bj|較小的波長點,用自適應(yīng)重加權(quán)采樣(Adaptive reweighted sampling,ARS)法由m×ri個波長點中得到樣本優(yōu)選子集(m為波長點數(shù)),取相應(yīng)光譜數(shù)據(jù)建立PLS模型,計算其RMSECV。重復(fù)此過程200次,取最小RMSECV值對應(yīng)的優(yōu)選子集為特征波長。
1.5.4 優(yōu)化模型建立與預(yù)測 從樣本集中剔除異常樣本,用選定方案進行數(shù)據(jù)預(yù)處理、劃分樣本集、選取特征波長光譜,得到優(yōu)化的定標(biāo)集和驗證集,以PLS方法分別建模、預(yù)測水分和總糖含量。將所得預(yù)測結(jié)果與相應(yīng)成分的參考值對比,計算其平均回收率,并通過配對樣本t檢驗判斷其差異性。
1.7.1 待測成分參考值測定 數(shù)據(jù)記錄、結(jié)果計算和數(shù)據(jù)統(tǒng)計用Microsoft Excel 2010完成。
1.7.2 NIRS定標(biāo)模型建立和優(yōu)化 初始模型的建立、預(yù)測用The Unscrambler X 10.4完成,模型優(yōu)化用MATLAB R2019a編程、作圖實現(xiàn)。
1.7.3 樣品光譜圖形繪制 用OriginPro 2019b完成。
2.1.1 樣品近紅外光譜采集結(jié)果 32個樣品的近紅外光譜如圖1所示。
從圖1可知,所有杏仁蛋白軟糖樣品的光譜特征較為相似,譜線較分散、譜圖較寬,表明各樣品組成基本一致、其成分含量差異較明顯;樣本光譜在1 100,1 288,1 652,1 848 nm左右存在明顯波谷,而在1 010,1 208,1 468,1 724,1 938 nm左右有較明顯的波峰,這些波段區(qū)域含有較多特征光譜信息。同時還可看到,樣品光譜譜帶較寬,基線漂移和譜帶重疊嚴(yán)重,尤其2 150~2 448 nm波段的光譜信噪比較低,故建模時應(yīng)對原始光譜進行變換處理;譜圖中有2條譜線的走勢明顯離群,疑其為異常樣本,宜在建模時剔除。
圖1 樣品近紅外光譜
2.1.2 NIRS定標(biāo)模型預(yù)測結(jié)果分析 用全部樣本、全光譜、無預(yù)處理分別所建水分、總糖含量測定的NIRS定標(biāo)模型預(yù)測結(jié)果如表1所示。
2.2.1 異常樣本剔除結(jié)果分析 馬氏距離法、主成分得分法、光譜殘差檢驗法等傳統(tǒng)方法判斷異常樣本,皆需根據(jù)經(jīng)驗設(shè)定閾值,且難以判斷多個異常點。試驗采用MCCV法,可根據(jù)光譜數(shù)據(jù)和待測成分之間的關(guān)系及異常值對模型穩(wěn)健性的影響,同時篩選出兩個方向的異常點,并以全部樣本的預(yù)測殘差MEAN-STD分布圖直觀地反映其整體分布情況,其結(jié)果如圖2所示。
表1 NIRS定標(biāo)模型預(yù)測結(jié)果
圖2 全部樣本預(yù)測殘差MEAN-STD分布圖
從圖2(a)可看出,全部樣本預(yù)測殘差的均值和標(biāo)準(zhǔn)差分布較分散,其中位于高均值區(qū)域的樣本依次為13、24、25和19號,位于高標(biāo)準(zhǔn)差區(qū)域的樣本依次為21、22和23號,反映出在模型的多次運行中,這些樣本的水分含量預(yù)測準(zhǔn)確度或(和)穩(wěn)定性與總體相差較大,剔除之將使所建模型的準(zhǔn)確性和穩(wěn)健性得到改善。因樣本總數(shù)較少,實際建模時僅剔除預(yù)測殘差均值和標(biāo)準(zhǔn)差都較大的13和21號樣本即可;在圖2(b)中,樣本預(yù)測殘差的均值和標(biāo)準(zhǔn)差分布較集中,位于高均值區(qū)域的樣本為21和30號,位于高標(biāo)準(zhǔn)差區(qū)域的樣本依次為21、23和22號,因此建模時宜剔除離群最遠的21和30號樣本。
2.2.2 光譜變換處理與樣本集劃分
(1) 樣本集劃分結(jié)果比較:在濃度梯度(Concentration gradient,CG)、隨機(Random sampling,RS)、KS和SPXY等幾種常用樣本集劃分方法中,KS法在實際檢測和相關(guān)研究中采用最多;SPXY法則在計算樣品間距時同時考慮了光譜和參考值變量,能有效覆蓋多維向量空間,從而改善所建模型的預(yù)測能力。試驗將30個正常樣本分別用KS法和SPXY法按2∶1劃分樣本集,得定標(biāo)集樣本20個、驗證集樣本10個,其結(jié)果如表2 所示。
表2 兩種方法劃分樣本集的結(jié)果
由表2可知,用KS法劃分水分測定模型的樣本集較好,所得定標(biāo)集與驗證集樣本的水分含量區(qū)間分別為[6.8,18.6]、[7.0,18.1],前者完全涵蓋了后者;其水分含量平均值(13.52,13.92)和標(biāo)準(zhǔn)差(3.62,3.64)都相差很小,表明定標(biāo)集和驗證集樣本數(shù)據(jù)分布相似度高,適合于建立水分含量預(yù)測模型。
總糖測定模型則以SPXY法劃分樣本集較好,相應(yīng)定標(biāo)集和驗證集樣本的總糖含量區(qū)間分別為[32.7,68.7]、[33.2,68.2],前者亦完全涵蓋后者;其驗證集樣本的總糖含量平均值小于定標(biāo)集、標(biāo)準(zhǔn)差大于定標(biāo)集,表明驗證集樣本數(shù)據(jù)分布于定標(biāo)集數(shù)據(jù)區(qū)域內(nèi),且其較分散、多態(tài)性好,有利于建立一個預(yù)測能力強、泛化性能好的總糖測定模型。與之相比,KS法劃分的定標(biāo)集中未包含總糖含量值最小的樣本,將對所建NIRS定標(biāo)模型性能產(chǎn)生不利影響。
(2) 光譜變換處理結(jié)果比較:近紅外光譜吸收較弱、重疊嚴(yán)重,且存在樣品物理性狀不均、光的散射及儀器噪聲等不利因素影響,致使掃描所得原始光譜信息復(fù)雜、信噪比低,以之直接建模難以獲得預(yù)期的結(jié)果。試驗分別嘗試了多種光譜變換處理算法,其相應(yīng)PLS定標(biāo)模型的預(yù)測結(jié)果如表3所示。
從方法原理的角度講,MSC算法能有效消除樣品顆粒大小及其分布不均產(chǎn)生的散射影響,增強光譜與數(shù)據(jù)之間的相關(guān)性;MC變換可增加樣品光譜之間的差異,從而提高模型的穩(wěn)健性和預(yù)測能力。就實際效果看,試驗將二者組合應(yīng)用于半固體狀的杏仁蛋白軟糖樣品光譜預(yù)處理,取得了優(yōu)于其他各種方法的效果。
2.2.3 建模波長選取結(jié)果分析 試驗樣品的原始NIRS光譜包括1 000個波長,其中存在大量冗余信息和共線性變量,勢必增加建模的復(fù)雜性和計算量,影響模型的預(yù)測精度和運行速度,因此建模時需選取能充分反映待測成分信息的特征波長,以簡化模型、提高其性能。在無信息變量消除法(UVE)、連續(xù)投影算法(SPA)及遺傳算法(GA)等眾多方法中,試驗采用CARS法進行建模特征波長優(yōu)選[11],所得結(jié)果如表4所示。
由表4可知,用CARS法結(jié)合PLS模型篩選后,水分定標(biāo)模型保留了8個波長變量,僅占全波長的0.8%。其中4個集中在1 590~1 692 nm波段,正好位于以1 652 nm 為中心的波谷內(nèi);另外4個中有2個位于1 938 nm 處的波峰區(qū)域、1個位于1 468 nm處的波峰附近、1個位于1 848 nm處的波谷區(qū)域。顯然,選出的8個波長與樣品譜圖的特征基本相符,相應(yīng)的光譜數(shù)據(jù)能夠表達杏仁蛋白軟糖樣品中水分的主要信息。
總糖定標(biāo)模型選取15個波長變量,僅為全波長的1.5%。其中7個集中在1 550~1 566 nm波段,另外8個中有3個位于1 848 nm處的波谷區(qū)域、2個位于1 208 nm 處的波峰區(qū)域、2個位于2 094~2 098 nm波段、1個位于1 010 nm處的波峰區(qū)域。對照圖1可知,所選波長全部位于信噪比較高、特征變化顯著的譜區(qū),即第一個波峰(1 010 nm)和最后一個波峰(1 938 nm)范圍,相應(yīng)的樣品光譜數(shù)據(jù)所含總糖信息足以滿足建模要求。
2.2.4 優(yōu)化模型建立與預(yù)測結(jié)果分析 將前述各項優(yōu)化成果綜合應(yīng)用,以PLS法所建樣品水分和總糖含量的NIRS定標(biāo)模型預(yù)測結(jié)果如表5所示。
由表5可知,得益于多項優(yōu)化技術(shù)的綜合應(yīng)用,樣品水分含量定標(biāo)模型的預(yù)測殘差為-0.4%~0.5%,其絕對值均小于0.5%;總糖含量定標(biāo)模型的預(yù)測殘差為-0.9%~1.0%,其絕對值均不大于1.0%。將預(yù)測值與參考值之比作為預(yù)測回收率,算得兩個模型的平均回收率分別為99.5%,99.9%,表明其可用于預(yù)測杏仁蛋白軟糖的相應(yīng)成分含量。
表3 各種預(yù)處理方法的建模預(yù)測結(jié)果
表4 NIRS定標(biāo)模型特征波長選擇結(jié)果
表5 優(yōu)化的NIRS定標(biāo)模型預(yù)測結(jié)果
分別將水分、總糖定標(biāo)模型的預(yù)測值與參考值進行配對樣本t檢驗,在設(shè)置置信水平95%的情況下,結(jié)果分別為P=0.83>0.05、P=0.84>0.05,說明95%概率下兩組數(shù)據(jù)無顯著性差異,兩個模型可分別滿足杏仁蛋白軟糖水分、總糖含量快速準(zhǔn)確測定的要求。
從初始模型開始,到運用多項技術(shù)方法完成模型優(yōu)化,各階段分別所建杏仁蛋白軟糖水分、總糖含量預(yù)測的NIRS定標(biāo)模型性能對比如表6所示。
表6 NIRS定標(biāo)模型優(yōu)化性能對比
同時,由于建模波長變量大幅度縮減,大量非待測成分信息得以消除,使得優(yōu)化模型的計算量顯著降低,其運行速度也隨之加快。在采用相同方法進行同類檢測時,參照試驗所選特征波長采集樣品光譜,可極大節(jié)省其工作量。
由此可見,試驗所建杏仁蛋白軟糖水分、總糖含量的NIRS定標(biāo)模型均有較高的精度和運算速度,其性能指標(biāo)優(yōu)于同類試驗?zāi)P?,并達到國際谷物科技協(xié)會用于實際檢測的標(biāo)準(zhǔn),適用于杏仁蛋白軟糖理化指標(biāo)的快速檢測。但因時間所限,試驗采集樣品數(shù)相對較少,以及未嘗試非線性建模和更多波長選擇方法,下一步將對此進行研究。