劉少莉 雷 霆 劉術明 郝東海 崔麗琴 王一涵 何光華,
(1浙江科技學院生物與化學工程學院,浙江 杭州 310023;2黑龍江貝因美乳業(yè)有限公司,黑龍江 安達 151400;3哈爾濱商業(yè)大學經(jīng)濟學院,黑龍江 哈爾濱 150006)
母乳是嬰兒最理想的食物,是嬰幼兒配方乳粉生產(chǎn)的黃金標準,其中母乳低聚糖(human milk oligosaccharides,HMOS)是母乳中非常重要的活性成分,具有調(diào)節(jié)腸道菌群平衡、利于益生菌生長與定植、提高機體免疫力以及促進嬰兒大腦發(fā)育等功能。為實現(xiàn)嬰幼兒配方乳粉低聚糖的母乳化,生產(chǎn)企業(yè)通常在配方中強化低聚半乳糖(galactooligosaccharide,GOS)和低聚果糖(fructooligosaccharide,F(xiàn)OS)等。GOS 是在半乳糖或葡萄糖分子上連接1~7 個半乳糖基組成的復雜混合物,F(xiàn)OS是由蔗果三糖至蔗果八糖以及果果二糖至果果八糖組成的復雜混合物,兩者分子結構復雜。因此,對GOS 和FOS 的化學值檢測有一定難度,其準確定量一直是嬰幼兒配方乳粉行業(yè)需解決的難題之一,特別是嬰幼兒配方乳粉中GOS 至今仍無國標檢測方法。目前,GOS非國標檢測方法有高效液相色譜-示差折光檢測法[1]、離子色譜(ion chromatography,IC)指紋圖譜法[2];FOS 常用的檢測方法有高效液相蒸發(fā)散射法[3]、離子色譜法[4]等,盡管此類方法測量結果的準確性相對較高,但仍存在樣品前處理耗時長、步驟繁瑣、對樣品造成破壞等缺陷[5],而且從效率上無法滿足嬰幼兒配方乳粉的在線檢測和在線優(yōu)化控制需求[6]。因此,嬰幼兒配方乳粉生產(chǎn)過程急需一種快速、高效、準確的檢測方法,以實現(xiàn)GOS、FOS含量的在線檢測。
近紅外光譜分析技術因簡單準確、快速高效、綠色無損等優(yōu)點而被廣泛應用于食品[7-10]、醫(yī)藥[11-13]、化工[14-15]、材料[16-18]等領域,在乳粉及相關乳制品的快速檢測中也有應用。楊福臣等[19]采用一階導數(shù)、平滑和歸一化相結合的方法進行光譜預處理,并通過軟件自帶波段優(yōu)化功能篩選特征波段建立了乳粉蛋白質和脂肪偏最小二乘回歸(partial least squares regression,PLSR)預測模型;何吉子等[20]選擇二階導數(shù)、標準正態(tài)變換、平滑和傳輸加權結合的預處理方法建立了乳粉乳糖PLSR 預測模型;顏輝等[21]基于小波變換預處理,比較了主成分在不同波長上的權重分布,并選擇不同的波段建立PLSR 預測模型,實現(xiàn)了對乳粉蛋白質和脂肪的快速檢測。上述研究證明,近紅外光譜分析技術能夠實現(xiàn)對乳粉蛋白質、脂肪和乳糖等營養(yǎng)成分的快速檢測,但由于GOS 和FOS 結構復雜且在乳粉中的含量較低,目前基于近紅外光譜分析技術實現(xiàn)GOS 和FOS快速檢測的相關文獻非常少。
為研究建立GOS 和FOS 的近紅外快速檢測模型,且考慮到嬰幼兒配方乳粉成分復雜、樣品粒子大小不一,以及外界光輻射、噪聲,在近紅外光譜掃描時會產(chǎn)生基線漂移及無關波長變量的干擾等影響,擬通過對近紅外光譜進行預處理,再進行特征波長提取及定量預測模型建立來確定嬰幼兒配方乳粉中的GOS和FOS含量,為嬰幼兒配方乳粉生產(chǎn)過程中營養(yǎng)成分的在線檢測及在線優(yōu)化控制提供參考。
1.1.1 試驗材料 從黑龍江貝因美乳業(yè)有限公司收集嬰兒配方乳粉、較大嬰兒配方乳粉、幼兒配方乳粉3 個品種共計樣本100 個,其中僅含GOS 的樣本35 個,含有GOS和FOS的乳粉樣本65個,用于GOS和FOS預測模型的建立;市售嬰幼兒配方乳粉A~E 均含有GOS 和FOS,用于預測模型的驗證。
1.1.2 試驗試劑 氫氧化鈉(色譜純)、馬來酸、硼氫化鈉、冰乙酸、三水乙酸鈉、50%氫氧化鈉溶液(色譜純)、無水乙酸鈉(純度≥99.9%)、乙腈(色譜純)、無水乙酸鈉(分析純)、磷酸二氫鉀(分析純)、三水磷酸氫二鉀(分析純)、乙酸鋅(分析純)、亞鐵氰化鉀(分析純)、鹽酸(分析純)、氫氧化鈉(分析純),上海麥克林生化科技股份有限公司;蔗糖酶(酶活力≥300 U)、果聚糖酶(酶活力≥10 000 U),上海華上翔洋生物技術有限公司;氮氣(純度≥99.9%),浙江騰邦實業(yè)有限公司;標準品D-葡萄糖(純度99.5%)、D-果糖(純度99.6%)、半乳糖(純度99.9%)、蔗糖(純度99.5%),德國Dr.Ehrenstorfer公司;β-半乳糖苷酶(240 U·mg-1),愛爾蘭Megazyme 公司;C18 固相萃取小柱(500 mg,3 mL),北京艾杰爾科技有限公司。
離子色譜儀,北京歐潤科學儀器有限公司;電子天平,奧豪斯儀器(上海)有限公司;SHZ-W 恒溫振蕩器,常州萬順儀器制造有限公司;BXM-30R 高壓滅菌鍋,上海博訊實業(yè)有限公司;離心機,湖南湘儀實驗室儀器開發(fā)有限公司;高效液相色譜儀,杭州譜育科技發(fā)展有限公司;超聲波振蕩器,上海萊鴻機械設備有限公司;Antaris Ⅱ型傅里葉近紅外光譜儀,美國Thermo Scientific有限公司。
1.3.1 光譜采集 使用近紅外光譜儀采集光譜之前,將乳粉樣本放在實驗室常溫下保持一段時間以減少由于溫度變化引起的測量誤差[22]。儀器在測量前預熱30 min,防止檢測結果因波長漂移而偏離真實值[23]。試驗環(huán)境溫度為20 ℃,相對濕度為45%,掃描波數(shù)設置為4 000~10 000 cm-1,波數(shù)分辨率設置為8 cm-1,掃描次數(shù)為64 次。通過儀器光纖探頭與乳粉直接接觸獲得漫反射光譜信息,采集間隔為1 min,并且重復3次試驗,取平均值作為最終的光譜值[24]。
1.3.2 化學值測定 采集完光譜后對樣本進行GOS和FOS 含量檢測,GOS 含量采用冉丹等[4]提供的離子色譜法進行測定,F(xiàn)OS 含量參照《GB 5009.255-2016食品安全國家標準 食品中果聚糖的測定》[25]方法進行測定。通過化學法測得樣本中GOS 含量范圍為5.0~34.0 g·kg-1,F(xiàn)OS含量范圍為4.4~26.6 g·kg-1。
1.3.3 光譜預處理 按照7∶3 的比例將嬰幼兒配方乳粉樣本隨機劃分校正集和預測集,利用校正集樣本進行模型的訓練,利用預測集樣本進行模型的預測。使用標準正態(tài)變換(standard normal variate transform,SNV)、多元散射校正(multiplicative scatter correction,MSC)、歸一化(normaliz,Nor)和Savitzky-Golay 平滑(SG)4種方法分別進行預處理,并且通過建立PLSR 模型確定最優(yōu)預處理方法。
1.3.4 光譜特征波長提取 本研究選用變量空間迭代收縮算法(variable iterative space shrinkage approach,VISSA)和競爭自適應重加權采樣算法(competitive adaptive reweighted sampling,CARS)進行特征波長提取。VISSA 算法基于模型集群分析策略,設置波長保留權重為0.5并迭代更新,在剔除無關光譜變量的同時穩(wěn)妥地保留關鍵性的光譜變量[26-27];設置主因子最大值為10,交叉驗證為5,通過1 000 次采樣在交叉驗證均方根誤差(root mean square error of cross validation,RMSECV)最小時所選的波長即為VISSA 算法提取的特征波長。
CARS 算法通過自適應重加權采樣和指數(shù)衰減函數(shù),計算回歸系數(shù)的絕對值和每個波長對應的權重,并保留權重系數(shù)絕對值最大的波長點,刪除權重較小的波長點[28-29],對保留的波長點采用主成分為10、交叉驗證為10、預處理為中心化(center)和蒙特卡洛運行次數(shù)為40的交叉驗證過程,通過最低RMSECV來確定特征波長。
1.3.5 模型建立 本研究采用PLSR算法和支持向量回歸(support vector regression,SVR)算法進行模型建立。PLSR通過對多個自變量和因變量進行擬合操作建立預測模型。建模前通過k 折交叉驗證法(k 值設為10)確定PLSR模型的最優(yōu)潛變量個數(shù)[30],通過10次訓練之后對得到的10 個模型效果進行評估,并從中挑選最好的超參數(shù)作為PLSR模型的最優(yōu)潛變量個數(shù)。
SVR 算法采用徑向基核函數(shù),將光譜信息從低維映射到高維特征空間,并在高維特征空間進行線性回歸[31-32]。
1.3.6 模型評價 通過校正集相關系數(shù)(related coefficient of calibration set,Rc)、校正均方根誤差(root mean square error of calibration set,RMSEC)、預測集相關系數(shù)(related coefficient of prediction set,Rp)、預測集均方根誤差(root mean square error of prediction set,RMSEP)4 個指標對模型的結果進行評價[33]。相關系數(shù)越接近1,則模型的預測值越接近真實值,變量之間的關系也越密切;均方根誤差越接近0,則模型的擬合能力越好[34]。
使用Matlab R2018b軟件進行光譜預處理、特征波長提取、預測模型建立和模型評價指標計算。驗證樣本化學值檢測和模型預測重復3 次,利用Microsoft Excel 2016和SPSS 20.0軟件進行數(shù)據(jù)處理和分析。
使用SNV、MSC、Nor 和SG 4 種方法對乳粉樣本原始光譜分別進行預處理,并建立相應的PLSR 預測模型,按照7∶3的比例隨機劃分校正集與預測集,不同預處理方法處理后的PLSR 預測模型結果見表1。按照模型評價標準,GOS 經(jīng)過SNV 預處理后建模結果優(yōu)于原始光譜及其他3 種預處理方法,其PLSR 模型的Rc 為0.944 3,RMSEC 為0.262 8,Rp 為0.941 3,RMSEP 為0.278 1;FOS的PLSR模型預測結果并不理想,盡管使用MSC 預處理方法建立的PLSR 模型的Rc 相對較高,但結合Rp綜合考慮SNV預處理方法更優(yōu),F(xiàn)OS使用SNV預處理方法建立PLSR 預測模型的Rc為0.670 4,RMSEC為0.246 5,Rp為0.557 2,均方根誤差為0.214 7,因此需研究通過特征波長提取算法來提高模型的準確性。
表1 不同預處理方法下的建模結果Tablet 1 Modeling results of different pretreatment methods
圖1-A和圖2-A分別為GOS和FOS的原始光譜圖,近紅外光譜通常會受到O-H、N-H、C-H等含氫基團的合頻和倍頻的影響[35]。GOS 和FOS 的化學分子式為(C6H11O5)n,由O-H、C-H和O-H基團結合組成。由圖1-A和圖2-A可知,光譜在8 246 cm-1附近的吸收峰與C-H鍵的二級倍頻相關、6 700 cm-1附近的吸收峰與游離的N-H基團一級倍頻相關、5 770 cm-1附近的吸收峰與CH 鍵的一級倍頻相關、5 180 cm-1附近的吸收峰與游離的O-H基團合頻相關、4 748 cm-1附近的吸收峰與C-H鍵的合頻及游離的O-H基團合頻相關、4 300 cm-1附近的吸收峰與C-H 鍵的合頻相關[36]。SNV 預處理后的光譜如圖1-B 和圖2-B 所示,與原始光譜相比,SNV 方法能夠減少由于外界光散射水平不同帶來的光譜干擾,增強了光譜與數(shù)據(jù)之間的相關程度。
圖1 GOS原始光譜(A)及SNV預處理光譜(B)Fig.1 GOS original spectrum (A) and SNV pretreatment spectrum (B)
圖2 FOS原始光譜(A)及SNV預處理光譜(B)Fig.2 FOS original spectrum (A) and SNV pretreatment spectrum (B)
2.2.1 空間變量迭代收縮算法 為使模型更加簡化,降低模型計算量,提高預測精度,用特征波長提取算法對SNV 預處理后的光譜數(shù)據(jù)進行篩選,去除與預測GOS和FOS含量無關的波長變量。圖3-A為GOS使用VISSA 算法運行過程,橫坐標表示所選的波長數(shù),縱坐標表示不同波長數(shù)對應的RMSECV值。在86次迭代更新過程中,在416 個波長數(shù)之前RMSECV 整體呈下降趨勢,這是因為迭代過程刪除了很多無關波長,在416個波長數(shù)之后RMSECV逐漸上升,這是因為迭代過程中加入了一些無關的波長或者刪除了一些有關的波長。因此,VISSA 算法在RMSECV 最低時選擇出416個特征波長,波長分布如圖3-B所示。FOS的VISSA 迭代過程與GOS 過程一樣,圖4-A 為FOS 使用VISSA 算法運行過程圖,經(jīng)過90 次迭代更新,在RMSECV 最低時選擇出332個特征波長,波長分布情況如圖4-B所示。由于近紅外光會引起GOS和FOS的O-H基團和C-H鍵伸縮振動,故O-H 基團和C-H 鍵伸縮振動引起的吸收峰即為GOS和FOS特征波長所在位置,且VISSA算法篩選出GOS 26.72%的特征波長和FOS 21.32%的特征波長分布在O-H基團和C-H鍵的吸收峰上及其附近。
圖3 GOS采用VISSA算法篩選特征波長過程及特征波長分布Fig.3 GOS uses VISSA algorithm to screen characteristic wavelength process and characteristic wavelength distribution
圖4 FOS采用VISSA算法篩選特征波長過程及特征波長分布Fig.4 FOS uses VISSA algorithm to screen characteristic wavelength process and characteristic wavelength distribution
2.2.2 競爭自適應重加權采樣算法 圖5-A 為GOS使用CARS 提取特征波長的過程,由圖5-A 中(a)可知,隨著采樣次數(shù)的增加,變量子集的采樣比率先逐漸減小后趨于穩(wěn)定;由(b)可知,隨著采樣次數(shù)的增加,剔除不重要的波長,RMSECV 緩慢下降,后因消除重要的變量RMSECV 升高,最終確定在蒙特卡羅運行次數(shù)為21 時RMSECV 最低,此時CARS 共提取出51 個特征波長,波長分布如圖5-B所示。圖6-A為FOS使用CARS提取特征波長的過程,在蒙特卡羅運行次數(shù)為24 時RMSECV 最低,共提取了31 個特征波長,波長分布情況如圖6-B 所示。CARS 算法篩選出GOS 3.28%的特征波長和FOS 1.99%的特征波長同樣分布在GOS 和FOS 含有的O-H 基團和C-H 鍵的吸收峰上及其附近,有效剔除了無關波長變量,降低了模型復雜度。
圖5 GOS采用CARS算法篩選特征波長過程及特征波長分布Fig.5 GOS uses CARS algorithm to screen characteristic wavelength variable process and wavelength distribution
圖6 FOS采用CARS算法篩選特征波長過程及特征波長分布Fig.6 FOS uses CARS algorithm to screen characteristic wavelength variable process and wavelength distribution
在使用VISSA 算法和CARS 算法特征波長提取的基礎上,分別建立嬰幼兒配方乳粉GOS和FOS的PLSR預測模型和SVR 預測模型。由表2 可知,與全波段PLSR 預測模型相比,GOS 的VISSA-PLSR 模型和CARS-PLSR 模型預測效果均得到了提高,且VISSAPLSR 模型的效果較優(yōu),Rc 為0.970 2,RMSEC 為0.192 1,Rp 為0.968 0,RMSEP 為0.214 0;FOS 的VISSA-PLSR 模型和CARS-PLSR 模型預測效果與全波段相比得到了較大的提高,CARS-PLSR 模型的效果較優(yōu),其Rc為0.928 3,RMSEC為0.109 4,Rp為0.917 6,RMSEP 為0.175 6。由此可見,通過VISSA 算法和CARS 算法提取特征波長,能夠有效提升PLSR 模型的預測效果。
表2 建模結果Table 2 Result of modeling
與VISSA-PLSR、CARS-PLSR 和CARS-SVR 模型相比,GOS 和FOS 的VISSA-SVR 模型結果均較優(yōu)。其中,GOS 的VISSA-SVR 預測模型的Rc 為0.998 1,RMSEC 為0.050 5,Rp 為0.985 0,RMSEP 為0.219 3;FOS 的VISSA-SVR 預測模型的Rc 為0.994 3,RMSEC為0.053 3,Rp 為0.948 7,RMSEP 為0.135 7。由此可見,VISSA 特征波長提取結合SVR 算法建立嬰幼兒配方乳粉GOS 和FOS 的模型具有較好的預測效果。圖7和圖8分別為GOS和FOS 最優(yōu)建模方法的預測值和真實值,也可以看出預測值和真實值的偏離程度相對較低,校正和預測的效果較好。
圖7 GOS模型預測值與化學值對比Fig.7 Comparison of GOS model predicted value and chemical value
圖8 FOS模型預測值與化學值對比Fig.8 Comparison of FOS model predicted value and chemical value
為驗證模型的效果和適用性,收集市售5 種不同品牌嬰幼兒配方乳粉,按照1.3.1的方法進行嬰幼兒配方乳粉的近紅外光譜采集,按照1.3.2的方法進行GOS和FOS 含量的化學檢測。通過模型分別對5 種不同品牌嬰幼兒配方乳粉的GOS和FOS含量進行預測,由表3可知,模型預測值重復性較好,同時化學值和預測值結果經(jīng)t檢驗驗證發(fā)現(xiàn),兩者不存在顯著差異(P>0.05)。因此,本研究建立的預測模型能夠較好地預測市售其他品牌嬰幼兒配方乳粉中的GOS和FOS含量。
表3 不同品牌嬰幼兒配方乳粉GOS和FOS含量模型預測結果驗證Table 3 Verification of GOS and FOS content model prediction results of different brands of infant formula powder
使用全波段建立PLSR 預測模型對嬰幼兒配方乳粉GOS 和FOS 快速檢測發(fā)現(xiàn),全波段PLSR 預測模型的效果并不是很好,特別是對于FOS含量的快速檢測。陳秀明等[37]和何吉子等[20]通過全波段建立PLSR 模型實現(xiàn)了對嬰幼兒配方乳粉蛋白質、脂肪和乳糖的快速檢測,但蛋白質、脂肪和乳糖在乳粉中的含量很高,通過光譜的掃描能夠很好地反應出自身信息,所以通過合適的預處理方法即可提高模型的預測效果。而嬰幼兒配方乳粉中GOS 和FOS 含量相對較低且乳粉中成分結構復雜,樣品中成分結構的信息并非均勻分布在全波段光譜中,因此,本研究通過預處理后直接建立PLSR模型的預測效果并不理想。
在通過降低模型復雜度提高模型預測效果的研究中,楊福臣等[19]通過軟件自帶波段優(yōu)化功能篩選了特征波段并建立了乳粉蛋白質和脂肪PLSR預測模型;顏輝等[21]在建立嬰幼兒配方乳粉蛋白質和脂肪預測模型時,通過主成分權重分布選擇波段的方法來提取具有代表性的波長,最終提取了1 100~1 400 nm和1 800~2 200 nm范圍的波長進行預測模型的建立,盡管最終模型的效果較好,但所用波長提取方法不僅局限性較大,且只能提取整段范圍的波長。而本研究使用VISSA算法提取后,GOS 特征波長數(shù)量約為原始全波段的26.72%,F(xiàn)OS 特征波長數(shù)量約為原始全波段的21.32%;使用CARS 算法提取后的GOS 特征波長數(shù)量為全波段的3.28%,F(xiàn)OS特征波長數(shù)量約為全波段的1.99%,選擇出的波長分布在特征吸收峰附近。因此,本研究經(jīng)過特征波長提取能夠有效簡化模型的復雜度,減少無關波長對模型預測性能的干擾,最終建立的VISSA-PLSR模型和CARS-PLSR 模型均能夠很好地實現(xiàn)對GOS 和FOS含量的快速檢測。
為進一步提高模型的效果,本研究在特征波長提取后建立SVR 模型發(fā)現(xiàn),SVR 模型預測效果均有明顯的提高。分析認為嬰幼兒配方乳粉成分復雜,含有多種營養(yǎng)成分,且不同類別的基團和官能團之間相互影響,使得乳粉光譜數(shù)據(jù)與GOS和FOS含量數(shù)據(jù)之間非線性關系復雜[38]。SVR 建模算法能夠有效增強光譜數(shù)據(jù)和成分含量理化值之間的相關性。因此,通過SNV 預處理、VISSA 特征波長提取后建立SVR 模型,能夠有效實現(xiàn)對嬰幼兒配方乳粉GOS和FOS含量的快速檢測。
為滿足乳粉生產(chǎn)過程在線檢測和在線優(yōu)化控制的需求,在后續(xù)的研究中可以進一步擴大樣本數(shù)量及含量范圍,提高模型的準確性和適用性,同時也可以研究本研究算法在液體基料中快速預測的可行性,為在線優(yōu)化控制提供參考。
本研究采用SNV算法對嬰幼兒配方乳粉的原始光譜進行預處理,通過VISSA 算法和CARS 算法進行特征波長的提取并分別建立GOS 和FOS 的PLSR 模型和SVR 模型,其中VISSA-SVR 模型得到了最優(yōu)的結果,GOS的VISSA-SVR預測模型的Rc為0.998 1,RMSEC為0.050 5,Rp為0.985 0,RMSEP為0.219 3;FOS的VISSASVR 預測模型的Rc 為0.994 3,RMSEC 為0.053 3,Rp為0.948 7,RMSEP 為0.135 7。本研究為后續(xù)乳粉生產(chǎn)過程營養(yǎng)成分在線檢測及在線優(yōu)化控制的實施提供了研究思路。