吳永清, 唐 娜, 黃璐瑤, 崔雨同, 張 波, 郭波莉, 張影全*
1. 中國農(nóng)業(yè)科學院農(nóng)產(chǎn)品加工研究所/農(nóng)業(yè)農(nóng)村部農(nóng)產(chǎn)品加工綜合性重點實驗室, 北京 100193
2. 韶關(guān)學院生物與農(nóng)業(yè)學院, 廣東 韶關(guān) 512005
面粉與水混合和面形成具有一定粘彈性的面團, 并經(jīng)過后續(xù)一系列加工制成不同面制品。 面粉吸水率是評價面粉質(zhì)量、 預(yù)測面制品加工特性的重要品質(zhì)性狀。 面粉吸水率(吸水量)是指每百克水分含量為14%面粉在粉質(zhì)儀中揉合成最大稠度為500 FU面團時所需添加水的毫升數(shù)[1]。 面粉吸水率高低不僅影響面制品成品質(zhì)量, 而且與生產(chǎn)成本直接相關(guān); 面粉吸水率越高, 出品率越高, 生產(chǎn)成本越低[2]。 我國小麥的吸水率較低, 平均為57%, 極少數(shù)品種達到65%~70%[3]。 目前吸水率的測定主要參照GB/T 14614—2006《小麥粉面團的物理特性吸水量和流變學特性的測定粉質(zhì)儀法》利用粉質(zhì)儀檢測[4]。 檢測過程需要測試人員通過多次加水量的嘗試, 才能使面團的最大稠度達到規(guī)定的標準(500 FU), 測定方法費時費力[5]。 如何快速檢測面粉吸水率是小麥及面制品加工行業(yè)亟待解決的技術(shù)難題。
近紅外光譜技術(shù)是一種快速、 無損的檢測方法, 其原理是有機物的O—H、 N—H、 C—H等含氫官能團近紅外光(波長780~2 526 nm)相互作用形成不同的近紅外光譜, 通過不同樣品的光譜信號, 開展物質(zhì)的定性、 定量分析[6]。 近年來, 近紅外光譜檢測技術(shù)在小麥籽粒水分含量[7]、 灰分[7]、 蛋白含量[7-8]、 種子活力[9]、 硬度[10]、 酚類物質(zhì)[11]、 脂肪酸[12]等品質(zhì)檢測中得到了廣泛應(yīng)用。 可見近紅外全波長光譜比較復雜、 存在共線性干擾以及光譜數(shù)據(jù)易受到雜散光、 噪聲、 基線漂移等因素的干擾等問題, 特征波長提取、 光譜預(yù)處理等方法可有效處理以上問題, 提高模型的準確度[13-14]。 姜明偉等[10]采用一階求導(1stDer)對小麥硬度的光譜進行預(yù)處理后, 采用競爭性自適應(yīng)重加權(quán)(CARS)算法篩選特征波長, 從而建立偏最小二乘回歸(PLSR)模型, 該模型能夠準確預(yù)測小麥硬度。 Chen等[15]采用標準正態(tài)變換(SNV)、 1stDer、 二階求導(2stDer)對面粉光譜進行預(yù)處理, 采用支持向量機回歸(SVR)建立總蛋白和濕面筋檢測模型。 Ye等[16]采用改進的模擬退火(ISA)結(jié)合連續(xù)投影算法(SPA)提取了14個特征波長, 基于特征波長建立的小麥蛋白質(zhì)含量PLSR模型預(yù)測標準誤差(SEP)從0.071 6降低到0.052 8, 效果較好。 面粉吸水率是面粉中蛋白質(zhì)、 淀粉等物質(zhì)綜合作用的結(jié)果, 影響因素較多, 與全光譜或優(yōu)化后的特征波長不一定是簡單的線性關(guān)系。 因此, 多元線性回歸(MLR)、 主成分回歸(PCR)、 偏最小二乘回歸(PLSR)等線性方法建立的定量模型不可避免地會受到其泛化性能的影響。
擬采用2種線性定量分析模型方法(PLSR、 PCR)和1種非線性定量分析模型方法(SVR)將光譜信息和面粉吸水率進行關(guān)聯(lián), 分別建立面粉吸水率的定量分析預(yù)測模型。 在優(yōu)選的建模方法的基礎(chǔ)上, 針對全波長光譜比較復雜、 存在共線性干擾問題, 采用CARS、 區(qū)間隨機蛙跳(iRF)、 迭代保留信息變量(IRIV)和連續(xù)投影(SPA)算法提取特征波長, 篩選最優(yōu)的特征波長提取算法, 優(yōu)化與小麥粉中面粉吸水率高度相關(guān)的特征波長。 針對光譜數(shù)據(jù)易受到雜散光、 噪聲、 基線漂移等因素的干擾等問題, 基于最優(yōu)的建模方法和特征波長提取算法提取的特征波長, 采用標準化(NL)、 1stDer、 基線校正(BL)、 SNV和去趨勢化(DT)5種方法對光譜進行預(yù)處理, 篩選最優(yōu)的光譜預(yù)處理方法, 以減少雜散光、 噪聲、 基線漂移等因素對光譜數(shù)據(jù)的干擾。 最終建立最佳的面粉吸水率近紅外檢測模型, 以期為面粉生產(chǎn)企業(yè)、 面制品加工企業(yè)、 食品質(zhì)量檢測部門等提供一種快速、 無損的檢測方法。
2021年夏收時, 采集黃淮冬麥區(qū)大田種植的主栽小麥品種籽粒樣品150份, 采集的樣品進行后熟、 晾曬、 清理等處理后, 采用MLU202型實驗?zāi)シ蹤C(無錫布勒機械制造有限公司)實驗室制粉, 出粉率控制在70%左右。 磨制好的面粉裝入自封袋備用。
采用IM9500型可見近紅外分析儀(美國珀金埃爾默公司)進行面粉近紅外光譜掃描, 其有效光譜范圍為570~1 100 nm, 共1 061個波長。 光譜數(shù)據(jù)采集時對每份小麥面粉樣品進行3次掃描, 導出相應(yīng)的平均光譜數(shù)據(jù), 圖1為150個小麥面粉樣品的原始光譜圖。
圖1 樣品原始光譜
參照《糧油檢驗小麥粉面團流變學特性測試粉質(zhì)儀法(GB/T14614—2019)》, 采用粉質(zhì)儀(德國布拉本德公司)測定。
150份面粉樣品吸水率平均值為63.12%±3.25%, 變幅為53.10%~74.5%, 樣品具有一定代表性(表1)。 將150個面粉樣品按照吸水率從低到高依次排列, 每隔4個樣品挑選1個樣品為預(yù)測集, 校正集樣本共120個, 預(yù)測集樣本共30個。 從表1可知, 校正集樣本的吸水率最大值和最小值與整體樣本相同, 平均值大于整體樣本, 標準差和變異系數(shù)大于整體樣本, 說明校正集分布均勻, 具有足夠的代表性。 校正集樣本吸水率范圍在53.10%~74.50%之間, 平均值為63.32%, 涵蓋了預(yù)測集樣本最大值和最小值, 標準差和變異系數(shù)大于預(yù)測集樣本, 符合建模標準。
表1 樣本吸水率分析
采用PLSR、 PCR2種線性定量分析模型和SVR 1種非線性定量分析模型將光譜信息和面粉吸水率進行關(guān)聯(lián), 分別建立面粉吸水率的定量分析檢測模型。 在優(yōu)選的建模方法的基礎(chǔ)上, 采用CARS、 iRF、 IRIV和SPA算法提取特征波長, 篩選最優(yōu)的特征波長提取算法。 基于最優(yōu)的特征波長提取算法提取的特征波長和建模方法, 采用NL、 1stDer、 BL、 SNV和DT5種方法對光譜進行預(yù)處理, 篩選最優(yōu)的光譜預(yù)處理方法, 以減少雜散光、 噪聲、 基線漂移等因素對光譜數(shù)據(jù)的干擾。 最終建立最佳的面粉吸水率可見近紅外檢測模型。
采用The Unscramber X 10.4軟件進行NL、 1stDer、 BL、 SNV和DT光譜預(yù)處理和建立PLSR和、 PCR和SVR模型, 采用Matlab R2019b軟件調(diào)用libPLS_1.98軟件包來實現(xiàn)CARS、 iRF和IRIV特征波長提取, 采用Matlab R2019b軟件調(diào)用gui_spa軟件包來實現(xiàn)SPA特征波長提取。 采用Excel進行圖表整理。
表2 基于不同建模方法的面粉吸水率模型效果
2.2.1 CARS
采用CARS算法提取面粉吸水率相關(guān)特征波長, 蒙特卡羅采樣次數(shù)N設(shè)置為100, 光譜預(yù)處理方法為均值中心化(mean-centering), 選擇變量個數(shù)由10折交叉驗證建立的PLS模型RMSECV最小值確定。 隨著采樣次數(shù)增加, 變量數(shù)、 RMSECV和每個變量回歸系數(shù)路徑如圖2所示。 由圖2(a)可知, 隨著采樣次數(shù)的增加, 采樣次數(shù)小于10時, 采樣變量數(shù)快速遞減, 采樣次數(shù)大于10時, 采樣變量數(shù)慢速遞減, 說明算法在篩選變量有精選和粗選過程。 圖2(b)是十折交叉驗證RMSECV變化趨勢, 隨著采樣次數(shù)的增加, PLS交叉驗證RMSECV值先遞減又遞增的變化, 其中采樣次數(shù)在61時達到最小值, 為2.3362。 表明在1~60次, 近紅外光譜中與面粉吸水率大量的無關(guān)信息被剔除, 61次后, RMSECV明顯遞增, 表明剔除了光譜中有效數(shù)據(jù)導致模型性能變差。 圖2(c)表示1061個波長變量隨著采樣次數(shù)的增加回歸系數(shù)的路徑變化, “*”所對應(yīng)的位置即為RMSECV值最小處。 采樣次數(shù)為61所得的波長變量子集定為與面粉吸水率相關(guān)的特征波長變量子集, 包含24個波長, 占原波長數(shù)(1061)的2.66%。
圖2 CARS算法特征波長提取
2.2.2 iRF
采用iRF算法提取面粉吸水率相關(guān)特征波長, 蒙特卡羅采樣次數(shù)N為200, 在整個光譜上移動的固定窗口大小W為10, 初始化的子區(qū)間數(shù)Q為20, 設(shè)置最大因子數(shù)A為10, 光譜預(yù)處理方法為均值中心化(mean-centering)。 iRF變量篩選的依據(jù)是各變量具有差異的選擇可能性, 圖3中大部分敏感波段集中在894、 912.5、 980以及1 063.5 nm附近。 設(shè)定選擇閾值為0.2, 最終根據(jù)概率值大小選出20個特征波長。
圖3 iRF算法特征波長提取
2.2.3 IRIV
IRIV算法的目的是剔除無關(guān)變量和干擾變量, 保留與面粉吸水率相關(guān)的特征變量。 該算法利用10折交叉驗證方法建立PLS模型選擇特征變量, PLS模型中最大主因子數(shù)為10。 IRIV算法一共進行了7輪, 如圖4所示, 前3輪迭代變量個數(shù)迅速減少, 從1 061個變量減少到73個, 然后變量個數(shù)減少的速度放緩, 第6輪迭代后完全剔除了無信息變量和干擾變量, 進行反向消除操作。 經(jīng)過第7輪的反向消除最終選擇了16個與面粉吸水率相關(guān)的特征變量。
圖4 IRIV算法特征波長提取
2.2.4 SPA
采用SPA算法對面粉樣本的特征波長進行提取。 如圖5(a)可知, 特征波長數(shù)為118個時, RMSE值達到最小值為0.066 8。 圖5(b)所示是提取到的118個波長。
圖5 SPA算法特征波長提取
特征波長提取不僅可以簡化模型結(jié)構(gòu), 而且可以剔除不相關(guān)、 低貢獻的波長, 提高運算速度, 降低設(shè)備開發(fā)成本[19]。 將CARS、 iRF、 IRIV和SPA算法提取的特征波長光譜與國標法測定的面粉吸水率進行關(guān)聯(lián), 分別建立面粉吸水率的PLSR定量分析預(yù)測模型, 建模結(jié)果見表3。
表3 基于全波長和特征波長的面粉吸水率模型效果
小麥粉的吸水率與其破損淀粉含量、 蛋白質(zhì)含量、 濕面筋含量之間呈現(xiàn)顯著的正相關(guān)關(guān)系[20]。 采用CARS算法提取的24個特征波長中, 896.5~961 nm之間的20個波長為C—H化學鍵基頻振動的三級倍頻附近的譜段, 對應(yīng)的面粉化學成分為淀粉; 981~1 077.5 nm之間的4個波長為N—H化學鍵基頻振動的二級倍頻附近的譜段, 對應(yīng)的面粉化學成分為蛋白質(zhì)[21]。 即面粉吸水率與淀粉含量和蛋白質(zhì)含量相關(guān), 與前人研究結(jié)果一致。
近紅外光譜易受到雜散光、 噪聲、 基線漂移等因素的干擾, 因此需要對光譜進行預(yù)處理[13]。 采用NL、 1stDer、 BL、 SNV和DT5種光譜預(yù)處理方法單一和組合的方式對CARS方法提取的特征波長的光譜數(shù)據(jù)進行預(yù)處理, 分別將原始的光譜及預(yù)處理后數(shù)據(jù)和相應(yīng)的面粉吸水率化學值進行關(guān)聯(lián), 建立PLSR定量預(yù)測模型, 并用預(yù)測集的光譜數(shù)據(jù)和相應(yīng)的面粉吸水率化學值對模型進行檢驗。
表4 基于不同光譜預(yù)處理方法的面粉吸水率模型效果
復合預(yù)處理中是NL分別結(jié)合其余4種預(yù)處理方法所建模型效果較好, 其中NL+1stDer效果最佳。 該方法雖然比單獨進行NL預(yù)處理效果更好, 但是光譜數(shù)據(jù)進行了2次預(yù)處理, 加重了運算負擔, 降低了光譜處理的速度, 如果將該方法用于實際生產(chǎn), 必定會影響檢測效率。 因此, 確定預(yù)測面粉吸水率最佳的光譜預(yù)處理方法為NL。