王立琦, 姚 靜, 王?,摚?陳穎淑, 羅淑年, 王偉寧, 張艷榮*
1. 哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院, 黑龍江省電子商務(wù)與信息處理重點(diǎn)實(shí)驗(yàn)室, 黑龍江 哈爾濱 150028
2. 哈爾濱商業(yè)大學(xué)食品工程學(xué)院, 黑龍江 哈爾濱 150028
豆粕是大豆浸提取豆油后, 經(jīng)適當(dāng)干燥和熱處理所得副產(chǎn)品, 產(chǎn)量大, 營養(yǎng)豐富, 主要用于禽畜類飼料, 也是生產(chǎn)化肥、 制作食品的輔料, 是重要的期貨交易物。 豆粕品質(zhì)的評價指標(biāo)主要有水分、 蛋白質(zhì)、 脂肪、 微量物質(zhì)(如纖維、 灰分、 氨基酸、 維生素、 碳水化合物、 胡蘿卜素等), 其中水分、 蛋白質(zhì)和脂肪占比高, 是衡量豆粕品質(zhì)的重要指標(biāo), 需要在生產(chǎn)過程中不斷檢測和調(diào)控[1]。
現(xiàn)有的豆粕品質(zhì)檢測方法包括化學(xué)分析法、 色譜分析法等, 普遍存在著有毒化學(xué)試劑使用多、 操作復(fù)雜、 分析時間長等問題, 無法滿足實(shí)際生產(chǎn)過程快速檢測及調(diào)控的需求。 近紅外光譜(near-infrared spectroscopy, NIR)技術(shù)具有無損、 快速、 低成本、 多組分同時分析、 易于實(shí)現(xiàn)在線檢測等優(yōu)點(diǎn), 特別適合生產(chǎn)過程中的質(zhì)量監(jiān)控[2]。 近年來, NIR在豆粕品質(zhì)檢測方面應(yīng)用已有報(bào)道。 莊樹華[3]、 納嶸[4]采用近紅外分析豆粕蛋白質(zhì)含量; Leeson[5]等研究了近紅外光譜分析法估測豆粕的代謝能; Fontaine[6]等采用近紅外光譜法預(yù)測豆粕中的氨基酸含量; 王紅梅[7]等利用近紅外建立豆粕的蛋白質(zhì)和總氨基酸預(yù)測模型; 楊增玲[8]等建立了豆粕含水率、 粗蛋白質(zhì)量分?jǐn)?shù)的近紅外定量分析模型。 上述研究所用樣品大多是在實(shí)驗(yàn)室人工制備, 而實(shí)際生產(chǎn)線上的豆粕產(chǎn)品是多組分同時變化, 變量間相互干擾會影響建模效果。
本研究直接從大豆油脂加工生產(chǎn)線上采集樣品, 根據(jù)加工過程中實(shí)際檢測控制需求, 對豆粕中的水分、 蛋白質(zhì)和脂肪三個主要成分含量建立基于PLS-GRNN的近紅外分析模型, 以期能用于實(shí)際加工過程快速檢測, 及時調(diào)整工藝參數(shù), 生產(chǎn)出多等級粕、 專用蛋白粕和功能大豆油等新產(chǎn)品。
本研究目的是實(shí)現(xiàn)加工過程中豆粕品質(zhì)快速檢測及調(diào)控, 因此直接從大豆油脂生產(chǎn)線上采集449個有代表性的豆粕樣品, 依據(jù)GB/T6435—1986《飼料水分的測定方法》, 利用105 ℃烘箱法測定水分含量范圍為9.68%~13.26%; 依據(jù)GB/T5511—2008《谷物和豆類氮含量測定和粗蛋白質(zhì)含量計(jì)算凱氏法》, 利用凱氏定氮法測定蛋白質(zhì)含量范圍為41.2%~50.9%; 依據(jù)GB/T5009.6—2003《食品中脂肪的測定》, 利用索氏提取法測定脂肪含量范圍為0.43%~3.75%。
采用瑞士BUCHI公司的NIRMaster型傅里葉變換近紅外光譜儀掃描豆粕樣品, 光譜范圍為4 000~10 000 cm-1, 掃描頻率4次·s-1, 分辨率4 cm-1。 為保證樣品掃描均勻性, 每份樣品重復(fù)掃描3次后取平均值, 獲得豆粕樣品漫反射近紅外光譜如圖1所示。
圖1 豆粕樣品近紅外光譜圖
首先利用馬氏距離法從449個豆粕樣本中剔除91個異常樣本, 然后采用小波變換對剩余的358個樣本的光譜數(shù)據(jù)進(jìn)行降噪處理。 光譜去噪就是在保證光譜數(shù)據(jù)有用信息的原始真實(shí)性前提下, 最大程度地去除各種隨機(jī)噪聲。 利用控制參數(shù)反復(fù)試驗(yàn)法對小波閾值方式、 分解尺度和小波基進(jìn)行篩選[9], 根據(jù)去噪信號在原信號中的能量占比和去噪信號與原信號標(biāo)準(zhǔn)差對去噪效果進(jìn)行評價, 以確保去噪前后信號不失真, 計(jì)算公式如式(1)和式(2)
(1)
(2)
式(1)和式(2)中,f(n)為原始數(shù)據(jù),g(n)為去噪后的數(shù)據(jù)。 一般perc∝1、 err越小, 降噪效果越好。 然后與移動平均法、 多元散射校正和標(biāo)準(zhǔn)正態(tài)變量變換三種常規(guī)處理方法對比, 發(fā)現(xiàn)基于db6小波基、 2層分解和penalty閾值的小波去噪方式效果最佳, 統(tǒng)計(jì)結(jié)果如表1所示。
樣本集的劃分通常有人工選擇和計(jì)算機(jī)識別兩種方法。 人工選擇是將樣本化學(xué)值順序排列, 按一定梯度抽取預(yù)測集樣本。 計(jì)算機(jī)識別是根據(jù)光譜特性差異或結(jié)合化學(xué)值來選擇校正集樣本。 由于本研究為豆粕水分、 蛋白質(zhì)和脂肪多個成分指標(biāo)同時檢測, 實(shí)際樣品的三個參數(shù)是同時變化的, 人工選擇樣本分集無法做到同時兼顧每個參數(shù)指標(biāo), 而且經(jīng)過嘗試發(fā)現(xiàn)效果很差。 計(jì)算機(jī)識別算法常采用Kennard Stone (KS)和Sample set Partitioning based on joint X-Y distance (SPXY)兩種, KS算法[10]通過計(jì)算樣本的歐式距離確定校正集, 但它只考慮光譜數(shù)據(jù)間的關(guān)系, 而不考慮與化學(xué)值的關(guān)系, 因此在預(yù)測未知樣本時可能缺乏針對性。 SPXY算法[11]在KS算法基礎(chǔ)上改進(jìn), 同時兼顧光譜矩陣和濃度矩陣, 以保證最大程度表征樣本分布。 本研究采用KS和SPXY兩種算法對三個組分的豆粕樣本分集, 之后分別對各組分校正集樣本建立偏最小二乘(partial least squares, PLS)回歸模型, 根據(jù)模型的預(yù)測效果選擇每個組分的最佳樣本分集, 有效地避免了人為參與和變量間的相互影響, 兩種樣本分集方法建模結(jié)果如表2所示。 可以看出, 對于水分和蛋白質(zhì), KS分集法優(yōu)于SPXY分集法, 而對于脂肪則是SPXY分集法優(yōu)于KS分集法。
表2 兩種樣本分集方法建模結(jié)果
表3為最后的樣本分集結(jié)果, 可以看出, 對于水分、 蛋白質(zhì)和脂肪三個參數(shù), 其含量化學(xué)值的最大值和最小值樣本都包含在校正集中, 校正集樣本和預(yù)測集樣本的均值和標(biāo)準(zhǔn)差非常接近, 說明校正集與預(yù)測集的樣本分布比較均勻, 計(jì)算機(jī)算法的分集結(jié)果符合要求。
表3 樣本分集結(jié)果
利用近紅外光譜儀采集的波長變量有上千個, 其中包含許多與豆粕品質(zhì)無關(guān)的信息, 如果用全譜建模, 會使模型的計(jì)算量增大, 穩(wěn)定性變差, 因此在建立預(yù)測模型前, 有必要進(jìn)行特征波段優(yōu)選, 剔除光譜中的冗余信息。 利用優(yōu)選出的特征波長變量建模, 可以降低模型計(jì)算復(fù)雜度, 提高模型預(yù)測性能。
本研究采用區(qū)間偏最小二乘法(interval partial least squares, iPLS)進(jìn)行特征波段提取[12-13]。 將全譜區(qū)間分別按20, 30, 40和50依次等寬均分并對每一個子區(qū)間建立PLS模型, 采用留一交叉驗(yàn)證法計(jì)算模型的交互驗(yàn)證均方差RMSECV作為評判標(biāo)準(zhǔn), 其最小值對應(yīng)的子區(qū)間即為最佳建模波段。 對應(yīng)水分、 蛋白質(zhì)和脂肪不同子區(qū)間數(shù)的波段選擇結(jié)果見表4、 表5和表6。
表4 水分iPLS不同子區(qū)間數(shù)波段選擇結(jié)果
表5 蛋白質(zhì)iPLS不同子區(qū)間數(shù)波段選擇結(jié)果
表6 脂肪iPLS不同子區(qū)間數(shù)波段選擇結(jié)果
表中可見, 無論水分、 蛋白質(zhì)還是脂肪均為劃分20個子區(qū)間時對應(yīng)的特征吸收波段建模效果最好。 圖2、 圖3和圖4分別展示了水分、 蛋白質(zhì)和脂肪劃分20個子區(qū)間的iPLS結(jié)果, 最終優(yōu)選出水分、 蛋白質(zhì)和脂肪的特征波段分別為4 904~5 200, 4 304~4 600和4 304~4 600 cm-1。
圖2 水分20個子區(qū)間的iPLS建模結(jié)果
圖3 蛋白質(zhì)20個子區(qū)間的iPLS建模結(jié)果
圖4 脂肪20個子區(qū)間的iPLS建模結(jié)果
2.2.1 GRNN結(jié)構(gòu)
廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural networks, GRNN)是由美國學(xué)者Donald于1991年提出的一種人工神經(jīng)網(wǎng)絡(luò)模型[14], 是對徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function network, RBF)的改進(jìn)。 GRNN具有很強(qiáng)的非線性映射能力, 在信號過程、 結(jié)構(gòu)分析、 控制決策系統(tǒng)等領(lǐng)域得到了廣泛的應(yīng)用。 但GRNN在近紅外定量分析方面研究較少, 應(yīng)用在豆粕品質(zhì)定量檢測方面還未見報(bào)道。 本工作提出建立PLS-GRNN聯(lián)合模型進(jìn)行豆粕品質(zhì)多組分含量同步預(yù)測, 旨在提高豆粕品質(zhì)預(yù)測效率和準(zhǔn)確性。
GRNN結(jié)構(gòu)如圖5所示, 該網(wǎng)絡(luò)由輸入層、 模式層、 求和層和輸出層四層構(gòu)成[15]。 輸入層神經(jīng)元數(shù)目等于樣本中輸入向量的維數(shù), 各神經(jīng)元是簡單的分布單元, 直接將輸入變量傳遞給模式層。 模式層神經(jīng)元數(shù)目等于樣本的數(shù)目, 各神經(jīng)元對應(yīng)不同的樣本。 求和層中使用兩種類型的神經(jīng)元進(jìn)行求和。 輸出層神經(jīng)元數(shù)目等于樣本中輸出向量的維數(shù), 各神經(jīng)元將求和層的輸出相除。
圖5 GRNN結(jié)構(gòu)
2.2.2 輸入變量確定
在光譜分析過程中, 光譜數(shù)據(jù)間可能會存在嚴(yán)重的共線性干擾, 因此對輸入到網(wǎng)絡(luò)的光譜數(shù)據(jù)采取降維處理, 不僅可以減少計(jì)算量, 還可以防止網(wǎng)絡(luò)陷入局部最小。 PLS不僅可以用于模型的建立, 還能用于數(shù)據(jù)矩陣的分解, 提取最佳主因子, 從而達(dá)到降低數(shù)據(jù)維度的目的。 本研究采用舍-交互驗(yàn)證法, 根據(jù)預(yù)測殘差平方和(prediction residual error sum of squares, PRESS)來確定最佳主因子數(shù), 豆粕各組分的PRESS值隨主因子變化趨勢如圖6所示。 可以看出, 隨著主因子數(shù)的增加, PRESS值呈明顯下降趨勢, 當(dāng)主因子數(shù)達(dá)到一定值時, PRESS變化趨于平緩, 之后基本不再下降, 因此可確定水分、 蛋白質(zhì)和脂肪的最佳主因子數(shù)分別為8, 8和7, 然后將主因子得分作為GRNN網(wǎng)絡(luò)的輸入變量用于建模。
圖6 PRESS隨主因子變化趨勢圖
2.2.3 網(wǎng)絡(luò)參數(shù)優(yōu)化
GRNN具有非常簡便的網(wǎng)絡(luò)參數(shù)設(shè)置功能, 整個神經(jīng)網(wǎng)絡(luò)只需要設(shè)置傳遞函數(shù)中的光滑因子就可以調(diào)整網(wǎng)絡(luò)性能[16-17], 而且網(wǎng)絡(luò)訓(xùn)練過程實(shí)際上就是光滑因子的尋優(yōu)過程。 GRNN傳遞函數(shù)表示為
(3)
式(3)中, spread稱為光滑因子, 決定了訓(xùn)練樣本的誤差和基函數(shù)的形狀, 其選值大小直接影響模型的預(yù)測性能, 常用的尋求最佳spread的方法是k折交叉驗(yàn)證循環(huán)法。 本研究設(shè)定spread值的范圍為0.1~1, 選取4折交叉驗(yàn)證來訓(xùn)練GRNN網(wǎng)絡(luò), spread尋優(yōu)曲線如圖7所示, 最小MSE所對應(yīng)的spread值即為最優(yōu)值。 圖中可見, 水分、 蛋白質(zhì)和脂肪的最優(yōu)spread值分別為0.1, 0.2和0.2。
圖7 spread尋優(yōu)曲線
GRNN網(wǎng)絡(luò)參數(shù)選定后, 將PLS最佳主因子得分作為網(wǎng)絡(luò)輸入變量, 豆粕組分化學(xué)值作為輸出變量, 建立豆粕品質(zhì)PLS-GRNN預(yù)測模型, 預(yù)測效果如圖8所示。 可以看出, 水分、 蛋白質(zhì)和脂肪預(yù)測樣本均在其各自的擬合線附近均勻分布, 說明PLS-GRNN模型預(yù)測效果較好。
最后, 將PLS-GRNN模型與經(jīng)典的PLS線性模型和BP神經(jīng)網(wǎng)絡(luò)非線性模型對比, 結(jié)果如表7所示。
由表7可見, 對于豆粕樣品三組分來說, 其PLS-GRNN模型的預(yù)測效果均優(yōu)于PLS模型和BP模型, 說明PLS-GRNN模型的泛化能力更好。 其水分、 蛋白質(zhì)和脂肪的預(yù)測集決定系數(shù)R2分別為0.976 9, 0.940 2和0.911 1, 預(yù)測均方根誤差RMSEP分別為0.091 2, 0.383 4和0.113 4, 預(yù)測相對標(biāo)準(zhǔn)偏差RSD分別為0.79%, 0.83%和8.53%。 從實(shí)驗(yàn)結(jié)果來看, 雖然脂肪的RSD低于理想要求, 但也在模型評定標(biāo)準(zhǔn)可用范圍之內(nèi), 并且從圖8也可以看出脂肪的擬合效果也很好, 分析其原因可能是由于豆粕中脂肪含量低, 即使較小的絕對誤差也會引起較大的相對誤差, 而水分和蛋白質(zhì)含量較高, 因此相對誤差較小, 也可能是三組分間相互影響造成的, 關(guān)于脂肪的預(yù)測精度問題有待進(jìn)一步研究改善。
圖8 水分、 蛋白質(zhì)和脂肪的PLS-GRNN模型預(yù)測效果
表7 PLS-GRNN與PLS, BP建模效果對比
將PLS-GRNN應(yīng)用于豆粕品質(zhì)多組分含量近紅外光譜分析。 對小波降噪后的光譜數(shù)據(jù)進(jìn)行iPLS特征波段提取, 優(yōu)選出水分、 蛋白質(zhì)和脂肪的最佳建模波段分別為4 904~5 200, 4 304~4 600和4 304~4 600 cm-1, 減少了光譜冗余信息, 降低了模型的計(jì)算復(fù)雜度, 提高了模型效率。 建立了豆粕三組分含量的PLS-GRNN預(yù)測模型, 與PLS線性模型和BP非線性模型對比, 發(fā)現(xiàn)PLS-GRNN模型效果最佳, 其水分、 蛋白質(zhì)和脂肪的預(yù)測相對標(biāo)準(zhǔn)偏差RSD分別為0.79%, 0.83%和8.53%。 研究表明基于PLS-GRNN的近紅外光譜分析用于豆粕品質(zhì)檢測是可行的, 能夠用于實(shí)際生產(chǎn)過程中的品質(zhì)監(jiān)控, 及時調(diào)整工藝參數(shù), 以生產(chǎn)出高品質(zhì)的大豆產(chǎn)品。