孫宗保,王天真,劉小裕,鄒小波,梁黎明,李君奎,牛 增,高云龍
江蘇大學(xué)食品與生物工程學(xué)院,江蘇 鎮(zhèn)江 212013
調(diào)理牛排是以牛排為原料,加入適量調(diào)味料和食品添加劑,經(jīng)過切分、滾揉腌制等過程加工而成的肉制品,因其滋味鮮美、食用方便等特點(diǎn)而深受消費(fèi)者喜愛。冷凍和冷藏是調(diào)理牛排的兩種主要儲(chǔ)運(yùn)方式。冷藏的牛排能夠較好的保留原有的滋味和營養(yǎng),但同時(shí)貨架期較短、價(jià)格也較高。由于調(diào)理牛排中加入了調(diào)味料進(jìn)行腌制,當(dāng)牛排超過貨架期變得不新鮮時(shí),散發(fā)的腐敗氣味易被調(diào)料氣味掩蔽,使得消費(fèi)者難以分辨其新鮮度。市場(chǎng)上存在售賣超過貨架期的調(diào)理牛排的現(xiàn)象,食用了這種牛排將損害人體健康,生鮮調(diào)理牛排因其更容易變質(zhì)而更可能產(chǎn)生這一問題。
揮發(fā)性鹽基氮(total volatile basic nitrogen,TVB-N)是由于微生物分解蛋白質(zhì)產(chǎn)生的具有揮發(fā)性的氨和胺類等堿性含氮物質(zhì)的總稱,可以有效地表征肉品新鮮度。測(cè)定TVB-N含量的化學(xué)方法操作復(fù)雜耗時(shí),且對(duì)樣本有破壞性。肉品發(fā)生腐敗時(shí)產(chǎn)生的TVB-N將會(huì)引起一定波長(zhǎng)下光譜吸收強(qiáng)度的變化,通過吸收強(qiáng)度的大小結(jié)合化學(xué)計(jì)量學(xué)方法可以定量分析TVB-N含量。高光譜成像因其獲得信息全面,快速無損等優(yōu)點(diǎn),已廣泛應(yīng)用于肉品品質(zhì)檢測(cè)。Velásquez等[1]利用高光譜對(duì)牛肉大理石花紋進(jìn)行分類。首先在528 nm波長(zhǎng)的高光譜圖像下分割背景,然后在440 nm下結(jié)合決策樹進(jìn)行分級(jí),模型的誤差僅有0.08%。Zheng等[2]利用高光譜成像預(yù)測(cè)了碎羊肉中的鴨肉含量,并實(shí)現(xiàn)摻假含量分布可視化。謝安國等[3]利用高光譜成像構(gòu)建了調(diào)理牛肉在煎制過程中的品質(zhì)可視化模型,預(yù)測(cè)調(diào)理牛肉的水分和剪切力相關(guān)系數(shù)分別為0.908和0.763,表明了高光譜成像技術(shù)具備檢測(cè)混有調(diào)料的復(fù)雜肉品的能力。但少有高光譜技術(shù)檢測(cè)調(diào)理牛排的報(bào)道。
由于高光譜數(shù)據(jù)包含的信息量巨大且冗雜,如何去除無效信息、篩選特征波長(zhǎng)從而提升模型效率和精度成為高光譜技術(shù)應(yīng)用的關(guān)鍵。本工作利用高光譜技術(shù)對(duì)生鮮調(diào)理牛排貯藏期間TVB-N含量進(jìn)行預(yù)測(cè),采用了競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)、變量組合集群分析法 (variables combination population analysis,VCPA)、間隔隨機(jī)蛙跳(interval random frog,iRF)、iRF-CARS和iRF-VCPA等波長(zhǎng)選擇算法并分析了CARS和VCPA的穩(wěn)定性,為波長(zhǎng)選擇算法聯(lián)用策略和調(diào)理牛排新鮮度快速檢測(cè)提供參考。
試驗(yàn)用牛肉和輔料均購于鎮(zhèn)江麥德龍超市。牛肉為西冷部位,全程冷鏈運(yùn)輸。調(diào)理牛排制作工藝流程: 原料肉修整→切片→配制腌制液→滾揉腌制→托盤密封包裝。共制備了150個(gè)樣本,置于4 ℃的冰箱內(nèi)冷藏,分別在第0,2,4,6和8天每天取出30個(gè)樣本,編號(hào)后先進(jìn)行高光譜圖像采集,再進(jìn)行TVB-N含量測(cè)定。
采用的高光譜成像系統(tǒng)如圖1所示,硬件部分主要包括CCD攝像機(jī)、光纖鹵素?zé)簟⑷S精密電控平移臺(tái)和計(jì)算機(jī)等。光譜采集參數(shù): 攝像機(jī)曝光時(shí)間為45 ms,光譜范圍為431~962 nm,光譜波長(zhǎng)間隔為0.858 nm。對(duì)獲取的原始圖像進(jìn)行黑白板校正,以減少采集過程中噪音的影響。
圖1 高光譜成像系統(tǒng)1: 步進(jìn)電機(jī); 2: CCD攝像機(jī); 3: 光源系統(tǒng); 4: 光纖鹵素?zé)簦?: 計(jì)算機(jī); 6: 三軸精密電控平移臺(tái); 7: 載物臺(tái); 8: 樣品Fig.1 Hyperspectral imaging system1: Stepper motor; 2: CCD camera; 3: Light source system;4: Optical fiber halogen lamp; 5: Computer;6: Three-axis precision electronically controlled traslation stage;7: Object stage; 8: Sampe
依照GB 5009.228—2016 中的半微量定氮法對(duì)調(diào)理牛排樣本中TVB-N含量進(jìn)行測(cè)定。
1.4.1 光譜提取與預(yù)處理方法
利用ENVI軟件選取每個(gè)樣本中心附近200像素×200像素的矩形區(qū)域作為感興趣區(qū)域(region of interest,ROI),計(jì)算光譜平均反射率作為光譜數(shù)據(jù)。采用一階導(dǎo)數(shù)(first derivative,1stDer)、二階導(dǎo)數(shù)(second derivative,2ndDer)、均值中心化(mean centering,MC)、多元散射校正(multiplicative scatter correction,MSC)、卷積平滑(Savitzky-Golay,SG)、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation,SNVT)六種預(yù)處理方法建立模型,選取效果最佳的預(yù)處理方法進(jìn)行后續(xù)數(shù)據(jù)處理。
1.4.2 特征波長(zhǎng)選擇方法
良好的波長(zhǎng)選擇方法可以簡(jiǎn)化模型,提高模型預(yù)測(cè)性能。波長(zhǎng)選擇方法可以分為波長(zhǎng)區(qū)間選擇和波長(zhǎng)點(diǎn)選擇[4-5]。波長(zhǎng)區(qū)間選擇方法以一組連續(xù)波長(zhǎng)為基本單位進(jìn)行波長(zhǎng)篩選,最終選擇的變量為幾組連續(xù)的波長(zhǎng)區(qū)間組合,所建立的模型有很好的解釋性。波長(zhǎng)點(diǎn)選擇方法以單個(gè)波長(zhǎng)為基本單位,最終選擇的變量呈離散分布,具有選擇變量少、建模預(yù)測(cè)效果好等優(yōu)點(diǎn)。不同的波長(zhǎng)選擇方法各有其優(yōu)缺點(diǎn)和適應(yīng)性,將這些波長(zhǎng)選擇方法聯(lián)用,可以結(jié)合它們的優(yōu)勢(shì),達(dá)到更優(yōu)的效果。聯(lián)用并非任意的排列組合,需要基于一定的組合策略。通常情況下,當(dāng)兩種波長(zhǎng)選擇方法聯(lián)用時(shí),前一步方法進(jìn)行粗略選擇,去除無信息變量,同時(shí)不能漏掉關(guān)鍵變量; 后一步方法精準(zhǔn)選擇重要變量,保留較少變量的同時(shí),取得較好的建模效果[6]。波長(zhǎng)區(qū)間選擇和波長(zhǎng)點(diǎn)選擇符合上述特點(diǎn),具有一定互補(bǔ)性?;谝陨戏治?,本工作采用CARS和VCPA兩種波長(zhǎng)點(diǎn)選擇方法,并與波長(zhǎng)區(qū)間選擇方法iRF聯(lián)用(iRF在前),比較它們的建模效果。
CARS是一種基于偏最小二乘法(partial least square method,PLS)回歸系數(shù)的波長(zhǎng)選擇方法,CARS首先通過蒙特卡羅采樣(Monte carlo sampling,MCS)隨機(jī)抽取校正集的一部分樣本建立PLS模型,通過指數(shù)衰減函數(shù)(exponentially decreasing function,EDF)和自適應(yīng)重加權(quán)采樣(adaptive reweighted sampling,ARS)選取回歸系數(shù)較大的波長(zhǎng),選擇建模時(shí)交互驗(yàn)證均方根誤差(root mean square error of cross-validation,RMSECV)最小時(shí)對(duì)應(yīng)波長(zhǎng)[7-8]。
VCPA是一種基于模型集群分析(model population analysis,MPA)思想的新型變量選擇方法。VCPA采用二進(jìn)制矩陣采樣法(binary matrix sampling,BMS),每個(gè)變量有同等被選中機(jī)會(huì),利用EDF確定保留波長(zhǎng)的數(shù)量,縮小變量空間,計(jì)算出剩余變量間所有可能組合的RMSECV,選擇RMSECV最小的變量組合作為最終建模數(shù)據(jù)[9]。
iRF是在隨機(jī)蛙跳(random frog,RF)的基礎(chǔ)上提出的一種新型波長(zhǎng)區(qū)間選擇方法。iRF模擬一條服從穩(wěn)態(tài)分布的馬爾科夫鏈迭代計(jì)算每個(gè)波長(zhǎng)變量被選擇的頻率,對(duì)選擇可能性最高的波長(zhǎng)變量建立PLS模型,選擇模型誤差最小的變量,尋優(yōu)搜索能力強(qiáng)[10]。
生鮮調(diào)理牛排貯藏期間TVB-N含量測(cè)定結(jié)果如圖2所示。根據(jù)國標(biāo)規(guī)定,肉制品TVB-N含量小于15 mg·(100 g)-1為新鮮狀態(tài)。圖中,TVB-N含量第0天的平均值為8.13 mg·(100 g)-1,并隨貯藏時(shí)間的延長(zhǎng)不斷增長(zhǎng)。第8天的平均值為17.43 mg·(100 g)-1,已經(jīng)超過標(biāo)準(zhǔn)規(guī)定。貯藏后期(4~8 d)的TVB-N含量增長(zhǎng)速度大于貯藏前期(0~4 d),這是因?yàn)橘A藏后期致腐微生物大量繁殖,加速了蛋白質(zhì)的分解,產(chǎn)生的堿性含氮物質(zhì)與有機(jī)酸結(jié)合成TVB-N。與其他研究中[11]相同包裝條件下的牛肉TVB-N測(cè)定結(jié)果相比,調(diào)理牛排的TVB-N增長(zhǎng)速度較慢。這是因?yàn)榕E旁谡{(diào)理過程中加入了食用鹽和復(fù)合磷酸鹽,一定程度上抑制了致腐菌的生長(zhǎng)。
圖2 不同貯藏時(shí)間調(diào)理牛排TVB-N含量測(cè)定結(jié)果Fig.2 Results of TVB-N content in preparedsteaks at different storage times
圖3(a)和(b)分別為生鮮調(diào)理牛排的原始光譜圖和平均光譜圖。從平均光譜圖可以看出,不同貯藏天數(shù)的樣本光譜反射曲線趨勢(shì)相近,且隨著儲(chǔ)藏時(shí)間的增加,光譜反射率增大。這是由于在貯藏過程中,調(diào)理牛排一些物理特征和內(nèi)部化學(xué)成分發(fā)生了變化如水分流失、肉色變淺、蛋白質(zhì)降解、脂肪氧化等,導(dǎo)致了光譜吸收的變化。光譜曲線在550,580,760和960 nm有明顯吸收峰,550和580 nm處主要與氧合肌紅蛋白有關(guān)[12],760 nm處是肌紅蛋白穩(wěn)定吸收峰[13],960 nm附近主要與調(diào)理牛排水分中O—H伸縮振動(dòng)的二級(jí)倍頻吸收有關(guān)[14]。
2.3.1 全波段下PLS模型
將150個(gè)樣本的預(yù)處理后的光譜和對(duì)應(yīng)TVB-N數(shù)據(jù)采用隨機(jī)分組的方式以2∶1的比例劃分為校正集和預(yù)測(cè)集。通過主成分分析法(principle component analysis,PCA)優(yōu)選前十個(gè)主成分作為自變量,以TVB-N測(cè)量值作為因變量,建立PLS預(yù)測(cè)模型。模型的預(yù)測(cè)結(jié)果如表1所示,可以看出,光譜經(jīng)1stDer處理后建立的模型預(yù)測(cè)效果最好,模型的RC和RP分別為0.919和0.907,RMSECV和RMSEP分別為1.45和1.52 mg·(100 g)-1。故對(duì)光譜數(shù)據(jù)進(jìn)行1stDer處理后進(jìn)行后續(xù)數(shù)據(jù)處理。
圖3 不同貯藏時(shí)間調(diào)理牛排原始光譜圖(a)和 平均光譜圖(b)
表1 不同預(yù)處理方法對(duì)TVB-N含量[mg·(100 g)-1]的預(yù)測(cè)結(jié)果Table 1 Predictive results of TVB-N content [mg·(100 g)-1] based on different pre-processing methods
2.3.2 基于CARS的PLS模型
CARS采樣次數(shù)設(shè)置為100次,運(yùn)行過程如圖4所示。從圖中可以看出,隨著采樣次數(shù)的增加,被選波長(zhǎng)數(shù)量逐漸減少,RMSECV先緩慢減小而后突然增加。采樣次數(shù)為59時(shí),RMSECV最小,對(duì)應(yīng)選擇了21個(gè)特征波長(zhǎng)。將選擇的波長(zhǎng)變量代替全波段模型的輸入,建立TVB-N的PLS預(yù)測(cè)模型。模型的RC和RP分別為0.932和0.927,RMSECV和RMSEP分別為1.24和1.29 mg·(100 g)-1。相比全波段光譜建模,CARS-PLS大大減少了建模所需變量,提高了模型預(yù)測(cè)效果。
圖4 CARS選擇特征波長(zhǎng)過程Fig.4 Process of selecting characteristic wavelengths by CARS
2.3.3 基于VCPA的PLS模型
VCPA運(yùn)行參數(shù)設(shè)置如下: 最佳子集占比0.1,BMS運(yùn)行的次數(shù)設(shè)為1 000,EDF運(yùn)行的次數(shù)設(shè)為50,剩余變量數(shù)目設(shè)為14。先通過BMS對(duì)校正集數(shù)據(jù)進(jìn)行1 000次采樣得到1 000組變量組合,在此過程中,每個(gè)變量被選擇的概率相同。對(duì)這些變量組合建立PLS模型,取RMSECV最小的100組變量組合進(jìn)行下一步EDF運(yùn)算。在EDF運(yùn)行過程中,RMSECV變化如圖5所示??梢钥闯?,隨著EDF的重復(fù)運(yùn)行,特征空間縮小,RMSECV整體呈下降趨勢(shì),此時(shí)與TVB-N含量相關(guān)性不大的波長(zhǎng)變量被刪除,剩下的變量被添加到最佳子集中。EDF運(yùn)行結(jié)束后,計(jì)算選擇的14個(gè)波長(zhǎng)變量所有可能組合的RMSECV,并選取RMSECV最小的組合。最終選擇了11個(gè)特征波長(zhǎng),所建模型的RC和RP分別為0.944和0.931,RMSECV和RMSEP分別為1.12和1.28 mg·(100 g)-1。相比于CARS,VCPA選擇的變量更少,同時(shí)模型的預(yù)測(cè)效果更優(yōu)。
圖5 RMSECV隨EDF運(yùn)行次數(shù)變化趨勢(shì)Fig.5 Changes in RMSECV with the number of EDF runs
2.3.4 CARS與VCPA的比較和穩(wěn)定性分析
從前三小節(jié)的結(jié)果可知,全光譜數(shù)據(jù)中包含很多與調(diào)理牛排中TVB-N無關(guān)波長(zhǎng),導(dǎo)致建立的PLS模型預(yù)測(cè)性能削弱。CARS和VCPA都能在減少變量的同時(shí)提升模型預(yù)測(cè)效果。且相比于CARS,VCPA選擇的變量更少,預(yù)測(cè)效果更好。這是因?yàn)閂CPA可以通過EDF壓縮變量空間,消除無關(guān)變量,并能夠考慮所有的變量組合效應(yīng)。EDF迭代運(yùn)行過程中,MPA思想保留了最佳的10%的通過BMS采樣獲得的子模型,整個(gè)迭代過程類似于“優(yōu)勝劣汰”的進(jìn)化論。而保留變量少是因?yàn)閂CPA最終選擇變量從EDF運(yùn)行后剩余的14個(gè)變量的所有組合中確定。
將CARS和VCPA重復(fù)運(yùn)行50次,以評(píng)價(jià)其穩(wěn)定性。每個(gè)波長(zhǎng)變量被選擇頻次如圖6所示。從圖中可以看出,CARS選擇的變量較分散,有較多雜峰,而VCPA選擇變量相對(duì)集中,穩(wěn)定性更好。這是因?yàn)镃ARS的采樣策略MCS隨機(jī)選擇變量,每個(gè)變量被選擇的機(jī)會(huì)是不確定的,一些不重要變量可能會(huì)因?yàn)檫@個(gè)隨機(jī)過程而被最終保留。而VCPA的BMS采樣策略為每個(gè)變量提供相同的采樣機(jī)會(huì),重要變量被最終選擇的幾率相對(duì)更大。對(duì)比兩種方法選擇頻率較高的波長(zhǎng),發(fā)現(xiàn)有一些共同的重要波長(zhǎng)變量: 694.9,696.6,761.8,763.5,811.5和813.3 nm等。760nm處是能夠反映肉品新鮮度的肌紅蛋白的吸收峰[13],810 nm是蛋白質(zhì)中C—H鍵伸縮振動(dòng)倍頻吸收[15],而TVB-N正是由于肉中蛋白質(zhì)被微生物分解而產(chǎn)生的[16]。
圖6 CARS (a)和VCPA (b)重復(fù)運(yùn)行中被選波長(zhǎng)頻次圖
嘗試選擇50次重復(fù)運(yùn)行過程中被選擇頻率較高的波長(zhǎng)進(jìn)行建模,并與單次運(yùn)行效果對(duì)比。在之前的模型中,CARS和VCPA分別選擇了21和11個(gè)波長(zhǎng)變量。按照頻次排名選擇同樣數(shù)量的波長(zhǎng)進(jìn)行建模,得到的CARS-PLS模型的RC和RP分別為0.851和0.821,RMSECV和RMSEP分別為1.78和2.09 mg·(100 g)-1; VCPA-PLS模型的RC和RP分別為0.918和0.899,RMSECV和RMSEP分別為1.41和1.40 mg·(100 g)-1,模型效果遠(yuǎn)低于單次運(yùn)行建模??紤]是因?yàn)殡m然被選頻次高的波長(zhǎng)變量一定包含了與TVB-N含量有關(guān)的重要信息,但這些頻次高的變量之間可能存在共線性,信息重復(fù),而被舍棄的頻次稍低的一些變量也包含了一些相關(guān)信息。而算法單次運(yùn)行時(shí)基于一定的優(yōu)化策略,雖然每次運(yùn)行結(jié)果不一定相同,但最終選擇的變量組合都能夠取得較好的建模效果。
2.3.5 基于iRF-CARS和iRF-VCPA的PLS模型
將波長(zhǎng)區(qū)間的粗選和波長(zhǎng)點(diǎn)的精選聯(lián)用,有望達(dá)到更好的建模效果。首先對(duì)全波段光譜數(shù)據(jù)進(jìn)行iRF篩選。iRF運(yùn)行參數(shù)設(shè)置如下: 迭代次數(shù)為10 000,移動(dòng)窗口寬度為20,初始變量集個(gè)數(shù)為50,節(jié)點(diǎn)處抽取變量個(gè)數(shù)為3。迭代運(yùn)行后將599個(gè)間隔按被選概率排序,計(jì)算排名前1~10至1~599的組合的RMSECV,共計(jì)590個(gè)RMSECV,選擇RMSECV最小時(shí)的波長(zhǎng)間隔組合。最終選擇的波長(zhǎng)如圖7所示。
圖7 iRF選擇波長(zhǎng)示意圖Fig.7 Wavelengths selected by iRF
將iRF選擇的變量作為新變量進(jìn)行CARS和VCPA篩選。CARS和VCPA分別選擇了24和7個(gè)波長(zhǎng)。將所有波長(zhǎng)選擇后建立模型預(yù)測(cè)結(jié)果匯總至表2。從表中可以看出,相比于全光譜PLS,iRF-PLS模型效果得到提升,但波長(zhǎng)變量數(shù)過多。iRF-VCPA-PLS模型效果與VCPA-PLS相當(dāng),但波長(zhǎng)數(shù)量減少到了7個(gè)。iRF-CARS-PLS模型效果最佳,模型的RC和RP分別為0.966和0.938,RMSECV和RMSEP分別為0.91和1.22 mg·(100 g)-1。串聯(lián)策略取得較好效果,它充分利用了波長(zhǎng)區(qū)間選擇的強(qiáng)解釋性,減少無效波長(zhǎng)點(diǎn)對(duì)波長(zhǎng)精選算法的干擾,幫助波長(zhǎng)精選在較小的區(qū)間中進(jìn)行最優(yōu)選擇。在本次建模結(jié)果中,相比于VCPA,CARS展現(xiàn)了更好的與iRF串聯(lián)效果。不同波長(zhǎng)選擇下的模型的預(yù)測(cè)效果一定程度上依賴于樣本集,因此這些波長(zhǎng)選擇聯(lián)用方法需要在更多應(yīng)用中檢測(cè)其適用性。
表2 各波長(zhǎng)選擇方法對(duì)TVB-N含量[mg·(100 g)-1]的預(yù)測(cè)結(jié)果Table 2 Predictive results of TVB-N content [mg·(100 g)-1] based on different wavelength selection methods
利用高光譜成像對(duì)生鮮調(diào)理牛排貯藏過程中TVB-N含量進(jìn)行預(yù)測(cè),重點(diǎn)探究了波長(zhǎng)選擇方法對(duì)預(yù)測(cè)結(jié)果的影響。研究結(jié)果表明: (1)在所用六種光譜預(yù)處理方法中,1stDer為最佳預(yù)處理方法,CARS和VCPA單次運(yùn)行時(shí),VCPA所選波長(zhǎng)數(shù)量更少,同時(shí)建模預(yù)測(cè)效果更好。(2)將CARS和VCPA重復(fù)運(yùn)行50次,發(fā)現(xiàn)VCPA的穩(wěn)定性更好。利用被選擇頻率較高的波長(zhǎng)進(jìn)行建模,模型性能較差。(3)將iRF分別與CARS和VCPA聯(lián)用,CARS表現(xiàn)出更好的串聯(lián)效果,iRF-CARS選擇了24個(gè)波長(zhǎng),模型的RC和RP分別為0.966和0.938,RMSECV和RMSEP分別為0.91和1.22 mg·(100 g)-1。研究可為波長(zhǎng)選擇算法聯(lián)用策略和高光譜檢測(cè)調(diào)理牛排新鮮度提供理論參考。