喬 蘆,王松磊,郭建宏,賀曉光
寧夏大學(xué)食品與葡萄酒學(xué)院,寧夏 銀川 750021
谷胱甘肽(GSH)[1-2]是羊肉體內(nèi)重要的水溶性抗氧化劑,是一種普遍存在的內(nèi)源性生物硫醇,在動(dòng)物體內(nèi)提供解毒代謝的作用,因而GSH是維持生命系統(tǒng)抗氧化能力的重要指標(biāo),大多數(shù)酶類(lèi)的代謝都要可溶性蛋白質(zhì)參與,同時(shí)也是測(cè)定GSH含量的一個(gè)重要指標(biāo),因此可以將可溶性蛋白和GSH含量當(dāng)做肉類(lèi)新鮮度檢測(cè)指標(biāo)。當(dāng)前常規(guī)檢測(cè)方法為分光光度計(jì)法,此方法雖然可靠,但耗時(shí)、費(fèi)力。故選用一種快速準(zhǔn)確的方法來(lái)定量檢測(cè)羊肉中可溶性蛋白和GSH含量非常必要。
高光譜成像技術(shù)可以提供樣本的光譜和空間信息,它作為一種無(wú)損、實(shí)時(shí)的食品質(zhì)量分析和檢測(cè)工具越來(lái)越受到人們的重視[3-4]。其紋理信息在肉品領(lǐng)域應(yīng)用逐漸變廣。Xiong[5]等應(yīng)用光譜和紋理數(shù)據(jù)相結(jié)合區(qū)分散養(yǎng)雞和肉雞,分類(lèi)正確率達(dá)93.33%。孫宗保等[6]采用光譜和紋理信息鑒別冰鮮和凍融三文魚(yú)及其凍融次數(shù),取得了較好的效果。Lin等[7]利用高光譜圖譜融合技術(shù)對(duì)豬肉肌內(nèi)脂肪含量進(jìn)行預(yù)測(cè)。Yang[8]等采用高光譜圖譜合一的特點(diǎn),提取熟牛肉樣本30個(gè)紋理信息結(jié)合反向人工神經(jīng)網(wǎng)絡(luò)(back propagation-artificial neural networks,BP-ANN)模型對(duì)熟牛肉的存儲(chǔ)時(shí)間和含水率進(jìn)行預(yù)測(cè)。Zhang等[9]利用信息融合的方法預(yù)測(cè)鮭魚(yú)的脂肪和水分,校正預(yù)測(cè)相關(guān)系數(shù)均高達(dá)0.95以上。這些研究顯示融合信息均優(yōu)于僅光譜或圖像紋理信息的結(jié)果,這表明光譜和圖像紋理數(shù)據(jù)結(jié)合不僅可以對(duì)肉品品質(zhì)進(jìn)行定性判別,也能夠用來(lái)對(duì)理化指標(biāo)定量預(yù)測(cè)分析。但據(jù)了解,近幾年國(guó)內(nèi)外學(xué)者利用光譜技術(shù)對(duì)植物酶類(lèi)有研究,但尚未見(jiàn)光譜數(shù)據(jù)和圖像紋理信息融合來(lái)確定羊肉可溶性蛋白和GSH含量的相關(guān)研究報(bào)道。
本研究的主要目的是利用光譜和圖像紋理信息相結(jié)合來(lái)預(yù)測(cè)羊肉可溶性蛋白含量和GSH含量。通過(guò)采集羊肉樣本的可見(jiàn)-近紅外(400~1 000 nm)高光譜數(shù)據(jù),利用4種預(yù)處理方法2種變量選擇工具篩選出最優(yōu)預(yù)處理方法和特征波長(zhǎng)方法;并使用灰度共生矩陣法提取羊肉樣本紋理信息,通過(guò)基于光譜數(shù)據(jù)及其光譜和紋理融合信息建立線性和非線性預(yù)測(cè)模型預(yù)測(cè)羊肉可溶性蛋白含量和GSH含量,并利用偽彩色圖繪制其空間分布圖。
羊肉樣本采自寧夏鹽池縣鑫海食品有限公司,共計(jì)60只羊。經(jīng)屠宰后,將其胴體冷藏于4 ℃條件下進(jìn)行48 h排酸處理,排酸完成后,取60只羊胴體前腿肉、后腿肉、背最長(zhǎng)肌各一塊肉,最終得到羊肉樣本180個(gè)。為保持樣本的一致性,將羊肉制備成體積大小為(35 mm×25 mm×10 mm)的肉塊,并于4 ℃冰箱儲(chǔ)藏備用為后續(xù)光譜采集和化學(xué)值測(cè)定。
在獲取高光譜圖像后,測(cè)定羊肉可溶性蛋白和GSH含量。稱(chēng)取1.000 0 g羊肉樣本,制備組織上清液,利用紫外分光光度計(jì)測(cè)定吸光度在595和420 nm處可溶性蛋白和GSH含量。
1.4.1 光譜預(yù)處理
在光譜采集過(guò)程中,由于外部環(huán)境和儀器的影響導(dǎo)致光譜信號(hào)容易受到大量隨機(jī)噪聲的干擾,不利于提高預(yù)測(cè)模型的準(zhǔn)確性,故需要對(duì)光譜進(jìn)行預(yù)處理[10]。為篩選出較好的預(yù)處理方法,采用卷積平滑(savitzky-golay,SG)、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate,SNV)、正交信號(hào)校正(orthogonal signal correction,OSC)、去趨勢(shì)法(detrend)共4種預(yù)處理方法。
1.4.2 特征波長(zhǎng)提取
有效的特征波長(zhǎng)提取能夠刪除與樣本成分無(wú)關(guān)的信息,提取最能代表肉樣的有效信息,縮短計(jì)算時(shí)間[11]。采用CARS和iVISSA-IRIV提取特征波長(zhǎng)方法來(lái)簡(jiǎn)化模型,提升模型性能。CARS是一種新的變量選擇方法,它可以在消除新的變量的同時(shí)有效減少共線變量對(duì)模型的影響[12]。區(qū)間變量迭代空間收縮法(interval variable iterative space shrinkage approach,iVISSA)是一種基于交叉驗(yàn)證均方根誤差(RMSECV)的波長(zhǎng)間隔選擇方法。它經(jīng)過(guò)多次迭代,交替使用全局和局部過(guò)程來(lái)優(yōu)化間隔位置,直至優(yōu)選出最佳特征變量[13]。迭代和保留信息變量法(iteratively retaining informative variables,IRIV)是基于二進(jìn)制矩陣變換濾波器的思想提出的一種新的變量選擇方法,該方法采用BMS作為變量空間采樣方法,迭代保留信息變量,直到不存在干擾變量。利用IRIV法對(duì)iVISSA法篩選出的波長(zhǎng)進(jìn)行二次提取,形成了一種變量選擇的混合方法,解決了變量數(shù)量多的問(wèn)題。
1.4.3 圖像紋理信息提取
紋理是圖像應(yīng)用中最重要的特征之一,表示的是相鄰像素之間的強(qiáng)度關(guān)系,表示灰度像素之間關(guān)系的常用方法叫做灰度共生矩陣法(GLCM),其描述了不同灰度組合在一幅圖像中同時(shí)出現(xiàn)的頻率,常被用來(lái)提取圖像紋理信息。由于不同方向和距離的圖像可以構(gòu)成不同的灰度共生矩陣,故本研究中距離設(shè)置為1,依次取不同方向(0°,45°,90°和135°)的能量(energy)、熵(entropy)、同質(zhì)性(homogeneity)和相關(guān)性(correlation)四個(gè)特殊相互獨(dú)立的特征來(lái)描述共生矩陣數(shù)據(jù)[9]。從每幅圖片中共選取16個(gè)紋理參數(shù)用于后續(xù)建模。
如圖1所示,可溶性蛋白和GSH含量在不同部位之間存在顯著差異。羊肉背最長(zhǎng)肌的可溶性蛋白含量最高,而GSH含量最低,這種差異可能是由不同部位之間的理化特征引起的。也可能與羊不同部位活動(dòng)量不同有關(guān),由于前腿和后腿相對(duì)于背最長(zhǎng)肌運(yùn)動(dòng)較多,運(yùn)動(dòng)會(huì)增加有氧代謝,故GSH含量相對(duì)較高。
悲劇不斷,輿論紛紛。有指責(zé)家長(zhǎng)的,有指責(zé)學(xué)校的,更有指責(zé)網(wǎng)游公司的……但為什么更多的游戲玩家沒(méi)有走火入魔,發(fā)生悲???
圖1 不同部位可溶性蛋白和GSH含量統(tǒng)計(jì)分析圖Fig.1 Statistical analysis of soluble protein and GSH contents in different parts
對(duì)提取到的光譜數(shù)據(jù)進(jìn)行建模,需要仔細(xì)選擇校正集,使其能夠代表用于校準(zhǔn)的樣本。因此,180個(gè)羊肉樣本經(jīng)剔除9個(gè)異常樣本后,按照3∶1比例分為校正集(n=128)和預(yù)測(cè)集(n=43)兩個(gè)子集共計(jì)171個(gè)羊肉樣本,利用校正集構(gòu)建模型,預(yù)測(cè)集檢驗(yàn)?zāi)P托阅堋S杀?可知,校正集樣品的范圍涵蓋了預(yù)測(cè)集范圍,故可使用預(yù)測(cè)集中的樣本來(lái)檢驗(yàn)最終模型性能。此外,可溶性蛋白和GSH分布值范圍較寬,表明化學(xué)分析結(jié)果具有代表性,可用于后續(xù)模型。
表1 羊肉可溶性蛋白和GSH含量樣本集劃分統(tǒng)計(jì)結(jié)果Table 1 Statistical of soluble protein and GSH contents of mutton of sample sets
圖2(a)為171個(gè)羊肉樣本的原始光譜圖像,429和540 nm附近的光譜反射率可能與氧合血紅蛋白有關(guān)[14];479,723和799 nm附近的高反射率可能與蛋白質(zhì)組分中—NH3—基團(tuán)吸收以及C—H倍頻和脂肪中C—O倍頻的綜合作用有關(guān);在900~1 000 nm波長(zhǎng)范圍內(nèi)的光譜峰值與羊肉樣本水分子吸收帶有關(guān)[6]。這些光譜差異可用于后續(xù)預(yù)測(cè)羊肉樣本可溶性蛋白和GSH含量。圖2(b)為羊肉樣本前腿、后腿、背最長(zhǎng)肌的光譜值求平均值并作出平均光譜圖。圖2(b)中羊肉樣本不同部位光譜曲線呈現(xiàn)相似趨勢(shì),其中在450~525和600~1 000 nm波長(zhǎng)范圍之間,前腿的光譜反射率均為最高,后腿最低;525~600 nm波長(zhǎng)范圍之間,背最長(zhǎng)肌光譜反射率最高,后腿反射率最低??梢园l(fā)現(xiàn),后腿的在全波段光譜反射率均為最低。這些差異可能與羊肉樣本的主要化學(xué)成分有關(guān)。
圖2 羊肉樣本的原始光譜圖(a)與不同部位平均光譜圖(b)Fig.2 Raw (a)and average spectra (b)of mutton samples
如表2所示,未經(jīng)預(yù)處理的原始光譜建立的可溶性蛋白含量模型建模效果最好,Rc和Rp分別為0.875 7和0.854 7,并且RMSEC和RMSEP均為最低。SNV方法預(yù)處理后建立的羊肉樣本GSH含量模型的Rc和Rp分別為0.804 8和0.826 5,說(shuō)明SNV方法能夠去除與羊肉GSH含量無(wú)關(guān)的冗余信息,提高了模型的預(yù)測(cè)性能。因此在后續(xù)的變量篩選中,采用原始光譜建立可溶性蛋白含量模型,SNV作為建立GSH含量模型所用預(yù)處理方法。
表2 不同預(yù)處理方法的羊肉指標(biāo)PLSR模型Table 2 PLSR models for mutton indicators by different pretreatment methods
2.4.1 CRAS法特征波長(zhǎng)提取
采用CARS法、iVISSA-IRIV 2種方法提取特征波長(zhǎng)。經(jīng)過(guò)多次試驗(yàn),設(shè)置CARS算法參數(shù)為:主成分?jǐn)?shù)為10,數(shù)據(jù)選用“center”處理方式,十折交叉驗(yàn)證,其中,可溶性蛋白蒙特卡洛采樣次數(shù)設(shè)置為350,GSH的采樣次數(shù)為500。如圖3所示為可溶性蛋白和GSH的CARS算法挑選特征波長(zhǎng)過(guò)程。圖3A(a)表示隨著抽樣運(yùn)行次數(shù)的增加,抽樣波長(zhǎng)數(shù)的變化。圖3A(b)表示為抽樣運(yùn)行期間的十折交叉驗(yàn)證值RMSECV變化,在運(yùn)行至第83次時(shí)該值最小,此時(shí)變量個(gè)數(shù)逐步減少導(dǎo)致部分有效信息被消除,模型精度下降;圖3A(c)為每次采樣過(guò)程中回歸系數(shù)的變化路徑,最左邊的粗豎線代表當(dāng)采樣運(yùn)行次數(shù)為21次時(shí)RMSECV值最小,此時(shí)與羊肉可溶性蛋白無(wú)用的信息被剔除,最終共選取有效信息最多的48個(gè)特征波長(zhǎng)變量。CARS方法提取羊肉GSH含量樣本的特征波長(zhǎng)情況如圖3(b)所示,共提取出19個(gè)特征波長(zhǎng)。
圖3 CARS法特征波長(zhǎng)的篩選A:可溶性蛋白含量;B:GSH含量Fig.3 Characteristic wavelengths selected by CARS algorithmA:soluble protein content;B:GSH content
2.4.2 iVISSA-IRIV特征波長(zhǎng)選取
利用iVISSA-IRIV融合方法對(duì)光譜特征波長(zhǎng)進(jìn)行篩選,采樣次數(shù)設(shè)置為50。圖4(a)為iVISSA算法在迭代過(guò)程中各個(gè)波長(zhǎng)的采樣權(quán)重值隨迭代次數(shù)的變化情況。此三維立體圖X,Y,Z坐標(biāo)軸分別代表波段數(shù)、迭代次數(shù)、權(quán)重,結(jié)合色度帶上方綠色部分采樣權(quán)重接近1,此時(shí)有效信息被保留,下端紫色部分則采樣權(quán)重值接近0,這部分波段為無(wú)效信息被剔除,而采樣權(quán)重處于0~1之間時(shí),相應(yīng)的那些波長(zhǎng)會(huì)重新在迭代循環(huán)中繼續(xù)被選擇,直到所有特征波長(zhǎng)選擇完畢,經(jīng)過(guò)25次迭代,采樣權(quán)重基本不變,共篩選出52個(gè)特征波長(zhǎng),特征波長(zhǎng)數(shù)仍然占總波長(zhǎng)數(shù)的41.6%,會(huì)造成信息冗余,增加計(jì)算難度和時(shí)間,故需再通過(guò)IRIV算法二次提取特征波長(zhǎng)。如圖4(b)所示羊肉可溶性蛋白含量iVISSA-IRIV法特征波長(zhǎng)篩選圖,柱條表示提取的31個(gè)特征波長(zhǎng)。而同理可得,經(jīng)iVISSA-IRIV算法提取的GSH含量樣本的特征波長(zhǎng)結(jié)果如圖5所示,圖5(b)為羊肉GSH含量iVISSA-IRIV法特征波長(zhǎng)篩選圖,共提取29個(gè)特征波長(zhǎng)。
圖4 可溶性蛋白含量iVISSA-IRIV法篩選特征波長(zhǎng)Fig.4 Selection of characteristic wavelengths using iVISSA-IRIV algorithm for soluble protein concent
圖5 GSH含量iVISSA-IRIV法篩選特征波長(zhǎng)Fig.5 Selection of characteristic wavelengths using iVISSA-IRIV algorithm for GSH content
采用MLR和LS-SVM兩種模型對(duì)提取出的特征波長(zhǎng)進(jìn)行有效性評(píng)價(jià)。如表3所示,與全波段相比,提取特征波長(zhǎng)建立的MLR和LS-SVM模型預(yù)測(cè)性能良好。兩種特征波長(zhǎng)提取方法都能夠達(dá)到降維目的,提取有用信息,但iVISSA-IRIV法經(jīng)過(guò)兩次提取特征波長(zhǎng),解決變量數(shù)多的同時(shí)更多的保留有效信息,故經(jīng)iVISSA-IRIV法提取特征波長(zhǎng)建模效果較優(yōu)。羊肉可溶性蛋白iVISSA-IRIV-LS-SVM為最優(yōu)預(yù)測(cè)模型,其Rc和Rp分別為0.914 6和0.881 8,且均方根誤差均最低。表明基于非線性的LS-SVM模型的性能優(yōu)于線性MLR模型,說(shuō)明羊肉可溶性蛋白含量與光譜吸收之間具有較強(qiáng)的非線性關(guān)系。羊肉GSH含量iVISSA-IRIV-MLR為最優(yōu)預(yù)測(cè)模型,其Rc和Rp分別為0.844 6和0.870 5,比原始光譜建模Rc和Rp高了0.046和0.097 1,說(shuō)明在建模過(guò)程中,羊肉GSH含量不利于非線性預(yù)測(cè)模型的建立。綜上所述,羊肉光譜信息經(jīng)iVISSA-IRIV法提取特征波長(zhǎng)后,建立的羊肉可溶性蛋白和GSH含量預(yù)測(cè)模型取得了較好的建模效果,表明iVISSA-IRIV法對(duì)光譜數(shù)據(jù)進(jìn)行降維簡(jiǎn)化了定量分析模型的復(fù)雜性,提高了模型的預(yù)測(cè)能力。
表3 不同特征波長(zhǎng)和模型的羊肉可溶性蛋白和GSH含量預(yù)測(cè)結(jié)果Table 3 Prediction results for soluble protein and GSH content in mutton using different characteristic wavelengths and models
為了進(jìn)一步分析羊肉內(nèi)部屬性和外部屬性對(duì)可溶性蛋白和GSH含量預(yù)測(cè)模型的影響,采用提取的最優(yōu)特征波長(zhǎng)和紋理信息進(jìn)行融合,建立基于光譜信息和紋理特征融合信息的MLR模型以及LS-SVM模型。因?yàn)楦吖庾V成像在某個(gè)特定波長(zhǎng)下圖像也反映樣本化學(xué)成分基團(tuán)對(duì)光子吸收后的反射光譜圖像,其對(duì)某個(gè)特征也會(huì)有較顯著的反映,因此圖像紋理特征在一定程度上能夠反映化學(xué)成分以及結(jié)構(gòu)方面的差異。如圖6所示為對(duì)高光譜圖像進(jìn)行主成分分析后提取的主成分圖像貢獻(xiàn)率99.50%的3個(gè)主成分圖像,主成分貢獻(xiàn)率依次為98.59%,0.79%和0.12%,故采用第一張最優(yōu)主成分圖像進(jìn)行后續(xù)紋理提取,將提取的圖像紋理信息和提取的光譜特征信息進(jìn)行融合建模分析。
圖6 羊肉樣本的前三個(gè)主成分圖像Fig.6 The first three principal component images of mutton samples
如圖7所示為經(jīng)全波段、iVISSA-IRIV特征波段和光譜紋理融合信息建立的MLR和LS-SVM模型。可以看出羊肉可溶性蛋白和GSH含量光譜紋理融合信息建立的MLR和LS-SVM模型取得了較好的預(yù)測(cè)效果。如圖7(a)所示,利用光譜和紋理信息融合建立的羊肉可溶性蛋白含量MLR模型預(yù)測(cè)性能較好,其Rc和Rp達(dá)到0.911 4和0.878 7;但比iVISSA-IRIV光譜信息的LS-SVM模型略低0.003 2和0.003 1,故利用光譜特征信息建立的LS-SVM為羊肉可溶性蛋白最佳模型,這可能是因?yàn)槔霉庾V特征信息建立LS-SVM模型比紋理信息攜帶的信息更多,羊肉樣本的內(nèi)部成分比其外部屬性的聯(lián)系更加緊密,也可能是現(xiàn)在所選用的紋理特征提取方法不適用與當(dāng)前的羊肉樣本的圖像,但融合信息建立的模型精度僅僅比光譜信息建模精度略低,說(shuō)明利用圖像紋理信息還是可行的。
圖7 模型結(jié)果對(duì)比圖(a):羊肉可溶性蛋白含量模型對(duì)比圖;(b):羊肉GSH含量模型對(duì)比圖Fig.7 Comparison of model results(a):Comparison chart for soluble protein content in mutton;(b):Comparison chart for GSH content in mutton
如圖7(b)所示為羊肉GSH含量模型對(duì)比圖,光譜特征波長(zhǎng)與紋理信息融合建立的MLR模型和LS-SVM模型均有較好的預(yù)測(cè)效果,均比全波段和iVISSA-IRIV法提取的特征波段建模結(jié)果好,光譜和紋理信息融合建立的MLR模型效果更好,比iVISSA-IRIV-MLR模型的Rc和Rp值高0.004 9和0.019 9。證明結(jié)合羊肉樣本的內(nèi)部成分和外部屬性可以很好的預(yù)測(cè)羊肉GSH含量,因此光譜與紋理特征融合信息建立的MLR模型為預(yù)測(cè)羊肉GSH含量的最優(yōu)模型。
利用最佳iVISSA-IRIV-MLR和iVISSA-IRIV-LS-SVM模型生成羊肉可溶性蛋白和GSH含量分布圖。通過(guò)提取羊肉高光譜圖像中每個(gè)像素的光譜值,然后結(jié)合最佳預(yù)測(cè)模型獲取與化學(xué)值相關(guān)的權(quán)重系數(shù),以此來(lái)通過(guò)偽色彩圖像的不同區(qū)域顏色差異及深淺來(lái)表示羊肉可溶性蛋白和GSH含量的分布情況。從圖8分布圖可以看出,隨著羊肉可溶性蛋白和GSH含量逐漸減少,紅色逐漸減弱,證明通過(guò)iVISSA-IRIV法選出的特征波段有很好的顯示可溶性蛋白和GSH含量的能力,并且通過(guò)可視化可以直觀的看出其含量分布,這是高光譜成像技術(shù)相對(duì)于常規(guī)光譜和成像技術(shù)的最大優(yōu)勢(shì)。
圖8 羊肉可溶性蛋白和GSH含量空間分布可視化圖Fig.8 Visualizations of spatial distributions of soluble protein and GSH contents in mutton
探討了利用高光譜圖像的光譜和紋理信息快速預(yù)測(cè)羊肉可溶性蛋白和GSH含量的可行性。主要結(jié)論如下:(1)通過(guò)對(duì)羊肉樣本原始光譜進(jìn)行4種預(yù)處理方法比較,發(fā)現(xiàn)未經(jīng)預(yù)處理的原始光譜建立的可溶性蛋白PLSR模型效果最好,采用SNV法預(yù)處理后建立的羊肉GSH含量PLSR模型為最佳預(yù)測(cè)模型。(2)利用CARS法和iVISSA-IRIV法對(duì)經(jīng)預(yù)處理后的光譜提取特征波長(zhǎng),其中iVISSA-IRIV-LS-SVM模型對(duì)羊肉可溶性蛋白含量預(yù)測(cè)有最佳效果,iVISSA-IRIV-MLR模型為羊肉GSH含量光譜數(shù)據(jù)最佳預(yù)測(cè)模型。(3)進(jìn)一步利用光譜特征和圖像紋理融合信息建立MLR和LS-SVM模型對(duì)比發(fā)現(xiàn),通過(guò)光譜信息建立的iVISSA-IRIV-LS-SVM模型對(duì)羊肉可溶性蛋白含量的預(yù)測(cè)效果最好,其Rc和Rp分別為0.914 6和0.881 8;通過(guò)光譜和圖像紋理融合信息建立的MLR模型對(duì)羊肉GSH含量的預(yù)測(cè)效果最佳,Rc和Rp分別為0.849 5和0.890 4。綜上所述,羊肉可溶性蛋白含量與光譜之間具有較強(qiáng)的非線性關(guān)系,建立的LS-SVM模型具有較好的預(yù)測(cè)性能,基于光譜和圖像紋理融合信息比單獨(dú)光譜預(yù)測(cè)羊肉GSH含量更有效,通過(guò)選取最佳光譜預(yù)測(cè)模型生成可視化分布圖可直觀看見(jiàn)羊肉可溶性蛋白和GSH含量分布,結(jié)果表明利用高光譜圖像的光譜和紋理信息對(duì)羊肉可溶性蛋白和GSH含量的預(yù)測(cè)是可行的,可進(jìn)一步改進(jìn)該方法去預(yù)測(cè)肉品新鮮度。