吳 鵬,宋海燕,楊 威,張志勇,韓小平(山西農(nóng)業(yè)大學(xué)工學(xué)院,山西晉中 030800)
中國是世界最大的蛋品生產(chǎn)與消費國。我國連續(xù)20多年保持世紀(jì)第一產(chǎn)蛋大國的地位,占到世界雞蛋產(chǎn)量的43%。同時人均的年平均雞蛋消費量達到約20 kg/人左右,已經(jīng)大大超過了世界平均水平[1]。因為雞蛋營養(yǎng)價值含量高,價格低廉,深受廣大群眾的喜愛,在整個食品行業(yè)中都占有很重要的地位[2-3]。隨著人們越來越注重食品安全,對雞蛋產(chǎn)品的品質(zhì)要求也越加嚴(yán)格。由于各類雞蛋外表差別不大,所以市場上的很多不良商家為了牟取高額利益,往往以次充好,不僅損害了消費者的利益,同時也影響了市場的規(guī)則。因此,研究一種快速、無損的檢測方法,實現(xiàn)雞蛋的鑒別有很重要的意義。
食品產(chǎn)地溯源是建立食品質(zhì)量安全的重要保障,近紅外光譜技術(shù)操作簡單、對食品無損、無污染,適用于對食品的品質(zhì)分析及產(chǎn)地溯源的鑒別[4]。近些年來,近紅外光譜技術(shù)在不斷的發(fā)展創(chuàng)新,結(jié)合化學(xué)計量法在對各種食品、農(nóng)產(chǎn)品等方面得到了廣泛應(yīng)用。有關(guān)利用近紅外光譜技術(shù)對食品的品質(zhì)分析在國內(nèi)外已經(jīng)有大量的報道,一些學(xué)者根據(jù)建立判別模型,對食品實現(xiàn)了產(chǎn)地溯源的研究[5-7]。姜亦南等[8]利用近紅外光譜結(jié)合簇類獨立軟模式法(Cluster class independent soft mode method,SIMCA)對不同產(chǎn)地的三七作了研究,結(jié)果表明所建模型的樣本識別率幾乎達到100%,實現(xiàn)了對三七的產(chǎn)地鑒別;張智峰等[9]利用近紅外光譜技術(shù)結(jié)合主成分分析對苦蕎中的6種成分進行灰度關(guān)聯(lián)分析,確定了對溯源影響最大的兩種成分,實現(xiàn)對苦蕎不同產(chǎn)地的溯源。孫淑敏等[10]利用近紅外光譜分析結(jié)合偏最小二乘法判別分析建立了羊肉產(chǎn)地溯源,樣本整體判別率為91.2%;宋雪健等[11]利用近紅外漫反射技術(shù)對小米產(chǎn)地進行了溯源研究,結(jié)合最小偏二乘法建立的定量分析模型,對肇源、肇州兩個地區(qū)的小米籽粒和粉末的正確鑒別率均在90%以上。
在以往研究中,利用SIMCA分類模型對雞蛋產(chǎn)地的溯源鮮有報道。本文主要針對山西4個地區(qū)(晉中-太谷、晉西-呂梁、晉南-運城、晉北-朔州)的土養(yǎng)雞蛋,利用近紅外光譜技術(shù)分別獲取其反射光譜信息,應(yīng)用主成分分析結(jié)合SIMCA的判別分析方法對不同地區(qū)雞蛋建立產(chǎn)地溯源模型。為進一步研究雞蛋溯源提供技術(shù)支持。
雞蛋 所用樣品均為一周內(nèi)產(chǎn)的新鮮土雞蛋;分別取自于山西朔州、呂梁、太谷、運城4個地區(qū),雞種均為柴雞;所取雞蛋蛋殼顏色基本相同(均為粉色),雞蛋重量分布在50~65 g之間,蛋形指數(shù)在1.3~1.35。產(chǎn)蛋母雞所吃食物均為山上的野生植物和蟲子(自然放養(yǎng))。
Field Spec3便攜式光譜儀 美國ASD公司;530系列-M/N型標(biāo)準(zhǔn)卡尺 三豐精密量儀(上海)有限公司;ES-A系列標(biāo)準(zhǔn)精密天平 江蘇巨立儀器有限公司。
1.2.1 樣品準(zhǔn)備 將有缺陷(蛋殼有裂紋或者有瑕疵)的樣本雞蛋先剔除掉。用濕毛巾將剩余蛋殼表面的污漬清理干凈,待其晾干,進行逐一編號。按地區(qū)將雞蛋樣本分別放入不同的托盤當(dāng)中,等待檢測。利用天平稱重每個雞蛋樣品的重量并記錄。用游標(biāo)卡尺測量雞蛋兩端的距離作縱徑,再測蛋中軸處直徑作橫徑,縱徑與橫徑之比求出每個雞蛋樣品的蛋形指數(shù)并記錄。
1.2.2 光譜采集 采用Field Spec3便攜式光譜儀對雞蛋樣品進行光譜采集。將光譜儀先預(yù)熱30 min。將單個雞蛋樣本平放于托盤中,利用光譜儀的光纖探頭與雞蛋樣本的赤道部位成45°角,并且與雞蛋的垂直距離為20 cm,進行數(shù)據(jù)采集。每個雞蛋樣本在赤道部位正反面各取樣一次。
1.2.3 光譜預(yù)處理 在采集光譜信息過程中,不可避免地會受到外界因素的影響,比如環(huán)境光線、樣本差異、溫度變化等其它因素的干擾;另外原始光譜信息量大,數(shù)據(jù)冗余多。因此,必須對原始數(shù)據(jù)用適當(dāng)?shù)姆椒ㄟM行預(yù)處理分析,這樣才能使得建立模型更加完善[12-13]。本研究在350~2500 nm全波長范圍內(nèi),先對原始光譜數(shù)據(jù)取平均值,在此基礎(chǔ)上采用了多元散射校正(multiplicative scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變量(standard normal variate,SNV)、Savitzky-Golay平滑濾波(SG)及它們之間相互組合,共6種預(yù)處理方法[14-15]。
1.2.4 模型構(gòu)建及評價 簇類獨立軟模式(SIMCA)識別是針對每一類樣本進行主成分分析,并計算各類樣本間的馬氏距離建立判別模型,依據(jù)該模型對未知樣品光譜進行分類以確定相應(yīng)類別。模型效果用識別率和拒絕率來表示,其中,識別率是指某類樣品有多少落在該類模型的區(qū)域內(nèi),而拒絕率是指某類樣品模型對于不屬于該類的未知樣品的拒絕程度[16]。
判別偏最小二乘法(partial least squares-discriminant analysis,PLS-DA)是在PLSR(偏最小二乘回歸)基礎(chǔ)之上建立的一種分類模型。在利用PLS-DA建立模型進行判別時,第一,需要對不同類別樣本進行賦值作為變量的Y值;第二,對建立的Y值與光譜數(shù)據(jù)X進行回歸分析,并建立PLS的回歸模型;第三,根據(jù)所建立的回歸模型計算未知樣品的分類變量值,并將得到的分類變量值與其標(biāo)準(zhǔn)值比較,確定未知樣品是否屬于該類[17]。
本次實驗主要對采集雞蛋樣本數(shù)據(jù)利用多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量(SNV)、Savitzky-Golay平滑濾波(SG)及它們之間相互組合進行預(yù)處理分析,以全部樣本作為訓(xùn)練集,采用SIMCA模式識別的方法分別建立了朔州、呂梁、太谷、運城四個產(chǎn)地的判別模型,比較各種光譜預(yù)處理對模型精度的影響。在對選取最佳預(yù)處理后的光譜信息進行主成分分析,將4個地區(qū)的不同樣本反應(yīng)在二維平面內(nèi)的投影圖中。在主成分分析的基礎(chǔ)上,對4個地區(qū)的樣本建立PLS-DA判別模型和SIMCA識別模型,最終實現(xiàn)能夠?qū)?個地區(qū)的樣本明顯區(qū)分開,驗證準(zhǔn)確率達到100%。
由于近紅外光譜主要是含氫基團在近紅外光譜區(qū)振動的合頻與倍頻的吸收,不同地區(qū)的雞蛋,其養(yǎng)分含量會有差異,這是導(dǎo)致雞蛋樣本光譜差異的原因。從圖1中可以看出4個產(chǎn)地的雞蛋樣本在620~880和1450~1960 nm波長范圍有明顯的波峰起伏。在625 nm處有較強的吸收峰,該吸收峰主要與水分子、醇分子、O-H基團的合頻與倍頻吸收有關(guān),反映了雞蛋中膽固醇含量的信息[18-19];而在1580、2100、2381 nm處的吸收峰主要與C-H、O-H基團的合頻與倍頻有關(guān),反映了雞蛋中蛋白質(zhì)含量的信息。由圖1可知,從350~2500 nm各樣本的吸收峰及曲線的整體趨勢保持一致,無法判斷各地區(qū)樣本的差異,因此需要對光譜數(shù)據(jù)做進一步處理。
圖1 4個不同地區(qū)雞蛋的全波段原始光譜圖Fig.1 Full-band original spectra of eggs from 4 different regions
通過對所有樣本數(shù)據(jù)預(yù)處理分析[20-21],并在全波段范圍內(nèi)進行建模分析,如表1所示。
表1 不同預(yù)處理方法對建模的影響Table 1 Effects of different pretreatment methods on modeling
由表1中數(shù)據(jù)分析可以得出:通過以上各預(yù)處理方法的比較,發(fā)現(xiàn)太谷地區(qū)的樣本利用SIMCA建立的模型識別率基本接近100%,拒絕率與其它地區(qū)相比也較高;呂梁和運城地區(qū)的識別率大多數(shù)達到95%以上,且呂梁地區(qū)的平均拒絕率可達到92%,而朔州地區(qū)的平均拒絕率僅在76%左右;4個地區(qū)中SG(3點)所建SIMCA模型的效果均優(yōu)于其它方法。
如圖2所示,為SG(3點)處理后的結(jié)果圖,從圖2中可以看出通過SG(3點)處理后,基本消除了基線漂移問題,譜線整體變得集中;在380~650 nm波段之前與1900~2500 nm波段之間,譜線還是較為分散,這也許是雞蛋溯源的關(guān)鍵波段所在。
圖2 SG(3點)預(yù)處理結(jié)果Fig.2 SG(3 points)preprocessed results
通過對光譜數(shù)據(jù)預(yù)處理的基礎(chǔ)上進行主成分分析[22],建立主成分得分圖,確定最佳主成分?jǐn)?shù)及方差累計貢獻率,如表2所示。
表2 不同預(yù)處理下的主成分?jǐn)?shù)及累計貢獻率Table 2 Principal component number and cumulative contribution rate of different pretreatment
從表2可以看出,在不同預(yù)處理下,當(dāng)主成分?jǐn)?shù)為3時,其方差貢獻率基本能達到95%以上,所以,在本研究中選主成分?jǐn)?shù)為3,即可很好的說明原始光譜的信息。由表2可知,主成分?jǐn)?shù)為3時,SG(3點)平滑的預(yù)處理方法方差貢獻率最高,效果最好,如圖3所示為第一、第二主成分得分圖。
圖3 PC-1和PC-2的主成分得分圖Fig.3 Principal component scores of PC-1 and PC-2
如圖3反映的4個地區(qū)的不同樣本在二維平面內(nèi)的投影,在主成分分析中,第一主成分、第二主成分、第三主成分的方差貢獻率分別是78%、17%、3%,累計方差貢獻率達到98%,因此能夠充分表達樣品的整體分布的特征。從圖3可以看出4個地區(qū)的樣本基本可以區(qū)分,其中太谷、呂梁地區(qū)的樣本可以較明顯的與其它地區(qū)分開。運城、朔州地區(qū)有部分重疊。故在主成分分析的基礎(chǔ)上,再進行PLS-DA和SIMCA的模型分析。
利用主成分分析,確定最佳主成分?jǐn)?shù)為3時,對不同產(chǎn)地雞蛋分別賦值建立PLS-DA的判別模型。將朔州、呂梁、太谷、運城的樣本數(shù)據(jù)分別賦值為-2、-1、1、2作為變量的Y值。以R2和RMSEC作為判別標(biāo)準(zhǔn)。R2越大,RMSEC越小,說明整體樣本模型準(zhǔn)確度越高。根據(jù)已建的PLS-DA模型計算R2值結(jié)果如表3所示。
表3 PLS-DA判別模型識別效果Table 3 Recognition effect of PLS-DA discrimination model
由表3可知,在運城地區(qū)的雞蛋樣本中校正集中R2和RMSEC分別為0.9154、0.01965,表明運城地區(qū)的雞蛋樣本精確度最高。結(jié)果發(fā)現(xiàn),4個地區(qū)雞蛋樣本的整體識別率分別率68.0%(朔州)、74.6%(呂梁)、72.0%(太谷)、80.5%(運城)??梢詫Σ煌貐^(qū)雞蛋進行較好的區(qū)分。
通過進行主成分分析,確定最佳主成分?jǐn)?shù)為3。在主成分分析的基礎(chǔ)上,用SIMCA法建立鑒別模型。模型驗證結(jié)果如表4所示,在α=0.05的顯著性水平下檢驗?zāi)P偷目煽啃?。在對校正集進行預(yù)測時,在4個地區(qū)中,呂梁、太谷、運城地區(qū)的識別率均為100%,而朔州地區(qū)的識別率為95.8%。在拒絕非本類樣品時,所有地區(qū)的拒絕率均達到100%。在對驗證進行預(yù)測的時候,四個地區(qū)的識別率均達到了100%,在判斷拒絕率時,呂梁和運城的拒絕率均達到100%,而朔州和太谷地區(qū)的拒絕率為98.6%。基本可以達到對四個地區(qū)雞蛋樣本正確識別的目的。
表4 SIMCA產(chǎn)地模型校正與預(yù)測效果Table 4 Calibration and prediction effect of SIMCA habitat model
利用建立PLS-DA和SIMCA模型對4個不同地區(qū)的雞蛋進行識別。結(jié)果表明,在一定程度上2種模型均能夠?qū)Σ煌貐^(qū)的雞蛋樣本識別,PLS-DA對運城地區(qū)雞蛋樣本的識別率最高,達到80.55%。而SIMCA對4個地區(qū)的雞蛋樣本識別率基本達到了100%。由此可見,近紅外光譜結(jié)合SIMCA模型對雞蛋產(chǎn)地進行識別更好一些。
本研究采用了近紅外光譜反射法對山西省4個地區(qū)的散養(yǎng)雞蛋進行了產(chǎn)地判別。利用標(biāo)準(zhǔn)正態(tài)變量(SNV)、Savitzky-Golay平滑濾波(SG)、多元散射校正(MSC)及其它們之間的組合方法對光譜數(shù)據(jù)進行了預(yù)處理,研究表明采用SG(3點)預(yù)處理方法能夠取得較好的去燥效果。
在主成分分析的基礎(chǔ)之上利用PLS-DA判別模型和SIMCA識別模式對4個地區(qū)的雞蛋建立了分類模型。結(jié)果表明SIMCA模型能夠?qū)?個地區(qū)的雞蛋正確識別,其識別率均達到了100%。由此可見,利用SIMCA模型進行雞蛋產(chǎn)地識別是可行的,為雞蛋產(chǎn)地溯源的研究提供了很好的理論依據(jù)。