陳明明,邱彥超,宋妍,楊斯琪,左鋒,2,錢麗麗,2,3
(1.黑龍江八一農墾大學食品學院,大慶 163319;2.國家雜糧工程技術研究中心;3.黑龍江省農產品加工與質量安全重點實驗室)
隨著科技發(fā)展的突飛猛進,農產品溯源技術也得到了不斷的發(fā)展與完善,逐步形成了技術體系。多種多樣的農產品產地溯源技術為我國的食品安全及農產品溯源做出了重要貢獻[1]。目前,礦物元素指紋分析技術[2-3]、電子鼻指紋圖譜技術[4-5]、電子舌指紋圖譜技術[6]、DNA 指紋圖譜技術[7-8]等被廣泛應用于產地真實性溯源的研究中,并取得了一定的進展,但是這些方法存在檢測過程繁瑣、設備昂貴、周期長等缺點,無法實現(xiàn)農產品產地的快速鑒別。近紅外光譜技術是一種有效的產地溯源技術。近紅外光譜檢測樣品時,具有無損[6]、快速、高效和成本較低,不破壞樣品等優(yōu)點,其原理是利用近紅外光譜區(qū)有機分子中含氫基團(O—H、N—H、C—H)振動的合頻和各級倍頻的吸收區(qū)相一致,通過掃描樣品的近紅外光譜可得到樣品中有機分子含氫基團的特征信息[9],不同地域農產品所表征的特征信息不同,已有研究報道近紅外光譜技術對羊肉[10]、雞肉[11]、牛肉[12]等肉類及小麥[13]、茶葉[14-15]、草莓[16]、玉米[17]、枸杞[18]等農產品的產地溯源初步研究可行。
近紅外光譜技術雖具有以上各種優(yōu)點,但其原始光譜常常包含很多無用的信息,例如高頻隨機噪聲、基線漂移等,嚴重影響光譜數(shù)據(jù)分析,導致建立的分析模型穩(wěn)定性較差,很難進行再次優(yōu)化[19]。因此,在對原始光譜數(shù)據(jù)分析之前,需要對原始光譜進行預處理。余梅等[20]通過對不同產地陳皮進行5 種近紅外光譜(MSC、SNV、一階導數(shù)、第二階導數(shù)、連續(xù)小波變換)預處理,實現(xiàn)了對不同產地陳皮的無損檢測。李尚科等[21]通過5 種不同光譜預處理方法(MSC、SNV、一階求導數(shù)、二階求導數(shù)與連續(xù)小波變換光譜)對3 類132 個豆?jié){粉實現(xiàn)了鑒別。以上研究結果表明,光譜預處理在近紅外光譜分析中發(fā)揮著重要作用。
除不同光譜預處理方法影響判別準確率外,選擇合適化學計量學方法也可以提高判別準確率。夏珍珍等[22]通過對不同產地香菇的近紅外原始光譜預處理,結合偏最小二乘判別分析法對吉林省、湖北省、福建省的識別正確率分別為96.7%、95.6%和100%。陳璐等[23]基于近紅外光譜技術對501 份不同產地的金銀花進行了產地判別,采用二階導數(shù)和SNV 預處理,建立偏最小二乘判別(PLS-DA)模型,模型的判別率達到100%。以上研究表明,不同預處理近紅外光譜結合化學計量學方法可以用于農產品溯源,是農產品產地溯源的有效方法。
因此,為建立綠豆近紅外指紋圖譜,結合化學計量學進行分析與評價,實現(xiàn)對不同產地綠豆的快速鑒別。研究以黑龍江省杜爾伯特蒙古族自治縣、吉林省白城市、黑龍江省泰來縣、山東省泗水縣4 個地區(qū)的地理標志綠豆為研究對象,對不同產地綠豆近紅外光譜進行主成分分析,分別采用一階導數(shù)+9 點平滑、二階導數(shù)+9 點平滑、標準正態(tài)變換(SNV)、多元散射矯正(MSC)、矢量歸一化+MSC 5 種光譜預處理方法,建立偏最小二乘判別模型(PLS-DA),分析不同預處理方法對模型穩(wěn)定性的影響。由此得出,近紅外光譜技術可以用于綠豆產地判別,也為準確可靠地判別地理標志綠豆提供技術理論依據(jù)。
TENSOR 傅立葉近紅外光譜儀,SMART-N 超純水機,CT193CyclotecTM 旋風粉碎磨,DGG-9023A 電熱恒溫鼓風干燥箱,TB-4002 電子天平,NEO-6M-0-001 GPS。
1.2.1 樣品采集
地理標志綠豆樣品分別采自黑龍江省杜爾伯特蒙古族自治縣(杜爾伯特)、吉林省白城市(白城)、黑龍江省泰來縣(泰來)、山東省泗水縣(泗水)共120個樣品,依據(jù)代表性采樣原則,樣品種植面積大小進行采樣點設置,每個采樣地塊在對角線進行5 個點重復,采樣地點按照東、西、南、北、中5 個區(qū)域設計,對樣品進行隨機性采集,在每個設置的采樣點按照不同的方向和位置采集1~3 kg 豆莢,并記錄采樣地點、品種、經度、緯度、土質等信息。所用樣本具體信息見表1。
表1 樣品信息表Table 1 Sample information
1.2.2 樣品預處理方法
將采集回來的綠豆莢按照地區(qū)編號,在無揚塵、整潔、透光的晾曬場地進行晾曬,按照編號同一地區(qū)同批次人工破碎豆莢,去除殼皮、灰塵小石粒等雜質,得到完整的綠豆籽粒。用超純水對前處理后的綠豆籽粒進行流動水清洗,38 ℃烘干至水分含量在14%以下,再進行旋風磨粉碎處理,過60 目尼龍篩,得到綠豆粉樣本,放入密封袋4 ℃保存,所有樣本采用統(tǒng)一處理方式。
1.2.3 近紅外光譜采集方法
將TENSOR 傅立葉近紅外光譜儀預熱30 min,利用OPUS 7.5 軟件對綠豆樣品進行掃描,通過檢查信號、保存峰位,掃描背景單通道光譜(每間隔1 h 掃描一次),測量樣品單通道光譜等操作,來消除外界信息的干擾,提高采集數(shù)據(jù)的精度。根據(jù)文獻[24-26],將50~100 g 的綠豆樣品粉末置于旋轉樣品杯中進行近紅外光譜掃描,儀器掃描范圍12 000~4 000 cm-1,儀器頻率64 次,分辨率8 cm-1,所在室溫25 ℃,空氣濕度45%,掃描過程中為避免兩個樣品間的交叉污染,每次掃描后擦凈樣品杯。每個樣品掃描前均掃描背景,以消除其他外界環(huán)境干擾。每個樣品掃描3次,取平均光譜為最終光譜。
采用Unscramb10.4 對近紅外光譜數(shù)據(jù)進行光譜預處理、主成分分析、偏最小二乘判別分析。在光譜數(shù)據(jù)處理時常用的預處理方法很多,常用的預處理方法有標準正態(tài)變換(SNV)、多元散射校正(MSC)、矢量歸一化,導數(shù)處理等,對原始光譜進行矢量歸一化的目的是為了減弱消除測量過程中光程變化對原始光譜產生的一些影響[27]。多元散射校正(MSC)是光譜數(shù)據(jù)預處理常用算法之一,多元散射校正可用來消除樣本間的基線平移和漂移現(xiàn)象,增強光譜的特異性[28]。試驗結合樣品結構體系和參考文獻[21],以一階導數(shù)+9 點平滑、二階導數(shù)+9 點平滑、SNV、MSC、矢量歸一化+MSC 5 種預處理后的建模集光譜和未經處理的光譜建立預測模型,分析5 種預處理方法及未預處理光譜所建立模型的穩(wěn)定性。
模型預測正確率計算公式如下:
2.1.1 近紅外光譜預處理
由于不同產地來源綠豆樣品原始圖譜混雜在一起,用肉眼難以分辨。原始光譜圖中不僅含有不同產地特征結構信息,還包含著一些無關信息和噪聲。這些無用的信息和噪聲可能是由于在操作過程中會存在很多行為,如人為操作不當,儀器誤差等都會對光譜產生影響,樣品的近紅外光譜信號也會受到雜散光、噪聲、基線漂移等因素影響,以致最后分析結果不理想[29],因此在運用近紅外光譜判別模型進行分析之前,需要對原始近紅外光譜圖進行預處理,以提高模型準確性和可靠性。常用的預處理方法有標準正態(tài)變換(SNV)、多元散射校正(MSC)、矢量歸一化、導數(shù)處理等。
以5 種預處理后的建模集光譜數(shù)據(jù)和未經處理的原始光譜數(shù)據(jù)建立偏最小二乘判別模型,以模型的R2值和RMSEC 值來確定所建立模型的穩(wěn)定性和可用性。一個模型的好壞、可用度、可靠性等是根據(jù)模型的R2(相關系數(shù))和RMSEC(校正均方根誤差)來決定[30]。5 種預處理建立模型的R2和RMSEC 值如表2 所示,對比不同處理方法建立模型的R2值和RMSEC 值得出,采用矢量歸一化+MSC 近紅外光譜預處理方法時R2為0.991,RMSEC 為0.105,建立的模型最穩(wěn)定,因此采用矢量歸一化+MSC 近紅外光譜預處理建立偏最小二乘判別模型對不同來源綠豆進行產地溯源分析。矢量歸一化+MSC 預處理近紅外光譜如圖1 所示。
圖1 矢量歸一化+MSC 預處理近紅外光譜圖Fig.1 Moderate normalization+MSC pretreatment spectrogram
表2 不同預處理方法對模型準確度的影響Table 2 Influence of different pretreatment methods on model accuracy
2.1.2 主成分分析法提取特征光譜數(shù)據(jù)
近紅外光譜產地溯源模型建立所用到的波長對產地判別率有很大的影響,提取具有產地特征性波長或波段,不僅可以簡化模型計算量,還能夠顯著提高模型判別效果。通過對4 個產地共120 個綠豆樣本掃描,得到原始近紅外光譜圖(圖2),采用Unscrambler10.4 軟件對不同產地的綠豆樣品近紅外光譜數(shù)據(jù)進行可視化轉換,通過主成分分析法對經過預處理后的近紅外光譜進行特征波長提取,各主成分解釋方差結果如圖3 所示,由主成分得分作圖,結果如圖4 所示。
圖2 不同產地綠豆近紅外原始光譜圖Fig.2 Near-infrared original spectrogram of mung bean from different origins
圖3 不同產地綠豆主成分解釋方差圖Fig.3 Principal component interpretation variance diagram of mung bean from different origins
圖4 不同產地綠豆近紅外主成分得分圖Fig.4 Near-infrared principal component score of mung bean from different origins
主成分分析是一種無監(jiān)督識別模式,在分析之前不用對數(shù)據(jù)進行聚類。由圖3 可知,前3 個主成分包含了不同產地綠豆大部分近紅外光譜信息,可以作為提取近紅外光譜產地特征指紋。由圖4 可知,主成分1 貢獻率為52.44%,主成分2 貢獻率為30.16%,主成分3 貢獻率為9.57%,前3 個主成分累計貢獻率達到92.17%。同時,可直觀地表達白城、杜爾伯特、泰來、泗水產地樣品可在不同的空間分布,說明利用提取到的近紅外光譜產地特征指紋對不同產地綠豆初步進行識別可行。
由4 個產地綠豆近紅外光譜主成分分析結果可知,利用近紅外光譜技術可以對綠豆不同產地區(qū)分,進一步探究近紅外光譜技術對不同產地綠豆的溯源效果?;诮t外光譜數(shù)據(jù),采用偏最小二乘法建立判別模型,對不同產地綠豆進行定量產地判別分析。
2.2.1 不同產地樣品的選取與劃分
選取4 個產地的120 個樣品參與偏最小二乘判別分析,將120 個樣品劃分為建模集和驗證集,選擇2/3 的樣品作為建模集,建立模型;選擇1/3 的樣品作為驗證集,用于檢驗建立模型的準確性和有效性。共得到建模集樣品80 個,驗證集樣品40 個。具體信息如表3 所示。
表3 樣品建模集與驗證集劃分表Table 3 Partition table of sample modeling set and verification set
2.2.2 模型的建立與驗證
將建模集光譜數(shù)據(jù)經矢量歸一化+MSC 預處理后,導入Unscrambler 10.4 軟件中,根據(jù)實際樣本類別,對建模集樣本進行產地賦值,即白城樣本賦值為1,杜爾伯特樣本為2,泰來樣本為3,泗水樣本為4,運行軟件建立偏最小二乘判別分析模型,模型建立后,把同樣經矢量歸一化+MSC 預處理后的驗證集數(shù)據(jù)導入建立好的模型進行驗證,在軟件操作過程中,偏最小二乘判別分析模型的方法閾值設置為0.5,即真實值-預測值≤0.5 為模型判別正確,反之判錯,預測結果如表4 所示。
表4 不同產地綠豆近紅外光譜溯源模型預測結果Table 4 Forecast results of spectral models in different producing areas of mung bean
偏最小二乘法判別分析是一種多變量統(tǒng)計分析方法。通過預測結果可得出有36 個樣品被模型正確識別,4 個樣品被模型錯誤識別,由此計算得出模型對不同產地綠豆的整體預測率為90%。對白城、杜爾伯特、泰來、泗水的判別率分別為100%、80%、80%和100%,對4 個產地的預測結果達到80%以上。因此,近紅外光譜分析技術用于不同綠豆產地溯源研究可行。
研究建立了綠豆近紅外指紋圖譜,結合化學計量學進行分析與評價。通過對不同產地綠豆近紅外光譜進行主成分分析,前3 個主成分累計貢獻率達到92.17%,說明前3 個主成分包含了不同產地綠豆大部分近紅外光譜信息,篩選到與產地相關的近紅外光譜溯源指紋,由主成分得分作圖可以得出,4 個產地綠豆樣品分布在不同的區(qū)域,被明顯區(qū)分。通過對比5 種預處理方法建立偏最小二乘判別模型的R2值和RMSEC 值,得出采用矢量歸一化+MSC 預處理方法建立的偏最小二乘判別模型最穩(wěn)定,對綠豆產地判別率為90%。因此,近紅外光譜技術可以用于綠豆產地判別,基本實現(xiàn)了4 個產地樣品區(qū)分,但模型整體判別準確率尚未達到95%以上,有待進一步提高。今后還應探索更多的近紅外光譜預處理方法對模型穩(wěn)定性的影響,以提高近紅外光譜技術在農產品產地溯源中判別準確率。