王朝輝,高地,賴瀚清,王艷輝,沈海鷗,陳雷,程嬌嬌,王靖會,*
(1.吉林農(nóng)業(yè)大學(xué)食品科學(xué)與工程學(xué)院,吉林長春130118;2.吉林省長春市凈月開發(fā)區(qū)福祉街道辦事處,吉林長春130122;3.吉林農(nóng)業(yè)大學(xué)資源與環(huán)境學(xué)院,吉林長春130118;4.吉林省長春市交警支隊南關(guān)區(qū)大隊,吉林長春130000;5.吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,吉林長春130118)
大米是世界上主要糧食作物之一,我國有三分之二的人口以大米為主食,大米可以提供人們每日所需能量的75%,所以大米是不可或缺的。由于大米的產(chǎn)地不同,其價格也有很大的跨度。吉林省松原大米,因其得天獨厚的地理條件,土壤肥沃且偏弱堿性,并用江水灌溉,這種環(huán)境種植出的大米口感松軟,飄香四溢,有很高的商業(yè)價值。由于品種鑒別方法的缺失及產(chǎn)地確證技術(shù)的不成熟問題較嚴重,導(dǎo)致每年因為品種混賣對市場產(chǎn)生了不良的影響及不菲的經(jīng)濟損失;建立產(chǎn)地確證體系迫在眉睫。農(nóng)產(chǎn)品的品種鑒別、產(chǎn)地確證及不同的處理手段結(jié)合化學(xué)計量學(xué)方法的應(yīng)用受到國內(nèi)外專家的廣泛關(guān)注。
國內(nèi)外文獻表明,產(chǎn)地確證主要用在食用油[1-2]、蘋果[3]、藥類[4-7]、谷物[8-10]、蜂蜜[11]、咖啡[12]、魚類[13-14]等;進行產(chǎn)地確證的方法有礦物元素方法、近紅外光譜法、電子鼻指紋圖譜、DNA 指紋圖譜技術(shù)等;其中近紅外光譜法因其具有采集信息量大、精度高、無污染、速度快等優(yōu)點,被應(yīng)用于不同領(lǐng)域[15-17]。Osborne 等用近紅外光譜技術(shù)結(jié)合判別分析對來自巴斯馬蒂及非巴斯馬蒂地區(qū)的116 個大米樣品進行判別歸類,結(jié)果顯示所有樣品均能正確歸類[18];陳全勝等利用近紅外光譜技術(shù)結(jié)合模式識別方法,對4 種不同類型茶葉建立的識別模型,模型識別率均大于80%[19];Sinelli 等通過傳統(tǒng)感官評價方法并結(jié)合傅里葉變換近紅外光譜技術(shù)對112 組初榨橄欖油進行了產(chǎn)地溯源研究,研究采用線性判別(linear discriminant analysis,LDA)分析及模式識別分類方法,其產(chǎn)地判別正確率為71.6%、100%[20];蘇學(xué)素等利用近紅外光譜法結(jié)合簇類軟模式法及偏最小二乘判別法成功對來自江西、重慶和湖南的不同地區(qū)臍橙進行溯源,其模型對訓(xùn)練集和驗證集樣品的識別率達到100%[21]?,F(xiàn)有文獻表明近紅外光譜結(jié)合多元統(tǒng)計分析方法在品種分類及產(chǎn)地確證方面是可行的。本研究利用近紅外光譜方法結(jié)合多元統(tǒng)計分析技術(shù)對來自松原的5 個品種的大米進行判別。同時,對松原和非松原大米進行產(chǎn)地分類,為松原大米品種和產(chǎn)地提供一種便捷、高準確度的鑒別方法。
為提高研究的科學(xué)性與可靠性,確保所采樣品具有代表性,采樣方法選擇網(wǎng)格布點,網(wǎng)格布點的優(yōu)點在于其布點方式可包含所采地區(qū)大部分采樣點,使得樣品來源科學(xué)、合理。所采樣本全部為來自松原的稻花香、小高粱、通系 926、吉粳 515 及農(nóng)大 521 共 5 個品種。取樣后,根據(jù)地理位置及樣品情況,確定5 個品種數(shù)量分別為 80、75、68、67 個和 78 個。
采集完成后,先將樣品在實驗室條件下風(fēng)干、脫穗、去空粒、礱谷。挑出未成熟的發(fā)黃發(fā)綠的籽粒后進行碾米。最后用錘式旋風(fēng)磨研磨至粉末狀,過100 目篩,標號,待測。
所用儀器設(shè)備如表1 所示。
表1 儀器設(shè)備信息Table 1 Instrument Information
將處理好的松原大米樣品用傅里葉近紅外光譜儀進行掃描。在掃描樣本之前先掃描背景,每掃4 次樣品掃1 次背景,掃描背景是為了降低環(huán)境因素的影響。用燒杯量取待測樣品約75 mL 放入樣品杯,樣品裝填均勻并要求底部沒有裂縫;將樣品杯放入樣品室,開始掃描;掃描結(jié)束后,取出樣品杯,清掃樣品;重新裝樣,進行第二個樣品的掃描;依次進行,直至掃描完所有樣品,每個樣品均掃描3 次,求平均值作為最終結(jié)果[22]。
1)主成分分析:是采取一種數(shù)學(xué)降維的方法,所要做的就是設(shè)法將原來眾多具有一定相關(guān)性的變量,重新組合為一組新的相互無關(guān)的綜合變量來代替原來的變量[23]。
2)偏最小二乘判別分析(partial least squares discrimination analysis,PLS-DA):是一種基于偏最小二乘法(partial least squares,PLS)的判別方法;是一種的有監(jiān)督的模式識別方法,也是目前應(yīng)用較廣泛的光譜分析方法,可以實現(xiàn)全譜或部分譜數(shù)據(jù)的分析[24]。
3)試驗過程:首先利用OPUS7.5 光譜采集軟件進行光譜數(shù)據(jù)的采集;用OMNIC 軟件和MATLAB R2016a 軟件對數(shù)據(jù)進行預(yù)處理、主成分分析及PLSDA 模型的建立;用驗證集驗證模型對品種判別的效果;最后用來自柳河和梅河的同年際稻花香大米近紅外光譜數(shù)據(jù)帶入到松原稻花香大米品種模型中,進行松原大米的產(chǎn)地確證。
5 個品種大米樣本的原始近紅外光譜圖如圖1 所示,由于所有大米圖譜混雜在一起,難以用肉眼來分辨5 個品種,所以需要對圖譜進行預(yù)處理。
圖1 不同大米品種樣品的近紅外光譜圖Fig.1 Near Infrared Spectrum of different rice varieties
光譜樣品預(yù)處理方法有多種,包括多元散射校正(multiple scatter correction,MSC)、標準正態(tài)變換(standard normal variate,SNV)、基線校正、平滑、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、導(dǎo)數(shù)結(jié)合卷積平滑等。不同的預(yù)處理方法對模型的建立所產(chǎn)生的影響不同[25]。MSC 法以及SNV法可以矯正樣品因顆粒散射引起的光譜誤差,SNV 可以有效減小粉末粒度不同因其的類內(nèi)距離;一階導(dǎo)數(shù)和二階導(dǎo)數(shù)分別用于消除光譜中基線的平移和漂移,可有效消除其他背景的干擾,分辨重疊峰,提高分辨率和靈敏度。光譜用移動平均窗口平滑(窗口寬度=9、11、13 個數(shù)據(jù)點)的處理可以減少噪聲;平滑處理可以有效平滑高頻噪音,提高信噪比;窗口寬度小,噪聲去除效果不好;窗口寬度大,噪聲去除效果好但也可能導(dǎo)致信號失真,所以合理恰當?shù)念A(yù)處理方法是必要的[26]。本試驗運用原始光譜、SNV、MSC、一階導(dǎo)數(shù)結(jié)合SG9 點平滑、一階導(dǎo)數(shù)結(jié)合SG11 點平滑、二階導(dǎo)數(shù)結(jié)合SG9 點平滑、二階導(dǎo)數(shù)結(jié)合SG11 點平滑幾種處理方式對光譜數(shù)據(jù)進行處理,并建立模型比較模型的校正均方根誤差(root mean standard error of calibration,RMSEC)值及R2(相關(guān)系數(shù)),經(jīng)過分析,選擇最適合建立模型的預(yù)處理方法。
將所有樣本數(shù)據(jù)用Kennard-Stone(KS)法劃分樣本集,得到所要用到校正集樣本248 組(稻花香54 組、小高粱 50 組、通系 926 共 46 組、吉粳 515 共 45 組、農(nóng)大521 共53 組),驗證集樣本共120 組,用于接下來的建模分析,詳細信息見表2。
表2 校正集與驗證集Table 2 Correction set and verification set
在PLS-DA 模型建立之前,要根據(jù)5 個水稻品種的校正集及驗證集樣本分類變量特征進行賦值。稻花香、小高粱、通系926、吉粳515 和農(nóng)大521 大米的值分別為[10000]、[01000]、[00100]、[00010]、[00001],用校正集樣本的近紅外光譜與樣本對應(yīng)的分類變量建立回歸關(guān)系PLS-DA 模型,用驗證集樣本對模型的準確度進行驗證,用RMSEC 和R2作為驗證指標,選擇RMSEC 值越小、R2值越大所對應(yīng)的預(yù)處理方式作為試驗光譜預(yù)處理方法,建立的模型校正均方根誤差及相關(guān)系數(shù)如表3 所示。
由表3 可知,經(jīng)過預(yù)處理的光譜所建的模型效果比原始光譜所建立模型的準確度要高,對比發(fā)現(xiàn),一階導(dǎo)數(shù)結(jié)合SG9 點平滑對數(shù)據(jù)處理后所建立的PLSDA 模型對校正樣本集的效果最好,R2和RMSEC 值分別為0.976 和0.145。原始光譜經(jīng)過不同預(yù)處理后如圖2 所示。
表3 不同預(yù)處理方式對模型準確度的影響Table 3 Influence of different preprocessing methods on model accuracy
主成分分析后的248 個校正集樣本的前3 個主成分得分如圖3 所示。
由圖3 可知,通過對數(shù)據(jù)中的原始變量進行線性組合后,小高粱、通系926、吉粳515,3 個品種基本可以較好的分開,還可以看出小高粱與稻花香、通系926、吉粳515、農(nóng)大521 大米的距離都很遠,這可能和小高粱的基因型有關(guān),小高粱也叫松粳3 號,由遼粳5號作為母本,合江20 號為父本雜交育成,經(jīng)在當?shù)卣{(diào)查了解到,小高粱因其在松原種植產(chǎn)量較高,抗堿性比很多大米品種要好,因此在松原,很大一部分農(nóng)戶都選擇小高粱種植;而稻花香和農(nóng)大521 可能由于數(shù)據(jù)不穩(wěn)定或試驗誤差等因素致使個別點交叉重疊。難以很好的區(qū)分。
5 個品種校正集樣本(稻花香、小高粱、通系926、吉粳515、農(nóng)大521)分類變量的PLS 預(yù)測值與真實值的回歸圖見圖4。
由圖4 可以看出,此模型能夠?qū)蝹€品種與其他4 個品種進行區(qū)分,分散在參考值Yr=1 的大米樣本點和參考值Yr=0 線上的其他4 個品種的大米樣本能明顯區(qū)分開。這也說明模型建立良好,有較高的可靠性。
圖3 近紅外光譜主成分123 得分圖Fig.3 Near-infrared spectroscopy main component 1,2,3 score map
圖4 PLS-DA 校正模型樣本分類變量的PLS 預(yù)測值與真實值回歸圖Fig.4 PLS predictive value and real value regression graph of PLS-DA correction model sample categorical variables
模型建立好后,用驗證集對模型進行驗證,如圖5 所示。
圖5 是模型對5 個大米樣本共120 個(稻花香26個、小高粱 25 個、通系 926 為 22 個、吉粳 515 為 22個、農(nóng)大521 為25 個)進行判別分析的結(jié)果,如圖5(1)中可以看出,稻花香樣本的驗證集分類變量的預(yù)測值都接近于1,而其他四類大米樣本的分類變量預(yù)測值都在0 左右,驗證集中屬于稻花香的樣本均被正確判別為稻花香,說明PLS-DA 判別模型對稻花香樣本的判別準確率為100%,其他4 種大米不具備稻花香樣本的特征;同理對其他4 種大米,每個品種的大米樣本特征明顯,由此可以看出,PLS-DA 判別模型對不同品種樣本的判別準確率為100%。此模型效果要優(yōu)于主成分分析結(jié)果。
圖5 驗證集中大米樣本的PLS-DA 模型判別結(jié)果Fig.5 Discriminant results for rice samples in validation set by PLS-DA model
圖6 不同地區(qū)稻花香大米樣本的PLS-DA 模型判別結(jié)果Fig.6 Discriminant results for Dao Huaxiang rice samples from different areas by PLS-DA model
為了進行松原大米的產(chǎn)地確證,我們選取同年際所采來自柳河(20 個)和梅河(20 個)的大米進行驗證,品種為稻花香,大米的保存及前處理方法完全相同,預(yù)處理方法同樣選擇一階導(dǎo)數(shù)結(jié)合9 點卷積平滑的方式,將樣品帶入稻花香PLS-DA 判別模型中,判別結(jié)果見圖6。
由圖可知,松原的稻花香樣本分類變量的預(yù)測值均在1 左右,而來自柳河和梅河的樣本預(yù)測值在0 附近,判別正確率為100%。此模型可以用來進行松原稻花香的品種識別及產(chǎn)地確證。
本試驗共采集來自松原地區(qū)的稻花香、小高粱、通系926、吉粳515 及農(nóng)大521,5 個品種共368 個樣品,其中248 個樣品作為校正集樣本,剩余120 個樣本作為驗證集樣本,對所有樣品進行處理,呈粉末狀,并進行樣本近紅外光譜數(shù)據(jù)的獲取,確定原始光譜圖的預(yù)處理方法為一階導(dǎo)數(shù)+SG9 點平滑,通過PLS-DA 法建立判別模型,并用驗證集對建立的模型進行驗證,5個品種大米樣本分類變量模型的識別率為100%。模型效果優(yōu)于主成分分析結(jié)果。最后用來自柳河和梅河的稻花香大米樣本帶入模型中來進行產(chǎn)地確證,模型判別效果良好,初步認定采用近紅外光譜分析結(jié)合PLS-DA 法可以用于松原不同品種大米的判別及松原大米的產(chǎn)地確證。
從以上研究結(jié)果來看,近紅外光譜技術(shù)結(jié)合化學(xué)計量學(xué)分析可以用于松原大米品種的判別及產(chǎn)地確證,但是近紅外光譜技術(shù)主要反映樣品內(nèi)部有機成分組成、含量、基團等,樣品在采樣回來后,貯藏、加工過程也可能會使得光譜特征發(fā)生變化;這是近紅外光譜方法用于食品產(chǎn)地確證的局限性所在,因現(xiàn)在對于特定農(nóng)產(chǎn)品光譜分析波段以及預(yù)處理方法沒有統(tǒng)一定論,且本研究建立的判別模型是基于當年樣本數(shù)據(jù)建立的,在接下來的研究中,在預(yù)處理方法及特征波段的選取方面可以進行進一步的研究,并豐富品種及年份,使得模型更加穩(wěn)定。近紅外光譜技術(shù)結(jié)合PLS-DA法可以為松原大米品種及產(chǎn)地確證的進一步研究提供借鑒。