張愛武 宋雪健 王欣卉 李殿威 錢麗麗.3.4 張東杰 張桂芳 關海鷗
(黑龍江八一農(nóng)墾大學食品學院1,大慶 163319) (齊齊哈爾大學食品與生物工程學院2,齊齊哈爾 161006) (黑龍江省雜糧加工及質量安全工程技術研究中心3,大慶 163319) (黑龍江省農(nóng)產(chǎn)品加工與質量安全重點實驗室4,大慶 163319) (國家雜糧工程技術研究中心5,大慶 163319) (黑龍江八一農(nóng)墾大學信息學院6,大慶 163319)
“中國綠豆之鄉(xiāng)”泰來縣生產(chǎn)的綠豆,被認定為國家農(nóng)業(yè)部農(nóng)產(chǎn)品地理標志產(chǎn)品。由于冒牌“泰來綠豆”的介入,使銷量完全大于產(chǎn)量,干擾市場秩序,侵犯消費者的合法權益,影響了品牌綠豆的名譽,因此,對于泰來綠豆的品牌保護至關重要。在農(nóng)產(chǎn)品產(chǎn)地保護方面采用化學檢測手段,礦物元素指紋分析技,穩(wěn)定同位素技術,電子鼻/舌技術、氣質聯(lián)用代謝組學分析等技術研究較為廣泛,但存在檢測周期長,受環(huán)境因素干擾大,操作繁瑣,效率低,費用昂貴等缺點。而近紅外光譜技術(Near Infrared Spectroscopy,NIR)具有穩(wěn)定性好、操作簡易、高效無損、環(huán)保無污染及可在線的檢測特點被廣泛應用。
實驗于2018年收獲期內(nèi)采用5點田間隨機采樣方式進行樣品收集,每份樣品收集2 kg,其中泰來綠豆樣品78份、非泰來地區(qū)樣品175份,共計253份,樣品信息表如表1。
表1 隨機采樣樣品信息
FW100高速萬能粉碎機,TENSORⅡ型傅里葉變換近紅外光譜儀。
1.3.1 樣品前處理
實驗將采集的樣品進行統(tǒng)一晾曬、脫殼、精選,并進行超微粉碎,過100目篩,備用。
1.3.2 綠豆原始光譜采集
將TENSORⅡ型傅里葉變換近紅外光譜儀預熱30 min,利用OPUS 7.5軟件對綠豆樣品進行掃描,通過檢查信號、保存峰位,掃描背景單通道光譜(每間隔1 h掃描一次),測量樣品單通道光譜等操作,來消除外界信息的干擾提高采集數(shù)據(jù)的精度。
依次將綠豆籽粒樣品和粉末樣品倒入玻璃杯中,用壓樣器將樣品表面處理平整,測量樣品單通道采集樣品光譜。儀器參數(shù)為漫反射鍍金積分球,InGaAs檢測器,實驗所處的環(huán)境溫度為(25±1) ℃,相對濕度為20%~30%,光譜波數(shù)范圍12 000~4 000 cm-1,分辨率8 cm-1,掃描64 次。
1.3.3 實驗樣品選取
實驗分別選取兩地區(qū)樣品量的2/3作為建模樣品集,用于模型的建立,1/3作為預測樣品集,用于模型的驗證。各地區(qū)用于建模和預測的樣品數(shù)見表2。
表2 建模及驗證用樣品數(shù)
1.3.4 近紅外光譜數(shù)據(jù)的處理
為防止出現(xiàn)過擬合現(xiàn)象,實驗采用Origin10.5對原始光譜進行一階導數(shù)(derivative 1st)處理,通過去除受噪聲、光的色散等因素干擾的波段,得到最優(yōu)波數(shù)范圍,進行模型研究。
1.3.5 判別模型的建立及驗證
1.3.5.1 定性分析模型的研究
定性分析分為有監(jiān)督的模式識別和無監(jiān)督的模式識別兩種模式識別技術。前者包含標準算法和因子化法。標準算法在計算時是以模型中某一類物質的平均光譜作為參考光譜,與未知樣品的測試光譜進行比較的。光譜距離(D)如式(1)所示:
(1)
式中:A(λi)為測試光譜在波數(shù)點λi處吸光度值;B(λi)為模型的平均光譜在波數(shù)點λi處吸光度值;i為波數(shù)因子化法光譜距離(D)按式(2)進行計算。
(2)
式中:a為原始光譜;b為重建光譜;Tia為第i張原始光譜圖的得分值;Tib為第i張重建光譜圖的得分值。
需要將所處理的譜圖先表示為所謂因子譜(載荷)的線性組合,如公式(3):
a=T1a×f1+T2a×f2+…+Tna×fn
(3)
式中:a為原始光譜;f為各種因子譜;T為重建原始光譜a時每張因子譜的得分值,該值越大表明該因子譜對原始光譜的貢獻越大。
實驗采用樣品之間的距離S值來衡量定性模型的建模效果,當S<1時,表示兩類樣品之間存在相交關系,模型的鑒別效果極差;當S=1時,表示兩類樣品之間是相切的關系,模型的鑒別效果一般;當S>1時,表示兩類樣品是相離的關系,數(shù)值越大,模型的鑒別效果越好。
(4)
式中:D為兩類樣品的平均光譜距離;DT1為一類樣品的光譜模型半徑;DT2為另一類樣品的光譜模型半徑。
實驗分別對籽粒樣品及粉末樣品采用標準算法和因子化法進行建模研究,進而篩選出最優(yōu)的光譜計算法,并對最適合建模的樣品狀態(tài)進行進一步研究。
無監(jiān)督的模式識別(聚類分析)的計算方法主要有最短距離法、最長距離法、平均距離法、加權平均距離法、中間距離法、重心法、Ward’s 氏算法。
通過光譜的預處理方式,如矢量歸一化(Standard Normal Variate,SNV)、一階導數(shù)+平滑(5、9、13、17、21、25 點,下同)、一階導數(shù)+SNV+平滑、二階導數(shù)(derivative 2st)+平滑、二階導數(shù)+SNV+平滑方式,對建模原始光譜進行預處理,消除樣品不均勻,光的散射,光程不恒定等因素的干擾,提高模型的檢測精度[6,7]。
1.3.5.2 定量分析模型的研究
定量分析使用偏最小二乘法(partial least squares,PLS)進行擬合,來建立近紅外光譜與樣品組分值相關聯(lián)系。采用留一交叉檢驗的方式進行建模,檢驗集檢驗的方式進行模型驗證。PLS法的原理是通過預測變量組X與獨立變量Y二者之間的關系所構成的線性模型來表達的,如公式(5):
Y=b0+b1X1+b2X2+…+bpXp
(5)
式中:b0為截距;b1~bp為回歸系數(shù);Y為綠豆樣品組分值真值;X為樣品組分預測值。
實驗將泰來綠豆的組分值賦值為1,非泰來綠豆的組分值賦值為-1,以0作為衡量值進行判別,其中通過模型的計算出的預測值大于0的被認定為泰來綠豆,小于0的為非泰來綠豆。同時,實驗用精度較高的樣品狀態(tài)模型去驗證另一種狀態(tài)的樣品,研究模型的實用性。
對于定量分析而言,校正集均方根誤差(root mean square error of calibration,RMSEC)及其決定系數(shù)(R2)、預測集均方根誤差(root mean square error of prediction,RMSEP)及其決定系數(shù)(R2)、范圍誤差比(ratio of performance to standard deviate,RPD)作為衡量模型精度的指標,其中RMSEC、RMSEP數(shù)值越小R2數(shù)值越大證明模型的精度越高,同時RPD>3時模型的穩(wěn)定性及檢測精度最佳[8,9]。對于定量分析而言光譜的預處理方式有減去一條直線、SNV、多元散射矯正(multiplicative scatter correction,MSC)、一階導數(shù)+平滑、二階導數(shù)+平滑、一階導數(shù)+減去一條直線+平滑、一階導數(shù)+SNV+平滑、一階導數(shù)+MSC+平滑。
圖1 綠豆粉末樣品原始光譜圖
圖2 綠豆籽粒樣品原始光譜圖
圖3 一階導數(shù)處理
原始光譜經(jīng)過一階導數(shù)處理后,在波數(shù)為12 000~9 000cm-1范圍內(nèi)的光譜存在較為強烈的噪聲等因素干擾,因此實驗選取9 000~4 000cm-1進行建模研究,盡可能的運用近紅外所提取的全部樣品信息,如圖3。實驗與戰(zhàn)皓等[13]對91份黃芪藥材采用近紅外光譜技術進行研究,所選取的波長范圍相似。
2.3.1 有監(jiān)督的模式識別對建模效果的影響
當S值大于1表示泰來綠豆和非泰來綠豆被均一鑒別,且數(shù)值越大表示樣品差異越大。由表2可知,對于兩種狀態(tài)的綠豆而言,粉末狀態(tài)的建模效果要優(yōu)于籽粒狀態(tài)的建模效果,主要是因為綠豆個體的粒徑越小,它們之間所存在的空隙越小,緊密度越高,使近紅外光線在樣品中能更全面的進行信息提取,避免光線的損耗[14]。采用因子化法建立的模型要優(yōu)于采用標準算法,因標準算法是衡量泰來綠豆樣品和非泰來綠豆樣品平均光譜差異程度的一個尺度,不能體現(xiàn)特征變化的情況。因子化法是通過對原始光譜進行主成分分解,選取特征值較大的幾個主成分得分特征變量參與模式識別,起到特征信息提取的作用。由圖4,圖5可知,實驗選擇粉末狀態(tài)的綠豆運用近紅外光譜技術結合因子化法及一階導數(shù)+5點平滑的預處理方式所建立的模型進行定性分析,分離程度較高,其模型的S值為1.3 479。同時,選取粉末狀態(tài)的綠豆樣品進行進一步研究。黃得棟等[15]利用近紅外光譜技術結合因子化法對來自9 個不同產(chǎn)地的南五味子建立定性分析產(chǎn)地鑒別模型,結果表明,在特征波數(shù)5 362.4~4 191.2cm-1范圍內(nèi),結合一階導數(shù)的預處理方式能所建立的模型能實現(xiàn)對不同地域的南五味子進行快速鑒別研究。
表3 不同計量學及預處理方式對定性分析模型效果的影響
圖4 因子化2D得分圖(粉末)
圖5 因子化2D得分圖(籽粒)
2.3.2 無監(jiān)督的模式識別對建模效果的影響
由表3可知,運用Ward’s algorithm聚類算法對泰來綠豆和非泰來綠豆的聚類效果要優(yōu)于Average linkage等。主要是因為Ward’s algorithm聚類算法不同于其他算法僅是根據(jù)光譜距離將相似樣品聚合在一起,而是根據(jù)尋找的同類綠豆的中變化最小的異質因子進行歸類[16]。故實驗采用Ward’s algorithm聚類算法結合二階導數(shù)+SNV+5點平滑的預處理方式建立的聚類分析模型,其兩類綠豆的距離值為6.409,如圖6所示。宋佳航等[17]利用近紅外漫反射光譜技術對來自不同產(chǎn)地的45份白術進行聚類鑒別分析,其正確鑒別率高達100%。Srivastava等[18]研究表明,利用NIR結合Ward’s algorithm聚類算法可以實現(xiàn)對水稻是否被蟲害進行準確聚類。
PLS是化學計量學中最有效的分析方法之一,具有準確度高、穩(wěn)定性強的特點[19]。由表4可知,當預處理方式為SNV時,所建立的模型RMSECV為0.129,R2為98.06,RPD為7.18,維數(shù)為7,RMSECV隨著維數(shù)的增加而減小,達到最低點后幾乎保持穩(wěn)定不變,故選用此方法建立的定量分析模型最佳。利用該模型對預測樣品集采用檢驗集檢驗的方式對模型進行驗證,結果得到,RMSEP為0.123,R2為98.01,|預測相對誤差|=0.6%,研究表明當預測誤差<5%時,證明所建模型的檢測精度極高[20]。Marquetti等[21]運用PLS法結合MSC+二階導數(shù)的預處理方式對巴西的咖啡產(chǎn)地正確識別率高達94.4%。
表4 不同聚類算法及預處理方式對聚類分析模型效果的影響
注:橢圓區(qū)域內(nèi)為泰來綠豆圖6 不同地區(qū)綠豆的聚類樹形圖
因上述模型均采用粉末狀態(tài)的綠豆進行建模,為考量模型的精度與實用度,實驗將建立好的定性分析模型和聚類分析模型用于兩種狀態(tài)的綠豆樣品進行產(chǎn)地判別,將定量分析模型用于籽粒樣品判別,結果如表5,表6。研究表明實驗建立的模型能很好的用于對于粉末狀態(tài)的泰來綠豆進行鑒別,其正確識別率達到92.30%以上,對于籽粒狀態(tài)的泰來綠豆樣品而言,定量分析模型相比較其他的模型具有較高的識別率,證明采用NIR結合PLS建立的定量分析模型,其實用性較高,但其檢測精度有待進一步提升。盡管籽粒樣品比粉末樣品的檢測情況要差很多,但這是合乎邏輯的,因為籽粒綠豆是一個更為復雜的基質,在進行定性分析與聚類分析的過程中,根據(jù)距離值分析,能夠將圖譜中的微小差異放大,造成模型精度不高。而利用PLS結合SNV預處理方式能夠去除樣品圖譜信息中可能存在的復共線關系,實現(xiàn)對泰來綠豆的準確鑒別。
表5 不同預處理方式對定量分析模型效果的影響
表6 綠豆粉末驗證結果
表7 綠豆籽粒驗證結果
實驗在波數(shù)為4 000~9 000 cm-1范圍內(nèi)采用NIR對不同狀態(tài)的泰來綠豆進行產(chǎn)地溯源研究,結果表明,應用粉末狀態(tài)的樣品的建模效果要優(yōu)于籽粒,對于定性分析而言用因子化法建立的模型精度要優(yōu)于標準算法,采用一階導數(shù)+5點平滑的預處理方式建立定性分析模型,其S值為1.347 9,對粉末和籽粒狀態(tài)的泰來綠豆正確鑒別率為96.15%和76.92%。聚類分析運用Ward’s algorithm聚類算法優(yōu)于其他方法,采用二階導數(shù)+SNV+5點平滑的預處理方式建立的聚類分析模型,其“距離值”為6.409,對兩種狀態(tài)的泰來綠豆正確鑒別率為92.30%和76.92%。采用PLS結合SNV預處理方式建立的定量分析模型,RMSECV為0.129,R2為98.06,RPD為7.18,RMSEP為0.123,對籽粒狀態(tài)的泰來綠豆正確識別率為88.46%。故運用NIR能實現(xiàn)對泰來綠豆的快速檢測,同時定量分析模型的實用性要優(yōu)于其他模型。今后如何運用科學的算法來提升所建模型的檢測精度有待進一步研究,以實現(xiàn)真正意義上的快速、無損、高效鑒別。