欒鑫鑫, 翟 晨, 安煥炯, 錢承敬, 史曉梅, 王文秀, 胡利明*
1. 北京工業(yè)大學環(huán)境與生命學部, 北京 100124
2. 中糧營養(yǎng)健康研究院, 營養(yǎng)健康與食品安全北京市重點實驗室, 北京 102209
3. 河北農(nóng)業(yè)大學食品科技學院, 河北 保定 071001
我國是大米生產(chǎn)大國, 大米種植區(qū)域廣, 由于產(chǎn)地的氣候、 水質(zhì)、 土壤等因素不同使得大米中各種物質(zhì)的含量和成分存在差異, 如五常大米因其獨特的地理環(huán)境使其干物質(zhì)積累多, 直鏈淀粉含量適中, 支鏈淀粉及雙鏈糖含量較高, 具有較高的營養(yǎng)價值及優(yōu)良的口感, 在市場上成為地理標識產(chǎn)品, 占有優(yōu)勢的銷售價格[1-4]。 但由于缺乏快速鑒別大米產(chǎn)地的確證技術(shù), 致使大米產(chǎn)地假冒現(xiàn)象泛濫, 嚴重損害了消費者的利益, 因此開發(fā)大米產(chǎn)地快速鑒別技術(shù)尤為重要。
目前, 電子鼻和電子舌指紋分析技術(shù)[5]、 礦物質(zhì)元素分析方法[1, 4]及DNA指紋圖譜技術(shù)[5]都是大米產(chǎn)地鑒別的常用方法。 這些分析技術(shù)相對成熟, 精度較高, 但存在時間長、 前處理繁瑣、 環(huán)境污染、 對檢驗人員要求高等一系列缺點。
與理化檢測方法相比, 分子光譜法具有快速、 無污染、 多組分同時檢測等優(yōu)點。 譜帶波峰的位置、 數(shù)目及強度反映了內(nèi)部分子結(jié)構(gòu)的特點及含量, 利用分子光譜技術(shù)結(jié)合化學計量分析方法是一種常用的產(chǎn)地確證檢測技術(shù)。 劉曉歡等[6]采用中紅外光譜結(jié)合偏最小二乘判別分析(partial least-squares discrimination analysis, PLS-DA)和K近鄰算法(K nearesu neighbor, KNN)對吉林、 遼寧、 江蘇及浙江四個產(chǎn)地的大米樣品建立產(chǎn)地鑒別模型, 結(jié)果顯示, PLS-DA最優(yōu)模型驗證集正確率為92.29%, KNN最優(yōu)模型驗證集正確率高達94.27%。 沙敏等[7]采用拉曼光譜結(jié)合聚類分析、 相對標準偏差分析及支持向量機算法, 將大米產(chǎn)地鑒別模型識別正確率提高了12.89%。 研究表明, 利用光譜信息建立大米產(chǎn)地鑒別模型是可行的, 但對復雜的樣品分類鑒別, 由于采用單一光譜信息建立模型存在片面性, 模型識別準確率往往不能達到100%, 不能滿足對大米產(chǎn)地快速準確鑒別的需求。
研究發(fā)現(xiàn), 將不同信息源結(jié)合增加信息維度, 可以獲得更為全面精準的特征信息, 從而提高整個系統(tǒng)的性能和鑒別的準確度, 因此信息融合技術(shù)在產(chǎn)地確證方面有著較大優(yōu)勢。 杜夢佳等[8]采用紅外光譜和氣相色譜-質(zhì)譜聯(lián)用的方法對大米產(chǎn)地鑒別分析, 將特征光譜信息和揮發(fā)性組分信息融合結(jié)合PLS算法建立大米產(chǎn)地鑒別模型。 結(jié)果表明, 信息融合模型的識別準確率較單一光譜模型和揮發(fā)性物質(zhì)模型分別提高了4.5%和8.5%。 信息融合技術(shù)在大米產(chǎn)地確證領域應用較少, 目前未檢索到關(guān)于近紅外光譜-中紅外光譜-拉曼光譜信息融合的大米產(chǎn)地鑒別研究的報道。 近紅外光譜、 中紅外光譜及拉曼光譜由于波長和機理不同反映了分子不同的振動信息, 近紅外光譜主要記錄含氫集團振動的倍頻和合頻吸收, 而中紅外光譜為分子基頻振動光譜, 紅外光譜容易測定鏈上的取代基, 而拉曼光譜譜峰相對較尖銳且能獲得600 cm-1以下的譜圖信息, 可以檢測與對稱中心有對稱關(guān)系的分子, 容易表征碳鏈振動, 適合研究高分子的骨架結(jié)構(gòu)[9]。 三種光譜均為重要的檢測手段, 具有差異性和互補性, 3種光譜法相互配合補充可以獲得更多的樣品特征信息。
利用近紅外光譜法、 中紅外光譜法及拉曼光譜法結(jié)合化學計量分析方法對來自五常地區(qū)、 東北地區(qū)和南方地區(qū)共計186份大米樣品進行產(chǎn)地鑒別研究。 首先比較了K近鄰算法(K nearest neighbor, KNN)[12-13]、 線性判別分析(linear discriminant analysis, LDA)算法[13-14]及最小二乘-支持向量機(least squares-support vector machine, LS-SVM)算法[15]3種化學計量分析方法結(jié)合5種預處理方法對3種單一光譜法鑒別模型的識別效果。 為進一步提高模型的準確度, 建立了基于近紅外光譜-中紅外光譜-拉曼光譜的數(shù)據(jù)層融合、 特征層融合及決策層融合的大米產(chǎn)地鑒別模型, 具體流程見圖1。
圖1 實驗流程圖
實驗用大米樣品共186份, 其中五常大米36份, 均采集于黑龍江省哈爾濱市五常市, 品種為稻花香2號粳米; 東北大米108份, 采集于黑龍江省(牡丹市、 哈爾濱市非五常地區(qū)、 寧安市, 雞西市)、 吉林省(德惠市、 吉林市)、 遼寧省(沈陽市、 朝陽市), 品種均為粳米; 南方大米42份, 采集于江蘇省(南通市、 泰州市)、 廣東省(深圳市、 東菀市), 品種均為粳米。
傅里葉變換近紅外光譜儀(MPAⅡ), 德國布魯克(北京)有限公司; 傅里葉變換中紅外光譜儀(NICOLET IS50), 賽默飛世爾科技(中國)有限公司; 智能DXR拉曼光譜儀, 賽默飛世爾科技(中國)有限公司; 粉碎機, 德國IKA/艾卡(廣州)儀器設備有限公司; 粉末壓機(BJ-15), 天津博君科技有限公司。
大米樣品經(jīng)粉碎機研磨成粉末通過100目篩, 篩過的樣品放入樣品瓶, 不要擠壓樣品, 以保持蓬松和良好的混合度以供近紅外光譜儀測試。 準確稱取100 mg大米粉末樣品, 在20 MPa壓力下放置5 min壓成片, 每個樣品壓6個片待中紅外和拉曼光譜儀檢測使用, 如圖1所示。 采集樣品光譜時, 環(huán)境溫度為室溫(25±1) ℃, 均對樣品進行三次掃描求平均以減少噪聲干擾。
1.4.1 近紅外光譜采集
取不少于樣品杯1/3體積的大米粉末樣品, 采用積分球漫反射模式, 分辨率為16 cm-1, 樣品掃描次數(shù)為64次, 樣品厚度為2 cm, 掃描譜區(qū)波數(shù)為3 600~12 500 cm-1。
1.4.2 中紅外光譜采集
采用衰減全反射(attenuated total reflection, ATR)模式, 掃描次數(shù)為32次, 分辨率為4 cm-1, 掃描譜區(qū)波數(shù)為500~4 000 cm-1。
1.4.3 拉曼光譜采集
拉曼光譜儀的波長為780 nm, 激光能量為24 mW, 積分時間為16 s, 積分次數(shù)為10次, 樣品掃描譜區(qū)波數(shù)為50~3 500 cm-1。
1.5.1 光譜數(shù)據(jù)預處理
由于樣品顆粒大小和均勻性不同, 采集到的原始光譜包含了熒光背景、 探測器噪聲和激光功率波動等干擾信息。 對近紅外光譜、 中紅外光譜及拉曼光譜原始數(shù)據(jù)均使用5種預處理方法消除干擾信息, 如標準歸一化(standard normal variable, SNV)、 一階微分(1st)、 二階微分(2nd)以及疊加預處理方法(SNV+1st, SNV+2nd), 選取大米產(chǎn)地鑒別最優(yōu)模型。
由于預處理后的光譜數(shù)據(jù)分類特征不突出, 需對其進行特征波長的篩選使數(shù)據(jù)降維, 故使用競爭性自適應重加權(quán)采樣法[10](competitive adapative reweighted sampling, CARS)算法采用5折交叉驗證, 重復篩選特征波長2 000次選擇最優(yōu)篩選結(jié)果, 最優(yōu)模型的近紅外光譜、 中紅外光譜及拉曼光譜數(shù)據(jù)篩選特征波長個數(shù)分別為57、 216及134。 主要集中在近紅外光譜的4 000~5 500和6 000~7 000 cm-1波段, 中紅外光譜的3 000~3 600和800~1 500 cm-1波段, 拉曼光譜的1 000~1 500和2 800~3 200 cm-1波段。
1.5.2 樣品分組
將186份大米樣品按照產(chǎn)地定義為3類, 五常大米36份、 南方大米42份、 東北大米108份。 按照校正集∶驗證集=3∶1的比例, 對樣品隔三取一分組以保證校正集數(shù)據(jù)的均勻性, 具體見表1。
表1 大米校正集和驗證集樣本分組情況
1.5.3 數(shù)據(jù)融合技術(shù)
融合方式的選擇是數(shù)據(jù)融合技術(shù)的關(guān)鍵, 本研究采用數(shù)據(jù)層融合、 特征層融合及決策層融合3種融合方法。
數(shù)據(jù)層融合是將所有樣品的近紅外、 中紅外及拉曼光譜原始數(shù)據(jù)均采用5種方法進行預處理, 將3種光譜相同預處理的數(shù)據(jù)逐個連接串聯(lián)成單個矩陣, 經(jīng)CARS算法提取5個光譜融合矩陣的特征波長, 篩選出來的5個特征矩陣結(jié)合KNN算法、 LDA算法和LS-SVM算法三種化學計量分析方法建立15個大米產(chǎn)地鑒別模型。
特征層融合是將所有樣品的近紅外、 中紅外及拉曼光譜原始數(shù)據(jù)均采用5種方法進行預處理, 經(jīng)CARS算法提取15個預處理數(shù)據(jù)的特征波長, 將3種光譜相同預處理的特征信息串聯(lián)在單個矩陣中, 結(jié)合化學計量分析方法KNN、 LDA及LS-SVM算法建立15個大米產(chǎn)地鑒別模型。
決策層融合是將所有樣品的近紅外、 中紅外及拉曼光譜原始數(shù)據(jù)均采用5種方法進行預處理得到15個光譜預處理矩陣, 經(jīng)CARS篩選矩陣的特征信息, 結(jié)合KNN、 LDA及LS-SVM算法建立單一光譜大米產(chǎn)地鑒別模型, 共計45個。 將近紅外光譜、 中紅外光譜及拉曼光譜模型的相同化學計量分析方法的預測結(jié)果集成到最終響應中進行多元線性回歸, 得到校正集及預測集的正確率。
近紅外光譜波數(shù)范圍在4 000~12 500 cm-1, 如圖2(a)所示, 在波段7 500~9 000 cm-1的峰為C—H的伸縮振動峰, 在波數(shù)8 321 cm-1左右的吸收峰是由脂肪中的C—H伸縮振動引起的; 6 846 cm-1處的吸收峰是由氨基酸的N—H不對稱振動引起的; 4 000~5 500 cm-1波段吸收峰是C—H的第一組合頻區(qū), 其中4 700 cm-1表征的是大米樣品中糖類及蛋白質(zhì)含量[5], 5 200 cm-1附近的峰為O—H鍵, 表征水分含量。
圖2 三類大米樣品的平均原始光譜: 近紅外光譜(a)、 中紅外光譜(b)及拉曼光譜(c); 三類大米樣品的平均SNV+2nd預處理光譜圖: 近紅外光譜(d)、 中紅外光譜(e)及拉曼光譜(f)
拉曼光譜的波數(shù)范圍在50~4 000 cm-1, 如圖2(c)所示, 波數(shù)477 cm-1處的峰是由大米中淀粉的環(huán)骨架振礬和扭動振動形成; 波數(shù)1 082 cm-1處的峰表征了直鏈淀粉C—O—H的彎曲振動; 波數(shù)為1 124 cm-1處的峰為糖苷的C—O伸縮振動和C—O—H彎曲變形振動; 在波數(shù)1 262 cm-1處的峰為蛋白質(zhì)的C—N伸縮振動; 在波數(shù)2 911 cm-1的峰為淀粉H—C—C和H—N—H伸縮振動[9]。
將近紅外光譜、 中紅外光譜及拉曼光譜分別結(jié)合KNN、 LDA及LS-SVM算法3種化學計量分析方法建立45個大米產(chǎn)地鑒別模型, 較優(yōu)模型鑒別結(jié)果如表2所示。 研究結(jié)果表明, 3種光譜技術(shù)均可對大米產(chǎn)地進行識別和分析, 不同預處理方法對模型識別效果的影響均有差異。
表2 單一光譜模型的最優(yōu)鑒別結(jié)果
近紅外光譜大米產(chǎn)地鑒別模型中, LS-SVM算法結(jié)合SNV+2nd預處理方法模型最優(yōu), 其校正集和驗證集識別正確率分別為95.71%和86.96%, 說明近紅外光譜法結(jié)合化學計量分析方法建立大米產(chǎn)地鑒別模型是可行的。 中紅外光譜大米產(chǎn)地鑒別模型中, LS-SVM算法結(jié)合1st預處理方法模型最優(yōu), 其校正集和驗證集識別正確率分別為97.14%和91.30%, 其驗證集正確率較近紅外光譜最優(yōu)模型提高了4.34%。 拉曼光譜大米產(chǎn)地鑒別模型中, LS-SVM算法結(jié)合SNV+2nd預處理方法模型最優(yōu), 其校正集和驗證集識別正確率分別為100%和93.48%, 該模型驗證集正確率較近紅外光譜和中紅外光譜最優(yōu)模型分別提高了6.52%和2.18%。
近紅外光譜最優(yōu)模型將3個五常大米樣品錯誤識別為東北大米, 將2個東北大米樣品錯誤識別為南方大米。 近紅外光譜主要記錄含氫集團振動的倍頻和合頻吸收, 而中紅外光譜為分子基頻振動光譜, 可以獲得更多的大米樣品信息, 中紅外光譜最優(yōu)模型將1個五常大米樣品錯誤識別為東北大米, 將1個南方大米樣品和2個東北大米樣品誤判為五常大米, 優(yōu)于近紅外光譜模型。 由于拉曼與紅外的機理不同, 紅外容易測定鏈上的取代基, 而拉曼光譜可以檢測與對稱中心有對稱關(guān)系的分子, 容易表征碳鏈振動, 適合研究高分子的骨架結(jié)構(gòu)。 其最優(yōu)模型將1個五常大米錯誤識別為南方大米, 將1個南方大米和1個東北大米樣品錯誤識別為五常大米, 優(yōu)于中紅外光譜模型。
結(jié)果表明, 3種光譜法均可建立大米產(chǎn)地鑒別模型且取得良好的效果, 3種化學計量分析方法中LS-SVM算法的模型鑒別正確率最高, 3種光譜法中拉曼光譜法最適合大米產(chǎn)地鑒別研究。 但是單一光譜模型驗證集正確率均未達到100%, 無法達到快速準確鑒別大米產(chǎn)地的需求。
為進一步提升大米產(chǎn)地鑒別模型的識別正確率, 將近紅外光譜、 中紅外光譜和拉曼光譜兩兩結(jié)合進行數(shù)據(jù)層融合、 特征層融合及決策層融合, 建立大米產(chǎn)地鑒別模型。 結(jié)果表明, 中紅外光譜和拉曼光譜特征層融合的LS-SVM算法結(jié)合SNV+1st預處理方法模型最優(yōu), 較單一光譜最優(yōu)模型驗證集正確率提高了2.17%, 但正確率未達到100%。 為進一步實現(xiàn)對大米產(chǎn)地的精準識別, 采用基于近紅外光譜-中紅外光譜-拉曼光譜的三種融合方法: 數(shù)據(jù)層融合、 特征層融合和決策層融合, 3種融合模型較優(yōu)結(jié)果如表3所示, 3種光譜信息特征層融合結(jié)合LS-SVM算法大米產(chǎn)地鑒別模型最優(yōu), 其校正集和驗證集正確率均達到100%, 可以實現(xiàn)對五常大米、 東北大米和南方大米產(chǎn)地快速準確的識別。
表3 數(shù)據(jù)融合模型驗證結(jié)果
數(shù)據(jù)層融合大米產(chǎn)地鑒別模型中, LS-SVM算法結(jié)合SNV+2nd預處理方法模型和KNN算法結(jié)合SNV+1st預處理方法模型最優(yōu), 驗證集正確率均達95.65%, 均誤判了1個五常大米和1個南方大米樣品。 LDA算法模型將3個南方大米樣品誤判為東北大米。 對比表2、 表3可知, 數(shù)據(jù)層融合最優(yōu)模型驗證集正確率較單一光譜最優(yōu)模型提高了2.17%, 數(shù)據(jù)層融合直接對原始數(shù)據(jù)進行融合處理, 最大限度的保留了原始信息, 不同數(shù)據(jù)源結(jié)合可以獲得更為全面的特征信息, 從而提高鑒別模型的識別正確率。 由于所采集的信息量大, 包含大量的無關(guān)信息, 噪聲信號多, 其模型識別正確率均未達到100%。
決策層融合大米產(chǎn)地鑒別模型中, 將五常大米、 南方大米以及東北大米樣品分別定義為數(shù)值1、 數(shù)值2及數(shù)值3, 定義預測結(jié)果在0.5~1.5范圍內(nèi)為五常大米, 1.5~2.5范圍內(nèi)為南方大米, 2.5~3.5范圍內(nèi)為東北大米。 LS-SVM算法結(jié)合SNV+1st預處理方法模型最優(yōu), 其驗證集正確率為97.83%, 將1個五常大米樣品誤判為南方大米, 該模型校正集和驗證集參考值和預測值關(guān)系如圖3所示。 KNN算法結(jié)合SNV+2nd預處理方法模型驗證集正確率為95.65%, 將2個南方大米樣品誤判為東北大米。 決策層融合是建立在單一光譜模型的基礎上對最終的預測結(jié)果進行綜合的決策, 抗干擾性強, 其驗證集正確率較單一光譜最優(yōu)模型提升了2.18%, 但均未達到100%。
圖3 決策層融合最優(yōu)模型校正集(a)和驗證集(b)的參考值和預測值關(guān)系圖
特征層融合大米產(chǎn)地鑒別模型中, LS-SVM算法結(jié)合SNV+2nd預處理方法鑒別模型最優(yōu), 其校正集和驗證集識別正確率均達100%。 特征層融合可以得到比決策層融合更為豐富的樣品初始信息, 對初始數(shù)據(jù)壓縮可以去除大量的干擾數(shù)據(jù), 具有較高的精度, 而決策層融合的精度較低會造成錯誤判斷的概率增加, 特征層融合最優(yōu)模型較決策層融合最優(yōu)模型驗證集正確率提高了2.17%。 KNN算法結(jié)合SNV+2nd預處理方法模型和LDA方法結(jié)合1st預處理方法模型驗證集識別正確率均為95.65%, 各誤判了1個五常大米樣品。 特征層融合最優(yōu)模型較單一光譜最優(yōu)模型驗證集正確率提高了6.52%, 可以滿足快速準確檢測五常大米、 南方大米和東北大米產(chǎn)地的需求。
建立了基于近紅外光譜、 中紅外光譜以及拉曼光譜的大米產(chǎn)地鑒別模型。 比較了KNN算法、 LDA及LS-SVM算法對單一光譜模型的識別效果, 結(jié)果表明, 拉曼光譜法結(jié)合LS-SVM算法模型最優(yōu), 校正集和驗證集正確率分別為100%和93.48%。 為進一步提升鑒別模型的準確度, 將3種光譜兩兩結(jié)合進行數(shù)據(jù)層融合、 特征層融合及決策層融合, 建立大米產(chǎn)地鑒別模型。 結(jié)果表明, 特征層融合結(jié)果中LS-SVM算法結(jié)合SNV+1st預處理方法模型最優(yōu), 其校正集和驗證集的正確率分別為100%和95.65%。 為實現(xiàn)對大米產(chǎn)地的準確識別, 創(chuàng)新性的建立了3種光譜的數(shù)據(jù)層融合、 特征層融合及決策層融合大米產(chǎn)地鑒別模型, 綜合比較3種層次的數(shù)據(jù)融合方法, 特征層融合產(chǎn)地鑒別模型中, LS-SVM算法結(jié)合SNV+2nd預處理方法鑒別模型最優(yōu), 其校正集和驗證集識別正確率均達到100%, 較單一光譜最優(yōu)模型驗證集正確率提高了6.52%。 研究結(jié)果表明, 3種層次的分子光譜信息融合模型識別正確率較單一光譜模型大大提升, 其中特征層融合方法更適用于本次融合的數(shù)據(jù)類型, 可以快速準確鑒別五常大米、 南方大米和東北大米產(chǎn)地。 本研究為大米產(chǎn)地的快速準確鑒別提供了一種新方法。