李 慧,顧洪濤,蘇婷婷
(內(nèi)蒙古華瑞檢驗(yàn)檢測(cè)有限公司,內(nèi)蒙古呼和浩特 010010)
藜麥(Chenopodium quinoa Willd)屬于藜科藜屬的雙子葉植物,原產(chǎn)地為南美洲安第斯山脈的高海拔山區(qū),是當(dāng)?shù)赜〖尤说膫鹘y(tǒng)糧食作物[1-2]。近年來(lái),我國(guó)內(nèi)蒙古、山西、青海、甘肅等地大面積種植藜麥,目前已初步形成了藜麥規(guī)模化種植和智能化產(chǎn)業(yè)鏈[3]。藜麥的營(yíng)養(yǎng)價(jià)值較高,富含蛋白質(zhì)和膳食纖維等物質(zhì)。有研究表明,藜麥中富含人體所需的9 種必需氨基酸和賴(lài)氨酸,脂肪中不飽和脂肪酸占80%左右;藜麥中豐富的皂苷、黃酮類(lèi)物質(zhì)、多酚和植物甾醇等具有多種生物活性,在食療領(lǐng)域發(fā)揮著有益功效[4]。
目前,藜麥營(yíng)養(yǎng)成分檢測(cè)的方法以常規(guī)化學(xué)分析法和光譜技術(shù)為主,常規(guī)化學(xué)法操作方法比較復(fù)雜,且試驗(yàn)中需要使用大量試劑,存在對(duì)環(huán)境、人體有害等諸多不足。為了滿(mǎn)足低成本、快速和無(wú)損檢測(cè)的需求,研究人員開(kāi)發(fā)了核磁共振、高光譜、熒光光譜和紫外光譜等檢測(cè)技術(shù)[5-7]。與這些光譜技術(shù)相比,NIRS 作為一種便攜技術(shù)被更多人喜愛(ài),具有快速且無(wú)損耗的檢測(cè)特點(diǎn)[8-9],可檢測(cè)到特定的已知化合物基團(tuán),常用于農(nóng)產(chǎn)品安全檢測(cè)領(lǐng)域[10-11]。當(dāng)通過(guò)漫反射或透射光譜處理樣品時(shí),由于物料顆粒的尺寸、形狀和包裝等影響,散射光產(chǎn)生了不受控制的物理變化。因此,為了最大限度地減少散射干擾,開(kāi)發(fā)和構(gòu)建穩(wěn)健的檢測(cè)模型也同樣重要。
自20 世紀(jì)50 年代起,人們對(duì)近紅外光譜有了初步認(rèn)識(shí),因靈敏度較低,有較強(qiáng)干擾性而逐漸被人淡忘。20 世紀(jì)80 年代以后,計(jì)算機(jī)技術(shù)的使用讓近紅外光譜不僅可用于評(píng)估食品質(zhì)量安全方面,還可結(jié)合化學(xué)計(jì)量法應(yīng)用于普通化學(xué)分析法難以檢測(cè)的成分特征,避免了常規(guī)圖譜解析的困難[12]。近紅外光譜測(cè)得的數(shù)據(jù)中不僅包含樣品的結(jié)構(gòu)特征和組成信息,也包含了噪聲、漫反射和基線傾斜等背景及其他干擾信息。因此,需要在建立近紅外光譜模型前進(jìn)行適當(dāng)?shù)念A(yù)處理來(lái)降低或消除其他因素對(duì)光譜的干擾[13]。
平滑(Saviztky-Golay,SG)是消除噪聲的高效方法,該方法假設(shè)光譜中的噪聲為零均值隨機(jī)噪聲,取多次測(cè)量的平均值來(lái)減少隨機(jī)噪聲,以提高信噪比[14],濾除高頻噪聲并保留低頻噪聲。標(biāo)準(zhǔn)正態(tài)變量變換(Standard normal variate transformation,SNV)和多元散射校正(Multiplicative scatter correction,MSC)主要用于減弱不同粒度大小的物料顆粒造成的散射等物理影響,SNV 是單獨(dú)處理一條光譜,而MSC 的處理對(duì)象通常為一組光譜[15],因此部分研究認(rèn)為SNV相比于MSC 更能提升藜麥營(yíng)養(yǎng)組分的預(yù)處理效果。此外,還有加權(quán)多元散射處理(WMSC)、標(biāo)準(zhǔn)化多元散射處理(SMSC)和反向多元散射處理(IMSC)等方法。一階導(dǎo)數(shù)(First derivative,1st Der)和二階導(dǎo)數(shù)(Second derivative,2nd Der)用直接差分法和SG 法進(jìn)行求導(dǎo)來(lái)消除基線偏移和光譜的旋轉(zhuǎn),可以減少儀器背景等誤差,并且二階導(dǎo)數(shù)可以通過(guò)連續(xù)計(jì)算兩次一階導(dǎo)數(shù)得到。此外,在藜麥等谷物檢測(cè)用到較少的方法如隱變量正交投影(Orthogonal projection to latent structures,OPLS)和擴(kuò)展乘法信號(hào)校正(Extended multiplication signal correction,EMSC)等,OPLS 可移除與樣品濃度無(wú)關(guān)的光譜數(shù)據(jù),并有效增強(qiáng)非線性組分的預(yù)測(cè)模型和提高穩(wěn)定性[16]。Encina-Zelada C 等人[17]為了最大限度地減少光散射的乘法效應(yīng),參考其他原料的EMSC 用于藜麥檢測(cè)中,EMSC 將物理散射光與化學(xué)吸收(振動(dòng))光分離,有助于校正光譜中與波長(zhǎng)相關(guān)的基線效應(yīng)[18]。
近紅外光譜數(shù)據(jù)為全波段型,包含豐富信息量的同時(shí),也帶來(lái)了各種干擾信號(hào),造成吸收帶嚴(yán)重重疊,因此對(duì)光譜的特征波長(zhǎng)進(jìn)行篩選來(lái)提高模型的準(zhǔn)確度也是必要步驟?;谵见溕踔赁r(nóng)產(chǎn)品的特征波長(zhǎng)選擇多為經(jīng)驗(yàn)判斷,此外還有競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法(Competitive adaptive reweighted sampling,CARS)、連續(xù)投影算法(Successiveprojectionsalgorithm,SPA)[19]和無(wú)信息變量消除法(Uninformation variable elimination,UVE)[20]等常用于食品檢測(cè)的特征光譜可供選擇。CARS 算法可最小化光譜的無(wú)用信息;SPA 是一種通過(guò)向量的投影達(dá)到變量間共線性最小化的波長(zhǎng)選擇算法,可最大程度消除共線性的影響。
1.3.1 定性分析
主成分分析(Principal component analysis,PCA)是常用的光譜定性分析方法,利用降維的思維將多個(gè)波長(zhǎng)下的原始變量通過(guò)組合形成有限的幾個(gè)因子,且各成分之間的所屬類(lèi)別也不同。PCA 對(duì)樣本與訓(xùn)練集間的確切位置缺乏定量的解釋?zhuān)瑔为?dú)在藜麥等谷物檢測(cè)中很少使用,一般結(jié)合其他統(tǒng)計(jì)學(xué)方法用于產(chǎn)地溯源等方面。
馬氏距離(Mahalanobis distance,MD)是近紅外光譜定性分析中另一種常用的方法,一般適用于近紅外光譜中異常數(shù)據(jù)的剔除并建立樣本間相似度的模型。因?yàn)镸D 常常依賴(lài)較為準(zhǔn)確的預(yù)處理和波長(zhǎng)篩選結(jié)果,所以獨(dú)立應(yīng)用在食品中的場(chǎng)合較少。為此,研究人員常常先對(duì)樣本進(jìn)行PCA 分析篩選主成分,再進(jìn)行MD 分析,這樣可以得到較為準(zhǔn)確的域值信息。
簇類(lèi)獨(dú)立軟模式法(Soft independent modeling of class analogy,SIMCA)被普遍認(rèn)為是發(fā)展最成熟的化學(xué)計(jì)量學(xué)方法之一。傳統(tǒng)的SIMCA 采用PCA 參數(shù)和F 檢驗(yàn)構(gòu)建新模型,并以樣本與各類(lèi)主成分空間的歐氏距離作為判斷類(lèi)別的依據(jù)[21],大量光譜應(yīng)用。結(jié)果表明,SIMCA 方法分類(lèi)可以獲得較好的效果,但是對(duì)于區(qū)分成分相近又存在著微小差異的樣本,SIMCA 方法分類(lèi)的效果并不理想。
K -近鄰法(K-nearest neighbor,KNN)算法可以用來(lái)分類(lèi)和回歸,是最簡(jiǎn)單的算法之一,其核心是某樣本的k 個(gè)特征空間最鄰近樣本大部分屬于一個(gè)類(lèi)別,則將該樣本歸為一類(lèi)。KNN 理論成熟,易于理解,缺點(diǎn)是不僅計(jì)算量較大,當(dāng)樣本容量不一致時(shí),還容易產(chǎn)生新樣本對(duì)其他樣本的誤判,解決方法之一是去除已知樣本中對(duì)分類(lèi)作用不大的樣本,但僅限于容量較大類(lèi)域的自動(dòng)分類(lèi)。
BP 神經(jīng)網(wǎng)絡(luò)是一種非線性回歸方法,可建立定性和定量分析模型,由輸入層、一個(gè)或多個(gè)隱藏層和輸出層組成的神經(jīng)元。每個(gè)神經(jīng)元具有激活功能。優(yōu)點(diǎn)是可以自動(dòng)找出規(guī)律來(lái)解決復(fù)雜問(wèn)題,缺點(diǎn)是收斂速度慢、容易陷入局部極小值等。此外,還有研究者提出深度信念網(wǎng)絡(luò)(DBN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、徑向基神經(jīng)網(wǎng)絡(luò)(RBF)等優(yōu)化性能模型以待參考[22]。
1.3.2 定量分析
主成分回歸(Principle component regression,PCR)以主成分為自變量,將頻譜數(shù)據(jù)投影到新的正交二維軸上來(lái)做回歸分析,主要用于樣品的變量與質(zhì)量參數(shù)之間的線性關(guān)聯(lián)。由于新變量之間互不相關(guān),因此成功解決了多重共線性或變量相互依賴(lài)問(wèn)題,但是無(wú)法處理非線性數(shù)據(jù)。
多元線性回歸(MLR)(Multivarate linear regression,MLR)是2 個(gè)或以上自變量的N 個(gè)推廣,用MLR 建模前應(yīng)對(duì)原始光譜進(jìn)行特征光譜篩選,適用于關(guān)聯(lián)性不強(qiáng)或微弱的圖譜。MLR 的計(jì)算簡(jiǎn)單且容易理解,但無(wú)法解決多重共線性或非線性的波長(zhǎng)數(shù)據(jù),使用MLR 方法的前提是樣本數(shù)量必須大于特征數(shù)量[23]。
偏最小二乘回歸(Partial least squares regression,PLSR)是目前流行的模型方法,用于解決變量多和有著多重相關(guān)性等問(wèn)題,對(duì)變量多的樣本及其成分分析較為友好,比PCR 更快且精度更高,結(jié)果更加合理,但是當(dāng)圖譜數(shù)據(jù)有噪聲時(shí),擬合模型也會(huì)更復(fù)雜,且當(dāng)添加一組新數(shù)據(jù)時(shí),模型需重新建立,因此在實(shí)際應(yīng)用中常常被限制。最近有人提出了PLSR 的泛化,被稱(chēng)為規(guī)范冪偏最小二乘法(CPPLS),以及正交偏最小二乘判別分析(OPLS-DA)有待應(yīng)用。
隨機(jī)森林回歸(Random forest regression,RFR)是隨機(jī)森林的重要應(yīng)用分支,通過(guò)樣品的特征進(jìn)行獨(dú)立并行的結(jié)果預(yù)測(cè),整合取平均值后得到整個(gè)森林的回歸預(yù)測(cè)。對(duì)數(shù)據(jù)維度要求相對(duì)要低,優(yōu)點(diǎn)是受異常值和噪聲的干擾度較小,且計(jì)算成本低,不會(huì)過(guò)度擬合,是比較通用的方法之一。
支持向量機(jī)(Support vector machine,SVM)是一種由線性求解非線性的分類(lèi)方法,常用于“二分類(lèi)”問(wèn)題中。通過(guò)核函數(shù)(如多項(xiàng)式、徑向基本函數(shù)等)將數(shù)據(jù)映射到更高維度的空間,構(gòu)造線性的最優(yōu)分類(lèi)超平面,這樣的計(jì)算開(kāi)銷(xiāo)小,基于校準(zhǔn)集的子集可以獲得出色的模型,但屬于非概率性抽樣,需要設(shè)置缺失的數(shù)據(jù)和優(yōu)化核函數(shù)等各種關(guān)鍵的參數(shù)[24]。此外,還可被用于多變量校正建模,即支持向量回歸(Support vector regression,SVR),在分析化學(xué)領(lǐng)域潛力巨大。
適合NIRS 的藜麥營(yíng)養(yǎng)成分檢測(cè)步驟包括光譜采集、預(yù)處理、波長(zhǎng)選擇和模型開(kāi)發(fā),具體的方法對(duì)于不同品種(白藜、黑藜和紅藜)和不同形態(tài)(谷粒、面粉)在一定程度上是通用的,但目前最常見(jiàn)方法為通過(guò)反復(fù)試驗(yàn)將這些光譜數(shù)據(jù)處理方法結(jié)合起來(lái)獲得最優(yōu)模型。藜麥含有豐富的微量元素,NIRS 評(píng)估其營(yíng)養(yǎng)成分和其他雜糧不同,應(yīng)該主要關(guān)注微量元素及相關(guān)參數(shù)方面。
近紅外光譜的不同處理方式對(duì)藜麥營(yíng)養(yǎng)成分的影響見(jiàn)表1。
表1 近紅外光譜的不同處理方式對(duì)藜麥營(yíng)養(yǎng)成分的影響
脂質(zhì)水平與產(chǎn)品腐敗等質(zhì)量問(wèn)題息息相關(guān),是農(nóng)產(chǎn)品必檢的指標(biāo)之一,藜麥中脂肪含量較多且種類(lèi)豐富,是潛在的油品來(lái)源,也是藜麥作為健康減肥原料的原因之一。曹曉寧等人[25]采集100 個(gè)藜麥樣品,運(yùn)用一階導(dǎo)數(shù)和矢量歸一化的化學(xué)計(jì)量學(xué)對(duì)光譜進(jìn)行預(yù)處理,發(fā)現(xiàn)這2 種方法結(jié)合后校正和預(yù)測(cè)效果更佳,其中決定系數(shù)為0.939 3,與索氏抽提法相比具有快速無(wú)損的特點(diǎn)。石振興等人[26]采集國(guó)內(nèi)外101 份藜麥原料制成粉末,通過(guò)構(gòu)建最小二乘回歸預(yù)測(cè)模型來(lái)測(cè)定藜麥中粗脂肪含量,結(jié)果與國(guó)標(biāo)脂肪含量測(cè)定的方法相比具有快速篩選和較高準(zhǔn)確度。Martín M 等人[27]在智利采集不同品種的48 個(gè)藜麥樣品進(jìn)行紅外光譜對(duì)營(yíng)養(yǎng)成分的檢測(cè)分析。結(jié)果發(fā)現(xiàn),比傳統(tǒng)定量酸培養(yǎng)基中測(cè)定醚提取物的方法效率更高,并且采用PCA 法應(yīng)用于校準(zhǔn)集的數(shù)據(jù);用MD法檢測(cè)異常光譜數(shù)據(jù);使用改進(jìn)的偏最小二乘回歸法來(lái)獲取所研究營(yíng)養(yǎng)成分的NIR 方程,采取SNV 和去趨勢(shì)化處理進(jìn)行多元回歸方程優(yōu)化,最終所得結(jié)果更穩(wěn)定、更準(zhǔn)確。Encina-Zelada C 等人[28]通過(guò)近紅外投射光譜估算藜麥中的成分,旨在開(kāi)發(fā)應(yīng)用于藜麥等谷物的穩(wěn)健化學(xué)計(jì)量模型,該模型經(jīng)過(guò)SG 預(yù)處理、MSC 和擴(kuò)展乘法信號(hào)校正(EMSC)校正,通過(guò)PLSR 和規(guī)范動(dòng)力偏最小二乘法(CPPLS)提取潛在變量,結(jié)果發(fā)現(xiàn)平滑光譜提高了脂肪檢測(cè)模型的準(zhǔn)確性,EMSC 結(jié)合CPPLS 也獲得了較高的準(zhǔn)確度,通過(guò)交叉驗(yàn)證(Rcv)值為0.811 1。
藜麥的蛋白質(zhì)具有較高營(yíng)養(yǎng)價(jià)值,有開(kāi)發(fā)嬰兒配方食品的潛力,藜麥蛋白質(zhì)主要是白蛋白和球蛋白類(lèi)型,由類(lèi)似酪蛋白的平衡氨基酸組成[29]。傳統(tǒng)蛋白質(zhì)檢測(cè)方法為國(guó)際通用的凱氏定氮法,結(jié)果較為準(zhǔn)確但步驟繁瑣。張晉等人[30]通過(guò)NIRS 建立了一種藜麥粗蛋白含量的檢測(cè)方法,以100 份藜麥為樣品,采用一階導(dǎo)數(shù)結(jié)合矢量歸一化處理方式對(duì)光譜進(jìn)行預(yù)處理,可減小其他因素(組分、粒度、光譜模型)對(duì)蛋白質(zhì)含量的誤差,提高準(zhǔn)確性,交叉驗(yàn)證決定系數(shù)為0.918 2。趙麗華等人[31]采集122 份藜麥掃描得到近紅外原始光譜,比較了9 種光譜預(yù)處理方法,結(jié)果發(fā)現(xiàn)用濾波擬合法和標(biāo)準(zhǔn)正態(tài)變量建立的SIRS模型擬合度較高,R2為0.938 0,預(yù)測(cè)效果良好。有研究發(fā)現(xiàn),NIRS 對(duì)藜麥蛋白質(zhì)含量模型(CPPLS+EMSC)的檢測(cè)準(zhǔn)確度最低,RCV 僅為0.5。Martín 發(fā)現(xiàn),NIRS 測(cè)得蛋白質(zhì)含量高于其他農(nóng)作物,但Regalona 基因型藜麥的蛋白含量最低,僅為17.3左右。
淀粉是藜麥中含量最多的基礎(chǔ)物質(zhì),占干物質(zhì)的50%以上,但對(duì)藜麥淀粉的研究明顯少于蛋白質(zhì)等其他物質(zhì),常規(guī)的淀粉測(cè)定方法是酶解法,步驟特別繁瑣并且準(zhǔn)確度不高,研究一種穩(wěn)定、準(zhǔn)確和快速檢測(cè)的淀粉含量測(cè)定方法至關(guān)重要。曹曉寧等人[32]對(duì)比旋光儀法和近紅外光譜法檢測(cè)藜麥淀粉含量,采集100 個(gè)藜麥樣品,運(yùn)用一階導(dǎo)數(shù)結(jié)合矢量歸一化對(duì)光譜進(jìn)行預(yù)處理,再結(jié)合化學(xué)方法建立藜麥粗淀粉含量定量模型。石振興等人[26]通過(guò)交叉驗(yàn)證,篩選出藜麥淀粉最佳光譜區(qū)間為7 505.9~5 446.2 和4 605.4~4 242.8;最佳預(yù)處理方式為一階導(dǎo)數(shù)結(jié)合標(biāo)準(zhǔn)正態(tài)變量變換,該模型具有極高的決定系數(shù)(0.952 8)。Encina-Zelada C 等人[28]對(duì)比PLSR,CPPLS 和MSC,EMSC 對(duì)藜麥碳水化合物含量的影響,發(fā)現(xiàn)CPPLS+MSC 得到最高的驗(yàn)證值(RCV=0.767),在他的另一篇文章中,藜麥光譜經(jīng)過(guò)CPPLS 和EMSC 優(yōu)化后,RCV 僅為0.599。
藜麥?zhǔn)巧攀忱w維和維E 的良好來(lái)源,其中可溶性膳食纖維和不溶性膳食纖維占總質(zhì)量6%左右;藜麥中的微量營(yíng)養(yǎng)素含量較高,鈣含量是大米的3 倍,鐵含量是大米的5 倍,磷含量與小麥相當(dāng)[33-34]。曹曉寧等人[35]采集100 個(gè)藜麥樣品,將NIRS 原始光譜進(jìn)行一階導(dǎo)數(shù)+矢量歸一化預(yù)處理,最終測(cè)定粗纖維含量與國(guó)標(biāo)方法測(cè)定的數(shù)據(jù)接近,R2為0.884 8。Martín 通過(guò)馬氏距離和偏最小二乘回歸法優(yōu)化光譜后,測(cè)得的Fe 和P 含量較接近ICPOES 測(cè)定的值,相關(guān)系數(shù)RSQ 大于0.7;Ca,K 和Mg 含量測(cè)RSQ 為0.5 左右,效果并不明顯。Moncada G 等人[36]通過(guò)PCA,MPLS 和多種散射校正的數(shù)學(xué)處理方法對(duì)光譜進(jìn)行優(yōu)化,測(cè)得藜麥中的維E 和總酚含量接近化學(xué)法所測(cè),RSQ 分別為0.841 和0.947。
概述了部分可優(yōu)化NIRS 的化學(xué)計(jì)量學(xué)方法,包括光譜預(yù)處理、波長(zhǎng)選擇和模型評(píng)估,及其在藜麥營(yíng)養(yǎng)成分檢測(cè)的應(yīng)用,匯總后發(fā)現(xiàn)以下問(wèn)題:
(1)盡管所有預(yù)處理經(jīng)過(guò)反復(fù)交叉驗(yàn)證用來(lái)提高信噪比,但是仍可能會(huì)導(dǎo)致原始信息丟失頻譜。此外,多項(xiàng)研究表明采用最佳數(shù)據(jù)集和應(yīng)用程序先進(jìn)的算法后,預(yù)處理的效果也在最終模型中不再突出[37]。
(2)目前,相對(duì)穩(wěn)定、準(zhǔn)確且高效的模型,如多元散射校正、偏最小二乘法和多元線性回歸等,其中涉及波長(zhǎng)選擇的方法較少,合適的波長(zhǎng)可以減少在原始光譜中的冗余信息,明顯提高性能并降低計(jì)算的消耗[38],因此將波長(zhǎng)篩選結(jié)合研究前沿的預(yù)處理和回歸方法(線性、非線性)可能會(huì)得到更好的結(jié)果,尤其在藜麥蛋白質(zhì)、膳食纖維、多酚和其他微量營(yíng)養(yǎng)素定量檢測(cè)方面。
(3)有研究證明,NIRS 對(duì)部分谷物和豆類(lèi)中不溶性膳食纖維的預(yù)測(cè)準(zhǔn)確度遠(yuǎn)大于可溶性膳食纖維含量[39-40],在藜麥中也同樣適用,今后的研究應(yīng)該推進(jìn)藜麥中微量元素的準(zhǔn)確定量模型的開(kāi)發(fā)。
(4)由于不同成分的交互作用,進(jìn)行NIRS 檢測(cè)時(shí)應(yīng)充分考慮外部因素(水分、物料形態(tài)等),利用感官評(píng)價(jià)等人工干預(yù)手段對(duì)光譜進(jìn)行初篩,近紅外光譜用來(lái)評(píng)估藜麥保質(zhì)期的模型也有待探究。