關(guān)鍵詞中紅外光譜(MIRS);機(jī)器學(xué)習(xí);牦牛奶;牛奶摻假;預(yù)測模型
牦牛是高海拔高寒地區(qū)重要的生物,是一種非常珍貴的畜種。牦牛奶中蛋白質(zhì)、乳糖、共軛亞油酸和鈣含量較高,被認(rèn)為是一種天然濃縮的牛奶[1]。牦牛奶的營養(yǎng)價(jià)值和價(jià)格均高于奶牛奶,導(dǎo)致不法生產(chǎn)商可能在牦牛奶生產(chǎn)中摻入奶牛奶以增加利潤[2]。牦牛奶摻假行為對消費(fèi)者的健康和財(cái)產(chǎn)安全有不利影響,因?yàn)檫@些摻假奶制品中的奶牛奶成分可能會使一部分人群誘發(fā)過敏等不良反應(yīng)[3]。因此,從法律、消費(fèi)者保護(hù)和消費(fèi)者信心的角度,快速檢測牦牛奶中摻加奶牛奶的含量以確保牦牛奶質(zhì)量安全非常重要。
迄今為止,已經(jīng)開發(fā)了幾種分析方法用于檢測不同動物奶中奶牛奶的摻加,如PCR[4]、酶聯(lián)免疫吸附測定法、毛細(xì)管電泳法[5]、聚丙烯酰胺凝膠電泳、高效液相色譜法[6]等,但上述技術(shù)均存在耗時(shí)、成本較高和無法大批量檢測等問題,無法對乳制品行業(yè)中原料奶摻假進(jìn)行大規(guī)模篩查。中紅外光譜(Mid-in?fraredspectroscopy,MIRS)技術(shù)是一種實(shí)時(shí)在線的生化指紋技術(shù),與傳統(tǒng)方法相比,具有快速、靈敏、低成本和高通量等優(yōu)點(diǎn)[7]。MIRS技術(shù)基于電磁輻射與化學(xué)鍵之間的相互作用,目前已應(yīng)用于預(yù)測牛奶的脂肪酸組成[8]、蛋白質(zhì)組成[9]、礦物質(zhì)含量[10]、奶牛健康狀況(如是否發(fā)生乳腺炎、酮病等)[11-12]和繁殖狀態(tài)(如奶牛是否妊娠)[13-14]。MIRS技術(shù)結(jié)合適當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法,能夠從光譜中提取定性和定量信息,從而快速對食品進(jìn)行表征化和分類。因此,MIRS技術(shù)可能是檢測和量化牦牛奶中摻加奶牛奶的理想解決方案。MIRS技術(shù)已成功檢測出水牛奶[15-19]、山羊奶[17,20]和駱駝奶[21-22]中摻加的奶牛奶,但目前還沒有關(guān)于MIRS技術(shù)檢測牦牛奶中摻加奶牛奶的報(bào)道。
本研究利用MIRS不同預(yù)處理方法和機(jī)器學(xué)習(xí)建模方法,探究MIRS用于檢測和量化牦牛奶中欺詐性的奶牛奶摻加的可能性,并且根據(jù)最優(yōu)MIRS預(yù)處理和最優(yōu)建模算法開發(fā)用于檢測牦牛奶中摻加奶牛奶的定性鑒定模型及定量回歸模型,旨在提高預(yù)測模型的準(zhǔn)確性,為大規(guī)模檢測牦牛奶中奶牛奶的摻加情況提供新思路。
1 材料與方法
1.1 試驗(yàn)材料
從我國青海地區(qū)牦牛養(yǎng)殖場中采集健康狀況良好的牦牛的奶樣共76份,從我國華中和華北地區(qū)的荷斯坦奶牛場采集健康狀況良好的奶牛的奶樣154份,所有樣本的采集時(shí)間為2021年。牦牛屬于草原散養(yǎng),荷斯坦奶牛屬于集約化飼養(yǎng)。樣品采集后倒入采樣瓶中,依次編號,并向每個(gè)采樣瓶里立即加入溴硝丙二醇防腐劑,緩慢搖晃使其充分溶解。樣品采集完成后放于4℃環(huán)境進(jìn)行保存,立刻運(yùn)輸至華中農(nóng)業(yè)大學(xué)動物遺傳育種實(shí)驗(yàn)室進(jìn)行摻假樣品的制備。
用于建立模型的樣本應(yīng)該代表生產(chǎn)中的實(shí)際情況。根據(jù)成本測算,在原奶中添加10%的摻假溶液,可使奶農(nóng)每年多增收6萬元,是奶農(nóng)普通年收入的2倍多[23]。此外,根據(jù)巴西警方的調(diào)查,摻假的液態(tài)奶常含有10%~15%的摻假物[24]。因此,本研究奶牛奶的摻加比例設(shè)置在10%~50%。將奶牛奶添加至純牦牛奶中,并按照0%、10%、25%和50%(V/V)進(jìn)行混合。共制備了76個(gè)牦牛奶-10%奶牛奶混合物(摻加10%奶牛奶的牦牛奶),76個(gè)牦牛奶-25%奶牛奶混合物,76個(gè)牦牛奶-50%奶牛奶混合物。
1.2 儀器、設(shè)備和試劑
MilkoScanTMFT+,傅里葉變換中紅外光譜儀(FTIR),丹麥FOSS公司;渦漩振蕩器;離心管。
1.3 中紅外光譜的采集
將新鮮的純牦牛奶樣品及摻加奶牛奶的牦牛奶樣品運(yùn)輸至奶牛生產(chǎn)性能測定(dairyherdimprove?ment,DHI)中心,利用MilkoScanFT+儀器進(jìn)行分析,以獲取樣品的MIRS、乳脂率、乳蛋白率、乳糖率、尿素氮含量和總固形物含量。每個(gè)樣品在機(jī)器上掃描2次,最終結(jié)果(MIRS光譜和乳成分)輸出2次的平均值。
1.4 光譜預(yù)處理
牛奶和牦牛奶的MIRS由5008~925cm-1范圍內(nèi)的1060個(gè)波點(diǎn)組成。為了遵循比爾定律,在建模前將光譜從透射率轉(zhuǎn)換為吸光度[11]。牛奶MIRS中存在大量的背景噪聲和無用信息,為去除光譜采集過程中環(huán)境、儀器及操作引起的系統(tǒng)誤差,建模前需先對光譜進(jìn)行預(yù)處理。本研究采用的光譜預(yù)處理方法包括無預(yù)處理、一階導(dǎo)數(shù)(firstderivative,1D)、二階導(dǎo)數(shù)(secondderivative,2D)、標(biāo)準(zhǔn)正態(tài)變量變換(standardnormalvariatetransformation,SNV)和Sav?itsky-Golay平滑(SG平滑)。SNV主要用于消除粒徑和表面散射光對光譜的影響,導(dǎo)數(shù)處理和平滑處理可以有效消除基線和其他背景噪聲的干擾。結(jié)果僅展示最佳光譜預(yù)處理。
1.5 建模波段選擇
5008~2968cm-1的區(qū)域被認(rèn)為是噪音區(qū),因此本研究中將此波段去除。研究[25]表明,1773~2802cm-1的區(qū)域內(nèi)不包含有價(jià)值的信息,1692~1604cm-1區(qū)域與水的吸收有關(guān),因此這2個(gè)波段也不參與建模。最后,剩余244個(gè)波點(diǎn)用于建模(2968~2802、1773~1692和1604~925cm-1)。
1.6 模型建立
將數(shù)據(jù)集隨機(jī)劃分為校準(zhǔn)集(80%)和驗(yàn)證集(20%)2部分,校準(zhǔn)集用于訓(xùn)練模型,驗(yàn)證集數(shù)據(jù)獨(dú)立于校準(zhǔn)集,用于驗(yàn)證模型的性能。本研究共涉及2種模型,即:(1)二分類模型:純牦牛奶樣本定義為陰性,摻加奶牛奶的樣本定義為陽性,此類模型可用于鑒別純牦牛奶和摻加奶牛奶的牦牛奶,即鑒定牦牛奶中是否摻加了奶牛奶;(2)定量回歸模型:將摻加奶牛奶的比例看作連續(xù)型變量,此類模型可用于預(yù)測牦牛奶中摻加奶牛奶的體積比。
本研究選擇了最常用的6種分類算法和12種回歸算法進(jìn)行建模:偏最小二乘判別分析(partialleastsquaresdiscriminantanalysis,PLSDA)、分類回歸樹(classificationandregressiontree,CART)、隨機(jī)森林(randomforest,RF)、梯度增強(qiáng)機(jī)(gradientboostingmachine,GBM)、支持向量機(jī)(supportvectorma?chine,SVM)和樸素貝葉斯(naivebayes,NB)等6種機(jī)器學(xué)習(xí)算法構(gòu)建二分類定性模型。偏最小二乘回歸(partialleastsquaresregression,PLSR)、SVM、貝葉斯正則化神經(jīng)網(wǎng)絡(luò)(bayesianregularizedneuralnet?work,BRNN)、尖峰和平板回歸(spikeandslabre?gression,SSR)、投影尋蹤回歸(projectionpursuitre?gression,PPR)、CART、嶺回歸(ridgeregression,RR)、最小絕對收縮和選擇算子(leastabsoluteshrinkageandselectionoperator,LASSO)、彈性網(wǎng)回歸(elasticnetregression,EN)、RF、GBM和極致梯度提升(extremegradientboosting,XGB)等12機(jī)器學(xué)習(xí)算法構(gòu)建定量回歸模型。除偏最小二乘(partialleastsquares,PLS)算法以外,其余算法歸為現(xiàn)代統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法。本研究中使用的所有機(jī)器學(xué)習(xí)算法都使用了R語言中的caret包,所有分析均使用R統(tǒng)計(jì)軟件4.2.2版本進(jìn)行。
重復(fù)5次的十折交叉驗(yàn)證用于構(gòu)建預(yù)測模型和選擇各種算法的關(guān)鍵參數(shù)。PLS潛在變量的最大數(shù)量設(shè)定為20個(gè)。BRNN的隱層數(shù)范圍為1到4個(gè),RF的mtry數(shù)為3、10、20、50、100、300、700、1000和2000。SVM的計(jì)算基于帶核或徑向基函數(shù)核的支持向量機(jī),在caret軟件包中使用method=“svmLin?ear”或“svmRadial”作為參數(shù)來實(shí)現(xiàn)。對于“svmLin?ear”,C值為0.01、0.05、0.1、0.25、0.5、0.75、1、1.25、1.5、1.75、2和5;對于“svmRadial”,C值為0.01、0.05、0.1、0.25、0.5、0.75、1、1.25、1.5、1.75、2和5,sigma值為0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.25、0.5、0.75、0.90。其余算法使用默認(rèn)的內(nèi)置參數(shù)。
1.7 模型性能的評價(jià)指標(biāo)
模型性能通過2種方式進(jìn)行評估:模型建立過程(校準(zhǔn)集)和外部驗(yàn)證過程(驗(yàn)證集)。
使用校準(zhǔn)集和驗(yàn)證集的準(zhǔn)確性、敏感性、特異性和接受者操作特征曲線(recipientoperationcharacter?isticcurve,ROC)下的面積(areaundercurve,AUC)等4個(gè)指標(biāo)評估二分類模型的預(yù)測性能。準(zhǔn)確性是指被正確分類的比例;敏感性指陽性數(shù)據(jù)被正確預(yù)測為陽性的比例;特異性指陰性數(shù)據(jù)被正確預(yù)測為陰性的比例[26]。ROC曲線通常用于評估診斷工具的性能,表示在不同的分類閾值下模型的真陽性率和假陽性率之間的關(guān)系,AUC是最常見的ROC匯總度量,取值為0至1。當(dāng)0.9
利用校準(zhǔn)集決定系數(shù)(coefficientofdetermina?tionofcalibration,R2C)、校準(zhǔn)集均方根誤差(rootmeansquareerrorofcalibration,RMSEC)、驗(yàn)證集決定系數(shù)(coefficientofdeterminationofvalidation,R2V)、驗(yàn)證集均方根誤差(rootmeansquarederrorofvalidation,RMSEV)、平均絕對誤差(meanabsoluteerror,MAE)及性能偏差比(ratioofperformancetodeviation,RPD)評估每種回歸方法的性能。
Jabri等[28]對預(yù)測方程的R2和RPD進(jìn)行總結(jié)如下:根據(jù)R2值可以將模型穩(wěn)健性劃分為4個(gè)等級:差(R2lt;0.66)、中等(0.662的模型可以實(shí)現(xiàn)高準(zhǔn)確性預(yù)測。
最佳模型的選擇遵循以下規(guī)則:二分類模型,需要高的AUC、準(zhǔn)確性、敏感性和特異性;定量回歸模型,需要較高的R2和RPD以及較低的RMSE和MAE。
1.8 統(tǒng)計(jì)分析
所有的分析和畫圖均使用R軟件(版本4.3.1;https://www.r-project.org/)進(jìn)行。使用t檢驗(yàn)對平均值進(jìn)行兩兩比較,所有檢驗(yàn)的統(tǒng)計(jì)學(xué)顯著性分析水平在α=0.05。
2 結(jié)果與分析
2.1 牦牛奶和奶牛奶的營養(yǎng)物質(zhì)含量對比
牦牛奶與奶牛奶的主要營養(yǎng)物質(zhì)含量見表1。牦牛奶中乳脂率(8.18%)、乳蛋白率(5.26%)和總固形物含量(18.45%)顯著高于奶牛奶(Plt;0.05),乳糖率(4.39%)和尿素氮含量(8.13mg/100g)顯著低于奶牛奶(Plt;0.05)。差異最大的物質(zhì)為乳脂率。
2.2 牦牛奶、奶牛奶和摻假牦牛奶的MIRS分析
牦牛奶、摻假牦牛奶(牦牛奶-奶牛奶混合物)和奶牛奶的原始MIRS圖如圖1所示。由圖1可見,摻假牦牛奶中奶牛奶比例越高,則純牦牛奶與摻假牦牛奶的光譜差異越大(圖1A)。去除水區(qū)域后,可見最大的差異波段位于2968~2802cm?1(圖1B)以及1773~1692cm?1(圖1C),這些波段的吸光度主要與乳脂含量有關(guān)。純牦牛奶MIRS與其摻假物MIRS之間的其他較明顯差異位于牛奶指紋區(qū)(925~1604cm?1)的乳蛋白(1544cm?1)和乳糖(1159cm?1和1076cm?1)吸收區(qū)(圖1D)。
純牦牛奶與其含奶牛奶摻假物之間的MIRS存在差異,可使用簡單的目視觀察法進(jìn)行粗略的區(qū)分,但當(dāng)摻假量很低時(shí),簡單的目視觀察法可能無法準(zhǔn)確判斷,更無法量化奶牛奶的摻加程度,因此,借助機(jī)器學(xué)習(xí)算法或許可以提取這些差異,進(jìn)行鑒定或定量分析。
2.3 鑒別純牦牛奶與摻加奶牛奶的牦牛奶(牦牛奶-奶牛奶)的二分類定性模型
利用6種機(jī)器學(xué)習(xí)算法建立的鑒定純牦牛奶與摻加奶牛奶的牦牛奶的二分類模型如表2所示。SVM算法最優(yōu),校正集AUC為0.95、準(zhǔn)確性0.87、敏感性0.98、特異性0.90,驗(yàn)證集AUC為0.95、準(zhǔn)確性0.84、敏感性0.93、特異性0.87;PLSDA算法次之,NB算法表現(xiàn)最差。SVM算法與目前最常用的定性模型PLSDA(驗(yàn)證集AUC為0.93、準(zhǔn)確性0.78、敏感性0.93、特異性0.82)相比,驗(yàn)證集AUC、準(zhǔn)確性、敏感性和特異性分別提高了0.02、0.06、0.00和0.05;與表現(xiàn)最差的NB算法(驗(yàn)證集AUC為0.75、準(zhǔn)確性0.60、敏感性0.80、特異性0.65)相比,驗(yàn)證集AUC、準(zhǔn)確性、敏感性和特異性分別提高了0.20、0.24、0.13和0.22。
綜合6種機(jī)器學(xué)習(xí)建模算法和5種光譜預(yù)處理算法建立的30種模型的性能評價(jià)指標(biāo)(表2)發(fā)現(xiàn),使用無預(yù)處理的MIRS和SVM建模算法建立的鑒定純牦牛奶與摻加奶牛奶的牦牛奶的二分類定性模型產(chǎn)生了最高預(yù)測準(zhǔn)確性,AUC為0.95、準(zhǔn)確性0.84、敏感性0.93、特異性0.87,該模型可將牦牛奶樣歸為無摻假和有摻假2類。從表3可以看出,本研究建立的預(yù)測模型可以鑒別出純牦牛奶的準(zhǔn)確性是93%,鑒別出摻加了50%奶牛奶的牦牛奶的準(zhǔn)確性為100%,鑒別出摻加了25%奶牛奶的牦牛奶的準(zhǔn)確性約90%,然而,當(dāng)奶牛奶摻加比例小于10%時(shí),預(yù)測準(zhǔn)確性不高,只有62%。
2.4 預(yù)測牦牛奶中摻加奶牛奶比例的定量回歸模型
最佳MIRS預(yù)處理及12種機(jī)器學(xué)習(xí)算法分別建立的預(yù)測牦牛奶中摻加奶牛奶比例的回歸模型性能見表4。PLSR被認(rèn)為是傳統(tǒng)的基準(zhǔn)方法,因?yàn)镻LSR在化學(xué)計(jì)量分析中始終具有強(qiáng)大的預(yù)測性能,然而,在本研究中PLSR并沒有表現(xiàn)出最佳效果。SSR、PPR、CART、RR、EN和LASSO算法均提供了較差的預(yù)測結(jié)果,RPDV小于2。BRNN、GBM和XGB算法優(yōu)于PLSR,其余算法差于PLSR。BRNN算法表現(xiàn)最優(yōu),其次是GBM和XGB,CART算法表現(xiàn)最差。BRNN算法與最常用的PLSR算法相比,RMSEV降低了2.37%,RV2和RPDV分別提高了0.10和0.76。
綜合以上12種機(jī)器學(xué)習(xí)建模算法和5種MIRS預(yù)處理算法建立的60種模型的性能評價(jià)指標(biāo)結(jié)果發(fā)現(xiàn),利用BRNN建模算法和1D光譜預(yù)處理算法建立的量化牦牛奶中奶牛奶摻加比例的回歸模型性能最優(yōu),其中,RMSEV=6.57%,MAEV=5.22%,RV2=0.88,RPDV=2.89。
3 討論
3.1 牦牛奶、摻假牦牛奶(牦牛奶-奶牛奶混合物)和奶牛奶的中紅外光譜分析
牛奶的光譜由5008~925cm?1范圍內(nèi)的1060個(gè)波點(diǎn)組成,劃分為短波紅外區(qū)(short-wavelengthinfrared,SWIR)、中波紅外區(qū)(mid-wavelengthinfra?red,MWIR)和長波紅外區(qū)(long-wavelengthinfra?red,LWIR)[29]。5010~3673cm?1被稱為SWIR區(qū)域;3669~3052cm?1被稱為SWIR-MWIR區(qū)域;3048~1701cm?1被稱為MWIR-1區(qū)域;1698~1585cm?1被稱為MWIR-2區(qū)域;1582~925cm?1被稱為MWIR-LWIR區(qū)域。本研究發(fā)現(xiàn),牦牛奶、摻假牦牛奶(牦牛奶-奶牛奶混合物)和奶牛奶的光譜差異主要存在于MWIR-1、MWIR-2、SWIR-MWIR和MWIR-LWIR區(qū)域。MWIR-2及SWIR-MWIR區(qū)域與水吸收有關(guān),這些光譜特征增加了不同牛奶樣品之間吸光度的變異性,在預(yù)測牛奶物質(zhì)成分及奶牛生理狀態(tài)時(shí)這個(gè)區(qū)域通常被排除在外。MWIR-1區(qū)域主要的吸收峰是C—H、CO,C—N和N—H鍵[30],所有這些鍵都與乳脂含量有關(guān)。在這一區(qū)域,檢測到一些吸光度差異較大的峰。第1個(gè)重要光譜區(qū)域位于2968~2802cm?1,該區(qū)域與Fat-B的C—H鍵振動有關(guān)[31]。第2個(gè)重要光譜區(qū)域位于1773~1692cm?1,此區(qū)域與Fat-A的羰基振動有關(guān)[31],本研究建模過程用到了這2個(gè)光譜吸收區(qū)域。本研究建模用到的另外1個(gè)光譜區(qū)域是MWIR-LWIR區(qū)域,這是牛奶的指紋區(qū),與乳蛋白[32]、尿素氮[33]和乳糖[34]吸收有關(guān)。
3.2 鑒定和預(yù)測牦牛奶中摻加奶牛奶模型的準(zhǔn)確性
目前用于檢測牦牛奶中奶牛奶摻假的方法有聚丙烯酰胺凝膠電泳[35]、酶聯(lián)免疫吸附測定技術(shù)[1]和質(zhì)譜法[36]等,這些技術(shù)的檢測誤差與準(zhǔn)確性與本研究相似,但本研究使用的方法具有快速、環(huán)境友好以及大批量測定的優(yōu)點(diǎn)。目前還沒有關(guān)于MIRS技術(shù)預(yù)測牦牛奶中摻加奶牛奶的報(bào)道。本研究利用6種機(jī)器學(xué)習(xí)分類建模算法、12種機(jī)器學(xué)習(xí)回歸建模算法和5種光譜預(yù)處理方法建立了基于MIRS的牦牛奶(原料奶)中摻加奶牛奶的定性鑒定模型和定量預(yù)測模型,并篩選出2個(gè)最優(yōu)模型:對于定性鑒別模型(二分類),SVM建模算法和無預(yù)處理光譜建立的模型表現(xiàn)出最優(yōu)預(yù)測性能,驗(yàn)證集AUC為0.95、準(zhǔn)確性0.84、敏感性0.93、特異性0.87,對于定量回歸模型,BRNN算法和1D光譜預(yù)處理算法建立的模型表現(xiàn)出最優(yōu)預(yù)測性能,RMSEV=6.57%,MAEV=5.22%,RV2=0.88,RPDV=2.89。這些性能統(tǒng)計(jì)結(jié)果表明,本研究建立的2個(gè)模型性能良好,可以對牦牛奶中奶牛奶的摻加情況進(jìn)行初步的預(yù)測[27-28]。但由于只有10%、25%、50%這3個(gè)摻加梯度,定量模型的性能結(jié)果僅供參考。
現(xiàn)有的關(guān)于MIRS技術(shù)預(yù)測水牛奶[15-19]、山羊奶[17,20]和駱駝奶[21-22]中摻加奶牛奶比例的研究得到的預(yù)測誤差(RMSEV)范圍分別為2.84%~7.42%、2.84%~8.03%和0.87%~0.99%,本研究建立的牦牛奶中摻加奶牛奶的定量預(yù)測模型的RMSEV為6.57%,在水牛奶、山羊奶的預(yù)測誤差范圍內(nèi)。與其他研究相比,本研究的優(yōu)勢在于數(shù)據(jù)量大和嘗試?yán)枚喾N建模算法及光譜預(yù)處理方法,從而能夠充分挖掘MIRS中包含的有用信息,建立穩(wěn)健的預(yù)測模型。由于本研究建模過程中使用的數(shù)據(jù)量不足以滿足生產(chǎn)應(yīng)用的需要,而且牦牛奶的數(shù)據(jù)僅來自我國的一個(gè)省份,沒有利用其他省份的數(shù)據(jù)進(jìn)行外部驗(yàn)證,因此這些方法在不同地理區(qū)域和不同規(guī)模的乳品業(yè)中的實(shí)用性還有待考慮。然而,從本研究獲得的初步模型的結(jié)果參數(shù)來看,所開發(fā)的模型有望應(yīng)用于不同地理區(qū)域和不同生產(chǎn)規(guī)模的乳品業(yè)。
3.3 現(xiàn)代統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法與PLS算法之間的比較
預(yù)測結(jié)果的可靠性和準(zhǔn)確性在很大程度上取決于模型的質(zhì)量,模型的質(zhì)量與建模數(shù)據(jù)集、光譜質(zhì)量以及用于開發(fā)預(yù)測模型的算法(包括變量選擇、光譜預(yù)處理和模型)有關(guān)[37]。由于涵蓋共線、高維數(shù)據(jù)集,PLS是將牛奶的MIRS數(shù)據(jù)與牛奶和動物性狀相關(guān)聯(lián)的首選及最傳統(tǒng)的方法,但是對于變量之間的復(fù)雜關(guān)系(如非線性和互作),可能并不是理想的處理方法[38]。關(guān)于MIRS對原料奶摻加預(yù)測的研究,主要利用的建模算法為PLS,一些牛奶MIRS的研究證明其他機(jī)器學(xué)習(xí)算法如隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、決策樹、神經(jīng)網(wǎng)絡(luò)等也能夠有效處理牛奶MIRS數(shù)據(jù)[39],均能較好地對復(fù)雜關(guān)系進(jìn)行建模,但迄今為止,這些現(xiàn)代統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法在MIRS分析中的應(yīng)用仍然較少,很少有學(xué)者探究利用MIRS信息預(yù)測動物原料奶中摻假的潛力以及與PLS算法的比較。
本研究利用多種現(xiàn)代統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法建立了預(yù)測牦牛奶中摻加奶牛奶的模型,并與PLS算法進(jìn)行比較。研究發(fā)現(xiàn),現(xiàn)代統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法對牦牛奶摻假的檢測表現(xiàn)出優(yōu)于PLS的性能,尤其是SVM算法和BRNN算法。SVM能夠通過核函數(shù)將樣本映射至較高維空間,有效增強(qiáng)模型的學(xué)習(xí)能力,適合處理非線性問題,且對樣本數(shù)據(jù)分布無要求,對噪聲、隨機(jī)的容限度較大[40]。BRNN是1種將貝葉斯方法應(yīng)用于神經(jīng)網(wǎng)絡(luò)的正則化技術(shù)。研究表明,與線性模型(如PLS)相比,神經(jīng)網(wǎng)絡(luò)能夠提供較好的預(yù)測值[41],但很容易受到過擬合的影響,在預(yù)測新數(shù)據(jù)時(shí)可能表現(xiàn)出較低的穩(wěn)健性,具有貝葉斯正則化訓(xùn)練算法的神經(jīng)網(wǎng)絡(luò)可以避免這種過擬合。本研究使用了3種收縮方法(LASSO、EN和RR),總的來說,這些算法的預(yù)測性能相似(均差于PLSR),但LASSO和EN總是略優(yōu)于RR。Sen等[34]也發(fā)現(xiàn)了類似的規(guī)律,這是在預(yù)期內(nèi)的,因?yàn)長ASSO和EN可以直接進(jìn)行變量選擇,而RR保留了所有變量。SSR性能同樣差于PLSR,也是一種變量選擇方法,但與LASSO和EN不同的是,SSR并不是基于縮放方法進(jìn)行變量選擇,而是采用貝葉斯方法。
本研究利用MIRS建立了檢測和定量牦牛奶中摻加奶牛奶的預(yù)測模型,即基于SVM建模算法、無預(yù)處理光譜建立的鑒定純牦牛奶和摻加奶牛奶的牦牛奶的預(yù)測模型和基于貝葉斯正則化神經(jīng)網(wǎng)絡(luò)建模算法、一階導(dǎo)數(shù)光譜預(yù)處理建立的預(yù)測牦牛奶中奶牛奶摻加比例的定量回歸模型。結(jié)果表明,MIRS具有預(yù)測牦牛奶中摻加奶牛奶的潛力,二分類預(yù)測模型整體準(zhǔn)確性為84%,該模型鑒別純牦牛奶的準(zhǔn)確性為93%,鑒別出牦牛奶中摻加了50%奶牛奶的準(zhǔn)確性為100%,鑒別出牦牛奶中摻加了25%奶牛奶的準(zhǔn)確性約90%,鑒別出牦牛奶中摻加了10%奶牛奶的準(zhǔn)確性約62%,定量預(yù)測模型的預(yù)測誤差為6.57%。SVM算法在分類模型中表現(xiàn)較優(yōu),BRNN算法在定量模型中表現(xiàn)較優(yōu),在其他相關(guān)研究中也可考慮這2種算法的應(yīng)用。為了更準(zhǔn)確地對牦牛奶不同比例的摻假情況進(jìn)行檢測,所建立的模型還需要進(jìn)行更多訓(xùn)練和優(yōu)化。