關(guān)鍵詞中紅外光譜;牛奶;β-乳球蛋白;機(jī)器學(xué)習(xí)算法;光譜預(yù)處理
牛奶是人類營養(yǎng)物質(zhì)的重要來源之一,已成為人們生活和農(nóng)業(yè)經(jīng)濟(jì)的重要組成部分。牛奶中的營養(yǎng)物質(zhì)主要是由水分、蛋白質(zhì)、脂肪、乳糖、維生素和礦物質(zhì)等組成[1]。牛奶含有30~36g/L總蛋白質(zhì),約占牛奶總量的3.30%,分為酪蛋白和乳清蛋白[2],其中20%的蛋白質(zhì)主要由α-乳白蛋白(0.60~1.70g/L)和β-乳球蛋白(2~4g/L)組成[3]。研究[4-6]表明,β-乳球蛋白具有與脂肪酸或維生素結(jié)合的能力,能夠作為脂溶性維生素的載體,還具有一定的抗氧化能力和免疫功能。牛奶是人體獲取β-乳球蛋白的重要來源,β-乳球蛋白作為一種多功能蛋白具有一定的營養(yǎng)價(jià)值。因此,準(zhǔn)確測定牛奶中β-乳球蛋白含量和確定牛奶中β-乳球蛋白含量的影響因素對奶牛養(yǎng)殖業(yè)和食品產(chǎn)業(yè)發(fā)展,以及人類的生命健康具有重大意義。
當(dāng)前用于乳清蛋白含量檢測的分析技術(shù)主要有高效液相色譜法(HPLC)[7]、酶聯(lián)免疫吸附測定法(ELISA)[8]、毛細(xì)管電泳法(CZE)[9]等。然而,這些方法并不適用于牛奶的規(guī)模化和常規(guī)化檢測。中紅外光譜(mid-infraredspectroscopy,MIRS)是一種快速、批量、無損耗、無污染且具有成本效益的技術(shù),廣泛應(yīng)用于常規(guī)乳成分檢測和奶牛生產(chǎn)性能測定[10](dairyherdimprovement,DHI)。目前,許多研究也開始關(guān)注牛奶中的精細(xì)化成分及奶牛生理狀態(tài)的測定,如奶牛血液代謝物、牛奶中維生素的含量、脂肪酸組成、礦物質(zhì)含量、奶?;蛐?、奶牛能量狀態(tài)、奶牛妊娠狀態(tài)和奶牛甲烷排放等[11-13]。MIRS作為一種高通量、低成本的檢測工具,應(yīng)用于牛奶中β-乳球蛋白含量的快速測定有極大的潛力。國內(nèi)的DHI測定主要是針對牛奶中乳蛋白、乳脂、乳糖、總固形物和尿素氮等5個(gè)常規(guī)指標(biāo),并且使用的預(yù)測模型均來自國外,不同國家或地區(qū)牛奶的MIRS特征存在較大差異,可能會對測定結(jié)果產(chǎn)生一定的影響。
目前針對牛奶中β-乳球蛋白含量的快速、批量檢測方法研究較少,國外的學(xué)者從2009年開始嘗試將傳統(tǒng)機(jī)器學(xué)習(xí)方法與測定的牛奶的MIRS結(jié)合建立β-乳球蛋白的定量檢測模型[14],并在2016年將該方法應(yīng)用于多品種奶牛牛奶中β-乳球蛋白含量檢測模型的建立[15-17]。然而,目前尚無檢測中國荷斯坦奶牛奶中β-乳球蛋白含量的MIRS預(yù)測模型。因此,本試驗(yàn)通過在我國采集具有代表性和多樣性的牛奶樣品,測定牛奶樣品的MIRS數(shù)據(jù)和牛奶中β-乳球蛋白含量,結(jié)合二者建立β-乳球蛋白含量的預(yù)測模型,同時(shí)比較不同預(yù)處理方法對牛奶中β-乳球蛋白含量預(yù)測的準(zhǔn)確性,以期為建立具有我國自主產(chǎn)權(quán)的適合我國牛奶中物質(zhì)成分含量的MIRS定量預(yù)測模型提供參考。
1 材料與方法
1.1 牛奶的采集和樣品的分裝
從我國西北、華北和華中主要產(chǎn)奶地區(qū)的5個(gè)奶牛場(牧場A、牧場B、牧場C、牧場D、牧場E)采集2022年4—11月健康狀況良好的奶牛奶樣共343份,從西北4個(gè)區(qū)域的多個(gè)牧場混合罐裝奶樣中采集2022年3—6月的混合奶樣158份,共采集501份牛奶樣品。
利用自動擠奶裝置完成牛奶采集工作,每份牛奶采集約100mL,分裝到采樣瓶中,依次編號,并向每個(gè)采樣瓶中立即加入溴硝丙二醇防腐劑,緩慢搖晃使其充分溶解。運(yùn)回途中在奶樣周圍放置冰袋(2~4℃)防止變質(zhì)。樣本到達(dá)DHI實(shí)驗(yàn)室后,立即進(jìn)行光譜測定和采集。完成光譜采集后剩余的牛奶樣本倒入離心管中(50~55mL),置于?20℃冰箱中保存,用于測定β-乳球蛋白的含量。
1.2 牛奶中β-乳球蛋白含量的檢測
1)牛奶樣品前處理。將在?20℃冰箱冷凍保存的奶樣取出,放置在4℃冰箱低溫過夜解凍,直至奶樣完全解凍。將解凍后的奶樣取出放置在常溫環(huán)境,混勻。取1mL混勻的牛奶樣品于50mL離心管中加入超純水定容至50mL,滴加稀釋后的乙酸溶液(超純水與乙酸1∶1混合)使樣品的pH值約為4.60,混勻靜置1h。將靜置后的奶樣以8000r/min的轉(zhuǎn)速離心5min,用1mL無菌注射器吸取離心后的奶樣上清液1mL,緩慢用微孔濾膜將上清液過濾到進(jìn)樣瓶內(nèi),待測。
2)牛奶中β-乳球蛋白含量測定方法。使用高效液相色譜儀對牛奶樣本中的β-乳球蛋白含量進(jìn)行檢測,儀器條件和測定步驟參照NY/T1450—2007《中國荷斯坦牛生產(chǎn)性能測定技術(shù)規(guī)范》和《高效液相色譜法同時(shí)測定巴氏殺菌乳中α-乳白蛋白和β-乳球蛋白》[18-19]。通過高效液相色譜儀測定的β-乳球蛋白含量被稱為“真實(shí)值”。
1.3 牛奶中紅外光譜的采集與測定
牧場A和牧場B采集的所有奶樣在寧夏DHI中心進(jìn)行光譜采集,牧場C、牧場D、牧場E采集的奶樣在新疆DHI中心進(jìn)行光譜采集,寧夏各地牧場采集的奶樣在寧夏獸藥飼料監(jiān)察進(jìn)行光譜采集,均使用丹麥FOSS公司的MilkoScanTMFT+乳成分分析儀測定。牛奶樣品的光譜測定過程:將在保溫箱低溫保存(2~4℃)的新鮮奶樣取出后放置在架子上,于45℃水浴鍋內(nèi)恒溫預(yù)熱30min,將預(yù)熱好的奶樣搖勻后放在檢測傳送帶上,打開每個(gè)牛奶樣品瓶蓋,對奶樣依次進(jìn)行檢測,檢測結(jié)果輸出牛奶的MIRS、牛奶常規(guī)乳成分(乳脂、乳蛋白、乳糖、總固形物和尿素氮)及牛奶體細(xì)胞數(shù)數(shù)據(jù)。牛奶樣品測定結(jié)束后,在乳成分分析儀配套的軟件上將采集的MIRS數(shù)據(jù)導(dǎo)出。
1.4 異常值的篩選
本試驗(yàn)共采集501份涵蓋3個(gè)季節(jié)(因新冠疫情無法采集冬季奶樣)、1~6胎次、泌乳階段0~305d等條件的具有代表性和多樣性的牛奶樣品,每個(gè)樣品均設(shè)置平行重復(fù)樣;從501份奶樣中,剔除MIRS的馬氏距離(Mahalanobisdistance,MD)lt;3、牛奶量不足及真實(shí)值異常(|X1-X2|(X1+X2)/2≥10%,X為真實(shí)值)的無效數(shù)據(jù)54份,獲得用于建模和驗(yàn)證的樣品數(shù)量如表1所示。
1.5 模型的建立
1)數(shù)據(jù)集劃分。本研究中β-乳球蛋白樣品量為447份,先在所有數(shù)據(jù)中隨機(jī)抽取5個(gè)樣品作為模型外部驗(yàn)證集,剩余的數(shù)據(jù)中75%用于建模,建模過程使用交叉驗(yàn)證調(diào)整模型參數(shù),為交叉驗(yàn)證集,25%為測試集,即交叉驗(yàn)證集與測試集的比例為3∶1。結(jié)合測定真實(shí)值對數(shù)據(jù)進(jìn)行異常值剔除,訓(xùn)練模型的過程中進(jìn)行10折交叉驗(yàn)證,即從驗(yàn)證集中隨機(jī)移除據(jù)進(jìn)行預(yù)測分類。該過程重復(fù)10次獲得所有記錄的預(yù)測結(jié)果,以確保結(jié)果的穩(wěn)健性和泛化能力。
2)建模光譜數(shù)據(jù)預(yù)處理方法及特征提取。遵循比爾定律,在建立模型之前,通過A=lg(1/T)將以透射率表示的光譜數(shù)據(jù)轉(zhuǎn)換為吸光度。在建立預(yù)測模型前對光譜進(jìn)行有效預(yù)處理,目的是為去除光譜采集過程中環(huán)境、儀器及操作引起的系統(tǒng)誤差。本研究采用無標(biāo)準(zhǔn)化(none)、歸一化(min-maxscaling,MMS)、標(biāo)準(zhǔn)化(standardscaler,SS)、均值中心化(mean-center,MC)、標(biāo)準(zhǔn)正態(tài)變量變換(standardnormalvariatetransformation,SNV)、移動平均平滑(movingaverage,MA)、卷積平滑(savitzkygolay,SG)、一階差分(firstdifferencemethod,D1)、二階差分(secondorderdifference,D2)、趨勢校正(detrendcorrection,DT)、多元散射校正(multiplicativescattercorrection,MSC)、小波變換(wavelettransform,WAVE)12種方法對光譜數(shù)據(jù)進(jìn)行連續(xù)2次的特征預(yù)處理。
3)建模方法。將牛奶中β-乳球蛋白含量的真實(shí)10%的數(shù)據(jù),使用剩余數(shù)據(jù)建立的模型對移除的數(shù)值作為因變量,經(jīng)過預(yù)處理及手動選取特征波段后的光譜作為預(yù)測變量進(jìn)行建模,本研究主要使用偏最小二乘回歸(partialleastsquaresregression,PLSR)建模算法。
1.6 模型的評價(jià)指標(biāo)
本試驗(yàn)利用交叉驗(yàn)證集決定系數(shù)(coefficientofdeterminationofcalibration,RC2)、交叉驗(yàn)證集均方根誤差(rootmeansquareerrorofcalibration,RMSEC,公式中用x表示)、測試集決定系數(shù)(coefficientofde?terminationofpredictionset,RP2)、測試集均方根誤差(rootmeansquarederrorofprediction,RMSEP,公式中用x表示)和性能偏差比(ratioofperformancetodeviation,RPD,公式中用m表示)綜合評價(jià)模型性能以篩選出最佳模型。具體公式如下:
其中yn和y?n分別代表3種乳成分?jǐn)?shù)據(jù)集的真實(shí)值和預(yù)測值。yˉ是y值的平均值,N代表樣本數(shù)量,STDEV代表樣本的標(biāo)準(zhǔn)差。
2 結(jié)果與分析
2.1 牛奶中β-乳球蛋白含量的描述性統(tǒng)計(jì)
由表2可知,交叉驗(yàn)證集和測試集牛奶中β-乳球蛋白的含量分別為2.97和2.79g/L;牛奶中β-乳球蛋白含量具有明顯的變異性,變異系數(shù)分別為37.04%和39.07%,表明樣本具有一定的多樣性和代表性,可用于建立模型。
2.2 基于牛奶中MIRS的β-乳球蛋白含量預(yù)測模型的建立
1)建模MIRS數(shù)據(jù)預(yù)處理方法的篩選。本研究主要采用材料與方法中“1.6第2)部分建模光譜數(shù)據(jù)預(yù)處理方法及特征提取”中提及的12種MIRS數(shù)據(jù)預(yù)處理方法及其相互組合對光譜數(shù)據(jù)進(jìn)行特征預(yù)處理。將樣品MIRS全波段進(jìn)行二次預(yù)處理,利用PLSR算法建立模型,比較模型效果。如表3所示,選擇較優(yōu)的預(yù)處理組合。
12種方法建立的牛奶中β-乳球蛋白含量預(yù)測模型在交叉驗(yàn)證集上的RC2為0.2322~0.8904,RMSEC為0.3644~0.9644g/L;測試集上的RP2為0~0.4665,RMSEP為0.7973~11.4839g/L。綜合比較各項(xiàng)評價(jià)指標(biāo),發(fā)現(xiàn)在第1次預(yù)處理或第2次預(yù)處理時(shí)使用D1或D2方法交叉驗(yàn)證集效果較好,但測試集效果一般。為避免過擬合現(xiàn)象出現(xiàn),并保持模型訓(xùn)練結(jié)果較好,同時(shí)測試結(jié)果有較大提升空間,發(fā)現(xiàn)使用SS+D1預(yù)處理組合時(shí)建模效果優(yōu)于其他組合(RC2=0.8849,RMSEC=0.3734g/L,RP2=0.3777,RMSEP=0.8611g/L)。
2)建模特征波段的篩選。牛奶樣本的平均光譜圖見圖1。牛奶的MIRS由925~5008cm?1范圍內(nèi)的1060個(gè)單獨(dú)的波點(diǎn)組成,大致分為短波紅外區(qū)(short-wavelengthinfrared,SWIR)、中波紅外區(qū)(mid-wavelengthinfrared,MWIR)和長波紅外區(qū)(long-wavelengthinfrared,LWIR)3個(gè)區(qū)域[18]。
本研究采用手動選擇方法對MIRS特征波段進(jìn)行選擇,在確定預(yù)處理為SS+D1的基礎(chǔ)上,人工調(diào)整選取的波段位置,調(diào)整出較優(yōu)的模型。如圖2所示,β-乳球蛋白模型選取了16段特征波段:999.222~1130.394,1172.832~1284.714,1400.454~1547.058,1759.248~1917.426,1940.574~2056.314,2152.764~2191.344,2245.356~2361.096,2581.002~2716.032,3236.862~3240.72,3263.868~3371.892,3398.898~3526.212,3973.74~3985.314,4236.084~4363.398,4459.848~4583.304,4594.878~4718.334,4776.204~4976.82cm?1。每一段前后允許有2個(gè)波點(diǎn)的差距。結(jié)果發(fā)現(xiàn)模型中多波段與多波點(diǎn)的協(xié)同作用,模型可以達(dá)到較優(yōu)效果。
3)模型參數(shù)及較優(yōu)模型的篩選。模型參數(shù)包括模型預(yù)處理方法的參數(shù)以及算法的參數(shù),由于本研究選擇的較優(yōu)模型使用SS+D1這2種無參數(shù)的預(yù)處理方法,所以模型的主要參數(shù)為偏最小二乘回歸算法的參數(shù),即主成分(n_component),參數(shù)選擇結(jié)果對比見表4。
由表4可知,對于β-乳球蛋白的模型在主成分n_component=15時(shí)效果最好,RC2和RP2分別為0.8129、0.7688,RMSEC和RMSEP分別為0.4762、0.5249g/L,RPD為2.0766,即β-乳球蛋白含量預(yù)測較優(yōu)模型為SS+D1+PLSR(n_component=15)。
2.3 模型預(yù)測效果的驗(yàn)證
利用建立的較優(yōu)模型對5個(gè)外部驗(yàn)證樣本進(jìn)行乳球蛋白含量預(yù)測,結(jié)果見表5。預(yù)測偏差的絕對值分別為0.1745、0.1190、0.0662、0.0693、0.1119,預(yù)測差比分別為4.69%、3.34%、1.93%、2.03%、3.04%,平均預(yù)測差比為3.006%。該模型預(yù)測的β-乳球蛋白含量準(zhǔn)確性較高,可用于牛奶的β-乳球蛋白含量預(yù)測。
圖3是β-乳球蛋白較優(yōu)模型得出的真實(shí)值和預(yù)測值的線性擬合圖,可以看出交叉驗(yàn)證集、測試集的真實(shí)值和預(yù)測值的散點(diǎn)圖均圍繞在y=x(真實(shí)值等于預(yù)測值)線附近,表明預(yù)測含量和真實(shí)含量之間存在明顯的相關(guān)性,這個(gè)模型在試驗(yàn)數(shù)據(jù)范圍內(nèi)預(yù)測能力較好。
3 討論
3.1 最優(yōu)模型的選擇
中紅外光譜數(shù)據(jù)不僅包含生物樣品中的化合物相關(guān)信息信號,還包括來自環(huán)境背景、高頻噪聲、基線偏移和重疊譜帶的非信息信號[20]。因此,要準(zhǔn)確獲得樣品本身的光譜信息不僅需要在進(jìn)行試驗(yàn)前注意基線漂移問題,還需要在建立預(yù)測模型前對光譜進(jìn)行預(yù)處理及特征波段的選擇,以減弱各種非目標(biāo)因素對光譜的影響及簡化后續(xù)建模處理運(yùn)算過程,提高預(yù)測準(zhǔn)確度[21]。本研究中對光譜進(jìn)行了12種預(yù)處理方法的144種組合預(yù)處理,廣泛比較了多種預(yù)處理之間的優(yōu)劣性,選擇SS+D1的預(yù)處理方式。標(biāo)準(zhǔn)化處理能夠消除尺度差異過大帶來的不良影響,而一階導(dǎo)數(shù)通過消除恒定基線來提高光譜分辨率,減小儀器背景或偏移對信號的影響。
PLSR算法是對MIRS這類線性強(qiáng)、多特征數(shù)據(jù)建模最有效的算法之一,同時(shí)這種算法很少出現(xiàn)過擬合情況,因此PLSR是利用MIRS建立定量預(yù)測模型最廣泛的傳統(tǒng)機(jī)器學(xué)習(xí)算法[22-24],它通過特征光譜降維和線性回歸構(gòu)建特征矩陣并對奶成分進(jìn)行預(yù)測。
選取特征波段的方法有很多,主要包括算法選取特征與手動選取特征兩類[25]。筆者所在實(shí)驗(yàn)室前期的研究結(jié)果[26]表明針對乳清蛋白進(jìn)行建模時(shí)采用手動選取特征的方法能夠達(dá)到更好的建模效果,其優(yōu)點(diǎn)在于選擇的過程中可以強(qiáng)化波段(即相鄰波點(diǎn))的作用,兼顧波點(diǎn)之間的共線性問題,同時(shí)可以在提升模型的過程中保留更多的光譜原始信息狀態(tài),包容性與泛化能力更強(qiáng),選取波段準(zhǔn)確;缺點(diǎn)是選擇速度慢,效率低。在目前的研究中,為了提高特征選擇的效率,很多學(xué)者采用算法選取特征的方法,但這種方法忽略了相鄰波點(diǎn)之間的協(xié)同作用,思路較為單一。因此,為了保證模型的性能能夠達(dá)到更高水平,本研究采取了手動選取特征波段的方法。
3.2 基于牛奶中MIRS的β-乳球蛋白含量預(yù)測模型的準(zhǔn)確性
本研究首次建立了基于MIRS的中國荷斯坦牛牛奶中β-乳球蛋白含量的預(yù)測模型,模型的RC2和RP2分別為0.8129、0.7688,RMSEC和RMSEP分別為0.4762、0.5249g/L,RPD為2.0766,對外部驗(yàn)證樣本進(jìn)行預(yù)測的平均預(yù)測差比為3.006%。
在之前的大部分研究中,PLSR方法被廣泛地應(yīng)用于β-乳球蛋白預(yù)測模型的建立,其RP2范圍為0.34~0.64,RMSEP范圍為0.05~2.70g/L,RPD的范圍為0.80~1.66[17,24]。可以看出,本研究建立的牛奶中β-乳球蛋白含量預(yù)測模型的RP2和RPD更高,但RMSE也略高于其他學(xué)者的研究[14-15]。R2衡量了預(yù)測值對于真實(shí)值的擬合程度,R2的值越接近1,則模型的預(yù)測值越接近真實(shí)值,擬合效果越好。RMSE可以用于衡量模型預(yù)測值與真實(shí)值之間的差異,可以更直觀地表達(dá)模型預(yù)測誤差的大小[27-28]。Chris?tophe等[29]研究結(jié)果表明,比較模型效果時(shí)使用RPD更有意義,且RPDgt;2時(shí)表明預(yù)測模型可實(shí)際應(yīng)用。外部驗(yàn)證集中的樣本真實(shí)值與預(yù)測值的預(yù)測偏差小,預(yù)測差比均lt;5%,說明所建模型的預(yù)測精確性較高[28-29]。因此,本研究建立的牛奶中β-乳球蛋白含量預(yù)測模型優(yōu)于其他研究結(jié)果[30-31],有實(shí)際應(yīng)用的潛力。預(yù)測效果有差異可能是由于樣本來源、真實(shí)值的測量方法、預(yù)處理方法和特征選擇波段等有差異導(dǎo)致[32-33]。之前的研究中很少對MIRS進(jìn)行預(yù)處理或僅做簡單的求導(dǎo)處理,同時(shí)在建模之前僅去除以高噪聲為特征的水吸收區(qū)域甚至使用全波段,而本研究使用的二次預(yù)處理方法和手工選擇16段特征波段可能更大程度上減少了非信息信號的干擾,準(zhǔn)確性更高[24]。
本研究比較了不同預(yù)處理方法對牛奶中β-乳球蛋白含量預(yù)測的準(zhǔn)確性,在國內(nèi)率先利用牛奶的MIRS建立牛奶中β-乳球蛋白預(yù)測模型。結(jié)果表明基于MIRS的牛奶中β-乳球蛋白模型預(yù)測準(zhǔn)確性高,能在試驗(yàn)數(shù)據(jù)范圍內(nèi)預(yù)測β-乳球蛋白含量,且建模之前應(yīng)用SS+D1的預(yù)處理方法和手動選擇特征波段是提高預(yù)測模型精度的有效方法。本研究建立的模型性能雖有一定的潛在應(yīng)用價(jià)值,但其主要對中國荷斯坦奶牛一個(gè)品種樣本進(jìn)行建立,故還需要增加不同地區(qū)和不同品種牛奶樣品以增加建模樣品的多樣性,提高模型的準(zhǔn)確性、穩(wěn)健性和通用性;同時(shí),使用不同建模技術(shù)和策略對β-乳球蛋白含量的預(yù)測模型進(jìn)一步完善和優(yōu)化,為我國奶牛生產(chǎn)性能DHI測定指標(biāo)的拓展和提高牛奶品質(zhì)等提供技術(shù)支撐。