阮健,陳焱森,萬平民,潘中保,張震,閆磊,任小麗,張淑君
(1.華中農(nóng)業(yè)大學(xué),動(dòng)物遺傳育種與繁殖教育部實(shí)驗(yàn)室,武漢 430070;2.武漢金旭畜牧科技發(fā)展有限公司,武漢 430065;3.河南省奶牛生產(chǎn)性能測(cè)定中心,鄭州 450046)
收稿日期:2018-08-20
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃(2017YFD0501903);奶業(yè)技術(shù)體系崗位(CARS-36)資助。
通訊作者:張淑君,教授,博士生導(dǎo)師,主要研究方向?yàn)閯?dòng)物遺傳育種與繁殖。
牛奶及其奶產(chǎn)品中物質(zhì)含量豐富,中紅外光譜(MIR)技術(shù)是一項(xiàng)能夠快速、無損、定性、定量檢測(cè)奶及奶產(chǎn)品中各種有機(jī)物與無機(jī)物的檢測(cè)技術(shù)。其光譜條帶密度與官能團(tuán)的比例關(guān)系可用于定量分析[1]。為了建立準(zhǔn)確度和精度高的預(yù)測(cè)模型,國(guó)內(nèi)外研究人員對(duì)大量的建模方法進(jìn)行了比較試驗(yàn)。使用正確的建模方法可以極大提高模型的健壯性,在進(jìn)行外部驗(yàn)證時(shí)會(huì)得到較高的決定系數(shù)(R2)?;貧w建模方法主要分為線性和非線性兩種,其中非線性方法的應(yīng)用最廣泛。除此之外,有些多用于分類分析的方法也可以用于回歸建模。2006年,國(guó)外學(xué)者通過MIR成功建立了預(yù)測(cè)模型,可預(yù)測(cè)奶牛中大部分脂肪酸含量[2],并在后來的幾年里,通過不斷改進(jìn)方法,提高了模型的預(yù)測(cè)準(zhǔn)確性。2010年,科學(xué)家用MIR順利預(yù)測(cè)了牛奶的蛋白質(zhì)組成[3],2011年應(yīng)用MIR預(yù)測(cè)了牛奶的真蛋白質(zhì)含量[4]。在隨后的幾年中,建立了大量具有高精度的預(yù)測(cè)模型。在研究人員不斷地嘗試和選擇中,根據(jù)均方根誤差(RMSEP)和決定系數(shù)(R2)等參數(shù)大小,對(duì)模型進(jìn)行了比較和評(píng)價(jià)。本文對(duì)這些常用于牛奶及奶產(chǎn)品中成分定量回歸建模的方法及其特征給與介紹和總結(jié),以期為我國(guó)以后相關(guān)研究及應(yīng)用提供參考。
牛奶及奶產(chǎn)品通過中紅外光譜儀得到的MIR以及其轉(zhuǎn)化的數(shù)據(jù)矩陣往往存在自變量之間的多重相關(guān)性,如果采用最小二乘法(LS),這種變量多重相關(guān)性會(huì)嚴(yán)重危害參數(shù)估計(jì),擴(kuò)大模型預(yù)測(cè)誤差,影響模型穩(wěn)定性。而偏最小二乘法(PLS)能規(guī)避這個(gè)問題?,F(xiàn)行的校正方法即是偏最小二乘法(PLS)[5],偏最小二乘回歸的基本作法是首先在自變量集中提出第一成分t1(t1是x1,x2,…,xm的線性組合,且盡可能多地提取原自變量集中的變異信息);同時(shí)在因變量集中也提取第一成分u1,并要求t1與u1相關(guān)程度達(dá)到最大。此方法運(yùn)用了部分主成分分析法(PCA)的思想,PCA可以解決變量間共線性的問題。二者的不同在于PCA是從數(shù)據(jù)中抽提出的主成分進(jìn)行回歸,一般來說是選擇自變量得分靠前的幾個(gè)主成分,只考慮了自變量的主成分,所提取的主成分對(duì)自變量系統(tǒng)有很強(qiáng)的解釋能力,它們是通過自變量之間的相關(guān)系數(shù)矩陣的特征值、特征向量得出的,包含了大部分自變量的變異信息,在提取主成分的過程中,與因變量是完全分開的,二者之間沒有任何聯(lián)系[6]。然后根據(jù)得分系數(shù)矩陣將原變量代回到所得的新模型中。而PLS不僅考慮了自變量的主成分得分,也考慮了自變量與因變量之間各自主成分的相關(guān)關(guān)系。因此,可以認(rèn)為兩種方法選擇的主成分是不同的主成分,PCA篩選出的主成分t1是離差信息最大的方向,而PLS通常不是。因此,偏最小二乘回歸是一種多因變量對(duì)多自變量的回歸。通過PCA建立模型的時(shí)候,往往不能包括所有的樣本信息,導(dǎo)致回歸方程的擬合度較差。而使用PLS時(shí),在最終模型中將包含原有的所有自變量。2009年,Mauer等[7]定量檢測(cè)嬰幼兒奶粉中的三聚氰胺,通過PLS建立奶粉中三聚氰胺濃度回歸模型,其決定系數(shù)R2>0.99,交叉驗(yàn)證均方誤RMSECV≤0.9,殘差預(yù)測(cè)偏差RPD>12。光譜因子分析能夠?qū)⑽磽诫s的嬰兒配方奶粉與含有1ppm三聚氰胺的樣品以99.99%的置信度分開,對(duì)樣品區(qū)的分類準(zhǔn)確無誤。
Lu等人基于最小二乘支持向量機(jī)(LS-SVM)建立了一種使用近紅外光譜檢測(cè)奶粉中純?nèi)矍璋返男路f且快速的方法[8]。在應(yīng)用紅外光譜技術(shù)對(duì)奶粉中脂肪含量進(jìn)行無損檢測(cè)時(shí),采用LS-SVM對(duì)光譜透射率和脂肪含量值進(jìn)行建模時(shí),模型對(duì)脂肪含量有較好的預(yù)測(cè)值,預(yù)測(cè)誤差均方根(RMSEP)為0.8367[9]。支持向量機(jī)(SVM)是一種建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,具有小樣本、非線性、高維度、預(yù)測(cè)精度高等特點(diǎn)。它在解決非線性問題上有很多特有的優(yōu)勢(shì)。SVM除了能處理分類問題和判別分析問題外,也能特別成功地處理回歸問題。支持向量回歸機(jī)的基本思想是尋求一個(gè)線性回歸方程去擬合所有的樣本點(diǎn),它尋求的最優(yōu)超平面不是將兩類最大限度分開,而是使樣本點(diǎn)離超平面總方差最小。分類問題中求得的超平面也可以用于解決回歸問題。其算法是通過一個(gè)非線性映射φ,將數(shù)據(jù)x映射到高維特征空間F,并在這個(gè)空間進(jìn)行線性回歸。即
b為閾值。因此,它將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維的特征空間,在高維空間中構(gòu)造線性決策函數(shù)來實(shí)現(xiàn)原空間中的非線性決策函數(shù),回歸建模將低維非線性的輸入映射到高維線性的輸出[10]。而LS-SVM是基于SVM算法的一種衍生算法。相對(duì)于SVM,LS-SVM把不等式的約束條件變成了等式約束,從而使拉格朗日乘子的求解方便許多,加快了求解速度[11]。但是LS-SVM的預(yù)測(cè)精度比SVM稍差一些。吳迪等[9,12]采用LS-SVM算法成功實(shí)現(xiàn)了奶粉中脂肪和蛋白質(zhì)的無損檢測(cè),且預(yù)測(cè)結(jié)果要優(yōu)于傳統(tǒng)的PLS的預(yù)測(cè)結(jié)果。
在對(duì)汽油光譜數(shù)據(jù)進(jìn)行處理時(shí)研究人員比較了包括ANN和PLS以及PCA等不同方法的準(zhǔn)確性。結(jié)果表明,當(dāng)數(shù)據(jù)是非線性時(shí),ANN比PLS表現(xiàn)更好[13,14]。通過將一個(gè)隱層神經(jīng)網(wǎng)絡(luò)應(yīng)用于平均中心吸收光譜,得到了實(shí)驗(yàn)數(shù)據(jù)的最佳結(jié)果[14]。Balabin等在用光譜法檢測(cè)液態(tài)奶、嬰兒配方奶粉和普通奶粉中的三聚氰胺時(shí)比較了多種回歸方法。同樣,對(duì)于非線性的數(shù)據(jù),ANN比PLS有更好的表現(xiàn)[15]。ANN是受神經(jīng)元的工作原理啟發(fā)得來的,每一個(gè)神經(jīng)元細(xì)胞通過樹突接受從其他神經(jīng)元細(xì)胞傳來的電化學(xué)信號(hào)。當(dāng)電化學(xué)信號(hào)的總強(qiáng)度達(dá)到一定閾值時(shí),神經(jīng)元便可以被激活,之后電化學(xué)信號(hào)通過突觸被傳送到與之相連的神經(jīng)元。神經(jīng)元之間的連接可以隨著連通次數(shù)的增加而增強(qiáng),對(duì)每個(gè)輸入信號(hào)αi均要乘以連接系數(shù)wi來表示連接的強(qiáng)弱。所有信號(hào)乘以相應(yīng)的連接系數(shù)并求和后需減去一定的閾值b。如果總和大于0,則神經(jīng)元是激活的,若小于0,則神經(jīng)元是抑制的??傂盘?hào)∑ni=1Wiαi-b作為變量輸入傳遞函數(shù)f(x),而傳遞函數(shù)的值是神經(jīng)元后處理的信號(hào),可以將其輸出或者輸入到下一個(gè)神經(jīng)元[16]。神經(jīng)網(wǎng)絡(luò)的回歸分析,是基于通過對(duì)樣本的學(xué)習(xí),來實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)中自變量對(duì)應(yīng)變量的映射的。也就是說神經(jīng)網(wǎng)絡(luò)不能得到簡(jiǎn)單的回歸方程數(shù)學(xué)表達(dá)式,其結(jié)果是經(jīng)過網(wǎng)絡(luò)結(jié)構(gòu)以及閾值等確定的。預(yù)測(cè)時(shí),輸入一個(gè)自變量,就會(huì)得到一個(gè)因變量作為結(jié)果輸出[17]。ANN方法的主要缺點(diǎn)是其計(jì)算的復(fù)雜性和隨機(jī)性。
Ferragina等在對(duì)牛奶成分進(jìn)行分析時(shí)比較了偏最小二乘法(PLS)、修改后-偏最小二乘法(MPLS)、貝葉斯嶺回歸(Bayes RR)、貝葉斯A(Bayes A)、貝葉斯B(Bayes B)共五個(gè)回歸預(yù)測(cè)方法 。該實(shí)驗(yàn)從氣相色譜分析的47個(gè)脂肪酸(FA)中選擇了4個(gè)足以代表所有47個(gè)FA在飲食、生理、碳酸鏈長(zhǎng)度(小、中、長(zhǎng))、FA結(jié)構(gòu)中雙鍵存在與否及比例等方面變化的FA作為參考物質(zhì),結(jié)果表明,與PLS和MPLS相比,剩下的三個(gè)方法表現(xiàn)出同樣好的預(yù)測(cè)準(zhǔn)確性[18]。貝葉斯模型的表現(xiàn)型是基于標(biāo)準(zhǔn)化光譜的線性回歸模型:
其中β0是截距,{Xij}是標(biāo)準(zhǔn)化的波長(zhǎng)數(shù)據(jù),βj是每一個(gè)波長(zhǎng)的效果,εi是假定為獨(dú)立且相同分布的模型殘差(iid),其中正態(tài)分布以零為中心,方差是σε2。鑒于上述假設(shè),給定效果和方差參數(shù)的數(shù)據(jù)的條件分布是
其中y= {yi},θ代表了收集到的模型參數(shù),。先驗(yàn)密度是:
其中截距被指定為具有非常大方差的正態(tài)先驗(yàn),這相當(dāng)于把截距視為“固定”效應(yīng),殘差方差被指定為自由度為dfε的倒數(shù)比例卡方(χ-2)比重和比例參數(shù)Sε,波長(zhǎng)的影響被指定為由一組超參數(shù)Ω索引且隨機(jī)獨(dú)立同分布先驗(yàn)p(βj|Ω)。p(Ω)代表先驗(yàn)分布的超參數(shù);p(βj|Ω)和p(βj|Ω)根據(jù)所述應(yīng)用的模型而不同。貝葉斯嶺回歸(Bayes RR),貝葉斯A(Bayes A)和貝葉斯B(Bayes B)區(qū)別在于分配給效果的占優(yōu)比重的形式不同。Bayes RR:在貝葉斯RR中,效果被賦予高斯先驗(yàn)。該規(guī)范將估計(jì)值縮小到零,貝葉斯A和貝葉斯B也發(fā)生了這種情況;收縮的程度在效果上是均勻的,并且該方法不執(zhí)行變量選擇[19,20]。Bayes A:在貝葉斯A中,(βj|Ω)iid~ t(βj|dfε,Sβ) 是一個(gè)t比例的密度,與高斯先驗(yàn)相比,其可引起效應(yīng)估計(jì)的差異收縮,而與表型弱相關(guān)的預(yù)測(cè)因子的估計(jì)效應(yīng)則向零強(qiáng)烈收縮,是具有強(qiáng)關(guān)聯(lián)的預(yù)測(cè)因子的收縮,并隨著反應(yīng)縮小到較小程度[19,20]。Bayes B:p(βj|Ω)是零質(zhì)量點(diǎn)和t比例密度的混合物,即:(βj|Ω)iid~ π×t(βj│dfε,Sβ)+(1-π)×1(βj=0) ,其中,π是先驗(yàn)概率,βj從t密度中得出。
以上所列出來的是最常見的幾種方法,在實(shí)際的科學(xué)研究和生產(chǎn)應(yīng)用中更多使用的是以上方法的多種衍生算法。例如線性PLS(Linear-PLS)、多項(xiàng)式PLS(ploy-PLS)、樣條函數(shù)擬合PLS(Spline-PLS)、神經(jīng)元擬合PLS、非線性迭代PLS、BP人工神經(jīng)網(wǎng)絡(luò)(BP-ANN)等。通過中紅外光譜對(duì)牛奶和奶產(chǎn)品中成分含量進(jìn)行回歸預(yù)測(cè)時(shí),用于建模的方法多種多樣,很難確定哪一種方法是最合適的,可使用多種方法進(jìn)行分析,最后選擇R2以及RPD最高以及RMSEP等誤差參數(shù)最小的模型作為最終的預(yù)測(cè)模型。