摘要:基于多模型共識(shí)的基本思路結(jié)合近紅外光譜,建立了多模型共識(shí)偏最小二乘回歸方法(cPLS),從訓(xùn)練集隨機(jī)取樣建立一系列偏最小二乘回歸模型(PLS),選取其中性能較好的部分模型作為成員模型,并用這些成員模型預(yù)測(cè)未知樣品。將cPLS用于玉米中濕度、淀粉、蛋白質(zhì)及油分含量的近紅外光譜定量預(yù)測(cè)。結(jié)果PLS對(duì)獨(dú)立測(cè)試集中4種組分進(jìn)行50次重復(fù)預(yù)測(cè)的平均預(yù)測(cè)誤差均方根分別為0.020 7、0.268 6、0.122 0和0.070 6,預(yù)測(cè)誤差均方根的標(biāo)準(zhǔn)偏差分別為4.753 0×10-3、0.054 8、0.023 0和0.014 9;而cPLS重復(fù)50次預(yù)測(cè)的平均預(yù)測(cè)誤差均方根分別為0.016 0、0.167 8、0.116 6和0.044 1,預(yù)測(cè)誤差均方根的標(biāo)準(zhǔn)偏差分別為2.735 0×10-4、0.002 5、0.003 0和7.683 0×10-4。可見(jiàn),cPLS所建立的模型更加穩(wěn)健可靠,預(yù)測(cè)的準(zhǔn)確性也明顯提高。
關(guān)鍵詞:農(nóng)產(chǎn)品;多模型共識(shí);近紅外光譜;定量分析
中圖分類(lèi)號(hào):S132; O657.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0439-8114(2013)22-5599-04
近紅外光譜是指780~2 526 nm波長(zhǎng)范圍內(nèi)的電磁波譜[1],其信息主要是含氫基團(tuán)(如C-H、O-H、N-H、S-H等)分子振動(dòng)的倍頻與合頻吸收信息,由于含有豐富的物質(zhì)結(jié)構(gòu)信息,可用于分析絕大多數(shù)種類(lèi)的化合物及其混合物的成分濃度或者品質(zhì)參數(shù)?,F(xiàn)代近紅外光譜分析是通過(guò)建立校正模型從而實(shí)現(xiàn)對(duì)未知樣本的定性或定量分析的,因而是一種間接分析技術(shù)。由于具有分析時(shí)間短、無(wú)需樣品預(yù)處理、非破壞性、無(wú)污染以及成本低等特點(diǎn),近紅外光譜分析技術(shù)已成為一種快速的現(xiàn)代分析技術(shù),廣泛應(yīng)用于農(nóng)產(chǎn)品、食品領(lǐng)域的品質(zhì)檢測(cè)[2]。
由于近紅外光譜譜峰較寬,實(shí)際樣品中各種成分的吸收峰重疊嚴(yán)重,因而必須采用化學(xué)計(jì)量學(xué)方法對(duì)微弱化學(xué)信息進(jìn)行提取和分析,以達(dá)到對(duì)復(fù)雜混合物進(jìn)行定性或者定量分析的目的。近紅外光譜分析中常用的多元校正技術(shù)包括線(xiàn)性回歸和非線(xiàn)性回歸,方法包括多元線(xiàn)性回歸,主成分回歸,偏最小二乘回歸以及支持向量回歸等[3,4]。然而傳統(tǒng)的多元校正技術(shù)一般采用單一模型,即采用一定的訓(xùn)練集建立一個(gè)最優(yōu)模型然后用于測(cè)定。此類(lèi)方法對(duì)數(shù)據(jù)噪聲和樣本量都比較敏感,在分析復(fù)雜化學(xué)測(cè)量數(shù)據(jù)時(shí),當(dāng)訓(xùn)練集樣本數(shù)目有限或存在較大誤差時(shí)模型的預(yù)測(cè)精度與穩(wěn)定性往往達(dá)不到滿(mǎn)意的效果。
多模型共識(shí)方法[5-9]是相對(duì)于傳統(tǒng)的單模型方法提出的。其基本思路是采用隨機(jī)或組合的方式利用同一訓(xùn)練集中的不同子集建立的多個(gè)模型同時(shí)進(jìn)行預(yù)測(cè),將多個(gè)預(yù)測(cè)結(jié)果通過(guò)一定的規(guī)則,例如簡(jiǎn)單平均或加權(quán)平均,形成一個(gè)共識(shí)的最終結(jié)果。多模型共識(shí)的突出特點(diǎn)是通過(guò)多次使用訓(xùn)練集中不同子集樣本的信息,降低預(yù)測(cè)結(jié)果對(duì)某一樣本的依賴(lài)性。
本研究基于多模型共識(shí)的基本思路,采用隨機(jī)抽樣技術(shù)選擇訓(xùn)練子集,建立一系列的偏最小二乘回歸模型(PLS),并從中選擇部分預(yù)測(cè)性能較好的模型作為成員模型,用這些成員模型的預(yù)測(cè)均值來(lái)預(yù)測(cè)未知樣品中待分析組分的濃度。將該方法稱(chēng)為多模型共識(shí)偏最小二乘回歸方法(cPLS),用于玉米樣品中濕度、蛋白質(zhì)以及油分含量之間的建模研究,并討論了建模參數(shù)對(duì)預(yù)測(cè)結(jié)果的影響,對(duì)單模型與多模型共識(shí)的結(jié)果進(jìn)行了比較。
1 方法
1.1 cPLS方法原理及主要步驟
1.1.1 確定PLS建模采用的最佳隱變量數(shù) 利用訓(xùn)練集建立PLS回歸模型并以檢驗(yàn)集進(jìn)行預(yù)測(cè),根據(jù)不同的隱變量數(shù)時(shí)所得的預(yù)測(cè)誤差均方根,選擇最佳隱變量數(shù)。
1.1.2 確定cPLS中的成員模型的接受標(biāo)準(zhǔn)、模型總數(shù)等相關(guān)參數(shù) 在cPLS方法中,并非所有訓(xùn)練子集所建的模型都可以參與預(yù)測(cè),其中有部分模型可能受個(gè)別樣本的影響較大,因此要設(shè)定成員模型的接受標(biāo)準(zhǔn),達(dá)到此標(biāo)準(zhǔn)的模型才能成為cPLS的成員模型。本方法利用訓(xùn)練集建立PLS回歸模型并以檢驗(yàn)集進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果與真值之間的平均相對(duì)誤差為依據(jù),確定成員模型的接受標(biāo)準(zhǔn)。此外,多次預(yù)測(cè)結(jié)果的穩(wěn)定性會(huì)受模型總數(shù)的影響,以不同訓(xùn)練子集(隨機(jī)取自訓(xùn)練集)多次建模預(yù)測(cè)同一檢驗(yàn)集,當(dāng)預(yù)測(cè)誤差均方根趨于穩(wěn)定時(shí)的模型數(shù)即合適的模型總數(shù)。
1.1.3 預(yù)測(cè) 據(jù)以上參數(shù),用cPLS中所有成員模型共同預(yù)測(cè)未知樣品,各成員模型分別預(yù)測(cè)后結(jié)果取均值即為最終預(yù)測(cè)結(jié)果。
本試驗(yàn)所涉及的計(jì)算在Matlab 7.0上自編程序完成。
1.2 試驗(yàn)數(shù)據(jù)
該數(shù)據(jù)集包含80個(gè)玉米樣本的近紅外光譜數(shù)據(jù)。光譜通過(guò)3種不同的近紅外光譜儀測(cè)得,每條光譜包含1 100~2 498 nm范圍內(nèi)共700個(gè)波長(zhǎng)通道下的響應(yīng)數(shù)據(jù),光譜分辨率為2 nm。本試驗(yàn)采用m5儀器測(cè)定的近紅外光譜數(shù)據(jù),80個(gè)玉米樣本的原始光譜如圖1所示。同時(shí),數(shù)據(jù)集包含所有玉米樣本的濕度、油分、蛋白質(zhì)以及淀粉的含量。該數(shù)據(jù)集可以從網(wǎng)站(http://www.eigenvector.com/data/index.htm)免費(fèi)下載。隨機(jī)選取數(shù)據(jù)集樣本總數(shù)的80%(即64例)作為訓(xùn)練集,其余20%的樣本(16例)作為獨(dú)立測(cè)試集,用于模型性能評(píng)價(jià);并隨機(jī)抽取訓(xùn)練集中80%的樣本作為訓(xùn)練子集用于建模,其余樣本作為檢驗(yàn)集用于模型參數(shù)優(yōu)化。
2 結(jié)果與討論
2.1 對(duì)玉米濕度的分析
2.1.1 隱變量數(shù)的確定 PLS建模過(guò)程中首先要解決的是隱變量數(shù)的選擇問(wèn)題。在訓(xùn)練子集上采用PLS算法進(jìn)行建模,然后對(duì)檢驗(yàn)集進(jìn)行預(yù)測(cè),圖2為隱變量數(shù)取1~20時(shí)的校正集誤差均方根及預(yù)測(cè)集預(yù)測(cè)誤差均方根。由圖2可見(jiàn),當(dāng)所采用的PLS隱變量數(shù)變化時(shí),所建模型精度也會(huì)發(fā)生變化。開(kāi)始時(shí),誤差均方根均較大且不穩(wěn)定;隨著隱變量數(shù)的增大,誤差均方根逐漸減?。划?dāng)隱變量數(shù)大于10時(shí),誤差均方根基本趨于穩(wěn)定??紤]模型精度及計(jì)算效率兩個(gè)方面,選擇隱變量數(shù)為10進(jìn)行下一步的計(jì)算。
2.1.2 成員模型的接納標(biāo)準(zhǔn) 用單模型PLS對(duì)檢驗(yàn)集進(jìn)行50次重復(fù)預(yù)測(cè)時(shí),平均相對(duì)誤差的分布情況如圖3所示,可見(jiàn)絕大多數(shù)情況下的平均相對(duì)誤差為0.12%~0.22%,故在cPLS中分別采用0.12%、0.14%、0.16%、0.18%、0.20%及0.22%的平均相對(duì)誤差作為接納成員模型的判據(jù),模型總數(shù)均為100,對(duì)檢驗(yàn)集進(jìn)行預(yù)測(cè),結(jié)果以不同平均相對(duì)誤差為接納標(biāo)準(zhǔn)時(shí),隨著相對(duì)誤差的提高,預(yù)測(cè)誤差均方根先下降,然后略有升高,其中平均相對(duì)誤差0.20%對(duì)應(yīng)的預(yù)測(cè)誤差均方根最低。故本研究采用0.20%作為誤差判據(jù)的閾值,即成員模型的接納標(biāo)準(zhǔn)。
2.1.3 模型總數(shù)的確定 從cPLS的原理可以看出,多模型共識(shí)算法的優(yōu)勢(shì)在于每個(gè)成員模型給出不同的預(yù)測(cè)結(jié)果時(shí),最后給出一個(gè)穩(wěn)定可靠的結(jié)果;所以理論上成員模型數(shù)越多,cPLS的結(jié)果越可信,但模型數(shù)過(guò)多顯然影響計(jì)算效率。因此,成員模型的總數(shù)是另一個(gè)重要參數(shù),對(duì)預(yù)測(cè)結(jié)果的穩(wěn)定性和準(zhǔn)確性起著關(guān)鍵的作用。本研究選取模型數(shù)50、100、200、500進(jìn)行考察,檢驗(yàn)集預(yù)測(cè)誤差均方根隨模型數(shù)的變化可用圖4的箱形圖表示。箱形圖是統(tǒng)計(jì)學(xué)、品質(zhì)管理等領(lǐng)域常用的,用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖。若預(yù)測(cè)誤差均方根分布比較集中,則說(shuō)明結(jié)果比較穩(wěn)定。由圖4可見(jiàn),模型數(shù)為100的結(jié)果比其余三者稍顯集中,且異常樣本數(shù)較少。綜合考慮計(jì)算的效率及結(jié)果穩(wěn)定性,后面的處理過(guò)程中成員模型數(shù)都取100。
2.1.4 cPLS對(duì)玉米濕度的預(yù)測(cè)結(jié)果 由于cPLS的預(yù)測(cè)結(jié)果采用了多個(gè)模型的平均值,預(yù)測(cè)穩(wěn)定性是cPLS算法的重要特點(diǎn)之一。根據(jù)上述確定的隱變量數(shù)、成員模型接納標(biāo)準(zhǔn)及模型總數(shù)等條件,對(duì)獨(dú)立測(cè)試集進(jìn)行預(yù)測(cè)。為了考察預(yù)測(cè)結(jié)果的穩(wěn)定性,重復(fù)進(jìn)行50次計(jì)算,結(jié)果如圖5所示。為了進(jìn)一步評(píng)價(jià)算法的穩(wěn)定性及預(yù)測(cè)準(zhǔn)確性,用單模型PLS回歸方法進(jìn)行了比較。以PLS在訓(xùn)練集上建模(隱變量數(shù)為10),對(duì)獨(dú)立測(cè)試集進(jìn)行預(yù)測(cè),重復(fù)進(jìn)行50次計(jì)算,結(jié)果見(jiàn)圖5。
在50次重復(fù)運(yùn)算的結(jié)果中,cPLS方法的預(yù)測(cè)誤差均方根均值為0.016 0,標(biāo)準(zhǔn)偏差為2.735 0×10-4;而PLS對(duì)預(yù)測(cè)集預(yù)測(cè)的預(yù)測(cè)誤差均方根均值為0.020 7,標(biāo)準(zhǔn)偏差為4.753 0×10-3。可見(jiàn)PLS算法50次預(yù)測(cè)的預(yù)測(cè)誤差均方根之間相差較大,表現(xiàn)出模型的穩(wěn)定性較差;而cPLS算法50次預(yù)測(cè)的預(yù)測(cè)誤差均方根之間的波動(dòng)很小,表現(xiàn)出非常好的模型穩(wěn)定性,且其預(yù)測(cè)準(zhǔn)確性也明顯比單模型PLS高。
2.2 對(duì)玉米淀粉、蛋白質(zhì)及油分含量的分析
用cPLS和單模型PLS回歸方法對(duì)樣品中的淀粉、蛋白質(zhì)及油分含量進(jìn)行分析。對(duì)獨(dú)立測(cè)試集重復(fù)50次預(yù)測(cè)的結(jié)果如表1所示。很顯然,cPLS的預(yù)測(cè)結(jié)果無(wú)論從準(zhǔn)確性還是穩(wěn)定性來(lái)講,均優(yōu)于PLS。盡管兩種方法對(duì)獨(dú)立測(cè)試集中蛋白質(zhì)含量預(yù)測(cè)的預(yù)測(cè)誤差均方根均值相差不大,但PLS進(jìn)行多次預(yù)測(cè)的標(biāo)準(zhǔn)偏差較大,說(shuō)明多次預(yù)測(cè)時(shí)波動(dòng)較大,而cPLS則明顯穩(wěn)定得多。因此,cPLS預(yù)測(cè)的結(jié)果更加穩(wěn)定可靠。
3 結(jié)論
由于多個(gè)模型往往比相應(yīng)的單模型能更有效地從數(shù)據(jù)的不同方面和不同層面抽取并表達(dá)自變量和因變量之間的復(fù)雜關(guān)系,因而該方法有望解決過(guò)擬合問(wèn)題,提高模型的穩(wěn)健性和預(yù)測(cè)精度。而且多模型共識(shí)方法在取樣時(shí),是多次隨機(jī)從訓(xùn)練集中取樣,這就克服了單模型方法單次取樣可能帶來(lái)的采樣不合理問(wèn)題。也就是說(shuō),cPLS與傳統(tǒng)的單模型方法相比,所建立的模型更加穩(wěn)健可靠,預(yù)測(cè)的準(zhǔn)確性也明顯提高。因此,cPLS在克服單模型方法由于樣品復(fù)雜且校正集樣品較少而不穩(wěn)定的方面具有一定的實(shí)際意義。
參考文獻(xiàn):
[1] STARK E,LUCHTER K,MARGOSHES M. Near-infrared analysis(NIRA): A technology for quantitative and qualitative analysis[J]. Applied Spectroscopy Reviews,1986,22(4):335-399.
[2] 孫 通,徐惠榮,應(yīng)義斌.近紅外光譜分析技術(shù)在農(nóng)產(chǎn)品/食品品質(zhì)在線(xiàn)無(wú)損檢測(cè)中的應(yīng)用研究進(jìn)展[J].光譜學(xué)與光譜分析,2009, 29(1):122-126.
[3] 褚小立,許育鵬,陸婉珍.用于近紅外光譜分析的化學(xué)計(jì)量學(xué)方法研究與應(yīng)用進(jìn)展[J].分析化學(xué),2008,36(5):702-709.
[4] 姚 霞,田永超,倪 軍,等.水稻葉片色素含量近紅外光譜估測(cè)模型研究[J].分析化學(xué),2012,40(4):589-595.
[5] 李艷坤,邵學(xué)廣,蔡文生.基于多模型共識(shí)的偏最小二乘法用于近紅外光譜定量分析[J].高等學(xué)?;瘜W(xué)學(xué)報(bào),2007,28(2):246-249.
[6] LI Y K, SHAO X G, CAI W S. A consensus least squares support vector regression (LS-SVR) for analysis of near-infrared spectra of plant samples [J]. Talanta,2007,72(1):217-222.
[7] CHEN D,CAI W S,SHAO X G. A strategy for enhancing the reliability of near-infrared spectral analysis[J]. Vibrational Spectroscopy,2008,47(2):113-118.
[8] SHAHBAZIKHAH P, KALIVAS J H. A consensus modeling approach to update a spectroscopic calibration [J]. Chemometrics and Intelligent Laboratory Systems,2013,120(1):142-153.
[9] LI Y K. Determination of diesel cetane number by consensus modeling based on uninformative variable elimination[J]. Analytical Methods,2012,4(1):254-258.
(責(zé)任編輯 昌炎新)