李永琪,洪士軍,黃 雯,張立國(guó),葛 炯*,欒紹嶸,倪力軍*
(1.華東理工大學(xué) 化學(xué)與分子工程學(xué)院,上海 200237;2.上海煙草集團(tuán)有限責(zé)任公司 技術(shù)中心理化實(shí)驗(yàn)室,上海 200082)
近紅外光譜(NIRs)技術(shù)作為一種快速、無(wú)損的綠色檢測(cè)技術(shù),在各行各業(yè)的定量與定性分析中得到了廣泛應(yīng)用[1]。該技術(shù)以一些具有代表性的定標(biāo)樣品的定量指標(biāo)或定性指標(biāo)為因變量,其近紅外光譜信息為自變量,通過(guò)多元統(tǒng)計(jì)方法建立相關(guān)指標(biāo)的近紅外光譜定量模型或樣品的定性模型,根據(jù)模型實(shí)現(xiàn)對(duì)未知樣品的定量或定性分析[2]。建立一個(gè)良好的近紅外光譜模型需要積累大量樣品的光譜和待測(cè)性質(zhì)數(shù)據(jù),并優(yōu)化模型中的相關(guān)參數(shù),模型建立和維護(hù)的工作量較大。通常希望在一臺(tái)機(jī)器上建立的光譜模型(該機(jī)器通常稱為主機(jī))能夠轉(zhuǎn)移到其他儀器上(簡(jiǎn)稱為從機(jī))繼續(xù)使用[3],簡(jiǎn)稱為模型傳遞或模型共享[4-6]。但由于主、從機(jī)光譜在不同區(qū)域存在或大或小的差異,通常光譜模型傳遞到從機(jī)后誤差會(huì)增大,因而出現(xiàn)了各種降低模型對(duì)從機(jī)樣品預(yù)測(cè)誤差的模型傳遞方法[7]。分段直接校正(Piecewise direct standardization,PDS)方法是最經(jīng)典常用的模型傳遞方法,該方法以主、從機(jī)均測(cè)試的轉(zhuǎn)移集樣品為基礎(chǔ),通過(guò)對(duì)從機(jī)光譜分段校正后再應(yīng)用主機(jī)模型預(yù)測(cè)從機(jī)樣品[8]。
近紅外光譜定量模型通常采用偏最小二乘(Partial least squares,PLS)方法建立樣品光譜信息與待測(cè)物質(zhì)信息間的數(shù)學(xué)模型[9]。PLS模型建立過(guò)程中需要確定潛變量的個(gè)數(shù)(nLVs),一般采用留一交叉驗(yàn)證或四折(三折)交叉驗(yàn)證的方法確定nLVs[10]或是選取內(nèi)部檢驗(yàn)集樣品預(yù)測(cè)誤差最小時(shí)對(duì)應(yīng)的潛變量個(gè)數(shù)作為最佳值。本課題組研究發(fā)現(xiàn),采用這種原則確定的近紅外光譜PLS模型通常能夠?qū)闻_(tái)儀器給出不錯(cuò)的結(jié)果,但這樣選取的nLVs往往個(gè)數(shù)偏多,會(huì)引入噪聲和無(wú)效信息,導(dǎo)致模型傳遞時(shí)預(yù)測(cè)誤差顯著增大,使得模型不能在從機(jī)直接應(yīng)用。本文以網(wǎng)上公開發(fā)布的玉米數(shù)據(jù)及煙草企業(yè)多臺(tái)近紅外儀器所測(cè)煙葉樣品數(shù)據(jù)為例,探究nLVs的選取對(duì)主、從機(jī)模型誤差的影響,為建立穩(wěn)健、可共享的近紅外光譜模型提供依據(jù)和支持。
玉米樣品數(shù)據(jù)集來(lái)自http://www.eigenvector.com/data/Corn/corn.mat。包含M5、MP5、MP6 3臺(tái)近紅外儀上測(cè)得的80 個(gè)玉米樣品的近紅外光譜及這些樣品中主要營(yíng)養(yǎng)成分的含量數(shù)據(jù)。玉米樣品中水分的質(zhì)量分?jǐn)?shù)在9.38%~10.99%之間,均值為10.23%;蛋白質(zhì)的質(zhì)量分?jǐn)?shù)在7.65%~9.71%之間,均值為8.67%;脂肪的質(zhì)量分?jǐn)?shù)在3.09%~3.83%之間,均值為3.50%;淀粉的質(zhì)量分?jǐn)?shù)在62.84%~66.47%之間,均值為64.69%。煙葉樣品有2套數(shù)據(jù)集,Set A由 78個(gè)煙葉樣本分別在主機(jī)M(Master)、4臺(tái)從機(jī)S1、S2、S3和S4上測(cè)得的近紅外光譜組成,5臺(tái)近紅外儀均為AntarisⅡ近紅外儀器(賽默飛世爾科技有限公司),生產(chǎn)年份不盡相同;Set B則由1 070個(gè)在主機(jī)M上測(cè)得的煙葉樣本光譜組成。Set A、Set B中各煙葉樣品的總植物堿采用YC/T 160-2002[11]測(cè)定,其含量在0.55%~6.30%之間。
根據(jù)課題組前期研究結(jié)果,采用標(biāo)準(zhǔn)正態(tài)變換(SNV)結(jié)合一階導(dǎo)數(shù)進(jìn)行31點(diǎn)平滑對(duì)樣品的近紅外光譜進(jìn)行預(yù)處理可消除因散射和背景漂移引起的光譜誤差,基于該預(yù)處理光譜所建模型與其他預(yù)處理光譜(多元散射校正、一階導(dǎo)數(shù)、原始光譜等)模型的效果相當(dāng)[12-13]。由于該法不需要使用其他樣品的光譜信息,故本文采用SNV+一階導(dǎo)數(shù)光譜建立玉米中主要營(yíng)養(yǎng)成分及煙葉總植物堿的近紅外光譜定量模型。采用蒙特卡洛采樣(Monte-Carlo Sampling,MCS)方法剔除異常點(diǎn)[14]。采用綜合考慮光譜與待測(cè)性質(zhì)信息來(lái)篩選代表性樣品的SPXY(Sample set partitioning based on jointx-ydistance)方法[15]挑選主機(jī)建模樣本,剩余樣品作為內(nèi)部驗(yàn)證集。一般情況下采用建模集均方根殘差(RMSEC)來(lái)評(píng)價(jià)模型的擬合性能,驗(yàn)證集的均方根殘差(RMSEP)來(lái)評(píng)價(jià)模型的預(yù)測(cè)性能[2]??紤]到RMSEP相當(dāng)于絕對(duì)誤差,難以根據(jù)該指標(biāo)判斷模型誤差的相對(duì)大小,本文增加檢驗(yàn)集或從機(jī)樣本模型預(yù)測(cè)值與實(shí)測(cè)值相對(duì)誤差的絕對(duì)值均值(簡(jiǎn)稱為平均相對(duì)誤差,MRE)來(lái)評(píng)估模型對(duì)主、從機(jī)樣本的預(yù)測(cè)性能。另外,為與國(guó)標(biāo)[16-18]要求的評(píng)估指標(biāo)相對(duì)應(yīng),本文還采用驗(yàn)證樣品組分的近紅外模型值扣除系統(tǒng)偏差后與其標(biāo)準(zhǔn)值(實(shí)測(cè)值)之間的校準(zhǔn)標(biāo)準(zhǔn)差(SEP)來(lái)評(píng)估主機(jī)模型調(diào)整后的準(zhǔn)確度。相關(guān)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
(1)
(2)
(3)
(4)
式(1)~(4)中yi,actual為第i個(gè)樣品的實(shí)測(cè)值,yi,predicted為第i個(gè)樣品的模型預(yù)測(cè)值,m為檢驗(yàn)集樣品數(shù)目。biasm是系統(tǒng)偏差,即檢驗(yàn)集樣品i的近紅外測(cè)定值與標(biāo)準(zhǔn)值(實(shí)測(cè)值)之差的均值。如果不考慮系統(tǒng)偏差校正,式(3)的SEP即為式(1)的RMSEP。
PLS回歸分析時(shí)前n個(gè)潛變量(主因子)的方差之和占所有潛變量方差之和的百分比η稱為累積貢獻(xiàn)率,其計(jì)算公式如下:
(5)
式(5)中λi為第i個(gè)潛變量的方差,p為所有方差不為零的潛變量個(gè)數(shù),p≤min{樣本數(shù),波長(zhǎng)個(gè)數(shù)}。
對(duì)于從機(jī),采用RMSEP、MRE評(píng)價(jià)模型轉(zhuǎn)移后的準(zhǔn)確度,采用重現(xiàn)性指標(biāo)SR評(píng)價(jià)從機(jī)近紅外測(cè)定結(jié)果與主機(jī)近紅外測(cè)定結(jié)果的一致性。國(guó)標(biāo)[16]定義玉米水分、蛋白質(zhì)近紅外模型測(cè)定結(jié)果再現(xiàn)性指標(biāo)SR的計(jì)算公式如下:
(6)
(7)
式(6)與(7)中的yi,slave與yi,master分別表示樣品i的從機(jī)近紅外測(cè)定值和主機(jī)近紅外測(cè)定值;biast為驗(yàn)證樣品i的從機(jī)近紅外測(cè)定值與主機(jī)近紅外測(cè)定值之差的均值,m為檢驗(yàn)集(預(yù)測(cè)集)樣本個(gè)數(shù)。
對(duì)于玉米中的脂肪與淀粉,國(guó)標(biāo)要求在不同實(shí)驗(yàn)室,由不同操作人員使用同一型號(hào)不同設(shè)備,按相同測(cè)試方法,對(duì)相同的玉米樣品的兩個(gè)脂肪獨(dú)立實(shí)驗(yàn)結(jié)果之間的絕對(duì)差值應(yīng)不大于0.3%[17],對(duì)相同的玉米樣品的兩個(gè)淀粉獨(dú)立實(shí)驗(yàn)結(jié)果之間差值應(yīng)不大于其算術(shù)平均值的15%[18]。參照國(guó)標(biāo)的上述描述,本文定義玉米中脂肪、淀粉的再現(xiàn)性評(píng)價(jià)指標(biāo)SRo與SRs如下:
(8)
(9)
式(9)中的yi,m為樣品i的主機(jī)近紅外測(cè)定值yi,master與從機(jī)近紅外測(cè)定值yi,slave的均值。表1列出了國(guó)標(biāo)規(guī)定的玉米中4種主要成分近紅外模型相關(guān)評(píng)價(jià)指標(biāo)的范圍(上限)。
本文所有算法在MATLAB平臺(tái)完成。
表1 糧油近紅外分析儀性能基本要求中玉米主要成分的近紅外模型評(píng)價(jià)標(biāo)準(zhǔn)[16-18]Table 1 Near infrared model evaluation standards for the main components of corn based on the basic performance requirements of near infrared analyzers for determining grain and oil contents[16-18]
3臺(tái)儀器上測(cè)定的玉米樣品的平均光譜如圖1所示,由該圖可看出M5與MP5、MP6的原始平均光譜有明顯差異,經(jīng)SNV+一階導(dǎo)數(shù)預(yù)處理后3臺(tái)儀器上樣品的平均光譜差異減小,但在某些波峰、波谷區(qū)域仍有肉眼可見的差異,MP6與MP5的平均光譜很相近。故選取M5作為主機(jī),MP5、MP6兩臺(tái)光譜儀為從機(jī)。MCS方法未發(fā)現(xiàn)異常樣本。根據(jù)SPXY方法從M5測(cè)試的80個(gè)玉米樣品中選取前60個(gè)樣品作為校正集,剩余20個(gè)樣品作為內(nèi)部檢驗(yàn)集。
圖2 玉米中4種成分含量的PLS-NIRs模型對(duì)主機(jī)檢驗(yàn) 集樣品的平均相對(duì)誤差(MRE)隨nLVs的變化Fig.2 The average relative error(MRE) of the PLS-NIRs model for the content of the four components in corn of the samples of the host test set varies with nLVs
圖2為主機(jī)M5檢驗(yàn)集樣品各主要成分的平均相對(duì)誤差隨nLVs的變化。由該圖可知,nLVs=1時(shí),各成分的MRE已經(jīng)小于3%,淀粉的MRE在nLVs=1時(shí)甚至低于1%。蛋白質(zhì)、水分、脂肪含量的MRE均呈現(xiàn)在nLVs<10范圍逐步降低到一個(gè)相對(duì)低點(diǎn)后有所升高,nLVs>10后又逐步降低的趨勢(shì)。一般選取預(yù)測(cè)誤差第一次達(dá)到相對(duì)最小時(shí)對(duì)應(yīng)的nLVs作為最佳潛變量個(gè)數(shù)。根據(jù)該原則,脂肪和淀粉模型可選nLVs = 6;蛋白質(zhì)和水分模型可選nLVs = 4。
采用留一交叉驗(yàn)證、四折交叉驗(yàn)證確定的玉米各營(yíng)養(yǎng)成分的PLS模型中nLVs一般在5~10之間。以水分含量的PLS-NIRs模型為例,模型的前5個(gè)潛變量(LV)對(duì)應(yīng)的方差分別為:0.999 39、0.000 44、0.000 08、0.000 05、0.000 01。第一個(gè)潛變量的方差非常之大,占據(jù)了所有潛變量方差之和的99.9%以上。玉米中另外3個(gè)成分脂肪、蛋白質(zhì)及淀粉含量PLS-NIRs模型的第一個(gè)潛變量對(duì)應(yīng)的累積貢獻(xiàn)率也大于99.9%。因此,如果根據(jù)前nLVs個(gè)潛變量累積貢獻(xiàn)率大于99.9%選取潛變量個(gè)數(shù),玉米樣品近紅外光譜模型的nLVs=1,該值大大小于常規(guī)方法確定的潛變量個(gè)數(shù)。
表2~4給出了不同潛變量個(gè)數(shù)下所建立的主機(jī)模型對(duì)主機(jī)樣品和從機(jī)樣品中水分、脂肪和淀粉含量的預(yù)測(cè)結(jié)果,以及經(jīng)過(guò)PDS校正后模型對(duì)從機(jī)樣品的預(yù)測(cè)結(jié)果。根據(jù)文獻(xiàn)建議值及經(jīng)驗(yàn),本文選擇PDS校正方法中轉(zhuǎn)移因子數(shù)為2,轉(zhuǎn)移集數(shù)目為12個(gè),窗口寬度為5,容忍度為0.01[19]。
蛋白質(zhì)預(yù)測(cè)結(jié)果與表1相似,限于篇幅,該結(jié)果省略。表2~4中斜體數(shù)據(jù)表明對(duì)應(yīng)的指標(biāo)滿足表1的要求。由這3個(gè)表可知,不同潛變量個(gè)數(shù)所建模型中,nLVs=1時(shí)所建立的PLS-NIRs模型直接轉(zhuǎn)移到從機(jī)后,對(duì)從機(jī)樣品各成分含量的預(yù)測(cè)誤差RMSEP及MRE最小,且模型預(yù)測(cè)從機(jī)樣品的誤差與主機(jī)樣品預(yù)測(cè)誤差相差不多。模型對(duì)主機(jī)驗(yàn)證集樣品的SEP以及從機(jī)的再現(xiàn)性評(píng)價(jià)指標(biāo)均滿足表1所列的國(guó)標(biāo)要求。PDS校正對(duì)nLVs=1下所建模型的傳遞效果的改進(jìn)很有限,且PDS校正后模型對(duì)從機(jī)樣品脂肪、淀粉含量的預(yù)測(cè)誤差高于模型直接傳遞的預(yù)測(cè)誤差(見表3、表4中*標(biāo)注的數(shù)據(jù))。說(shuō)明模型直接傳遞誤差不大時(shí),沒(méi)必要采用PDS方法進(jìn)行模型傳遞。
由留一交叉驗(yàn)證和四折交叉驗(yàn)證選取的nLVs均大于4,在此原則下建立的玉米各營(yíng)養(yǎng)成分PLS-NIRs模型對(duì)主機(jī)樣品的預(yù)測(cè)誤差RMSEP、MRE隨nLVs的增大而不同程度地降低,但各模型對(duì)從機(jī)樣品的RMSEP及MRE顯著增大,是主機(jī)樣品對(duì)應(yīng)誤差指標(biāo)的幾倍到十幾倍,其誤差水平超出許可范圍。經(jīng)PDS校正從機(jī)光譜后,模型對(duì)從機(jī)樣品的預(yù)測(cè)誤差降低到與主機(jī)相當(dāng)?shù)乃?。nLVs>1時(shí)建立的玉米營(yíng)養(yǎng)成分的PLS-NIRs模型給出的主、從機(jī)預(yù)測(cè)值的重現(xiàn)性較nLVs=1時(shí)所建模型的重現(xiàn)性高一個(gè)量級(jí),nLVs>4時(shí)所建模型對(duì)從機(jī)樣品中各成分含量的預(yù)測(cè)值大多不滿足表1所列的重現(xiàn)性指標(biāo)要求。說(shuō)明從第二個(gè)潛變量開始,儀器間光譜信息的一致性變差,導(dǎo)致nLVs>1時(shí)各模型主、從機(jī)間近紅外測(cè)試值的重現(xiàn)性變差。雖然nLVs增大可改進(jìn)模型對(duì)主機(jī)樣品的預(yù)測(cè)準(zhǔn)確度,但會(huì)導(dǎo)致模型傳遞誤差變大,使得模型無(wú)法直接轉(zhuǎn)移到從機(jī)。
表2 玉米水分PLS-NIRs模型直接傳遞及PDS校正后的傳遞結(jié)果Table 2 Direct transfer results and transfer results after PDS correction of the PLS-NIRs model for predicting moisture content in corn
表3 玉米脂肪PLS-NIRs模型直接傳遞及PDS校正后的傳遞結(jié)果Table 3 Direct transfer results and transfer results after PDS correction of the PLS-NIRs model for predicting oil content in corn
(續(xù)表3)
表4 玉米淀粉PLS-NIRs模型直接傳遞及PDS校正后的模型傳遞結(jié)果Table 4 Direct transfer results and transfer results after PDS correction of the PLS-NIRs model for predicting starch content in corn
以煙葉數(shù)據(jù)集中Set B作為建模集,Set A中主機(jī)的78個(gè)樣品光譜為外部驗(yàn)證集,建立煙葉總植物堿的PLS-NIRs模型。通過(guò)MCS方法發(fā)現(xiàn)兩個(gè)異常點(diǎn),最終取Set B中的1 068個(gè)樣本建立模型。根據(jù)累積貢獻(xiàn)率大于99.9%選取的nLVs=13,四折和留一交叉驗(yàn)證選取的nLVs分別為16和19。表5給出了分別取13、16、19個(gè)潛變量時(shí)得到的煙葉總植物堿的PLS-NIRs模型結(jié)果,以及經(jīng)過(guò)PDS校正后模型對(duì)從機(jī)樣品的預(yù)測(cè)結(jié)果。表中斜體數(shù)據(jù)表明對(duì)應(yīng)的指標(biāo)滿足小于6%的企業(yè)內(nèi)控要求。取nLVs=13所建立的煙葉總植物堿PLS-NIRs模型直接轉(zhuǎn)移到從機(jī)后,對(duì)S1從機(jī)的MRE小于6%,但對(duì)其他3臺(tái)從機(jī)樣品的MRE均大于6%;經(jīng)PDS校正后,nLVs=13下所建模型對(duì)4臺(tái)從機(jī)的預(yù)測(cè)誤差均小于6%。而潛變量個(gè)數(shù)大于13時(shí)所建立的煙葉總植物堿的PLS-NIRs模型對(duì)主機(jī)樣品的預(yù)測(cè)誤改進(jìn)很有限,且模型直接轉(zhuǎn)移到從機(jī)后,除nLVs=16模型對(duì)S1樣品的MRE小于6%外,對(duì)其他從機(jī)樣品的MRE均大于6%,即使經(jīng)過(guò)PDS校正也不能保證這些模型對(duì)所有從機(jī)樣品的MRE滿足企業(yè)的內(nèi)控要求。
玉米樣品中主要成分的PLS-NIRs模型潛變量個(gè)數(shù)取1時(shí),模型傳遞誤差最小且4個(gè)成分的PLS-NIRs模型對(duì)主、從機(jī)樣品預(yù)測(cè)值的重現(xiàn)性均滿足國(guó)標(biāo)要求。由于第一潛變量的方差已經(jīng)占據(jù)所有潛變量方差總和的99.9%以上,說(shuō)明第一潛變量之后的潛變量所包含的有效信息加起來(lái)不足0.1%,引入這些有效信息很少的潛變量,易導(dǎo)致模型過(guò)擬合:即對(duì)建模樣品或主機(jī)樣品模型的誤差很小(小于潛變量個(gè)數(shù)為1的模型誤差),但對(duì)從機(jī)樣品的誤差過(guò)大。
表5 煙葉總植物堿PLS-NIRs模型直接傳遞及PDS校正后的傳遞結(jié)果Table 5 Direct transfer results and transfer results after PDS correction of the PLS-NIRs model for predicting total alkaloid contents in tobacco leaves
圖3 玉米水分PLS-NIRs模型的第一載荷軸與M5、 MP5差譜絕對(duì)值的標(biāo)準(zhǔn)方差譜(SDDSI1)Fig.3 The first loading of PLS-NIRs model for predicting corn moisture and the standard deviance spectrum of absolute difference spectra between M5 and MP5
圖3給出了玉米中水分PLS-NIRs模型的第一載荷軸及M5、MP5樣品光譜的差譜絕對(duì)值的標(biāo)準(zhǔn)方差光譜(簡(jiǎn)稱SDDSI1)。由圖3可看出,第一載荷軸的峰值位于SDDSI1很小或較小的區(qū)域,而SDDSI1的峰值所對(duì)應(yīng)第一載荷取值均在0附近,說(shuō)明第一潛變量中對(duì)模型貢獻(xiàn)大的波長(zhǎng)點(diǎn)有效避開了儀器間光譜差異波動(dòng)大的區(qū)域,因此當(dāng)玉米PLS模型的潛變量個(gè)數(shù)nLVs取1時(shí),對(duì)從機(jī)樣品的預(yù)測(cè)誤差與主機(jī)相當(dāng)。其次,該模型摒棄了方差小于0.1%、有效信息含量很低的潛變量,大大提高了模型的穩(wěn)健性,使得模型傳遞到從機(jī)后誤差無(wú)明顯變化。
PLS-NIRs模型中潛變量個(gè)數(shù)nLVs的選取對(duì)模型的穩(wěn)健性、傳遞性能有重要影響。nLVs夠用即可,過(guò)高的nLVs容易造成過(guò)擬合,影響模型的穩(wěn)健性,使得模型轉(zhuǎn)移時(shí)誤差過(guò)大。根據(jù)累積貢獻(xiàn)率大于99.9%選取nLVs建立的PLS-NIRs模型穩(wěn)健性最好,易于獲得好的模型傳遞結(jié)果。而根據(jù)留一交叉驗(yàn)證及四折交叉驗(yàn)證或單臺(tái)(主機(jī))儀器驗(yàn)證集預(yù)測(cè)誤差最小等原則選取的nLVs個(gè)數(shù)均高于根據(jù)累積貢獻(xiàn)率大于99.9%選取的nLVs,易導(dǎo)致模型過(guò)擬合。
建議根據(jù)累計(jì)貢獻(xiàn)率大于99.9%或接近99.9%時(shí)對(duì)應(yīng)的nLVs建立近紅外光譜模型,雖然對(duì)于主機(jī)而言,模型誤差比根據(jù)留一交叉驗(yàn)證或四折交叉驗(yàn)證選取nLVs建立的模型誤差稍高,但模型傳遞誤差小,易于實(shí)現(xiàn)模型共享,獲得好的模型傳遞效果。本結(jié)論對(duì)玉米、煙葉之外的其他類型樣品是否成立有待進(jìn)一步驗(yàn)證。