張站鴿,倪力軍,張立國,欒紹嶸
(華東理工大學(xué) 化學(xué)與分子工程學(xué)院,上海 200237)
近紅外光譜(NIRs)技術(shù)是一種綠色、無損、快速的檢測方法。隨著化學(xué)計量學(xué)理論方法和計算機技術(shù)的快速發(fā)展,NIRs技術(shù)已被應(yīng)用于農(nóng)產(chǎn)品[1]、中藥[2]和煙草[3-4]等領(lǐng)域。該技術(shù)以樣品的近紅外光譜數(shù)據(jù)為自變量,樣品的待測性質(zhì)為因變量,利用多元分析方法建立定量或定性的NIRs分析模型,并對驗證集樣品進行預(yù)測。研究表明[5-9],建立一個預(yù)測效果良好的模型未必需要所有的波長信息,因此需對波長進行篩選。常見的波長篩選方法有遺傳算法(GA)[10]、連續(xù)投影算法(SPA)[11]、無信息變量消除算法(UVE)[12]以及變量穩(wěn)定性競爭自適應(yīng)重加權(quán)抽樣算法(SCARS)[13]等,但這些方法大都以單臺儀器上模型的預(yù)測誤差最小為目標(biāo)進行優(yōu)化,建立的模型未必能在多臺儀器間共享。
本課題組基于不同儀器間光譜的差異提出的方差分析[5,14]和光譜比值分析[6]方法,通過篩選出主、從機間光譜信號一致且穩(wěn)定的波長變量,在主機上建立的NIRs定量模型對從機玉米中主要成分和黃芩中黃芩苷的預(yù)測誤差比分段直接校正(PDS)[15]算法更小或接近。同時基于儀器間光譜響應(yīng)信號一致且穩(wěn)定的波長,結(jié)合相關(guān)系數(shù)法、無變量信息消除[16]以及變量重要性投影[17]算法等波長篩選方法,建立了煙葉中總植物堿的定量模型,該模型對從機樣品總植物堿含量的預(yù)測誤差滿足企業(yè)內(nèi)控要求[7]。文獻(xiàn)[18]也報道了基于主、從機間光譜信息的波長篩選方法,該方法通過對主、從機光譜在不同波長下進行相關(guān)分析,篩選出主、從機間光譜信號響應(yīng)一致性好的波長,基于這些波長建立的定量模型對從機玉米樣品中主要成分的預(yù)測誤差與主機樣品預(yù)測誤差相當(dāng)。上述研究結(jié)果表明,基于主、從機間光譜信號并和不同波長篩選方法結(jié)合可以建立穩(wěn)健的近紅外光譜模型,實現(xiàn)模型在多臺儀器間的直接共享。但這些方法在波長篩選時仍需要用到若干從機樣品的光譜信息,不是嚴(yán)格意義上的無標(biāo)樣模型傳遞。
研究表明[19-21],將不同波長篩選算法結(jié)合的多步波長篩選方法可充分利用各波長篩選算法的優(yōu)點,基于其建立的NIRs模型的預(yù)測性能優(yōu)于單一算法所建模型。由于蒙特卡洛-無信息變量消除(MCUVE)算法可剔除無信息或信息量較少的波長,變量重要性投影(VIP)算法可挑選對因變量解釋能力最強的波長,因此本文將MC-UVE法與VIP算法結(jié)合篩選有信息的重要波長來建立玉米中蛋白質(zhì)含量的近紅外光譜模型,并考察了其對從機樣品預(yù)測的準(zhǔn)確度,以期實現(xiàn)無標(biāo)樣模型傳遞。
MC-UVE算法是基于蒙特卡洛(MC)和無變量信息消除(UVE)算法提出的一種變量選擇方法。該方法通過隨機選擇的校正集樣本建立大量的模型,然后根據(jù)相應(yīng)的回歸系數(shù)對每個變量的穩(wěn)定性進行評估。穩(wěn)定性較差的變量被當(dāng)作無信息的變量,并予以剔除。變量的穩(wěn)定性公式如下:
式中,mean(bi)和std(bi)分別表示第i個波長變量的平均值和標(biāo)準(zhǔn)方差;Si表示第i個變量的穩(wěn)定性。由公式可知bi的平均值越大、方差越小時,第i個變量就越穩(wěn)定。
VIP算法是基于偏最小二乘回歸的一種變量篩選方法,它描述了自變量對因變量的解釋能力,并根據(jù)解釋能力的大小進行波長篩選。第j個變量的解釋能力(VIPj)大小根據(jù)公式(2)計算:
公式(2)中,k表示自變量數(shù),ch表示相關(guān)自變量間提取出的第h個新變量(主成分),m表示主成分?jǐn)?shù),r(y,ch)表示因變量與主成分間的相關(guān)系數(shù),反映了主成分對因變量的解釋能力,Wij表示自變量在主成分上的權(quán)重。
圖1為本文MC-UVE-VIP兩步波長篩選的技術(shù)路線。首先用MC-UVE算法對全波長集合U進行波長篩選,挑選出Si大于Mthreshold,u的波長,得到有信息的波長集合UUVE;然后采用VIP算法對波長集合UUVE做進一步波長篩選,挑選出VIPj大于閾值Vthreshold,u(該閾值為UUVE中所有波長下VIP值的均值)的波長,得到波長集合UUVE?VIP;采用VIP算法從全波長中篩選VIPj大于閾值Vthreshold,w(該閾值為全部波長下VIP值的均值)的重要波長,得到波長集合UVIP。分別以波長集合UUVE?VIP、UUVE、UVIP建立預(yù)測玉米中蛋白質(zhì)含量的偏最小二乘回歸(PLSR)模型,簡稱MC-UVE-VIP模型、MC-UVE模型與VIP模型,比較各模型對主、從機樣品的預(yù)測均方根誤差(RMSEP)、平均相對誤差(MARE)及相關(guān)系數(shù)R,并與全波長模型、文獻(xiàn)報道的其他模型的預(yù)測結(jié)果進行比較。
圖1 建立NIRs模型的兩步波長篩選方法技術(shù)路線圖Fig.1 Technical route to establish NIRS models by two-step wavelength selection method
本文采用的玉米近紅外數(shù)據(jù)來自http://software.eigenvector.com/Data/Corn/index.html。該數(shù)據(jù)集由80個玉米樣品在3臺近紅外光譜儀M5、MP5、MP6上測試的近紅外光譜以及樣品的水分、油脂、蛋白質(zhì)和淀粉含量組成,近紅外光譜數(shù)據(jù)集的波長范圍為1 100 ~ 2 498 nm,波長間隔為2 nm,波長總數(shù)為700個。玉米樣品在主機和兩臺從機上的原始近紅外平均光譜如圖2所示。
圖 2 玉米樣品在主機和兩臺從機上原始光譜的平均光譜Fig.2 Original average spectra of corn samples in master and two slaves
對玉米近紅外光譜數(shù)據(jù)進行標(biāo)準(zhǔn)正態(tài)變換(SNV)結(jié)合一階導(dǎo)數(shù)(光滑點數(shù)為11)的處理,以消除背景漂移、減小光散射以及噪聲的影響。采用PLSR方法建立近紅外定量分析模型。本課題組前期的研究表明,PLS模型中的潛變量(LV)個數(shù)會對模型的預(yù)測性能產(chǎn)生很大的影響[22],本文的LV數(shù)由累積貢獻(xiàn)率達(dá)到99.9%確定(表1)。以SPXY法[23]劃分樣品數(shù)據(jù)集,對于玉米數(shù)據(jù),選擇前3/4(60個樣本)作為校正集,剩下1/4(20個樣本)作為驗證集。由圖2可知,儀器M5上玉米樣品的平均光譜與MP5和MP6上的差異較大,而MP5和MP6兩臺儀器上的平均光譜差異較小。因此,本文選取M5作為主機M;MP5、MP6分別作為從機S1、S2。
以MARE對模型的預(yù)測性能進行評價,評價指標(biāo)的計算公式:
式中,m表示樣品數(shù),yi,actual和yi,predicted分別表示第i個樣品的實際含量和預(yù)測含量。對于含量在1% ~ 100%范圍的物質(zhì)濃度檢測,一般認(rèn)為MARE小于5%是可以接受的。
偏最小二乘(PLS)在進行回歸分析時,將前n個潛變量所代表的方差之和與所有潛變量方差之和的比值η稱為累計貢獻(xiàn)率,計算公式如下:
式中,λi表示第i個潛變量的方差,p表示所有不為零的方差的潛變量數(shù),p≤ min{樣品數(shù),波長點數(shù)}。被前n個潛變量接受的方差可根據(jù)累積貢獻(xiàn)率進行判斷,潛變量的重要性可根據(jù)其能解釋的方差大小來判斷。隨著潛變量個數(shù)的增大,后面潛變量所能解釋的方差變小,意味著這些潛變量在不同樣本中變化不大,在模型中可以略去。
本文所有算法和畫圖操作均在Matlab R2020a上完成。
首先利用MC-UVE算法進行初篩。MCUVE算法的閾值太小,則弱信息變量無法剔除;閾值太大則會剔除掉有信息變量。因此,本文將MC-UVE算法的閾值設(shè)定為1 ~ 7,間隔為1,采用MC-UVE法在不同閾值下篩選出7個UUVE集合,并基于這7個波長集合分別建立PLS模型,得到各閾值下的校正均方根誤差(RMSEC)(圖3)。由圖3可知,閾值為4時,對應(yīng)的RMSEC最小,故選定4作為MC-UVE算法的閾值Mthreshold。在此閾值下挑選出有信息的波長變量集合UUVE,然后再在UUVE基礎(chǔ)上利用VIP算法作進一步的波長篩選,得到有信息的重要波長集合UUVE?VIP;同時利用VIP算法對全波長進行篩選,得到重要波長變量集合UVIP。波長集合UUVE、UVIP、UUVE?VIP在全波長的分布如圖4所示。由該圖可知,UUVE?VIP中的波長點只有143個,約為UUVE的三分之一、UVIP的二分之一。UUVE?VIP中1 980、2 048、2 054、2 056、2 060、2 160、2 470 nm處為蛋白質(zhì)的近紅外光譜特征吸收峰位置[24]。
圖3 不同Mthreshold閾值下的RMSECFig.3 RMSEC under different thresholds of Mthreshold
圖4 主儀器樣本光譜的平均SNV+一階導(dǎo)數(shù)光譜Fig.4 Average spectra of primary samples after SNV plus first derivation pretreatment
潛變量個數(shù)對PLSR定量模型的預(yù)測性能有很大影響[9]。因此,本文比較了分別基于累計貢獻(xiàn)率達(dá)到99.9%準(zhǔn)則(ACR)和留一交叉驗證(LOOCV)確定的潛變量數(shù)(LV)所建立的全波長模型的預(yù)測結(jié)果,如表1所示。由表可知,雖然基于LOOCV建立的模型預(yù)測主機樣品的MARE比基于ACR所建模型小,但該模型傳遞到從機后的MARE比ACR模型的對應(yīng)指標(biāo)高,尤其是對S2儀器樣品的預(yù)測誤差是ACR模型的2倍。而LOOCV的潛變量數(shù)是ACR的幾倍,易導(dǎo)致基于LOOCV建立的模型過擬合。因此,本文根據(jù)累積貢獻(xiàn)率達(dá)到99.9%確定潛變量數(shù)。
表1 基于不同的潛變量確定方法所建全波長模型的蛋白質(zhì)預(yù)測結(jié)果Table 1 Protein prediction results of whole wavelength calibration model based on latent variables selected by different methods
表2給出了分別基于波長集合UUVE、UVIP、UUVE?VIP和全波長建立的PLS模型預(yù)測主、從機樣品蛋白質(zhì)含量的結(jié)果,表中還列出了PDS方法對從機樣品的預(yù)測結(jié)果以及文獻(xiàn)[5]報道的蛋白質(zhì)含量預(yù)測結(jié)果。在本文所建模型中,全波長模型預(yù)測主機樣品蛋白質(zhì)含量的MARE小于其它模型。但全波長模型轉(zhuǎn)移到從機后,預(yù)測從機樣品蛋白質(zhì)含量的MARE均大于5%,且約是主機樣品預(yù)測誤差的6倍,即全波長模型對從機樣品的預(yù)測誤差偏大。MC-UVE-VIP模型預(yù)測從機樣品蛋白質(zhì)含量的MARE為1.64% ~ 1.88%,小于全波長模型的6.05%、也小于MC-UVE模型與VIP模型的5.19% ~ 7.16%,但略大于PDS的1.41% ~ 1.47%和SWCSS[5]模 型 的1.41% ~ 1.79%。由 于MCUVE-VIP完全基于主機樣本篩選波長,無需從機樣本的光譜信息[5],模型傳遞到從機時不需像PDS方法那樣根據(jù)轉(zhuǎn)移集樣本的光譜及蛋白質(zhì)含量信息校正從機樣本的預(yù)測結(jié)果,也不需像SWCSS方法那樣采用若干主、從機光譜信息,其預(yù)測從機樣本的誤差雖然略高于PDS和SWCSS方法,但其建模及模型傳遞過程比這兩種方法簡單、易行。
由表2可知,MC-UVE-VIP模型的變量(波長)個數(shù)顯著小于全波長模型,也比單一MCUVE和VIP方法的變量少,這使得該模型的運算效率及解釋能力得到顯著提升?;贛C-UVE和VIP結(jié)合算法的兩步篩選方法,能夠篩選出有信息的重要波長,使得基于這些波長建立的玉米蛋白質(zhì)模型具有更好的穩(wěn)健性,故模型對于主、從機樣本蛋白質(zhì)含量的預(yù)測誤差均處于可接受水平。
表2 不同近紅外模型對蛋白質(zhì)含量的預(yù)測結(jié)果比較Table 2 Protein prediction results of different NIRs calibration models
兩步波長篩選方法MC-UVE-VIP能夠根據(jù)主機樣本光譜篩選有信息的重要波長變量,無需從機光譜信息?;谠摲椒êY選出的波長所建立的玉米蛋白質(zhì)近紅外光譜定量預(yù)測模型可以直接傳遞到從機,模型對主、從機樣品蛋白質(zhì)含量預(yù)測的MARE均小于5%,實現(xiàn)了玉米樣品中蛋白質(zhì)含量近紅外光譜模型的無標(biāo)樣轉(zhuǎn)移。該模型的穩(wěn)健性、傳遞效果及精簡程度均優(yōu)于全波長模型以及一步波長篩選法MC-UVE和VIP建立的模型。MC-UVE-VIP兩步波長篩選方法對于其他數(shù)據(jù)的適應(yīng)性有待進一步研究。
(續(xù)表2)