梁 瑜
(95269部隊(duì)83分隊(duì),廣東廣州,510000)
基于吸光度的波長(zhǎng)篩選方法用于近紅外光譜定量模型的優(yōu)化
梁 瑜
(95269部隊(duì)83分隊(duì),廣東廣州,510000)
建立一種基于吸光度的波長(zhǎng)篩選方法,以近紅外光譜測(cè)定中成藥制劑的多糖含量為例,對(duì)模型優(yōu)化效果進(jìn)行驗(yàn)證??紤]模型穩(wěn)定性,在計(jì)算機(jī)平臺(tái)上搭建一種新的樣本集劃分框架,基于吸光度篩選出最優(yōu)波段為400~1882 & 2072~2364 nm,建立偏最小二乘(PLS)模型得到的SEPAve、RP,Ave分別為27.13 mg L-1、0.856,與全掃描譜區(qū)(400~2498 nm)的PLS模型預(yù)測(cè)效果做比較。結(jié)果表明,基于吸光度的波長(zhǎng)篩選方法,可以優(yōu)選出高信噪比波長(zhǎng),從而提高了近紅外光譜定量模型的性能。
近紅外光譜;吸光度;波長(zhǎng)篩選; PLS
近紅外(NIR)光譜主要反映含氫基團(tuán)X-H(如C-H、N-H、O-H等)振動(dòng)的倍頻和合頻吸收。由于其吸收強(qiáng)度弱,對(duì)大多數(shù)樣品不需要預(yù)處理便可直接測(cè)量,在快速、在線和原位分析方面具有明顯優(yōu)勢(shì),成功應(yīng)用于農(nóng)業(yè)、食品、環(huán)境、石油化工、生物醫(yī)學(xué)等領(lǐng)域。
無(wú)試劑快速測(cè)定方法在應(yīng)用上具有明顯的優(yōu)勢(shì),但也是方法學(xué)的難點(diǎn)。因?yàn)橹苯訙y(cè)定多組分的復(fù)雜樣品(如中成藥制劑),需要克服很多干擾,必須借助計(jì)算機(jī)平臺(tái),運(yùn)用有效的化學(xué)計(jì)量學(xué)方法,開(kāi)發(fā)創(chuàng)新的高信噪比波長(zhǎng)篩選方法,從而建立精確、有效的定量分析模型。
偏最小二乘(PLS)回歸是一種有效的化學(xué)計(jì)量學(xué)方法,被廣泛用于綜合篩選光譜數(shù)據(jù),提取信息變量和克服光譜共線性。然而,波長(zhǎng)的篩選也是必要的,因?yàn)楫?dāng)波長(zhǎng)組合的信噪比(SNR)不夠高時(shí),PLS模型的預(yù)測(cè)效果是很難提高的。
由于吸光度過(guò)大的波長(zhǎng)對(duì)應(yīng)了強(qiáng)烈的樣品吸收和噪音干擾。因此,提出一種基于吸光度的波長(zhǎng)篩選方法。該方法通過(guò)設(shè)定吸光度上限,將全掃描譜區(qū)的吸光度劃分為若干區(qū)間。利用光譜波長(zhǎng)與吸光度的對(duì)應(yīng)關(guān)系,在每個(gè)吸光度區(qū)間上建立PLS定標(biāo)預(yù)測(cè)模型。根據(jù)預(yù)測(cè)效果優(yōu)選吸光度上限,從而得到高信噪比波長(zhǎng)組合,達(dá)到光譜降維和信息波段提取的目的。
復(fù)合多糖是中成藥制劑的主要活性成份。多糖含量的傳統(tǒng)測(cè)定方法為比色法,需要復(fù)雜的前期處理,耗時(shí)長(zhǎng)、消耗大量化學(xué)試劑。研究制劑多糖含量的快速、精確測(cè)定方法,對(duì)于生產(chǎn)過(guò)程中藥物質(zhì)量的控制具有重要的意義。
本文以近紅外光譜測(cè)定中成藥制劑的多糖含量為例,基于吸光度進(jìn)行波長(zhǎng)篩選,對(duì)模型優(yōu)化效果進(jìn)行驗(yàn)證??紤]模型穩(wěn)定性,建立樣品集劃分新框架。即利用定標(biāo)、預(yù)測(cè)集的多個(gè)不同劃分,建立具有穩(wěn)定性的PLS模型,得到客觀、可靠的分析結(jié)果。
1.1實(shí)驗(yàn)材料、儀器和測(cè)量方法
收集到1286個(gè)中成藥制劑樣品。樣品的多糖值采用高錳酸鉀滴定法測(cè)定,作為光譜分析的參考值。測(cè)量?jī)x器為UV2300紫外-可見(jiàn)分光光度計(jì)(上海天美公司)。多糖的實(shí)測(cè)值的統(tǒng)計(jì)分析參見(jiàn)表1。
光譜儀器為XDS型近紅外光譜分析儀(福斯公司)。光譜掃描范圍400~2498nm;波長(zhǎng)間隔2nm;400~1100、1100~2498(nm)波段分別用Si、PbS探測(cè)器。透射附件為2 mm比色皿。每個(gè)樣品測(cè)量三次,三次光譜均值用于光譜分析。實(shí)驗(yàn)溫度、濕度分別為25℃ ± 1℃、45% ± 1RH。1286個(gè)制劑樣品的近紅外光譜如圖1所示。
1.2樣品集劃分新框架
考慮模型穩(wěn)定性,利用定標(biāo)、預(yù)測(cè)集的多個(gè)不同劃分,建立具有穩(wěn)定性的PLS模型。
首先,從全體1286個(gè)樣品中隨機(jī)選取693個(gè)樣品作為檢驗(yàn)集,余下的840個(gè)樣品作為建模集;建模集劃分成相似的定標(biāo)集(420個(gè)樣品)和預(yù)測(cè)集(420個(gè)樣品),總共進(jìn)行100次劃分,使得模型具有穩(wěn)定性;最后,采用隨機(jī)選取的檢驗(yàn)樣品對(duì)模型進(jìn)行檢驗(yàn)。樣品劃分過(guò)程參見(jiàn)圖2。
1.3模型評(píng)價(jià)指標(biāo)
對(duì)單個(gè)劃分的模型評(píng)價(jià)指標(biāo)有建模預(yù)測(cè)均方根偏差(SEPi)、建模預(yù)測(cè)相關(guān)系數(shù)(RP,i), i = 1, 2,……,100,計(jì)算公式如下:(2)(3)
其中, m為預(yù)測(cè)集樣品的個(gè)數(shù),Ck和分別是第k個(gè)預(yù)測(cè)集樣品的化學(xué)值和預(yù)測(cè)值,和分別是預(yù)測(cè)集樣品的化學(xué)值均值和預(yù)測(cè)值均值。
對(duì)整體模型的評(píng)價(jià)指標(biāo)包括SEPi和RP,i的均值(M_SEPAve,M_RP,Ave)及標(biāo)準(zhǔn)差(M_SEPSD、M_RP,SD)。
1.4基于吸光度的波長(zhǎng)篩選方法
本文提出一種通過(guò)移動(dòng)吸光度上限篩選最優(yōu)波段的方法,具體步驟如下:
第一步、在所測(cè)得的光譜波段中,根據(jù)測(cè)定對(duì)象的物理學(xué)、化學(xué)特性以及光譜儀器的性能,預(yù)先設(shè)置一個(gè)波長(zhǎng)篩選范圍Δ(它可以設(shè)置為全掃描譜區(qū)),同時(shí)確定該波長(zhǎng)范圍內(nèi)樣品平均光譜對(duì)應(yīng)的吸收率最大值A(chǔ)max和最小值A(chǔ)min;設(shè)置適當(dāng)?shù)奈章什介L(zhǎng)ε,將全吸光度范圍(Amin, Amax)n等分,共有n+1個(gè)吸光度的節(jié)點(diǎn);
第二步、從n+1個(gè)吸光度的節(jié)點(diǎn)中任意取一點(diǎn)最為吸光度上限,根據(jù)光譜數(shù)據(jù)的波長(zhǎng)與吸光度的對(duì)應(yīng)關(guān)系,在波長(zhǎng)篩選范圍Δ內(nèi),確定該吸收率上限Aupper所對(duì)應(yīng)的波段;
第三步、按照上述步驟,窮舉所有的吸光度上限,對(duì)每一個(gè)吸光度上限所對(duì)應(yīng)的波段建立PLS定標(biāo)預(yù)測(cè)模型,計(jì)算光譜預(yù)測(cè)值與實(shí)測(cè)值的SEPAve、SEPSD、RP,Ave、RP,SD;
第四步、找到SEP最小值所對(duì)應(yīng)的吸光度,將其確定為最優(yōu)吸光度上限,并進(jìn)而找到該最優(yōu)吸光度上限對(duì)應(yīng)的波段,完成建模過(guò)程。
2.1全掃描譜區(qū)與篩選波長(zhǎng)的PLS模型比較
建立全掃描譜400~2498nm的PLS模型。預(yù)測(cè)效果匯總在表2中
基于吸光度的進(jìn)行波長(zhǎng)篩選。本文中,波長(zhǎng)篩選范圍Δ設(shè)置為1868~2498nm,該范圍的吸光度最小值(Amin)和最大值(Amax)分別為0.90和4.63,如圖2所示。設(shè)置吸收率步長(zhǎng)ε為0.01, PLS因子個(gè)數(shù)F為。基于MATLAB7.6軟件平臺(tái),實(shí)現(xiàn)上述算法程序。
每個(gè)起點(diǎn)波長(zhǎng)、波長(zhǎng)數(shù)局部最優(yōu)模型的M_SEPAve值分布如圖4所示。可觀察到多糖的最優(yōu)吸光度上限Aupper。
根據(jù)最優(yōu)吸光度上限1.73篩選出的最優(yōu)波段為400~1882&2072~2364(nm),對(duì)應(yīng)PLS模型的M_SEPAve、M_ RP,Ave、M_SEPSD、M_RP,SD值匯總在表2中。結(jié)果表明,基于吸光度進(jìn)行波長(zhǎng)篩選,使定量模型的平均預(yù)測(cè)精度和穩(wěn)定性均大幅度優(yōu)于全掃描譜區(qū)PLS模型;所采用的波長(zhǎng)個(gè)數(shù)減少,顯著降低了模型復(fù)雜性。
2.2最優(yōu)波長(zhǎng)模型的檢驗(yàn)
采用不參與建模的693個(gè)檢驗(yàn)樣品對(duì)優(yōu)化后的定量模型進(jìn)行檢驗(yàn)。得到多糖值的檢驗(yàn)預(yù)測(cè)均方根誤差(SEP)為21.16 mg L-1;檢驗(yàn)預(yù)測(cè)相關(guān)系數(shù)(RP)為0.908。693個(gè)檢驗(yàn)樣品的多糖預(yù)測(cè)值與實(shí)測(cè)值的比較參見(jiàn)圖5。觀察到光譜預(yù)測(cè)值與實(shí)測(cè)值的相關(guān)性、吻合性均良好。
高信噪比波長(zhǎng)篩選可以提高近紅外光譜定量模型的分析精度、降低計(jì)算復(fù)雜度,對(duì)于模型優(yōu)化具有重要意義。本文提出的基于吸光度的波長(zhǎng)篩選方法,通過(guò)優(yōu)選吸光度上限避免了由于高吸光度引入的噪聲干擾。根據(jù)吸光度區(qū)間與光譜波長(zhǎng)的對(duì)應(yīng)關(guān)系實(shí)現(xiàn)波長(zhǎng)篩選。本文以近紅外光譜測(cè)定中成藥制劑多糖為例,在一種穩(wěn)定的樣品集劃分框架下運(yùn)用該波長(zhǎng)篩選方法,成功的對(duì)定量模型進(jìn)行優(yōu)化。
本文所建立算法和計(jì)算機(jī)程序框架也有望應(yīng)用于其他的分析對(duì)象的定量模型優(yōu)化。
表1 1286個(gè)中成藥制劑樣品多糖實(shí)測(cè)值(mg L-1)的統(tǒng)計(jì)分析
表2 全譜、最優(yōu)AO-PLS波段PLS模型的建模效果
圖1 1286個(gè)中成藥制劑樣品的近紅外光譜
圖2 樣品集劃分
圖3 波長(zhǎng)篩選范圍中,波長(zhǎng)和吸光度的關(guān)系示意圖
圖4 吸光度上限Aupper對(duì)應(yīng)多糖值的局部最優(yōu)模型的M_SEP:
圖5 檢驗(yàn)樣品多糖值的預(yù)測(cè)值與實(shí)測(cè)值的比較
[1]嚴(yán)衍祿. 近紅外光譜分析基礎(chǔ)與應(yīng)用[ M ].北京:中國(guó)輕工業(yè)出版社,2005 .
[2]Moron, A., Cozzolino, D. Application of near infrared reflectance spectroscopy for the analysis of organic C,total N and pH in soils of Uruguay.Journal of Near Infrared Spectroscopy,2002,10,215-221.
[3]楊蓮芳,劉珍,復(fù)方制劑中多糖含量測(cè)定方法研究[J], 現(xiàn)代中醫(yī)藥, 2009, 29: 80~81.
Optimization of near infrared spectroscopy quantitative model based on absorbance wavelength selection method
Liang Yu
(83 troops, 95269 division, Guangdong Guangzhou,510000)
To establish a screening method based on the absorbance wavelength,the polysaccharide content of the Chinese traditional medicine determination of near infrared spectroscopy as an example,to verify the effect of optimization model.Considering the stability of the model,the computer platform to build a new framework to optimize the sample set,absorbance wavelength of 400 ~ 1882 and 2072 ~ 2364 nm based on the established partial least squares(PLS) model of SEPAve,RP and Ave were 27.13 mg,0.856 L-1,and full scan spectral region (400 ~ 2498 nm) PLS model to predict the effect comparison.The results show that the wavelength of the high signal to noise ratio can be optimized by the wavelength selection method based on the absorbance,which can improve the performance of the quantitative model of the near infrared spectrum.
near infrared spectroscopy;absorbance;wavelength selection;PLS