安思宇,張 磊,尚獻召,岳洪水,柳文媛,鞠愛春*
1. 天津天士力之驕藥業(yè)有公司,天津市中藥注射劑安全性評價企業(yè)重點實驗室,天津 300402 2. 中國藥科大學(xué)藥物質(zhì)量與安全預(yù)警教育部重點實驗室,江蘇 南京 210009
近紅外光譜技術(shù)(near infrared spectroscopy, NIR)具有分析速度快、分析效率高、分析成本低、可偶聯(lián)光纖進行遠距離操作、操作技術(shù)要求低等優(yōu)勢,已經(jīng)成為過程分析技術(shù)的重要組成部分。通過建立中藥生產(chǎn)過程關(guān)鍵質(zhì)量指標(biāo)的NIR定量分析模型,可以實現(xiàn)活性成分的快速無損測定,控制中藥產(chǎn)品生產(chǎn)過程質(zhì)量穩(wěn)定性。注射用益氣復(fù)脈(凍干)是基于傳統(tǒng)中藥古方生脈散發(fā)展起來的一種新型凍干粉針制劑,由紅參、麥冬、五味子3種藥材組成,具有益氣復(fù)脈,養(yǎng)陰生津的功效。總皂苷含量是注射用益氣復(fù)脈(凍干)紅參提取過程的質(zhì)量指標(biāo),因此需要建立該指標(biāo)的監(jiān)測方法控制注射用益氣復(fù)脈(凍干)生產(chǎn)過程質(zhì)量。
NIR存在吸收強度弱且譜區(qū)信息重疊嚴(yán)重等瓶頸問題[1-2],進行光譜預(yù)處理雖然可以消除一些影響因素帶來的干擾信息,但是有效的波長仍然掩蓋在整條光譜中,因此選擇適當(dāng)?shù)淖兞亢Y選方法是提升模型精度的重要手段。目前主要的變量篩選方法有: 連續(xù)投影方法(successive projections algorithm,SPA)[3]、間隔偏最小二乘法(interval partial least squares,IPLS)[4]、移動窗口偏最小二乘法(moving window partial least squares,MWPLS)[5]、無信息變量消除法(uninformative variable elimination,UVE)[6]和遺傳算法(genetic algorithm,GA)[7]以及OPUS、TQ Analyst等光譜分析軟件自帶的變量篩選方法,它們都是一次性變量篩選方法且沒有考慮到變量之間的交互作用。
模型集群分析(model population analysis, MPA)的思想打破了傳統(tǒng)的一次性建模思路[8],隨機蛙跳法(random frog,RF)[9-10]、競爭自適應(yīng)重加權(quán)(competitive adaptive reweighted sampling,CARS)[11-12]、變量組合集群分析法(variable combination population analysis,VCPA)[13-14]以及迭代保留信息變量(iteratively retaining informative variables,IRIV)[15-16]等都是在MPA思想下衍生出的變量篩選方法。其中RF[9-10]、CARS[11-12]已經(jīng)廣泛用于近紅外光譜信息變量篩選中以提高模型性能,而對于VCPA與IRIV的應(yīng)用研究較少, 目前未有在中藥生產(chǎn)過程質(zhì)量檢測的應(yīng)用實例。本研究采用VCPA迭代IRIV[17]變量篩選算法建立紅參總皂苷偏最小二乘(partial least squares,PLS)定量分析模型,對預(yù)測集總皂苷含量進行預(yù)測,并與其他變量篩選條件下建立的模型性能進行比較。
MATRIX-F型傅里葉變換近紅外光譜儀(德國Bruker),配有OPUS數(shù)據(jù)處理軟件(版本7.5); SHIMADZU UV-2600紫外-可見分光光度計(日本Shimadzu); MS204TS型電子分析天平(瑞士Mettler Toledo); MATLAB數(shù)學(xué)軟件(美國MathWorks); 紅參提取過程終產(chǎn)物(天津天士力之驕藥業(yè)有限公司提供,共55批,批號A1—A55); 人參皂苷Re對照品(中國藥品生物制品檢定研究院)。
1.2.1 供試品溶液的制備
精密稱定0.1 g紅參提取終產(chǎn)物,用10 mL 0.5 mol·L-1氫氧化鈉溶液溶解,上預(yù)先處理好的AB-8樹脂柱,分別用0.5 mol·L-1的氫氧化鈉的20%甲醇溶液與20%甲醇溶液洗脫雜質(zhì),最終用甲醇洗脫待測物,過濾膜,取續(xù)濾液作為供試品溶液。
1.2.2 對照品溶液制備
精密稱取人參皂苷Re對照品,加甲醇制成每1 mL含2 mg的溶液,搖勻,即得。
1.2.3 測定條件
精密量取對照品溶液20,40,60,80和100 μL,及供試品溶液40 μL,分別置于10 mL具塞試管中。置水浴中揮盡溶劑后取出,放冷,精密加新配制含5%香草醛的冰醋酸溶液和高氯酸混和液(2∶8) 1 mL,搖勻。置60 ℃水浴中加熱15 min,取出,立即置冰浴中冷卻2 min。精密加冰醋酸5 mL,搖勻,在室溫下放置5 min。以相應(yīng)試劑為空白,在550 nm處測定吸收度,計算,即得。
稱取2.5 g紅參提取終產(chǎn)物,使用純化水定容至25 mL,混勻,使提取物充分溶解。將所得溶液轉(zhuǎn)移至離心管,使用德國Bruker公司MATRIX-F型近紅外光譜儀采集近紅外光譜。以內(nèi)部空氣作為參比,光譜采集模式為透射,采集方式為在線探頭采集。NIR采集參數(shù)為: 光程為2 mm,分辨率為2 cm-1,光譜掃描范圍4 000~12 000 cm-1,掃描32次。收集樣本的原始光譜如圖1。
采用1.2項中的紫外可見分光光度法測定樣本中的總皂苷值,利用聯(lián)合x-y距離的樣本集劃分(sample set partitioning based on joint x-y distance, SPXY)方法將55批紅參樣本分為40個校正樣本與15批外部檢驗樣本。
圖1 紅參提取物原始近紅外光譜Fig.1 Original near infrared (NIR) spectra of red ginseng
表1 紅參提取物校正集和驗證集的劃分結(jié)果Table 1 Statistical characteristics of total saponins value
常見的光譜預(yù)處理方法有均值中心化、多元散射校正、卷積平滑法和小波變換等。本研究的預(yù)處理方法均為多元散射校正(multiplicative scatter correction,MSC),用來修正各樣品近紅外光譜間的相對基線平移和偏移現(xiàn)象。
為了比較不同變量篩選方法對紅參提取物總皂苷近紅外定量模型的影響,將經(jīng)過MSC預(yù)處理的紅參總皂苷光譜數(shù)據(jù)分別利用VCPA-IRIV,VCPA,CARS,RF以及OPUS軟件自帶的變量篩選方法進行變量篩選。
其中VCPA-IRIV運用二進制矩陣采樣法(BMS)從紅參提取物近紅外光譜變量中采樣1 000次,得到1 000組不同的變量組合,運用PLS方法分別對這1 000組變量組合進行光譜建模,計算交叉驗證均方根誤差(cross validation root mean square error, RMSECV)最小的前15%的變量組合中各光譜變量出現(xiàn)的次數(shù),以及RMSECV最大的前5%的變量組合中光譜變量出現(xiàn)的次數(shù),兩者相減即為相應(yīng)光譜變量的貢獻值。運用指數(shù)遞減(EDF)函數(shù)迭代運行40次,刪除貢獻小的變量,最終剩下100個變量。迭代結(jié)束后每個變量被選擇的頻率如圖2。接著聯(lián)用IRIV方法,BMS采樣200次,逐個波長變量計算包含和不包含該變量時的RMSECV 平均值,得到兩者之差DMEAN(difference of mean values)和非參數(shù)檢驗方法曼-惠特尼U檢驗的P值,按表2所示變量篩選規(guī)則去除無信息與干擾信息變量,保留強信息與弱信息波長變量,經(jīng)多次迭代循環(huán)直至無信息和干擾信息變量全部消除,最終篩選出18個變量。接下來為了體現(xiàn)VCPA與IRIV聯(lián)用的優(yōu)越性,單獨使用VCPA方法進行變量篩選。
CARS模仿進化論中的“適者生存”法則,采用蒙特卡洛采樣法抽取80%的樣本為校正集,建立PLS回歸模型,計算每個變量回歸系數(shù),回歸系數(shù)絕對值越大則貢獻值越大,利用EDF函數(shù)去除貢獻值小的波長點,此過程迭代500次,得到500組不同的變量子集,最后建立每個子集的PLS回歸模型,其中RMSECV最小的變量子集即為最優(yōu)子集。
RF是一種類似可逆跳轉(zhuǎn)的馬爾科夫鏈蒙特卡洛算法,通過在模型空間模擬一條正態(tài)分布的馬爾可夫鏈來計算每個變量被選擇的概率,進而實現(xiàn)變量選擇,迭代1 000次后,被選擇概率前10的波數(shù)變量為最后的特征變量。以上4種變量篩選算法均在MATLAB軟件中使用。
光譜采集用的MATRIX-F型傅里葉變換近紅外光譜儀,附帶數(shù)據(jù)處理分析軟件OPUS,該軟件自帶的變量篩選方法操作簡便、應(yīng)用廣泛,考察該軟件所建PLS模型的性能,可以論證MPA下衍生的變量篩選方法是否有推廣應(yīng)用的價值。
表2 變量篩選規(guī)則Table 2 Variable classification rules
圖2 VCPA-IRIV變量篩選過程中變量被選擇的次數(shù)Fig.2 The frequency of variables selected by VCPA-IRIV
用不同方法篩選出的變量建立PLS定量分析模型,并對建模結(jié)果進行統(tǒng)計,結(jié)果如表3所示。
表3 不同變量篩選方法的模型結(jié)果Table 3 Comparison on modeling results by differentvariables screening methods
結(jié)果表明OPUS軟件自帶變量篩選方法以及CARS、RF雖然減少了冗余信息,但是其建模效果并不理想,Rc分別為0.601 3,0.565 3與0.644 0,與全波長光譜建模效果相當(dāng),并沒有成功篩選出有效變量。這是因為OPUS軟件采用一次性采樣方法建模,且只能篩選成段的變量,CARS利用蒙特卡洛采樣法在樣本空間進行重復(fù)取樣,RF利用蒙特卡洛采樣法在變量空間進行重復(fù)取樣,卻都沒有考慮到變量之間的組合效應(yīng),不適用于提取紅參提取物中的有效變量。
VCPA-PLS模型的Rc為0.951 2,是所有方法中最高的,但是其RSEP(%)為9.95%,預(yù)測效果沒有VCPA-IRIV-PLS好,且其RMSEC與RMSEP之間差值最大,過擬合現(xiàn)象最嚴(yán)重。這表明雖然VCPA方法可以通過BMS采樣得到1 000組不同的變量組合,很好地考慮了變量組合效應(yīng),但是當(dāng)變量數(shù)遠大于樣本數(shù)時,VCPA無法實現(xiàn)所有變量的組合,容易受到無關(guān)信息與干擾信息的影響,導(dǎo)致模型的過度擬合,而IRIV可以更好地去除無關(guān)信息與干擾信息,兩者聯(lián)用時可以很好地彌補自身的缺點,提高模型預(yù)測效果。因此VCPA-IRIV更適用于紅參提取物總皂苷的模型建立,可以用來檢測本公司注射用益氣復(fù)脈(凍干)生產(chǎn)過程,紅參提取過程終產(chǎn)物的總皂苷值。
VCPA-IRIV在考慮變量組合效應(yīng)的同時,很好地排除無關(guān)信息與干擾信息變量,不僅解決了紅參提取物中的變量篩選問題,也為變量之間存在相關(guān)關(guān)系的近紅外定量分析模型的擬合帶來思路,該方法的推廣有利于近紅外光譜技術(shù)在中藥制劑生產(chǎn)過程的質(zhì)量控制中的應(yīng)用。將該方法應(yīng)用于其他分析對象時,可通過調(diào)整相關(guān)控制系數(shù),以達到最佳的模型擬合效果,除了IRIV,還可以在VCPA的基礎(chǔ)上疊加使用其他變量選擇方法,以提升相關(guān)質(zhì)量指標(biāo)分析模型的預(yù)測性能。