劉秋安,徐芳芳,張 欣,姜欣汝,徐 冰,吳 云,肖 偉,王振中,
基于近紅外光譜技術和分類與回歸樹算法建立天舒片崩解時間預測模型
劉秋安1,徐芳芳2, 3*,張 欣2, 3,姜欣汝2,徐 冰4,吳 云2, 3,肖 偉2, 3,王振中1, 2, 3*
1. 南京中醫(yī)藥大學,江蘇 南京 210023 2. 江蘇康緣藥業(yè)股份有限公司,江蘇 連云港 222001 3. 中藥制藥過程新技術國家重點實驗室,江蘇 連云港 222001 4. 北京中醫(yī)藥大學,北京 100029
基于近紅外光譜(near infrared spectrum,NIRS)技術,建立一種快速預測天舒片崩解時間的方法。采集39個批次共468個樣品的NIRS,對比分類和回歸樹(classification and regression trees,CART)算法與偏最小二乘(partial least-square,PLS)算法2種模型的預測效果,建立天舒片崩解時間預測模型。經(jīng)基線校正處理后建立的CART模型性能最優(yōu)。與PLS模型相比該模型將相對校正均方根偏差(relative root mean square error of correction,RRMSEC)由7.43%降低至4.94%,相對預測均方根偏差(relative root mean square error of prediction,RRMSEP)由7.84%降低至7.66%。NIRS技術結合CART算法預測天舒片崩解時間是可行的,為天舒片崩解時間快速無損檢測提供了一種新方法。
近紅外光譜技術;分類和回歸樹算法;崩解時間;天舒片;偏最小二乘算法;相對校正均方根偏差;相對預測均方根偏差
天舒片由天麻和川芎2味藥組成,具有活血平肝、通絡止痛的功效[1]。崩解時間是天舒片質(zhì)量控制中最重要的指標之一。目前,天舒片崩解時間按照《中國藥典》2020年版中方法[1]使用崩解儀進行測定,這種方法具有破壞性、勞動強度大且耗時。因此,亟需建立一種中藥片劑崩解時間的快速檢測方法,以應用于天舒片生產(chǎn)過程中的質(zhì)量控制。
近幾年,近紅外光譜(near infrared spectrum,NIRS)技術作為一種無損的快速分析手段已經(jīng)被研究應用于中藥制藥行業(yè)中,例如測定活性成分含 量[2-4]、水分[5-7]以及混合均勻性[8-10]等。Donoso等[11]利用偏最小二乘回歸(partial least-square,PLS)法分析茶堿片劑崩解時間與近紅外光譜的關系,結果表明,崩解時間的增加會導致近紅外吸收率的增加。王昀等[12]采用PLS法建立基于NIRS技術的安乃近崩解時間快速分析模型,相關系數(shù)高達0.990 1。Zannikos等[13]研究發(fā)現(xiàn)片劑的NIRS與溶解度都與水分變化有關,從而建立了NIRS預測卡馬西平片溶出度的模型。上述研究表明,NIRS技術可以用來預測片劑崩解時間。
目前,國內(nèi)對以NIRS技術預測中藥片劑崩解時間的研究較少,且大多使用PLS法建立模型,NIRS技術結合分類和回歸樹(classification and regression trees,CART)算法的應用未見報道。CART算法是決策樹的一種實現(xiàn),本質(zhì)是一種二分遞歸分割算法,可以直觀的展示相關預測變量的作用和相對重要性,并且可以通過分段建模減弱線性回歸中共線性問題對模型效果的影響[14]。本研究嘗試應用CART算法建立模型,旨在開發(fā)一種基于NIRS技術預測天舒片崩解時間的方法,以便后續(xù)為天舒片的先進制藥提供技術支撐。
ZB-1E型智能崩解儀,天津市天大天發(fā)科技有限公司;Antaris II傅立葉變換近紅外分析儀,配積分球漫反射檢測器,美國Thermo Fisher Scientific公司。
天舒片素片由江蘇康緣藥業(yè)股份有限公司提供。39批次,每批12個共468個樣本,批號分別為200701、200702、200703、200704、200705、200706、200707、200708、200801、200802、200901、200902、200903、200904、200905、200906、200907、200908、200909、200910、201001、201002、201101、201201、201202、201203、201204、201205、201206、201210、201211、201212、201213、201214、201215、201216、201217、201218、201101。
將天舒片素片置于近紅外光譜儀圓形藥片固定裝置卡槽內(nèi)。采用近紅外光譜儀采集光譜,波數(shù)范圍為10 000~4000 cm?1,分辨率為8 cm?1,2倍增益,參比背景為空氣,每條數(shù)據(jù)為4次掃描的平均值。按上述方法采集樣品NIRS,結果如圖1所示??梢?,468個樣品的NIRS圖,吸光度略有差異,但整體趨勢相似。
圖1 468個樣品的NIRS圖(n = 4)
采用《中國藥典》2020年版四部通則崩解時限檢查法,分別測定“2.1”項中采集NIRS后的天舒片素片的崩解時間。取藥片1片置于崩解儀玻璃管中,因天舒片素片黏附擋板,故不加擋板,燒杯內(nèi)盛有(37±1)℃的純化水,往返頻率為每分鐘30~32次。39批共468個天舒片樣品崩解時間如表1所示,可見,天舒片樣品的崩解時間最小為18 min,最大為45 min。
采用UnscrambleX 10.4(Camo software AS,挪威)軟件對光譜進行預處理,采用Matlab 2020(美國MathWorks公司)軟件進行PLS模型的樣本劃分、變量篩選及模型構建,采用SPM 8.3(美國Salford Systems公司)進行CART模型的樣本劃分及模型構建,采用Origin 8.0(美國OriginLab公司)軟件繪圖。
2.4.1 評價指標的確定及建模方法 本研究分別使用PLS算法與CART算法來建立預測模型。并通過訓練集相關系數(shù)(correlation coefficient of training set,cal)、驗證集相關系數(shù)(correlation coefficient of verification set,pre)、校正均方根偏差(root mean square error of correction,RMSEC)、預測均方根偏差(root mean square error of prediction,RMSEP)、相對校正均方根偏差(relative root mean square error of correction,RRMSEC)、相對預測均方根偏差(relative root mean square error of prediction,RRMSEP)、性能偏差比(ratio of performance deviation,RPD)為指標評價模型優(yōu)劣,優(yōu)選潛變量數(shù)、預處理方法以及變量篩選方法。為Pearson相關系數(shù),其他相關指標計算公式如下。
表1 39批樣品崩解時間(n = 12)
RRMSEC=RMSEC/Y(3)
RRMSEP=RMSEP/Y(4)
y為第個樣品的實測值,y是訓練集中第個樣品的預測值,y是驗證集中第個樣品的預測值,y為訓練集樣品的平均值,y為驗證集樣品的平均值,RMSEC、RMSEP、RRMSEC、RRMSEP越小,cal、pre、RPD越大表示模型性能越好
CART算法[15]由以下2步組成:(1)決策樹生成:基于訓練數(shù)據(jù)生成決策樹,生成的決策樹要盡量大;(2)決策樹剪枝:用驗證集對已生成的樹進行剪枝并選擇最優(yōu)子樹,這時用損失函數(shù)最小作為剪枝的標準。
決策樹的生成就是遞歸地構建二叉決策樹的過程。在訓練數(shù)據(jù)集所在的輸入空間中,遞歸地將每個區(qū)域劃分為2個子區(qū)域并決定每個子區(qū)域上的輸出值,構建二叉決策樹。
(1)選擇最優(yōu)切分變量與切分點,求解公式(6)。
遍歷變量對固定的切分變量掃描切分點,選擇使公式(6)達到最小值的對(,)。
(2)用選定的對(,)劃分區(qū)域并決定相應的輸出值。
1(,)={|(j)≤},2(,)={|(j)>} (7)
(3)繼續(xù)對2個子區(qū)域調(diào)用步驟(1)(2),直至滿足停止條件。
(4)將輸入空間劃分為個區(qū)域1,2,···,R,生成決策樹。
CART剪枝算法由2步組成:首先從生成算法產(chǎn)生的決策樹0底端開始不斷剪枝,直到0的根節(jié)點,形成1個子樹序列{0,1,···,T};然后通過交叉驗證法在獨立的驗證數(shù)據(jù)集上對子樹序列進行測試,從中選擇最優(yōu)子樹。
2.4.2 PLS算法建模
(2)光譜預處理:采用光譜作為化學信息來源時,在進行信息的提取和解析之前,常常需要對光譜數(shù)據(jù)進行預處理,以消除基線漂移和噪聲對光譜帶來的干擾。一階導數(shù)(1st)可以消除背景的常數(shù)平移;二階導數(shù)(2nd)可以消除線性背景平移;標準正則變換(standard normal variate,SNV)可以校正因樣品不均勻造成的散射而引起的誤差;多元散射校正(multiplicative scatter correction,MSC)作用與標準正則變換相似;基線校正(baseline)可扣除儀器背景和漂移對光譜信號的影響;S-G平滑(Svaitzky-Golay smoothing)是通過多項式來對窗口內(nèi)的數(shù)據(jù)進行多項式最小二乘擬合以消除噪音,提高信噪比;矢量歸一化法(normalize)可消除光程變化對樣品產(chǎn)生的影響[17]。
本研究對比了以下幾種預處理方法:S-G平滑(S-G)、矢量歸一化法、SNV、MSC、基線校正、S-G平滑+一階導數(shù)(S-G+1st)、S-G平滑+二階導數(shù)(S-G+2nd)、標準正則變換+一階導數(shù) (SNV+1st)、多元散射校正+一階導數(shù)(MSC+1st)、基線校正+一階導數(shù)(基線校正+1st)、矢量歸一化法+一階導數(shù)(歸一化+1st)。
(3)特征變量篩選:組合間隔偏最小二乘法(synergy interval PLS,siPLS)是將光譜等分為多個區(qū)間,并通過多個區(qū)間的隨機組合建立PLS并選出最優(yōu)組合。本研究考察了將全光譜等分為20、30、40個子區(qū)間,并選擇2~4個區(qū)間的隨機組合建立PLS模型,最終篩選最優(yōu)組合區(qū)間為將全光譜分為20個子區(qū)間并選擇4個隨機組合。
移動窗口偏最小二乘法(moving window PLS,mwPLS)是基于移動窗口理念的間隔偏最小二乘模型,對于每個變量,將使用給定大小的窗口來進行PLS建模并選擇最佳因子數(shù)。本研究考察了窗口寬度(分別考察了全光譜總波數(shù)的2%、5%、10%、15%,即31、77、155、233)對模型的影響,最終優(yōu)選窗口寬度為233時的最佳建模波段。
(4)不同預處理方法對PLS模型的影響:不同預處理方法對PLS模型性能的影響如表2所示。綜合比較各預處理方法所得模型的RRMSEC、RRMSEP、RPD可知,采用SNV對光譜進行預處理后建立的PLS模型RRMSEC為7.43%,RRMSEP為7.84%,RPD為2.40,模型性能最好。
(5)不同變量篩選方法對PLS模型的影響:不同變量篩選方法對模型性能的影響如表3所示。綜合比較采用各變量篩選方法所得模型的RRMSEC、RRMSEP以及RPD值可知,采用全波長建模的模型RRMSEP最小,RPD最大,模型性能優(yōu)于其他篩選變量后的模型,故不進行變量篩選,選用全光譜模型。
2.4.3 CART算法建模
表2 不同預處理方法對PLS模型性能的影響
表3 不同變量篩選方法對PLS模型的影響
(1)樣本集劃分:樣本集劃分采用軟件自帶樣本劃分功能,按照隨機種子數(shù)隨機抽取樣本,將468個樣本劃分為訓練集(382個)和驗證集(86個),統(tǒng)計結果見表4。
(2)不同預處理方法對CART模型的影響:光譜預處理方法與“2.4.2”項中所用光譜預處理方法相同。結果如表5所示,采用基線校正對光譜進行預處理后建立的CART模型,RRMSEP值最小為7.66%,RRMSEC為4.94%,模型性能最優(yōu),驗證集預測結果如圖2所示。
2種算法的最優(yōu)模型如表6所示。CART算法所得模型預測誤差較小,RRMSEC為4.94%,RRMSEP為7.66%,模型預測精度更準確。
本研究建立了一種基于NIRS技術預測天舒片崩解時間的分析方法,可以高效、快速、無損的預測天舒片崩解時間,將崩解時間測量時間由40 min縮短至5 s左右,并由破壞性檢測轉變?yōu)闊o損檢測,提高了天舒片崩解時間的檢測效率。光譜采用基線校正方法進行預處理,CART算法建立模型。結果顯示,模型預測誤差為2.29 min,實際生產(chǎn)過程中產(chǎn)品崩解時間分布于(29.82±5.87)min,《中國藥典》2020年版要求為≤60 min,故本模型預測性能可滿足生產(chǎn)過程中產(chǎn)品崩解時間的檢測。
表4 CART模型訓練集和驗證集數(shù)據(jù)統(tǒng)計結果
表5 不同預處理方法對CART模型性能的影響
圖2 天舒片崩解時間的NIRS預測值與實測值相關性分析
隨著過程分析技術(process analysis technology,PAT)的發(fā)展,各個制藥企業(yè)都在嘗試應用PAT工具來提升產(chǎn)品質(zhì)量控制水平,提高生產(chǎn)效率。禮來公司開發(fā)了一種用于壓片機供料靴內(nèi)的PAT工具,用于實時監(jiān)測最終混合物的活性藥物成分(active pharmaceutical ingredient,API)濃度,該工具可以通過自動觸發(fā)壓片機卸料斜槽而清除不合格的藥片,從而保證產(chǎn)品含量[18-19]。
表6 2種算法所得模型效果比較
江蘇康緣藥業(yè)股份有限公司研發(fā)了中藥生產(chǎn)過程知識信息管理系統(tǒng)[20](process knowledge system,PKS),后續(xù)可以將此模型植入到該PKS系統(tǒng)中,實現(xiàn)壓片過程中天舒片崩解時間的快速準確預測,實時反饋產(chǎn)品質(zhì)量信息,及時調(diào)整相關工藝參數(shù),嘗試進行天舒片壓片工段的智能放行,以保證產(chǎn)品質(zhì)量。
利益沖突 所有作者均聲明不存在利益沖突
[1] 中國藥典[S]. 二部. 2020: 129, 628.
[2] 何月云, 梁華倫, 蘇胄豪, 等. 近紅外技術在小柴胡顆粒中黃芩苷快速檢測的應用研究 [J]. 今日藥學, 2019, 29(7): 461-463.
[3] 高瑞琳, 楊鵬碩, 許剛, 等. 基于系統(tǒng)建模思想的腦心通膠囊中丹酚酸B近紅外定量建模 [J]. 光譜學與光譜分析, 2020, 40(11): 3573-3578.
[4] 呂尚, 周海濱, 汪俊, 等. 基于近紅外光譜的銀杏葉提取液總黃酮醇苷快速檢測研究 [J]. 藥物分析雜志, 2017, 37(5): 927-933.
[5] 張恩華, 邱選兵, 魏永卜, 等. 基于方波激勵的近紅外LED中藥水分傳感器 [J]. 光譜學與光譜分析, 2020, 40(5): 1656-1660.
[6] 時博, 謝惠英, 雷敬衛(wèi), 等. 近紅外光譜法在知母和黃柏飲片水分分析中的應用 [J]. 中華中醫(yī)藥學刊, 2017, 35(3): 669-672.
[7] 王晴, 徐芳芳, 張欣, 等. 在線近紅外光譜監(jiān)測桂枝茯苓膠囊流化床干燥過程水分的方法研究 [J]. 中草藥, 2019, 50(22): 5429-5438.
[8] 劉燎原, 梁志毅, 劉麗萍, 等. 基于近紅外光譜技術的砂仁提取物混合工藝研究 [J]. 中國現(xiàn)代中藥, 2020, 22(1): 85-88,93.
[9] 萬娜, 林環(huán)玉, 伍振峰, 等. 基于中藥粒子設計結合近紅外光譜技術研究清潤丸原料粉末的混合均勻性[J]. 中草藥, 2020, 51(17): 4425-4432.
[10] 楊嬋, 徐冰, 張志強, 等. 基于移動窗F檢驗法的中藥配方顆?;旌暇鶆蚨冉t外分析研究 [J]. 中國中藥雜志, 2016, 41(19): 3557-3562.
[11] Donoso M, Ghaly E S. Prediction of tablets disintegration times using near-infrared diffuse reflectance spectroscopy as a nondestructive method [J]., 2005, 10(2): 211-217.
[12] 王昀, 孟慶華. 近紅外光譜法測定藥物崩解時限應用研究 [J]. 海峽藥學, 2011, 23(12): 69-71.
[13] Zannikos P N, Li W I, Drennen J K,. Spectrophotometric prediction of the dissolution rate of carbamazepine tablets [J]., 1991, 8(8): 974-978.
[14] Loh W Y. Classification and regression trees [J]., 2011, 1(1): 14-23.
[15] 李航. 統(tǒng)計學習方法[M]. 北京: 清華大學出版社, 2012: 81.
[16] Galvao R, Araujo M, Jose G,. A method for calibration and validation subset partitioning [J]., 2005, 67(4): 736-740.
[17] 倪力軍, 張立國. 基礎化學計量學及其應用[M]. 上海: 華東理工大學出版社, 2011: 56-70.
[18] Harms Z D, Shi Z Q, Kulkarni R A,. Characterization of near-infrared and Raman spectroscopy for in-line monitoring of a low-drug load formulation in a continuous manufacturing process [J]., 2019, 91(13): 8045-8053.
[19] Manley L, Hilden J, Valero P,. Tablet compression force as a process analytical technology (PAT): 100% Inspection and control of tablet weight uniformity [J]., 2019, 108(1): 485-493.
[20] 王磊. 熱毒寧注射液關鍵生產(chǎn)工段智能放行技術的研究 [D].杭州: 浙江大學, 2018.
Based on near-infrared spectroscopy technology and classification and regression trees algorithm to establish a prediction model of Tianshu Tablets disintegration
LIU Qiu-an1, XU Fang-fang2, 3, ZHANG Xin2, 3, JIANG Xin-ru2, XU Bing4, WU Yun2, 3, XIAO Wei2, 3, WANG Zhen-zhong1, 2, 3
1. Nanjing University of Chinese Medicine, Nanjing 210023, China 2. Jiangsu Kanion Pharmaceutical Co., Ltd., Lianyungang 222001, China 3. State Key Laboratory of New-tech for Chinese Medicine Pharmaceutical Process, Lianyungang 222001, China 4. Beijing University of Chinese Medicine, Beijing 100029, China
A rapid method was established to predict the disintegration time of Tianshu Tablets (天舒片) based on near infrared spectroscopy (NIRS).The near-infrared spectra of 468 samples from 39 batches were collected, and the disintegration time prediction model of Tianshu tablets was established by comparing the prediction effects of the partial least squares (PLS) and classification and regression tree (CART) models.The performance of the CART model was the best after the spectrum was preprocessed by the baseline correction, relative root mean square error of correction (RRMSEC) value of this model was decreased from 7.43% to 4.94%, relative root mean square error of prediction (RRMSEP) value wasdecreased from 7.84% to 7.66%.It is feasible to predict the disintegration time of Tianshu Tablets with NIR spectroscopy technology and CART algorithm, which provides a new method for rapid and non-destructive testing of the disintegration time of Tianshu tablets.
near infrared spectroscopy; classification and regression tree algorithm; disintegration time; Tianshu Tablets; partial least- square; relative root mean square error of correction; relative root mean square error of prediction
R283.6
A
0253 - 2670(2021)16 - 4837 - 07
10.7501/j.issn.0253-2670.2021.16.008
2021-03-12
國家“重大新藥創(chuàng)制”科技重大專項:基于功效成分群的中藥口服固體制劑先進制藥與信息化技術融合示范應用(2018ZX09201010-004)
劉秋安,碩士研究生。E-mail: lqa82119245@163.com
王振中,研究員,研究方向為中藥新藥研發(fā)。E-mail: kyyywzz@163.com
徐芳芳(1990—),女,博士,研究方向為過程分析技術。E-mail: 879164331@qq.com
[責任編輯 鄭禮勝]