李歡 萬珊 聶斌
摘? 要:中藥量效之間呈現(xiàn)多成分、多靶點的非線性關(guān)系,偏最小二乘回歸是一種線性回歸方法,不能充分表達(dá)中藥量效之間的非線性關(guān)系?;诖耍恼陆⒒跇訔l偏最小二乘的中藥量效關(guān)系模型,該模型先對自變量進(jìn)行三次B樣條變化,再進(jìn)行偏最小二乘回歸建模。分別在6組UCI數(shù)據(jù)集、2組中藥數(shù)據(jù)上展開實驗,結(jié)果表明,基于樣條偏最小二乘回歸模型能夠很好地擬合非線性數(shù)據(jù),并且對中藥量效關(guān)系研究可行有效。
關(guān)鍵詞:量效關(guān)系;非線性;中醫(yī)藥信息學(xué);偏最小二乘;樣條函數(shù)
中圖分類號:TP391? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)07-0131-04
Abstract: There is a nonlinear relationship between the dosage and effect of Traditional Chinese Medicine (TCM) with multi components and multi targets, and Partial Least Squares Regression (PLSR) is a linear regression that does not adequately express the nonlinear relationship between dosage and effect of TCM. Based on this, this paper establishes a dose-effect relationship model for TCM based on spline partial least squares. The model firstly performs three B-spline changes on the independent variables, and then conducts PLSR modeling. Experiments are carried out on 6 sets of UCI datasets and 2 sets of TCM datasets. The results show that the spline PLSR model can fit the nonlinear data well, and it is feasible and effective for the study of the dose-effect relationship of TCM.
Keywords: dose-effect relationship; nonlinear; Chinese Medicine Informatics; PLSR; spline function
0? 引? 言
中藥量效關(guān)系[1]是指藥物的劑量在一定范圍內(nèi)變化時,藥物對機(jī)體產(chǎn)生的效應(yīng)也會隨之變化,量效關(guān)系是保障臨床用藥安全的關(guān)鍵。中藥成分的復(fù)雜性決定了中藥作用于機(jī)體具有多成分、多靶點、多藥效指標(biāo)的特點,進(jìn)而決定了中藥量效呈現(xiàn)出多自變量與多因變量的非線性關(guān)系。目前,研究中藥量效關(guān)系主要從臨床病癥[2,3]、效應(yīng)物質(zhì)[4,5]、數(shù)據(jù)挖掘[6,7]等角度。其中,臨床病癥存在周期長、倫理學(xué)審核嚴(yán)格的問題;效應(yīng)物質(zhì)局限于基礎(chǔ)研究;常用于數(shù)據(jù)挖掘的方法只適用于足量樣本量的數(shù)據(jù),難以適應(yīng)中藥數(shù)據(jù)的自變量多樣本少,且存在多重共線性的分析。
偏最小二乘回歸法[8]是集主成分分析、典型相關(guān)分析和多元線性回歸于一體的多元線性統(tǒng)計分析方法,PLSR適用于具有自變量多、樣本量少,且存在多重共線性特點的數(shù)據(jù),但其外部提取成分和內(nèi)部回歸都是采用線性的方法,無法滿足中藥量效之間的非線性關(guān)系。朱志鵬等[9]運用稀疏自編碼器提取主成分,使PLSR取得了非線性效果,并用于擬合中藥量效之間的非線性關(guān)系,但模型可解釋性不強(qiáng);曾青霞等[10]將隨機(jī)森林嵌入到PLSR中,并應(yīng)用于中藥量效關(guān)系分析,但隨機(jī)森林是一種集成算法,需要一定的存儲空間。
樣條偏最小二乘回歸方法[11]能夠適應(yīng)數(shù)據(jù)間的非線性關(guān)系,模型簡單易理解。因此,本文建立SPLSR的中藥量效關(guān)系模型,該模型既適用于自變量多、樣本量少的中藥數(shù)據(jù),又能解決自變量間的多重共線性,并且能夠很好地擬合中藥量效之間的非線性關(guān)系。
1? 樣條偏最小二乘回歸模型
1.1? 樣條函數(shù)
樣條函數(shù)[11-13]采用光滑對接的分段多項式,是一種按需裁剪、適應(yīng)任何連續(xù)變化的擬合方法。函數(shù)思想為:已知函數(shù)點[xi, yi] (i=0,1,…,n),在x的取值區(qū)間[a,b]內(nèi)插入(M-1)分點,使其得到一個分劃π:a=ζ0<ζ1<…ζM-1<ζM=b,若函數(shù)s(x)滿足以下兩個條件:
2? 實驗分析
2.1? 實驗數(shù)據(jù)說明
首先,為了驗證樣條偏最小二乘模型能夠很好地擬合非線性數(shù)據(jù),本文運用6組非線性的UCI數(shù)據(jù)集[14]進(jìn)行實驗。其次,為了進(jìn)一步驗證基于樣條偏最小二乘的中藥量效關(guān)系模型能夠解決自變量間的多重共線性,并且能夠很好地擬合中藥量效之間的非線性關(guān)系,本文采用現(xiàn)代中藥制劑教育部重點實驗室的麻杏石甘湯止咳和大承氣湯2組方藥的實驗數(shù)據(jù)進(jìn)行實驗。如表1所示,分別介紹了上述6組UCI數(shù)據(jù)和2組中藥實驗數(shù)據(jù)的自變量數(shù)、因變量數(shù)、樣本數(shù)和數(shù)據(jù)名稱的縮寫形式。
將上述8組數(shù)據(jù)集在實驗環(huán)境為win 10操作系統(tǒng)(64位)、Intel(R)Core(TM)i5-3470 CPU、8 GB的RAM以及Spyder開發(fā)平臺上展開實驗,測定系數(shù)R2為模型評價指標(biāo),R2越接近于1代表模型的擬合效果越好。將樣條偏最小二乘模型與偏最小二乘模型進(jìn)行比較,驗證樣條偏最小二乘的有效性。R2的計算公式如下,式中n為數(shù)據(jù)集的樣本總數(shù):
2.2? 非線性擬合結(jié)果分析
將上述6組UCI數(shù)據(jù)集,按照7:3的比例劃分訓(xùn)練集和測試集,在訓(xùn)練集上,分別建立偏最小二乘模型和樣條偏最小二乘模型,調(diào)整參數(shù)使模型達(dá)到最優(yōu)。將建立好的模型,在測試集上進(jìn)行測試,得到R2值。如表2所示,為上述2種模型在6組UCI數(shù)據(jù)集上確定提取成分的個數(shù),如表3所示,為上述2種模型在6組UCI數(shù)據(jù)集上,得到測試集的R2值,為了更加直觀的比較實驗結(jié)果,將表3的數(shù)據(jù)繪制對應(yīng)的折線圖,如圖1所示。
圖1中,橫坐標(biāo)代表6組UCI數(shù)據(jù)集,縱坐標(biāo)代表模型的R2值。從圖1中可明顯看出,在6組數(shù)據(jù)集上,樣條偏最小二乘模型的圖形在偏最小二乘的上方,代表樣條偏最小二乘模型的R2值最接近于1。結(jié)合圖1和表3可看出,在WR數(shù)據(jù)集上,2種模型的R2值都較低,原因是WR數(shù)據(jù)更適合分類任務(wù)。在ccpp數(shù)據(jù)集上,樣條偏最小二乘模型的R2值達(dá)到了0.996 2。綜上所述,樣條偏最小二乘回歸模型擬合非線性數(shù)據(jù)的效果好于偏最小二乘回歸模型。
2.3? 中藥量效關(guān)系擬合結(jié)果分析
為了驗證基于樣條偏最小二乘的中藥量效關(guān)系模型能夠解決自變量間的多重共線性,以及能夠很好地擬合中藥量效之間的非線性關(guān)系,本文在MXSGTZK和DCQT這2組中藥實驗數(shù)據(jù)上展開實驗。MXSGTZK數(shù)據(jù)集中自變量為麻黃堿、偽麻黃堿、甲基麻黃堿、苦杏仁苷、野黑櫻苷的含量,因變量為一天的咳嗽次數(shù),通過建立基于樣條偏最小二乘的中藥量效關(guān)系模型,分析MXSGTZK中每味中藥的含量與一天咳嗽次數(shù)的關(guān)系。DCQT數(shù)據(jù)集中自變量為大黃、厚樸、枳實、芒硝的含量,因變量為機(jī)體中d-乳酸、SOD、丙二醛、內(nèi)毒素、小腸的周長、胃動素血流量的值,通過建立基于樣條偏最小二乘的中藥量效關(guān)系模型,分析DCQT中每味中藥的含量與藥效之間的關(guān)系。
將MXSGTZK和DCQT2組中藥實驗數(shù)據(jù),按照7:3的比例劃分訓(xùn)練集和測試集,分別建立基于偏最小二乘回歸的中藥量效關(guān)系模型和基于樣條偏最小二乘的中藥量效關(guān)系模型,調(diào)整參數(shù)使模型達(dá)到最優(yōu),將建立好的上述2種模型,在測試集上進(jìn)行測試,得到R2值。如表4所示,為上述2種模型在2組中藥實驗數(shù)據(jù)集上提取成分的個數(shù)。如表5所示,為上述2種模型在2組中藥實驗數(shù)據(jù)集上,測試集的R2值,為了更加直觀地比較實驗結(jié)果,將表5的數(shù)據(jù)繪制對應(yīng)的折線圖,如圖2所示。
圖2中,橫坐標(biāo)為兩種中藥實驗數(shù)據(jù)集MXSGTZK和DCQT,縱坐標(biāo)為R2值。從圖2中可看出,在2組數(shù)據(jù)集上,樣條偏最小二乘回歸模型比偏最小二乘回歸模型更接近于1。從表5中可得出,在MXSGTZK數(shù)據(jù)集上,樣條偏最小二乘回歸模型的R2值為0.947 5,偏最小二乘回歸模型的R2值只有0.688 9;在DCQT數(shù)據(jù)集上,樣條偏最小二乘回歸模型的R2值為0.985 2,非常接近于1,偏最小二乘回歸模型的R2值為0.924 7。綜上所述,基于樣條偏最小二乘回歸的中藥量效關(guān)系模型能夠很好地擬合中藥量效之間的非線性關(guān)系。
3? 結(jié)? 論
本文提出的基于樣條偏最小二乘回歸的中藥量效關(guān)系模型,能夠充分表達(dá)中藥量效之間的非線性關(guān)系。實驗中,首先采用6組UCI數(shù)據(jù)集構(gòu)建偏最小二乘回歸模型和樣條偏最小二乘回歸模型,比較上述2種模型的R2值,實驗結(jié)果表明,樣條偏最小二乘回歸模型能夠更加有效地擬合非線性數(shù)據(jù)。其次,使用來自現(xiàn)代中藥制劑教育部重點實驗室的2組中藥實驗數(shù)據(jù),分別建立基于偏最小二乘回歸的中藥量效關(guān)系模型和基于樣條偏最小二乘回歸的中藥量效關(guān)系模型,結(jié)果表明,基于樣條偏最小二乘回歸的中藥量效關(guān)系模型能夠有效地擬合中藥量效之間的關(guān)系。實驗過程中發(fā)現(xiàn),首先,由于樣條函數(shù)采用分段擬合,模型容易過擬合,在訓(xùn)練過程中要注意。其次,模型的擬合效果和提取成分的個數(shù)有一定的關(guān)系,因此,在使用偏最小二乘回歸方法研究中藥量效關(guān)系時,要注意提取的成分盡可能攜帶自變量的信息,且與因變量的相關(guān)性較大,模型的擬合效果才會更優(yōu)。
參考文獻(xiàn):
[1] 于同月,宋斌,雷燁,等.仝小林院士從經(jīng)方量效與應(yīng)用談中醫(yī)經(jīng)典傳承與發(fā)展 [J].吉林中醫(yī)藥,2022,42(4):385-388.
[2] 鄢良春,華樺,田韋韋,等.基于模式生物費氏弧菌Hormesis效應(yīng)的中藥非典型劑量-反應(yīng)關(guān)系與定量化表征 [J].中藥藥理與臨床,2022,38(3):2-8.
[3] 蘭雨澤,朱向東,白雅黎,等.茯苓的量效關(guān)系及其臨床應(yīng)用探討 [J].吉林中醫(yī)藥,2019,39(6):737-740.
[4] 張名奇,朱林平.桂枝的量效與配伍關(guān)系研究 [J].河北中醫(yī),2021,43(9):1571-1574.
[5] 熊優(yōu),王雅琪,焦姣姣,等.黃芩酒炙過程中化學(xué)成分含量變化及其與藥效的相關(guān)性分析 [J].中國實驗方劑學(xué)雜志,2018,24(16):1-6.
[6] 劉晨笑,劉子旺,趙永烈.基于數(shù)據(jù)挖掘探究丹參的現(xiàn)代臨床量效關(guān)系 [J].云南中醫(yī)中藥雜志,2021,42(9):17-20.
[7] 李歡,聶斌,杜建強(qiáng),等.融合softmax的偏最小二乘法及中藥數(shù)據(jù)分析研究 [J].計算機(jī)應(yīng)用研究,2019,36(12):3740-3743.
[8] 蘇衛(wèi)星,冉順義,劉芳,等.基于相關(guān)性變量篩選偏最小二乘回歸的多維相關(guān)時間序列建模方法 [J].信息與控制,2021,50(4):395-402.
[9] 朱志鵬,杜建強(qiáng),余日躍,等.融入深度學(xué)習(xí)的偏最小二乘優(yōu)化方法 [J].計算機(jī)應(yīng)用研究,2017,34(1):87-90.
[10] 曾青霞,杜建強(qiáng),聶斌,等.融合隨機(jī)森林的偏最小二乘法及其中醫(yī)藥數(shù)據(jù)分析 [J].計算機(jī)應(yīng)用研究,2018,35(10):2940-2942+2968.
[11] 孟潔,王惠文,黃海軍,等.基于樣條變換的PLS回歸的非線性結(jié)構(gòu)分析 [J].系統(tǒng)科學(xué)與數(shù)學(xué),2008(2):243-250.
[12] BORISENKO V V. Construction of Optimal Bézier Splines [J].Fundamentalnaya i Prikladnaya Matematika,2016,21(3):57-72.
[13] BOYD N,HASTIE T,BOYD S,et al. Saturating Splines and Feature Selection [J].The Journal of Machine Learning Research,2016,18(1):7172-7203.
[14] University of California,Irvine. UC Irvine Machine Learning Repository [EB/OL].[2022-08-24].http://archive.ics.uci.edu/ml/index.php.
作者簡介:李歡(1995.11—),女,漢族,江西萍鄉(xiāng)人,助教,碩士研究生,研究方向:中醫(yī)藥信息學(xué);萬珊(1985.08—),女,漢族,江西南昌人,講師,碩士研究生,研究方向:大學(xué)生思想政治教育;聶斌(1972.10—),男,漢族,江西吉安人,教授,博士在讀,研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、中醫(yī)藥信息學(xué)。