陳佳佳,李愛平,張曉琴
(1.山西財經(jīng)大學(xué)統(tǒng)計學(xué)院 太原 030006;2.山西大學(xué)中醫(yī)藥現(xiàn)代研究中心 太原 030006)
黃芪,藥典記載豆科植物蒙古黃芪Astragalusmembranaceus(Fisch.) Bge. Var.mongholicus(Bge.) Hsiao或膜莢黃芪Astragalus membranaceus(Fisch.) Bge.的干燥根[1]。黃芪素有“十藥八芪”之稱,研究表明,黃芪有黃芪黃酮、皂苷、多糖等化學(xué)成分,主要藥理作用為提高免疫力、抗炎、抗氧化、抗病毒和抗疲勞等,在臨床上廣泛用于循環(huán)系統(tǒng)(心衰、肺心?。⑾到y(tǒng)(胃炎)以及泌尿系統(tǒng)(腎炎、腎性水腫)等疾病的防治[2-3]。除藥用外,黃芪作為補氣佳品,常被用來燉肉和煲湯,以達到通過食療治療脾肺氣虛的目的,還可用于美容和改善睡眠。且于2018年由國家衛(wèi)計委發(fā)布的“黨參等9種物質(zhì)作為按照傳統(tǒng)既是食品又是中藥物質(zhì)開展試生產(chǎn)”的征求意見稿中將黃芪納入,呼聲較高,有望納入藥食同源目錄。黃芪作為山西的道地藥材,一直采用傳統(tǒng)的直播種植方式,生長年限大多在6年以上,生產(chǎn)成本較高,資源量有限,目前主要供出口和高端市場。而甘肅等地的育苗移栽黃芪卻只有2年的生長期,成本低,商品量大[4-5]。怎樣評價兩類黃芪的質(zhì)量對中醫(yī)用藥和中藥產(chǎn)業(yè)發(fā)展至關(guān)重要,藥效是中藥的根本屬性,而化學(xué)成分(組分)又決定中藥的活性。
中藥組效關(guān)系是研究中藥化學(xué)組分與其相應(yīng)藥效之間的關(guān)聯(lián)關(guān)系,進而篩選出對藥效起作用的化學(xué)組分[6-10]。如何給出中藥化學(xué)組分與藥效之間的定量關(guān)系表達式,即構(gòu)建組效模型是組效關(guān)系研究的關(guān)鍵之處。在中藥組效關(guān)系研究中,常用的回歸模型是多元線性回歸模型、逐步回歸法、偏最小二乘回歸模型、Lasso回歸等;相關(guān)分析常用的相關(guān)系數(shù)是Pearson相關(guān)系數(shù)、最大相關(guān)系數(shù)、互信息、距離相關(guān)系數(shù)等,這些相關(guān)系數(shù)可以用來刻畫組效關(guān)系中各種線性關(guān)系或非線性關(guān)系;灰色關(guān)聯(lián)度分析中關(guān)聯(lián)度的大小反映了各化學(xué)組分與藥效指標(biāo)的關(guān)聯(lián)性大??;主成分分析和聚類分析都不能直接給出各化學(xué)組分與藥效指標(biāo)的關(guān)聯(lián)性大小,需要與已有組效模型結(jié)合使用,且主成分個數(shù)如何選擇以及聚類個數(shù)如何選擇對于組效關(guān)系研究至關(guān)重要;人工神經(jīng)網(wǎng)絡(luò)雖然能夠很好地處理非線性組效關(guān)系,但它不能給出中藥中各化學(xué)組分與其藥效之間的關(guān)聯(lián)性大小。雖然回歸分析、相關(guān)分析和灰色關(guān)聯(lián)度分析可以給出化學(xué)組分與藥效之間的關(guān)聯(lián)矩陣,通過關(guān)聯(lián)性的大小可以篩選出對藥效起作用的化學(xué)組分,不同組效模型篩選的化學(xué)組分有可能不同,如何對已有組效模型的結(jié)果進行綜合評價值得進一步研究[11]。此外,已有文獻未給出篩選的化學(xué)組分個數(shù)如何確定。如果篩選的化學(xué)組分個數(shù)較少,就會丟失信息;如果篩選的化學(xué)組分個數(shù)較多,則會產(chǎn)生冗余。
因此,本研究擬將多種組效模型進行組合,基于非參數(shù)方法確定化學(xué)組分個數(shù),并應(yīng)用于中藥黃芪的組效關(guān)系研究,以期為黃芪活性成分篩選提供方法參考,為其臨床應(yīng)用以及產(chǎn)品開發(fā)奠定研究基礎(chǔ)。
本文研究黃芪化學(xué)成分與其藥效(黃芪干預(yù)后的內(nèi)源性代謝物擾動)之間的組效關(guān)系,數(shù)據(jù)來源見文獻[4],分別為8批甘肅移栽速生芪和8批山西傳統(tǒng)野生黃芪。黃芪化學(xué)成分為甘肅黃芪與山西黃芪中可辨識的37個代謝物,具體變量名稱和化合物名稱見表1,其中xj(j=1,2,…,37)為黃芪的第j個化學(xué)成分。藥效指標(biāo)是小鼠給予黃芪干預(yù)后血清中可被鑒定的內(nèi)源性代謝物。內(nèi)源性代謝物的變化反映的是機體受外界刺激或擾動后的系統(tǒng)響應(yīng),可以作為藥物的藥效學(xué)指標(biāo),而且近年來在中藥藥效評價和機制研究中應(yīng)用廣泛[12-14]。首先計算這35個代謝物中任意兩個代謝物之間的距離,其次基于系統(tǒng)聚類法對這35個代謝物進行聚類分析,選定聚類個數(shù)為3,最后得到3個藥效指標(biāo)y1,y2,y3,其中每個藥效指標(biāo)為對應(yīng)這類中的代謝物含量相加。每個藥效指標(biāo)對應(yīng)變量和所包含化合物名稱見表2,其中y1反映脂質(zhì)代謝,y2反映氨基酸代謝,y3反映糖代謝。
表1 黃芪化學(xué)成分對應(yīng)的變量和化合物名稱
表2 黃芪藥效指標(biāo)對應(yīng)的變量與該變量所包含的化合物名稱
記中藥化學(xué)組分變量為x=(x1,x2,…,xp)T,藥效變量為y=(y1,y2,…,yq)T,其中xi(i=1,2,…,p)為第i個化學(xué)組分含量,yj(j=1,2,…,q)為第j個藥效指標(biāo)。組效關(guān)系即建立多變量化學(xué)組分x與多變量藥效y之間的定量關(guān)系y=f(x)。
基于多種組效模型的組合方法的具體步驟為:
(1)計算關(guān)聯(lián)矩陣:假定有m種組效模型,給定樣本數(shù)據(jù)下基于不同組效模型得到的關(guān)聯(lián)矩陣為
其中ρt(t=1,2,…,m)代表第t種組效模型得到的關(guān)聯(lián)矩陣,ρtj(t=1,2,…m;j=1,2,…,q)是基于第t種組效模型得到的中藥化學(xué)組分變量x=(x1,x2,…,xp)T與藥效yj之間的關(guān)聯(lián)矩陣。
(2)篩選化學(xué)組分:對于每種組效模型計算的關(guān)聯(lián)矩陣ρtj(t=1,2,…m;j=1,2,…,q),將關(guān)聯(lián)系數(shù)的絕對值從大到小進行排序,記排序后的關(guān)聯(lián)系數(shù)對應(yīng)的變 量 指 標(biāo) 為j=(j1,j2,…,jp),其 中jk∈{1,2,…,p}(k=1,2,…p)。采用向前引入法,依次令k=1,2,3,…,p,建立因變量y與自變量xj1,xj2,…xjk-1,xjk之間的非參數(shù)回歸模型,計算模型的均方誤差。當(dāng)k=l與k=l+1時分別建立的回歸模型的均方誤差相差不大時,停止引入自變量。最后,第t種組效模型即篩選出對因變量y起作用的自變量是xj1,xj2,…,xjl。
(3)組合多種組效模型:記篩選后的化學(xué)組分指標(biāo)為stj(t=1,2,…m;j=1,2,…,q),其中stj為通過第t種組效模型篩選的對藥效yj起作用的化學(xué)組分指標(biāo)。令j=1,記為不同組效模型篩選的對藥效yj起作用的化學(xué)組分指標(biāo),計算sj中每個元素的支持度support,
同理,令j=2,3…,q,計算s2,s3,…,sq中每個元素的支持度support。
類似于投票法,對于每個sj選擇支持度大于某個臨界值τ的對應(yīng)指標(biāo)(例如,τ=50%代表最后篩選的化學(xué)組分是m種組效模型種有一半篩選出的),這樣篩選出的化學(xué)組分指標(biāo)是通過多種組效模型組合方法篩選出的對藥效yj起作用的化學(xué)組分指標(biāo)。
基于多種組效模型的組合方法研究三個藥效指標(biāo)y1,y2,y3與黃芪化學(xué)成分x1,x2,…,x37之間的組效關(guān)系。分別基于偏最小二乘回歸、Lasso回歸、Pearson相關(guān)系數(shù)、距離相關(guān)系數(shù)和灰色關(guān)聯(lián)度分析五種組效模型計算三個藥效指標(biāo)與黃芪化學(xué)成分之間的關(guān)聯(lián)矩陣,其中偏最小二乘回歸分析、Lasso回歸的關(guān)聯(lián)矩陣為三個藥效指標(biāo)與黃芪化學(xué)成分之間的回歸系數(shù)矩陣,Pearson相關(guān)系數(shù)、距離相關(guān)系數(shù)的關(guān)聯(lián)矩陣為三個藥效指標(biāo)與黃芪化學(xué)成分之間的Pearson相關(guān)系數(shù)矩陣、距離相關(guān)系數(shù)矩陣,灰色關(guān)聯(lián)度分析的關(guān)聯(lián)矩陣為三個藥效指標(biāo)與黃芪化學(xué)成分之間的灰色關(guān)聯(lián)度矩陣。不同組效模型得到的關(guān)聯(lián)矩陣見表3。
表3 不同組效模型得到的關(guān)聯(lián)矩陣
續(xù)表
從表3中可以看出基于偏最小二乘回歸分析得到的回歸系數(shù)有正有負(E-04=10-4);基于Lasso回歸得到的一些化學(xué)組分對藥效指標(biāo)的回歸系數(shù)為0;基于Pearson相關(guān)系數(shù)計算的相關(guān)系數(shù)在-1與1之間;基于距離相關(guān)系數(shù)的相關(guān)系數(shù)為非負值;基于灰色關(guān)聯(lián)度分析得到的關(guān)聯(lián)度范圍在0與1之間。不管用哪種組效模型,關(guān)聯(lián)矩陣中關(guān)聯(lián)系數(shù)的絕對值越大,對應(yīng)的化學(xué)組分與藥效之間的關(guān)聯(lián)關(guān)系越大。因此表3中加粗字體的關(guān)聯(lián)系數(shù)是通過非參數(shù)回歸方法篩選的化學(xué)組分與對應(yīng)藥效之間的關(guān)聯(lián)系數(shù)。
每種組效模型篩選的化學(xué)成分對應(yīng)的變量與化合物名稱見表4。基于多種組效模型的組合方法對這五種組效模型進行組合,對于這三個藥效指標(biāo),分別計算五種組效模型篩選的每個化學(xué)成分的支持度,篩選出支持度大于臨界值τ=40%和τ=60%的化學(xué)成分。通過組合方法(τ=40%和τ=60%)篩選的化學(xué)成分對應(yīng)的變量和化合物見表4。為了比較不同組效模型,表4給出不同組效模型在兩種評價指標(biāo)下的結(jié)果。這兩種評價指標(biāo)為均方根誤差(RMSE)和分類準(zhǔn)確率(Accuracy),其中均方根誤差為每種組效模型基于篩選的化學(xué)組分與三個藥效指標(biāo)之間建立的非參數(shù)回歸模型的均方誤差的根,分類準(zhǔn)確率為每種組效模型基于篩選的化學(xué)組分進行k近鄰分類(甘肅黃芪和山西黃芪兩類)的準(zhǔn)確率,本例中取k=6。RMSE越小代表預(yù)測誤差越小,Accuracy越高代表分類準(zhǔn)確率越高,因此RMSE越小越好,Accuracy越高越好。表4中兩種評價指標(biāo)結(jié)果表明,不同組效模型的RMSE有所差異,除了Lasso回歸其余組效模型的Accuracy均為100%。通過組合方法后,當(dāng)支持度大于臨界值τ=40%時,組合方法的RMSE相比其余五種組效模型不是最大也不是最小,Accuracy為100%。當(dāng)支持度大于臨界值τ=60%時,相比其它組效模型組合方法的RMSE最小,Accuracy為100%。因此,從實例可以看出基于組合方法綜合考慮不同單一組效模型,平衡不同組效模型之間的RMSE以及Accuracy。
表4 不同組效模型篩選的化學(xué)組分以及兩種評價指標(biāo)結(jié)果
基于組合方法(τ=60%)可以分析得到如下合理的組效關(guān)系:
膽堿是脂代謝的重要中間產(chǎn)物,大量的膽堿合成了甘油磷酸膽堿和磷脂酰膽堿,甘油磷酸膽堿和膽堿在真核細胞膜中具有重要的結(jié)構(gòu)和功能作用[15]。較高水平的膽堿會導(dǎo)致細胞膜結(jié)構(gòu)的損傷。本研究中,血清中脂質(zhì)(y1)與芒柄花素(x34)呈正相關(guān)。這與黃芪黃酮保護細胞結(jié)構(gòu),維持細胞內(nèi)正常通透性和抗凋亡的報道一致[16]。
甘氨酸和肌酸是重要的儲能化合物。與能量代謝有關(guān)的琥珀酸和檸檬酸是三羧酸循環(huán)(TCA)的主要中間產(chǎn)物[15]。黃芪可以提高TCA循環(huán)的活性,從而導(dǎo)致細胞線粒體ATP的生成,進而產(chǎn)生更多的能量[4]。在本研究中,氨基酸相關(guān)代謝物(y2)與蔗糖(x20)、甜菜堿(x16)和皂苷II(x31)成負相關(guān),表明蔗糖、甜菜堿和皂苷II對能量代謝的影響增強。
在缺氧條件下,葡萄糖可以通過糖酵解分解為乳酸,這是一種潛在的組織營養(yǎng)[4]。研究發(fā)現(xiàn),乳酸可以成為TCA循環(huán)提供能源的主要碳來源[17]。在這項研究中,乳酸(y3)與毛蕊異黃酮苷(x35)呈正相關(guān)。這可能與毛蕊異黃酮苷的能量代謝調(diào)節(jié)有關(guān)[18]。
本研究基于組效關(guān)系得出黃芪黃酮包括芒柄花素和毛蕊異黃酮葡萄糖苷以及黃芪皂苷Ⅱ能夠保護細胞膜,促進能量代謝,這也恰好是黃芪實現(xiàn)“補氣”功效的重要機制。有研究報道,防己黃芪湯中君藥黃芪針對腎病綜合征發(fā)揮益氣固表,利水消腫作用,與調(diào)控能量代謝[19]和脂質(zhì)代謝[20]密切相關(guān),且皂苷類類成分貢獻較大[21-23]。另,黃芪針對“疲勞”[24]、“慢性萎縮性胃炎”[25]等發(fā)揮“益氣”作用均與調(diào)控能量代謝有關(guān)。尤其針對“心力衰竭”,黃芪可通過即可抑制心肌細胞凋亡,又能改善能量代謝發(fā)揮心臟保護作用[26]。
對于中藥組效關(guān)系的研究有很多模型,但鮮有學(xué)者將多種組效模型進行組合,并給出篩選的化學(xué)組分個數(shù)。基于此,本文創(chuàng)新在于提出基于多種組效模型的組合方法,基于非參數(shù)回歸與組合方法來綜合考慮多種組效模型,篩選出化學(xué)組分,并用于黃芪組效關(guān)系研究。結(jié)果表明提出方法是有效的,具有較低的均方根誤差和較高的分類準(zhǔn)確率,而且篩選的對藥效起作用的化學(xué)組分與基于藥理實驗辨識的黃芪藥效組分相符。黃芪組效關(guān)系的研究有助于黃芪的質(zhì)量評價。本文采用的偏最小二乘回歸、Lasso回歸、Pearson相關(guān)系數(shù)是針對線性組效關(guān)系建立的模型,在之后的研究中,希望研究新的組效模型,該模型既能處理線性或非線性組效關(guān)系,而且能解決化學(xué)組分?jǐn)?shù)據(jù)的高維性,更符合基礎(chǔ)實驗研究產(chǎn)生的數(shù)據(jù),有望為其他中藥的活性成分辨識以及質(zhì)量評價提供方法參考。