雷蕾,王新洲,張黎,朱永亮,楊策,崔蒙*,錢向平
(1.中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700;2.蘇州潤新生物科技有限公司,江蘇 蘇州 215123)
·基礎(chǔ)研究·
中藥化學(xué)成分與CYP2C19相互作用預(yù)測研究△
——基于定量構(gòu)效關(guān)系(QSAR)模型
雷蕾1,王新洲2,張黎1,朱永亮2,楊策1,崔蒙1*,錢向平2
(1.中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700;2.蘇州潤新生物科技有限公司,江蘇 蘇州 215123)
目的:使用隨機(jī)森林(RF)算法和支持向量機(jī)(SVM)算法構(gòu)建定量構(gòu)效關(guān)系模型(QSAR),并篩選出最優(yōu)模型,對部分有毒中藥包含的化學(xué)成分對CYP2C19可能的作用進(jìn)行了預(yù)測,為臨床應(yīng)用和藥物開發(fā)提供參考。方法:本文使用Mold2軟件(version 2.0.0)對收集到的130個化學(xué)成分進(jìn)行分子描述符計算,對其進(jìn)行初步篩選后,分別采用RF和SVM進(jìn)行預(yù)測模型的構(gòu)建,最后篩選出最優(yōu)預(yù)測模型,并對中藥化學(xué)成分進(jìn)行預(yù)測。結(jié)果:根據(jù)預(yù)測模型的準(zhǔn)確度和接收器操作特征(ROC)值篩選出最優(yōu)分子描述符為6個,合并SVM和Leave-10%-out交叉驗證方法模型為最優(yōu)預(yù)測模型。對《中華人民共和國藥典》2010版10個大毒中藥,例如斑蝥、馬錢子、天仙子等包含的化學(xué)成分進(jìn)行了預(yù)測,得到一些有意義的結(jié)果。結(jié)論:定量構(gòu)效關(guān)系模型(QSAR)對中藥化學(xué)成分進(jìn)行預(yù)測研究可以為聯(lián)合用藥和進(jìn)一步研究提供參考。
定量構(gòu)效關(guān)系模型;CYP2C19;中藥化學(xué)成分
近年來隨著臨床上對中藥和中藥制劑的廣泛應(yīng)用,中藥對細(xì)胞色素P450的作用研究備受關(guān)注[1]。細(xì)胞色素P450為一類亞鐵血紅素-硫醇鹽蛋白的超家族,其參與內(nèi)源性物質(zhì)和包括藥物環(huán)境化合物在內(nèi)的外源性物質(zhì)的代謝[2]。中藥化學(xué)成分影響了機(jī)體細(xì)胞色素P450酶活性或蛋白表達(dá),從而導(dǎo)致藥物之間的相互作用。中藥化學(xué)成分與細(xì)胞色素P450酶的相互作用研究逐漸成為熱門領(lǐng)域。值得關(guān)注的是CYP2C19是CYP450家族中最重要的藥物代謝酶之一,主要存在于肝臟微粒體內(nèi),許多內(nèi)源性底物以及臨床上大約2%的藥物都由其催化代謝[3-4]。筆者搜集了相關(guān)中藥化學(xué)成分與CYP2C19相互作用的數(shù)據(jù),使用定量結(jié)構(gòu)-活性關(guān)系(Quantitative Structure-Activity Relationship,QSAR)方法對中藥化學(xué)成分與CYP2C19相互作用進(jìn)行研究,并對部分有毒中藥的化學(xué)成分與CYP2C19的作用進(jìn)行預(yù)測,為中藥新藥開發(fā)利用提供參考。
1.1 分子描述符的篩選
用Mold2軟件(version 2.0.0)對每個化合物的2D結(jié)構(gòu)計算777個分子描述符。Mold2由美國國家毒理研究中心生物信息中心開發(fā),是一款快速且免費(fèi)的2D分子描述符計算軟件,能夠基于化合物的2D結(jié)構(gòu)計算其2D描述符[5]。
使用R軟件(version 3.0.2)[6]對777個2D描述符進(jìn)行篩選。首先,剔除了超過總數(shù)90%的計算值為恒定值的描述符;其次,在此基礎(chǔ)上對兩兩相關(guān)系數(shù)高于0.9的兩個描述符選用其中一個,以確保描述符之間沒有嚴(yán)重的依賴關(guān)系;然后對余下的描述符間存在多元相關(guān)的進(jìn)行剔除。
1.2 QSAR模型構(gòu)建
1.2.1 數(shù)據(jù)集分割 將集中的數(shù)據(jù)隨機(jī)分為訓(xùn)練集(105個)和測試集(25個)。訓(xùn)練集用來建立模型,測試集用以檢驗?zāi)P汀?/p>
1.2.2 建立模型 本文分別使用隨機(jī)森林(Random Forest,RF)算法[7]和支持向量機(jī)(Support VectorMachine,SVM)算法構(gòu)建模型。SVM算法用高斯函數(shù)作為建模的核函數(shù)[8]。在具體的模型構(gòu)建過程中設(shè)定迭代次數(shù)為10次,并利用10折交叉驗證方法(10-fold cross-validation)對模型構(gòu)建方法進(jìn)行評估[9]。以上建模方法主要采用R軟件中的caret包[10]實現(xiàn)。
2.1 分子描述符的篩選和模型構(gòu)建
利用Mold2軟件對訓(xùn)練集中的每個化合物進(jìn)行分子結(jié)構(gòu)描述符計算,得到105×777 的描述符矩陣數(shù)據(jù)。利用R軟件對這777種描述符進(jìn)行初步篩選,最后得到了97個描述符。
在模型構(gòu)建階段,筆者采用隨機(jī)森林算法和支持向量機(jī)算法,同時隨機(jī)選取不同數(shù)量的分子描述符構(gòu)建模型,并使用Leave-10%-out交叉驗證方法得到相關(guān)模型的準(zhǔn)確度和ROC值。結(jié)果見圖1~2。
圖1 隨機(jī)選出分子描述符的數(shù)量和模型準(zhǔn)確度的關(guān)系圖
圖2 隨機(jī)選出分子描述符的數(shù)量和模型ROC的關(guān)系圖
從圖1和圖2中可以看出,使用隨機(jī)森林算法合并Leave-10%-out交叉驗證,當(dāng)描述符集合為97個時模型準(zhǔn)確度為0.720 5,相關(guān)的ROC為0.731 7;使用支持向量機(jī)算法合并Leave-10%-out交叉驗證方法建立的模型,當(dāng)描述符集合為6個時,模型準(zhǔn)確度為0.772 7,相關(guān)的ROC為0.802 5。因此在支持向量機(jī)合并Leave-10%-out交叉驗證構(gòu)建的模型中,以選取的6個描述符集合作為變量集合,所構(gòu)建的模型為最優(yōu)模型,此時的模型采用的變量數(shù)較少,而其模型效果也最優(yōu)(相關(guān)的ROC值和準(zhǔn)確度最高)。見表1。
2.2 最優(yōu)模型的檢驗
為了更準(zhǔn)確地計算出支持向量機(jī)合并Leave-10%-out交叉驗證預(yù)測模型的準(zhǔn)確度,本文利用Mold2軟件對測試集(25個)中的每個化合物進(jìn)行分子結(jié)構(gòu)描述符計算,然后利用支持向量機(jī)合并Leave-10%-out交叉驗證最優(yōu)預(yù)測模型對測試集進(jìn)行相關(guān)預(yù)測,準(zhǔn)確度為76%。
表1 最優(yōu)預(yù)測模型所采用的描述符集合
2.3 對部分中藥化學(xué)成分的預(yù)測
本文對《中華人民共和國藥典》2010版記錄的10味大毒中藥川烏、馬錢子、馬錢子粉、天仙子、巴豆、巴豆霜、紅粉、鬧羊花、草烏、斑蝥包含的324個化學(xué)成分進(jìn)行預(yù)測,預(yù)測結(jié)果見表2。
表2 10味大毒中藥包含的化學(xué)成分的預(yù)測結(jié)果
QSAR是使用數(shù)學(xué)模型來描述分子結(jié)構(gòu)和分子的某種生物活性之間的關(guān)系,其基本假設(shè)是化合物的分子結(jié)構(gòu)包含了決定其物理、化學(xué)及生物等方面的性質(zhì)信息,而這些理化性質(zhì)則進(jìn)一步?jīng)Q定了該化合物的生物活性。由此可見,構(gòu)建QSAR模型的基礎(chǔ)是分子結(jié)構(gòu)。《中華人民共和國藥典》2010版記載的10味大毒中藥中巴豆霜是巴豆的炮制品,馬錢子粉為馬錢子的炮制加工品,目前沒有巴豆霜和馬錢子粉的化學(xué)成分報道。此外,紅粉是由氧化汞和硝基汞無機(jī)物組成,因此本文沒有這3種中藥的預(yù)測結(jié)果。
從對其他大毒中藥化學(xué)成分的預(yù)測中可以看出,馬錢子包含的綠原酸對CYP2C19沒有抑制作用[11],與文獻(xiàn)報道一致。斑蝥含有4個化學(xué)成分,本文預(yù)測出其中3個:(2S)-6-氨基-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-環(huán)氧八氫異吲哚-2-基]-己酸、(2S)-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-環(huán)氧-八氫異吲哚-2-基]-5-胍基戊酸、(2S)-5-氨基-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-環(huán)氧八氫異吲哚-2-基]-戊酸對CYP2C19有抑制作用,預(yù)示著中藥斑蝥可能對CYP2C19有抑制作用。同時,本文還預(yù)測出馬錢子和天仙子包含的所有化合物都對CYP2C19沒有抑制作用,預(yù)示著馬錢子和天仙子可能對CYP2C19沒有抑制作用。這些預(yù)測結(jié)果可以為斑蝥、馬錢子和天仙子的聯(lián)合用藥提供參考。例如,如果斑蝥與需要通過CYP2C19酶進(jìn)行代謝的藥物同時服用,那么就可能影響該藥物的正常代謝,而使其毒副作用增加。
[1] 翁小剛,朱曉新,梁日欣,等.中草藥代謝與細(xì)胞色素P450的關(guān)系研究進(jìn)展[J].中國實驗方劑學(xué)雜志,2009,15(12):104-107.
[2] 嚴(yán)非,夏春華,熊玉卿.CYP2C19 基因多態(tài)性對藥物代謝的影響及其個體化用藥[J].中國臨床藥理學(xué)與治療學(xué),2010(8):949-953.
[3] Pestka E L,Hale A M,Johnson B L,et al.Cytochrome P450 testing for better psychiatric care[J].Journal of Psychosocial Nursing and Mental Health Services,2007,45(10):15-18.
[4] Bertilsson L.Metabolism of antidepressant and neuroleptic drugs by cytochrome p450s:clinical and interethnic aspects[J].Clin Pharmacol Ther,2007,82(5):606-609.
[5] Hong H,Xie Q,Ge W,et al.Mold2,molecular descriptors from 2D structures for chemoinformatics and toxicoinformatics[J].Journal of Chemical Information and Modeling,2008,48(7):1337-1344.
[6] R Core Team(2013).R:A language and environment for statistical computing[CP/OL].Vienna Austria:R Foundation for Statistical Computing.http://www.R-project.org/.
[7] HO T K.RandomDecisionForest[M].Montreal,QC:1995:278-282.
[8] PRESS H,TEUKOLSKY A,VETTERLING T,et al.Numerical Recipes:The Art of Scientific Computing:Third Edition[M].New York:Cambridge University Press,2007:883-892.
[9] GEISSER S.The predictive sample reuse method with applications[J].JAmStatAssoc,1975,70(350):320-328.
[10] Max Kuhn.Building Predictive Models in R Using the caret Package[J/OL].Journal of Statistical Soft,2008,28(5).http://www.jstatsoft.org/v28/i05.
[11] 孔麗敏.人 CYP2C19.1 野生型和 CYP2C19.2 突變體蛋白體外表達(dá)模型的構(gòu)建,活性表征及抑制劑研究[D].杭州:浙江大學(xué),2012.
PredictionofInteractionbetweenChemicalComponentofChineseHerbsandCYP2C19withQSAR
LEIlei1,WANGXinzhou2,ZHANGLi1,ZHUYongliang2,YANGCe1,CUIMeng1*,QIANXiangping2
(1.InstituteofBasicResearchinClinicalMedicine,ChinaAcademyofChineseMedicalScience,Beijing100700,China;2.SuzhouNeupharmaCo.Ltd.Suzhou,215123,China)
Objective:In order to provide reference for clinical application and drug development,a quantitative structure-activity relationship(QSAR)model was build u Pusing Random Forest(RF)and Support Vector Machine(SVM)and predicted chemical components of some toxic Chinese herbs with the best QSAR model.Methods:First,Mold2 software(version 2.0.0)was used to calculate molecular descriptors of 130 chemical components.After preliminary screening of molecular descriptors,QSAR models were built u Pwith RF and SVM.Then interaction of chemical components and CYP2C19 was predicted by the QSAR model with the best accuracy and ROC.Results:The optimal QSAR model of six molecular descriptors,SVM and Leave-10%-out cross-validation was determined based on the accuracy and ROC value.And chemical components of ten toxic Chinese herbs such as cantharis,nux vomica,henbane were studied.Conclusion:QSAR model of Chinese herbs and some predict outcomes would provide references for drug use and experimental studies.
Quantitative structure-activity relationship(QSAR);CYP2C19;chemical components of Chinese herbs
2014-11-24)
國家自然科學(xué)基金項目—中藥對細(xì)胞色素P450酶作用及配伍減毒的計算預(yù)測(81374060)
*
崔蒙,研究員,研究方向:中藥信息學(xué);E-mail:cm@mail.cintcm.ac.cn
10.13313/j.issn.1673-4890.2015.5.003