李 曉,李 達(dá),周雪松,趙 勇*
(1. 北京市科學(xué)技術(shù)研究院 北京市計算中心,北京 100094;2. 北京北科德源生物醫(yī)藥科技有限公司,北京 100094)
化合物ADMET性質(zhì)預(yù)測平臺的構(gòu)建
李 曉1,2,李 達(dá)2,周雪松2,趙 勇1,2*
(1. 北京市科學(xué)技術(shù)研究院 北京市計算中心,北京 100094;2. 北京北科德源生物醫(yī)藥科技有限公司,北京 100094)
在藥物研發(fā)早期階段對化合物成藥性和安全性進(jìn)行評估,對于提高藥物研發(fā)成功率、降低研發(fā)成本具有十分重要的意義。為了能夠幫助藥物研究工作者快速準(zhǔn)確地判斷候選化合物的成藥性與安全性,開發(fā)了一個基于計算機(jī)方法的化合物ADMET性質(zhì)預(yù)測平臺。首先,通過文本挖掘的方法收集了化合物藥代動力學(xué)性質(zhì)和毒性(ADMET)的高質(zhì)量實驗數(shù)據(jù)。然后,根據(jù)原始文獻(xiàn)復(fù)原了13個預(yù)測模型,同時采用支持向量機(jī)方法自建了15個具有較高預(yù)測能力的計算模型。最后,基于分布式架構(gòu),結(jié)合高性能計算集群優(yōu)勢,開發(fā)了化合物ADMET性質(zhì)預(yù)測平臺(http://www.vslead.com/?r=admet/index),用于預(yù)測28種重要的化合物ADMET性質(zhì)。研究者可以使用這一平臺快捷方便地對藥物研究中比較重要的ADMET性質(zhì)進(jìn)行預(yù)測,在藥物研發(fā)早期對候選化合物進(jìn)行成藥性評價和風(fēng)險評估,有助于提高藥物研的成功率,節(jié)省研發(fā)時間和經(jīng)費(fèi)的投入。
藥物研發(fā);ADMET性質(zhì);機(jī)器學(xué)習(xí)
創(chuàng)新藥物研發(fā)是一個耗資巨大、周期漫長、風(fēng)險極高的產(chǎn)業(yè)。據(jù)統(tǒng)計,平均每10 000個新化學(xué)實體(NCEs)中只有1個最終可能成為藥物,并且整個過程要花費(fèi)10~12年時間和12~20億美元的投入[1]。導(dǎo)致藥物在臨床前和臨床研究階段研發(fā)失敗的原因是多方面的,主要包括藥效不明顯、毒性及副作用等安全性問題、藥代動力學(xué)性質(zhì)不理想以及商業(yè)因素等。藥代動力學(xué)性質(zhì)是指化合物在體內(nèi)的行為,包括吸收(adsorption)、分布(distribution)和清除(excretion)過程,簡稱ADME,與毒性(toxicity)合稱ADMET性質(zhì)。ADMET性質(zhì)是衡量化合物成藥性最重要的參考指標(biāo)[2-3]。上世紀(jì)90年代之前,導(dǎo)致藥物研發(fā)失敗的主要因素中,ADME性質(zhì)不理想所占的比例達(dá)到39%,隨著人們加大了對藥代動力學(xué)研究的重視和投入,這一比例逐漸下降到了10%以下。毒性和副作用等安全性因素所占的比例則從21%上升到接近30%,成為藥效因素之外,導(dǎo)致藥物研發(fā)失敗的最主要原因[4]。遵循“Fail early, fail cheaply”(失敗越早,損失越小)的原則,很多藥物化學(xué)家提出在藥物開發(fā)的早期,甚至在先導(dǎo)化合物發(fā)現(xiàn)階段就應(yīng)該進(jìn)行化合物的ADMET性質(zhì)評價,選擇ADMET性質(zhì)理想的化合物進(jìn)行實驗篩選,可從一定程度上緩解實驗篩選的經(jīng)濟(jì)壓力;同時,將本來是在藥物研發(fā)過程后期才考慮的毒性和代謝問題,提前到先導(dǎo)化合物發(fā)現(xiàn)的前期階段來完成,可以有效提高候選藥物后期開發(fā)的成功率。
面對目前組合化學(xué)蛋白質(zhì)組學(xué)和計算機(jī)藥物篩選的快速發(fā)展,常規(guī)的生物試驗方法(包括體外試驗和體內(nèi)試驗)顯得比較昂貴和滯后[5-6]。如何快速、廉價地在藥物研發(fā)早期進(jìn)行化合物ADMET性質(zhì)預(yù)測成為各大制藥公司和研究機(jī)構(gòu)十分關(guān)心和需要迫切解決的問題。近年來,利用計算方法預(yù)測藥物的ADMET性質(zhì)引起了國內(nèi)外科學(xué)家的廣泛關(guān)注,這一方法的基本思想是根據(jù)已知分子的ADMET性質(zhì)數(shù)據(jù),通過機(jī)器學(xué)習(xí)和模式識別方法建立計算預(yù)測模型,從而預(yù)測未知分子的ADMET性質(zhì)。與實驗方法相比,使用計算機(jī)方法對化合物進(jìn)行ADMET性質(zhì)預(yù)測具有明顯的優(yōu)勢[7-9].首先,計算機(jī)方法可以快速地對大批量化合物進(jìn)行處理和預(yù)測,而且花費(fèi)極低;其次,只要化合物結(jié)構(gòu)已知,即使化合物尚未合成出來,也可以通過計算機(jī)模型預(yù)測該化合物的ADMET性質(zhì)。
本文針對人體小腸吸收、血腦屏障透過、人體表觀分布體積、清除率、致癌性、急性毒性、發(fā)育毒性、肝毒性、生殖毒性等28個ADMET相關(guān)的性質(zhì),使用機(jī)器學(xué)習(xí)方法分別建立預(yù)測模型,構(gòu)建了一個覆蓋重要的吸收、分布、代謝、排泄及毒性性質(zhì)評價的化合物ADMET性質(zhì)預(yù)測平臺,供國內(nèi)外研究者使用。
1.1 數(shù)據(jù)收集與整理
高質(zhì)量的實驗數(shù)據(jù),是保證ADMET預(yù)測模型構(gòu)建成功的關(guān)鍵。本文采用文本挖掘和手工核對方法從文獻(xiàn)報道和專業(yè)數(shù)據(jù)庫中收集整理已有的化合物ADMET性質(zhì)實驗數(shù)據(jù)。通過文獻(xiàn)交叉參照等方式對收集到的數(shù)據(jù)進(jìn)行匯總和去冗余、除錯等處理。經(jīng)過整理,得到超過11萬條化合物ADMET相關(guān)的試驗數(shù)據(jù)。保存的數(shù)據(jù)包括化合物分子的名稱、ADMET相關(guān)的性質(zhì)、實驗測試方法和材料、分子結(jié)構(gòu)信息、數(shù)據(jù)來源(原始文獻(xiàn)來源)等。這里收錄了28種ADMET相關(guān)的性質(zhì)端點(diǎn)(endpoint),包括人體小腸吸收[10]、P-糖蛋白抑制劑和底物[11-12]、血腦屏障通透性[10,13]、人體表觀分布體積[14]、血漿蛋白結(jié)合率[15]、CYP450底物和抑制劑(CYP1A1、1A2、2C9、2C19、2D6和3A4)[16-18]、腎清除率[14]、大鼠口服毒性[19-20]、AMES致突變毒性[21]、慢性毒性[22]、發(fā)育毒性[23]、肝毒性[24-26]、眼毒性[27]、生殖毒性[23]、hERG通道抑制性[28- 29]、致癌性[30]、鳥毒性[31]、魚毒性[32]和昆蟲毒性[33]等。
1.2 模型構(gòu)建
在化合物ADMET性質(zhì)預(yù)測模型構(gòu)建過程中,需要選擇適當(dāng)?shù)姆肿咏Y(jié)構(gòu)表征方式和建模方法。分子結(jié)構(gòu)的表征通常采用分子描述符和分子指紋方式[34-35]。分子描述符是對分子物理化學(xué)性質(zhì)的數(shù)學(xué)度量,如分子量、脂水分配系數(shù)、原子數(shù)目等。分子指紋則是根據(jù)分子片段描述分子,其實現(xiàn)方法主要是對分子結(jié)構(gòu)進(jìn)行切分,獲得一個個的片段作為分子結(jié)構(gòu)的表征。收集到的針對不同ADMET性質(zhì)端點(diǎn)建立預(yù)測模型的文獻(xiàn)中,大部分都明確給出了建模所用的分子描述符和分子指紋類型。
目前化合物ADMET預(yù)測研究中,機(jī)器學(xué)習(xí)是占據(jù)主導(dǎo)地位的建模方法。機(jī)器學(xué)習(xí)方法從觀測數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,利用這些規(guī)律對未來數(shù)據(jù)或無法預(yù)測的數(shù)據(jù)進(jìn)行預(yù)測。其中諸如支持向量機(jī)(support vector machine, SVM)[36]、決策樹(decision tree, DT)[37]、樸素貝葉斯(Na?ve Bayes, NB)[38]、k-最近鄰算法(k-Nearest Neighborhoods, kNN)[39]、人工神經(jīng)網(wǎng)絡(luò)(artificial neuron network, ANN)[40]等算法大量成功的應(yīng)用實例證明了這些機(jī)器學(xué)習(xí)算法的有效性和實用性。在本文中,將支持向量機(jī)算法作為首選的建模方法。支持向量機(jī)是Vapnik等[41]1995年提出的一種機(jī)器學(xué)習(xí)方法,它在解決小樣本、非線性以及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。對于非線性問題的處理,SVM也可以通過松弛變量(slack variables)和核函數(shù)(Kernel Functions)實現(xiàn)。因此,SVM已經(jīng)成為目前應(yīng)用最廣泛的QSAR建模方法之一。不同的核函數(shù)都有各自的關(guān)鍵參數(shù),如RBF核函數(shù)的懲罰因子C和核參數(shù)γ等。本文使用臺灣大學(xué)林智仁教授[42]開發(fā)的libsvm工具箱進(jìn)行模型的復(fù)原與構(gòu)建。
本文把收集到的針對不同ADMET性質(zhì)端點(diǎn)建立預(yù)測模型的文獻(xiàn)分為3類:使用支持向量機(jī)算法并提供關(guān)鍵參數(shù)的、使用支持向量機(jī)算法但未提供關(guān)鍵參數(shù)的以及未使用支持向量機(jī)算法建模的。對于第1類,本文直接按照文獻(xiàn)中提供的參數(shù)復(fù)原模型;對于第2類,本文通過郵件向文獻(xiàn)原作者請求提供主要參數(shù),然后實現(xiàn)模型復(fù)原;對于第3類以及無法獲取原作者使用的分子描述符的文獻(xiàn),本文使用文獻(xiàn)中的化合物ADMET性質(zhì)數(shù)據(jù),通過支持向量機(jī)算法結(jié)合分子指紋方式與分子描述符方式,構(gòu)建模型并進(jìn)行驗證。
這里以hERG通道抑制性為例,介紹使用libsvm進(jìn)行參數(shù)選擇與模型訓(xùn)練的過程。
經(jīng)過文獻(xiàn)調(diào)研,本文選擇文獻(xiàn)[29]中的數(shù)據(jù)做為訓(xùn)練集,用于模型構(gòu)建;使用文獻(xiàn)[28]中的數(shù)據(jù)作為驗證集進(jìn)行模型驗證。這里將hERG抑制活性IC50≥10 μM的化合物歸類為hERG抑制劑,IC50<1 μM的化合物歸類為非抑制劑。所有數(shù)據(jù)經(jīng)過去重復(fù)、去除混合物、去除無機(jī)物等預(yù)處理,最終訓(xùn)練集剩余962個抑制劑和966個非抑制劑,測試集剩余抑制劑與非抑制劑數(shù)量分別為235個和363個。
本文采用一種常見的分子指紋MACCS keys(MACCS)表征分子結(jié)構(gòu)。MACCS分子指紋包含了166個結(jié)構(gòu)片段,這種分子指紋可以使用PaDEL-Descriptor軟件計算得到[43]。模型的構(gòu)建采用的是libsvm工具箱,核函數(shù)采用RBF核函數(shù)。如上所述,使用RBF核函數(shù)需要確定兩個關(guān)鍵參數(shù)懲罰因子C和核參數(shù)γ。通過libsvm自帶的網(wǎng)格搜索算法結(jié)合五折交叉驗證方法對這兩個關(guān)鍵參數(shù)進(jìn)行了優(yōu)化,得到最優(yōu)參數(shù)組合為(3.030 0,0. 018 8)。使用這一參數(shù)組合訓(xùn)練得到的模型,對訓(xùn)練集進(jìn)行五折交叉驗證,得到整體預(yù)測準(zhǔn)確率為85.94%,敏感率與特異性分別為85.14%、86.75%。使用驗證集進(jìn)行驗證,得到的整體預(yù)測準(zhǔn)確率、敏感率與特異性分別為82.61%、80.85%、83.75%,表現(xiàn)出很好的預(yù)測能力。
2.1 ADMET性質(zhì)預(yù)測模型
本文復(fù)原或者構(gòu)建了25個分類模型(其中11個根據(jù)原始文獻(xiàn)提供的參數(shù)復(fù)原的模型和14個自建模型)和3個回歸模型(其中2個根據(jù)原始文獻(xiàn)提供的參數(shù)復(fù)原的模型和1個自建模型),用于預(yù)測化合物的28種ADMET相關(guān)的性質(zhì)。經(jīng)過外部數(shù)據(jù)集的驗證,分類模型的整體預(yù)測準(zhǔn)確率都在75%以上,其中大部分(19個)模型的整體預(yù)測準(zhǔn)確率超過了80%;3個回歸模型中,兩個模型的決定系數(shù)R2超過了0.7(見表1)。根據(jù)原始文獻(xiàn)復(fù)原的模型,預(yù)測能力已經(jīng)得到了認(rèn)可,本文自建的模型也都表現(xiàn)出了較高的預(yù)測能力,這樣就可以保證化合物ADMET性質(zhì)預(yù)測結(jié)果的準(zhǔn)確性。
2.2 ADMET性質(zhì)預(yù)測平臺
基于分布式虛擬篩選架構(gòu),結(jié)合高性能計算集群優(yōu)勢,本文搭建了化合物ADMET性質(zhì)預(yù)測平臺(http://www.vslead.com/?r=admet/index),為研究者提供在線的化合物ADMET性質(zhì)預(yù)測服務(wù)。平臺界面簡潔友好,操作簡單方便。圖1(a)展示了平臺的任務(wù)提交界面。
用戶進(jìn)行化合物ADMET性質(zhì)預(yù)測的主要步驟包括:1)輸入任務(wù)名稱,用戶可任意擬定一個名稱作為本次ADMET預(yù)測的任務(wù)名稱;2)輸入任務(wù)描述,簡要描述項目研究內(nèi)容,幫助用戶備注篩選任務(wù)細(xì)節(jié);3)上傳小分子文件或者輸入SMILES分子式,平臺目前支持3種小分子格式文件,即mol2、sdf和smi,也支持SMILES分子式輸入,用戶可以自由選擇上傳小分子文件或者輸入SMILES分子式的方式提交化合物結(jié)構(gòu);4)任務(wù)提交,用戶完成上述步驟后,可以點(diǎn)擊下方的“提交訂單”按鈕,提交本次化合物ADMET性質(zhì)預(yù)測任務(wù)。點(diǎn)擊頁面中的問號圖標(biāo)可以顯示每一步驟的說明。用戶提交任務(wù)并完成支付后,就可以在“查看任務(wù)”板塊中看到自己提交的任務(wù)(如圖1(b)所示),點(diǎn)擊任務(wù)名稱可以顯示任務(wù)詳情,點(diǎn)擊“操作”欄下的“查看分析結(jié)果”按鈕,可以查看本次提交的小分子化合物ADMET性質(zhì)預(yù)測結(jié)果(如圖1(c)所示)。在平臺使用過程中,用戶也可以通過點(diǎn)擊左側(cè)的“平臺簡介”和“幫助文檔”查看關(guān)于平臺的基本情況介紹和使用方法。
本文搭建的化合物ADMET性質(zhì)預(yù)測平臺整合了28個模型,涵蓋了目前比較重要的吸收、分布、代謝、排泄及毒性性質(zhì)。研究者可以快捷方便地同時預(yù)測28種ADMET性質(zhì),在藥物研發(fā)早期對候選化合物進(jìn)行成藥性評價和風(fēng)險評估,有助于降低藥物研發(fā)的失敗率,節(jié)省研發(fā)時間和經(jīng)費(fèi)的投入。平臺中各個模型,在構(gòu)建過程中都采用了較全面的目前已知的ADMET性質(zhì)實驗數(shù)據(jù),涵蓋了較大的化學(xué)空間,在最大程度上保證了模型的應(yīng)用域;平臺中部分模型直接采用高質(zhì)量文獻(xiàn)中的建模數(shù)據(jù)和參數(shù),自建模型也采用了目前最先進(jìn)的建模方法,可以保證各模型具有很好的預(yù)測能力。
圖1 ADMET性質(zhì)預(yù)測平臺頁面截圖Fig.1 A screenshot of the platform for estimation of chemical ADMET properties
注:(a)平臺任務(wù)提交界面;(b)平臺任務(wù)查看界面;(c)化合物ADMET性質(zhì)預(yù)測結(jié)果展示頁面。
為了更方便為用戶提供服務(wù),平臺目前只對注冊用戶開放使用。平臺的支付系統(tǒng)是為將來對商業(yè)用戶開放使用進(jìn)行準(zhǔn)備。當(dāng)前狀態(tài)下,使用本平臺,支付頁面實際需要付款金額為0元,因而是供用戶免費(fèi)使用的。
使用平臺預(yù)測化合物ADMET性質(zhì)具有一些限制條件:首先,用于ADMET性質(zhì)預(yù)測模型構(gòu)建的化合物都是小分子化合物,因此平臺只適用于小分子化合物的ADMET性質(zhì)預(yù)測,不支持大分子化合物;其次,用戶提交的小分子必須是單一的有機(jī)化合物,平臺不支持無機(jī)物、混合物、水合物、有機(jī)鹽等化合物的ADMET性質(zhì)預(yù)測;第三,大多數(shù)模型構(gòu)建過程中,只考慮了化合物的二維結(jié)構(gòu)特征,因此對于二維結(jié)構(gòu)相同但三維構(gòu)象不同的化合物,平臺的預(yù)測結(jié)果沒有區(qū)分。
另外需要說明的是,鑒于目前機(jī)器學(xué)習(xí)算法與可用數(shù)據(jù)的局限性以及化合物ADMET性質(zhì)的復(fù)雜性,這里的化合物ADMET性質(zhì)預(yù)測平臺與其他計算機(jī)輔助系統(tǒng)一樣,預(yù)測結(jié)果可以提供有效的輔助與參考作用,但并不能完全替代生物實驗結(jié)果。對于化合物的ADMET性質(zhì),還是需要用戶結(jié)合平臺預(yù)測結(jié)果與人工專家經(jīng)驗進(jìn)行綜合判斷,以助于提高判斷的準(zhǔn)確率。
1)本文借助文本挖掘、機(jī)器學(xué)習(xí)等技術(shù),構(gòu)建了28種重要的ADMET性質(zhì)預(yù)測模型,經(jīng)過檢驗,模型都表現(xiàn)出了較高的預(yù)測能力,這樣就可以保證化合物ADMET性質(zhì)預(yù)測結(jié)果的準(zhǔn)確性。
2)在構(gòu)建的機(jī)器學(xué)習(xí)模型基礎(chǔ)上,本文基于分布式虛擬篩選架構(gòu),結(jié)合高性能計算集群優(yōu)勢,搭建了化合物ADMET性質(zhì)預(yù)測平臺(http://www.vslead.com/?r=admet/index)。平臺界面簡潔友好,操作簡單方便。
3)這一平臺可以幫助研究者在藥物研發(fā)早期階段,快速準(zhǔn)確地判斷候選化合物的成藥性和安全性,進(jìn)而降低藥物研發(fā)的失敗率,節(jié)省研發(fā)時間和經(jīng)費(fèi)的投入。
References)
[1]PAUL S M, MYTELKA D S, DUNWIDDIE C T, et al. How to improve R&D productivity: the pharmaceutical industry’s grand challenge[J]. Nature Reviews Drug Discovery. 2010, 9(3): 203-214. DOI: 10.1038/nrd3078.
[2]郭宗儒. 藥物分子設(shè)計的策略: 藥理活性與成藥性[J]. 藥學(xué)學(xué)報, 2010, 45(5): 539-547. DOI: 10.16438/j.0513-4870.2010.05.016.
GUO Zongru. Strategy of molecular drug design: activity and druggability[J]. Acta Pharmaceutica Sinica, 2010, 45(5): 539-547. DOI: 10.16438/j.0513-4870.2010.05.016.
[3]李曉, 孔德信. 化合物成藥性的預(yù)測方法 [J]. 計算機(jī)與應(yīng)用化學(xué), 2012, 29(8): 999-1003.
LI Xiao, KONG Dexin. Predicting ligand druggability for drug discovery[J]. Computers and Applied Chemistry, 2012, 29(8):999-1003.
[4]KOLA I, LANDIS J. Can the pharmaceutical industry reduce attrition rates?[J]. Nature Reviews Drug Discovery, 2004, 3(8): 711-716. DOI: 10.1038/nrd1470.
[5]MODI S, HUGHES M, GARROW A, et al. The value of in silico chemistry in the safety assessment of chemicals in the consumer goods and pharmaceutical industries[J]. Drug Discovery Today, 2012, 17(3/4): 135-142. DOI: 10.1016/j.drudis.2011.10.022.
[6]NIGSCH F, MACALUSO N J M, MITCHELL J B O, et al. Computational toxicology: an overview of the sources of data and of modelling methods[J]. Expert Opinion on Drug Metabolism & Toxicology, 2009, 5(1): 1-14. DOI: 10.1517/17425250802660467.
[7]CHENG Feixiong, LI Weihua, LIU Guixia, et al. In silico ADMET prediction: recent advances, current challenges and future trends[J]. Current Topics in Medicinal Chemistry, 2013,13(11): 1273-1289. DOI:10.2174/15680266113139990033.
[8]GLEESON M P, MODI S, BENDER A, et al. The challenges involved in modeling toxicity data in silico: a review [J]. Current Pharmaceutical Design, 2012, 18(9): 1266-1291. DOI: 10.2174/138161212799436359.
[9]MERLOT C. Computational toxicology-a tool for early safety evaluation[J]. Drug Discovery Today,2010, 15(1/2): 16-22. DOI: 10.1016/j.drudis.2009.09.010.
[10]SHEN Jie, CHENG Feixiong, XU You, et al. Estimation of ADME properties with substructure pattern recognition[J]. Journal of Chemical Information and Modeling, 2010, 50(6): 1034-1041. DOI: 10.1021/ci100104j.
[11]BROCCATELLI F, CAROSATI E, NERI A, et al. A novel approach for predicting P-glycoprotein (ABCB1) inhibition using molecular interaction fields[J]. Journal of Medicinal Chemistry, 2011, 54(6): 1740-1751. DOI: 10.1021/jm101421d.
[12]WANG Zhi, CHEN Yuanying, LIANG Hu, et al. P-glycoprotein substrate models using support vector machines based on a comprehensive data set[J]. Journal of Chemical Information and Modeling, 2011, 51(6): 1447-1456. DOI: 10.1021/ci2001583.
[13]HOU T J, XU X J. ADME evaluation in drug discovery. 3. Modeling blood-brain barrier partitioning using simple molecular descriptors[J]. Journal of Chemical Information and Computer Sciences, 2003, 43(6): 2137-2152. DOI: 10.1021/ci034134i.
[14]GOMBAR V K, HALL S D. Quantitative structure-activity relationship models of clinical pharmacokinetics: clearance and volume of distribution[J]. Journal of Chemical Information and Modeling, 2013, 53(4): 948-957. DOI: 10.1021/ci400001u.
[15]ZHU Xiangwei, SEDYKH A, ZHU Hao, et al. The use of pseudo-equilibrium constant affords improved QSAR models of human plasma protein binding [J]. Pharmaceutical Research, 2013, 30(7): 1790-1798. DOI: 10.1007/s11095-013-1023-6.
[16]HAMMANN F, GUTMANN H, BAUMANN U, et al. Classification of cytochrome p(450) activities using machine learning methods[J]. Molecular Pharmaceutics, 2009, 6(6): 1920-1926. DOI: 10.1021/mp900217x.
[17]CARBON-MANGELS M, HUTTER M C. Selecting relevant descriptors for classification by bayesian estimates: a comparison with decision trees and support vector machines approaches for disparate data sets[J]. Molecular Informatics, 2011, 30(10): 885-895. DOI: 10.1002/minf.201100069.
[18]CHENG Feixiong, YU Yue, SHEN Jie, et al. Classification of cytochrome P450inhibitors and noninhibitors using combined classifiers[J]. Journal of Chemical Information and Modeling, 2011, 51(5): 996-1011. DOI: 10.1021/ci200028n.
[19]ZHU Hao, MARTIN T M, YE Lin, et al. Quantitative structure-activity relationship modeling of rat acute toxicity by oral exposure[J]. Chemical Research in Toxicology, 2009, 22(12): 1913-1921. DOI: 10.1021/tx900189p.
[20]LI Xiao, CHEN Lei, CHENG Feixiong, et al. In silico prediction of chemical acute oral toxicity using multi-classification methods[J]. Journal of Chemical Information and Modeling, 2014, 54(4):1061-1069. DOI:10.1021/ci5000467.
[21]XU Congying, CHENG Feixiong, CHEN Lei, et al. In silico prediction of chemical Ames mutagenicity[J]. Journal of Chemical Information and Modeling, 2012, 52(11): 2840-2847. DOI: 10.1021/ci300400a.
[22]MAZZATORTA P, ESTEVEZ M D, COULET M, et al. Modeling oral rat chronic toxicity[J]. Journal of Chemical Information and Modeling, 2008, 48(10): 1949-1954. DOI: 10.1021/ci8001974.
[23]PLUNKETT L M, KAPLAN A M AND BECKER R A. Challenges in using the ToxRefDB as a resource for toxicity prediction modeling[J]. Regulatory Toxicology and Pharmacology, 2015, 72(3): 610-614. DOI: 10.1016/j.yrtph.2015.05.013.
[24]FOURCHES D, BARNES J C, DAY N C, et al. Cheminformatics analysis of assertions mined from literature that describe drug-induced liver injury in different species[J]. Chemical Research in Toxicology, 2010, 23(1): 171-183. DOI: 10.1021/tx900326k.
[25]LIEW C Y, LIM Y C, YAP C W. Mixed learning algorithms and features ensemble in hepatotoxicity prediction[J]. Journal of Computer-Aided Molecular Design, 2011, 25(9): 855-871. DOI: 10.1007/s10822-011-9468-3.
[26]HUANG S H, TUNG C W, FULOP F, et al. Developing a QSAR model for hepatotoxicity screening of the active compounds in traditional Chinese medicines[J]. Food and Chemical Toxicology, 2015, 78: 71-77. DOI: 10.1016/j.fct.2015.01.020.
[27]SOLIMEO R, ZHANG Jun, KIM M, et al. Predicting chemical ocular toxicity using a combinatorial QSAR approach[J]. Chemical Research in Toxicology, 2012, 25(12): 2763-2769. DOI: 10.1021/tx300393v.
[28]DODDAREDDY M R, KLAASSE E C, SHAGUFTA, et al. Prospective validation of a comprehensive in silico hERG model and its applications to commercial compound and drug databases[J]. ChemMedChem, 2010, 5(5): 716-729. DOI: 10.1002/cmdc.201000024.
[29]CZODROWSKI P. hERG me out [J]. Journal of Chemical Information and Modeling, 2013, 53(9): 2240-2251. DOI: 10.1021/ci400308z.
[30]LI Xiao, DU Zheng, WANG Jie, et al. In silico estimation of chemical carcinogenicity with binary and ternary classification methods[J]. Molecular Informatics, 2015, 34(4): 228-235. DOI: 10.1002/minf.201400127.
[31]ZHANG Cheng, CHENG Feixiong, SUN Lu, et al. In silico prediction of chemical toxicity on avian species using chemical category approaches[J]. Chemosphere, 2015, 122: 280-287. DOI: 10.1016/j.chemosphere.2014.12.001.
[32]SUN Lu, ZHANG Chen, CHEN Yingjie, et al. In silico prediction of chemical aquatic toxicity with chemical category approaches and substructural alerts[J]. Toxicology Researc, 2015, 4(2): 452-463. DOI: 10.1039/C4TX00174E.
[33]SINGH K P, GUPTA S, BASANT N, et al. QSTR modeling for qualitative and quantitative toxicity predictions of diverse chemical pesticides in honey bee for regulatory purposes[J]. Chemical Research in Toxicology, 2014, 27(9):1504-1515. DOI: 10.1021/tx500100m.
[34]DONG Jie, CAO Dongsheng, MIAO Hongyu, et al. ChemDes: an integrated web-based platform for molecular descriptor and fingerprint computation[J]. Journal of Cheminformatics, 2015, 7(1): 1-10. DOI: 10.1186/s13321-015-0109-z.
[35]LI Xiao, CHEN Lei, CHENG Feixiong, et al. In silico prediction of chemical acute oral toxicity using multi-classification methods[J]. Journal of Chemical Information and Modeling, 2014, 54(4): 1061-1069. DOI: 10.1021/ci5000467.
[36]NOBLE W S. What is a support vector machine?[J]. Nature Biotechnology, 2006, 24(12): 1565-1567. DOI: 10.1038/nbt1206-1565.
[37]QUINLAN J R. Induction of decision trees[J]. Machine Learning. 1986, 1(1): 81-106. DOI: 10.1023/A:1022643204877.
[38]FRANK E, TRIGG L, HOLMES G, et al. Technical note: naive bayes for regression[J]. Machine Learning, 2000, 41(1): 5-25. DOI: 10.1023/A:1007670802811.
[39]LI Lili, ZHANG Yanxia, ZHAO Yongheng. k-Nearest Neighbors for automated classification of celestial objects[J]. Science in China Series G: Physics, Mechanics and Astronomy, 2008, 51(7): 916-922. DOI: 10.1007/s11433-008-0088-4.
[40]OLAWOYIN R. Application of backpropagation artificial neural network prediction model for the PAH bioremediation of polluted soil[J]. Chemosphere, 2016, 161: 145-150. DOI: 10.1016/j.chemosphere.2016.07.003.
[41]CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning 1995, 20(3):273-297. DOI: 10.1007/BF00994018.
[42]CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 1-27. DOI: 10.1145/1961189.1961199.
[43]YAP C W. PaDEL-descriptor: an open source software to calculate molecular descriptors and fingerprints[J]. Journal of Computational Chemistry, 2011, 32(7): 1466-1474. DOI: 10.1002/jcc.21707.
DevelopmentoftheplatformforpredictionofchemicalADMETproperties
LI Xiao1,2, LI Da2, ZHOU Xuesong2, ZHAO Yong1,2*
(1.BeijingComputingCenter,BeijingAcademyofScienceandTechnology,Beijing100094,China;2.BeijingBeikeDeyuanBio-PharmTechnologyCo.,Ltd.,Beijing100094,China)
It is very essential to estimate the druggability and toxicity of chemicals in the early stages of drug discovery. In order to make it available for drug researchers to estimate the druggability and toxicity of candidate compounds rapidly and accurately, we developed a platform for estimation of chemical ADMET properties based on in silico methods in this study. Firstly, we collected quality data of chemical pharmacokinetic and toxic properties (ADMET) with text mining approaches. Then, 13 predictive models were reproduced on the basis of original literature. Meanwhile, another 15 models were built with support vector machine (SVM). Finally, we developed a platform for estimation of chemical ADMET properties based on distributed storage architectures. This tool could be used to predict 28 important ADMET related properties quickly and easily, and its application in drug discovery could be helpful to reduce the time and money.
Drug discovery; ADMET properties; Machine learning
R91
A
1672-5565(2017)03-179-07
10.3969/j.issn.1672-5565.201704003
2017-04-11;
2017-07-21.
北京市科技型中小企業(yè)促進(jìn)專項項目(Z16010101204).
李曉,男,博士,工程師,研究方向:藥物設(shè)計與藥物信息;E-mail:lixiao@bcc.ac.cn.
*通信作者:趙勇,男,博士,北京市特聘專家,研究方向:生物信息學(xué)與創(chuàng)新藥物研究; E-mail:zhaoyong@bcc.ac.cn.