杜晗,吳羿霏,杜新
(1. 瀾亭資本,浙江 杭州 310030;2. 深圳埃格林醫(yī)藥有限公司,廣東 深圳 518038)
人工智能(artificial intelligence,AI)這一概念已不再陌生,其通常是指通過(guò)計(jì)算機(jī)程序或系統(tǒng)來(lái)呈現(xiàn)人類(lèi)思維和智能的技術(shù)。AI通過(guò)抓取數(shù)據(jù)中存在的概念和關(guān)系,獨(dú)立分析學(xué)習(xí)數(shù)據(jù)模式從而達(dá)到模擬人類(lèi)思維的目的[1]。AI主要涉及的方法領(lǐng)域包括推理、知識(shí)表達(dá)、搜索解決方案以及機(jī)器學(xué)習(xí)(machine learning)[2]。
德勤咨詢(xún)報(bào)告將機(jī)器學(xué)習(xí)歸屬于廣義的AI技術(shù),并定義為“從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)、識(shí)別隱藏模式、進(jìn)行分類(lèi)并預(yù)測(cè)未來(lái)結(jié)果的計(jì)算機(jī)算法”。機(jī)器學(xué)習(xí)技術(shù)包括深度學(xué)習(xí)(deep learning),它是一種基于機(jī)器學(xué)習(xí)的方法,利用一種類(lèi)似于大腦的邏輯結(jié)構(gòu)(稱(chēng)為神經(jīng)網(wǎng)絡(luò))來(lái)識(shí)別和區(qū)分語(yǔ)音、圖像和視頻等模式。自然語(yǔ)言處理(natural language processing,NLP)是深度學(xué)習(xí)的一種,是計(jì)算機(jī)技術(shù)在自然語(yǔ)言和語(yǔ)音分析與合成中的應(yīng)用[1](見(jiàn)圖1)。
圖1 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的關(guān)系Figure 1 The relationship between machine learning and deep learning
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)新的研究方向,引領(lǐng)了第3次AI的浪潮。深度學(xué)習(xí)的算法近年來(lái)發(fā)展迅速,幾種典型的算法,包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、深度強(qiáng)化學(xué)習(xí)(reinforcement deep learning),特別是生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN),作為最近2年十分熱門(mén)的一種無(wú)監(jiān)督學(xué)習(xí)算法,在各個(gè)領(lǐng)域被廣泛應(yīng)用。
新藥研發(fā)是一個(gè)漫長(zhǎng)而復(fù)雜的過(guò)程,伴隨著高昂的研發(fā)成本及高度不確定性。有學(xué)者統(tǒng)計(jì),一個(gè)新藥從研發(fā)初期到上市,可能需要數(shù)十年,消耗資金可多達(dá)30億美元。典型的新藥研發(fā)過(guò)程通常包括:1)早期的目標(biāo)識(shí)別及靶點(diǎn)、最優(yōu)化合物的確認(rèn);2)臨床前研究;3)臨床研究Ⅰ、Ⅱ、Ⅲ期階段;4)審批上市階段。在化學(xué)世界里,潛在藥物分子多達(dá)1060個(gè),因此新藥發(fā)現(xiàn)可以說(shuō)如同大海撈針[3]。近年來(lái),傳統(tǒng)的新藥研發(fā)越來(lái)越難,研發(fā)投入和研發(fā)時(shí)間也在不斷增加。新藥研發(fā)處于一個(gè)難以突破的瓶頸階段,亟需借助于新的技術(shù)來(lái)幫助實(shí)現(xiàn)降本增效。
AI憑借其強(qiáng)大的自適應(yīng)特征和學(xué)習(xí)能力,將其算法、推演等核心技術(shù)應(yīng)用到新藥研發(fā)的各個(gè)環(huán)節(jié),在保證分析質(zhì)量的同時(shí),大幅降低藥物研發(fā)成本,縮短研發(fā)時(shí)間,提高研發(fā)效率,使新藥開(kāi)發(fā)走上快速高效的道路。
Paul等[2]于2021年在Drug Discovery Today期刊上發(fā)表了一篇文章,總結(jié)了AI技術(shù)在新藥研發(fā)的5個(gè)重要部分——藥物設(shè)計(jì)、化學(xué)合成、藥物再利用、多重藥理學(xué)、藥物篩選中的巨大潛力(見(jiàn)圖2)。以下從這5個(gè)領(lǐng)域進(jìn)行詳細(xì)介紹。
圖2 人工智能技術(shù)在新藥研發(fā)中的應(yīng)用潛力Figure 2 Application potential of artificial intelligence technique in new drug research and development
2.1.1 預(yù)測(cè)靶點(diǎn)蛋白三維結(jié)構(gòu)蛋白質(zhì)功能紊亂是導(dǎo)致許多疾病的重要因素,因此在新藥研發(fā)第一步——靶點(diǎn)識(shí)別和確認(rèn)中,找到藥物在體內(nèi)的作用靶點(diǎn),確定靶點(diǎn)蛋白質(zhì)結(jié)構(gòu)從而針對(duì)性地設(shè)計(jì)藥物分子來(lái)調(diào)節(jié)蛋白功能是至關(guān)重要的基石。蛋白質(zhì)的三維結(jié)構(gòu)由一系列氨基酸折疊而成,根據(jù)最穩(wěn)態(tài)原理推測(cè)出蛋白質(zhì)三維結(jié)構(gòu)需要考慮到其各個(gè)原子間的相互作用力,因此巨大的計(jì)算量使得蛋白質(zhì)結(jié)構(gòu)測(cè)定往往需要很長(zhǎng)的周期和高昂的經(jīng)費(fèi),且難度較大。
到目前為止,在生命體已知的約2億種蛋白質(zhì)中,只有約17萬(wàn)種蛋白質(zhì)結(jié)構(gòu)得到了確定?;谝阎陌被嵝蛄校珹I被研究人員用于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。Spencer等[4]在2015年通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)(deep learning network architecture,DNSS)對(duì)198個(gè)蛋白質(zhì)進(jìn)行完全獨(dú)立測(cè)試,預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)準(zhǔn)確率達(dá)到了80.7%。Wang等[5]在2016年發(fā)表于《自然》的文獻(xiàn)里介紹到一種被稱(chēng)為深度卷積神經(jīng)場(chǎng)(deep convolutional neural fields,DeepCNF)的AI技術(shù),其被用于預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)。DeepCNF技術(shù)不僅可以通過(guò)深度層次結(jié)構(gòu)對(duì)復(fù)雜的序列與結(jié)構(gòu)關(guān)系建模,還可以對(duì)相鄰的蛋白質(zhì)二級(jí)結(jié)構(gòu)之間的相互依賴(lài)性進(jìn)行建模。實(shí)驗(yàn)結(jié)果證明該技術(shù)可實(shí)現(xiàn)84%的預(yù)測(cè)準(zhǔn)確率,并可以擴(kuò)展到對(duì)蛋白質(zhì)的其他結(jié)構(gòu)性質(zhì)(如接觸數(shù)、無(wú)序區(qū)域以及溶劑可及性)的預(yù)測(cè)。2020年11月,谷歌旗下的DeepMind公司的AlphaFold AI系統(tǒng)在國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(Critical Assessment of Structure Prediction,CASP)上以絕對(duì)的優(yōu)勢(shì)奪冠,其預(yù)測(cè)的蛋白質(zhì)三維結(jié)構(gòu)與實(shí)驗(yàn)方法解析的結(jié)構(gòu)幾乎完全吻合,在最具挑戰(zhàn)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上也獲得將近90分的成績(jī),而其他參賽隊(duì)伍最好的成績(jī)也只有75分[6]。由此可見(jiàn),AI技術(shù)在實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)的精準(zhǔn)預(yù)測(cè)上有巨大潛力,將會(huì)為新藥研發(fā)帶來(lái)前所未有的技術(shù)革新。
2.1.2 預(yù)測(cè)藥物和蛋白質(zhì)相互作用確定藥物的靶蛋白,以及預(yù)測(cè)藥物和靶蛋白的相互作用(drug-protein interaction,DPI),在藥物研發(fā)過(guò)程中有著極其重要的作用。通過(guò)預(yù)測(cè)藥物與受體或者蛋白質(zhì)的相互作用,可以幫助理解藥物的功效,從而對(duì)藥物進(jìn)行最有效的設(shè)計(jì)。
得益于愈發(fā)豐富的數(shù)據(jù)庫(kù)(例如化合物數(shù)據(jù)庫(kù)PubChem、ChEMBL與DUD-E,蛋白質(zhì)數(shù)據(jù)庫(kù)UniProt與PDBbind,以及綜合數(shù)據(jù)庫(kù)BindingDB),許多研究人員采用了不同的AI技術(shù)對(duì)配基-蛋白質(zhì)的相互作用成功地進(jìn)行了預(yù)測(cè)。Wang等[7]采用支持向量機(jī)(support vector machine,SVM,一種按監(jiān)督學(xué)習(xí)的方式對(duì)數(shù)據(jù)進(jìn)行二向分類(lèi)的廣義線(xiàn)性分類(lèi)器)對(duì)存在于626個(gè)蛋白質(zhì)和10 000個(gè)活躍化合物之間的15 000個(gè)配基-蛋白質(zhì)相互作用進(jìn)行訓(xùn)練,成功地發(fā)現(xiàn)了9種新化合物及其與4個(gè)關(guān)鍵靶點(diǎn)(GPR4、SIRT1、p38和GSK-3β)的相互作用。
藥物分子與細(xì)胞網(wǎng)絡(luò)中蛋白質(zhì)的相互作用對(duì)于藥物開(kāi)發(fā)非常重要,然而,現(xiàn)有的識(shí)別藥物-蛋白質(zhì)相互作用的預(yù)測(cè)器都是由一個(gè)偏態(tài)分布的基準(zhǔn)數(shù)據(jù)訓(xùn)練的,在這種偏態(tài)分布的基準(zhǔn)數(shù)據(jù)中,非相互作用的藥物-蛋白質(zhì)對(duì)的數(shù)量遠(yuǎn)遠(yuǎn)大于有相互作用的藥物-蛋白質(zhì)對(duì)。使用這種高度不平衡的基準(zhǔn)數(shù)據(jù)來(lái)訓(xùn)練預(yù)測(cè)器將導(dǎo)致許多有相互作用的藥物-蛋白質(zhì)對(duì)可能被錯(cuò)誤地預(yù)測(cè)為沒(méi)有相互作用的結(jié)果。由于少數(shù)有相互作用的藥物-蛋白質(zhì)對(duì)通常包含藥物設(shè)計(jì)最重要的信息,因此有必要盡量減少使用這種偏態(tài)分布的基準(zhǔn)數(shù)據(jù),以免造成錯(cuò)誤預(yù)測(cè)。Xiao等[8]采用鄰域清理規(guī)則和合成少數(shù)過(guò)量采樣(synthetic minority over-sampling)技術(shù)來(lái)處理偏態(tài)分布的基準(zhǔn)數(shù)據(jù),由此獲得新的優(yōu)化基準(zhǔn)數(shù)據(jù),在此基礎(chǔ)上開(kāi)發(fā)了一個(gè)名為iDrug-Target的新預(yù)測(cè)器,其中包含4個(gè)子預(yù)測(cè)器:iDrug-GPCR、iDrug-Chl、iDrug-Ezy和iDrug-NR,專(zhuān)門(mén)分別用于鑒定藥物分子與G蛋白偶聯(lián)受體(GPCR)、離子通道、酶和核受體(NR)的相互作用。對(duì)一組實(shí)驗(yàn)確認(rèn)的數(shù)據(jù)集進(jìn)行的嚴(yán)格的交叉驗(yàn)證表明,這個(gè)新的預(yù)測(cè)器在相同的目的上明顯優(yōu)于現(xiàn)有的其他預(yù)測(cè)器。
藥物設(shè)計(jì)從早期的計(jì)算機(jī)輔助藥物設(shè)計(jì)逐步發(fā)展為AI輔助藥物設(shè)計(jì),隨著AI計(jì)算能力的不斷加強(qiáng)、數(shù)據(jù)庫(kù)數(shù)據(jù)的增加以及數(shù)據(jù)處理能力的優(yōu)化,AI輔助藥物設(shè)計(jì)的能力和范圍也大大增加。
藥物發(fā)現(xiàn)階段的復(fù)雜性是導(dǎo)致新藥研發(fā)高成本的重要原因之一。采用先進(jìn)的計(jì)算機(jī)硬件和計(jì)算方法優(yōu)化藥物化學(xué)在新藥研發(fā)設(shè)計(jì)-制造-測(cè)試-分析(design-make-test-analyze,DMTA)中的表現(xiàn),將提高新藥研發(fā)的成功率。其中,研究人員越來(lái)越感興趣的一個(gè)領(lǐng)域是使用數(shù)據(jù)驅(qū)動(dòng)的合成預(yù)測(cè)工具使合成階段加速以及減少新分子實(shí)體合成的失敗。
計(jì)算機(jī)輔助化學(xué)合成綜合規(guī)劃包括以下3個(gè)主要任務(wù)。1)逆合成。逆合成又可以分為2個(gè)方面:對(duì)逆合成的每一步合成提出建議;遞歸使用單步建議來(lái)識(shí)別完整的多步路線(xiàn)。2)提供正向反應(yīng)的條件,從而使提供的建議具有可操作性。3)反應(yīng)預(yù)測(cè)。從一組起始原料和條件預(yù)測(cè)可能的產(chǎn)物,用于驗(yàn)證所提出的合成步驟[9]。
計(jì)算機(jī)輔助化學(xué)合成可以追溯到20世紀(jì)60年代,在60至90年代,該學(xué)科在很大程度上受限于計(jì)算資源,主要依賴(lài)于人工編碼。近年來(lái),AI專(zhuān)家嘗試讓用于預(yù)測(cè)的機(jī)器學(xué)習(xí)模型與化學(xué)家在化學(xué)合成方面進(jìn)行密切“合作”,旨在建立更加快速、方便和簡(jiǎn)單的服務(wù)平臺(tái)。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,化學(xué)家們不斷接受使用計(jì)算機(jī)輔助化學(xué)合成來(lái)減輕他們的工作量,以及應(yīng)對(duì)日益增長(zhǎng)的合成挑戰(zhàn)。
美國(guó)麻省理工大學(xué)在其藥物發(fā)現(xiàn)和合成的機(jī)器學(xué)習(xí)聯(lián)盟(Machine Learning for Pharmaceutical Discovery and Synthesis Consortium,MLPDS)的平臺(tái)上,基于麻省理工大學(xué)的化學(xué)工程、化學(xué)和計(jì)算機(jī)科學(xué)家與拜耳、輝瑞、諾華等多家大型跨國(guó)醫(yī)藥公司的合作,共同設(shè)計(jì)用于化學(xué)分子發(fā)現(xiàn)和化學(xué)合成自動(dòng)化的應(yīng)用軟件,以幫助醫(yī)藥公司加速化學(xué)藥物的發(fā)現(xiàn)、合成和制造。大學(xué)和大型醫(yī)藥公司間的通力合作將有利于AI在化學(xué)合成領(lǐng)域更深入和廣泛的應(yīng)用。
藥物再利用[或藥物再定位(drug repurposing)],是指將已上市的藥物,以及正在進(jìn)行研究的藥物和臨床失敗的藥物,用于原定用途之外的疾病治療的過(guò)程。正如諾貝爾獎(jiǎng)獲得者、藥理學(xué)家James Black的一句名言所說(shuō),發(fā)現(xiàn)新藥最富有成效的基礎(chǔ)就是老藥[10]。得益于老藥已知的安全性,藥物再利用不僅可以大幅度降低研發(fā)成本,還可以有效減少藥物安全性測(cè)試的相關(guān)風(fēng)險(xiǎn),因此也是新藥研發(fā)中比較重要的一種研發(fā)策略[11]。
如今,AI技術(shù)已經(jīng)被廣泛用于藥物再利用的系統(tǒng)研發(fā)過(guò)程中。Rodriguez等[12]開(kāi)發(fā)了機(jī)器學(xué)習(xí)框架——DRIAD(drug repurposing in Alzheimer’s disease),其能夠量化藥物作用與阿爾茨海默病進(jìn)展之間的關(guān)聯(lián)。該研究團(tuán)隊(duì)用80種測(cè)試化合物(主要為具有抗腫瘤活性的激酶抑制劑,有33種已獲FDA批準(zhǔn))體外處理人類(lèi)神經(jīng)細(xì)胞,收集受到影響的基因并形成列表。將DRIAD用于分析該基因列表,從而得到一個(gè)可能再利用的候選藥物的排名表。對(duì)列表中得分最高的藥物進(jìn)行檢查,有助于了解其靶點(diǎn)的共同特點(diǎn)。該AI框架能夠提供直接、客觀的量化結(jié)果。
Zhou等[13]在《柳葉刀》上發(fā)表的一篇文獻(xiàn)總結(jié)了不同AI技術(shù)用于藥物再利用的研究,其中探討了將老藥用于新冠肺炎(COVID-19)治療的可能性。這些技術(shù)包括前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network)、主要分析處理圖像輸入變量的CNN、更適合處理生物序列的RNN以及圖表表征學(xué)習(xí)(graph representation learning)。通過(guò)藥物網(wǎng)絡(luò)分析發(fā)現(xiàn)了或可用于新冠肺炎治療的候選藥物托瑞米芬(toremifene),該藥曾于1997年獲批準(zhǔn)用于治療乳腺癌,為第1代雌激素受體調(diào)節(jié)劑。體外實(shí)驗(yàn)表明,托瑞米芬在微摩爾濃度下可阻斷病毒感染,包括中東呼吸綜合征冠狀病毒、新冠病毒(SARSCoV-2)。經(jīng)過(guò)Benevolent AI公司的知識(shí)網(wǎng)絡(luò)圖譜分析與識(shí)別,巴瑞替尼(baricitinib)也被認(rèn)為對(duì)新冠肺炎有一定療效。目前,至少2項(xiàng)以巴瑞替尼(單獨(dú)使用或與抗病毒藥物聯(lián)合使用)治療中度和重度新冠肺炎患者的雙盲Ⅱ期臨床試驗(yàn)正在美國(guó)進(jìn)行。
AI輔助藥物再利用可以加速藥物開(kāi)發(fā)進(jìn)程,減少開(kāi)發(fā)成本。除了新冠肺炎外,AI輔助藥物再利用在其他適應(yīng)證上也可以得到廣泛應(yīng)用。已知藥物擁有龐大的臨床和毒理數(shù)據(jù),AI利用其強(qiáng)大的計(jì)算能力和算法在尋找新的適應(yīng)證和新的藥物組合中都可以發(fā)揮重要作用。
在現(xiàn)代藥物研發(fā)領(lǐng)域,大多數(shù)治療方法都是通過(guò)調(diào)節(jié)多個(gè)靶標(biāo)和通路來(lái)達(dá)到預(yù)期效果,而不是通過(guò)作用于單個(gè)靶點(diǎn)起效。多重藥理學(xué)(polypharmacology)作為制藥科學(xué)的一個(gè)新興分支,著重研究?jī)蓚€(gè)方面:1)由藥物分子脫靶效應(yīng)導(dǎo)致的毒副作用;2)利用藥物分子同時(shí)調(diào)節(jié)疾病網(wǎng)絡(luò)系統(tǒng)中的多個(gè)靶點(diǎn),從而治療復(fù)雜疾病。由于要處理的數(shù)據(jù)量很大,網(wǎng)絡(luò)藥理學(xué)(network pharmacology)、機(jī)器學(xué)習(xí)技術(shù)和化學(xué)基因組學(xué)方法在該領(lǐng)域的應(yīng)用是必不可少的。根據(jù)美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館的定義,多重藥理學(xué)是“對(duì)作用于多個(gè)靶點(diǎn)或途徑的藥物的設(shè)計(jì)或使用”。癌癥、阿爾茨海默病等諸多復(fù)雜疾病通常在環(huán)境、遺傳等多種因素的共用作用下引起,而多重藥理學(xué)已成為一種強(qiáng)大和有前途的藥物開(kāi)發(fā)手段,以滿(mǎn)足迫切的醫(yī)療需求。
在過(guò)去,多靶點(diǎn)藥物的發(fā)現(xiàn)是偶然的。隨著化學(xué)生物學(xué)和計(jì)算機(jī)科學(xué)的發(fā)展,基于多重藥理學(xué)的藥物合理設(shè)計(jì)成為可能。現(xiàn)代體外高通量/高含量篩選和體內(nèi)動(dòng)物模型技術(shù)加快了對(duì)藥物靶點(diǎn)組合的系統(tǒng)識(shí)別,而在電腦模擬(in silico)方法中,結(jié)構(gòu)生物學(xué)和藥物化學(xué)使多靶點(diǎn)藥物的有效設(shè)計(jì)得以實(shí)現(xiàn)。
基于配體的多重藥理學(xué)預(yù)測(cè)方法主要依賴(lài)于藥物的化學(xué)結(jié)構(gòu)和生物活性。最近,Lee等[14]利用1 121個(gè)靶點(diǎn),通過(guò)AI隨機(jī)森林方法開(kāi)發(fā)了基于配體的靶點(diǎn)預(yù)測(cè)模型。結(jié)果顯示,對(duì)于前1%和前3%的目標(biāo),這兩組目標(biāo)的回憶率分別達(dá)到了67.6%和73.9%。
總部位于加拿大多倫多的生物科技公司Cyclica采用多重藥理學(xué)方法進(jìn)行藥物發(fā)現(xiàn),將藥物分子所有潛在靶標(biāo)的相互作用作為首要考慮因素。Cyclica的集成AI增強(qiáng)藥物發(fā)現(xiàn)平臺(tái)能夠?qū)哂辛己枚嘀厮幚硖卣骱退幱锰匦缘暮蜻x藥物進(jìn)行多目標(biāo)評(píng)估和設(shè)計(jì)。傳統(tǒng)計(jì)算機(jī)輔助藥物設(shè)計(jì)方法(如基于結(jié)構(gòu)的生物物理學(xué)方法)需要在有大量數(shù)據(jù)存在的分子類(lèi)別和蛋白質(zhì)靶標(biāo)上才能發(fā)揮最大作用,而Cyclica的平臺(tái)可針對(duì)特征不太明確的蛋白質(zhì)靶標(biāo)進(jìn)行分子設(shè)計(jì),同時(shí)也揭示了分子的作用機(jī)制。Cyclica平臺(tái)將目標(biāo)反褶積應(yīng)用于藥物再利用和重新設(shè)計(jì)。該平臺(tái)由2個(gè)機(jī)器學(xué)習(xí)引擎——MatchMaker和POEM提供動(dòng)力[15]。
虛擬篩選(virtual screening)是計(jì)算機(jī)輔助藥物設(shè)計(jì)中一種重要的開(kāi)發(fā)工具,利用小分子化合物與藥物靶點(diǎn)間的分子對(duì)接運(yùn)算,從龐大的分子庫(kù)中快速遴選出活性化合物。傳統(tǒng)的高通量篩選技術(shù)存在高成本、低成功率的問(wèn)題,虛擬篩選則可通過(guò)在早期藥物研發(fā)時(shí)過(guò)濾掉結(jié)構(gòu)不合適的化合物,提高化合物篩選效率,從而縮短研發(fā)周期,降低藥物研發(fā)成本。
虛擬篩選主要的2種方法有基于配體的虛擬篩選(ligand-based virtual screening,LBVS)與基于結(jié)構(gòu)的虛擬篩選(structure-based virtual screening,SBVS)。前者不依賴(lài)于三維蛋白質(zhì)結(jié)構(gòu)信息,而是基于活性及非活性配體的實(shí)證數(shù)據(jù),利用活性配體之間的化學(xué)和空間相似性及物理化學(xué)分析來(lái)預(yù)測(cè)和識(shí)別其他具有高生物活性的配體[11]。傳統(tǒng)的機(jī)器學(xué)習(xí)方法,例如SVM(support vector machine)、NB (Na?ve Bayes)和KNN(k-nearest neighbour)被大量運(yùn)用在LBVS中。而SBVS則依賴(lài)于實(shí)驗(yàn)測(cè)定的或同源模建的受體生物大分子的三維結(jié)構(gòu),主要用于研究可能的活性配體與結(jié)合位點(diǎn)殘基間的相互作用。SBVS通過(guò)打分函數(shù)對(duì)蛋白和小分子化合物的結(jié)合能力進(jìn)行評(píng)價(jià),最終從大量的化合物分子中挑選出結(jié)合模式比較合理的、預(yù)測(cè)得分較高的化合物,往往比LBVS有更好的預(yù)測(cè)表現(xiàn)。
AI在藥物篩選中還有多方面的應(yīng)用,包括預(yù)測(cè)藥物生物活性、藥品物理化學(xué)性質(zhì)和藥物毒性。在預(yù)測(cè)藥物生物活性方面,由于藥物分子的生物活性取決于它們對(duì)靶蛋白或受體的親和力,藥物-靶點(diǎn)結(jié)合親和力(drug-target binding affinity,DTBA)對(duì)于預(yù)測(cè)藥物與靶點(diǎn)的相互作用至關(guān)重要。AI可以根據(jù)藥物的特征或其與靶蛋白或受體相互作用來(lái)測(cè)量結(jié)合親和力,從而預(yù)測(cè)藥物生物活性。在這一方面,近年來(lái)許多AI工具,如DeepDTA、PADME、WideDTA和DeepAffinity均被用于測(cè)量藥物與靶點(diǎn)的結(jié)合親和力。相比而言,深度學(xué)習(xí)的方法因?yàn)槭褂没诰W(wǎng)絡(luò)的方法,可以不依賴(lài)蛋白質(zhì)的三維結(jié)構(gòu),因此比機(jī)器學(xué)習(xí)的方法具有更好的預(yù)測(cè)性能。
測(cè)試藥物分子的毒性對(duì)于藥物開(kāi)發(fā)至關(guān)重要。通常做法是先通過(guò)體外細(xì)胞試驗(yàn)進(jìn)行初步研究,然后進(jìn)行動(dòng)物試驗(yàn)來(lái)確定毒性,這種傳統(tǒng)的毒性測(cè)試方法費(fèi)時(shí)而且成本較高。AI為藥物分子的毒性測(cè)試提供了快速、低成本的途徑,相關(guān)工具有LimTox、pkCSM、admetSAR和Toxtree。AI方法通常是通過(guò)比較藥物分子的相似性,或通過(guò)輸入藥物分子的特性來(lái)預(yù)測(cè)其潛在毒性。Mayr等[16]使用AI工具DeepTox,通過(guò)識(shí)別藥物分子的靜態(tài)和動(dòng)態(tài)分子特性,如藥物分子的相對(duì)分子質(zhì)量和范德華力,有效地預(yù)測(cè)了藥物分子的毒性。
截 至2021年4月12日,據(jù)BiopharmaTrend.com網(wǎng)站統(tǒng)計(jì),基于AI技術(shù)進(jìn)行藥物研發(fā)的公司已多達(dá)270家,其分散在10個(gè)不同領(lǐng)域,包括化學(xué)合成、靶點(diǎn)/先導(dǎo)化合物確認(rèn)、臨床前研究、藥物再利用等。
AI公司與大型跨國(guó)藥企的戰(zhàn)略合作已屢見(jiàn)不鮮。葛蘭素史克(GSK)于2017年同美國(guó)的Insilico Medicine達(dá)成合作協(xié)議,希望借助后者的AI平臺(tái)發(fā)現(xiàn)新的藥物靶點(diǎn)及通路。2017年6月,基因泰克(Genentech)宣布與GNS Healthcare進(jìn)行研究合作,利用該公司自有的“逆向工程、正向模擬”(reverse engineering, forward simulation,REFS)機(jī)器學(xué)習(xí)和模擬平臺(tái)去識(shí)別與驗(yàn)證新的癌癥治療藥物靶點(diǎn)。武田制藥也宣布同AI藥物設(shè)計(jì)公司Numerate進(jìn)行多年研究合作,專(zhuān)注開(kāi)發(fā)腫瘤學(xué)、胃腸病學(xué)和中樞神經(jīng)系統(tǒng)疾病的臨床候選藥物[17]。以下重點(diǎn)介紹AI公司Exscientia和Benevolent AI及其AI技術(shù)在藥物研發(fā)中取得的一些成果。
Exscientia是一家位于英國(guó)牛津,通過(guò)端對(duì)端的AI平臺(tái)對(duì)藥物進(jìn)行設(shè)計(jì)的制藥科技公司,也是首家實(shí)現(xiàn)藥物設(shè)計(jì)自動(dòng)化的公司。許多大型跨國(guó)藥企已經(jīng)分別與Exscientia達(dá)成了戰(zhàn)略合作。2017年,GSK與Exscientia簽署協(xié)議,就GSK篩選的10個(gè)疾病靶點(diǎn)通過(guò)AI平臺(tái)開(kāi)發(fā)小分子藥物,并且針對(duì)這些靶點(diǎn)發(fā)現(xiàn)臨床候選藥物,如果Exscientia能夠?qū)崿F(xiàn)所有的“里程碑”,則會(huì)獲得GSK提供的3 300萬(wàn)英鎊的研究資金[18]。同年,賽諾菲出資2.73億美元,與Exscientia共同開(kāi)發(fā)治療糖尿病及其并發(fā)癥的雙特異小分子藥物,涉及領(lǐng)域包括血糖控制、體質(zhì)量管理及其他糖尿病相關(guān)領(lǐng)域。雙方已經(jīng)篩選了45個(gè)單靶點(diǎn)和1 000個(gè)雙靶點(diǎn)組合,隨后會(huì)借助Exscientia的AI平臺(tái)剔除掉在化學(xué)上難以處理的組合。拜耳和Exscientia于2020年初簽署了一份為期3年、價(jià)值2.4億歐元的合作協(xié)議,通過(guò)結(jié)合Exscientia的AI藥物研發(fā)平臺(tái)以及拜耳的數(shù)據(jù),專(zhuān)注藥物早期研究,識(shí)別及優(yōu)化具有心血管疾病和腫瘤治療作用的先導(dǎo)化合物[19]。
許多與Exscientia合作的制藥公司在新藥研發(fā)方面已經(jīng)取得了一些進(jìn)展。2022年6月14日,Exscientia發(fā)布其與Evotec基于AI共同合作研發(fā)的抗腫瘤藥物EXS21546在健康受試者中的Ⅰ期研究數(shù)據(jù)。該藥物是一款腺苷A2A受體拮抗劑,用于治療成人晚期實(shí)體瘤[20]。
Benevolent AI是一家成立于英國(guó)倫敦的獨(dú)角獸公司,其主要利用AI技術(shù),從各種結(jié)構(gòu)化以及非結(jié)構(gòu)化的生物醫(yī)學(xué)數(shù)據(jù)源中提取數(shù)據(jù)并進(jìn)行整理、歸納、標(biāo)準(zhǔn)化,將數(shù)據(jù)輸入到公司的專(zhuān)利知識(shí)圖譜中,從而提取出能夠推進(jìn)藥物研發(fā)的信息,加速藥物研發(fā)的過(guò)程。
阿斯利康與Benevolent AI于2019年達(dá)成戰(zhàn)略合作,結(jié)合阿斯利康自有的基因組學(xué)、化學(xué)與臨床數(shù)據(jù),以及Benevolent AI靶點(diǎn)識(shí)別平臺(tái)與生物醫(yī)學(xué)知識(shí)圖譜,對(duì)慢性腎病和特發(fā)性肺纖維化的相關(guān)治療藥物進(jìn)行研發(fā)[21]。該合作在2021年1月27日取得了階段性的成功,阿斯利康在Benevolent AI的AI技術(shù)幫助下,在導(dǎo)致慢性腎病的潛在機(jī)制中,成功發(fā)現(xiàn)了新的藥物靶點(diǎn),并將該靶點(diǎn)納入了公司的新藥開(kāi)發(fā)計(jì)劃[22]。
目前,Benevolent AI的藥物研發(fā)項(xiàng)目主要涵蓋過(guò)敏性皮炎、肌萎縮性脊髓側(cè)索硬化癥、潰瘍性結(jié)腸炎、炎癥性腸病、中樞神經(jīng)系統(tǒng)疾病、膠質(zhì)母細(xì)胞瘤、非酒精性脂肪肝,與阿斯利康合作的疾病領(lǐng)域有慢性腎病、特發(fā)性肺纖維化。通過(guò)Benevolent AI的AI平臺(tái)研發(fā)的過(guò)敏性皮炎治療藥物BEN-2293已進(jìn)入Ⅰ期臨床試驗(yàn),該藥是一款多靶點(diǎn)小分子pan-Trk拮抗劑,也是一款“best-in-class”創(chuàng)新藥[23]。
盡管AI在藥物發(fā)現(xiàn)方面展示出巨大的前景,但其也面臨著數(shù)據(jù)缺失、缺乏可解釋性等諸多挑戰(zhàn)。
在所有涉及AI的行業(yè)中,缺乏數(shù)據(jù)是一個(gè)反復(fù)出現(xiàn)的問(wèn)題。在傳統(tǒng)的生物學(xué)研究中,有效樣本的數(shù)量有限,而大多數(shù)機(jī)器學(xué)習(xí)算法必須在成百上千的數(shù)據(jù)點(diǎn)或樣本上進(jìn)行訓(xùn)練才能表現(xiàn)良好。另一個(gè)挑戰(zhàn)是缺乏可解釋性——通常很難解釋模型如何進(jìn)行某些預(yù)測(cè)和執(zhí)行。缺乏可解釋性更可能發(fā)生在深度學(xué)習(xí)中,其中每一層都增加了模型的復(fù)雜性。隨著層數(shù)的增加,對(duì)每一層輸出的解釋其復(fù)雜程度可能以指數(shù)級(jí)增長(zhǎng)。
使用AI預(yù)測(cè)藥物靶點(diǎn)的一個(gè)難點(diǎn)是如何將全球?qū)嶒?yàn)室進(jìn)行的傳統(tǒng)基礎(chǔ)研究翻譯成計(jì)算機(jī)可以理解的語(yǔ)言。機(jī)器學(xué)習(xí)程序依賴(lài)于既可以識(shí)別模式又可以訓(xùn)練機(jī)器的數(shù)據(jù),這通常需要復(fù)雜的實(shí)驗(yàn)設(shè)計(jì),將人為錯(cuò)誤保持在最低限度,并且可以在幾乎相同的條件下執(zhí)行多次不同的實(shí)驗(yàn)迭代。
與任何給我們對(duì)現(xiàn)有技術(shù)的理解帶來(lái)轉(zhuǎn)變的進(jìn)步一樣,AI目前仍然無(wú)法在藥物發(fā)現(xiàn)過(guò)程中完全取代人類(lèi)科學(xué)家。計(jì)算機(jī)的預(yù)測(cè)必須經(jīng)過(guò)科學(xué)家的驗(yàn)證,以確保AI在藥物研發(fā)中的有效性和實(shí)用性。
AI在新藥研發(fā)中有著巨大的應(yīng)用前景,其中部分技術(shù)已取得了階段性的進(jìn)展,基于AI研發(fā)的一些新藥已進(jìn)入臨床研究,不少AI醫(yī)藥研發(fā)公司也在不斷取得新的成果。但是,AI技術(shù)在研發(fā)中若要取得井噴性和長(zhǎng)期有效的成果,還有很長(zhǎng)的路要走。
AI+新藥研發(fā)是一項(xiàng)跨學(xué)科、跨行業(yè)的合作,極需精通AI技術(shù)及生物制藥技術(shù)的復(fù)合型人才,也需要IT行業(yè)與醫(yī)藥行業(yè),高校、科研院所與醫(yī)藥公司的通力合作??鐕?guó)藥企可以通過(guò)其雄厚的研發(fā)力量在該領(lǐng)域取得成果。中小型的藥企也可以找準(zhǔn)目標(biāo),確定突破口,同時(shí)積累人才,做好轉(zhuǎn)型工作,從而快速取得成果。
AI+新藥研發(fā)要取得持久的研發(fā)成果和商業(yè)價(jià)值,也需要醫(yī)藥公司與投資行業(yè)的緊密合作。只有大規(guī)模的投資進(jìn)入這一領(lǐng)域,營(yíng)造出良好的行業(yè)狀態(tài)和環(huán)境,才能使藥物從初期探索順利走向臨床、最終進(jìn)入商業(yè)市場(chǎng),造福廣大患者的同時(shí),也為研發(fā)者和投資者帶來(lái)回報(bào)。