李擎宇,張孝昌,王升啟
(軍事科學(xué)院軍事醫(yī)學(xué)研究院輻射醫(yī)學(xué)研究所,北京 100850)
藥物靶標(biāo)(通常是蛋白質(zhì))是指體內(nèi)與特定疾病過(guò)程具有內(nèi)在聯(lián)系、可通過(guò)與藥物作用從而產(chǎn)生預(yù)期治療效果的分子[1]。新藥研發(fā)的首要問(wèn)題就是對(duì)藥物-靶標(biāo)相互作用(drug-target interaction,DTI)的鑒定,即確定藥物分子和靶標(biāo)之間是否會(huì)產(chǎn)生相互作用,并基于此尋找能夠作用于特定靶標(biāo)的藥物分子。同時(shí),DTI鑒定也是多重藥理和藥物重定位等研究的基礎(chǔ)。研究發(fā)現(xiàn),復(fù)雜疾病往往是由多個(gè)基因、多種因素造成的[2],而一種藥物也往往具有多種功能、多個(gè)靶標(biāo)[3]。本研究團(tuán)隊(duì)早在2000年就提出“中藥基因組學(xué)”和“中藥化學(xué)組學(xué)”的研究路線[4],并在隨后的一系列研究中系統(tǒng)揭示了復(fù)方丹參方“多成分-多途徑-多靶點(diǎn)”治療血瘀證的分子機(jī)制[5-12]。在此基礎(chǔ)上,我們提出“藥靶組學(xué)”概念[13](圖1),為研究藥物和疾病之間的關(guān)系提供新策略。
圖1 藥靶組學(xué)概念.藥靶組學(xué)是通過(guò)多組學(xué)融合等手段鑒定人體可用于藥物作用并改善健康的所有效應(yīng)分子集合.
藥物研發(fā)過(guò)程耗時(shí)長(zhǎng)、成本高且伴隨一定的盲目性。通常新藥從研發(fā)到上市需要10~15年[14]。據(jù)估算,現(xiàn)今一個(gè)新藥研發(fā)成本已達(dá)30億美元[15]。盡管投入大量時(shí)間和經(jīng)費(fèi),藥物研發(fā)的成功率卻很低,臨床階段的總成功率僅為10.4%[16]。導(dǎo)致以上結(jié)果的原因之一是藥物靶標(biāo)和化學(xué)分子數(shù)目龐大,而具有相互作用的“藥物-靶標(biāo)對(duì)”卻很少。據(jù)估計(jì),在研發(fā)新藥時(shí)需要考慮的有機(jī)分子數(shù)量超過(guò)1×1060個(gè)[17]。截至2015年,美國(guó)FDA批準(zhǔn)的來(lái)源于人或者病原體的靶標(biāo)共計(jì)893個(gè)[18]。而一項(xiàng)調(diào)查顯示,人體內(nèi)有5000~10 000個(gè)潛在的靶標(biāo)[19]。大量的待研究數(shù)據(jù)使藥物研發(fā)伴隨著一定的盲目性,也使研發(fā)時(shí)間和研發(fā)成本居高不下。高效鑒定DTI是加速藥物研發(fā)的關(guān)鍵。
人工智能(artificial intelligence,AI)是計(jì)算機(jī)學(xué)科的分支,是一門(mén)用計(jì)算機(jī)來(lái)研究和模擬人類(lèi)智能的學(xué)科,擅長(zhǎng)從龐大復(fù)雜的數(shù)據(jù)中挖掘出信息和規(guī)律。與傳統(tǒng)計(jì)算方法相比,AI非常適合篩選大型化學(xué)數(shù)據(jù)庫(kù)[20]。利用AI輔助DTI預(yù)測(cè)的研發(fā)策略具有速度快、效能高的特點(diǎn),能夠加快研發(fā)速度,降低研發(fā)成本。常用的模型有支持向量機(jī)(support vector machine,SVM)[21-23]、決 策 樹(shù)(decision tree)[24]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[25]、長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory)[26]和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks)[27]等。
目前,AI已經(jīng)被一些企業(yè)投入到實(shí)際應(yīng)用中。Atomwise公司長(zhǎng)期致力于用AI輔助藥物研發(fā),可對(duì)大量化合物進(jìn)行篩選,從而識(shí)別和預(yù)測(cè)以高親和力結(jié)合的藥物分子和藥物靶標(biāo),處于世界領(lǐng)先地位。其開(kāi)發(fā)的深度CNN——AtomNet[28]可以對(duì)小分子和靶標(biāo)蛋白的相互作用進(jìn)行預(yù)測(cè)。Atomwise公司通過(guò)與斯坦福大學(xué)、哈佛大學(xué)和制藥公司合作,已為27種疾病的潛在藥物研發(fā)提供了協(xié)助[15,29]。Exscientia 公司開(kāi)發(fā)了 Centaur Chemist平臺(tái),利用大數(shù)據(jù)和AI針對(duì)特定靶標(biāo)蛋白設(shè)計(jì)和篩選小分子化合物,為臨床試驗(yàn)提供候選藥物分子。2019年,Exscientia與GlaxoSmithKline公司合作,依托Centaur Chemist平臺(tái)研發(fā)了治療慢性阻塞性肺病的候選藥物,大幅度提高藥物研發(fā)效率。諸多成功案例表明,相對(duì)于傳統(tǒng)實(shí)驗(yàn)手段,AI主導(dǎo)的DTI預(yù)測(cè)在大體上可靠且有效,具有極大的發(fā)展?jié)摿?。本文?duì)用于DTI預(yù)測(cè)的AI方法進(jìn)行歸類(lèi)和綜述,以期為藥物研發(fā)中的模型開(kāi)發(fā)和實(shí)際應(yīng)用提供參考。
在新藥研發(fā)過(guò)程中,DTI的鑒定是一個(gè)非常復(fù)雜的步驟,它對(duì)于候選藥物的發(fā)現(xiàn)、藥物分子作用機(jī)制的理解、藥物分子的多靶標(biāo)研究和藥物重定位等問(wèn)題具有重要意義。從海量的靶標(biāo)蛋白和數(shù)據(jù)量龐大的化學(xué)分子庫(kù)中挖掘出含有疾病治療價(jià)值的信息是研究者們迫切想要解決的問(wèn)題。如圖2所示,現(xiàn)今國(guó)內(nèi)外DTI預(yù)測(cè)方法可分為基于配體的方法[30]、基于結(jié)構(gòu)的方法[31-33]和基于化學(xué)基因組學(xué)的方法[34]。本文綜述的AI預(yù)測(cè)模型可歸類(lèi)為基于化學(xué)基因組學(xué)的方法,下面首先簡(jiǎn)述該3類(lèi)DTI預(yù)測(cè)方法的基本思想和原理。
圖2 藥物-靶標(biāo)相互作用(DTl)預(yù)測(cè)方法.
基于配體的預(yù)測(cè)方法(圖3)是利用特定靶標(biāo)的已知配體信息,預(yù)測(cè)新配體與靶標(biāo)之間相互作用的方法[35],用于預(yù)測(cè)分子在特定靶標(biāo)上的生物活性。最常用的基于配體的預(yù)測(cè)方法為定量構(gòu)效關(guān)系(quantitative structure-activity relationships,QSAR)方法[36],根據(jù)化合物的結(jié)構(gòu)和活性建立模型,以定量的形式來(lái)研究分子和靶標(biāo)的相互作用。具體而言,該方法基于分子活性與分子結(jié)構(gòu)相關(guān)的假設(shè),即結(jié)構(gòu)相似的分子通常有相似的活性,通過(guò)對(duì)比分子與特定靶標(biāo)的已知配體的相似性來(lái)評(píng)估分子和靶標(biāo)的相互作用[37]。QSAR方法可以在靶標(biāo)結(jié)構(gòu)未知的情況下,對(duì)分子進(jìn)行有效篩選,其缺陷在于回歸方程的物理意義模糊,無(wú)法幫助理解分子和靶標(biāo)的作用機(jī)制。此外,在已知配體信息不足時(shí),模型的性能會(huì)受到限制。
圖3 基于配體的DTl預(yù)測(cè)方法.
基于結(jié)構(gòu)的DTI預(yù)測(cè)方法是根據(jù)藥物分子和靶標(biāo)蛋白的空間結(jié)構(gòu)來(lái)對(duì)二者的相互作用進(jìn)行預(yù)測(cè),其中最著名的方法為分子對(duì)接方法。分子對(duì)接是基于結(jié)構(gòu)匹配和能量匹配原則,研究受體和藥物分子之間的結(jié)合模式和親和力的一種理論模擬方法[38]。分子對(duì)接方法有很多種,例如Rarey等[39]提出的DOCK方法,Gohlke等[40]提出的DrugScore方法和Wang等[41]提出的SCORE方法。常見(jiàn)的分子對(duì)接方法可以分類(lèi)為柔性對(duì)接、半柔性對(duì)接和剛性對(duì)接。分子對(duì)接方法具有運(yùn)算速度快、預(yù)測(cè)準(zhǔn)確的特點(diǎn),但該方法依賴藥物分子和靶標(biāo)蛋白的結(jié)構(gòu),在結(jié)構(gòu)信息未知的情況下無(wú)法使用[42]。例如,對(duì)于目前已知結(jié)構(gòu)很少的G蛋白偶聯(lián)受體,此法則難以應(yīng)用[21]。
基于化學(xué)基因組學(xué)的DTI預(yù)測(cè)方法將化合物空間和靶標(biāo)蛋白的基因組空間結(jié)合起來(lái),構(gòu)造了藥理學(xué)空間,充分利用豐富的生物化學(xué)多組學(xué)數(shù)據(jù)預(yù)測(cè)DTI[43]。具體而言,該類(lèi)方法通過(guò)提取藥物分子和靶標(biāo)蛋白的生物學(xué)特征或其描述符作為輸入,基于復(fù)雜的預(yù)測(cè)模型來(lái)預(yù)測(cè)二者的相互作用?;诨瘜W(xué)基因組學(xué)的預(yù)測(cè)方法有3種思路:基于靶標(biāo)家族的配體學(xué)習(xí)、基于配體結(jié)合位點(diǎn)的靶標(biāo)共有配體推斷和基于配體-受體相互作用的藥物-靶標(biāo)關(guān)系預(yù)測(cè)[21]。該類(lèi)方法的優(yōu)勢(shì)在于有大量的公開(kāi)生物學(xué)數(shù)據(jù)可供使用,其缺陷在于當(dāng)有大量的“藥物-靶標(biāo)對(duì)”之間的相互作用未被確證時(shí),其預(yù)測(cè)性能將會(huì)受限[43]。基于化學(xué)基因組學(xué)的預(yù)測(cè)方法非常適合與AI模型結(jié)合,因?yàn)樗幚韺W(xué)空間數(shù)據(jù)量龐大,而AI可快速、有效地從海量數(shù)據(jù)中提取信息。
DTI預(yù)測(cè)的核心問(wèn)題是判斷藥物分子和靶標(biāo)蛋白是否會(huì)產(chǎn)生相互作用。AI可以基于已有的藥物分子與靶標(biāo)蛋白相互作用的信息,對(duì)未知的藥物分子和靶標(biāo)蛋白進(jìn)行預(yù)測(cè),從而篩選藥物分子,繼而能夠快速、有效地為后續(xù)臨床試驗(yàn)確定候選藥物??傮w而言,應(yīng)用在DTI預(yù)測(cè)的AI方法可以分為4類(lèi):基于相似性的方法、基于特征的方法、基于網(wǎng)絡(luò)的方法和基于深度學(xué)習(xí)的方法。
基于相似性的方法認(rèn)為,如果藥物d與靶標(biāo)t可以相互作用,那么與藥物d相似的分子可能會(huì)與靶標(biāo)t產(chǎn)生相互作用;與t相似的靶標(biāo)可能會(huì)與藥物d相互作用?;谶@種假設(shè),該方法對(duì)靶標(biāo)對(duì)或者藥物分子對(duì)進(jìn)行相似性評(píng)分,再根據(jù)評(píng)分結(jié)果來(lái)預(yù)測(cè)DTI。這類(lèi)方法往往會(huì)根據(jù)模型需要來(lái)定義一種度量,用于描述相似性。藥物分子對(duì)的相似性度量可以分為5種類(lèi)型:基于化學(xué)信息、基于配體信息、基于表達(dá)信息、基于副作用和基于注釋,不同類(lèi)型的度量有不同的側(cè)重點(diǎn)[44]。Shi等[45]基于相似性排序開(kāi)發(fā)了一個(gè)非參數(shù)、惰性的預(yù)測(cè)方法SRP(similarityrank-based predictor),利用相似性和相似性的排序來(lái)計(jì)算2個(gè)指數(shù)——趨勢(shì)指數(shù)和反向趨勢(shì)指數(shù),分別表示藥物和靶標(biāo)產(chǎn)生相互作用的概率和不產(chǎn)生相互作用的概率,在基準(zhǔn)數(shù)據(jù)集上取得了較高的準(zhǔn)確率。使用單一的相似性會(huì)使模型具有局限性,集成多種相似性度量則會(huì)緩解局限性。Perlman等[44]提出了一個(gè)結(jié)合多種相似性度量來(lái)預(yù)測(cè)藥物靶標(biāo)的框架SITAR(similarity-based inference of drug-targets),此框架中包含了一個(gè)新的藥物-基因關(guān)聯(lián)程度評(píng)價(jià)方案。作者對(duì)現(xiàn)有的幾百種藥物應(yīng)用SITAR進(jìn)行測(cè)試,結(jié)果表明該模型明顯優(yōu)于其他模型。在龐大的藥理學(xué)空間中,只有少部分分子和靶標(biāo)的相互作用被鑒定出來(lái),如果只用這些數(shù)據(jù)來(lái)訓(xùn)練模型,會(huì)讓模型的泛化能力降低。為了緩解這個(gè)問(wèn)題,Xia等[46]使用一種半監(jiān)督學(xué)習(xí)方法——Laplacian正則化最小二乘法,基于化學(xué)結(jié)構(gòu)和基因組序列的相似性來(lái)預(yù)測(cè)DTI。
基于相似性的方法是應(yīng)用最多的一類(lèi)預(yù)測(cè)方法,其優(yōu)勢(shì)在于:①不必進(jìn)行復(fù)雜的特征提取和特征選擇;②計(jì)算化學(xué)結(jié)構(gòu)相似性以及基因組序列相似性的度量的發(fā)展較為完善;③相似性方法可以直接與核方法相結(jié)合;④相似性度量揭示了藥物和基因的聯(lián)系[47]。該類(lèi)方法的缺陷在于模型的結(jié)果和表現(xiàn)會(huì)依賴于相似性度量的選取,這是因?yàn)橄嗨菩远x了藥物在高維空間中的相對(duì)距離,使用集成學(xué)習(xí)方法,融合多種度量是解決此缺陷的主要思路。
基于特征的方法是將藥物分子和靶標(biāo)蛋白的生物學(xué)信息進(jìn)行編碼,生成特征描述符(descriptors)用以描述分子和靶標(biāo),并將這種描述符整合成特征向量,然后應(yīng)用AI算法進(jìn)行預(yù)測(cè)。如圖4所示,常用的有SVM、決策樹(shù)和隨機(jī)森林等機(jī)器學(xué)習(xí)算法。例如,Cao等[48]應(yīng)用隨機(jī)森林方法,結(jié)合化學(xué)、生物和網(wǎng)絡(luò)特征的計(jì)算方法預(yù)測(cè)DTI,并且應(yīng)用在人體內(nèi)含有的4類(lèi)DTI網(wǎng)絡(luò)(酶、離子通道、G蛋白偶聯(lián)受體和核受體)上,用以驗(yàn)證模型性能。在基于特征的預(yù)測(cè)方法中最常用的是SVM模型,研究者們一般會(huì)通過(guò)改進(jìn)核函數(shù)來(lái)提高SVM的性能。Jacob等[21]針對(duì)受體來(lái)構(gòu)造核函數(shù),應(yīng)用SVM模型來(lái)預(yù)測(cè)配體-蛋白質(zhì)相互作用,結(jié)果顯示模型具有較好的效果,即便是對(duì)未知3D結(jié)構(gòu)或者已知配體較少的靶標(biāo)也有很好的表現(xiàn)。Faulon等[49]結(jié)合了多種核函數(shù)的思想,構(gòu)建了一種新的核函數(shù),并以此建立了SVM模型,結(jié)合蛋白質(zhì)序列信息和化學(xué)信息來(lái)預(yù)測(cè)DTI。除SVM模型外,一些核方法也被研究者們用來(lái)預(yù)測(cè)DTI。Van Laarhoven等[50]根據(jù)已知的藥物和靶標(biāo)相互作用的信息,構(gòu)建了藥物靶標(biāo)相互作用網(wǎng)絡(luò),定義了GIP核(gaussian interaction profile kernel),并采用正則化最小二乘法來(lái)預(yù)測(cè)DTI。
圖4 基于特征的DTl預(yù)測(cè)方法.
基于特征的模型是在機(jī)器學(xué)習(xí)領(lǐng)域中被廣泛應(yīng)用的預(yù)測(cè)模型,它可以根據(jù)藥物和靶標(biāo)特征直接預(yù)測(cè)DTI,具有很好的預(yù)測(cè)效果和較好的可解釋性。該類(lèi)方法的缺陷在于為了提高模型性能,在訓(xùn)練之前需要進(jìn)行特征提取和特征選擇,過(guò)程往往非常復(fù)雜,需要消耗大量的時(shí)間。
在生物學(xué)研究中,經(jīng)常使用網(wǎng)絡(luò)圖來(lái)表示復(fù)雜的生物學(xué)過(guò)程,如KEGG數(shù)據(jù)庫(kù)通過(guò)網(wǎng)絡(luò)圖來(lái)表示和研究人體內(nèi)的代謝通路[51]。STRING數(shù)據(jù)庫(kù)依據(jù)直接相互作用和共表達(dá)相關(guān)性等構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)[52]?;诰W(wǎng)絡(luò)預(yù)測(cè)DTI的方法(圖5)也是應(yīng)用了類(lèi)似的研究思路,利用相互作用網(wǎng)絡(luò)挖掘藥物分子和靶標(biāo)蛋白之間的聯(lián)系,并以此預(yù)測(cè)DTI。例如,Olayan等[53]開(kāi)發(fā)了一種名為DDR的模型,使用非線性融合方法整合了多種相似性指標(biāo),構(gòu)建了藥物靶標(biāo)的異質(zhì)網(wǎng)絡(luò),并使用隨機(jī)森林方法從異質(zhì)網(wǎng)絡(luò)中尋找藥物靶標(biāo)相互作用對(duì)。Thafar等[54]在DDR模型的基礎(chǔ)上采用新的特征選擇和融合方式,使用圖嵌入、圖挖掘和機(jī)器學(xué)習(xí)方法預(yù)測(cè)藥物靶標(biāo)相互作用,構(gòu)建了DTiGEMS模型。拓?fù)浣Y(jié)構(gòu)是網(wǎng)絡(luò)的重要特征,彭利紅等[55]綜合考慮靶標(biāo)和藥物數(shù)據(jù)的局部和全局特征,結(jié)合靶標(biāo)蛋白的序列相似性以及藥物-靶標(biāo)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)性,提出了一種基于局部全局一致性學(xué)習(xí)的了預(yù)測(cè)模型。Cheng等[56]提出一種僅使用藥物-靶標(biāo)二分網(wǎng)絡(luò)拓?fù)湎嗨菩詠?lái)推斷藥物分子作用的靶標(biāo)的方法。但當(dāng)分子無(wú)任何已知的可與其產(chǎn)生相互作用的靶標(biāo)蛋白時(shí),基于網(wǎng)絡(luò)的預(yù)測(cè)方法將會(huì)受限。Chen等[57]基于網(wǎng)絡(luò)的相關(guān)性,提出了一種名為NetCBP的半監(jiān)督學(xué)習(xí)方法,利用有標(biāo)簽和無(wú)標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,可以緩解數(shù)據(jù)不足造成的模型性能下降問(wèn)題。基于網(wǎng)絡(luò)的方法依賴于訓(xùn)練集數(shù)據(jù)的質(zhì)量,數(shù)據(jù)的噪聲和不完整性會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響。因此,Luo等[58]開(kāi)發(fā)了DTINet方法,不僅整合了一個(gè)集成了多種藥物相關(guān)信息(藥物、蛋白質(zhì)、疾病和不良反應(yīng))的異構(gòu)網(wǎng)絡(luò),還通過(guò)學(xué)習(xí)藥物和蛋白質(zhì)特征的低維向量表示來(lái)更好地應(yīng)對(duì)有噪聲的、不完整的和高維的生物數(shù)據(jù)。隨機(jī)游走的方法也可應(yīng)用于DTI預(yù)測(cè),Chen等[59]通過(guò)已知的DTI信息,將蛋白質(zhì)-蛋白質(zhì)相似性網(wǎng)絡(luò)、藥物-藥物相似性網(wǎng)絡(luò)和藥物-靶標(biāo)相似性網(wǎng)絡(luò)整合,構(gòu)建了一個(gè)異質(zhì)性網(wǎng)絡(luò),使用隨機(jī)游走算法提取特征,實(shí)現(xiàn)DTI預(yù)測(cè)?;诰W(wǎng)絡(luò)的預(yù)測(cè)方法不依賴于分子結(jié)構(gòu),但是如果在網(wǎng)絡(luò)中無(wú)已知的可達(dá)的路徑,則無(wú)法對(duì)“藥物-靶標(biāo)對(duì)”進(jìn)行預(yù)測(cè);同時(shí),使用網(wǎng)絡(luò)方法預(yù)測(cè)的結(jié)果會(huì)具有偏差,模型預(yù)測(cè)結(jié)果偏向于已知配體較多的靶標(biāo),或已知靶標(biāo)較多的配體[60]。
圖5 基于網(wǎng)絡(luò)的DTl預(yù)測(cè)方法.
深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法,在語(yǔ)音識(shí)別、圖像識(shí)別和自然語(yǔ)言處理等領(lǐng)域有著廣泛的應(yīng)用。近年來(lái),應(yīng)用深度學(xué)習(xí)方法進(jìn)行藥物研發(fā)呈上升態(tài)勢(shì)[61]?;谏疃葘W(xué)習(xí)的預(yù)測(cè)方法首先根據(jù)藥物分子或靶標(biāo)蛋白的生物學(xué)信息來(lái)構(gòu)建特征向量,再將特征向量輸入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。Wang等[26]基于位置特異性評(píng)分矩陣和勒讓德矩提取蛋白質(zhì)特征,并且與藥物分子的結(jié)構(gòu)信息相結(jié)合,構(gòu)建“藥物-靶標(biāo)對(duì)”的特征向量,通過(guò)構(gòu)建深度長(zhǎng)短時(shí)記憶模型對(duì)DTI進(jìn)行預(yù)測(cè)。Wen等[62]開(kāi)發(fā)了一個(gè)深度學(xué)習(xí)框架DeepDTI,該框架首先利用無(wú)監(jiān)督預(yù)訓(xùn)練方法從原始數(shù)據(jù)中抽取特征表示,然后依照已知的DTI信息來(lái)建立分類(lèi)模型。深度學(xué)習(xí)方法也可以結(jié)合特征提取等方法來(lái)對(duì)數(shù)據(jù)降維,加快模型訓(xùn)練。Peng等[63]提出了一種基于表示學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的方法,該方法首先利用Jaccard相似系數(shù)和重啟隨機(jī)游走模型從異構(gòu)網(wǎng)絡(luò)中提取藥物和蛋白質(zhì)的相關(guān)特征,然后利用去噪自編碼器來(lái)降維,并構(gòu)造CNN來(lái)預(yù)測(cè)DTI。Rayhan等[64]使用自編碼器和CNN構(gòu)建FRnet-DTI的編碼模塊和分類(lèi)器模塊,用于完成預(yù)測(cè)任務(wù)。圖神經(jīng)網(wǎng)絡(luò)也被廣泛應(yīng)用于藥物靶標(biāo)相互作用預(yù)測(cè)中。Zhao等[65]使用圖卷積網(wǎng)絡(luò)對(duì)相互作用對(duì)進(jìn)行特征提取,隨后使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。深度學(xué)習(xí)的優(yōu)勢(shì)在于不用直接對(duì)特征進(jìn)行篩選或降維,而可以把所有已知的信息作為輸入,避免特征信息的損失[66]。
與其他二分類(lèi)任務(wù)相同,DTI預(yù)測(cè)使用P-R曲線下面積(area under the precision-recall curve,AUPR)和ROC曲線下面積(area under the receiver operating characteristic curve,AUROC)指標(biāo)來(lái)衡量模型性能。為了繪制該2種曲線,需要基于真陽(yáng)性(true positive,TP)、假陽(yáng)性(false positive,F(xiàn)P)、真陰性(true negative,TN)和假陰性(false negative,F(xiàn)N)計(jì)算假陽(yáng)性率(FPR)、召回率(TPR)和準(zhǔn)確度(precision):
在繪制P-R和ROC曲線之后,計(jì)算其下方面積即可分別得到AUPR和AUROC 2個(gè)指標(biāo),兩者數(shù)值越大說(shuō)明模型效果越好。除了AUPR和AUROC 之外,誤差率(error rate,ER)也常被用于對(duì)比模型性能,其定義為:ER=1-AUPR。
Yamanishi數(shù)據(jù)集[42]是 DTI預(yù)測(cè)任務(wù)的金標(biāo)集,按照靶標(biāo)類(lèi)型分為4個(gè)小數(shù)據(jù)集,分別是酶、離子通道、G蛋白偶聯(lián)受體和核受體。本文選取了FRnet-DTI[64],GCN-DTI[65],DDR[53]和 DTiGEMS+[54]4個(gè)高性能模型在Yamanishi數(shù)據(jù)集上的表現(xiàn)進(jìn)行了對(duì)比,對(duì)比結(jié)果如表1所示。2類(lèi)方法在不同數(shù)據(jù)集上均有著優(yōu)異的表現(xiàn)。基于深度學(xué)習(xí)的模型在酶數(shù)據(jù)集上的表現(xiàn)更為優(yōu)秀,而在其他3個(gè)數(shù)據(jù)集上,基于網(wǎng)絡(luò)的模型表現(xiàn)更好。在考慮實(shí)際應(yīng)用時(shí),可以根據(jù)具體情境的不同,使用多種方法進(jìn)行預(yù)測(cè),以期得到更為可靠的結(jié)果。
表1 基于網(wǎng)絡(luò)和深度學(xué)習(xí)模型的比較
負(fù)樣本問(wèn)題旨在研究如何界定和構(gòu)建負(fù)樣本集用于訓(xùn)練和預(yù)測(cè),是DTI預(yù)測(cè)任務(wù)中的重要問(wèn)題。對(duì)于任意一對(duì)藥物和蛋白質(zhì),如果經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,證實(shí)二者存在相互作用,那么二者構(gòu)成正樣本。但是對(duì)于未經(jīng)實(shí)驗(yàn)驗(yàn)證的“藥物-蛋白質(zhì)對(duì)”來(lái)說(shuō),難以界定它是正樣本還是負(fù)樣本。負(fù)樣本集的選擇會(huì)影響到數(shù)據(jù)的標(biāo)簽,同時(shí)也會(huì)決定模型的決策邊界,對(duì)預(yù)測(cè)的準(zhǔn)確性有很大的影響。
為處理負(fù)樣本問(wèn)題,大多數(shù)模型采取的策略為:將未經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的“藥物-靶標(biāo)對(duì)”均視為負(fù)樣本,即將正樣本以外的數(shù)據(jù)均視為負(fù)樣本,這種做法會(huì)導(dǎo)致負(fù)樣本集中存在假陰性,即混雜了一些正樣本,這會(huì)導(dǎo)致模型對(duì)正樣本的鑒定能力降低。Zheng等[67]基于“藥物-靶標(biāo)對(duì)”的相似性原則,通過(guò)已知的負(fù)樣本來(lái)推測(cè)潛在的負(fù)樣本,構(gòu)建可靠的負(fù)樣本集。Wang等[68]使用不同指標(biāo)衡量蛋白質(zhì)之間的差異,設(shè)計(jì)概率模型來(lái)構(gòu)建負(fù)樣本集。具體方法為:對(duì)給定藥物和蛋白質(zhì),計(jì)算其與正樣本的差異,由此計(jì)算其作為負(fù)樣本的概率。
負(fù)樣本問(wèn)題來(lái)源于數(shù)據(jù)本身,隨著時(shí)間的推移,越來(lái)越多的DTI對(duì)被鑒定,該問(wèn)題即會(huì)得到逐步緩解,然而目前只能從數(shù)據(jù)集構(gòu)建上尋找策略,這在一定程度上可實(shí)現(xiàn)對(duì)決策邊界的優(yōu)化,提高預(yù)測(cè)的準(zhǔn)確性。
DTI鑒定是藥物研發(fā)的關(guān)鍵步驟,數(shù)量龐大的藥物分子和靶標(biāo)蛋白中蘊(yùn)藏著豐富的生物學(xué)信息,而AI擅長(zhǎng)從數(shù)據(jù)中挖掘知識(shí),因此將二者有機(jī)結(jié)合,以AI預(yù)測(cè)DTI,將會(huì)提高藥物研發(fā)效率。目前,諸多的成功案例已經(jīng)表明,AI方法可以有效的輔助藥物研發(fā)。用于DTI預(yù)測(cè)的AI模型可以分為基于相似性、基于特征、基于網(wǎng)絡(luò)和基于深度學(xué)習(xí)的方法,這些方法從不同角度尋求替代傳統(tǒng)實(shí)驗(yàn)的途徑,加速藥物研發(fā)。
總體而言,AI方法在DTI預(yù)測(cè)中有極大的潛力,但也面臨著一些問(wèn)題和挑戰(zhàn)。AI模型通常是在過(guò)于簡(jiǎn)化和理想的條件下構(gòu)建的,往往不能準(zhǔn)確反映實(shí)際應(yīng)用中的問(wèn)題[69]。在龐大的藥理學(xué)空間中,只有極少一部分DTI被確證,如何有效的利用已確證和未確證的“藥物-靶標(biāo)對(duì)”來(lái)訓(xùn)練模型是一個(gè)難題。AI不具備良好的可解釋性,無(wú)法幫助理解藥物分子作用機(jī)制,導(dǎo)致其可靠性受到質(zhì)疑。為應(yīng)對(duì)這些挑戰(zhàn),未來(lái)AI模型可能更傾向于用半監(jiān)督學(xué)習(xí)方式,充分利用各個(gè)組學(xué)的數(shù)據(jù),并結(jié)合注意力機(jī)制等可解釋模塊來(lái)預(yù)測(cè)DTI,在保證預(yù)測(cè)精度的同時(shí)輔助相互作用機(jī)制的研究。雖然目前的方法還存在一些缺陷,但隨著數(shù)據(jù)的進(jìn)一步積累和計(jì)算能力的進(jìn)一步增強(qiáng),在多組學(xué)數(shù)據(jù)融合的藥靶研究策略下,AI有望在藥物研發(fā)領(lǐng)域發(fā)揮更大的作用,成為藥物研發(fā)的“新動(dòng)力”。