• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度學(xué)習(xí)在化學(xué)信息學(xué)中的應(yīng)用

    2017-04-21 08:06:35徐優(yōu)俊裴劍鋒
    大數(shù)據(jù) 2017年2期
    關(guān)鍵詞:多任務(wù)隱層分子

    徐優(yōu)俊,裴劍鋒

    北京大學(xué)前沿交叉學(xué)科研究院定量生物學(xué)中心,北京 100871

    深度學(xué)習(xí)在化學(xué)信息學(xué)中的應(yīng)用

    徐優(yōu)俊,裴劍鋒

    北京大學(xué)前沿交叉學(xué)科研究院定量生物學(xué)中心,北京 100871

    深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理三大領(lǐng)域中取得了巨大的成功,帶動(dòng)了人工智能的快速發(fā)展。將深度學(xué)習(xí)的關(guān)鍵技術(shù)應(yīng)用于化學(xué)信息學(xué),能夠加快實(shí)現(xiàn)化學(xué)信息處理的人工智能化?;衔锝Y(jié)構(gòu)與性質(zhì)的定量關(guān)系研究是化學(xué)信息學(xué)的主要任務(wù)之一,著重介紹各類深度學(xué)習(xí)框架(深層神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)或遞歸神經(jīng)網(wǎng)絡(luò))應(yīng)用于化合物定量構(gòu)效關(guān)系模型的研究進(jìn)展,并針對(duì)深度學(xué)習(xí)在化學(xué)信息學(xué)中的應(yīng)用進(jìn)行了展望。

    深度學(xué)習(xí);人工智能;定量構(gòu)效關(guān)系;化學(xué)信息學(xué)

    1 引言

    人工智能(artificial intelligence,AI)主要用人工的方法在機(jī)器(計(jì)算機(jī))上實(shí)現(xiàn)智能化,或稱機(jī)器智能。自2006年以來(lái),機(jī)器學(xué)習(xí)領(lǐng)域取得了突破性的進(jìn)展。深度學(xué)習(xí)(deep learning)算法的提出讓人們相信AI離人們并沒(méi)有那么遙遠(yuǎn)。自AlphaGo戰(zhàn)勝李世石的那一刻起,深度學(xué)習(xí)技術(shù)被認(rèn)為是目前最有可能實(shí)現(xiàn)AI的技術(shù)之一。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)算法的一種。在最近的10年中,深度學(xué)習(xí)技術(shù)在語(yǔ)音識(shí)別[1]、計(jì)算機(jī)視覺(jué)[2]和自然語(yǔ)言處理[3]中取得了巨大的成功。同時(shí),該技術(shù)憑借其強(qiáng)大的能力也逐漸地被應(yīng)用到化學(xué)信息學(xué)的很多領(lǐng)域[4],如計(jì)算機(jī)輔助藥物設(shè)計(jì)、材料性質(zhì)的預(yù)測(cè)等。在2012年的Merck公司組織的藥靶化合物活性預(yù)測(cè)比賽中,利用深度學(xué)習(xí)技術(shù)構(gòu)建的預(yù)測(cè)模型不僅戰(zhàn)勝了所有的競(jìng)爭(zhēng)者,而且在準(zhǔn)確率方面大約超出Merck公司內(nèi)部評(píng)價(jià)系統(tǒng)15%。隨后,利用深度學(xué)習(xí)開發(fā)的多任務(wù)模型在2014年美國(guó)國(guó)立衛(wèi)生研究院(National Institutes of Health,NIH)組織的Tox21毒性預(yù)測(cè)挑戰(zhàn)賽中也獲得了令人欣喜的成績(jī)。在活性和毒性的預(yù)測(cè)方面的成功,讓研究人員產(chǎn)生了疑問(wèn),深度學(xué)習(xí)算法比起傳統(tǒng)機(jī)器學(xué)習(xí)算法,優(yōu)勢(shì)在哪?首先對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法來(lái)說(shuō),有3個(gè)特點(diǎn):特征是人為設(shè)定的,在特征提取或者構(gòu)建過(guò)程中,不同的轉(zhuǎn)換和近似被應(yīng)用到輸入特征上;簡(jiǎn)單的模板匹配,只考慮如何利用輸入特征集合產(chǎn)生較為滿意的結(jié)果,并不注重對(duì)問(wèn)題的表征;模型的表現(xiàn)力隨著參數(shù)的增多而逐漸變強(qiáng)。而深度學(xué)習(xí)通過(guò)多層人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)將輸入特征進(jìn)行不同層次水平的表征,實(shí)現(xiàn)“分層表征”的概念,進(jìn)而通過(guò)多種訓(xùn)練技巧優(yōu)化模型的表現(xiàn)。其中每一層的表層也有可能被應(yīng)用到其他新的問(wèn)題中。模型的表現(xiàn)力隨著層數(shù)的增多而呈指數(shù)增長(zhǎng)[5]。深度學(xué)習(xí)憑借這樣的特性能夠直接在輸入原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行特征訓(xùn)練,最后得出具有競(jìng)爭(zhēng)力的預(yù)測(cè)模型。簡(jiǎn)而言之,深度學(xué)習(xí)算法不僅能夠構(gòu)建預(yù)測(cè)模型,而且具有潛在的自動(dòng)學(xué)習(xí)特征的能力。

    化學(xué)信息學(xué)(chemoinformatics)是一門應(yīng)用信息學(xué)方法解決化學(xué)問(wèn)題的學(xué)科。其主要任務(wù)之一是基于化合物二維(2D)或者三維(3D)結(jié)構(gòu)發(fā)展能夠預(yù)測(cè)化合物潛在性質(zhì)的模型,該模型基于的基本假設(shè)是“相似的分子具有相似的性質(zhì)”。這一假設(shè)也被稱為構(gòu)效關(guān)系(structureacitivity relationship,SAR),用來(lái)建立化合物結(jié)構(gòu)與性質(zhì)之間的相關(guān)性。定量構(gòu)效關(guān)系(quantitative structure-acitivity relationship,QSAR)是在構(gòu)效關(guān)系的基礎(chǔ)上,結(jié)合物理化學(xué)中常用的經(jīng)驗(yàn)方程的數(shù)學(xué)方法出現(xiàn)的,其理論歷史可以追溯到1868年提出的Crum-Brown方程,該方程認(rèn)為化合物的生理Φ可以用化學(xué)結(jié)構(gòu)C的函數(shù)表示,但是并未建立明確的函數(shù)模型。最早可以實(shí)現(xiàn)的定量構(gòu)效關(guān)系方法是由美國(guó)波蒙拿學(xué)院的Hansch在1964年提出的Hansch方程:。其中,lgP是疏水參數(shù),ES是立體參數(shù),σ是電性參數(shù),a、b、ρ、d是方程系數(shù)。Hansch模型揭開了經(jīng)典QSAR研究的篇章,成為QSAR發(fā)展歷史中的里程碑。其后QSAR的研究被廣泛用于預(yù)測(cè)化合物的藥代動(dòng)力學(xué)性質(zhì),如吸收、分布、代謝、排泄和毒性。構(gòu)建QSAR模型一般需要3個(gè)主要步驟:生成已知化合物測(cè)量性質(zhì)的訓(xùn)練集;編碼關(guān)于化合物的化學(xué)結(jié)構(gòu)的信息;建立數(shù)學(xué)模型,從編碼的化學(xué)結(jié)構(gòu)信息預(yù)測(cè)測(cè)量的性質(zhì)。高通量篩選(high throughput screening,HTS)是收集訓(xùn)練數(shù)據(jù)的理想方法。針對(duì)感興趣的分子性質(zhì),可以設(shè)計(jì)高通量的芯片來(lái)完成幾百到數(shù)千種化合物測(cè)試,這些被測(cè)量的性質(zhì)可以是細(xì)胞或生物化學(xué)的表型。目前已經(jīng)有很多將化合物編碼成數(shù)字向量的方法,這些方法主要針對(duì)分子的各種物化性質(zhì)和拓?fù)湫再|(zhì)進(jìn)行描述。各種機(jī)器學(xué)習(xí)方法被用來(lái)構(gòu)建數(shù)學(xué)模型,從而進(jìn)行化合物預(yù)測(cè)。這些方法包括線性回歸模型、貝葉斯神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林(random forest,RF)、偏最小二乘和支持向量機(jī)(support vector machine,SVM)等。在面對(duì)一些復(fù)雜的分子性質(zhì)預(yù)測(cè)時(shí),傳統(tǒng)的機(jī)器學(xué)習(xí)算法仍有所不足,而深度學(xué)習(xí)技術(shù)憑借其突出的能力為化學(xué)信息學(xué)研究增添了一道新的曙光。

    當(dāng)前大多數(shù)的深度學(xué)習(xí)算法是基于人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái)的,在這里著重介紹具有深層網(wǎng)絡(luò)架構(gòu)的深度學(xué)習(xí)算法在QSAR研究中的應(yīng)用進(jìn)展情況。首先介紹深度學(xué)習(xí)的基礎(chǔ)背景以及近些年的發(fā)展?fàn)顩r;然后介紹各類深度學(xué)習(xí)框架在QSAR中的應(yīng)用實(shí)例,對(duì)目前存在的傳統(tǒng)機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型的預(yù)測(cè)表現(xiàn)進(jìn)行比較與分析;再將所有提到的方法進(jìn)行匯總和比較分析;最后對(duì)深度學(xué)習(xí)在QSAR中的應(yīng)用進(jìn)行總結(jié)與展望,對(duì)化學(xué)信息的人工智能化進(jìn)行展望。

    2 深度學(xué)習(xí)

    2.1 深度學(xué)習(xí)的背景和面臨的障礙

    深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理,在理解和抽象了人腦結(jié)構(gòu)和外界刺激響應(yīng)機(jī)制后,以網(wǎng)絡(luò)拓?fù)渲R(shí)為理論基礎(chǔ),模擬人腦的神經(jīng)系統(tǒng)對(duì)復(fù)雜信息的處理機(jī)制的一種數(shù)學(xué)模型。ANN是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(或稱神經(jīng)元)相互連接構(gòu)成,如圖1(a)所示。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激活函數(shù)(activation function),每?jī)蓚€(gè)節(jié)點(diǎn)之間的連線代表權(quán)重(weight)。為了最小化預(yù)測(cè)誤差的目標(biāo),ANN模型中的權(quán)值都將隨著不斷的訓(xùn)練而被調(diào)整。該網(wǎng)絡(luò)由3部分構(gòu)成:輸入層(L1)、隱層(L2)和輸出層(L3)。3維的輸入信息通過(guò)各層神經(jīng)元的非線性組合映射到1維的輸出值。其中偏置項(xiàng)是指輸入值為1的神經(jīng)元。深層神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)架構(gòu)示意如圖1(b)所示,該網(wǎng)絡(luò)架構(gòu)包含多個(gè)隱層(如L2、L3)。

    圖1 人工神經(jīng)網(wǎng)絡(luò)架構(gòu)示意

    在前文提到,ANN模型的表現(xiàn)能力依賴于隱層的多層非線性轉(zhuǎn)換能力[5]。隨著層數(shù)的增多、層寬(每層神經(jīng)元數(shù)目)的增大,更加復(fù)雜和抽象的特征將被組建,相應(yīng)地,模型也能夠?qū)W到更加復(fù)雜和抽象的表征。在面對(duì)多隱層的ANN如何調(diào)整參數(shù)的問(wèn)題時(shí),反向傳播(backpropagation,BP)算法在ANN中發(fā)揮了極其關(guān)鍵的作用。BP算法根據(jù)輸出的誤差利用梯度下降算法對(duì)權(quán)值進(jìn)行反向調(diào)整。盡管BP算法的概念在1963年就被提出,但是直到1986年,Hinton等人才將該算法應(yīng)用到ANN模型的訓(xùn)練中,使得該方法成為了一套實(shí)用的工具。但是BP算法在反向傳播時(shí),梯度隨著隱層數(shù)的增加越來(lái)越擴(kuò)散,進(jìn)而導(dǎo)致接近輸入層的權(quán)值比較小,真正起到?jīng)Q策作用的僅僅是接近輸出層的權(quán)值,導(dǎo)致模型的過(guò)擬合。這就是通常所說(shuō)的“梯度彌散問(wèn)題”?;蛟S在2006年以前訓(xùn)練DNN最大的障礙就是梯度彌散問(wèn)題,因?yàn)樗鼛缀醺采w了人工神經(jīng)網(wǎng)絡(luò)的每一層。當(dāng)然在模型比較復(fù)雜時(shí),過(guò)擬合問(wèn)題也是一個(gè)不可忽視的問(wèn)題(如圖2所示),在訓(xùn)練集上表現(xiàn)很好,但在測(cè)試集上就變得很差勁。圖2中虛線表示的模型就一個(gè)過(guò)擬合的模型。

    圖2 過(guò)擬合問(wèn)題示意

    2.2 深度學(xué)習(xí)的訓(xùn)練技術(shù)

    DNN模型面臨的困境迫使研究人員發(fā)展新的訓(xùn)練算法,試圖解決梯度彌散問(wèn)題和降低過(guò)擬合問(wèn)題。目前這些算法主要有:無(wú)監(jiān)督預(yù)訓(xùn)練[6]、修正的線性函數(shù)(ReLU)、Dropout[7]、DropConnect和BatchNormalization[8]。

    2006年由Hinton G E等人[6]開發(fā)的無(wú)監(jiān)督預(yù)訓(xùn)練方法是一套快速貪婪的DNN訓(xùn)練算法。該算法先對(duì)DNN逐層進(jìn)行無(wú)監(jiān)督的預(yù)訓(xùn)練,然后利用隨機(jī)梯度下降,微調(diào)整個(gè)網(wǎng)絡(luò)。由于使用預(yù)訓(xùn)練之后,模型在BP之前已經(jīng)學(xué)到了一些特征,然后再進(jìn)行微調(diào),能夠很好地緩和梯度彌散的問(wèn)題。隨后Bengio Y等人[9]在2011年提出了ReLU激活函數(shù),該函數(shù)被實(shí)驗(yàn)證明能夠很好地規(guī)避梯度彌散問(wèn)題。與Sigmoid函數(shù)(如圖3(a)所示)不同,ReLU函數(shù)的一階導(dǎo)數(shù)不是0就是1,如圖3(b)所示,這樣確保了誤差能夠較好地反向傳遞,梯度不會(huì)消失。在克服梯度彌散的同時(shí),Dropout和DropConnect技術(shù)被發(fā)展用來(lái)降低過(guò)擬合的問(wèn)題。Dropout是在訓(xùn)練過(guò)程中隨機(jī)地屏蔽一定比例的神經(jīng)元,使其不參與模型前饋的計(jì)算。該方法相當(dāng)于在訓(xùn)練過(guò)程中不斷改變模型的架構(gòu),防止神經(jīng)元之間相互依賴關(guān)系,從而降低過(guò)擬合[7]。DropConnect與Dropout類似,是通過(guò)隨機(jī)地屏蔽一定比例的權(quán)值,降低權(quán)值之間相互依賴關(guān)系,從而降低過(guò)擬合[7]。在兼顧梯度彌散和過(guò)擬合問(wèn)題時(shí),將前面提到的ReLU和Dropout技術(shù)同時(shí)應(yīng)用到DNN的訓(xùn)練中,通常能夠較好地矯正模型,從而提高模型的競(jìng)爭(zhēng)力。BatchNormalization技術(shù)是谷歌公司在2015年提出的一套訓(xùn)練方法,在訓(xùn)練過(guò)程中加入了對(duì)小批量的數(shù)據(jù)集進(jìn)行歸一化的處理操作,從而提高模型的性能。其優(yōu)勢(shì)主要有以下幾點(diǎn)。

    ● 允許使用更高的學(xué)習(xí)率提高訓(xùn)練速度。一般來(lái)說(shuō),較高的學(xué)習(xí)率能夠引起梯度的彌散。在模型訓(xùn)練過(guò)程中,如果每層的尺度不一致,每層所需要的學(xué)習(xí)率是不一樣的,同一層不同維度的尺度往往也需要不同大小的學(xué)習(xí)率,為此需要使用最小的學(xué)習(xí)率才能保證損失函數(shù)有效下降,BatchNormalization技術(shù)將每層、每維度的尺度保持一致,可以直接使用較高的學(xué)習(xí)率進(jìn)行優(yōu)化。

    ● 允許移除或使用較低的Dropout。Dropout是上述提到的常用的防止過(guò)擬合的方法。本文在測(cè)試中分別使用10%、5%和0的Dropout來(lái)訓(xùn)練模型,與之前40%~50%的Dropout相比,可以大大提高訓(xùn)練速度,并且維持模型原有的表現(xiàn)[8]。所以BatchNormalization技術(shù)是一套兼顧梯度和過(guò)擬合問(wèn)題的加速訓(xùn)練方法。

    以上是對(duì)當(dāng)前深度學(xué)習(xí)訓(xùn)練技術(shù)的一些簡(jiǎn)介,當(dāng)然還有很多其他的技術(shù),比如Adagrad[10]、Adadelta[11]、RMSprop、Adam[12]等各類隨機(jī)梯度下降技術(shù)。

    圖3 Sigmoid函數(shù)和ReLU函數(shù)及其一階導(dǎo)數(shù)

    2.3 深度學(xué)習(xí)的模型架構(gòu)

    深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)有很多,其中最主要的除了前文提到的深層神經(jīng)網(wǎng)絡(luò)架構(gòu)(如圖1 (b)所示),還有一些應(yīng)用在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中較為成功的深度網(wǎng)絡(luò)架構(gòu),有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)(如圖4 (a)所示)[2]、循環(huán)或遞歸神經(jīng)網(wǎng)絡(luò)(recu siveorrecur rentneural network,RNN)(如圖4 (b)所示)[13,14]、自編碼器(autoencoder,AE)(如圖4 (c)所示)[15]。

    圖4 (a)中卷積操作有助于局部的空間信息的提取,從而學(xué)習(xí)到較好的表征;圖4 (b)主要是將上一次迭代的輸出作為當(dāng)前迭代的輸入,從而實(shí)現(xiàn)循環(huán);圖4 (c)主要通過(guò)逐層的無(wú)監(jiān)督的學(xué)習(xí)將輸入數(shù)據(jù)進(jìn)行壓縮表征,然后通過(guò)全連接的網(wǎng)絡(luò)進(jìn)行有監(jiān)督的學(xué)習(xí);圖4(d)是將一張2 000多維的圖像壓縮成30維的表征過(guò)程。

    CNN的基本結(jié)構(gòu)包括兩層,其一為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部接收域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來(lái)。其二是特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。CNN主要用來(lái)識(shí)別位移、縮放及其他形式扭曲不變性的2D圖形。CNN以其局部權(quán)值共享的特殊結(jié)構(gòu)在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn),避免了特征提取和分類過(guò)程中數(shù)據(jù)重建的復(fù)雜度。

    圖4 其他深度神經(jīng)網(wǎng)絡(luò)架構(gòu)

    RNN適合處理序列數(shù)據(jù)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型是從輸入層到隱層再到輸出層,層與層之間是全連接的,每層之間的節(jié)點(diǎn)是無(wú)連接的。但是這種普通的神經(jīng)網(wǎng)絡(luò)對(duì)于很多問(wèn)題卻無(wú)能無(wú)力。例如,要預(yù)測(cè)句子的下一個(gè)單詞是什么,一般需要用到前面的單詞,因?yàn)橐粋€(gè)句子中前后單詞并不是獨(dú)立的。RNN之所以稱為循環(huán)神經(jīng)網(wǎng)絡(luò),是因?yàn)橐粋€(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)。具體的表現(xiàn)形式為網(wǎng)絡(luò)會(huì)對(duì)前面的信息進(jìn)行記憶,并應(yīng)用于當(dāng)前輸出的計(jì)算中,即隱層之間的節(jié)點(diǎn)不再是無(wú)連接的,而是有連接的,并且隱層的輸入不僅包括輸入層的輸出,還包括上一時(shí)刻隱層的輸出。RNN已經(jīng)在實(shí)踐中被證明其對(duì)自然語(yǔ)言處理是非常成功的,如詞向量表達(dá)、語(yǔ)句合法性檢查、詞性標(biāo)注等[16]。在RNN中,目前使用最廣泛最成功的模型便是長(zhǎng)短時(shí)記憶(long short-term memory,LSTM)[17]模型。

    AE是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),利用神經(jīng)網(wǎng)絡(luò)產(chǎn)生的低維數(shù)據(jù)代表高維輸入(如圖4(d)所示)。傳統(tǒng)上,依靠線性降維方法(如主成分分析(principal component analysis,PCA))找到在高維原始數(shù)據(jù)上最大方差方向,通過(guò)選取部分較大方差的軸來(lái)實(shí)現(xiàn)降維。PCA的目的是捕獲包含大部分信息輸入的方向,用盡可能小的維度表征原始輸入。然而,PCA的線性組合限制了復(fù)雜特征的提取,AE則用固有的非線性神經(jīng)網(wǎng)絡(luò)克服了這些限制。AE由兩個(gè)主要部分組成:編碼層和解碼層。編碼層在訓(xùn)練和部署時(shí)被使用,解碼層只是在訓(xùn)練時(shí)使用。編碼層的目的是找到一個(gè)給定維度的壓縮表征,通過(guò)逐層的無(wú)監(jiān)督預(yù)訓(xùn)練優(yōu)化低維的表征。解碼層是編碼層的一個(gè)反射,用來(lái)重建盡可能密切的原始輸入。利用這樣的方法進(jìn)行訓(xùn)練的目的是迫使AE選擇最豐富的特征壓縮路線,盡可能逼近原始輸入。

    以上是對(duì)深度神經(jīng)網(wǎng)絡(luò)3個(gè)主要框架的簡(jiǎn)介。還有很多變體的架構(gòu)大多是基于這三者發(fā)展而來(lái)的。

    2.4 深度學(xué)習(xí)的自動(dòng)特征提取能力

    從前文的描述中,不難發(fā)現(xiàn),深度學(xué)習(xí)并不是一種新的發(fā)明。它是基于ANN發(fā)展而來(lái)的,而ANN的數(shù)學(xué)模型早在1943年就被McCulloch和Pitts開發(fā)出來(lái)。直到1986年,Hinton和他的合作者將BP算法融入ANN之后,ANN才變成了一個(gè)實(shí)用而且可訓(xùn)練的機(jī)器學(xué)習(xí)方法。隨著計(jì)算資源的不斷發(fā)展,含有多隱層的深度神經(jīng)網(wǎng)絡(luò)在最近十多年開始變得流行,主要是因?yàn)橄惹疤岬降囊恍┯?xùn)練算法的發(fā)展以及計(jì)算能力的提高使得深度網(wǎng)絡(luò)架構(gòu)的潛在能力得以展現(xiàn),從而表現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力。因此深度學(xué)習(xí)的崛起并不僅僅是ANN的重新利用,更多的是計(jì)算能力的快速發(fā)展以及訓(xùn)練技術(shù)的有效開發(fā)。事實(shí)上深度學(xué)習(xí)技術(shù)的應(yīng)用一般來(lái)說(shuō)都需要較大的數(shù)據(jù)量作為前提。由于化學(xué)分子數(shù)量多、結(jié)構(gòu)復(fù)雜, 使用傳統(tǒng)的算法處理信息時(shí),能力常有不足,而使用深度學(xué)習(xí)技術(shù)有望突破這一局面[18]。

    隨著化學(xué)研究的不斷發(fā)展,目前已經(jīng)開發(fā)很多的分子描述符來(lái)描述化合物大量的性質(zhì)。這些描述符通過(guò)化學(xué)知識(shí)和直覺(jué)被設(shè)計(jì)出來(lái),將其作為特征輸入傳統(tǒng)的機(jī)器學(xué)習(xí)模型中。這些模型在化學(xué)信息學(xué)領(lǐng)域已經(jīng)取得了較為矚目的成績(jī)[5,19-22]。在傳統(tǒng)的機(jī)器學(xué)習(xí)算法中,線性回歸(linear regression)、決策樹(decision tree)算法構(gòu)建的模型是比較直觀且容易被理解的簡(jiǎn)單模型。對(duì)于有著非線性關(guān)系的復(fù)雜性質(zhì)的預(yù)測(cè),通常會(huì)采取更加復(fù)雜的機(jī)器學(xué)習(xí)算法構(gòu)建一個(gè)具有較好預(yù)測(cè)能力的模型,如支持向量機(jī)、隨機(jī)森林。

    對(duì)于深度學(xué)習(xí)來(lái)說(shuō),它是一種用來(lái)預(yù)測(cè)非線性的復(fù)雜性質(zhì)的算法,但是它與SVM和RF有較大的區(qū)別。其區(qū)別主要在于深度學(xué)習(xí)是將原始的輸入信息進(jìn)行轉(zhuǎn)換,然后通過(guò)隱層的神經(jīng)元將其重組成分布式的表征,配合一些合理的訓(xùn)練方式,每一層隱層的神經(jīng)元能夠通過(guò)無(wú)監(jiān)督或者有監(jiān)督的學(xué)習(xí),提取抽象、分層以及深度的特征。這個(gè)過(guò)程被稱作“自動(dòng)特征提取”。在不需要領(lǐng)域知識(shí)和人工干預(yù)的情況下,自動(dòng)提取特征是深度學(xué)習(xí)算法最重要的優(yōu)點(diǎn)之一[23],這一點(diǎn)與傳統(tǒng)機(jī)器學(xué)習(xí)算法完全不同。傳統(tǒng)的機(jī)器學(xué)習(xí)算法構(gòu)建的模型的優(yōu)劣完全依賴于輸入特征的好壞,所以對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)模型來(lái)說(shuō),特征設(shè)計(jì)和選擇是一項(xiàng)比較繁瑣并且依賴于化學(xué)知識(shí)和直覺(jué)的工作。深度學(xué)習(xí)憑借自動(dòng)的特征提取能力,使其在面對(duì)大量的標(biāo)簽和無(wú)標(biāo)簽數(shù)據(jù)時(shí),不需要人工干預(yù)就能夠自動(dòng)學(xué)習(xí)到有用的特征信息,基于這些特征信息進(jìn)行較好的決策,減輕了大數(shù)據(jù)時(shí)代特征工程的“煩惱”。如今,深度學(xué)習(xí)憑借特征自動(dòng)學(xué)習(xí)能力已成為語(yǔ)音識(shí)別[1,24-27]、自然語(yǔ)言處理[3,28-30]、計(jì)算機(jī)視覺(jué)[2,8,31,32]的主流算法。在深度學(xué)習(xí)沒(méi)有出現(xiàn)之前,最先進(jìn)的模型在ImageNet的比賽上錯(cuò)誤率為25%~30%,而識(shí)別人類圖像的理想錯(cuò)誤率是5.1%[33],所以當(dāng)時(shí)的模型與人類的識(shí)別水平存在著較大的差距。2012年以后,深度學(xué)習(xí)算法被Hinton等人引入計(jì)算機(jī)視覺(jué)領(lǐng)域,并應(yīng)用到了ImageNet的比賽中,其錯(cuò)誤率被顯著降低到16.4%[2]。隨后在2015年,微軟亞洲研究院(Microsoft Research,MSRA)的團(tuán)隊(duì)利用深層的網(wǎng)絡(luò)框架打破了人類的識(shí)別水平,將錯(cuò)誤率降至4.95%[31]。2016年,來(lái)自MSRA的深度殘差網(wǎng)絡(luò)將圖像識(shí)別的錯(cuò)誤率降低到3.57%[34],這充分說(shuō)明深度學(xué)習(xí)所具備的潛力。不同的深層網(wǎng)絡(luò)架構(gòu)賦予了模型不同的潛能,不同的訓(xùn)練技術(shù)更是讓模型展現(xiàn)出驚人的表現(xiàn)。而這一切都?xì)w因于深度學(xué)習(xí)的崛起,大數(shù)據(jù)的發(fā)展以及計(jì)算能力的進(jìn)步鑄就了深度學(xué)習(xí)的成功。在大量的數(shù)據(jù)面前展現(xiàn)出的自動(dòng)提取特征的能力讓深度學(xué)習(xí)馳騁于大數(shù)據(jù)時(shí)代的戰(zhàn)場(chǎng)。深度學(xué)習(xí)并不僅僅促進(jìn)了計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和語(yǔ)音識(shí)別領(lǐng)域的飛速發(fā)展,也促進(jìn)了其他領(lǐng)域的快速發(fā)展,比如化學(xué)信息學(xué)、生物信息學(xué)等。

    3 深度學(xué)習(xí)在QSAR中的應(yīng)用

    傳統(tǒng)的機(jī)器學(xué)習(xí)算法在化學(xué)信息學(xué)領(lǐng)域的應(yīng)用已經(jīng)有了很長(zhǎng)的歷史,其中最值得關(guān)注的是QSAR的應(yīng)用。在訓(xùn)練集已知的前提下,通常一個(gè)QSAR模型的構(gòu)建會(huì)涉及以下兩個(gè)過(guò)程。

    ● 編碼過(guò)程:將一個(gè)化合物轉(zhuǎn)化成有效的表征。通過(guò)化學(xué)專業(yè)知識(shí)設(shè)計(jì)出描述化合物性質(zhì)的分子描述符,從而計(jì)算出用來(lái)表征化合物性質(zhì)或者拓?fù)浣Y(jié)構(gòu)的x,即模型的輸入特征。

    ● 映射過(guò)程:即模型構(gòu)建過(guò)程,發(fā)現(xiàn)一個(gè)函數(shù)f使得輸入特征x與目標(biāo)性質(zhì)y之間產(chǎn)生經(jīng)驗(yàn)性的聯(lián)系,即y≈f(x)。

    早期的QSAR模型先是基于線性回歸模型和貝葉斯神經(jīng)網(wǎng)絡(luò),隨后是RF和SVM。但是這些模型都依賴于特征的設(shè)計(jì)和選擇。而近年來(lái)發(fā)展的基于深度學(xué)習(xí)的QSAR模型也逐漸進(jìn)入研究人員的視線。下面就基于模型框架的類型分別討論近年來(lái)深度學(xué)習(xí)技術(shù)在QSAR中的進(jìn)展情況。

    3.1 深層神經(jīng)網(wǎng)絡(luò)框架

    DNN框架是最傳統(tǒng)的一套深度學(xué)習(xí)框架,在QSAR中,該模型的能力在一次次應(yīng)用和比賽中被推向了頂峰。

    Dahl和Hinton帶領(lǐng)的團(tuán)隊(duì)在2012年首次將深度學(xué)習(xí)引進(jìn)QSAR中,并贏得了Merck贊助的Kaggle比賽。在15個(gè)藥物靶標(biāo)的預(yù)測(cè)比賽中,DNN模型的平均R2(皮爾森相關(guān)系數(shù)平方)以0.494的成績(jī)打敗了RF模型(0.420)[35],雖然這只是一個(gè)很微弱的優(yōu)勢(shì),但是是近十多年中首次打破RF模型領(lǐng)軍地位的模型。該方法在數(shù)據(jù)的編碼過(guò)程采用了“atom pair”描述符(來(lái)自Carhart等人[36])和“donor-acceptor pair”描述符(來(lái)自Kearsley等人[37])。其描述符的基本范式是:原子i—(鍵距)—原子j。在映射過(guò)程中,該方法建立在一個(gè)簡(jiǎn)單的DNN框架上,加上了避免梯度消失的ReLU激活函數(shù),采取了先前提到的dropout和無(wú)監(jiān)督預(yù)訓(xùn)練的訓(xùn)練策略,然后利用批量隨機(jī)梯度下降法[38]對(duì)模型進(jìn)行訓(xùn)練以及優(yōu)化,從而建立了藥物和靶標(biāo)之間的映射關(guān)系。該方法后來(lái)被Merck團(tuán)隊(duì)在擴(kuò)充的數(shù)據(jù)集上進(jìn)行綜合性的評(píng)估和分析,他們發(fā)現(xiàn)該DNN方法能夠在很多任務(wù)上輕松地超過(guò)RF模型,并強(qiáng)調(diào)了該方法可以作為一種實(shí)用的開發(fā)QSAR模型的技術(shù)[39]。

    圖5 多任務(wù)模型神經(jīng)網(wǎng)絡(luò)框架示意

    受到先前深度學(xué)習(xí)表現(xiàn)的鼓舞之后,Dahl 等人[40]在2014年將單任務(wù)的基于DNN的QSAR模型發(fā)展為多任務(wù)的基于DNN的QSAR模型,主要原因是多任務(wù)學(xué)習(xí)(如圖5所示)所具備的一些優(yōu)勢(shì):能夠產(chǎn)生一套更加普適的特征;權(quán)值被更多的數(shù)據(jù)優(yōu)化以及被共享;一個(gè)模型能夠解決多個(gè)任務(wù);有可能提高模型的表現(xiàn)等[41]。該方法被應(yīng)用于PubChem的19套芯片數(shù)據(jù)中。其編碼方式是利用Dragon計(jì)算的3 764個(gè)Dragon分子描述符[42],每一個(gè)描述符用Z-score進(jìn)行轉(zhuǎn)化。在映射過(guò)程中,該方法采用了先前的ReLU、dropout和無(wú)監(jiān)督預(yù)訓(xùn)練的訓(xùn)練策略,加入了貝葉斯優(yōu)化算法來(lái)優(yōu)化超參數(shù)[43,44],在批量隨機(jī)梯度下降時(shí),為了防止目標(biāo)函數(shù)損失發(fā)生偏差,每個(gè)小批量中的樣本由來(lái)自每套芯片數(shù)據(jù)的訓(xùn)練樣本組成。例如,要建立一個(gè)7任務(wù)的模型,在訓(xùn)練時(shí)每個(gè)小批量有80個(gè)樣本,其中20個(gè)數(shù)據(jù)來(lái)自需要更加關(guān)注的芯片數(shù)據(jù),還有60個(gè)數(shù)據(jù)來(lái)自其他6組芯片的每組10個(gè)隨機(jī)樣本。通過(guò)上述方式開發(fā)基于DNN的多任務(wù)QSAR模型。在二分類問(wèn)題上,該多任務(wù)的深度學(xué)習(xí)模型比傳統(tǒng)的機(jī)器學(xué)習(xí)算法(RF、梯度提升樹[45])在12組芯片上有了顯著的提高,而在其他7組芯片上也達(dá)到了較為相近的水平。該方法的提出同時(shí)也掀起了多任務(wù)QSAR模型的新篇章。

    2014年,Hochreiter等人[46]在將多任務(wù)的DNN方法擴(kuò)展到了一個(gè)更大的數(shù)據(jù)集——大規(guī)模的具有生物活性的化合物數(shù)據(jù)集ChEMBL[47]。該數(shù)據(jù)集包含了1 300萬(wàn)個(gè)ECFP12分子描述符[48]、130萬(wàn)個(gè)化合物、5 000個(gè)藥物靶標(biāo),數(shù)據(jù)量顯著高于Kaggle 2012數(shù)據(jù)集(包含11 000個(gè)分子描述符、164 000個(gè)化合物、15個(gè)藥物靶標(biāo))。Hochreiter等人利用ECFP12的編碼方式對(duì)數(shù)據(jù)集中化合物的子結(jié)構(gòu)進(jìn)行編碼,組成了一個(gè)超高維的稀疏矩陣,預(yù)處理之后得到了700 000(compounds)×43 340(輸入特征)的矩陣作為DNN模型框架的輸入。在映射過(guò)程中,采用未公開的訓(xùn)練策略,構(gòu)建了超大規(guī)模的多任務(wù)DNN模型,能夠使得1 230個(gè)靶標(biāo)同時(shí)進(jìn)行預(yù)測(cè),并將之與傳統(tǒng)的機(jī)器學(xué)習(xí)算法(如SVM、Binary Kernel Discrimination[49]、Logistic回歸、k近鄰)以及一些商業(yè)軟件的方法(如基于ParzenRosenblatt KDE的方法[50]、基于Pipeline Pilot的貝葉斯分類方法[51]、Similarity Ensemble Approach[52])進(jìn)行比較。他們用實(shí)驗(yàn)證明了多任務(wù)的DNN模型表現(xiàn)出來(lái)的能力比其他傳統(tǒng)機(jī)器學(xué)習(xí)方法都要略高一籌。多任務(wù)DNN模型在準(zhǔn)確率上達(dá)到了0.830的ROC曲線的線下面積(area under curve,AUC),其他模型的準(zhǔn)確率最高也只有0.816 AUC。與2014年Dahl 等人對(duì)多任務(wù)的評(píng)估結(jié)論保持一致,充分肯定了多任務(wù)DNN模型在QSAR中具備的優(yōu)勢(shì)。在模型的預(yù)測(cè)結(jié)果中,Hochreiter等人還注意到在單任務(wù)中數(shù)據(jù)量小,難以訓(xùn)練的模型,在多任務(wù)中能夠很好地完成訓(xùn)練,同時(shí)也能有不錯(cuò)的表現(xiàn)。這是由于多任務(wù)學(xué)習(xí)涵蓋了遷移學(xué)習(xí)的概念,將其他不同但相關(guān)的任務(wù)學(xué)習(xí)到的有效特征轉(zhuǎn)移到了具有少量數(shù)據(jù)集的表征中,使得模型在面對(duì)少量數(shù)據(jù)集時(shí)仍然保持令人滿意的表現(xiàn)。與此同時(shí),多任務(wù)DNN模型隱層中對(duì)于化合物分層、抽象、復(fù)雜的表征,有潛力被遷移至其他的相關(guān)任務(wù)中。

    Ramsundar等人在2015年整合了PubChem的小分子生物活性的芯片數(shù)據(jù)(PubChem’s bioassay database,PCBA)[53]、基于PCBA發(fā)展的用于虛擬篩選的最大無(wú)偏驗(yàn)證(maximum unbiased validation,MUV)數(shù)據(jù)集[54]、用于分子對(duì)接評(píng)估的假陽(yáng)性化合物庫(kù)(增強(qiáng)版)(directory of useful decoysenhanced,DUD-E)數(shù)據(jù)集[55]以及NIH組織毒性預(yù)測(cè)比賽的Tox21數(shù)據(jù)集。最終收集到了259個(gè)藥物靶標(biāo),包括160萬(wàn)個(gè)化合物,3 780萬(wàn)個(gè)實(shí)驗(yàn)測(cè)量數(shù)據(jù)點(diǎn)[56]。利用擴(kuò)展連通性指紋(extended-connectivity fingerprints,ECFP4)的分子片段編碼方式[48]對(duì)化合物進(jìn)行編碼,隨后將其輸入多任務(wù)DNN框架中。Ramsundar等人也采用了ReLU和Dropout的訓(xùn)練策略構(gòu)建多任務(wù)QSAR模型。并將該模型與傳統(tǒng)的機(jī)器學(xué)習(xí)模型(Logistic回歸模型、RF模型)進(jìn)行比較,發(fā)現(xiàn)多任務(wù)的DNN模型的表現(xiàn)在PCBA(0.873 AUC)、MUV(0.841 AUC)、Tox21(0.818 AUC)3個(gè)數(shù)據(jù)集上要明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。同時(shí)作者還設(shè)計(jì)了多任務(wù)和單任務(wù)的比較實(shí)驗(yàn),從實(shí)驗(yàn)的角度說(shuō)明了數(shù)據(jù)量一定時(shí),隨著任務(wù)數(shù)量的增加,模型的表現(xiàn)也會(huì)變得越好,同時(shí)也發(fā)現(xiàn)當(dāng)任務(wù)數(shù)一定時(shí),數(shù)據(jù)量越大,模型也會(huì)有更好的表現(xiàn)。除了與先前的多任務(wù)DNN模型[46,48]保持一致的結(jié)論外,在實(shí)驗(yàn)中Ramsundar等人還發(fā)現(xiàn)了多任務(wù)DNN模型的遷移能力是受到一定限制的。它既受到模型的初始化限制,也受到是否與訓(xùn)練集相關(guān)的限制。

    Hochreiter等人[57]在2016年再一次利用多任務(wù)的DNN框架開發(fā)化合物毒性評(píng)估模型DeepTox,并且在NIH組織的Tox21的比賽中取得了優(yōu)異的成績(jī)。該數(shù)據(jù)集有12 000個(gè)化合物,對(duì)應(yīng)著12個(gè)芯片的毒性測(cè)量數(shù)據(jù)。DeepTox模型事實(shí)上沿用了2014年他們開發(fā)的多任務(wù)DNN框架[57],并采取了相似的訓(xùn)練手段(ReLU 和Dropout),唯一不同的是編碼的方式采用了靜態(tài)編碼(3D和2D的分子描述符及預(yù)先定義的2 500個(gè)毒性基團(tuán)[58]等)和動(dòng)態(tài)編碼(ECFP、DFS、RAD2D等)。然后將其輸入一個(gè)含有多隱層的DNN中進(jìn)行訓(xùn)練,從而開發(fā)出DeepTox模型。多任務(wù)的DNN模型DeepTox在面對(duì)12組芯片數(shù)據(jù)的測(cè)試集的挑戰(zhàn)時(shí),有9組芯片的測(cè)試結(jié)果優(yōu)于單任務(wù)的模型。該模型相比其他傳統(tǒng)的機(jī)器學(xué)習(xí)模型(SVM、RF、ELNet[59,60]),DNN模型以平均0.837 AUC的優(yōu)異表現(xiàn)略高一籌。除了對(duì)模型的預(yù)測(cè)能力進(jìn)行評(píng)估之外,Hochreiter等人還設(shè)計(jì)了對(duì)隱層的可視化實(shí)驗(yàn),利用ECFP編碼去除2 500個(gè)毒性片段作為模型的輸入,從而開發(fā)模型,發(fā)現(xiàn)隱層的神經(jīng)元的激活度與毒性基團(tuán)有著較為明顯的聯(lián)系(如圖6所示)。這種對(duì)隱層特征的探索,直接印證了深度學(xué)習(xí)的特征組合能力,使得開發(fā)基于深度學(xué)習(xí)的化合物生成模型變成了可能。

    以上是基于DNN框架的QSAR模型的簡(jiǎn)單介紹。該架構(gòu)比較直觀和簡(jiǎn)單,但是該類模型的表現(xiàn)能力伴隨著深度學(xué)習(xí)訓(xùn)練技術(shù)和計(jì)算能力的發(fā)展、數(shù)據(jù)集的擴(kuò)充而不斷開創(chuàng)佳績(jī)。

    圖6 Hochreiter等人設(shè)計(jì)的實(shí)驗(yàn)中隱層中與毒性相關(guān)的片段(框中部分為毒性片段)

    3.2 卷積神經(jīng)網(wǎng)絡(luò)框架

    傳統(tǒng)DNN框架在QSA R模型中的實(shí)現(xiàn)已經(jīng)在第3.1節(jié)中介紹。而在計(jì)算機(jī)視覺(jué)領(lǐng)域風(fēng)靡的CNN框架對(duì)QSAR模型的開發(fā)更加智能化,在信息輸入時(shí),只需要最原始的簡(jiǎn)化分子線性輸入規(guī)范(simplified molecular input line entry specification,SMILES)便能進(jìn)行模型的訓(xùn)練工作,避免了不少特征工程的工作。

    Duvenaud等人[61]利用CNN編碼分子圖,獲得小分子分布式的表征,并通過(guò)模型訓(xùn)練和優(yōu)化構(gòu)建端對(duì)端的QSAR模型,能夠直接從SMILES映射到性質(zhì),開發(fā)了一套基于神經(jīng)網(wǎng)絡(luò)的分子指紋(neural fingerprint,NFP)的方法。前文提到的所有QSAR模型構(gòu)建的基本范式是先用特征計(jì)算軟件計(jì)算化合物分子的多種描述符,然后將其作為模型的輸入從而開發(fā)模型。而NFP是基于分子圖卷積的方式,能夠直接從化合物的SMILES格式出發(fā),將其轉(zhuǎn)化為2D的圖結(jié)構(gòu),然后通過(guò)CNN將不定大小的分子圖表征為定長(zhǎng)的向量,隨后將其輸入全連接的ANN中,通過(guò)有監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行訓(xùn)練,從而構(gòu)建QSAR模型,整個(gè)過(guò)程中沒(méi)有參與任何的人工干預(yù),成為了智能化的QSAR。該方法是受到神經(jīng)圖靈機(jī)[62]思想的啟發(fā),將Morgan算法[63]編碼分子離散的3部分——“Hash”“Index”“Write”替代為“CNN”“Softmax”“Add”,使整個(gè)模型變成一個(gè)連續(xù)可微的系統(tǒng)。圖7展示了CNN是如何編碼分子圖的。類似于ECFP的迭代提取子結(jié)構(gòu),這里是將每一步迭代過(guò)程中的信息傳遞用CNN進(jìn)行轉(zhuǎn)移,然后從每一個(gè)迭代層中提取信息,再把這些信息累加起來(lái),作為該分子的表征或者指紋,將其輸入標(biāo)準(zhǔn)的ANN中,實(shí)現(xiàn)端對(duì)端的可微系統(tǒng)。其中模型的輸入信息來(lái)自原子的特征描述和原子間鍵的特征描述。在訓(xùn)練過(guò)程中超參數(shù)的優(yōu)化、自動(dòng)微分工具包Autograd、梯度優(yōu)化技術(shù)Adam被用來(lái)訓(xùn)練和優(yōu)化模型。該方法被應(yīng)用到了3個(gè)數(shù)據(jù)集中:對(duì)于水溶性預(yù)測(cè)[64],該方法達(dá)到了0.52±0.07 均方根誤差(RMSE)的水平;在藥物有效性的預(yù)測(cè)[65]中,該方法達(dá)到了1.16±0.03 RMSE的水平;在有機(jī)光伏轉(zhuǎn)化的預(yù)測(cè)[66]中,該方法達(dá)到了1.43±0.09 RMSE的水平。這些數(shù)據(jù)集在該方法中的成功應(yīng)用說(shuō)明了該方法具有較好的普適性。比較有趣的是該方法中隱層的抽象表征并非像其他深度神經(jīng)網(wǎng)絡(luò)一樣無(wú)法解釋,這些隱層表征與ECFP描述符存在著較高的相似性,同時(shí)該表征能夠與目標(biāo)性質(zhì)相關(guān)的片段建立起較強(qiáng)的聯(lián)系(如圖8所示),能夠使模型學(xué)出與目標(biāo)性質(zhì)相關(guān)的特征,直接地展現(xiàn)了深度學(xué)習(xí)的特征自動(dòng)提取能力,有助于開發(fā)智能化的化合物生成模型。

    圖7 基于Morgan算法的分子圖卷積的框架示意

    圖8 Duvenaud等人方法中隱層中與目標(biāo)性質(zhì)相關(guān)的分子片段(框中部分為學(xué)到的分子片段)

    隨后Kearnes等人[67]基于類似的想法開發(fā)了另外一套基于分子圖卷積(molecular graph convolution,MGC)的方法,將原子水平的特征(原子特征及原子之間鍵的特征)依據(jù)圖的拓?fù)浣Y(jié)構(gòu),利用4個(gè)操作(原子→原子(A→A)、鍵→鍵(P→P)、鍵→原子(P→A)、原子→鍵(A→P))通過(guò)CNN對(duì)每個(gè)中心原子進(jìn)行特征提取,從而構(gòu)建分子水平的表征,然后通過(guò)BP算法優(yōu)化這些表征,從而完成多任務(wù)模型的開發(fā)(如圖9所示)。在訓(xùn)練過(guò)程中,對(duì)多個(gè)數(shù)據(jù)集進(jìn)行評(píng)估后,在PCBA數(shù)據(jù)集上的中值A(chǔ)UC可以達(dá)到0.909的水平,在MUV數(shù)據(jù)集上是0.875 AUC,在Tox21數(shù)據(jù)集上是0.867 AUC。Kearnes等人還將其與傳統(tǒng)的機(jī)器學(xué)習(xí)方法(Logistic回歸、RF)以及先前提到的基于分子描述符的DNN的方法進(jìn)行比較,發(fā)現(xiàn)他們的MGC方法在前面提到的3個(gè)數(shù)據(jù)集上的表現(xiàn)都優(yōu)于Logistic回歸、RF和基于分子描述符的DNN方法。圖卷積方法在多任務(wù)模型上取得較為明顯的優(yōu)勢(shì)后,Kearnes等人將其與Duvenaud等人的方法數(shù)據(jù)集進(jìn)行比較,水溶性、藥物有效性和有機(jī)光伏轉(zhuǎn)化性預(yù)測(cè)上分別以0.06、0.09、0.33 RMSE的微弱優(yōu)勢(shì)領(lǐng)先,但是值得注意的是,圖卷積的方法是直接將這3個(gè)數(shù)據(jù)集進(jìn)行多任務(wù)的訓(xùn)練,而Duvenaud等人是對(duì)每個(gè)數(shù)據(jù)集進(jìn)行單任務(wù)的訓(xùn)練,所以這樣的比較并不公平。這套智能化的MGC方法在多任務(wù)的預(yù)測(cè)上所展現(xiàn)出的實(shí)力使Kearnes等人期望MGC方法在未來(lái)的應(yīng)用中能夠超越所有基于分子指紋或者描述符的方法。然而,雖然該方法在模型的表現(xiàn)上有著一定的優(yōu)勢(shì),但是對(duì)于模型的解釋仍然是一個(gè)“黑盒”,并沒(méi)有像NFP方法一樣具有可解釋性,一個(gè)可解釋的模型才是化學(xué)家比較認(rèn)可的模型。

    圖9 Kearnes等人所用的模型框架示意

    這兩種基于圖卷積的分子編碼方式的主要思想是將原子水平的信息作為輸入,依據(jù)分子圖的拓?fù)浣Y(jié)構(gòu)利用深度學(xué)習(xí)將其組合為分子水平的信息,避免了先前直接從分子水平計(jì)算特征而造成的信息壓縮或噪音,同時(shí)也避免了直接利用原子水平特征輸入DNN導(dǎo)致的各個(gè)神經(jīng)元之間信息的盲目組合。

    圖10 Swamidass等人設(shè)計(jì)的基于CNN的框架示意

    前文提到的兩個(gè)CNN框架都是用來(lái)預(yù)測(cè)分子層面的性質(zhì)。Swamidass等人[68]將CNN應(yīng)用到類藥小分子環(huán)氧化作用的機(jī)理中,從而判斷類藥分子的毒性。Swamidass等人設(shè)計(jì)了專門針對(duì)該類問(wèn)題的深度學(xué)習(xí)架構(gòu),如圖10所示。該架構(gòu)包含1個(gè)輸入層、2個(gè)隱層、2個(gè)輸出層。在編碼過(guò)程中,先構(gòu)建了原子間鍵的編碼(左原子—鍵—右原子),然后計(jì)算了分子水平的描述符。模型的訓(xùn)練分為兩個(gè)階段:首先訓(xùn)練原子水平的網(wǎng)絡(luò)模型,從而預(yù)測(cè)該化學(xué)鍵是環(huán)氧化位點(diǎn)的可能性;然后將前面模型的輸出以及分子描述符作為分子水平網(wǎng)絡(luò)的輸入,通過(guò)訓(xùn)練構(gòu)建分子水平的模型,判斷該分子是否為環(huán)氧化分子。Swamidass等人利用該網(wǎng)絡(luò)架構(gòu)訓(xùn)練了702個(gè)環(huán)氧化反應(yīng),在環(huán)氧化位點(diǎn)識(shí)別上表現(xiàn)出0.949 AUC,在區(qū)分環(huán)氧化分子上表現(xiàn)出0.793 AUC。這是深度學(xué)習(xí)在機(jī)理模型研究上的首次成功應(yīng)用,該模型不僅能夠預(yù)測(cè)類藥分子的環(huán)氧化作用,還能預(yù)測(cè)分子中的環(huán)氧化作用位點(diǎn)。該研究組還將類似的模型架構(gòu)應(yīng)用到了小分子與軟親核試劑的反應(yīng)預(yù)測(cè)中,并對(duì)是否能夠發(fā)生反應(yīng)進(jìn)行了預(yù)測(cè),其準(zhǔn)確率為80.6%,還預(yù)測(cè)了小分子的反應(yīng)位點(diǎn),其準(zhǔn)確率為90.8%[69]。該機(jī)理模型對(duì)于數(shù)據(jù)集的標(biāo)注比較繁瑣,需要對(duì)化合物的每一個(gè)鍵進(jìn)行性質(zhì)的標(biāo)注,并且要求訓(xùn)練數(shù)據(jù)集要清楚分子反應(yīng)機(jī)理。

    2015年Wallach等人[70]發(fā)表了基于3D結(jié)構(gòu)的CNN模型——AtomNet,用來(lái)預(yù)測(cè)小分子和蛋白口袋的相互作用。該模型的輸入信息是利用1埃間隔的3D格點(diǎn)在復(fù)合物的結(jié)合位點(diǎn)進(jìn)行采樣得到的。整個(gè)網(wǎng)絡(luò)模型的架構(gòu)與Krizhevsky等人[2]的深層CNN類似。利用多個(gè)3D的卷積核對(duì)輸入信息進(jìn)行特征提取,然后將提取的信息輸入雙隱層的全連接網(wǎng)絡(luò),最后進(jìn)行決策。AtomNet采用ReLU和AdaDelta的訓(xùn)練策略來(lái)優(yōu)化模型。該模型在4個(gè)測(cè)試集上獲得了0.745~0.895的平均AUC,顯著優(yōu)于Smina[71](0.552~0.700 AUC)。同時(shí)與前人的結(jié)果進(jìn)行較為公平的比較,發(fā)現(xiàn)AtomNet相比以前的對(duì)接方法有著顯著的提高,例如,Gabel 等人[72]使用Surflex-Dock[73]在10個(gè)DUDE的靶標(biāo)上得到中值A(chǔ)UC為0.760,而AtomNet為0.930 AUC;Coleman 等人[74]使用DOCK3.7 在DUDE的所有靶標(biāo)上得到平均AUC為0.696,而AtomNet為0.895 AUC;Allen 等人[75]使用Dock6.7在5個(gè)DUDE的靶標(biāo)上得到平均AUC為0.72,AtomNet為0.852 AUC。Pereira 等人[76]也利用類似于在自然語(yǔ)言處理中比較流行的word embedding的方法構(gòu)建了CNN的框架,預(yù)測(cè)小分子和蛋白口袋的相互作用。其發(fā)展的DeepVS-ADV模型在DUD的40個(gè)靶標(biāo)中表現(xiàn)出0.810的平均AUC,為化學(xué)信息學(xué)提供了一套新的分布式的分子表征方法。

    以上是CNN在QSAR模型中的應(yīng)用進(jìn)展情況介紹。其中Duvenaud等人和Kearnes等人的方法為化合物的性質(zhì)預(yù)測(cè)提供了一套智能化的QSAR模型構(gòu)建方式,并擁有高水平的預(yù)測(cè)能力,加快了基于性質(zhì)預(yù)測(cè)的QSAR模型的開發(fā)。Wallach等人和Pereira等人提出了基于深度學(xué)習(xí)的3D結(jié)構(gòu)表征方式,促進(jìn)了化學(xué)信息學(xué)的發(fā)展。

    3.3 循環(huán)或遞歸神經(jīng)網(wǎng)絡(luò)框架

    Lusci等人[77]在2013年利用無(wú)向圖遞歸神經(jīng)網(wǎng)絡(luò)(UGRNN)預(yù)測(cè)類藥小分子的水溶性,如圖11所示。首先將小分子的2D結(jié)構(gòu)看成一個(gè)由原子和鍵組成的無(wú)向圖,定義每個(gè)重原子為無(wú)向圖的根節(jié)點(diǎn),使無(wú)向圖轉(zhuǎn)化為樹結(jié)構(gòu),然后所有的其他節(jié)點(diǎn)向該節(jié)點(diǎn)沿著最短路徑進(jìn)行匯聚,原子之間的信息用一個(gè)3層的神經(jīng)網(wǎng)絡(luò)進(jìn)行傳遞,由根節(jié)點(diǎn)生成定長(zhǎng)的向量F表征這棵樹。一個(gè)無(wú)向圖有N個(gè)重原子,就有N棵類似的樹結(jié)構(gòu),也就有N個(gè)類似的定長(zhǎng)向量,將這些定長(zhǎng)的向量相加得到了分子水平的表征向量F,然后加入全連接的網(wǎng)絡(luò)進(jìn)行決策,如圖11所示。Lusci等人通過(guò)BP算法更新共享的權(quán)值,從而訓(xùn)練整個(gè)網(wǎng)絡(luò),最后通過(guò)組合模型策略對(duì)輸出結(jié)果進(jìn)行評(píng)估。該模型對(duì)水溶性的3個(gè)數(shù)據(jù)集的表現(xiàn)分別為0.92 R2,0.91 R2,0.81 R2,優(yōu)于先前的其他一些模型[78-81]。筆者團(tuán)隊(duì)也對(duì)該方法進(jìn)行了嘗試,利用UGRNN預(yù)測(cè)了類藥分子的較為復(fù)雜的一類性質(zhì)——肝毒性(藥物引起的肝損傷)。該方法在多個(gè)數(shù)據(jù)集上都表現(xiàn)出較為不錯(cuò)的預(yù)測(cè)能力[82]。筆者在模型訓(xùn)練中發(fā)現(xiàn)該方法的計(jì)算復(fù)雜度O(|F|2N2)比較高,導(dǎo)致模型收斂速度特別慢。該方法與先前提到的圖卷積法一樣,不能對(duì)隱層學(xué)到的特征進(jìn)行較為合理的解釋。

    LSTM是RNN中應(yīng)用最廣泛、最成功的模型。Pande課題組將LSTM應(yīng)用于多任務(wù)QSAR中,基于one-shot學(xué)習(xí)[83]開發(fā)了ResLSTM(Residual LSTM)方法[84]。該方法被證明是一套較為不錯(cuò)的方法。比起傳統(tǒng)的機(jī)器學(xué)習(xí)方法(RF),該方法在Tox21、SIDER[85]數(shù)據(jù)集的表現(xiàn)為0.757~0.840 AUC、0.602~0.752 AUC,而RF只有0.536~0.584AUC、0.501~0.546 AUC的水平。

    圖11 UGRNN編碼小分子的示意

    總體來(lái)說(shuō),RNN在QSAR模型中的應(yīng)用還比較少。但這并不能掩蓋RNN在化學(xué)信息學(xué)中具備的潛在能力。近來(lái)RNN框架已應(yīng)用于構(gòu)建生成模型,從而設(shè)計(jì)與輸入化合物性質(zhì)相似的新的合理的小分子[86,87],充分體現(xiàn)了RNN在藥物設(shè)計(jì)領(lǐng)域具有較好的應(yīng)用前景。

    4 深度學(xué)習(xí)框架的對(duì)比與分析

    表1是深度神經(jīng)網(wǎng)絡(luò)框架在QSAR中的應(yīng)用,可以看出,目前深度學(xué)習(xí)框架下的QSAR研究主要有以下幾個(gè)特點(diǎn)。

    ● 隨著數(shù)據(jù)集的增多以及多樣化,研究人員逐漸傾向于使用多任務(wù)模型的訓(xùn)練策略,多任務(wù)學(xué)習(xí)中遷移學(xué)習(xí)的概念被應(yīng)用到了數(shù)據(jù)較少的數(shù)據(jù)集中,提高對(duì)該任務(wù)的預(yù)測(cè)能力。多任務(wù)學(xué)習(xí)模型的評(píng)估方法大多是基于AUC的,說(shuō)明多任務(wù)模型目前只適用于分類問(wèn)題,在多任務(wù)的回歸模型的問(wèn)題上, 還有待開發(fā)出更好的訓(xùn)練手段和策略。

    ● ReLU目前是在QSAR中最常用的一種訓(xùn)練技術(shù),在DNN和CNN框架中基本都使用了該技術(shù)。發(fā)展更好、更快的訓(xùn)練

    技術(shù)有助于開發(fā)高效的QSAR模型。

    表1 深度神經(jīng)網(wǎng)絡(luò)框架在QSAR 中的應(yīng)用

    從分子編碼技術(shù)在深度學(xué)習(xí)中的應(yīng)用來(lái)看,筆者發(fā)現(xiàn)基于原子水平的特征輸入在逐漸取代基于分子描述符或指紋的特征輸入,這說(shuō)明深度學(xué)習(xí)擁有足夠的能力從原子層面提取支持分子水平預(yù)測(cè)的信息,印證了其強(qiáng)大的特征提取能力。但目前比較不足的是對(duì)于這些深層特征的深層分析。目前研究人員主要采用的策略是重新設(shè)計(jì)實(shí)驗(yàn),專門用來(lái)可視化隱層中與目標(biāo)性質(zhì)相關(guān)的分子片段,并沒(méi)有直接從構(gòu)建出來(lái)的高水平的QSAR模型本身出發(fā)進(jìn)行隱層特征的分析,這方面的研究有待加強(qiáng)。

    5 總結(jié)與展望

    綜上所述,由于化學(xué)分子數(shù)量多、結(jié)構(gòu)復(fù)雜多樣,使用傳統(tǒng)的算法處理時(shí)能力常有不足,深度學(xué)習(xí)的表現(xiàn)比起傳統(tǒng)機(jī)器學(xué)習(xí)算法更勝一籌,主要是因?yàn)樯疃葘W(xué)習(xí)是一種多層描述的表征學(xué)習(xí),通過(guò)組合簡(jiǎn)單、非線性模塊來(lái)實(shí)現(xiàn),每個(gè)模塊都會(huì)將最簡(jiǎn)單的描述(從原始或近原始輸入開始)轉(zhuǎn)變成較高層、較為抽象的描述。其關(guān)鍵之處在于這些抽象的特征并非人工設(shè)計(jì),而是模型從大量數(shù)據(jù)中自動(dòng)學(xué)習(xí)得到的。這樣的能力在面對(duì)化學(xué)中的大量實(shí)驗(yàn)數(shù)據(jù)時(shí)顯得更為得心應(yīng)手,更加智能化。從目前的應(yīng)用表現(xiàn)來(lái)看,雖然深度學(xué)習(xí)在語(yǔ)音處理、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中的應(yīng)用已經(jīng)非常廣泛,但是深度學(xué)習(xí)在QSAR乃至化學(xué)信息學(xué)中的應(yīng)用目前還只屬于初步的階段。而這些應(yīng)用表現(xiàn)出來(lái)的成功之處可以折射出深度學(xué)習(xí)在化學(xué)領(lǐng)域的應(yīng)用前景中必然是一條康莊大道。從QSAR問(wèn)題的復(fù)雜度來(lái)看,多任務(wù)QSAR模型的開發(fā)本來(lái)是一件很難完成的事情,然而在深度學(xué)習(xí)面前就顯得相對(duì)簡(jiǎn)單,在模型表現(xiàn)上也顯得極為突出。在QSAR模型編碼時(shí),初步發(fā)現(xiàn)一些依靠化學(xué)專業(yè)知識(shí)設(shè)計(jì)的特征(如分子描述符)已經(jīng)不再那么重要,僅僅依靠非常簡(jiǎn)單的原子層面的信息就能組建高水平的QSAR模型。這無(wú)疑是歸功于深度學(xué)習(xí)的強(qiáng)大特征學(xué)習(xí)能力。而且這些特征甚至可以在隱層中被轉(zhuǎn)化為一些真實(shí)的化合物子片段的概念,如DeepTox中涉及的毒性片段以及NGF方法涉及的與目標(biāo)性質(zhì)相關(guān)的片段,促進(jìn)了深度學(xué)習(xí)在QSAR中的可解釋性的研究。深度神經(jīng)網(wǎng)絡(luò)是一套適合做“感知”的框架,讓適合做“感知”的深度學(xué)習(xí)結(jié)合以推理為核心的貝葉斯神經(jīng)網(wǎng)絡(luò),形成“感知—推理—決策”的范式,從而加快基于深度學(xué)習(xí)的新型藥物設(shè)計(jì)的發(fā)展。

    深度學(xué)習(xí)應(yīng)用于化學(xué)信息學(xué)還存在一些需要解決的關(guān)鍵科學(xué)問(wèn)題,包括如何進(jìn)一步改進(jìn)過(guò)擬合現(xiàn)象和加快深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程;如何發(fā)展更適用于分子二維及三維結(jié)構(gòu)信息特征的編碼方法和網(wǎng)絡(luò)結(jié)構(gòu)、超參數(shù)優(yōu)化算法及多目標(biāo)深度學(xué)習(xí)算法;如何準(zhǔn)確預(yù)測(cè)化合物與生物網(wǎng)絡(luò)的作用關(guān)系及其生物活性。如何高速有效地處理非結(jié)構(gòu)化的化學(xué)分子相關(guān)文本文獻(xiàn)和圖像信息數(shù)據(jù),也是一個(gè)需要解決的關(guān)鍵問(wèn)題。深度學(xué)習(xí)對(duì)數(shù)據(jù)的強(qiáng)大處理和理解能力,也為人們提供了一條可能的新途徑,以便更好地理解化學(xué)分子結(jié)構(gòu)的物理化學(xué)本質(zhì)。

    [1]HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

    [2]K RIZ HEVSKY A, SUTSKEVER I,HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1097-1105.

    [3]COLLOBERT R, WESTON J. A unified architecture for natural language processing:deep neural networks with multitask learning[C]// The 25th International Conference on Machine Learning, July 5-9, 2008, Helsinki, Finland. New York: ACM Press, 2008: 160-167.

    [4]GAWEHN E, HISS J A, SCHNEIDER G. Deep learning in drug discovery[J]. Molecular Informatics, 2016, 35(1): 3-14. [5]RAGHU M, POOLE B, KLEINBERG J, et al. On the expressive power of deep neural networks[J]. Statistics, 2016, arXiv:1606.05336.

    [6]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7):1527-1554.

    [7]S R I VA S TAVA N, H I N T O N G E, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

    [8]I O F F E S, S Z E G E D Y C. B a t c h normalization: accelerating deep network training by reducing internal covariate shift[J]. Computer Science, 2015, arXiv:1502.03167.

    [9]GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]// The 14th International Conference on Artificial Intelligence and Statistics, April 11-13, 2011, Fort Lauderdale, USA. [S.l.:s.n.], 2011: 315-323.

    [10]DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7): 2121-2159.

    [11]ZEILER M D. ADADELTA: an adaptive learning rate method[J]. Computer Science, 2012, arXiv: 1212.5701.

    [12]KINGMA D, BA J. Adam: a method for stochastic optimization[J]. Computer Science, 2014: arXiv: 1412.6980.

    [13]MIKOLOV T, KARAFIáT M, BURGET L, et al. Recurrent neural network based language model[C]//The 11th Annual Conference of the International Speech Communication Association, September 26-30, 2010, Makuhari, Chiba. [S.l.:s.n.], 2010: 1045-1048.

    [14]WU Y, SCHUSTER M, CHEN Z, et al. Google's neural machine translation system: bridging the gap between human and machine translation[J]. Computer Science, 2016, arXiv: 1609.08144.

    [15]VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research, 2010, 11(12): 3371-3408.

    [16]SOCHER R. Recursive deep learning for natural language processing and computer vision[J]. Citeseer, 2014(8): 1.

    [17]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

    [18]孫潭霖, 裴劍鋒. 大數(shù)據(jù)時(shí)代的藥物設(shè)計(jì)與藥物信息[J]. 科學(xué)通報(bào), 2015(8): 689-693. SUN T L,PEI J F. Drug design and drug information is the big data era[J]. Chinese Science Bulletin, 2015(8): 689-693.

    [19]SVETNIK V, LIAW A, TONG C, et al. Random forest: a classification and regression tool for compound classification and QSAR modeling[J]. Journal of Chemical Information and Computer Sciences, 2003, 43(6): 1947-1958.

    [20]RUPP M, TKATCHENKO A, MüLLER K R, et al. Fast and accurate modeling of molecular atomization energies with machine learning[J]. Physical Review Letters, 2012, 108(5): 3125-3130.

    [21]RACCUGLIA P, ELBERT K C, ADLER P D F, et al. Machine-learning-assisted materials discovery using failed experiments[J]. Nature, 2016, 533(7601): 73-76.

    [22]DU H, WANG J, HU Z, et al. Prediction of fungicidal activities of rice blast disease based on least-squares support vector machines and project pursuit regression[J]. Journal of Agricultural and Food Chemistry, 2008, 56(22): 10785-10792.

    [23]LECUN Y, BENGIO Y, HINTON G. Deeplearning[J]. Nature, 2015, 521(7553):436-444.

    [24]JAITLY N, NGUYEN P, SENIOR A W, et al. Application of pretrained deep neural networks to large vocabulary spee ch re cog nition[C]//The 13th Annual Conference of the International Speech Communication Association, September 9-13, 2012, Portland, OR, USA. [S.l.:s.n.], 2012: 1-4.

    [25]DAHL G E, YU D, DENG L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42.

    [26]GRAVES A, MOHAMED A R, HINTON G. Speech recognition with deep recurrent neural networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 26-31, 2013, Vancouver, BC, Canada. New Jersey: IEEE Press, 2013: 6645-6649.

    [27]DENG L, YU D, DAHL G E. Deep belief network for large vocabulary continuous speech recognition: 8972253[P]. 2015-03-03. [28]GAO J, HE X, DENG L. Deep learning for web search and natural language processing[R]. Redmond: Microsoft Research, 2015.

    [29]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, arXiv:1310.4546.

    [30]SOCHER R, LIN C C, MANNING C, et al. Parsing natural scenes and natural language with recursive neural networks[C]//The 28th International Conference on Machine Learning (ICML-11), June 28-July 2, 2011, Bellevue, Washington, USA. [S.l.:s.n.], 2011:129-136.

    [31]H E K, Z H A NG X, R EN S, et a l. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//The IEEE International C onference on C omputer Vision, December 13-16, 2015, Santiago, Chile. New Jersey: IEEE Press, 2015: 1026-1034. [32]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//The IEEE Conference on Computer Vision and Pattern Recognition, June 7-12, 2015, Boston, MA, USA. New Jersey: IEEE Press, 2015: 1-9.

    [33]RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

    [34]H E K, Z H A NG X, R EN S, et a l. Deep residual learning for image recognition[C]//The IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New Jersey: IEEE Press, 2016: 770-778.

    [35]MARKOFF J. Scientists see promise in deep-learning programs[N]. New York Times, 2012-10-25.

    [36]C A R H A R T R E, S M I T H D H, VENKATARAGHAVAN R. Atom pairs as molecular features in structure-activity studies: definition and applications[J]. Journal of Chemical Information and Computer Sciences, 1985, 25(2): 64-73.

    [37]KEARSLEY S K, SALLAMACK S, FLUDER E M, et al. Chemical similarity u s i n g p h y s i o c h e m i c a l p r o p e r t y descriptors[J]. Journal of Chemical Information and Computer Sciences, 1996, 36(1): 118-127.

    [38]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Cognitive Modeling, 1988, 5(3): 1.

    [39]MA J, SHERIDAN R P, LIAW A, et al. Deep neural nets as a method for quantitative structure-activity relationships[J]. Journal of Chemical Information and Modeling, 2015, 55(2): 263-274.

    [40]DAHL G E, JAITLY N, SALAKHUTDINOV R. Multi-task neural networks for QSAR predictions[J]. Computer Science, 2014, arXiv: 1406.1231.

    [41]EVGENIOU T, PONTIL M. Regularized multitask learning[C]//The 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 22 - 25, 2004, Seattle, WA, USA. New York: ACM Press, 2004: 109-117.

    [42]MAURI A, CONSONNI V, PAVAN M, et al. Dragon software: an easy approach to molecular descriptor calculations[J]. Match, 2006, 56(2): 237-248.

    [43]SNOEK J, LAROCHELLE H, ADAMS R P. Practical bayesian optimization of machine learning algorithms[J]. Advances in Neural Information Processing Systems, 2012, arXiv: 1206.2944.

    [44] SNOEK J, SWERSKY K, ZEMEL R S, et al. Input warping for bayesian optimization of non-st ationar y functions[C]// International Conference on Machine Learning, June 21-26, 2014, Beijing, China. [S.l.:s.n.], 2014: 1674-1682.

    [45]FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. Annals of Statistics, 2001, 29(5): 1189-1232.

    [46]U N T E R T H I N E R T, M A Y R A, KLAMBAUER G, et al. Multi-task deep networks for drug target prediction[J]. Neural Information Processing System, 2014: 1-4.

    [47]GAULTON A, BELLIS L J, BENTO A P, et al. ChEMBL: a large-scale bioactivity d at a b a s e fo r d r u g d i s c ove r y[J]. Nucleic Acids Research, 2012, 40(D1):D1100-D1107.

    [48]ROGERS D, HAHN M. Extendedconnectivity fingerprints[J]. Journal of Chemical Information and Modeling, 2010, 50(5): 742-754.

    [49]HARPER G, BRADSHAW J, GITTINS J C, et al. Prediction of biological activity for high-throughput screening using binary kernel discrimination[J]. Journal of Chemical Information and Computer Sciences, 2001, 41(5): 1295-1300.

    [50]LOWE R, MUSSA H Y, NIGSCH F, et a l. P re d icti n g the me cha n ism of phospholipidosis[J]. Journal of Cheminformatics, 2012, 4(1): 2.

    [51]XIA X, MALISKI E G, GALLANT P, et al. Classification of kinase inhibitors using a Bayesian model[J]. Journal of Medicinal Chemistry, 2004, 47(18): 4463-4470.

    [52]KEISER M J, ROTH B L, ARMBRUSTER B N, et al. Relating protein pharmacology by ligand chemistry[J]. Nature Biotechnology, 2007, 25(2): 197-206.

    [53]WANG Y, SUZEK T, ZHANG J, et al. PubChem bioassay: 2014 update[J]. Nucleic Acids Research, 2014, 42(Database Issue): 1075-1082.

    [54]ROHRER S G, BAUMANN K. Maximum unbiased validation (MUV) data sets for virtual screening based on PubChem bioactivity data[J]. Journal of Chemical Information and Modeling, 2009, 49(2):169-184.

    [55]MYSINGER M M, CARCHIA M, IRWIN J J, et al. Directory of useful decoys, enhanced (DUD-E): better ligands and decoys for better benchmarking[J]. Journal of Medicinal Chemistry, 2012, 55(14): 6582-6594.

    [56]RAMSUNDAR B, KEARNES S, RILEY P, et al. Massively multitask networks for drug discovery[J]. Computer Science, 2015, arXiv: 1502, 02072.

    [57]M A Y R A, K L A M B A U E R G, UNTERTHINER T, et al. DeepTox:toxicity prediction using deep learning[J]. Frontiers in Environmental Science, 2016, 3(8): 80.

    [58]KAZIUS J, MCGUIRE R, BURSI R. Derivation and validation of toxicophores for mutagenicity prediction[J]. Journal of Medicinal Chemistry, 2005, 48(1): 312-320.

    [59]FRIEDMAN J, HASTIE T, TIBSHIRANI R. Regularization paths for generalized linear models via coordinate descent[J]. Journal of Statistical Software, 2010, 33(1): 1.

    [60]SIMON N, FRIEDMAN J, HASTIE T, et al. Regularization paths for Cox’s proportional hazards model via coordinate descent[J]. Journal of Statistical Software, 2011, 39(5): 1.

    [61]DUVENAUD D K, MACLAURIN D, IPARRAGUIRRE J, et al. Convolutional networks on graphs for learning molecular fingerprints[J]. Advances in Neural Information Processing Systems, 2015, arXiv: 1509.09292.

    [62]GRAVES A, WAYNE G, DANIHELKA I. Neural turing machines[J]. Computer Science, 2014, arXiv: 1410.5401.

    [63]MORGAN H L. The generation of aunique machine description for chemical structures-a technique developed at chemical abstracts service[J]. Journal of Chemical Documentation, 1965, 5(2):107-113.

    [64]DELANEY J S. ESOL: estimating aqueous solubility directly from molecular structure[J]. Journal of Chemical Information and Computer Sciences, 2004, 44(3): 1000-1005.

    [65]GAMO F-J, SANZ L M, VIDAL J, et al. Thousands of chemical starting points for antimalarial lead identification[J]. Nature, 2010, 465(7296): 305-310.

    [66]HACHMANN J, OLIVARES-AMAYA R, ATAHAN-EVRENK S, et al. The Harvard clean energy project: largescale computational screening and design of organic photovoltaics on the world community grid[J]. The Journal of Physical Chemistry Letters, 2011, 2(17):2241-2251.

    [67]KEARNES S, MCCLOSKEY K, BERNDL M, et al. Molecular graph convolutions:moving beyond fingerprints[J]. Journal of Computer-Aided Molecular Design, 2016, 30(8): 595-608.

    [68]HUGHES T B, MILLER G P, SWAMIDASS S J. Modeling epoxidation of drug-like molecules with a deep machine learning network[J]. ACS Central Science, 2015, 1(4): 168-180.

    [69]HUGHES T B, MILLER G P, SWAMIDASS S J. Site of reactivity models predict molecular reactivity of diverse chemicals with glutathione[J]. Chemical Research in Toxicology, 2015, 28(4): 797-809.

    [70]WALLACH I, DZAMBA M, HEIFETS A. AtomNet: a deep convolutional neural network for bioactivity prediction in structure-based drug discovery[J]. Mathematische Zeitschrift, 2015, arXiv: 1510.02855.

    [71]KOES D R, BAUMGARTNER M P, CAMACHO C J. Lessons learned in empirical scoring with smina from the CSAR 2011 benchmarking exercise[J]. Journal of Chemical Information and Modeling, 2013, 53(8): 1893-1904.

    [72]GABEL J, DESAPHY J R M, ROGNAN D. Beware of machine learning-based scoring functions on the danger of developing black boxes[J]. Journal of Chemical Information and Modeling, 2014, 54(10): 2807-2815.

    [73]SPITZER R, JAIN A N. Surflex-Dock:docking benchmarks and real-world application[J]. Journal of Computer-Aided Molecular Design, 2012, 26(6): 687-699.

    [74]COLEMAN R G, STERLING T, WEISS D R. SAMPL4 & DOCK3. 7: lessons for automated docking procedures[J]. Journal of Computer-Aided Molecular Design, 2014, 28(3): 201-209.

    [75]ALLEN W J, BALIUS T E, MUKHERJEE S, et al. DOCK 6: impact of new features and current docking performance[J]. Journal of Computational Chemistry, 2015, 36(15):1132-1156.

    [76]PEREIRA J C, CAFFARENA E R, SANTOS C N D. Boosting docking-based virtual screening with deep learning[J]. Journal of Chemical Information and Modeling, 2016, arXiv:1608.04844.

    [77]LUSCI A, POLLASTRI G, BALDI P. Deep architectures and deep learning in chemoinformatics: the prediction of aqueous solubility for drug-like molecules[J]. Journal of Chemical Information and Modeling, 2013, 53(7):1563-1575.

    [78]JAIN N, YALKOWSKY S H. Estimation of the aqueous solubility I: application to organic nonelectrolytes[J]. Journal of Pharmaceutical Sciences, 2001, 90(2): 234-252.

    [79]LOUIS B, AGRAWAL V K, KHADIKAR P V. Prediction of intrinsic solubility of generic drugs using MLR, ANN and SVM analyses[J]. European Journal of Medicinal Chemistry, 2010, 45(9): 4018-4025.

    [80]A Z E N C O T T C A, K S I K E S A, SWAMIDASS S J, et al. One-to fourdimensional kernels for virtual screening and the prediction of physical, chemical, and biological properties[J]. Journal of Chemical Information and Modeling, 2007, 47(3): 965-974.

    [81]FR?HLICH H, WEGNER J K, ZELL A. Towards optimal descriptor subsetselection with support vector machines in classification and regression[J]. QSAR & Combinatorial Science, 2004, 23(5): 311-318.

    [82]XU Y, DAI Z, CHEN F, et al. Deep learning for drug-induced liver injury[J]. Journal of Chemical Information and Modeling, 2015, 55(10): 2085-2093.

    [83]LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. Human-level concept learning through probabilistic program induction[J]. Science, 2015, 350(6266): 1332-1338.

    [84]ALTAE-TRAN H, RAMSUNDAR B, PAPPU A S, et al. Low data drug discovery with one-shot learning[J]. Computer Science,2016, arXiv: 1611.03199.

    [85]KUHN M, LETUNIC I, JENSEN L J, et al. The SIDER database of drugs and side effects[J]. Nucleic Acids Research, 2015, 44(D1): D1075.

    [86]GóMEZ-BOMBARELLI R, DUVENAUD D, HERNáNDEZ-LOBATO J M, et al. Automatic chemical design using a datadriven continuous representation of molecules[J]. Computer Science, 2016, arXiv:1610.02415.

    [87]SEGLER M H S, KOGEJ T, TYRCHAN C, et al. Generating focussed molecule libraries for drug discovery with recurrent neural networks[J]. Computer Science, 2017, arXiv:1701.01329.

    Deep learning for chemoinformatics

    XU Youjun, PEI Jianfeng
    Center for Quantitative Biology, Academy for Advanced Interdisciplinary Studies, Peking University, Beijing 100871, China

    Deep learning have been successfully used in computer vision, speech recognition and natural language processing, leading to the rapid development of artificial intelligence. The key technology of deep learning was also applied to chemoinformatics, speeding up the implementation of artificial intelligence in chemistry. As developing quantitative structure-activity relationship model is one of major tasks for chemoinformatics, the application of deep learning technology in QSAR research was focused. How three kinds of deep learning frameworks, namely, deep neural network, convolution neural network, and recurrent or recursive neural network were applied in QSAR was discussed. A perspective on the future impact of deep learning on chemoinformatics was given.

    deep learning, artificial intelligence, quantitative structure-activity relationship, chemoinformatics

    TP301

    A

    10.11959/j.issn.2096-0271.2017019

    徐優(yōu)?。?990-),男,北京大學(xué)前沿交叉學(xué)科研究院博士生,主要研究方向?yàn)樗幬镌O(shè)計(jì)與藥物信息。

    裴劍鋒(1975-), 男,博士,北京大學(xué)前沿交叉學(xué)科研究院特聘研究員,主要研究方向?yàn)樗幬镌O(shè)計(jì)與藥物信息。

    2017-02-15

    裴劍峰,jfpei@pku.edu.cn

    國(guó)家自然科學(xué)基金資助項(xiàng)目(No.21673010)

    Foundation Item: The National Natural Science Foundation of China (No.21673010)

    猜你喜歡
    多任務(wù)隱層分子
    分子的擴(kuò)散
    基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
    基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測(cè)模型及應(yīng)用
    人民珠江(2019年4期)2019-04-20 02:32:00
    “精日”分子到底是什么?
    新民周刊(2018年8期)2018-03-02 15:45:54
    米和米中的危險(xiǎn)分子
    基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
    電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
    臭氧分子如是說(shuō)
    基于近似結(jié)構(gòu)風(fēng)險(xiǎn)的ELM隱層節(jié)點(diǎn)數(shù)優(yōu)化
    最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動(dòng)軸承故障診斷
    澄城县| 水富县| 石家庄市| 涿鹿县| 洪洞县| 奉新县| 丹巴县| 崇州市| 大理市| 抚远县| 平顺县| 和平区| 沙田区| 临海市| 贡山| 永宁县| 虎林市| 修水县| 长阳| 上饶县| 东乌| 突泉县| 唐河县| 井冈山市| 公主岭市| 奉新县| 界首市| 余姚市| 涟源市| 泌阳县| 稷山县| 北海市| 出国| 通许县| 临高县| 永善县| 英德市| 西乌| 庆阳市| 高台县| 阿坝|