李自臣 史新宇 禹 龍 田生偉 王 梅 李 莉
1(烏魯木齊職業(yè)大學(xué)信息工程學(xué)院 新疆 烏魯木齊 830002)2(新疆大學(xué)軟件學(xué)院 新疆 烏魯木齊 830008)3(新疆大學(xué)網(wǎng)絡(luò)中心 新疆 烏魯木齊 830046)4(新疆醫(yī)科大學(xué)藥學(xué)院 新疆 烏魯木齊 830011)
吸收、分布、代謝、排泄和毒性問題是造成臨床醫(yī)藥化合物失敗的主要因素,約有70%的藥物在臨床試驗(yàn)中失敗或退出市場(chǎng)[1]。其中,新陳代謝決定一個(gè)化合物進(jìn)入人體的命運(yùn),并最終控制該化合物是否具有毒副作用。細(xì)胞色素P450酶是藥物代謝酶中的一個(gè)家族,它是肝臟中藥物代謝的主要位點(diǎn),負(fù)責(zé)人體90%以上的臨床藥物代謝[2]。在代謝第一階段,細(xì)胞色素P450酶的亞型主要通過氧化反應(yīng),修改各種各樣的基質(zhì),使他們有更強(qiáng)的水溶性且易于被消除[3]。
CYP2C9作為細(xì)胞色素P450第二亞家族中的一個(gè)重要成員,在人體肝臟中,約占全部的CYP450蛋白總量的20%,并且已存在于市場(chǎng)上的16%的臨床藥物由它負(fù)責(zé)代謝。例如抗驚厥類藥物、抗凝血類藥物、非甾體抗炎藥及其他種類的藥物等。它的抑制作用可能會(huì)導(dǎo)致藥物較低的代謝速率及等離子體濃度的增加,并進(jìn)一步導(dǎo)致藥物產(chǎn)生毒性作用。因此,在早期的藥物篩選和安全評(píng)價(jià)中,區(qū)分CYP2C9的抑制性和非抑制性成為重要的研究課題。
近年來,基于機(jī)器學(xué)習(xí)的QSAR建模方法已廣泛應(yīng)用于CYP450酶的抑制性分類。文獻(xiàn)[4]以Three-Point Pharmacophoric (3PP) 分子指紋特征作為SVM模型的輸入,對(duì)1 100個(gè)化合物訓(xùn)練,在包含238個(gè)化合物的測(cè)試集上實(shí)現(xiàn)CYP2C9的抑制性分類。Cheng等[5]分別使用偏最小二乘判別分析法和SVM方法,結(jié)合兩種基于分子指紋的描述符實(shí)現(xiàn)對(duì)CYP2C9的抑制性分類。李蘭婷等[6]采用逐步判別分析法和K-均值聚類分析法(K-Means cluster analysis method)建立模型,對(duì)81個(gè)化合物進(jìn)行訓(xùn)練和測(cè)試,取得了較好的效果。然而,這些方法大多基于有監(jiān)督的淺層學(xué)習(xí)模型,其性能依賴分子特征的選擇,容易出現(xiàn)維數(shù)災(zāi)難和局部最優(yōu)等問題。
本文利用深度學(xué)習(xí)思想,提出了基于DBN的CYP2C9抑制性分類模型。通過堆疊多層受限玻爾茲曼機(jī)(RMB),利用其組合低層數(shù)據(jù)特征并充分挖掘分布式特征的能力,對(duì)分子特征進(jìn)行更本質(zhì)的學(xué)習(xí)。采用反向傳播神經(jīng)網(wǎng)絡(luò)(BP)對(duì)多層RBM進(jìn)行有監(jiān)督的微調(diào),完成對(duì)CYP2C9的抑制性分類。通過與淺層學(xué)習(xí)模型SVM和ANN進(jìn)行對(duì)比,本文所提模型克服了淺層模型容易出現(xiàn)維數(shù)災(zāi)難和局部最優(yōu)等問題,驗(yàn)證了深度信念網(wǎng)絡(luò)模型對(duì)CYP2C9抑制性分類的有效性。
本文所獲取的數(shù)據(jù)集源于文獻(xiàn)[7],它從PubChem BioAssay數(shù)據(jù)庫中收集了13 908個(gè)結(jié)構(gòu)多樣的化合物(PubMed ID:AID410),為避免樣本的重復(fù)和錯(cuò)誤,所有化合物都經(jīng)過處理和檢驗(yàn)。原始數(shù)據(jù)集中包含一些信息,例如分子ID、記錄ID、化合物的SIMLES結(jié)構(gòu),以及CYP2C9的抑制性和非抑制性標(biāo)識(shí)。本文選取13 000條數(shù)據(jù),并以4∶1的比例將全部數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。數(shù)據(jù)集的詳細(xì)類別分布見表1。全部實(shí)驗(yàn)采用五折交叉驗(yàn)證評(píng)估模型的性能,避免實(shí)驗(yàn)的隨機(jī)性和偶然性。數(shù)據(jù)集可從Online Chemical Modeling Environment (OCMEM)中免費(fèi)下載。
表1 訓(xùn)練集和測(cè)試集的詳細(xì)類別分布
分子指紋技術(shù)是描述化合物結(jié)構(gòu)屬性的一種方法,通過檢測(cè)分子結(jié)構(gòu)中一些特定子結(jié)構(gòu)(即分子結(jié)構(gòu)片段)是否存在,從而把分子結(jié)構(gòu)轉(zhuǎn)化為一系列二進(jìn)制指紋序列[8]。目前,有多種不同形式分子指紋,如FP2、FP3、FP4指紋、MACCS指紋、Estate指紋、Pubchem指紋,以及Daylight指紋等。
本文采用新加坡國(guó)立大學(xué)Yap等[9]開發(fā)的PaDEL-Descriptor描述符計(jì)算軟件。該軟件當(dāng)前可計(jì)算797個(gè)描述符(1維和2維663個(gè),3維134個(gè))及10種不同類型的分子指紋。該軟件免費(fèi)且開源,有便于用戶使用的圖形用戶界面,可運(yùn)行在多個(gè)平臺(tái),接受多種類型的文件格式。利用該軟件生成了常用的PubChem和MACCS分子指紋,其中MACCS根據(jù)166位結(jié)構(gòu)片段詞典進(jìn)行編碼產(chǎn)生二進(jìn)制字符串。這些結(jié)構(gòu)特征包括原子類型、化學(xué)鍵類型、原子環(huán)境類型與結(jié)構(gòu)性質(zhì)等。用0和1來表示分子中相關(guān)結(jié)構(gòu)特征信息的存在與缺失,即當(dāng)分子中存在某一結(jié)構(gòu)特征時(shí),就在預(yù)定義結(jié)構(gòu)特征位點(diǎn)構(gòu)成的位串(詞典)中相應(yīng)位置標(biāo)記為1,否則標(biāo)記為0[10]。
分子指紋維度過高,會(huì)增加模型的計(jì)算量和運(yùn)行時(shí)間。為避免分子特征冗余,本文按以下規(guī)則對(duì)分子指紋特征進(jìn)行篩選:(1) 去除重復(fù)特征;(2) 去除全為零的特征;(3) 去除標(biāo)準(zhǔn)差等于零的特征。具體實(shí)現(xiàn)過程如下:
算法:分子指紋預(yù)處理
i為單個(gè)樣本,num為樣本數(shù)量,c為特征個(gè)數(shù)
1. foriindatas.num:
2. ifdata[i].std()==0:remove.append(i)
3.c=datas.feature.num
4. foriinrange(c)
5.v=datas[i]
6. forjinrange(i+1,c):
7. ifequal(v,datas[j]):remove.append(c[j])
深度神經(jīng)網(wǎng)絡(luò)DNN利用多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,不僅能克服一些淺層機(jī)器學(xué)習(xí)模型的局限性,盡可能使用較少參數(shù)實(shí)現(xiàn)復(fù)雜函數(shù)逼近,而且有很強(qiáng)的自學(xué)習(xí)能力。同時(shí),它能從原始高維特征中抽取出多層分布表示。DBN作為DNN的一種,由Hinton于2006年提出,已被廣泛應(yīng)用于多個(gè)領(lǐng)域[11]。DBN由多層RBM和BP網(wǎng)絡(luò)組成。DBN訓(xùn)練過程分兩步:預(yù)訓(xùn)練和微調(diào)。首先,采用無監(jiān)督學(xué)習(xí)方式對(duì)RBM每一層訓(xùn)練,保證當(dāng)特征向量被映射到不同特征空間時(shí),特征信息能盡可能多的保留;然后利用最后一層BP網(wǎng)絡(luò)以有監(jiān)督訓(xùn)練方式微調(diào)整個(gè)DBN網(wǎng)絡(luò)權(quán)重值。它以RBM輸出向量作為自身輸入向量訓(xùn)練一個(gè)實(shí)體關(guān)系分類器。DBN結(jié)構(gòu)如圖1所示。
圖1 DBN模型結(jié)構(gòu)
受限玻爾茲曼機(jī)是一個(gè)生成式隨機(jī)神經(jīng)網(wǎng)絡(luò),由Hinton和Sejnowski于1986年提出[12]。它由可見單元和隱單元組成,這些單元是二值變量,狀態(tài)為0或1。全部神經(jīng)網(wǎng)絡(luò)是一個(gè)二部圖,可見層和隱藏層之間全連接,層內(nèi)之間無連接。RBM結(jié)構(gòu)如圖2所示。
圖2 RBM的結(jié)構(gòu)
圖2中,可以看到RBM包含4個(gè)可見單元(由v表示)和3個(gè)隱藏單元(由h表示),w是一個(gè)4×3矩陣,它表示可見層和隱藏層之間邊的權(quán)重。受統(tǒng)計(jì)學(xué)能量函數(shù)概念的啟發(fā), RBM引入能量函數(shù)的概念:“聯(lián)合配置(v,h)”,被定義為:
(1)
式中:θ是RBM的一個(gè)參數(shù),表示為{W,a,b};w表示可見層的基向量;b表示隱藏層的基向量。根據(jù)玻爾茲曼分布,可見單元和隱藏單元的聯(lián)合概率如下:
(2)
Z(θ)是一個(gè)歸一化因子(也稱為配分函數(shù)),采用sigmoid激活函數(shù),公式如下:
(3)
學(xué)習(xí)RBM的任務(wù)是求出參數(shù)θ的值,以擬合給定的訓(xùn)練數(shù)據(jù),參數(shù)θ可以通過最大化RBM在訓(xùn)練集上的對(duì)數(shù)似然函數(shù) (P(v))學(xué)習(xí)得到,P(v)可由式(4)得到。最大化P(v)等同于最大化log(P(v))=L(θ),如式(5)所示。
(4)
(5)
其中:可見層節(jié)點(diǎn)集合的邊緣分布為Pθ(v),然而計(jì)算Pθ(v)非常困難。因此,Hinton等提出了對(duì)比散度算法解決這一問題。
經(jīng)過這一步,RBM提取出的特征向量作為BP模型的輸入。BP網(wǎng)絡(luò)可以微調(diào)整個(gè)DBN網(wǎng)絡(luò)。它的訓(xùn)練過程主要分為兩步:一是前向傳播,將輸入特征向量沿輸入端傳播至輸出端;二是反向傳播,將BP網(wǎng)絡(luò)的輸出結(jié)果與正確結(jié)果比較得到誤差,然后將誤差從輸出端反向傳播至輸入端。
基于DBN模型的CYP2C9抑制性和非抑制性分類包含三個(gè)部分:數(shù)據(jù)預(yù)處理、DBN訓(xùn)練過程以及CYP2C9的分類過程。DBN的整個(gè)分類流程如圖3所示。首先,用分子計(jì)算軟件生成分子指紋特征并由SPSS19.0軟件進(jìn)行特征預(yù)處理。然后,根據(jù)2.2節(jié)介紹的算法訓(xùn)練DBN模型。它包括兩個(gè)階段:一是基于無標(biāo)簽數(shù)據(jù)訓(xùn)練多層RBM;二是采用BP網(wǎng)絡(luò)微調(diào)整個(gè)DBN模型的參數(shù)。最后使用測(cè)試集評(píng)估模型的分類性能。
圖3 DBN模型對(duì)CYP1A2的分類流程
對(duì)二分類模型,有很多公認(rèn)指標(biāo)判定模型的性能。本文采用特異性(式(6))、敏感度(式(7)),總的分類準(zhǔn)確率(式(8))以及馬修斯相關(guān)系數(shù)(式(9))作為模型的評(píng)估標(biāo)準(zhǔn)。
SP=TN/(TN+FP)×100%
(6)
SE=TP/(TP+FN)×100%
(7)
(8)
(9)
其中,MCC常用于二分類檢測(cè),為驗(yàn)證測(cè)試實(shí)驗(yàn)結(jié)果是否平衡,其值在-1~1之間,越接近1模型評(píng)價(jià)效果越好。這些評(píng)估標(biāo)準(zhǔn)通過統(tǒng)計(jì)TP、FN、FP和TN的個(gè)數(shù)計(jì)算得出。TP表示真實(shí)值為抑制性,預(yù)測(cè)結(jié)果也是抑制性;FN表示真實(shí)值為抑制性,預(yù)測(cè)結(jié)果是非抑制性;FP表示真實(shí)值為非抑制性,預(yù)測(cè)為抑制性;TN表示真實(shí)值為非抑制性,預(yù)測(cè)也為非抑制性。
本文模型運(yùn)行在Windows7系統(tǒng)上,使用MATLAB完成仿真實(shí)驗(yàn)。計(jì)算機(jī)的配置為:Intel i3處理器,4 GB內(nèi)存,主頻率為2.4 GHz。為得到模型最優(yōu)分類性能,采用不同參數(shù)組合做了大量實(shí)驗(yàn)。表2列出了DBN和BP模型的詳細(xì)初始化參數(shù)信息。
表2 DBN和BP的初始化參數(shù)信息
表2中,hiddensize表示隱藏層神經(jīng)元個(gè)數(shù);numepochs表示訓(xùn)練迭代次數(shù);momentum表示RBM初始化動(dòng)量;alpha表示模型訓(xùn)練過程中初始化學(xué)習(xí)率;batchsize表示每一次訓(xùn)練批量處理樣本個(gè)數(shù)。對(duì)于SVM模型,采用LIBSVM (3.2版本,網(wǎng)址:http://www.csie.ntu.edu.tw/~cjlin/libs vm)實(shí)現(xiàn)仿真。為獲取SVM最優(yōu)分類性能,內(nèi)核函數(shù)和代價(jià)因子的選擇非常重要。可選內(nèi)核參數(shù)有:linear、polynomial、RBF和sigmoid function。因RBF參數(shù)具有高效性和較低復(fù)雜性,選擇RBF作為SVM內(nèi)核參數(shù),代價(jià)因子為5。對(duì)ANN模型,采用和BP相同參數(shù)。
在深度學(xué)習(xí)模型中,選擇合適的DBN網(wǎng)絡(luò)深度對(duì)CYP2C9的抑制性分類精度有一定影響。我們嘗試了不同DBN網(wǎng)絡(luò)結(jié)構(gòu)(RMB的層數(shù)從1層到5層)。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同DBN層數(shù)在測(cè)試集上的準(zhǔn)確率
從表3可以看出,隨著DBN模型層數(shù)增加,當(dāng)模型的層數(shù)從1層到3層時(shí),模型總的分類準(zhǔn)確率有所提升(準(zhǔn)確率從76.5%增加到80.6%)。當(dāng)模型的層數(shù)從3層到5層時(shí),模型總的分類準(zhǔn)確率均有不同程度的下降。而且,模型層數(shù)的增加會(huì)使得訓(xùn)練過程更加復(fù)雜、計(jì)算時(shí)間也隨之增加。因此,在后續(xù)的實(shí)驗(yàn)中,經(jīng)過多方面的考慮,我們?cè)O(shè)置DBN的隱藏層層數(shù)為3。
選擇不同的分子指紋作為模型輸入對(duì)CYP2C9的抑制性分類精度有一定影響。本文實(shí)驗(yàn)采用僅使用PubChem特征,僅使用MACCS特征,以及兩者的特征組合分別作為模型的輸入驗(yàn)證不同特征組合下模型的分類性能。實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 不同特征下的分類準(zhǔn)確率
從圖4中可以看出,PubChem和MACCS分子指紋特征組合作為模型的輸入(模型分別為SVM、ANN和DBN),三個(gè)模型都獲得了最好的分類性能。它們各自總的分類精度分別為78.3%、78.0%、80.6%,高于僅使用MACCS特征所得到的準(zhǔn)確率:74.6%、75.7%、76.1%,以及僅使用PubChem特征所得到的分類準(zhǔn)確率:75.1%、76.6%、77.7%。實(shí)驗(yàn)結(jié)果表明:PubChem和MACCS特征組合給模型帶來了新的信息,并且增加了模型的分類性能。同時(shí)將MACCS特征加入模型中提升了模型的分類性能,這一結(jié)果說明MACCS特征信息對(duì)CYP2C9的抑制性分類有積極影響。Michielan等[3]也得到了類似的結(jié)論:分子指紋特征對(duì)構(gòu)建CYP2C9的抑制性分類模型具有重要貢獻(xiàn)。因此實(shí)驗(yàn)證明了將PubChem和MACCS分子特征組合作為模型的輸入可以進(jìn)一步提升其分類準(zhǔn)確率。
為驗(yàn)證DBN模型對(duì)CYP1A2抑制性和非抑制性分類的有效性,基于相同的數(shù)據(jù)集和特征,將它與ANN和SVM模型進(jìn)行了比較。以準(zhǔn)確率和馬修斯相關(guān)系數(shù)(MCC)作為衡量標(biāo)準(zhǔn),結(jié)果分別如圖5和圖6所示。
圖5 DBN、ANN和SVM的分類準(zhǔn)確率
圖6 DBN、ANN和SVM的MCC系數(shù)
從圖5和圖6能夠得出,隨著數(shù)據(jù)量的增加,DBN、SVM以及ANN模型的分類準(zhǔn)確率和馬修斯相關(guān)系數(shù)均有所提升。實(shí)驗(yàn)結(jié)果表明,模型在豐富和大量的樣本條件下能夠?qū)W習(xí)更加多樣的特征,進(jìn)而提升了分類準(zhǔn)確率。當(dāng)數(shù)據(jù)量增加到13 000條時(shí),相較于SVM和ANN,DBN模型獲得了最好的分類準(zhǔn)確率。原因是:不同于ANN、DBN模型避免了權(quán)重值隨機(jī)分配,采用無監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)過程,可以提供一個(gè)更合適的初始值,從特征中抽取出多級(jí)的分布式表示,可以更好地挖掘分子結(jié)構(gòu)的規(guī)律性。同時(shí),DBN模型是一個(gè)深層網(wǎng)絡(luò)結(jié)構(gòu),當(dāng)問題規(guī)模變得更加復(fù)雜時(shí),它能克服一些淺層神經(jīng)網(wǎng)絡(luò)相對(duì)較弱的泛化能力及容易陷入過擬合的問題。
本文基于一個(gè)相對(duì)較大且結(jié)構(gòu)多樣的數(shù)據(jù)集,采用深度信念網(wǎng)絡(luò)探討了分子結(jié)構(gòu)與區(qū)分CYP2C9的抑制性判別關(guān)系,驗(yàn)證了不同分子指紋特征對(duì)模型分類結(jié)果的影響。同時(shí)與ANN和SVM進(jìn)行比較,驗(yàn)證了DBN模型對(duì)CYP2C9抑制性分類的有效性。因此,本文的研究有助于在藥物研發(fā)階段對(duì)CYP1A2的抑制性進(jìn)行快速評(píng)估,對(duì)新藥篩選具有一定的指導(dǎo)作用。