何亞瓊,朱曉軍
(太原理工大學 信息與計算機學院,山西 太原 030024)
藥物的設計和開發(fā)是一個風險高、周期長、投資巨大的過程[1]。僅依靠化學實驗來發(fā)現(xiàn)新的藥物效率低且成本高。因此,通過計算機對藥物的潛在靶標進行虛擬篩選成為計算機輔助制藥的熱點[2]。目前藥物-靶標關(guān)系預測存在的難點是已知的藥物-靶標對有限。對于DTI預測第一類方法是二元分類問題,第二類方法是轉(zhuǎn)化為推薦任務。對于第一類方法,文獻[3]提出兩種集成學習的方法,分別從藥物和靶標的方向進行預測,再合并結(jié)果。文獻[4]提出基于旋轉(zhuǎn)森林(RF)的藥物靶標預測模型。文獻[5]將深度學習引入藥物-靶標研究領域,用堆疊自動編碼器提取深度表征,然后用SVM進行二分類。第二類方法,文獻[6]提出用于DTI預測的貝葉斯排序矩陣分解,主要思想是同時將藥物和目標投射到共享潛在空間。文獻[7]采用低秩加權(quán)矩陣分解實現(xiàn)了藥物-靶標的關(guān)系預測。文章提出鄰域正則化邏輯矩陣分解(NRLMF)用于DTI預測[8]。
分析先前研究成果,基于矩陣分解的推薦方法可以充分利用已知的DTI關(guān)系。但是存在矩陣稀疏的問題,并且隨著數(shù)據(jù)集的擴充,矩陣分解并不是一個高效的方法。因此,本文提出一種深度協(xié)同過濾算法實現(xiàn)DTI預測。該算法沿用基于矩陣分解的協(xié)同過濾算法,在矩陣分解中添加藥物靶標雙重正則化約束。并且,設計融入了多輸入深度自編碼器,能夠有效提取DTI矩陣和輔助信息的潛在特征,從而優(yōu)化傳統(tǒng)矩陣分解的效果。
(1)藥物-靶標相互作用矩陣R,是一個m×n的二維矩陣,m代表藥物數(shù)量,n代表靶標數(shù)量。矩陣R中,如果已知藥物i和靶標j存在相互作用,則Rij=1,未被驗證的關(guān)系為0。
(2)藥物相似性矩陣M,是一個m×m的對角矩陣。mij表示根據(jù)化合物i和化合物j的化學結(jié)構(gòu)計算的藥物相似性。
(3)靶標蛋白相似性矩陣N,是一個n×n的對角矩陣。靶標相似性nij是基于目標蛋白的氨基酸序列計算的。
(4)Ui和Vj分別代表藥物i的潛在影響因子向量和靶標j的潛在影響因子向量,K?n,m是藥物和靶標的潛在低維空間維度。
本文將藥物-靶標的關(guān)系預測問題轉(zhuǎn)化為藥物-靶標關(guān)系矩陣的未知項評分填充問題[9]。提出一種添加正則化約束的非負矩陣分解算法作為DTI的預測的主要思路。非負矩陣分解(non-negative matrix factorization,NMF)是一種有效且廣泛應用于協(xié)同過濾的方法[10],NMF算法對于任何一個非負的矩陣R可以尋找到兩個非負矩陣U和V,使其滿足U、V的矩陣乘積的每個元素與原始R矩陣每個元素的誤差盡可能的小[11]。對于藥物-靶標的相互作用矩陣負值是沒有意義的,因此添加非負約束條件會使分解結(jié)果更加準確。數(shù)學表示為
(1)
分析藥物和藥物之間、靶標和靶標之間的關(guān)聯(lián)關(guān)系,本文對非負矩陣分解算法做了優(yōu)化??紤]到相似結(jié)構(gòu)的藥物偏好相同的靶標蛋白。同理,相關(guān)的蛋白質(zhì)(具有相似的氨基酸序列)偏好于相同的藥物。本文在非負矩陣分解中加入了雙重正則化約束。通過藥物和靶標的雙重正則化約束矩陣分解中藥物潛在影響因子和靶標潛在影響因子的學習,當預測新的藥物或者靶標時,得到的潛在特征傾向于其近鄰藥物或靶標的特征。因此,可緩解新藥物、靶標的冷啟動問題。M=(mij)是成對的藥物相似性得分矩陣。N=(nij)是成對的靶標相似性得分矩陣。故可以通過最小化藥物和靶標蛋白的同源性來解釋相似的化合物傾向于結(jié)合相似的蛋白質(zhì)。
添加藥物關(guān)系約束
(2)
添加靶標蛋白關(guān)系約束
(3)
本文將藥物正則化和靶標正則化同時加入到矩陣分解中,添加藥物靶標雙重正則化約束的目標函數(shù)為式(4)
(4)
由于已知的藥物-靶標相互作用矩陣稀疏,在用矩陣分解的方法尋找藥物潛在影響因子U、藥物潛在影響因子V時,會造成分解效果下降[12]。因此,本文添加了多輸入深度自編碼器來學習藥物潛在特征和靶標蛋白的潛在特征。自編碼器(auto-encoder)是一種能夠通過自監(jiān)督學習,學習輸入數(shù)據(jù)的高效表征的神經(jīng)網(wǎng)絡。深度自編碼器是由多層自編碼器堆疊而成,其拓撲結(jié)構(gòu)完整,具有強大的非線性擬合特征能力[13]。因此能夠更好表示網(wǎng)絡輸入數(shù)據(jù)。
如圖1所示,本文設計的多輸入深度自編碼器算法在傳統(tǒng)的深度自編碼器的上增加了一個輸入層和輸出層。
圖1 多輸入深度自編碼器
(1)該模型有兩個輸入層輸入數(shù)據(jù)分別為R,M。兩個輸出層分別為重構(gòu)后的R,M。
(2)以藥物和靶標的評分矩陣R為主要輸入,藥物-藥物的相似性矩陣M作為輔助信息輸入自編碼器。這樣一個雙輸入的自編碼器的中間層可以看作是評分矩陣和藥物相似度信息的橋梁,中間層是矩陣分解需要的藥物潛在影響因子U。
(3)將藥物靶標的評分矩陣R按行分割為m個n維向量集合{S1,S2,S3,…,Sm},Si代表藥物i對所有靶標的相互作用。R是一個稀疏的0,1矩陣。深度自編碼器的另一個輸入是藥物的相似性矩陣M,將藥物相似性矩陣分割為m個m維的向量集{d1,d2,d3,…,dm},Mj代表藥物j和所有其它藥物的相似度。將R和M輸入模型,加入限制將矩陣壓縮為一個低秩矩陣,再通過解碼器重構(gòu)R,M。對于輸出層可以計算
(5)
(6)
其中,{W,b}為可調(diào)參數(shù),W表示m×k的權(quán)重矩陣,k為預設的潛在空間維度。b是偏置向量。多輸入深度自編碼器模型在提取原始相互作用矩陣R里的潛在特征的同時又充分利用了藥物、靶標的輔助信息,可以得到有效的藥物、靶標表征。
本文結(jié)合約束非負矩陣分解和多輸入深度自編碼器提出一種深度協(xié)同過濾算法來預測藥物-靶標相互作用。本模型以基于約束非負矩陣分解的協(xié)同過濾算法為藥物-靶標預測的主要方法,為了更加準確尋找U和V,提出以兩個多輸入深度自編碼分別來提取藥物潛在特征U和靶標潛在特征V。模型如圖2所示,框架由3部分組成:基于多輸入深度自編碼器的藥物潛在特征提取模型、基于矩陣分解的協(xié)同過濾推薦模型、基于多輸入深度自編碼的靶標潛在特征提取模型。在第1、第3部分,對普通的單輸入單輸出自編碼器做了改進,在輸入中加入相似度信息M、N為輔助輸入,藥物-靶標的相互作用矩陣R為主要輸入。改進的自編碼器模型可以同時提取到藥物-靶標關(guān)系R和相似度矩陣M、N中的藥物、靶標潛在特征,使提取的潛在特征U和V更加有效。在第2部分,用協(xié)同過濾填充矩陣R中的未知項,將藥物、靶標雙重正則化約束加入矩陣分解算法中,通過上一步自編碼器獲得的藥物潛在影響因子和靶標潛在影響因子作為初始的分解矩陣U和V,再根據(jù)模型的損失函數(shù)調(diào)整網(wǎng)絡更新U和V。
圖2 整體模型
模型訓練流程如圖3所示,該模型利用兩個多輸入深度自編碼器模型構(gòu)建了一個內(nèi)部拓撲結(jié)構(gòu)的網(wǎng)絡,它由兩個獨立的網(wǎng)絡模塊組成,在訓練網(wǎng)絡時是兩個并行的分支。兩個自編碼器經(jīng)過壓縮后的中間層是兩個低維矩陣U和V,通過約束非負矩陣分解繼續(xù)優(yōu)化這兩個矩陣直到循環(huán)結(jié)束。
圖3 流程
測試本模型的數(shù)據(jù)集為Yam基準數(shù)據(jù)集[3],此數(shù)據(jù)集由Yamannish等設計,目前是藥物-靶標預測的一個基準數(shù)據(jù)集。下載地址http://web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/。如表1所示,數(shù)據(jù)集按照靶標的不同類型分為4種數(shù)據(jù)集:核受體、G蛋白偶聯(lián)受體、離子通道、酶。每個數(shù)據(jù)集包括已經(jīng)驗證的藥物-靶標的相互作用信息和藥物、標靶輔助信息。其中,藥物-靶標的相互作用信息主要來自公共數(shù)據(jù)庫KEGG BRITE,SuperTarget和DrugBank[14]。
表1 數(shù)據(jù)集內(nèi)容
(1)本文的多輸入深度自編碼器模型由4層自編碼器堆疊而成,對于提取藥物潛在特征的自編碼器,第L/2層是想要得到的藥物潛在影響因子U。前L/2層用于將輸入的藥物-靶標交互矩陣和藥物相似性矩陣的降維,后L/2層將中間層進行升維還原。模型的網(wǎng)絡訓練是采用非監(jiān)督的貪婪算法。模型整體的網(wǎng)絡進行逐層訓練。詳細過程見表2。
表2 參數(shù)調(diào)整
提取藥物潛在特征的自編碼器的損失函數(shù)
(7)
提取靶標潛在特征的自編碼器的損失函數(shù)
(8)
(2)本文的深度協(xié)同過濾模型中優(yōu)化模型中4個可變參數(shù),分別為藥物潛在影響因子U、靶標潛在影響因子V、權(quán)重矩陣集W和偏置矩陣集b。設置整體模型的損失函數(shù)為式(9)
(9)
雖然目標函數(shù)在所有變量中并不是共同的凸函數(shù),但是固定其它參數(shù)時,剩余的任何一個參數(shù)都是凸函數(shù),對于潛在變量Ui和Vj首先通過深度自編碼器提取潛在特征得到Ui和Vj的初始值。然后采用隨機梯度下降(SGD)算法去優(yōu)化潛在變量使損失函數(shù)的值最小。在這里對公式求二階偏導
(10)
(11)
在迭代中,參數(shù)Ui和Vj按負梯度方向來更新,每一次更新的增量為α,也就是梯度下降的學習率,更新規(guī)則如下
(12)
當固定了矩陣U和V,可以通過反向傳播算法來學習每層的權(quán)重W和偏置b,通過交替更新潛在變量Ui和Vj,參數(shù)權(quán)重W和偏置b,可以得到一個U和V最優(yōu)解。
模型的優(yōu)劣使用AUC和AUPR進行模型評估,AUC是接受者操作特性曲線(receiver operating characteristic curve,ROC)下的面積,曲線的橫坐標是假陽性率(FPR),縱坐標代表真陽性率(TPR)。AUPR是精確率召回率曲線(precision recall curve,PR)下的面積,曲線橫坐標是召回率(Recall),縱坐標是精確率(Precision)。PR曲線可以得到在不同閾值下的召回率值和精確率值,AUPR值在0到1之間,越大表明預測效果越好[15]
P(準確率,Precision)=TP/(TP+FP)
R(召回率,Recall)=TP/(TP+FN)
TPR(真陽性率)= TP/(TP+FN)
FPR(假陽性率)= FP/(FP+TN)
為了評估模型的優(yōu)劣性能,在實驗部分設計了兩組對比實驗:①本文的深度協(xié)同過濾模型對比文獻[5]中的MFDR模型,這兩個模型的相同點是都采用了深度自編碼器提取深度表征,不同點是本文方法用協(xié)同過濾算法解決DTI問題,而MFDR采用SVM做二分類。另一個對比的方法是COSINE[7],該方法采用基于低秩矩陣分解的協(xié)同過濾算法預測DTI。②對比了5種經(jīng)典的近幾年取得不錯成果的方法,分別為KBMF2K、CMF、BML-NII、WNN-GIP和NetLapRLS。
3.2.1 對比實驗一
深度協(xié)同過濾與MFDR(SDAE+SVM)和COSINE方法對比。
AUPR值如圖4所示。因為樣本中已知的DTI數(shù)量遠小于未知的數(shù)量,正負樣本不平均分布造成召回率偏低。因此,AUPR值不高,本文的算法AUPR值在4種數(shù)據(jù)集上的AUPR值為0.637、0.682、0.732、0.764均高于另外兩種方法,在核受體數(shù)據(jù)集中3種方法差距較小,在酶數(shù)據(jù)集上本文方法明顯高于其它兩個方法。表明本文方法能較好的平衡數(shù)據(jù)的準確率和召回率。
如圖5所示,COSINE方法在核受體數(shù)據(jù)集上效果不錯,在酶數(shù)據(jù)集上表現(xiàn)下降,反應了僅僅使用矩陣分解的局限性。從AUC曲線可以看出本文的方法在4個數(shù)據(jù)集上的曲線下面積大于SDAE+SVM和COSINE兩個方法,并且曲線的凸出接近左上(0,1)坐標,表明本文的方法可以取得高真陽性率和低假陽性率。在酶數(shù)據(jù)集上,本文方法AUC達到0.978,相較其它數(shù)據(jù)集,取得了最好的效果。
圖4 AUPR值對比
圖5 AUC結(jié)果對比
3.2.2 對比實驗二
為了評估本文的深度協(xié)同過濾算法與藥物-靶標預測的經(jīng)典算法相比的性能,本文設計了5個經(jīng)典方法,見表3,表4,前3個為基于二分類的方法、后3個為基于矩陣分解的方法。
可以看出矩陣分解方法在DTI預測上具有較好的性能。如表3所示深度協(xié)同過濾算法在離子通道數(shù)據(jù)集上,AUC值比協(xié)同矩陣分解CMF高了0.173,表明了加入多輸入深度自編碼器在DTI預測上的顯著效果。如表4所示經(jīng)典算法的AUPR值難以突破0.5,而深度協(xié)同過濾模型在酶數(shù)據(jù)集上達到了0.764,更好平衡了數(shù)據(jù)準確率和召回率。
表3 與5個經(jīng)典方法的AUC值對比
表4 與5個經(jīng)典方法的AUPR值對比
本文提出了一種DTI預測方法,深度協(xié)同過濾算法。根據(jù)藥物、靶標的關(guān)系在非負矩陣分解中加入藥物、靶標雙重正則化約束。并且設計了一個多輸入深度自編碼器來同時提取DTI矩陣和輔助信息的特征。將得到的藥物、靶標的潛在特征作為約束非負矩陣的初始值進行未知項的預測填充。通過實驗比較,驗證本文算法優(yōu)于它DTI預測方法。接下來的工作,將嘗試繼續(xù)改進深度協(xié)同過濾算法并應用到藥物重定位中,挖掘特定藥物的潛在適應癥。