成志興,丁彥蕊,2
(1.江南大學 江蘇省媒體設計與軟件技術重點實驗室,江蘇 無錫 214122;2.江南大學 理學院,江蘇 無錫 214122)
藥物的發(fā)現(xiàn)和開發(fā)過程漫長而復雜[1],盡管在過去幾十年中藥物研發(fā)投資顯著增加,但每年批準的新藥數(shù)量仍然很低。因此,探索有效的方法來提高藥物開發(fā)的成功率至關重要[2]。
在藥物發(fā)現(xiàn)和開發(fā)過程中,藥物靶標相互作用(drug-target interaction, DTI)的識別非常關鍵[3]。由于通過傳統(tǒng)的生物實驗確定DTI通常成本高、耗時長[4],為有效減少時間和成本,近年來基于計算機的方法得到了迅速發(fā)展。DTI預測計算方法大致可以分為3類:基于結構的方法[5]、基于配體的方法[6]和基于機器學習的方法[7]。
基于結構的方法即分子對接模擬,該方法主要利用蛋白質的三維結構信息來預測DTI。由于該方法非常耗時且需要蛋白的三維結構,因此其性能受到了限制?;谂潴w的方法利用相似的配體往往具有相似的生物學特性的理論,將靶標蛋白的結合配體與候選藥物進行比對和評分,從而為靶標蛋白推薦候選藥物。然而,該方法非常依賴靶標蛋白的結合配體信息,當所選靶標蛋白只有少量已知結合配體時,效果不佳[8]。
為了探索更高效的計算方法,近年來許多研究致力于利用機器學習預測DTI?;跈C器學習的方法通常將預測DTI的問題視為二分類任務或回歸任務,每個藥物蛋白對都有一個標簽來指示藥物與蛋白之間是否存在相互作用關系。具體地,基于機器學習的方法大致可以分為基于相似性的方法、基于網(wǎng)絡的方法和基于特征的方法。
基于相似性的方法需要預先計算藥物或蛋白的多種相似性,然后將這些相似性值輸入到各種機器學習方法中。Perlman等人計算了5種藥物相似性與3種蛋白相似性,并利用邏輯回歸分類器自動組合這些特征以產(chǎn)生最終的關聯(lián)得分[9]。Olayan等人計算了藥物和蛋白的多種相似性,通過啟發(fā)式過程選擇了一組信息豐富且冗余較少的相似性組合,并利用相似性網(wǎng)絡融合算法SNF融合了多個相似性值;然后,基于融合后的相似性值與已知DTI構建了異構網(wǎng)絡以提取基于路徑的特征,并訓練隨機森林模型來預測DTI[10]。然而,基于相似性的方法需要預先計算多種相似性值,因此,非常依賴藥物與蛋白特征的注釋豐富程度,難以應用于無法計算這些相似性值的藥物或蛋白。
基于網(wǎng)絡的方法通常會構建一個包括藥物與蛋白的網(wǎng)絡,通過構建的網(wǎng)絡來挖掘藥物與蛋白之間的潛在關聯(lián)信息。Luo等人構建了一個包含藥物、蛋白、疾病以及副作用的異構網(wǎng)絡,通過重啟隨機游走算法和擴散分量分析相結合來整合異構網(wǎng)絡中的各種信息并生成低維特征表示,最后,利用矩陣完成算法預測DTI[11]。基于Luo等人構建的網(wǎng)絡[11],Wan等人采用鄰域信息聚合操作更新節(jié)點的特征,通過重構異構網(wǎng)絡學習拓撲特征以預測DTI[12]。與基于相似性的方法類似,基于網(wǎng)絡的方法非常依賴已知的關聯(lián)信息,如果藥物或蛋白沒有已知的關聯(lián)或已知關聯(lián)非常少,則預測性能不佳。
相比基于相似性的方法和基于網(wǎng)絡的方法,基于特征的方法因通常僅需要藥物的結構信息以及蛋白的序列信息,因此適用范圍更廣。這類方法通常分別對藥物和蛋白進行編碼,然后將藥物與蛋白的特征組合作為最終特征輸入到機器學習方法中。隨著深度學習在多個領域中的成功應用,許多研究致力于利用深度學習預測潛在的DTI[13]。?ztürk等人提出了一種端到端的DTI預測模型DeepDTA[14],該模型利用卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)從藥物的SMILES(simplified molecular input line entry system)字符串[15]和蛋白的氨基酸序列中提取特征,然后,通過全連接(Fully Connected, FC)層預測DTI得分。Lee等人提出了DTI預測模型DeepConv-DTI[16],該模型計算了藥物直徑為4的擴展連通性指紋(extended connectivity fingerprintswith a diameter of 4,ECFP4)[17]作為藥物特征,并利用多尺度一維CNN提取蛋白序列上的特征。Nguyen人提出了一個端到端的DTI預測模型GraphDTA[18],將藥物視為分子圖,利用圖神經(jīng)網(wǎng)絡(graph neural networks,GNN)學習藥物的表示,并利用CNN提取蛋白的低維表示。受自然語言處理領域中算法的啟發(fā),Wan等人將自然語言處理領域中的潛在語義分析和Word2vec與深度學習相結合,提出了一個通用可擴展的DTI預測框架DeepCPI[19]。
鑒于注意力機制[20]能夠在訓練過程中自動關注任務相關的信息而忽略不相關的信息,一些研究致力于將注意力機制融入到DTI預測模型中。受Transformer[21]可以挖掘兩個序列之間的特征的啟發(fā),Chen等人將藥物和蛋白視為兩個序列,提出了一種基于Transformer的模型來預測DTI[22]?;贒eepDTA的模型框架,Zhao等人加入了特征級的注意力機制以模擬小分子藥物中的原子與蛋白中的氨基酸之間復雜的相互作用,提出了預測模型HyperAttentionDTI[23]。
雖然上述基于特征的方法取得了不錯的預測性能,然而,大多僅使用單個描述符作為特征或從原始的藥物SMILES字符串和蛋白序列中自動提取特征,忽略了含有具體意義的多源藥物結構描述符以及蛋白結構描述符的潛在價值。為了有效融合來自不同視角的多源描述符以預測DTI,本文提出了一個名為DFDTI的預測模型。首先,DFDTI利用嵌入層計算藥物和蛋白描述符的低維表示; 然后, 利用通道注意力機制給予不同描述符類型以不同的權重; 其次, 利用Transformer編碼器融合藥物和蛋白相關的多種類型的描述符的特征表示; 最后, 拼接藥物和蛋白的特征, 并通過深度神經(jīng)網(wǎng)絡(deep neural networks, DNN)預測DTI得分。 實驗結果表明, DFDTI在3類評價指標上均優(yōu)于所有的基線方法, 證明了融合多源描述符以預測DTI的潛在價值以及DFDTI的優(yōu)越性。
本文提出了一個基于描述符融合的深度學習模型DFDTI預測潛在的DTI,模型的框架如圖1所示。DFDTI共包括4個模塊:①生成藥物和蛋白描述符的低維表示的嵌入層;②基于通道注意力的特征加權模塊;③基于Transformer編碼器的特征增強模塊;④基于DNN的藥物蛋白相互作用預測模塊。
圖1 DFDTI模型的框架Fig.1 The framework of the DFDTI model
研究中所用的藥物蛋白相互作用數(shù)據(jù)是從DrugBank數(shù)據(jù)庫[24]中提取的,包括1 409個來自DrugBank數(shù)據(jù)庫的FDA(food and drug administration)已批準的小分子藥物與1 648個來自Uniprot數(shù)據(jù)庫[25]的已審查智人蛋白之間的8 020個藥物蛋白相互作用。此外,從DrugBank數(shù)據(jù)庫中提取了藥物的SMILES結構信息,從Uniprot數(shù)據(jù)庫中提取了蛋白的氨基酸序列。
在本節(jié)中,計算了多種描述符作為藥物與蛋白的初始特征,并將其作為DFDTI的輸入。使用的藥物描述符共包含5種藥物分子指紋,蛋白描述符共包含5種蛋白序列描述符。
1.2.1 藥物描述符
分子指紋是編碼分子結構特征的一種方式,在虛擬篩選、基于相似性的化合物搜索、靶標分子排名以及其他藥物發(fā)現(xiàn)過程中都發(fā)揮著重要作用[26]。常見的分子指紋包括基于子結構的指紋、基于拓撲或路徑的指紋和圓形指紋。本節(jié)計算的藥物描述符包括以下3種。
1)基于子結構的指紋MACCS[27]和PubChem[28]?;谧咏Y構通常根據(jù)給定的子結構或特征是否存在而設置,其中,MACCS包含166個子結構,而PubChem包含881個子結構。
2)基于拓撲的指紋RDKit[29]。基于拓撲的指紋根據(jù)從一個原子出發(fā)指定長度的所有路徑產(chǎn)生指紋,RDKit根據(jù)給定最小長度和最大長度之間的所有分子路徑計算分子指紋,由2 048個比特位組成。
3)圓形指紋ECFP4以及直徑為4的功能基指紋(functional-class fingerprints with a diameter of 4,FCFP4)[30]。圓形指紋會根據(jù)從原子出發(fā)指定半徑范圍的子結構產(chǎn)生分子指紋,其中,最常用的指紋類型為ECFP4。與ECFP不同的是,FCFP中具有相同功能或相似功能的原子沒有區(qū)別。圓形指紋的長度通常有1 024和2 048兩種,本節(jié)中使用的是1 024位的圓形指紋。
指紋MACCS、RDKit、ECFP4和FCFP4由開源化學信息Python包RDKit[29]計算,指紋PubChem由R包rcdk[31]計算。
1.2.2 蛋白描述符
基于序列的分析和預測是基本的生物信息學任務,有助于理解蛋白的結構功能[32]。為了從蛋白序列中提取不同的特征以生成數(shù)字向量,計算了以下5種蛋白序列描述符作為蛋白描述符。
1)三肽組成(tripeptides composition, TPC)[33]。每一位都代表了蛋白序列中每種類型三肽的出現(xiàn)頻率,向量維數(shù)為8 000維。
2)k間隔氨基酸對組成(composition of k-spaced amino acid pairs, CKSAAP)[34]。通過計算間隔從0到k的氨基酸對在蛋白序列中的頻率提取序列特征。本節(jié)中k取值為3,向量維數(shù)為1 600維。
3)k間隔聯(lián)合三元組(k-spaced conjoint triad, KSCTriad)[35]。通過計算間隔從0到k的三元組(3個連續(xù)的氨基酸組成的單元)在蛋白序列中的頻率提取特征。本節(jié)中k取值為3,向量維數(shù)為1 372維。
4)偽氨基酸組成(pseudo-amino acid composition, PAAC)[36]。前20位代表了每種類型的氨基酸在蛋白序列中的頻率,其他代表各種包含序列順序信息的偽成分。本節(jié)中使用的PAAC向量維數(shù)為22維。
5)組成、轉化和分布(composition, transition, and distribution, CTD)[37]。將氨基酸序列轉化成具有某些結構或理化性質的殘基序列,然后為給定的結構或理化性質分別計算組成、轉化和分布3種描述符,最終向量維數(shù)為273維。
所有類型的蛋白序列描述符均由開源平臺iLearnPlus[32]計算。
由于描述符向量初始維度高,且不同類型的描述符向量維度相差較大,因此,首先通過多個結構相同但大小不同的嵌入層為每種類型的藥物描述符和蛋白質描述符生成對應的維度相同的低維表示。對于任意類型的藥物描述符s∈{MACCS, PubChem, RDKit, ECFP4, FCFP4},通過一層FC層生成其低維表示。
(1)
類似地,對于任意類型的蛋白描述符t∈{TPC, CKSAAP, KSCTriad, PAAC, CTD},其低維表示生成過程為
(2)
由于不同類型的描述符對DTI預測的貢獻度是不同的,因此,需要對不同類型的描述符加權以區(qū)分其貢獻度,使更重要的描述符發(fā)揮更大的作用。而在輸入到預測模型之前,其貢獻度是未知的,因此,受Hu等人[38]啟發(fā),本文通過通道注意力模塊自動學習不同描述符的權重,模塊框架如圖2所示。
圖2 基于通道注意力的特征加權框架Fig.2 The framework of feature weighting based on channel attention
(3)
(4)
式中:average代表全局平均池化操作;max代表全局最大池化操作。得到藥物的2種全局表示后,將其作為輸入得到其通道注意力權重,
(5)
(6)
(7)
式中:W1∈RC×r和W2∈Rr×C代表可訓練的權重;C代表通道數(shù);r代表比例;b1與b2代表可訓練的偏差;Softmax代表歸一化函數(shù);σ是激活函數(shù)Relu。本節(jié)中C取值為5,r取值為16。
此時,通過該通道注意力權重adr可以區(qū)分不同描述符特征的貢獻度,使得對最終DTI預測貢獻更大的特征獲得更大的權重值。在得到藥物不同通道的注意力得分后,將其與原特征相乘得到加權后的藥物特征表示,
(8)
雖然不同描述符之間是相互獨立的,但是同一藥物的不同描述符或同一蛋白的不同描述符之間可能存在相關性。受Transformer能夠適應多模態(tài)數(shù)據(jù)以挖掘多類型特征之間的相關性及互補性的啟發(fā),本文將藥物與蛋白的不同類型的描述符看作藥物與蛋白的多模態(tài)數(shù)據(jù),利用單層Transformer編碼器增強藥物與蛋白的特征表示。
由于使用的特征之間沒有序列關聯(lián),本節(jié)中的Transformer編碼器去除了位置編碼模塊,由單頭自注意力層、殘差連接和層歸一化、前饋層3部分組成,模塊框架如圖3所示。最終可以獲得藥物的增強特征和蛋白的增強特征。
圖3 基于Transformer編碼器的特征增強框架Fig.3 The framework of feature enhancement based on Transformer encoder
1)單頭自注意力層。自注意力層是Transformer中的關鍵技術,可以捕捉不同特征向量之間的相關性。具體地,對于每種類型的特征輸入,自注意力層為每個輸入生成3個不同的向量,分別命名為查詢Q、鍵K和值V。給定Q,自注意力層會計算該Q與每個K的注意力得分,然后,將該注意力得分乘以每個K相應的V。注意力得分的具體計算過程如下,
(9)
式中:dk是取決于圖層大小的比例因子,即K向量維度的平方根。自注意力機制可以減少對外部信息的依賴,專注于捕獲不同類型特征的內(nèi)部相關性。
2)殘差連接和層歸一化。殘差連接用于改善信息流,避免因網(wǎng)絡過度深化而導致梯度消失和退化的問題。殘差連接表示將一層的輸出添加到前一層的輸出。層歸一化旨在一定程度上避免過擬合,即對樣本中特定類型特征的特征向量進行歸一化。
3)前饋層。前饋層由2層FC層組成,目的是將自注意力層得到的向量投影到一個空間中,以便更容易地提取所需的信息。
在獲得所有類型的增強特征后,將藥物和蛋白質的所有增強特征拼接作為藥物蛋白對的最終特征表示hdr-p,然后,將hdr-p輸入到DNN中,預測藥物蛋白相互作用。DNN可以表示為
y′=DNN(hdr-p)
(10)
本節(jié)中構建的DNN共由3個隱藏層和1個輸出層組成。DNN中第l層隱藏層更新特征的過程可表示為
(11)
y′=Sigmoid(Woyh+bo)
(12)
式中:Wo和bo代表輸出層的權重和偏差;yh代表最后一層隱藏層的輸出向量;Sigmoid代表歸一化函數(shù),用于將輸出值映射到0到1之間的交互得分。
損失函數(shù)定義為藥物蛋白對的真實標簽y與預測得分y′之間的二分類交叉熵損失函數(shù)。對于包含N個樣本的批次數(shù)據(jù),損失函數(shù)可以表示為
(13)
學習率是神經(jīng)網(wǎng)絡訓練時的重要參數(shù),如果過大則會導致不收斂,過小則會導致收斂速度太慢。因此,本文使用動態(tài)學習率衰減策略優(yōu)化模型的訓練過程。當驗證集的AUC連續(xù)20次迭代均沒有升高時,說明此時模型的學習遇到了瓶頸,學習率降低為當前學習率的一半。
本文所提方法DFDTI的平臺配置為:Inter?CoreTMi7-9750H@2.60 GHz,內(nèi)存32 GiB,GPU類型為NVIDIA GeForce RTX 2060,操作系統(tǒng)為Windows 10,開發(fā)環(huán)境為Python 3.8+CUDA 10.2+cuDNN 7.6.5+PyTorch 1.10.0。
DFDTI的超參數(shù)設置如表1所示。
表1 DFDTI的超參數(shù)Tab.1 Hyperparameter of DFDTI
由于DTI預測為分類任務,因此,使用準確率(accuracy rate,ACC,式中簡記RACC)作為衡量模型的評價指標之一,分類閾值設為0.5。
(14)
式中:NTP和NTN分別代表真陽性和真陰性的數(shù)量;NP和NN分別代表陽性樣本和陰性樣本的數(shù)量。
考慮到人工設定分類閾值可能難以準確衡量不同方法的預測性能,為了避免閾值選擇的主觀性,本文還使用接收機工作特性(receiver operating characteristic, ROC)曲線下面積(area under curve, AUC)和精確召回率(precision recall, PR)曲線下面積(area under precision recall curve, AUPR)作為衡量模型性能的主要指標。ROC曲線繪制了不同閾值下的真陽性率(true positive rate, TPR,式中簡記RTP)與假陽性率(false positive rate,FPR,式中簡記RFP),PR曲線繪制了不同閾值下的精準率(precision,式中簡記Rpre)與召回率(recall,式中簡記Rrec)。TPR和FPR的定義為
(15)
(16)
式中:NFP和NFN分別代表假陽性和假陰性的數(shù)量。
精準率和召回率定義為
(17)
(18)
在研究中,已知的藥物蛋白相互作用被視為正樣本,未知關聯(lián)的藥物蛋白對被視為負樣本。由于未知藥物蛋白對的數(shù)量遠遠大于已知藥物蛋白相互作用的數(shù)量,隨機從未標記藥物蛋白對中選擇一定數(shù)量的藥物蛋白對作為負樣本。本文構建了兩類數(shù)據(jù)集:均衡數(shù)據(jù)集和非均衡數(shù)據(jù)集。
1)均衡數(shù)據(jù)集。從未標記藥物蛋白對中隨機選擇與正樣本數(shù)量相等的藥物蛋白對作為負樣本,最終數(shù)據(jù)集中共包含8 020個正樣本和8 020個負樣本??紤]到手動選擇不同負樣本時實驗結果不同,為了在一定程度上避免單次隨機選擇負樣本時可能帶來的實驗誤差,并公平比較不同的DTI預測方法,從未標記的藥物蛋白對中隨機選取3次負樣本,并將其構成的數(shù)據(jù)集分別命名為DTI-1、DTI-2與DTI-3。
2)非均衡數(shù)據(jù)集??紤]到實際情況中負樣本的數(shù)量大于正樣本的數(shù)量,構建了2個負樣本多于正樣本的數(shù)據(jù)集,以驗證模型的預測性能。分別從未標記藥物蛋白對中隨機選擇數(shù)量為正樣本數(shù)量3倍和5倍的藥物蛋白對作為負樣本構建數(shù)據(jù)集(即24 060個負樣本和40 100個負樣本),并將這2個數(shù)據(jù)集分別命名為DTI-3fold和DTI-5fold。
為了公平驗證預測方法的性能,所有數(shù)據(jù)集中的訓練集、驗證集和測試集按8∶1∶1的比例隨機劃分5次,并以5次實驗的平均結果作為最終結果。為了保證所有方法使用相同的訓練集、驗證集和測試集,數(shù)據(jù)集的劃分在輸入預測方法之前完成。
為了證明模型性能的優(yōu)越性,將DFDTI的性能與6個先進的基于深度學習的DTI預測方法進行了比較。
1)DeepDTA[14]。分別利用CNN從藥物的SMILES字符串和蛋白序列中提取特征,然后,將藥物與蛋白的特征拼接輸入到DNN中。
2)DeepConv-DTI[16]。首先,計算藥物的ECFP4指紋作為藥物的初始特征。然后,通過FC層生成藥物的低維表示。此外,利用CNN從蛋白序列中提取特征。最后,拼接藥物與蛋白的特征輸入到DNN中。
3)GraphDTA[18]。首先,將藥物的SMILES字符串轉化為以原子為節(jié)點的分子圖,并通過GNN生成藥物的低維表示。然后,利用CNN提取蛋白特征,并拼接藥物與蛋白的特征輸入到DNN中。
4)DeepCPI[19]。利用直徑為2的ECFP指紋生成藥物的子結構,并通過潛在語義分析生成藥物的特征。對于蛋白,將每個蛋白的氨基酸序列視為“句子”,將每3個不重疊的氨基酸視為“單詞”,然后,利用Word2vec生成蛋白質的特征。隨后,分別通過兩層FC層提取藥物和蛋白的低維表示,并將其拼接輸入到DNN中。
5)TransformerCPI[22]。通過圖卷積神經(jīng)網(wǎng)絡(graph convolutional network,GCN)學習藥物的特征,利用Word2vec將蛋白序列轉換為蛋白特征。此外,該方法修改了Transformer編碼器,使其更適合處理基于序列的DTI預測任務。隨后,將藥物特征作為解碼器的輸入,將蛋白特征作為編碼器的輸入,最后,將解碼器輸出的相互作用向量輸入到FC層中,得到預測得分。
6)HyperAttentionDTI[23]。與DeepDTA類似,不同的是該方法利用特征矩陣上的注意力機制為每個原子和氨基酸分配一個注意力向量。
各基線方法的框架如表2所示。
表2 基線的框架Tab.2 The framework of baselines
為了證明模型DFDTI的優(yōu)越性,在3個數(shù)據(jù)集上將DFDTI與基線方法進行了比較,實驗結果如表3所示。可以看出,相比于基線方法,DFDTI在3個數(shù)據(jù)集上的3類指標中均取得了最優(yōu)性能,而HyperAttentionDTI均取得了次優(yōu)性能。相比于HyperAttentionDTI,3個數(shù)據(jù)集上的ACC分別高出了0.016 6、0.013 9和0.022 7,AUC分別高出了0.011 7、0.007 2和0.011 5,而AUPR分別高出了0.014 5、0.008 0和0.012 9。
從均衡數(shù)據(jù)集上的AUC來看,所有方法的預測結果從高到低分別是DFDTI、HyperAttentionDTI、DeepDTA、DeepConv-DTI、DeepCPI、TransformerCPI和GraphDTA。其中,所有基線方法均是從某個視角出發(fā)計算藥物與蛋白的特征,然后,通過單視角特征預測DTI,而DFDTI融合了多個視角下的描述符特征,因此,DFDTI可以提取更全面的結構信息。此外,排名靠后的GraphDTA和TransformerCPI均利用了GNN從分子圖中提取藥物的結構信息,這樣的方法雖然可以從復雜的分子圖中提取更詳細的信息,但是由于數(shù)據(jù)集大小有限,無法完全學習到復雜的分子圖中的拓撲特征,甚至不如與其特征提取過程類似的ECFP指紋。
從表3中還可以看出,除GraphDTA的結果有一定程度上的變化以外,其他基線方法在3個數(shù)據(jù)集上的結果差異均不明顯,證明了取5次結果平均值作為最終結果衡量方法的性能具有一定的穩(wěn)定性,有利于公平比較不同的方法性能。
為了進一步證明模型DFDTI的優(yōu)越性,在2個非均衡數(shù)據(jù)集上與基線方法進行了比較,實驗結果如表4所示??梢钥闯?相比于基線方法,DFDTI在2個數(shù)據(jù)集上的3類指標中均取得了最優(yōu)性能。相比于次優(yōu)方法,2個數(shù)據(jù)集上的ACC分別高出了0.011 8和0.006 8,AUC分別高出了0.001 1和0.000 2,而AUPR分別高出了0.012 1和0.009 9。
結合表3和表4的結果可以看出,隨著數(shù)據(jù)集中負樣本數(shù)量的增加,大多數(shù)方法的ACC和AUC都有一定程度的增加,而AUPR有一定程度的降低。這樣的結果與常識是符合的,即在非均衡數(shù)據(jù)集中AUPR能提供更有價值的性能評估。從非均衡數(shù)據(jù)集上的AUPR來看,所有方法的預測結果從高到低分別是DFDTI、HyperAttentionDTI、DeepDTA、DeepConv-DTI、DeepCPI、TransformerCPI和GraphDTA。
從表3和表4的結果可以看出,性能最優(yōu)的基線方法為HyperAttentionDTI。本節(jié)從以下幾個方面對HyperAttentionDTI與DFDTI進行詳細的對比。
1)輸入。HyperAttentionDTI直接以藥物的SMILES字符串和蛋白的氨基酸序列作為輸入,而DFDTI以藥物的5種分子指紋和5種蛋白序列描述符作為輸入。HyperAttentionDTI通過one-hot編碼對SMILES字符串的64種字符和氨基酸序列的20種氨基酸進行編碼,并通過設定最大長度將變長數(shù)據(jù)轉換成定長數(shù)據(jù)(若小于最大長度則用0補齊,超過最大長度則截斷,藥物字符串和蛋白字符串的最大長度設為100個字符)。顯然,這樣的處理方法不適用于處理長度特別長或特別短的藥物字符串和蛋白序列。DFDTI的輸入為定長的描述符,描述符中每一位都代表了某種特定的含義。
2)嵌入層。HyperAttentionDTI利用嵌入層將稀疏的one-hot編碼向量轉化為密集向量,輸出為二維向量。DFDTI利用嵌入層將不同長度的描述符向量轉化為統(tǒng)一大小的密集特征,每個嵌入層的輸出為一維向量。
3)特征提取算法。HyperAttentionDTI利用3層CNN提取藥物與蛋白的結構特征,并利用基于特征的注意力機制為每一個原子和每一個氨基酸訓練了一個注意力向量,以突出部分原子或氨基酸。DFDTI利用通道注意力機制對不同類型的描述符特征進行加權,然后,利用Transformer編碼器增強藥物與蛋白的特征表示。
4)預測算法。HyperAttentionDTI和DFDTI均在拼接藥物與蛋白的特征后使用DNN進行DTI預測,不同點在于HyperAttentionDTI使用Dropout增強泛化性能,DFDTI通過批次歸一化增強泛化性能。
5)復雜度。相比于HyperAttentionDTI,DFDTI嵌入層的輸出向量維度更低,模型的參數(shù)量更少,訓練時間也更短。
為了證明特征融合的有效性,即特征融合后的結果優(yōu)于任意單一描述符作為特征的結果,本節(jié)在DTI-1數(shù)據(jù)集上,將所有類型的單一藥物描述符與單一蛋白描述符兩兩交叉輸入到DFDTI中的DNN模塊中預測DTI。不同組合的描述符作為特征的AUC結果如圖4所示。
圖4 單一描述符特征的AUC結果Fig.4 The AUC results of single descriptor feature
從圖4可以看出, 單一描述符特征組合AUC最高時(AUC=0.937 1), 藥物特征為圓形指紋ECFP4, 蛋白特征為包含了三元組信息的KSCTriad。 DFDTI模型在DTI-1數(shù)據(jù)集上的AUC為0.953 0, 比最優(yōu)單一特征組合的情況高出了0.015 9,充分證明了DFDTI融合多源描述符特征的方法可以提高預測DTI的性能。
此外,當藥物特征為ECFP4時,不同蛋白描述符作為特征時的AUC結果從高到低為KSCTriad、PAAC、CTD、CKSAAP和TPC。當?shù)鞍滋卣鳛镵SCTriad時,不同藥物分子指紋作為特征時的AUC結果從高到低為ECFP4、PubChem、RDKit、FCFP4和MACCS。
為了證明DFDTI模型中不同組成部分的有效性,即所提特征融合方法的有效性,在多種設置下進行了實驗與DFDTI比較,包括:①DFDTI中去除所有的注意力模塊,僅保留描述符嵌入模塊以及基于DNN的DTI預測模塊(Only-DNN);②DFDTI中去除Transformer編碼器模塊,即注意力模塊中僅保留基于通道注意力的特征加權模塊(Only-Channel);③DFDTI中去除通道注意力模塊,注意力模塊中僅保留基于Transformer編碼器的特征增強模塊(Only-Transformer)。
不同設置下的實驗在DTI-1數(shù)據(jù)集上的AUC結果如圖5所示。 可以看出, 去除了所有注意力模塊后的AUC為0.939 8, 相比于DFDTI降低了0.013 2,證明了提出的注意力模塊的有效性。從3.4節(jié)的預測結果可知,單個描述符組合的最優(yōu)AUC為0.937 1,而將多個描述符特征的低維表示拼接輸入到DNN中的AUC結果為0.939 8,僅比單個描述符組合的最優(yōu)結果高0.002 7。這樣的結果證明了直接拼接多個描述符的低維表示以融合特征的能力是非常有限的。
圖5 DFDTI中不同組件的影響Fig.5 The effect of different components in DFDTI
從圖5可以看出,Only-Channel的AUC比Only-DNN高出了0.007 7,證明了基于通道注意力的特征加權模塊的有效性。相比于Only-DNN,Only-Channel添加的通道注意力自動學習了不同描述符的權重,使得更有價值的描述符在進行預測時有更高的重要性,從而提高了最終的預測性能。如圖5所示,Only-Transformer的AUC比Only-DNN高出了0.009 1,證明了Transformer編碼器模塊利用不同描述符之間的相關性提取特征的有效性。相比于Only-DNN,Only-Transformer添加的Transformer編碼器更有效地融合了多個自相關的描述符特征。
此外,相比于Only-Channel和Only-Transformer, DFDTI的AUC分別高出了0.005 5和0.004 1,證明了將基于通道注意力的特征加權模塊與基于Transformer編碼器的特征增強模塊進行組合預測DTI的有效性。綜上所述,這2個模塊不僅可以獨立地發(fā)揮作用,組合在一起更可以增強DTI預測的性能。
本文提出了一種基于深度學習的藥物-靶標相互作用預測模型DFDTI??紤]到單一的描述符僅能代表某個角度下的特征,設計了一種基于特征融合的DTI預測框架,以融合來源于不同視角的藥物描述符和蛋白描述符。為了證明模型的優(yōu)越性,將DFDTI與6種最新的基線方法進行了比較。實驗結果表明,與基線方法相比,DFDTI在ACC、AUC和AUPR這3種評價指標中均獲得了最優(yōu)結果。此外,進行了一系列實驗證明了DFDTI融合描述符特征模塊的有效性。
后續(xù)將從2個方面繼續(xù)進行研究以提升模型的預測性能。①加入更多類型的描述符并采用特征選擇方法選擇最優(yōu)的描述符組合;②藥物特征與蛋白特征之間采用更合理、更具可解釋性的交互方法取代拼接操作。