馬怡青 蔡美玲 陳明 成明俊
摘要:藥物-藥物相互作用(Drug-drug interactions, DDIs)指病人在一定時(shí)間內(nèi)服用兩種及以上藥物后藥物產(chǎn)生的復(fù)合效應(yīng),可表現(xiàn)為藥性增強(qiáng)或減弱。本文提出一種基于圖神經(jīng)網(wǎng)絡(luò)模型的預(yù)測方法,在已有藥物間相互作用基礎(chǔ)上,結(jié)合藥物化學(xué)結(jié)構(gòu)特征等屬性,分進(jìn)行藥物間相互作用預(yù)測實(shí)驗(yàn)。
關(guān)鍵詞:藥物相互預(yù)測;圖神經(jīng)網(wǎng)絡(luò);符號(hào)網(wǎng)絡(luò);深度學(xué)習(xí)
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)18-0061-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 引言
藥物-藥物相互作用(Drug-drug interactions, DDIs)指的是兩種及以上藥物混合使用時(shí)藥物產(chǎn)生的副作用效果[1],具體可表現(xiàn)為藥效增強(qiáng)或藥效減弱作用。這種現(xiàn)象在現(xiàn)實(shí)用藥中表現(xiàn)為藥性、毒性等增強(qiáng)或減弱。如果將藥物間的增強(qiáng)關(guān)系視為是正向作用,減弱關(guān)系視為是負(fù)向作用,那么藥物間相互作用關(guān)系可以使用一張圖的鄰接表進(jìn)行表示。
假定使用圖[G(D,E)]來表示一個(gè)DDIs網(wǎng)絡(luò),其中[D=d1,d2,...,dm]集合, 表示大小為[m]的藥物結(jié)點(diǎn)[d]集合;[E]表示藥物結(jié)間關(guān)系,如圖1所示。圖中,結(jié)點(diǎn)1和結(jié)點(diǎn)2間存在已證明的增強(qiáng)關(guān)系;結(jié)點(diǎn)2和結(jié)點(diǎn)3間存在已證明的減弱關(guān)系,而結(jié)點(diǎn)1和結(jié)點(diǎn)3間的關(guān)系是未知。通常,圖[G(D,E)]可以用一個(gè)[m×m]的鄰接對(duì)稱矩陣[Am×m=aij]表示,如式(1)所示,1表示藥物結(jié)點(diǎn)間存在增強(qiáng)關(guān)系,-1則為減弱關(guān)系,0則為未知。預(yù)測實(shí)驗(yàn)是根據(jù)此鄰接矩陣中的非0元素信息,對(duì)0值元素預(yù)測。
[A=0100010-1000-10010000-1001-10]? ? ? ? ? ? ? ? ? ? ? ? ? (1)
2 相關(guān)工作
對(duì)于藥物間相互作用預(yù)測,生物實(shí)驗(yàn)雖然準(zhǔn)確,但成本高、耗時(shí)久。計(jì)算方法相反,所以在工業(yè)界和學(xué)術(shù)界取得很大關(guān)注。多數(shù)現(xiàn)有的基于深度學(xué)習(xí)的預(yù)測方法,主要為傳統(tǒng)的二值預(yù)測,即預(yù)測某一藥物對(duì)間產(chǎn)生DDIs的可能性。Liu等人利用隨機(jī)森林預(yù)測模型結(jié)合多特征進(jìn)行藥物相互作用預(yù)測[2];Liu等人基于膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制對(duì)文本中的藥物相互作用關(guān)系進(jìn)行抽取[3];Feng等人結(jié)合圖卷積網(wǎng)絡(luò)GCN和深度神經(jīng)網(wǎng)絡(luò)DNN進(jìn)行藥物相互預(yù)測[4]??紤]DDIs更具體的增強(qiáng)或減弱作用,必須綜合考慮DDIs網(wǎng)絡(luò)結(jié)構(gòu)。本文通過使用流行的圖神經(jīng)網(wǎng)絡(luò)模型—SGCN模型,在式(1)定義的符號(hào)網(wǎng)絡(luò)上進(jìn)行藥物間相互作用預(yù)測。
3 基于結(jié)點(diǎn)嵌入的DDIs預(yù)測框架
結(jié)點(diǎn)嵌入的目標(biāo)是對(duì)結(jié)點(diǎn)進(jìn)行編碼,生成一種結(jié)點(diǎn)的特征向量表示,這種向量表示不僅應(yīng)體現(xiàn)結(jié)點(diǎn)的自身屬性,同時(shí)應(yīng)能反應(yīng)圖中結(jié)點(diǎn)間鄰居關(guān)系??紤]到已知的藥物間相互作用關(guān)系和藥物自身的特征表示,本文分兩步驟來解決DDIs預(yù)測問題,如圖2所示:
Step1特征提?。横槍?duì)給定的鄰接對(duì)稱矩陣[A]和對(duì)應(yīng)結(jié)點(diǎn)的特征矩陣[T],通過圖神經(jīng)網(wǎng)絡(luò)模型,針對(duì)所有藥物結(jié)點(diǎn)得到一種低維向量表示[Z],[F1=A,T→Z]。
Step2相互作用預(yù)測:對(duì)任何一對(duì)藥物結(jié)點(diǎn)對(duì)[di]和[dj],將它們的低維向量表示[Zi]和[Zj][Zi,Zj∈Z]進(jìn)行拼接作為藥物節(jié)點(diǎn)對(duì)的特征表示,使用線性分類器對(duì)[di]和[dj]的相互作用關(guān)系進(jìn)行類別預(yù)測,[F2:(Zi,Zj)→0,1,-1]。
本文使用線性回歸模型對(duì)藥物間相互關(guān)系類型的進(jìn)行預(yù)測。對(duì)藥物節(jié)點(diǎn)對(duì)的特征表示,通過線性分類器將它映射到3種情況{0,1,-1},保留正負(fù)情況中較大概率一方作為結(jié)果。
3.1 基于SGCN的結(jié)點(diǎn)嵌入
傳統(tǒng)的圖卷積神經(jīng)網(wǎng)絡(luò)例如GCN[5],只考慮結(jié)點(diǎn)間是否有邊,即鄰接矩陣元素只考慮0或1,不適用于符號(hào)預(yù)測。
SGCN理論[6]出自平衡理論。平衡理論認(rèn)為“朋友的朋友是朋友”而“朋友的敵人是敵人”。假設(shè)從結(jié)點(diǎn)[i]出發(fā),經(jīng)過[l]條邊可以抵達(dá)結(jié)點(diǎn)[j],若此路徑包含偶數(shù)條負(fù)邊,則[j∈Bi(l)],即結(jié)點(diǎn)[j]屬于結(jié)點(diǎn)[i]的[l]層朋友集合;若此路徑包含奇數(shù)條負(fù)邊,則[j∈Ui(l)],即結(jié)點(diǎn)[j]屬于結(jié)點(diǎn)[i]的[l]層敵人集合。
假設(shè)[h0i]是結(jié)點(diǎn)[i]的原始特征,維度大小為[din]。SGCN模型中結(jié)點(diǎn)[i]第一層隱藏層輸出分別考慮它的直接朋友和直接敵人的特征表示,定義如式(2):
[hB(1)i=σ(WB(1)[j∈N+ih(0)jN+i,h(0)i]),hU(1)i=σ(WU(1)[k∈N-ih(0)kN-i,h(0)i])] (2)
其中[σ]是一個(gè)非線性激活函數(shù),在實(shí)現(xiàn)中選用ReLu函數(shù)。[WB1,WU1∈Rdoutx2din]是模型分別針對(duì)結(jié)點(diǎn)[i]的直接朋友集合[Bi(1)]和直接敵人集合[Ui(1)]的變換矩陣,[dout]是隱藏層輸出向量的長度。
結(jié)點(diǎn)[i]的第[l]層表達(dá)以迭代方式同時(shí)考慮[l-1]層鄰結(jié)點(diǎn)的朋友集合、敵人集合和自身表達(dá)。聚合公式如式(3):
[hB(l)i=σ(WB(l)[j∈N+ihB(l-1)jN+i,k∈N-ihU(l-1)kN-i, hB(l-1)i]), ]
[hU(l)i=σ(WU(l)[j∈N+ihU(l-1)jN+i,k∈N-ihB(l-1)kN-i,hU(l-1)i])]? ? ? (3)
其中[ WBl,WUl∈Rdoutx3din]。
經(jīng)過兩次聚合,可以獲取藥物結(jié)點(diǎn)[i]的兩個(gè)隱藏層表示,稱為[hB(2)i]和[hU(2)i],這里將這兩個(gè)隱藏層輸出進(jìn)行拼接作為結(jié)點(diǎn)
4 實(shí)驗(yàn)
4.1實(shí)驗(yàn)數(shù)據(jù)集
本文使用了來自四篇DDIs預(yù)測相關(guān)性的論文中提供的不同數(shù)據(jù),包括4個(gè)數(shù)據(jù)集,如表1所示。其中, DB1有603個(gè)藥物節(jié)點(diǎn)[1]; DB2有568個(gè)藥物節(jié)點(diǎn)[7]; DB3有1562個(gè)藥物節(jié)點(diǎn),附有881維的化學(xué)結(jié)構(gòu)特征和1642維的藥物捆綁蛋白質(zhì)結(jié)構(gòu)特征[8],都是二值信息; DB4[4]有1934個(gè)藥物節(jié)點(diǎn)。
4.2實(shí)驗(yàn)設(shè)置
本文選取了通用的評(píng)價(jià)指標(biāo)來對(duì)本文提出的算法進(jìn)行性能評(píng)估,包括精確度(accuracy)、準(zhǔn)確率(precision)、召回率(recall)、[F1]指標(biāo)和AP指標(biāo),同時(shí)還計(jì)算AUC和AUPR值。
以上指標(biāo)中,有一部分計(jì)算結(jié)果是針對(duì)模型的預(yù)測得分。本文考慮兩種角度的預(yù)測打分,一類是根據(jù)線性分類器得到的預(yù)測概率進(jìn)行計(jì)算打分(連續(xù)值),一類是將對(duì)線性分類器得到的預(yù)測概率進(jìn)行處理,選擇正負(fù)邊中概率較大的一方作為最終預(yù)測結(jié)果作為分?jǐn)?shù)。
5 實(shí)驗(yàn)結(jié)果
5.1 SGCN參數(shù)調(diào)諧
參數(shù)設(shè)置上,本文使用格點(diǎn)搜索的方法,尋找最優(yōu)指標(biāo)對(duì)應(yīng)的參數(shù)。降低后的維度分別為:8、16、32、64、128、256。
綜合參數(shù)調(diào)諧結(jié)果,本文后續(xù)實(shí)驗(yàn)主要基于DB3進(jìn)行,SGCN最優(yōu)的參數(shù)設(shè)置:降低后的維度為256時(shí),實(shí)驗(yàn)結(jié)果相較于其他參數(shù)設(shè)置,表現(xiàn)出更好的綜合指標(biāo)結(jié)果。
5.2 藥物化學(xué)結(jié)構(gòu)特征,藥物蛋白質(zhì)結(jié)構(gòu)特征等特征比較
實(shí)驗(yàn)基于DB3數(shù)據(jù)集進(jìn)行參數(shù)比較和指標(biāo)評(píng)估。藥物的特征的包括:藥物的化學(xué)結(jié)構(gòu)特征、藥物的蛋白質(zhì)屬性特征以及基于SSE方法生成的藥物在網(wǎng)絡(luò)中產(chǎn)生的結(jié)構(gòu)特征[6]。
實(shí)驗(yàn)中發(fā)現(xiàn)藥物化學(xué)結(jié)構(gòu)PubChem特征單獨(dú)使用時(shí),指標(biāo)結(jié)果差于其他兩種特征單獨(dú)使用情況,藥物的蛋白質(zhì)結(jié)構(gòu)DBP特征和藥物在網(wǎng)絡(luò)中的位置信息SSE特征表現(xiàn)出相似的指標(biāo)結(jié)果。指標(biāo)結(jié)果波動(dòng)情況也是PubChem在低維度時(shí)波動(dòng)最大,SSE會(huì)略優(yōu)于DBP特征。
同時(shí),實(shí)驗(yàn)發(fā)現(xiàn)使用線性分類器分類結(jié)果作為預(yù)測分?jǐn)?shù)時(shí)計(jì)算AUC指標(biāo)和AP指標(biāo)的結(jié)果會(huì)更優(yōu)。
表2是三種特征單獨(dú)使用,在最優(yōu)參數(shù)設(shè)置下的各指標(biāo)結(jié)果:
其中auc1表示使用預(yù)測結(jié)果作為預(yù)測分?jǐn)?shù)時(shí)AUC指標(biāo)的值,auc2則表示使用線性分類器分類分?jǐn)?shù)作為預(yù)測分?jǐn)?shù)時(shí)AUC指標(biāo)的值。以此類推其他指標(biāo)。
本文還考慮通過拼接這些特征得到更多的藥物信息進(jìn)行DDIs預(yù)測實(shí)驗(yàn),這里使用最好預(yù)測效果的DBP和SSE進(jìn)行拼接然后實(shí)驗(yàn),還考慮了將這三者進(jìn)行拼接進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示:
實(shí)驗(yàn)指標(biāo)和單獨(dú)采用SSE的情況沒有太高的優(yōu)化,側(cè)面反映SSE應(yīng)該是其中最有效果的特征信息。
表4是采用其他三個(gè)數(shù)據(jù)集得到的實(shí)驗(yàn)結(jié)果和DB3的匯總,在這些實(shí)驗(yàn)中,統(tǒng)一使用了SSE特征作為藥物節(jié)點(diǎn)的輸入特征表示。
6 結(jié)束語
本文使用圖符號(hào)網(wǎng)絡(luò)模型在公開藥物數(shù)據(jù)集上進(jìn)行藥物相互關(guān)系預(yù)測實(shí)驗(yàn):通過對(duì)于藥物結(jié)點(diǎn)間正向邊和負(fù)向邊的不同處理聚合藥物圖中藥物鄰接點(diǎn)信息,獲得藥物的嵌入特征表達(dá);通過拼接兩個(gè)藥物結(jié)點(diǎn)的特征表達(dá)的方法使用線性分類器進(jìn)行分類預(yù)測。在已有公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所述方法是有效的,亦是對(duì)現(xiàn)有方法的有益補(bǔ)充。
參考文獻(xiàn):
[1] Shi J Y,Huang H,Li J X,et al.TMFUF:a triple matrix factorization-based unified framework for predicting comprehensive drug-drug interactions of new drugs[J].BMC Bioinformatics,2018,19(Suppl 14):411.
[2] 劉光徽,胡俊,於東軍.基于多視角特征組合與隨機(jī)森林的G蛋白 偶聯(lián)受體與藥物相互作用預(yù)測[J].南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,40(1):1-9.
[3] 劉寧寧,琚生根,熊熙,等.基于膠囊網(wǎng)絡(luò)的藥物相互作用關(guān)系抽取方法[J].中文信息學(xué)報(bào),2020,34(1):80-86,96.
[4] Feng Y H,Zhang S W,Shi J Y.DPDDI:a deep predictor for drug-drug interactions[J].BMC Bioinformatics,2020,21(1):419.
[5] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
[6] Derr T,Ma Y,Tang J L.Signed graph convolutional networks[C]//2018 IEEE International Conference on Data Mining.November 17-20,2018,Singapore.IEEE,2018:929-934.
[7] Yu H,Mao K T,Shi J Y,et al.Predicting and understanding comprehensive drug-drug interactions via semi-nonnegative matrix factorization[J].BMC Systems Biology,2018,12(Suppl 1):14.
[8] Shi J Y,Mao K T,Yu H,et al.Detecting drug communities and predicting comprehensive drug-drug interactions via balance regularized semi-nonnegative matrix factorization[J].Journal of Cheminformatics,2019,11(1):28.
【通聯(lián)編輯:唐一東】