伍智 劉洋 周茂林
摘要:研發(fā)藥物的過程非常耗時(shí)且費(fèi)用昂貴,以現(xiàn)有藥物為基礎(chǔ)確定和發(fā)展新的治療效果有利于降低藥物的開發(fā)成本。而以往的預(yù)測(cè)方法數(shù)據(jù)的要求單一,較少考慮到疾病藥物相關(guān)數(shù)據(jù)的稀疏性,因此,該篇文章提出了一種基于異構(gòu)圖推斷的疾病與藥物相關(guān)性預(yù)測(cè)方法(Drug-disease relevant predicted by heterogeneous graph,DDRPGH)。該方法通過將藥物相似性和疾病語義相似性與余弦相似性相結(jié)合,再通過WKNKN與已知的疾病與藥物的關(guān)聯(lián)融合到異構(gòu)圖中,揭示潛在的藥物與疾病的關(guān)系。在兩個(gè)數(shù)據(jù)集的十折交叉驗(yàn)證中,該方法AUC(F:0.923;C:0.939)優(yōu)于另外三個(gè)對(duì)比方法,證明了這個(gè)方法在疾病與藥物的預(yù)測(cè)方面是可行有效的。
關(guān)鍵詞:異構(gòu)圖;余弦相似性;關(guān)系預(yù)測(cè);十折交叉驗(yàn)證;WKNKN
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)09-0037-04
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Prediction of Disease and Drug Correlation Based on Heterogeneous Graph Inference
WU Zhi1, LIU Yang2, ZHOU Mao-ling2
(1. Guangdong University of Technology, Guangzhou 510006, China; 2. Guangzhou Silinjie Technology Company Ltd, Guangzhou 510000, China)
Abstract: The process of developing drugs is very time-consuming and expensive. Determining and developing new therapeutic effects based on existing drugs is helpful to reduce the cost of drug development. However, the data of previous prediction methods are simple, and the sparsity of disease drug-related data is less considered. Therefore, this paper proposes a prediction method of disease-drug correlation based on heterogeneous graph inference(Drug-disease correlation predicted by heterogeneous graph,DDRPGH). By combining drug similarity and disease semantic similarity with cosine similarity, the method reveals the potential relationship between drugs and diseases by merging WKNKN with known disease and drug associations into heterogeneous maps. In the 10-fold cross validation of two data sets the AUC value of this algorithm is 0.923 and 0.939 which are better than the other three contrast methods. The AUC prove this method is feasible and effective in disease and drug prediction.
Key words: heterogeneous graph; semantic similarity; correlation predicted; 10-fold cross validation; WKNKN
1 背景
藥物的研發(fā)通常經(jīng)過研究和開發(fā)兩個(gè)階段,每個(gè)階段又有多個(gè)過程,是一個(gè)長(zhǎng)期、艱難和昂貴的過程,盡管近年來藥物研發(fā)的投入越來越高,平均而言,開發(fā)一種藥物需要十幾年和大約18億美元,但是新藥的批準(zhǔn)率卻沒有增加反而有降低的趨勢(shì)[1]。通過對(duì)疾病與藥物相關(guān)性的研究和預(yù)測(cè)將有助于提高藥物重定位的效率,減少新藥開發(fā)的開支,提高資源的利用率,是醫(yī)療大數(shù)據(jù)的不可或缺的應(yīng)用方向。
所謂的藥物重新定位,其目標(biāo)是在現(xiàn)有的藥物基礎(chǔ)上發(fā)現(xiàn)新的藥物與疾病的相關(guān)性,以此來拓展原有藥物對(duì)于多種疾病的實(shí)用性。因?yàn)橐环N藥物通常不是針對(duì)一種疾病的,所以理想狀態(tài)下,大多數(shù)藥物都是有很多潛在的運(yùn)用場(chǎng)景。目前為止,已經(jīng)有很多研究人員投入到藥物與疾病關(guān)系的預(yù)測(cè)算法的研究中。學(xué)者Wang提出的HGBI[2](Heterogeneous Graph Based Inference)基于基因網(wǎng)絡(luò)的藥物預(yù)測(cè),不過其局限性是所需數(shù)據(jù)中涉及的藥物目標(biāo)與miRNA的關(guān)聯(lián)數(shù)據(jù)較少;Chandrasekaran S N提出了更優(yōu)的異構(gòu)網(wǎng)絡(luò)與隨機(jī)游走結(jié)合的MBiRw[3],其中涉及大量的多元信息數(shù)據(jù),獲取難度大,處理起來也相對(duì)復(fù)雜;Huang通過網(wǎng)絡(luò)通信方法利用蛋白質(zhì)與藥物的相互作用網(wǎng)絡(luò),然后利用基因表達(dá)譜推斷和評(píng)估藥物和疾病發(fā)生的概率[4],同樣是容易受到數(shù)據(jù)的限制;Chen提出了通過藥物、miRNA和疾病關(guān)系預(yù)測(cè)藥物與疾病關(guān)系的模型HNBI[5],不過因?yàn)閿?shù)據(jù)關(guān)系復(fù)雜,運(yùn)用起來會(huì)受到一定的限制,因?yàn)樗幬锱c疾病的關(guān)聯(lián)預(yù)測(cè)已經(jīng)很難獲得提升;有的學(xué)者也開始往藥物和靶標(biāo)的方向進(jìn)行努力[6-7],基礎(chǔ)數(shù)據(jù)的獲取需要投入巨額的經(jīng)費(fèi)進(jìn)行試驗(yàn)。
大量的藥物與疾病的關(guān)系已被臨床研究證實(shí),并存儲(chǔ)在公共數(shù)據(jù)庫中,但數(shù)據(jù)的數(shù)量仍然有限。因此為了給藥物與疾病關(guān)系的尋找提供更多的途徑,本文提出一種計(jì)算方法用于疾病與藥物關(guān)系的預(yù)測(cè)(DDRPGH:Drug-disease relevant predicted by heterogeneous graph)。DDRPGH結(jié)合了多種數(shù)據(jù)信息來源,包含藥物與疾病相似性、藥物結(jié)構(gòu)相似性、疾病語義相似性,通過余弦相似性與WKNKN計(jì)算方法進(jìn)行處理,最后由異構(gòu)圖完成最后的計(jì)算并進(jìn)行預(yù)測(cè)。為了評(píng)價(jià)DDRPGH的性能,通過十倍交叉進(jìn)行驗(yàn)證。結(jié)果表明,DDRPGH在曲線下面積(AUC)分別獲得了F:92.3%和C:93.9%,并對(duì)前十五的預(yù)測(cè)進(jìn)行了驗(yàn)證,預(yù)測(cè)成功占比分別為9/15和10/15,這些結(jié)果表明本文方法在疾病與藥物相關(guān)性的預(yù)測(cè)上是有效的。
2 數(shù)據(jù)與方法
2.1 數(shù)據(jù)
數(shù)據(jù)的選擇在疾病和藥物預(yù)測(cè)中尤為重要,為了確保數(shù)據(jù)的準(zhǔn)確性和有效性,本文選用的是以往被廣泛運(yùn)用的兩個(gè)經(jīng)典數(shù)據(jù)集,數(shù)據(jù)有兩個(gè),一個(gè)是來源于藥物與疾病的經(jīng)典關(guān)系數(shù)據(jù)集F,這個(gè)關(guān)系集是由多元數(shù)據(jù)構(gòu)成,包含有藥物匹配、藥物指標(biāo)和來自UMLS(Unified Medical Language System)的疾病名稱。這個(gè)F數(shù)據(jù)集包含有1933個(gè)由593種藥物[8]和313種疾病[9]組成的關(guān)系數(shù)據(jù)。另一個(gè)是C數(shù)據(jù)集,包含由633種藥物和409種疾病組成的2353個(gè)關(guān)系數(shù)據(jù)[10]。數(shù)據(jù)關(guān)系如表1所示:
獲取到數(shù)據(jù)后,每個(gè)數(shù)據(jù)集將被處理成三個(gè)矩陣 Sd∈Rm×m,Y∈R m×n和SD∈Rn×n。矩陣Y用于描述藥物與疾病的關(guān)系,行號(hào)n是代表藥物,列號(hào)m是代表疾病,如果疾病d(j)與藥物D(i)有關(guān)聯(lián),則矩陣Y對(duì)應(yīng)位置Y(d(j), D(i))的值是1,否則為0。
數(shù)據(jù)集中的Sd是疾病相似性矩陣,以疾病的醫(yī)學(xué)描述為代表,其相似性數(shù)據(jù)是從MimMiner[11]獲取到的。SD是藥物相似性矩陣,由一對(duì)藥物的二維化學(xué)結(jié)構(gòu)評(píng)分構(gòu)成,用于預(yù)測(cè)關(guān)聯(lián)性,其中的相似性信息獲取來源是CDK(Chemical Development Kit[12])。
2.2 方法
DDRPGH 預(yù)測(cè)流程圖如圖1所示。DDRPGH分為三個(gè)步驟,第一步是分別計(jì)算疾病和藥物的余弦相似性,第二步是計(jì)算疾病和藥物關(guān)聯(lián)性矩陣的WKNKN,這一步將用到上一步的兩個(gè)相似性矩陣,第三部計(jì)算異構(gòu)圖評(píng)分矩陣用于預(yù)測(cè)。
2.2.1 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)預(yù)處理中,首先需要從疾病和藥物自身和相互之間獲取到三個(gè)矩陣,分別是疾病相似性矩陣Sd∈Rm×m,藥物與疾病的關(guān)系矩陣Y∈R m×n和藥物相似性矩陣SD∈Rn×n,之后有兩步,第一步對(duì)Sd和SD進(jìn)行余弦相似性計(jì)算并整合成新的相似關(guān)系,第二步通過WKNKN減少矩陣Y的稀疏性,這一步需要運(yùn)用到前面的相似性。最后處理好的矩陣將用于異構(gòu)圖預(yù)測(cè)方法的運(yùn)算中。
余弦相似性與整合:隨著計(jì)算能力的提升,近些年,對(duì)疾病研究有了突飛猛進(jìn)的進(jìn)展,其中對(duì)于基因領(lǐng)域的學(xué)者們進(jìn)行了許多研究,但是由于尋找疾病之間,基因之間的關(guān)系本身是一件費(fèi)事耗錢的事情,其效率也很低,往往做了很多實(shí)驗(yàn)也沒有找到之間任何的關(guān)系,所以獲得的關(guān)系數(shù)據(jù)矩陣存在稀疏性高這一特征,后來有研究者提出了方法來擴(kuò)充疾病之間以及基因之間的關(guān)系,例如使用高斯分布核相似性來分別擴(kuò)充疾病之間,基因之間的相似性,因?yàn)楦咚狗植己讼嗨贫鹊陀谟嘞蚁嗨菩訹13]。
在數(shù)據(jù)的稀疏性,藥物和疾病的預(yù)測(cè)方面,藥物與藥物,藥物與疾病的相似性數(shù)據(jù)也存在著一樣的問題,一方面是大量的藥物與大量的疾病,而其中已知的關(guān)系相對(duì)而言還是太少,受啟發(fā)與疾病與基因領(lǐng)域的方法,本文通過余弦相似性對(duì)疾病和藥物的關(guān)系進(jìn)行補(bǔ)充。
余弦相似性的原則是基于一種假設(shè),即如果藥物Di與藥物Dj是相互相似的,那么在疾病與藥物的關(guān)系矩陣中,對(duì)應(yīng)的列Y(:,Di)與列Y(:,Dj)也是相互相似的。藥物的余弦相似矩陣CD的計(jì)算公式為:
[CD=(CDDi,Dj)n×n] ? ? (1)
[CDDi,Dj=Y:,Di·Y(:,Dj)||Y(:,Di)||·||Y(:,Dj)||] ? ? ? ? ? ? (2)
其中CD(Di, Dj)是兩種藥物Di和Dj的余弦相似性。Y(:,Di)代表藥物Di和每個(gè)疾病的關(guān)聯(lián)性數(shù)據(jù)。相同的,疾病di和疾病dj的余弦相似性如下:
[Cd=(CDdi,dj)m×m] ? ? ? ? ? ? ? ? ? ?(3)
[Cddi,dj=Ydi,:·Y(dj,:)||Ydi,:||·||Y(dj,:)||] ? ? (4)
為了不完全丟失原有的關(guān)系數(shù)據(jù),接下來結(jié)合余弦相似性的工作,將藥物的余弦相似性矩陣CD與其本身的相似性矩陣SD做整合,藥物的整合相似性矩陣ID的整合公式如下:
[ID=kSDDi,Dj+(1-k)CD(Di,Dj)]? (5)
經(jīng)過試驗(yàn)后可以得到,k取0.2的時(shí)候,效果最好。相同的,可以得到疾病的整合相似性矩陣Id如下:
[Id=kSDdi,dj+(1-k)Cd(di,dj)] ? ? ? ? ? ? (6)
WKNKN:通過余弦相似性,我們擴(kuò)展了疾病與疾病之間相似數(shù)據(jù)Sd,藥物與藥物之間的相似數(shù)據(jù)SD,對(duì)于疾病與藥物相似關(guān)系數(shù)據(jù)Y的稀疏性,這里使用WKNKN方法來進(jìn)行處理,有學(xué)者在lncRNA的相似性中使用了WKNKN這種處理辦法[14],其假設(shè)原始關(guān)系矩陣Y中可能存在許多相互作用是未知的情況,即有的數(shù)值為0的位置,可能是存在相互作用的,這種預(yù)處理步驟已知鄰近關(guān)系,然后這種關(guān)系估計(jì)相互作用的可能性,最后在一些原來為0的位置賦予一個(gè)0到1的值。以此來擴(kuò)充原有矩陣,使得矩陣不會(huì)過于稀疏,對(duì)Y處理完的矩陣記為A。
2.2.2 異構(gòu)圖
DDRPGH基于異構(gòu)圖推斷算法,通過將藥物之間的相似性、疾病之間的相似性、余弦相似性以及已知的藥物和疾病之間的相似性進(jìn)行整合,用來對(duì)疾病與藥物之間的潛在關(guān)聯(lián)進(jìn)行預(yù)測(cè)。異構(gòu)圖推斷基于的假設(shè)是,存在相似性的藥物與疾病,藥物與藥物,疾病與疾病之間可以組合在一起來預(yù)測(cè)潛在的關(guān)聯(lián)。其關(guān)聯(lián)公式如下:
[Pm,n=i=1mj=1nId(mi,m)*Am(i),n(j)*ID(nj,n)]? (7)
上式表示可以通過總結(jié)長(zhǎng)度等于3的路徑來推斷疾病d和藥物D之間的潛在關(guān)聯(lián)。我們將方程表示為矩陣乘法,則可以得到如下迭代方程:
[Pi+1=α*Id×Pi×ID+1-αA] (8)
在這里,α是一個(gè)衰減因子,類似于重新啟動(dòng)隨機(jī)游走中的重新啟動(dòng)概率。
[Idmi,mj=Id(mi,mj)l=1mId(mi,mj)·l=1mId(mj,ml)]? (9)
[IDni,nj=ID(ni,nj)l=1nID(ni,nj)·l=1nID(nj,nl)]? ? (10)
當(dāng)分別利用方程(9)和(10)對(duì)Id和ID進(jìn)行歸一化時(shí),關(guān)聯(lián)概率矩陣P將收斂[2]。最終迭代將趨于穩(wěn)定,P(i)到P(i+1)由L1正則來計(jì)算變化,跳出閾值設(shè)定為10-6。
3 試驗(yàn)結(jié)果
3.1 效果判別方法
本文使用ROC曲線來刻畫模型的性能,它包含了兩個(gè)概念TPR(true positive rate)和FPR(false positive rate),求值公式如下:
[TPR=TPTP+FN] ? (11)
[FPR=FPFP+TN] ? ? ? (12)
其中,N代表負(fù)樣本數(shù)量,TP代表表示分類器正確分類的正樣本數(shù),F(xiàn)P代表被錯(cuò)誤分類的負(fù)樣本數(shù)量,TN代表被正確分類打的負(fù)樣本數(shù),F(xiàn)N代表被錯(cuò)誤分類的負(fù)樣本數(shù)。AUC[15]判別器經(jīng)常與ROC曲線一起使用,作為一種判別器存在,其定義是ROC曲線下方的面積,所以值永遠(yuǎn)小于等于1,一般來說,AUC的值在0.5到1之間。
3.2 十折交叉驗(yàn)證結(jié)果分析
在實(shí)驗(yàn)初期,異構(gòu)圖的預(yù)測(cè)效果不佳,在后續(xù)加入了WKNKN和余弦相似性計(jì)算方法后,才獲得改善,下面給出DDRPGH相對(duì)于沒有數(shù)據(jù)處理的異構(gòu)圖算法時(shí)預(yù)測(cè)準(zhǔn)確度的變化如圖2。分別在F數(shù)據(jù)集和C數(shù)據(jù)集上計(jì)算了CWHG的三種十折交叉驗(yàn)證結(jié)果的AUC,其中只有異構(gòu)圖預(yù)測(cè)(紅色),WKNKN處理后的異構(gòu)圖預(yù)測(cè)(黑色),WKNKN結(jié)合余弦相似性處理后的異構(gòu)圖預(yù)測(cè)(藍(lán)色),可以看出,無論是單獨(dú)使用余弦相似性或WKNKN,還是同時(shí)使用余弦相似性和WKNKN的處理,都有助于提高異構(gòu)圖預(yù)測(cè)算法準(zhǔn)確度的提升,其中將兩者結(jié)合使用效果最佳。
本文試驗(yàn)中將DDRPGH與其他的三種異構(gòu)圖方法做對(duì)比,十折交叉驗(yàn)證中分別在C數(shù)據(jù)集和F數(shù)據(jù)集拿到的AUC評(píng)分分別是0.939和0.923。對(duì)比其他三類方法(HGBI ,MBiRw,KBMF)在這兩個(gè)數(shù)據(jù)集的AUC評(píng)分,DDRPGH的預(yù)測(cè)性能均優(yōu)于其他三種比較算法,如表2所示:
3.3 案例分析
獲取到最終的預(yù)測(cè)后,取排名前十五的疾病與藥物關(guān)聯(lián)評(píng)分,進(jìn)行疾病藥物關(guān)聯(lián)性信息的搜尋和對(duì)比,在OMIM搜索疾病編碼(例如256370),藥物序列(例如256370對(duì)應(yīng)的DB00384)的查詢則通過drugbank,接著對(duì)比兩者的關(guān)聯(lián)性,以及還可以在包含了疾病與藥物的相關(guān)證明的CTD [17]中搜尋對(duì)應(yīng)的疾病或藥物名稱。最后能獲得驗(yàn)證的疾病與藥物關(guān)系如表3、表4所示,在F數(shù)據(jù)集的前15個(gè)里有9個(gè)找到了對(duì)應(yīng)關(guān)系,在C數(shù)據(jù)集的前15個(gè)里有10個(gè)找到了對(duì)應(yīng)關(guān)系,說明模型DDRPGH的預(yù)測(cè)是有效的。
4 結(jié)束語
本文將余弦相似性和WKNKN的矩陣預(yù)處理與異構(gòu)圖推斷相結(jié)合,應(yīng)用于藥物和疾病的關(guān)聯(lián)關(guān)系的預(yù)測(cè)中,并與其他三種方法的運(yùn)算結(jié)果的對(duì)比,也通過了實(shí)際預(yù)測(cè)和驗(yàn)證,證實(shí)了DDRPGH這一方法的總體預(yù)測(cè)性能上的優(yōu)良性,無論是對(duì)于F數(shù)據(jù)集或是C數(shù)據(jù)集,DDRPGH都有著優(yōu)秀的預(yù)測(cè)效果,一部分也能通過可靠信息來源的驗(yàn)證,其在AUC的評(píng)分中也獲得了優(yōu)秀的分?jǐn)?shù)。不足的地方在于運(yùn)用的數(shù)據(jù)相對(duì)較為保守,相信對(duì)近十年的新數(shù)據(jù)進(jìn)行收集驗(yàn)證,并結(jié)合實(shí)驗(yàn)室試驗(yàn)會(huì)獲取更好的效果,這將是后續(xù)工作的重點(diǎn)和目標(biāo)。
參考文獻(xiàn):
[1] 劉杰,金柳頎,景波.基于藥物和疾病特征關(guān)聯(lián)的藥物重定位混合推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2020,37(3):672-675.
[2] Wang W,Yang S,Li J.Drug target predictions based on heterogeneous graph inference[M].Biocomputing,2013:53-64.
[3] Chandrasekaran S N, Koutsoukas A, Huan J. Investigating multiview and multitask learning frameworks for predicting drug-disease associations[C]//Proceedings of the 7th ACM International Conference on Bioinformatics, Computational Biology, and Health Informatics,2016:138-145.
[4] Liang X,Zhang P,Yan L,et al.LRSSL: predict and interpret drug–disease associations based on data integra?tion using sparse subspace learning[J].Bioinformatics,2017,33(8):1187-96.
[5] Chen H, Zhang Z.Prediction of drug–disease associations for drug repositioning through drug–miRNA-disease heterogeneous network[C].IEEE Access,2018.
[6] 何亞瓊,朱曉軍.深度協(xié)同過濾算法實(shí)現(xiàn)藥物-靶標(biāo)關(guān)系預(yù)測(cè)[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(8):2195-2200.
[7] 聶麗霞,劉輝,鄒凌.基于異構(gòu)網(wǎng)絡(luò)特征與梯度提升決策樹的協(xié)同藥物預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(4):48-52.
[8] Wishart D S, Knox C, Guo A C, et al.DrugBank: a knowledgebase for drugs, drug actions and drug targets[J].Nucleic acids research,2008,36(suppl_1):D901-D906.
[9] Hamosh A,McKusick V A,Scott A F,et al.Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders[J].Nucleic Acids Research,2005,33:D514-D517.
[10] Amberger J,Bocchini CA,Scott AF,et al.McKusick's OnlineMendelian Inheritance in Man (OMIM)[J].Nucleic AcidsRes,2009,37(Database Issue):D793-796.
[11] van Driel M A,Vriend G,Bruggeman J,et al.A text-mining analysis of the human phenome[J].European Journal of Human Genetics: EJHG,2006,14(5):535-542.
[12] Willighagen E L,Mayfield J W,Alvarsson J,et al.The Chemistry Development Kit (CDK) v2. 0: atom typing, depiction, molecular formulas, and substructure searching[J].Journal of Cheminformatics,2017,9(1):33.
[13] Li Guanghui,Luo Jiawei,Xiao Qiu,et al.Predicting microRNA-disease associations using label propagation based on linear neighborhood similarity[J]. Journal of Biomedical Informatics,2018,82:169-177.
[14] Fan W,Shang J,Li F, et al.IDSSIM: an lncRNA functional similarity calculation model based on an improved disease semantic similarity method[J]. BMC Bioinformatics, 2020,21(1):1-14.
[15] Fawcett T.An introduction to roc analysis[J].Pattern Recognition Letters,2006,27(8):861-874.
[16] Mehmet G N.Predicting drug–target interactions from chemical and genomic kernels using Bayesian matrix factorization[J].Bioinformatics,2012,28(18):2304-2310.
[17] Davis A P,Murphy C G,Johnson R,et al.The Comparative Toxicogenomics Database: update 2013[J].Nucleic Acids Research,2013,41(D1):D1104-D1114.
【通聯(lián)編輯:謝媛媛】