郁 湧,顧 捷,趙 娜,駱永軍,闞世林
(云南大學(xué)軟件學(xué)院,云南省軟件工程重點(diǎn)實(shí)驗(yàn)室 昆明 650091)
人類第三代測序技術(shù)的迅速發(fā)展,讓生命系統(tǒng)組成元件間的相互作用關(guān)系信息得到更加快速的積累?;驍?shù)據(jù)的不斷豐富,表型數(shù)據(jù)的不斷增加,為理解疾病與致病基因之間的關(guān)系提供了大量有效的數(shù)據(jù)。在生物數(shù)據(jù)大量涌現(xiàn)的前提下,利用相關(guān)計(jì)算技術(shù)和模型對數(shù)據(jù)進(jìn)行分析與挖掘,加快了生物學(xué)研究前進(jìn)的步伐,可以深層次挖掘疾病表型與致病基因之間的關(guān)系,為了解疾病發(fā)病機(jī)理、疾病臨床診斷和疾病預(yù)防與治療提供了便利。
通過幾十年的努力,人類已經(jīng)發(fā)現(xiàn)了一些疾病的致病基因,如BRCA1 和BRCA2 基因在乳腺癌的發(fā)生中發(fā)揮重要的作用[1],EGFR 在肺癌的發(fā)生中發(fā)揮重要作用[2]。如果能夠知道更多疾病的致病基因,則可以在發(fā)病前期進(jìn)行基因檢測預(yù)防,在發(fā)病過程中進(jìn)行相應(yīng)的治療,后續(xù)也可以將發(fā)病機(jī)理應(yīng)用到藥物設(shè)計(jì)中,從而有效提高疾病的控制與治愈能力。通過疾病表型和致病基因關(guān)系的挖掘,使得疾病發(fā)病機(jī)理一目了然,在疾病發(fā)現(xiàn)過程中能直擊疾病發(fā)病原因,后續(xù)治療能做到藥到病除。
目前,挖掘疾病表型與致病基因的關(guān)聯(lián)關(guān)系是一個(gè)極具挑戰(zhàn)的課題。如果能夠設(shè)計(jì)出高精度的致病基因預(yù)測方法,對于生物學(xué)家、臨床醫(yī)師和遺傳學(xué)家等相關(guān)人員來說具有非常重要的意義。這不但有助于提高發(fā)現(xiàn)致病基因的準(zhǔn)確率,縮短發(fā)現(xiàn)致病基因的周期,節(jié)省大量的人力物力,同時(shí)也為將來的生物醫(yī)學(xué)和基因治療診斷等技術(shù)的發(fā)展奠定重要基礎(chǔ)。
隨著計(jì)算機(jī)和生物技術(shù)的迅猛發(fā)展,大量的生物信息數(shù)據(jù)的產(chǎn)生,疾病和基因知識(shí)的可用性大幅度提高,科研人員也相應(yīng)提出了一系列疾病與基因預(yù)測的計(jì)算方法。其中,隨機(jī)游走是疾病與基因關(guān)聯(lián)關(guān)系預(yù)測中較為常見的辦法,主要包括重啟隨機(jī)游走和雙向隨機(jī)游走等幾種類型。文獻(xiàn)[3]在雙層耦合網(wǎng)絡(luò)上提出了重啟隨機(jī)游走,用于推斷潛在的miRNA與疾病的相關(guān)性。文獻(xiàn)[4]開發(fā)了BiRWHMDA的計(jì)算模型,通過在雙層耦合網(wǎng)絡(luò)上的雙向隨機(jī)游走來預(yù)測潛在的微生物與疾病關(guān)聯(lián)。文獻(xiàn)[5]提出在雙層耦合網(wǎng)絡(luò)上基于多路徑的雙向隨機(jī)游走預(yù)測微生物與疾病相關(guān)性。文獻(xiàn)[6]結(jié)合表型相似網(wǎng)絡(luò)、基因相似網(wǎng)絡(luò)和表型基因關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)成表型基因雙層耦合網(wǎng)絡(luò),并在其上采用重啟隨機(jī)游走算法,推出了一種新的預(yù)測疾病致病基因的方法。文獻(xiàn)[7]采用了帶重啟的隨機(jī)游走算法和最短路徑這兩種廣泛使用的算法,構(gòu)造了兩種參數(shù)化計(jì)算方法,即基于RWR 的方法和基于SP 的方法,并在此基礎(chǔ)上構(gòu)建了一種新的疾病基因識(shí)別的集成方法。
利用矩陣預(yù)測疾病與基因關(guān)系也是一個(gè)不錯(cuò)的辦法。文獻(xiàn)[8]提出了一種基于歸納式矩陣補(bǔ)全預(yù)測潛在lncRNA 與疾病相關(guān)性的方法(predict lncRNAdisease associations from known data using IMC,SIMCLDA)。文獻(xiàn)[9]開發(fā)了一種利用協(xié)同矩陣因子分解預(yù)測人類微生物疾病相關(guān)性的模型(collaborative matrix factorization for human microbe-disease association, CMFHMDA)。文獻(xiàn)[10]提出一種基于Katz 方法的預(yù)估計(jì)和基于歸納型矩陣補(bǔ)全方法的精化估計(jì)兩步驟的Katz 增強(qiáng)歸納型矩陣補(bǔ)全的基因?疾病關(guān)聯(lián)預(yù)測模型。
把高斯相互作用應(yīng)用于預(yù)測之中,文獻(xiàn)[11]應(yīng)用高斯相互作用輪廓核相似測度確定微生物相似性和疾病相似性。文獻(xiàn)[12]建立了用于miRNAs與疾病相關(guān)性預(yù)測的雙層耦合網(wǎng)絡(luò)推理的計(jì)算模型,通過整合miRNAs 功能相似性、疾病語義相似性、高斯相互作用來揭示潛在的miRNAs 與疾病相關(guān)性。
將路徑作為預(yù)測分?jǐn)?shù),文獻(xiàn)[13]引入PBHMDA(path-based human microbe-disease association),通過對微生物與疾病之間的所有路徑進(jìn)行評估,得出每個(gè)候選微生物與疾病對的預(yù)測得分。
研究人員還提出了其他一些疾病與基因關(guān)系預(yù)測的辦法。文獻(xiàn)[14]提出了一種基于SimRank 和密度聚類推薦模型的miRNA 與疾病相關(guān)性預(yù)測方法(based on the SimRank and density-based clustering recommender model for miRNA-disease associations prediction, SRMDAP)。文獻(xiàn)[15]基于miRNA 與疾病關(guān)聯(lián)預(yù)測評分模型(within and between score for MiRNA-disease association prediction, WBSMDA)預(yù)測與各種復(fù)雜疾病關(guān)聯(lián)的miRNAs。文獻(xiàn)[16]采用拉普拉斯正則化最小二乘分類器(Laplacian regularized least squares for human microbe–disease association,LRLSHMDA)建立預(yù)測模型。文獻(xiàn)[17]將鏈路預(yù)測的思想引入到長非編碼RNA?疾病關(guān)聯(lián)預(yù)測中。文獻(xiàn)[18]提出一種基于密度聚類的二分網(wǎng)絡(luò)投影算法(bipartite network projection based on density clustering to predict miRNA-disease associations,BNPDCMDA)來預(yù)測miRNA?疾病關(guān)聯(lián)。
以隨機(jī)游走為主導(dǎo)思想的預(yù)測方法能夠擴(kuò)大候選基因的范圍,可以避免遺漏連接度低和網(wǎng)絡(luò)邊緣的節(jié)點(diǎn),尤其是在多基因疾病的預(yù)測中,可以大大提高預(yù)測候選致病基因方法的性能;在矩陣預(yù)測中,數(shù)據(jù)的稀疏對預(yù)測有很大的影響,PU 問題也是需要面對的另一個(gè)問題,加入Katz 方法也只緩解部分影響;使用高斯相互作用預(yù)測將疾病或者基因的相互作用信息作為特征向量,引入高斯核函數(shù),計(jì)算疾病或基因間的相似度后在進(jìn)行疾病和基因之間的相似預(yù)測,但是對高斯相互作用相似度參數(shù)標(biāo)準(zhǔn)化后,基因或疾病高斯核相互作用相似值就不在依賴于數(shù)據(jù)集;路徑預(yù)測利用了生物信息節(jié)點(diǎn)之間的拓?fù)浣Y(jié)構(gòu),在拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上預(yù)測;其他一些算法都是基于機(jī)器學(xué)習(xí)的一些思想進(jìn)行關(guān)聯(lián)預(yù)測的,然而有監(jiān)督的機(jī)器學(xué)習(xí)算法,需要假設(shè)與疾病相關(guān)的基因和不相關(guān)的基因是不關(guān)聯(lián)的,但是被證明與疾病相關(guān)的基因數(shù)量較少,且很少有實(shí)驗(yàn)?zāi)軌蜃C明那些關(guān)系是不存在的。
進(jìn)行多種算法比較研究后,可知基于隨機(jī)游走的方法相比矩陣預(yù)測或聚類的方法存在一定優(yōu)越性。本文根據(jù)疾病表型和疾病基因數(shù)據(jù)節(jié)點(diǎn)屬于不同類型節(jié)點(diǎn)這一特點(diǎn),基于疾病表型和疾病基因數(shù)據(jù)來構(gòu)成雙層耦合網(wǎng)絡(luò),提出了在表型?基因的雙層耦合網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行帶有元路徑的隨機(jī)游走,從而實(shí)現(xiàn)關(guān)聯(lián)關(guān)系的預(yù)測與分析算法。
復(fù)雜網(wǎng)絡(luò)的研究大多局限于單個(gè)網(wǎng)絡(luò),而事實(shí)上單個(gè)網(wǎng)絡(luò)僅僅是更大復(fù)雜系統(tǒng)中的一個(gè)子集,復(fù)雜系統(tǒng)往往是由許多具有不同結(jié)構(gòu)與功能的網(wǎng)絡(luò)耦合而成的[19]。多層耦合網(wǎng)絡(luò)由多個(gè)子網(wǎng)絡(luò)構(gòu)成,網(wǎng)絡(luò)中每一層通過一些共享節(jié)點(diǎn)而耦合在一起,各層的節(jié)點(diǎn)具有不同的屬性,并且各層之間的節(jié)點(diǎn)存在耦合關(guān)系,一般分為相互依賴和相互協(xié)作兩種關(guān)系。例如,在線購物交易平臺(tái)依賴于因特網(wǎng),因特網(wǎng)又依賴于電力網(wǎng);公路網(wǎng)和鐵路網(wǎng)組成的雙層協(xié)作網(wǎng)絡(luò),兩者相互協(xié)作保障了人們出行的方便快捷。作為結(jié)果,一個(gè)網(wǎng)絡(luò)中的信息傳播可能出現(xiàn)在另一個(gè)網(wǎng)絡(luò)擴(kuò)散,并最終導(dǎo)致一個(gè)信息級(jí)聯(lián)效應(yīng)。
本文利用小鼠的已知疾病表型之間的關(guān)聯(lián)關(guān)系、已知致病基因之間的關(guān)聯(lián)關(guān)系和已知疾病表型與致病基因之間的關(guān)聯(lián)關(guān)系,構(gòu)建出表型?基因的雙層耦合網(wǎng)絡(luò)。在表型?基因的雙層耦合網(wǎng)絡(luò)中,上層為表型關(guān)聯(lián)網(wǎng)絡(luò),下層為基因關(guān)聯(lián)網(wǎng)絡(luò),上下網(wǎng)絡(luò)之間通過表型與基因的關(guān)聯(lián)關(guān)系進(jìn)行耦合。
信息網(wǎng)絡(luò)[20]是一個(gè)帶有對象類型的映射函數(shù)τ:V →A和 鏈接類型映射函數(shù) ?:E →R 的圖G=(V,E), 其中每個(gè)對象 v ∈V屬于一個(gè)特定的對象類型 τ(v)∈A ,每個(gè)鏈接 e ∈ε屬于一個(gè)特定的關(guān)系?(e)∈R,如果兩個(gè)鏈接屬于同一個(gè)關(guān)系類型,那么這兩個(gè)鏈接具有相同類型的開始對象和結(jié)束對象。
表型關(guān)聯(lián)網(wǎng)絡(luò)是一種信息網(wǎng)絡(luò),可以定義為NP=(P,EPP,WPP) ,其中 P={p1,p2,···,pm}表示表型節(jié)點(diǎn)的集合, EPP表示表型之間的關(guān)聯(lián)關(guān)系,WPP表 示關(guān)聯(lián)關(guān)系權(quán)重值,如果表型i與 表型 j有關(guān)聯(lián)關(guān)系,則權(quán)重值為1,否則為0。表示如下:
本文中表型關(guān)聯(lián)網(wǎng)絡(luò)需要的數(shù)據(jù)從MGI 數(shù)據(jù)庫中獲取得到,表型關(guān)聯(lián)網(wǎng)絡(luò)示意圖如圖1 所示。
圖1 表型關(guān)聯(lián)網(wǎng)絡(luò)示意圖
基因關(guān)聯(lián)網(wǎng)絡(luò)定義為 NG=(G,EGG,WGG),其中G={g1,g2,···,gn}表 示基因節(jié)點(diǎn)的集合, EGG表示基因之間的關(guān)聯(lián)關(guān)系, WGG表示關(guān)聯(lián)關(guān)系權(quán)重值,基因i與 基因 j有關(guān)聯(lián)關(guān)系則權(quán)重值為數(shù)據(jù)庫中所給數(shù)值,用α 表示,否則為0。表示如下:
文中基因關(guān)聯(lián)網(wǎng)絡(luò)需要的數(shù)據(jù)從MouseNet 下載,基因關(guān)聯(lián)網(wǎng)絡(luò)示意圖如圖2 所示。
圖2 基因關(guān)聯(lián)網(wǎng)絡(luò)示意圖
表型?基因網(wǎng)絡(luò)數(shù)據(jù)來源于MGI 數(shù)據(jù)庫,定義為:NPG=(P∪G,EPG,WPG), 其中:P∪G={p1,p2,···,pm,g1,g2,···,gn}表示表型和基因節(jié)點(diǎn)的集合,EPG表示表型與基因之間的關(guān)聯(lián)關(guān)系, WPG表示關(guān)聯(lián)關(guān)系權(quán)重值,如果表型i與 基因 j有關(guān)聯(lián)關(guān)系則權(quán)重值為1,否則為0。表示如下:
表型?基因關(guān)聯(lián)網(wǎng)絡(luò)示意圖如圖3 所示。
圖3 表型-基因關(guān)聯(lián)網(wǎng)絡(luò)示意圖
表型?基因雙層耦合網(wǎng)絡(luò)就是在表型關(guān)聯(lián)網(wǎng)絡(luò)NP、基因關(guān)聯(lián)網(wǎng)絡(luò) NG和表型?基因關(guān)聯(lián)網(wǎng)絡(luò) NPG基礎(chǔ)上,上層為表型網(wǎng)絡(luò) NP, 下層為基因網(wǎng)絡(luò) NG,表型?基因關(guān)聯(lián)網(wǎng)絡(luò) NPG節(jié)點(diǎn)間的關(guān)系作為上下層間的耦合關(guān)系而得到,可以定義為:NP?G=(V=P∪G,E=EPP∪EPG∪EGG,W=WPP∪WPG∪WGG), 其 中V=P∪G表示包括表型與基因的所有節(jié)點(diǎn),E=EPP∪EPG∪EGG表 示 節(jié) 點(diǎn) 間 的 鏈 接 關(guān) 系,W=WPP∪WPG∪WGG表示節(jié)點(diǎn)鏈接關(guān)系的權(quán)重值,表型?基因雙層耦合網(wǎng)示意圖如圖4 所示。
圖4 表型?基因雙層耦合網(wǎng)示意圖
圖4 中,實(shí)線部分為已知存在的關(guān)聯(lián)關(guān)系,包括了表型與表型的關(guān)聯(lián)、基因與基因的關(guān)聯(lián)和表型與基因的關(guān)聯(lián);虛線部分為待預(yù)測的表型與基因的關(guān)系是否關(guān)聯(lián)。
在2.1 節(jié)定義的基礎(chǔ)上,如果對象類型|A|>1或者關(guān)系類型 |R|>1時(shí),該信息網(wǎng)絡(luò)為異構(gòu)信息網(wǎng)絡(luò)。從圖4 中可以看出在表型?基因雙層耦合網(wǎng)NP?G=(V=P∪G,E=EPP∪EPG∪EGG,W=WPP∪WPG∪WGG)中 ,表型關(guān)聯(lián)網(wǎng)絡(luò) NP和基因關(guān)聯(lián)網(wǎng)絡(luò)NG的節(jié)點(diǎn)分屬兩個(gè)類型,通過表型?基因關(guān)聯(lián)網(wǎng)絡(luò)NPG進(jìn)行耦合,整體上看表型?基因雙層耦合網(wǎng)為一個(gè)異構(gòu)網(wǎng)絡(luò)。
在表型?基因雙層耦合網(wǎng)絡(luò) NP?G中兩個(gè)節(jié)點(diǎn)之間就存在不同類型不同長度的元路徑,以圖4 為例,可以有 P →P →G 、 P →P →G →G、 P →P →P →P →G等。對于一個(gè)給定的網(wǎng)絡(luò),可能存在的元路徑數(shù)目與路徑長度成指數(shù)增長[21]。選擇不同的元路徑,表型與基因之間的關(guān)聯(lián)性也不同,同時(shí),文獻(xiàn)[20]指出很長的元路徑并不是很有意義,反而路徑長度越大,關(guān)系越弱,預(yù)測也越模糊。因此,在表型與基因的關(guān)聯(lián)預(yù)測中,本文主要考慮如下4 條元路徑,如表1 所示。
表1 元路徑表
隨機(jī)游走(random walk)又稱隨機(jī)游動(dòng)或隨機(jī)漫步,是一種數(shù)學(xué)統(tǒng)計(jì)模型,在金融、物理和社交媒體等復(fù)雜網(wǎng)絡(luò)分析中都有廣泛應(yīng)用。隨機(jī)游走模型是從圖上一個(gè)或一組節(jié)點(diǎn)開始,通過迭代隨機(jī)的訪問圖中的每一個(gè)節(jié)點(diǎn)。每一次移動(dòng)時(shí),當(dāng)前節(jié)點(diǎn)都以一定的概率移動(dòng)到他們的鄰居節(jié)點(diǎn)。因此,圖中每個(gè)節(jié)點(diǎn)都會(huì)獲得一個(gè)經(jīng)計(jì)算得到的當(dāng)前節(jié)點(diǎn)游走到該節(jié)點(diǎn)的概率分布值[22]。文獻(xiàn)[23]提出了基于雙層耦合網(wǎng)絡(luò)的隨機(jī)游走RWRH 算法。RWRH 算法在不同的網(wǎng)絡(luò)中游走,從網(wǎng)絡(luò)G1或 者網(wǎng)絡(luò)G2的某一節(jié)點(diǎn)開始進(jìn)行隨機(jī)游走,在游走過程中,以一定的概率停留在網(wǎng)絡(luò)G1的 下一個(gè)節(jié)點(diǎn)或者網(wǎng)絡(luò)G2的一個(gè)節(jié)點(diǎn)。
在表型?基因雙層耦合網(wǎng)絡(luò) NP?G中選定了元路徑,隨機(jī)游走將基于元路徑進(jìn)行游走,但是,游走到元路徑中指定類型節(jié)點(diǎn)中的哪一個(gè)節(jié)點(diǎn)是未知的,即規(guī)定了下一步游走的節(jié)點(diǎn)類型但不固定某個(gè)節(jié)點(diǎn)。那么,表型?基因雙層耦合網(wǎng)絡(luò) NP?G中節(jié)點(diǎn)在既定的元路徑 P →P →G 、 P →G →G 、P →P →G →G和P →G →P →G下由上一個(gè)節(jié)點(diǎn)游走到下一個(gè)節(jié)點(diǎn)的跳轉(zhuǎn)概率有如下4 種表示:
式中,i表 示第i步跳轉(zhuǎn)。
將上式用矩陣形式表示如下:
因此,在表型-基因雙層耦合網(wǎng)絡(luò)NP?G=(V=P∪G,E=EPP∪EPG∪EGG,W=WPP∪WPG∪WGG)中,基于元路徑 MP1:P →P →G的 表型 pi到 基因 gi的跳轉(zhuǎn)概率矩陣 XPPG可表示為:
基于元路徑 MP2:P →G →G 的表型 pi到基因gi的 跳轉(zhuǎn)概率矩陣 XPGG可表示為:
基于元路徑 MP3:P →P →G →G的 表型 pi到基因 gi的 跳轉(zhuǎn)概率矩陣 XPPGG,可以表示為:
基于元路徑 MP4:P →G →P →G的 表型 pi到基因 gi的 跳轉(zhuǎn)概率矩陣 XPPGG可表示為:
在得到的跳轉(zhuǎn)概率矩陣X 中,其對應(yīng)的取值就是表型 pi到 基因 gi的關(guān)聯(lián)值大小,值越大,關(guān)聯(lián)越緊密;反之亦然。
MGI 是實(shí)驗(yàn)室小鼠的國際數(shù)據(jù)庫資源,包含:小鼠基因組數(shù)據(jù)庫(MGD)、基因表達(dá)數(shù)據(jù)庫(GXD)、小鼠腫瘤生物學(xué)(MTB)數(shù)據(jù)庫、基因本體(GO)項(xiàng)目等。本文用到的表型數(shù)據(jù)和表型-基因數(shù)據(jù)集從MGI 數(shù)據(jù)庫資源下載獲得。其中,表型數(shù)據(jù)集包含了12 838 個(gè)疾病表型,構(gòu)成了16 108對表型與表型關(guān)聯(lián)對;表型-基因數(shù)據(jù)集共有表型與基因的關(guān)聯(lián)數(shù)據(jù)對37 246 對。
MouseNet V2 是許多生物醫(yī)學(xué)研究選擇的一種改進(jìn)的實(shí)驗(yàn)小鼠功能基因網(wǎng)絡(luò)。MouseNet V2 為2008 年MouseNet 的改進(jìn)版本,加入了大量來自不同生物的新微陣列數(shù)據(jù)。MouseNet V2 現(xiàn)在覆蓋88%的編碼基因組,具有更高的準(zhǔn)確性。本文使用基因數(shù)據(jù)即從MouseNet V2 中獲得,共有17 710個(gè)基因,構(gòu)成了關(guān)聯(lián)基因?qū)?88 081 對。
在4 條 元 路 徑 MP1:P →P →G 、MP2:P →G →G 、MP3:P →P →G →G和 MP4:P →G →P →G中進(jìn)行隨機(jī)游走得到了表型在4 條元路徑下游走到基因的跳轉(zhuǎn)概率矩陣,即 XPPG、 XPGG、XPPGG和 XPGPG。 在所得到的 XPPG、 XPGG、 XPPGG和XPGPG數(shù)據(jù)中,找出4 個(gè)數(shù)據(jù)都同時(shí)存在的表型到基因的概率,在此前提下使用主成分分析的辦法,即通過變量變換的方法把相關(guān)的變量變?yōu)槿舾刹幌嚓P(guān)的綜合指標(biāo)變量,從而實(shí)現(xiàn)對數(shù)據(jù)集的降維,在過程中求出綜合評價(jià)函數(shù)而得到不同元路徑下的權(quán)重值,即是X=αPPGXPPG+αPGGXPGG+αPPGGXPPGG+αPGPGXPGPG中 αPPG、 αPGG、 αPPGG和 αPGPG的 值。最后進(jìn)行表型到基因在元路徑下按權(quán)重累加,并選出前 k名為最終結(jié)果,作為表型與基因關(guān)聯(lián)關(guān)系的預(yù)測值。
為了評價(jià)本文算法預(yù)測表型與基因關(guān)聯(lián)關(guān)系的性能,采用留一交叉驗(yàn)證法(leave-one-out cross validation, LOO)實(shí)驗(yàn)。在數(shù)據(jù)的N 個(gè)樣本中,每次實(shí)驗(yàn)將一個(gè)樣本作為測試集,剩下的N?1 個(gè)樣本作為訓(xùn)練集,直到所有的樣本都被作為測試集,即得到N 個(gè)模型,在此過程中利用接收者操作特征(ROC)曲線[24]對預(yù)測性能進(jìn)行評價(jià),繪制截止時(shí)的真陽性率(TPR、敏感性或召回)與假陽性率(FPR、1-特異性)的關(guān)系曲線。
在ROC 曲線繪制和AUC 面積的計(jì)算時(shí),使用到如下的定義:
其中,條件正(P):數(shù)據(jù)中實(shí)際正案例數(shù);條件負(fù)(N):數(shù)據(jù)中的實(shí)際負(fù)案例數(shù);TP 和TN 代表正確預(yù)測的真正和真負(fù)數(shù)量;FP 和FN 代表錯(cuò)誤預(yù)測的假陽性和假陰性。
將本文算法與其他3 種相關(guān)預(yù)測算法RWR[25]、LPIHN[26]和PRINCE[27]進(jìn)行測試比較。RWR 算法從已知的致病基因以相同的概率出發(fā),隨機(jī)走向鄰居節(jié)點(diǎn),當(dāng)前后兩次游走的概率向量相同或者前后兩次游走的概率差值小于某個(gè)閥值時(shí),認(rèn)為游走達(dá)到平衡,然后將概率值從大到小排序,排名靠前的說明基因與疾病的相關(guān)性較大,認(rèn)為該基因是該疾病的致病基因。LPIHN 是一種在異構(gòu)網(wǎng)絡(luò)上實(shí)現(xiàn)隨機(jī)游走的方法。PRINCE 是一種基于對優(yōu)先級(jí)函數(shù)的約束的全局方法,從某個(gè)查詢疾病表型出發(fā)游走至整個(gè)網(wǎng)絡(luò),通過計(jì)算在基因節(jié)點(diǎn)鄰居中與查詢疾病關(guān)聯(lián)的基因的優(yōu)先次序后,合并相似性信息中分?jǐn)?shù)高的基因作為致病基因。RWR 方法中的重啟概率 r經(jīng)過多次試驗(yàn),對試驗(yàn)結(jié)果影響不大,所以設(shè)置 r=0.5;LPIHN 的參數(shù)根據(jù)[26]文中提及參數(shù)值特設(shè)置如下: γ=0.5, β=0.5, δ=0.3;PRINCE 的參數(shù)根據(jù)[27]文中提及數(shù)值而設(shè)置如下: α=0.5,c=?15, d=lg(9 999),傳播迭代次數(shù)為10。所得結(jié)果如圖5 所示,其中THIS 代表本文提出的算法。
圖5 不同算法測試ROC 曲線
結(jié)果表明,在所給數(shù)據(jù)實(shí)驗(yàn)中,本文提出的算法的AUC 得分為93%,高于RWR、LPIHN 和PRINCE的AUC 值,分別為79%、88%和82%。
隨著基因數(shù)據(jù)和表型數(shù)據(jù)的不斷增加,為理解疾病與致病基因之間的關(guān)系提供了大量有效的數(shù)據(jù),也為利用數(shù)據(jù)分析與挖掘的手段找出疾病表型與致病基因之間的關(guān)系提供了便利。為此,旨在設(shè)計(jì)一種算法來找到表型節(jié)點(diǎn)與基因節(jié)點(diǎn)的更多關(guān)聯(lián)關(guān)系。本文在經(jīng)典的隨機(jī)游走方法上加入了元路徑的概念,充分利用先驗(yàn)知識(shí)及網(wǎng)絡(luò)中包含的生物關(guān)系來預(yù)測發(fā)現(xiàn)表型與基因的關(guān)聯(lián)關(guān)系。從實(shí)驗(yàn)結(jié)果可以看出,本文算法的正確率高于RWR、LPIHN和PRINCE 等算法,能夠得到較好的預(yù)測效果。
在后續(xù)的工作中,有如下幾方面可以做進(jìn)一步研究:1) 整合更可靠的生物網(wǎng)絡(luò)數(shù)據(jù)。生物信息知識(shí)的缺乏和實(shí)驗(yàn)數(shù)據(jù)的假陽性都會(huì)對實(shí)驗(yàn)的預(yù)測結(jié)果造成誤差,整合其他有用的生物數(shù)據(jù)將會(huì)提高生物網(wǎng)絡(luò)數(shù)據(jù)的可靠性。2) 整合多重生物網(wǎng)絡(luò)數(shù)據(jù)。如將序列相似性、功能注釋、微陣列表達(dá)、蛋白質(zhì)域、通路成員等數(shù)據(jù)庫整合為一個(gè)完整數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)測。3) 改變生物網(wǎng)絡(luò)的拓?fù)涮卣???梢赃m當(dāng)改變網(wǎng)絡(luò)的拓?fù)涮卣?,如介?shù)中心性、緊密中心性、聚類系數(shù)等,再進(jìn)行關(guān)聯(lián)預(yù)測。