羅 洪,楊 杰
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,計(jì)算機(jī)系統(tǒng)國家民委重點(diǎn)實(shí)驗(yàn)室,四川 成都 610041)
人類是細(xì)菌、病毒和真菌等微生物的宿主,這些微生物通常存在于人體的肺、皮膚、腸道和口腔等人體器官中.大多數(shù)微生物具有促進(jìn)人體新陳代謝的能力以及協(xié)助調(diào)節(jié)胃腸道的發(fā)育的功能.據(jù)報(bào)道,在一個(gè)成年腸道中生活著大量的微生物,它們可以提供多種基因產(chǎn)物,這些基因產(chǎn)物有助于人體的各種生化和代謝活動(dòng)[1-3].例如常見的腸道細(xì)菌可以通過幫助消化多糖來促進(jìn)營養(yǎng)的吸收.反之,微生物群落異常水平的失衡會(huì)影響人類的健康和疾病的發(fā)生,甚至影響基因的轉(zhuǎn)錄和表達(dá),從而導(dǎo)致癌癥、糖尿病、肥胖癥和過敏性哮喘等疾病的發(fā)生[4-9].
研究潛在的微生物疾病間的關(guān)系可以幫助了解疾病的發(fā)病機(jī)理,為有關(guān)疾病的預(yù)防、診斷和治療提供幫助.傳統(tǒng)生物實(shí)驗(yàn)方法存在研究周期長成本昂貴等問題,而采用計(jì)算方法有助于傳統(tǒng)方法確定研究目標(biāo)范圍和縮短研究周期.近年來,國內(nèi)外學(xué)者運(yùn)用多種計(jì)算方法已經(jīng)對疾病相關(guān)的微生物進(jìn)行了預(yù)測研究.例如文獻(xiàn)[10]基于KATZ指標(biāo)首次提出了KATZHMDA計(jì)算模型對潛在微生物和疾病的關(guān)系進(jìn)行了預(yù)測;文獻(xiàn)[11]采用基于路徑的方法提出了PBHMDA算法對潛在微生物和疾病的關(guān)系進(jìn)行了預(yù)測;文獻(xiàn)[12]基于雙隨機(jī)游走提出了BiRWHMDA計(jì)算方法對潛在微生物和疾病的關(guān)系進(jìn)行了預(yù)測.本文利用已知微生物疾病關(guān)系相互作用網(wǎng)絡(luò)、拉普拉斯規(guī)范化后的高斯核微生物和疾病相似性網(wǎng)絡(luò)構(gòu)建,構(gòu)建了異質(zhì)網(wǎng)絡(luò),并利用重啟的隨機(jī)游走算法在異質(zhì)網(wǎng)絡(luò)中游走預(yù)測潛在的微生物和疾病的關(guān)系.本文算法LRWRHMDA經(jīng)過在拉普拉斯規(guī)范化后的高斯核微生物和疾病相似性網(wǎng)絡(luò)構(gòu)建的同一異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集上與KATZHMDA和BiRWHMDA算法進(jìn)行五折交叉驗(yàn)證比較,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法LRWRHMDA的有效性.
若矩陣L=[L(i,j)],i,j=1,2,3,…,N,是個(gè)對稱矩陣.D是矩陣L的對角矩陣:當(dāng)i≠j,D(i,j)=0;當(dāng)i的值等于矩陣L第i行的和.矩陣L通過規(guī)范化,結(jié)果仍然是一個(gè)對稱矩陣.對稱矩陣的元素可表示為:
上述過程就是矩陣L的拉普拉斯規(guī)范化過程,可用于網(wǎng)絡(luò)帶權(quán)矩陣的規(guī)范化,尤其是隨機(jī)游走算法中概率轉(zhuǎn)移矩陣的規(guī)范化[13].
已有研究表明存在這樣的假設(shè):功能相似的微生物常常與相同的疾病相互作用.根據(jù)這樣的假設(shè)我們可以利用已知的微生物和疾病相似性網(wǎng)絡(luò)計(jì)算微生物和疾病各自高斯相似性矩陣.已知微生物和疾病網(wǎng)絡(luò)的鄰接矩陣AMD,對于微生物mi,存在行向量Mmi,若值為0表示和已知某種疾病無關(guān),若為1表示和某已知疾病相關(guān).則對微生物mi和mj間的高斯核相似性GSM可表示為:
其中參數(shù)γm控制核的范圍,它可通過另一個(gè)范圍參數(shù)γ′m通過每個(gè)微生物與疾病的平均關(guān)聯(lián)數(shù)規(guī)范化后求得.參數(shù)γm的計(jì)算公式如下:
同理,疾病di和dj間的高斯核相似性GSD可由以下公式求得:
若存在已知的微生物和疾病關(guān)系網(wǎng)絡(luò)的鄰接矩陣AMD、疾病di和dj間的高斯核相似性GSD和微生物mi和mj間的高斯核相似性GSM,則異質(zhì)網(wǎng)絡(luò)H的鄰接矩陣可表示為:
其中,AMD、LGSm(m×m)和LGSD(n×n)分別代表已知微生物和疾病鄰接矩陣、拉普拉斯規(guī)范化后的微生物和疾病高斯核相似矩陣,AMDT表示矩陣AMD的轉(zhuǎn)置.
異質(zhì)網(wǎng)絡(luò)H的概率轉(zhuǎn)移矩陣可以表示為:其中MGSM和MGSD表示微生物和疾病子網(wǎng)的概率轉(zhuǎn)移矩陣,MMD和MDM表示網(wǎng)間概率轉(zhuǎn)移矩陣[14].
令λ表示網(wǎng)間的跳轉(zhuǎn)概率,則從微生物mi跳轉(zhuǎn)到疾病dj的轉(zhuǎn)移概率可表示為:
同理,從疾病dj跳轉(zhuǎn)到微生物mi的轉(zhuǎn)移概率可表示為:
從微生物mi跳轉(zhuǎn)到mj的概率可表示為:
從疾病di跳轉(zhuǎn)到dj的概率可表示為:
令微生物網(wǎng)絡(luò)的初始概率為μ0,疾病網(wǎng)絡(luò)的初始概率為v0.則異質(zhì)網(wǎng)絡(luò)H的初始概率p0可表示為:
令γ∈(0,1)表示重啟概率,M表示異質(zhì)網(wǎng)絡(luò)的轉(zhuǎn)移矩陣,則第t+1步的概率pt+1可表示為:
每游走一步,隨機(jī)游走者返回種子點(diǎn)的概率都為γ,當(dāng)隨機(jī)游走到一定步后,概率將達(dá)到一個(gè)穩(wěn)定狀態(tài),此時(shí)微生物和疾病則可基于各自的穩(wěn)態(tài)概率來排序,從而預(yù)測微生物和疾病間的關(guān)聯(lián)關(guān)系.
本文采用HMDAD數(shù)據(jù)庫[15]中的數(shù)據(jù)集進(jìn)行LRWRHMDA算法的致病微生物預(yù)測應(yīng)用分析.該數(shù)據(jù)集從已發(fā)布的文獻(xiàn)中收集和整理了39種人類疾病、292種微生物和483對已知微生物-疾病關(guān)系對.經(jīng)過整理去掉重復(fù)的關(guān)系對,本文以39種人類疾病、292種微生物和450對已知微生物-疾病關(guān)系對為基礎(chǔ)構(gòu)建微生物和疾病網(wǎng)絡(luò)鄰接矩陣.
交叉驗(yàn)證的基本思想把數(shù)據(jù)集劃分成較小子集的訓(xùn)練集合測試集,訓(xùn)練集用于模型的訓(xùn)練,測試集用于驗(yàn)證模型的穩(wěn)定性和可靠性.K-折交叉驗(yàn)證通常把數(shù)據(jù)集分成k份,一份用作測試集,其它K-1份用作訓(xùn)練集,每次驗(yàn)證一份重復(fù)K次,結(jié)果取K次的平均值.本文采用5-折交叉驗(yàn)證類評(píng)估LRWRMDH算法的性能,其中5-折交叉驗(yàn)證重復(fù)執(zhí)行100次再取平均值.并用經(jīng)過拉普拉斯規(guī)范化后的高斯核微生物和疾病相似性網(wǎng)絡(luò)構(gòu)建的同一異質(zhì)網(wǎng)絡(luò)與KATZHMDA和BiRWHMDA算法進(jìn)行了5-折交叉驗(yàn)證比較,5-折交叉驗(yàn)證下LRWRHMDA、BiRWHMDA和KATZHMDA的AUC值分別為0.9069、0.8844和0.8127,得到的ROC曲線[16]如圖1所示.
圖1 三種方法5-折交叉驗(yàn)證ROC曲線圖Fig.1 The ROC curves of three methods based on 5-fold CV
為了進(jìn)一步驗(yàn)證本文算法的預(yù)測效果,我們對哮喘(Asthma)和炎癥性腸病(IBD)預(yù)測的相關(guān)排名前10位的微生物進(jìn)行了驗(yàn)證,結(jié)果如表1和表2所示.
表1 預(yù)測哮喘相關(guān)前10位微生物Table 1 Prediction results of the top 10 asthma-associated microbes
表2 預(yù)測炎癥性腸病相關(guān)前10位微生物Table 2 Prediction results of the top 10 IBD-associated microbes
4 Veillonella unconfirmed 5 Haemophilus unconfirmed 6 Clostridiumcoccoides PMID:19235886 7 Bacteroidaceae Maukonen et al.,2009 8 Bacteroides Maukonen et al.,2009 9 Streptococcus PMID:23679203 10 Lactobacillus PMID:26340825
綜合實(shí)驗(yàn)分析可知,LRWRHMDA與其它兩種算法相比五折交叉驗(yàn)證下的AUC值較優(yōu),預(yù)測的預(yù)測哮喘相關(guān)前10位微生物僅排在第10位的沒有得到已知文獻(xiàn)驗(yàn)證,預(yù)測炎癥性腸病相關(guān)前10位微生物僅排在第4位和第5位的沒有得到已知文獻(xiàn)驗(yàn)證.
微生物對人類健康的重要作用得到了越來越多的研究證明,研究微生物與疾病的關(guān)聯(lián)關(guān)有助于揭示疾病的發(fā)病機(jī)理和疾病的診斷和預(yù)防.在本文中我們基于已知微生物疾病關(guān)系互作網(wǎng)絡(luò)、拉普拉斯規(guī)范化高斯核微生物和疾病相似性網(wǎng)絡(luò)構(gòu)建的異質(zhì)網(wǎng)絡(luò)上的重啟的隨機(jī)游走算法,對微生物和疾病的潛在關(guān)系進(jìn)行了研究和預(yù)測,并與其它預(yù)測算法進(jìn)行了五折交叉驗(yàn)證比較.比較結(jié)果和預(yù)測驗(yàn)證結(jié)果驗(yàn)證了本文算法的有效性.鑒于本文算法采用數(shù)據(jù)集的單一性和異質(zhì)網(wǎng)絡(luò)游走依賴于已知的關(guān)系對,因此本文算法也存在局限性,這是將來需要進(jìn)一步改進(jìn)的方向.