曲璐渲, 郭上慧, 王之瓊,2, 信俊昌
(1. 東北大學(xué) 醫(yī)學(xué)與生物信息工程學(xué)院, 遼寧 沈陽 110169; 2. 沈陽東軟智能醫(yī)療科技研究院有限公司, 遼寧 沈陽 110179; 3. 東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 遼寧 沈陽 110169; 4. 遼寧省大數(shù)據(jù)管理與分析重點(diǎn)實(shí)驗(yàn)室, 遼寧 沈陽 110169)
人類常見疾病,如神經(jīng)退行性疾病、惡性腫瘤疾病等,究其原因都是由于基因表達(dá)異常所導(dǎo)致的結(jié)果.而基因并不是孤立存在的,基因間促進(jìn)和抑制的調(diào)控關(guān)系形成了基因調(diào)控網(wǎng)絡(luò)[1].通過構(gòu)建相對精準(zhǔn)的基因調(diào)控網(wǎng)絡(luò)來研究基因間的表達(dá)關(guān)系,對人體機(jī)制和疾病治療的探索有著重要意義.而如何構(gòu)建一個(gè)更加準(zhǔn)確有效的網(wǎng)絡(luò)成為基因調(diào)控網(wǎng)絡(luò)研究的首要難題[2].目前,基因調(diào)控網(wǎng)絡(luò)建模的研究方法主要包括:關(guān)聯(lián)模型[3]、布爾網(wǎng)絡(luò)模型[4]、微分方程模型[5]和貝葉斯網(wǎng)絡(luò)模型[6].近年來,關(guān)聯(lián)模型和貝葉斯網(wǎng)絡(luò)模型廣泛應(yīng)用于基因調(diào)控網(wǎng)絡(luò)的構(gòu)建.在關(guān)聯(lián)模型方面,文獻(xiàn)[7]基于自適應(yīng)分塊策略來估計(jì)互信息并構(gòu)建基因調(diào)控網(wǎng)絡(luò).在貝葉斯網(wǎng)絡(luò)模型方面,Frolova和 Wilczynski[8]提出了一種可以支持動態(tài)貝葉斯網(wǎng)絡(luò)的BNFinder2 軟件來構(gòu)建基因調(diào)控網(wǎng)絡(luò).
關(guān)聯(lián)模型可以支持構(gòu)建大規(guī)模的基因調(diào)控網(wǎng)絡(luò),但構(gòu)建出的網(wǎng)絡(luò)不能描述調(diào)控方向[9];而貝葉斯網(wǎng)絡(luò)模型既可以描述調(diào)控關(guān)系又可以描述調(diào)控方向,但由于其計(jì)算復(fù)雜度很高,限制了網(wǎng)絡(luò)構(gòu)建的規(guī)模和效率[10].基于此,本文將兩種模型的優(yōu)點(diǎn)相結(jié)合,提出了基于父節(jié)點(diǎn)篩選的貝葉斯網(wǎng)絡(luò)模型方法來構(gòu)建基因調(diào)控網(wǎng)絡(luò).首先,對于每個(gè)節(jié)點(diǎn),利用皮爾遜相關(guān)系數(shù)計(jì)算節(jié)點(diǎn)間的關(guān)聯(lián)程度,篩選出與該節(jié)點(diǎn)具有強(qiáng)相關(guān)性的若干節(jié)點(diǎn);其次,將篩選出的節(jié)點(diǎn)作為貝葉斯網(wǎng)絡(luò)模型中結(jié)構(gòu)學(xué)習(xí)時(shí)的候選父節(jié)點(diǎn)以縮小搜索空間,并基于此構(gòu)建基因調(diào)控網(wǎng)絡(luò).最后,通過實(shí)驗(yàn)驗(yàn)證了該方法在準(zhǔn)確率和計(jì)算效率上均優(yōu)于傳統(tǒng)的貝葉斯網(wǎng)絡(luò)模型,并且該方法可以支持大規(guī)模基因調(diào)控網(wǎng)絡(luò)的構(gòu)建.
貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)[10]借助有向無環(huán)圖來刻畫基因之間的依賴關(guān)系.對于任一變量Xi,通??梢哉业揭粋€(gè)與Xi都不獨(dú)立的最小子集Parent(Xi)?{X1,X2,…,Xi-1},使得P(Xi|X1,X2,…,Xi-1)=P(Xi|Parent(Xi)).因此,當(dāng)網(wǎng)絡(luò)變量元組〈X1,X2,…,Xn〉賦予具體數(shù)據(jù)值〈x1,x2,…,xn〉時(shí),貝葉斯網(wǎng)絡(luò)的聯(lián)合概率分布為
(1)
建立貝葉斯網(wǎng)絡(luò)通常需要2個(gè)步驟:結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí).結(jié)構(gòu)學(xué)習(xí)的方法是針對每個(gè)節(jié)點(diǎn),遍歷并通過評分函數(shù)評價(jià)所有可能的結(jié)構(gòu),進(jìn)而找出最好的結(jié)構(gòu)作為該節(jié)點(diǎn)的父節(jié)點(diǎn)集;該方法的尋優(yōu)策略可以保證所構(gòu)建出的網(wǎng)絡(luò)結(jié)構(gòu)的精確性,然而,其復(fù)雜度也極高.因此,利用傳統(tǒng)貝葉斯網(wǎng)絡(luò)模型的結(jié)構(gòu)學(xué)習(xí)構(gòu)建基因調(diào)控網(wǎng)絡(luò),不僅效率非常低且網(wǎng)絡(luò)規(guī)模也有限.本文提出一種基于父節(jié)點(diǎn)篩選的貝葉斯網(wǎng)絡(luò)建模方法,該方法可以縮小結(jié)構(gòu)學(xué)習(xí)的搜索空間,同時(shí),充分利用結(jié)構(gòu)學(xué)習(xí)搜索策略的優(yōu)勢保證所構(gòu)建的基因調(diào)控網(wǎng)絡(luò)的精確性.網(wǎng)絡(luò)總體框架如圖1所示.
由圖1可以看到,基于父節(jié)點(diǎn)篩選的貝葉斯網(wǎng)絡(luò)建模方法在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)前,先利用皮爾遜相關(guān)系數(shù)方法按照節(jié)點(diǎn)間的關(guān)聯(lián)程度,針對每個(gè)節(jié)點(diǎn)篩選出若干個(gè)候選父節(jié)點(diǎn),然后,將這些父節(jié)點(diǎn)作為結(jié)構(gòu)學(xué)習(xí)時(shí)的搜索空間,但不改變結(jié)構(gòu)學(xué)習(xí)的搜索策略,從而在結(jié)構(gòu)學(xué)習(xí)過程中準(zhǔn)確、高效地得出父節(jié)點(diǎn)集;經(jīng)過結(jié)構(gòu)學(xué)習(xí)后即可得到貝葉斯網(wǎng)絡(luò)模型所構(gòu)建出的基因調(diào)控網(wǎng)絡(luò).最后,通過參數(shù)學(xué)習(xí)得到節(jié)點(diǎn)間邊的權(quán)重,進(jìn)而得出既有調(diào)控方向又有概率值的基因調(diào)控網(wǎng)絡(luò).
父節(jié)點(diǎn)篩選方法采用皮爾遜相關(guān)系數(shù)對節(jié)點(diǎn)間的關(guān)系進(jìn)行描述.皮爾遜相關(guān)系數(shù)衡量了兩個(gè)變量Xi和Yi的相似度,可由式(2)定義:
(2)
根據(jù)式(2)得到兩個(gè)節(jié)點(diǎn)的相關(guān)程度后,將具有一定相關(guān)程度的父節(jié)點(diǎn)作為候選父節(jié)點(diǎn).基于父節(jié)點(diǎn)篩選的貝葉斯網(wǎng)絡(luò)建模過程如算法1所示.
算法1 基于父節(jié)點(diǎn)篩選的貝葉斯網(wǎng)絡(luò)建模方法
輸出:基因調(diào)控網(wǎng)絡(luò)矩陣G.
算法描述:
1) 父節(jié)點(diǎn)篩選個(gè)數(shù)λ=α×n;
2) fori=1 tondo
4) forj=1 ton-1 do
6) 根據(jù)式(2)計(jì)算皮爾遜相關(guān)系數(shù)rj;
7) 將[rj,Yj]添加到父節(jié)點(diǎn)集合Pfather;
9) fork=1 toλdo
10) 將Pak中的Yj存入Xi的候選父節(jié)點(diǎn)集合Pi中;
11) 計(jì)算Xi父節(jié)點(diǎn)集為空的BDE分?jǐn)?shù)emptyscore;
12) 設(shè)置最優(yōu)父節(jié)點(diǎn)集optimal_set =
[Xi,[ ]];
13) 設(shè)置最優(yōu)父節(jié)點(diǎn)分?jǐn)?shù)optimal_score=emptyscore;
14) forp=1 tomdo
15) 計(jì)算可能的父節(jié)點(diǎn)組合數(shù)
16) forq=1 to pc do
17) 在候選父節(jié)點(diǎn)集合Pi中計(jì)算父節(jié)
點(diǎn)集組合Paq的BDE分?jǐn)?shù)score;
18) if score>optimal_score
19) optimal_set = [Xi,[Paq]];
20) optimal_score = score
21) 將[optimal_set,optimal_score]保存到Gi;
22)Gi添加到G;
23) 輸出G.
實(shí)驗(yàn)選用的數(shù)據(jù)為GeneNetWeaver上獲取的大腸桿菌基因調(diào)控網(wǎng)絡(luò).選取了其中20個(gè)基因的子網(wǎng)絡(luò),對父節(jié)點(diǎn)篩選的貝葉斯網(wǎng)絡(luò)模型(PS-BN)和傳統(tǒng)的貝葉斯網(wǎng)絡(luò)模型(BN)的性能進(jìn)行評價(jià);還分別選取了包含100,200,300,400和500個(gè)基因的子網(wǎng)絡(luò)對PS-BN的大規(guī)?;蛘{(diào)控網(wǎng)絡(luò)構(gòu)建效率進(jìn)行評價(jià).
在對PS-BN和BN進(jìn)行性能評價(jià)時(shí),選用了準(zhǔn)確率、精確率、召回率、F值4項(xiàng)評估指標(biāo),另外還對兩種方法的運(yùn)行時(shí)間進(jìn)行了比較,驗(yàn)證了PS-BN的效率.
準(zhǔn)確率描述了構(gòu)建基因調(diào)控網(wǎng)絡(luò)時(shí)判斷為有邊或無邊的總體的準(zhǔn)確率,可由式(3)計(jì)算:
(3)
精確率描述了判斷為有邊的結(jié)果中,預(yù)測正確的概率,可由式(4)計(jì)算:
(4)
召回率描述的是在所有標(biāo)簽為有邊的金標(biāo)準(zhǔn)中,實(shí)驗(yàn)結(jié)果也判斷為有邊的概率,可由式(5)計(jì)算:
(5)
F值是一個(gè)綜合評價(jià)指標(biāo),表示的是精確率和召回率的調(diào)和平均評估指標(biāo),可由式(6)計(jì)算:
(6)
上述評估指標(biāo)中,TP表示調(diào)控網(wǎng)絡(luò)真實(shí)為有邊,構(gòu)建結(jié)果也為有邊;TN表示真實(shí)為無邊,結(jié)果也為無邊;FP表示真實(shí)為無邊,結(jié)果卻為有邊;FN表示真實(shí)為有邊,結(jié)果卻為無邊.
將父節(jié)點(diǎn)篩選比例分別設(shè)置為總節(jié)點(diǎn)個(gè)數(shù)的10%,20%,30%,40%和50%,BN和PS-BN兩種方法的評估指標(biāo)與運(yùn)行時(shí)間的實(shí)驗(yàn)結(jié)果對比如表1所示.可以看出,對于PS-BN方法,父節(jié)點(diǎn)篩選比例高的評估指標(biāo)優(yōu)于篩選比例較低的;當(dāng)篩選比例大于或等于30%時(shí),各項(xiàng)評估指標(biāo)值相同.與BN方法相比,PS-BN方法篩選比例大于或等于20%時(shí)的實(shí)驗(yàn)結(jié)果均優(yōu)于BN方法.在運(yùn)行時(shí)間方面,各個(gè)比例的PS-BN方法的運(yùn)行時(shí)間均遠(yuǎn)遠(yuǎn)少于BN方法.因此,PS-BN方法在保證評估指標(biāo)優(yōu)于BN方法的前提下,計(jì)算效率得到了顯著提高.
表1 評估指標(biāo)與運(yùn)行時(shí)間比較Table 1 Comparison of the evaluation indices and the operating time
在準(zhǔn)確率方面,BN方法與篩選比例為10%的PS-BN方法的準(zhǔn)確率相同.因?yàn)?在經(jīng)過父節(jié)點(diǎn)篩選后,貝葉斯網(wǎng)絡(luò)搜索空間中的絕大部分冗余信息都被過濾掉,因而假陽邊非常少;但由于篩選比例過小而導(dǎo)致部分真陽邊也被過濾掉.因此,準(zhǔn)確率是在犧牲真陽邊數(shù)量的前提下得以保證的.篩選比例為20%和30%時(shí),準(zhǔn)確率逐漸升高,且均高于BN方法.隨著篩選比例的增高,搜索空間中對應(yīng)的真陽邊越來越多,使得所構(gòu)建的基因調(diào)控網(wǎng)絡(luò)真陽邊也增加,而大部分冗余信息仍會被過濾掉;因此在保證真陽邊數(shù)量的前提下,假陽邊的比例少于BN方法,從而提升其準(zhǔn)確率.而繼續(xù)增加父節(jié)點(diǎn)篩選比例后,由于有效節(jié)點(diǎn)已經(jīng)被篩選進(jìn)搜索空間,而增加少部分冗余信息并沒有使假陽邊增多,因此,其準(zhǔn)確率與30%時(shí)相比不變.
精確率和召回率的評估考慮的均是真陽邊的預(yù)測情況.當(dāng)PS-BN方法的父節(jié)點(diǎn)篩選比例設(shè)置為10%時(shí),精確率和召回率均低于BN方法,說明該比例所得到的真陽邊數(shù)量少于BN方法.當(dāng)篩選比例增加至20%及以上時(shí),精確率和召回率得到提升并高于BN方法,也就是說,篩選比例增加,真陽邊數(shù)量也隨之增多,并且超過了BN方法所得到的真陽邊.當(dāng)篩選比例高于30%時(shí),真陽邊數(shù)量不再增加,并且網(wǎng)絡(luò)結(jié)構(gòu)沒有變化,因此,精確率和召回率保持不變.
評估指標(biāo)F值是平衡精確率和召回率的一項(xiàng)綜合指標(biāo),因此該指標(biāo)與精確率和召回率的相關(guān)程度較高,F值的變化趨勢與精確率和召回率的變化趨勢一致.篩選比例為10%的PS-BN方法在精確率和召回率上均低于BN方法,因此其F值也較低.當(dāng)篩選比例為20%和30%時(shí),兩項(xiàng)評估指標(biāo)均高于BN方法,因而其F值也所有提高.當(dāng)篩選比例為40%和50%時(shí),兩項(xiàng)評估指標(biāo)均與30%相同,故其F值也與30%相同.
在運(yùn)行時(shí)間方面,PS-BN方法均優(yōu)于BN方法.因?yàn)楦腹?jié)點(diǎn)經(jīng)過篩選后,貝葉斯網(wǎng)絡(luò)的搜索空間大幅縮小,在搜索空間中進(jìn)行父節(jié)點(diǎn)集遍歷搜索的結(jié)構(gòu)學(xué)習(xí)時(shí),搜索的節(jié)點(diǎn)數(shù)量和各節(jié)點(diǎn)的組合數(shù)目都大量減少,因此,PS-BN方法的運(yùn)行時(shí)間大大縮短.隨著篩選比例的增加,貝葉斯網(wǎng)絡(luò)模型的搜索空間逐漸增大,不但導(dǎo)致需要搜索的節(jié)點(diǎn)數(shù)量增加,還導(dǎo)致需要進(jìn)行評分計(jì)算的組合數(shù)目大量增多,使結(jié)構(gòu)學(xué)習(xí)耗費(fèi)的時(shí)間呈指數(shù)增長.因此,隨著篩選比例的增加,運(yùn)行時(shí)間也呈指數(shù)增長.
由表1可知,在評估指標(biāo)值較高的篩選比例中,比例為30%時(shí)運(yùn)行時(shí)間最短.因此,在對大規(guī)?;蛘{(diào)控網(wǎng)絡(luò)的構(gòu)建進(jìn)行效率評估時(shí),選用的篩選比例為30%.大規(guī)模基因調(diào)控網(wǎng)絡(luò)構(gòu)建運(yùn)行時(shí)間如圖2所示,其中帶標(biāo)記的實(shí)線為運(yùn)行時(shí)間,虛線表示運(yùn)行時(shí)間增加的趨勢線.由圖2可知,隨著基因數(shù)量的增加,運(yùn)行時(shí)間呈冪增長趨勢.這是由于基因數(shù)量增加,同樣的篩選比例所篩選出的基因數(shù)量也隨之增加;但由于篩選比例較小,基因數(shù)量增加有限,因此,在該搜索空間進(jìn)行結(jié)構(gòu)學(xué)習(xí)時(shí),運(yùn)行時(shí)間呈冪增長趨勢.
為解決貝葉斯網(wǎng)絡(luò)模型在構(gòu)建基因調(diào)控網(wǎng)絡(luò)時(shí)效率低且構(gòu)建規(guī)模有限的問題,本文提出了基于父節(jié)點(diǎn)篩選的貝葉斯網(wǎng)絡(luò)(PS-BN)建模方法.PS-BN方法充分利用傳統(tǒng)貝葉斯網(wǎng)絡(luò)建模方法在結(jié)構(gòu)學(xué)習(xí)中的搜索策略,同時(shí),通過篩選父節(jié)點(diǎn)縮小了搜索空間且去除了部分冗余信息,從而在極大提高效率的同時(shí),準(zhǔn)確率等4項(xiàng)評估指標(biāo)也均有所提升.實(shí)驗(yàn)證明了上述結(jié)論.