哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081) 王文杰 侯 艷 李 康
·綜述·
基因組學(xué)數(shù)據(jù)的網(wǎng)絡(luò)構(gòu)建與分析方法*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081) 王文杰 侯 艷 李 康△
基因組學(xué)數(shù)據(jù)具有超高維數(shù)、變量間作用關(guān)系復(fù)雜的特點(diǎn),對(duì)其進(jìn)行數(shù)據(jù)分析的方法研究面臨巨大的挑戰(zhàn)[1]。網(wǎng)絡(luò)研究能夠直觀地反映出基因之間的相互作用關(guān)系,這不僅有助于特征標(biāo)志物的篩選,增加篩選結(jié)果的可解釋性,而且還能從分子水平闡述復(fù)雜的生物過程及各疾病的發(fā)病機(jī)制[1-2]?;蛘{(diào)控網(wǎng)絡(luò)推斷的本質(zhì)是在不同影響因素條件下,通過測(cè)序得到各基因表達(dá)水平,利用各種方法和統(tǒng)計(jì)學(xué)指標(biāo),對(duì)不同基因表達(dá)的依賴關(guān)系進(jìn)行衡量并排序,從而構(gòu)建出潛在的基因調(diào)控網(wǎng)絡(luò),還原出網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)[3]。本文對(duì)近年新提出和發(fā)展的幾種主要的網(wǎng)絡(luò)分析方法做一綜述。
1.基于互信息的網(wǎng)絡(luò)分析
兩個(gè)變量關(guān)系的分析可以使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)的計(jì)算方法。然而,由于基于相關(guān)系數(shù)的方法無法識(shí)別表達(dá)模式之間更復(fù)雜的統(tǒng)計(jì)依賴關(guān)系(如非線性關(guān)系),因此提出了基于互信息(mutual information,MI)的網(wǎng)絡(luò)構(gòu)建方法[4]?;バ畔⒖梢钥闯墒且粋€(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量大小的統(tǒng)計(jì)量。兩個(gè)基因間的互信息值可用于描述兩基因間的統(tǒng)計(jì)相關(guān)性的大小,MI值大于給定閾值則認(rèn)為相應(yīng)的兩個(gè)基因有調(diào)控連接[4-6]。采用MI衡量變量間的關(guān)聯(lián)性時(shí),要求數(shù)據(jù)為離散型數(shù)據(jù),如果檢測(cè)結(jié)果為連續(xù)型變量(如基因的表達(dá)水平),則需要用光滑的樣條函數(shù)來計(jì)算互信息[7]。一些研究者在互信息理論的基礎(chǔ)上提出了用來區(qū)分網(wǎng)絡(luò)中直接和間接相互作用邊的改進(jìn)方法,主要有環(huán)境相關(guān)似然度算法(context likelihood of relatedness,CLR)和準(zhǔn)確胞狀網(wǎng)絡(luò)重建算法(algorithm for the reconstruction of accurate cellular networks,ARACNE)。其中,CLR算法是根據(jù)所計(jì)算出的MI值的經(jīng)驗(yàn)分布修改MI得分,ARACNE算法則是利用互信息理論中的數(shù)據(jù)處理不等式(data processing inequality)這一性質(zhì),以每三個(gè)基因?yàn)樗阉鲉卧瑢⑷齻€(gè)基因中的間接邊過濾掉,具體算法如下:
(1)基礎(chǔ)的互信息算法 兩個(gè)隨機(jī)的基因變量(x,y)的互信息值為
(1)
其中,I(x;y)代表基因x和基因y間的互信息,p(x)和p(y)分別為基因x和基因y的邊際概率分布,p(x,y)為兩基因的聯(lián)合概率分布[5]。由于互信息統(tǒng)計(jì)量的計(jì)算要求數(shù)據(jù)為離散型,而微陣列得到的基因表達(dá)數(shù)據(jù)為連續(xù)型,因此需要先使用B樣條平滑函數(shù)(B-spline smoothing)和數(shù)據(jù)離散化方法將數(shù)據(jù)離散化[7]。最后按照轉(zhuǎn)錄因子與目標(biāo)基因間的互信息值大小排序,構(gòu)造出網(wǎng)絡(luò)結(jié)構(gòu)。
(3)準(zhǔn)確胞狀網(wǎng)絡(luò)重建算法(ARACNE) 不同于CLR算法,ARACNE算法是在兩隨機(jī)變量的互信息值基礎(chǔ)上,通過修剪作用濾除互信息值較小的間接邊[6]。其基本思想:首先使用高斯核估計(jì)量來估計(jì)互信息值[9],與公式(1)不同的是,兩個(gè)基因(x,y)間的互信息值通過使用二元標(biāo)準(zhǔn)正態(tài)密度函數(shù),將概率的計(jì)算轉(zhuǎn)變?yōu)楹瘮?shù)的計(jì)算,公式如下:
(2)
其中,N為樣本量,f(xi)和f(yi)分別表示隨機(jī)變量基因x和y的邊際概率轉(zhuǎn)化成的高斯核函數(shù),f(xi,yi)表示隨機(jī)基因變量x和y的聯(lián)合概率轉(zhuǎn)化成的高斯核函數(shù)。根據(jù)上述公式,在計(jì)算出一個(gè)由任意兩個(gè)輸入基因x,y的互信息值MIxy組成的矩陣后,根據(jù)大偏差理論(large deviation theory)[10],計(jì)算出所求的互信息值MIxy大于設(shè)定的閾值的概率,將大于閾值且顯著的邊保留,移除不顯著的邊,從而構(gòu)建出網(wǎng)絡(luò)結(jié)構(gòu)。
以往基于互信息的網(wǎng)絡(luò)構(gòu)建方法存在一定的局限性,即當(dāng)兩基因間存在一個(gè)或多個(gè)中介基因時(shí),這兩個(gè)基因間便存在間接調(diào)控關(guān)系,導(dǎo)致網(wǎng)絡(luò)推斷性能評(píng)價(jià)中的假陽性率的上升。為此ARACNE算法基于數(shù)據(jù)處理不等式的理論,對(duì)選入的邊進(jìn)行修剪[10],即在一個(gè)已知的基因調(diào)控網(wǎng)絡(luò)中,數(shù)據(jù)處理不等式會(huì)刪除那些間接邊作用。例如對(duì)于一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)(gi?gj,gj?gk,gi?gk),如果I(gi;gj)≤min[I(gi;gk),I(gj;gk)],則gi和gj之間的邊將視為間接邊被修剪移除。ARACNE算法對(duì)選入的調(diào)控關(guān)系中所連接的間接邊結(jié)構(gòu)的三個(gè)基因進(jìn)行搜索識(shí)別,并移除三條邊中互信息值最小的邊,經(jīng)過修剪后的調(diào)控邊再根據(jù)其互信息值進(jìn)行排序。
對(duì)于結(jié)構(gòu)較為簡(jiǎn)單的網(wǎng)絡(luò),只要高斯核估計(jì)計(jì)算的互信息值MIij準(zhǔn)確,則由ARACNE算法構(gòu)建出來的網(wǎng)絡(luò)將能準(zhǔn)確地移除間接邊,對(duì)于所連接的兩基因(i,j)間的互信息值和任意一個(gè)中間基因k,都能保證Iij≥min(Ijk,Iik)。因此,在互信息基礎(chǔ)上通過數(shù)據(jù)處理不等式修剪后的ARACNE算法,能夠更準(zhǔn)確地推斷基因調(diào)控網(wǎng)絡(luò)。Chávez等人在研究擬南芥根的轉(zhuǎn)錄調(diào)控關(guān)系時(shí),使用了ARACNE算法構(gòu)建其調(diào)控網(wǎng)絡(luò)結(jié)構(gòu),成功驗(yàn)證了之前相關(guān)研究提出的根轉(zhuǎn)錄模型,并基于此網(wǎng)絡(luò)結(jié)構(gòu)提出了SHORT ROOT/SCARECROW和PLETHORA通路上的新轉(zhuǎn)錄因子[11]。
當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜時(shí),如基因i和j間可能存在不止一個(gè)中介基因,或者當(dāng)基因i和基因j在三個(gè)基因?qū)?i,j,k)中為直接作用,而在另外的三個(gè)基因?qū)?i,j,p)中為間接作用的情況下,ARACNE算法將無法識(shí)別基因i和基因j的相互作用關(guān)系。在此基礎(chǔ)上,Jang提出了高階ARACNE算法,其不僅考慮了兩基因間的一階間接作用,還通過高階數(shù)據(jù)處理不等式來處理更高階的間接作用,因此能夠識(shí)別兩基因間更多的中介基因,顯著提高了復(fù)雜調(diào)控網(wǎng)絡(luò)推斷的準(zhǔn)確性[12]。
2.動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建方法
貝葉斯網(wǎng)絡(luò)是一種概率圖形模型,它以有向無環(huán)圖的形式反映了一組變量之間潛在的依賴和獨(dú)立關(guān)系[13]。有向無環(huán)圖中,如存在一條從節(jié)點(diǎn)A指向節(jié)點(diǎn)B的有向邊,那么有向邊所指向的B節(jié)點(diǎn)稱為子節(jié)點(diǎn),A節(jié)點(diǎn)稱為父節(jié)點(diǎn)。若兩節(jié)點(diǎn)之間沒有直接相連的邊則表示這兩個(gè)節(jié)點(diǎn)相互獨(dú)立,這就是貝葉斯網(wǎng)絡(luò)的主要原理,稱為馬爾科夫條件。根據(jù)馬爾科夫條件,每個(gè)節(jié)點(diǎn)的條件分布概率只與其父節(jié)點(diǎn)有關(guān),這樣能夠大大地簡(jiǎn)化整個(gè)網(wǎng)絡(luò)的聯(lián)合概率分布,使得其計(jì)算上可行。對(duì)于一個(gè)貝葉斯網(wǎng)絡(luò)圖,記隨機(jī)變量集為X={X1,X2,…,Xn},Xi代表網(wǎng)絡(luò)圖中對(duì)應(yīng)的節(jié)點(diǎn),Pa(Xi)代表Xi節(jié)點(diǎn)處的父節(jié)點(diǎn)集,則貝葉斯網(wǎng)絡(luò)為指定集合X的唯一聯(lián)合概率分布
(3)
為確定以上的聯(lián)合概率,需要確定所有上訴式中出現(xiàn)的條件概率,所有的這些條件概率組成了參數(shù)向量集合P,貝葉斯網(wǎng)絡(luò)的構(gòu)建就是找出一個(gè)最優(yōu)的網(wǎng)絡(luò)B=(G,P),能夠真實(shí)地反映現(xiàn)有數(shù)據(jù)集中各個(gè)變量之間的依賴關(guān)系[14]。
但是傳統(tǒng)的靜態(tài)貝葉斯網(wǎng)絡(luò)的主要缺點(diǎn)是:①在樣本量小時(shí),很難從一個(gè)極為復(fù)雜的數(shù)據(jù)中得出最好的模型;②模型不允許循環(huán)(反饋環(huán))結(jié)構(gòu)的存在,因此無法描述X1→X2→X3→X1這樣的環(huán)狀反饋結(jié)構(gòu),但是在生物學(xué)過程中包含了很多這樣循環(huán)調(diào)控過程,因而靜態(tài)貝葉斯在構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)上有著很大的限制[13]。為解決這一問題,提出了動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)是一般靜態(tài)貝葉斯網(wǎng)絡(luò)擴(kuò)展時(shí)間維度的版本,即在原來網(wǎng)絡(luò)結(jié)構(gòu)上加上時(shí)間屬性,并且很多靜態(tài)貝葉斯算法的思想都可以沿用到動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的構(gòu)建上[13,15]。構(gòu)建動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)一般分為三個(gè)步驟:
(1)確定需要分析的變量及其取值范圍 由于貝葉斯網(wǎng)絡(luò)方法需要計(jì)算整個(gè)網(wǎng)絡(luò)的聯(lián)合概率分布,在實(shí)際問題中變量數(shù)目往往較大,直接將所有變量納入網(wǎng)絡(luò)的構(gòu)建,不僅會(huì)增加運(yùn)算的復(fù)雜度,而且構(gòu)建出來的網(wǎng)絡(luò)模型過于復(fù)雜,變量間的相互作用無法解釋,甚至由于混雜因素得出無法合理解釋的生物學(xué)結(jié)構(gòu)。因此在構(gòu)建網(wǎng)絡(luò)前,需要對(duì)變量進(jìn)行變量篩選,根據(jù)研究目的選擇有價(jià)值的變量構(gòu)建網(wǎng)絡(luò)模型,并確定這些變量的取值范圍。
(2)確定網(wǎng)絡(luò)結(jié)構(gòu) 又稱為結(jié)構(gòu)學(xué)習(xí)(structure learning),即通過給定的樣本數(shù)據(jù)集進(jìn)行學(xué)習(xí),從中選出最能代表各變量關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)。貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)方法可分為基于約束算法和基于搜索得分算法,以及這兩種算法的混合算法。基于約束算法通過條件獨(dú)立性檢驗(yàn)(conditional independence test)來判斷變量間的依賴和獨(dú)立關(guān)系?;谒阉鞯梅炙惴▌t通過定義一個(gè)得分方程,用以評(píng)價(jià)不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)數(shù)據(jù)的擬合程度,得分越高,表示網(wǎng)絡(luò)結(jié)構(gòu)對(duì)數(shù)據(jù)擬合越好,選擇得分最高的網(wǎng)絡(luò)結(jié)構(gòu)作為最佳網(wǎng)絡(luò)結(jié)構(gòu)。混合算法,即首先通過基于約束算法學(xué)習(xí)得出無方向的網(wǎng)絡(luò)框架,然后利用搜索得分算法為網(wǎng)絡(luò)中的邊確定方向。
(3)確定局部概率分布 又稱為參數(shù)學(xué)習(xí)(parameter learning),指基于第二步確定的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)給定的樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),確定各節(jié)點(diǎn)處的局部條件概率。由于各節(jié)點(diǎn)加入了時(shí)間因素,在動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)中節(jié)點(diǎn)的集合是包含時(shí)間因素的隨機(jī)過程,需要得知每個(gè)隨機(jī)變量Xi在各個(gè)時(shí)間點(diǎn)Xi,1,Xi,2,…,Xi,t上的概率分布。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型需要滿足以下假設(shè)條件:
① 在一個(gè)有限時(shí)間內(nèi),所有時(shí)間點(diǎn)上的條件概率的變化過程一致。
② 動(dòng)態(tài)概率過程依然滿足馬爾科夫條件,P(Xt+1|X1,X2,…,Xt)=P(Xt+1|Xt),即未來時(shí)刻的概率只與當(dāng)前時(shí)刻有關(guān),而與過去時(shí)刻無關(guān)。
③ 相鄰時(shí)間的條件概率過程是穩(wěn)定的,即P(Xt+1|Xt)與時(shí)間t無關(guān),因此可以得到不同時(shí)間的轉(zhuǎn)移概率。
基于以上的假設(shè),時(shí)間序列的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)可由兩部分組成:①先驗(yàn)網(wǎng)絡(luò)B0,用于定義初始時(shí)間(t=1)狀態(tài)下X的聯(lián)合概率分布;②轉(zhuǎn)移網(wǎng)絡(luò)B→,用于定義變量Xt與Xt+1上的轉(zhuǎn)移概率P(Xt+1|Xt)。上述問題可以用圖1表示。
圖1 動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)示意圖
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型的聯(lián)合分布概率為
(4)
由于時(shí)間因素的引入,可將上述反饋調(diào)控機(jī)制做成圖2中X1,t→X2,t+1→X3,t+2→X1,t+3形式的網(wǎng)絡(luò),從而解決靜態(tài)貝葉斯網(wǎng)絡(luò)無法處理的環(huán)路問題。同時(shí),動(dòng)態(tài)貝葉斯能夠依據(jù)時(shí)間的先后順序,揭示因果間關(guān)系,構(gòu)建出的網(wǎng)絡(luò)結(jié)構(gòu)有更高的準(zhǔn)確度。因此對(duì)于生物反饋調(diào)控網(wǎng)絡(luò),動(dòng)態(tài)貝葉斯的還原能力優(yōu)于靜態(tài)貝葉斯。由于貝葉斯網(wǎng)絡(luò)在網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)過程中,可以有效地結(jié)合先驗(yàn)知識(shí),從而能夠提高網(wǎng)絡(luò)構(gòu)建的準(zhǔn)確性和運(yùn)算速度,Whrhil和Husmeier等人利用生物學(xué)先驗(yàn)知識(shí)的基因表達(dá)數(shù)據(jù),推斷出了更為準(zhǔn)確的基因調(diào)控網(wǎng)絡(luò)[16]。Akutekwe 等人在構(gòu)建出動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)基礎(chǔ)上,結(jié)合支持向量回歸方法中的非線性核函數(shù)來推斷基因間的時(shí)序關(guān)系,在大腸桿菌和果蠅的基因調(diào)控網(wǎng)絡(luò)中進(jìn)行驗(yàn)證,并構(gòu)建出與卵巢癌化療敏感性相關(guān)的基因調(diào)控網(wǎng)絡(luò)結(jié)構(gòu),識(shí)別出4個(gè)與卵巢癌化療有關(guān)的中心調(diào)控基因[17]。
圖2 動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)對(duì)反饋調(diào)控
3.隨機(jī)森林回歸的網(wǎng)絡(luò)構(gòu)建方法
[3]王磊,姚駿.基于HTML5的移動(dòng)病房WebApp的設(shè)計(jì)與實(shí)現(xiàn)[J].工業(yè)控制計(jì)算機(jī),2017,30(05):143-144+148.
基于回歸的網(wǎng)絡(luò)構(gòu)建方法,可以將p個(gè)基因的調(diào)控網(wǎng)絡(luò)轉(zhuǎn)化為建立p個(gè)回歸模型的問題。線性回歸模型不適合描述非線性調(diào)控關(guān)系,而且需要對(duì)變量的數(shù)目進(jìn)行限制,而隨機(jī)森林(random forest,RF)回歸則更適合一般性的網(wǎng)絡(luò)構(gòu)建問題[18]。對(duì)于每個(gè)基因g,首先可以構(gòu)建所有除去基因g本身以外的其他基因?qū)騡影響的回歸模型,則第j個(gè)目標(biāo)基因的回歸模型可表示如下型式:
xj=fj(x-j)+εj
(5)
其中x-j=(x1,K,xj-1,xj+1,K,xp),fj(x-j)為基于樹給出的RF預(yù)測(cè)函數(shù),εj表示誤差項(xiàng)。隨機(jī)森林回歸算法中內(nèi)嵌變量重要性排序機(jī)制,可得到目標(biāo)基因與其轉(zhuǎn)錄因子間調(diào)控關(guān)系的大小,再把所有的調(diào)控關(guān)系合在一起進(jìn)行排序,從而重建整個(gè)網(wǎng)絡(luò)。
基于樹集成的回歸方法通過平均多棵樹同時(shí)預(yù)測(cè),極大地提高單棵樹的預(yù)測(cè)性能。在隨機(jī)森林中,每棵樹的構(gòu)建通過從原始訓(xùn)練集中抽取一個(gè)bootstrap樣本得到,在每棵樹的節(jié)點(diǎn),從輸入基因中選擇k(k∈x-j)個(gè)基因作為此節(jié)點(diǎn)的備選分枝變量,然后根據(jù)分枝優(yōu)度準(zhǔn)則選取最優(yōu)分枝。
基于樹方法的隨機(jī)森林回歸,可以給出變量的重要性評(píng)分(variable importance measure,VIM),其值可用方差改變量法計(jì)算,即對(duì)回歸樹的每個(gè)節(jié)點(diǎn)N,計(jì)算由于樣本分裂導(dǎo)致的輸出變量方差的總減小量,即
I(N)=#SVar(S)-#StVar(St)-#SfVar(Sf)
(6)
其中,S代表到達(dá)節(jié)點(diǎn)N的樣本含量,St和Sf代表這些樣本在節(jié)點(diǎn)N上分為兩類的樣本含量,即S=St+Sf,Var(·)表示不同數(shù)據(jù)中某變量的方差,#代表一組樣本的數(shù)量。此方法計(jì)算的VIM值為某個(gè)變量在所有樹中I值的平均值,即
(7)
由于不同基因表達(dá)值的數(shù)量級(jí)可能不同,在計(jì)算基因間VIM值前需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以消除不同數(shù)量級(jí)的基因表達(dá)值對(duì)結(jié)果的影響。最后可以根據(jù)p個(gè)RF回歸模型中的VIM值大小,確定其網(wǎng)絡(luò)結(jié)構(gòu)。
4.基于解卷積的網(wǎng)絡(luò)優(yōu)化算法
在構(gòu)建網(wǎng)絡(luò)的過程中,由于變量間關(guān)聯(lián)的傳遞效應(yīng),現(xiàn)有的網(wǎng)絡(luò)構(gòu)建方法有時(shí)無法很好地識(shí)別出真正的調(diào)控關(guān)系,如在一個(gè)真實(shí)的網(wǎng)絡(luò)中,節(jié)點(diǎn)1和節(jié)點(diǎn)2間存在強(qiáng)相關(guān),節(jié)點(diǎn)2和節(jié)點(diǎn)3也存在強(qiáng)相關(guān),那么節(jié)點(diǎn)1和節(jié)點(diǎn)3間也會(huì)存在較高的相關(guān)關(guān)系。即使節(jié)點(diǎn)1和節(jié)點(diǎn)3間并沒有直接的調(diào)控關(guān)系,但是在網(wǎng)絡(luò)結(jié)構(gòu)推斷過程中,節(jié)點(diǎn)1和節(jié)點(diǎn)3也容易被推斷出一條邊來。由于間接邊的存在,兩節(jié)點(diǎn)間的相關(guān)性也可能會(huì)被高估。隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,這種效應(yīng)會(huì)被進(jìn)一步放大,造成推斷出來的網(wǎng)絡(luò)結(jié)構(gòu)既包含直接邊,也包含了大量假陽性的間接邊。網(wǎng)絡(luò)解卷積算法可用來解決這一問題。
(8)
由實(shí)際數(shù)據(jù)獲得的網(wǎng)絡(luò)關(guān)聯(lián)矩陣Gobs可做如下分解:
(9)
其中U代表特征向量,∑dir代表相應(yīng)網(wǎng)絡(luò)的特征值的對(duì)角矩陣。等式(a)利用網(wǎng)絡(luò)鄰接矩陣的特征值和特征向量分解原理;等式(b)利用泰勒級(jí)數(shù)得到。
同樣,對(duì)于觀察到的網(wǎng)絡(luò),可對(duì)其直接進(jìn)行特征值和特征向量分解,即
(10)
將上述公式與等式(b)聯(lián)立,可得到關(guān)于特征值的一個(gè)等式,即
(11)
(12)
因此,由公式(12),根據(jù)所求出的觀察到的網(wǎng)絡(luò)矩陣的特征值,可以求出直接相關(guān)網(wǎng)絡(luò)的特征值,從而還原出直接網(wǎng)絡(luò)結(jié)構(gòu)Gdir。
網(wǎng)絡(luò)解卷積算法假定網(wǎng)絡(luò)的邊權(quán)重滿足2條線性關(guān)系假設(shè):①間接邊權(quán)重等于直接邊權(quán)重的乘積;②觀察到的邊權(quán)重等于直接邊和間接邊權(quán)重之和。Feizi的研究表明[20],該算法對(duì)于目前的一些網(wǎng)絡(luò)構(gòu)建方法都具有不同程度的優(yōu)化作用,在DREAM5數(shù)據(jù)測(cè)驗(yàn)中進(jìn)一步優(yōu)化了由互信息算法,隨機(jī)森林回歸算法所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu),使其準(zhǔn)確度更高,挖掘到了更多有用的調(diào)控基因。
本文主要介紹了近年新發(fā)展的四種基因調(diào)控網(wǎng)絡(luò)的構(gòu)建方法。其中基于互信息的方法不需對(duì)變量間的關(guān)系做任何假設(shè),因此能識(shí)別各種線性和非線性關(guān)系,但在計(jì)算互信息值時(shí)需要將數(shù)據(jù)離散化。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),能夠處理時(shí)間序列的基因表達(dá)數(shù)據(jù),依據(jù)時(shí)間的先后順序,揭示因果關(guān)系,使得還原的網(wǎng)絡(luò)結(jié)構(gòu)更容易解釋?;陔S機(jī)森林回歸的算法,對(duì)網(wǎng)絡(luò)的變量個(gè)數(shù)不需要限制,通過回歸樹對(duì)每個(gè)目標(biāo)基因擬合回歸模型,并通過集成樹的多變量分析方法,計(jì)算出任意兩個(gè)變量的關(guān)聯(lián)性,結(jié)果相對(duì)穩(wěn)健可靠?;诮饩矸e的網(wǎng)絡(luò)優(yōu)化算法則能夠在滿足假定條件下,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,移除由傳遞效應(yīng)引起的間接邊,準(zhǔn)確地推斷出直接邊的網(wǎng)絡(luò)結(jié)構(gòu)。
實(shí)際上,基因調(diào)控網(wǎng)絡(luò)的推斷方法很多,僅用于DREAM5數(shù)據(jù)驗(yàn)證平臺(tái)上的各種網(wǎng)絡(luò)推斷方法就有30余種。從基因表達(dá)水平的層面上,由于各基因間存在多種非線性調(diào)控關(guān)系,實(shí)際中可能需要結(jié)合多種網(wǎng)絡(luò)構(gòu)建方法進(jìn)行分析。另外,如何利用適合的方法對(duì)不同層次(如基因和蛋白)的多組學(xué)數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),也極具挑戰(zhàn)性。
[1]Smet DR,Marchal K.Advantages and limitations of current network inference methods.Nat Rev Microbiol,2010,8(10):717-729.
[2]劉萬霖,李棟,朱云平,等.基于微陣列數(shù)據(jù)構(gòu)建基因調(diào)控網(wǎng)絡(luò).遺傳,2007,29(12):1434-1442.
[3]Marbach D,Costello JC,Kuffner R,et al.Wisdom of crowds for robust gene network inference.Nat Methods,2012,9(8):796-804.
[4]Faith JJ,Hayete B,Thaden JT,et al.Large-scale mapping and validation of Escherichia coli transcriptional regulation from a compendium of expression profiles.PLoS Biol,2007,5(1):54-66.
[5]Butte AJ,Kohane IS.Mutual information relevance networks:functional genomic clustering using pairwise entropy measuerments.Pac Symp Biocomput,2000,5:418-429.
[6]Margolin AA,Nemenman I,Basso K,et al.ARACNE:an algorithm for the reconstruction of gene regulatory networks in a mammalian cellular context.BMC Bioinformatics,2006,7(Suppl 1):S7.
[7]Daub CO,Steuer R,Selbig J,et al.Estimating mutual information using B-spline functions--an improved similarity measure for analysing gene expression data.BMC Bioinformatics,2004,5:118.
[8]Wang J,Chen C,Li HL,et al.Investigating key genes associated with ovarian cancer by integrating affinity propagation clustering and mutual information network analysis.European Review for Medical and Pharmacological Sciences,2016,20:2532-2540.
[9]Beirlant J,Dudewicz EJ,Gyorfi L,et al.Nonparametric entropy estimation:an overview.Intern J Math Stat Sci,1997,6(1):17-39.
[10]Mordelet F,Vert JP.SIRENE:supervised inference of regulatory networks.Bioinformatics,2008,24(16):i76-82.
[11]Ricardo A,Gerardo C,Karla L,et al.ARACNe-based inference,using curated microarray data of Arabidopsis thaliana root transcriptional regulatory networks.BMC Plant Biology,2014,14(97):1471-2229.
[12]Jang IS,Margolin A,Califano A.hARACNe:improving the accuracy of regulatory model reverse engineering via higher-order data processing inequality tests.Interface Focus,2013,3(4):20130011.
[13]強(qiáng)波,王正志.基于動(dòng)態(tài)貝葉斯網(wǎng)構(gòu)建基因調(diào)控網(wǎng)絡(luò).生物醫(yī)學(xué)工程研究,2008,27(3):145-149.
[14]Schafer J,Strimmer K.An empirical Bayes approach to inferring large-scale gene association networks.Bioinformatics,2005,21(6):754-764.
[15]趙紅.利用動(dòng)態(tài)貝葉斯網(wǎng)構(gòu)建基因調(diào)控網(wǎng)絡(luò)的研究進(jìn)展.數(shù)學(xué)建模及其應(yīng)用,2012,1(4):5-11.
[16]Werhli AV,Husmeier D.Reconstructing gene regulatory networks with bayesian networks by combining expression data with multiple sources of prior knowledge.Statistical Applications in Genetics and Molecular Biology,2007,6(1):Art.15.
[17]Akutekwe A,Seker H.Inference of nonlinear gene regulatory networks through optimized ensemble of support vector regression and dynamic Bayesian networks.Conf Proc IEEE Eng Med Biol Soc,2015:8177-8180.
[18]Huynh-Thu VA,Irrthum A,Wehenkel L,et al.Inferring regulatory networks from expression data using tree-based methods.Plos one,2010,5(9):e12776.
[19]侯艷,楊凱,李康.基于隨機(jī)森林回歸的網(wǎng)絡(luò)構(gòu)建方法及應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2015,32(4):558-561.
[20]Feizi S,Marbach D,Medard M,et al.Network deconvolution as a general method to distinguish direct dependencies in networks.Nat Biotechnol,2013,31(8):726-33.
(責(zé)任編輯:郭海強(qiáng))
*國(guó)家自然科學(xué)基金資助(81473072,81573256);黑龍江省青年基金資助(QC2015098)
△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn
中國(guó)衛(wèi)生統(tǒng)計(jì)2017年1期