張倩倩,胡春玲+,張家瑤,李大偉,邵鳴義
1.合肥學(xué)院 人工智能與大數(shù)據(jù)學(xué)院,合肥230031
2.合肥學(xué)院 安徽省城市基礎(chǔ)設(shè)施大數(shù)據(jù)技術(shù)應(yīng)用工程實(shí)驗(yàn)室,合肥230031
在系統(tǒng)生物學(xué)中,人們對(duì)學(xué)習(xí)調(diào)控網(wǎng)絡(luò)非常感興趣,如基因調(diào)控轉(zhuǎn)錄網(wǎng)絡(luò)、蛋白質(zhì)信號(hào)轉(zhuǎn)導(dǎo)級(jí)聯(lián)、神經(jīng)信息流網(wǎng)絡(luò)或生態(tài)網(wǎng)絡(luò)。首先,了解復(fù)雜的基因調(diào)控網(wǎng)絡(luò)對(duì)當(dāng)前的生物醫(yī)學(xué)研究具有重大意義[1]。其次,闡明基因及基因表達(dá)產(chǎn)物之間的關(guān)系,一直以來(lái)都是實(shí)驗(yàn)生物學(xué)和計(jì)算生物學(xué)的核心挑戰(zhàn)之一[2]。最后,研究基因調(diào)控網(wǎng)絡(luò)的目的在于利用基因表達(dá)數(shù)據(jù),重現(xiàn)基因間相互作用的拓?fù)浣Y(jié)構(gòu),達(dá)到揭示基因復(fù)雜的作用機(jī)理及基因功能信息的目的[3]。
基因調(diào)控網(wǎng)絡(luò)中對(duì)轉(zhuǎn)錄水平的調(diào)控的研究方法主要分為自上而下和自下而上兩種策略。其中自上而下的策略是利用數(shù)學(xué)建模方法和系統(tǒng)生物學(xué)知識(shí),分析基因表達(dá)數(shù)據(jù),從而重構(gòu)基因調(diào)控網(wǎng)絡(luò),這也是目前比較常用的構(gòu)建基因調(diào)控網(wǎng)絡(luò)的方法。目前針對(duì)基因調(diào)控網(wǎng)絡(luò)建模發(fā)展了很多數(shù)學(xué)模型,例如布爾網(wǎng)絡(luò)模型[4-5]、線性回歸模型[6-7]、微分方程模型[8-10]和貝葉斯網(wǎng)絡(luò)模型[11-13]等,其中貝葉斯網(wǎng)絡(luò)模型就是被廣泛使用的一種建模工具。
為了闡明調(diào)控網(wǎng)絡(luò)結(jié)構(gòu),可以使用基于貝葉斯網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,這是Friedman 等人于2000 年在一篇開創(chuàng)性的論文中提出的,F(xiàn)riedman[14]利用貝葉斯網(wǎng)絡(luò)(Bayesian networks,BN)構(gòu)建了一個(gè)包含800 個(gè)基因的基因調(diào)控網(wǎng)絡(luò)。但是,兩個(gè)基因之間的調(diào)控存在一定的時(shí)延,Murphy 等人[15]根據(jù)這一特性首次提出用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian networks,DBN)模型分析時(shí)序基因表達(dá)數(shù)據(jù)以及構(gòu)建基因調(diào)控網(wǎng)絡(luò),此方法一經(jīng)提出,許多學(xué)者展開了更多的研究[16-24]。據(jù)了解,傳統(tǒng)DBN 模型的標(biāo)準(zhǔn)假設(shè)是:觀察到的時(shí)間序列是滿足齊次馬爾可夫過(guò)程的,屬于平穩(wěn)時(shí)間序列。但是,這種過(guò)于嚴(yán)格的標(biāo)準(zhǔn)可能會(huì)導(dǎo)致錯(cuò)誤的推斷結(jié)果。因?yàn)樵谙到y(tǒng)生物學(xué)的實(shí)際應(yīng)用中,調(diào)節(jié)相互作用往往是隨時(shí)間而變化的,例如會(huì)受到環(huán)境或?qū)嶒?yàn)條件變化的影響。也就是說(shuō),實(shí)際上的時(shí)間序列一般是非平穩(wěn)的。因此,針對(duì)這種非平穩(wěn)基因時(shí)序數(shù)據(jù),Grzegorczyk 等人這些年做了很多研究,提出了一系列非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(non-homogeneous dynamic Bayesian network,NHDBN)模型[25-35]。研究表明,NH-DBN 模型對(duì)于基因調(diào)控網(wǎng)絡(luò)的學(xué)習(xí)主要分為三部分:一是網(wǎng)絡(luò)推斷;二是時(shí)間片段的劃分;三是網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)學(xué)習(xí)。
本文梳理了基于齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的基因調(diào)控網(wǎng)絡(luò)建模方法,并將非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(NH-DBN)模型劃分為圖1 所示的兩大類,分別進(jìn)行了分析和比較。最后,探討了基因調(diào)控網(wǎng)絡(luò)構(gòu)建的困難和挑戰(zhàn)。
圖1 非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型分類Fig.1 Classification of non-homogeneous dynamic Bayesian network models
在重建基因調(diào)控網(wǎng)絡(luò)(gene regulatory networks,GRN)時(shí),DBN 是最常用的推理模型之一。DBN 實(shí)際上是BN 在時(shí)序過(guò)程建模領(lǐng)域的拓展,它打破了BN 的限制,能夠?qū)崿F(xiàn)循環(huán)網(wǎng)絡(luò)的構(gòu)建。
在時(shí)間序列數(shù)據(jù)建模中,一組隨機(jī)變量的值在不同時(shí)間點(diǎn)被觀察到。這是通過(guò)將變量的狀態(tài)按時(shí)間點(diǎn)劃分來(lái)完成的,如圖2 所描述(上圖表示包含一個(gè)周期x1→x2→x4→x5→x1的網(wǎng)絡(luò)結(jié)構(gòu)。下圖表示DBN 通過(guò)將變量的狀態(tài)按時(shí)間點(diǎn)劃分來(lái)描述這個(gè)周期)。一般來(lái)說(shuō),時(shí)間序列數(shù)據(jù)上的DBN 設(shè)計(jì)是單向的,即網(wǎng)絡(luò)應(yīng)該在時(shí)間上向前流動(dòng)。假設(shè)每個(gè)時(shí)間點(diǎn)都是單一變量Yi,一連串?dāng)?shù)據(jù){Y1,Y2,…,Yt}的最簡(jiǎn)單因果模型將是一個(gè)一階馬爾可夫鏈,其中下一個(gè)變量的狀態(tài)只依賴于前一個(gè)變量。這個(gè)序列的聯(lián)合概率分布的一般形式是:
圖2 DBN 的示意圖Fig.2 Schematic diagram of DBN
許多生物途徑,如信號(hào)通路和調(diào)控通路,在本質(zhì)上是循環(huán)和動(dòng)態(tài)的,因此證明使用DBN 從時(shí)間序列表達(dá)數(shù)據(jù)中推斷出GRN 是可行的。DBN 建模通常遵循BN 類似的步驟,假設(shè)有i個(gè)微陣列,測(cè)量j個(gè)基因的表達(dá)水平。微陣列數(shù)據(jù)集可以概括為i×j矩陣X=(x1,x2,…,xi),其中每一行向量xi=(xi1,xi2,…,xij)對(duì)應(yīng)于在時(shí)間t測(cè)量的基因表達(dá)向量。首先,在DBN建模中假設(shè)時(shí)間依賴性。這種關(guān)系被描述為一個(gè)有向無(wú)環(huán)圖(一階馬爾可夫鏈),其中只允許有向前的邊。根據(jù)式(1),聯(lián)合分布概率可以分解為:
接下來(lái),根據(jù)條件概率P(xi|xi-1)的構(gòu)造對(duì)基因調(diào)控進(jìn)行建模。假設(shè)網(wǎng)絡(luò)結(jié)構(gòu)在所有時(shí)間點(diǎn)上都是穩(wěn)定的,則條件概率可以分解為每個(gè)基因的條件概率的乘積,當(dāng)給定其父基因時(shí):
通過(guò)這種方式,DBN 實(shí)現(xiàn)了對(duì)循環(huán)路徑的建模。DBN 能夠?qū)?shù)據(jù)本身的特點(diǎn)與實(shí)際問(wèn)題的時(shí)序信息有機(jī)地結(jié)合起來(lái),用來(lái)表示多樣化的時(shí)序信息,如具有復(fù)雜結(jié)構(gòu)關(guān)系、因果關(guān)系或不確定性的關(guān)系。因此,DBN 更適合于描述時(shí)間序列的基因表達(dá)數(shù)據(jù)。
當(dāng)前有很多工作是利用DBN 從表達(dá)數(shù)據(jù)中建?;蛘{(diào)節(jié)網(wǎng)絡(luò)。Ong 等人[36]提出了DBN 的最早應(yīng)用之一,即從時(shí)間序列基因表達(dá)數(shù)據(jù)推斷GRN。主要研究目標(biāo)是利用先前的生物知識(shí)和時(shí)間序列基因表達(dá)數(shù)據(jù)來(lái)模擬基因之間的相互作用和關(guān)系。作者提出了一種基于DBN 的方法,該方法通過(guò)結(jié)合操作子圖和當(dāng)前的觀察來(lái)提高結(jié)果的質(zhì)量。首先,DBN 被應(yīng)用于大腸桿菌色氨酸代謝的時(shí)間序列基因表達(dá)數(shù)據(jù)。然后在以往工作中采用的操作子圖的幫助下,建立一個(gè)初步的DBN 結(jié)構(gòu)來(lái)識(shí)別操作子和目標(biāo)基因之間的關(guān)系。下一步是利用領(lǐng)域?qū)<抑R(shí)來(lái)重新設(shè)定操作子之間的影響概率。初始概率是從領(lǐng)域?qū)<夷抢铽@得的Dirichlet 先驗(yàn)。結(jié)果顯示,DBN 和先驗(yàn)生物學(xué)知識(shí)的結(jié)合在推斷大腸桿菌色氨酸代謝時(shí)間序列基因表達(dá)數(shù)據(jù)的GRN 方面是有效的。與傳統(tǒng)方法相比,所提出的方法能夠提供一個(gè)更全面的色氨酸代謝網(wǎng)絡(luò)視圖。
Perrin 等人[37]指出,在建立基因相互作用模型時(shí)有兩個(gè)問(wèn)題:學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)和識(shí)別所有功能參數(shù)。為了同時(shí)解決這兩個(gè)問(wèn)題,作者提出了一個(gè)基于DBN 的框架,在擴(kuò)展的最大期望(expectation-maximization,EM)算法的基礎(chǔ)上進(jìn)行懲罰性似然最大化。使用EM 算法學(xué)習(xí)參數(shù),該算法由期望和最大化階段組成。第一階段使用一系列的過(guò)濾器和平滑器過(guò)程來(lái)定義模型參數(shù)。第二階段關(guān)注的是計(jì)算一個(gè)新的期望階段的梯度步驟。每個(gè)EM 步驟的懲罰似然都會(huì)增加,直到達(dá)到局部最大值。此外,EM 算法為該模型提供了處理基因表達(dá)數(shù)據(jù)中發(fā)現(xiàn)的缺失值的能力。為了評(píng)估結(jié)果,將該模型應(yīng)用于大腸桿菌修復(fù)網(wǎng)絡(luò)基因表達(dá)數(shù)據(jù)。所提出的模型成功地恢復(fù)了網(wǎng)絡(luò)中98%的連接,并證明了該模型在捕捉基因-基因相互作用方面的能力。
Tamada 等人[38]觀察到,與網(wǎng)絡(luò)模型中的基因數(shù)量相比,微陣列的數(shù)量不足,這阻礙了推斷的準(zhǔn)確性。為了解決這個(gè)問(wèn)題,作者將啟動(dòng)子元素檢測(cè)與DBN 結(jié)合起來(lái)。首先使用DBN 構(gòu)建了一個(gè)初始網(wǎng)絡(luò)模型,然后將幾個(gè)假定為轉(zhuǎn)錄因子的候選基因作為父基因,并且定義了潛在的受控基因組。啟動(dòng)子元素檢測(cè)是基于這樣一個(gè)生物學(xué)事實(shí):如果一個(gè)父基因是一個(gè)轉(zhuǎn)錄因子,它的子基因可能在其DNA 序列的啟動(dòng)子區(qū)域共享一個(gè)共識(shí)圖案。該方法根據(jù)估計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)檢測(cè)共識(shí)圖案,然后用圖案檢測(cè)的結(jié)果重新估計(jì)網(wǎng)絡(luò)。該模型反復(fù)進(jìn)行,直到網(wǎng)絡(luò)變得穩(wěn)定。作者評(píng)估了他們提出的模型,首先將其應(yīng)用于偽微陣列數(shù)據(jù)和蒙特卡洛模擬產(chǎn)生的DNA 序列。他們還將該模型應(yīng)用于S.cerevisiae 的基因表達(dá)數(shù)據(jù)。結(jié)果顯示,在這兩種情況下,該模型能夠比以前的方法推斷出更準(zhǔn)確的GRN,這是因?yàn)閯?dòng)機(jī)信息能夠修正不正確的基因關(guān)系。
Zou 和Conzen[39]開發(fā)了一種基于DBN 的方法,該方法通過(guò)潛在調(diào)節(jié)器選擇和時(shí)滯估計(jì)來(lái)提高推斷的準(zhǔn)確性和計(jì)算速度。作者指出,傳統(tǒng)的DBN 通常將數(shù)據(jù)集中的所有基因都看作某個(gè)目標(biāo)基因的潛在調(diào)控因子,從而導(dǎo)致搜索空間大,計(jì)算成本高。此外,DBN 缺乏處理生物相關(guān)轉(zhuǎn)錄時(shí)間滯后的能力,因此導(dǎo)致推斷準(zhǔn)確性低。作者旨在解決這兩個(gè)問(wèn)題:首先,通過(guò)限制基于表達(dá)變化的潛在調(diào)節(jié)器的數(shù)量來(lái)減少搜索空間的大小;其次,根據(jù)潛在調(diào)節(jié)器和目標(biāo)基因的初始表達(dá)變化之間的時(shí)間差來(lái)實(shí)施時(shí)間滯后估計(jì)。所提出的模型被應(yīng)用于S.cerevisiae 細(xì)胞周期時(shí)間序列基因表達(dá)數(shù)據(jù),與傳統(tǒng)的DBN 相比,它在準(zhǔn)確性和計(jì)算速度方面有明顯的性能改進(jìn)。
Dojer 等人[40]通過(guò)將DBN 與擾動(dòng)相結(jié)合,推斷出了更可靠的GRN,因?yàn)閿_動(dòng)的表達(dá)數(shù)據(jù)能夠提供對(duì)于基因關(guān)系和因果關(guān)系有意義的信息?;虮磉_(dá)首先被特定的處理方式所擾亂,如基因敲除實(shí)驗(yàn)和環(huán)境壓力,因此改變了相互作用的性質(zhì)。然后,通過(guò)替代被擾亂基因的mRNA 的微分方程,將擾亂引入模型。在學(xué)習(xí)過(guò)程中,表達(dá)水平被離散化,閾值為0.5。引入閾值的目的是為了減少離散化引起的表達(dá)的低變異性。結(jié)果顯示,由于擾動(dòng)的表達(dá)數(shù)據(jù),推斷網(wǎng)絡(luò)的質(zhì)量有了明顯的提高。
Wu 和Liu[41]旨在研究從微陣列實(shí)驗(yàn)產(chǎn)生的高維基因表達(dá)數(shù)據(jù)中對(duì)GRN 進(jìn)行DBN 建模的可行性。作者著重于通過(guò)使用兩種不同的網(wǎng)絡(luò)結(jié)構(gòu)搜索方法來(lái)改進(jìn)DBN 建模。GSR(greedy hill-climbing search with restarts)和馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC),這兩種方法都被應(yīng)用于DBN建模,以減少基因表達(dá)數(shù)據(jù)的維度問(wèn)題。就GSR 而言,具有最高分的初始網(wǎng)絡(luò)結(jié)構(gòu)可以通過(guò)增加或刪除一條邊來(lái)進(jìn)行可能的突變。然后,變異后的網(wǎng)絡(luò)模型被設(shè)定為新的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。這個(gè)過(guò)程反復(fù)進(jìn)行,直到達(dá)到局部最大值。最終的網(wǎng)絡(luò)結(jié)構(gòu)將被保存,并開始新的運(yùn)行。反之,MCMC 方法與梅特羅波利斯-黑斯廷斯(Metropolis-Hastings,M-H)算法相結(jié)合。一個(gè)新的候選模型將從基于當(dāng)前模型的跳躍分布中產(chǎn)生。隨后計(jì)算候選模型的接受概率,以確定候選模型是應(yīng)該被拒絕還是接受。通過(guò)模型平均技術(shù)分析了兩種搜索方法的性能?;谶@些結(jié)果,作者認(rèn)為兩種方法在時(shí)間效率方面具有可比性,但與GSR 相比,MCMC 取得了更好的預(yù)測(cè)精度。
表1 將以上動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型進(jìn)行對(duì)比分析并進(jìn)行了歸納總結(jié)。
表1 基于齊次DBN 的基因調(diào)控網(wǎng)絡(luò)建模方法比較Table 1 Comparison of gene regulatory network modeling methods based on homogeneous DBN
傳統(tǒng)的DBN 在建模時(shí)間序列時(shí)基于齊次約束,該約束要求被建模時(shí)間序列的分布隨著時(shí)間的推移而保持穩(wěn)定。在上述齊次假設(shè)的基礎(chǔ)上,傳統(tǒng)DBN的建模能力受到了極大的約束,實(shí)際中的諸多場(chǎng)合不符合苛刻的齊次要求。例如,果蠅基因調(diào)控網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)會(huì)隨著果蠅的生長(zhǎng)而發(fā)生改變?;谏鲜鲈颍叫栊碌母咝P徒I鲜鰣?chǎng)景中的非穩(wěn)態(tài)數(shù)據(jù)。在這樣的背景下,非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)被提出。
NH-DBN 模型處理的一般是時(shí)序數(shù)據(jù),此類模型處理時(shí)序數(shù)據(jù)的關(guān)鍵步驟則是劃分時(shí)間片段。隨著技術(shù)的發(fā)展,時(shí)間片的劃分方式也得到了逐步提升,本段主要介紹了基于以下四種方法的相關(guān)模型:自由分配、連續(xù)變點(diǎn)過(guò)程、離散變點(diǎn)過(guò)程以及基于隱馬爾可夫的變點(diǎn)過(guò)程。
Grzegorczyk 等人于2008 年[25]提出了一種基于貝葉斯網(wǎng)絡(luò)的模型來(lái)建?;蛘{(diào)控網(wǎng)絡(luò)。該模型在段之間保持推斷出的網(wǎng)絡(luò)結(jié)構(gòu)不變,每個(gè)段使用貝葉斯網(wǎng)絡(luò)的高斯BGe 模型獨(dú)立建模,被稱為BGM 模型。該模型基于高斯混合貝葉斯模型,使用潛在變量將單個(gè)觀測(cè)值分配到不同的類別。然后利用MCMC 方法從后驗(yàn)分布中對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、時(shí)間片的數(shù)量和潛在變量分配進(jìn)行采樣,并使用文獻(xiàn)[42]提出的分配采樣器作為可跳逆的馬爾可夫鏈蒙特卡洛(reversible jump Markov chain Monte Carlo,RJMCMC)采樣[43]的替代方法。關(guān)于時(shí)間片的劃分,該模型則采用了較為簡(jiǎn)單的自由分配,將數(shù)據(jù)點(diǎn)自由分配給狀態(tài),隨機(jī)確定時(shí)間片段。
2.2.1 BGMD 模型
Grzegorczyk 等人[26]在2009 年對(duì)文獻(xiàn)[25]的BGM模型做了進(jìn)一步研究,作者提出了一種新的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)方法來(lái)模擬非平穩(wěn)和非線性的動(dòng)態(tài)基因調(diào)控過(guò)程,該模型被稱作BGMD模型。新方法基于多變點(diǎn)過(guò)程和BGM 模型,同樣是使用潛在變量將單個(gè)測(cè)量值分配給不同的時(shí)間片,但是對(duì)于時(shí)間片的劃分方式發(fā)生了變化,由于自由分配太有隨機(jī)性,對(duì)于時(shí)間片的劃分不夠準(zhǔn)確。雖然自由分配具有普適性,但它不能利用與時(shí)間過(guò)程相關(guān)的特定先驗(yàn)知識(shí)。BGMD模型使用連續(xù)變點(diǎn)過(guò)程的方法,該方法結(jié)合了先驗(yàn)知識(shí),即在一個(gè)時(shí)間序列中,相鄰的時(shí)間點(diǎn)很可能被分配給相同的類別,與BGM 模型類似,變化點(diǎn)的數(shù)量和位置同樣是利用MCMC方法從后驗(yàn)分布采樣。
2.2.2 cp-BGe模型
Grzegorczyk 等人[27]于2009 年提出了一種用于連續(xù)數(shù)據(jù)的非均勻動(dòng)態(tài)變點(diǎn)BGe(changepoint-BGe,cp-BGe)模型,該模型基于文獻(xiàn)[25]、文獻(xiàn)[42]和文獻(xiàn)[44]的工作。同樣是用連續(xù)變點(diǎn)過(guò)程代替了文獻(xiàn)[25]中的自由分配模型,但同時(shí)也引用了文獻(xiàn)[44]中的特定于節(jié)點(diǎn)的變點(diǎn)的概念,與其不同的是,作者不使用貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)作為近似評(píng)分函數(shù),而是計(jì)算關(guān)于該模型網(wǎng)絡(luò)結(jié)構(gòu)的邊際似然來(lái)近似評(píng)分。在該方法中,參數(shù)允許在不同的段之間變化,并且在同一網(wǎng)絡(luò)結(jié)構(gòu)中提供了不同的段之間的基本信息共享。該模型在參數(shù)方面是非平穩(wěn)的,而網(wǎng)絡(luò)結(jié)構(gòu)在段之間保持不變。該模型實(shí)際上同樣是BGe 模型的混合,也被稱為非平穩(wěn)BGe模型。
Grzegorczyk 等 人[28]于2011 年 對(duì)cp-BGe 模 型 進(jìn)行了進(jìn)一步的改進(jìn),提出了一個(gè)新的非均勻動(dòng)態(tài)變點(diǎn)BGe(new changepoint-BGe,New cp-BGe)模型。首先新模型采用了一個(gè)新穎的離散變點(diǎn)過(guò)程,替代了之前的連續(xù)變點(diǎn)過(guò)程。它們的不同點(diǎn)主要在于,在連續(xù)變點(diǎn)過(guò)程中,變化點(diǎn)獨(dú)立且均勻分布在一個(gè)連續(xù)區(qū)間上,而在離散變點(diǎn)過(guò)程中,變化點(diǎn)獨(dú)立且均勻分布在一個(gè)離散區(qū)間上,且在離散變點(diǎn)過(guò)程中,實(shí)現(xiàn)了分配向量和變化點(diǎn)之間的一對(duì)一映射。其次,新模型還提出了新的MCMC 方案,即引入了一種新的父節(jié)點(diǎn)翻轉(zhuǎn)移動(dòng)。父節(jié)點(diǎn)翻轉(zhuǎn)移動(dòng)是指將當(dāng)前父節(jié)點(diǎn)集合πn中的一個(gè)父節(jié)點(diǎn)Xi∈πn交換成另一個(gè)新節(jié)點(diǎn)Xj?πn。最后該模型也解決了文獻(xiàn)[45]和文獻(xiàn)[46]提出的NH-DBN 模型的兩個(gè)缺點(diǎn):(1)數(shù)據(jù)使用時(shí)要進(jìn)行離散化,會(huì)導(dǎo)致固有的信息損失。(2)不同的網(wǎng)絡(luò)結(jié)構(gòu)與不同的時(shí)間序列段相關(guān)聯(lián),這對(duì)于短時(shí)間序列將不可避免地導(dǎo)致過(guò)度擬合或夸大的不確定性推斷。解決方案如下:(1)新模型的數(shù)據(jù)在使用時(shí)是連續(xù)的,不需要進(jìn)行離散化處理,避免了第一個(gè)問(wèn)題。(2)新模型的參數(shù)是變化的,而所有段的網(wǎng)絡(luò)結(jié)構(gòu)都是相同的。雖然在某些情況下(比如形態(tài)發(fā)生)這個(gè)模型的局限性太大,但是對(duì)于大多數(shù)時(shí)間尺度較短的細(xì)胞過(guò)程來(lái)說(shuō),隨著時(shí)間變化的不是結(jié)構(gòu),而是調(diào)節(jié)相互作用的強(qiáng)度。
Grzegorczyk 于2016 年提出的基于隱馬爾可夫的非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(non-homogeneous dynamic Bayesian network with hidden Markov model,HMMDBN)模型[29],同樣是假設(shè)推理過(guò)程中不同時(shí)間片段的網(wǎng)絡(luò)結(jié)構(gòu)是固定的,變化是其回歸參數(shù)。該模型最大的改進(jìn)之處在于假設(shè)時(shí)間數(shù)據(jù)點(diǎn)的底層分配遵循隱馬爾可夫模型。HMM-DBN 模型是與多轉(zhuǎn)換點(diǎn)過(guò)程相結(jié)合的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN with changepoints,CPS-DBN)模型和混合動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(MIXDBN)模型的結(jié)合。CPS-DBN[27]將時(shí)間序列劃分為多個(gè)時(shí)間片段后,對(duì)于不同片段內(nèi)的數(shù)據(jù)點(diǎn)要被分配給對(duì)應(yīng)相同的狀態(tài),但是不同片段的數(shù)據(jù)點(diǎn)必須分配給不同的狀態(tài)(即變點(diǎn)過(guò)程)。MIX-DBN[25]允許將數(shù)據(jù)點(diǎn)無(wú)限制地自由分配給狀態(tài),但是沒(méi)有考慮到數(shù)據(jù)點(diǎn)的時(shí)間順序(即自由分配)。該論文提出的HMM-DBN 模型既考慮到了數(shù)據(jù)的時(shí)間順序,也沒(méi)有對(duì)數(shù)據(jù)點(diǎn)的分配狀態(tài)施加任何限制。
然后作者提出了關(guān)于轉(zhuǎn)換點(diǎn)采樣的兩對(duì)新的移動(dòng)方案:第一對(duì)是包含和排除移動(dòng);第二對(duì)是出生和死亡移動(dòng)。這改善了分配采樣器的混合和收斂性。圖3 以及圖4 展示了包含移動(dòng)和出生移動(dòng)的操作示例。
圖3 包含移動(dòng)Fig.3 Inclusion move
圖4 出生移動(dòng)Fig.4 Birth move
表2 從改進(jìn)措施、模型優(yōu)勢(shì)和局限性方面,對(duì)本節(jié)描述的基于時(shí)間片劃分的非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型進(jìn)行了歸納總結(jié)。
表2 基于時(shí)間片劃分的NH-DBN 模型比較Table 2 Comparison of NH-DBN models based on time slice partition
相關(guān)文獻(xiàn)表明[25,27-29],為了更好地進(jìn)行網(wǎng)絡(luò)推斷,假設(shè)在不同時(shí)間段內(nèi)網(wǎng)絡(luò)結(jié)構(gòu)是保持不變的,變化的只是調(diào)節(jié)作用強(qiáng)度,那么學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的相關(guān)調(diào)節(jié)作用強(qiáng)度參數(shù)就格外重要。因此,對(duì)于基因調(diào)控網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)方面,Grzegorczyk 等人從2012 年到2021 年提出了六種基于參數(shù)耦合的NH-DBN 模型,參數(shù)耦合方式總的來(lái)說(shuō)分為順序(序列)耦合[30-33]和全局耦合[34-35]兩大類。
由于基因表達(dá)時(shí)間序列過(guò)短,以往模型在推斷過(guò)程中過(guò)于靈活,會(huì)導(dǎo)致過(guò)擬合或夸大的不確定性推理。為解決這個(gè)問(wèn)題,Grzegorczyk 等人于2012 年提出了具有順序耦合非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(sequentially coupled NH-DBN,SC NH-DBN)模型[30]。該模型引入了一個(gè)時(shí)間片段之間共享的順序耦合參數(shù),它本身是從數(shù)據(jù)中推斷出來(lái)的。順序耦合參數(shù)的引用使得模型實(shí)現(xiàn)了各段的回歸參數(shù)的推斷不再是獨(dú)立的,而是使用耦合參數(shù)調(diào)節(jié)回歸參數(shù)的耦合強(qiáng)度(即回歸參數(shù)的相似性)。實(shí)際上,假設(shè)在相鄰的時(shí)間間隔內(nèi),大自然重新發(fā)明了調(diào)節(jié)網(wǎng)絡(luò)是不現(xiàn)實(shí)的。因此,作者假設(shè)任何時(shí)間段上的相互作用強(qiáng)度總體上與前一個(gè)時(shí)間段上的強(qiáng)度相似。該模型主要實(shí)現(xiàn)了以上想法以及對(duì)采樣方案進(jìn)行了一些調(diào)整。該模型的采樣方案如下(如圖5 所示):(1)網(wǎng)絡(luò)推斷。隨機(jī)選擇一個(gè)單邊操作移動(dòng)(刪除邊、添加邊或翻轉(zhuǎn)邊)并執(zhí)行M-H 方法采樣出父節(jié)點(diǎn)集。(2)分段更新。如果選擇的變更點(diǎn)是固定的就跳過(guò)此步驟;否則,隨機(jī)選擇一個(gè)變點(diǎn)誕生、死亡或者重新分配并且執(zhí)行M-H 方法采樣出一個(gè)新的變更點(diǎn)集。(3)超參數(shù)的更新。使用折疊Gibbs 采樣步驟重新采樣超參數(shù),通過(guò)相關(guān)概率公式進(jìn)行這4 個(gè)參數(shù)——信噪比超參數(shù)δg、回歸參數(shù)wg,h、順序耦合參數(shù)λg以及方差超參數(shù)σg的迭代采樣。
圖5 順序耦合NH-DBN 模型的采樣方案Fig.5 Sampling scheme of sequentially coupled NH-DBN model
Grzegorczyk 等人于2012 年提出的SC NH-DBN模型雖然有一定的提升,但也存在一個(gè)缺點(diǎn),即在2012 年的模型中,通過(guò)將第h+1 段中的耦合參數(shù)的先驗(yàn)期望設(shè)置為來(lái)自第h段的耦合參數(shù)的后驗(yàn)期望,最終會(huì)導(dǎo)致所有相鄰的段具有相同的耦合強(qiáng)度。Kamalabad 等人于2018 年提出了一個(gè)新的改進(jìn)后的順序耦合模型,稱為特定于段的順序耦合非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(segment-specific sequentially coupled NH-DBN,SSC NH-DBN)模型[31],在文獻(xiàn)中也被稱為M1,1模型。改進(jìn)之后的模型對(duì)于每對(duì)相鄰的段,存在特定于段的耦合參數(shù),參數(shù)之間的耦合強(qiáng)度可以隨時(shí)間變化。段特定的耦合參數(shù)從段內(nèi)的數(shù)據(jù)點(diǎn)推斷出來(lái),后一段的耦合強(qiáng)度依賴于前一段的耦合強(qiáng)度和當(dāng)前段數(shù)據(jù)潛在信息,這大大增加了模型的準(zhǔn)確性。
由于2019 年之前提出的順序耦合模型都有一個(gè)缺點(diǎn),即它強(qiáng)制耦合,不能解除耦合,Kamalabad 和Grzegorczyk 于2019 年和2021 年提出了兩個(gè)新的模型,一是可以判斷邊是否耦合,二是可以判斷時(shí)間段是否耦合。不同于以往的模型強(qiáng)制全部耦合或全部不耦合,這種部分耦合部分不耦合的情況更符合現(xiàn)實(shí)情況,對(duì)于重構(gòu)精度可以達(dá)到明顯的提高。Mahdi等人于2019 年提出了一個(gè)新的NH-DBN 模型,稱為邊耦合非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(edge-wise coupled NH-DBN,EWC NH-DBN)模型[32]。它的主要優(yōu)點(diǎn)在于結(jié)合了非耦合NH-DBN 和耦合NH-DBN 的特征。對(duì)于每一條邊,該模型可以推測(cè)出它的回歸系數(shù)是應(yīng)該耦合還是應(yīng)該保持不耦合。為了區(qū)分出回歸系數(shù)的耦合性,作者引入了一個(gè)指標(biāo)向量,其元素為二進(jìn)制變量,當(dāng)其元素值為1 時(shí),表示對(duì)應(yīng)的回歸系數(shù)是耦合的,當(dāng)為0 時(shí),表示回歸系數(shù)不耦合。
Kamalabad 等人于2021 年提出了一個(gè)部分分段耦合非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(partially segment-wise coupled NH-DBN,PSC NH-DBN)模型[33]。該模型可看作一個(gè)非耦合模型和完全耦合模型(完全耦合模型不同于全局耦合模型,完全耦合模型主要是強(qiáng)調(diào)全部段都強(qiáng)制耦合)的結(jié)合。與文獻(xiàn)[32]的模型類似,同樣是提出了一個(gè)離散二元指標(biāo)向量δh,其元素值為1 時(shí),表示當(dāng)前段h與前一段耦合,其元素值為0時(shí)則代表分離。不同點(diǎn)在于,該模型用部分耦合時(shí)間段的概念取代了部分耦合邊緣的概念。該模型可以達(dá)到兩個(gè)極限:當(dāng)所有段都耦合時(shí)(h>2 時(shí),δh=1),即為完全耦合模型;如果把所有段都解除耦合(h>0 時(shí),δh=0),則稱為非耦合模型。
由于采用順序耦合方法,信息只能在相鄰段之間共享,它比較適用于系統(tǒng)的發(fā)育過(guò)程。比方說(shuō),當(dāng)一種昆蟲經(jīng)歷其生命周期的不同階段時(shí),人們就會(huì)認(rèn)為,距離近的階段(如幼蟲和胚胎)比距離遠(yuǎn)的階段(如幼蟲和成蟲)有更多的共性。那么在時(shí)間序列片段受不同實(shí)驗(yàn)場(chǎng)景或環(huán)境條件影響的情況下(例如,當(dāng)一個(gè)酵母菌株暴露于不同的碳源,如葡萄糖、半乳糖和果糖),信息共享沒(méi)有自然順序,這些片段很多被視為可互換的。為解決這種情況,Grzegorczyk 等人[34]于2012 年提出了全局耦合非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(globally coupled NH-DBN,GC NH-DBN)模型,全局耦合即是指時(shí)間片段被視為可交互的,信息被全局共享。Grzegorczyk等人于2012年首次提出了全局耦合的相關(guān)概念,模型不夠成熟。于是Grzegorczyk 等人[35]于2013 年對(duì)文獻(xiàn)[34]提出的方法進(jìn)行了以下改進(jìn):一是對(duì)文獻(xiàn)[34]的模型進(jìn)行了擴(kuò)展,在模型層次中引入了一個(gè)額外的層,允許網(wǎng)絡(luò)節(jié)點(diǎn)之間的信息共享(Grzegorczyk 等人2012 年提出的兩篇關(guān)于順序耦合和全局耦合的文章都不允許網(wǎng)絡(luò)節(jié)點(diǎn)之間信息共享[30,34]),并對(duì)噪聲方差超參數(shù)的各種耦合方案進(jìn)行了比較。二是引入了一種新的折疊Gibbs 采樣方法,它取代了文獻(xiàn)[34]中的MCMC 算法中效率較低的非折疊Gibbs 采樣方法。三是最重要的一部分,展示了如何使用折疊和阻塞技術(shù)來(lái)開發(fā)一種新的先進(jìn)的MCMC 算法。提出的全局耦合NH-DBN 模型在網(wǎng)絡(luò)節(jié)點(diǎn)之間的信息共享上進(jìn)行了研究。在文獻(xiàn)[34]的模型中每個(gè)節(jié)點(diǎn)的超參數(shù)在原始模型中是獨(dú)立建模的,在擴(kuò)展模型中,將各節(jié)點(diǎn)的噪聲方差和各時(shí)間段交互參數(shù)之間的耦合強(qiáng)度進(jìn)行分層耦合,即增加二級(jí)超參數(shù)。為了在片段之間引入信息共享,作者在貝葉斯層次結(jié)構(gòu)中添加額外的層,并假設(shè)回歸參數(shù)的均值向量服從共軛高斯先驗(yàn)分布。
表3 從改進(jìn)措施、模型優(yōu)勢(shì)和局限性方面,對(duì)本節(jié)描述的基于參數(shù)耦合的非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型進(jìn)行了歸納總結(jié)。
表3 耦合NH-DBN 模型比較Table 3 Comparison of coupled NH-DBN models
M(n,j)=1 表示n→j存在調(diào)控邊,反之M(n,j)=0表示n→j不存在。定義en,j∈(0,1)為每條邊的后驗(yàn)概率,E(ξ) 表示后驗(yàn)概率超過(guò)閾值ξ所有邊的集合。計(jì)算每個(gè)E(ξ) 對(duì)應(yīng)的真陽(yáng)性TP[ξ],假陽(yáng)性FP[ξ],假陰性FN[ξ] 。繪制以P[ξ] 為垂直軸,R[ξ]為水平軸的Precision-Recall (PR)曲線,PR 曲線下面積(AUC-PR)作為一種定量測(cè)量,較大的AUC-PR 值表示更好的網(wǎng)絡(luò)構(gòu)建精度。
BGM 模型:(1)網(wǎng)絡(luò)重建方面,針對(duì)靜態(tài)合成的網(wǎng)絡(luò)數(shù)據(jù),BGM 與BGe[47]和BDe[48]相比之下可以獲得更高的網(wǎng)絡(luò)重建精度。(2)統(tǒng)計(jì)學(xué)意義方面,通過(guò)計(jì)算兩個(gè)分?jǐn)?shù)——貝葉斯因子和預(yù)測(cè)分布,將這些分?jǐn)?shù)應(yīng)用于兩種不同系統(tǒng)(巨噬細(xì)胞受到病毒攻擊和植物的晝夜節(jié)律)在不同平臺(tái)(Agilent 和Affymetrix)上獲得的基因表達(dá)時(shí)間序列,發(fā)現(xiàn)BGM 的效果往往優(yōu)于BGe。(3)與內(nèi)在生物學(xué)特征的一致性方面,利用來(lái)自骨髓來(lái)源的巨噬細(xì)胞的基因表達(dá)時(shí)間序列,重點(diǎn)研究IFN 通路的一個(gè)生物學(xué)特性明確的子系統(tǒng),可以證明BGM 能更好地構(gòu)建通路。
BGMD模型:一方面,通過(guò)使用小的合成動(dòng)態(tài)網(wǎng)絡(luò)發(fā)現(xiàn)該模型受偽反饋回路的影響程度更低以及不太容易推斷出虛假的自環(huán),因此網(wǎng)絡(luò)重建精度得到了提升;另一方面,在保持網(wǎng)絡(luò)結(jié)構(gòu)不變,允許交互參數(shù)改變的情況下,BGMD模型比標(biāo)準(zhǔn)BGe 模型和BGM 模型有更好的網(wǎng)絡(luò)重構(gòu)精度。
cp-BGe 模型:該模型比經(jīng)典平穩(wěn)模型BDe 和BGe 以及其他的非平穩(wěn)模型有明顯的改進(jìn)。將該模型應(yīng)用到擬南芥基因表達(dá)時(shí)間序列中,得到了可靠的數(shù)據(jù)分段,重建的基因調(diào)控網(wǎng)絡(luò)顯示出與生物學(xué)文獻(xiàn)一致的特征。
New cp-BGe 模型:作者投入了大量的精力來(lái)改進(jìn)和評(píng)估MCMC 方案的混合和收斂性,解決了網(wǎng)絡(luò)結(jié)構(gòu)的采樣和變點(diǎn)配置的采樣。主要操作如下:一方面,在該模型中,對(duì)于父節(jié)點(diǎn)和變化點(diǎn)的采樣,使用了一種與M-H 方法一致的方法,用來(lái)提高M(jìn)CMC采樣的收斂和混合。該方法對(duì)于父節(jié)點(diǎn)的采樣采用玻爾茲曼分布的方法,對(duì)于Kn和Vg的采樣使用“直接從條件后驗(yàn)分布中抽取變化點(diǎn)的節(jié)點(diǎn)特定數(shù)量Kn和節(jié)點(diǎn)特定分配向量Vn”的方法,主要為了避免M-H采樣器會(huì)導(dǎo)致較差的收斂和混合,使得模擬往往會(huì)陷入局部最優(yōu)。另一方面,由于基于單邊操作的經(jīng)典結(jié)構(gòu)MCMC的收斂性非常差,引入了一種新的父節(jié)點(diǎn)翻轉(zhuǎn)移動(dòng),該移動(dòng)給MCMC的收斂性帶來(lái)了很大的改進(jìn)。研究表明,與具有BDe和BGe分?jǐn)?shù)的經(jīng)典齊次DBN 以及非線性/非平穩(wěn)模型和BGM模型相比,提出的非齊次cp-BGe模型的性能得到了明顯改善。將該模型應(yīng)用于擬南芥中生物鐘調(diào)控基因的基因表達(dá)時(shí)間序列,得出了合理的數(shù)據(jù)分段,重建的網(wǎng)絡(luò)顯示出與生物學(xué)文獻(xiàn)一致的特征。
HMM-DBN 模型:首先,對(duì)于周期性數(shù)據(jù)的時(shí)間片段劃分,HMM-DBN 模型優(yōu)于MIX-DBN 和GPSDBN。其次,關(guān)于酵母網(wǎng)絡(luò)重構(gòu)精度,通過(guò)對(duì)比齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(homogeneous-DBN,HOM-DBN)、CPS-DBN、MIX-DBN 和耦合CPS-DBN 模型,HMMDBN 的平均AUC 分?jǐn)?shù)最高,即網(wǎng)絡(luò)重構(gòu)精度得到了一定的提升。最后,關(guān)于擬南芥基因調(diào)控網(wǎng)絡(luò)的重建,發(fā)現(xiàn)了多個(gè)和生物學(xué)文獻(xiàn)一致的基因節(jié)點(diǎn)調(diào)控邊。
SC NH-DBN 模型:首先該模型相較于傳統(tǒng)的非耦合時(shí)變動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(time-varying DBN,TVDBN)模型提高了網(wǎng)絡(luò)重構(gòu)精度;然后針對(duì)果蠅和擬南芥基因表達(dá)數(shù)據(jù),與傳統(tǒng)的非耦合TV-DBN 模型相比,SC NH-DBN 模型對(duì)于時(shí)間序列的分段產(chǎn)生了更強(qiáng)相關(guān)的相互作用參數(shù)。此外,還發(fā)現(xiàn)SC NH-DBN模型對(duì)于(未知)變化點(diǎn)數(shù)量的變化具有更強(qiáng)的魯棒性,即隨著推斷的變化點(diǎn)數(shù)量的增加,網(wǎng)絡(luò)重建精度保持穩(wěn)定。
SSC NH-DBN 模型:一方面,該模型與文獻(xiàn)[30]中的模型相比,網(wǎng)絡(luò)的重建精度的確得到了很大提高;另一方面,與M0,0、M0,1、M1,0三個(gè)模型進(jìn)行對(duì)比(這三個(gè)模型在參數(shù)的設(shè)定上不同:M0,0是2012 年的SC NH-DBN 模型,M0,1和M1,0是對(duì)提出的SSC NHDBN 模型做了修改的模型,M1,0在耦合參數(shù)上做了修改,M0,1在超參數(shù)上做了修改),實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),只有SSC NH-DBN 模型對(duì)于變點(diǎn)過(guò)程超參數(shù)是穩(wěn)健的,即隨著推斷的變化點(diǎn)數(shù)量的增加,其他模型的網(wǎng)絡(luò)精度會(huì)下降,只有SSC NH-DBN 模型的網(wǎng)絡(luò)重建精度保持較高。
EWC NH-DBN 模型:首先,針對(duì)酵母數(shù)據(jù),該模型對(duì)比其他13種先進(jìn)模型[21,29-30,49-53]具有更高的網(wǎng)絡(luò)重構(gòu)精度(其中包括傳統(tǒng)同構(gòu)DBN,文獻(xiàn)[30]和文獻(xiàn)[21]提出的模型等)。然后,針對(duì)擬南芥數(shù)據(jù),該模型學(xué)習(xí)出了一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),參考當(dāng)前的生物學(xué)文獻(xiàn)資料,擬南芥生物鐘網(wǎng)絡(luò)結(jié)構(gòu)中的重要關(guān)鍵特征是LHY 和TOC1之間的反饋回路。該模型不僅推斷出了這一反饋循環(huán),還表明了LHY 對(duì)TOC1 的影響不依賴于光,而TOC1 對(duì)LHY 的調(diào)節(jié)作用依賴于光。還進(jìn)一步發(fā)現(xiàn)了ELF3 對(duì)TOC1 的調(diào)控作用也是光依賴的。
PSC NH-DBN 模型:該模型和非耦模型、文獻(xiàn)[30]提出的全局耦合模型、文獻(xiàn)[31]提出的特定于段的順序耦合模型進(jìn)行了對(duì)比。通過(guò)對(duì)比發(fā)現(xiàn):一是應(yīng)用在合成數(shù)據(jù)集以及酵母數(shù)據(jù)集上,該模型比起其他競(jìng)爭(zhēng)模型有更好的網(wǎng)絡(luò)重建精度;二是應(yīng)用在擬南芥數(shù)據(jù)集上,學(xué)習(xí)出來(lái)的網(wǎng)絡(luò)結(jié)構(gòu)中包含已被證實(shí)的LHY→ELF3、LHY→ELF4、GI→TOC1、ELF3→PRR3、ELF4→PRR9 等邊。
New GC NH-DBN 模型:首先,通過(guò)對(duì)齊次DBN和非耦合NH-DBN 以及全局耦合NH-DBN 的對(duì)比發(fā)現(xiàn),在中、高信噪比情況下,提出的耦合NH-DBN 的網(wǎng)絡(luò)重構(gòu)精度優(yōu)于齊次DBN 和非耦合NH-DBN。然后,改進(jìn)后的模型比Grzegorczyk 等人的模型MCMC抽樣方案收斂得更好,并且達(dá)到了更好的網(wǎng)絡(luò)重構(gòu)精度。
表4 總結(jié)歸納了本章描述的各模型的性能分析。
表4 NH-DBN 模型的性能分析Table 4 Performance analysis of NH-DBN models
正如本文中所討論的,GRN 推斷是系統(tǒng)生物學(xué)的一個(gè)主要挑戰(zhàn),在過(guò)去的十幾年中,對(duì)于GRN 的有效重建,已有大量的建模方法和評(píng)價(jià)指標(biāo),但GRN 推斷仍然面臨著一些困難與挑戰(zhàn),本文通過(guò)對(duì)基因調(diào)控網(wǎng)絡(luò)研究現(xiàn)狀的認(rèn)識(shí),總結(jié)出其困難與挑戰(zhàn)如下:
(1)GRN 的數(shù)據(jù)處理問(wèn)題:目前越來(lái)越多的基因表達(dá)數(shù)據(jù)集已可獲取,那么對(duì)于數(shù)據(jù)的處理也提出了更高要求。首先,維度詛咒使處理大數(shù)據(jù)集的推理方法受到影響,因此仍然需要更新穎和更有效的算法。維度問(wèn)題通常伴隨著大量先驗(yàn)生物知識(shí)的整合,而諸如稀疏性等模型參數(shù)對(duì)解決這些問(wèn)題作用不大。與此同時(shí),特征選擇對(duì)于從大數(shù)據(jù)集推斷GRN 也非常重要。這些參數(shù)限制了每個(gè)基因的調(diào)節(jié)器的數(shù)量,并使得模型更加復(fù)雜。此外,來(lái)自單細(xì)胞的全向數(shù)據(jù)的整合仍然具有挑戰(zhàn)性,因此需要有標(biāo)準(zhǔn)化的方法。除此之外,多源生物知識(shí)的整合存在數(shù)據(jù)不足的問(wèn)題,這也是GRN 研究的一個(gè)重點(diǎn)。
(2)GRN 建模方法的評(píng)估方法問(wèn)題:GRN 建模方法都有其自身的優(yōu)勢(shì)和劣勢(shì),為了對(duì)它們進(jìn)行比較,已經(jīng)做了許多努力,使用這些算法從單一的數(shù)據(jù)集推斷出一個(gè)GRN,然后評(píng)估其有效性。這些比較需要適當(dāng)?shù)脑u(píng)估方法來(lái)令人滿意地確定算法的性能。
(3)GRN 的建模方法問(wèn)題:系統(tǒng)生物學(xué)的研究最終要走向整合的道路,從對(duì)簡(jiǎn)單環(huán)路的研究逐步上升到中等網(wǎng)絡(luò),乃至真實(shí)大型網(wǎng)絡(luò)的研究具有很重要的現(xiàn)實(shí)意義。目前,沒(méi)有一個(gè)單獨(dú)的GRN 建模方法對(duì)所有的問(wèn)題都表現(xiàn)得很好。由于每個(gè)方法只能合理地關(guān)注調(diào)控網(wǎng)絡(luò)的一個(gè)或幾個(gè)方面,推斷一個(gè)感興趣的網(wǎng)絡(luò)的最佳做法將幾個(gè)來(lái)源的結(jié)果整合到具有邏輯性和人類可讀的圖形輸出中。例如,沒(méi)有一種方法可以明確地宣稱在推斷轉(zhuǎn)錄靶點(diǎn)、翻譯后靶點(diǎn)或驅(qū)動(dòng)某些表型的主調(diào)節(jié)器方面是絕對(duì)最好的。盡管每種方法都有優(yōu)勢(shì),但仔細(xì)分析多種方法的結(jié)果將為研究者提供對(duì)實(shí)驗(yàn)結(jié)果最完整和最有用的基于GRN的見解。雖然納入更多的特征和數(shù)據(jù)集將導(dǎo)致用于推斷GRN 的算法和方法的反復(fù)改進(jìn),但對(duì)于科學(xué)界來(lái)說(shuō),最重要的仍然是積極開發(fā)可獲得的工具。
結(jié)合GRN 的建模方法所面臨的挑戰(zhàn),提出以下三點(diǎn)未來(lái)研究方向:
(1)針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)推斷部分,目前存在的非齊次動(dòng)態(tài)貝葉斯模型中,對(duì)于父節(jié)點(diǎn)的采樣隨機(jī)性較強(qiáng)。在未來(lái)的工作中,可以考慮在進(jìn)行父節(jié)點(diǎn)采樣前,進(jìn)行父節(jié)點(diǎn)篩選操作。通過(guò)利用關(guān)聯(lián)模型(例如互信息、皮爾遜相關(guān)系數(shù)等)學(xué)習(xí)基因節(jié)點(diǎn)的相關(guān)性,獲得候選父節(jié)點(diǎn)集,進(jìn)一步提高下一步的父節(jié)點(diǎn)采樣的準(zhǔn)確性以及效率。但是,在處理基因節(jié)點(diǎn)較多的數(shù)據(jù)時(shí),要注意父節(jié)點(diǎn)篩選部分的時(shí)間復(fù)雜度。
(2)針對(duì)時(shí)間片劃分部分,時(shí)間片進(jìn)行有效劃分可更好地發(fā)掘潛在信息,對(duì)于基因網(wǎng)絡(luò)重建精度可得到有效提升??蓪?duì)現(xiàn)有的一些時(shí)間片劃分方式的優(yōu)缺點(diǎn)進(jìn)行分析,嘗試建立更好的時(shí)間片劃分方式。轉(zhuǎn)換點(diǎn)的選取就是值得進(jìn)一步深入研究的問(wèn)題,可以通過(guò)歐式距離、曼哈頓距離等方式對(duì)轉(zhuǎn)換點(diǎn)進(jìn)行選取,從而更有效地劃分時(shí)間片,時(shí)間片的合理劃分是提高網(wǎng)絡(luò)結(jié)構(gòu)重建精度的關(guān)鍵步驟。
(3)針對(duì)耦合參數(shù)推斷學(xué)習(xí)部分,相關(guān)研究表明,目前存在全局耦合、順序耦合以及特定于段的順序耦合等耦合參數(shù)學(xué)習(xí)方式。但不同類型的基因時(shí)序數(shù)據(jù),其耦合程度不同,以及段間、段內(nèi)數(shù)據(jù)的耦合程度也是不同的。因此,對(duì)于耦合參數(shù)的學(xué)習(xí)方式是未來(lái)研究的重點(diǎn)也是難點(diǎn)。未來(lái)可以嘗試將時(shí)間段耦合的概念與邊耦合的概念相結(jié)合。這兩個(gè)概念的結(jié)合將產(chǎn)生一個(gè)高度靈活的新NHDBN 模型,將每個(gè)單獨(dú)的網(wǎng)絡(luò)邊進(jìn)行部分分段耦合??梢匀?shí)證檢驗(yàn)這種新的混合模型是否會(huì)帶來(lái)更好的網(wǎng)絡(luò)重構(gòu)結(jié)果,或者是否存在模型過(guò)于靈活的問(wèn)題。
本文對(duì)齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的基因調(diào)控網(wǎng)絡(luò)建模方法以及近十幾年提出的非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型進(jìn)行了綜述,并詳細(xì)地描述了各模型的主要思想和創(chuàng)新點(diǎn)以及分析了各模型的優(yōu)缺點(diǎn)。然后,介紹了基因調(diào)控網(wǎng)絡(luò)重建的評(píng)價(jià)指標(biāo)且著重對(duì)非齊次動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型進(jìn)行了詳細(xì)的性能分析。非齊次動(dòng)態(tài)貝葉斯建模方法較傳統(tǒng)方法得到了更高的準(zhǔn)確率,但仍存在若干問(wèn)題待解決。最后,結(jié)合上述內(nèi)容,闡述了GRN 目前存在的困難與挑戰(zhàn)并提出了未來(lái)的一些研究方向。希望對(duì)當(dāng)前及未來(lái)關(guān)于基因調(diào)控網(wǎng)絡(luò)建模的研究工作有所幫助。