關(guān)鍵詞:基因表達(dá)建模;神經(jīng)網(wǎng)絡(luò);矩閉合方法;隨機(jī)模擬;最大熵原理
基因表達(dá)作為理解生物學(xué)現(xiàn)象的核心焦點(diǎn)之一,在生命科學(xué)領(lǐng)域的快速發(fā)展中占據(jù)著重要地位?;虮磉_(dá)是基因通過轉(zhuǎn)錄和翻譯實(shí)現(xiàn)基因功能產(chǎn)物合成的過程,是生物體內(nèi)調(diào)控和執(zhí)行生命過程的關(guān)鍵步驟,通過細(xì)胞調(diào)控和執(zhí)行基因的功能維持生物體的正常功能。了解基因表達(dá)機(jī)制不僅有助于理解生命的本質(zhì),還對(duì)揭示疾病發(fā)生、發(fā)展以及藥物研發(fā)具有重要意義[1-3]。在生物學(xué)中概率主宰生物學(xué),概率在噪聲塑造生物系統(tǒng)行為方面起著至關(guān)重要的作用[4-7]。這里所述的“噪音”源自于活細(xì)胞內(nèi)分子濃度的固有波動(dòng),主要是由生化反應(yīng)的隨機(jī)性引起的,尤其在低分子數(shù)量的生化反應(yīng)中表現(xiàn)得尤為明顯。因此,對(duì)于生化反應(yīng)網(wǎng)絡(luò)的建模主要傾向于對(duì)單個(gè)反應(yīng)進(jìn)行模擬來表現(xiàn)反應(yīng)中分子數(shù)的隨機(jī)波動(dòng)[8]?;谶@一見解,以化學(xué)主方程(ChemicalMasterEquation,CME)為基礎(chǔ)的馬爾可夫模型等低分子隨機(jī)建模方法迅速流行[9-10]。同時(shí),隨機(jī)模擬算法(StochasticSimulationAlgorithm,SSA)也成為了解和獲取基因表達(dá)動(dòng)態(tài)過程的重要工具[10]。然而SSA的計(jì)算成本很高,適用性受到嚴(yán)重限制,難以應(yīng)用于大型系統(tǒng)。
矩閉合近似方法(MomentClosureApproximations,MMA)在研究基因表達(dá)網(wǎng)絡(luò)的穩(wěn)態(tài)和極限行為方面取得了重要成就。大多數(shù)矩閉合方法主要用于估計(jì)分布的矩[11-16],從而得到關(guān)于所有階及以下聯(lián)合分布矩的時(shí)間演化近似解[11-13]。進(jìn)一步可以利用最終穩(wěn)態(tài)時(shí)刻的近似矩值,使用最大熵原理重構(gòu)相應(yīng)的邊緣概率分布[17-18]。通過分析系統(tǒng)的矩集合,這類方法能夠從全局角度理解基因調(diào)控網(wǎng)絡(luò)的整體行為。然而,傳統(tǒng)矩閉合方法仍存在一些挑戰(zhàn)和局限性。首先,傳統(tǒng)矩閉合方法通?;诰€性穩(wěn)態(tài)分析,其在非線性系統(tǒng)中的適用性受限,而許多基因調(diào)控網(wǎng)絡(luò)是非線性的,導(dǎo)致傳統(tǒng)矩閉合方法無法充分捕捉基因表達(dá)網(wǎng)絡(luò)潛在過程相互作用的復(fù)雜性。其次,傳統(tǒng)方法往往局限于特定類型的生化反應(yīng)網(wǎng)絡(luò),難以靈活處理不同生物體和細(xì)胞類型之間基因調(diào)控機(jī)制的差異。此外,在某些復(fù)雜生化反應(yīng)網(wǎng)絡(luò)中,即使采用更高階的矩閉合方案,其精度也可能受到閉合方案和生化反應(yīng)網(wǎng)絡(luò)潛在物理過程復(fù)雜性的限制??偟膩碚f,傳統(tǒng)矩閉合方法在適用范圍和精度方面存在不足。
人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)通常都是對(duì)自然界某種算法或者函數(shù)的逼近,也可能是對(duì)一種邏輯策略的表達(dá)[19],近年來人工神經(jīng)網(wǎng)絡(luò)與其他學(xué)科領(lǐng)域聯(lián)系日益緊密,在各個(gè)領(lǐng)域得到廣泛應(yīng)用,通過對(duì)神經(jīng)網(wǎng)絡(luò)層結(jié)構(gòu)的探索和改進(jìn)來解決不同領(lǐng)域的問題[20]。受此啟發(fā),本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的矩閉合方法,稱為神經(jīng)網(wǎng)絡(luò)矩閉合(Neuralnetworkmomentclosure)方法。該方法利用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)基因調(diào)控網(wǎng)絡(luò)模型的矩方程組中高階矩的低階表示,將未閉合的矩方程組閉合,再通過線性常微分方程組求解獲得估計(jì)的矩值。與傳統(tǒng)矩閉合方法相比,神經(jīng)網(wǎng)絡(luò)矩閉合方法無需對(duì)系統(tǒng)進(jìn)行額外分布假設(shè),更能充分利用生化反應(yīng)網(wǎng)絡(luò)模型中的未知潛在特性,捕捉背后復(fù)雜的物理相互作用。一旦神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到這種潛在相互作用,說明所提出的方法能夠?qū)W習(xí)到生化反應(yīng)模型中的物理行為,使矩閉合結(jié)果更加真實(shí)可信和準(zhǔn)確。神經(jīng)網(wǎng)絡(luò)矩閉合方法不僅提供了一種獲取矩閉合方法的新途徑,而且彌補(bǔ)了傳統(tǒng)方法在生化反應(yīng)網(wǎng)絡(luò)系統(tǒng)模型近似中的不足。本研究有望推動(dòng)基因表達(dá)建模領(lǐng)域的發(fā)展,為深入理解基因調(diào)控網(wǎng)絡(luò)的動(dòng)態(tài)行為提供新的視角和方法。
1預(yù)備知識(shí)
1.1隨機(jī)模擬算法
CME所描述的隨機(jī)過程本質(zhì)上是一個(gè)連續(xù)時(shí)間馬爾可夫過程,其中連續(xù)反應(yīng)事件之間的時(shí)間間隔服從指數(shù)分布[21]。由于從指數(shù)分布中抽樣相對(duì)簡(jiǎn)單,因此模擬生化反應(yīng)的發(fā)生非常便捷且直接。SSA算法基于概率分布的數(shù)值抽樣,可以模擬底層隨機(jī)過程的精確樣本路徑,從而提取準(zhǔn)確樣本,是一種在狀態(tài)空間中生成隨機(jī)軌跡集合的動(dòng)力學(xué)蒙特卡羅方法。這使得SSA能夠在分子層面上捕獲化學(xué)反應(yīng)的隨機(jī)性質(zhì),提供精確的分子軌跡,并且適用于廣泛的化學(xué)反應(yīng)網(wǎng)絡(luò)。
假設(shè)一個(gè)生化反應(yīng)網(wǎng)絡(luò)系統(tǒng)是由個(gè)不同的化學(xué)反應(yīng)物和個(gè)分別對(duì)應(yīng)反應(yīng)通道的反應(yīng)組成。每個(gè)反應(yīng)都有一個(gè)傾向函數(shù),反應(yīng)系統(tǒng)狀態(tài)用表示,表示反應(yīng)物在時(shí)刻的分子數(shù),表示向量的轉(zhuǎn)置。直接隨機(jī)模擬算法的模擬過程如下:首先對(duì)將要發(fā)生的反應(yīng)所需的時(shí)間間隔步長(zhǎng)進(jìn)行采樣,然后對(duì)反應(yīng)集合中的某個(gè)具體反應(yīng)進(jìn)行采樣,從而確定是哪個(gè)反應(yīng)在什么時(shí)間完成[22]。具體而言,表示下一個(gè)反應(yīng)在時(shí)發(fā)生的概率,并且該反應(yīng)在一個(gè)無限小的時(shí)間間隔內(nèi)完成;表示下一個(gè)反應(yīng)是反應(yīng)的概率。這兩個(gè)概率可以通過相應(yīng)的計(jì)算公式從fr(n)dt獲得,如式(1)、(2)所示:
其中,u1和u2為0到1之間的均勻隨機(jī)數(shù),SIS代表滿足公式的最小整數(shù)。直接法首先根據(jù)式(3)對(duì)下一個(gè)反應(yīng)事件的時(shí)間點(diǎn)進(jìn)行采樣,然后根據(jù)式(4)對(duì)發(fā)生某一反應(yīng)進(jìn)行采樣,迭代更新隨機(jī)模擬過程的狀態(tài)向量和時(shí)間。
由于隨機(jī)模擬算法模擬系統(tǒng)中的每個(gè)化學(xué)反應(yīng)事件都是明確的,即使對(duì)于反應(yīng)物種類較少的系統(tǒng),隨機(jī)模擬算法的計(jì)算成本也很高。這種高計(jì)算成本的情況在分子數(shù)波動(dòng)很大或單位時(shí)間內(nèi)發(fā)生大量反應(yīng)的情況下尤為明顯。在第1種情況下,為了獲得統(tǒng)計(jì)上準(zhǔn)確的結(jié)果,必須模擬大量樣本。而在第2種情況下,由于反應(yīng)事件之間的時(shí)間變得更短,單次模擬的計(jì)算成本也變得昂貴。因此,隨機(jī)模擬算法的適用性受到嚴(yán)重限制,并且很快就無法適用于大型系統(tǒng)。為了克服這些挑戰(zhàn),近幾十年來,研究人員投入了大量精力來發(fā)展化學(xué)主方程的近似方法,并出現(xiàn)了多種不同的方法。其中一種稱為Tau跳躍的方法(Tau-leaping)是一種模擬生化反應(yīng)的近似方法,它的主要目標(biāo)是提供比SSA更高效的性能[23]。該方法的核心理念在于通過時(shí)間上的離散“跳躍”,跨越多個(gè)反應(yīng)事件,從而避免了對(duì)每個(gè)單獨(dú)反應(yīng)事件進(jìn)行模擬的需要。這允許系統(tǒng)在有限的時(shí)間段內(nèi)經(jīng)歷多個(gè)反應(yīng),大幅度減少了必須處理的事件總數(shù),加快了模擬的速度。除了Tau跳躍,還有其他近似方法被提出來,這些方法的共同目標(biāo)是高效地近似CME的解,以此降低計(jì)算的復(fù)雜性和成本。
1.2近似方法
CME有很多近似方法,其中3種最常見的近似方法分別是化學(xué)朗之萬方程(ChemicalLangevinEquation,CLE)、系統(tǒng)尺寸展開(SystemSizeExpansion,SSE)和MA[24-25]。這3種方法易于實(shí)施,無需對(duì)系統(tǒng)有任何預(yù)先的了解,而且它們通常能夠進(jìn)行高效計(jì)算,并提供精確近似。因此,它們已被成功應(yīng)用于各種場(chǎng)合[26-30]。然而,這些方法在某些情況下的準(zhǔn)確性可能大幅下降,尤其是當(dāng)某些物種的拷貝數(shù)非常低時(shí)。如果關(guān)注的是過程的矩,CLE通常比SSE和MA更為準(zhǔn)確。但是,CLE在計(jì)算上的代價(jià)更高,因?yàn)樗枰M(jìn)行大量的隨機(jī)模擬并集中平均來獲取過程的矩,而其他方法只需求解一組有限的常微分方程。此外,當(dāng)CLE定義為實(shí)值變量時(shí),在零分子數(shù)處會(huì)遇到邊界問題,實(shí)值修正又會(huì)引入新的不準(zhǔn)確性[31]。通過將CLE擴(kuò)展到復(fù)值變量可以解決邊界問題,但會(huì)降低模擬的效率[32]。因此,如果只對(duì)過程的矩感興趣,使用系統(tǒng)大小擴(kuò)展或矩閉合近似似乎是更合適的選擇。
另一方面,系統(tǒng)尺寸展開是基于小參數(shù)的系統(tǒng)擴(kuò)展,而矩閉合近似是一種特定的近似方法。系統(tǒng)尺寸展開在大系統(tǒng)容量下可以保證準(zhǔn)確性,因此在大規(guī)模系統(tǒng)下它更具吸引力。對(duì)于矩閉合近似,通常不期望能夠在所有情況下保持同樣的準(zhǔn)確度。另外,系統(tǒng)大小擴(kuò)展不適用于某些確定性具有多穩(wěn)態(tài)的系統(tǒng),這是矩閉合方法不具有的限制[33]。更進(jìn)一步地,系統(tǒng)大小擴(kuò)展僅在均值上高于線性噪聲近似兩個(gè)階,在協(xié)方差上高一個(gè)階[34],系統(tǒng)大小擴(kuò)展的高階矩修正比矩閉合方法更難以推導(dǎo)和實(shí)現(xiàn);而矩閉合近似則可以推廣到各種階數(shù)[35-36]。CLE、系統(tǒng)大小擴(kuò)展和矩閉合近似通常作為基礎(chǔ)構(gòu)建模塊,為開發(fā)高級(jí)建模策略提供了框架。比如,有限狀態(tài)投影算法(FiniteStateProjectionAlgorithm,F(xiàn)SP)的思想是將狀態(tài)空間截?cái)酁橛邢拮涌臻g,并使用矩陣冪運(yùn)算求出該子空間上分布的近似值[37]。鑒于這些因素,選擇哪種方法更為合適,將取決于具體問題的細(xì)節(jié)。
在對(duì)比CLE和SSE的基礎(chǔ)上,本文選擇聚焦于MA中的矩閉合技術(shù)。矩閉合方法在操作性上提供了廣泛的靈活性,近年來,多領(lǐng)域的專家和學(xué)者在人工智能技術(shù)的研究和應(yīng)用中取得了突破性進(jìn)展[38]。
對(duì)于線性反應(yīng)系統(tǒng),CME方程可以在一定的期望階數(shù)上進(jìn)行數(shù)值求解。然而,對(duì)于非線性系統(tǒng),低階與高階方程相互耦合,導(dǎo)致矩方程的無限耦合層次,因此不能直接求解。矩閉合方法通過一種近似的方式截?cái)嗔诉@個(gè)無限階方程組,常用的矩閉合近似就是通過將所有高于階的矩表示為低階矩的函數(shù)來閉合矩方程。為了實(shí)現(xiàn)這個(gè)目標(biāo),一種方法是假設(shè)系統(tǒng)分布具有特定的函數(shù)形式,比如正態(tài)分布。這樣的假設(shè)將階矩方程與高階矩解耦,從而得到一組有限的解耦合的常微分方程組。數(shù)值求解這組閉合的方程就可以獲得所需的矩估計(jì)值。這樣的矩閉合方法稱為“M階矩閉合”。
2神經(jīng)網(wǎng)絡(luò)獲取矩閉合方法過程
本文提出的神經(jīng)網(wǎng)絡(luò)矩閉合方法的核心是假設(shè)有限數(shù)量的矩能夠捕捉到所有必要的系統(tǒng)信息,通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到生化反應(yīng)系統(tǒng)未閉合的矩方程組中高階矩的低階矩表示函數(shù),就可以將矩方程組閉合,隨后通過解閉合的微分方程組來獲取矩估計(jì)值。
圖1示出了整個(gè)實(shí)驗(yàn)流程。實(shí)驗(yàn)首先要構(gòu)造所需的特定生化反應(yīng)模型和輸入數(shù)據(jù)集。雖然流程圖中描繪的是一個(gè)基因調(diào)控網(wǎng)絡(luò)模型,但方法同樣適用于構(gòu)建更廣泛類型的生化反應(yīng)模型。針對(duì)研究需要的生化反應(yīng)模型,需要生成大量的隨機(jī)參數(shù)組作為模型的輸入,其中每個(gè)參數(shù)組代表生化反應(yīng)模型的不同傾向函數(shù)的反應(yīng)過程。為了讓神經(jīng)網(wǎng)絡(luò)能夠捕獲生化反應(yīng)模型的底層特性,需要足夠數(shù)量具有廣泛性和代表性的傾向函數(shù)隨機(jī)參數(shù)集。這些參數(shù)集的數(shù)量和范圍可能需要根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行進(jìn)一步調(diào)整。
利用生成的有效數(shù)據(jù)集,一方面,需要獲取生化反應(yīng)系統(tǒng)的原始未閉合矩方程組(Rawmomentequations)。這些方程組將運(yùn)用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的矩閉合方案并求解閉合方程。另一方面,運(yùn)用SSA隨機(jī)模擬并進(jìn)行集中平均,以獲得生化反應(yīng)模型的矩真實(shí)值,此值將作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集的參考真值。神經(jīng)網(wǎng)絡(luò)的輸出是高階矩的低階矩表示,為了實(shí)現(xiàn)這一點(diǎn),需要針對(duì)不同生化反應(yīng)網(wǎng)絡(luò)構(gòu)造不同的向量表達(dá)方式。將神經(jīng)網(wǎng)絡(luò)的輸出代入到原始矩方程組中,即可成功實(shí)現(xiàn)方程組的閉合,這為常微分方程組的求解提供了便利,進(jìn)而獲得了矩的估計(jì)值。通過將求解得到的矩估計(jì)值與SSA得到的矩真實(shí)值進(jìn)行比較,得到模型的偏差,利用偏差對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行反向傳播更新梯度值,直至滿足預(yù)期的性能指標(biāo)。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程遵循標(biāo)準(zhǔn)的訓(xùn)練算法,如算法2.1所示。
算法2.1 神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法
1 加載數(shù)據(jù)集并歸一化處理;
2 設(shè)置學(xué)習(xí)率 =0:1,正則化系數(shù);
3 隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)權(quán)重和偏差W;b;
4 repeat
5 訓(xùn)練集樣本進(jìn)行隨機(jī)排序;
6 forn2trainsetdo
7 正向傳播得到神經(jīng)網(wǎng)絡(luò)輸出v(i);
8 閉合矩方程組,使用常微分方程求解得到估計(jì)矩值,并求出目標(biāo)函數(shù);
9 反向傳播,計(jì)算每一層的誤差和導(dǎo)數(shù);
10 更新網(wǎng)絡(luò)參數(shù);
11 endfor
12 until神經(jīng)網(wǎng)絡(luò)在測(cè)試集上的錯(cuò)誤率不再下降
13 輸出神經(jīng)網(wǎng)絡(luò)模型的參數(shù)W;b
值得注意的是,經(jīng)過一輪訓(xùn)練后,根據(jù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的矩閉合效果,可能需要對(duì)參數(shù)進(jìn)行調(diào)整,或者對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,以實(shí)現(xiàn)更精確的估算結(jié)果。
3實(shí)驗(yàn)結(jié)果分析
3.1基因調(diào)控網(wǎng)絡(luò)模型及數(shù)據(jù)集介紹
3.1.1基因調(diào)控網(wǎng)絡(luò)模型 本文實(shí)驗(yàn)對(duì)象采用的是生化反應(yīng)中極具代表性的基因調(diào)控網(wǎng)絡(luò)(GeneRegulatoryNetwork,GRN)模型。這種反應(yīng)網(wǎng)絡(luò)模型是一個(gè)用于描述細(xì)胞內(nèi)或一個(gè)特定基因組內(nèi)基因間相互作用的抽象模型,在眾多相互作用關(guān)系之中,側(cè)重于基因調(diào)控機(jī)制的相互作用。基因調(diào)控網(wǎng)絡(luò)是生物體內(nèi)控制基因表達(dá)的關(guān)鍵機(jī)制,它涉及基因的轉(zhuǎn)錄和信使核糖核酸(mRNA)的翻譯過程。圖2示出了GRN模型示意圖[43]。
3.1.2基因調(diào)控網(wǎng)絡(luò)數(shù)據(jù)集 為了實(shí)施圖1所描述的基因調(diào)控網(wǎng)絡(luò)模型的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)矩閉合方法,需要構(gòu)建數(shù)據(jù)集,其中是神經(jīng)網(wǎng)絡(luò)的輸入,即反應(yīng)方程組的傾向函數(shù)組成的向量,是模型經(jīng)過30000次SSA隨機(jī)模擬并進(jìn)行集中平均得到的精確矩值。由于本模型是雙變量,所以用分別代表基因和蛋白質(zhì)階和階時(shí)的矩值,針對(duì)本文的模型將表示成。數(shù)據(jù)集大小M設(shè)置為4000個(gè),然后按照9∶1劃分為訓(xùn)練集和測(cè)試集。
圖3中展現(xiàn)的趨勢(shì)和分布情況不僅揭示了蛋白質(zhì)數(shù)量隨時(shí)間的動(dòng)態(tài)演變,而且也體現(xiàn)了在達(dá)到穩(wěn)態(tài)時(shí)各個(gè)狀態(tài)的概率分布。通過分析,可以確認(rèn)數(shù)據(jù)集中的矩閉合值是在穩(wěn)態(tài)條件下計(jì)算的,這一點(diǎn)對(duì)于驗(yàn)證數(shù)據(jù)集的精確性至關(guān)重要。此外,還可以觀察到數(shù)據(jù)集具有廣泛的代表性,這種特性對(duì)于保障數(shù)據(jù)集在模擬各類生化反應(yīng)網(wǎng)絡(luò)時(shí)的通用性和適用性極為關(guān)鍵,確保了模擬實(shí)驗(yàn)結(jié)果的穩(wěn)定性和可重復(fù)性。通過選取覆蓋多種可能情境的不同參數(shù)組合,確保數(shù)據(jù)集能夠覆蓋大范圍的數(shù)據(jù)空間,這進(jìn)一步證明所選數(shù)據(jù)集在適用性和可靠性方面的優(yōu)勢(shì)。
需要注意的是,本文所采用的基因調(diào)控網(wǎng)絡(luò)模型,雖然是一種簡(jiǎn)化的抽象表達(dá)形式,它對(duì)于理解更為復(fù)雜的生化反應(yīng)系統(tǒng)的動(dòng)態(tài)行為提供了初始的框架。然而,對(duì)于那些對(duì)高度復(fù)雜生物過程的建模感興趣的研究者來說,使用生成的模擬數(shù)據(jù)集之前,對(duì)其可信度進(jìn)行細(xì)致的評(píng)估是必不可少的。為了確保所生成的模擬數(shù)據(jù)集能夠準(zhǔn)確地反映真實(shí)世界的數(shù)據(jù)特性,需要使用一系列細(xì)致的量化指標(biāo)和對(duì)比分析方法:
(1)統(tǒng)計(jì)一致性:包括對(duì)模擬數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的平均值、中位數(shù)、方差等核心描述性統(tǒng)計(jì)指標(biāo)進(jìn)行比較,并利用Kolmogorov-Smirnov檢驗(yàn)和Q-Q圖等方式來詳細(xì)對(duì)比數(shù)據(jù)分布的相似度;(2)時(shí)間序列分析:分析模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集分子數(shù)量隨時(shí)間變化的行為模式,確保模擬數(shù)據(jù)能夠精確地再現(xiàn)真實(shí)生物系統(tǒng)的動(dòng)態(tài)特性;(3)再現(xiàn)性測(cè)試:對(duì)于每組參數(shù)多次運(yùn)行模擬過程,并檢查結(jié)果的再現(xiàn)性和變異性,有助于驗(yàn)證模擬過程的穩(wěn)定性。
在實(shí)際實(shí)施中,需要充分考慮到研究目的的具體性和所使用數(shù)據(jù)集的獨(dú)特性質(zhì),以便選取最適合的評(píng)估工具和方法。
3.2神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果
本文構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)旨在學(xué)習(xí)基因調(diào)控網(wǎng)絡(luò)模型中的內(nèi)在反應(yīng)特性,因此神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)相對(duì)靈活,允許多種修改和實(shí)驗(yàn),只要能夠有效捕捉生化反應(yīng)模型的關(guān)鍵特征即可。具體而言,針對(duì)本文的研究對(duì)象所構(gòu)建的神經(jīng)網(wǎng)絡(luò)包括:(1)一個(gè)由4個(gè)神經(jīng)元組成的輸入層;(2)兩個(gè)隱藏層,每層各含10個(gè)神經(jīng)元;(3)包含7個(gè)神經(jīng)元的輸出層。網(wǎng)絡(luò)中輸入層與隱藏層之間采用ReLU函數(shù)作為激活函數(shù)。在訓(xùn)練過程中,采用ADAM優(yōu)化器推薦的標(biāo)準(zhǔn)對(duì)學(xué)習(xí)率進(jìn)行自適應(yīng)調(diào)整。針對(duì)不同的反應(yīng)網(wǎng)絡(luò)需要構(gòu)建不同的神經(jīng)網(wǎng)絡(luò)的輸出層,如下所示:
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練使用標(biāo)準(zhǔn)反向傳播算法來進(jìn)行權(quán)重更新和訓(xùn)練。為了衡量訓(xùn)練的有效性,本文追蹤了損失函數(shù)的變化,并通過訓(xùn)練周期的演進(jìn)來評(píng)估模型性能(圖4)。如圖4所示,損失函數(shù)在訓(xùn)練初期迅速下降,表明模型從初始狀態(tài)迅速學(xué)習(xí)并調(diào)整參數(shù)以最小化損失。隨著訓(xùn)練的深入,損失函數(shù)下降的速度減慢,并最終趨于穩(wěn)定。定義成功的收斂標(biāo)準(zhǔn)為,若損失函數(shù)在連續(xù)20個(gè)訓(xùn)練周期內(nèi)保持在一個(gè)特定的范圍內(nèi)波動(dòng),便認(rèn)為模型已經(jīng)穩(wěn)定學(xué)習(xí)到了數(shù)據(jù)的特征。在本實(shí)驗(yàn)中,損失函數(shù)在后續(xù)30個(gè)周期內(nèi)保持穩(wěn)定,由此可以判斷模型已經(jīng)成功收斂。
3.3結(jié)果準(zhǔn)確性
由于本文實(shí)驗(yàn)采用的基因調(diào)控網(wǎng)絡(luò)模型最終得出6個(gè)矩估計(jì)值,因此評(píng)估結(jié)果也集中在這6個(gè)矩值上。圖5示出了估計(jì)值的不同方法箱型圖。圖5中的箱型圖對(duì)比了基于神經(jīng)網(wǎng)絡(luò)的矩閉合方法、SSA和傳統(tǒng)矩閉合方法在所考慮的基因調(diào)控網(wǎng)絡(luò)模型中的準(zhǔn)確度表現(xiàn)。圖中的SSA方法表示模型經(jīng)過2000次SSA隨機(jī)模擬到達(dá)穩(wěn)態(tài)后計(jì)算出的三階矩以下矩值,低數(shù)量模擬的SSA方法由于其固有的隨機(jī)性,準(zhǔn)確度會(huì)受到部分限制。圖中的“Normal”和“DM”分布代表傳統(tǒng)矩閉合方法,分別對(duì)應(yīng)于第1.2節(jié)中的正態(tài)分布矩閉合方法和微分匹配矩閉合方法。
從圖5中的結(jié)果來看,神經(jīng)網(wǎng)絡(luò)矩閉合方法在準(zhǔn)確性方面明顯超越了低數(shù)量SSA模擬計(jì)算得到的矩估計(jì)值。盡管這是基于較少數(shù)量的隨機(jī)模擬得出的結(jié)論,但依然能展示神經(jīng)網(wǎng)絡(luò)矩閉合方法的相對(duì)準(zhǔn)確性,從側(cè)面說明了SSA方法在獲得精確的矩估計(jì)值時(shí)需要進(jìn)行大量的計(jì)算平均,而這正是矩閉合方法的價(jià)值所在,它顯著減少了計(jì)算量的需求。從圖中還可以看到,神經(jīng)網(wǎng)絡(luò)矩閉合方法在、、、這幾個(gè)矩估計(jì)值上表現(xiàn)得優(yōu)于傳統(tǒng)矩閉合方法,直接證明了神經(jīng)網(wǎng)絡(luò)矩閉合方法在準(zhǔn)確度方面相比于傳統(tǒng)的矩閉合方法在基因調(diào)控網(wǎng)絡(luò)模型具有顯著優(yōu)勢(shì)。
R2是一個(gè)統(tǒng)計(jì)指標(biāo),用于衡量觀測(cè)數(shù)據(jù)與擬合模型之間的吻合程度,取值范圍從0到1,越接近1表示模型與觀測(cè)數(shù)據(jù)的擬合度越高。圖6示出了神經(jīng)網(wǎng)絡(luò)矩閉合方法得到的矩估計(jì)值的擬合圖,突顯了這些矩值之間的高度相關(guān)性,以進(jìn)一步驗(yàn)證本文方法在基因調(diào)控網(wǎng)絡(luò)模型中的可靠性。從圖中可以清晰地看出,每個(gè)矩值的擬合值都接近1,表明神經(jīng)網(wǎng)絡(luò)矩閉合方法能夠有效地捕捉到這些矩之間的緊密關(guān)聯(lián),進(jìn)一步說明了神經(jīng)網(wǎng)絡(luò)矩閉合方法在揭示基因調(diào)控網(wǎng)絡(luò)模型中生化反應(yīng)動(dòng)態(tài)內(nèi)在規(guī)律性的能力。
神經(jīng)網(wǎng)絡(luò)矩閉合方法在靈活性上優(yōu)于傳統(tǒng)矩閉合技術(shù),特別是在滿足精度要求的可調(diào)整性方面。研究者不僅可以針對(duì)整體模型精度進(jìn)行優(yōu)化,還能夠?qū)μ囟▍?shù)進(jìn)行細(xì)致的調(diào)校,這一切均通過修改訓(xùn)練階段目標(biāo)函數(shù)(參考式(10))中的權(quán)重實(shí)現(xiàn),或者可以在目標(biāo)函數(shù)中添加額外感興趣的項(xiàng)以進(jìn)一步細(xì)化。
3.4結(jié)果快速性
表1所示為神經(jīng)網(wǎng)絡(luò)矩閉合方法與其他一些算法單次獲得矩閉合估計(jì)值所需的平均計(jì)算時(shí)間對(duì)比結(jié)果。具體來說,對(duì)于數(shù)據(jù)集中一組數(shù)據(jù),SSA方法和Tau-leaping方法的時(shí)間消耗包括了隨機(jī)模擬過程和集合平均獲取矩值;傳統(tǒng)矩閉合方法時(shí)間消耗包括獲取矩方程組、利用傳統(tǒng)公式閉合矩方程組和求解閉合方程組獲得矩估計(jì);FSP方法包括計(jì)算系統(tǒng)的概率密度向量和計(jì)算矩值;而神經(jīng)網(wǎng)絡(luò)矩閉合方法的時(shí)間消耗則包括獲取矩方程組、訓(xùn)練神經(jīng)網(wǎng)絡(luò)、利用神經(jīng)網(wǎng)絡(luò)輸出閉合矩方程組合求解閉合方程組獲得矩估計(jì)。平均計(jì)算時(shí)間基于本文4000組參數(shù)的數(shù)據(jù)集得出,該時(shí)間反映了求得最終矩估計(jì)值所需的平均時(shí)長(zhǎng)。SSA方法,使用的是3.2節(jié)中選擇的10000次模擬并作為真值的數(shù)據(jù)。Tau-leaping方法和SSA相同,也是進(jìn)行了10000次模擬并集合平均。對(duì)于傳統(tǒng)矩閉合方法,表中平均計(jì)算時(shí)間為正態(tài)分布矩閉合和微分匹配矩閉合兩種方法的平均計(jì)算時(shí)間。
由結(jié)果清楚地顯示,神經(jīng)網(wǎng)絡(luò)矩閉合方法在計(jì)算速度上明顯優(yōu)于SSA方法,并且隨著生化反應(yīng)模型復(fù)雜性的提升和模擬規(guī)模的擴(kuò)大,這種速度優(yōu)勢(shì)將非常顯著。與評(píng)估中的其他3種方法相比,神經(jīng)網(wǎng)絡(luò)矩閉合方法同樣展現(xiàn)出了速度上的優(yōu)越性。這強(qiáng)調(diào)了在進(jìn)行復(fù)雜生化反應(yīng)模擬時(shí),利用神經(jīng)網(wǎng)絡(luò)進(jìn)行矩閉合近似作為提高計(jì)算效率的有力工具,尤其在傳統(tǒng)算法難以承受高計(jì)算負(fù)荷時(shí)更顯其價(jià)值。圖中神經(jīng)網(wǎng)絡(luò)矩閉合方法雖然在表中僅展示了整體的平均計(jì)算速度,但神經(jīng)網(wǎng)絡(luò)矩閉合方法中最耗時(shí)的環(huán)節(jié)預(yù)計(jì)為網(wǎng)絡(luò)訓(xùn)練過程。后續(xù)分析將進(jìn)一步探究數(shù)據(jù)量的增加對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間的影響。
圖7示出了隨著數(shù)據(jù)集樣本量的增加,SSA、傳統(tǒng)矩閉合方法和神經(jīng)網(wǎng)絡(luò)矩閉合方法在獲得矩閉合估計(jì)值時(shí)所需的平均計(jì)算時(shí)間的變化。對(duì)于SSA和傳統(tǒng)矩閉合方法,由于它們?cè)讷@取矩值時(shí)采用了固定的實(shí)現(xiàn)途徑,因此這兩種方法的平均計(jì)算時(shí)間保持不變,不受數(shù)據(jù)集規(guī)模影響。這一點(diǎn)可以從圖中的黑色虛線和淺灰色虛線觀察得到。神經(jīng)網(wǎng)絡(luò)矩閉合方法的平均計(jì)算時(shí)間隨著數(shù)據(jù)集樣本量的增加而提升,這是因?yàn)閿?shù)據(jù)集規(guī)模的擴(kuò)大導(dǎo)致了更長(zhǎng)的網(wǎng)絡(luò)訓(xùn)練時(shí)間。值得強(qiáng)調(diào)的是,在數(shù)據(jù)集樣本量為1000時(shí),神經(jīng)網(wǎng)絡(luò)矩閉合方法已能達(dá)到SSA在進(jìn)行30000次隨機(jī)模擬后的集合平均矩值精度。從圖中可以明顯看出,SSA所需的計(jì)算時(shí)間大約是神經(jīng)網(wǎng)絡(luò)矩閉合方法的6倍,而傳統(tǒng)矩閉合方法所需時(shí)間則約為神經(jīng)網(wǎng)絡(luò)方法的兩倍半。因此,相較于SSA和傳統(tǒng)矩閉合方法,神經(jīng)網(wǎng)絡(luò)矩閉合方法在計(jì)算效率上具有顯著優(yōu)勢(shì)。
這種計(jì)算效率的顯著提升主要?dú)w功于神經(jīng)網(wǎng)絡(luò)矩閉合方法繼承并強(qiáng)化了傳統(tǒng)矩閉合方法在近似建模領(lǐng)域的優(yōu)勢(shì),同時(shí)規(guī)避了SSA在執(zhí)行大規(guī)模隨機(jī)模擬并集合平均過程中所固有的高計(jì)算需求。隨著生化反應(yīng)系統(tǒng)規(guī)模的擴(kuò)張,SSA的計(jì)算負(fù)擔(dān)將急劇增加,而矩閉合方法所需的計(jì)算資源幾乎不受影響。此外,矩閉合技術(shù)在求解微分方程組時(shí)能夠運(yùn)用先進(jìn)的時(shí)間步長(zhǎng)優(yōu)化技術(shù),根據(jù)反應(yīng)動(dòng)力學(xué)的實(shí)際特性動(dòng)態(tài)調(diào)整求解步長(zhǎng),由此節(jié)約了不必要的計(jì)算資源。最關(guān)鍵的是,神經(jīng)網(wǎng)絡(luò)矩閉合方法通過神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,實(shí)現(xiàn)了對(duì)高階矩方程組中高階矩的低階近似表達(dá),在大量模擬的情況下有效避免了直接計(jì)算復(fù)雜高階矩的需求。如果研究者需要對(duì)時(shí)間效率有極端的要求,迫切需要快速執(zhí)行大規(guī)模模擬時(shí),可以犧牲精度提升時(shí)間效率。通過選用較小的數(shù)據(jù)集合或限制迭代次數(shù),可以大幅縮短神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的時(shí)間。盡管這樣做可能會(huì)影響結(jié)果的精細(xì)度,但在特定的實(shí)驗(yàn)環(huán)境中,這種方法仍能有效地滿足對(duì)快速處理的需求。
4結(jié)束語
在基因調(diào)控網(wǎng)絡(luò)建模過程中,隨機(jī)模擬算法在獲取矩值時(shí)需進(jìn)行大量的隨機(jī)模擬并集合平均,導(dǎo)致計(jì)算量龐大和復(fù)雜性增加。而依賴于簡(jiǎn)化假設(shè)的傳統(tǒng)矩閉合方法則無法充分描繪真實(shí)系統(tǒng)的復(fù)雜性,不能有效捕捉大量相互作用的生化反應(yīng)模型系統(tǒng)的物理細(xì)節(jié)。因此,本文提出了一種新穎的神經(jīng)網(wǎng)絡(luò)矩閉合方法,它通過在整個(gè)生化反應(yīng)網(wǎng)絡(luò)中探索潛在關(guān)聯(lián),能夠更全面地捕捉生化反應(yīng)模型中的動(dòng)態(tài)行為。實(shí)驗(yàn)證明,相較于傳統(tǒng)方法,神經(jīng)網(wǎng)絡(luò)矩閉合方法在對(duì)基因表達(dá)模型的預(yù)測(cè)精度和時(shí)間效率上都表現(xiàn)出一定的優(yōu)勢(shì),為基因表達(dá)建模研究提供了一種更準(zhǔn)確和高效的分析工具。
盡管神經(jīng)網(wǎng)絡(luò)矩閉合方法在生化反應(yīng)建模方面取得了顯著的進(jìn)展,但也存在著挑戰(zhàn)和改進(jìn)的空間。本文的實(shí)驗(yàn)驗(yàn)證主要局限于特定的基因調(diào)控網(wǎng)絡(luò)模型,因此該方法在遇到未知情境時(shí)的泛化能力可能不足。此外,盡管本文在方法驗(yàn)證階段使用的是模擬數(shù)據(jù)集,但與實(shí)際生物實(shí)驗(yàn)數(shù)據(jù)的結(jié)合是提升方法可靠性和應(yīng)用實(shí)用性的關(guān)鍵。未來的研究應(yīng)當(dāng)著重于將神經(jīng)網(wǎng)絡(luò)矩閉合方法應(yīng)用于更為廣泛的生化反應(yīng)模型,并提升模型可解釋性,以改善用戶對(duì)預(yù)測(cè)決策的理解。同時(shí),與更多的反應(yīng)類型的結(jié)合也將是增強(qiáng)方法魯棒性和驗(yàn)證可行性的重要步驟??偠灾?,通過解決現(xiàn)有問題并成功地將研究前景轉(zhuǎn)化為實(shí)際成果,神經(jīng)網(wǎng)絡(luò)矩閉合方法有望在生化反應(yīng)建模領(lǐng)域?qū)崿F(xiàn)更廣泛的應(yīng)用。