汪 慧,丁德武,孫 嘯,謝建明
(東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院,南京 210096)
?
整合轉(zhuǎn)錄組學(xué)數(shù)據(jù)的代謝網(wǎng)絡(luò)研究進(jìn)展
汪 慧,丁德武,孫 嘯,謝建明*
(東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院,南京 210096)
高通量測(cè)序技術(shù)的快速發(fā)展催生了涵蓋各層次細(xì)胞生命活動(dòng)的組學(xué)數(shù)據(jù),如轉(zhuǎn)錄組學(xué)數(shù)據(jù)、蛋白質(zhì)組學(xué)數(shù)據(jù)和互作組學(xué)數(shù)據(jù)等。同時(shí),全基因組代謝網(wǎng)絡(luò)模型在不斷完善和增多。整合組學(xué)數(shù)據(jù),對(duì)生物細(xì)胞的代謝網(wǎng)絡(luò)進(jìn)行更深入的模擬分析成為目前微生物系統(tǒng)生物學(xué)研究的熱點(diǎn)。目前整合轉(zhuǎn)錄組學(xué)數(shù)據(jù)進(jìn)行全基因組代謝網(wǎng)絡(luò)分析的方法主要以流量平衡分析(FBA)為基礎(chǔ),通過(guò)辨識(shí)不同條件下基因表達(dá)的變化,進(jìn)而優(yōu)化目標(biāo)函數(shù)以得到相應(yīng)的流量分布或代謝模型。本文對(duì)整合轉(zhuǎn)錄組學(xué)數(shù)據(jù)的FBA分析方法進(jìn)行總結(jié)和比較,并詳細(xì)闡述了不同方法的優(yōu)缺點(diǎn),為分析特定問(wèn)題選擇合適的方法提供參考。
代謝網(wǎng)絡(luò),轉(zhuǎn)錄組學(xué),流量平衡分析,算法
全基因組代謝網(wǎng)絡(luò)(Genome-scale metabolic models,GEMs)是以基因組學(xué)數(shù)據(jù)為基礎(chǔ),在高通量測(cè)序技術(shù)支持下整合基因相關(guān)的組學(xué)信息,并結(jié)合文獻(xiàn)中的知識(shí),最終得到生物細(xì)胞中生化反應(yīng)的全局網(wǎng)絡(luò)。第一個(gè)全基因組代謝模型是細(xì)菌H. influenzae的代謝模型,構(gòu)建于1999年,包括343個(gè)代謝物和488個(gè)代謝反應(yīng)[1]。截止2016年3月,在基因組代謝網(wǎng)絡(luò)數(shù)據(jù)庫(kù)(GSMNDB)中已發(fā)布了116個(gè)物種的135個(gè)全基因組代謝網(wǎng)絡(luò)模型(http://synbio.tju.edu.cn/GSMNDB/Pages/Models.htm)。
全基因組代謝網(wǎng)絡(luò)分析指利用相關(guān)代謝網(wǎng)絡(luò)分析技術(shù)并結(jié)合相關(guān)生物學(xué)知識(shí)對(duì)代謝網(wǎng)絡(luò)進(jìn)行生物學(xué)分析的過(guò)程。其中預(yù)測(cè)細(xì)胞內(nèi)特定功能生化反應(yīng)流量分布并確定關(guān)鍵反應(yīng)是全基因組代謝網(wǎng)絡(luò)分析的重點(diǎn)。
代謝網(wǎng)絡(luò)中代謝物物質(zhì)量數(shù)據(jù)獲取的方法主要是通過(guò)碳同位素標(biāo)記法,該方法對(duì)代謝物中的碳元素進(jìn)行標(biāo)記,使用質(zhì)譜儀或者核磁共振儀對(duì)標(biāo)記的代謝物進(jìn)行檢測(cè),根據(jù)測(cè)量強(qiáng)度的變化得到細(xì)胞內(nèi)的代謝流量分布[2, 3]。此類實(shí)驗(yàn)數(shù)據(jù)的不斷增多為代謝網(wǎng)絡(luò)流量的計(jì)算機(jī)模擬分析提供了基礎(chǔ)。
代謝流量計(jì)算機(jī)模擬分析的經(jīng)典方法是代謝流量平衡分析方法(Flux Balance Analysis, 簡(jiǎn)稱FBA)[4]。該方法假定代謝網(wǎng)絡(luò)反應(yīng)狀態(tài)達(dá)到準(zhǔn)穩(wěn)定狀態(tài)時(shí)每一個(gè)中間反應(yīng)物產(chǎn)生與消耗的物質(zhì)量相等,如公式(1)所示,其中x代表代謝物的物質(zhì)量,t代表特定時(shí)刻。
(1)
FBA旨在找出準(zhǔn)穩(wěn)態(tài)條件下使細(xì)胞內(nèi)某一目標(biāo)函數(shù)Z=vb最優(yōu)的可行解集?;诰€性規(guī)劃的原理,求解過(guò)程存在兩種形式的約束條件,一種是等式約束,即在穩(wěn)定狀態(tài)下代謝物的輸出與輸入的代謝流量矢量和為0。假設(shè)代謝網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)代表的是一個(gè)反應(yīng)物,每一條線代表一個(gè)生化反應(yīng)。設(shè)定S為網(wǎng)絡(luò)的化學(xué)計(jì)量矩陣(以反應(yīng)物為行,生化反應(yīng)為列),v為平衡時(shí)每一生化反應(yīng)的流量。則平衡條件約束為公式(2)。
S.v =0
(2)
另一種是不等式約束,即每一生化反應(yīng)的代謝流量存在上下限vminvvmax。根據(jù)這兩個(gè)約束條件可求得流量v的基本解空間,利用線性規(guī)劃算法(Linear Programming, LP)或混合線性優(yōu)化算法(Mixed-integer linear programming,MILP)計(jì)算Z達(dá)到最大值時(shí)整個(gè)網(wǎng)絡(luò)的流量分布值。
FBA方法自提出便成為研究代謝流量的基礎(chǔ)方法,一般用來(lái)研究微生物的成長(zhǎng)特性,解釋生長(zhǎng)表型以及預(yù)測(cè)特定環(huán)境下的關(guān)鍵反應(yīng)[5]。隨著對(duì)代謝網(wǎng)絡(luò)研究的日漸深入,研究者嘗試在FBA方法中增加額外的生物學(xué)約束條件,以得到更為準(zhǔn)確的預(yù)測(cè)結(jié)果。這方面的研究主要包括三個(gè)方面:一是改進(jìn)目標(biāo)函數(shù),或者增加目標(biāo)函數(shù)。典型的方法有最小化代謝調(diào)整方法(Minimization Of Metabolic Adjustment,MOMA)[6]和最小調(diào)控控制方法(Regulatory On /Off Minimization,ROOM)[7];二是加入更多的約束條件(如,熱力學(xué)信息),使得模擬過(guò)程更加接近于環(huán)境內(nèi)部原則,如動(dòng)態(tài)流量平衡分析(Dynamic Flux Balance Analysis,DFBA)[8]方法,Willemsen等人在DFBA的基礎(chǔ)上進(jìn)一步提出的修正方法——MetDFBA[9]。三是多水平最優(yōu)化,即同時(shí)改進(jìn)目標(biāo)函數(shù)和增加約束條件,如OptStrain方法和OptKnock[10]方法等。
隨著高通量測(cè)序技術(shù)的快速發(fā)展,對(duì)代謝網(wǎng)絡(luò)的認(rèn)識(shí)越來(lái)越深刻,對(duì)代謝反應(yīng)的調(diào)控機(jī)制分析也越來(lái)越深入。以全基因組代謝網(wǎng)絡(luò)為基礎(chǔ),整合基因表達(dá)數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行FBA分析的方法可以更精確的模擬細(xì)胞內(nèi)代謝變化,提高代謝模型預(yù)測(cè)的準(zhǔn)確性。
基因表達(dá)在不同條件下呈現(xiàn)不同的表達(dá)狀態(tài)[11],而基因表達(dá)過(guò)程與代謝過(guò)程密切相關(guān)。基因表達(dá)數(shù)據(jù)反映基因的轉(zhuǎn)錄產(chǎn)物mRNA的相對(duì)或絕對(duì)豐度,有研究表明轉(zhuǎn)錄mRNA的濃度與生化反應(yīng)催化劑酶的濃度有很強(qiáng)的相關(guān)性[12, 13]。轉(zhuǎn)錄組學(xué)數(shù)據(jù)的獲取方法主要有cDNA微陣列和寡聚核苷酸芯片技術(shù)等。目前,采用基因芯片技術(shù)已獲得海量的轉(zhuǎn)錄組學(xué)數(shù)據(jù)。利用各種整合方法模擬基因表達(dá)與代謝反應(yīng)之間的聯(lián)系是該類方法研究的重點(diǎn)。
FBA改進(jìn)方法一般是在流量平衡約束基礎(chǔ)上添加額外信息約束解空間或改變目標(biāo)函數(shù)以更好的描述細(xì)胞代謝情況,并嘗試通過(guò)多水平的最優(yōu)化方法提高模擬的準(zhǔn)確性。研究利用基因表達(dá)信息約束解空間一直是其中的焦點(diǎn)。2004年第一次開(kāi)始整合轉(zhuǎn)錄組學(xué)數(shù)據(jù)對(duì)代謝網(wǎng)絡(luò)進(jìn)行約束,近十年來(lái)研究者們提出各種與實(shí)際應(yīng)用相結(jié)合的方法[14-26],整合多組學(xué)數(shù)據(jù)對(duì)代謝網(wǎng)絡(luò)進(jìn)行FBA分析已經(jīng)成為一種趨勢(shì)。因而,本文總結(jié)了幾種整合基因表達(dá)信息求解代謝流量的方法并分析了幾種方法在判定基因表達(dá)狀態(tài)時(shí)的不同策略。
2.1 設(shè)定先驗(yàn)閾值判定基因表達(dá)狀態(tài)
?kesson等于2004年提出整合基因表達(dá)數(shù)據(jù)對(duì)全基因組代謝網(wǎng)絡(luò)進(jìn)行約束的方法,他們根據(jù)生化反應(yīng)中酶所對(duì)應(yīng)基因的表達(dá)情況判斷反應(yīng)是否發(fā)生[27]。他所使用的表達(dá)數(shù)據(jù)來(lái)源于寡核苷酸芯片,檢測(cè)到基因表達(dá)的信號(hào)則表示對(duì)應(yīng)的生化反應(yīng)發(fā)生,若反應(yīng)相關(guān)的多個(gè)基因均不表達(dá)則對(duì)應(yīng)反應(yīng)不發(fā)生,反應(yīng)流量值置為0。通過(guò)這種方法進(jìn)一步約束了FBA分析中流量v的解空間。該方法最早將多組學(xué)數(shù)據(jù)整合進(jìn)代謝研究,為后續(xù)研究提供了一種新的思路。應(yīng)用該方法,成功預(yù)測(cè)了葡萄糖為生長(zhǎng)底物時(shí)酵母菌在無(wú)氧和有氧情況下的生長(zhǎng)情況。但該方法判斷基因是否表達(dá)的方式過(guò)于簡(jiǎn)單,同時(shí)因芯片的檢測(cè)靈敏度較低而產(chǎn)生較多誤差。
第一種整合方法由于數(shù)據(jù)處理粗糙,在判定基因表達(dá)狀態(tài)時(shí)可能會(huì)遺漏表達(dá)量小但細(xì)胞完成功能必須的反應(yīng)。根據(jù)特定條件下代謝功能的差異,Becker提出了GIMME (Gene Inactivity Moderated by Metabolism and Expression)方法,模擬了細(xì)胞在特定條件下能夠行使特定的功能[28]。其思路是刪除在特定條件下的不重要生化反應(yīng)通路,同時(shí)增加一些功能反應(yīng)通路,以得到特定條件下能完成特定功能的高效代謝網(wǎng)絡(luò)模型。該方法可分為兩個(gè)步驟:首先設(shè)定基因表達(dá)閾值,比較酶對(duì)應(yīng)基因的表達(dá)值,將低于該閾值的酶催化的生化反應(yīng)從代謝網(wǎng)絡(luò)中刪除,從而得到一個(gè)削減的代謝網(wǎng)絡(luò)。第二步,將特定環(huán)境中細(xì)胞生長(zhǎng)功能代謝模型(Required Metabolic Functionalities, RMF)中包含的反應(yīng)加到第一步得到的模型中,得到初步的特定條件下的網(wǎng)絡(luò)模型。使用積分函數(shù)計(jì)算不一致得分來(lái)評(píng)價(jià)不同表達(dá)閾值下所得到代謝流量分布是否合適,不一致得分值越小表示網(wǎng)絡(luò)完成的功能越好。該方法的表達(dá)閾值需要用戶提前設(shè)定并不斷調(diào)整以得到最好的模擬結(jié)果。Schmid等在此方法的基礎(chǔ)上提出了改進(jìn)的GIM3E(Gene Inactivation Moderated by Metabolism, Metabolomics and Expression)方法[29],同時(shí)考慮代謝網(wǎng)絡(luò)中可逆生化反應(yīng)的優(yōu)化問(wèn)題,并成功應(yīng)用于預(yù)測(cè)沙門(mén)氏菌在不同生長(zhǎng)環(huán)境下的代謝過(guò)程。
上述方法對(duì)基因表達(dá)閾值的選取進(jìn)行評(píng)價(jià)并不斷修正以擬合真實(shí)數(shù)據(jù),Chandrasekaran和Price對(duì)于酶基因是否表達(dá)的判斷依據(jù)進(jìn)行了改進(jìn),提出了代謝概率調(diào)控方法PROM (Probabilistic Regulation Of Metabolism)[30]。該方法分析全基因組基因表達(dá)微陣列數(shù)據(jù),構(gòu)建由轉(zhuǎn)錄因子及其調(diào)控基因構(gòu)成的基因調(diào)控網(wǎng)絡(luò)。由特定條件得到轉(zhuǎn)錄因子B的狀態(tài),并由先驗(yàn)知識(shí)設(shè)定表達(dá)閾值,計(jì)算同一條件下多個(gè)表達(dá)數(shù)據(jù)集得到基因A的狀態(tài),基因A表達(dá)且轉(zhuǎn)錄因子起作用的概率P(A=1|B=1)大于0.5則對(duì)應(yīng)酶所催化的生化反應(yīng)發(fā)生,如此判斷各個(gè)反應(yīng)的狀態(tài)進(jìn)而對(duì)代謝網(wǎng)絡(luò)中的生化反應(yīng)進(jìn)行約束。該方法需要通過(guò)分析大量的實(shí)驗(yàn)數(shù)據(jù)來(lái)確定轉(zhuǎn)錄因子和靶基因表達(dá)的關(guān)系進(jìn)而確定基因狀態(tài)。與?kesson等的方法相似,該方法本質(zhì)上是在特定條件下刪除網(wǎng)絡(luò)中生化反應(yīng)通路達(dá)到精簡(jiǎn)網(wǎng)絡(luò)的目的。
上述方法共同點(diǎn)是均依賴于先驗(yàn)閾值的選取。其中PROM利用多個(gè)條件的均值增加閾值選擇的可信度,GIMME和GIM3E方法使用積分函數(shù)衡量閾值選取可信度。但初次選取的閾值對(duì)后續(xù)操作至關(guān)重要。另外一些方法使用數(shù)據(jù)之間的內(nèi)在關(guān)系選取相對(duì)高表達(dá)和低表達(dá)的基因。這種方法可以在先驗(yàn)知識(shí)缺乏的情況下發(fā)揮作用,有一定的使用價(jià)值。
2.2 計(jì)算相對(duì)閾值判定基因表達(dá)狀態(tài)
Hadas等提出的iMAT方法比較全部基因表達(dá)數(shù)據(jù)并設(shè)置閾值(均值±方差)將基因表達(dá)值離散化為低、中、高三種狀態(tài),分別用(-1/0/1)表示[31]。并分別對(duì)三種狀態(tài)的反應(yīng)上下限增加約束,在提高高表達(dá)基因?qū)?yīng)反應(yīng)比例同時(shí)通過(guò)積分函數(shù)計(jì)算反應(yīng)狀態(tài)與表達(dá)數(shù)據(jù)相一致程度。最終找到與表達(dá)數(shù)據(jù)相一致的特定條件下的代謝網(wǎng)絡(luò)。 Rossell等在iMAT方法基礎(chǔ)上提出了EXAMO(The EXploration of Alternative Metabolic Optima)[32]方法, EXAMO方法選定全部基因中表達(dá)量從高到低排列在前15%的為高表達(dá)基因,后15%的為低表達(dá)基因,其余為中等表達(dá)基因,并在iMAT方法基礎(chǔ)上構(gòu)建不同條件下的反應(yīng)得分,嘗試構(gòu)建特定環(huán)境下的代謝模型。該方法還能最小化整體的流量之和并將對(duì)應(yīng)流量都由高表達(dá)基因?qū)?yīng)的生化反應(yīng)所攜帶,進(jìn)而預(yù)測(cè)特定環(huán)境下的流量。
上述兩種方法對(duì)基因狀態(tài)的判定是相對(duì)于整體基因表達(dá)情況,EXAMO在先驗(yàn)知識(shí)缺乏的前提下構(gòu)建特定代謝模型依賴于反應(yīng)得分函數(shù)評(píng)價(jià)反應(yīng)的判定與測(cè)得表達(dá)數(shù)據(jù)之間的相關(guān)性,期望找到最符合表達(dá)數(shù)據(jù)的表達(dá)情況。另外一些方法使用不同條件表達(dá)數(shù)據(jù)之間的比較關(guān)系得出不同條件下的可能代謝情況,例如Jensen等提出了MADE方法(Metabolic Adjustment by Differential Expression)[33]。MADE方法對(duì)不同條件下的表達(dá)數(shù)據(jù)進(jìn)行t檢驗(yàn)分析。設(shè)定必須發(fā)生反應(yīng)對(duì)應(yīng)狀態(tài)為1,利用不同條件下的表達(dá)差異顯著性判斷不同條件下的其他基因表達(dá)狀態(tài)。得到基因表達(dá)狀態(tài)后預(yù)測(cè)對(duì)應(yīng)生化反應(yīng)開(kāi)啟或者關(guān)閉,得到特定條件下的適應(yīng)性網(wǎng)絡(luò)模型,最終應(yīng)用于FBA分析。本質(zhì)上,MADE方法通過(guò)考察不同條件下基因表達(dá)的差異程度判斷基因的表達(dá)狀態(tài)。使用該方法準(zhǔn)確預(yù)測(cè)了酵母菌在葡萄糖生長(zhǎng)環(huán)境下,在有氧和無(wú)氧生長(zhǎng)條件的不同時(shí)間段基因表達(dá)的情況以及代謝模型的改變。
上述方法的共同點(diǎn)是使用基因表達(dá)數(shù)據(jù)之間相對(duì)比較的方法得到基因的表達(dá)狀態(tài),并進(jìn)一步約束代謝網(wǎng)絡(luò)。但也有差異,MADE方法將計(jì)算得到的基因狀態(tài)集狀態(tài)為0的反應(yīng)直接刪除,可能會(huì)由于前期預(yù)處理過(guò)程導(dǎo)致后期刪除反應(yīng)的誤差。iMAT和EXAMO相對(duì)提高高表達(dá)基因集對(duì)應(yīng)生化反應(yīng)并降低低表達(dá)基因集對(duì)應(yīng)生化反應(yīng),在一定程度上可以避免此類誤差,但是準(zhǔn)確性依賴于得分函數(shù)的選取與計(jì)算。
2.3 擬合函數(shù)法整合基因表達(dá)狀態(tài)與代謝網(wǎng)絡(luò)
最近幾年新發(fā)展了一種使用判定函數(shù)的方法整合轉(zhuǎn)錄組學(xué)數(shù)據(jù)與代謝網(wǎng)絡(luò)。有研究表明基因表達(dá)量與酶濃度之間的關(guān)系近似對(duì)數(shù)曲線[13],使用特定函數(shù)描述基因表達(dá)水平與酶濃度的相關(guān)關(guān)系,將結(jié)果用于約束代謝反應(yīng)的流量上下限并對(duì)代謝網(wǎng)絡(luò)的流量進(jìn)行優(yōu)化。Angione等提出了METRADE(MEtabolic and TRanscriptomics Adaptation Estimator)[34]方法,該方法對(duì)于網(wǎng)絡(luò)優(yōu)化的工作比較復(fù)雜,在整合轉(zhuǎn)錄組學(xué)數(shù)據(jù)方面采用公式3表示的方法。
(3)
該類方法結(jié)合基因表達(dá)數(shù)據(jù)與代謝數(shù)據(jù)之間的關(guān)系構(gòu)建函數(shù)盡力擬合真實(shí)的代謝情況,在大量數(shù)據(jù)的支持下能夠?qū)崿F(xiàn)高準(zhǔn)確性的擬合,是一種新型的模擬方法,隨著對(duì)轉(zhuǎn)錄與代謝之間模式的理解不斷深刻,該方法將得到更廣泛的應(yīng)用。
2.4 方法總結(jié)與比較
整合基因表達(dá)數(shù)據(jù)進(jìn)行代謝網(wǎng)絡(luò)分析,其本質(zhì)是對(duì)代謝網(wǎng)絡(luò)的流量平衡分析添加約束條件。前面所述方法大部分是在進(jìn)行FBA分析之前對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)整,增加刪除特定生化反應(yīng)或調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)以模擬特定條件下的真實(shí)情況。各種方法的簡(jiǎn)單示意如圖1所示。
圖1 改進(jìn)的FBA網(wǎng)絡(luò)分析方法差異比較分析Fig. 1 Comparative analysis diagram of improved FBA method
圖中節(jié)點(diǎn)A、B、C代表代謝物,連接線代表生化反應(yīng)。(a) ?kesson 方法,直接檢測(cè)反應(yīng)對(duì)應(yīng)基因表達(dá)值,X表示該反應(yīng)從代謝網(wǎng)絡(luò)中刪除; (b) PROM方法,計(jì)算多次表達(dá)值的平均值,v>0.5Vmax則反應(yīng)發(fā)生,反之不發(fā)生; (c)GIMME方法,設(shè)定閾值y,若A->B反應(yīng)中酶對(duì)應(yīng)基因表達(dá)值小于y,則刪除該反應(yīng)用X表示,并增加功能反應(yīng)A->C,得到功能網(wǎng)絡(luò)模型,設(shè)定得分函數(shù)判斷y的合理性;(d) iMAT方法,計(jì)算得到中-低表達(dá)閾值y1,中-高表達(dá)閾值y2,得到不同反應(yīng)對(duì)應(yīng)狀態(tài),高表達(dá)對(duì)應(yīng)反應(yīng)rH,低表達(dá)對(duì)應(yīng)反應(yīng)rL。提高rH比例,同時(shí)降低rL比例;(e)MADE,方法采用t檢驗(yàn)方法得到不同條件下基因表達(dá)狀態(tài);(f)METRADE方法,每一個(gè)生化反應(yīng)的酶對(duì)應(yīng)基因表達(dá)值不同時(shí)得到的酶的濃度不同,對(duì)應(yīng)生化反應(yīng)流量上下限不同,網(wǎng)絡(luò)分析方法評(píng)價(jià)見(jiàn)表1。
表1 改進(jìn)的FBA網(wǎng)絡(luò)分析方法評(píng)價(jià)表
2.5 方法應(yīng)用
本文介紹的方法代表整合轉(zhuǎn)錄組學(xué)研究代謝網(wǎng)絡(luò)的大概發(fā)展思路,近年來(lái)各種整合轉(zhuǎn)錄組學(xué)數(shù)據(jù)進(jìn)行代謝網(wǎng)絡(luò)研究的實(shí)例涵蓋微生物至人類的各個(gè)物種,2015年Shuyi等利用PROM方法構(gòu)建地核桿菌的轉(zhuǎn)錄調(diào)控代謝網(wǎng)絡(luò)并指導(dǎo)實(shí)驗(yàn)操作[36]。Tuulia等利用iMAT方法研究人類肝臟腫大的代謝機(jī)制[37]。Emrah等使用GIMME和MADE方法構(gòu)建膠質(zhì)母細(xì)胞瘤的特定全基因組代謝網(wǎng)絡(luò)并預(yù)測(cè)癌癥細(xì)胞代謝流量分布[38]。在應(yīng)用上述方法的同時(shí),一些研究者也在探索整合多種組學(xué)數(shù)據(jù)進(jìn)行代謝網(wǎng)絡(luò)研究。如Weihua等在FBA基礎(chǔ)上整合多個(gè)組學(xué)數(shù)據(jù)進(jìn)行代謝網(wǎng)絡(luò)研究并解釋細(xì)胞表型[39]。其他此類方面的應(yīng)用還有很多[40-47]。由此可推斷以代謝網(wǎng)絡(luò)為基礎(chǔ),用系統(tǒng)生物學(xué)觀點(diǎn)整合多組學(xué)數(shù)據(jù)研究細(xì)胞內(nèi)代謝過(guò)程正成為一種常用方法。
由于生物體內(nèi)活動(dòng)的復(fù)雜性,從系統(tǒng)生物學(xué)角度分析細(xì)胞內(nèi)活動(dòng)已經(jīng)成為一種研究趨勢(shì),對(duì)細(xì)胞活動(dòng)進(jìn)行網(wǎng)絡(luò)建模研究的方法也將愈加成熟。隨著高通量數(shù)據(jù)的涌現(xiàn),整合表達(dá)數(shù)據(jù)進(jìn)入代謝網(wǎng)絡(luò)已經(jīng)成為改進(jìn)FBA分析方法的主流思路。此類方法可分為兩種模式,一種對(duì)代謝網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行直接調(diào)整,即通過(guò)表達(dá)數(shù)據(jù)判斷相應(yīng)的生化反應(yīng)發(fā)生可能性,再進(jìn)行FBA分析;另一種是在不改變?cè)x網(wǎng)絡(luò)的基礎(chǔ)上,利用基因表達(dá)的數(shù)據(jù)和調(diào)控網(wǎng)絡(luò)對(duì)優(yōu)化過(guò)程進(jìn)行限制。這些方法得出的結(jié)果大部分經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,有較大的應(yīng)用價(jià)值。
但是本文所介紹方法整合數(shù)據(jù)相對(duì)單一,各方法均有其適用的局限性,方法準(zhǔn)確度有待改進(jìn)。目前的代謝網(wǎng)絡(luò)研究也有待改進(jìn),首先,目前的代謝網(wǎng)絡(luò)研究主體是整個(gè)細(xì)胞內(nèi)網(wǎng)絡(luò),得到的是特定代謝途徑的目標(biāo)函數(shù),細(xì)胞內(nèi)的代謝子網(wǎng)絡(luò)功能未被充分考慮;其次,基因表達(dá)與生化反應(yīng)酶之間的關(guān)系比想象中復(fù)雜,多個(gè)基因共同調(diào)控生化反應(yīng)的酶的機(jī)制目前尚不清楚。從MATRADE和omFBA方法[39]看出,未來(lái)從系統(tǒng)生物學(xué)角度研究代謝過(guò)程將是一個(gè)研究熱點(diǎn),整合多個(gè)層面的組學(xué)數(shù)據(jù)將更精確模擬細(xì)胞內(nèi)代謝活動(dòng),整合方法的研究也將不斷發(fā)展。
References)
[1]EDWARDS J S, PALSSON B O. Systems properties of the Haemophilus influenzae Rd metabolic genotype[J]. Journal of Biological Chemistry, 1999, 274(25):17410-17416.
[2]ZAMBONI N,FENDT S M, RüHL M, et al.13C-based metabolic flux analysis[J].Nature Protocols, 2009, 4(6):878-892.
[4]ORTH J D,THIELE I,PALSSON B O. What is flux balance analysis?[J].Nature Biotechnology,2010,28(3):245-248.
[5]CHAPMAN S P,PAGET C M,JOHNSON G N, et al. Flux balance analysis reveals acetate metabolism modulates cyclic electron flow and alternative glycolytic pathways in chlamydomonas reinhardtii[J].Frontiers in Plant Science, 2015(6):474. DOI: 10.3389/fpls.2015.00474. eCollection 2015.
[6]SHLOMI T,BERKMAN O,RUPPIN E, et al.Regulatory on/off minimization of metabolic flux changes after genetic perturbations[J].Proceedings of National Academy of Sciences of the United States of America, 2005, 102(21):7695-7700.
[7]MAHADEVAN R,EDWARDS J S,DOYLE F R,et al. Dynamic flux balance analysis of diauxic growth in Escherichia coli[J]. Biophysical Journal, 2002, 83(3):1331-1340.
[8]GOMEZ J A,HOFFNER K,BARTON P I, et al.DFBAlab: a fast and reliable MATLAB code for dynamic flux balance analysis[J].BMC Bioinformatics, 2014(15):409. DOI: 10.1186/s12859-014-0409-8.
[9]WILLEMSEN A M,HENDRICKX D M,HOEFSLOOT H C, et al. MetDFBA: incorporating time-resolved metabolomics measurements into dynamic flux balance analysis[J].Molecular BioSystems,2015, 11(1):137-145.
[10]BURGARD A P,PHARKYA P,MARANAS C D,et al. Optknock: a bilevel programming framework for identifying gene knockout strategies for microbial strain optimization[J].Biotechnology and Bioengineering, 2003, 84(6):647-657.
[11]盧汀.生物信息學(xué)基因表達(dá)差異分析[J].生物信息學(xué), 2014,12(02):140-144.
LU Ting.Bioinformatics analysis for gene differential expression[J]. Chinese Journal of Bioinformatics, 2014,12(2): 140-144.
[12]ANGIONE C,PRATANWANICH N,LIO P,et al. A hybrid of metabolic flux analysis and bayesian factor modeling for multiomic temporal pathway activation[J].ACS Synthetic Biology, 2015, 4(8):880-889.
[13]VOGEL C,MARCOTTE E M. Insights into the regulation of protein abundance from proteomic and transcriptomic analyses[J].Nature Reviews Genetics, 2012, 13(4):227-232.
[14]MEGCHELENBRINK W,ROSSELL S,HUYNEN M A, et al.Estimating metabolic fluxes using a maximum network flexibility paradigm[J]. PLoS One, 2015, 10(10):e139665.
[15]PACHECO M P,JOHN E,KAOMA T, et al, Integrated metabolic modelling reveals cell-type specific epigenetic control points of the macrophage metabolic network[J].BMC Genomics, 2015(16):809. DOI: 10.1186/s12864-015-1984-4.
[16]FERRAZZI F,MAGNI P,SACCHI L, et al. Inferring gene expression networks via static and dynamic data integration[J].Studies in Health Technology and Informatics, 2006(124):119-124.
[17]SALAZAR M,VONGSANGNAK W,PANAGIOTOU G, et al. Uncovering transcriptional regulation of glycerol metabolism in Aspergilli through genome-wide gene expression data analysis[J].Molecular Genetics and Genomics, 2009, 282(6):571-586.
[18]MOXLEY J F,JEWETT M C,ANTONIEWICZ M R, et al.Linking high-resolution metabolic flux phenotypes and transcriptional regulation in yeast modulated by the global regulator Gcn4p[J]. Proceedings of National Academy of Sciences of the United States of America,2009, 106(16):6477-6482.
[19]COLIJN C,BRANDES A,ZUCKER J, et al. Interpreting expression data with metabolic flux models: predictingMycobacteriumtuberculosismycolic acid production[J].PLoS Computational Biology, 2009, 5(8):e1000489.
[20]VAN BERLO R J,DE RIDDER D,DARAN J M, et al. Predicting metabolic fluxes using gene expression differences as constraints[J].IEEE/ACM Trans Computer Biology Bioinformatics, 2011, 8(1):206-216.
[21]LEE D,SMALLBONE K,DUNN W B, et al. Improving metabolic flux predictions using absolute gene expression data[J]. BMC Systems Biology, 2012(6):73.DOI: 10.1186/1752-0509-6-73.
[22]KIM J,REED J L. RELATCH: relative optimality in metabolic networks explains robust metabolic and regulatory responses to perturbations[J].Genome Biology, 2012, 13(9):R78.
[23]COLLINS S B,REZNIK E,SEGRE D.Temporal expression-based analysis of metabolism[J].PLoS Computational Biology, 2012, 8(11):e1002781.
[24]T?PFER N,JOZEFCZUK S,NIKOLOSKI Z. Integration of time-resolved transcriptomics data with flux-based methods reveals stress-induced metabolic adaptation inEscherichiacoli[J].BMC Systems Biology, 2012,3(6):148. DOI: 10.1186/1752-0509-6-148.
[25]NAVID A,ALMAAS E. Genome-level transcription data ofYersiniapestisanalyzed with a new metabolic constraint-based approach[J].BMC Systems Biology, 2012, 3(6):150. DOI: 10.1186/1752-0509-6-150.
[26]WANG Y,EDDY J A,PRICE N D. Reconstruction of genome-scale metabolic models for 126 human tissues using mCADRE[J].BMC Systems Biology, 2012, 3(6):153. DOI: 10.1186/1752-0509-6-153.
[27]AKESSON M,FORSTER J,NIELSEN J. Integration of gene expression data into genome-scale metabolic models[J].Metabolic Engineering, 2004, 6(4):285-293.
[28]BECKER S A,PALSSON B O. Context-specific metabolic networks are consistent with experiments[J].PLoS Computational Biology, 2008, 4(5):e1000082.
[29]SCHMIDT B J,EBRAHIM A,METZ T O, et al.GIM3E: condition-specific models of cellular metabolism developed from metabolomics and expression data[J].Bioinformatics, 2013, 29(22):2900-2908.
[30]CHANDRASEKARAN S,PRICE N D. Probabilistic integrative modeling of genome-scale metabolic and regulatory networks inEscherichiacoliandMycobacteriumtuberculosis[J]. Proceedings of National Academy of Sciences of the United States of America, 2010, 107(41):17845-17850.
[31]SHLOMI T,CABILI M N,HERRGARD M J, et al.Network-based prediction of human tissue-specific metabolism[J].Nature Biotechnology, 2008, 26(9):1003-1010.
[32]ROSSELL S,HUYNEN M A,NOTEBAART R A. Inferring metabolic states in uncharacterized environments using gene-expression measurements[J].PLoS Computational Biology, 2013, 9(3):e1002988.
[33]JENSEN P A,PAPIN J A. Functional integration of a metabolic network model and expression data without arbitrary thresholding[J].Bioinformatics, 2011, 27(4):541-547.
[34]ANGIONE C,LIP. Predictive analytics of environmental adaptability in multi-omic network models[J].Scientific Reports, 2015(5):15147.DOI:10.1038/srep15147.
[35]ANGIONE C,CONWAY M, LIP. Multiplex methods provide effective integration of multi-omic data in genome-scale models[J].BMC Bioinformatics, 2016, 17(Suppl 4): (83). DOI: 10.1186/s12859-016-0912-1.
[36]MA S,MINCH K J,RUSTAD T R, et al. Integrated modeling of gene regulatory and metabolic networks inMycobacteriumtuberculosis[J].PLoS Computational Biology, 2015, 11(11):e100454311. DOI: 10.1371/journal.pcbi.1004543.
[38]?ZCAN E,?AKR T.Reconstructed metabolic network models predict flux-level metabolic reprogramming inGlioblastoma[J].FRONTIERS IN NEUROSCIENCE, 2016(10):156.DOI: 10.3389/fnins.2016.00156.
[39]GUO W,FENG X. OM-FBA: integrate transcriptomics data with flux balance analysis to decipher the cell metabolism[J].PLoS One, 2016, 11(4):e154188.
[40]GARAY C D,DREYFUSS J M,GALAGAN J E. Metabolic modeling predicts metabolite changes inMycobacteriumtuberculosis[J]. BMC Systems Biology, 2015, 9(1):57. DOI: 10.1186/s12918-015-0206-7.
[41]T PFER N,JOZEFCZUK S,NIKOLOSKI Z. Integration of time-resolved transcriptomics data with flux-based methods reveals stress-induced metabolic adaptation inEscherichiacoli[J].BMC Systems Biology, 2012, 6(1):1-10.
[42]AGREN R,BORDEL S,MARDINOGLU A, et al. Reconstruction of genome-scale active metabolic networks for 69 human cell types and 16 cancer types using INIT[J].PLoS Computational Biology, 2012, 8(5):e1002518.
[43]FANG X,WALLQVIST A,REIFMAN J. Modeling phenotypic metabolic adaptations ofMycobacteriumtuberculosisH37Rv under hypoxia[J].PLoS Computational Biology, 2012, 8(9):e1002688.
[44]YIZHAK K,GABAY O,COHEN H, et al. Model-based identification of drug targets that revert disrupted metabolism and its application to ageing[J].Nature Communications, 2013(4):2632. DOI:10.1038/ncomms3632.
[45]YIZHAK K,GAUDE E,LE DEVEDEC S, et al. Phenotype-based cell-specific metabolic modeling reveals metabolic liabilities of cancer[J]eLIFE, 2014, 21(3): e03641.DOI: 10.7554/eLife.03641.
[46]STEMPLER S,YIZHAK K,RUPPIN E. Integrating transcriptomics with metabolic modeling predicts biomarkers and drug targets for Alzheimer’s disease[J].PLoS One, 2014, 9(8):e105383.
[47]AGREN R,MARDINOGLU A,ASPLUND A, et al. Identification of anticancer drugs for hepatocellular carcinoma through personalized genome-scale metabolic modeling[J].Molecular Systems Biology, 2014(10):721. DOI: 10.1002/msb.145122.
Development of integrating transcriptomic data into matebolic network analysis
WANG Hui,DING Dewu,SUN Xiao,XIE Jianming*
(CollegeofBiologicalScienceandMedicalEngineering,SoutheastUniversity,Nanjing210096,China)
With the advent of high-throughput technologies, the field of systems biology has amassed an abundance of developed metabolic network models and “omics” data, such as transcriptomic data, proteomic data and interactomic data. How to integrate omics data into metabolic network for further simulation analysis is becoming a hot spot of the microbial systems biology research. Several published studies have successfully demonstrated that the flux balance analysis(FBA) , a constraint-based modeling approach, can be used to integrate transcriptomic data into genome-scale metabolic network model reconstructions to generate predictive computational models. In this review, we summarize such FBA-based methods for intergrating expression data into genome-scale metabolic network reconstruction, highlighting the advantages as well as the limitations,and offer the suggestion to select appropriate method to a specific issue.
Metabolic network ; Transcriptomics ; Flux balance analysis; Algorithm
2016-04-18;
2016-06-07.
國(guó)家自然科學(xué)基金項(xiàng)目(61472078)。
汪慧,女,碩士研究生,研究方向:生物信息學(xué);E-mail:m15150565077_2@163.com.
*通信作者:謝建明,男,副教授,研究方向:生物信息學(xué);E-mail:xiejm@seu.edu.cn.
10.3969/j.issn.1672-5565.2016.03.06
Q493.2
A
1672-5565(2016)03-160-07