丁 輝,鄧恩澤,陳 偉,林 昊
?
細(xì)菌s54啟動(dòng)子序列分析與預(yù)測(cè)
丁 輝1,鄧恩澤1,陳 偉2,林 昊1
(1. 電子科技大學(xué)生物信息學(xué)中心 成都 610054; 2. 河北聯(lián)合大學(xué)基因組學(xué)與計(jì)算生物學(xué)中心 河北唐山 063000)
對(duì)實(shí)驗(yàn)確定的168條σ54啟動(dòng)子序列進(jìn)行保守性分析,獲得兩個(gè)保守的區(qū)域-24區(qū)域和-12區(qū)域,均為最保守的功能元件。選取保守性最大的17個(gè)保守位點(diǎn)的三聯(lián)體頻數(shù)作為參數(shù),引入偽計(jì)數(shù)構(gòu)建位置權(quán)重矩陣,對(duì)168條σ54啟動(dòng)子進(jìn)行預(yù)測(cè),分別從編碼區(qū)和匯聚非編碼區(qū)共選取168條序列組成陰性集。使用Jackknife交叉驗(yàn)證法對(duì)模型進(jìn)行檢驗(yàn),整體準(zhǔn)確度達(dá)到82.0%,為σ54啟動(dòng)子的理論和實(shí)驗(yàn)研究提供新信息。
細(xì)菌; 保守性; 位置權(quán)重矩陣; 啟動(dòng)子
啟動(dòng)子通常定義為轉(zhuǎn)錄起始位點(diǎn)(transcription start site, TSS)上游鄰近的功能區(qū)域。細(xì)菌的σ啟動(dòng)子分為兩大家族,一類(lèi)在進(jìn)化上與大腸桿菌管家因子σ70相似,另一類(lèi)在結(jié)構(gòu)上與可變因子σ54同源。σ54因子能夠形成關(guān)閉的啟動(dòng)子復(fù)合物,但不能自發(fā)進(jìn)行轉(zhuǎn)錄,聚合酶依賴(lài)于另外的轉(zhuǎn)錄因子和附加的增強(qiáng)子結(jié)合蛋白來(lái)開(kāi)始RNA合成[1]。許多不同的細(xì)菌使用依賴(lài)于σ54啟動(dòng)子的轉(zhuǎn)錄來(lái)控制許多環(huán)境響應(yīng)進(jìn)程,如趨化性傳感器的表達(dá)和運(yùn)動(dòng)性器官的裝配[2]。σ54啟動(dòng)子主要控制一些輔助的進(jìn)程,包括甲苯和二甲苯的降解、二羧酸的輸送、菌毛蛋白的合成、氮固定、氫攝取、鞭毛組裝、精氨酸分解、藻蛋白酸鹽生成、鼠李糖脂生成、乙偶姻分解、甘露糖攝取和脯氨酸亞氨基肽酶激活[3]。
σ70和σ54啟動(dòng)子具有豐富的序列多樣性,σ70啟動(dòng)子在轉(zhuǎn)錄起始位點(diǎn)上游-10和-35位置均有保守區(qū) 域[4],而σ54啟動(dòng)子的保守區(qū)域則分布在轉(zhuǎn)錄起始位點(diǎn)上游的-12和-24位置[3]。目前關(guān)于-12/-24區(qū)域的編譯和分析是重要的研究方向,因此準(zhǔn)確識(shí)別σ54啟動(dòng)子對(duì)研究并探索σ54啟動(dòng)子功能和調(diào)控有重要的作用?;诜肿由飳W(xué)實(shí)驗(yàn)的方法分析和鑒定啟動(dòng)子是進(jìn)行啟動(dòng)子研究的主要途徑。然而,實(shí)驗(yàn)方法費(fèi)時(shí)、費(fèi)錢(qián),且效率低下。隨著對(duì)啟動(dòng)子的序列特征以及結(jié)構(gòu)功能的逐步認(rèn)識(shí),利用生物信息學(xué)方法,通過(guò)計(jì)算來(lái)預(yù)測(cè)基因啟動(dòng)子的相關(guān)信息獲得越來(lái)越多的應(yīng)用。
目前對(duì)于原核基因組中啟動(dòng)子的預(yù)測(cè)方法主要有隱馬爾可夫模型(HMM)[5]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[6]、支持向量機(jī)(SVM)[7]等算法。然而,這些算法主要應(yīng)用于σ70啟動(dòng)子的預(yù)測(cè),由于各大數(shù)據(jù)庫(kù)中實(shí)驗(yàn)證實(shí)的σ54啟動(dòng)子序列較少,對(duì)σ54啟動(dòng)子的生物信息學(xué)研究尚處于起步階段。
因此,本文在搜集足夠的σ54啟動(dòng)子序列的基礎(chǔ)上,對(duì)σ54啟動(dòng)子的序列位點(diǎn)保守性進(jìn)行了分析,進(jìn)而使用位置評(píng)分函數(shù)對(duì)該類(lèi)啟動(dòng)子進(jìn)行分類(lèi)預(yù)測(cè)。Jackknife驗(yàn)證顯示,基于位置打分函數(shù)的模型能夠獲得82.0%總體預(yù)測(cè)精度。該模型為進(jìn)一步進(jìn)行理論和實(shí)驗(yàn)研究σ54啟動(dòng)子提供幫助,位置權(quán)重矩陣也將會(huì)在更多關(guān)于生物序列的分析中得到運(yùn)用。
1.1 數(shù)據(jù)庫(kù)的建立
大腸桿菌σ54啟動(dòng)子序列數(shù)據(jù)集來(lái)源于RegulonDB數(shù)據(jù)庫(kù)[8]和文獻(xiàn)[3],從RegulonDB中獲取了92條σ54啟動(dòng)子序列,從文獻(xiàn)[4]得到了76條σ54啟動(dòng)子序列,每條序列長(zhǎng)81 bp(-60…+20,TSS作為0位置)。非啟動(dòng)子序列在大腸桿菌全基因組序列中的編碼區(qū)和匯聚(convergent, CON)非編碼區(qū)(兩側(cè)基因的轉(zhuǎn)錄末端位于該非編碼區(qū))選取[9]。為了避免正負(fù)集序列數(shù)目相差過(guò)大,本文隨機(jī)選取84條編碼區(qū)和84條CON非編碼區(qū)序列作為非啟動(dòng)子數(shù)據(jù)集,每條序列長(zhǎng)度也為81 bp。
1.2 保守性算法
為了提取每段序列中最具有代表性的特征,本文計(jì)算任意一位點(diǎn)處的保守性值為:
式中,代表使用聯(lián)體進(jìn)行保守性分析;p()代表在位點(diǎn)處第種聯(lián)體片段出現(xiàn)的概率,對(duì)于聯(lián)體共有4種片段。易證,保守性值M()服從卡方分布。
1.3 位置權(quán)重矩陣
對(duì)于標(biāo)準(zhǔn)樣本集,定義位置權(quán)重矩陣為=(P)×L,其中為聯(lián)體的種類(lèi)數(shù),為序列的長(zhǎng)度,P代表某種聯(lián)體在位置出現(xiàn)的概率,即P=n/,為樣品集中序列的總數(shù)。然而在計(jì)算過(guò)程中,某種片段可能出現(xiàn)概率為0的情況,進(jìn)而導(dǎo)致后續(xù)計(jì)算公式?jīng)]有意義。因此在計(jì)算過(guò)程中引入了偽計(jì)數(shù),隨著的增加,偽計(jì)數(shù)的增加逐漸減小,對(duì)概率的影響也減小。由于偽計(jì)數(shù)的加入,更新的位置權(quán)重矩陣公式為:
式中,0為背景頻率,對(duì)于聯(lián)體,其背景頻率為1/4。
根據(jù)位置權(quán)重矩陣,定義位置關(guān)聯(lián)評(píng)分函數(shù)為:
不同的序列將對(duì)應(yīng)不同的F值,因此用F值的大小來(lái)評(píng)估一條序列與標(biāo)準(zhǔn)樣本集中啟動(dòng)子序列的相似程度,F值越大,則這條序列是啟動(dòng)子序列的可能性越高。
1.4 精確度評(píng)價(jià)
本文使用下列參數(shù)來(lái)評(píng)價(jià)算法的預(yù)測(cè)性能:敏感性(Sn),特異性(Sp),準(zhǔn)確度(ACC)。
(5)
(6)
式中,TP代表正確預(yù)測(cè)的啟動(dòng)子數(shù)目;FP代表非啟動(dòng)子被預(yù)測(cè)為啟動(dòng)子的數(shù)目;FN代表啟動(dòng)子被預(yù)測(cè)為非啟動(dòng)子的數(shù)目;TN代表正確預(yù)測(cè)的非啟動(dòng)子數(shù)目。
利用Mn()對(duì)168條大腸桿菌的σ54啟動(dòng)子進(jìn)行保守性分析,發(fā)現(xiàn)其保守位點(diǎn)與σ70啟動(dòng)子具有很大的差異。σ54啟動(dòng)子的保守位點(diǎn)在-24和-12區(qū)域,如圖1a所示。便于比較,σ70啟動(dòng)子的保守性曲線(xiàn)如圖1b所示。
a. σ54啟動(dòng)子序列五聯(lián)體的保守性曲線(xiàn)
b. σ70啟動(dòng)子序列五聯(lián)體的保守性曲線(xiàn)
圖1 五聯(lián)體的曲線(xiàn)
圖1描述了五聯(lián)體的保守性曲線(xiàn)。由圖可以發(fā)現(xiàn),σ54啟動(dòng)子兩個(gè)主要峰值在-24區(qū)域和-12區(qū)域,而σ70啟動(dòng)子兩個(gè)主要峰值在-35區(qū)域和-10區(qū)域。本文也研究了σ54啟動(dòng)子單堿基到4聯(lián)體的保守性,發(fā)現(xiàn)隨著從單體到五聯(lián)體的變化,多聯(lián)體的種類(lèi)數(shù)也以指數(shù)形式增長(zhǎng),其n()~曲線(xiàn)的光滑程度也逐漸增加,然而峰值的位置沒(méi)有變?;谝陨戏治隹芍瑘D中描述的保守區(qū)域即為之前文獻(xiàn)中報(bào)道的-24和-12區(qū)域[3]。
本文使用MEME[10]來(lái)分析大腸桿菌的σ54啟動(dòng)子的保守基序,獲得的結(jié)果如圖2所示,其中橫坐標(biāo)代表啟動(dòng)子序列位點(diǎn),縱坐標(biāo)代表信息熵。正如先前文獻(xiàn)報(bào)道的一樣,在-24元件和-12元件周?chē)业搅俗畋J氐膮^(qū)域。在-24元件附近找到了5個(gè)高度保守的核苷酸,其序列為T(mén)GGCA。在-12元件附近同樣找到了3個(gè)高度保守的核苷酸,其序列為T(mén)GC。另外還找到了一些保守性稍弱的核苷酸,綜合的正則表達(dá)式為[CT]TGGCA[CT][GA][AGC][ACTG][TA] [CTA]TTGC[AT][TA]。
圖2 σ54啟動(dòng)子序列-24元件和-12元件的基序
通過(guò)對(duì)聯(lián)體的保守型分析,根據(jù)每個(gè)位點(diǎn)的M()值的大小為標(biāo)準(zhǔn),選取特征位點(diǎn),利用位置評(píng)分函數(shù)進(jìn)行預(yù)測(cè)。首先,選取最大M()值的位點(diǎn)的聯(lián)體(=1, 2, 3, 4, 5),以啟動(dòng)子和非啟動(dòng)子分別構(gòu)建兩個(gè)位置權(quán)重矩陣,使用Jackknife檢驗(yàn)方法,對(duì)于每一條序列,分別利用兩個(gè)位置權(quán)重矩陣對(duì)其打分,測(cè)試樣本在哪一個(gè)矩陣中獲得的分值較高,就屬于哪一類(lèi)別;其次,選取最大和次大M()值的位點(diǎn),利用Jackknife檢驗(yàn)進(jìn)行模型精度評(píng)估;如此循環(huán),直到所有位點(diǎn)都被選入,比較所有預(yù)測(cè)模型獲得的預(yù)測(cè)精度,選擇能夠獲得精度最高的位點(diǎn)的聯(lián)體作為構(gòu)建最終預(yù)測(cè)模型的參數(shù)。聯(lián)體和位點(diǎn)數(shù)兩個(gè)參數(shù)需要調(diào)整。表1列出了不同聯(lián)體獲得的最佳預(yù)測(cè)結(jié)果。
表1 位置評(píng)分函數(shù)對(duì)σ54啟動(dòng)子預(yù)測(cè)結(jié)果
由表1可以看出,隨著聯(lián)體數(shù)目的增加,Sn有著明顯的增加,而Sp先增加后減少。這種現(xiàn)象表明在不同聯(lián)體預(yù)測(cè)過(guò)程中,敏感性的增加所付出的代價(jià)是特異性的降低。為了達(dá)到一個(gè)平衡狀態(tài),本文選取總體精度最高的三聯(lián)體作為預(yù)測(cè)模型,17個(gè)最優(yōu)位點(diǎn)分別為-31,-29,-28,-27,-26,-25,-24,-23,-22,-19,-16,-15,-14,-13,-12,-11,-10。該模型能夠很好地平衡各個(gè)預(yù)測(cè)評(píng)價(jià)指標(biāo),使模型是最優(yōu)的。
本文通過(guò)使用位置權(quán)重矩陣對(duì)大腸桿菌σ54啟動(dòng)子進(jìn)行了預(yù)測(cè),根據(jù)結(jié)果顯示,引入多聯(lián)體和偽計(jì)數(shù)能夠?qū)?dòng)子序列有更好的識(shí)別。堿基的短程關(guān)聯(lián)是所有物種基因組的共性,特別是緊鄰與次緊鄰關(guān)聯(lián)。本文使用三聯(lián)體模式作為參數(shù),不僅考慮了堿基的構(gòu)成,還考慮了位置的關(guān)聯(lián)特性。偽計(jì)數(shù)的引入是為了排除堿基頻率計(jì)數(shù)時(shí),由樣本帶來(lái)偏差所造成的影響,偽計(jì)數(shù)的大小與計(jì)數(shù)的標(biāo)準(zhǔn)偏差成正比。由于偽計(jì)數(shù)是一種根據(jù)先驗(yàn)概率對(duì)矩陣中每個(gè)位點(diǎn)堿基頻率的估計(jì),因此在矩陣中不會(huì)出現(xiàn)零,避免了求對(duì)數(shù)時(shí)可能會(huì)遇到的困難。使用Jackknife交叉檢驗(yàn)對(duì)啟動(dòng)子預(yù)測(cè)算法進(jìn)行評(píng)價(jià),預(yù)測(cè)模型準(zhǔn)確率和特異性都達(dá)到了80%。該模型的開(kāi)發(fā)為進(jìn)一步研究σ54啟動(dòng)子提供了理論工具。
[1] MORETT E, SEGOVIA L. The sigma 54 bacterial enhancer-binding protein family: mechanism of action and phylogenetic relationship of their functional domains[J]. J Bacteriol, 1993, 175(19): 6067-6074.
[2] BERNARDO L M, JOHANSSON l , SKARFSTAD E, et al. Sigma54-promoter discrimination and regulation by ppGpp and DksA[J]. J Biol Chem, 2009, 284(2): 828-838.
[3] BARRIOS H, VALDERRAMA B, MORETT E. Compilation and analysis of sigma(54)-dependent promoter sequences[J]. Nucleic Acids Res, 1999, 27(22): 4305-4313.
[4] LI Q Z, LIN H. The recognition and prediction of sigma70 promoters in Escherichia coli K-12[J]. J Theor Biol, 2006, 242(1): 135-141.
[5] LIN J C. Prediction of prokaryotic promoters based on prediction of transcriptional units[J]. Acta Biochim Biophys Sin, 2003, 35(4): 317-324.
[6] DEMELER B, ZHOU G W. Neural network optimization for E coli promoter prediction[J]. Nucleic Acids Res, 1991, 19(7): 1593-1599.
[7] GORDON L, CHERVONENKIS A Y, GAMMERMAN A J, et al. Sequence alignment kernel for recognition of promoter regions[J]. Bioinformatics, 2003, 19(15): 1964-1971.
[8] SALGADO H, PERALTA-GIL M, GAMA-CASTRO S, et al. RegulonDB v8.0: Omics data sets, evolutionary conservation, regulatory phrases, cross-validated gold standards and more[J]. Nucleic Acids Res, 2013, 41: D203-D213.
[9] BLATTNER F R, PLUNKETT G R D, BLOCH C A, et al. The complete genome sequence of escherichia coli K-12[J]. Science, 1997, 277: 1453-1462.
[10] BAILEY T L, ELKAN C. Fitting a mixture model by expectation maximization to discover motifs in biopolymers[J]. Proc Int Conf Intell Syst Mol Biol, 1994, 2: 28-36.
編 輯 黃 莘
The Sequence Analysis and Prediction of σ54Promoter in Bacteria
DING Hui1, DENG En-ze1, CHEN Wei2, and LIN Hao1
(1. Center of Bioinformatics, University of Electronic Science and Technology of China Chengdu 610054; 2. Center for Genomics and Computational Biology, Hebei United University Tangshan Hebei 063000)
By analyzing the 168 experimental-confirmed σ54promoter sequences, two conservative regions that are-24 and-12 regions are obtained. The trimer frequency at 17 positions in these conservative regions is selected as inputting parameter. By adding pseudo-count into position weight matrix, the σ54promoter can be predicted. The 168 negative sequences are extracted from coding regions and convergent intergenic regions. In Jackknife cross-validation, the overall accuracy reaches to 82.0%, suggesting that the model can be further used in the theoretical and experimental study of σ54promoter.
bacteria; conservative; position weight matrix; promoter
Q61
A
10.3969/j.issn.1001-0548.2015.01.025
2013-11-23;
2014-12-19
國(guó)家自然科學(xué)基金(61202256, 61301260, 61100092);中央高校基本科研業(yè)務(wù)費(fèi)(ZYGX2012J113, ZYGX2013J102)
丁輝(1979-),女,副教授,主要從事系統(tǒng)生物學(xué)方面的研究.