夏 麗 王成龍 儲(chǔ)冰峰
變形鏈球菌是革蘭氏陽(yáng)性的兼性厭氧菌,是口腔主要的致齲細(xì)菌之一。變形鏈球菌主要的毒力是利用食物中的葡萄糖產(chǎn)酸,利用蔗糖合成胞外多糖進(jìn)行粘附[1]。
細(xì)菌非編碼RNA(small non-coding RNA,sRNA)是一類(lèi)長(zhǎng)度在50-500 個(gè)核苷酸,不能編碼蛋白質(zhì)的RNA。sRNA 有諸多功能,在細(xì)菌的轉(zhuǎn)錄調(diào)節(jié)、RNA 的加工與修飾、mRNA 的穩(wěn)定性與翻譯、以及蛋白質(zhì)的降解、質(zhì)粒的復(fù)制、細(xì)菌的應(yīng)激反應(yīng)和毒力等[2,3]方面發(fā)揮重要作用。生物信息學(xué)是根據(jù)sRNA 的特點(diǎn)進(jìn)行計(jì)算機(jī)系統(tǒng)預(yù)測(cè),使sRNA 不再是偶然被發(fā)現(xiàn)[4-7]。sRNA 的特點(diǎn)包括:比較基因組學(xué)的特點(diǎn),其序列位于基因間區(qū),在相近菌種間具有序列同源性;熱動(dòng)力學(xué)中保守的二級(jí)結(jié)構(gòu);特定的轉(zhuǎn)錄信號(hào),包括有σ70啟動(dòng)子,可預(yù)測(cè)的內(nèi)在終止子。
隨著對(duì)基因組研究的深入,Dragana 等[4]獲得了變形鏈球菌標(biāo)準(zhǔn)菌株UA159 的基因組序列,對(duì)變形鏈球菌的環(huán)境適應(yīng)及毒力相關(guān)基因有大量研究,但是調(diào)控機(jī)制并不清楚。本研究通過(guò)生物信息學(xué)預(yù)測(cè)變形鏈球菌UA159 的sRNA,對(duì)部分可能存在的序列進(jìn)行實(shí)驗(yàn)初步篩選,生物信息學(xué)鑒定。
1.1 生物信息學(xué)方法預(yù)測(cè) 各種生物信息學(xué)預(yù)測(cè)方法不同,預(yù)測(cè)結(jié)果變化較大。下面介紹本實(shí)驗(yàn)使用的4 種生物信息學(xué)預(yù)測(cè)方法。
1.1.1 sRNAPredict sRNAPredict 是第一個(gè)使用轉(zhuǎn)錄信號(hào)的位置特點(diǎn)預(yù)測(cè)sRNA 序列的軟件[5],特點(diǎn)包括:?jiǎn)?dòng)子信號(hào),轉(zhuǎn)錄因子結(jié)合位點(diǎn),由TRANSTERMHP 預(yù)測(cè)的ρ-非依賴(lài)性終止子[6],通過(guò)BLAST(Basic Local Alignment Search Tools)進(jìn)行同源性分析。這一方法可以用于預(yù)測(cè)不知道啟動(dòng)子序列的新sRNA。
1.1.2 SIPHT SIPHT 是進(jìn)行sRNA 大規(guī)模預(yù)測(cè)的生物信息學(xué)方法。該方法運(yùn)用高通量技術(shù)(high-throughput technology,SIPHT),采用自動(dòng)工作流程,首先從美國(guó)國(guó)立生物技術(shù)信息中心
(National Center for Biotechnology Information,NCBI)數(shù)據(jù)庫(kù)獲得所有細(xì)菌的復(fù)制子,進(jìn)而預(yù)測(cè)sRNA 的編碼基因,由Condor DAGMan’s高通量計(jì)算系統(tǒng)進(jìn)行運(yùn)算。
1.1.3 sRNASVM sRNASVM 是根據(jù)大腸桿菌sRNA 特點(diǎn),基于機(jī)器學(xué)習(xí)方法編程,進(jìn)行生物信息學(xué)預(yù)測(cè)的方法。利用已知的細(xì)菌sRNA基因構(gòu)建訓(xùn)練集,提取描述訓(xùn)練集中每個(gè)樣本的特征向量,采用機(jī)器學(xué)習(xí)的方法構(gòu)建sRNA 預(yù)測(cè)模型,預(yù)測(cè)出細(xì)菌特有的sRNA。
1.1.4 網(wǎng)站Oral pathogens non-coding small RNA prediction 名為Oral pathogens noncoding small RNA prediction 的網(wǎng)站針對(duì)口腔細(xì)菌進(jìn)行sRNA 預(yù)測(cè)。
1.2 RT-PCR 初步檢測(cè)
1.2.1 菌株 變形鏈球菌UA159 標(biāo)準(zhǔn)菌株為本室保存。
1.2.2 實(shí)驗(yàn)方法
細(xì)菌總RNA 的提?。喝捬醮蠦HI 培養(yǎng)的變形鏈球菌菌液2ml,離心收集細(xì)菌,用0.1%DEPC 水洗滌一次。將細(xì)菌重懸于100μl 含5g/ L溶菌酶的TE(pH=8.0)緩沖液中,置于冰上15-20min。細(xì)胞溶液中加入20μl 10%SDS,置于沸水1min。于冰上冷卻并加入100μl Trizol 吹打混勻,加入20μl 氯仿,劇烈震搖15s。室溫靜置3-5min 后,于4℃,12000rpm 離心15min。吸取上層液相,移至新管,加入等體積異丙醇,顛倒混勻,置于-70℃沉淀過(guò)夜。4℃微量離心機(jī),12000rpm 離心20min,可見(jiàn)RNA 在管底形成白色沉淀;吸棄上清,加入1ml 80%乙醇,顛倒混勻,于4℃,7500rpm 離心5min;棄上清,于室溫晾干沉淀,用42μl DEPC 水溶解RNA;-70℃保存。
RT-PCR 檢測(cè):取2.5μg 所提總RNA 進(jìn)行加尾,加入5×M-MLV Buffer 5μl,100mM ATP 0.25μl,RNA2.5μg,PAP0.25μl,RNA 酶抑制劑0.5μl,DEPC 水補(bǔ)至21μl,37℃水浴1h。反轉(zhuǎn)錄合成cDNA,反轉(zhuǎn)錄通用引物RT-Primer:
5’-GCGAGCACAGAATTAATACGACTCACTATAGGTTTTTTTTTTTTTTTTTTVN-3’,將加尾產(chǎn)物中加入dNTP (2.5mM)2.5μl,M-MLV0.5μl,RT-Primer(500ng/ μl)1μl,42℃水浴1.5h,保存于-20℃。PCR 檢測(cè)反轉(zhuǎn)錄產(chǎn)物中的sRNA,引物為sms1f:AATCAGCCTTTAGCTTTGATAC,sms2f:CTAAGACAGCAGGGGAGCGT,sms3f:TTTCTCCTCTCGTCTATT,sms4f:TGAATACGCCTACGACTCTGTG, sms5f: TATTCCTTTAACACTGTCC,QmiR-reverse:GCGAGCACAGAATTAATACGAC;反應(yīng)條件:95℃10min;94℃30s,54℃30s,72℃30s,擴(kuò)增30個(gè)循環(huán);72℃10min。熒光定量PCR反應(yīng)條件: 95℃10min; 95℃30s,54℃30s,72℃30s,擴(kuò)增40 個(gè)循環(huán);95℃60s,54℃30s,95℃30s,采集熔解曲線(xiàn)。
1.3 sRNA 序列的家族鑒定 Rfam 數(shù)據(jù)庫(kù)是用序列比對(duì)和協(xié)方差統(tǒng)計(jì)的方法對(duì)非編碼RNA進(jìn)行家族分類(lèi)[18]。進(jìn)入Rfam 網(wǎng)站http:/ / rfam.xfam.org/ ,輸入sRNA 序列,系統(tǒng)自動(dòng)分析[19],網(wǎng)頁(yè)跳轉(zhuǎn)至分析結(jié)果頁(yè)面。
2.1 生物信息學(xué)軟件預(yù)測(cè)結(jié)果 通過(guò)sRNAPredict,SIPHT,sRNASVM,網(wǎng)站Oral pathogens non-coding small RNA prediction 4 種方法預(yù)測(cè)變形鏈球菌UA159 的非編碼RNA。sRNAPredict 預(yù)測(cè)得到14 條序列,SIPHT 預(yù)測(cè)得到226 條序列,sRNASVM 預(yù)測(cè)得到132 條序列,網(wǎng)站 Oral pathogens non-coding small RNA prediction 預(yù)測(cè)得到37 條序列。其中SIPHT,sRNA Predict 和sRNASVM 三種方法預(yù)測(cè)得到4條相同序列;SIPHT,sRNASVM 和網(wǎng)站三種方法預(yù)測(cè)得到1 條相同序列;SIPHT 和sRNA Predict 兩種方法預(yù)測(cè)得到10 條相同序列;sRNASVM 和網(wǎng)站兩種方法預(yù)測(cè)得到9 條相同序列;SIPHT 和網(wǎng)站兩種方法預(yù)測(cè)得到6 條相同序列;SIPHT 和sRNASVM 兩種方法預(yù)測(cè)得到10條相同序列。4 種生物信息學(xué)方法共得到334 條不同sRNA 序列,有40 條序列是至少兩種生物信息學(xué)方法預(yù)測(cè)得到。
2.2 RT-PCR 檢測(cè)部分預(yù)測(cè)的sRNA 通過(guò)不同生物信息學(xué)方法預(yù)測(cè)的sRNA 中,有40 條序列是至少兩種生物信息學(xué)方法預(yù)測(cè)得到。采用RT-PCR 檢測(cè)這40 條sRNA 序列,其中5 條存在RT-PCR 產(chǎn)物(圖1)。
圖1 RT-PCR 檢測(cè)出的5 條sRNA 電泳圖注:從左到右分別為pUC18 Marker,sms1,sms2,sms3,sms4,sms5。
2.3 sRNA 序列的家族鑒定 通過(guò)Rfam 網(wǎng)站分析5 條RT-PCR 檢測(cè)得到的sRNA 序列(表1)。sms2 序列屬于L10-Leader 家族(RF00557),sms5序列屬于PyrR家族(RF00515)。 sms1,sms3,sms4 未檢測(cè)到相近的家族序列,可能為新發(fā)現(xiàn)的sRNA。
表1 經(jīng)RT-PCR檢測(cè)得到的5 條sRNA 序列
生物信息學(xué)預(yù)測(cè)方法是常用的系統(tǒng)性尋找sRNA 的方法之一。最初的sRNA 是在實(shí)驗(yàn)中偶然發(fā)現(xiàn)的,隨著發(fā)現(xiàn)的增加,對(duì)已發(fā)現(xiàn)的sRNA基因特點(diǎn)加以總結(jié)和推算,發(fā)展出各種生物信息學(xué)方法預(yù)測(cè)sRNA。目前主要由以下四個(gè)方面進(jìn)行預(yù)測(cè)[7]:一是比較基因組學(xué),二是二級(jí)結(jié)構(gòu)的穩(wěn)定性,三是轉(zhuǎn)錄單元預(yù)測(cè),四是機(jī)器學(xué)習(xí)方法。本研究通過(guò)4 種方法得到了變形鏈球菌sRNA 生物信息學(xué)預(yù)測(cè)結(jié)果。其中sRNAPredict,SIPHT 和網(wǎng)站
Oral pathogens non-coding small RNA prediction
都屬于轉(zhuǎn)錄單元預(yù)測(cè)的方法,sRNASVM 則是機(jī)器學(xué)習(xí)的模擬方法。轉(zhuǎn)錄單元預(yù)測(cè)方法的基本假設(shè)是sRNA 基因在相近物種的基因組中具有一定的序列保守性和結(jié)構(gòu)保守性,有已知的啟動(dòng)子和終止子單元。雖然是同樣的原理,但編寫(xiě)軟件的方法不同,對(duì)參數(shù)的設(shè)定不同,會(huì)造成預(yù)測(cè)結(jié)果存在差別,所以在研究中雖然采用了3 種轉(zhuǎn)錄單元預(yù)測(cè)的方法,其重復(fù)的序列并不多?;跈C(jī)器學(xué)習(xí)的方法進(jìn)行的生物信息學(xué)預(yù)測(cè)是采用機(jī)器學(xué)習(xí)方法構(gòu)建sRNA 預(yù)測(cè)模型,對(duì)基因組中新的sRNA 進(jìn)行預(yù)測(cè)。但這種方法需要對(duì)DNA 片段進(jìn)行窗口化處理,而sRNA 的序列長(zhǎng)度變化較大,很難選擇最佳的窗口大小[8],使得機(jī)器學(xué)習(xí)方法構(gòu)建的sRNA預(yù)測(cè)模型的陽(yáng)性檢出率(positive prediction value,PPV)不是很高[9]??偟恼f(shuō)來(lái),生物信息學(xué)方法是根據(jù)已知的sRNA 序列特點(diǎn),對(duì)基因組信息完整的細(xì)菌,通過(guò)不同的運(yùn)算方法來(lái)預(yù)測(cè),可以獲得大量的sRNA 信息,但這些序列還是需要實(shí)驗(yàn)學(xué)方法進(jìn)行驗(yàn)證。在本研究中,用4 種生物信息學(xué)方法進(jìn)行預(yù)測(cè),對(duì)其中40 條序列進(jìn)行RT-PCR 初步檢測(cè),得到5 條序列,其中3 條來(lái)自sRNASVM 和網(wǎng)站兩種方法預(yù)測(cè)得到的相同序列,2 條來(lái)自SIPHT 和網(wǎng)站兩種方法預(yù)測(cè)得到的相同序列。
目前也有研究采用基因芯片對(duì)sRNA 進(jìn)行全面檢測(cè),基因芯片可以獲得所有轉(zhuǎn)錄的RNA 序列,再通過(guò)大量的數(shù)據(jù)分析,得到sRNA 序列。但是一些sRNA 只在特定的環(huán)境中表達(dá),對(duì)于這一部分sRNA 就很難檢測(cè)到。在對(duì)化膿性鏈球菌sRNA 的研究中[10],同時(shí)采用生物信息學(xué)預(yù)測(cè)和基因芯片進(jìn)行研究,總共預(yù)測(cè)出了75 條sRNA,其中只有7 條是兩種方法都檢測(cè)到的。
生物信息學(xué)方法預(yù)測(cè)和基因芯片檢測(cè)sRNA,都是對(duì)全基因組進(jìn)行sRNA 篩選,二者各有側(cè)重。生物信息學(xué)方法更加方便快捷,省時(shí)省力,只需要提供細(xì)菌的基因組信息就可以完成,與sRNA 是否在特殊環(huán)境表達(dá)無(wú)關(guān);基因芯片則需要提供細(xì)菌的RNA,受實(shí)驗(yàn)方法和技術(shù)的限制,與sRNA 是否在特殊環(huán)境下表達(dá)密切相關(guān),但檢測(cè)得到的序列真實(shí)性更高。不管是基因芯片,還是生物信息學(xué)方法,都需要進(jìn)一步通過(guò)實(shí)驗(yàn)驗(yàn)證。
生物信息學(xué)在變形鏈球菌sRNA 的研究中發(fā)揮了重要作用,預(yù)測(cè)了大量可能存在的序列,對(duì)相關(guān)序列進(jìn)行分析鑒定,與實(shí)驗(yàn)相輔相成,相互驗(yàn)證。目前生物信息學(xué)的預(yù)測(cè)結(jié)果還不夠全面準(zhǔn)確,隨著實(shí)驗(yàn)的不斷深入,生物信息學(xué)也會(huì)快速發(fā)展,為研究提供更多可靠的結(jié)果。
[1] 張 鷹, 文玲英, 儲(chǔ)冰峰. 變形鏈球菌黏附相關(guān)分子及其針對(duì)性免疫防齲的研究進(jìn)展[J]. 中華老年口腔醫(yī)學(xué)雜志,2010,8(2):120-123
[2] Romby P,Vandenesch F,Wagner EG. The role of RNAs in the regulation of virulence-gene expression[J]. Current opinion in microbiology,2006,9(2):229-236
[3] Toledo-Arana A,Repoila F,Cossart P. Small noncoding RNAs controlling pathogenesis[J]. Current opinion in microbiology,2007,10(2):182-188
[4] Ajdic D,McShan WM,McLaughlin RE,et al. Genome sequence of Streptococcus mutans UA159,a cariogenic dental pathogen[J]. Proceedings of the National Academy of Sciences of the United States of America,2002,99(22):14434-14439
[5] Livny J,F(xiàn)ogel MA,Davis BM,et al. sRNAPredict: an integrative computational approach to identify sRNAs in bacterial genomes[J]. Nucleic Acids Res,2005,33(13):4096-4105
[6] Kingsford C,Ayanbule K,Salzberg SL. Rapid,accurate,computational discovery of Rho-independent transcriptional terminators illuminates their relationship to DNA uptake[J].Genome Biol,2007,8(2):R22
[7] Jayavel S,Paramasamy G. Computational Small RNA Prediction in Bacteria[J]. Bioinformatics and Biology Insights,2013,7:83-95
[8] 劉 倩,應(yīng)曉敏,吳佳瑤,等. 基于轉(zhuǎn)錄終點(diǎn)序列特征預(yù)測(cè)大腸桿菌sRNA[J]. 生物物理學(xué)報(bào),2011,(3):257-264
[9] Tran TT,Zhou F,Marshburn S,et al. De novo computational prediction of non-coding RNA genes in prokaryotic genomes[J]. Bioinformatics,2009,25(22):2897-2905
[10] Perez N,Trevino J,Liu Z,et al. A genome-wide analysis of small regulatory RNAs in the human pathogen group A Streptococcus[J]. PloS one,2009,4(11):e7668