ABI PGM測(cè)序平臺(tái)用于細(xì)菌基因組de novo測(cè)序的評(píng)價(jià)
黃方亮
(浙江大學(xué)生命科學(xué)學(xué)院大型儀器平臺(tái),杭州310058)
摘要:為了探索加快細(xì)菌基因組研究的方法,利用ABI PGM 測(cè)序平臺(tái)測(cè)定了 1 株單細(xì)胞硫還原地桿菌的基因組序列。測(cè)序共獲得1.4 Gbp 數(shù)據(jù),平均讀長(zhǎng)為177 bp。通過多個(gè)拼接軟件并采用合適的組裝策略,得到一個(gè)完整細(xì)菌基因組3.55 Mbp和一條完整質(zhì)粒序列110 kbp。測(cè)定基因組序列與參考基因組kn400序列的相似性達(dá)到 94%,參考基因組91%的基因能在測(cè)定基因組中找到相似基因。通過本研究表明采用ABI PGM測(cè)序平臺(tái)結(jié)合靈活的拼接策略可快速構(gòu)建細(xì)菌基因組精細(xì)圖譜,為進(jìn)一步的功能注釋及深入的信息分析提供準(zhǔn)確的數(shù)據(jù),大大加快研究進(jìn)程。
關(guān)鍵詞:PGM測(cè)序平臺(tái);細(xì)菌基因組測(cè)序
中圖分類號(hào):Q75文獻(xiàn)標(biāo)志碼:A
收稿日期:2015-04-04;修回日期:2015-04-20.
基金項(xiàng)目:國(guó)家自然科學(xué)
作者簡(jiǎn)介:?jiǎn)喂庥?,男,碩士研究生,研究方向:生物信息學(xué);E-mail: sci@shanguangyu.com.
doi:10.3969/j.issn.1672-5565.2015.02.08
Evaluation of PGM sequencing platform using in bacterial genome de novo sequencing
HUANG Fangliang
(EquipmentandTechnologyServicePlatformofCollegeofLifeSciencesZhejianguniversity,Hangzhou310058,China)
Abstract:In order to speed up bacterial genome exploration, we performed the genome sequencing of Geobacter sulfurreducens using PGM. Totally, 1.4 Gbp raw data were obtained with an average read length of 177 bp. 2 contigs were assembled by multiple software calculations using appropriate assembly strategies. The size of whole obtained genome and plasmid was measured to be 3.55 Mbp and 110 kbp, respectively. The sequenced genome identified 94% of reference genome strain KN400 and 91% genes of KN400 were tested to be orthologous in the sequenced genome. This study proved that the use of ABI PGM sequencing platform with splicing flexible strategy can rapidly build bacteria genome map. By providing accurate data for the functional annotation and in-depth information analysis, it will greatly accelerate research progress.
Keywords:ABI PGM Sequencing Platform; Bacterial Genome de novo Sequencing
隨著測(cè)序技術(shù)的迅速發(fā)展和測(cè)序成本的急速降低,細(xì)菌全基因組精細(xì)測(cè)序成為科學(xué)家研究目的細(xì)菌的基本要求[1]。2005年羅氏454測(cè)序儀出現(xiàn)后,一次開機(jī)產(chǎn)生上百萬條數(shù)據(jù)的高通量測(cè)序技術(shù)大大加快了基因組研究的進(jìn)程[2],2012年454測(cè)序儀發(fā)明人Jonathan Rothberg 博士在焦磷酸測(cè)序[3]的基礎(chǔ)上,發(fā)明了新一代測(cè)序儀ABI PGM,它的測(cè)序通量更有彈性,能夠使用314、316、318三種芯片,分別出10 M,100 M,1 G測(cè)序數(shù)據(jù)。用半導(dǎo)體檢測(cè)技術(shù)替代了冷光CCD拍照成像技術(shù)檢測(cè)DNA信號(hào),測(cè)序成本更低,原始數(shù)據(jù)占用的計(jì)算機(jī)資源更少[4]。一張芯片上機(jī)測(cè)序只要3小時(shí)。利用ABI PGM 318芯片配合本來用于5500測(cè)序儀上的mate pair試劑盒,使ABI PGM測(cè)序平臺(tái)成為細(xì)菌基因組精細(xì)測(cè)序的強(qiáng)大工具。
本研究中,我們希望快速得到目的菌株完整基因組序列。為此,構(gòu)建了200 bp短片段文庫和3 KB mate pair文庫,接上不同的接頭,使用PGM測(cè)序。得到的數(shù)據(jù)用CLC Bio Genomics work bench 6.0(CLC Bio, Aarhus, Denmark)軟件拼接,采用合適的拼接策略后,兩周左右就得到完整的目的細(xì)菌基因組精細(xì)圖譜。
1材料與方法
1.1菌株培養(yǎng)和核酸提取
單細(xì)胞硫還原地桿菌菌株由浙大熱能所提供,挑取單克隆菌落,在37 ℃下用改進(jìn)過的LB液體培養(yǎng)基密閉振蕩培養(yǎng)過夜。取200 mL菌液最高速離心1 min,棄上清,將沉淀轉(zhuǎn)入研缽,加液氮研磨,研磨充分后加入 1 mL Plant DNAzol ,2 μL 2-ME( β-巰基乙醇)繼續(xù)研磨,轉(zhuǎn)移裂解產(chǎn)物至1.5 mL離心管中。將離心管置65 ℃水浴 30 min。加750 μL氯仿,混合均勻。12 000 rpm,離心5 min。小心取上清(避免吸取中間蛋白層),轉(zhuǎn)入一新的1.5 mL 管(體積大約有600 μL)。加0.7體積的異丙醇(約420 μL),12 000 rpm,離心10 min。棄上清,加入1 mL 75%乙醇至離心管中,顛倒數(shù)次以重懸DNA,直立離心管1 min至DNA團(tuán)塊沉至管底,傾去或吸除洗滌液。細(xì)小的DNA沉淀團(tuán)塊容易在傾倒洗滌液時(shí)丟失,可室溫3 000 rpm,離心3 ~ 5 min,然后傾去或吸除洗滌液。重復(fù)清洗1次。最后簡(jiǎn)短離心,用槍頭小心吸棄殘留液體。室溫靜置數(shù)分鐘(約10 min)使殘余乙醇揮發(fā),注意不要完全晾干DNA。加入適量(100 ~ 200 μL)滅菌雙蒸水或TE緩沖液,使DNA 沉淀溶解。向DNA溶液中加入終濃度為40 μg·mL-1的RNase A,37 ℃孵育 30 min,-20 ℃保存。
1.2基因組測(cè)序文庫構(gòu)建及PGM測(cè)序
取200 ng目的細(xì)菌基因組DNA,用millipore水稀釋到50 μL體積,放入Biorupt,參數(shù):Power Level:L ,Time ON:0.5 min,Time OFF:0.5 min,Number of 15-min Cycles:3。超聲破碎到250 bp左右,用Ion XpressTMPlus Fragment Library Kit構(gòu)建200 bp左右測(cè)序文庫。取3 μg基因組DNA,用millipore水稀釋到150 μL體積,利用hydroshear核酸片斷化儀打斷到3 KB,參數(shù):Standard Shearing Assembly,SC 13,20cycles。1%凝膠電泳回收純化,使用5500 SOLID MATE-PAIRED LIBRARY KIT構(gòu)建3 KB mate-pair文庫。兩個(gè)文庫接不同的接頭,上PGM測(cè)序,PGM測(cè)序參照ABI PGM操作手冊(cè)。
1.3測(cè)序數(shù)據(jù)de novo拼接
將兩個(gè)文庫數(shù)據(jù)導(dǎo)入CLC Bio Genomics work bench 6.0,用trimed功能去除低質(zhì)量數(shù)據(jù)后,以de novo模塊拼接。參數(shù)使用如下:word size values 范圍是25~40核苷酸,bubble sizes 選擇 50 bp, 60 bp,70 bp三種,Map reads back to contig(slow):mismatch cost:2,insertion cost:2,deletion cost:3,length fraction:0.5,similarity fraction:0.8。將得到的最理想拼接結(jié)果做為參照序列,比對(duì)得到的兩個(gè)文庫數(shù)據(jù),從而填補(bǔ)scaffold序列中的gap,并根據(jù)落在兩個(gè)不同scaffold上的成對(duì)mate-pair數(shù)據(jù),確認(rèn)scaffold間的關(guān)系。不同參數(shù)條件拼接出來的contigs重新mapping回拼好的scaffold上,消除gap。拼接策略見圖1。
圖1 拼接策略示意圖
注:(a) 利用3 KB mate pair數(shù)據(jù)確定scaffold間關(guān)系; (b) 利用不同參數(shù)條件下得到的contig序列,填補(bǔ)scaffold中的gap,得到完整序列。
Notes:(a) Scaffold ordering phase:using 3 KB mate pair data to determine the relationship between scaffolds; (b) Genome finish phase:fill gap by contig mapping.
1.4基因組FINISH
經(jīng)1.3拼接后,得到成環(huán)的基因組序列,根據(jù)缺少的gap,設(shè)計(jì)基于gap的引物。經(jīng)PCR擴(kuò)增后,利用一代測(cè)序儀3130的數(shù)據(jù),補(bǔ)全序列,從而構(gòu)建完整環(huán)狀基因組。
1.5基因預(yù)測(cè)注釋分析
將基因組數(shù)據(jù)提交到RAST(Rapid Annotation using Subsystem Technology)[5]網(wǎng)站,得到3 822個(gè)預(yù)測(cè)基因。結(jié)合另外幾個(gè)原核生物基因預(yù)測(cè)軟件Glimmer[6],Genemarker[7],F(xiàn)geneSB[8]校正預(yù)測(cè)結(jié)果。利用RAST網(wǎng)站Compare模塊中的function based功能與其它基因組做功能比較。KEGG模塊看基因組中基因所在pathway信息。并與InterPro[9],COG[10]數(shù)據(jù)庫比對(duì)確認(rèn)預(yù)測(cè)基因生化代謝功能。對(duì)于非蛋白質(zhì)編碼基因rRNA和tRNA的預(yù)測(cè),分別用RNAmmer[11]和tRNAscanSE[12]確認(rèn)。
1.6基因組比較分析
選取單細(xì)胞硫還原地桿菌生物型菌株kn400[13]做為參考序列,運(yùn)用NCBI網(wǎng)站的Blast2SEQ軟件比較兩個(gè)基因組相似性。根據(jù)預(yù)測(cè)的基因,用RAST網(wǎng)站的compare基于sequence based查找參考基因組中的同源基因。
2結(jié)果
2.1測(cè)序數(shù)據(jù)量和基因組拼接
兩個(gè)文庫共獲得8.1 M條序列,1.4 Gbp堿基,數(shù)據(jù)詳情見表1。將數(shù)據(jù)導(dǎo)入CLC分析軟件,經(jīng)過trimed后,還有7.8 M條序列可用,序列統(tǒng)計(jì)見圖2。經(jīng)過多次de novo拼接,調(diào)整各種參數(shù),最后word size values選35, bubble sizes選擇60 bp,組裝成16個(gè)scaffolds,總長(zhǎng)3.66 M,N50為492 k,最大長(zhǎng)度889 k。將16個(gè)scaffolds序列做為參照序列,把兩個(gè)文庫的數(shù)據(jù)mapping上去,找到16個(gè)scaffolds間的前后關(guān)系,并補(bǔ)上scaffold中的gap。經(jīng)過多輪的mapping最終將基因組拼接成一個(gè)環(huán)狀染色體序列3.55 M,并發(fā)現(xiàn)一個(gè)完整的質(zhì)粒序列110 KB,基因組G+C含量61%。環(huán)狀染色體序列中還有4個(gè)不能通過序列拼接確定的gap,用PRIMER3在線軟件設(shè)計(jì)引物[14],PCR擴(kuò)增測(cè)序后,拼回原來的位置得到一個(gè)完整的環(huán)狀染色體序列,擴(kuò)增產(chǎn)物電泳圖見圖3。
表1 200 bp及3 KB mate pair文庫數(shù)據(jù)統(tǒng)計(jì)情況
圖2 序列示意圖
注:(a) 200 bp文庫和3 KB mate pair文庫序列讀長(zhǎng)分布; (b) 3 KB mate pair數(shù)據(jù)在基因組上的實(shí)際定位統(tǒng)計(jì),峰值出現(xiàn)在2.1 KB,范圍在1.7 KB~3.1 KB間。
Notes:(a) Read length distribution of the 200 bp library and 3 KB mate pair library; (b) Distance of 3 KB mate pair library data locate in genome, peak appeared in the 2.1 KB, ranging from between 1.7 KB~3.1 KB.
2.2與參考序列比較結(jié)果
選擇基因組大小為3.7 M 的kn400做為參考,進(jìn)行基因組比對(duì),結(jié)果顯示兩個(gè)基因組序列相似度94%。參考基因組中91%的基因能在測(cè)定基因組的預(yù)測(cè)基因中找到,相似度≥95%的基因占52%,95%>相似度≥30%的基因占39%。
圖3 電泳圖
注:1,2,3,4分別是四個(gè)gap PCR產(chǎn)物電泳條帶。
Notes:1~4 is PCR amplification products of 4 gaps.
3討論
目前,得到細(xì)菌全基因組序列完整圖譜已經(jīng)是高質(zhì)量細(xì)菌文章發(fā)表的必備條件。而很多時(shí)候科學(xué)家在高通量測(cè)序完成后,得到的是幾十個(gè)獨(dú)立的scaffolds,要找到它們之間的關(guān)系,拼接成環(huán)狀完整的基因組,還需要訂購很多的引物,幾個(gè)月的時(shí)間做PCR擴(kuò)增,費(fèi)時(shí)費(fèi)力。采用200 bp文庫加3 KB mate pair文庫,用PGM 318芯片測(cè)序后,得到1.4 G原始數(shù)據(jù),經(jīng)過高質(zhì)量篩選后,余下881 M數(shù)據(jù),覆蓋基因組266倍左右,軟件初步拼接得到16個(gè)scaffolds。將16個(gè)scaffolds做為參考序列,把所有測(cè)序數(shù)據(jù)mapping上去,通過定位在兩個(gè)不同scaffolds上的多個(gè)成對(duì)的mate-pair序列來確定scaffolds間的前后關(guān)系,也可以結(jié)合軟件SSPACE來輔助確認(rèn)scaffolds間的關(guān)系。確認(rèn)關(guān)系排好順序的scaffolds被拼接到一起,做為參考序列,再做mapping,通過mapping結(jié)果可以進(jìn)一步確認(rèn)是否正確拼接scaffolds。如此反復(fù),直到拼接成環(huán)狀序列。過程中可以結(jié)合gap修復(fù)軟件Gapfiller[15],SOAPdenovo GapCloser v1.12r6來關(guān)閉gaps[16]??赡苁且?yàn)橹貜?fù)序列的關(guān)系,環(huán)狀基因組中還是會(huì)有4個(gè)gap無法修復(fù),最終通過設(shè)計(jì)引物PCR擴(kuò)增,3130測(cè)序,拼接出完整的基因組數(shù)據(jù)。拼接完成后還檢測(cè)到一個(gè)完整的質(zhì)粒序列。
PGM測(cè)序平臺(tái)還應(yīng)用到了另外幾個(gè)細(xì)菌基因組的研究中,都得到完整的細(xì)菌基因組圖譜。但經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)如果目的細(xì)菌中出現(xiàn)多個(gè)質(zhì)粒,且質(zhì)粒間的序列高度相似時(shí),雖然可以得到完整的基因組數(shù)據(jù),卻很難保證得到完整的質(zhì)粒序列。必須將質(zhì)粒分離開單獨(dú)測(cè)序才行。本研究實(shí)驗(yàn)結(jié)果證明PGM單次上機(jī)成本較低,一天就能完成兩張318芯片測(cè)序,一張318芯片數(shù)據(jù)足夠滿足4 M左右細(xì)菌基因組的精細(xì)圖拼接。因此采用ABI PGM測(cè)序平臺(tái)結(jié)合合適的拼接軟件,采用靈活的拼接策略可以快速構(gòu)建細(xì)菌基因組精細(xì)圖譜,為進(jìn)一步的基因功能注釋和深入的信息分析提供準(zhǔn)確的數(shù)據(jù),能夠大大加快細(xì)菌基因組研究的進(jìn)程。
參考文獻(xiàn)(References)
[1]BARBOSA E G, ABURJAILE F F, RAMOS R T, et al. Value of a newly sequenced bacterial genome[J]. World J Biol Chem,2014, 5(2): 161-168.
[2]YANG Y, XIE B, YAN J. Application of next-generation sequencing technology in forensic science[J]. Genomics Proteomics Bioinformatics, 2014, 12(5): 190-197.
[3]RONAGHI M, UHLEN M, NYREN P. A sequencing method based on real-time pyrophosphate[J]. Science, 1998, 281(5375): 363-365.
[4]MERRIMAN B, ROTHBERG J M. Progress in ion torrent semiconductor chip based sequencing[J]. Electrophoresis, 2012, 33(23): 3397-3417.
[5]OVERBEEK R, OLSON R, PUSCH G D, et al. The SEED and the rapid annotation of microbial genomes using subsystems technology (RAST)[J]. Nucleic Acids Res, 2014, 42(Database issue): 206-214.
[6]DELCHER A L, BRATKE K A, POWERS E C, et al. Identifying bacterial genes and endosymbiont DNA with Glimmer[J]. Bioinformatics, 2007, 23(6): 673-679.
[7]HOLLAND M M, PARSON W. GeneMarker(R) HID: A reliable software tool for the analysis of forensic STR data[J]. J. Forensic Sci, 2011, 56(1): 29-35.
[8]VICTOR S, ASAF S. Automatic annotation of microbial genomes and metagenomic sequences in metagenomics and its applications in agriculture[J]. Biomedicine and Environmental Studies, 2011: 61-78.
[9]HUNTER S, JONES P, MITCHELL A, et al. InterPro in 2011: new developments in the family and domain prediction database[J]. Nucleic Acids Res, 2012, 40(Database issue): D306-312.
[10]TATUSOV R L, KOONIN E V, LIPMAN D J. A genomic perspective on protein families[J]. Science, 1997, 278(5338): 631-637.
[11]LAGESEN K, HALLIN P, RODLAND E A, et al. RNAmmer: consistent and rapid annotation of ribosomal RNA genes[J]. Nucleic Acids Res, 2007, 35(9): 3100-3108.
[12]SCHATTNER P, BROOKS A N, LOWE T M. The tRNAscan-SE, snoscan and snoGPS web servers for the detection of tRNAs and snoRNAs[J]. Nucleic Acids Res, 2005, 33(Web Server issue): W686-689.
[13]BUTLER J E, YOUNG N D, AKLUJKAR M, et al. Comparative genomic analysis of Geobacter sulfurreducens KN400, a strain with enhanced capacity for extracellular electron transfer and electricity production[J]. BMC Genomics, 2012, 13: 471.
[14]UNTERGASSER A, CUTCUTACHE I, KORESSAAR T, et al. Primer3-new capabilities and interfaces[J]. Nucleic Acids Res, 2012, 40(15): e115.
[15]NADALIN F, VEZZI F, POLICRITI A. GapFiller: a de novo assembly approach to fill the gap within paired reads[J]. BMC Bioinformatics, 2012, 13 (Suppl 14): S8.
[16]LUO R, LIU B, XIE Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. Gigascience, 2012, 1(1): 18.
*通信作者:盧一鳴,男,軍事醫(yī)學(xué)科學(xué)院助理研究員,研究方向:生物信息學(xué);E-mail: luym@outlook.com.
張成崗,男,研究員,博士生導(dǎo)師,研究方向:生物信息學(xué);E-mail:zhangcg@bmi.ac.cn.