劉 夢,莊 蕾,余忠祥,吳 森
(青海大學畜牧獸醫(yī)科學院,青海 西寧 810016;青海省高原家畜遺傳資源保護與創(chuàng)新利用重點實驗室,青海 西寧 810016)
隨著現(xiàn)代科技的迅速發(fā)展,生物測序技術已發(fā)展到了第三代單分子實時測序(SMRT Sequencing,Single Molecule Real-Time Sequencing),因其高通量、長讀長等優(yōu)點受到了廣大研究者的歡迎。本文對幾代測序技術進行了闡述,并對第三代測序技術在微生物研究領域的應用中存在的不足提出改正意見,以期該技術以后在生物領域方面發(fā)揮更好的作用,給越來越多的研究人員帶來便捷。
Sanger 的鏈終止法[1]于1977 年登上歷史舞臺,其主要應用于人類基因組計劃(HGP,Human Genome Project),研究學者耗時15 年花費30 億美元完成了首個人類基因組圖譜。雖然第一代測序的準確率高達99.999%,并且能達到1 000 bp,但是它的低通量和高成本限制了其廣泛應用。以Sanger 法為代表的第一代測序技術對生物學意義重大,至今在基因測序中仍是金標準。
Illumina 的Solexa 和Hiseq 技術、ABI 的SOLiD技術、Helicos 的HeliScope 技術等[2]在第二代測序中是主要的羅氏454 技術平臺。
第二代測序技術的通量相對較高,測序速度也相對提高,測序周期大大縮短,成本也大大降低。羅氏的454 技術是首個商業(yè)化的二代測序平臺,在早期階段已經(jīng)被許多研究人員使用。羅氏454 技術使用焦磷酸測序,讀取長度在300~800 bp 之間,且不能被準確測量。ABI 的SOLID 技術使用連接酶方法,而不是通常用于測序的其他聚合酶,將1 個8 個堿基的單鏈熒光探針與1 個模板配對,并識別1 個雙基的熒光信號,用于雙基測序。第二代測序的精度高,測序讀長長度為100 bp,但后續(xù)拼接比較復雜。目前使用最廣泛的平臺是Illumina 的Solexa 和Hiseq,這2 個平臺都是基于同步合成和測序的原理[3]。該技術在脫氧核糖核苷三磷酸(dNTP,deoxy-ribonucleoside triphosphate)方面是一對一,也就是說1 次只增加1個,可以解決均勻長度的精確測量問題。大多數(shù)測序錯誤是由于堿基替換,錯誤率在1.0%~1.5%之間。Helicos 的HeliScope技術[4]在第二代測序技術中是單分子測序,測序前不進行聚合酶鏈式反應(PCR,Polymerase Chain Reaction)擴增,采用聚合酶測序在引物上添加熒光標記的單核苷酸,因此,拼接困難、質量低、儀器成本高等問題使第二代測序技術未能廣泛得到應用。
從兩代測序技術之間的比較來看,第二代測序技術利用自身的優(yōu)勢在過去的10 年中迅速發(fā)展,以其低成本、高通量等優(yōu)點被廣泛應用在大量的探索性研究中,比如一個新物種的基因組測序,得到其區(qū)域或整個基因組,則將會突破轉錄組測序領域的重量、宏基因組測序和表觀遺傳修飾測序[5]。
第三代測序也叫單分子測序技術(SMRT Sequencing,Single Molecule Real-Time Ssequencing)?,F(xiàn)在SMRT 測序技術主要分為兩大陣營:一個是單分子熒光測序,另一個是納米孔測序。其中,單分子熒光測序基于美國Pacific Bioscience 公司的PacBio 平臺及相關技術,納米孔測序主要基于英國Oxford Nanopore 公司的Nanopore 平臺機器及相關技術。
1.3.1 SMRT 測序技術原理及特點
PacBio 的SMRT 技術是目前使用最為廣泛的第三代測序技術之一,序列的信息綜合也被廣泛使用,并復制模板鏈進行排序策略。測序原理主要是使用SMRT Cell(芯片的載體)和制備好SMRT-bell 測定單分子序列結構。其中SMRT-bell 主要通過將待測DNA 片段化后,從而形成緊閉的環(huán)狀單鏈模板[6]。在測序反應過程中,待測模板DNA 在以4 種熒光標記的dNTP 作為原料進行合成時,所連接的dNTP 會因為反應而在零模式波導(ZMW,Zero-Mode Waveguide)底部短暫停留,熒光收集設備則可以收集到配對dNTP 的熒光信號,從而實現(xiàn)高通量的精確測序[7]。
因為第一代和第二代測序過于依賴模板擴增、局限于測序讀取長度等劣勢,第三代測序技術登上歷史舞臺,第三代測序憑借其序列讀取長度長等特點補救了前兩代測序技術存在的劣勢。但第三代測序也存在一定的缺點,例如錯誤率高,單堿基成本也高,因此需要結合第二代測序高通量、高準確率等優(yōu)點對其進行反復糾正,以達到降低第三代測序錯誤率和成本費用高等問題。SMRT 最突出的劣勢是錯誤率相對較高,然而,與第二代測序不同的是SMRT 測序錯誤是隨機發(fā)生的,可以通過足夠的測序時間來改正。第三代測序的測序策略包括計算機語音記錄器(CLR,Continuous Long Reads)和環(huán)狀一致性測序(CCS,Circular Consensus Read)2 種,其中15 次測序的CLR準確率超過99%[5]。
SMRT 還能在單堿基分辨率下直接檢測DNA 堿基修飾,包括某些類型的甲基化修飾[8]展現(xiàn)序列的表觀遺傳學特征。通過SMRT 技術,可以對AT 或GC 富集區(qū)域以及大的結構變異,包括插入、缺失、倒位、易位、重復和串聯(lián)重復等難以測序的區(qū)域進行測序[9]。
1.3.2 Nanopore 及熒光單分子測序
PacBio 測序平臺采用SMRT 細胞作為測試單元,每個SMRT 芯片載體中都包含15 萬個ZMW。通量低在PacBio 測序中是較明顯的劣勢,并且低于羅氏454和Illumina 平臺。此外,PacBio 測序平臺可通過復制過程中聚合酶的動態(tài)變化特征,直接檢測堿基的修飾類型和位點信息,為表觀遺傳學研究提供了新的、方便的途徑[10]。
納米孔測序技術與電信號測序[11]為同一種測序,蛋白質納米孔是該技術的測序核心。在2 個電解液室當中形成了1 個納米孔,并且2 個電解液室之間有一層不滲透膜,蛋白質中的納米孔(細微的孔洞,本質上就形成膜上的通道)被嵌入在合成膜上(具有很高的電阻),并浸泡在電生理溶液中;由于化學結構中存在的差異,4 種不同的堿基A、C、G 和T 通過納米孔時會產生不同強度的電流,這可以被靈敏的電子設備檢測到,進而可以識別DNA 鏈上的堿基完成測序。Nanopore 測序技術與第二代測序技術相比,納米孔測序讀長很長,能直接測定1 MB 以上的讀長[12],通過16S rRNA 測序,可以準確識別致病微生物。納米孔測序可以對單個DNA 進行測序,而無需對樣品進行PCR擴增或化學標記;該測序也具有一定的缺點,錯誤率較高,主要由插入和刪除堿基引起。表1 對測序技術進行了總結比較。
微生物普遍存在于自然界中,它們要么肉眼看不見,要么看不清楚。屬于微生物的有細菌、病毒、真菌以及一些小型的原生動物、微型藻類等生物類群,具有體積小、結構簡單、繁殖速度快、易突變、對環(huán)境適應性強等特點。在生活當中微生物是無處不在的,與人類關系密切。據(jù)估計,地球上有1 030 個微生物種類,它們在人體中的數(shù)量可以達到10 萬億,也就是細胞數(shù)量的10 倍[13]。微生物(細菌、真菌、支原體、衣原體、寄生蟲、病毒等)與人體的健康系統(tǒng)穩(wěn)定息息相關,人體中有由細菌、真菌、病毒等微生物組成的最為龐大與復雜的胃腸道系統(tǒng),且人體許多疾病的發(fā)生都與微生物系統(tǒng)的失調或者微生物的入侵有極其緊密的關系,而高通量測序技術的出現(xiàn)為微生物菌群的鑒定檢測與研究提供了有力的技術支持[14]。
由于第一代測序通量低、第二代測序讀長短,致使第一、二代測序技術在微生物研究中的應用并不廣泛,且具有一定的劣勢。而第三代測序技術的優(yōu)勢剛好彌補第一、二代測序中的某些不足,且第三代SMRT測序技術在微生物研究中應用相對較廣泛。但第三代測序技術錯誤率較高,需要結合逐步成熟的第二代測序,以提高其在應用中的準確性,降低其成本費用,在微生物研究中具有更廣闊的應用前景。
2.2.1 全基因組測序
全基因組測序是對未知物種的單個基因組進行測序。利用第二代測序和第三代測序為微生物全基因組進行測序,準確地對樣本塊的微生物進行鑒定分析,并且可以根據(jù)耐藥基因的定位進行分析。對發(fā)現(xiàn)的一種罕見或未知微生物進行全基因組測序是必不可少的[15]。WIBBERG 等[16]完成全基因組測序,是利用了第三代測序技術產堿假單胞菌CECT5344,該菌能消化吸收氰化物,并將其轉化為無毒成分,可用于氰化物污染的治理。
雖然第三代測序技術仍有待提高,但測序技術的準確性進一步提高、操作和操作流程的簡化以及突破性的進展肯定是指日可待的。在未來,高通量測序技術將繼續(xù)發(fā)展,為價格、準確性和數(shù)據(jù)分析帶來革命性的變化,并且有助于提高臨床診斷效率。
2.2.2 在甲基化檢測中的應用
在細菌的基因組中可以看出,甲基化類型包括N6-甲基腺嘌呤(m6A)和5-甲基胞嘧啶(m5C)[17]等。XIAO 等[18]通過SMRT 對人類DNA-m6A 進行了研究,證實了人類基因組中m6A 存在甲基化,并首次獲得了中國DNA-m6A 修飾圖。FANG 等[19]利用SMRT技術成功檢測了致病性大腸桿菌基因組中的m6A 和m5C 位點信息,并評估了各修飾位點的甲基化率。SATOU 等[20]通過對8株幽門螺旋桿菌(Helico-Bacter Pylori)進行全基因組測序,從頭組裝得到了8個完整的重疊群,并且毒力因子相關的表觀遺傳修飾區(qū)域被獲得的甲基化信息識別。
2.3.1 全長轉錄組測序
RNA 測序技術(RNA-Seq)的發(fā)展大大提高了基因表達的定量效果,然而這個方法的主要局限性之一是由于讀長很短,所以根本無法解析最復雜的基因或包含許多類似轉錄本形式的基因家族的結構[21]。
Iso-Seq 是基于SMRT 測序技術,憑借超長讀長的優(yōu)勢,在不中斷RNA 分子的情況下,可以獲得從5’末端到3’PolyA 尾巴的高質量全長轉錄本,從而可以對同源的異構體、選擇性剪接、融合的基因、同源的基因、超家族的基因和等位基因的表達進行準確分析,而且Iso-Seq 允許在不使用參考基因組的情況下直接測序10 KB 以下的轉錄本[5]。2.3.2 在RNA 測序中的應用
生活中普遍存在的微生物在相關RNA 測序中被研究。LIAN 等[22]應用第三代單分子測序讀長RNA 測序和短讀長RNA 從頭組裝測序序列野生型和紫杉醇耐藥型對人類乳腺癌細胞的RNA 進行測序,并揭示了紫杉醇抵抗乳腺癌的新目標。
2.3.3 在表觀遺傳學領域的應用
在表觀遺傳學方面,HIRAOKA 等利用SMRT 揭示了日本琵琶湖微生物群落的“宏表觀基因組”[23],并從不同的細菌和古菌中重建了19 個基因組草圖,DNA 化學修飾分析顯示22 個甲基化修飾,其中9 個是之前沒見過的,說明后表觀基因組學是鑒定原核生物DNA 甲基化的有效方法。
總的來說,雖然這些測序需要更多病毒和更多場景進行更廣泛的驗證,但這項新技術將在不久的將來改變診斷的方式。
微生物資源作為生物技術創(chuàng)新的重要來源,對生命科學的基礎研究和生態(tài)經(jīng)濟的發(fā)展具有重要意義,對其各種各樣的研究有利于微生物資源的充分開發(fā)和利用。微生物群落的多樣主要包括物種多樣性、遺傳多樣性和功能多樣性[24],在環(huán)境、能源、食品與人體健康等諸多領域有著廣泛的研究與應用。
2.4.1 在16S/18S rRNA 中的應用
16S rRNA 基因在細菌和古細菌中普遍存在,具有多個拷貝數(shù),其總長度大概為1 500 bp。有9 個可隨時變化的區(qū)域和10 個不變的區(qū)域交替組成該結構。18S rRNA 基因在所有真核微生物中均有發(fā)現(xiàn),序列長度為1 500~2 000 bp。目前,微生物系統(tǒng)發(fā)育研究和分類鑒定中最常用的分子標記是16S/18S rRNA 基因。SMRT 測序技術的數(shù)據(jù)是結合了16S RNA 和18S RNA,獲得更多的16S RNA 和18S RNA 全長序列[25]。
當微生物研究處在較為復雜的環(huán)境情況下,SMRT測序技術的優(yōu)點已被研究員反復驗證。MOSHER 等[26]通過不斷改進PacBio 的RS 系統(tǒng)和SMRT 平臺技術,提高了16S rRNA 基因擴增的準確性,將環(huán)境微生物鑒定到種水平是有希望的。
2.4.2 在細菌/真菌基因組學中的應用
在微生物蛋白質組學的研究中,有參考基因組的微生物數(shù)量遠低于總體微生物量,除了微生物凈化栽培困難,另一部分原因是第二代測序讀長短,很難解決細菌/真菌基因組組裝的高重復、高GC 區(qū)域問題。第三代測序技術以超長讀長和無GC 偏好克服了上述部分問題,在單個細菌/真菌的基因組組裝方面取得了重大突破。
隨著第三代測序平臺的完善和升級,測序通量的不斷提高,第三代測序技術在基因組研究中的研究已逐步從小基因組擴展到大基因組。
2.4.3 在宏基因組中的應用
宏基因組測序是指直接從臨床或環(huán)境樣本中提取所有微生物核酸,構建宏基因組測序文庫,并進行測序。
對于環(huán)境樣品,如土壤、海水中復雜的微生物群落,以及人類口腔、糞便、腸道等中的樣品,應用SMRT測序技術發(fā)現(xiàn)樣品中一些不可培養(yǎng)或難以培養(yǎng)的微生物物種,在復雜樣品中發(fā)現(xiàn)未知或罕見的微生物物種[27]。
隨著分子生物學和科學技術的不斷發(fā)展進步,高通量測序技術在短短20 年的時間里取得了長足的進步。全基因組/轉錄組等核酸相關組學測序技術在不久的將來會逐漸進入各個分子生物學實驗室以供研究人員學習和應用。高通量測序技術帶來的基因組學、轉錄組學等領域研究思路的轉變將為蛋白質組學和代謝組學奠定基礎,共同成為在系統(tǒng)微生物學發(fā)展中的基石,可有效幫助揭開微生物功能的詭秘面紗。在有SMRT 高通量測序技術幫助的情況下,研究者可以更全面、準確、直觀地發(fā)現(xiàn)微生物基因組與轉錄組等其他組學之間的細微差異,方便探究微生物的生命及進化的痕跡,更好地了解微生物世界。
盡管現(xiàn)階段高通量測序平臺仍存在一定假陽性率的問題,而且測序價格偏高,但相信在未來隨著技術的不斷迭代,測序成本及價格會更加親民,就如同現(xiàn)在的NGS 測序一樣走進更多科研工作者的試驗室。況且現(xiàn)在SMRT 高通量測序以其獨特優(yōu)勢,已經(jīng)在微生物病原體檢測診斷、臨床病原體感染診斷、疾病相關微生物病原診斷、遺傳疾病檢測、生命環(huán)境微生物篩選鑒定、環(huán)境微生物篩選鑒定、工農業(yè)發(fā)酵生產有效微生物篩選鑒定等方面嶄露頭角,為相關學科的研究提供了新的思路和新方法。相信未來SMRT 高通量測序技術也將在許多領域發(fā)揮作用,為人類探索自然生命奧秘提供更多幫助。