王東帥, 師丹陽(yáng), 金 敏
(軍事科學(xué)院軍事醫(yī)學(xué)研究院環(huán)境醫(yī)學(xué)與作業(yè)醫(yī)學(xué)研究所,天津市環(huán)境與食品安全風(fēng)險(xiǎn)監(jiān)控技術(shù)重點(diǎn)實(shí)驗(yàn)室,天津,300050)
自從17世紀(jì)Leeuwenhoek使用自制顯微鏡發(fā)現(xiàn)微生物以來,經(jīng)過幾個(gè)世紀(jì)的研究,已經(jīng)發(fā)現(xiàn)了八大類幾萬種微生物。傳統(tǒng)微生物研究方法以分離培養(yǎng)純菌為主,但99%以上〔1〕的原核微生物因培養(yǎng)技術(shù)有限而無法得到。20世紀(jì)90年代后期興起的微生物基因組學(xué)研究,從對(duì)微生物完整的全基因核苷酸測(cè)序入手,在分析基因結(jié)構(gòu)的基礎(chǔ)上,認(rèn)識(shí)微生物的完整生物學(xué)功能。使用微生物基因組學(xué)研究方法,將從本質(zhì)上揭示和分析大量迄今未被認(rèn)識(shí)的微生物新的基因,以及它們所編碼的具有新功能的蛋白質(zhì)和新的基因調(diào)控元件,從而進(jìn)一步研究微生物相互之間、微生物與環(huán)境之間的關(guān)系。 微生物基因組學(xué)提供了一種新的微生物研究方法,但傳統(tǒng)的一、二代測(cè)序技術(shù)對(duì)微生物完整的全基因核苷酸測(cè)序方面存在較多缺陷,第三代測(cè)序技術(shù)因其超長(zhǎng)測(cè)序讀長(zhǎng)、直接測(cè)序、快速測(cè)序等特點(diǎn),推動(dòng)了微生物基因組學(xué)發(fā)展。
1.1 測(cè)序技術(shù)的發(fā)展1953年,Watson、Crick發(fā)現(xiàn)了DNA雙螺旋結(jié)構(gòu),人類對(duì)于遺傳信息的研究深入到分子層面,為探究隱藏在基因內(nèi)部的生物學(xué)信息,基因測(cè)序技術(shù)飛速發(fā)展。以Sanger雙鏈終止法〔2〕為代表的第一代測(cè)序技術(shù),開創(chuàng)了生命科學(xué)研究中的基因組學(xué)時(shí)代。雖然第一代測(cè)序技術(shù)優(yōu)點(diǎn)明顯(精度達(dá)99.999%、讀長(zhǎng)達(dá)1000-1500bp),但其高成本和低通量限制了其大規(guī)模應(yīng)用。21世紀(jì)初,以瑞士羅氏(Roche)的454〔3〕、美國(guó)應(yīng)用生物系統(tǒng)(ABI)的SOLID〔4〕和美國(guó)因美納(Illumina)的Solexa、Hiseq〔5〕等測(cè)序儀器為代表的第二代測(cè)序技術(shù)(Next-Generation Sequencing Technology,NGS)大幅壓縮了測(cè)序成本和測(cè)序時(shí)間,使得基因測(cè)序成功進(jìn)入高通量測(cè)序時(shí)代。但是第二代測(cè)序技術(shù)存在著儀器昂貴、讀長(zhǎng)短(250-300bp)、PCR擴(kuò)增易引入錯(cuò)配堿基等缺點(diǎn),無法滿足人們對(duì)于全基因組測(cè)序的需求。第三代測(cè)序技術(shù)以單分子測(cè)序?yàn)樘攸c(diǎn),完美解決了上述問題,其代表有美國(guó)太平洋生物科學(xué)(PacBio)的SMRT(Single-molecule Real-time sequencing)技術(shù)和英國(guó)牛津納米孔(ONT)的Nanopore技術(shù)。相對(duì)于前兩代測(cè)序技術(shù),第三代測(cè)序技術(shù)具有高效、高通量、長(zhǎng)讀長(zhǎng)等特點(diǎn),被認(rèn)為是測(cè)序技術(shù)的發(fā)展方向〔6〕,促進(jìn)了微生物基因組學(xué)的研究發(fā)展。
1.2 納米孔測(cè)序技術(shù)原理納米孔測(cè)序技術(shù)的本質(zhì)是利用電信號(hào)進(jìn)行測(cè)序〔7〕。在一層高電阻率的薄膜上鑲嵌大量蛋白質(zhì)構(gòu)成的納米孔(nanopore),薄膜兩側(cè)浸沒于離子溶液中,在膜兩側(cè)電壓作用下,離子通過納米孔從一側(cè)移動(dòng)到另一側(cè)產(chǎn)生電流。對(duì)核酸分子測(cè)序時(shí),薄膜上的接頭將待測(cè)序核酸分子引入馬達(dá)蛋白,馬達(dá)蛋白具有解螺旋和限制核酸分子通過速度兩種功能,并能與納米孔的通道蛋白結(jié)合,待測(cè)核酸分子解鏈形成單鏈分子穿過納米孔。由于四種堿基的空間構(gòu)象不同,通過納米孔時(shí)會(huì)產(chǎn)生不同的離子流波動(dòng),通過分析離子流波動(dòng)峰值就能判斷出對(duì)應(yīng)的堿基,實(shí)現(xiàn)高速實(shí)時(shí)測(cè)序。
1.3 納米孔測(cè)序技術(shù)特點(diǎn)納米孔測(cè)序技術(shù)是根據(jù)待測(cè)核酸分子通過納米孔引起的電流信號(hào)波動(dòng)而進(jìn)行測(cè)序,因此原則上其測(cè)序長(zhǎng)度沒有限制〔8〕,最新文獻(xiàn)記載的最大讀長(zhǎng)達(dá)到了2.2M〔9〕,為全基因組測(cè)序提供了可能。同時(shí),納米孔測(cè)序可以直接對(duì)DNA或RNA進(jìn)行測(cè)序〔10, 11〕,無需對(duì)樣品進(jìn)行PCR擴(kuò)增或逆轉(zhuǎn)錄,不僅節(jié)約了操作時(shí)間,也降低了測(cè)序成本。此外,納米孔測(cè)序設(shè)備簡(jiǎn)單,ONT開發(fā)的MinION測(cè)序儀重量不足100g,僅需連接電腦就能開始測(cè)序工作,且測(cè)序文庫(kù)簡(jiǎn)單易制備,具有極佳的便攜性,可在極地〔12〕、叢林〔13〕、海洋〔14〕甚至太空〔15〕等各種地點(diǎn)完成實(shí)時(shí)測(cè)序,使研究工作不再局限于傳統(tǒng)實(shí)驗(yàn)室。然而納米孔測(cè)序也存在總體測(cè)序錯(cuò)誤率高的缺點(diǎn)(約為11%〔16〕),主要是由插入和刪除堿基引起,但其測(cè)序錯(cuò)誤隨機(jī)發(fā)生,可通過增加覆蓋度來降低錯(cuò)誤率,經(jīng)糾正后的測(cè)序正確率可達(dá)99.8%〔8〕。
2.1 環(huán)境微生物種群分布的快速識(shí)別在微生物組學(xué)研究中發(fā)現(xiàn),已有參考基因組的微生物數(shù)量遠(yuǎn)低于自然界存在的微生物數(shù)量,這是因?yàn)檫^去的微生物研究方法多依賴于單菌種純化培養(yǎng),2006年Sabet等〔17〕在北美的Mono湖中發(fā)現(xiàn)大量無法培養(yǎng)的微生物,揭示出以往微生物研究存在著盲區(qū)。納米孔測(cè)序無需對(duì)微生物進(jìn)行培養(yǎng),可對(duì)環(huán)境中所有微生物的全基因組進(jìn)行測(cè)序,為微生物研究開辟了新的路徑。Nicholls等〔18〕針對(duì)納米孔測(cè)序技術(shù)制定出了微生物菌群標(biāo)準(zhǔn)數(shù)據(jù)集,能通過比對(duì)樣本環(huán)境的測(cè)序結(jié)果,實(shí)現(xiàn)特定環(huán)境微生物種群分布的快速識(shí)別。利用此項(xiàng)技術(shù),Hamner等〔19〕對(duì)美國(guó)蒙大拿州一條河流中的微生物病原體進(jìn)行了快速檢測(cè),該研究結(jié)果展示了納米孔測(cè)序技術(shù)未來應(yīng)用于公共衛(wèi)生監(jiān)測(cè)的廣闊前景。
2.2 微生物種屬的精準(zhǔn)鑒定16S和18S rRNA基因分別存在于所有原核和真核生物的基因組中,16S/18S rRNA基因是目前研究微生物系統(tǒng)發(fā)育和分類鑒定的最常用的分子標(biāo)記〔20〕,其高變區(qū)能反映出微生物間的進(jìn)化差異,對(duì)16S/18S rRNA分析就能實(shí)現(xiàn)不同微生物種屬的分類鑒定。傳統(tǒng)二代測(cè)序因讀長(zhǎng)短,往往只能獲得1-2段高變區(qū)域,納米孔測(cè)序技術(shù)的長(zhǎng)讀長(zhǎng)能實(shí)現(xiàn)高變區(qū)域的全長(zhǎng)測(cè)序,實(shí)現(xiàn)混合微生物群落中微生物種屬的精確鑒定。Moon等〔21〕將納米孔16S擴(kuò)增子測(cè)序應(yīng)用于臨床診療中,從細(xì)菌性腦膜炎患者腦脊液中快速鑒定出了細(xì)菌種類,針對(duì)性應(yīng)用抗生素,提高了治療效果。Kai等〔22〕利用16S rRNA基因分析的測(cè)序方法,構(gòu)建出一套臨床致病微生物快速檢測(cè)流程,提高了臨床檢測(cè)效率。此外,納米孔測(cè)序技術(shù)還能對(duì)RNA病毒直接測(cè)序,無需進(jìn)行逆轉(zhuǎn)錄,Wongsurawat等〔10〕建立了一種RNA直接測(cè)序方案,能同時(shí)檢測(cè)多種RNA病毒。Kafetzopoulou等〔23〕利用納米孔測(cè)序技術(shù),在2018年尼日利亞爆發(fā)的拉薩熱中快速識(shí)別了致病病毒分型,有效指導(dǎo)了疫情的處置。納米孔測(cè)序技術(shù)的微生物種屬鑒定簡(jiǎn)單易操作,未來檢測(cè)技術(shù)會(huì)因此發(fā)生質(zhì)的飛躍。
2.3 微生物遺傳信息功能區(qū)的定位解析要深入研究微生物遺傳信息不同區(qū)域的功能,就必須完整表征出微生物的基因組。研究表明〔24〕,微生物基因組中的高重復(fù)區(qū)域和高GC區(qū)域?qū)τ诶斫馄浠蚪M功能至關(guān)重要,但傳統(tǒng)二代測(cè)序讀長(zhǎng)短,組裝后基因組中常存在很多缺口。納米孔測(cè)序技術(shù)的長(zhǎng)讀長(zhǎng)能實(shí)現(xiàn)基因組的無偏倚組裝〔8〕,從而更好地分析微生物遺傳信息各區(qū)域的不同功能。Somerville等〔25〕發(fā)現(xiàn),僅使用短讀長(zhǎng)的Illumina法進(jìn)行基因組組裝時(shí)容易遺漏較多區(qū)域,而具有長(zhǎng)讀長(zhǎng)特點(diǎn)的第三代測(cè)序技術(shù)能有效覆蓋遺漏區(qū)域。利用納米孔測(cè)序的長(zhǎng)讀長(zhǎng)序列組裝和二代測(cè)序技術(shù)的短讀長(zhǎng)序列糾錯(cuò),既能保證基因序列的完整性,又能保證其準(zhǔn)確性,為深入研究微生物遺傳信息不同區(qū)域的功能創(chuàng)造了條件。Moss等〔26〕開發(fā)的Lathe測(cè)序流程,結(jié)合了長(zhǎng)讀組裝和短讀糾錯(cuò)功能,在混合菌群實(shí)驗(yàn)和人類糞便實(shí)驗(yàn)中均較好的實(shí)現(xiàn)了細(xì)菌基因組組裝,可研究基因組中重復(fù)區(qū)域在微生物功能中的作用。
2.4 微生物基因組轉(zhuǎn)錄本的功能探究轉(zhuǎn)錄組學(xué)是在RNA水平上研究基因表達(dá)的情況,是研究細(xì)胞表型和功能的重要手段。納米孔測(cè)序技術(shù)的長(zhǎng)讀長(zhǎng)能夠?qū)θL(zhǎng)RNA轉(zhuǎn)錄本進(jìn)行直接測(cè)序,既減少了測(cè)序時(shí)間,也提高了測(cè)序準(zhǔn)確率,有助于微生物群落的基因表達(dá)研究。Jenjaroenpun等〔27〕對(duì)RNA直接測(cè)序,對(duì)包括非翻譯區(qū)(UTR)在內(nèi)的RNA全長(zhǎng)轉(zhuǎn)錄本進(jìn)行了測(cè)序,還鑒定了許多聚腺苷酸化非編碼RNA,包括rRNA、端粒酶RNA和長(zhǎng)鏈非編碼RNA,為深入研究微生物轉(zhuǎn)錄本提供了方法。Bolisetty等〔28〕發(fā)現(xiàn)納米孔測(cè)序技術(shù)能克服外顯子距離過大時(shí)短讀長(zhǎng)出現(xiàn)的連接性問題,可以對(duì)選擇性剪接轉(zhuǎn)錄本實(shí)現(xiàn)精確解析,全長(zhǎng)比對(duì)的平均一致性達(dá)到了90%以上。Zhang等〔29〕依據(jù)環(huán)狀RNA與線性mRNA相似性特點(diǎn),使用納米孔測(cè)序技術(shù)開發(fā)出了CIRI-long方法,通過確定一種能夠表現(xiàn)出特殊的剪接和表達(dá)模式的新型內(nèi)含子自連接環(huán)狀RNA,實(shí)現(xiàn)了無偏倚的重建全長(zhǎng)環(huán)狀RNA序列,為研究轉(zhuǎn)錄本的功能開創(chuàng)了新的途徑。隨著轉(zhuǎn)錄本研究的不斷深入,RNA直接測(cè)序?qū)?huì)成為未來“完整基因組時(shí)代”轉(zhuǎn)錄組分析的一項(xiàng)多功能工具。
2.5 微生物基因組修飾堿基的識(shí)別分析幾乎所有微生物基因組都涉及堿基修飾,研究微生物基因組的修飾堿基對(duì)于深入了解微生物遺傳信息有著重要意義,修飾堿基能通過影響基因表達(dá)來影響表觀遺傳信息。傳統(tǒng)測(cè)序技術(shù)的測(cè)序過程需要進(jìn)行核酸擴(kuò)增,進(jìn)而會(huì)刪除堿基修飾,納米孔測(cè)序不需要擴(kuò)增或鏈合成,可以直接檢測(cè)到單個(gè)堿基修飾,為修飾堿基的功能檢測(cè)提供了條件。Rand等〔30〕利用納米孔測(cè)序技術(shù)繪制出了胞嘧啶和腺嘌呤的甲基化圖譜框架,能夠有效定位出微生物堿基修飾中的甲基化位點(diǎn)。Simpson等〔11〕通過MinION量化了DNA堿基修飾的電流信號(hào)強(qiáng)度,實(shí)現(xiàn)了5-甲基胞嘧啶(5-mC)的快速檢測(cè)。Tourancheau等〔31〕集合了大量細(xì)菌數(shù)據(jù)構(gòu)建出了微生物甲基化檢測(cè)標(biāo)準(zhǔn)數(shù)據(jù)集,能夠?qū)ξ⑸锘蚪M甲基化快速鑒定,為研究微生物基因組修飾堿基的功能提供了條件。
近年來,微生物基因組學(xué)研究成為生命科學(xué)研究的一個(gè)熱點(diǎn),而對(duì)微生物基因組學(xué)的深入研究和認(rèn)識(shí)得益于測(cè)序技術(shù)的快速發(fā)展。納米孔測(cè)序技術(shù)的出現(xiàn)實(shí)現(xiàn)了很多技術(shù)上的突破:(1)全基因組測(cè)序無需對(duì)微生物進(jìn)行純化和培養(yǎng),使微生物種群分布檢測(cè)更加簡(jiǎn)單、全面;(2)直接的RNA測(cè)序,不僅能快速實(shí)現(xiàn)RNA病毒的檢測(cè),也可以依托16S/18S rRNA靶向測(cè)序?qū)崿F(xiàn)微生物種屬快速鑒定;(3)直接RNA測(cè)序還能實(shí)現(xiàn)微生物轉(zhuǎn)錄本直接測(cè)序研究,為研究微生物基因表達(dá)開辟了新途徑;(4)超長(zhǎng)讀長(zhǎng)使微生物基因檢測(cè)更加連貫,更容易發(fā)現(xiàn)微生物遺傳信息序列中的功能區(qū),為基因組功能區(qū)的定位和解析創(chuàng)造條件;(5)全長(zhǎng)測(cè)序可以避免核酸擴(kuò)增,能夠直接對(duì)基因組堿基修飾進(jìn)行測(cè)序分析,為表觀遺傳學(xué)研究提供了方法。
然而,納米孔測(cè)序仍然存在一些局限性,如堿基錯(cuò)誤率高和生物信息軟件不足等。雖然納米孔測(cè)序的錯(cuò)誤率很高,但是通過增加覆蓋度(30X或更高)能夠明顯降低錯(cuò)誤率,糾正后錯(cuò)誤率由11%〔16〕可降至0.2%以下〔8〕。此外,納米孔測(cè)序技術(shù)常與傳統(tǒng)的第二代測(cè)序技術(shù)結(jié)合使用,即利用納米孔測(cè)序讀全,利用第二代測(cè)序校準(zhǔn),提高測(cè)序準(zhǔn)確性。另一個(gè)重要限制因素是生物信息軟件不夠豐富,納米孔測(cè)序數(shù)據(jù)的計(jì)算需要大量的數(shù)據(jù)存儲(chǔ)和計(jì)算成本。近年來,大量新技術(shù)應(yīng)用到測(cè)序數(shù)據(jù)分析中來,新的下游校正軟件、變量調(diào)節(jié)軟件、可視化工具等,都有效提高了數(shù)據(jù)處理能力〔32〕,進(jìn)一步提高了測(cè)序的準(zhǔn)確性〔33〕。
相信在不久的將來,納米孔測(cè)序技術(shù)的應(yīng)用范圍和應(yīng)用規(guī)模會(huì)越來越大,基于納米孔測(cè)序技術(shù)的微生物基因組學(xué)研究能夠獲得更高質(zhì)量的基因測(cè)序結(jié)果,進(jìn)而促進(jìn)人們對(duì)生命科學(xué)的進(jìn)一步了解,推動(dòng)公共衛(wèi)生和醫(yī)學(xué)領(lǐng)域的全面發(fā)展。