王玉靜,陸梓涔,陳俊煜,陳毅歆,*,尤瑞孌
(1.廈門大學(xué)公共衛(wèi)生學(xué)院,分子疫苗學(xué)和分子診斷學(xué)國家重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361102;2.廈門大學(xué)生命科學(xué)學(xué)院,國家傳染病診斷試劑與疫苗工程技術(shù)研究中心,福建 廈門 361102;3.廈門國際旅行衛(wèi)生保健中心,福建 廈門 361100)
測序技術(shù)的出現(xiàn),直觀而深刻地揭露了核酸分子的深層信息,為人類進(jìn)一步探索基因結(jié)構(gòu)與功能提供了決定性的技術(shù)手段.高通量測序在過去約20年中得到了迅猛的發(fā)展,也成功實(shí)現(xiàn)了商業(yè)化,與之相關(guān)的基礎(chǔ)應(yīng)用、科研探究以及臨床應(yīng)用隨之大幅增加[1].隨著“精準(zhǔn)醫(yī)療”概念的提出,臨床應(yīng)用上對(duì)高通量測序的需求越來越大,病原學(xué)診斷、檢測與遺傳病、腫瘤等疾病的精準(zhǔn)診斷等應(yīng)用領(lǐng)域?qū)Ω咄繙y序技術(shù)的要求也越來越高.而在高通量測序技術(shù)出現(xiàn)之后,發(fā)生的幾次世界性范圍的傳染性疫情中,高通量測序技術(shù)也逐漸扮演起重要的角色[2].高通量測序技術(shù)作為精準(zhǔn)醫(yī)療的重要基石,對(duì)精準(zhǔn)醫(yī)療做出了極大的貢獻(xiàn),在臨床相關(guān)的病原微生物檢測、臨床腫瘤學(xué)、16SrRNA基因以及內(nèi)轉(zhuǎn)錄組間隔區(qū)(internal transcribed spacer,ITS)測序、遺傳疾病檢測、傳染病監(jiān)測以及新型病毒的發(fā)掘等方面發(fā)揮出優(yōu)勢[3].高通量測序技術(shù)的發(fā)展歷程、不同平臺(tái)的特點(diǎn)、測序原理的差異以及不同領(lǐng)域的應(yīng)用都是受到較多關(guān)注的焦點(diǎn).本文將對(duì)以上關(guān)注焦點(diǎn)進(jìn)行介紹與討論,同時(shí)對(duì)高通量測序技術(shù)在臨床檢測中的應(yīng)用進(jìn)行詳細(xì)闡述.
Frederick Sanger于1975年發(fā)明了“雙脫氧鏈終止法”基因測序技術(shù),這是科學(xué)史上出現(xiàn)的第一種基因測序技術(shù)[4];另一種基因測序技術(shù)是1977年Walter Gilbert發(fā)明的“化學(xué)測序法”[5].這兩種測序技術(shù)均作為一代測序的標(biāo)志性技術(shù)而廣泛應(yīng)用,其中雙脫氧鏈終止法因操作更簡便穩(wěn)定而被更廣泛應(yīng)用.在過去的20年內(nèi),基因測序技術(shù)有了較大的進(jìn)步與發(fā)展,一代測序仍然穩(wěn)定占據(jù)部分市場,二代測序、三代測序也快速占據(jù)了較大的市場份額,基因測序技術(shù)在規(guī)模、通量以及應(yīng)用上都有了極大的發(fā)展.一代測序雖然在過去50年內(nèi)占據(jù)著極大的市場,然而其存在通量低、數(shù)據(jù)產(chǎn)出較低以及成本較高等問題,雖然目前有著不可取代的地位,但是仍然無法滿足當(dāng)前分子生物學(xué)、醫(yī)學(xué)研究以及臨床診斷對(duì)于高通量、高效率、高產(chǎn)出的測序需求.二代測序相對(duì)于一代測序而言準(zhǔn)確率略微降低,但通量和產(chǎn)出增加,可以實(shí)現(xiàn)同時(shí)對(duì)多個(gè)樣本進(jìn)行測序,單位時(shí)間內(nèi)的數(shù)據(jù)產(chǎn)出量相比于一代測序?qū)崿F(xiàn)了數(shù)量級(jí)的增長.自2005年第一臺(tái)二代測序儀器羅氏(Roche)454焦磷酸測序平臺(tái)誕生以來,隨后陸續(xù)推出的二代測序技術(shù)平臺(tái)包括:2006年Illumina公司推出的Solexa測序平臺(tái)、2007年美國ABI公司推出的SOLiD測序平臺(tái)和2010年美國Life Technologies公司推出的半導(dǎo)體測序平臺(tái)[6],各占據(jù)一定的市場份額.其中454 Life Science后來被Roche公司收購,但由于二代測序市場的競爭日趨激烈以及較新的測序方法出現(xiàn),該測序方法被逐漸淘汰.2013年Roche公司宣布關(guān)閉454測序業(yè)務(wù),并于2016年全面終止相關(guān)服務(wù),454測序儀被市場淘汰.2008年Invitrogen公司和美國ABI公司合并成立Life Technologies公司,開始發(fā)展半導(dǎo)體測序,占據(jù)了部分測序市場,隨之SOLiD測序也逐漸淡出市場.2006年開始Illumina公司進(jìn)入了二代測序市場,且在此后的10年時(shí)間內(nèi),Illumina公司占據(jù)了大部分測序市場,于2010年開始陸續(xù)推出的Hiseq系列測序儀,更是迅速成為二代測序平臺(tái)中的主流測序平臺(tái).
作為中國高通量測序的先驅(qū),華大基因于2014年推出首款二代測序儀——BGISEQ-1000,繼而在2016年陸續(xù)推出了BGISEQ-500等型號(hào)的測序儀.該測序平臺(tái)在大規(guī)模DNA測序和小RNA分析中的能力已得到證明,但BGISEQ-500平臺(tái)在轉(zhuǎn)錄組分析中的性能仍有待提升[7].每種測序平臺(tái)都有自身特點(diǎn),在數(shù)據(jù)產(chǎn)出量、測序讀長、測序準(zhǔn)確率以及測序成本等方面各有不同的表現(xiàn)[8].
二代測序技術(shù)平臺(tái)盡管在測序通量、數(shù)據(jù)產(chǎn)出量以及應(yīng)用領(lǐng)域上相較于一代測序有顯著優(yōu)勢,但仍然存在一定的短板,如:測序讀長較短導(dǎo)致在測序過程中會(huì)產(chǎn)生大量高度碎片化的重復(fù)片段,尤其在進(jìn)行大基因組測序時(shí),測序拼接成為一個(gè)較大的挑戰(zhàn);且相較于一代測序而言,二代測序所需的測序時(shí)間顯著增加,尚不能完全滿足臨床樣本的快速診斷需要[9].在此背景下,可滿足長讀長和快速測序需要的三代測序平臺(tái)應(yīng)運(yùn)而生:2008年英國ONT公司首次推出了一款以納米孔單分子測序?yàn)樵淼臏y序儀器,但當(dāng)時(shí)該平臺(tái)還不夠穩(wěn)定,無法投入正常使用;2008年美國Helicos Bioscience公司以單分子測序(single molecule sequencing, SMS)技術(shù)為原理的Heliscope測序平臺(tái)發(fā)布上市;2009年美國Pacific Bioscience公司推出了單分子實(shí)時(shí)(single molecule real-time,SMRT)測序技術(shù);2014年英國ONT公司推出了MinION測序儀,可供用戶使用.三代測序平臺(tái)可以直接對(duì)給定的DNA或RNA模板進(jìn)行測序,實(shí)現(xiàn)了真正意義上的實(shí)時(shí)測序,當(dāng)核酸模板通過測序儀即可產(chǎn)生信號(hào).相較于前兩代測序平臺(tái),三代測序平臺(tái)主要的改善有:1) 讀長變長,可在一個(gè)反應(yīng)內(nèi)讀取成千上萬堿基的讀長,理論上可達(dá)無限長;2) 測序流程簡化,測序時(shí)間減少,在文庫構(gòu)建以及上機(jī)測序等流程上有所精簡,減少了樣本的測序時(shí)間;3) 避免了PCR擴(kuò)增技術(shù)造成的擴(kuò)增偏好;4) 可直接測定堿基上的修飾情況,如堿基甲基化[10].圖1展示了基因測序發(fā)展歷程中的里程碑事件.
圖1 測序技術(shù)發(fā)展時(shí)間軸
一代測序技術(shù)運(yùn)用多年仍然生機(jī)蓬勃,二代測序技術(shù)更是在短時(shí)間內(nèi)迅速崛起成為市場主流,并在近年來被廣泛應(yīng)用于臨床病原體鑒定診斷中[11].不同于Sanger測序,二代測序?qū)⒚复貲NA反應(yīng)、堿基測序與數(shù)據(jù)收集同步進(jìn)行,因此可以同時(shí)對(duì)數(shù)千到數(shù)十億條DNA模板進(jìn)行測序[12].以下三家公司的測序平臺(tái)因不同的測序原理在各方面存在一定差異,但由于平臺(tái)側(cè)重點(diǎn)不同,都在不同時(shí)間段成為當(dāng)時(shí)較主流的測序平臺(tái),并且側(cè)重應(yīng)用于不同領(lǐng)域.
Roche公司的454焦磷酸測序平臺(tái)是國際上第一臺(tái)相對(duì)較成熟的二代測序平臺(tái),屬于循環(huán)微陣列法平臺(tái),其測序技術(shù)基礎(chǔ)是邊合成邊測序(sequencing by synthesis,SBS)技術(shù)[13].該項(xiàng)測序技術(shù)的測序原理主要依靠熒光信號(hào)的生物發(fā)光,將模板進(jìn)行PCR擴(kuò)增后,與相應(yīng)的引物雜交,并與三磷酸腺苷雙磷酸酶、DNA聚合酶、ATP硫酸化酶、熒光素酶、底物熒光素酶和5’-磷酸硫腺苷共同孵育,然后進(jìn)行相應(yīng)的酶促反應(yīng);在每次實(shí)時(shí)測序?qū)嶒?yàn)中,模板只與一種脫氧核糖核苷三磷酸(dNTP)進(jìn)行配對(duì)反應(yīng),在此酶促反應(yīng)中,DNA聚合酶以該dNTP作為原料合成互補(bǔ)鏈,會(huì)釋放出等物質(zhì)的量的焦磷酸基團(tuán)[13].
454測序技術(shù)的主要優(yōu)勢在于測序時(shí)間較短,且準(zhǔn)確率較高(可達(dá)99%),在單位時(shí)間內(nèi)產(chǎn)生的片段數(shù)量多.該測序平臺(tái)在一次測序工作中可以產(chǎn)生100萬條序列,序列的平均長度400 bp,數(shù)據(jù)總量約500 M.454測序平臺(tái)已經(jīng)被應(yīng)用到多個(gè)方面,均取得了較理想的結(jié)果.454 Life Sciences被Roche公司收購后,Roche公司在454測序測序平臺(tái)的基礎(chǔ)上又相繼推出GS FLX平臺(tái)[14],由于后期二代測序市場上新的測序方法不斷更迭以及該平臺(tái)的測序成本較高等原因,該測序平臺(tái)已于2016年宣布全面停止相關(guān)的測序服務(wù).
Illumina測序儀也稱為Solexa分析儀,其測序原理與Sanger測序法類似,將合成核酸的原料dNTP用4種不同的熒光進(jìn)行標(biāo)記,并偶聯(lián)可逆的終止劑,固相基質(zhì)上可以容納數(shù)百萬的模板克隆,每個(gè)固相基質(zhì)上可以同時(shí)讀取10億個(gè)堿基.2005年Solexa公司收購合并了儀器公司Lynx Therapeutics,新公司成功地將Solexa原型轉(zhuǎn)化為商業(yè)測序儀器,2006年推出第一個(gè)Solexa測序儀——Genome Analyzer.該測序平臺(tái)具有高精準(zhǔn)度、高靈敏度、高特異性以及相對(duì)較低成本的特點(diǎn),并在2010年成功推出Hiseq系列測序儀,目前在遺傳疾病分析、腫瘤癌癥檢測以及功能基因組測序等領(lǐng)域占據(jù)主要的測序市場.Illumina Hiseq系列測序儀具有PE150的讀長,相較于該系列其他測序儀讀長較長,其優(yōu)勢主要在于其測序精準(zhǔn)度最高可達(dá)99.9%,而且相較于其他二代測序平臺(tái)測序成本較低,但該系列也有相應(yīng)的缺點(diǎn)——序列讀長較短[15].
2006年7月,美國ABI公司推出SOLiD測序平臺(tái),該平臺(tái)基本原理的特點(diǎn)在于每一步測序反應(yīng)都是通過連接反應(yīng)完成的,通過PCR反應(yīng)進(jìn)行平行擴(kuò)增測序.SOLiD測序平臺(tái)支持兩種測序文庫:一種是與Illumina測序平臺(tái)的文庫構(gòu)建類似,均先將DNA模板片段化,在片段的DNA模板兩端加上接頭,即成功構(gòu)建文庫;另一種是配對(duì)末端文庫,依靠酶切反應(yīng)加上接頭,成功構(gòu)建文庫[16].2010年末ABI公司發(fā)布了第五代測序系統(tǒng)——SOLiD 5500xl測序系統(tǒng),該系統(tǒng)在讀長、精準(zhǔn)度以及數(shù)據(jù)產(chǎn)出量上都實(shí)現(xiàn)了較大進(jìn)步,分別達(dá)到85 bp,99.99%和30 G,在未退出市場前,曾是二代測序平臺(tái)中精準(zhǔn)度最高的平臺(tái)[16].
2008年在Life Technologies公司收購Ion Torrent公司之后,開始陸續(xù)推出Ion PGM和Ion Proton系列測序儀,且是該公司目前主推的測序儀,因此SOLiD測序平臺(tái)逐漸淡出市場.2010年Life Technologies公司發(fā)布Ion PGM測序儀,目前有3款芯片并在不斷改進(jìn),測序通量也在不斷增加;2012年發(fā)布Ion Proton測序儀,拓展了該系列測序儀在更多領(lǐng)域的應(yīng)用.2013年Life Technologies公司又被Thermo Fisher公司收購;2015年9月1日發(fā)布新產(chǎn)品S5系列Ion S5/the S5 XL,是Proton和PGM相結(jié)合產(chǎn)生的產(chǎn)品,相較于Proton,PGM新系列更加容易操作,且節(jié)省了較多的測序時(shí)間[3].
多種不同的二代測序平臺(tái)在不同方面也有不同的表現(xiàn).其中羅氏454測序儀作為最早問世的二代測序儀,讀長較長,運(yùn)行較快,然而檢測成本較高,設(shè)備較大,可及性不高,且錯(cuò)誤率也相對(duì)較高,目前在測序市場中已經(jīng)停產(chǎn);Illumina測序儀作為目前市場上應(yīng)用最廣泛的二代測序儀,讀長較短,運(yùn)行較慢,成本也相對(duì)較高,設(shè)備較大,對(duì)于實(shí)驗(yàn)人員要求較高,但測序錯(cuò)誤率較低,適用于全基因組測序和宏基因組測序,應(yīng)用領(lǐng)域廣泛[7];SOLiD測序儀也是曾經(jīng)較常見的二代測序儀,測序準(zhǔn)確率較高,然而讀長較短,運(yùn)行較慢,常用于外顯子測序和基因突變測序,目前也已淡出市場[12].
隨著二代測序平臺(tái)的成功應(yīng)用,三代測序平臺(tái)開始陸續(xù)推出.不同于二代測序平臺(tái)的部分特點(diǎn),三代測序在讀長上進(jìn)行了更大改善,測序時(shí)間也相應(yīng)減少,測序流程更簡便,測序設(shè)備更便攜,測序成本更低.三代測序不依賴于PCR擴(kuò)增技術(shù),其最大特點(diǎn)就是SMS技術(shù)[17].目前市面上出現(xiàn)的SMS平臺(tái)分別為美國Heliscope BioScience公司的SMS技術(shù)[17]、美國Pacific Bioscience公司的SMRT技術(shù)[18]、VisiGen Biotechnologies公司的熒光共振能量轉(zhuǎn)移(fluorescence resonance energy transfer,FRET)技術(shù)[19]以及英國ONT公司推出的納米孔SMS技術(shù)[10].
2008年,美國Helicos Bioscience公司推出HeliScope單分子測序平臺(tái),是繼二代測序平臺(tái)之后出現(xiàn)的第一個(gè)可以商品化應(yīng)用的三代測序儀,其測序的主要原理是一種基于光學(xué)信號(hào)的SBS技術(shù),但不同于二代測序的是該方法不依賴于PCR擴(kuò)增技術(shù),先隨機(jī)將待測模板進(jìn)行打斷與篩選,在對(duì)片段化模板進(jìn)行末端修復(fù)之后在片段3’-末端連接上50 bp結(jié)合有熒光標(biāo)記的poly(A)尾巴,含接頭的文庫可以通過末端poly(A)尾巴結(jié)合固定在固相基質(zhì)的Oligo d(T)探針上,類似于Solexa測序,該方法也需要將熒光染料標(biāo)記的4種dNTP依次加入微反應(yīng)中,在DNA聚合酶的催化反應(yīng)下,通過堿基互補(bǔ)配對(duì)釋放出相應(yīng)的熒光信號(hào),最后依靠增強(qiáng)型電荷耦合元件(intencified charge coupled device,ICCD)相機(jī)進(jìn)行光學(xué)信號(hào)的收集[16],在測序上避免了擴(kuò)增時(shí)引入的堿基錯(cuò)配以及擴(kuò)增偏好性.該測序方法也存在相應(yīng)的不足,就是對(duì)于光學(xué)信號(hào)收集的設(shè)備要求較高,并且在測序過程中由于信號(hào)較弱容易產(chǎn)生測序誤差,導(dǎo)致準(zhǔn)確率降低;因此該平臺(tái)為提高精準(zhǔn)度采取了兩次測序(two-pass sequencing),增加了測序成本[20].然而由于該平臺(tái)初始讀長較短,約32 bp,且測序成本較高,測序準(zhǔn)確率較低,錯(cuò)誤率高達(dá)1%,所以該測序平臺(tái)并未得到廣泛的應(yīng)用,2012年底Helicos正式申請(qǐng)破產(chǎn)保護(hù).
美國Pacific Bioscience公司推出的SMRT測序技術(shù)是目前三代測序平臺(tái)中應(yīng)用最廣泛的一項(xiàng)測序技術(shù).SMRT測序技術(shù)相較于其他測序技術(shù)而言有較大的優(yōu)勢,該方法同樣基于對(duì)單個(gè)DNA分子進(jìn)行測序,采用4種熒光標(biāo)記的dNTP以及零級(jí)波導(dǎo)(zero-mode waveguide,ZMW)的納米結(jié)構(gòu)作為測序技術(shù)的主要基礎(chǔ).ZMW這種納米結(jié)構(gòu)是一種孔狀納米光電結(jié)構(gòu),光線在通過ZMW后會(huì)呈現(xiàn)指數(shù)級(jí)衰減,被衰減的光線最終只能使孔內(nèi)靠近基質(zhì)的部分被照亮;ZMW作為測序的微反應(yīng)器,會(huì)提前在微反應(yīng)器中結(jié)合測序反應(yīng)所需要的phi29 DNA聚合酶;在構(gòu)建文庫時(shí),將待測模板與引物結(jié)合,混合4種熒光標(biāo)記的dNTP一同加入微反應(yīng)器ZMW中;測序反應(yīng)過程中,待測模板DNA以4種熒光標(biāo)記的dNTP作為原料進(jìn)行合成時(shí),所連接的dNTP會(huì)因反應(yīng)而在ZMW底部短暫停留,熒光收集設(shè)備則可以收集到配對(duì)dNTP的熒光信號(hào),從而實(shí)現(xiàn)測序[21].該平臺(tái)在讀長上實(shí)現(xiàn)了較大的突破,其中PacBio RSⅡ測序平臺(tái)最長讀長能夠達(dá)到30 kb,平均讀長約8.5 kb,且該平臺(tái)也具有三代測序平臺(tái)普遍共有的優(yōu)勢——測序流程更簡便,構(gòu)建文庫時(shí)間縮短,且不依賴于PCR擴(kuò)增技術(shù).然而與SMS技術(shù)類似,該測序技術(shù)同樣依賴于單分子產(chǎn)生的熒光信號(hào)進(jìn)行測序,因此測序的準(zhǔn)確率偏低,最高僅可達(dá)到87.5%;盡管通過增加測序次數(shù)以及后期數(shù)據(jù)分析矯正,準(zhǔn)確率可以提高,但是相對(duì)于Sanger測序以及二代測序,準(zhǔn)確率仍然較低[21].
2014年,英國ONT公司推出了第一個(gè)商用的測序平臺(tái)——MinION,該測序平臺(tái)的主要測序原理是基于待測模板通過生物納米孔時(shí)不同堿基產(chǎn)生的不同電位差而實(shí)現(xiàn)電信號(hào)向堿基信號(hào)的轉(zhuǎn)變.Nanopore測序系統(tǒng)主要由納米孔、薄膜以及馬達(dá)蛋白組成,其中馬達(dá)蛋白是一種DNA解旋酶,在構(gòu)建文庫時(shí),馬達(dá)蛋白與接頭會(huì)一同連接在待測模板的一端;當(dāng)將制備好的文庫滴加到納米孔上時(shí),馬達(dá)蛋白通過解旋作用將雙鏈DNA變?yōu)閱捂溚ㄟ^納米孔;A、T、C、G 4個(gè)堿基通過納米孔產(chǎn)生不同的電位差,這種電信號(hào)會(huì)被傳導(dǎo)電子元件(application-specific integrated circuit,ASIC)以及MinKNOW軟件接受并進(jìn)行初級(jí)處理[22].該測序平臺(tái)的序列讀長與PacBio測序平臺(tái)相似,達(dá)10 kb,理論上可達(dá)無限長.然而相較于PacBio測序平臺(tái),MinION測序平臺(tái)的錯(cuò)誤率更高,準(zhǔn)確率僅65%~88%.
前期使用9.4版本芯片或者其他版本芯片F(xiàn)low cell進(jìn)行測序時(shí),測序準(zhǔn)確率非常低,僅約90%;后續(xù)平臺(tái)推出9.5版本Flow cell芯片并且采用1D2(DNA正反鏈測序,相互矯正)建庫方式,在一定程度上提升了測序準(zhǔn)確率[23].
FRET測序平臺(tái)在對(duì)樣本核酸進(jìn)行測序時(shí),測序過程中4種脫氧核苷酸分子被4種不同的熒光受體所標(biāo)記,隨著測序引物延伸,4種不同的熒光受體會(huì)發(fā)出特異的熒光,不同的熒光分別代表不同的4種脫氧核苷酸分子.該測序平臺(tái)由VisiGen Biotechnologies公司研發(fā)并推出,讀長較長,平均讀長在1 500 bp以上,測序準(zhǔn)確率相對(duì)于其他三代測序平臺(tái)較高,并且測序時(shí)長較短;但該平臺(tái)因?yàn)槿狈唧w應(yīng)用的技術(shù)參數(shù),所以并未得到廣泛應(yīng)用[19].
由于不同測序平臺(tái)之間的測序原理與建庫方式等有較大的不同,各測序平臺(tái)側(cè)重應(yīng)用的領(lǐng)域也不盡相同,且不同測序平臺(tái)的測序成本、測序時(shí)間以及測序準(zhǔn)確率也有一定差異(表1).三代測序平臺(tái)的讀長都較長,且不依賴于PCR方式構(gòu)建文庫,測序成本較低,測序時(shí)間較短;然而相對(duì)于二代測序平臺(tái),三代測序平臺(tái)的測序錯(cuò)誤率都較高,后續(xù)數(shù)據(jù)處理分析非常依賴于處理軟件與數(shù)據(jù)庫的選擇與使用.三代測序平臺(tái)中,英國ONT公司的Nanopore測序儀對(duì)實(shí)驗(yàn)人員要求較小,可及性極高.對(duì)于目前的三代測序平臺(tái)而言,如何提高測序的準(zhǔn)確率是較受關(guān)注的方面.目前主流三代測序公司均在測序設(shè)備穩(wěn)定性以及后續(xù)數(shù)據(jù)處理分析上進(jìn)行了很大的改進(jìn)與完善.
表1 三代測序平臺(tái)對(duì)比
Sanger測序作為傳統(tǒng)檢測方法中較典型的方法,由于該平臺(tái)測序規(guī)模的短板,其應(yīng)用的領(lǐng)域較有限.而高通量測序作為近幾年較受關(guān)注的測序技術(shù),在各大領(lǐng)域有著廣泛的應(yīng)用以及突出的效果[25],如臨床預(yù)測、診斷、治療相關(guān)領(lǐng)域.下文主要從與臨床有關(guān)的不同領(lǐng)域?qū)Ω咄繙y序的應(yīng)用(表2)進(jìn)行詳細(xì)闡述.
表2 高通量測序平臺(tái)的臨床應(yīng)用
細(xì)菌、真菌、支原體、衣原體、寄生蟲、病毒等微生物與人體的健康系統(tǒng)穩(wěn)定息息相關(guān).人體中有著由細(xì)菌、真菌、病毒等微生物組成的龐大與復(fù)雜的胃腸道系統(tǒng),且人體許多疾病的發(fā)生都與微生物系統(tǒng)的失調(diào)或微生物的入侵有著極其緊密的關(guān)系,而高通量測序技術(shù)的出現(xiàn)為這些微生物菌群的鑒定檢測與研究提供了有力的技術(shù)支持[26].針對(duì)微生物病原學(xué)檢測,基于測序策略的不同,主要可以分為以下3種:全基因組測序、靶向目標(biāo)測序和宏基因組測序.
1) 全基因組測序是對(duì)未知基因組序列的物種進(jìn)行個(gè)體的基因組測序.目前二代測序和三代測序均支持對(duì)個(gè)體物種進(jìn)行全基因組測序,對(duì)于微生物的全基因組測序,可以準(zhǔn)確從科、屬、種水平上對(duì)樣本中的微生物進(jìn)行鑒定分析;并且可以根據(jù)對(duì)耐藥基因和毒力基因的比對(duì)分析預(yù)測該種微生物的耐藥情況以及預(yù)后情況;最重要的是,在發(fā)掘出罕見或者未知的微生物方面,全基因組測序必不可少[24].
Zhou等[27]基于二代測序平臺(tái)以及擴(kuò)增子測序等技術(shù)對(duì)一種未知的新型病毒進(jìn)行全基因組測序,發(fā)現(xiàn)該病毒與人類冠狀病毒HKU2相似,與蝙蝠體內(nèi)寄宿的某種冠狀病毒序列一致性達(dá)98.48%.研究人員基于二代測序平臺(tái)對(duì)該新型冠狀病毒進(jìn)行全基因組測序,迅速掌握了該病毒的傳染性與毒力的分子學(xué)基礎(chǔ),研究了該病毒的衍化過程,為其治療與防控提供了有利的測序分析手段[27].Wu等[28]研究人員從武漢新冠肺炎患者的樣本中提取到新型冠狀病毒的RNA,并且通過Illumina Miseq對(duì)提取到的RNA進(jìn)行了測序及全基因組序列拼接.研究人員共得到56 565 928個(gè)讀取序列,對(duì)以上讀取序列進(jìn)行初步組裝拼接之后,形成了384 096個(gè)重疊群,其中長度最長的一個(gè)重疊群(30 474 bp)具有較高的豐度,與一株從蝙蝠分離得到的bat SL-CoVZC45的基因序列一致性達(dá)89.1%[28].可見二代測序平臺(tái)在新病毒發(fā)現(xiàn)上有很大的潛力,對(duì)于流行性疾病的診斷與治療有重大意義.
在新發(fā)傳染病未知病原體的發(fā)掘、微生物耐藥性分析方面,Illumina測序平臺(tái)相對(duì)而言使用較為廣泛并且表現(xiàn)良好,其中未知病原體的全基因組測序目前主要依靠Illumina Miseq等測序儀完成,該測序儀在迅速、精準(zhǔn)、高效獲取病原體基因以及基因比對(duì)分析方面有著較好的表現(xiàn).
2) 靶向目標(biāo)測序是指對(duì)某物種的某特定區(qū)域或某特定功能的基因進(jìn)行靶向測序.對(duì)于臨床微生物病原學(xué)檢測來說,主要集中于對(duì)細(xì)菌的16SrRNA基因進(jìn)行靶向目標(biāo)測序.16SrRNA基因是原核生物所特有的基因片段,由于該基因片段在細(xì)菌中普遍存在,既具有相對(duì)保守的區(qū)域又有高度可變的區(qū)域,所以經(jīng)常被用作細(xì)菌鑒定分類的標(biāo)準(zhǔn)[29].根據(jù)16SrRNA基因序列的保守區(qū)設(shè)計(jì)相應(yīng)的引物,對(duì)可變區(qū)進(jìn)行靶向擴(kuò)增,并基于高通量測序平臺(tái)對(duì)可變區(qū)進(jìn)行靶向目標(biāo)測序,后期借助生物信息學(xué)分析手段對(duì)樣本中細(xì)菌進(jìn)行精準(zhǔn)的種屬鑒定.類似地,針對(duì)真菌的ITS靶向目標(biāo)測序也可以對(duì)真菌進(jìn)行精準(zhǔn)的鑒定與分類.針對(duì)16SrRNA基因和ITS的靶向目標(biāo)測序,不僅對(duì)微生物可以進(jìn)行準(zhǔn)確的科、屬、種鑒定分析,還可以從序列信息中得到毒力基因信息,為抗生素藥物的耐藥性、代謝等臨床學(xué)和流行病學(xué)研究提供一定的幫助.
Schloss等[30]通過PacBio SMS技術(shù)對(duì)16SrRNA基因進(jìn)行測序,將從社區(qū)和自然環(huán)境中獲取的人糞便樣本、老鼠糞便樣本以及土壤樣本進(jìn)行混合,并對(duì)樣本進(jìn)行相應(yīng)的靶向測序,主要獲取并分析了V4、V3~V5、V1~V3、V1~V5、V1~V6以及V1~V9等可變區(qū)的測序數(shù)據(jù);基于數(shù)據(jù)分析處理方式將該測序平臺(tái)對(duì)16SrRNA基因中的可變區(qū)V1~V9的測序錯(cuò)誤率從0.69%降低至0.027%.在對(duì)物種多樣性、微生物組成和微生物進(jìn)化開展的研究中,種屬鑒定的精準(zhǔn)度再次提升.
3) 宏基因組測序是指從臨床樣本或者環(huán)境樣本中直接提取全部微生物的核酸,構(gòu)建宏基因組測序文庫并進(jìn)行測序.該方法不需要進(jìn)行菌株分離培養(yǎng),因此很大程度地避免了分離效率低和靈敏度低的問題.針對(duì)環(huán)境樣本(如土壤、海水等中復(fù)雜的微生物群落)以及人體口腔、糞便、腸道等部位的樣本,通過宏基因組測序可發(fā)現(xiàn)樣本中一些無法培養(yǎng)或難以培養(yǎng)的微生物種類,發(fā)掘復(fù)雜樣本中未知的罕見微生物種類[31].
Salipante等[32]發(fā)現(xiàn)一名男子臨床癥狀為左下葉肺炎,口腔分泌物增加,有多個(gè)組織壞死,前期抗生素治療方案效果不明顯;研究人員基于Illumina Miseq測序儀對(duì)患者肺泡灌洗液樣本進(jìn)行宏基因組測序,并對(duì)測序數(shù)據(jù)進(jìn)行較完善的處理分析,包括使用PANDAseq對(duì)配對(duì)的短序列進(jìn)行組裝拼接,通過USEARCH v6軟件對(duì)拼接全長進(jìn)行讀取比對(duì),將所得組裝好的數(shù)據(jù)片段與核糖體數(shù)據(jù)庫項(xiàng)目(the Ribosomal Database Project)中具有較為典型、代表性的數(shù)據(jù)庫序列進(jìn)行比對(duì)分類,使用DeeNuRP和Taxtastic對(duì)數(shù)據(jù)進(jìn)行過濾與注釋;通過對(duì)患者樣本的宏基因組測序,發(fā)現(xiàn)樣本中存在核粒梭形桿菌(Fusobacteriumnucleatum)和假單胞菌(Pseudomonasadaceae)等,并在之后細(xì)菌培養(yǎng)實(shí)驗(yàn)結(jié)果得到驗(yàn)證.
臨床微生物病原學(xué)的診斷檢測具有十分重大的意義,臨床上對(duì)于微生物相關(guān)的研究與檢測需求也很大.除上文提到的復(fù)雜樣本的微生物種屬鑒定外,高通量測序還廣泛應(yīng)用于微生物耐藥性(antimicrobial resistance,AMR)研究中.臨床上醫(yī)院獲得性感染的細(xì)菌用藥治療一直是醫(yī)療難點(diǎn),主要是由于在長期的抗生物用藥篩選中,許多病原體通過基因突變而獲得對(duì)不同抗生素的耐藥性,給臨床治療造成了極大影響.
目前,通過高通量測序深度挖掘并組建了藥學(xué)相關(guān)的微生物組學(xué)數(shù)據(jù)庫.根據(jù)該大數(shù)據(jù)庫已經(jīng)發(fā)現(xiàn)超過60種藥物與微生物之間存在相互作用,后期高通量測序也可持續(xù)挖掘微生物的耐藥性、微生物與藥物間的相互作用,及其與人類遺傳變異的相關(guān)性[33].
初亞男等[34]等基于焦磷酸測序技術(shù)建立了一種對(duì)幽門螺旋桿菌(Helicobacterpylori)克拉霉素耐藥基因靶向性檢測的方法,在獲知耐藥情況的同時(shí)還可以基于454測序平臺(tái)進(jìn)行半定量測定,并且可以根據(jù)半定量測定結(jié)果進(jìn)行治療效果的評(píng)估.該研究中對(duì)44例臨床樣本進(jìn)行了不同方法的檢測,比較了焦磷酸測序方法、快速尿素酶實(shí)驗(yàn)和13C呼氣試驗(yàn)的靈敏度;幽門螺旋桿菌對(duì)克拉霉素的耐藥突變主要是由于其23SrRNA基因中A2142G和A2143G兩個(gè)單核苷酸多態(tài)性(SNP)位點(diǎn)的突變,通過焦磷酸測序技術(shù)可以直接檢測到這兩個(gè)SNP位點(diǎn)的突變[34].實(shí)驗(yàn)表明焦磷酸測序技術(shù)具備靈敏度高、檢測速度快、半定量的特點(diǎn),為臨床診斷提供了一種供選擇的高效方法,且可以針對(duì)臨床患者對(duì)不同病原體的耐藥性情況進(jìn)行分子學(xué)診斷以及耐藥情況與治療效果的半定量檢測.
現(xiàn)階段,通過高通量測序可以靶向檢測耐藥基因的突變,為臨床用藥提供及時(shí)的指導(dǎo)意見,也為患者的預(yù)后情況提供預(yù)估標(biāo)準(zhǔn)[33].同時(shí),高通量測序還廣泛應(yīng)用于與人類胃腸道菌群情況監(jiān)測與重要疾病相關(guān)微生物感染的監(jiān)控,例如肺纖維化和肺衰竭等[35].在高通量測序用于監(jiān)測臨床長期用藥后胃腸道菌群的實(shí)時(shí)動(dòng)態(tài)變化情況方面,測序平臺(tái)的高通量、高輸出、高效率對(duì)于實(shí)時(shí)監(jiān)測呈現(xiàn)很大的臨床價(jià)值.
目前,高通量測序平臺(tái)同樣被廣泛應(yīng)用于臨床腫瘤學(xué)相關(guān)的研究中,針對(duì)DNA或RNA測序相關(guān)的腫瘤細(xì)胞來源或者腫瘤基因的低頻突變,以及尋找新的腫瘤靶標(biāo),呈現(xiàn)出很大的臨床應(yīng)用價(jià)值[36].臨床腫瘤學(xué)的檢測診斷主要涉及基于高通量測序平臺(tái)的全基因組測序以及外顯子測序,其中全基因組測序在前文已有介紹,外顯子測序則是與腫瘤學(xué)緊密相關(guān)的測序技術(shù),利用序列捕捉技術(shù)對(duì)全基因組外顯子區(qū)域DNA序列進(jìn)行特異性捕捉,富集擴(kuò)增后再進(jìn)行高通量測序.基因外顯子序列在全基因組中是非常重要的一部分編碼序列,用于表達(dá)體內(nèi)功能性或結(jié)構(gòu)性蛋白,與腫瘤的發(fā)生與擴(kuò)散及其預(yù)測與治療有著密不可分的聯(lián)系[37].而外顯子測序相對(duì)于全基因組測序更具有靶向性,且耗費(fèi)的時(shí)間成本以及經(jīng)濟(jì)成本也更低,對(duì)于檢測腫瘤細(xì)胞的低頻突變以及基因組的單核苷酸多態(tài)性、堿基插入或缺失有著很大的優(yōu)勢.在癌癥預(yù)防上,高通量測序平臺(tái)可以用于腫瘤基因的突變篩查,指導(dǎo)癌癥的防控工作;在癌癥治療上,通過高通量測序平臺(tái)挖掘與癌癥相關(guān)的基因,不僅可以發(fā)掘與癌癥相關(guān)的診斷靶標(biāo),還可以發(fā)掘與之相關(guān)的治療靶點(diǎn),為臨床提供具體的個(gè)性化用藥指導(dǎo)[38].
癌癥基因組圖譜(the Cancer Genome Atlas,TCGA)重大科研項(xiàng)目的創(chuàng)立旨在繪制出一萬個(gè)腫瘤基因組景觀圖譜.科研人員主要通過高通量測序?qū)δ[瘤細(xì)胞的低頻、中頻突變進(jìn)行監(jiān)測與分析,目前該項(xiàng)目已經(jīng)發(fā)現(xiàn)近1 000萬個(gè)與癌癥相關(guān)的基因突變,為癌癥的預(yù)測與治療提供了十分有意義的臨床參考[36].國際癌癥基因組計(jì)劃(the International Cancer Genome Consortium)利用測序及高通量突變檢測方法識(shí)別與癌癥發(fā)生發(fā)展相關(guān)的關(guān)鍵基因[39].該大規(guī)模項(xiàng)目有多個(gè)國家參與,已經(jīng)發(fā)掘50多種不同癌癥;通過高通量測序,在基因組學(xué)、表觀遺傳學(xué)以及轉(zhuǎn)錄組學(xué)方面對(duì)超過2.5萬個(gè)癌癥基因組進(jìn)行了系統(tǒng)性研究與分析,對(duì)癌癥的治療和預(yù)后情況預(yù)測具有重要意義.
高通量測序平臺(tái)的另一項(xiàng)較為重要的應(yīng)用是遺傳性疾病的檢測診斷,主要包括遺傳病診斷、產(chǎn)前篩查與診斷,以及試管胚胎等植入性胚胎遺傳學(xué)診斷.研究人員對(duì)產(chǎn)婦進(jìn)行無創(chuàng)產(chǎn)前基因檢測,然后對(duì)基因檢測異常的產(chǎn)婦的羊水或者臍帶血細(xì)胞進(jìn)行染色體G顯帶檢測和熒光原位雜交(fluorescenceinsituhybridization,FISH)檢測,作為確診標(biāo)準(zhǔn)[40].高通量測序平臺(tái)為遺傳性疾病的診斷、新生兒疾病的早期診斷、產(chǎn)婦的無創(chuàng)檢測都提供了極大的便利,降低了智力障礙或者殘疾畸形兒童的出生率,大大減輕了家庭和社會(huì)的負(fù)擔(dān),在遺傳性疾病的治療與預(yù)防方面呈現(xiàn)出很大的臨床應(yīng)用價(jià)值.
史淑瓊等[41]對(duì)4 708例孕婦進(jìn)行血液的采集以及核酸提取,采用新一代高通量測序技術(shù),結(jié)合生物信息分析,得出胎兒非整倍體及性染色體的風(fēng)險(xiǎn)率,對(duì)21、18、13三體高風(fēng)險(xiǎn)及可疑性染色異常的孕婦進(jìn)一步行羊膜腔穿刺術(shù)獲得染色體核型;經(jīng)統(tǒng)計(jì)學(xué)分析,無創(chuàng)基因21、18、13三體檢出率均為100%,漏診率為0,假陽性率分別為0.04%(2/4 708),0.08%(4/4 708)和0.06%(3/4 708),陽性預(yù)測值分別為97.1%(67/69),78.9%(15/19)和50.0%(3/6),陰性預(yù)測值均為100%.
無創(chuàng)基因檢測在臨床檢測診斷中表現(xiàn)出巨大的優(yōu)勢[42],既減少了不必要的產(chǎn)前有創(chuàng)性檢測操作,增加了檢測診斷的靈敏性與特異性,也大大降低了有先天遺傳病兒童的出生率,呈現(xiàn)很大的臨床應(yīng)用價(jià)值.
隨著分子生物學(xué)和科學(xué)技術(shù)的不斷提高,高通量測序技術(shù)在短短20年內(nèi)獲得突飛猛進(jìn)的發(fā)展.特別是“精準(zhǔn)醫(yī)療”概念的提出,使高通量測序技術(shù)成為精準(zhǔn)醫(yī)療的重要技術(shù)保障.盡管如此,高通量測序平臺(tái)依然存在許多亟待改進(jìn)和完善之處:1) 二代測序平臺(tái)序列讀長較短,且依賴于PCR擴(kuò)增技術(shù),容易造成讀取序列的誤差與偏好性,給后期生物信息學(xué)數(shù)據(jù)分析處理造成了較大的困難,為了增加測序的準(zhǔn)確性,無疑會(huì)增加測序的時(shí)間成本以及經(jīng)濟(jì)成本,因此二代測序平臺(tái)在后期需要提高序列的讀長和精準(zhǔn)性[43].2) 對(duì)于高通量測序平臺(tái),數(shù)據(jù)的分析處理是至關(guān)重要的步驟[44],目前測序市場上較為主流的Illumina和Nanopore測序平臺(tái)等都有著各自個(gè)性化處理分析數(shù)據(jù)的標(biāo)準(zhǔn)流程,因此高通量測序平臺(tái)對(duì)于實(shí)驗(yàn)人員的生物信息學(xué)基礎(chǔ)有著十分高的要求;且由于數(shù)據(jù)處理分析方式的不同有時(shí)會(huì)產(chǎn)生不同的比對(duì)結(jié)果,往往沒有一個(gè)“金標(biāo)準(zhǔn)”來進(jìn)行校正與比較,所以后期需要進(jìn)一步完善與改進(jìn)數(shù)據(jù)分析處理的能力,提高平臺(tái)的相對(duì)靈敏性與特異性,進(jìn)一步構(gòu)建相對(duì)準(zhǔn)確與嚴(yán)格的標(biāo)準(zhǔn)化流程,提升平臺(tái)的穩(wěn)定性.3) 二代測序平臺(tái)測序時(shí)間一般較長,主要時(shí)間消耗在準(zhǔn)備樣品、構(gòu)建文庫以及測序分析上,相對(duì)較長的測序時(shí)間對(duì)于急性傳染病暴發(fā)的監(jiān)控、臨床樣本的診斷鑒定,尤其是高?;颊叩牟≡瓕W(xué)鑒定是極大的障礙.針對(duì)這一問題,三代測序平臺(tái)的出現(xiàn)盡管大大縮短了測序時(shí)間,然而由于三代測序平臺(tái)在準(zhǔn)確性上比二代測序平臺(tái)低,在廣泛實(shí)際應(yīng)用中依然存在障礙.總之,未來高通量測序平臺(tái)還需要進(jìn)一步縮短二代測序平臺(tái)構(gòu)建文庫的時(shí)間并提高三代測序平臺(tái)的準(zhǔn)確性.
盡管高通量測序平臺(tái)面臨著十分巨大的挑戰(zhàn),在實(shí)際應(yīng)用過程中依然存在許多問題,然而高通量測序在臨床微生物病原學(xué)檢測、感染相關(guān)病原體的診斷、腫瘤學(xué)研究、白血病等重大疾病診斷以及遺傳性疾病的檢測等方面都已發(fā)揮了很大的作用,也為相關(guān)學(xué)科研究提供了新的思路與技術(shù),有望在更多領(lǐng)域呈現(xiàn)更大的臨床與研究價(jià)值.