劉 楊, 蘇照中, 曾凡俊, 袁惠君, 張永卓
(1.蘭州理工大學(xué) 生命科學(xué)與工程學(xué)院,甘肅 蘭州 730050; 2.中國(guó)計(jì)量科學(xué)研究院,北京 100029;3.海關(guān)總署(北京)國(guó)際旅行衛(wèi)生保健中心,北京 100013)
自1977年Sanger測(cè)序法出現(xiàn)以來(lái),測(cè)序技術(shù)已經(jīng)經(jīng)歷了近50年的發(fā)展[1]。從最開(kāi)始的雙脫氧鏈測(cè)序技術(shù)到如今高通量、長(zhǎng)讀長(zhǎng)的單分子測(cè)序技術(shù),均推動(dòng)著人類更直觀地挖掘核酸分子的深層信息,與此同時(shí)相關(guān)的科研成果也層出不窮[2]。高通量測(cè)序(high-throughput sequencing)又稱下一代測(cè)序(next generation sequencing,NGS)技術(shù),能對(duì)生物體的序列信息進(jìn)行有效檢測(cè)分析,因此在醫(yī)學(xué)臨床和科學(xué)研究方面得到了廣泛應(yīng)用。但NGS依然存在許多問(wèn)題,例如在樣品準(zhǔn)備、文庫(kù)構(gòu)建、上機(jī)測(cè)序和生物信息學(xué)分析過(guò)程中都會(huì)引入相應(yīng)的技術(shù)變量及錯(cuò)誤偏差,影響了最終結(jié)果的分析[3],需要使用特定的標(biāo)準(zhǔn)物質(zhì)進(jìn)行校正[4,5]。
標(biāo)準(zhǔn)物質(zhì)具有可溯源性、量值傳遞和實(shí)現(xiàn)測(cè)量準(zhǔn)確一致的特點(diǎn)。利用高通量測(cè)序標(biāo)準(zhǔn)物質(zhì)可以實(shí)現(xiàn)對(duì)整個(gè)高通量測(cè)序的質(zhì)控,規(guī)范測(cè)序流程,保證測(cè)序結(jié)果的標(biāo)準(zhǔn)化和一致化。本文針對(duì)標(biāo)準(zhǔn)物質(zhì)在高通量測(cè)序技術(shù)中的作用進(jìn)行了闡述,并討論了國(guó)內(nèi)外高通量測(cè)序標(biāo)準(zhǔn)物質(zhì)的研究進(jìn)展。
目前,基于毛細(xì)管電泳的Sanger測(cè)序被認(rèn)為是DNA測(cè)序的金標(biāo)準(zhǔn)[6],但由于Sanger測(cè)序依賴于PCR聚合酶和毛細(xì)管電泳,導(dǎo)致其測(cè)序成本高、分析速度慢,難以滿足越來(lái)越大的測(cè)序需求。此時(shí),通量更高、更經(jīng)濟(jì)的NGS應(yīng)運(yùn)而生。不同于Sanger測(cè)序,NGS可使酶促DNA反應(yīng)、堿基測(cè)序與數(shù)據(jù)收集同步進(jìn)行,因此可以同時(shí)對(duì)數(shù)千條乃至數(shù)十億條DNA模板進(jìn)行測(cè)序。絕大部分NGS平臺(tái)基于合成測(cè)序的理念[7],可以實(shí)現(xiàn)以較低的成本快速的對(duì)大規(guī)模外顯子組和全基因組進(jìn)行測(cè)序,并配合下游的生物信息學(xué)分析得到基因組測(cè)序的結(jié)果。此外為了彌補(bǔ)NGS的序列讀長(zhǎng)較短,且在PCR過(guò)程中有一定概率會(huì)引入錯(cuò)配堿基等問(wèn)題[8],第3代測(cè)序技術(shù)也初露鋒芒,憑借著可以實(shí)現(xiàn)超長(zhǎng)讀長(zhǎng)且測(cè)序時(shí)間和成本相對(duì)更低的優(yōu)勢(shì)在科學(xué)研究領(lǐng)域和臨床應(yīng)用中占據(jù)了一席之地[9]。
雖然測(cè)序技術(shù)發(fā)展迅速,但NGS依然是當(dāng)前主流的測(cè)序技術(shù)?;贜GS短讀長(zhǎng)的測(cè)序原理衍生出了許多新的測(cè)序技術(shù),如Roche 454焦磷酸測(cè)序[10]、Illumina Solexa合成測(cè)序[11]、ABI SOLiD連接法測(cè)序[12,13]以及華大智造公司研發(fā)的DNA納米球測(cè)序[14]。
對(duì)于NGS測(cè)序而言,影響其結(jié)果準(zhǔn)確性的因素有很多,其中文庫(kù)構(gòu)建是最直接、最重要的影響因素之一。同時(shí)由于技術(shù)原因和行業(yè)發(fā)展,NGS技術(shù)弊端導(dǎo)致的一系列不可避免的問(wèn)題愈演愈烈,例如樣品的制備要求較高、試劑沖洗帶來(lái)的錯(cuò)誤累積及數(shù)據(jù)分析困難等問(wèn)題都將給測(cè)序結(jié)果造成不同程度的影響。
NGS測(cè)序平臺(tái)對(duì)樣本制備過(guò)程有著特殊的要求,首先在樣本的分離和提取過(guò)程中需要在較低的溫度下進(jìn)行,其次需要保證樣品中沒(méi)有螯合劑、洗滌劑、變性劑等,且還需要抑制可能的核酸酶活性,避免重復(fù)的凍融循環(huán)以確保DNA或RNA的質(zhì)量。此外,樣本的輸入量以及后續(xù)的擴(kuò)增步驟是導(dǎo)致測(cè)序結(jié)果偏倚的主要因素,因此文庫(kù)準(zhǔn)備之前樣品的質(zhì)量評(píng)估也很重要[15]。
文庫(kù)制備過(guò)程中,也需要相應(yīng)的質(zhì)控措施評(píng)估所制備文庫(kù)的質(zhì)量,例如文庫(kù)質(zhì)量過(guò)低導(dǎo)致測(cè)序結(jié)果準(zhǔn)確性無(wú)法保證;文庫(kù)的純度過(guò)低導(dǎo)致簇生成量過(guò)低;接頭序列不足會(huì)導(dǎo)致序列信息丟失等等[16,17]。除此之外,在流動(dòng)槽反應(yīng)中,不同機(jī)型的測(cè)序儀對(duì)于化學(xué)試劑的純度要求也有所不同,純度過(guò)低會(huì)直接影響對(duì)單個(gè)堿基讀數(shù)的準(zhǔn)確判斷,從而給測(cè)序結(jié)果增加不確定性。
高通量測(cè)序儀在許多情況下需要匯集樣品以提高效率,這導(dǎo)致樣品之間的濃度不同,影響檢測(cè)的靈敏度。此外,如果聚合酶發(fā)生錯(cuò)誤,在通過(guò)聚合酶進(jìn)行PCR擴(kuò)增時(shí),會(huì)發(fā)生鏈的偏向?qū)е聹y(cè)序結(jié)果的誤判[18],而在擴(kuò)增過(guò)程中堿基序列的突變將對(duì)后續(xù)的讀取軟件提出更高的要求。
下機(jī)數(shù)據(jù)的準(zhǔn)確分析對(duì)測(cè)序結(jié)果的準(zhǔn)確性至關(guān)重要。但就目前而言,沒(méi)有標(biāo)準(zhǔn)化的數(shù)據(jù)分析流程,數(shù)據(jù)分析過(guò)程是根據(jù)檢測(cè)所針對(duì)的序列變異類型制定的[19]。對(duì)于大多數(shù)測(cè)序平臺(tái),數(shù)據(jù)的分析是將圖像文件轉(zhuǎn)換為具有相關(guān)質(zhì)量分?jǐn)?shù)的堿基調(diào)用。每個(gè)平臺(tái)都使用自己的算法來(lái)確定質(zhì)量分?jǐn)?shù),在概念上類似于Sanger測(cè)序中使用的Phred質(zhì)量分?jǐn)?shù)[20]。利用質(zhì)量過(guò)濾器可處理刪除低于預(yù)定質(zhì)量分?jǐn)?shù)的序列并與參考序列對(duì)齊[21]。將讀數(shù)映射到參考序列后,當(dāng)堿基調(diào)用與其參考序列對(duì)齊的位置之間發(fā)生差異時(shí),需要調(diào)用變體,之后生成用于存儲(chǔ)序列變異的標(biāo)準(zhǔn)文件格式。但具有高GC含量的基因序列區(qū)域富集難度較大,捕獲的片段可能無(wú)法使用NGS平臺(tái)進(jìn)行測(cè)序,因此,很難獲得許多基因的第一個(gè)外顯子序列信息。當(dāng)大多數(shù)序列讀數(shù)僅來(lái)自一條DNA鏈時(shí),就會(huì)觀察到鏈偏差。因?yàn)椴粶?zhǔn)確的堿基調(diào)用更有可能聚集在DNA的一條鏈上[22]。此外,未知的基因組或轉(zhuǎn)錄組序列,也會(huì)給NGS的讀取比對(duì)造成困難[23]。
在NGS工作流程中,每個(gè)步驟都會(huì)帶來(lái)不同類型的不確定性。在NGS工作流程中添加標(biāo)準(zhǔn)物質(zhì),不確定性會(huì)隨著工作流程(如圖1所示)的推進(jìn)進(jìn)行累加,并將其引入到最終的測(cè)量結(jié)果中。但標(biāo)準(zhǔn)物質(zhì)可以提供期望值和實(shí)測(cè)值之間差異不確定度的經(jīng)驗(yàn)估計(jì)[24],因此可以使測(cè)序結(jié)果更加準(zhǔn)確。
隨著測(cè)序行業(yè)的快速發(fā)展,現(xiàn)在正面臨著相同樣本使用不同測(cè)序平臺(tái)得到測(cè)序結(jié)果不一致的問(wèn)題,迫切需要研制高通量測(cè)序標(biāo)準(zhǔn)物質(zhì)來(lái)規(guī)范測(cè)序行業(yè),以保證測(cè)序結(jié)果的標(biāo)準(zhǔn)化和一致化。
高通量測(cè)序標(biāo)準(zhǔn)物質(zhì)按照材料來(lái)源分主要有3種類型如表1所示,一種是天然的遺傳物質(zhì);一種是添加對(duì)照物;還有一種是模擬的電子數(shù)據(jù)集。它們能夠?qū)y(cè)序的整個(gè)流程進(jìn)行校對(duì)及修正,保證了測(cè)序結(jié)果的準(zhǔn)確性。
表1 高通量測(cè)序標(biāo)準(zhǔn)物質(zhì)的主要類型
下文將詳細(xì)介紹用于高通量測(cè)序標(biāo)準(zhǔn)物質(zhì)制備的3類材料。
天然遺傳物質(zhì)可用于制備標(biāo)準(zhǔn)物質(zhì),這些標(biāo)準(zhǔn)物質(zhì)相對(duì)便宜,易于開(kāi)發(fā),涵蓋了人類基因組或轉(zhuǎn)錄組的全部大小和多樣性,通??膳c樣本發(fā)生交換。天然遺傳物質(zhì)也不受當(dāng)前NGS技術(shù)的限制,是比較理想的標(biāo)準(zhǔn)物質(zhì)。
4.1.1 基因組標(biāo)準(zhǔn)物質(zhì)
目前NGS的主要應(yīng)用包括臨床檢測(cè)與疾病相關(guān)的遺傳變異。在臨床檢測(cè)中發(fā)現(xiàn)樣本在相同個(gè)體基因組的數(shù)千個(gè)基因位點(diǎn)上的堿基調(diào)用存在不一致[25,26],因此需要可靠的人類基因分型樣本作為標(biāo)準(zhǔn)物質(zhì),為單個(gè)基因組建立一套全面和明確的變異組。建立不同的人類個(gè)體基因組作為基準(zhǔn)測(cè)試性能的標(biāo)準(zhǔn)物質(zhì)[27],將會(huì)保證基因組測(cè)序結(jié)果的準(zhǔn)確性。由于基因組中部分區(qū)域GC含量極高、復(fù)雜性低或序列重復(fù),導(dǎo)致很大一部分人類基因組仍然難以進(jìn)行完整測(cè)序分析,因此臨床上將致病變異的患者基因組作為臨床診斷的參考標(biāo)準(zhǔn),而制備標(biāo)準(zhǔn)物質(zhì)的材料來(lái)源通常是由帶致病變異的患者細(xì)胞轉(zhuǎn)化為可再生的細(xì)胞系獲得。目前基因檢測(cè)標(biāo)準(zhǔn)物質(zhì)協(xié)調(diào)計(jì)劃(genetic testing reference materials coordination program,GeT-RM)和測(cè)序質(zhì)量控制聯(lián)盟(sequencing quality control,SEQC)已經(jīng)確定了一系列細(xì)胞系的特征,這些細(xì)胞系均含有一系列遺傳病的致病突變[28~31]。
4.1.2 RNA標(biāo)準(zhǔn)物質(zhì)
在RNA測(cè)序中影響其測(cè)序準(zhǔn)確性的因素包括:樣本的大小和多樣性,樣本質(zhì)量,文庫(kù)制備方法的差異以及復(fù)雜的生物信息學(xué)分析[32]。準(zhǔn)確且可重復(fù)性測(cè)量基因表達(dá)的重要性促使了天然RNA標(biāo)準(zhǔn)物質(zhì)的發(fā)展。而外界的影響對(duì)于基因的表達(dá)尤為顯著,這可能是導(dǎo)致大量特定批次轉(zhuǎn)錄組出現(xiàn)差異的主要原因[33]。盡管SEQC通過(guò)不同的NGS技術(shù)和實(shí)驗(yàn)室地點(diǎn)已經(jīng)對(duì)人類參考RNA樣本的準(zhǔn)確性和重復(fù)性進(jìn)行了全面評(píng)估[34],但隨著新的異構(gòu)體不斷被發(fā)現(xiàn),天然RNA標(biāo)準(zhǔn)物質(zhì)仍沒(méi)有全面的共識(shí)注釋來(lái)評(píng)估RNA測(cè)序的假陽(yáng)性和假陰性結(jié)果。這使得天然RNA標(biāo)準(zhǔn)物質(zhì)在應(yīng)用中存在一定局限性,但對(duì)了解與疾病相關(guān)的復(fù)雜轉(zhuǎn)錄特征而言它依然是一種寶貴的資源[35]。
4.1.3 微生物的標(biāo)準(zhǔn)物質(zhì)
宏基因組測(cè)序不僅可以提供環(huán)境樣本內(nèi)微生物群落的概況[36],還可以在實(shí)驗(yàn)室中發(fā)現(xiàn)全新的微生物[37],但在缺失參考基因組序列和背景基質(zhì)DNA存在的情況下會(huì)擾亂NGS的分析[38]。隨著微生物組質(zhì)量控制計(jì)劃項(xiàng)目的啟動(dòng),研究人員使用了一系列參考標(biāo)準(zhǔn)以評(píng)價(jià)測(cè)量微生物基因組,擴(kuò)大了代表性微生物的范圍,并針對(duì)特定的環(huán)境來(lái)源定制了模擬社區(qū)[39,40]。此前NIST(National Institute of Standards and Technology)也發(fā)布了4種微生物基因組標(biāo)準(zhǔn)物質(zhì)[41]。這些參考對(duì)照可用于比較16S的測(cè)序數(shù)據(jù),評(píng)估GC含量引起的偏差,還可用作宏基因組分析的基準(zhǔn)。
使用天然遺傳物質(zhì)作為NGS標(biāo)準(zhǔn)物質(zhì)的一個(gè)主要限制是,它們通常會(huì)與樣本結(jié)合而污染下游分析。相比之下,將對(duì)照物直接添加到樣品中,并與樣本同時(shí)進(jìn)行文庫(kù)準(zhǔn)備和測(cè)序更方便。在測(cè)序后,通過(guò)不同的index將樣本和添加對(duì)照物區(qū)分開(kāi)從而充當(dāng)內(nèi)部的定性和定量對(duì)照。如在Illumina測(cè)序中,PhiX噬菌體基因組就經(jīng)常被用作確定測(cè)序質(zhì)量和錯(cuò)誤率的添加對(duì)照物[42]。
添加對(duì)照序列的設(shè)計(jì)是靈活的,僅受合成的限制,能滿足NGS測(cè)試的特定要求。加入物通常是單獨(dú)制備,可以在不同的濃度下組合成復(fù)雜的混合物,并建立內(nèi)部質(zhì)控來(lái)測(cè)量伴隨樣品的定量特征。盡管有這些優(yōu)點(diǎn),但合成結(jié)構(gòu)不能反映天然DNA或RNA樣本的復(fù)雜性[43],且實(shí)現(xiàn)樣本和標(biāo)準(zhǔn)物質(zhì)的可互換性仍然是一個(gè)挑戰(zhàn)。
4.2.1 基因組添加物
目前人工合成的DNA添加對(duì)照物已被用來(lái)研究人類的遺傳變異,通過(guò)添加對(duì)照物能夠使NGS技術(shù)評(píng)估SNVs、Indels以及結(jié)構(gòu)帶來(lái)的變異檢測(cè)[44]。而在自然基因組材料中,這些變異的存在可能是模糊的。通過(guò)操縱特定DNA添加物的豐度,有可能模擬基因組生物學(xué)的數(shù)量特征,如變異等位基因頻率和拷貝數(shù)變異。這些添加物的濃度階梯可以獲得特定于單個(gè)文庫(kù)的定量統(tǒng)計(jì)數(shù)據(jù),并可以根據(jù)經(jīng)驗(yàn)在低等位基因頻率下定義真陽(yáng)性和區(qū)分測(cè)序錯(cuò)誤的閾值。
4.2.2 RNA添加物
RNA添加物作為定量逆轉(zhuǎn)錄(qRT)PCR和微陣列分析[45,46]的標(biāo)準(zhǔn)物質(zhì),被RNA測(cè)序廣泛采用。外部RNA控制聯(lián)盟(external RNA controls consortium,ERCC)的添加物是由一組長(zhǎng)度和GC含量不同的多聚腺苷酸轉(zhuǎn)錄本組成,與人類基因組沒(méi)有同源性。模擬人類基因的復(fù)雜外顯子和內(nèi)含子結(jié)構(gòu),使得RNA測(cè)序能進(jìn)一步評(píng)估轉(zhuǎn)錄本的組裝結(jié)果[47,48]。定制的RNA添加物也被應(yīng)用于如致癌融合基因的檢測(cè)[49],通過(guò)定量階梯進(jìn)行比較,可以對(duì)測(cè)量基因表達(dá)的準(zhǔn)確性進(jìn)行經(jīng)驗(yàn)評(píng)估。
在NGS分析過(guò)程中的生物信息學(xué)步驟通常是復(fù)雜的,也是誤差的重要來(lái)源。而電子數(shù)據(jù)集可以快速且容易地生成,并已被證明對(duì)開(kāi)發(fā)和評(píng)估生物信息學(xué)性能很有幫助。通用數(shù)據(jù)集(通常為FASTQ或SAM/BAM格式)可以快速的模擬或更改,以適用于生物信息學(xué)分析,還可以在分析工作流程期間跟蹤每個(gè)步驟讀取的進(jìn)展,從它們的原始基因組位置,到比對(duì)和最終分析,并且允許對(duì)每個(gè)步驟進(jìn)行評(píng)估,以實(shí)現(xiàn)NGS工作流程的快速優(yōu)化[50]。電子數(shù)據(jù)集的局限性是它們的僅能用于評(píng)估NGS工作流程的生物信息學(xué)步驟,難以模擬真實(shí)數(shù)據(jù)中存在的復(fù)雜性和可變性。因此,盡管在電子計(jì)算機(jī)中參考標(biāo)準(zhǔn)是測(cè)試生物信息學(xué)步驟的有益補(bǔ)充,但它們不能取代測(cè)序中面臨的所有變量的物理標(biāo)準(zhǔn)。
隨著測(cè)序技術(shù)的發(fā)展,以高通量測(cè)序技術(shù)為代表的現(xiàn)代分子生物學(xué)技術(shù)正廣泛用于我們生活的方方面面。但由于基因組的多樣性以及序列數(shù)據(jù)和生物信息學(xué)分析的復(fù)雜性都限制了對(duì)其更深入的了解,而標(biāo)準(zhǔn)物質(zhì)是打破這些限制的重要資源。
標(biāo)準(zhǔn)物質(zhì)中自然的生物樣本保留了基因組的復(fù)雜性,可以記錄致病的人類遺傳變異。相比之下,合成對(duì)照物可以針對(duì)特定的需求而精確設(shè)計(jì),不受序列復(fù)雜性的限制,建立的內(nèi)部質(zhì)控能夠?qū)蚪M生物學(xué)的定量方面進(jìn)行評(píng)估。雖然數(shù)據(jù)集可用于有效地優(yōu)化生物信息學(xué)步驟,但不能替代物理參考標(biāo)準(zhǔn)。每種類型的標(biāo)準(zhǔn)物質(zhì)都有其相對(duì)的優(yōu)點(diǎn)和局限性,理想情況下,應(yīng)使用不同類型的組合,方便對(duì)測(cè)試進(jìn)行驗(yàn)證和質(zhì)量控制。
在測(cè)序過(guò)程中使用標(biāo)準(zhǔn)物質(zhì)能夠提高對(duì)基因組復(fù)雜區(qū)域或定量特征的評(píng)估效率,擴(kuò)大開(kāi)發(fā)標(biāo)準(zhǔn)物質(zhì)種類不僅可進(jìn)一步提高測(cè)序結(jié)果的準(zhǔn)確性、可靠性和標(biāo)準(zhǔn)化,還可以協(xié)助出臺(tái)相關(guān)的標(biāo)準(zhǔn)化實(shí)驗(yàn)操作流程,對(duì)整個(gè)測(cè)序流程進(jìn)行有效規(guī)范,保證測(cè)序流程和測(cè)序結(jié)果都具備溯源性,使測(cè)序數(shù)據(jù)真實(shí)可靠。隨著測(cè)序標(biāo)準(zhǔn)物質(zhì)的應(yīng)用和標(biāo)準(zhǔn)化測(cè)序流程的出現(xiàn),將為我國(guó)的測(cè)序產(chǎn)業(yè)帶來(lái)新的機(jī)遇,這也將使得我們對(duì)各種生物在基因?qū)用嬗懈钊氲牧私狻?/p>