鄭昭璟,傅啟華
(上海交通大學(xué)醫(yī)學(xué)院附屬上海兒童醫(yī)學(xué)中心,上海 200127)
遺傳性疾病是影響人民群眾、尤其是兒童健康的重要因素。遺傳性疾病病種多、臨床表現(xiàn)復(fù)雜多樣、分子機(jī)制復(fù)雜,是臨床診療工作中的一大挑戰(zhàn)。截止2018年9月,人類孟德爾遺傳在線數(shù)據(jù)庫(OMIM)收錄的已明確分子遺傳機(jī)制的疾病/表型已達(dá)6 259種,涉及3 961個(gè)基因[1]。分子診斷是遺傳性疾病實(shí)驗(yàn)診斷的主要手段。目前傳統(tǒng)分子診斷技術(shù),如Sanger測(cè)序、qPCR等仍在遺傳性疾病實(shí)驗(yàn)診斷工作中廣泛應(yīng)用。但隨著下一代測(cè)序(NGS)技術(shù)的長足進(jìn)步、測(cè)序成本大幅降低、生物信息學(xué)分析能力大幅提升及大規(guī)模人群遺傳變異數(shù)據(jù)庫的建立,多種高通量基因組學(xué)診斷技術(shù),如全外顯子組測(cè)序(WES)等在遺傳性疾病的實(shí)驗(yàn)診斷中的應(yīng)用日益廣泛。
WES在臨床診斷中的推廣,一方面顯著加快了疾病致病基因的發(fā)現(xiàn)[2]、促進(jìn)了對(duì)遺傳性疾病分子遺傳機(jī)制的認(rèn)識(shí);另一方面也顯著提升了遺傳性疾病的診斷能力。但在臨床實(shí)際應(yīng)用過程中,WES對(duì)不同疾病/表型的診斷效能、在不同類型遺傳變異的檢測(cè)性能上仍存在較大的差異。與此同時(shí),隨著技術(shù)的進(jìn)一步完善、特別是生物信息學(xué)算法的進(jìn)展,WES在遺傳性疾病實(shí)驗(yàn)診斷中出現(xiàn)了許多新情況,值得進(jìn)一步關(guān)注。
1.1單核苷酸變異(SNV)和小插入/缺失變異(Indel) 據(jù)估計(jì),95%致病性基因變異存在于人類基因組中包含的約20 000個(gè)蛋白編碼基因序列中[3],因此WES可以高效地檢測(cè)與遺傳性疾病致病相關(guān)的罕見SNV/Indel。迄今,已有大量研究分析評(píng)估了WES的診斷效能,發(fā)現(xiàn)WES對(duì)遺傳性疾病的臨床分子診斷率為25%~50%,在成年患者(大于18歲)中診斷率稍低[4-9]。由于技術(shù)的快速發(fā)展和新致病基因的快速發(fā)現(xiàn),對(duì)WES數(shù)據(jù)進(jìn)行重分析能夠進(jìn)一步提升其診斷率[10-11]。
WES檢測(cè)SNV/Indel性能的高低除了受到實(shí)驗(yàn)因素的影響外,還與生物信息學(xué)分析過程中所用的算法直接相關(guān)。Bowtie、BWA、Novoalign、SOAP及MOSAIK等是臨床WES數(shù)據(jù)分析中常用的比對(duì)軟件,而GATK、SAMTools、FreeBayes及DeepVariant等都是常用的變異識(shí)別軟件。變異識(shí)別軟件也與測(cè)序平臺(tái)和數(shù)據(jù)類型有關(guān),GATK適合于Illumina平臺(tái)測(cè)序數(shù)據(jù)[12],分析WES的數(shù)據(jù)表現(xiàn)最好[13];而SAMTools更適合Ion Torrent的測(cè)序數(shù)據(jù)[14],且更適合分析全基因組測(cè)序(WGS)數(shù)據(jù)[13]。在WES數(shù)據(jù)的實(shí)際分析過程中,比對(duì)軟件和變異識(shí)別軟件組成一個(gè)完整的變異識(shí)別流程(pipeline),結(jié)合下游分析,最后可得到針對(duì)每個(gè)患者的分子診斷結(jié)論。但迄今尚無任何一個(gè)比對(duì)軟件和變異識(shí)別軟件的組合能夠?qū)λ凶儺愡M(jìn)行可靠的識(shí)別,而盲目使用多種工具可能導(dǎo)致更多錯(cuò)誤的結(jié)果[15]。因此,正確評(píng)估各個(gè)工具的性能,并將其組合成一個(gè)完整的變異識(shí)別流程對(duì)WES的總體檢測(cè)性能來說就顯得非常重要。KUMARAN等[16]研究發(fā)現(xiàn),針對(duì)WES檢測(cè)SNV/Indel而言,BWA及Novoalign與DeepVariant的工具組合表現(xiàn)出最佳的性能。
1.2拷貝數(shù)變異(CNV) CNV是發(fā)育遲緩、智力障礙、多發(fā)畸形及自閉癥譜系障礙等疾病的重要致病原因,已有多個(gè)國內(nèi)外指南/專家共識(shí)建議染色體芯片分析(CMA)作為上述疾病的一線分子診斷方法[17-19]。隨著WES在遺傳性疾病分子診斷中的廣泛應(yīng)用,基于WES測(cè)序數(shù)據(jù)進(jìn)行CNV的檢測(cè)已日益引起重視。迄今,臨床常用的軟件/算法已超過20多種,如XHMM、CNVkit、Condors、ExomeDepth等。其中大多數(shù)算法工具均根據(jù)測(cè)序片段的測(cè)序深度實(shí)現(xiàn)CNV的檢測(cè),主要包括以下幾個(gè)主要步驟:目標(biāo)區(qū)域測(cè)序深度計(jì)算、歸一化(normalization)、片段化(segmentation)及CNV檢測(cè)。研究表明,任何一種算法盡管存在各自的優(yōu)勢(shì)和特點(diǎn),但總體而言其檢測(cè)CNV的性能尚有較大的局限性[20-21]。
PFUNDT等[22]對(duì)2 603例遺傳性疾病臨床病例WES數(shù)據(jù)進(jìn)行分析,檢出123個(gè)致病性CNV,大小從727 bp至15.3 Mb不等,總體診斷率提高約2%。MARCHUK等[23]研究表明,利用ExomeDepth軟件對(duì)WES數(shù)據(jù)分析CNV,對(duì)于高覆蓋度區(qū)域的缺失型CNV檢測(cè)靈敏度可達(dá)89%,重復(fù)型CNV則為65%。672例臨床樣本中,ExomeDepth分析CNV可增加1.6%的診斷率。TSUCHIDA等[24]則發(fā)現(xiàn)在WES檢測(cè)SNV/Indel結(jié)果陰性的癲癇患者中,致病性CNV檢出率高達(dá)10.7%(18/168),且最小的CNV大小在10 kb以下,據(jù)此作者認(rèn)為CNV分析應(yīng)作為所有臨床WES檢測(cè)的有機(jī)組成部分。
各種工具對(duì)CNV分析受到多種因素的影響,如參考樣本的選擇方法、參考樣本的數(shù)量、測(cè)序深度的均一性、目標(biāo)區(qū)域的GC含量等。KUSMIREK等[25]發(fā)現(xiàn)參考樣本數(shù)據(jù)集正確選擇與否將極大地影響CNV的檢出率(k均數(shù)法優(yōu)于基于kNN的算法)。他們的研究還表明,通過適當(dāng)減少參考樣本的數(shù)量,在不降低檢測(cè)敏感性的同時(shí)將增加特異性。RETTERER等[26]發(fā)現(xiàn)有10.3%的樣本噪音大,檢出的CNV數(shù)量異常增高,具體原因不詳。與手工法相比,自動(dòng)化測(cè)序文庫制備可以保證實(shí)驗(yàn)條件更加均一和穩(wěn)定,提高雜交效率、減少信號(hào)偏倚,能夠更好保證CNV 的檢測(cè)。
值得注意的是,較之CMA,基于WES數(shù)據(jù)分析可以檢出大量臨床意義未明(VOUS)的CNV,如基因啟動(dòng)子區(qū)、未翻譯區(qū)、內(nèi)含子區(qū)等的CNV。此類CNV致病性的判斷及明確其與臨床疾病/表型的關(guān)系取決于大量數(shù)據(jù)的積累及針對(duì)此類CNV建立科學(xué)的分類判讀標(biāo)準(zhǔn)和規(guī)則[27-28]。
1.3嵌合變異 由于Sanger測(cè)序技術(shù)本身的局限性,遺傳性疾病中嵌合變異的檢測(cè)一直是個(gè)難題,而WES技術(shù)因其具有檢測(cè)低豐度基因變異的能力顯著提高了此類變異在遺傳性疾病,如神經(jīng)發(fā)育性疾病[29]、先天性心臟病[30]、自閉癥[31-32]等中的檢出率。ACUNA-HIDALGO等[33]通過對(duì)50個(gè)核心家系中檢出的107個(gè)新生(de novo)變異進(jìn)行分析后發(fā)現(xiàn),有7個(gè)(6.5%)的所謂“新生”胚系變異實(shí)為嵌合變異。同時(shí)通過進(jìn)一步分析發(fā)現(xiàn),在50例先證者中存在的總計(jì)4 081個(gè)新生變異中4個(gè)變異同樣能夠在父母一方中檢出。據(jù)此作者認(rèn)為,迄今有相當(dāng)一部分新生變異可能是從其攜帶低水平嵌合變異的無癥狀父母遺傳而來。CAO等[34]通過對(duì)12 000個(gè)WES樣本的系統(tǒng)研究發(fā)現(xiàn),約有1.5% 的陽性病例是由于嵌合變異而導(dǎo)致的,而在所有分析的家系中有0.3%的父母攜帶了嵌合變異。
WES屬于高度復(fù)雜的實(shí)驗(yàn)診斷項(xiàng)目,主要可分為濕實(shí)驗(yàn)(wet bench)和干實(shí)驗(yàn)(dry bench)。濕實(shí)驗(yàn)是從樣本基因組DNA提取純化直至獲得原始測(cè)序數(shù)據(jù)的過程,而干實(shí)驗(yàn)涵蓋了原始測(cè)序數(shù)據(jù)分析處理直至過濾篩選出能夠解釋受檢者臨床表現(xiàn)/表型的候選致病性或可能致病性變異的環(huán)節(jié)。WES應(yīng)用于遺傳性疾病實(shí)驗(yàn)診斷須進(jìn)行充分的性能驗(yàn)證,同時(shí)執(zhí)行嚴(yán)格的質(zhì)量管理才能保證檢測(cè)結(jié)果準(zhǔn)確、可靠,才能為遺傳性疾病臨床診療提供保障。
2.1性能驗(yàn)證 作為臨床實(shí)驗(yàn)診斷項(xiàng)目,任何一個(gè)開展WES檢測(cè)的實(shí)驗(yàn)室必須對(duì)其進(jìn)行充分的性能驗(yàn)證以明確其特異度、敏感度、最低檢測(cè)限、可報(bào)告范圍等指標(biāo),提高WES檢測(cè)的臨床可信度[35-37]。WES是高度復(fù)雜的實(shí)驗(yàn)診斷項(xiàng)目,涉及很多步驟,在項(xiàng)目開發(fā)階段可根據(jù)試劑盒、儀器及軟件說明書或文獻(xiàn)進(jìn)行經(jīng)驗(yàn)性優(yōu)化以實(shí)現(xiàn)其預(yù)設(shè)目標(biāo),但在性能驗(yàn)證階段則需對(duì)WES的整個(gè)過程(濕實(shí)驗(yàn)和干實(shí)驗(yàn))進(jìn)行系統(tǒng)評(píng)估。濕實(shí)驗(yàn)方面,標(biāo)準(zhǔn)品NA12878可作為實(shí)驗(yàn)樣本,該標(biāo)準(zhǔn)品的全基因組數(shù)據(jù)集已被充分研究并用于多個(gè)基于NGS的方法性能驗(yàn)證;干實(shí)驗(yàn)方面,除了NA12878的數(shù)據(jù)集,HapMap、1000 Genome數(shù)據(jù)集及另一個(gè)全基因組數(shù)據(jù)集(NA19240)也可作為虛擬樣本用于WES的性能驗(yàn)證。
2.2濕實(shí)驗(yàn)的質(zhì)量管理 隨著近十年來NGS技術(shù)在臨床的廣泛應(yīng)用,已初步探索建立了NGS技術(shù)應(yīng)用的質(zhì)量標(biāo)準(zhǔn)和規(guī)范[35-37],這些標(biāo)準(zhǔn)和規(guī)范同樣適用于WES技術(shù)。臨床WES檢測(cè)的質(zhì)量管理主要分為日常質(zhì)量控制和周期性實(shí)施的質(zhì)量保證兩部分。WES日常質(zhì)量控制中,在污染風(fēng)險(xiǎn)較高的實(shí)驗(yàn)步驟,如上機(jī)測(cè)序前的測(cè)序文庫準(zhǔn)備過程中可以設(shè)立無模板的空白對(duì)照防止環(huán)境DNA 的污染。在實(shí)際工作中,通常在目標(biāo)片段末端加上一段特異識(shí)別序列(barcode或index)以保證多個(gè)樣本同時(shí)進(jìn)行測(cè)序,但所用的特異識(shí)別序列應(yīng)有一個(gè)以上的堿基差異,以避免在測(cè)序過程中發(fā)生錯(cuò)誤導(dǎo)致樣本混淆。在濕實(shí)驗(yàn)中,根本原則是要在整個(gè)WES過程中保證樣本的完整和正確。為實(shí)現(xiàn)這個(gè)目的,常用的手段包括利用單核苷酸多態(tài)性(SNP)芯片[26]或利用其他技術(shù)通過對(duì)一組高頻SNP組合[38]進(jìn)行基因分型從而完成樣本“身份”驗(yàn)證。
通過參加實(shí)驗(yàn)室外部的能力驗(yàn)證(PT)活動(dòng)或其他替代評(píng)估活動(dòng)可以對(duì)WES檢測(cè)進(jìn)行周期性、持續(xù)性的質(zhì)量保證。近兩年來,國家衛(wèi)生健康委員會(huì)臨床檢驗(yàn)中心(NCCL)已開展遺傳病胚系變異檢測(cè)的室間質(zhì)評(píng)活動(dòng)(EQA),這必將對(duì)促進(jìn)臨床實(shí)驗(yàn)室WES的質(zhì)量管理發(fā)揮積極的促進(jìn)作用。
2.3干實(shí)驗(yàn)的質(zhì)量管理 有效實(shí)施WES干實(shí)驗(yàn)的質(zhì)量管理的基礎(chǔ)是合理選擇質(zhì)量參數(shù)(quality metrics)并合理設(shè)置相應(yīng)的閾值,如平均測(cè)序深度、最低測(cè)序深度、Q20、Q30等[35-36]。對(duì)任何一個(gè)WES樣本,日常質(zhì)量控制的首要目標(biāo)是評(píng)估其是否符合設(shè)定的質(zhì)量參數(shù)閾值,由此可及時(shí)發(fā)現(xiàn)質(zhì)量參數(shù)低于閾值的WES樣本并及時(shí)增加測(cè)序數(shù)據(jù)量或重新實(shí)驗(yàn)以保證后續(xù)下游分析結(jié)果的準(zhǔn)確可靠。目前已有多種軟件工具可以幫助完成此類常規(guī)質(zhì)控工作任務(wù),如ChronQC[39]。
WES干實(shí)驗(yàn)的持續(xù)質(zhì)量保證措施包括建立相應(yīng)的工作程序進(jìn)行軟件版本管理并及時(shí)監(jiān)控軟件更新,對(duì)參考序列和數(shù)據(jù)庫進(jìn)行周期性審核以確保正確的分析結(jié)果,以及參與實(shí)驗(yàn)室外部的PT或EQA活動(dòng)。目前,可以通過計(jì)算機(jī)模擬生成涵蓋各種變異類型、數(shù)量不等的數(shù)據(jù)集用于干實(shí)驗(yàn)的PT(即in silico PT),這種形式的PT與傳統(tǒng)PT相比,測(cè)試的變異數(shù)量和類型更多、更方便,成本也更低[40]。
已有大量的研究評(píng)估了WES在遺傳性疾病分子診斷中的效能和個(gè)體實(shí)驗(yàn)室的檢測(cè)性能表現(xiàn),但對(duì)各實(shí)驗(yàn)室產(chǎn)生的數(shù)據(jù)質(zhì)量很少進(jìn)行過系統(tǒng)比較,這對(duì)全面了解臨床實(shí)驗(yàn)室WES應(yīng)用現(xiàn)狀無疑是十分不利的。GOTWAY等[41]的研究表明,來自于不同實(shí)驗(yàn)室的WES數(shù)據(jù)在基因覆蓋質(zhì)量上呈現(xiàn)出很大的不一致性。這種多個(gè)實(shí)驗(yàn)室間WES基因覆蓋度一致性低的原因可能部分與不同的WES捕獲試劑盒有關(guān)。該研究中WES數(shù)據(jù)來自3家不同的臨床實(shí)驗(yàn)室,分別使用了羅氏Nimblegen VCRome v2.0/IDT xGen Exome Research Panel v1.0、羅氏Nimblegen VCRome v2.1及安捷倫SureSelect XT2 All Exon v4/安捷倫Clinical Research Exome捕獲試劑盒。不同廠家的WES捕獲試劑盒由于基因覆蓋范圍(側(cè)翼序列長度、UTR)、探針類型及長度等的不同因此具有不同的側(cè)重點(diǎn),自然會(huì)導(dǎo)致檢出的基因變異、數(shù)量、質(zhì)量等方面存在差異[42]。GOTWAY等[41]在研究中發(fā)現(xiàn),在來自3家不同臨床實(shí)驗(yàn)室的36個(gè)WES樣本中,測(cè)序完整覆蓋的CCDS基因數(shù)量最高可達(dá)15 196個(gè),而最低的基因數(shù)量僅為3 139,覆蓋最差的樣本CCDS基因數(shù)量僅為覆蓋較好樣本基因數(shù)量的四分之一。因此,在WES臨床實(shí)際應(yīng)用中,特別是在WES檢測(cè)結(jié)果陰性的時(shí)候,需要重點(diǎn)關(guān)注臨床疾病/表型密切相關(guān)致病基因的覆蓋水平,以免假陰性的發(fā)生。
WES對(duì)遺傳性疾病的實(shí)驗(yàn)診斷發(fā)揮了巨大的提升作用,隨著WES 的臨床應(yīng)用日趨廣泛和規(guī)范,需要更加深入的研究其診斷效能和臨床效能。與此同時(shí),CNV分析、AOH/UPD分析及短串聯(lián)重復(fù)序列分析等基于WES測(cè)序數(shù)據(jù)的新型分析手段積極促進(jìn)了WES總體診斷率的提升,但上述這些新型分析手段尚需進(jìn)一步改善檢測(cè)性能及深入的性能評(píng)估。
WES作為遺傳性疾病實(shí)驗(yàn)診斷方法,除了本身技術(shù)性能的進(jìn)一步提升和系統(tǒng)評(píng)估外,還涉及系列基礎(chǔ)設(shè)施的建設(shè),如外顯子水平的CNV數(shù)據(jù)庫和知識(shí)庫的建立、人工智能在基因變異過濾和篩選中的應(yīng)用、人類疾病表型的精確特征化等。隨著WES臨床推廣應(yīng)用日益普及和精準(zhǔn)診斷需求的持續(xù)攀升,WES必將極大促進(jìn)遺傳性疾病實(shí)驗(yàn)診斷。