唐北沙 曾勝 李凱
.專論.
人類孟德爾遺傳性疾病基因組序列變異解析與臨床規(guī)范
唐北沙 曾勝 李凱
遺傳性疾病,先天性; 基因; 突變; 綜述
隨著二代基因測序(NGS)技術的不斷完善,其在臨床應用和研究逐漸普及,越來越多的科研或醫(yī)療機構開始應用該項技術[主要包括全基因組測序(WGS)、全外顯子測序(WES)、目標區(qū)域捕獲測序]進行人類孟德爾遺傳性疾病的分子診斷和遺傳學研究[1?4].臨床實踐中,基因組檢測流程需規(guī)范化、基因組序列變異判斷需標準化、測序技術需嚴格質(zhì)控、具體測序技術需合理選擇[5?7].人類基因組全外顯子組水平約包含25X103個變異(variants)[8],如何精準檢測這些變異、篩選出致病性突變,是醫(yī)學遺傳學必須面對的問題.鑒于此,美國醫(yī)學遺傳學和基因組學會(ACMG)、歐洲人類遺傳學會(ESHG)分別公布二代基因測序的臨床應用指南[4,9?10].因此,根據(jù)我國實際情況制定人類孟德爾遺傳性疾病基因組序列變異解析與臨床規(guī)范勢在必行.本文僅針對人類基因組DNA序列,而線粒體DNA序列和表觀遺傳領域RNA序列、甲基化等不在本文闡述范圍.本文擬從臨床資料采集、遺傳因素判斷、二代基因測序選擇、質(zhì)控管理、序列變異檢測及公共數(shù)據(jù)庫過濾、序列變異生物信息學分析、遺傳學和功能學試驗、序列變異解析原則、倫理學和遺傳咨詢方面進行闡述.
翔實的臨床資料采集是進行分子診斷和遺傳學研究的基礎.完善的臨床資料可以有效降低臨床診斷和分子診斷的誤診率,有助于變異解析的后續(xù)分析[1,4],主要包括主訴、現(xiàn)病史、家族史、近親婚配史、體格檢查、實驗室檢驗、量表評價和影像學檢查等.
根據(jù)臨床資料判斷疾病是否系遺傳因素所致以及是否符合孟德爾遺傳規(guī)律,包括常染色體顯性遺傳(AD)、常染色體隱性遺傳(AR)和X連鎖遺傳(X?linked).隨著對某些疾病的深入認識,某些罕見疾病(Joubert綜合征等)和先天性疾病(先天性無痛癥等)也受到遺傳因素的影響,也可以選擇二代基因測序技術進行分子診斷[10?11].
確定遺傳因素在疾病發(fā)病中發(fā)揮主要作用后,制定合理的二代基因測序方案、選擇適宜的檢測疾病遺傳結構變異(genetic architecture)的二代基因測序技術和數(shù)據(jù)分析方法,是提高分子診斷率的先決條件.基因組序列變異包括以下5種形式[12?13]:單核苷酸變異(SNV)、插入/缺失變異、拷貝數(shù)變異(CNV)、短串聯(lián)重復序列(STR)和結構變異(SV);以及以下4個部位:基因組外顯子區(qū)(exonic regions)、基因組基因間區(qū)(intergenic regions)、基因組內(nèi)含子區(qū)(intronic regions)及基因組啟動子區(qū)(promoter regions)和非翻譯區(qū)(UTR).在選擇二代基因測序技術時,應考慮每種測序技術的特點和局限性:發(fā)生于基因組外顯子區(qū)的單核苷酸變異、插入/缺失變異,可以選擇全外顯子測序;發(fā)生于全基因組的單核苷酸變異、插入/缺失變異、拷貝數(shù)變異可以選擇全基因組測序;發(fā)生于全基因組的短串聯(lián)重復變異,既不能選擇全外顯子測序也不能選擇全基因組測序[14?15].隨著基因檢測技術的發(fā)展,三代基因測序技術逐漸廣泛應用,有望實現(xiàn)全基因組短串聯(lián)重復變異和復雜結構變異的檢測[16?18].
在基因檢測方案和數(shù)據(jù)分析方法合理的情況下,對整套基因檢測流程進行嚴格質(zhì)控是進行變異解析后續(xù)分析的有力保證[6].首先,應確保檢測樣本的DNA質(zhì)量并準確標記;其次,應保證檢測樣本的建庫質(zhì)量;再次,應采用合格的目標區(qū)域捕獲測序試劑和設備,并嚴格按照操作流程進行,以避免人為操作造成的失誤[19];最后,應選擇正規(guī)的檢測機構和實驗室.數(shù)據(jù)分析包括以下步驟:(1)對基因檢測所獲得的原始數(shù)據(jù)(raw data)進行基本質(zhì)檢,如測序質(zhì)量檢測軟件FastQC、評價測序準確性的堿基質(zhì)量值(Q30代表質(zhì)量值為30時錯誤識別率為0.1%)、鳥嘌呤?胞嘧啶(GC)含量、數(shù)據(jù)產(chǎn)量等,再通過剔除接頭和低質(zhì)量數(shù)據(jù)將原始數(shù)據(jù)轉換為有效數(shù)據(jù).(2)采用讀長(reads)比對率、測序平均覆蓋深度、測序深度分布、目標區(qū)域覆蓋率(如基因組外顯子區(qū)測序深度>10X的百分比等)評價數(shù)據(jù)質(zhì)量.(3)采用比對軟件(如BWA軟件,https://sourceforge.net/projects/bio-bwa/files/)進行比對,并通過一種或多種檢測軟件對序列變異進行檢測和注釋.(4)通過比對檢測樣本單核苷酸變異與單核苷酸多態(tài)性(SNP)數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/projects/SNP/)中單核苷酸變異比值以及轉換/顛換比值等評價變異提取過程的生物信息學分析質(zhì)量[19?20].
二代基因測序技術的生物信息學分析軟件主要用于數(shù)據(jù)質(zhì)控、參考基因組比對、變異檢測、變異注釋等.應注意不同生物信息學分析軟件各有優(yōu)缺點[4]:若檢測結果中無足夠候選變異,應進一步增加候選變異,可考慮采用不同序列變異檢測軟件,如GATK(https://software.broadinstitute.org/gatk/)、SAMtools(http://www.htslib.org/)、SOAPsnp(http://soap.genomics.org.cn/soapsnp.html)等,或更新變異注釋軟件,如更新ANNOVAR軟件版本(http://www.openbioinformatics.org/annovar/annova_download_form.php)重新提取變異.對于人類孟德爾遺傳性疾病,考慮其發(fā)病率低,進行公共數(shù)據(jù)庫過濾時多以少數(shù)等位基因頻率(MAF)<0.1%作為顯性遺傳性疾病限定值[14],但可能導致假陰性結果[21?22].隨著精準醫(yī)療(PM)的開展,臨床信息完整并可長期隨訪的人群隊列基因組數(shù)據(jù)將不斷產(chǎn)生,可以有效解決現(xiàn)有數(shù)據(jù)庫臨床信息不足的問題.
不同生物信息學分析軟件預測致病性突變的方法各不相同,主要包括GERP++(http://mendel.stanford.edu/sidowlab/downloads/gerp/index.html)、PhyloP(http://compgen.bscb.cornell.edu/phast/)、SIFT(http://sift.jcvi.org)、PolyPhen?2(http://genetics.bwh.harvard.edu/pph2)、Mutation Taster(http://www.mutationtaster.org)、CADD(http://cadd.gs.washington.edu)等,其中,GERP++、PhyloP和SIFT軟件用于評價序列變異的保守性,PolyPhen?2軟件用于評價氨基酸和蛋白質(zhì)結構改變,Mutation Taster和CADD軟件用于評價變異功能[23].值得注意的是,預測致病性變異位點時,應避免僅采用一種預測方法的結果,亦應避免將多種預測方法的每種結果作為獨立支持證據(jù)而累加.
二代基因測序技術檢出的變異可能存在假陽性結果,應采用Sanger測序驗證.同時,對篩選出的候選變異位點,應在家系其他成員中進行共分離驗證.對于已知致病基因的新發(fā)變異(novel variants),可采用功能學試驗補充遺傳學和生物信息學分析.功能學試驗是否合理主要取決于所選取的功能模型是否適用于該疾病.可以根據(jù)具體情況進行自身組織和(或)細胞的功能學試驗,或者建立體內(nèi)或體外模型進行功能學試驗[10].
人類孟德爾遺傳性疾病序列變異解析原則主要包括:(1)按照5級分類原則進行變異解析,根據(jù)基因組序列變異類型、數(shù)據(jù)庫信息等將序列變異分為5級,即致病性(pathogenic)、可能致病性(likely pathogenic)、意義不明(uncertain significance)、可能良性(likely benign)和良性(benign).(2)按照4級分類或3級分類原則進行變異解析,根據(jù)序列變異類型、數(shù)據(jù)庫信息等將致病性突變證據(jù)分為4級,即非常強、強、中度和支持(表1)[4,24];將良性突變證據(jù)分
為3級,即獨立、強和支持(表2)[4,24].(3)按照序列變異致病性或良性證據(jù)累加作用原則進行變異解析,通過致病性或良性證據(jù)累加作用以判斷序列變異是致病性、可能致病性、可能良性或良性,若不符合上述標準或致病性證據(jù)與良性證據(jù)相互矛盾,則判斷為意義不明(表3)[4].值得注意的是,首先變異解析的5級分類原則本質(zhì)上是致病性概率的判斷,"可能(likely)"用于具有90%以上確定的可能致病性或可能良性;其次,旨在鑒定疾病新候選致病基因的情況并不適用于該序列變異解析原則;再次,由于大樣本人群變異數(shù)據(jù)庫的發(fā)展導致變異證據(jù)改變,以前不確定分類的變異可能需要進行再分析;最后,在變異證據(jù)分層存在差異時應請該疾病領域?qū)<疫M行判斷.
表1 序列變異致病性證據(jù)分層[4,24]Table 1. Criteria for classifying pathogenic variants[4,24]
表2 序列變異良性證據(jù)分層[4,24]Table 2. Criteria for classifying benign variants[4,24]
迄今臨床實踐中全外顯子組測序明確診斷率不足30%[2,20,25],假陰性率仍較高;亦有一些倫理學和遺傳學問題尚未解決,例如,是否應告知攜帶者、檢測結果解析出家庭中出現(xiàn)非血緣關系、變異可能不完全外顯、評價正常人群或無癥狀個體或者解釋與檢測初衷無關的偶然發(fā)現(xiàn)、檢測出致病性突變但缺乏有效治療藥物等[26];以及患者檢出2種或以上致病基因,如何精準解讀臨床表型與基因型之間的關系[27],上述問題的解決,應建立在合理的倫理學和遺傳咨詢基礎上[28].此外,還應考慮檢測結果解析錯誤可能對患者及其家屬的重要影響,如預防性乳腺切除術、心臟除顫器植入術和產(chǎn)前診斷決策,建議參考體格檢查、實驗室檢查、影像學檢查和電生理學檢查等輔助檢查結果,以提供合理檢測報告、開展遺傳咨詢和進行健康管理[1,4,29].
二代基因測序技術在人類孟德爾遺傳性疾病分子診斷和遺傳學研究中的應用,仍有許多亟待解決的問題.尤其是目前的序列變異解析并非完美,所報道的變異分類并非100%確定,變異分類基于臨床數(shù)據(jù)和經(jīng)驗,隨著基因組學數(shù)據(jù)的不斷增加,在現(xiàn)有指南基礎上,通過不同領域?qū)<夜餐瑓f(xié)作以建立更加精準的"基因?疾病"解讀指南是未來發(fā)展方向.隨著二代基因測序技術的發(fā)展和數(shù)據(jù)分析軟件的完善,檢測變異和分析變異能力必將逐步提高.同時,隨著精準醫(yī)療計劃的開展,也將為二代基因測序技術積累更多翔實、可靠的臨床信息和基因組學數(shù)據(jù),為該項技術更好地應用于人類孟德爾遺傳性疾病分子診斷、預防干預、藥物治療和藥物研發(fā)提供有力保證.
表3 根據(jù)致病性或良性證據(jù)分層進行序列變異解析的規(guī)則[4]Table 3. Rules for combining criteria to classify sequence variants[4]
[1]BieseckerLG,Green RC.Diagnostic clinicalgenome and exome sequencing.N Engl J Med,2014,371:1170.
[2]Lee H,Deignan JL,Dorrani N,Strom SP,Kantarci S,Quintero?Rivera F,Das K,Toy T,Harry B,Yourshaw M,Fox M,Fogel BL,Martinez?Agosto JA,Wong DA,Chang VY,Shieh PB,Palmer CG,Dipple KM,Grody WW,Vilain E,Nelson SF.Clinical exome sequencing for genetic identification of rare Mendelian disorders.JAMA,2014,312:1880?1887.
[3]Wang JL,Yang X,Xia K,Hu ZM,Weng L,Jin X,Jiang H,Zhang P,Shen L,Guo JF,Li N,Li YR,Lei LF,Zhou J,Du J,Zhou YF,Pan Q,Wang J,Wang J,Li RQ,Tang BS.TGM6 identified as a novel causative gene of spinocerebellar ataxias using exome sequencing.Brain,2010,133(Pt 12):3510?3518.
[4]Richards S,Aziz N,Bale S,Bick D,Das S,Gastier?Foster J,Grody WW,HegdeM,Lyon E,Spector E,Voelkerding K,Rehm HL;ACMG Laboratory Quality Assurance Committee.Standards and guidelines for the interpretation of sequence variants:a joint consensus recommendation of the American College of MedicalGenetics and Genomics and the Association for Molecular Pathology.Genet Med,2015,17:405?424.
[5]Frebourg,T.The challenge for the next generation of medical geneticists.Hum Mutat,2014,35:909?911.
[6]Altman RB,Prabhu S,Sidow A,Zook JM,Goldfeder R,Litwack D,Ashley E,AsimenosG,Bustamante CD,Donigan K,Giacomini KM,Johansen E,Khuri N,Lee E,Liang XS,Salit M,Serang O,Tezak Z,Wall DP,Mansfield E,Kass?Hout T.A research roadmap for next?generation sequencing informatics.Sci Transl Med,2016,8:335.
[7]Endrullat C,Glokler J,Franke P,Frohme M.Standardization and quality management in next?generation sequencing.Appl Transl Genom,2016,10:2?9.
[8]Singleton AB.Exome sequencing:a transformative technology.Lancet Neurol,2011,10:942?946.
[9]Matthijs G,Souche E,Alders M,Corveleyn A,Eck S,Feenstra I,Race V,Sistermans E,Sturm M,Weiss M,Yntema H,Bakker E,Scheffer H,Bauer P;EuroGentest,European Society of Human Genetics.Guidelines for diagnostic next?generation sequencing.Eur J Hum Genet,2016,24:2?5.
[10]MacArthurDG,Manolio TA,Dimmock DP,Rehm HL,Shendure J,Abecasis GR,Adams DR,Altman RB,Antonarakis SE,Ashley EA,Barrett JC,Biesecker LG,Conrad DF,Cooper GM,Cox NJ,Daly MJ,Gerstein MB,Goldstein DB,Hirschhorn JN,Leal SM,Pennacchio LA,Stamatoyannopoulos JA,Sunyaev SR,Valle D,Voight BF,Winckler W,Gunter C.Guidelines for investigating causality of sequence variants in human disease.Nature,2014,508:469?476.
[11]McKusick VA.Mendelian inheritance in man and its online version,OMIM.Am J Hum Genet,2007,80:588?604.
[12]Scherer SW,Lee C,Birney E,Altshuler DM,Eichler EE,Carter NP,Hurles ME,Feuk L.Challenges and standards in integrating surveys of structural variation.Nat Genet,2007,39:S7?15.
[13]den Dunnen JT,Dalgleish R,Maglott DR,Hart RK,Greenblatt MS,McGowan?Jordan J,Roux AF,Smith T,Antonarakis SE,Taschner PE.HGVS recommendations for the description of sequence variants:2016 update.Hum Mutat,2016,37:564?569.
[14]Bamshad MJ,Ng SB,Bigham AW,Tabor HK,Emond MJ,Nickerson DA,Shendure J.Exome sequencing as a tool for Mendelian disease gene discovery.Nat Rev Genet,2011,12:745?755.
[15]van Dijk EL,Auger H,Jaszczyszyn Y,Thermes C.Ten years of next?generation sequencing technology.Trends Genet,2014,30:418?426.
[16]Hiatt JB,Pritchard CC,Salipante SJ,O'Roak BJ,Shendure J.Single molecule molecular inversion probes for targeted,high?accuracy detection of low?frequency variation.Genome Res,2013,23:843?854.
[17]Huddleston J,Ranade S,Malig M,Antonacci F,Chaisson M,Hon L,Sudmant PH,Graves TA,Alkan C,Dennis MY,Wilson RK,Turner SW,Korlach J,Eichler EE.Reconstructing complex regions of genomes using long?read sequencing technology.Genome Res,2014,24:688?696.
[18]Seo JS,Rhie A,Kim J,Lee S,Sohn MH,Kim CU,Hastie A,Cao H,Yun JY,Kim J,Kuk J,Park GH,Kim J,Ryu H,Kim J,Roh M,Baek J,Hunkapiller MW,Korlach J,Shin JY,Kim C.De novo assembly and phasing of a Korean human genome.Nature,2016,538:243?247.
[19]Kiezun A,Garimella K,Do R,Stitziel NO,Neale BM,McLaren PJ,Gupta N,Sklar P,Sullivan PF,Moran JL,Hultman CM,Lichtenstein P,Magnusson P,Lehner T,Shugart YY,Price AL,de Bakker PI,Purcell SM,Sunyaev SR.Exome sequencing and the genetic basis of complex traits.Nat Genet,2012,44:623?630.
[20]Yang Y,Muzny DM,Reid JG,Bainbridge MN,Willis A,Ward PA,Braxton A,Beuten J,Xia F,Niu Z,Hardison M,Person R,Bekheirnia MR,Leduc MS,Kirby A,Pham P,Scull J,Wang M,Ding Y,Plon SE,Lupski JR,Beaudet AL,Gibbs RA,Eng CM.Clinical whole?exome sequencing for the diagnosis of Mendelian disorders.N Engl J Med,2013,369:1502?1511.
[21]Koboldt DC,Steinberg KM,Larson DE,Wilson RK,Mardis ER.The next?generation sequencing revolution and its impact on genomics.Cell,2013,155:27?38.
[22]Chen R,Shi L,Hakenberg J,Naughton B,Sklar P,Zhang J,Zhou H,Tian L,Prakash O,Lemire M,Sleiman P,Cheng WY,Chen W,Shah H,Shen Y,Fromer M,Omberg L,Deardorff MA,Zackai E,Bobe JR,Levin E,Hudson TJ,Groop L,Wang J,Hakonarson H,Wojcicki A,Diaz GA,Edelmann L,Schadt EE,Friend SH.Analysis of 589 306 genomes identifies individuals resilient to severe Mendelian childhood diseases. Nat Biotechnol,2016,34:531?538.
[23]KircherM,Witten DM,Jain P,O'RoakBJ,CooperGM,Shendure J.A general framework for estimating the relative pathogenicity of human genetic variants.Nat Genet,2014,46:310?315.
[24]Amendola LM,Jarvik GP,Leo MC,McLaughlin HM,Akkari Y,Amaral MD,Berg JS,Biswas S,Bowling KM,Conlin LK,Cooper GM,Dorschner MO,Dulik MC,Ghazani AA,Ghosh R,Green RC,HartR,Horton C,Johnston JJ,Lebo MS,Milosavljevic A,Ou J,Pak CM,Patel RY,Punj S,Richards CS,Salama J,Strande NT,Yang Y,Plon SE,Biesecker LG,Rehm HL.Performance ofACMG ?AMP variant?interpretation guidelines among nine laboratories in the clinical sequencing exploratory research consortium.Am J Hum Genet,2016,99:247.
[25]Yang Y,Muzny DM,Xia F,Niu Z,Person R,Ding Y,Ward P,Braxton A,Wang M,Buhay C,Veeraraghavan N,Hawes A,Chiang T,Leduc M,Beuten J,Zhang J,He W,Scull J,Willis A,Landsverk M,Craigen WJ,Bekheirnia MR,Stray?Pedersen A,Liu P,Wen S,Alcaraz W,Cui H,Walkiewicz M,Reid J,Bainbridge M,Patel A,Boerwinkle E,Beaudet AL,Lupski JR,Plon SE,GibbsRA,EngCM.Molecularfindingsamong patients referred for clinical whole?exome sequencing.JAMA,2014,312:1870?1879.
[26]Green RC,Berg JS,Grody WW,Kalia SS,Korf BR,Martin CL,McGuire AL,Nussbaum RL,O'Daniel JM,Ormond KE,Rehm HL,Watson MS,Williams MS,Biesecker LG;American College of Medical Genetics and Genomics.ACMG recommendations forreporting ofincidentalfindings in clinicalexome and genome sequencing.Genet Med,2013,15:565?574.
[27]Posey JE,Harel T,Liu P,Rosenfeld JA,James RA,Coban Akdemir ZH,Walkiewicz M,Bi W,Xiao R,Ding Y,Xia F,Beaudet AL,Muzny DM,Gibbs RA,Boerwinkle E,Eng CM,Sutton VR,Shaw CA,Plon SE,Yang Y,Lupski JR.Resolution of disease phenotypes resulting from multilocus genomic variation.N Engl J Med,2017,376:21?31.
[28]Biesecker LG.Exome sequencing makes medical genomics a reality.Nat Genet,2010,42:13?14.
[29]Rehm HL,Bale SJ,Bayrak?Toydemir P,Berg JS,Brown KK,Deignan JL,Friez MJ,Funke BH,Hegde MR,Lyon E;Working Group ofthe American College ofMedicalGenetics and GenomicsLaboratory Quality Assurance Commitee.ACMG clinical laboratory standards for next?generation sequencing.Genet Med,2013,15:733?747.
Genetic diseases,inborn; Genes; Mutation; Review
Clinical standards and interpretation of gene sequence variants in human Mendelian disorders
TANG Bei?sha1,2,ZENG Sheng1,LI Kai11Department of Neurology,Xiangya Hospital,2State Key Laboratory of Medical Genetics,National Clinical Research Center for Geriatric Diseases,Central South University,Changsha 410008,Hu'nan,China
TANG Bei?sha(Email:bstang7398@163.com)
This study was supported by Key Project of the National Natural Science Foundation of China(No.81130021).
10.3969/j.issn.1672?6731.2017.07.001
國家自然科學基金重點資助項目(項目編號:81130021)
410008長沙,中南大學湘雅醫(yī)院神經(jīng)內(nèi)科(唐北沙、曾勝、李凱),醫(yī)學遺傳學國家重點實驗室 國家老年疾病臨床醫(yī)學研究中心(唐北沙)
唐北沙(Email:bstang7398@163.com)
2017?07?01)