劉天資,王國經,周丁華
(1.中國科學院北京基因組研究所 精準基因組醫(yī)學重點實驗室, 北京 100101 2.中國人民解放軍火箭軍 特色醫(yī)學中心, 北京 100088)
隨著人類基因組計劃的完成和后基因組計劃的開展,人們對于基因組變異和疾病的認識也越來越深入。人類基因組上的變異主要分為三種:單核苷酸變異(SNP)、小片段序列的插入或刪除(Small Indel)和大片段的結構性變異(SV)。任何一種變異都可能會引起個體的表型或特征發(fā)生改變甚至引起疾病。
根據(jù)基因變異-疾病的關系可以將人類疾病分為三類。第一類是單基因遺傳病(Monogenic disease),僅一對等位基因的改變就會引發(fā)疾病并可以遺傳給后代[1],如血友病[2]和白化病[3]。雖然每種單基因遺傳病的發(fā)病率很低,但由于種類眾多(約5 000~8 000種),總發(fā)病率高達6%[1]。第二類是多基因疾病(Multigenic/polygenic disease),也稱為復雜性疾病(Complex disease),是涉及兩個或兩個以上的基因且通常和多種環(huán)境因素共同作用導致的疾病[4],如腫瘤[5]和糖尿病[6]等。第三類為獲得性基因病,主要是由病原微生物通過感染將其基因入侵到宿主,導致宿主基因組改變,如艾滋病、HPV感染及乙型肝炎等。
遺傳易感性研究通常關注的是與人類疾病相關的基因組變異,主要研究方法有基于家系的連鎖分析(Linkage analysis)、關聯(lián)分析(包含候選基因關聯(lián)分析(Candidate gene association study)、全基因組關聯(lián)分析(Genome-wide association study)和基因集合關聯(lián)分析(Gene set analysis))等。本文將介紹各種遺傳易感性研究方法的歷史、原理及進展。
連鎖分析研究的理論基礎是疾病家系中致病的基因或者染色體區(qū)域與疾病性狀共分離(Co-segregation),因此連鎖分析主要應用于單基因疾病研究。兩個在基因組上位置相鄰的基因座上的等位基因由于連鎖而共同分離,因此更容易作為一個單位共同遺傳給后代。因此,患病個體除攜帶致病性變異外,還會表現(xiàn)出攜帶與致病變異連鎖的遺傳標記位點(單核苷酸多態(tài)位點或微衛(wèi)星序列)。通過分析患者中共享的遺傳標記位點即可實現(xiàn)對于致病變異的定位[7]。由于來自一個家庭中父方或母方的共分離現(xiàn)象可能僅限于在此家庭內部,因此連鎖分析必須有患病家庭的數(shù)據(jù)?;诩蚁档倪B鎖分析有主要分為參數(shù)分析法、非參數(shù)分析法和核心家系法。
參數(shù)分析法(又稱基于模型分析法)是家系研究的傳統(tǒng)方法,主要通過最大似然法(Maximum-likelihood analysis)和LOD值[8]來檢測待研究的家系的遺傳模式是否符合一個已知影響表型的基因的遺傳模式(Mode of inheritance,MOI)[8-9]。LOD值于1955年由Morton首次提出[10],計算的是在一個家系中,兩個基因座按一定重組率(θ值)進行連鎖遺傳的可能性Lθ與不連鎖遺傳的可能性L0.5之比,體現(xiàn)為優(yōu)勢比的對數(shù)。公式如下:
其中NR指不連鎖的子代數(shù)量,R指連鎖的子代數(shù)量。參數(shù)0.5指的是根據(jù)孟德爾的自由組合定律,在隨機情況下任何兩個完全不連鎖的基因座都有50%的重組率。當LOD值≥3,即連鎖的可能性與不連鎖的可能性之比大于等于1 000∶1時,可以認為這兩個基因座在該家系樣本中是連鎖的[8,11],對應的p值為小于等于0.05[12]。
1992年,Schellenberg等人應用該方法鑒定了位于14染色體的ApoE4與家族型阿爾茲海默病連鎖[13]。隨后多項研究表明,ApoE4會顯著增加阿爾茲海默病的風險。攜帶一個ApoE4拷貝會增加2~3倍患病風險,而攜帶兩個拷貝患病風險會增加12倍[14]。病理學研究結果表明,攜帶ApoE4人群的大腦中積聚著更多的β淀粉樣蛋白斑塊,會阻斷神經元-神經元信號[15]。此外,應用參數(shù)方法鑒定的與疾病連鎖的基因位點的例子還包括家族非髓性甲狀腺癌[16]、家族型鼻咽癌[17]及冠心病[18]等。
基于模型的參數(shù)分析法需要預先獲得所研究性狀的遺傳模式、涉及的等位基因數(shù)量及外顯率,因此前期模型的錯誤預設對結果的影響非常大。為了解決參數(shù)分析法對預設參數(shù)極度敏感的難題,Weeks和Lange于1988年提出了連鎖分析的另一種研究方法——非參數(shù)分析法(又稱非基于模型分析法)[19],檢測的是該家系的遺傳模式是否背離了預期的自由組合模式[9],可以應用于無法預知疾病的遺傳模式或無法獲取足量的家庭成員數(shù)據(jù)的情況。非參數(shù)方法的原理是通過狀態(tài)同源(IBS,identical by state)和血緣同源(IBD,identical by descent)來進行等位基因共占(Allele sharing methods)分析[20-23]。IBS指一段DNA片段的序列在兩個或多個個體中完全一致;若該IBS片段是遺傳自同一個共同祖先,則該片段是IBD。IBD的片段同時也是IBS的,但是IBS的片段不一定都是IBD,還可能是由于突變或重組導致序列完全一致。非參數(shù)方法通過患者同胞對(ASP,affected sib pairs),患者親戚對(ARP,affected relative pairs)和家系患者(APM,affected-pedigree-member)[24-25]三種設計來檢測患病家系中患病和未患病個體的基因位點相似的程度,并判斷導致疾病的位點與測到的位點是否連鎖。非參數(shù)方法的優(yōu)點是研究對象相對容易收集,但檢驗效能相對較低且樣本量要求較大。
一項研究在123對慢性淋巴細胞性甲狀腺炎同胞對中,使用非參數(shù)ASP方法鑒定了基因組上與自身免疫疾病連鎖的5q31-q33區(qū)域和與慢性淋巴細胞性甲狀腺炎連鎖的8q23-q24區(qū)域[19]。此外,應用ASP鑒定的疾病連鎖位點有白血病[23]等;應用ARP鑒定的包括系統(tǒng)性紅斑狼瘡[26]和炎癥性腸病[27]等疾??;應用APM的研究主要有阿爾茨海默病[28-29]等。
復雜疾病遺傳易感性的分析最常用的方法是在人群中隨機選取的病例-對照法,但是由于樣本人群可能受到年齡、性別、種族或地域等因素而造成人群分層[30],從而對研究結果造成影響。家庭成員之間的遺傳背景相似,因此使用患者核心家系(Nuclear family)作為樣本進行基于家系的病例-對照研究可以避免樣本分層造成的影響[31-32]。核心家系(又稱三體家系)由一對夫妻及其至少一名患病子女構成[33],常用的研究方法是家系傳遞連鎖不平衡檢驗(Transmission disequilibrium test, TDT)[31]。TDT方法是在家系內進行相關分析,觀察雙親(至少一個為雜合子)將與候選致病位點連鎖的等位基因位點傳遞給患者子代的概率是否明顯增高而呈現(xiàn)出連鎖不平衡。與非參數(shù)分析方法相比,TDT方法可以研究位點與發(fā)病程度的關系及基因間的相互作用,比如應用TDT方法解決了胰島素基因與IDDM是否相關的問題[31]。此外,由于核心家系只需包含一個患病子代,因此達到同樣的檢驗效能所需的樣本量比非參數(shù)分析法大大減少。但缺點是晚發(fā)型疾病的患者不易取得其雙親的數(shù)據(jù),且部分攜帶疾病易感基因的個體因外顯不全而易被錯誤定為不患病個體。因而許多研究者提出了改善TDT的方法,比如Curtis提出以不患病同胞作為對照[34]。
核心家系可以用來鑒定多種疾病相關的基因和位點。例如,一項歐洲系統(tǒng)性紅斑狼瘡家系研究選取了103例核心家系及C1q 基因的 5 個tag-SNP進行分析,發(fā)現(xiàn)C1qA和 C1qC 與系統(tǒng)性紅斑狼瘡顯著相關[35]。此外,目前研究新生突變的主要方法是收集核心家系成員的全基因組測序數(shù)據(jù),通過比較父母與子代基因組的差異來尋找新生突變[36]。這種研究策略要求測序覆蓋度足夠大(大于30X),來避免測序中的抽樣誤差[37]。2015年解密發(fā)育障礙研究計劃(The Deciphering Developmental Disorders Study)收集了100 6個核心家系,鑒定了12個新生突變與個體生長發(fā)育疾病相關[38]。
基于家系的連鎖分析方法需要大量、完整且準確的家系樣本數(shù)據(jù),在實際研究中具有較大的局限性,而且無法用于分析復雜疾病。隨著二代測序技術的發(fā)展,研究者們開發(fā)了更有效的新方法來替代基于家系的連鎖分析方法。
關聯(lián)分析(Association study)是一種基于群體而非家系的研究方法,原理是通過分析在病例和對照中頻率有顯著差異的等位基因,來鑒定與疾病或性狀相關的易感基因和位點。關聯(lián)分析可以篩選與疾病或性狀相關的位點,但兩者的因果關系無法推測[39-40]。1996年Lander提出了常見變異導致常見疾病假說(Common Disease/Common Variant,CD/CV)[41]。該假說推測所有患有特定疾病或帶有特定表型的個體的基因組均有來自于一個共同祖先的常見變異。這些變異對疾病和表型的作用表現(xiàn)為累加效應或倍乘效應。根據(jù)該假說,疾病易感性是來源于某些特定的常見變異位點,這些位點在患者人群中的頻率顯著高于未患病人群。該假說適用于2型糖尿病相關的PPARγ基因[42]和阿爾茲海默病相關的APOEε4基因[43]。目前常用的關聯(lián)分析方法有候選基因關聯(lián)分析和全基因組關聯(lián)分析兩種。
候選基因關聯(lián)分析通過分析候選基因中的tag SNP或者候選SNP在病例樣本和對照樣本中等位基因的頻率,篩選出在統(tǒng)計學意義上具有顯著頻率差異的位點作為與疾病相關的位點。候選基因關聯(lián)分析最重要的是樣本人群和候選基因的挑選。病例和對照人群應選擇具有相似遺傳背景的樣本,這樣頻率差異顯著的位點才確實與疾病相關。候選基因位點可以通過以下幾個途徑挑選:(1)首先根據(jù)被研究的疾病(性狀)的發(fā)病機制,選擇可能相關的基因;再挑選可能會調控該基因或者編碼蛋白的SNP(通常為標記SNP,即tag SNP)[44-45];(2)通過全基因組關聯(lián)分析篩選的與疾病相關的基因和位點,然后將這些候選基因位點在另外一個人群中進行驗證[46];(3)將其他模式生物(如小鼠模型)的研究結果中與疾病相關的基因和位點作為候選基因,在人類疾病樣本中研究其同源基因的關聯(lián)性[47]。
最早使用候選基因關聯(lián)分析法定位的疾病關聯(lián)基因的例子是1983年基因APOC3(Apolipoprotein C3)上的位點被發(fā)現(xiàn)與高甘油三酯血癥和動脈粥樣硬化相關[48]。隨后,Kim等人使用比較基因組學和染色體遺傳方法發(fā)現(xiàn)了與人類和豬肥胖特性相關的基因[49]。通候選基因關聯(lián)分析還在108例藏族人樣本中發(fā)現(xiàn)了EDAR基因的位點與血氧飽和度及血小板數(shù)量相關,提示EDAR基因對藏族人的高海拔低氧環(huán)境適應有正向的貢獻[50]。
全基因組關聯(lián)分析(Genome-wide association study, GWAS)是在具有不同特性的人群中進行全基因組水平的關聯(lián)分析的方法。與候選基因關聯(lián)分析不同,全基因組關聯(lián)分析針對的是所有的遺傳位點。20世紀90年代末,全世界開始大規(guī)模構建生物樣本數(shù)據(jù)庫。世界各地的研究者都可以上傳或獲取數(shù)據(jù)庫中的樣本和基因組數(shù)據(jù),使得樣本收集的成本和難度大幅下降[51]。2003年完成的人類基因組單體型圖(HapMap Project)計劃[52]為全基因組關聯(lián)分析研究使用的絕大多數(shù)SNP位點提供了單體型信息。基于以上因素及全基因組分型芯片技術的發(fā)展,全基因組關聯(lián)分析成為了鑒定復雜疾病或性狀研究中最常用的方法。
全基因組關聯(lián)分析的經典步驟為:(1)發(fā)現(xiàn)與疾病或性狀顯著相關的位點;(2)在擴大樣本中重復發(fā)現(xiàn)關聯(lián)位點;(3)精細定位;(4)通過功能分析驗證候選位點[53]。其中第一步發(fā)現(xiàn)候選位點為最關鍵的步驟。一個位點的致病風險通常用優(yōu)勢比(Odds Ratio)來代表,指的是攜帶該位點中一個等位基因的樣本的患病概率和不攜帶該等位基因的患病概率的比值。當病例組樣本中等位基因頻率高于對照組樣本時,優(yōu)勢比大于1,因此可以通過統(tǒng)計檢驗優(yōu)勢比是否顯著大于1來篩選與疾病顯著相關的位點及等位基因。當分析的SNP數(shù)量多達數(shù)十萬個的情況下,一般選擇5×10-8作為p值顯著的閾值[54]。第二步擴大樣本驗證是為了去除第一步發(fā)現(xiàn)的假陽性位點,通常在更大規(guī)模的疾病-對照樣本中將發(fā)現(xiàn)的相關位點進行候選基因關聯(lián)分析[55]。此時由于只針少數(shù)的候選基因位點進行分析,所以P值閾值可以不受限制(通常為0.05或0.01),樣本數(shù)也可以極大的增加。
全基因組關聯(lián)分析目前已經得到了非常廣泛的應用。根據(jù)NHGRI-EBI GWAS Catalog的統(tǒng)計,截止到2019年4月6日,已發(fā)表了3 923項全基因組關聯(lián)分析研究并發(fā)現(xiàn)了134 705個關聯(lián)性。
關聯(lián)分析通常是針對一組病例-對照樣本進行逐個位點的卡方檢驗。為了發(fā)現(xiàn)更多的候選位點及微效基因位點,研究者基于單點單組樣本關聯(lián)分析又開發(fā)了多種研究方法,比如imputation、meta-analysis、上位效應研究(Epistasis)和基因集合關聯(lián)分析(Gene set analysis,GSA)。
運用imputation,可以基于已知的基因型(如國際人類基因組單體型圖計劃[56]和千人基因組計劃[57]來預測缺失位點的基因型,使得用于分析的位點數(shù)大大增加,從而實現(xiàn)對于易感性位點的精細定位。而meta-analysis則可以將多個關聯(lián)分析的結果進行整合分析,保證微效位點的有效檢出。
人們發(fā)現(xiàn)大多數(shù)數(shù)量性狀受多個位點共同作用的復雜性狀[58],因此發(fā)現(xiàn)更多的微效位點及位點之間的相互作用非常重要。上位效應指的是一個位點的作用取決于其他一個或多個位點的現(xiàn)象[59]。這種現(xiàn)象導致了這些位點對性狀的貢獻度背離了線性疊加模型[60]。通過該方法,可以檢測出多個位點之間的相互作用及其對表型的影響?;蚣详P聯(lián)分析則通常選擇與待研究疾病或性狀相關的通路上的基因作為候選基因集合,關注的不是單個基因位點而是整個代謝通路或多個候選基因整體與疾病和性狀的關聯(lián)性[61]。這種方法可以發(fā)現(xiàn)疾病和性狀遺傳機制中的“多基因微效”效應,是目前鑒定復雜疾病的新方法之一。
關聯(lián)分析經常用來鑒定復雜疾病的易感基因。2005年一項發(fā)表在Science雜志的研究鑒定了一個在老年性黃斑變性的病例-對照中有顯著的頻率差異的CFH基因位點[62]。這是第一項應用全基因組關聯(lián)分析進行疾病易感基因定位的研究。在此之后,全基因組關聯(lián)分析就成為了鑒定疾病易感基因和復雜性狀相關基因的主要方法。現(xiàn)在全基因組關聯(lián)分析的策略是綜合多個表型(表型組)數(shù)據(jù),使用大樣本人群隊列進行分析,如使用了344 369例樣本,發(fā)現(xiàn)了編碼的15個常見多態(tài)和9個低頻突變與人類身體脂肪分布特征顯著相關[63]。
關聯(lián)分析還可以用來分析候選基因位點與位點附近的基因的表達量的關聯(lián)性,即表達數(shù)量性狀基因座(Expression Quantitative Trait Loci,簡稱eQTL)。eQTL是把基因的表達量作為數(shù)量性狀,研究候選位點與基因表達的關系。例如通過關聯(lián)分析發(fā)現(xiàn)的一個eQTL基因座為SORT1[64]。隨后通過功能實驗發(fā)現(xiàn)SORT1與低密度脂蛋白的代謝相關,對心血管疾病治療有重要意義[64-66]。
除了鑒定疾病易感基因,全基因組關聯(lián)分析還可用于群體遺傳學研究。2010年的一項研究將藏族人作為“病例”,與其有相似遺傳背景的漢族人作為“對照”,通過全基因組關聯(lián)分析發(fā)現(xiàn)了EPAS1基因上的位點的漢藏頻率差異最顯著,且這些位點在藏族人中與較低的血紅蛋白濃度顯著相關[67]。
連鎖分析和關聯(lián)分析是兩種有本質區(qū)別的研究方法,前者研究的是在一個家系中基因的遺傳特性是否與疾病的傳遞相關,適用于家系中首位攜帶致病位點的個體與所收集到最年輕的個體相隔一代或幾代的情況;而后者是基于樣本群體的基因頻率差異研究該基因是否與患病相關,可以用于分析大量無親緣關系但擁有一個遙遠的共同祖先的患病個體?;诩蚁档倪B鎖分析只適合研究單基因遺傳病[68],且鑒定的與疾病相關的區(qū)域較大,而關聯(lián)分析在發(fā)現(xiàn)疾病的微效遺傳機制時比連鎖分析更為有效[69],通常定位的區(qū)域非常短,因此可以應用于復雜疾病的研究。
同時關聯(lián)分析也具有許多局限性。首先由于關聯(lián)分析的樣本在一定程度上是隨機選擇的,因此對照樣本與病例樣本的遺傳背景不一致的情況會造成位點等位基因頻率差異與是否患病無關,而與樣本人群遺傳背景相關。其次,樣本的性別、年齡、職業(yè)等因素也會對結果產生影響[30]。因此必須控制樣本人群分層來排除假陽性??刹捎萌缦路椒ǎ孩俦M量選擇與患病人群相對同源的群體作為對照樣本(如職業(yè)人群隊列或核心家系未患病成員);②分析時將多個變量作為協(xié)變量來排除其對結果的影響;③對結果的p值進行校正(如Genomic control校正[70])(見圖1)。
圖1 關聯(lián)分析和連鎖分析原理及應用的比較Fig.1 Linkage analysis and association mapping
目前應用于疾病易感性研究的幾種方法,這些方法均基于目前基因組分型和測序技術的快速發(fā)展及人類基因組數(shù)據(jù)的極大累積。每種方法均有各自的優(yōu)勢和局限性,因此研究者可以根據(jù)待研究的疾病或性狀的特性及樣本屬性來選擇合適的方法。由于疾病是多種環(huán)境和遺傳因素共同作用的結果,發(fā)病機制非常復雜,因此未來仍需更多更有效的分析方法來研究基因組變異和疾病易感性的關系。