宋慶峰,張紅星,馬亦龍,周鋼橋
1.廣西醫(yī)科大學(xué)附屬腫瘤醫(yī)院介入治療科,南寧 530021;2.軍事醫(yī)學(xué)科學(xué)院放射與輻射醫(yī)學(xué)研究所,北京蛋白質(zhì)組學(xué)研究中心,蛋白質(zhì)組學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 102206;3.蛋白質(zhì)藥物國(guó)家工程研究中心,北京 102206;4.國(guó)家蛋白質(zhì)科學(xué)中心(北京),北京 102206
截止到2012年4月,以單核苷酸多態(tài)性(Singlenucleotide polymorphism,SNP)為遺傳標(biāo)記,采用全基因組關(guān)聯(lián)研究(Genome wide association studies,GWAS)的策略已在 666種疾病(或性狀)中發(fā)現(xiàn)了3869個(gè)顯著關(guān)聯(lián)(P<5.0×10–8)的遺傳易感基因區(qū)域[1]。但是,在這些區(qū)域內(nèi),與復(fù)雜疾病最顯著關(guān)聯(lián)的遺傳變異或致病性遺傳變異都有待進(jìn)一步確認(rèn),其生物學(xué)功能也尚待深入闡明。當(dāng)遺傳易感基因區(qū)域內(nèi)的 SNP位點(diǎn)之間存在較強(qiáng)的連鎖不平衡(Linkage disequilibrium,LD)以及存在遺傳因素和環(huán)境因素交互作用時(shí),上述工作變得更加具有挑戰(zhàn)性。后GWAS時(shí)代的主要任務(wù)之一是對(duì)復(fù)雜疾病易感區(qū)域內(nèi)的致病性遺傳變異進(jìn)行精細(xì)定位(Fine mapping),即在通過(guò)GWAS鑒定到的疾病易感區(qū)域內(nèi)獲取高密度的遺傳變異目錄及其基因型,從中鑒定出易感區(qū)域內(nèi)最顯著關(guān)聯(lián)或致病性的遺傳變異,并闡明其生物學(xué)功能[2]。目前,已出現(xiàn)一些系統(tǒng)性的策略用于復(fù)雜疾病的精細(xì)定位研究(表1)。
SNP是可遺傳的變異中最常見(jiàn)的一種變異形式,在群體中其次要等位頻率(Minor allele frequency,MAF)大于1%。目前,GWAS采用的商業(yè)化SNP分型芯片已經(jīng)可以同時(shí)檢測(cè)100萬(wàn)個(gè)甚至更多的SNP位點(diǎn)。但是,這些芯片仍遠(yuǎn)未能覆蓋人類基因組中的全部 SNP位點(diǎn),一些與復(fù)雜性狀最顯著關(guān)聯(lián)的SNP位點(diǎn)可能會(huì)被遺漏。因此,獲得易感基因區(qū)域內(nèi)高密度的SNP目錄是進(jìn)行精細(xì)定位的前提之一。可以通過(guò)以下兩種方法增加易感基因區(qū)域內(nèi)的 SNP密度,然后再進(jìn)行遺傳關(guān)聯(lián)分析,以確定最顯著關(guān)聯(lián)的SNP位點(diǎn)。
1.1.1 根據(jù)參考數(shù)據(jù)集進(jìn)行SNP的推斷(Imputation)
由許多國(guó)家共同參與的“人類基因組單體型圖計(jì)劃”(HapMap計(jì)劃)和“千人基因組計(jì)劃”(1000 genome project)為人們提供了比較全面的人類基因組DNA序列變異數(shù)據(jù)。以這些研究計(jì)劃產(chǎn)生的SNP數(shù)據(jù)為參考集,可以通過(guò)計(jì)算推斷出與已分型 SNP位點(diǎn)相鄰的未分型SNP位點(diǎn)的基因型,從而大大降低遺漏的可能性[3]。用于推斷的代表性軟件有MACH[4]和IMPUTE[4]等,現(xiàn)已得到廣泛應(yīng)用。例如,Raychaudhuri等[5]以2767個(gè)個(gè)體的全基因組數(shù)據(jù)為參考集,對(duì)6個(gè)獨(dú)立的類風(fēng)濕性關(guān)節(jié)炎的GWAS數(shù)據(jù)集進(jìn)行推斷,并對(duì)推斷結(jié)果進(jìn)行了遺傳關(guān)聯(lián)分析,結(jié)果在 MHC區(qū)域發(fā)現(xiàn)了 5個(gè)新的與疾病顯著關(guān)聯(lián)的 SNP 位點(diǎn)(P<1.0 ×10–550)。Peters等[6]在 20488 個(gè)非洲裔美國(guó)人中,對(duì)體重指數(shù)(Body mass index,BMI)的候選易感基因區(qū)域——FTO基因所在的基因組區(qū)域(646 kb)進(jìn)行推斷和關(guān)聯(lián)分析,結(jié)果鑒定出一個(gè)新的與體重指數(shù)顯著關(guān)聯(lián)的SNP位點(diǎn)rs56137030(P= 8.3 × 10-6)。Liu 等[7]在來(lái)自英國(guó)的 2861 例原發(fā)性膽汁性肝硬化患者(Primary biliary cirrhosis,PBC)和 8514例對(duì)照中,對(duì)約 20萬(wàn)個(gè)多態(tài)性位點(diǎn)進(jìn)行分型、推斷和關(guān)聯(lián)分析,結(jié)果新發(fā)現(xiàn)了3個(gè)與PBC顯著關(guān)聯(lián)的SNP位點(diǎn)(P<5.0 ×10–8)。以往在日本人群中開(kāi)展的 GWAS研究發(fā)現(xiàn),MICA基因上的rs2596542與丙型肝炎(Hepatitis C virus,HCV)相關(guān)的肝細(xì)胞癌(Hepatocellular carcinoma,HCC)顯著關(guān)聯(lián)。Lange等[8]進(jìn)一步在瑞士人群中對(duì)此區(qū)域進(jìn)行了分型和推斷,關(guān)聯(lián)分析結(jié)果表明,MICA基因上游HCP5基因上的rs2244546是一個(gè)新的疾病易感性標(biāo)志物。
SNP的推斷基于單體型結(jié)構(gòu)和單體型內(nèi)各SNP位點(diǎn)之間的LD程度,參考集的樣本量越大,推測(cè)的成功率和準(zhǔn)確率就越高。但是在現(xiàn)階段,各項(xiàng)研究所能提供的參考集的樣本量均較小。另外,有些SNP位點(diǎn)在人群中等位頻率較低(MAF <2%),且與鄰近的已被芯片檢測(cè)到的 SNP位點(diǎn)并不存在較強(qiáng)的LD(r2<0.8),從而無(wú)法被成功推斷出來(lái)[9]。因此,用推斷這種方法無(wú)法徹底解決最顯著關(guān)聯(lián)的SNP被遺漏的情況。
1.1.2 對(duì)目標(biāo)區(qū)域進(jìn)行重測(cè)序(Target region resequencing)
對(duì)GWAS鑒定的易感基因區(qū)域進(jìn)行重測(cè)序,將有助于全面了解一個(gè)區(qū)域內(nèi)所有的遺傳變異信息,并發(fā)現(xiàn)與復(fù)雜性狀最顯著關(guān)聯(lián)的 SNP位點(diǎn)。此外,還可以發(fā)現(xiàn)一些新的功能性罕見(jiàn)變異(Rare variation)[10]或結(jié)構(gòu)變異,如拷貝數(shù)變異(Copy number variation,CNV)[11]和小的插入-缺失變異(Indel)等[12],從而鑒定到易感基因區(qū)域內(nèi)與復(fù)雜性狀最顯著關(guān)聯(lián)的或致病性的其他各類遺傳變異形式。近年來(lái),高通量的二代測(cè)序技術(shù)得以迅速發(fā)展,大大降低了測(cè)序的費(fèi)用及縮短了測(cè)序的時(shí)間,使得在大量樣本中進(jìn)行目標(biāo)區(qū)域的重測(cè)序成為現(xiàn)實(shí)。例如,Xiang等[13]對(duì)已知的高原低氧適應(yīng)基因EGLN1所在的基因組區(qū)域(長(zhǎng)約 59.4 kb)進(jìn)行重測(cè)序,新發(fā)現(xiàn)一個(gè)非同義突變(rs186996510,D4E)的頻率在高原藏族人群和低海拔漢族人群中存在顯著差異(Fst= 0.709),提示rs186996510可能是高原低氧適應(yīng)的成因性SNP。在對(duì)鐮刀狀紅細(xì)胞貧血的易感基因重測(cè)序研究中,除了發(fā)現(xiàn)新的顯著關(guān)聯(lián)的常見(jiàn)變異位點(diǎn)外,還在MYB基因上發(fā)現(xiàn)了 3個(gè)新的與疾病顯著關(guān)聯(lián)(P=5.0×10–3)的罕見(jiàn)遺傳變異[14]。
確定了與復(fù)雜疾病等性狀最顯著關(guān)聯(lián)的遺傳變異后,還要闡明其生物學(xué)功能。通過(guò)GWAS鑒定到的最顯著關(guān)聯(lián)的SNP位點(diǎn)大多位于內(nèi)含子、基因間區(qū)等非編碼區(qū)域內(nèi),這對(duì)于直接闡明易感SNP位點(diǎn)的生物學(xué)功能造成了一定的困難。研究顯示,這些SNP位點(diǎn)主要通過(guò)改變相關(guān)基因的轉(zhuǎn)錄表達(dá)水平或者轉(zhuǎn)錄本的剪接等方式影響疾病的發(fā)生風(fēng)險(xiǎn)[15]。
1.2.1 通過(guò)調(diào)控元件分析尋找功能性的SNP位點(diǎn)和易感基因
啟動(dòng)子、沉默子和絕緣子等基因表達(dá)調(diào)控元件,能夠通過(guò)正調(diào)控[16]或負(fù)調(diào)控[17]的機(jī)制來(lái)調(diào)節(jié)相關(guān)基因的表達(dá)量。而組蛋白、非編碼RNA等表觀調(diào)控元件,能夠通過(guò)末端修飾[18]、自身活性的改變[19]或量的改變[20]等機(jī)制來(lái)調(diào)節(jié)相關(guān)基因的表達(dá)量。因此,位于各類調(diào)控元件序列中的與疾病易感性顯著關(guān)聯(lián)的遺傳變異,有可能通過(guò)自身等位型的變化影響這些調(diào)控元件的調(diào)控機(jī)制而影響相關(guān)基因的表達(dá)水平,從而影響疾病發(fā)生的風(fēng)險(xiǎn)[21]。例如,Pomerantz等[22]研究發(fā)現(xiàn),結(jié)直腸癌的易感基因區(qū)域8q24中最顯著關(guān)聯(lián)的SNP位點(diǎn)是rs6983267,該SNP位于MYC基因的增強(qiáng)子序列內(nèi),其風(fēng)險(xiǎn)等位型能夠增加MYC基因的增強(qiáng)子與轉(zhuǎn)錄因子TCF7L2的結(jié)合,導(dǎo)致MYC基因的表達(dá)量增加,從而增加結(jié)直腸癌的發(fā)生風(fēng)險(xiǎn)。Peters等[6]在FTO基因所在基因組區(qū)域發(fā)現(xiàn)了一個(gè)新的與體重指數(shù)顯著關(guān)聯(lián)的SNP位點(diǎn)rs56137030(P= 8.3 × 10-6),并進(jìn)一步發(fā)現(xiàn)有多個(gè)與之呈強(qiáng)LD的 SNP位點(diǎn)處于調(diào)控元件之中,其中 rs1421085在轉(zhuǎn)錄因子CUX1的結(jié)合上具有等位特異性。也有研究發(fā)現(xiàn),某些遺傳變異可以影響基因網(wǎng)絡(luò)內(nèi)不同中樞節(jié)點(diǎn)之間的聯(lián)絡(luò),進(jìn)而影響下游基因的表達(dá)量,最終影響疾病的發(fā)病風(fēng)險(xiǎn)[23]。
表1 精細(xì)定位的研究策略
1.2.2 通過(guò)eQTL分析尋找功能性的SNP位點(diǎn)和易感基因
在人類基因組上,能夠影響基因的mRNA或蛋白表達(dá)水平的遺傳變異位點(diǎn)稱為表達(dá)數(shù)量性狀位點(diǎn)(Expression quantitative trait locus,eQTL),檢測(cè)遺傳變異與mRNA或蛋白質(zhì)表達(dá)量之間是否有關(guān)聯(lián)的統(tǒng)計(jì)分析,稱為eQTL分析[24]。對(duì)GWAS鑒定到的易感基因區(qū)域內(nèi)的SNP位點(diǎn)進(jìn)行eQTL分析,有可能發(fā)現(xiàn)直接影響相關(guān)基因表達(dá)、進(jìn)而改變疾病發(fā)生風(fēng)險(xiǎn)的功能性SNP位點(diǎn)。按照功能性SNP位點(diǎn)與受其調(diào)控的基因之間的距離,可以分為順式(cis-eQTL,1 Mb范圍內(nèi))和反式(trans-eQTL,1 Mb范圍之外)調(diào)控兩種類型[25]。在以往的研究中,eQTL分析大多是在淋巴細(xì)胞系中進(jìn)行,例如 Morley等[26]在 14個(gè)大家系的永生化B細(xì)胞中發(fā)現(xiàn),近1000個(gè)SNPs能夠作為順式或者反式eQTL位點(diǎn)調(diào)節(jié)3554個(gè)基因的表達(dá)量。但是,在復(fù)雜疾病的研究中,eQTL分析更應(yīng)該在與疾病對(duì)應(yīng)的特定組織中進(jìn)行[27]。例如,在肝臟組織中,對(duì)高脂血癥的易感基因區(qū)域 1p13開(kāi)展的eQTL分析顯示,最顯著關(guān)聯(lián)的SNP位點(diǎn)(rs12740374,P< 1.0 × 10–40)的風(fēng)險(xiǎn)等位型能增強(qiáng)SORT1基因啟動(dòng)子與轉(zhuǎn)錄因子 C/EBP的結(jié)合,從而增加該基因在肝臟中的表達(dá),使肝臟中極低密度脂蛋白(Very low-density lipoprotein,VLDL)的分泌增加,進(jìn)而增加血清中低密度脂蛋白(Low-density lipoprotein cholesterol,LDL)和 VLDL的濃度,最終增加高脂血癥的發(fā)生風(fēng)險(xiǎn)[28]。
單體型是指在后代個(gè)體中沒(méi)有發(fā)生重組的祖先染色體片段。由于構(gòu)成單體型的SNP位點(diǎn)都位于同一條染色體上的某一區(qū)域內(nèi),且各位點(diǎn)之間具有一定程度的LD,所以有時(shí)難以通過(guò)獨(dú)立性檢驗(yàn)判定哪個(gè) SNP位點(diǎn)與疾病更具有關(guān)聯(lián)性。在這種情況下,這些SNP位點(diǎn)可能以單體型的形式與疾病相關(guān)聯(lián)[2]。例如,Galameau等[14]在對(duì)鐮刀狀紅細(xì)胞貧血的研究中,發(fā)現(xiàn)rs7599488和rs10189857(r2= 0.96)與血紅蛋白濃度之間存在顯著關(guān)聯(lián); 進(jìn)一步的單體型分析發(fā)現(xiàn),與既往研究中所發(fā)現(xiàn)的關(guān)聯(lián)位點(diǎn)rs4671393(P=3.7 × 10–37)相比,rs7599488、rs10189857 和 rs4671393構(gòu)成的單體型具有更加顯著的關(guān)聯(lián)程度((P= 4.0×10–45),從而提示這3個(gè)SNP位點(diǎn)通過(guò)單體型的形式共同在鐮刀狀紅細(xì)胞貧血的易感性上發(fā)揮作用。
在確定了單體型與疾病的相關(guān)性后,如何確定候選易感基因是極其關(guān)鍵的一步。對(duì)于一些長(zhǎng)度較短、只包含有一個(gè)基因的單體型而言,可直接將該基因確定為候選易感基因。對(duì)于長(zhǎng)度較長(zhǎng)、包含有多個(gè)基因的單體型而言,可以嘗試在不同種族人群之間比較SNP位點(diǎn)之間LD程度的差異來(lái)定位候選易感基因。
HapMap計(jì)劃和千人基因組計(jì)劃的單體型數(shù)據(jù)顯示,同一基因組區(qū)域內(nèi)的單體型結(jié)構(gòu)在不同種族之間具有差異性。非洲人的單體型比其他種族的單體型更短,原因在于非洲人有更長(zhǎng)的歷史,從而有更多的重組來(lái)打破原有單體型的結(jié)構(gòu),從而形成新的單體型。同時(shí),大量 GWAS顯示,同種疾病在不同種族之間具有共同的易感區(qū)域[29]。例如,針對(duì)發(fā)作性睡病(Narcolepsy)的GWAS顯示,19q13.2區(qū)域是高加索人、亞洲人和非洲裔美國(guó)人 3個(gè)不同種族共同的易感基因區(qū)域[30]。6q23區(qū)域是高加索人和亞洲人共有的系統(tǒng)性紅斑狼瘡的易感基因區(qū)域,進(jìn)一步對(duì)比兩個(gè)種族中該區(qū)域的風(fēng)險(xiǎn)單體型結(jié)構(gòu),發(fā)現(xiàn)其中有連續(xù)6個(gè)SNP位點(diǎn)的基因型完全一致。因此,推測(cè)這6個(gè)位點(diǎn)所構(gòu)成的單體型可能為兩種人群共有的風(fēng)險(xiǎn)單體型,據(jù)此可將易感基因區(qū)域縮小至 48.5 kb,并確定了TNFAIP3是系統(tǒng)性紅斑狼瘡的候選易感基因[31]。最近,Wu等[32]通過(guò)在不同種族人群中對(duì)血脂水平的候選易感基因進(jìn)行精細(xì)定位分析,成功地將GCKR、PPP1R3B、ABO、LCAT和ABCA1等易感基因的致病性位點(diǎn)進(jìn)一步縮小了范圍,例如發(fā)現(xiàn)GCKR基因中的功能性變異 rs1260326(P446L)可能是甘油三脂水平的成因性 SNP。因此,在不同種族中比較同一易感基因區(qū)域的單體型結(jié)構(gòu),有利于縮小易感區(qū)域的范圍和最終確定候選易感基因。
GWAS常常是基于“常見(jiàn)疾病-常見(jiàn)變異”的假說(shuō)而開(kāi)展的。但是基于“常見(jiàn)疾病-罕見(jiàn)變異”假說(shuō)開(kāi)展的研究顯示,基因編碼區(qū)內(nèi)新近發(fā)生的罕見(jiàn)遺傳變異(MAF<1%)中富集了較多的有害變異,因此也能影響復(fù)雜疾病發(fā)生的風(fēng)險(xiǎn)[33]。例如,Dickson等[34]對(duì)耳聾 GWAS鑒定到的易感區(qū)域進(jìn)行重測(cè)序研究,發(fā)現(xiàn)該易感區(qū)域內(nèi)的罕見(jiàn)變異同樣可影響疾病的患病風(fēng)險(xiǎn)。Azzopardi等[35]對(duì)結(jié)直腸腺瘤的易感基因APC進(jìn)行重測(cè)序后發(fā)現(xiàn),在未攜帶已知常見(jiàn)風(fēng)險(xiǎn)基因型的個(gè)體中,基因上多個(gè)罕見(jiàn)變異與患病風(fēng)險(xiǎn)具有顯著的相關(guān)性(P= 1.7 ×10–2)。
由于罕見(jiàn)變異產(chǎn)生的時(shí)間較短,在人群中的頻率很低,想要有效的發(fā)現(xiàn)這些變異需要比發(fā)現(xiàn)常見(jiàn)變異更大的樣本量和更多的經(jīng)費(fèi)[36],這都極大地限制了對(duì)罕見(jiàn)變異的研究。例如,在一項(xiàng)對(duì)炎癥性腸病的70個(gè)已知易感基因的重測(cè)序研究中,在第一階段對(duì) 112個(gè)病例和 112個(gè)對(duì)照進(jìn)行重測(cè)序后,未發(fā)現(xiàn)與疾病發(fā)生風(fēng)險(xiǎn)顯著關(guān)聯(lián)的罕見(jiàn)變異,于是在第二階段擴(kuò)大樣本量,對(duì)896個(gè)病例和1216個(gè)對(duì)照進(jìn)行重測(cè)序,最終在IL23R基因上發(fā)現(xiàn)了p.Arg86Gln、p.Gly149Arg 和 p.Val362Ile與疾病發(fā)生風(fēng)險(xiǎn)顯著關(guān)聯(lián)的罕見(jiàn)變異[37]。
最近的研究結(jié)果顯示了罕見(jiàn)變異的一些新規(guī)律,包括下文中提及的罕見(jiàn)單體型攜帶罕見(jiàn)變異、罕見(jiàn)變異在疾病家系中具有較高的頻率和多個(gè)罕見(jiàn)變異具有累積效應(yīng)等。針對(duì)這些規(guī)律制定的研究策略不但有效地提高了檢測(cè)罕見(jiàn)變異的檢驗(yàn)效能,而且減少了需要研究的樣本量。
DNA序列中新的罕見(jiàn)變異可以與常見(jiàn)變異一起構(gòu)成新的單體型,這些單體型由于產(chǎn)生的時(shí)間較短,沒(méi)有足夠的時(shí)間傳播,所以在人群中的頻率小于1%。對(duì)與疾病相關(guān)聯(lián)的由常見(jiàn)變異構(gòu)成的罕見(jiàn)單體型進(jìn)行重測(cè)序,有可能在這些罕見(jiàn)單體型上發(fā)現(xiàn)致病的功能性罕見(jiàn)變異[38]。例如,Raychaudhuri等[39]對(duì)老年性黃斑變性GWAS鑒定的易感區(qū)域進(jìn)行深入研究,發(fā)現(xiàn)在對(duì)照組中頻率為 0.048%的 H5單體型(CFH基因)能增加疾病的患病風(fēng)險(xiǎn)。對(duì)該易感區(qū)域內(nèi)攜帶不同結(jié)構(gòu)單體型的 84個(gè)個(gè)體進(jìn)行重測(cè)序后發(fā)現(xiàn),攜帶H5單體型的6個(gè)個(gè)體在CFH基因的22號(hào)外顯子上均有一個(gè)能夠直接改變氨基酸的罕見(jiàn)變異R1210C(在人群中的頻率小于0.1%),而在其他攜帶非H5單體型的個(gè)體中均未發(fā)現(xiàn)該變異。通過(guò)上述研究策略,Raychaudhuri等成功地從罕見(jiàn)單體型上發(fā)現(xiàn)了一個(gè)與疾病易感性顯著關(guān)聯(lián)的罕見(jiàn)變異(P=9.4 × 10–3)。
在家系中,各成員來(lái)源于共同的祖先,其中某一患者攜帶的致病變異可能會(huì)傳遞給下一代子女,并導(dǎo)致他們患病。因此,在普通人群中頻率較低的致病性罕見(jiàn)變異,在家系患病個(gè)體中會(huì)具有較高的頻率,從而更容易被發(fā)現(xiàn)并了解其遺傳模式。例如,Ewing等[40]在對(duì)前列腺癌易感區(qū)域17q21-22的研究中,發(fā)現(xiàn)與前列腺癌發(fā)生風(fēng)險(xiǎn)相關(guān)的 rs138213197在5083個(gè)患者中的等位頻率為1.4%,在1401個(gè)對(duì)照個(gè)體中的頻率為0.1%。但是,在4個(gè)前列腺癌的大家系中該變異的頻率為 34%,在攜帶該變異的成員中有 82%的個(gè)體患病,大大高于在隨機(jī)人群中的比例。上述研究結(jié)果顯示,基于家系的研究策略在精細(xì)定位研究中可能更具有優(yōu)勢(shì)。
因?yàn)楹币?jiàn)遺傳變異的發(fā)生具有隨機(jī)性,所以易感區(qū)域內(nèi)與疾病發(fā)生風(fēng)險(xiǎn)相關(guān)聯(lián)的罕見(jiàn)變異在不同的患病個(gè)體中可能發(fā)生在同一易感基因的不同外顯子上,對(duì)于這些罕見(jiàn)變異,主要通過(guò)負(fù)荷檢驗(yàn)(Burden test)來(lái)鑒定其所在的易感基因,同時(shí)鑒定它們與疾病發(fā)生風(fēng)險(xiǎn)的關(guān)聯(lián)程度[2]。例如,對(duì)高脂血癥的易感基因ABCA1、APOA1和LCAT進(jìn)行重測(cè)序,對(duì)發(fā)現(xiàn)的多個(gè)位于不同外顯子的新的罕見(jiàn)變異進(jìn)行了負(fù)荷檢驗(yàn),顯示與疾病發(fā)生風(fēng)險(xiǎn)顯著關(guān)聯(lián)(P<1.0×10–4)的罕見(jiàn)變異主要富集在ABCA1基因的不同外顯子上,這些罕見(jiàn)變異能夠直接改變ABCA1基因編碼的蛋白質(zhì),進(jìn)而降低血清中高密度脂蛋白的濃度,最終增加高脂血癥的發(fā)病風(fēng)險(xiǎn)[41]。
以SNP為遺傳標(biāo)記,采用GWAS的研究策略成功地發(fā)現(xiàn)了許多復(fù)雜疾病及其他性狀的易感基因區(qū)域。但是,目前也面臨著一些巨大挑戰(zhàn),包括缺乏快速、準(zhǔn)確和可重復(fù)使用的方法用于從這些易感基因區(qū)域中精確定位疾病的致病位點(diǎn)或致病基因,以及缺乏簡(jiǎn)單、流程化的功能研究方案用于闡明致病位點(diǎn)的生物學(xué)功能,這將是今后研究工作的瓶頸[2]。因此,應(yīng)用新的基因組序列檢測(cè)技術(shù)(如高通量測(cè)序)和采用更為有效的分析方法,在GWAS鑒定出的易感區(qū)域中精確定位與疾病發(fā)生風(fēng)險(xiǎn)最顯著關(guān)聯(lián)的或致病性的遺傳變異,同時(shí)采用快速和流程化的功能驗(yàn)證實(shí)驗(yàn)來(lái)闡明其生物學(xué)功能,是后GWAS時(shí)代精細(xì)定位研究的主要內(nèi)容之一。
目前,針對(duì)常見(jiàn)變異的精細(xì)定位研究比較多。這類研究主要通過(guò)推斷或重測(cè)序增加SNP密度,尋找最顯著關(guān)聯(lián)的SNP位點(diǎn),并通過(guò)功能元件分析、eQTL分析和單體型分析等方法尋找功能性的 SNP位點(diǎn)和易感基因。隨著高通量測(cè)序成本的迅速降低,以及基因組功能元件的全面闡釋(例如 ENCODE計(jì)劃)[42],預(yù)計(jì)今后針對(duì)常見(jiàn)變異的精細(xì)定位研究將會(huì)更多的發(fā)現(xiàn)。另一方面,由于未受遺傳凈化選擇的制約和具有潛在的致病性功能[43],罕見(jiàn)變異在遺傳易感性中的作用在近年來(lái)受到越來(lái)越多的關(guān)注。今后研究的重要方向之一,將是在通過(guò)常見(jiàn)變異鑒定的候選易感基因組區(qū)域內(nèi)尋找致病性的罕見(jiàn)變異和易感基因。進(jìn)一步對(duì)所定位的常見(jiàn)變異或罕見(jiàn)變異進(jìn)行后續(xù)的功能驗(yàn)證,將是精細(xì)定位研究的關(guān)鍵所在。只有充分理解了這些變異的生物學(xué)意義,才能推動(dòng)對(duì)人類復(fù)雜疾病或性狀的遺傳機(jī)制的全面認(rèn)識(shí)。
此外,采用DNA序列的保守性[44]、基因的調(diào)控網(wǎng)絡(luò)[45]和染色質(zhì)的結(jié)構(gòu)狀態(tài)[46]等策略對(duì)易感區(qū)域內(nèi)的遺傳變異進(jìn)行研究,可以作為上述研究策略的有益補(bǔ)充。另有研究顯示,同義突變雖然不改變編碼的氨基酸,但是有可能通過(guò)三聯(lián)體核苷酸影響蛋白質(zhì)的合成速率,從而影響疾病的發(fā)生風(fēng)險(xiǎn)[47]。這提示,同義突變也可能是今后精細(xì)定位疾病易感基因研究領(lǐng)域的一個(gè)全新方向。
[1]Asking for more.Nat Genet,2012,44(7):733.
[2]Raychaudhuri S.Mapping rare and common causal alleles for complex human diseases.Cell,2011,147(1):57–69.
[3]Marchini J,Howie B.Genotype imputation for genomewide association studies.Nat Rev Genet,2010,11(7):499–511.
[4]Howie BN,Donnelly P,Marchini J.A flexible and accurate genotype imputation method for the next generation of genome-wide association studies.PLoS Genet,2009,5(6):e1000529.
[5]Raychaudhuri S,Sandor C,Stahl EA,Freudenberg J,Lee HS,Jia X,Alfredsson L,Padyukov L,Klareskog L,Worthington J,Siminovitch KA,Bae SC,Plenge RM,Gregersen PK,De Bakker PI.Five amino acids in three hla proteins explain most of the association between MHC and seropositive rheumatoid arthritis.Nat Genet,2012,44(3):291–296.
[6]Peters U,North KE,Sethupathy P,Buyske S,Haessler J,Jiao S,Fesinmeyer MD,Jackson RD,Kuller LH,Rajkovic A,Lim U,Cheng I,Schumacher F,Wilkens L,Li R,Monda K,Ehret G,Nguyen KD,Cooper R,Lewis CE,Leppert M,Irvin MR,Gu CC,Houston D,Buzkova P,Ritchie M,Matise TC,Le Marchand L,Hindorff L A,Crawford DC,Haiman CA,Kooperberg C.A systematic mapping approach of 16q12.2/FTO and BMI in more than 20,000 African Americans narrows in on the underlying functional variation:results from the Population Architecture using Genomics and Epidemiology(PAGE)study.PLoS Genet,2013,9(1):e1003171.
[7]Liu JZ,Almarri MA,Gaffney DJ,Mells GF,Jostins L,Cordell HJ,Ducker SJ,Day DB,Heneghan MA,Neuberger JM,Donaldson PT,Bathgate AJ,Burroughs A,Davies MH,Jones DE,Alexander GJ,Barrett JC,Sandford RN,Anderson CA.Dense fine-mapping study identifies new susceptibility loci for primary biliary cirrhosis.Nat Genet,2012,44(10):1137–1141.
[8]Lange CM,Bibert S,Dufour JF,Cellerai C,Cerny A,Heim MH,Kaiser L,Malinverni R,Mullhaupt B,Negro F,Semela D,Moradpour D,Kutalik Z,Bochud PY.Comparative genetic analyses point toHCP5as susceptibility locus for HCV-associated hepatocellular carcinoma.J Hepatol,2013,59(3):504–509.
[9]Howie B,Fuchsberger C,Stephens M,Marchini J,Abecasis GR.Fast and accurate genotype imputation in genome-wide association studies through pre-phasing.Nat Genet,2012,44(8):955–999.
[10]Ji WZ,Foo JN,O'roak BJ,Zhao HY,Larson MG,Simon DB,Newton-Cheh C,State MW,Levy D,Lifton RP.Rare independent mutations in renal salt handling genes contribute to blood pressure variation.Nat Genet,2008,40(5):592–599.
[11]Park H,Kim J II,Ju YS,Gokcumen O,Mills RE,Kim S,Lee S,Suh D,Hong D,Kang HP,Yoo YJ,Shin JY,Kim HJ,Yavartanoo M,Chang YW,Ha JS,Chong W,Hwang GR,Darvishi K,Kim H,Yang SJ,Yang KS,Hurles ME,Scherer SW,Carter NP,Tyler-Smith C,Lee C,Seo JS.Discovery of common Asian copy number variants using integrated high-resolution array CGH and massively parallel DNA sequencing.Nat Genet,2010,42(5):400–405.
[12]Yu TW,Mochida GH,Tischfield DJ,Sgaier SK,Flores-Sarnat L,Sergi CM,Topcu M,Mcdonald MT,Barry BJ,Felie JM,Sunu C,Dobyns WB,Folkerth RD,Barkovich AJ,Walsh CA.Mutations inWDR62,encoding a centrosome-associated protein,cause microcephaly with simplified gyri and abnormal cortical architecture.Nat Genet,2010,42(11):1015–1020.
[13]Xiang K,Ouzhuluobu,Peng Y,Yang ZH,Zhang XM,Cui CY,Zhang H,Li M,Zhang YF,Bianba,Gonggalanzi,Basang,Ciwangsangbu,Wu TY,Chen H,Shi H,Qi XB,Su B.Identification of a Tibetan-specific mutation in the hypoxic gene EGLN1 and its contribution to high-altitude adaptation.Mol Biol Evol,2013,30(8):1889–1898.
[14]Galarneau G,Palmer CD,Sankaran VG,Orkin SH,Hirschhorn JN,Lettre G.Fine-mapping at three loci known to affect fetal hemoglobin levels explains additional genetic variation.Nat Genet,2010,42(12):1049–1051.
[15]Freedman ML,Monteiro AN,Gayther SA,Coetzee GA,Risch A,Plass C,Casey G,De Biasi M,Carlson C,Duggan D,James M,Liu P,Tichelaar JW,Vikis HG,You M,Mills IG.Principles for the post-GWAS functional characterization of cancer risk loci.Nat Genet,2011,43(6):513–518.
[16]Levine M,Tjian R.Transcription regulation and animal diversity.Nature,2003,424(6945):147–151.
[17]Idaghdour Y,Czika W,Shianna KV,Lee SH,Visscher PM,Martin HC,Miclaus K,Jadallah SJ,Goldstein DB,Wolfinger RD,Gibson G.Geographical genomics of human leukocyte gene expression variation in southern Morocco.Nat Genet,2010,42(1):62–67.
[18]Kouzarides T.Chromatin modifications and their function.Cell,2007,128(4):693–705.
[19]Raval A,Tanner SM,Byrd JC,Angerman EB,Perko JD,Chen SS,Hackanson B,Grever MR,Lucas DM,Matkovic JJ,Lin TS,Kipps TJ,Murray F,Weisenburger D,Sanger W,Lynch J,Watson P,Jansen M,Yoshinaga Y,Rosenquist R,De Jong PJ,Coggill P,Beck S,Lynch H,De La Chapelle A,Plass C.Downregulation ofdeath-associated protein kinase1(DAPK1) in chronic lymphocytic leukemia.Cell,2007,129(5):879–890.
[20]Gupta RA,Shah N,Wang KC,Kim J,Horlings HM,Wong DJ,Tsai MC,Hung T,Argani P,Rinn JL,Wang YL,Brzoska P,Kong B,Li R,West RB,Van De Vijver MJ,Sukumar S,Chang HY.Long non-coding RNA HOTAIR reprograms chromatin state to promote cancer metastasis.Nature,2010,464(7291):1071–1076.
[21]Visel A,Blow MJ,Li ZR,Zhang T,Akiyama JA,Holt A,Plajzer-Frick I,Shoukry M,Wright C,Chen F,Afzal V,Ren B,Rubin EM,Pennacchio LA.ChIP-seq accurately predicts tissue-specific activity of enhancers.Nature,2009,457(7231):854–858.
[22]Pomerantz MM,Ahmadiyeh N,Jia L,Herman P,Verzi MP,Doddapaneni H,Beckwith CA,Chan JA,Hills A,Davis M,Yao K,Kehoe SM,Lenz HJ,Haiman CA,Yan C,Henderson BE,Frenkel B,Barretina J,Bass A,Tabernero J,Baselga J,Regan MM,Manak JR,Shivdasani R,Coetzee GA,Freedman ML.The 8q24 cancer risk variant rs6983267 shows long-range interaction withMYCin colorectal cancer.Nat Genet,2009,41(8):882–884.
[23]Zhao ZH,Tavoosidana G,Sj?linder M,G?nd?r A,Mariano P,Wang S,Kanduri C,Lezcano M,Sandhu K S,Singh U,Pant V,Tiwari V,Kurukuti S,Ohlsson R.Circular chromosome conformation capture(4C) uncovers extensive networks of epigenetically regulated intra-and interchromosomal interactions.Nat Genet,2006,38(11):1341–1347.
[24]Damerval C,Maurice A,Josse JM,de Vienne D.Quantitative trait loci underlying gene product variation:a novel perspective for analyzing regulation of genome expression.Genetics,1994,137(1):289–301.
[25]Rockman MV,Kruglyak L.Genetics of global gene expression.Nat Rev Genet,2006,7(11):862–872.
[26]Morley M,Molony CM,Weber TM,Devlin JL,Ewens KG,Spielman RS,Cheung VG.Genetic analysis of genomewide variation in human gene expression.Nature,2004,430(7001):743–747.
[27]Schadt EE,Molony C,Chudin E,Hao K,Yang X,Lum PY,Kasarskis A,Zhang B,Wang S,Suver C,Zhu J,Millstein J,Sieberts S,Lamb J,Guhathakurta D,Derry J,Storey JD,Avila-Campillo I,Kruger MJ,Johnson JM,Rohl CA,Van Nas A,Mehrabian M,Drake TA,Lusis AJ,Smith RC,Guengerich FP,Strom SC,Schuetz E,Rushmore TH,Ulrich R.Mapping the genetic architecture of gene expression in human liver.PLoS Biol,2008,6(5):e107.
[28]Musunuru K,Strong A,Frank-Kamenetsky M,Lee NE,Ahfeldt T,Sachs KV,Li X,Li H,Kuperwasser N,Ruda VM,Pirruccello JP,Muchmore B,Prokunina-Olsson L,Hall JL,Schadt EE,Morales CR,Lund-Katz S,Phillips MC,Wong J,Cantley W,Racie T,Ejebe KG,Orho-Melander M,Melander O,Koteliansky V,Fitzgerald K,Krauss RM,Cowan CA,Kathiresan S,Rader DJ.From noncoding variant to phenotype via SORT1 at the 1p13 cholesterol locus.Nature,2010,466(7307):714–719.
[29]Manku H,Langefeld CD,Guerra SG,Malik TH,Alarcon-Riquelme M,Anaya JM,Bae SC,Boackle SA,Brown EE,Criswell LA,Freedman BI,Gaffney PM,Gregersen PA,Guthridge JM,Han SH,Harley JB,Jacob CO,James JA,Kamen DL,Kaufman KM,Kelly JA,Martin J,Merrill JT,Moser KL,Niewold TB,Park SY,Pons-Estel BA,Sawalha AH,Scofield RH,Shen N,Stevens AM,Sun C,Gilkeson GS,Edberg JC,Kimberly RP,Nath SK,Tsao BP,Vyse TJ.Trans-ancestral studies fine map the SLE-susceptibility locus TNFSF4.PLoS Genet,2013,9(7):e1003554.
[30]Kornum BR,Kawashima M,Faraco J,Lin L,Rico TJ,Hesselson S,Axtell RC,Kuipers H,Weiner K,Hamacher A,Kassack MU,Han F,Knudsen S,Li J,Dong X,Winkelmann J,Plazzi G,Nevsimalova S,Hong SC,Honda Y,Honda M,Hogl B,Ton TG,Montplaisir J,Bourgin P,Kemlink D,Huang YS,Warby S,Einen M,Eshragh JL,Miyagawa T,Desautels A,Ruppert E,Hesla PE,Poli F,Pizza F,Frauscher B,Jeong JH,Lee SP,Strohl KP,Longstreth WT,Jr.,Kvale M,Dobrovolna M,Ohayon MM,Nepom GT,Wichmann HE,Rouleau GA,Gieger C,Levinson DF,Gejman PV,Meitinger T,Peppard P,Young T,Jennum P,Steinman L,Tokunaga K,Kwok PY,Risch N,Hallmayer J,Mignot E.Common variants in P2RY11 are associated with narcolepsy.Nat Genet,2011,43(1):66–71.
[31]Adrianto I,Wen F,Templeton A,Wiley G,King JB,Lessard CJ,Bates JS,Hu YQ,Kelly JA,Kaufman KM,Guthridge JM,Alarcón-Riquelme ME,Anaya JM,Bae SC,Bang SY,Boackle SA,Brown EE,Petri MA,Gallant C,Ramsey-Goldman R,Reveille JD,Vila LM,Criswell LA,Edberg JC,Freedman BI,Gregersen PK,Gilkeson GS,Jacob CO,James JA,Kamen DL,Kimberly RP,Martin J,Merrill JT,Niewold TB,Park SY,Pons-Estel BA,Scofield RH,Stevens AM,Tsao BP,Vyse TJ,Langefeld CD,Harley JB,Moser KL,Webb CF,Humphrey MB,Montgomery CG,Gaffney PM.Association of a functional variant downstream ofTNFAIP3with systemic lupus erythematosus.Nat Genet,2011,43(3):253–258.
[32]Wu Y,Waite LL,Jackson AU,Sheu WH,Buyske S,Absher D,Arnett DK,Boerwinkle E,Bonnycastle LL,Carty CL,Cheng I,Cochran B,Croteau-Chonka DC,Dumitrescu L,Eaton CB,Franceschini N,Guo X,Henderson BE,Hindorff LA,Kim E,Kinnunen L,Komulainen P,Lee WJ,Le Marchand L,Lin Y,Lindstrom J,Lingaas-Holmen O,Mitchell SL,Narisu N,Robinson JG,Schumacher F,Stancakova A,Sundvall J,Sung YJ,Swift AJ,Wang WC,Wilkens L,Wilsgaard T,Young AM,Adair LS,Ballantyne CM,Buzkova P,Chakravarti A,Collins FS,Duggan D,Feranil AB,Ho LT,Hung YJ,Hunt SC,Hveem K,Juang JM,Kesaniemi AY,Kuusisto J,Laakso M,Lakka T A,Lee IT,Leppert MF,Matise T C,Moilanen L,Njolstad I,Peters U,Quertermous T,Rauramaa R,Rotter JI,Saramies J,Tuomilehto J,Uusitupa M,Wang TD,Boehnke M,Haiman CA,Chen YD,Kooperberg C,Assimes TL,Crawford DC,Hsiung CA,North KE,Mohlke KL.Trans-ethnic fine-mapping of lipid loci identifies population-specific signals and allelic heterogeneity that increases the trait variance explained.PLoS Genet,2013,9(3):e1003379.
[33]Bodmer W,Bonilla C.Common and rare variants in multifactorial susceptibility to common diseases.Nat Genet,2008,40(6):695–701.
[34]Dickson SP,Wang K,Krantz I,Hakonarson H,Goldstein DB.Rare variants create synthetic genome-wide associations.PLoS Bio,2010,8(1):e1000294.
[35]Azzopardi D,Dallosso AR,Eliason K,Hendrickson BC,Jones N,Rawstorne E,Colley J,Moskvina V,Frye C,Sampson JR,Wenstrup R,Scholl T,Cheadle JP.Multiple rare nonsynonymous variants in the adenomatous polyposis coli gene predispose to colorectal adenomas.Cancer Res,2008,68(2):358–363.
[36]Bansal V,Libiger O,Torkamani A,Schork NJ.Statistical analysis strategies for association studies involving rare variants.Nat Rev Genet,2010,11(11):773–785.
[37]Momozawa Y,Mni M,Nakamura K,Coppieters W,Almer S,Amininejad L,Cleynen I,Colombel JF,De Rijk P,Dewit O,Finkel Y,Gassull MA,Goossens D,Laukens D,Lémann M,Libioulle C,O'morain C,Reenaers C,Rutgeerts P,Tysk C,Zelenika D,Lathrop M,Del-Favero J,Hugot JP,De Vos M,Franchimont D,Vermeire S,Louis E,Georges M.Resequencing of positional candidates identifies low frequencyIL23Rcoding variants protecting against inflammatory bowel disease.Nat Genet,2011,43(1):43–47.
[38]Wang K,Dickson SP,Stolle CA,Krantz ID,Goldstein DB,Hakonarson H.Interpretation of association signals and identification of causal variants from genome-wide association studies.Am J Hum Genet,2010,86(5):730–742.
[39]Raychaudhuri S,Iartchouk O,Chin K,Tan PL,Tai AK,Ripke S,Gowrisankar S,Vemuri S,Montgomery K,Yu Y,Reynolds R,Zack DJ,Campochiaro B,Campochiaro P,Katsanis N,Daly MJ,Seddon JM.A rare penetrant mutation in CFH confers high risk of age-related macular degeneration.Nat Genet,2011,43(12):1232–1236.
[40]Ewing CM,Ray AM,Lange EM,Zuhlke KA,Robbins CM,Tembe WD,Wiley KE,Isaacs SD,Johng D,Wang Y,Bizon C,Yan G,Gielzak M,Partin AW,Shanmugam V,Izatt T,Sinari S,Craig DW,Zheng SL,Walsh PC,Montie JE,Xu J,Carpten JD,Isaacs WB,Cooney KA.Germline mutations in HOXB13 and prostate-cancer risk.N Engl J Med,2012,366(2):141–149.
[41]Cohen JC,Kiss RS,Pertsemlidis A,Marcel YL,Mcpherson R,Hobbs HH.Multiple rare alleles contribute to low plasma levels of HDL cholesterol.Science,2004,305(5685):869–872.
[42]Bernstein BE,Birney E,Dunham I,Green ED,Gunter C,Snyder M.An integrated encyclopedia of DNA elements in the human genome.Nature,2012,489(7414):57–74.
[43]Lupski JR,Belmont JW,Boerwinkle E,Gibbs RA.Clan genomics and the complex architecture of human disease.Cell,2011,147(1):32–43.
[44]Loots GG,Locksley RM,Blankespoor CM,Wang ZE,Miller W,Rubin EM,Frazer KA.Identification of a coordinate regulator of interleukins 4,13,and 5 by crossspecies sequence comparisons.Science,2000,288(5463):136–140.
[45]Gerstein MB,Kundaje A,Hariharan M,Landt SG,Yan KK,Cheng C,Mu XJ,Khurana E,Rozowsky J,Alexander R,Min R,Alves P,Abyzov A,Addleman N,Bhardwaj N,Boyle AP,Cayting P,Charos A,Chen DZ,Cheng Y,Clarke D,Eastman C,Euskirchen G,Frietze S,Fu Y,Gertz J,Grubert F,Harmanci A,Jain P,Kasowski M,Lacroute P,Leng J,Lian J,Monahan H,O'geen H,Ouyang Z,Partridge EC,Patacsil D,Pauli F,Raha D,Ramirez L,Reddy TE,Reed B,Shi M,Slifer T,Wang J,Wu L,Yang X,Yip KY,Zilberman-Schapira G,Batzoglou S,Sidow A,Farnham PJ,Myers RM,Weissman SM,Snyder M.Architecture of the human regulatory network derived from ENCODE data.Nature,2012,489(7414):91–100.
[46]Sanyal A,Lajoie BR,Jain G,Dekker J.The long-range interaction landscape of gene promoters.Nature,2012,489(7414):109–113.
[47]Kimchi-Sarfaty C,Oh JM,Kim IW,Sauna ZE,Calcagno AM,Ambudkar SV,Gottesman MM.A "silent" polymorphism in the MDR1 gene changes substrate specificity.Science,2007,315(5811):525–528.