吳華彰,樊紅,2
(1.東南大學(xué)生命科學(xué)研究院發(fā)育與疾病相關(guān)基因教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210009;2.東南大學(xué)醫(yī)學(xué)院 遺傳與發(fā)育生物學(xué)系,江蘇 南京 210009)
腫瘤是一類(lèi)由遺傳與環(huán)境因素共同作用導(dǎo)致的復(fù)雜疾病,對(duì)腫瘤易感基因的研究一直是分子腫瘤學(xué)領(lǐng)域的熱點(diǎn)。隨著全基因組連鎖分析方法[1]的應(yīng)用,很多單基因遺傳疾病的易感基因被鑒定出來(lái),然而對(duì)腫瘤等多基因疾病的研究卻受到了極大的限制,于是人們開(kāi)始把注意力轉(zhuǎn)向以單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)為分子標(biāo)記、以全基因組內(nèi)SNP和連鎖不平衡(linkage disequilibrium,LD)為基礎(chǔ)的全基因組關(guān)聯(lián)分析(genome-wide association studies,GWAS)上[2]。因此,如何選擇候選 SNPs已成為關(guān)聯(lián)分析的關(guān)鍵。
由于SNP位點(diǎn)間存在LD現(xiàn)象,只需從SNPs位點(diǎn)集合中篩選出少量標(biāo)簽SNP(Tag SNPs)位點(diǎn)集合,就可以提供全體SNPs位點(diǎn)的遺傳模式信息。將Tag SNPs應(yīng)用于腫瘤等復(fù)雜性疾病的關(guān)聯(lián)分析,可以極大地減少遺傳分型的費(fèi)用,提高關(guān)聯(lián)分析的效率。如何有效地預(yù)測(cè)和利用Tag SNPs已經(jīng)是腫瘤易感性領(lǐng)域研究的關(guān)鍵所在。
一條染色體上或某一染色體區(qū)域的一組關(guān)聯(lián)性SNPs位點(diǎn)被稱(chēng)作單體型(haplotype)。由于SNPs位點(diǎn)間存在著LD,所以只要用少數(shù)幾個(gè)SNPs即可特異性地鑒定出該連鎖群的單體型,這種SNP常被稱(chēng)為T(mén)ag SNP,又稱(chēng)單體型 Tag SNP(haplotype-tag SNP,ht SNP)。通過(guò)對(duì)單體型圖中大約50萬(wàn)個(gè)Tag SNP的掃描就可達(dá)到與全基因組掃描1 000萬(wàn)個(gè)SNP同樣的效果,使利用全基因組掃描尋找致病基因或疾病相關(guān)基因變得更為高效、全面和經(jīng)濟(jì)。
目前,關(guān)于Tag SNPs位點(diǎn)的獲取方法主要有3類(lèi)?;贚D選擇方法是根據(jù)SNP位點(diǎn)間LD的原理,選擇與其它SNP位點(diǎn)間具有較高LD值的SNP作為T(mén)ag SNP,將鄰近區(qū)域內(nèi)具有高LD值(r2≥0.8)的SNP位點(diǎn)組成一個(gè) LD簇,以 r2最大者為該單倍域(haplotype block)的 Tag SNP[3]。基于單體型域的選擇方法最早由Patil等[4]提出,是根據(jù)人類(lèi)單體型數(shù)量遠(yuǎn)少于理論數(shù)量的原理,將基因組序列數(shù)據(jù)劃分為多個(gè)離散的單體型域,在這些域中找出能夠區(qū)分各單體型域中單體型的最小SNP位點(diǎn)集作為T(mén)ag SNPs。Tag SNPs獲取的另一種方法是Halldorsson等[5]提出的基于預(yù)測(cè)精度的Tag SNPs選擇方法,即定義Tag SNPs為一個(gè)有限的特定SNP位點(diǎn)集合,該集合能夠重構(gòu)剩余的SNP位點(diǎn)(被標(biāo)記位點(diǎn),Tagged SNP)?;谝陨显恚恍┯糜诤Y選Tag SNPs的軟件陸續(xù)開(kāi)發(fā)出來(lái)。如通過(guò)Haploview軟件篩選Tag SNP;Seattle SNP不僅提供了部分Tag SNP信息,同時(shí)還提供了Tag SNP的選擇工具perl軟件。此外,可利用的公開(kāi)的網(wǎng)上資源包括Genome Variantion Server(http:∥gvs.gs.washington.edu/GVS/)和National Institute of Environmental Health Sciences(http:∥snpinfo.niehs.nih.gov/),他們利用計(jì)算、實(shí)驗(yàn)、流行病學(xué)資料及GWAS、LD的結(jié)果和SNP功能預(yù)測(cè)信息篩選 Tag SNP。另外,HapMap數(shù)據(jù)庫(kù)(http:∥snp.cshl.org/)、NCBI SNP 數(shù)據(jù)庫(kù)(http:∥www.ncbi.nlm.nih.gov/snp)、美國(guó) NIH 的癌癥和腫瘤相關(guān)候選 SNP 數(shù)據(jù)庫(kù)(http:∥ipg.nci.nih.gov/)、歐洲SNP 數(shù)據(jù)庫(kù)(http:∥www.gwascentral.org/index)、日本SNP 數(shù)據(jù)庫(kù)(http:∥snp.ims.u-tokyo.ac.jp)、人類(lèi)基因突變數(shù)據(jù)庫(kù) HGMD(http:∥www.hgmd.cf.no.uk/)、華盛頓大學(xué) SNP 數(shù)據(jù)庫(kù)(http:∥ibc.wustl.edu/snp)、美國(guó)懷特和特研究所建立的人類(lèi)SNP數(shù)據(jù)庫(kù)(http:∥www.genome.wi.nit.edu/SNP/human/index.html)、瑞典卡爾林斯卡研究院建立的數(shù)據(jù)庫(kù)(http:∥hgbase.cgr.ki.se)等都提供了豐富的 SNP信息。
Tag SNPs的檢測(cè)方法一類(lèi)是以凝膠電泳為基礎(chǔ)的經(jīng)典方法,包括PCR-SSCP、PCR-RFLP、變性梯度凝膠電泳(DGGE)、等位基因特異性PCR(ASPCR)等;另一類(lèi)是近些年來(lái)陸續(xù)發(fā)展起來(lái)的高通量、高自動(dòng)化的檢測(cè)方法,包括TaqMan探針技術(shù)、DNA芯片檢測(cè)、變性高效液相色譜、DNA測(cè)序法、基質(zhì)輔助激光解吸附/電離飛行時(shí)間質(zhì)譜(MALDI-TOFMS)檢測(cè)及根據(jù)高分辨率溶解曲線(xiàn)(HRM)進(jìn)行分型檢測(cè)等。
目前,腫瘤發(fā)生相關(guān)SNPs研究集中于重要的癌基因、抑癌基因、關(guān)鍵信號(hào)轉(zhuǎn)導(dǎo)通路基因及一些重要功能基因中的單個(gè)或者多個(gè)SNP位點(diǎn)。腫瘤易感性的關(guān)聯(lián)研究經(jīng)歷了候選基因(candidate gene)策略、候選生物學(xué)通路(candidate biological pathway)策略和GWAS策略3種重要的SNPs候選策略。
候選基因法是選擇已知在腫瘤發(fā)生、發(fā)展過(guò)程如細(xì)胞周期控制、凋亡、DNA修復(fù)通路以及致癌物代謝中的關(guān)鍵基因,或腫瘤中明確存在體細(xì)胞突變的基因作為候選基因,運(yùn)用單倍型構(gòu)建Tag SNPs,通過(guò)病例-對(duì)照研究找出腫瘤易感基因。Wassenaar等[6]運(yùn)用Tag SNPs研究了尼古丁代謝的CYP2A6基因和尼古丁基因簇CHRNA5-CHRNA3-CHRNB4(CHRNA5-A3-B4),證實(shí)其多態(tài)性可增加肺癌風(fēng)險(xiǎn);Schonfeld等[7]通過(guò)病例-對(duì)照研究從58個(gè)候選基因的1 151個(gè)Tag SNPs鑒定出CYP19A1基因的4個(gè)SNPs與乳頭狀甲狀腺癌相關(guān);Wang等[8]從 HapMap、dbSNPs數(shù)據(jù)庫(kù)和文獻(xiàn)中篩選出XPF、MDM2基因的Tag SNPs,發(fā)現(xiàn)XPF基因啟動(dòng)子區(qū)-357A>C多態(tài)變異通過(guò)影響XPF基因的轉(zhuǎn)錄調(diào)控,干擾膀胱癌的遺傳易感性和預(yù)后,位于MDM2啟動(dòng)子區(qū)的-1797C>G多態(tài)與膀胱癌的發(fā)病風(fēng)險(xiǎn)有關(guān)。以上這些多人群、多中心、大樣本甚至利用HapMap進(jìn)行候選基因單體型的研究,對(duì)定位腫瘤易感基因進(jìn)行了有益而可靠的探索。
候選基因法因?yàn)橛猩飳W(xué)基礎(chǔ),所以在鑒定腫瘤候選基因時(shí)成功幾率大、結(jié)果易解釋、成本低廉。但是,該方法是在對(duì)候選基因充分認(rèn)識(shí)的基礎(chǔ)上提出的假說(shuō),因此,可能錯(cuò)過(guò)其它與疾病真正相關(guān)的位點(diǎn)。另外,未發(fā)現(xiàn)陽(yáng)性關(guān)聯(lián)并不排除同一基因中還存在其他重要Tag SNPs,與疾病關(guān)聯(lián)的Tag SNPs也不一定就是有功能的遺傳變異,這時(shí)就要進(jìn)行功能研究以證實(shí)哪個(gè)是致病性或功能性SNP。
腫瘤的發(fā)生通常由細(xì)胞內(nèi)多種生物學(xué)通路的紊亂所致,因此,基于某些重要的候選生物學(xué)通路研究策略應(yīng)運(yùn)而生。涉及到的通路包括DNA損傷修復(fù)通路、JAK-STAT通路、EGF受體信號(hào)轉(zhuǎn)導(dǎo)通路、細(xì)胞周期和凋亡等通路、葉酸代謝通路等。Zhang等[9]研究發(fā)現(xiàn),TGF-β1-509C>T多態(tài)是影響結(jié)直腸癌易感性主要的多態(tài)位點(diǎn),它和LTBP-1L GA/CC多態(tài)位點(diǎn)都可以顯著增加結(jié)直腸癌的患病風(fēng)險(xiǎn);MAPK信號(hào)通路中的關(guān)鍵基因MKK4啟動(dòng)子遺傳變異-1304T>G與中國(guó)南方人群肺癌的高發(fā)相關(guān)[10],T>G的置換可明顯增加MKK4基因的轉(zhuǎn)錄水平;DNA損傷修復(fù)通路關(guān)鍵基因XRCC1的Arg194Trp和Arg280His多態(tài)能夠增加膀胱癌的發(fā)病風(fēng)險(xiǎn)[11];凋亡通路中的FASL-844T>C多態(tài)能夠使個(gè)體罹患膀胱癌的風(fēng)險(xiǎn)增加[12];IGF2基因SNPs與上皮性卵巢癌相關(guān)聯(lián)[13],而VD通路的變異可能是非洲血統(tǒng)婦女雌激素受體陰性乳腺癌高發(fā)的原因[14]。
候選生物學(xué)通路法可以彌補(bǔ)候選基因法缺乏廣泛性和系統(tǒng)性的缺點(diǎn),且具有明確的生物學(xué)機(jī)制,在鑒定腫瘤易感基因及分析基因聯(lián)合作用等方面具有預(yù)測(cè)精度高、假陽(yáng)性較低等顯著優(yōu)勢(shì),已經(jīng)取得了較多的研究成果,但是研究設(shè)計(jì)需要較大的樣本量,也需要根據(jù)現(xiàn)有的生物學(xué)通路提出假說(shuō)。
隨著人類(lèi)基因組計(jì)劃及單體型圖譜構(gòu)建的完成和高通量基因分型技術(shù)的快速發(fā)展,人們開(kāi)始采用GWAS策略對(duì)腫瘤致病基因位點(diǎn)進(jìn)行挖掘。GWAS[15]是根據(jù)LD的原理,選擇數(shù)以十萬(wàn)計(jì)的Tag SNPs以涵蓋人類(lèi)全基因組范圍的遺傳變異,比較病例-對(duì)照組多態(tài)位點(diǎn)的頻率差異來(lái)尋找全基因組中與疾病相關(guān)的易感基因,是目前搜尋腫瘤等復(fù)雜疾病易感基因的最有效方法。Amos等[16]通過(guò)選取315 450個(gè)Tag SNPs位點(diǎn)對(duì)肺癌進(jìn)行GWAS研究,從而把肺癌的易感基因定位于15q25.1。乳腺癌GWAS結(jié)果發(fā)現(xiàn)了 FGFR2(rs2981582)、TNRC9/LOC643714(rsl2443621)、MAP3KI(rs889312)和 LSPl(rs3817198)、8q24的 rsl3281615等5個(gè)乳腺癌的易感位點(diǎn)[17],為深入理解乳腺癌的發(fā)病機(jī)制提供了新線(xiàn)索,為乳腺癌高危人群的篩選和個(gè)性化預(yù)防和治療開(kāi)辟了新思路;英國(guó)學(xué)者通過(guò)GWAS驗(yàn)證了SMAD7基因與結(jié)直腸癌的關(guān)聯(lián)性[18],對(duì)結(jié)直腸癌病理分期和預(yù)后判斷有一定意義。Cui等[19]報(bào)道了日本人群中食管癌的GWAS結(jié)果,隨后中美學(xué)者[20-21]陸續(xù)發(fā)表了食管癌的GWAS研究成果。至今,研究人員已經(jīng)對(duì)400余種復(fù)雜疾病開(kāi)展了近1 500項(xiàng)GWAS研究,發(fā)現(xiàn)了一大批易感基因或位點(diǎn),其中近300項(xiàng)研究成果發(fā)表在 New Engl J Med、Science、Nature和 Nat Genet等國(guó)際頂級(jí)學(xué)術(shù)刊物上[22]。
選擇基因組中的Tag SNPs進(jìn)行GWAS研究大大減少了工作量,但是不能完全捕獲全部基因組的SNP變異。另外,GWAS的結(jié)果存在假陽(yáng)性、假陰性、檢測(cè)到的單核苷酸多態(tài)性很少位于功能區(qū)以及對(duì)稀有變異不敏感等問(wèn)題,導(dǎo)致了其應(yīng)用的局限性[23]。正如Nancy Cox教授所說(shuō):“GWAS研究的結(jié)果到臨床應(yīng)用的路上仍然布滿(mǎn)荊棘”[24]。
選擇和使用Tag SNPs極大地促進(jìn)了在基因組水平范圍內(nèi)確定腫瘤易感基因,對(duì)腫瘤高危人群的篩選、危險(xiǎn)度評(píng)價(jià)及預(yù)警、輔助分子診斷、腫瘤的治療、預(yù)后判斷及腫瘤藥物的開(kāi)發(fā)等都具有重大意義。目前,利用Tag SNPs進(jìn)行關(guān)聯(lián)分析已經(jīng)鑒定出包括乳腺癌、肝癌、肺癌、前列腺癌、胃癌等一系列腫瘤的易感基因。但是,基于Tag SNPs的關(guān)聯(lián)研究也存在諸如Tag SNPs位點(diǎn)選取存在復(fù)雜度高、限制條件多、精確度低等缺陷,進(jìn)而導(dǎo)致假陽(yáng)性、假陰性等問(wèn)題。同時(shí),腫瘤具有遺傳異質(zhì)性,存在種族差異,一個(gè)Tag SNPs并不能完全解釋某些腫瘤發(fā)生的原因。此外,相當(dāng)一部分Tag SNPs被證實(shí)在基因組的非編碼區(qū),從非功能性Tag SNPs中找出功能性將是一項(xiàng)更大的挑戰(zhàn)[25]。所以,在選取Tag SNPs時(shí)盡可能結(jié)合多個(gè)軟件和采用多種方法,對(duì)關(guān)聯(lián)程度高的位點(diǎn)進(jìn)行多種族、多群體、大樣本的重復(fù)驗(yàn)證研究,并進(jìn)一步利用細(xì)胞或動(dòng)物模型進(jìn)行證實(shí),將有助于明確基因在腫瘤發(fā)生中的作用。可喜的是,隨著功能基因組研究的深入,原來(lái)的研究方法不僅得以補(bǔ)充和發(fā)展,一些新的如外顯子測(cè)序策略[26]、系統(tǒng)生物學(xué)策略等陸續(xù)出現(xiàn),腫瘤易感性研究必將迎來(lái)一個(gè)更加廣闊的發(fā)展空間。
[1]BOTSTEIN D,WHITE R L,SKOLNICK M,et al.Construction of a genetic linkage map in man using restriction fragment length polymorphisms[J].Am J Hum Genet,1980,32(3):314-331.
[2]CARLSON C S,EBERLE M A,RIEDER M J,et al.Additional SNPs and linkage-disequilibrium analyses are necessary for whole-genome association studies in humans[J].Nat genet,2003,33(4):518-521.
[3]CARLSON C S,EBERLE M A,RIEDER M J,et al.Selecting a maximally informative set of single-nucleotide polymorphisms for association analyses using linkage disequilibrium[J].Am J Hum Genet,2004,74(1):106-120.
[4]PATIL N,BERNO A J,HINDS D A,et al.Blocks of limited haplotype diversity revealed by high-resolution scanning of human chromosome 21[J].Science,2001,294(5547):1719-1723.
[5]HALLDORSSON B V,BAFNA V,LIPPERT R,et al.Optimal haplotype block-free selection of tagging SNPs for genomewide association studies[J].Genome Res,2004,14(8):1633-1640.
[6]WASSENAAR C A,DONG Q,WEI Q,et al.Relationship between CYP2A6 and CHRNA5-CHRNA3-CHRNB4 variation and smoking behaviors and lung cancer risk[J].J Natl Cancer Inst,2011,103(17):1342-1346.
[7]SCHONFELD S J,NETA G,STURGIS E M,et al.Common genetic variants in sex hormone pathway genes and papillary thyroid cancer risk[J].Thyroid,2012,22(2):151-156.
[8]WANG M,YUAN L,WU D,et al.A novel XPF-357A >C polymorphism predicts risk and recurrence of bladder cancer[J].Oncogene,2010,29(13):1920-1928.
[9]ZHANG Y,LIU B,JIN M,et al.Genetic polymorphisms of transforming growth factor-beta1 and its receptors and colorectal cancer susceptibility:a population-based case-control study in China[J].Cancer Lett,2009,275(1):102-108.
[10]JIANG L,ZHOU P,SUN A,et al.Functional variant(-1304T >G)in the MKK4 promoter is associated with decreased risk of acute myeloid leukemia in a southern Chinese population[J].Cancer Sci,2011,102(8):1462-1468.
[11]WANG M,QIN C,ZHU J,et al.Genetic variants of XRCC1,APE1,and ADPRT genes and risk of bladder cancer[J].DNA Cell Biol,2010,29(6):303-311.
[12]ZHANG Z,QIU L,WANG M,et al.The FAS ligand promoter polymorphism,rs763110(-844C > T),contributes to cancer susceptibility:evidence from 19 case-control studies[J].Eur J Hum Genet,2009,17(10):1294-1303.
[13]PEARCE C L,DOHERTY J A,VAN D J,et al.Genetic variation in insulin-like growth factor 2 may play a role in ovarian cancer risk[J].Hum Mol Genet,2011,20(11):2263-2272.
[14]YAO S,ZIRPOLI G,BOVBJERG D H,et al.Variants in the vitamin D pathway,serum levels of vitamin D,and estrogen receptor negative breast cancer among African-American women:a case-control study[J].Breast Cancer Res,2012,14(2):1-13.
[15]SUN X,NAMKUNG J,ZHU X,et al.Capability of common SNPs to tag rare variants[J].BMC Proc,2011,5(9):1-5.
[16]AMOS C I,WU X,BRODERICK P,et al.Genome-wide association scan of tag SNPs identifies a susceptibility locus for lung cancer at 15q25.1[J].Nat Genet,2008,40(5):616-622.
[17]ROUKOS D H.Personal genomics and genome-wide association studies:novel discoveries but limitations for practical personalized medicine[J].Ann Surg Oncol,2009,16(3):772-773.
[18]BRODERICK P,CARVAJAL L,PITTMAN A M,et al.A genome-wide association study shows that common alleles of SMAD7 influence colorectal cancer risk[J].Nat Genet,2007,39(11):1315-1317.
[19]CUI R,KAMATANI Y,TAKAHASHI A,et al.Functional variants in ADH1B and ALDH2 coupled with alcohol and smoking synergistically enhance esophageal cancer risk[J].Gastroenterology,2009,137(5):1768-1775.
[20]WANG L D,ZHOU F Y,LI X M,et al.Genome-wide association study of esophageal squamous cell carcinoma in Chinese subjects identifies susceptibility loci at PLCE1 and C20orf54[J].Nat Genet,2010,42(9):759-763.
[21]WU C,HU Z,HE Z,et al.Genome-wide association study identifies three new susceptibility loci for esophageal squamous-cell carcinoma in Chinese populations[J].Nat Genet,2011,43(7):679-684.
[22]National Human Genome Research Institute[DB/OL].[2012-12-21].http:∥www.genome.gov/26525384.
[23]FAYE L L,BULL S B.Two-stage study designs combining genome-wide association studies,tag single-nucleotide polymorphisms,and exome sequencing:accuracy of genetic effect estimates[J].BMC Proc,2011,5(9):1-9.
[24]CHRISTENSEN K,MURRAY J C.What genome-wide association studies can do for medicine[J].New Engl J Med,2007,356(11):1094-1097.
[25]COETZEE S G,RHIE S K,BERMAN B P,et al.FunciSNP:an R/bioconductor tool integrating functional non-coding data sets with genetic association studies to identify candidate regulatory SNPs[J].Nucleic Acids Res,2012:1-9.
[26]ROUKOS D H.Genome-wide association studies:how predictable is a person's cancer risk?[J].Expert Rev Anticanc,2009,9(4):389-392.