李 瓅,曾昭書(shū),周艷梅,董子明
1)鄭州市中心醫(yī)院婦產(chǎn)科鄭州 450007 2)鄭州大學(xué)基礎(chǔ)醫(yī)學(xué)院法醫(yī)學(xué)教研室鄭州 450001 3)鄭州大學(xué)基礎(chǔ)醫(yī)學(xué)院病理生理學(xué)教研室鄭州 450001
第 10號(hào)染色體一個(gè)祖先信息標(biāo)記區(qū)域的發(fā)現(xiàn)及鑒定*
李 瓅1),曾昭書(shū)2)#,周艷梅1),董子明3)
1)鄭州市中心醫(yī)院婦產(chǎn)科鄭州 450007 2)鄭州大學(xué)基礎(chǔ)醫(yī)學(xué)院法醫(yī)學(xué)教研室鄭州 450001 3)鄭州大學(xué)基礎(chǔ)醫(yī)學(xué)院病理生理學(xué)教研室鄭州 450001
△男,1973年 5月生,博士,副教授,研究方向:基因多態(tài)性及其法醫(yī)學(xué)應(yīng)用,E-mail:zzs@zzu.edu.cn
祖先信息標(biāo)記;單核苷酸多態(tài)性;固定系數(shù);HapMap
目的:應(yīng)用第 10號(hào)染色體的 HapMap單核苷酸多態(tài)性(SNP)基因分型數(shù)據(jù)及人群聚類(lèi)分析技術(shù)區(qū)分人亞群。方法:從 HapMap數(shù)據(jù)庫(kù) (r23)獲取北京漢族人、歐裔和非裔 3個(gè)人群 225個(gè)樣本的第 10號(hào)染色體共 4 660余萬(wàn)個(gè)SNPs分型結(jié)果,提取在 3個(gè)群體間等位基因頻率差值大于 0.3的 SNPs,以 Genepop 4.0軟件計(jì)算固定系數(shù)(Fst),以 Structure 2.3軟件進(jìn)行聚類(lèi)分析。結(jié)果:在 3個(gè)群體間得到等位基因頻率差值大于 0.3的 SNPs共 2 910個(gè),位于該染色體長(zhǎng)臂末端 118 000 000 bp處的 rs10510019、rs10787669、rs713252與 rs919613的 Fst均大于 0.660,平均 Fst為 0.674,該 4個(gè)SNPs處于強(qiáng)連鎖不平衡狀態(tài),形成一個(gè)跨度為 13 455 bp的區(qū)域。結(jié)論:包含 4個(gè)SNPs的祖先信息標(biāo)記區(qū)域的發(fā)現(xiàn),可以有效提示某個(gè)人是否歸屬于歐裔、非裔或北京漢族人群,并為組建復(fù)合 PCR體系提供了備選 SNPs。
祖先信息標(biāo)記也稱(chēng)始祖多態(tài)位點(diǎn)或人群特異標(biāo)記,通常是指在不同地理區(qū)域的人群之間顯示出頻率上巨大差異的一套多態(tài)性位點(diǎn)[1]。例如,Duffy抗原的一個(gè)等位基因 (FY*0)在撒哈拉以南非洲人群中的頻率幾乎為 100%,但卻很少出現(xiàn)在這一地區(qū)之外的其他人群中[2],具有這一基因的個(gè)體的祖先很可能是撒哈拉以南非洲人。通過(guò)使用類(lèi)似 FY*0基因這樣的一些祖先信息標(biāo)記可以推斷某人的祖先地理起源或者推斷其祖先的來(lái)源地理區(qū)域比例。以固定系數(shù)(fixation index between subpopulation and total population,Fst,也稱(chēng)族群間遺傳分化指數(shù))[3]為單個(gè)單核苷酸多態(tài)性 (single nucleotide polymorphis m,SNP)的祖先信息推斷效能評(píng)價(jià)指標(biāo),通過(guò)使用均勻分布于整個(gè)基因組的一套具有高 Fst值的 SNPs可以非常經(jīng)濟(jì)有效地區(qū)分人亞群[4]。近來(lái),Phillips等[5]公布的可以區(qū)分亞裔、歐裔或非裔的 34個(gè)祖先信息標(biāo)記 SNPs和趙美樂(lè)等[6]發(fā)表的依據(jù) HapMap數(shù)據(jù)庫(kù)篩選而獲得可區(qū)分白人、黑人、漢族人或日本人的 44個(gè)祖先信息標(biāo)記 SNPs,均有較大意義,獲較多關(guān)注。作者在趙美樂(lè)等[6]研究的基礎(chǔ)上運(yùn)用更簡(jiǎn)單方法對(duì)人第 10號(hào)染色體進(jìn)行了祖先信息標(biāo)記 SNPs的篩選,發(fā)現(xiàn)了 4個(gè)具有較高 Fst值、緊密連鎖的 SNPs形成的一個(gè)祖先信息標(biāo)記區(qū)域,報(bào)道如下。
1.1 樣品 225人的第 10號(hào)染色體累計(jì)約 4 660萬(wàn)個(gè)SNPs分型結(jié)果下載自 HapMap官方網(wǎng)站 (http://hapmap.ncbi.nlm.nih.gov/,數(shù)據(jù)版本:r23),其中含北京漢族 (CHB)45人、歐洲白人 (CEU)90人、非洲黑人 (YR I)90人,每人均檢測(cè) 207 152個(gè)SNPs?;蚍中推脚_(tái)為 Affymetrix、BeadArray、Invader、M IP、FP-TD I、Perlegen和 Sequenom,均為 SNPs分型標(biāo)準(zhǔn)化方法,并有分型實(shí)驗(yàn)質(zhì)量控制體系保證實(shí)驗(yàn)結(jié)果之間的一致性[7]。
1.2 SNPs篩選 以數(shù)據(jù)庫(kù)程序打開(kāi)共約 4 660萬(wàn)個(gè)SNPs分型結(jié)果及頻率數(shù)據(jù),以應(yīng)用程序可視化(visual basic applications,VBA)語(yǔ)言編寫(xiě)程序[8],獲取在不同人群中等位基因頻率相差 0.3以上的所有SNPs。
1.3 Fst值計(jì)算及祖先信息推斷 將提取的 SNPs基因型轉(zhuǎn)換成 Genepop 4.0的數(shù)據(jù)格式,運(yùn)用 Genepop 4.0計(jì)算出每個(gè)SNP的 Fst[3],Fst最大者確定為最優(yōu)的祖先信息標(biāo)記 SNPs。再運(yùn)用 Structure 2.3對(duì)所選出的 SNPs進(jìn)行聚類(lèi)分析,計(jì)算樣本的始祖構(gòu)成[9]。Structure 2.3軟件運(yùn)行條件:Burnin一萬(wàn)次,MCMC迭代一萬(wàn)次;使用混合模型。運(yùn)用 SNPSTATS軟件 (http://bioinfo.iconcologia.net/snpstats/start.h tm)在線計(jì)算各位點(diǎn)之間的連鎖不平衡[3]。
2.1 針對(duì) CHB、CEU和 YRI人群的數(shù)據(jù)庫(kù)篩選結(jié)果 共篩選出 2 910個(gè)SNPs,該 2 910個(gè)SNPs不平均分布于第 10號(hào)染色體,平均間距為 46 230 bp,平均 Fst為 0.12;根據(jù) Fst最優(yōu)原則確定 rs10510019、rs10787669、rs713252、rs919613為最優(yōu)的祖先信息標(biāo)記 SNPs,此 4個(gè)SNPs的 Fst分布范圍為 0.660~0.679,平均 Fst為 0.674。
2.2 4個(gè)位點(diǎn)的位置與頻率分布 rs10510019、rs10787669、rs713252和 rs919613分布位置十分鄰近,均位于第 10號(hào)染色體長(zhǎng)臂末端 118 000 000 bp處的一個(gè)跨度為 13 455 bp的區(qū)間內(nèi),4個(gè)SNPs的平均距離是 3 361 bp。等位基因頻率見(jiàn)表1。
表1 4個(gè)鄰近 SNPs的等位基因頻率
2.3 樣品人群歸類(lèi)分析 經(jīng)運(yùn)用 Structure 2.3軟件進(jìn)行人群結(jié)構(gòu)分析后,發(fā)現(xiàn)該 4個(gè)SNPs能夠可信地區(qū)分 CEU、CHB或 YR I,但對(duì)于 CHB的判斷意義弱于 CEU或 YR I。見(jiàn)圖1。
圖1 4個(gè)SNPs的人群結(jié)構(gòu)分析圖 (K=3)左側(cè)紅色條紋代表 CEU,中間紫色條紋代表 CHB,右側(cè)綠色條紋代表 YR I人群;每列代表一個(gè)個(gè)體;顏色的亮度代表始祖構(gòu)成的比例;K為假設(shè)人亞群數(shù)。
2.4 連鎖不平衡分析結(jié)果D’及r的具體數(shù)值見(jiàn)表2、3(一般認(rèn)為D’或r2大于 0.7有連鎖關(guān)系,等于 1為完全連鎖不平衡)??芍?4個(gè)SNPs位點(diǎn)間存在完全連鎖不平衡,處于連鎖狀態(tài)。
表2 4個(gè)SNPs的兩兩配對(duì)連鎖不平衡分析結(jié)果D’值
表3 4個(gè)鄰近 SNPs的兩兩配對(duì)連鎖不平衡分析結(jié)果r值
所謂祖先信息推斷,是指對(duì)未知來(lái)源的樣品或個(gè)體通過(guò)使用一組特異的遺傳標(biāo)記估算出該樣品或個(gè)體祖先的地理起源,或者推斷出其祖先中不同地理起源的構(gòu)成比例。由于我國(guó)是一個(gè)多民族國(guó)家,存在于漢、回、蒙、壯、藏、苗等民族中的特異性遺傳標(biāo)記目前少有結(jié)論,所以開(kāi)展祖先信息推斷研究、尋找和發(fā)現(xiàn)各民族特異的祖先信息標(biāo)記具有重要的意義[10]。
祖先信息推斷早期主要依靠形態(tài)學(xué)指征和蛋白質(zhì)多態(tài)性進(jìn)行推斷,可信度較低;近來(lái)常用 DNA水平的遺傳標(biāo)記進(jìn)行相關(guān)分析。ALU序列[11]、STR位點(diǎn)[12],特別是 SNP位點(diǎn)[5-6,10]應(yīng)用已成為祖先信息推斷的主流。由于 STR的等位基因多,必須檢測(cè)較大量的人群樣本才能比較正確地推斷其等位基因在人群中的分布頻率。應(yīng)用 SNP進(jìn)行祖先信息推斷相對(duì)要求較低,結(jié)果更加穩(wěn)定,有更大優(yōu)勢(shì)[13]。
研究[3-4]表明,在衡量一個(gè)遺傳標(biāo)記的祖先信息推斷效能上,Fst是一個(gè)非常重要的定量指標(biāo),其數(shù)值大小與各品種 (類(lèi)群)間遺傳變異程度或祖先信息含量成正比,Fst越大表明該 SNP在多個(gè)人群中的變異越大,越適合作為某一人群與其他人群的區(qū)別性標(biāo)志。經(jīng)應(yīng)用 HapMap數(shù)據(jù)庫(kù)的第 10號(hào)染色體的 SNPs分型結(jié)果對(duì) Phillips等[5]及趙美樂(lè)等[6]推薦的 SNPs的 Fst進(jìn)行計(jì)算,發(fā)現(xiàn) Phillips等推薦的 34個(gè)SNPs的 Fst分布區(qū)間為 0.169~0.975,均值為 0.470;趙美樂(lè)等推薦的 44個(gè)SNPs的 Fst分布區(qū)間為 -0.007~0.580,均值為 0.318;而該組 4個(gè)SNPs的 Fst分布區(qū)間為 0.660~0.679,均值為0.674,說(shuō)明該組 4個(gè)SNPs的基因型分布在 3個(gè)人群間具有較大的波動(dòng)性,較適于區(qū)分人亞群。
由于這 4個(gè)位點(diǎn)緊密連鎖,雖然該區(qū)域內(nèi)的各SNPs一致具有較高的 Fst,但是當(dāng)該區(qū)域在實(shí)際應(yīng)用于祖先信息推斷時(shí),仍然只能選用其中 1個(gè)SNP。這在完成祖先信息推斷需要同時(shí)對(duì)數(shù)十個(gè)SNPs進(jìn)行分型的情況下具有重要意義。實(shí)驗(yàn)過(guò)程中對(duì)這數(shù)十個(gè)SNPs多采用復(fù)合 PCR技術(shù)以一管擴(kuò)增完畢,以節(jié)約時(shí)間和成本[5,14]。如果這些 SNPs間的引物兼容性差則將導(dǎo)致復(fù)合 PCR難以進(jìn)行,然而由于祖先信息標(biāo)記區(qū)域可提供多個(gè)備選 SNPs,故當(dāng)某個(gè)SNP的引物序列存在問(wèn)題時(shí)可以選用連鎖區(qū)域內(nèi)的其他 SNPs,眾多的備選 SNPs將能使數(shù)十個(gè)SNPs間的引物兼容性達(dá)到最大化。
另外,由于該 4個(gè)SNPs均位于胰酯酶相關(guān)蛋白3基因[15]的區(qū)域內(nèi),所以該結(jié)果還提示胰酯酶相關(guān)蛋白 3基因的功能可能在 CEU、CHB、YR I人群中有較大差別。這方面的差異尚待進(jìn)一步研究。
[1]EnochMA,Shen PH,Xu K,et al.Using ancestry-infor mativemarkers to define populations and detectpopulation stratification[J].J Psychophar macol,2006,20(4 Suppl):19
[2]HultA,HellbergA,Wester ES,et al.Blood group genotype analysis for the quality improvementof reagent test red blood cells[J].Vox Sang,2005,88(4):265
[3]曾昭書(shū),王黎,方宇,等.高個(gè)體識(shí)別力通用單核苷酸多態(tài)性位點(diǎn)篩選及檢測(cè)[J].鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2010,45(3):378
[4]Holsinger KE,Weir BS.Genetics in geographically structured populations:defining,estimating and interpreting F(ST)[J].Nat Rev Genet,2009,10(9):639
[5]Phillips C,SalasA,Sánchez JJ,et al.Inferring ancestral origin using a singlemultiplex assayof ancestry-infor mativemarker S NPs[J].Forensic Sci Int Genet,2007,1(3/4):273
[6]趙美樂(lè),齊守文,劉良,等.中國(guó)漢族、日本、歐裔和非裔人群 SNP始祖多態(tài)位點(diǎn)的鑒定 [J].鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2007,42(3):540
[7]International HapMap Consortium.The International Hap-Map Project[J].Nature,2003,426(6 968):789
[8]Shikaze SG,Crowe AS.An Excelmacro for generating trilinear plots[J].GroundWater,2007,45(1):106
[9]Pritchard JK,StephensM,Donnelly P.Inference of populationstructure using multilocus genotype data[J].Genetics,2000,155(2):945
[10]Xu S,HuangW,Qian J,et al.Analysis of genomic admixture in Uyghur and its implication in mapping strategy[J].Am J Hum Genet,2008,82(4):883
[11]TerrerosMC,Alfonso-SánchezMA,Novick GE,et al.Insights on human evolution:an analysisofAlu insertion polymorphis ms[J].J Hum Genet,2009,54(10):603
[12]Barnholtz-Sloan JS,Pfaff CL,Chakraborty R,et al. Informativeness of the COD IS STR loci for admixture analysis[J].J Forensic Sci,2005,50(6):1 322
[13]曾昭書(shū).SNPs的法醫(yī)學(xué)應(yīng)用研究 [D].鄭州:鄭州大學(xué)基礎(chǔ)醫(yī)學(xué)博士后流動(dòng)站,2009.
[14]Podini D,Vallone PM.SNP genotyping using multiplex single base primer extension assays[J].MethodsMolBiol,2009,578:379
[15]Aoki J,Inoue A,Makide K,et al.Structure and function of extracellular phospholipase A1 belonging to the pancreatic lipase gene family[J].Biochimie,2007,89(2):197
(2009-10-23收稿 責(zé)任編輯徐春燕)
Finding and confir mation of an ancestor infor mative marker region on chromosome 10
L I L i1),ZENG Zhaoshu2),ZHOU Yanm ei1),DONG Zim ing3)
1)Depar tment of Obstetrics and Genecology,Zhengzhou Central Hospital,Zhengzhou 4500072)Depar tment of ForensicMedicine,College of BasicMedical Sciences,Zhengzhou University,Zhengzhou 4500013)Depar tment of Pathology and Physiology,College of BasicMedical Sciences,Zhengzhou University,Zhengzhou 450001
ancestry informative marker;single nucleotide polymorphism;fixation index;HapMap
A im:To distinguish the population substructure with the HapMap SNP genotyping data of chromosome 10 and the ancestry information reconstructing strategy.Methods:More than 46.6 million SNP genotypes on chromosome 10 of 225 individuals from Han Chinese in Beijing,European-American and African were obtained from the HapMap database(r23).Computer programs edited with Visual Basic Application(VBA)languages were used to extract SNPs with allele frequency variations greater than 0.3 between any two of the three populations.Fixation Index(Fst)valueswere calculated with Genepop 4.0.Cluster analysiswas perfor med with Structure 2.3.Results:A total of 2 910 SNPs were found to have allele frequency variations greater than 0.3 between any two of the three populations,among which rs10510019,rs10787669,rs713252 and rs919613 were found to have high Fst values greater than 0.660 and an average Fst value at 0.674.Further analysis showed that theywere in strong linkage disequilibrium,forming a region of 13 455 bp.Conclusion:The identification of such an ancestry infor mative region containing 4 SNPs could be used efficiently to disclose whether a person belongs to European orAfrican or Han Chinese,and will be able to provide more candidate SNPs for the developing of a multiplex PCR system.
R394.5
*國(guó)家自然科學(xué)基金資助項(xiàng)目 30700966;31071100