沈春梅,解通,梅書燕,方雅婷,蘭瓊,劉艷芳,朱波峰,3,邰發(fā)道
(1.陜西師范大學(xué)生命科學(xué)學(xué)院,陜西 西安 710062;2.南方醫(yī)科大學(xué)法醫(yī)學(xué)院,廣東 廣州 510515;3.西安交通大學(xué)口腔醫(yī)院 陜西省顱頜面精準(zhǔn)醫(yī)學(xué)研究重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710004)
近年來,祖先信息標(biāo)記(ancestry informative marker,AIM)已經(jīng)引起人類學(xué)、群體遺傳學(xué)以及法醫(yī)物證學(xué)研究者的廣泛關(guān)注,這類分子遺傳標(biāo)記在不同地域的群體間等位基因頻率存在較大差異。群體遺傳學(xué)研究結(jié)果[1-4]表明:生活在不同地域的人群,因其地理距離相隔較遠(yuǎn),人群間的基因交流也相對較少;而生活在同一或鄰近區(qū)域內(nèi)的人群,往往存在較多的基因交流,因此,其基因構(gòu)成也會較為相似,通常認(rèn)為他們具有共同的祖先來源。祖先信息推斷是利用AIM推斷未知個(gè)體可能的生物地理祖先起源或某一群體祖先信息成分構(gòu)成比例。祖先信息推斷研究在法醫(yī)學(xué)、人類學(xué)等領(lǐng)域已被廣泛應(yīng)用,其研究有助于現(xiàn)場檢材來源人的生物地理祖先推斷和犯罪嫌疑人表型特征刻畫,能夠縮小偵察范圍,為案件的偵破提供指向性線索[5-9]。
新疆位于我國西北地區(qū),地處歐亞大陸腹地,是我國少數(shù)民族主要聚居地區(qū)之一。新疆地區(qū)因其地域廣闊、少數(shù)民族眾多,從而引起人類學(xué)、群體遺傳學(xué)和法醫(yī)物證學(xué)研究者的廣泛關(guān)注。蒙古族是我國人口數(shù)量較多的少數(shù)民族之一。根據(jù)2010年第六次人口普查結(jié)果[10],蒙古族人口約為650萬,主要分布在內(nèi)蒙古、東北、新疆、青海以及河北等地,對其遺傳背景和遺傳結(jié)構(gòu)進(jìn)行深入研究具有重要的法醫(yī)學(xué)實(shí)踐意義。
插入/缺失(insertion/deletion,InDel)多態(tài)性是指人類基因組中插入或缺失不同長度的DNA片段所形成的遺傳多態(tài)性[11]。InDel多表現(xiàn)為二等位基因,其擴(kuò)增片段較短,適用于陳舊、降解檢材的DNA檢測分析[12],因而在法醫(yī)學(xué)中應(yīng)用較為廣泛。本研究應(yīng)用課題組前期構(gòu)建的39個(gè)AIM-InDels位點(diǎn)熒光復(fù)合擴(kuò)增檢測體系[13],以新疆維吾爾自治區(qū)烏魯木齊市的常住蒙古族群體為研究對象,進(jìn)行蒙古族的祖先信息和遺傳背景初探。
采集烏魯木齊市145名蒙古族無關(guān)健康志愿者的全血樣本。樣本納入原則:(1)世居在新疆維吾爾自治區(qū)烏魯木齊市;(2)個(gè)體相互間無血緣關(guān)系、身體健康的成年個(gè)體;(3)家族成員在三代內(nèi)無與其他民族通婚及遷居史。本研究獲得南方醫(yī)科大學(xué)和西安交通大學(xué)醫(yī)學(xué)部倫理委員會的批準(zhǔn),并嚴(yán)格遵照國家生物倫理的相關(guān)規(guī)定和要求,所有志愿者在納入本研究前均知悉并同意,并在書面知情同意書上簽名確認(rèn)。
本研究利用課題組前期構(gòu)建的39個(gè)AIM-InDels位點(diǎn)復(fù)合擴(kuò)增檢測體系[13],對145名烏魯木齊蒙古族個(gè)體的血樣,采用9700型PCR儀(美國AB公司)進(jìn)行擴(kuò)增,反應(yīng)總體積為25μL,包括1mm×1mm血痕卡一片,12.5 μL的2×反應(yīng)混合物,2.5 μL的引物混合物,并用超純水補(bǔ)足至25 μL。39個(gè)InDels位點(diǎn)的復(fù)合PCR條件:95℃變性5 min;94℃變性45 s,56℃退火1min,72℃延伸1min,共35個(gè)循環(huán);60℃延伸60min。隨后,取1 μL的PCR產(chǎn)物、0.5 μL內(nèi)標(biāo)和8.5 μL去離子甲酰胺混勻;混合物95℃變性3min,立即置冰上冷卻3min;然后放入3500xL基因分析儀(美國AB公司)進(jìn)行電泳。最后,采用GeneMapper?ID-X軟件v1.5(美國Thermo Fisher Scientific公司)對39個(gè)InDels位點(diǎn)進(jìn)行基因分型。選取女性標(biāo)準(zhǔn)品F312(北京閱微基因技術(shù)有限公司)作為陽性對照,以超純水作為陰性對照。
參考群體選自千人基因組計(jì)劃第三期(1000 Genome ProjectⅢ)數(shù)據(jù)中三個(gè)洲際(非洲、東亞及歐洲)的17個(gè)不同群體(表1),包含了1668個(gè)健康無關(guān)個(gè)體的原始分型數(shù)據(jù)[14]。基于這些參考群體,對烏魯木齊蒙古族樣本分型數(shù)據(jù)與17個(gè)群體進(jìn)行系統(tǒng)的比較分析。
表1 千人基因組計(jì)劃中三個(gè)主要洲際人群詳細(xì)信息
(1)應(yīng)用Powerstates v1.2軟件(美國Promega公司)對所有位點(diǎn)的等位基因頻率及其群體遺傳學(xué)參數(shù)進(jìn)行計(jì)算,其中各位點(diǎn)的期望雜合度采用Arlequin v3.5[15]進(jìn)行計(jì)算,隨后,應(yīng)用R軟件包繪制18個(gè)群體的38個(gè)位點(diǎn)(因位點(diǎn)rs3034941在千人基因組計(jì)劃中缺乏群體數(shù)據(jù)而未參與后續(xù)的比較分析)的插入等位基因頻率熱圖。(2)基于不同群體38個(gè)InDels位點(diǎn)的基因型數(shù)據(jù),應(yīng)用Genepop v4.0軟件[16]計(jì)算烏魯木齊蒙古族和參考群體間配對的遺傳分化指數(shù)(fixation index,F(xiàn)st)值。此外,群體間遺傳距離(Nei’sDAdistance,DA)值采用DISPAN軟件(賓夕法尼亞州大學(xué))進(jìn)行計(jì)算,基于獲得的DA距離應(yīng)用MEGA v7.0.14軟件(分子進(jìn)化遺傳學(xué)研究所)構(gòu)建系統(tǒng)發(fā)育樹[17]。(3)基于38個(gè)InDels位點(diǎn)的基因型數(shù)據(jù),應(yīng)用Structure v2.3.4軟件(斯坦福大學(xué)普里查德實(shí)驗(yàn)室)分析群體的遺傳結(jié)構(gòu),并利用 Distruct 1.1(設(shè)置參數(shù)K=2~7,run=15,10000 burn-in,10000 MCMC)(斯坦福大學(xué)羅森博格實(shí)驗(yàn)室)將計(jì)算得到的每個(gè)群體的祖先信息成分比例,可視化成條形圖。將Structure 2.3.4分析結(jié)果上傳于線上軟件Structure Harvester(http://taylor0.biology.ucla.edu/structureHarvester/)確定最適宜K值,并應(yīng)用Structure 2.3.4輸出三角聚類圖。(4)基于38個(gè)InDels位點(diǎn)的基因型數(shù)據(jù),采用Snipper軟件(http://mathgene.usc.es/snipper/)進(jìn)行個(gè)體水平上的主成分分析(principal component analysis,PCA)[18]。
烏魯木齊蒙古族39個(gè)InDels位點(diǎn)的插入等位基因頻率分布和群體遺傳學(xué)參數(shù)見表2。所有39個(gè)位點(diǎn)均符合Hardy-Weinberg平衡。群體遺傳學(xué)參數(shù)期望雜合度(expected heterozygosity,He)、多態(tài)信息含量(polymorphism information content,PIC)、個(gè)體識別率(discrimination power,DP)、非父排除率(probability of paternity exclusion,PE)、匹配概率(probability of match,MP)、典型父權(quán)指數(shù)(typical paternity index,TPI)分別在0.1108~0.5009、0.1043~0.3746、0.1880~0.645 2、0.006 8~0.259 1、0.354 8~0.812 0 及 0.259 1~1.0662。所有18個(gè)群體在38個(gè)相同InDels位點(diǎn)插入等位基因頻率熱圖和聚類結(jié)果見圖1。聚類結(jié)果顯示:18個(gè)群體共形成三個(gè)大的聚類,分別是非洲群體聚類支、歐洲群體聚類支以及蒙古族和東亞群體聚類支。整體而言,不同洲際群體間具有較大的等位基因頻率分布差異,同一洲際群體間具有相似的等位基因頻率分布,烏魯木齊蒙古族各位點(diǎn)的插入等位基因頻率分布與東亞群體大體一致。
表2 烏魯木齊蒙古族39個(gè)InDels位點(diǎn)的插入等位基因頻率及群體遺傳學(xué)參數(shù) (n=145)
續(xù)表2
圖1 18個(gè)群體在38個(gè)相同InDels位點(diǎn)的插入等位基因頻率分布熱圖(熱圖中等位基因的頻率從低到高,依次由綠色過渡到粉色)
兩兩配對的群體間Fst和DA值見圖2。結(jié)果顯示:同一洲際內(nèi)配對群體間具有較小的Fst值(≤0.04)和DA值(<0.01);不同洲際配對群體間具有較大的Fst值與DA值。其中,非洲與東亞群體間遺傳分化程度最大(Fst>0.35),其次是歐洲與東亞(Fst>0.29),最后是歐洲與非洲群體(Fst>0.17)。烏魯木齊蒙古族與非洲群體間Fst值相對較大(Fst>0.28),歐洲群體(Fst>0.23)與東亞群體間的Fst相對小(Fst<0.03)。對于DA值,東亞群體與非洲群體顯示出最大的遺傳距離(DA>0.12),其次是東亞與歐洲(DA>0.09),最后是非洲與歐洲(DA>0.04)。烏魯木齊蒙古族與東亞群體遺傳距離最近(DA=0.01),其次是歐洲(DA>0.06),與非洲群體遺傳距離最大(DA>0.09)。進(jìn)一步對烏魯木齊蒙古族與17個(gè)群體配對的DA與Fst值進(jìn)行了分析,其中烏魯木齊蒙古族與CHB、JPT、KHV、CHS及CDX這些東亞群體具有較小的DA值與Fst值,其中烏魯木齊蒙古族與CHB群體的DA值(0.007 2)和Fst值(0.018 7)最小。相反,烏魯木齊蒙古族群體與ESN群體顯示出最大的DA值(0.1344),與YRI群體顯示出最大的Fst值(0.3808)。
圖2 18個(gè)群體兩兩配對的Fst值與DA距離分布熱圖
基于38個(gè)相同的InDels位點(diǎn)的等位基因頻率,對烏魯木齊蒙古族與17個(gè)參考群體在個(gè)體水平上進(jìn)行PCA分析(圖3)。結(jié)果顯示:來自三個(gè)洲際群體的1 668個(gè)個(gè)體形成三個(gè)主要的聚類簇,即歐洲聚類簇(藍(lán)色)、東亞聚類簇(粉色)和非洲聚類簇(橙色)。烏魯木齊蒙古族(綠色)個(gè)體大部分散落在東亞簇上,有個(gè)別樣本散落在東亞與歐洲之間,但靠近東亞。同時(shí),基于配對群體間DA值構(gòu)建18個(gè)群體的系統(tǒng)發(fā)育樹(圖4)。圖中顯示兩個(gè)大的分支:一支為東亞人群,另一支為非洲與歐洲人群。烏魯木齊蒙古族群體位于東亞分支上。
圖3 18個(gè)群體在個(gè)體水平上的PCA分析圖;圖4基于DA距離構(gòu)建的18個(gè)群體的系統(tǒng)發(fā)育樹
應(yīng)用Structure 2.3.4軟件,對烏魯木齊蒙古族和參考群體進(jìn)行群體遺傳結(jié)構(gòu)分析,在K=3時(shí)顯示出最大值,表明K=3時(shí)最適宜(圖5)。同時(shí),隨機(jī)抽取K=3時(shí)的一次運(yùn)算結(jié)果,進(jìn)行遺傳結(jié)構(gòu)分析。圖6顯示烏魯木齊蒙古族樣本主要散落在東亞聚類(集合Ⅱ)中,有個(gè)別樣本散布在歐洲群體的聚類里(集合Ⅲ)。為進(jìn)一步明晰18個(gè)群體在個(gè)體水平的祖先信息成分構(gòu)成比例,應(yīng)用Distruct 1.1軟件直觀展示了1813個(gè)樣本(其中蒙古族樣本145個(gè),參考群體樣本1 668個(gè))估計(jì)的祖先信息成分比例,結(jié)果見圖7A。在群體水平上對烏魯木齊蒙古族的祖先信息成分進(jìn)行分析,結(jié)果見圖7B。以上結(jié)果表明:無論從個(gè)體水平或群體水平上分析,烏魯木齊蒙古族樣本的祖先信息成分比例與東亞人群最為接近。烏魯木齊蒙古族源于東亞、歐洲和非洲群體的祖先信息成分比例分別為89%、7%和3%。
圖5 ΔK在不同K值條件下的數(shù)值折線圖
圖6 利用Structure 2.3.4軟件構(gòu)建的三個(gè)洲際18個(gè)群體三角聚類圖
圖7 18個(gè)群體祖先信息成分比例條形圖
揭示某一群體的祖先信息構(gòu)成,明晰群體遺傳結(jié)構(gòu),探索群體間遺傳關(guān)系,以及推斷現(xiàn)場檢材來源人的生物地理祖先,不僅有利于全基因組關(guān)聯(lián)分析研究時(shí),避免群體分層的影響,而且在法醫(yī)學(xué)實(shí)踐中亦可為案件的偵破提供指向性的線索。
近年來,雖然有不少基于SNP分子遺傳標(biāo)記構(gòu)建的用于祖先信息推斷的分型檢測體系[19-21],但鑒于InDel標(biāo)記同時(shí)兼具STR與SNP標(biāo)記的優(yōu)勢,同時(shí)表現(xiàn)為長度多態(tài)性,可以利用毛細(xì)管電泳平臺進(jìn)行分型檢測,易于在基層法醫(yī)DNA實(shí)驗(yàn)室應(yīng)用推廣的特點(diǎn),本研究使用課題組前期構(gòu)建的39個(gè)AIM-InDels的祖先信息推斷體系[13]對烏魯木齊蒙古族進(jìn)行祖先信息探索研究。根據(jù)LAN等[13]對該體系的研究,證實(shí)了該體系在非洲、歐洲及東亞人群間有良好的祖先信息推斷區(qū)分效能。為了進(jìn)一步驗(yàn)證該體系在我國其他人群的祖先信息推斷效能,本次以烏魯木齊蒙古族為研究對象,初步探明其祖先信息構(gòu)成,進(jìn)一步揭示其遺傳背景。
首先,我們應(yīng)用多種群體遺傳學(xué)參數(shù)和生物信息學(xué)分析方法,包括Fst值、DA值、系統(tǒng)發(fā)育樹的構(gòu)建以及PCA分析,結(jié)果顯示烏魯木齊蒙古族與東亞人群的遺傳距離較近。其次,本研究利用基于貝葉斯模型算法的Structure 2.3.4軟件對烏魯木齊蒙古族祖先信息成分比例進(jìn)行了預(yù)測。該分析是在設(shè)定不同的K值條件下對群體進(jìn)行聚類分析,其中K值指的是在運(yùn)行Structure軟件進(jìn)行祖先信息成分聚類時(shí),假定的全部群體可分為幾個(gè)亞群。最優(yōu)K值的選擇是基于所有樣本原始分型數(shù)據(jù)的分析結(jié)果以及比較群體遺傳結(jié)構(gòu)的綜合考量,本研究中確定最優(yōu)K值為3。群體遺傳結(jié)構(gòu)分析結(jié)果表明,烏魯木齊蒙古族在東亞、歐洲、非洲群體中的祖先信息成分占比分別為89%、7%、3%。既往有學(xué)者基于不同分子遺傳標(biāo)記對蒙古族的遺傳多態(tài)性進(jìn)行了研究,例如:JIANG等[22]分析了21個(gè)插入/缺失多態(tài)性遺傳標(biāo)記在中國7個(gè)群體中的遺傳分布,結(jié)果表明這些群體(包括內(nèi)蒙古蒙古族)具有相似的遺傳多樣性分布;CHEN等[23]在基于X染色體的11個(gè)相同的STR遺傳標(biāo)記對新疆蒙古族的研究中指出,新疆蒙古族群體和亞洲群體,包括內(nèi)蒙古的蒙古族顯示出一定的遺傳差異;WEI等[24]基于19個(gè)常染色體STR對新疆蒙古族調(diào)查研究中指出,新疆蒙古族與新疆維吾爾族以及其他中國群體之間存在較近的遺傳關(guān)系。本次研究與上述基于不同分子遺傳標(biāo)記對蒙古族和其他民族的群體遺傳關(guān)系的研究結(jié)果基本一致。
本研究基于既往研發(fā)的39個(gè)AIM-InDels熒光標(biāo)記復(fù)合擴(kuò)增檢測體系,通過和不同洲際群體進(jìn)行比較分析,探討了烏魯木齊蒙古族群體的祖先信息成分比例以及遺傳背景。群體遺傳結(jié)構(gòu)分析揭示了烏魯木齊蒙古族在東亞、歐洲和非洲群體中的祖先信息成分占比分別為89%、7%、3%,其他群體遺傳學(xué)分析的結(jié)果也表明烏魯木齊蒙古族和東亞群體具有較近的遺傳關(guān)系。