• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    重構人類演化中族群融合與基因交流歷史的方法

    2023-05-30 10:48:04張瑞徐書華
    科學 2023年1期

    張瑞 徐書華

    遺傳混合是人類演化的重要驅(qū)動力之一。實際上,世界上大部分人群都是混合人群,并且其混合過程隨著時間的推移越來越復雜。其中最典型的混合人群有非裔美國人(African American)、拉丁裔美國人(Latino American),以及我國西北地區(qū)的維吾爾族和哈薩克族人群等。準確而高效的統(tǒng)計模型與算法工具,可以為解析混合人群的祖源構成、重構混合歷史模型,以及闡明人類遺傳多樣性的產(chǎn)生和演化機制,提供強有力的理論支持與技術支撐。下面主要從統(tǒng)計方法和算法工具的角度,對人群混合歷史研究中的四個關鍵科學問題進行系統(tǒng)介紹:全局祖源推斷(global ancestry inference),局部祖源推斷(local ancestry inference),現(xiàn)代人類混合歷史重構(modern human admixture history modeling)和遠古人類與現(xiàn)代人類基因交流歷史重構(archaic introgression history modeling)。

    全局祖源推斷

    全局祖源推斷是指在混合個體的全基因組水平上,估計各祖源人群對于混合人群的貢獻比例,依據(jù)其理論框架不同可大致分為非參數(shù)方法和基于模型的方法。在非參數(shù)方法中,較為典型且常用的為主成分分析。該方法通過對輸入數(shù)據(jù)進行降維,提取能最大化描述輸入數(shù)據(jù)方差且線性無關的一些特征,根據(jù)不同特征所能解釋數(shù)據(jù)方差程度的大小排序,再依次將其命名為第一主成分、第二主成分等。利用主成分分析結果,可以近似地用低維數(shù)據(jù)表示原始輸入數(shù)據(jù),并進而研究其內(nèi)部數(shù)據(jù)結構,達到對高維數(shù)據(jù)進行降維的效果。類比到全局祖源推斷中,人類全基因組大約有30億個堿基,如此高維的數(shù)據(jù)難以直接反映出人群內(nèi)部遺傳結構。通過對人群原始遺傳數(shù)據(jù)進行主成分分析,再分別以第一主成分和第二主成分為橫縱軸,可以看到所有的個體數(shù)據(jù)被投影到一個平面內(nèi),而相距較近的個體表明其遺傳關系也更為接近。此外,若對世界范圍內(nèi)各大洲的基因組數(shù)據(jù)進行主成分分析,不難發(fā)現(xiàn)在地理位置上相對較近的人群,在主成分分析結果圖上也會呈現(xiàn)出相對聚集的模式,這體現(xiàn)了世界范圍內(nèi)人群地理位置信息可以與其遺傳關系存在一定程度上的對應。然而,基于主成分分析的結果僅能大致判斷哪些人群或個體在遺傳關系上較為接近,而無法進一步估計混合比例等參數(shù)。

    接下來,就是基于模型進行全局祖源推斷。此類方法中使用較多的工具是普里查德(J. K.Pritchard)等在2000年提出的STRUCTURE[1],以及亞歷山大(D. H. Alexander)等在2009年提出的ADMIXTURE[2]。這兩類工具均是在給定祖源成分數(shù)量(記為K)的前提下,對輸入人群進行聚類并產(chǎn)生K個不同的簇(cluster)。其中,STRUCTURE基于貝葉斯方法,通過馬爾可夫鏈蒙特卡羅(Markov Chain Monte-Carlo, MCMC)方法對后驗分布進行采樣,進而推測輸入數(shù)據(jù)中存在的群體遺傳結構。ADMIXTURE軟件借鑒了STRUCTURE的似然模型,并利用極大似然方法來估計群體遺傳結構。該方法在不顯著影響準確度的前提下,運行速度相比于STRUCTURE提升數(shù)十倍。這兩類方法均可以在全基因組水平上估計祖源人群對混合人群的貢獻比例。

    局部祖源推斷

    不同的混合過程可能會呈現(xiàn)出相似的全局祖源模式。有研究團隊發(fā)現(xiàn),存在地理隔離的不同人群與進行長距離歷史遷徙的人群相比,所呈現(xiàn)的主成分分析結果十分接近[3]。為進一步了解混合人群的遺傳結構,需要利用局部祖源推斷方法。局部祖源推斷是從混合人群的單倍體水平上,解析其基因組中每個位點或者每個片段最有可能來自的祖源人群,這也可以理解成一個給混合個體基因組進行標注的過程。相比于全局祖源推斷,局部祖源推斷對于祖源成分的解析會更加精細和具體化。目前較常見的局部祖源推斷方法主要基于隱馬爾可夫模型,它將混合個體在某個位點上的等位基因看作是觀測狀態(tài),并將位點的祖先來源看作是隱狀態(tài)。基于隱馬爾可夫模型中所定義的初始狀態(tài)概率向量(即在初始時刻不同隱狀態(tài)的概率),狀態(tài)轉(zhuǎn)移概率矩陣(即此刻某一隱狀態(tài)跳轉(zhuǎn)到下一時刻某一隱狀態(tài)的概率),以及發(fā)射概率矩陣(即每一隱狀態(tài)生成不同觀測的概率),可以利用當前時刻所觀測到的信息,以及此前時刻的隱狀態(tài)推測當前時刻最有可能的隱狀態(tài)。類比到局部祖源推斷的問題中,即結合當前位點所觀測到的等位基因信息,以及此前位點的祖先來源狀態(tài),利用隱馬爾可夫模型推測該位點最有可能來源的祖源人群狀態(tài)。

    李(N. Li)和斯蒂芬斯(M. Stephens)最早于2003年提出基于隱馬爾可夫模型結合局部祖源信息和重組率估計的理論框架。此后,該模型框架被不斷應用于局部祖源推斷方法的開發(fā)中,并取得了較好成果。此外,條件隨機場(conditional random field, CRF)模型,支持向量機(support vector machine, SVM)模型,以及隨機森林(random forest, RF)模型等也被應用于局部祖源推斷方法的開發(fā)中。這些方法中,較典型的有以下三個工具:邁爾斯(S. Myers)研究組在2009年開發(fā)的HAPMIX[4],布斯塔曼特(C. D. Bustamante)研究組在2013年開發(fā)的RFMix[5],以及布盧姆(M. G. B. Blum)研究組在2018年開發(fā)的Loter[6]。它們所基于的理論框架和算法模型不盡相同,因此其所適用的群體遺傳數(shù)據(jù)分析場景也存在一定差異:HAPMIX對于推斷兩祖源人群混合模式(two-way admixture)下的局部祖源十分準確;RFMix主要適用于推斷混合時間較為近期的混合群體,例如非裔美國人和拉丁裔美國人等;Loter更適用于推斷混合時間較為久遠的混合群體,大致為距今3000年前發(fā)生的混合事件。

    現(xiàn)代人類混合歷史重構

    混合歷史的構建主要包括混合模式的推斷,混合時間,以及混合比例的估計。目前人類基因組中用于推斷人群混合歷史的遺傳特征主要分為以下三種:等位基因頻譜(allele frequency spectrum),混合連鎖不平衡(admixture linkage disequilibrium, ALD)以及祖源片段信息(ancestral tracts)。

    等位基因頻譜描述的是人群在給定位點上的等位基因頻率的分布情況,其能很好地刻畫基因突變和遺傳漂變的信息。等位基因頻譜的變化在一定程度上可反映人群歷史信息,且等位基因頻率的計算方式也較為簡單,可以直接依據(jù)基因型數(shù)據(jù)計算,無需大量的算法迭代過程,所以早期用于推斷人群混合歷史的方法多基于這一遺傳信息。其中,比較有代表性的是賴克(D. Reich)團隊在2009年開發(fā)的ADMIXTOOLS工具[7],該方法提出一系列統(tǒng)計量,如D統(tǒng)計量、F3統(tǒng)計量等,并基于不同人群的等位基因共享情況,借助系統(tǒng)發(fā)生樹拓撲結構來刻畫不同人群之間的基因流動與遺傳混合情況。

    連鎖不平衡(linkage disequilibrium, LD)描述了群體水平位點之間的非隨機的相關性,即在某一群體中某兩個位點之間的相關性明顯高于隨機情況的現(xiàn)象。LD的產(chǎn)生與自然選擇、遺傳漂變、群體結構、有效群體大小均有關系。而ALD指的是混合過程中,祖源人群內(nèi)部的特異性位點在混合人群基因組中更傾向于連鎖在一起的現(xiàn)象。祖源人群分歧時間越久,各個人群內(nèi)部積累的特異性位點也會隨之增多,在形成混合人群時,ALD也會越強。但是在混合事件發(fā)生之后,隨著混合時間的增加,ALD會以一定的速率指數(shù)衰減。所以,結合混合事件發(fā)生時的LD以及當前混合人群中的LD信息,可以推斷混合歷史。以LD推測混合歷史的思路最先被穆爾賈尼(P. Moorjani)及其合作者應用,隨后被羅(P. Loh)與皮克雷爾(J. K. Pickrell)等人進一步改進,并于2013年和2014年分別提出了ALDER以及MALDER工具。

    祖源片段信息是混合個體單倍型水平上每個位點或者片段的祖先來源,這一信息的提取可以借助前面介紹的局部祖源推斷方法。祖源片段信息大致可分為祖先間跳轉(zhuǎn)速率(ancestral switches probability)和祖源片段長度分布(ancestral tracts length distribution)。前者描述了混合人群基因組中,不同祖先來源的片段之間發(fā)生轉(zhuǎn)換的概率。當兩個群體之間的混合時間越長,隨著重組事件的積累,對應祖先間片段跳轉(zhuǎn)的次數(shù)就越多。而后者描述的是混合人群基因組中,來自某一祖源人群的片段長度分布情況。在群體遺傳學中,重組事件的發(fā)生可以用泊松過程來刻畫,因此,在混合過程中由于重組被打碎的祖源片段長度服從指數(shù)分布。隨著混合時間的增加,重組事件積累的次數(shù)變多,祖源片段也會越來越碎。另外,來自某一祖源片段的總長度也可以反映該祖源人群的遺傳物質(zhì)在混合群體中所占的比例。祖源片段長度信息最早在2009年被普爾(J. E. Pool)和尼爾森(R. Nielsen)應用于混合歷史的推斷中。此后,自2018年起,筆者研究團隊也基于此遺傳信息開發(fā)了MultiWaver系列軟件[8],該軟件可以在不同混合模式下分別進行參數(shù)估計,并依據(jù)不同混合模型似然值大小選擇最優(yōu)混合模型。

    以上提及的方法均為常染色體水平上的混合歷史推斷,然而,很多混合事件都帶有性別偏向性,即特定祖源的男女遺傳貢獻存在差異,如非裔美國人為學界熟知的帶有性別偏向性混合模式的人群。傳統(tǒng)研究性別偏向性混合的方法多從單系遺傳的Y染色體非重組區(qū)域或者線粒體DNA出發(fā),通過對不同單倍型進行分類,從而判斷對應祖源在混合發(fā)生時帶有的性別偏向的方向。此外,目前也有較多的研究通過比較常染色體與X染色體在全局水平上混合比例的差異,來判斷是否存在性別偏向性,并估計具體的偏離程度,其中全局水平上常染色體和X染色體混合比例的估計,多借助于前面提及的全局祖源推斷方法。當某一祖源貢獻的常染色體混合比例大于X染色體時,則該祖源人群混合偏向為男性主導(malebiased),反之為女性主導(female-biased)。筆者研究團隊于2022年基于MultiWaver系列軟件模型框架開發(fā)出了MultiWaverX工具[9]。該工具可用于重構精細尺度的性別偏向性混合歷史,即精確量化混合過程中,每一祖源人群每次混合事件帶有的性別偏向性方向以及具體偏離程度。值得一提的是,研究團隊發(fā)現(xiàn)一種較為特殊的性別偏向性混合模式:抵消模型,即混合過程中兩次或多次攜帶不同方向的性別偏向性混合事件得以抵消,最終呈現(xiàn)出無性別偏向的混合模式,且這類混合模式不能通過目前已有的其他方法進行解析。

    遠古人類與現(xiàn)代人類基因交流歷史重構

    上文提及的均為不同現(xiàn)代人群即智人(Homo sapiens)后代之間的混合,除了早期智人之外,地球上也曾存在過其他古人類,目前考古學研究較多的為尼安德特人(Homo neanderthalensis)和丹尼索瓦人(Denisova hominin),他們在距今4萬—3萬年前走向滅絕。這些古人類與現(xiàn)代人類祖先在時間和空間上都存在著一定的交集,目前的研究表明,早期智人曾與尼安德特人和丹尼索瓦人有過多次接觸。受限于目前可獲取的古人類基因組信息,以下關于古人類的討論均指尼爾德特人或者丹尼索瓦人。由于現(xiàn)代人類基因組中由古人類滲入的片段大都受到負向選擇或者存在遺傳漂變等因素,其留存下來的古人類滲入片段比例相對較小,為1%~3%。因此,混合時間較久、留存比例較小等因素,給檢測古人類基因滲入以及重構古人類與現(xiàn)代人類基因交流歷史帶來了巨大挑戰(zhàn)。

    遠古人類對現(xiàn)代人類祖先的基因滲入,可以視為一種極端情況下的人群混合,因此一些用于重構現(xiàn)代人類混合歷史的遺傳特征,例如等位基因頻率與連鎖不平衡信息等,也同樣適用于古人類與現(xiàn)代人類混合歷史推斷。古人類與現(xiàn)代人類基因交流歷史研究一般可分為以下兩個部分:一是檢測現(xiàn)代人類基因組中古人類滲入比例以及定位古人類滲入片段;二是構建古人類與現(xiàn)代人類混合歷史,其中包括確定混合次數(shù)以及估計每次的混合時間與混合比例。

    對于第一部分,依據(jù)所參考的基因組信息不同,將已有的方法分成三類。第一類是僅利用外群(outgroup)的基因組信息,外群是指沒有古人類基因滲入的人群。這類方法一般通過與外群基因組信息進行比較,篩選掉那些不太可能為古人類滲入的位點。這一般不需要借助古人類基因組序列,因此該方法也可用于檢測由其他未知古人類滲入的片段。在外群選取上,目前研究表明非洲人群基因組中攜帶著的由古人類滲入的片段較少或者幾乎沒有,故多以非洲人群作為外群。這類方法的代表工作是阿基(J. M. Akey)研究組在2016年開發(fā)的S* [10]。該方法借助于檢測現(xiàn)代人群中顯著強連鎖的片段來尋找古人滲入片段。當兩祖源人群之間的分歧時間較久時,他們形成的混合人群會呈現(xiàn)出較強的LD模式。古人與現(xiàn)代人之間的分歧時間可以追溯到70萬年以前,他們各自攜帶的人群特異性位點也較多,所以當古人對現(xiàn)代人基因滲入時,在現(xiàn)代人基因組上為古人特有等位基因之間的LD會特別強。第二類方法則同時利用外群和古人類基因組信息,具體為在推斷古人滲入片段時考慮在外群人群中頻率較低、但與古人基因組存在一定匹配性的片段。目前這一類方法有基于等位基因頻率的D統(tǒng)計量和F4 ratio統(tǒng)計量,通過判斷現(xiàn)代人群與古人類之間的衍生等位基因的共享情況來估計古人類滲入比例。這兩個統(tǒng)計量也包含于上文提及的ADMIXTOOLS工具中。此外,筆者研究團隊也于2021年提出ArchaicSeeker 2.0方法,其能有效利用單倍型序列信息并基于隱馬爾可夫模型來檢測現(xiàn)代人基因組中由古人類滲入的序列片段[11]。第三類方法則僅利用古人類基因組信息。部分學者認為找到完全無古人類滲入的現(xiàn)代人群是相對困難的,若利用帶有古人類滲入的群體作為外群,必然會給分析過程引入一定的偏差,所以這類方法只用于借助古人類基因組信息推斷現(xiàn)代人群中古人類滲入的片段。目前這類方法中較為主流的工具為阿基研究組在2020年開發(fā)的IBDmix軟件[12],其通過檢測現(xiàn)代人與古人類基因組之間的祖先同源片段(identity by descent, IBD)來推測某一位點或者區(qū)域是否為古人類滲入狀態(tài),其中IBD片段為兩個個體中狀態(tài)相同且來自同一個共同祖先的片段。

    相比第一部分中估計古人類滲入比例或者定位滲入片段,第二部分重構古人類與現(xiàn)代人類混合歷史模型更為復雜。傳統(tǒng)方法大都借助大量的計算機模擬,以期找到與目標人群最為相似的混合方式。前文提到的筆者研究團隊開發(fā)的ArchaicSeeker 2.0方法,在不依賴海量計算機模擬的前提下,可進一步利用古人類滲入片段長度分布信息有效重構極為復雜的遺傳漸滲歷史。

    結 語

    綜上所述,運用統(tǒng)計方法、算法工具以及人類全基因組數(shù)據(jù),研究人員解析了世界范圍內(nèi)現(xiàn)代人類遷徙與混合的歷史進程,同時也在不斷探索更久遠的時間尺度內(nèi),遠古人類與現(xiàn)代人類祖先之間復雜多樣的混合歷史結構。

    在現(xiàn)代人類混合歷史研究中,除了人們較為熟悉的非裔美國人混合模式之外,祖源成分更多,且混合模式更復雜的人群歷史也逐漸被解析出來。例如,筆者團隊發(fā)現(xiàn)中國新疆維吾爾族人群基因組中有源自東亞、南亞、西歐和西伯利亞等四個區(qū)域人群的遺傳成分,且呈現(xiàn)出“混合之混合”的復雜模式,即東亞與西伯利亞人群先發(fā)生混合,西歐與南亞人群再發(fā)生混合,之后,先前產(chǎn)生的兩個混合人群之間發(fā)生基因交流,形成當今的新疆維吾爾族[13]。在古人類與現(xiàn)代人類的基因交流研究中,筆者研究團隊發(fā)現(xiàn),現(xiàn)代人類與遠古人類間存在多次基因交流。早期走出非洲的現(xiàn)代人類祖先,在距今11.9萬~9.4萬年前,在中東、南亞附近與丹尼索瓦人發(fā)生了第一次接觸和基因交流。而后,他們繼續(xù)向東前進,一部分留在南亞,一部分向北到達東亞南部,并分別與當?shù)氐牡つ崴魍呷税l(fā)生遺傳交融。而后,一支現(xiàn)代人祖先繼續(xù)向東南遷徙,在距今6.2萬~6.4萬年前,穿過華萊士線到達大洋洲,并與先前到達的丹尼索瓦人融合。而近期走出非洲的現(xiàn)代人類祖先,在距今5.9萬~4.8萬年前,在中東地區(qū)與尼安德特人發(fā)生第一次接觸和基因交流。之后,他們分別遷徙至歐洲、南亞,以及東亞,與各地的尼安德特人發(fā)生了第二次族群融合[11]。

    隨著基因組測序技術的改進和成本的下降,可以更容易地獲取世界范圍內(nèi)現(xiàn)代人類與古人類的高質(zhì)量基因組測序數(shù)據(jù),這一定程度上也在挑戰(zhàn)現(xiàn)有統(tǒng)計方法和算法工具的適用場景。從以上算法工具的提出時間來看,對于現(xiàn)代人類混合歷史研究的方法均在2000年之后,而人類基因組序列草圖是在2000年6月初步完成的。此后,一系列國際基因組計劃也不斷開展,其中包括2007年國際人類基因組單體型圖(HapMap)計劃和2012年的千人基因組計劃等。對于古人類與現(xiàn)代人類混合歷史研究的方法多于2014年之后提出,而第一個丹尼索瓦人和第一個尼安德特人的全基因組高倍測序序列正是分別于2012年和2014年完成。隨著數(shù)據(jù)挖掘、機器學習以及深度學習等領域的發(fā)展,更高效的統(tǒng)計模型與算法工具也會進一步發(fā)展,并被應用到群體遺傳學的研究中。理論模型、計算方法與遺傳數(shù)據(jù)三者相輔相成,為深入探究現(xiàn)代人類和遠古人類在宏大時空框架下的分化、融合與適應性演化歷史提供了更多可能,并為進一步解析人類起源與演化中更深層次的基礎理論問題提供了新的視角。

    [1]Pritchard J K, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data. Genetics, 2000, 155: 945-959.

    [2]Alexander D H, J. Novembre J, Lange K. Fast model-based estimation of ancestry in unrelated individuals. Genome Research, 2009, 19: 1655-1664.

    [3]Novembre J, Johnson T, Bryc K, et al. Genes mirror geography within Europe. Nature, 2008, 456: 98-101.

    [4]Price A L, Tandon A, Patterson N, et al. Sensitive detection of chromosomal segments of distinct ancestry in admixed populations. PLoS Genetics, 2009, 5: e1000519.

    [5]Maples B K, Gravel S, Kenny E E, et al. RFMix: a discriminative modeling approach for rapid and robust local-ancestry inference. American Journal of Human Genetics, 2013, 93: 278-288.

    [6]Dias-Alves T, Mairal J, Blum M G.B. Loter: A software package to infer local ancestry for a wide range of species. Molecular Biology and Evolution, 2018, 35: 2318-2326.

    [7]Reich D, Thangaraj K, Patterson N, et al. Reconstructing Indian population history. Nature, 2009, 461: 489-494.

    [8]Ni X, Yuan K, Liu C, et al. MultiWaver 2.0: modeling discrete and continuous gene flow to reconstruct complex population admixtures. European Journal Human Genetics, 2019, 27: 133-139.

    [9]Zhang R, Ni X, Yuan K, et al. MultiWaverX: modeling latent sexbiased admixture history. Briefings in Bioinformatics, 2022, 1-12.

    [10]Vernot B, Tucci S, Kelso J, et al. Excavating Neanderthal and Denisovan DNA from the genomes of Melanesian individuals. Science, 2016, 352: 235-239.

    [11]Yuan K, Ni X, Liu C, et al. Refining models of archaic admixture in Eurasia with ArchaicSeeker 2.0. Nature Communications, 2021, 12: 6232.

    [12]Chen L, Wolf A B, Fu W, et al. Identifying and interpreting apparent Neanderthal ancestry in African individuals. Cell, 2020,180: 677-687.

    [13]Feng, Q, Lu Y, Ni X, et al. Genetic history of Xinjiangs Uyghurs suggests Bronze Age multiple-Way contacts in Eurasia. Molecular Biology and Evolution, 2017, 34: 2572-2582.

    關鍵詞:混合人群 祖源推斷 基因交流 現(xiàn)代人類 遠古人類 ■

    阜新市| 太康县| 宜黄县| 许昌市| 赞皇县| 岢岚县| 洞头县| 仙桃市| 瑞昌市| 潍坊市| 神农架林区| 乌拉特前旗| 伊川县| 东乡族自治县| 永胜县| 宜章县| 新晃| 青河县| 谢通门县| 从江县| 老河口市| 栾城县| 开阳县| 宾阳县| 长海县| 金昌市| 嘉禾县| 景泰县| 北流市| 游戏| 长寿区| 建德市| 海兴县| 保山市| 宜春市| 柞水县| 高安市| 油尖旺区| 通山县| 宜城市| 明水县|