邊培培,張禹,姜雨
綜 述
泛基因組:高質(zhì)量參考基因組的新標準
邊培培,張禹,姜雨
西北農(nóng)林科技大學(xué)動物科技學(xué)院,楊凌 712100
隨著三代測序組裝的高質(zhì)量參考基因組的陸續(xù)發(fā)布,以及大規(guī)模重測序和群體遺傳學(xué)分析的廣泛進行,研究人員發(fā)現(xiàn)來自單一個體的參考基因組遠不能涵蓋整個物種的所有遺傳序列,大量缺失序列導(dǎo)致群體遺傳變異圖譜不完整,而構(gòu)建來自多個個體的泛基因組能很好地解決這一缺陷,其研究內(nèi)容包括負責基本生物學(xué)功能及該物種主要表型特征的核心基因組以及與物種的遺傳多樣性和個體獨特性相關(guān)的可變基因組。根據(jù)核心和可變基因組所占比例的不同,泛基因組存在開放型和閉合型兩種類型。本文主要綜述了細菌、真菌和動植物的泛基因組學(xué)研究進展,討論了其在各生物類群中的特征,其中哺乳動物泛基因組是相對閉合的,而目前已知的微生物、被子植物和部分低等動物的泛基因組傾向于開放,通過泛基因組的構(gòu)建可以完善現(xiàn)有參考基因組并獲取整個物種的完整變異信息,將有助于深入研究遺傳多樣性和表型變異產(chǎn)生的分子機制。
泛基因組;存在/缺失變異;核心基因組;可變基因組
隨著功能基因組學(xué)對基因功能的研究越來越細致,一個物種是否擁有高質(zhì)量的參考基因組成為了深入解析其遺傳與表型關(guān)系的重要前提。然而在群體水平上,研究人員發(fā)現(xiàn)來自同一物種不同個體的基因組序列并不能完全與該物種的參考基因組一一對應(yīng)。因此建立一個能夠包含這個物種全部基因組序列和變異信息情況的完整集合對基因組學(xué)的研究變得極為重要。
2005年,Tettelin等[1]首次在細菌研究中提出泛基因組(pan-genome)的概念,指整個物種基因組序列的非冗余集合,其中包括存在于該物種幾乎所有個體中的核心基因組(core genome)和僅在部分個體中存在的可變基因組(accessory/variable/dispensable genome)。相對于細菌來說,真核生物無法頻繁的跨物種交換遺傳物質(zhì),被認為存在相對較少的存在/缺失變異(presence and absence variations, PAVs)[2]。但是隨著對動植物個體基因組之間的比較研究,研究者發(fā)現(xiàn)高等生物同樣具有普遍的跨物種基因交流,也存在相當數(shù)量的PAVs,且許多位于功能性區(qū)域,承擔重要的生物學(xué)功能[3~5]。泛基因組現(xiàn)已在植物、真菌、動物基因組學(xué)研究中被廣泛用于更為全面地評估物種內(nèi)遺傳多樣性,探究跨物種的基因交流和馴化及改良過程。研究表明利用泛基因組可以獲取更為準確全面的變異信息,通過與表型進行關(guān)聯(lián),篩查出可變基因組中的功能基因或功能序列,這將為物種的遺傳改良提供寶貴的遺傳資源[6~11]。在微生物方面,利用泛基因組還可以對菌種進化、適應(yīng)性及群體結(jié)構(gòu)進行研究分析[12];同時可應(yīng)用于菌株重要毒力因子的發(fā)現(xiàn)和疫苗的設(shè)計[13]。
本文綜述了細菌、真菌和動植物的泛基因組學(xué)研究進展,討論了其在各生物類群中的特征,并對其在完善參考基因組以及獲取完整變異信息上的應(yīng)用進行了分析和展望。
廣義的泛基因組是一個捕獲了物種全部遺傳信息的集合。對于包含一定數(shù)量個體基因組信息的泛基因組來說,整個基因或序列集合可以被分為核心基因組和可變基因組(圖1A),核心基因組(core,一般認為存在于超過95%的個體基因組中);可變基因組又可以被進一步分為殼基因組(shell,在所有個體基因組中存在比例大約為5%~95%)和云基因組(cloud,僅存在約少于5%的個體基因組中),shell和cloud作為可變基因組的子集,一般與生物對特定環(huán)境的適應(yīng)或生物學(xué)特性有關(guān)。上述分類能夠彌補在實際定義不同基因組類別時所面臨的不確定性,核心基因組為95%以上而不是100%的存在比例,可以避免某個個體的低質(zhì)量基因組序列或者是基因組缺陷而造成的分類錯誤,確保真實的核心基因組在注釋和分類過程中不被遺漏;而cloud則可能是個別個體基因組意外獲得的外源基因,或者是來自于該個體基因組異常裝配或者是外源污染[14]。具體的分類比例并不固定,研究人員可以根據(jù)實際物種研究情況,進行合理定義。一些研究證明了泛基因組中基因頻率呈不對稱的“U”型分布(圖1B),這說明大部分基因或以核基因組的方式存在于絕大多數(shù)個體中,或以云基因組的方式存在于個別個體中[4,14~16]。
根據(jù)泛基因組中核心基因組的比例,將泛基因組分為開放型和閉合型兩種,具體狀態(tài)取決于所分析的物種特征,如物種整合外源DNA的能力,以及物種的生活方式和環(huán)境[17]。與具有開放程度較小泛基因組的物種相比,具有大型開放泛基因組的物種可能占據(jù)更多樣的生態(tài)位和具有更復(fù)雜的群落[18]以及更大的有效群體規(guī)模,多態(tài)性水平更高。一般認為完全閉合的泛基因組是不存在的,在構(gòu)建泛基因組的時候隨著個體數(shù)量的增加,無論是開放型還是閉合型的泛基因組,整個泛基因組的大小都是逐步增加的,而核心基因組的大小都是逐漸減少的(圖1:C, D)。對于一個既定的物種來說,除去云序列(僅存在于物種極少數(shù)個體中)以外的核心基因組和可變基因組是一個定值。對于閉合型的泛基因組,有限數(shù)量個體的增加,可以使核心基因組和整個泛基因組含量迅速到達平臺期,趨近于真實的水平。而開放程度高的泛基因組需要大量的個體才能獲取這個真實值,在逐個增加研究個體時,到達平臺期獲得這個值的速度是緩慢的?;谝陨喜町?,在進行閉合型泛基因組研究時,通過匯總有限數(shù)量個體的基因組序列,人們可以獲取這個物種幾乎全部的遺傳信息。哺乳動物的泛基因組是比較典型的閉合型,其基因數(shù)量以及結(jié)構(gòu)相對穩(wěn)定,可變基因數(shù)量有限[5,19~20],保證了高度復(fù)雜化的基因調(diào)節(jié)網(wǎng)絡(luò)的穩(wěn)定。而開放型泛基因組意味著,隨著人們不斷加入研究個體,其總是會有一定數(shù)量的新基因或者新序列的增長,也就是說通過一定數(shù)量的研究對象獲取物種內(nèi)全部遺傳信息是不現(xiàn)實的,但是這種開放的模式為物種提供了豐富的遺傳資源庫,增加其功能多樣性和復(fù)雜性,提高了其對動態(tài)環(huán)境的適應(yīng)性。細菌、真菌和被子植物表現(xiàn)出開放型的特征,許多物種的核心基因比例小于80%[2,21]。
圖1 開放程度不同的泛基因組特征
A:泛基因組的組成。B:泛基因組中基因頻率的不規(guī)則“U”型分布。C:開放型泛基因組:隨著構(gòu)建泛基因組個體的增加,整個泛基因組以及核心基因組大小的增長趨勢。D:閉合型泛基因組:隨著構(gòu)建泛基因組個體的增加,整個泛基因組以及核心基因組大小的增長趨勢。
當前泛基因組的研究主要是強調(diào)物種內(nèi)部完整基因組序列的獲取,所以更關(guān)注可變基因組,也就是在物種內(nèi)部個體基因組之間一致性低的多態(tài)序列或者是產(chǎn)生了PAVs的序列集合。廣義的泛基因組應(yīng)該能夠捕獲該物種的全部遺傳變異信息,但是當前的研究所構(gòu)建的泛基因組大多體現(xiàn)不了那些小的插入缺失(insertions and deletions, indels)和單核苷酸多態(tài)性(single-nucleotide polymorphisms, SNPs),以及不改變序列組成的易位(translocation)和倒位(inversion)變異等,因此這種泛基因組可以被認為是狹義的泛基因組。
最初應(yīng)用泛基因組概念的細菌,通常具有較小的基因組,其基因占據(jù)基因組序列的大部分,幾乎沒有基因間序列,而且數(shù)量差異很大,所以蛋白編碼基因的含量是細菌等原核生物泛基因組研究的主要內(nèi)容。原核基因組以不斷變化的狀態(tài)存在,通過水平基因轉(zhuǎn)移,基因復(fù)制甚至可能以從頭出現(xiàn)的方式而擴張,并通過基因丟失而收縮。在細菌中廣泛的基因損失和水平基因轉(zhuǎn)移(轉(zhuǎn)化、接合和轉(zhuǎn)導(dǎo))是導(dǎo)致可變基因產(chǎn)生的兩個主要進化過程[22]。不同模式真菌物種的泛基因組的研究表明真菌是通過菌株水平的創(chuàng)新來進化的,而不是大規(guī)模的水平基因轉(zhuǎn)移。此外被子植物可通過全基因組復(fù)制(whole genome duplications, WGDs)、局部串聯(lián)重復(fù)、轉(zhuǎn)座因子(transposable elements, TEs)介導(dǎo)的重復(fù)、片段重復(fù)、近緣物種滲入、水平基因轉(zhuǎn)移和從頭基因誕生(gene birth)獲取新基因,同時也能通過染色體內(nèi)重組和假基因化介導(dǎo)基因和序列的丟失[21]。雖然當前在動物上泛基因組的研究有限,但是眾多的基因組學(xué)研究已經(jīng)證明了在動物基因組上存在滲入、水平基因轉(zhuǎn)移以及各種重復(fù)事件[23]。綜上所述,正是通過序列的重復(fù)、近緣物種滲入、基因從頭誕生或水平基因轉(zhuǎn)移,以及后續(xù)的序列分歧/丟失或基因分裂/融合等多種過程,才產(chǎn)生了物種內(nèi)廣泛的PAVs,形成了泛基因組。但是重復(fù)以及從頭誕生的新基因一般很難在短時間內(nèi)與原序列產(chǎn)生足夠的分歧,因此在狹義泛基因組中難以被捕獲。所以通常認為從狹義上來說,可變基因組的主要來源是基因和序列的丟失,滲入和水平基因轉(zhuǎn)移(圖2)。
目前構(gòu)建泛基因組主要有基于迭代組裝和基于從頭組裝兩種方法(表1)。
首先出現(xiàn)的是基于從頭組裝基因組構(gòu)建泛基因組的方法[1]。這種方法分別對多個個體進行從頭組裝并注釋,然后通過同一物種不同個體基因組間的相互比較,確定出核心基因組序列和可變基因組序列,最后將這些序列去冗余合并后構(gòu)成一個包含該物種所有個體基因組序列的泛基因組[5]。這種方法的優(yōu)勢在于它能夠檢測到更多的結(jié)構(gòu)變異(structural variations, SVs),但對計算資源和樣品的測序深度有較高的要求,不適用于基因組較大的物種和大規(guī)模群體的分析。迭代組裝構(gòu)建泛基因組方法的出現(xiàn)彌補了這些不足,其方式是由參考基因組起始,將每個樣本的測序數(shù)據(jù)映射到參考基因組,提取未比對成功的序列進行組裝,然后使用非冗余序列直接更新參考基因組,獲得最終的擴展參考基因組即為該物種的泛基因組或者是對個體進行初步組裝,從與參考基因組未比對上的contigs中移除冗余序列來構(gòu)建代表性的非參考序列,結(jié)合參考基因組和代表性非參考基因組序列構(gòu)建泛基因組。這種構(gòu)建策略可以利用大規(guī)模的重測序數(shù)據(jù),對測序深度要求很低,同時,因為只對未成功比對到參考基因組上的序列進行了組裝,這種方法相對節(jié)省了計算資源,已在基因組較大的物種如小麥[24]以及大規(guī)模測序物種如水稻[10]中被應(yīng)用。這種方法會在最終的泛基因組中產(chǎn)生大量的序列片段,并且無法檢測每個個體的拷貝數(shù)變異(copy number variations, CNVs),但對于基因的PAVs檢測非常有效[25]。
這兩種方法各有優(yōu)缺點,目前均已被廣泛應(yīng)用于構(gòu)建各種物種的泛基因組,研究人員通過將新發(fā)現(xiàn)的序列直接加入?yún)⒖蓟蚪M的呈現(xiàn)形式產(chǎn)生了一系列的線性泛基因組,極大地豐富了人們對現(xiàn)有物種基因組的認識。然而,這種展示方式也帶來了一些問題如:源于不同個體的變異信息被丟失,也幾乎沒有相應(yīng)的程序和算法可以處理這種方式提供的變異信息。
圖2 可變基因組的主要來源
表1 泛基因組構(gòu)建方法比較
獲取可變基因組的序列組成和位置信息是展示和應(yīng)用泛基因組的關(guān)鍵。但是線性泛基因組方式只呈現(xiàn)了可變基因組的序列組成,丟失了重要的染色體位置信息,因此在構(gòu)建泛基因組的過程中,為防止重要信息的丟失,有兩種方法:要么在線性泛基因組中標注序列位置信息,要么構(gòu)建圖結(jié)構(gòu)的泛基因組。和線性基因組不同的是,圖結(jié)構(gòu)泛基因組是一個二維序列圖譜,它以參考基因組為框架,以單個堿基作為圖的節(jié)點,堿基間的前后關(guān)系作為圖的邊,存在序列差異的地方會自然形成不同的分支,呈現(xiàn)出一個圖結(jié)構(gòu)。這個圖結(jié)構(gòu)基因組可以依據(jù)新序列的加入不斷擴展變化,最終它將會成為一個符合全物種的泛基因組圖譜[26]。這種展示形式可以包含變異的嵌套,將同一位置的變異整合而不是單獨占據(jù)一個區(qū)域,從而達到將所有變異精確納入圖譜的效果。這使得物種內(nèi)大量復(fù)雜的變異可以緊湊的形式呈現(xiàn)。目前已有大量軟件被開發(fā)用于這種圖結(jié)構(gòu)泛基因組的分析[27],如vg[28]、minigraph[26]、GraphType2[29]等,并且已在動植物基因組學(xué)研究中得到了初步應(yīng)用[19,26,30~32]。
隨著測序技術(shù)以及生物信息學(xué)工具的進步,包含全部序列變異信息的圖結(jié)構(gòu)泛基因組出現(xiàn),盡管它受限于計算和存儲當前只能應(yīng)用于部分個體,但仍舊是向著廣義泛基因組研究邁進的重要一步。未來技術(shù)的發(fā)展會讓構(gòu)建一個包含物種內(nèi)全部遺傳信息的泛基因組成為可能,實現(xiàn)精確處理大量基因組中的序列和變異信息,那時的基因組學(xué)研究才是真正在利用一個“參考”基因組。
由于微生物基因組的可塑性和多樣性,泛基因組的研究對其十分重要,同時,近年來測序和基因組組裝成本的降低,研究人員在真核生物物種中發(fā)現(xiàn)了大規(guī)模的基因組變異,促使了泛基因組研究在真核生物中的擴展(圖3,表2)。
圖3 泛基因組相關(guān)研究數(shù)量的增長
泛基因組的概念在2005年被首次提出之后,關(guān)鍵詞“pangenome”或者“pan-genome”在Europe Pubmed Central (https://europepmc.org/ RestfulWebService)被搜索時的出現(xiàn)次數(shù)(檢索日期:2021-08-17)。
表2 泛基因組代表性研究
續(xù)表
首個細菌泛基因組由無乳鏈球菌()構(gòu)建,每個菌種的核心基因組約占任何單個基因組的80%[1],這說明有一定數(shù)量的可變基因組僅在部分或者個別菌種中存在,很明顯單個基因組序列不能反映細菌物種內(nèi)的整個遺傳變異性。細菌棲息在千差萬別的生態(tài)位中,并具有大量相應(yīng)的調(diào)節(jié)機制,以適應(yīng)多變的環(huán)境[33],核心基因的比例可以從5%至98%。除了使基因組垂直向下傳給后代外,細菌還具有通過水平轉(zhuǎn)移從環(huán)境中獲取遺傳物質(zhì)的能力[34],在獲得基因的同時,為了維持細菌基因組小而緊湊的結(jié)構(gòu)特征,基因還經(jīng)常復(fù)制或丟失[35]。垂直傳播和水平轉(zhuǎn)移的混合作用使細菌基因組的系統(tǒng)發(fā)育分析復(fù)雜化[22]。在同一種細菌內(nèi),在基因組水平上也可能存在很大程度的個體差異。如在大腸桿菌()泛基因組中,任何一種大腸桿菌的基因組核心基因的比例都少于泛基因總數(shù)的10%,即使在轉(zhuǎn)錄因子水平上,大腸桿菌基因組之間也存在巨大差異[36]。考慮到這種高水平的遺傳變異,重建細菌的系統(tǒng)發(fā)育和種群歷史,泛基因組研究是有必要的,并且可以作為細菌分類的重要依據(jù)[37]。Freschi等[38]基于1311個銅綠假單胞菌的高質(zhì)量基因組進行了泛基因組分析,研究了水平基因轉(zhuǎn)移在人類病原體銅綠假單胞菌的抗菌素耐藥性和毒力機制中的貢獻,基于核心基因組的系統(tǒng)發(fā)育為其種群結(jié)構(gòu)提供了強有力的證據(jù)。同樣分枝桿菌泛基因組學(xué)研究證明了水平基因轉(zhuǎn)移在進化過程中對其適應(yīng)新環(huán)境和宿主中有重要作用[39]。隨著測序成本降低以及數(shù)據(jù)庫中可用細菌基因組的快速增加促進了泛基因組軟件工具的開發(fā)[40],一些在線軟件例如PanX[41]等,只要遵循特定步驟,即可生成泛基因組分析結(jié)果,加速了細菌泛基因組的研究進展。
在細菌泛基因組研究中發(fā)現(xiàn)一些可變基因在不斷變化的環(huán)境中具有適應(yīng)性優(yōu)勢[42],另一些則和菌株的致病性和耐藥性相關(guān)[18,43]。細菌泛基因組的研究在臨床微生物學(xué)中有許多應(yīng)用。它可以揭示細菌的致病潛力和抵抗抗菌素的能力,鑒定特定序列并預(yù)測抗原表位,從而可以設(shè)計分子或血清學(xué)檢測方法和疫苗[40]。
從不同植物中獲得的數(shù)據(jù)向人們展示了植物基因組的可塑性[44],單個基因組已無法表征全部的遺傳多樣性,促使在基因組學(xué)研究中引入了植物泛基因組的概念[45],這有助于深入了解植物產(chǎn)生遺傳多樣性和表型變異的過程。
首個植物泛基因組在2014年被報道,其基于對7份代表性野生大豆()全基因組的組裝比較,發(fā)現(xiàn)了與生物抗性、種子組成、開花和成熟時間等重要農(nóng)藝性狀有關(guān)的可變基因[46]。泛基因組分析使人們能夠追蹤馴化和育種過程中基因的保留和丟失,開發(fā)將基因重新引入現(xiàn)代品種的潛力,恢復(fù)物種失去的遺傳多樣性。Gao等[4]使用了具有廣泛品種和地理代表性的725個番茄()個體,揭示了參考基因組中不存在的4873個基因,PAVs分析表明,在馴化和改良過程中有大量的基因丟失以及基因和啟動子的負選擇,并且丟失或者受到負選擇的基因具有重要功能,尤其是與抗病性相關(guān)。此外,該研究還鑒定出在馴化階段受選擇的啟動子上與番茄風味有關(guān)的稀有等位基因,利用其雜合子優(yōu)勢,可直接應(yīng)用于生產(chǎn)中的性狀改良。目前對泛基因組的研究并不局限于基因本身,基因以外的基因組區(qū)域也解釋了作物表型變異的很大一部分,許多重要的農(nóng)藝性狀可能是由基因調(diào)控的變化而不是基因的存在/缺失變異決定的[21]。由于SVs的大小能夠造成更多的核苷酸序列差異,因此可能會表現(xiàn)出不成比例的大表型效應(yīng)[47],已被確定為許多罕見和常見疾病的致病因素,并且通常被認為它們是通過影響基因的表達來起作用的。多個植物泛基因組研究也發(fā)現(xiàn),SVs導(dǎo)致基因組變異的同時,能夠引起表型變異[48]。2020年對番茄PanSV基因組的深入研究揭示了這一點,幾乎一半的SVs與基因或調(diào)控序列重疊,并且半數(shù)影響編碼序列的SVs與基因差異表達有關(guān)[49]。
泛基因組對于揭示物種內(nèi)完整的遺傳變異信息至關(guān)重要,尤其是近年來圖結(jié)構(gòu)泛基因組的發(fā)展,其構(gòu)建及應(yīng)用策略越來越穩(wěn)定和完善,包含的功能元素和序列空間越來越充足,能夠作為分析其他個體的參考,提高了研究人員對許多個體和物種基因組復(fù)雜性的理解。2020年,有研究將26個大豆株系從頭組裝的基因組和3個先前報道的基因組構(gòu)建了一個基于圖形的泛基因組,結(jié)合2898個不同株系的重測序數(shù)據(jù),揭示了眾多僅用單個參考基因組無法檢測到的變異,為大豆的進化和功能基因組學(xué)研究提供了更加完整的基因組圖譜,并且通過對全基因組復(fù)制區(qū)域及SVs的研究,表明基因組復(fù)制是SVs進化的重要驅(qū)動力[30]。同樣基于多個參考基因組水平的高質(zhì)量組裝基因組,2021年,Qin等[31]構(gòu)建了高質(zhì)量的水稻(和)圖結(jié)構(gòu)泛基因組。其研究提供了水稻基因組變異和馴化的遺傳資源,并推斷了整個水稻種群中SVs的派生狀態(tài),分析了SVs的分布并評估了SVs形成的機制以及SVs對基因表達的影響。此研究提供了SVs和基因的拷貝數(shù)變異(gene copy number variations, gCNVs)如何直接影響環(huán)境適應(yīng)性和農(nóng)藝性狀的示例,展示了高質(zhì)量基因組組裝和圖結(jié)構(gòu)泛基因組在植物基因組學(xué)和功能基因組學(xué)中的重要作用。
迄今為止,已經(jīng)有10余種植物建立了泛基因組包括玉米()[50]、大豆[30,46]、二穗短柄草()[14]、辣椒()[51]、小麥(spp.)[24,52]、甘藍()[53]、水稻[10,31,54]、番茄[4,49]、狗尾草()[55]、向日葵(L.)[56]、大麥(ssp.)[57,58]、桃子()[6],高粱()[59,60]等,除了重要農(nóng)作物還包括馴化作物的野生和雜草近緣種,在每個被研究的物種中都有一個可觀的可變基因含量(10%~60%)??勺兓蚪?jīng)常被注釋為與生物和非生物脅迫耐受性相關(guān),同時這些基因相較于核心基因具有較低的進化約束和表達水平。通過泛基因組研究可以獲取更多準確和大片段的SVs,其中一些涉及改變基因劑量和表達水平的SVs影響了許多重要的農(nóng)藝性狀,包括水果的味道、大小和產(chǎn)量。這些發(fā)現(xiàn)強調(diào)了泛基因組研究在作物改良中的重要性和效用。
研究人員使用長reads組裝了馴化酵母及其野生近緣種的12個端到端的基因組,核基因組的大小從11.73到12.14 Mb不等,通過多個參考質(zhì)量的基因組序列的比較,在馴化和野生個體之間觀察到的許多差異可能反映了人類活動對基因組結(jié)構(gòu)進化的影響[8]。接著通過對1011個釀酒酵母分離株的泛基因組構(gòu)建,結(jié)合表型分析工作,提供了釀酒酵母變異的詳細信息,為其全基因組關(guān)聯(lián)分析(genome- wide association study, GWAS)奠定了基礎(chǔ),并為基因型–表型關(guān)系提供了新的見解,在規(guī)模上提供了與其他模式生物體相匹配的群體基因組資源[61]。2019年報道了四種模式真菌的泛基因組:釀酒酵母()、白色念珠菌()、新型隱球菌()和煙曲霉()。研究發(fā)現(xiàn),在這些物種中,每個菌株的所有基因中80%~90%屬于核心基因[62],其余的可變基因可能與發(fā)病機制和抗菌素耐藥有關(guān)。對物種祖先核心基因組和可變基因組的分析表明:基因復(fù)制等過程可能是影響真菌全基因組進化的主要因素,水平基因轉(zhuǎn)移的作用有限。真菌病原體反復(fù)擊敗農(nóng)作物抗性,變得對農(nóng)藥耐受,威脅著全球糧食生產(chǎn),種群內(nèi)的遺傳變異多樣性常常助長了這種進化過程[63]。小麥葉枯菌(會導(dǎo)致小麥枯萎病,2019年其泛基因組的研究僅鑒定出了58%的核心基因,其余的可變基因為其適應(yīng)性進化提供了基礎(chǔ)[64]。此外,有研究人員組裝了來自六大洲的小麥葉枯菌的19個完整基因組,構(gòu)建了小麥真菌病原體的高質(zhì)量泛基因組,表明了染色體重排是廣泛的基因存在/缺失變異的基礎(chǔ),同時發(fā)現(xiàn)可變基因組中富含與發(fā)病機制相關(guān)的功能基因[65]。
與細菌相似,真菌生物在基因含量上也顯示出種內(nèi)變異性。真菌泛基因組可用于獲取大量菌株完整的變異信息,有助于真菌的馴化以及基因型-表型的關(guān)聯(lián)研究。同時研究表明可變基因通常在致病性中起重要作用,通過泛基因組研究可以追蹤確定參與感染和宿主反應(yīng)的新基因的來源,也將有助于解決與作物–病原體共同進化相關(guān)的問題。
目前,相對于微生物和植物來說,動物泛基因組的研究范圍還很有限,主要集中在人類()和家養(yǎng)動物。2010年,Li等[5]整合了亞洲人和非洲人新組裝的基因組以及當時的人類參考基因組,構(gòu)建了人類的第一個泛基因組。該研究在每個新組裝基因組中獲取了~5 Mb在參考基因組中不存在的新序列,推斷完整的人類泛基因組將包含現(xiàn)有參考基因組中不存在的19~40 Mb新序列??缥锓N保守性分析表明這些新序列中包含的某些基因在哺乳動物基因組之間是保守的,很可能具有生物學(xué)功能。此研究證實了單個人類基因組序列中存在大量未證明的遺傳區(qū)域,并且可以通過非常深的測序和從頭組裝來鑒定。對來自冰島的15,219個人進行測序,僅關(guān)注非重復(fù),非參考基因組序列,該研究共發(fā)現(xiàn)了3719個約0.33 Mb的新序列[66]。2019年構(gòu)建的漢人泛基因組發(fā)現(xiàn)了~29.5 Mb的新序列,還鑒定了188個新的蛋白質(zhì)編碼基因[67],而對1000個瑞典基因組的分析發(fā)現(xiàn)了~46 Mb的新序列,大部分為重復(fù)序列(56%)[68]。Sherman等[20]利用910個非洲后裔個體組成的深度測序數(shù)據(jù)集,構(gòu)建的泛基因組比當前參考基因組多近300Mb的新序列,這是迄今為止報道的找到最多新序列的人類泛基因組。這些研究說明,單一參考基因組不足以進行基于群體的人類遺傳學(xué)研究,更好的方法可能是為不同的人類群體創(chuàng)建參考基因組。
豬、牛和羊在畜牧業(yè)中都占據(jù)重要地位,豬也是重要的生物醫(yī)學(xué)模型[69],構(gòu)建豬、牛和羊的泛基因組對優(yōu)質(zhì)種質(zhì)資源的保護和利用,解析人類馴化動物的歷史及作為模式動物探究生命奧秘有重要意義。Tian等[3]使用了來自歐亞大陸的12個基因組構(gòu)建了豬的泛基因組,相較于參考基因組(Sscrofa11.1)共獲取了72.5 Mb的非冗余的新序列,且發(fā)現(xiàn)了脂肪分解的必要調(diào)節(jié)基因在豬群中顯示為PAVs,并且可能導(dǎo)致不同豬種之間的生理差異。山羊泛基因組研究利用其他9個從頭組裝的Caprini物種基因組共鑒定出了38.3 Mb山羊參考基因組上不存在的新序列,通過山羊全基因組重測序和轉(zhuǎn)錄組數(shù)據(jù)進一步驗證了它們在山羊中的存在,證明了對親緣關(guān)系近的物種基因組進行比較是一種基于參考基因組尋找缺失序列的有效且可靠的策略,這種方法也可能適用于其他物種[70]。這兩項研究都表明使用泛基因組作為參考可產(chǎn)生更高質(zhì)量的變異集合和更準確的基因表達量化,改善廣泛的基因組分析。2020年,研究人員使用來自約300頭牛的變異信息(<50 bp)構(gòu)建了家養(yǎng)動物的第一個圖結(jié)構(gòu)泛基因組[32],提高了序列比對和基因分型的準確性,這是在人類以外的大基因組動物上對圖結(jié)構(gòu)泛基因組的首個嘗試,為其他動物的研究提供了重要參考。稍后研究人員利用6只牛的基因組構(gòu)建了圖結(jié)構(gòu)泛基因組,發(fā)現(xiàn)了參考基因組中缺失的功能序列[19],其中包括參與免疫反應(yīng)和免疫調(diào)節(jié)的基因,此研究提供了用于建立和利用更多樣化的參考基因組的方法和框架。
除了上述哺乳動物以外,研究人員還報道了地中海貽貝的開放型泛基因組[71]。貽貝是具有生態(tài)和經(jīng)濟意義的食用雙殼類生物,對生物和非生物應(yīng)激源具有高度的侵襲性和復(fù)原力,其泛基因組具有15,000個可變基因,占全部泛基因組數(shù)量的25%,平均出現(xiàn)的時間晚,表達水平低并且容易受到PAVs的影響,開放閱讀框較短,基因結(jié)構(gòu)復(fù)雜性低,并且參與了與防御和生存相關(guān)的功能,對生物適應(yīng)性具有重要價值。此外,泛基因組也在昆蟲基因組學(xué)的研究中得到了應(yīng)用。蜱蟲(Acari: Ixodidae)是傳播最多樣化的人類和動物病原體,對其泛基因組的研究揭示了不同蜱種的遺傳結(jié)構(gòu)和病原體組成主要受生態(tài)和地理因素的影響,并進一步確定了與不同宿主范圍、生命周期和分布相關(guān)的物種特異性決定因素[72],這也將為蜱蟲生物學(xué)、病媒–病原體相互作用、疾病傳播和控制策略的研究開辟新途徑。熊蜂(Hy-menoptera: Apidae)的泛基因組研究表明在系統(tǒng)發(fā)育框架中對多個基因組進行比較分析,大大提高了進化分析的精度和靈敏度,并可以提供識別基因組穩(wěn)定和動態(tài)特征的可靠結(jié)果[73]。此研究也將助力于功能基因定位和克隆,以及重測序和群體基因組學(xué)研究,為熊蜂在農(nóng)業(yè)中的使用提供基礎(chǔ)的遺傳信息。
上述研究表明,目前的動物單一參考基因組對于具有高適應(yīng)能力,高雜合度,高水平重復(fù)元素以及復(fù)雜群體歷史的物種還遠遠不夠完整,并且強調(diào)了參考基因組缺失的基因?qū)τ谂R床和農(nóng)業(yè)應(yīng)用的潛在影響。后續(xù)研究應(yīng)集中于動物高質(zhì)量泛基因組的構(gòu)建,獲取完整的泛基因組序列,以及構(gòu)建可用的圖結(jié)構(gòu)泛基因組,尋找更多可應(yīng)用于經(jīng)濟動物選育和改良的遺傳信息。
基因組時代的前期,研究人員采取的主要策略就是為目標物種提供一個單一的“參考”基因組,該基因組成為各種遺傳分析(包括研究物種內(nèi)部和物種之間的變異)的基礎(chǔ)[25]。隨著測序新技術(shù)的發(fā)展,測序質(zhì)量進一步提高,同時成本大大降低,成千上萬的新基因組被測序,物種間大量變異被獲取,人們開始意識到單一參考基因組不足以代表一個物種全部的遺傳信息。泛基因組分析提供了一個平臺,可通過收集物種的整個基因組信息庫來獲取其全部的遺傳多樣性,在細菌、真菌以及動植物中已經(jīng)得到了廣泛的應(yīng)用。
在目前泛基因組的研究中仍存在一些問題亟待解決:各種生物的基因組組裝還不完整,盡管長reads測序被證明已經(jīng)能夠解析基因組中一些具有挑戰(zhàn)性的區(qū)域,檢測以前無法獲取的SVs[74~76],但是為物種中每一個個體實現(xiàn)完整、無間隙的裝配是不現(xiàn)實的;此外,基因組的測序、組裝,泛基因組的構(gòu)建策略,序列注釋,判斷PAVs等一系列方法并沒有標準化的流程,導(dǎo)致不同研究獲取的泛基因組序列不能直接比較,匯集所有數(shù)據(jù)建立一個完整的泛基因組將是一個巨大的挑戰(zhàn)。
微生物和被子植物相比于哺乳動物,基因組可塑性更高,物種內(nèi)的遺傳多樣性更為豐富,因而有了相對廣泛的研究。哺乳動物基因組相對保守,通常只有基因間或片段化的基因區(qū)域參與基因組序列的增減,但是這并不意味著動物泛基因組的重要性降低。從對貽貝的研究[71]中可以看到動物泛基因組的潛力,隨著泛基因組研究擴展到更多的物種,才能真正準確地評估一個生物類群的多樣性水平。近年來泛基因組學(xué)研究為植物多樣性研究和改良提供了新的思路[21,44],但在除人類以外的動物中泛基因組學(xué)研究有限,在其他動物泛基因組的研究上還需要努力,以期為動物遺傳相關(guān)研究打下堅實基礎(chǔ)。
當前泛基因組研究的核心是用更豐富的數(shù)據(jù)結(jié)構(gòu)取代傳統(tǒng)的線性參考基因組[27],相對于傳統(tǒng)的單一線性參考基因組,泛基因組作為參考基因組能更加全面地呈現(xiàn)群體基因組信息,同時更有益于變異信息的獲取和利用。隨著圖結(jié)構(gòu)泛基因組的構(gòu)建方式和分析策略的逐步完善,利用泛基因組將會更加高效地輔助解決功能基因組學(xué)研究的難題,從而徹底改變基因組學(xué)的研究。
[1] Tettelin H, Masignani V, Cieslewicz MJ, Donati C, Medini D, Ward NL, Angiuoli SV, Crabtree J, Jones AL, Durkin AS, DeBoy RT, Davidsen TM, Mora M, Scarselli M, Ros IMY, Peterson JD, Hauser CR, Sundaram JP, Nelson WC, Madupu R, Brinkac LM, Dodson RJ, Rosovitz MJ, Sullivan SA, Daugherty SC, Haft DH, Selengut J, Gwinn ML, Zhou LW, Zafar N, Khouri H, Radune D, Dimitrov G, Watkins K, O’Connor KJB, Smith S, Utterback TR, White O, Rubens CE, Grandi G, Madoff LC, Kasper DL, Telford JL, Wessels MR, Rappuoli R, Fraser CM. Genome analysis of multiple pathogenic isolates of: implications for the microbial "pan-genome"., 2005, 102(39): 13950–13955.
[2] Golicz AA, Bayer PE, Bhalla PL, Batley J, Edwards D. Pangenomics comes of age: from bacteria to plant and animal applications., 2020, 36(2): 132–145.
[3] Tian XM, Li R, Fu WW, Li Y, Wang XH, Li M, Du D, Tang QZ, Cai YD, Long YM, Zhao Y, Li MZ, Jiang Y. Building a sequence map of the pig pan-genome from multipleassemblies and Hi-C data., 2019, 63(5): 750–763.
[4] Gao L, Gonda I, Sun HE, Ma QY, Bao K, Tieman DM, Burzynski-Chang EA, Fish TL, Stromberg KA, Sacks GL, Thannhauser TW, Foolad MR, Diez MJ, Blanca J, Canizares J, Xu YM, van der Knaap E, Huang SW, Klee HJ, Giovannoni JJ, Fei ZJ. The tomato pan-genome uncovers new genes and a rare allele regulating fruit flavor., 2019, 51(6): 1044–1051.
[5] Li RQ, Li YR, Zheng HC, Luo RB, Zhu HM, Li QB, Qian WB, Ren YY, Tian G, Li JX, Zhou GY, Zhu X, Wu HL, Qin JJ, Jin X, Li DF, Cao HZ, Hu XD, Blanche H, Cann H, Zhang XQ, Li SG, Bolund L, Kristiansen K, Yang HM, Wang J, Wang J. Building the sequence map of the human pan-genome., 2010, 28(1): 57–63.
[6] Cao K, Peng Z, Zhao X, Li Y, Liu KZ, Arus P, Zhu GR, Deng SH, Fang WC, Chen CW, Wang XW, Wu JL, Fei ZJ, Wang LR. Pan-genome analyses of peach and its wild relatives provide insights into the genetics of disease resistance and species adaptation., 2020, doi: 10.1101/2020.07.13.200204.
[7] Schreiber M, Stein N, Mascher M. Genomic approaches for studying crop evolution., 2018, 19(1): 140.
[8] Yue JX, Li J, Aigrain L, Hallin J, Persson K, Oliver K, Bergstr?m A, Coupland P, Warringer J, Lagomarsino MC, Fischer G, Durbin R, Liti G. Contrasting evolutionary genome dynamics between domesticated and wild yeasts., 2017, 49(6): 913–924.
[9] Kaas RS, Friis C, Ussery DW, Aarestrup FM. Estimating variation within the genes and inferring the phylogeny of 186 sequenced diversegenomes., 2012, 13(1): 577.
[10] Wang WS, Mauleon R, Hu ZQ, Chebotarov D, Tai SS, Wu ZC, Li M, Zheng TQ, Fuentes RR, Zhang F, Mansueto L, Copetti D, Sanciangco M, Palis KC, Xu JL, Sun C, Fu BY, Zhang HL, Gao YM, Zhao XQ, Shen F, Cui X, Yu H, Li ZC, Chen ML, Detras J, Zhou YL, Zhang XY, Zhao Y, Kudrna D, Wang CC, Li R, Jia B, Lu JY, He XC, Dong ZT, Xu JB, Li YH, Wang M, Shi JX, Li J, Zhang DB, Lee S, Hu WS, Poliakov A, Dubchak I, Ulat VJ, Borja FN, Mendoza JR, Ali J, Li J, Gao Q, Niu YC, Yue Z, Naredo MEB, Talag J, Wang XQ, Li JJ, Fang XD, Yin Y, Glaszmann JC, Zhang JW, Li JY, Hamilton RS, Wing RA, Ruan J, Zhang GY, Wei CC, Alexandrov N, McNally KL, Li ZK, Leung H. Genomic variation in 3,010 diverse accessions of Asian cultivated rice., 2018, 557(7703): 43–49.
[11] Song JM, Guan ZL, Hu JL, Guo CC, Yang ZQ, Wang S, Liu DX, Wang B, Lu SP, Zhou R, Xie WZ, Cheng YF, Zhang YT, Liu K, Yang QY, Chen LL, Guo L. Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of., 2020, 6(1): 34–45.
[12] Zou YQ, Xue WB, Luo GW, Deng ZQ, Qin PP, Guo RJ, Sun HP, Xia Y, Liang SS, Dai Y, Wan DW, Jiang RR, Su LL, Feng Q, Jie ZY, Guo TK, Xia ZK, Liu C, Yu JH, Lin YX, Tang SM, Huo GC, Xu X, Hou Y, Liu X, Wang J, Yang HM, Kristiansen K, Li JH, Jia HJ, Xiao L. 1,520 reference genomes from cultivated human gut bacteria enable functional microbiome analyses., 2019, 37(2): 179–185.
[13] Naz K, Naz A, Ashraf ST, Rizwan M, Ahmad J, Baumbach J, Ali A. PanRV: Pangenome-reverse vaccinology approach for identifications of potential vaccine candidates in microbial pangenome., 2019, 20(1): 123.
[14] Gordon SP, Contreras-Moreira B, Woods DP, Des Marais DL, Burgess D, Shu SQ, Stritt C, Roulin AC, Schackwitz W, Tyler L, Martin J, Lipzen A, Dochy N, Phillips J, Barry K, Geuten K, Budak H, Juenger TE, Amasino R, Caicedo AL, Goodstein D, Davidson P, Mur LAJ, Figueroa M, Freeling M, Catalan P, Vogel JP. Extensive gene content variation in thepan-genome correlates with population structure., 2017, 8(1): 2184.
[15] Brito PH, Chevreux B, Serra CR, Schyns G, Henriques AO, Pereira-Leal JB. Genetic competence drives genome diversity in., 2018, 10(1): 108–124.
[16] Vincent AT, Schiettekatte O, Goarant C, Neela VK, Bernet E, Thibeaux R, Ismail N, Khalid MKNM, Amran F, Masuzawa T, Nakao R, Korba AA, Bourhy P, Veyrier FJ, Picardeau M. Revisiting the taxonomy and evolution of pathogenicity of the genusthrough the prism of genomics., 2019, 13(5): e0007270.
[17] Lefébure T, Pavinski Bitar PD, Suzuki H, Stanhope MJ. Evolutionary dynamics of complete campylobacter pan-genomes and the bacterial species concept., 2010, 2: 646–655.
[18] Rouli L, Merhej V, Fournier PE, Raoult D. The bacterial pangenome as a new tool for analysing pathogenic bacteria., 2015, 7: 72–85.
[19] Crysnanto D, Leonard AS, Fang ZH, Pausch H. Novel functional sequences uncovered through a bovine multiassembly graph., 2021, 118(20): e2101056118.
[20] Sherman RM, Forman J, Antonescu V, Puiu D, Daya M, Rafaels N, Boorgula MP, Chavan S, Vergara C, Ortega VE, Levin AM, Eng C, Yazdanbakhsh M, Wilson JG, Marrugo J, Lange LA, Williams LK, Watson H, Ware LB, Olopade CO, Olopade O, Oliveira RR, Ober C, Nicolae DL, Meyers DA, Mayorga A, Knight-Madden J, Hartert T, Hansel NN, Foreman MG, Ford JG, Faruque MU, Dunston GM, Caraballo L, Burchard EG, Bleecker ER, Araujo MI, Herrera-Paz EF, Campbell M, Foster C, Taub MA, Beaty TH, Ruczinski I, Mathias RA, Barnes KC, Salzberg SL. Assembly of a pan-genome from deep sequencing of 910 humans of African descent., 2019, 51(1): 30–35.
[21] Bayer PE, Golicz AA, Scheben A, Batley J, Edwards D. Plant pan-genomes are the new reference., 2020, 6(8): 914–920.
[22] Puigbò P, Lobkovsky AE, Kristensen DM, Wolf YI, Koonin EV. Genomes in turmoil: quantification of genome dynamics in prokaryote supergenomes., 2014, 12(1): 66.
[23] Richard GF. Eukaryotic pangenomes. The Pangenome, Springer International Publishing, 2020, 253–291.
[24] Montenegro JD, Golicz AA, Bayer PE, Hurgobin B, Lee H, Chan CKK, Visendi P, Lai KT, Dole?el J, Batley J, Edwards D. The pangenome of hexaploid bread wheat., 2017, 90(5): 1007–1013.
[25] Sherman RM, Salzberg SL. Pan-genomics in the human genome era., 2020, 21(4): 243–254.
[26] Li H, Feng XW, Chu C. The design and construction of reference pangenome graphs with minigraph., 2020, 21(1): 265.
[27] Eizenga JM, Novak AM, Sibbesen JA, Heumos S, Ghaffaari A, Hickey G, Chang X, Seaman JD, Rounthwaite R, Ebler J, Rautiainen M, Garg S, Paten B, Marschall T, Sirén J, Garrison E. Pangenome graphs., 2020, 21(1): 139–162.
[28] Garrison E, Sirén J, Novak AM, Hickey G, Eizenga JM, Dawson ET, Jones W, Garg S, Markello C, Lin MF, Paten B, Durbin R. Variation graph toolkit improves read mapping by representing genetic variation in the reference., 2018, 36(9): 875–879.
[29] Eggertsson HP, Kristmundsdottir S, Beyter D, Jonsson H, Skuladottir A, Hardarson MT, Gudbjartsson DF, Stefansson K, Halldorsson BV, Melsted P. GraphTyper2 enables population-scale genotyping of structural variation using pangenome graphs., 2019, 10(1): 5402.
[30] Liu YC, Du HL, Li PC, Shen YT, Peng H, Liu SL, Zhou GA, Zhang HK, Liu Z, Shi M, Huang XH, Li Y, Zhang M, Wang Z, Zhu BG, Han B, Liang CZ, Tian ZX. Pan-genome of wild and cultivated soybeans., 2020, 182(1): 162–176.e13.
[31] Qin P, Lu HW, Du HL, Wang H, Chen WL, Chen Z, He Q, Ou SJ, Zhang HY, Li XZ, Li XX, Li Y, Liao Y, Gao Q, Tu B, Yuan H, Ma BT, Wang YP, Qian YW, Fan SJ, Li WT, Wang J, He M, Yin JJ, Li T, Jiang N, Chen XW, Liang CZ, Li SG. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations., 2021, 184(13): 3542–3558.e16.
[32] Crysnanto D, Pausch H. Bovine breed-specific augmented reference graphs facilitate accurate sequence read mapping and unbiased variant discovery., 2020, 21(1): 184.
[33] Boutte CC, Crosson S. Bacterial lifestyle shapes stringent response activation., 2013, 21(4): 174– 180.
[34] Soucy SM, Huang JL, Gogarten JP. Horizontal gene transfer: building the web of life., 2015, 16(8): 472–482.
[35] Lefébure T, Stanhope MJ. Evolution of the core and pan- genome of: positive selection, recombination, and genome composition., 2007, 8(5): R71.
[36] Cook H, Ussery DW. Sigma factors in a thousandgenomes., 2013, 15(12): 3121–3129.
[37] O’Callaghan A, Bottacini F, O’Connell Motherway M, van Sinderen D. Pangenome analysis ofand site-directed mutagenesis through by-pass of restriction-modification systems., 2015, 16(1): 832.
[38] Freschi L, Vincent AT, Jeukens J, Emond-Rheault JG, Kukavica-Ibrulj I, Dupont MJ, Charette SJ, Boyle B, Levesque RC. Thepan-genome provides new insights on its population structure, horizontal gene transfer, and pathogenicity., 2019, 11(1): 109–120.
[39] Dumas E, Christina Boritsch E, Vandenbogaert M, de la Vega RCR, Thiberge JM, Caro V, Gaillard JL, Heym B, Girard-Misguich F, Brosch R, Sapriel G. Mycobacterial pan-genome analysis suggests important role of plasmids in the radiation of type VII secretion systems., 2016, 8(2): 387–402.
[40] Anani H, Zgheib R, Hasni I, Raoult D, Fournier PE. Interest of bacterial pangenome analyses in clinical microbiology., 2020, 149: 104275.
[41] Ding W, Baumdicker F, Neher RA. panX: pan-genome analysis and exploration., 2018, 46(1): e5.
[42] Vernikos G, Medini D, Riley DR, Tettelin H. Ten years of pan-genome analyses., 2015, 23: 148–154.
[43] Fu J, Qin QW. Pan-genomics analysis of 30genomes., 2012, 34(6): 765–772
付靜, 秦啟偉. 30株大腸桿菌的泛基因組學(xué)特征分析. 遺傳, 2012, 34(6): 765–772.
[44] Golicz AA, Batley J, Edwards D. Towards plant pangenomics., 2016, 14(4): 1099–1105.
[45] Morgante M, De Paoli E, Radovic S. Transposable elements and the plant pan-genomes., 2007, 10(2): 149–155.
[46] Li YH, Zhou GY, Ma JX, Jiang WK, Jin LG, Zhang ZH, Guo Y, Zhang JB, Sui Y, Zheng LT, Zhang SS, Zuo QY, Shi XH, Li YF, Zhang WK, Hu YY, Kong GY, Hong HL, Tan B, Song J, Liu ZX, Wang YS, Ruan H, Yeung CKL, Liu J, Wang HL, Zhang LJ, Guan RX, Wang KJ, Li WB, Chen SY, Chang RZ, Jiang Z, Jackson SA, Li RQ, Qiu LJ. De novo assembly of soybean wild relatives for pan- genome analysis of diversity and agronomic traits., 2014, 32(10): 1045–1052.
[47] Conrad DF, Pinto D, Redon R, Feuk L, Gokcumen O, Zhang YJ, Aerts J, Andrews TD, Barnes C, Campbell P, Fitzgerald T, Hu M, Ihm CH, Kristiansson K, MacArthur DG, MacDonald JR, Onyiah I, Pang AWC, Robson S, Stirrups K, Valsesia A, Walter K, Wei J, Wellcome Trust Case Control Consortium, Tyler-Smith C, Carter NP, Lee C, Scherer SW, Hurles ME. Origins and functional impact of copy number variation in the human genome., 2010, 464(7289): 704–712.
[48] Liu YC, Tian ZX. From one linear genome to a graph- based pan-genome: a new era for genomics., 2020, 63(12): 1938–1941.
[49] Alonge M, Wang XA, Benoit M, Soyk S, Pereira L, Zhang L, Suresh H, Ramakrishnan S, Maumus F, Ciren D, Levy Y, Harel TH, Shalev-Schlosser G, Amsellem Z, Razifard H, Caicedo AL, Tieman DM, Klee H, Kirsche M, Aganezov S, Ranallo-Benavidez TR, Lemmon ZH, Kim J, Robitaille G, Kramer M, Goodwin S, McCombie WR, Hutton S, Van Eck J, Gillis J, Eshed Y, Sedlazeck FJ, van der Knaap E, Schatz MC, Lippman ZB. Major impacts of widespread structural variation on gene expression and crop improve-ment in tomato., 2020, 182(1): 145–161.e23.
[50] Hirsch CN, Foerster JM, Johnson JM, Sekhon RS, Muttoni G, Vaillancourt B, Pe?agaricano F, Lindquist E, Pedraza MA, Barry K, de Leon N, Kaeppler SM, Buell CR. Insights into the maize pan-genome and pan-transcriptome., 2014, 26(1): 121–135.
[51] Ou LJ, Li D, Lv JH, Chen WC, Zhang ZQ, Li XF, Yang BZ, Zhou SD, Yang S, Li WG, Gao HZ, Zeng Q, Yu HY, Ouyang B, Li F, Liu F, Zheng JY, Liu YH, Wang J, Wang BB, Dai XZ, Ma YQ, Zou XX. Pan-genome of cultivated pepper () and its use in gene presence-absence variation analyses., 2018, 220(2): 360–363.
[52] Walkowiak S, Gao LL, Monat C, Haberer G, Kassa MT, Brinton J, Ramirez-Gonzalez RH, Kolodziej MC, Delorean E, Thambugala D, Klymiuk V, Byrns B, Gundlach H, Bandi V, Siri JN, Nilsen K, Aquino C, Himmelbach A, Copetti D, Ban T, Venturini L, Bevan M, Clavijo B, Koo DH, Ens J, Wiebe K, N’Diaye A, Fritz AK, Gutwin C, Fiebig A, Fosker C, Fu BX, Accinelli GG, Gardner KA, Fradgley N, Gutierrez-Gonzalez J, Halstead-Nussloch G, Hatakeyama M, Koh CS, Deek J, Costamagna AC, Fobert P, Heavens D, Kanamori H, Kawaura K, Kobayashi F, Krasileva K, Kuo T, McKenzie N, Murata K, Nabeka Y, Paape T, Padmarasu S, Percival-Alwyn L, Kagale S, Scholz U, Sese J, Juliana P, Singh R, Shimizu-Inatsugi R, Swarbreck D, Cockram J, Budak H, Tameshige T, Tanaka T, Tsuji H, Wright J, Wu JZ, Steuernagel B, Small I, Cloutier S, Keeble-Gagnère G, Muehlbauer G, Tibbets J, Nasuda S, Melonek J, Hucl PJ, Sharpe AG, Clark M, Legg E, Bharti A, Langridge P, Hall A, Uauy C, Mascher M, Krattinger SG, Handa H, Shimizu KK, Distelfeld A, Chalmers K, Keller B, Mayer KFX, Poland J, Stein N, McCartney CA, Spannagl M, Wicker T, Pozniak CJ. Multiple wheat genomes reveal global variation in modern breeding., 2020, 588(7837): 277–283.
[53] Golicz AA, Bayer PE, Barker GC, Edger PP, Kim H, Martinez PA, Chan CKK, Severn-Ellis A, McCombie WR, Parkin IAP, Paterson AH, Pires JC, Sharpe AG, Tang HB, Teakle GR, Town CD, Batley J, Edwards D. The pangenome of an agronomically important crop plant., 2016, 7(1): 13390.
[54] Zhao Q, Feng Q, Lu HY, Li Y, Wang AH, Tian QL, Zhan QL, Lu YQ, Zhang L, Huang T, Wang YC, Fan DL, Zhao Y, Wang ZQ, Zhou CC, Chen JY, Zhu CR, Li WJ, Weng QJ, Xu Q, Wang ZX, Wei XH, Han B, Huang XH. Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice., 2018, 50(2): 278–284.
[55] Mamidi S, Healey A, Huang P, Grimwood J, Jenkins J, Barry K, Sreedasyam A, Shu SQ, Lovell JT, Feldman M, Wu JX, Yu YQ, Chen C, Johnson J, Sakakibara H, Kiba T, Sakurai T, Tavares R, Nusinow DA, Baxter I, Schmutz J, Brutnell TP, Kellogg EA. A genome resource for green milletenables discovery of agronomically valuable loci., 2020, 38(10): 1203–1210.
[56] Hübner S, Bercovich N, Todesco M, Mandel JR, Odenheimer J, Ziegler E, Lee JS, Baute GJ, Owens GL, Grassa CJ, Ebert DP, Ostevik KL, Moyers BT, Yakimowski S, Masalia RR, Gao LX, ?ali? I, Bowers JE, Kane NC, Swanevelder DZH, Kubach T, Mu?os S, Langlade NB, Burke JM, Rieseberg LH. Sunflower pan-genome analysis shows that hybridization altered gene content and disease resistance., 2019, 5(1): 54–62.
[57] Ma YL, Liu M, Stiller J, Liu CJ. A pan-transcriptome analysis shows that disease resistance genes have undergone more selection pressure during barley domestication., 2019, 20(1): 12.
[58] Jayakodi M, Padmarasu S, Haberer G, Bonthala VS, Gundlach H, Monat C, Lux T, Kamal N, Lang D, Himmelbach A, Ens J, Zhang XQ, Angessa TT, Zhou GF, Tan C, Hill C, Wang PH, Schreiber M, Boston LB, Plott C, Jenkins J, Guo Y, Fiebig A, Budak H, Xu DD, Zhang J, Wang CC, Grimwood J, Schmutz J, Guo GG, Zhang GP, Mochida K, Hirayama T, Sato K, Chalmers KJ, Langridge P, Waugh R, Pozniak CJ, Scholz U, Mayer KFX, Spannagl M, Li CD, Mascher M, Stein N. The barley pan-genome reveals the hidden legacy of mutation breeding., 2020, 588(7837): 284–289.
[59] Tao YF, Luo H, Xu JB, Cruickshank A, Zhao XR, Teng F, Hathorn A, Wu XY, Liu YM, Shatte T, Jordan D, Jing HC, Mace E. Extensive variation within the pan-genome of cultivated and wild sorghum., 2021, 7(6): 766–773.
[60] Wang B, Jiao YP, Chougule K, Olson A, Huang J, Llaca V, Fengler K, Wei XH, Wang LY, Wang XF, Regulski M, Drenkow J, Gingeras T, Hayes C, Armstrong JS, Huang YH, Xin ZG, Ware D. Pan-genome analysis in sorghum highlights the extent of genomic variation and sugarcane aphid resistance genes., 2021, doi: 10.1101/ 2021.01.03.424980.
[61] Peter J, De Chiara M, Friedrich A, Yue JX, Pflieger D, Bergstr?m A, Sigwalt A, Barre B, Freel K, Llored A, Cruaud C, Labadie K, Aury JM, Istace B, Lebrigand K, Barbry P, Engelen S, Lemainque A, Wincker P, Liti G, Schacherer J. Genome evolution across 1,011isolates., 2018, 556(7701): 339– 344.
[62] McCarthy CGP, Fitzpatrick DA. Pan-genome analyses of model fungal species., 2019, 5(2): e000243.
[63] Badet T, Croll D. The rise and fall of genes: origins and functions of plant pathogen pangenomes., 2020, 56: 65–73.
[64] Plissonneau C, Hartmann FE, Croll D. Pangenome analyses of the wheat pathogenreveal the structural basis of a highly plastic eukaryotic genome., 2018, 16(1): 5.
[65] Badet T, Oggenfuss U, Abraham L, McDonald BA, Croll D. A 19-isolate reference-quality global pangenome for the fungal wheat pathogen., 2020, 18(1): 12.
[66] Kehr B, Helgadottir A, Melsted P, Jonsson H, Helgason H, Jonasdottir A, Jonasdottir A, Sigurdsson A, Gylfason A, Halldorsson GH, Kristmundsdottir S, Thorgeirsson G, Olafsson I, Holm H, Thorsteinsdottir U, Sulem P, Helgason A, Gudbjartsson DF, Halldorsson BV, Stefansson K. Diversity in non-repetitive human sequences not found in the reference genome., 2017, 49(4): 588–593.
[67] Duan ZQ, Qiao YY, Lu JY, Lu HM, Zhang WM, Yan FZ, Sun C, Hu ZQ, Zhang Z, Li GC, Chen HZ, Xiang Z, Zhu ZG, Zhao HY, Yu YY, Wei CC. HUPAN: a pan-genome analysis pipeline for human genomes., 2019, 20(1): 149.
[68] Eisfeldt J, M?rtensson G, Ameur A, Nilsson D, Lindstrand A. Discovery of novel sequences in 1,000 swedish genomes., 2020, 37(1): 18–30.
[69] Lunney JK. Advances in swine biomedical model genomics., 2007, 3(3): 179–184.
[70] Li R, Fu WW, Su R, Tian XM, Du D, Zhao Y, Zheng ZQ, Chen QM, Gao S, Cai YD, Wang XH, Li JQ, Jiang Y. Towards the complete goat pan-genome by recovering missing genomic segments from the reference genome., 2019, 10: 1169.
[71] Gerdol M, Moreira R, Cruz F, Gómez-Garrido J, Vlasova A, Rosani U, Venier P, Naranjo-Ortiz MA, Murgarella M, Greco S, Balseiro P, Corvelo A, Frias L, Gut M, Gabaldón T, Pallavicini A, Canchaya C, Novoa B, Alioto TS, Posada D, Figueras A. Massive gene presence-absence variation shapes an open pan-genome in the Mediterranean mussel., 2020, 21(1): 275.
[72] Jia N, Wang JF, Shi WQ, Du LF, Sun Y, Zhan W, Jiang JF, Wang Q, Zhang B, Ji PF, Bell-Sakyi L, Cui XM, Yuan TT, Jiang BG, Yang WF, Lam TTY, Chang QC, Ding SJ, Wang XJ, Zhu JG, Ruan XD, Zhao L, Wei JT, Ye RZ, Que TC, Du CH, Zhou Y-H, Cheng JX, Dai PF, Guo WB, Han XH, Huang EJ, Li LF, Wei W, Gao YC, Liu JZ, Shao HZ, Wang X, Wang CC, Yang TC, Huo QB, Li W, Chen HY, Chen SE, Zhou LG, Ni XB, Tian JH, Sheng Y, Liu T, Pan YS, Xia LY, Li J, Tick Genome and Microbiome Consortium (TIGMIC), Zhao FQ, Cao WC. Large-scale comparative analyses of tick genomes elucidate their genetic diversity and vector capacities., 2020, 182(5): 1328–1340.e13.
[73] Sun C, Huang JX, Wang Y, Zhao XM, Su L, Thomas GWC, Zhao MY, Zhang XT, Jungreis I, Kellis M, Vicario S, Sharakhov IV, Bondarenko SM, Hasselmann M, Kim CN, Paten B, Penso-Dolfin L, Wang L, Chang YX, Gao Q, Ma L, Ma LN, Zhang Z, Zhang HB, Zhang HH, Ruzzante L, Robertson HM, Zhu YH, Liu YJ, Yang HP, Ding LL, Wang QG, Ma DN, Xu WL, Liang C, Itgen MW, Mee L, Cao G, Zhang Z, Sadd BM, Hahn MW, Schaack S, Barribeau SM, Williams PH, Waterhouse RM, Mueller RL. Genus-wide characterization of bumblebee genomes provides insights into their evolution and variation in ecological and behavioral traits., 2021, 38(2): 486–501.
[74] Sedlazeck FJ, Lee H, Darby CA, Schatz MC. Piercing the dark matter: bioinformatics of long-range sequencing and mapping., 2018, 19(6): 329–346.
[75] Logsdon GA, Vollger MR, Eichler EE. Long-read human genome sequencing and its applications., 2020, 21(10): 597–614.
[76] Alkan C, Coe BP, Eichler EE. Genome structural variation discovery and genotyping., 2011, 12(5): 363–376.
Pan-genome: setting a new standard for high-quality reference genomes
Peipei Bian, Yu Zhang, Yu Jiang
With the release of high-quality reference genomes assembled by long reads from the third-generation sequencing technology, as well as extensive re-sequencing and population genetic analysis, researchers found that a single reference genome does not represent the diversity within a species. The missing sequences on the reference genome result in an incomplete population genetic polymorphism map. The emergence of pan-genome can well repair the deficiency of single reference genome, which include core genome (responsible for basic biological functions and the main phenotypic characteristics within a species) and the variable genome (related to the genetic diversity or biological characteristics). According to the core and variable genome proportion, the types of pan-genomes can be either open or closed. Here, we review the current exploring of pan-genome for a range of species, to discuss the characteristics of pan-genome in various biological groups. The pan-genome of mammals are more likely closed, while the pan-genomes of microbes, angiosperms, and some invertebrates are likely non-closed. It is possible to complete the reference genome and obtain complete variation information through the pan-genomic study, which will contribute to the study of molecular mechanism for genetic diversity and phenotypic evolution.
pan-genome; presence and absence variations; core genome; variable genome
2021-08-26;
2021-10-28
國家自然科學(xué)基金項目(編號:31822052)資助[Supported by the National Natural Science Foundation of China(No. 31822052)]
邊培培,在讀博士研究生,專業(yè)方向:動物遺傳。E-mail: bppisc@163.com
姜雨,博士,教授,研究方向:動物遺傳。E-mail: yu.jiang@nwafu.edu.cn
10.16288/j.yczz.21-214
2021/10/29 16:32:29
URI: https://kns.cnki.net/kcms/detail/11.1913.R.20211029.0923.001.html
(責任編委: 李海鵬)