唐亞萍,李 寧,王 娟,王柏柯,楊生保,郭 斌,楊 濤,郭春苗,馬 凱,劉 君,王 歡,余慶輝
(1.新疆農(nóng)業(yè)科學院園藝作物研究所,烏魯木齊 830091;2.新疆農(nóng)業(yè)大學計算機與信息工程學院,烏魯木齊830091;3.中國農(nóng)業(yè)科學院作物科學研究所,北京100081;4.中國農(nóng)業(yè)科學院生物技術(shù)研究所,北京100081)
【研究意義】番茄(Solanumlycopersicum)具有極高的商業(yè)價值,年產(chǎn)量1.77億噸,產(chǎn)值600億美元[1]。番茄由于其環(huán)境適應性廣、生命周期短、光周期敏感、高度自花授粉及較小的基因組(950 Mb),也是重要經(jīng)典遺傳學和基因組研究的模式作物[2]。因此,綜述國內(nèi)外相關(guān)高質(zhì)量番茄基因組研究進展,比較與分析一、二、三代測序技術(shù)的研究成果,對番茄重要性狀功能基因的挖掘及育種有重要意義?!厩叭搜芯窟M展】番茄也是第一個實現(xiàn)使用圖位克隆和QTL技術(shù)定位重要調(diào)控基因位點的植物[3-5]。在果實發(fā)育和成熟研究中,番茄也能夠為其他結(jié)實植物提供參考?!颈狙芯壳腥朦c】每個生物個體的基因組包含了生物體完整的遺傳信息,基因測序技術(shù)能有效準確地獲得生物體的DNA序列,為基因的定位、分離、結(jié)構(gòu)和功能等研究奠定基礎(chǔ)。基于全基因組和目標測序的基因組學方法,為作物進化提供重要參考信息。從遺傳學角度,茄科植物多數(shù)都是經(jīng)濟作物,在茄科植物中番茄基因組較小,研究范圍最廣,番茄的基因組序列是茄科植物比較基因組學研究的數(shù)據(jù)基礎(chǔ)。研究綜述國內(nèi)外相關(guān)高質(zhì)量番茄基因組的研究現(xiàn)狀及發(fā)展趨勢?!緮M解決的關(guān)鍵問題】研究栽培番茄和野生番茄基因組,比較和分析番茄的馴化過程及發(fā)掘野生番茄中的等位基因,為番茄育種提供豐富的參考資源,高質(zhì)量番茄基因序列和遺傳信息為番茄育種提供更高效的育種工具。
收集查閱國內(nèi)外相關(guān)官網(wǎng)、文獻資料和番茄基因組現(xiàn)有研究前沿技術(shù)。
整理匯總并進行對比分析番茄基因組研究進展。
2.1.1 Sanger測序技術(shù)
測序技術(shù)始于20世紀70年代中期,1977年,Maxam和Gilbert報道了化學降解法及Frederick Sanger發(fā)明了雙脫氧鏈終止法,標志著第一代測序技術(shù)的誕生[6,7]。Sanger法的原理是結(jié)合在待測序列上的引物通過一種DNA聚合酶延伸,直到滲入一種鏈終止核苷酸為止。每個測序反應由四種脫氧核苷酸(dNTP)和一種缺少延伸所需3’-0H的雙脫氧核苷酸(ddNTP)構(gòu)成,終止反應由ddNTP結(jié)合決定?;瘜W降解法與Sanger法相似,只是用化學方法終止反應。Sanger法操作簡單,得到了廣泛的應用,以及在此基礎(chǔ)上用熒光標記代替同位素標記[8]。
2.1.2 二代測序技術(shù)
第一代基因測序技術(shù)成本高額和速度慢,被Roche公司的454技術(shù)[9]、Illumina公司的Solexa技術(shù)[10-11]和ABI公司的SOLiD[12]研發(fā)第二代測序技術(shù)所取代。第二代測序技術(shù)通過擴增放大信號,采用微珠或者高密度芯片邊合成邊測序。華大智造在2018年10月發(fā)布了一款高通量測序儀開創(chuàng)性的采用四聯(lián)芯片平臺,提高測序公司的日生產(chǎn)力。21世紀進入后基因組時代,二代測序技術(shù)的高通量、高精準度、高效率降低了測序成本,但二代測序技術(shù)都是將基因組片段化后進行測序,測序結(jié)果的長度較短,適合用于已知基因組序列的重測序。基因組是物種分析的基礎(chǔ),測序技術(shù)的發(fā)展是為了能夠快速獲得基因組的完整序列,但二代測序數(shù)據(jù)的組裝完整度受到基因序列的高雜合、高重復和高GC的影響。二代測序數(shù)據(jù)組裝方法的原理是先利用overlap組裝Contig,再利用圖論的方法構(gòu)建Scaffold。2007年到2011年的基因組數(shù)據(jù)來看,接近完整和每個堿基準確性都在99.99%以上的基因組所占比例不到35%[13-14],二代測序基因組組裝的質(zhì)量都比較低。二代測序技術(shù)產(chǎn)生的短片段組裝對于研究結(jié)構(gòu)變異作用非常有限[15],難以鑒定復雜結(jié)構(gòu)變異、可變剪切,且不能直接檢測表觀修飾、不能鑒定特定基因調(diào)控區(qū)域及調(diào)控元件,重要性狀功能基因有待進一步挖掘。
2.1.3 三代測序技術(shù)
二代高通量測序技術(shù)由于其測序速度、成本、準確度等方面仍存在缺陷,以單分子測序為特點的三代測序技術(shù)應運而生。第三代測序技術(shù)主要包括Helicos公司的Heliscope[16]單分子測序儀、Pac Bio公司的SMRT技術(shù)[17]和OxfordNanoporeTechnologies公司的納米孔單分子測序技術(shù)[18]。其主要的特點就是單分子測序,不經(jīng)過PCR直接邊合成邊測序,讀速快并且讀長超長,精準度能夠達到99.99%,最小的GC偏好性,三代測序技術(shù)可直接用于RNA和DNA甲基化的測序[19]。隨著測序數(shù)據(jù)讀長的延長,數(shù)據(jù)組裝也更加精準高效,10 kb讀長超過絕大多數(shù)微生物和脊椎動物基因組重復序列的長度[20],可以檢測復雜的結(jié)構(gòu)變異[21-23]。結(jié)合optical mapping(BioNano Genomics公司)、Hi-C(Phase Genomics公司)及GemCode(10X Genomics公司)組裝技術(shù),為研究提供了全新的基因組分析策略和工具[24-25]。將PacBio三代測序、BioNano光學圖譜、Hi-C技術(shù)等結(jié)合在一起,獲得了高質(zhì)量的染色體級別的參考基因組序列。組裝得到的基因組序列為1.385Gb比1.087Gb,Scaffold為3,486個比24,845個,Scaffold N50大小為3.84Mb比86.941 kb,Contig N50為1.66 Mb比14.505 kb,完成了基因組90%的序列組裝,到達了染色體水平[26]。Contig N50是衡量基因組組裝質(zhì)量的重要指標,其值越高代表其基因組組裝的越完整,在之后的功能研究上,尤其是多拷貝基因調(diào)控的性狀研究其準確度也越高。表1
2017年6月玉米基因組PacBio三代測序結(jié)合BioNano光學圖譜,利用已發(fā)布的BACs Sanger測序數(shù)據(jù)和SNP遺傳圖譜數(shù)據(jù)將基因組構(gòu)建到染色體級別發(fā)表,對玉米自交系B73進行測序,得到了更詳細的新版(B73 RefGen_v4)基因組圖譜[27],較先前版本Contig長度提升52倍[28]。基因間區(qū)段和著絲粒組裝顯著提升。從基因組重復區(qū)段鑒定出超過130,000 個完整轉(zhuǎn)座子。也較先前組裝的栽培種PH207的基因組版本[29],新版基因組contigN50顯著提升了近240倍(Contig N50為1,180 kb 比5 kb)。
表1 不同測序技術(shù)比較
Table 1 Comparison of different sequencing techniques
2.2.1 番茄基因組測序
研究表明,對栽培番茄S.lycopersicumHeinz 1706全基因組的精細序列分析,鑒定出番茄基因組中大約 34,727個基因,其中97.4%的基因已經(jīng)精確定位到染色體上[30]。美國冷泉港實驗室作為協(xié)作組成員之一,利用Illmina/Solexa測序技術(shù),對栽培番茄祖先種野生醋栗番茄S.pimpinellifoliumLA1589進行了20倍深度測序,繪制了其基因組的框架圖,通過與栽培番茄比較分析發(fā)現(xiàn)了番茄果實進化的基因組學基礎(chǔ)。
通過對84個栽培和野生番茄的測序研究,發(fā)現(xiàn)野生番茄的SNPs超過10, 000, 000,比栽培番茄多了近20倍,栽培番茄在馴化和改良過程中發(fā)生了劇烈的基因流失,自交不親和的野生種中有更高的雜合體。根據(jù)Heinz 1706的序列重新組裝了3個野生番茄S.arcanumLA2157,S.habrochaitesLYC4 和S.pennellii LA0716,利用AllPathes-LG組裝基因組序列[31]。采用Illumina WGS190X技術(shù),完成了野生潘那利番茄(S.pennellii‘LA0716’)的測序,揭示了與其抗逆性和獨特形態(tài)有關(guān)的重要基因,利用遺傳圖譜和簡化基因組測序的標記組裝了97.1% 約942 Mb 的基因組到染色體上[32]。
利用Illumina測序技術(shù)對野生番茄S.galapagense‘LA0436’和栽培番茄Heirloom品系中的‘Yellow Pear’進行了測序[33],參考H1706的序列用BWA進行組裝,再用SOAP version1.05重新組裝基因組序列,栽培番茄的Contig N50 為25.15 kb,組裝了93.5%的基因組,加拉帕戈斯Contig N50 為5.96 kb,組裝了89.0%的基因組。同時結(jié)合已測序的栽培番茄進行了系統(tǒng)進化分析,得出野生番茄加拉帕戈斯、醋栗番茄和栽培番茄的分化發(fā)生在50萬年前,野生番茄加拉帕戈斯與栽培番茄的親緣關(guān)系較近,在加拉帕戈斯到達加拉帕戈斯群島之前有共同的祖先。
采用納米孔測序技術(shù)(Nanopore Sequencing),對野生潘那利番茄(S.pennellii‘LYC1722’)進行了測序[34],平均讀長為11,979 bp。利用Canu進行原始reads糾錯,然后利用Canu-SMART denovo.聯(lián)合組裝,Contig N50 高達 2.45 Mb,Contigs總數(shù)量為899,最大Contigs為12.32 Mb。但Nanopore原始數(shù)據(jù)組裝的結(jié)果表現(xiàn)出明顯的高錯誤率和高誤差率,進一步利用Illumina測序reads對基因組進行矯正,有效降低了組裝結(jié)果的錯誤率和誤差率,基因完整性評估值為96.46%,優(yōu)于S.pennellii的參考基因組。
SGN(Sol Genomics Network)在線發(fā)表了類番茄(S.lycopersicoides‘LA2951’)基因組測序結(jié)果(https://solgenomics.net/organism/Solanum_lycopersi- coides/genome)。采用PacBio SMRT三代測序技術(shù),并利用Hi-C輔助組裝,contig N50為139,475 bp,最長contig為3,446,189 bp,最終組裝總長為1,269,715,057 bp,共有37938基因被預測。
2.2.2 番茄重測序
在番茄參考基因組序列公布之后,全基因組關(guān)聯(lián)分析(GWAS)被快速應用于挖掘番茄果實性狀和植株形態(tài)的功能基因[35]。這是一個能夠?qū)⒃耘喾?,櫻桃番茄和野生番茄放在同一水平進行比較的平臺[36]。在栽培番茄上進行了基因組重測序,發(fā)現(xiàn)測序的栽培番茄與參考基因組序列之間存在大量的遺傳差異,這種多態(tài)性的產(chǎn)生可能與馴化或育種過程中基因的滲入有關(guān)[37]。2014年‘150 tomato genome re-sequencing project’對169個番茄進行了重測序,完成了360個番茄的重測序,構(gòu)建了完整的番茄遺傳圖譜,揭示了在長期的馴化過程中,野生番茄果實在重量、顏色、形狀等方面發(fā)生了顯著變化。通過比較不同群體的基因組差異,發(fā)現(xiàn)決定果實可溶性固形物及果實硬度的基因集中在5號染色體上,通過全基因組關(guān)聯(lián)分析,發(fā)現(xiàn)了決定果實果皮顏色的關(guān)鍵變異位點[38]。通過對163份番茄核心種質(zhì)與控制果實代謝物變異位點的關(guān)聯(lián)分析,明確了44個與果實蔗糖、抗壞血酸、蘋果酸和檸檬酸等19個性狀相關(guān)的位點[36]。
利用mGWAS(metabolome Genome-Wide-Association Study)方法和mQTL(metabolome Quantitative Trait Locus)方法,對398份番茄進行代表性的番茄種質(zhì)進行全基因組測序和多點多次的表型鑒定,利用全基因組關(guān)聯(lián)分析和連鎖分析最終鑒定了影響27種風味物質(zhì)的200多個主效的遺傳位點,通過代謝物與基因型的關(guān)聯(lián)分析,定位風味相關(guān)基因,并提出番茄風味改良的遺傳機制方法[39]。Bauchet等[40]也利用mGWAS對300份番茄的60種代謝物進行了連續(xù)兩年的分析,確定了79個位點關(guān)聯(lián)影響13個初級代謝物和19個次級代謝物。
通過對600多份番茄資源進行基因組、轉(zhuǎn)錄組測序及980種果實代謝的群體多組學分析。利用多重組學大數(shù)據(jù),揭示了在馴化和育種過程中番茄果實營養(yǎng)和風味物質(zhì)的變化,定位了調(diào)控重要風味物質(zhì)的遺傳位點,為植物代謝物的分子機理研究提供了大數(shù)據(jù)和新方法[41]。
3.1 通過分析,與番茄果實顏色相關(guān)的具有GTC密碼子的類胡蘿卜素合成基因被定位于6號染色體上[31]。利用全基因組關(guān)聯(lián)分析,果實硬度的相關(guān)基因被定位到5號染色體上[38]。果實重量和形狀在進化過程中被分為兩步,第一次馴化發(fā)生在南美洲,第二次馴化發(fā)生在中美洲[42]。
3.2 通過對12個野生番茄和29個栽培番茄基因組序列進行比較分析,發(fā)現(xiàn)在12個野生番茄中有8個基因至少是每個品種特有的,例如CER1是與番茄蠟質(zhì)合成和花粉不育相關(guān)的基因;GDSL是與花器官和育性芽發(fā)育相關(guān)的基因。在29個栽培番茄中,在11號染色體上找到ARF9基因與果實大小密切相關(guān),與蠟質(zhì)合成有關(guān)聯(lián)的基因也被定位在該染色體上。在10號染色體上發(fā)現(xiàn)GA2oxs基因調(diào)控開花、分蘗和種子形成[43]。
現(xiàn)代番茄含糖量降低,是因為現(xiàn)代育種過于注重產(chǎn)量、外觀,導致高糖分等位基因在番茄馴化與改良的過程中發(fā)生了丟失。對脫輔基類胡蘿卜素高含量相關(guān)等位基因進行選擇,提高番茄果實中脫輔基類胡蘿卜素的含量,可以在不影響果實大小和產(chǎn)量的同時提高果實的甜度,從而增加番茄的風味[42]。通過對M82漸滲系的代謝物關(guān)聯(lián)分析,根據(jù)基因型效應的顯著性鑒定了發(fā)現(xiàn)位于10號染色體上的113個代謝物QTL,根據(jù)基因型與環(huán)境相互作用的顯著性鑒定了129個代謝物相關(guān)QTL[44]。利用番茄10000個SNP獲得基因信息,進行了代謝物全基因組關(guān)聯(lián)分析,發(fā)現(xiàn)果實重量與果實酸類物質(zhì)代謝相關(guān),鑒定出與13個初級代謝產(chǎn)物和19個次級代謝產(chǎn)物關(guān)聯(lián)的79個基因區(qū)域,蘋果酸含量相關(guān)的基因位于6號染色體上,苯乙醛和苯乙酸含量相關(guān)基因4號染色體上[45]。
從線性化水平上,盡管茄科植物的基因組在不斷分化,但是其重復分布卻非常相似,重復序列出現(xiàn)做多的是Ty3/Gypsy元素。通過不平等重組去除轉(zhuǎn)座因子可能導致整個基因組序列的重排[46]。
一個人的完整遺傳信息只可能通過對他自己的全基因組測序和組裝才能夠得出,而無法通過與參照基因組比較找差異得出[47],對來自不同背景和祖先的人群進行研究,創(chuàng)建人類基因組全面和包容性的重要性,更全面的人類基因組能更好地了解不同人群的疾病風險變化[48]。2013 年泛基因組測序開始應用于動植物研究領(lǐng)域,通過對不同品種基因組進行測序、組裝,然后將組裝好的基因序列進行整合注釋,獲取這個物種全部的遺傳信息,并且對每一個個體間遺傳變異信息進行解析,獲得種群甚至個體特有的DNA 序列和功能基因信息,有利于理解物種形成的分子進化機制及其與自然選擇的關(guān)系。其應用廣泛,可選擇不同亞種材料進行泛基因組測序來研究物種的起源及演化等重要生物學問題;也可選擇野生種和栽培種等不同特性的種質(zhì)資源進行泛基因組測序去發(fā)掘重要性狀相關(guān)的基因資源。
2014年,中國農(nóng)科院作物所采用二代測序技術(shù),完成了7個野生大豆的泛基因組測序,對7個樣本均進行了組裝和注釋,平均每個基因組注釋出55,570個基因,其中85%~90%的基因為全長基因。泛基因組構(gòu)建發(fā)現(xiàn)共有59 080個基因家族,其中48.6%為核心基因組,51.4%為非核心基因組。以栽培大豆基因組為參考進行變異檢測,分別鑒定出SNP 3.6~4.7M,其中0.12~0.15M位于編碼區(qū);InDel 0.50-0.77M,2 989~4 181個導致了移碼;而大量的變異位點(44~53%)是重測序手段未能識別出的新位點。并進行物種分化分析以及重要農(nóng)藝性狀(抗逆、抗病、花期、產(chǎn)油量和高度)基因定位及選擇壓力分析,在全基因組水平上全面解析了野生和栽培大豆種間遺傳變異,特別是在闡明大豆種內(nèi)/種間結(jié)構(gòu)變異方面有所突破[49]。Golicz等[50]對九種有形態(tài)差異的甘藍和一種野生型近緣蕓薹屬物種進行泛基因組測序分析,組裝出泛基因組大小為587 Mb,包含61,379基因,81.3%基因為核心基因,18.7%是非核心基因,其中2.2%為某一品系特有基因。構(gòu)建10個甘藍物種的系統(tǒng)進化樹,發(fā)現(xiàn)37.7%基因PAVs與系統(tǒng)發(fā)育評估一致,推測這些PAV為形態(tài)型譜系特異性基因PAV。進一步去對PAVs分析發(fā)現(xiàn),許多基因與抗病、開花時間、硫甙的代謝和維生素合成等功能有關(guān),這些新基因的出現(xiàn),PAV有助于保持雜交品種優(yōu)勢并增加物種活性。Gordon等[51]對54份二穗短柄草(Brachypodiumdistachyon)進行泛基因組測序,發(fā)現(xiàn)泛基因組中,有7,315個基因在參考基因組中未見,有近半數(shù)為非核心基因,并證實不同基因?qū)е卤硇妥儺惒ΨN群遺傳有很大影響,轉(zhuǎn)座子(transposable elements)在泛基因組進化中具有重要作用。
對66份具有代表性的水稻進行了泛基因組測序組裝[52],構(gòu)建了泛基因組圖譜,并通過BAC文庫對其中一份材料進行高質(zhì)量組裝來驗證方法的可行性。將66個基因組與參考基因組“日本晴”上的序列(IRGSP build 4 version)進行分析,發(fā)現(xiàn)了16,563,789個SNP,5,549,290個InDel和933,489個SV,其中大部分都集中于少數(shù)幾個種質(zhì)中;鑒定出水稻基因組中的各類遺傳變異,發(fā)現(xiàn)很多功能基因存在有多種等位基因類型;鑒定到栽培稻和普通野生稻中幾乎飽和的編碼基因集及其在不同品種中的PAV變異。發(fā)布了13個水稻品種的泛基因組研究成果[53]。研究將9個基因組(2個栽培種、6個野生種以及外群種Leersiaperrieri)和先前公布的4個基因組做了比較進化基因組學分析,并整合了RNA-seq和亞硫酸氫鹽測序數(shù)據(jù)。利用6,015個單拷貝直系同源基因進行過濾篩選,構(gòu)建了稻屬的物種進化樹。鑒定出群外物種L.perrieri和二穗短柄草具有更多基因的倒位。TEs的選擇性擴增和缺失在稻屬基因組和染色體進化中起著關(guān)鍵作用,強化了TEs是基因組進化的重要驅(qū)動因素;也研究證實InDels是基因組進化和馴化的驅(qū)動因素。研究還發(fā)現(xiàn)了數(shù)千個不與蛋白質(zhì)編碼基因重疊的lincRNA,大多數(shù)lincRNA家族具有物種特異性,證實LincRNA基因可以作為一種新的基因資源。研究還發(fā)現(xiàn)細胞內(nèi)核苷酸結(jié)合的亮氨酸重復序列(NLR)受體在水稻群體中是多變的,秈稻和粳稻的NLR增幅與其野生祖先相比明顯較高,與人工選擇增加NLR多樣性相一致,證實了抗病基因的進化。
番茄作為二倍體,基因組較小,目前只針對個別基因組進行研究,但某一個個體的基因組很難覆蓋全部物種信息。同時,現(xiàn)代栽培番茄遺傳背景日趨狹窄,而野生番茄含有抗旱(S.pimpinellifolium)、耐鹽(S.pennellii)、抗凍(S.hirsutum,S.habrochaites)、抗病(S.galapagense)、抗蟲(S.galapagense)等特性[54],一些區(qū)域地方品種也含有特殊的優(yōu)良性狀[55],采用長讀長測序技術(shù),通過泛基因組研究,進一步地挖掘這些優(yōu)良性狀及其變異,將更好地應用于品種改良。
主要針對三維空間結(jié)構(gòu)內(nèi)不同基因與非編碼轉(zhuǎn)錄調(diào)控元件間的相互作用,及它們對目的基因在特定細胞或生物個體表達調(diào)控的生物學效應等方面進行研究[56-58]。目前,Hi-C作為三維基因組學的主要技術(shù)已被應用于棉花、水稻和擬南芥等植物,并取得一定的成果和進展[59-61]。利用三維基因組學對番茄的三維空間構(gòu)象與基因轉(zhuǎn)錄調(diào)控間的關(guān)系進行研究,能進一步揭示番茄不同類型調(diào)控元件與基因間的互作關(guān)系,并能找到互作對基因特性異性表達模式產(chǎn)生的作用機制。三維基因組學還可與其它組學相互配合,對各基因互作與基因功能之間的關(guān)系進行更詳細的解讀,為實現(xiàn)更精準的基因調(diào)控提供新的途徑,為培育出高產(chǎn)、抗逆、抗病蟲害和具有多種功能的番茄新品種提供了理論依據(jù)。