司誠(chéng) 鐘啟文 楊世鵬
(1. 青海大學(xué)農(nóng)林科學(xué)院 青海省蔬菜遺傳與生理重點(diǎn)實(shí)驗(yàn)室,西寧 810016;2. 青海大學(xué)農(nóng)牧學(xué)院,西寧 810016)
香瓜茄(Solanum muricatum)是原產(chǎn)于南美洲的二倍體(2n=24)茄科作物[1],因其具有抗氧化、抗糖尿病、抗炎和抗腫瘤活性的作用而聞名[2-4]。果實(shí)通常呈圓形、橢圓形或細(xì)長(zhǎng)形,成熟時(shí)黃色的果皮上覆蓋著紫色條紋,香氣濃郁,果肉黃色帶有甜味,芳香多汁,富含大量的維生素C[5],具有較大的營(yíng)養(yǎng)價(jià)值、商業(yè)價(jià)值以及藥用價(jià)值。
近幾年,香瓜茄作為被消費(fèi)者熟知的水果作物,其大部分研究工作主要集中在抗病機(jī)理[6]、營(yíng)養(yǎng)價(jià)值[7]、藥用代謝物[8]、茄科近緣物種比較[9-10]等方面。目前,根據(jù)測(cè)序技術(shù)的不斷更迭,番茄(Solanum lycopersicum)[11]、 辣 椒(Capsicum annuum)[12-13]、馬 鈴 薯(Solanum tuberosum)[14]、 茄 子(Solanum melongena)[15]、煙草(Nicotiana tabacum)[16]等物種的基因組已有多個(gè)版本的完整基因組,不同番茄的近緣種(醋栗番茄 Solanum pimpinellifolium[17]、潘那利番茄Solanum pennellii[18])基因組也通過測(cè)序被解析。與香瓜茄親緣關(guān)系最近的馬鈴薯,基于組裝了雜合二倍體馬鈴薯RH89-039-16(RH)之后[19],四倍體馬鈴薯的第一個(gè)高質(zhì)量單倍型組裝也被報(bào)道[20]。
植物基因組包含重要的遺傳信息。基因組序列可用于植物比較基因組學(xué)的研究,同時(shí)也是研究植物進(jìn)化的資源。高質(zhì)量的參考基因組有利于選擇改進(jìn)農(nóng)藝性狀的基因,對(duì)研究其分子機(jī)理、加速植物育種至關(guān)重要。而Hi-C技術(shù)是染色體構(gòu)象捕獲技術(shù)結(jié)合高通量測(cè)序衍生的一種技術(shù),主要研究染色體的三維結(jié)構(gòu)[21]。多種作物基因組序列的公布及解析,為植物重要性狀(如果肉性狀[22]、抗性水平[23-24]等)以及豐富的基因遺傳資源的挖掘等提供了有力工具,還可據(jù)此推測(cè)基因組的進(jìn)化演變,促進(jìn)對(duì)關(guān)鍵農(nóng)藝性狀候選基因的篩選和分子標(biāo)記的開發(fā)[25],帶動(dòng)CRISPR等技術(shù)的發(fā)展及其在作物育種中的應(yīng)用[26-27],已經(jīng)成為作物育種改良的重要資源和工具。
目前尚未報(bào)道香瓜茄基因組,限制了該物種的各項(xiàng)研究。本研究利用PacBio和Hi-C測(cè)序技術(shù),獲得香瓜茄的基因組序列,解釋香瓜茄與近緣茄科作物的進(jìn)化關(guān)系,為豐富茄科作物基因組信息及進(jìn)化發(fā)育歷程,同時(shí)為香瓜茄相關(guān)分子研究奠定堅(jiān)實(shí)的基礎(chǔ)。
材料為香瓜茄甜圓形果實(shí)類型(sweet-round friut,SRF)栽培種,采集自青海大學(xué)農(nóng)林科學(xué)院園藝創(chuàng)新基地(36°38'N,101°55'E,海拔 2 200 m),經(jīng)莖尖脫毒處理后,將組培苗新鮮葉片用蒸餾水清洗干凈后,擦干,-80℃保存,送北京百邁客生物科技有限公司進(jìn)行測(cè)序。
1.2.1 DNA的提取 采用CTAB法提取香瓜茄植物組織DNA。
1.2.2 基因組大小的預(yù)測(cè)
1.2.2.1 文庫(kù)構(gòu)建與測(cè)序 將檢測(cè)合格的DNA樣品通過Covaris超聲波破碎儀隨機(jī)打斷成片段,經(jīng)末端修復(fù)、加Ploy A尾、加測(cè)序接頭、純化、PCR擴(kuò)增等步驟完成整個(gè)文庫(kù)制備。構(gòu)建好的文庫(kù)通過Illumina Hiseq進(jìn)行PE測(cè)序。
1.2.2.2 基因組組裝 通過對(duì)raw read質(zhì)控得到clean read,采用SOAPdenovo軟件進(jìn)行拼接。SOAPdenovo拼接的基本過程,利用K-mer頻數(shù)表數(shù)據(jù)糾錯(cuò)。對(duì)于有低頻K-mer出現(xiàn)的reads進(jìn)行糾錯(cuò),經(jīng)過糾錯(cuò)之后的數(shù)據(jù)用于后續(xù)的基因組組裝。將糾錯(cuò)后的小片段庫(kù)的reads截?cái)喑筛〉男蛄衅危瑯?gòu)建de Brujin圖[28-29],獲得拼接的contigs。將所有文庫(kù)測(cè)序得到的reads比對(duì)回拼接的contigs,利用reads之間的連接關(guān)系和插入片段大小信息,將contigs組裝成scaffolds。
1.2.2.3 基因組大小預(yù)估 利用Illumina HiSeq測(cè)序得到測(cè)序結(jié)果,選取Kmer=41組裝到Scaffold,通過K-mer分析初步判斷樣品的基因組大小、雜合情況、重復(fù)序列信息等評(píng)估基因組大小。
1.2.3 三代基因組文庫(kù)構(gòu)建及組裝 打斷DNA樣品后對(duì)打斷的DNA樣品進(jìn)行損傷修復(fù)及末端修復(fù),連接啞鈴型接頭,進(jìn)行核酸外切酶消化,使用BluePippin進(jìn)行目的片段篩選,獲得測(cè)序文庫(kù)。
PacBio測(cè)序數(shù)據(jù)通過初級(jí)分析評(píng)估、過濾低質(zhì)量的reads、去除接頭后得到reads,進(jìn)一步堿基糾錯(cuò)后得到高準(zhǔn)確性的CCS數(shù)據(jù),用于基因組組裝、組裝后評(píng)估等信息分析。
1.2.4 Hi-C技術(shù)輔助組裝 將香瓜茄組培苗活體植株取樣后,利用甲醛將樣品固定,將細(xì)胞內(nèi)蛋白與DNA、DNA與DNA之間進(jìn)行交聯(lián),利用限制性內(nèi)切酶將DNA進(jìn)行酶切,利用末端修復(fù)機(jī)制引入生物素標(biāo)記的堿基,將末端修復(fù)后的DNA片段進(jìn)行環(huán)化、DNA解交聯(lián)及純化后,破碎為300-700 bp的片段,利用鏈親和素磁珠捕獲含有互作關(guān)系的DNA片段進(jìn)行文庫(kù)構(gòu)建。
文庫(kù)構(gòu)建完成后,分別使用Qubit(2.0)和Agilent 2100對(duì)文庫(kù)的濃度和插入片段大小進(jìn)行檢測(cè),使用qPCR方法對(duì)文庫(kù)的有效濃度進(jìn)行準(zhǔn)確定量,以保證文庫(kù)質(zhì)量。庫(kù)檢合格后,用Illumina平臺(tái)進(jìn)行高通量測(cè)序,測(cè)序讀長(zhǎng)為PE150。
1.2.5 基因組注釋 對(duì)組裝完的基因組進(jìn)行基因組注釋,包括重復(fù)序列、編碼基因及功能注釋、假基因、非編碼RNA注釋等。
1.2.5.1 重復(fù)序列注釋 采用RepeatModeler2(v2.0.1)[30]、LTR_retriever(v2.8)[31]進(jìn)行從頭預(yù)測(cè)(從頭 預(yù) 測(cè) 軟 件 RECON(v1.0.8)[32]和 RepeatScout(v1.0.6)[33]),RepeatClassifier[30]借 助 于 repbase(v19.06)[34]、REXdb(v3.0)[35]和 Dfam(v3.2)[36]3個(gè)已知數(shù)據(jù)庫(kù)對(duì)預(yù)測(cè)結(jié)果進(jìn)行分類。將上述從頭預(yù)測(cè)結(jié)果和已知數(shù)據(jù)庫(kù)合并去冗余后得到該物種特定的重復(fù)序列數(shù)據(jù)庫(kù),最后使用RepeatMasker(v4.1.0)[37]基于構(gòu)建好的重復(fù)序列數(shù)據(jù)庫(kù)對(duì)該基因組進(jìn)行轉(zhuǎn)座子序列(TE)的預(yù)測(cè)。
1.2.5.2 編碼基因預(yù)測(cè)及評(píng)估 使用Augustus(v2.4)和 SNAP[38]進(jìn)行從頭預(yù)測(cè),使用 GeMoMa(v1.7)進(jìn)行基于同源物種的預(yù)測(cè)。有參的轉(zhuǎn)錄本主要使用 Hisat(v2.0.4)和 Stringtie(v1.2.3)獲得,并利用GeneMarkS-T(v5.1)進(jìn)行基因預(yù)測(cè)。無參轉(zhuǎn)錄本主要通過Trinity(v2.11)[39]組裝獲得,然后使用PASA(v2.0.2)進(jìn)行基因預(yù)測(cè)。最后利用EVM(v1.1.1)[40]整合上述3種方法得到的預(yù)測(cè)結(jié)果。
1.2.5.3 非編碼RNA和假基因的預(yù)測(cè) 非編碼RNA包括microRNA、rRNA和tRNA等多種已知功能的RNA,針對(duì)不同非編碼RNA的結(jié)構(gòu)特點(diǎn),采用了不同的策略來預(yù)測(cè)。利用tRNAscan-SE(v1.3.1)識(shí)別 tRNA,rRNA 預(yù)測(cè)主要基于 Rfam(v12.0)[41]數(shù)據(jù)庫(kù)并采用barrnap(v0.9)進(jìn)行預(yù)測(cè),miRNA通過miRBase數(shù)據(jù)庫(kù)鑒定,snoRNA和snRNA基于Rfam(v12.0)數(shù)據(jù)庫(kù)并利用Infenal(1.1)進(jìn)行預(yù)測(cè)。通過GenBlastA(v1.0.4)比對(duì),在屏蔽完真基因座的基因組上尋找同源的基因序列,然后利用GeneWise(v2.4.1)[42]尋找基因序列中的不成熟的終止密碼子及移碼突變。
1.2.6 基因功能注釋 對(duì)預(yù)測(cè)得到的基因序列進(jìn)行 NR(ftp://ftp.ncbi.nlm.nih.gov/blast/db)、KEGG(http://www.genome.jp/kegg)、SWISS-PROT(http://ftp.ebi.ac.uk/pub/databases/swissprot)和 Pfam[41]等數(shù)據(jù)庫(kù)的注釋分析。
2.1.1 測(cè)序數(shù)據(jù)量統(tǒng)計(jì) 利用Illumina HiSeq測(cè)序得到54.26 Gb的raw reads,經(jīng)質(zhì)控后獲得54.11 Gb clean reads,測(cè)序深度31 X。Clean reads Q20=97.31%,Q30=92.75%,均大于90%,測(cè)序錯(cuò)誤率(0.04%)<0.05%,也在容錯(cuò)范圍內(nèi),表明測(cè)序質(zhì)量較好。
2.1.2 17-mer分析及基因組大小估計(jì) 通過對(duì)香瓜茄過濾得到的54.11 Gb的有效數(shù)據(jù)進(jìn)行17-mer分析(圖1),根據(jù)survey分析結(jié)果,在主峰值前約1/2處(depth=15)出現(xiàn)一個(gè)較為明顯的小峰,說明香瓜茄基因組的雜合程度較高。主峰后depth=62處同樣也出現(xiàn)一個(gè)小峰,并且與主峰成倍數(shù)關(guān)系,但由于其峰值較低,峰形不明顯,應(yīng)是重復(fù)序列所導(dǎo)致,而非同源多倍體。Depth>62之后的拖尾則是由于香瓜茄基因組重復(fù)導(dǎo)致。由公式Kmer-number/depth計(jì)算得到的基因組大小約為1 252.41 Mb,修正后的基因組大小為1 238.06 Mb,基因組雜合率為0.84%,重復(fù)序列比例為65.87%(表1)。
表1 香瓜茄基因組特征Table 1 Pepino genomic characteristics
圖1 Depth和K-mer個(gè)數(shù)及種類頻率分布圖Fig. 1 Depth and number of K-mer as well species frequency distribution
2.1.3 基因組組裝結(jié)果統(tǒng)計(jì) 采用Soapdenovo軟件對(duì)香瓜茄序列進(jìn)行拼接(表2),以Kmer=41組裝到Scaffold,contig N50為2 049 bp,總長(zhǎng)為1 141 353 553 bp,scaffold N50為3 185 bp,總長(zhǎng)為1 169 596 440 bp。圖2-a及2-b展示contig分布情況。
圖2 Contig覆蓋深度、長(zhǎng)度和數(shù)量分布圖Fig. 2 Contig coverage depth, length and number distribution map
表2 組裝結(jié)果統(tǒng)計(jì)Table 2 Statistics of assembly results
2.1.4 GC含量及其分布 通過對(duì)組裝的contig進(jìn)行GC含量統(tǒng)計(jì),根據(jù)contigs的GC分布以及覆蓋深度信息繪制散點(diǎn)圖(圖3)。發(fā)現(xiàn)大多分布在20%-50%,主要集中在36%左右,經(jīng)計(jì)算得到基因組GC含量為36.30%。
圖3 GC含量與測(cè)序深度(depth)關(guān)聯(lián)分析統(tǒng)計(jì)圖Fig. 3 Statistical analysis of GC content and sequencing depth
2.2.1 PacBio測(cè)序結(jié)果 在PacBio測(cè)序平臺(tái)獲得香瓜茄基因組的raw reads及組裝結(jié)果(圖4)。使用該樣品的基因組DNA構(gòu)建PacBio文庫(kù),測(cè)序獲得約55 080 918 774 bp(55.08 Gb)的CCS數(shù)據(jù),總測(cè)序深度約為47.64 X,reads N50為14 640 bp,平均讀長(zhǎng)為14.179 bp。過濾低質(zhì)量數(shù)據(jù)得到的質(zhì)控后讀數(shù)共包含3 884 556條reads。
圖4 Reads長(zhǎng)度分布統(tǒng)計(jì)Fig. 4 Reads length distribution statistics
2.2.2 組裝結(jié)果 PacBio數(shù)據(jù)進(jìn)行質(zhì)控后得到高準(zhǔn)確性的CCS數(shù)據(jù),然后基于CCS數(shù)據(jù)使用hifiasm(v0.12)軟件進(jìn)行初步組裝,得到基因組序列(表3)?;蚪M序列總長(zhǎng)度為1.15 Gb,contig N50為22.63 Mb,其中,1 kb以上contig數(shù)目1 813個(gè),contig N90為596 645 bp,最長(zhǎng)的contig為83 851 337 bp,GC含量為35.83%。
表3 組裝結(jié)果的統(tǒng)計(jì)信息Table 3 Statistical information of assembly results
2.2.3 組裝結(jié)果評(píng)估 利用bwa軟件將二代高通量測(cè)序(如Illumina HiSeq測(cè)序平臺(tái))得到的短序列與參考基因組比對(duì),統(tǒng)計(jì)比對(duì)率(99.85%),可評(píng)估組裝基因組的完整性。使用CEGMA(v2.5)來評(píng)估最終基因組組裝的完整性,有97.16%的CEGMA基因存在香瓜茄基因組中。使用BUSCO軟件評(píng)估基因組組裝完整性,有98.20%的BUSCO基因存在香瓜茄基因組中,表明基因組組裝完整性較高。
對(duì)初步組裝的基因組序列利用有效Hi-C數(shù)據(jù)進(jìn)行進(jìn)一步的組裝,包括初步組裝基因組序列的分群、排序和排序后的定向,最終獲得染色體水平上基因組序列。共產(chǎn)生143 362 025 128 bp數(shù)據(jù)。通過Hi-C文庫(kù)質(zhì)量評(píng)估分析共獲得404 890 166對(duì)唯一比對(duì)到基因組上的reads(unique paired alignments),其中,252 453 038對(duì)是有效的Hi-C數(shù)據(jù)(valid interaction pairs),占唯一比對(duì)到基因組數(shù)據(jù)的62.35%;116 720 788對(duì)無效數(shù)據(jù)中末端懸掛類型的Hi-C數(shù)據(jù)(dangling end pairs),占唯一比對(duì)到基因組數(shù)據(jù)的28.83%;6 442 178對(duì)無效數(shù)據(jù)中屬于相鄰連接類型的(re-ligation pairs),占比1.59%;1 535 133對(duì)無效數(shù)據(jù)中屬于為自連類型的(self-circle ligation pairs),占比0.83%;27 739 029對(duì)無效數(shù)據(jù)中屬于其他未定義的(dumped pairs),占比6.85%。
經(jīng)過Hi-C組裝和人工調(diào)整后,共有1 123 245 570 bp的序列長(zhǎng)度的基因組序列被定位到12條染色體上,占比97.16%;在定位到染色體上的序列中,能夠確定順序和方向的序列長(zhǎng)度為1 079 553 436 bp,占定位染色體序列總長(zhǎng)度的96.11%。對(duì)Hi-C糾錯(cuò)和組裝后得到的基因組序列進(jìn)行統(tǒng)計(jì)(表4),獲得最終版本的基因組組裝統(tǒng)計(jì)結(jié)果,Contig N50為22 628 432 bp,Scaffold N50為87 253 278 bp。
表4 香瓜茄Hi-C組裝的基因組信息Table 4 Hi-C assembly information of the pepino genome
對(duì)于Hi-C組裝到染色體的基因組等長(zhǎng)切割成500 000 bp一個(gè)bin,然后任意2個(gè)bin之間覆蓋Hi-C Read Pairs的數(shù)目作為2個(gè)bin之間交互的強(qiáng)度信號(hào)(圖5),可以明顯區(qū)分出12個(gè)染色體分組;在每一分組內(nèi)部可以看出位于對(duì)角線位置的交互的強(qiáng)度要高于非對(duì)角線的位置,說明Hi-C組裝的染色體結(jié)果中鄰近的序列間(對(duì)角線位置)交互強(qiáng)度高,而非鄰近的序列之間(非對(duì)角線位置)的交互信號(hào)強(qiáng)度弱,與Hi-C輔助基因組組裝的原理一致,證明香瓜茄基因組序列掛載率高。
圖5 香瓜茄基因組Hi-C組裝染色體交互熱圖Fig. 5 Hi-C assembly chromosome interaction heat map of pepino genome
對(duì)組裝完的基因組進(jìn)行基因組注釋,包括重復(fù)序列、編碼基因及功能注釋、假基因、非編碼RNA注釋等。重復(fù)序列注釋主要包括串聯(lián)重復(fù)序列(tandem repeats)和散在重復(fù)序列(interspersed repeats),其中,第二類主要是轉(zhuǎn)座子序列(transposable elements,TE)是研究的主要對(duì)象。將從頭預(yù)測(cè)結(jié)果和已知數(shù)據(jù)合并去冗余后得到該物種特定的重復(fù)序列數(shù)據(jù)庫(kù),最后基于構(gòu)建好的重復(fù)序列數(shù)據(jù)庫(kù)對(duì)香瓜茄基因組進(jìn)行TE的預(yù)測(cè)。最終得到約742 491 882 bp的TE,占比64.22%,最終得到約201 341 835 bp的串聯(lián)重復(fù)序列,占比17.42%。
對(duì)香瓜茄基因采用同源預(yù)測(cè)、從頭預(yù)測(cè)和轉(zhuǎn)錄組預(yù)測(cè),基因預(yù)測(cè)結(jié)果(表5)顯示,編碼基因預(yù)測(cè)最終得到41 571個(gè)基因;非編碼RNA即不編碼蛋白質(zhì)的RNA,包括miRNA、rRNA和tRNA等多種已知功能的RNA,針對(duì)不同非編碼RNA的結(jié)構(gòu)特點(diǎn),采用了不同的策略來預(yù)測(cè)不同的非編碼RNA,總共預(yù)測(cè)得到4 360個(gè)tRNA、5 677個(gè)rRNA、154個(gè)miRNA、202個(gè)snRNA、287個(gè)snoRNA;假基因預(yù)測(cè)得到449個(gè)。利用擬南芥、辣椒、番茄、潘那利番茄以及馬鈴薯等開展同源預(yù)測(cè)香瓜茄基因信息,其中,香瓜茄與近緣作物馬鈴薯預(yù)測(cè)得到的基因數(shù)量最多,有51 586個(gè)。
表5 香瓜茄基因預(yù)測(cè)結(jié)果Table 5 Prediction results of pepino gene
BUSCO中embryophyta數(shù)據(jù)庫(kù)包含1 614個(gè)保守的核心基因。使用BUSCO(v4.0)軟件來評(píng)估基因預(yù)測(cè)的完整性,其中,有98.64%的BUSCO基因存在預(yù)測(cè)的基因中,說明基因預(yù)測(cè)的完整性高。
香瓜茄中99.06%的基因可以注釋到所有數(shù)據(jù)庫(kù)中(表6)。通過GO注釋分析(圖6),共有30 713個(gè)基因具有GO注釋預(yù)測(cè)的功能,占預(yù)測(cè)到總基因數(shù)的73.88%。GO注釋結(jié)果顯示整個(gè)分類中基因分布在細(xì)胞組分(cellular component)的相較于分子功能(molecular function)和生物學(xué)過程(biological process)較少,生物學(xué)過程最多。其中,二級(jí)功能分布在細(xì)胞內(nèi)(intracellular)、細(xì)胞結(jié)構(gòu)體(cellular anatomical entity)、催化活動(dòng)(catalytic activity)、結(jié)合(binding)、代謝過程(metabolic process)、細(xì)胞過程(cellular process)的基因數(shù)目相對(duì)較多。
圖6 GO二級(jí)節(jié)點(diǎn)注釋分類統(tǒng)計(jì)圖Fig. 6 Statistical chart of GO secondary node annotation classification
表6 香瓜茄基因功能注釋統(tǒng)計(jì)信息Table 6 Statistical information of pepino gene function annotation
eggNOG注釋結(jié)果(圖7)顯示,香瓜茄的蛋白序列功能主要集中在復(fù)制、重組和生物生成(L:replication,recombination and repair),占比 10.94%,轉(zhuǎn)錄(K:transcription)占比7.58%,信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(T:signal transduction mechanisms)占比7.1%,翻譯后修飾、蛋白質(zhì)周轉(zhuǎn)、分子伴侶(O:posttranslational modification,protein turnover,chaperones) 占 比6.82%,能量的產(chǎn)生和轉(zhuǎn)換(C:energy production and conversion)占比5.36%。eggNOG采用了COG,KOG和arCOG中引入的20個(gè)功能類別,在功能層面上對(duì)基因進(jìn)行分類。eggNOG結(jié)果反映在不同的功能類別中,通過基因數(shù)目的多少能夠展示出該物種在進(jìn)化過程中對(duì)環(huán)境的適應(yīng)性。
圖7 eggNog功能注釋分類統(tǒng)計(jì)圖Fig. 7 eggNog functional annotation classification
選擇8個(gè)已知基因組信息的物種,構(gòu)建系統(tǒng)進(jìn)化樹。結(jié)果表明,香瓜茄與馬鈴薯的進(jìn)化時(shí)間大約在12.82 MYA(圖8)。從進(jìn)化時(shí)間上來看,香瓜茄的進(jìn)化時(shí)間稍晚于煙草、辣椒和茄子。對(duì)比于基因預(yù)測(cè)結(jié)果(表5),近緣物種馬鈴薯作為香瓜茄同源預(yù)測(cè)物種,預(yù)測(cè)到的香瓜茄上的基因個(gè)數(shù)也最多,揭示了馬鈴薯與香瓜茄較近的進(jìn)化關(guān)系。
圖8 物種間分化時(shí)間Fig. 8 Differentiation time between species
連續(xù)性和完整性是基因組組裝的重要指標(biāo),PacBio基因組組裝和Illumina數(shù)據(jù)的糾錯(cuò)可以大大提高測(cè)序數(shù)據(jù)連續(xù)性和完整性[43]。本研究通過這種策略對(duì)香瓜茄基因組組裝顯示出高度分辨的結(jié)果,N50=22.62 Mb(megabases),與近期測(cè)序的芒苞草 N50 = 6.96 Mb[44],黑麥 N50>29 Mb[45]和板藍(lán)根N50=36.16 Mb[46]結(jié)果相近。在定位到染色體上的序列中,能夠確定順序和方向的序列長(zhǎng)度為1 079 Mb,占定位染色體序列總長(zhǎng)度的96.11%。BUSCO和基因預(yù)測(cè)結(jié)果分析進(jìn)一步證實(shí)了香瓜茄基因組的高質(zhì)量和完整性。
根據(jù)基因組數(shù)據(jù)構(gòu)建了香瓜茄的系統(tǒng)發(fā)育關(guān)系,同時(shí)對(duì)比基因預(yù)測(cè)結(jié)果,香瓜茄比對(duì)到馬鈴薯上的基因個(gè)數(shù)最多,發(fā)現(xiàn)在茄科作物中,香瓜茄與馬鈴薯進(jìn)化關(guān)系最近,這與先前發(fā)表的系統(tǒng)發(fā)育分析的結(jié)果一致[9]。茄科作為雙子葉植物中最重要的果蔬類群,其包含的較多物種的基因組或基因組草圖已經(jīng)被測(cè)序完成[47-48]?;蚪M測(cè)序技術(shù)及生物信息技術(shù)的不斷發(fā)展[49],顯著推動(dòng)了香瓜茄這種非模式作物的測(cè)序研究,香瓜茄基因組的測(cè)序完成是對(duì)茄科基因組研究的又一補(bǔ)充。我們的研究結(jié)果將為茄科的起源,進(jìn)化和多樣化分析增加了功能見解。
本研究通過對(duì)香瓜茄基因組的預(yù)估,對(duì)比PacBio第三代測(cè)序技術(shù)測(cè)序以及Hi-C輔助基因組組裝結(jié)果,首次揭示了香瓜茄基因組的大小。根據(jù)各分析指標(biāo),推測(cè)香瓜茄基因組為高雜合基因組,針對(duì)一些物種基因組重復(fù)序列偏多的特征,可以采用三代測(cè)序或者HiFi測(cè)序等兼顧長(zhǎng)讀長(zhǎng)和高精度的測(cè)序手段開展基因組研究。隨著長(zhǎng)度測(cè)序的出現(xiàn)和完善,基因組組裝的數(shù)量和質(zhì)量正在不斷提升,但一些具有顯著生態(tài)價(jià)值和較低經(jīng)濟(jì)價(jià)值的植物中參考基因組的數(shù)量和質(zhì)量仍然較低,在137個(gè)植物目中,有76個(gè)植物目缺乏代表性的參考基因組,62個(gè)目至少有1個(gè)參考基因組。例如,十字花科目有83個(gè)種的參考基因組,禾本目和唇形目分別有80個(gè)種和67個(gè)種的參考基因組。伴隨著技術(shù)的進(jìn)步和越來越多其他物種的關(guān)注度提升,未來完整的植物基因組測(cè)序數(shù)據(jù)庫(kù)構(gòu)建將成為可能。
獲得香瓜茄高質(zhì)量染色體水平參考基因組,推測(cè)該測(cè)序香瓜茄基因組為高復(fù)雜基因組。香瓜茄與馬鈴薯具有較近的進(jìn)化關(guān)系。