周 勃,任海龍,,張 龑,高 強(qiáng),徐 麟,鄒集文
(1.新疆農(nóng)業(yè)科學(xué)院海南三亞農(nóng)作物育種試驗(yàn)中心,海南三亞 572014;2.廣州市農(nóng)業(yè)科學(xué)研究院,廣州 510308;3.新疆農(nóng)業(yè)科學(xué)院農(nóng)作物品種資源研究所,烏魯木齊 830091)
【研究意義】金花菜(Medicago polymorpha)屬豆科苜蓿屬一年生苜蓿[1]。金花菜在食用、飼用、藥用和綠肥有較高價(jià)值[2],早年金花菜在我國(guó)栽培面積達(dá)20×104hm2(300萬(wàn)畝)[3]。近年來(lái),金花菜是我國(guó)極具發(fā)展前景的多用途豆科牧草[4]。金花菜其所在的豆科苜蓿屬(Medicago)大約有87個(gè)種,包括了豆科模式植物蒺藜苜蓿(Medicago truncatula)和最重要的豆科牧草紫花苜蓿(Medicago sativa)[5]。金花菜作為苜蓿屬“Polymorpha clade”進(jìn)化分支的代表性物種,其染色體數(shù)目的非整倍體減少(基本染色體數(shù)8→7)[6]。利用金花菜全基因組測(cè)序數(shù)據(jù),分析其基因組中簡(jiǎn)單重復(fù)序列的分布特征及與蒺藜苜蓿和紫花苜蓿的異同,對(duì)金花菜種質(zhì)資源遺傳多樣性和分子標(biāo)記輔助選育有重要意義?!厩叭搜芯窟M(jìn)展】簡(jiǎn)單重復(fù)序列(SSR,Simple Sequence Repeats)又稱微衛(wèi)星,為共顯性標(biāo)記,具有擴(kuò)增穩(wěn)定、數(shù)量豐富、多態(tài)性高及特異性強(qiáng)等優(yōu)勢(shì)[7]、指紋圖譜構(gòu)建[8]、遺傳連鎖圖譜[9]及QTLs定位等研究[10]。利用高通量測(cè)序數(shù)據(jù)開發(fā)SSR標(biāo)記是一種快速、高效、低成本的策略。由于金花菜等一年生苜蓿缺乏基因組序列信息,Eujayl等[11]提出利用豆科模式植物蒺藜苜蓿的ESTs(Expressed sequence tags)序列,開發(fā)可用于其它一年生苜蓿的EST-SSR穿梭標(biāo)記,89%的蒺藜苜蓿EST-SSRs在其他一年生苜蓿上可以跑出條帶。Chu等[12]通過(guò)對(duì)92對(duì)蒺藜苜?;蚪MSSR的研究發(fā)現(xiàn),有53%的蒺藜苜?;蚪MSSR標(biāo)記可以在金花菜上通用。但由于這些種間的SSR穿梭標(biāo)記通常來(lái)自于物種基因組的保守區(qū)域,檢測(cè)得到的金花菜多樣性并不高,且難以獲得大量的有效標(biāo)記[13]?!颈狙芯壳腥朦c(diǎn)】由于缺少基因組信息,金花菜SSR標(biāo)記的開發(fā)只能借鑒其近緣物種的基因組進(jìn)行,制約著金花菜相關(guān)工作的有效開展。需找到均勻覆蓋金花菜全基因組的分子標(biāo)記并高通量開發(fā)。2021年金花菜的全基因組測(cè)序工作順利完成,針對(duì)該物種基因組進(jìn)行SSR標(biāo)記的分析與開發(fā)成為可能?!緮M解決的關(guān)鍵問(wèn)題】在perl語(yǔ)言環(huán)境下,運(yùn)行微衛(wèi)星篩選軟件MISA(MIcroSAtellite identification tool)的腳本,分別對(duì)金花菜、蒺藜苜蓿和紫花苜蓿的基因組FASTA文件進(jìn)行掃描,對(duì)篩選出的簡(jiǎn)單重復(fù)序列進(jìn)行統(tǒng)計(jì)分析。
金花菜基因組從國(guó)家基因組科學(xué)數(shù)據(jù)中心(National Genomics Data Center)數(shù)據(jù)庫(kù)下載(https://bigd.big.ac.cn/gsa/s/q0VtV4XI)[14];蒺 藜苜?;蚪M(Mt 5.0)從美國(guó)國(guó)立生物技術(shù)信息中心(National Center for Biotechnology Information)數(shù)據(jù)庫(kù)下載(https://www.ncbi.nlm.nih.gov/genome/6?genome_assembly_id=406060)[15];紫花苜蓿基因組從Figshare科學(xué)數(shù)據(jù)共享平臺(tái)下載(https://figshare.com/articles/dataset/Medicago_sativa_genome_and_annotation_files/12623960)[16],3種苜蓿基因組所有序列均以FASTA文件格式保存。表1
表1 三種苜蓿的基因組測(cè)序信息Table 1 Genome sequencing information of three Medicago species
使用微衛(wèi)星檢索工具M(jìn)ISA[17](https://webblast.ipk-gatersleben.de/misa/)執(zhí)行命令perl misa.pl genome.fasta,對(duì)3種苜蓿全基因組進(jìn)行掃描,篩選符合條件的簡(jiǎn)單重復(fù)序列。篩選標(biāo)準(zhǔn)為MISA軟件的默認(rèn)值:?jiǎn)魏塑账嶂貜?fù)次數(shù)在10次及以上,二核苷酸重復(fù)次數(shù)在6次及以上,三至六核苷酸重復(fù)次數(shù)在5次及以上,復(fù)合型SSR的檢索條件是2個(gè)SSR片段間的距離低于100 bp。將生成的數(shù)據(jù)采用Excel軟件整理,對(duì)序列特征進(jìn)行分析并繪制圖表。
研究表明,金花菜為同源二倍體,染色體數(shù)目為14條,全基因組大小為457.53 Mb,共篩選出195 753個(gè)SSR,相對(duì)密度為428個(gè)/Mb,平均長(zhǎng)度為18 bp;蒺藜苜蓿為同源二倍體,染色體數(shù)目為16條,全基因組大小為430.01 Mb,共篩選出242 434個(gè)SSR,相對(duì)密度為564個(gè)/Mb,平均長(zhǎng)度為15 bp;紫花苜蓿為同源四倍體,染色體數(shù)目為32條,全基因組大小為817.12 Mb,共篩選出390 496個(gè)SSR,相對(duì)密度為478個(gè)/Mb,平均長(zhǎng)度為16 bp。在這3種苜蓿中,金花菜檢索到的SSR最少,平均SSR長(zhǎng)度最長(zhǎng);蒺藜苜蓿檢索到的SSR密度最高,平均SSR長(zhǎng)度最短;紫花苜蓿的基因組最大,SSR的總數(shù)量最多。表2
表2 三種苜蓿基因組中SSR的分布Table 2 Distribution of SSR in three Medicago species
研究表明,金花菜基因組SSR類型比較豐富,其中又以單核苷酸重復(fù)單元的數(shù)量最多,占基因組SSR數(shù)量的75.58%(147 953個(gè)SSR位點(diǎn)),其次為二、三核苷酸重復(fù)單元類型,分別占基因組SSR數(shù)量的15.31%(29 975個(gè)SSR位點(diǎn))和7.94%(15 548個(gè)SSR位點(diǎn));四、五、六核苷酸重復(fù)單元類型所占比例均相對(duì)較低,三者的比例總和僅為1.16%(共2 277個(gè)SSR位點(diǎn))。金花菜和蒺藜苜?;蚪M中,SSR均是單核苷酸重復(fù)單元數(shù)目最多,然后依次是二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸。紫花苜蓿除六核苷酸重復(fù)單元略高于五核苷酸重復(fù)單元外,其余核苷酸重復(fù)單元數(shù)目的變化趨勢(shì)與金花菜和蒺藜苜蓿相一致,均是隨重復(fù)單元核苷酸數(shù)的增加逐漸減少。
3種苜蓿同一核苷酸重復(fù)單元拷貝數(shù)變化趨勢(shì)是相似的,且均隨著重復(fù)拷貝數(shù)的增加,其SSR數(shù)目逐漸遞減。金花菜,蒺藜苜蓿和紫花苜蓿的單核苷酸重復(fù)單元拷貝數(shù)主要集中在10~25次,分別占單核苷酸類型SSR總數(shù)的99.34%,98.95%和99.33%;二核苷酸重復(fù)單元拷貝數(shù)主要集中在6~26次,分別占比92.94%,91.20%和88.74%;三核苷酸重復(fù)單元拷貝數(shù)范圍較為集中,主要集中在5~13次,分別占比94.21%,95.18%和88.81%;四核苷酸中重復(fù)單元拷貝數(shù)范圍也較為集中,主要集中在5~8次,分別占比93.95%,96.57%和91.25%;五核苷酸重復(fù)單元拷貝數(shù)主要集中在5~7次,占比96.41%,98.03%和94.53%;六核苷酸重復(fù)單元拷貝數(shù)主要集中在5~7次,占比92.17%,94.53%和91.20%。在3種苜蓿中,金花菜的單核苷酸和二核苷酸重復(fù)單元拷貝數(shù)更為集中,蒺藜苜蓿三、四、五、六核苷酸重復(fù)單元拷貝數(shù)更為集中,紫花苜蓿的核苷酸重復(fù)單元拷貝數(shù)比金花菜和蒺藜苜蓿較為分散。表3
表3 三種苜蓿不同SSR重復(fù)單元的數(shù)目和占比Table 3 Number and proportion of different SSR repeat types in three Medicago species
研究表明,共發(fā)現(xiàn)184種重復(fù)單元類型,比例最高的前20種類型共計(jì)有194 858個(gè)SSR(占99.54%)。在這些核苷酸重復(fù)單元中,單核苷酸重復(fù)單元中以A/T占絕對(duì)優(yōu)勢(shì)(共142 396個(gè),占72.74%),其次為C/G(共5 557個(gè),占2.84%);二核苷酸重復(fù)單元中以AT/AT占絕對(duì)優(yōu)勢(shì)(共14 803個(gè),占7.56%),其次為AG/CT(共9 781個(gè),占5.00%);三核苷酸重復(fù)類型中則以AAT/ATT(共5 694個(gè),占2.91%)為優(yōu)勢(shì)重復(fù)單元類型,其次為AAG/CTT(1.88%)、AAC/GTT(1.37%)、ATC/ATG(0.77%)和ACC/GGT(0.40%)重復(fù)單元類型;四、五、六核苷酸重復(fù)單元相對(duì)較少,但類型較豐富,共2 277個(gè),占SSR總數(shù)的1.16%,其中有72種重復(fù)單元類型僅出現(xiàn)1次。圖1
圖1 金花菜基因組SSR的重復(fù)基元類型及數(shù)量Fig.1 The number of different SSR in Medicago polymorpha genome
蒺藜苜?;蚪M中共發(fā)現(xiàn)177種重復(fù)單元類型,比例最高的20種類型SSR共計(jì)241 517個(gè)(占99.62%),從高到低依次為:A/T(共185 412個(gè),占76.48%)、AT/AT(共21 621個(gè),占8.92%)、AG/CT(共9 493個(gè),占3.92%)、AAT/ATT(共6 361個(gè),占2.62%)、AC/GT(共4 435個(gè),占1.83%)、AAG/CTT(共3 443個(gè),占1.42%)、AAC/GTT(共3 268個(gè),占1.35%)、C/G(共2 729個(gè),占1.13%)、ATC/ATG(共1 549個(gè),占0.64%)、AAAT/ATTT(共697個(gè),占0.29%)、ACC/GGT(共675個(gè),占0.28%)、AGG/CCT(共484個(gè),占0.20%)、AGC/CTG(共246個(gè),占0.10%)、ACT/AGT(共245個(gè),占0.10%)、AAAG/CTTT(共173個(gè),占0.07%)、AGAT/ATCT(共151個(gè),占0.06%)、ACAT/ATGT(共148個(gè),占0.06%)、CG/CG(共142個(gè),占0.06%)、AAAAT/ATTTT(共124個(gè),占0.05%)和AGGG/CCCT(共121個(gè),占0.05%)。圖2
圖2 蒺藜苜蓿基因組SSR的重復(fù)基元類型及數(shù)量Fig.2 The number of different SSR in Medicago truncatula genome
紫花苜?;蚪M中共發(fā)現(xiàn)200種重復(fù)單元類型,比例最高的20種類型SSR共計(jì)387 829個(gè)(占99.32%),從高到低依次為:A/T(共274 264個(gè),占70.23%)、AT/AT(共39 090個(gè),占10.01%)、AG/CT(共20 359個(gè),占5.21%)、AAT/ATT(共11 562個(gè),占2.96%)、AC/GT(共10 985個(gè),占2.81%)、AAG/CTT(共8 212個(gè),占2.10%)、C/G(共6 811個(gè),占1.74%)、AAC/GTT(共6 179個(gè),占1.58%)、ATC/ATG(共2 773個(gè),占0.71%)、AAAT/ATTT(共1 227個(gè),占0.31%)、ACC/GGT(共1 177個(gè),占0.30%)、AGG/CCT(共935個(gè),占0.24%)、AATC/ATTG(共781個(gè),占0.20%)、AATT/AATT(共747個(gè),占0.19%)、AATGTC/ACATTG(共580個(gè),占0.15%)、ACAT/ATGT(共542個(gè),占0.14%)、ACT/AGT(共505個(gè),占0.13%)、AGAT/ATCT(共396個(gè),占0.10%)、AAAG/CTTT(共372個(gè),占0.10%)和AGC/CTG(共332個(gè),占0.09%)。
3種苜蓿中,紫花苜?;蚪M中SSR重復(fù)單元類型最多,其次是金花菜和蒺藜苜蓿。重復(fù)單元類型中,A/T、AT/AT、AG/CT和AAT/ATT是三種苜蓿共有的常見核心SSR類型。圖3
圖3 紫花苜蓿基因組SSR的重復(fù)基元類型及數(shù)量Fig.3 The number of different SSR in Medicago sativa genome
研究表明,金花菜基因組SSR序列長(zhǎng)度主要集中于12 bp以內(nèi),為100 982個(gè),占SSR總數(shù)的51.59%;分布于12~20 bp的SSR數(shù)量為72 215個(gè),占SSR總數(shù)的36.89%;≥20 bp以上的SSR數(shù)量為22 556個(gè),占SSR總數(shù)的11.52%。相較于蒺藜苜蓿和紫花苜蓿,金花菜SSR分布在<12 bp長(zhǎng)度上的比例最高。金花菜仍有大量的中等多態(tài)性和較高多態(tài)性長(zhǎng)度的SSR,具有較大的多態(tài)性標(biāo)記開發(fā)潛力。圖4
圖4 金花菜基因組SSR不同片段長(zhǎng)度的數(shù)量Fig.4 The number of different fragment length SSR in Medicago polymorpha genome
SSR序列長(zhǎng)度<12 bp時(shí)SSR標(biāo)記的多態(tài)性表現(xiàn)極低;序列長(zhǎng)度在12~20 bp之間時(shí)標(biāo)記多態(tài)性適中;≥20 bp時(shí)具有較高多態(tài)性,是理想的標(biāo)記位點(diǎn)[18]。基因組中存在著大量的重復(fù)序列,從進(jìn)化角度看,物種間重復(fù)序列的差異是自然選擇的結(jié)果,因此鑒定SSR在基因組中的分布特征有重要意義[19]。金花菜、蒺藜苜蓿和紫花苜蓿是苜蓿屬的不同種,其中金花菜和蒺藜苜蓿屬于一年生苜蓿,紫花苜蓿屬于多年生苜蓿,3種苜蓿基因組有很強(qiáng)的的共線性關(guān)系[14]。研究發(fā)現(xiàn),金花菜基因組SSR的分布密度為428個(gè)/Mb,明顯低于蒺藜苜蓿的分布密度(564個(gè)/Mb)以及紫花苜蓿的分布密度(478個(gè)/Mb)。Varshney等[20]研究認(rèn)為,SSR分布密度之所以出現(xiàn)差異,除了物種間差異因素外,還與測(cè)序數(shù)據(jù)深度、序列拼接數(shù)據(jù)質(zhì)量及SSR位點(diǎn)查找軟件以及SSR搜索標(biāo)準(zhǔn)不同有關(guān)。研究選用主流的微衛(wèi)星篩選軟件MISA(MIcroSAtellite identification tool),在相同設(shè)置條件下分析了這3種苜蓿間差異。金花菜、蒺藜苜蓿和紫花苜蓿的測(cè)序深度分別為117X、109X和153X,均為二代+三代測(cè)序組裝的高質(zhì)量基因組,結(jié)果比較能真實(shí)發(fā)映出物種間的差異。金花菜基因組SSR的分布密度較低,可能與金花菜染色體數(shù)目少有關(guān)。
單核苷酸、二核苷酸和三核苷酸重復(fù)單元是絕大多植物基因組SSR序列中優(yōu)勢(shì)重復(fù)單元[18,21]。研究發(fā)現(xiàn),金花菜基因組SSR中,單、二和三核苷酸重復(fù)單元類型分別占基因組SSR數(shù)量的75.58%、15.31%和7.94%,其后依次是,四、五和六核苷酸重復(fù)單元,與蒺藜苜蓿觀測(cè)到的結(jié)果相一致。與金花菜和蒺藜苜蓿相比,紫花苜蓿的六核苷酸重復(fù)單元數(shù)量多于五核苷酸重復(fù)單元,且單核苷酸重復(fù)單元類型的SSR數(shù)量相對(duì)較少,這可能與紫花苜蓿是同源四倍體,異花授粉導(dǎo)致遺傳變異更為豐富有關(guān)。
共發(fā)現(xiàn)94 771個(gè)片段長(zhǎng)度≥12 bp的金花菜基因組簡(jiǎn)單重復(fù)序列,具有較高的多態(tài)性。
金花菜基因組共篩選出195 753個(gè)SSR,相對(duì)密度為428個(gè)/Mb,平均長(zhǎng)度為18 bp,金花菜基因組SSR的分布密度低于蒺藜苜蓿和紫花苜蓿,重復(fù)單元類型較豐富,具有較大的多態(tài)性標(biāo)記開發(fā)潛力。