林恩文, 林榕榕, 陳欽常, 雷 雯, 徐秀明, 方靜平
(1.福建師范大學(xué)生命科學(xué)學(xué)院,福建 福州 350117;2.廈門(mén)大學(xué)環(huán)境與生態(tài)學(xué)院濱海濕地生態(tài)系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,福建 廈門(mén) 361102)
龍眼(DimocarpuslonganLour.)起源于中國(guó),為無(wú)患子科(Sapindaceae)龍眼屬(Dimocarpus)喬木,常分布于亞熱帶地區(qū),在我國(guó)已有2 000年的種植歷史,主要種植于福建、廣西等地區(qū).得益于其獨(dú)特的風(fēng)味、豐富的營(yíng)養(yǎng)和功能特效,龍眼廣受人們喜愛(ài),在我國(guó)具有一定的農(nóng)業(yè)經(jīng)濟(jì)地位.我國(guó)具有豐富的龍眼種質(zhì)資源(約400個(gè)品種[1]),占世界品種的2/3,開(kāi)展龍眼群體遺傳多樣性以及種群遺傳結(jié)構(gòu)研究可以為龍眼資源遺傳多樣性保護(hù)提供理論基礎(chǔ).龍眼新品種(系)的培育主要是通過(guò)雜交育種,雜種鑒定保證雙親與后代親緣一致是果樹(shù)遺傳改良的必要前提.傳統(tǒng)的形態(tài)標(biāo)記、細(xì)胞學(xué)標(biāo)記和生化標(biāo)記方法工作量大、周期長(zhǎng)、經(jīng)驗(yàn)性要求高、效率低下[2-3],已經(jīng)不能滿足品種快速鑒定的需求,而分子標(biāo)記以其多態(tài)性強(qiáng)、信息量大、檢測(cè)方便可靠[4],成為近年來(lái)雜種鑒定或品種遺傳多樣性分析最廣泛采取的方法.
簡(jiǎn)單重復(fù)序列(simple sequence repeats, SSR)也稱(chēng)微衛(wèi)星序列,廣泛分布于真核生物基因組中,具有高可變性、顯著多態(tài)性及相對(duì)的保守性、共顯性等特點(diǎn)[5],已經(jīng)在荔枝(Litchichinensis)[6]、紅毛丹(NepheliumlappaceumL.)[7]、葡萄(VitisviniferaL.)[8]、菠蘿[Ananascomosus(Linn.) Merr.][9]等果樹(shù)的雜種真實(shí)性鑒定、種群遺傳多態(tài)性分析、基因定位和遺傳圖譜構(gòu)建等研究工作上取得成功.在龍眼SSR分子標(biāo)記的研究中,陳虎等[10]利用SSR標(biāo)記把龍眼劃分為中國(guó)、泰國(guó)、越南等類(lèi)群;洪自同[11]通過(guò)建立SSR引物和PCR擴(kuò)增,鑒定了龍眼部分優(yōu)良品種株系;胡文舜等[12]利用SSR鑒定了‘石硤’和‘香脆’兩個(gè)龍眼品種正、反交的遺傳多樣性;洪仕南[13]鑒定了龍眼轉(zhuǎn)錄本SSR位點(diǎn)并探索了不同品種龍眼的親緣關(guān)系.但以上工作均是基于龍眼基因組的部分信息,目前尚未有人展開(kāi)對(duì)龍眼全基因組SSR位點(diǎn)的全面性挖掘和準(zhǔn)確性鑒定.本實(shí)驗(yàn)室前期已完成了我國(guó)主栽早熟優(yōu)質(zhì)龍眼品種‘石硤’染色體級(jí)別高質(zhì)量基因組的測(cè)序和組裝工作(GenBank登錄號(hào):PRJNA741049),該工作組裝了龍眼483.4 Mb的基因組序列,Scaffold N50為31.4 Mb,Contig N50為764 kb,覆蓋龍眼全基因組99.30%的區(qū)域.基于該基因組序列,可以更準(zhǔn)確全面地進(jìn)行龍眼全基因組SSR序列鑒定和特征分析,從而篩選更準(zhǔn)確的引物用于品種鑒定和遺傳多樣性分析.
本研究旨在挖掘具有優(yōu)良基因型的‘石峽’龍眼品種的全基因組數(shù)據(jù),結(jié)合生物信息學(xué)手段,鑒定龍眼全基因組的SSR位點(diǎn),分析SSR位點(diǎn)在龍眼全基因組/轉(zhuǎn)錄本序列中的分布特征,包括基因組不同區(qū)域SSR位點(diǎn)的密度分布特征、不同長(zhǎng)度基序的SSR分布規(guī)律等,并對(duì)單、雙子葉植物及無(wú)患子目等不同種的植物進(jìn)行全基因組水平的SSR位點(diǎn)鑒定和比較,總結(jié)SSR位點(diǎn)的一般規(guī)律和物種特異性.本研究旨在為龍眼的真實(shí)雜交種鑒定、遺傳多樣性研究、遺傳圖譜構(gòu)建和分子標(biāo)記輔助育種提供重要數(shù)據(jù)庫(kù)支撐,對(duì)其他物種SSR位點(diǎn)的深度挖掘和鑒定也提供參考和方向.
選取龍眼不同時(shí)期的花芽、葉芽、果實(shí)進(jìn)行轉(zhuǎn)錄組測(cè)序,每個(gè)處理設(shè)計(jì)3個(gè)生物學(xué)重復(fù).采用天根RNA提取試劑盒[Qiagen, #74904,天根生化科技(北京)有限公司]提取龍眼不同樣本的RNA,提取方法見(jiàn)試劑盒說(shuō)明書(shū).采用DNA純化試劑盒 TIANquick Midi Purification Kit[天根生化科技(北京)有限公司]去除RNA中的DNA污染.RNA樣品建庫(kù)后在Hiseq×10 測(cè)序儀(Illumina公司)上進(jìn)行雙端測(cè)序,測(cè)序模式為“快速模式2×150 nt”.
龍眼品種‘石硤’染色體水平的基因組已在NCBI公布,GenBank登錄號(hào)為:PRJNA741049.該基因組數(shù)據(jù)用于下游SSR的挖掘.通過(guò)TRINITY軟件(http://trinityrnaseq.github.io/)對(duì)前期獲得的所有轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行拼接,得到轉(zhuǎn)錄本序列,該數(shù)據(jù)總大小約為48.6 Mb.
利用Perl軟件編寫(xiě)的一款軟件MISA掃描和挖掘‘石硤’龍眼全基因組的SSR序列,這款軟件的安裝包下載于http://pgrc.ipk-gatersleben.de/misa/.在配置文件參數(shù)的設(shè)定中,考慮了完美和復(fù)合標(biāo)記類(lèi)型.核苷酸重復(fù)基序長(zhǎng)度設(shè)置為2~6 bp,二、三、四核苷酸SSR序列的最短長(zhǎng)度均為12 bp,五、六核苷酸SSR序列的最短長(zhǎng)度分別為15、18 bp.在本研究中,單核苷酸的SSR位點(diǎn)未被考慮,因?yàn)榛蚪M序列的測(cè)序錯(cuò)誤和組裝錯(cuò)誤常常會(huì)引入新的單元重復(fù),多聚腺苷酸尾巴 (polyA)也常與單核苷酸重復(fù)混淆.對(duì)于復(fù)合SSR重復(fù)序列,兩個(gè)SSR位點(diǎn)之間的最大差異設(shè)為100 bp.使用在線gff2bed Python腳本(http://bedops.readthedocs.org/en/latest/content/reference/filemanagement/conversion/gff2bed.html)、bedtools軟件(https://bedtools.readthedocs.io/en/latest/index.html)的“bedtools getfasta”命令和自編的Python腳本將3′UTR區(qū)、5′UTR區(qū)、CDS區(qū)、外顯子區(qū)和內(nèi)含子區(qū)從gff3注釋文件提取出來(lái).利用Windows Excel 2010軟件和自編的Python腳本對(duì)龍眼全基因組、基因區(qū)和EST序列的SSR密度、G+C含量及核苷酸重復(fù)基序、重復(fù)長(zhǎng)度、重復(fù)次數(shù)分布進(jìn)行了估計(jì)和分析,并進(jìn)行了比較.互補(bǔ)鏈上的重復(fù)基序被認(rèn)為是等價(jià)物,并組合成一個(gè)基序,如AG基序相當(dāng)于GA、TC、CT等.
為了鑒定SSR位點(diǎn)相關(guān)基因的功能,通過(guò)編寫(xiě)的Python腳本提取包含SSR位點(diǎn)的基因.利用在線網(wǎng)站(http://eggnog-mapper.embl.de/)對(duì)龍眼全基因組做基因本體聯(lián)合會(huì)(gene ontology,GO)注釋?zhuān)瑢⒑蠸SR位點(diǎn)的基因作為目的基因,全基因組基因作為背景基因,進(jìn)行GO富集分析.
近緣物種系統(tǒng)發(fā)育樹(shù)的構(gòu)建一般基于單拷貝基因,利用OrthoFinder軟件(https://github.com/davidemms/OrthoFinder)鑒定了不同物種間的單拷貝基因,得到了龍眼與其近緣種荔枝、紅毛丹、文冠果(XanthocerassorbifoliumBunge)、漾濞楓(Aceryangbiense)的單拷貝同源基因列表信息,通過(guò)EasySpeciesTree腳本(https://github.com/dongwei1220/EasySpeciesTree)構(gòu)建系統(tǒng)發(fā)育樹(shù).
基于最新組裝的483.4 Mb龍眼基因組,共挖掘到260 204個(gè)SSR位點(diǎn),SSR平均密度為每1 Mb含有538.24個(gè)SSR位點(diǎn)(即每1 kb含有1.86個(gè)SSR位點(diǎn),不包含單核苷酸SSR).其中,39 102個(gè)(15.03%)分類(lèi)為類(lèi)型一SSR(≥20 bp),密度為每1 Mb含有80.88個(gè)SSR位點(diǎn).221 102個(gè)(84.97%)分類(lèi)為類(lèi)型二SSR(≥12 bp,且<20 bp),密度為每1 Mb含有457.35個(gè)SSR位點(diǎn).類(lèi)型二SSR的數(shù)量和密度遠(yuǎn)超類(lèi)型一SSR.基因區(qū)(含外顯子區(qū)、內(nèi)含子區(qū)、CDS區(qū)、5′UTR區(qū)、3′UTR區(qū))和轉(zhuǎn)錄本中SSR數(shù)量和密度的分布如附圖1(掃OSID碼可見(jiàn))、表1所示.非編碼區(qū)SSR的密度顯著高于編碼區(qū).在非編碼區(qū)中,5′UTR區(qū)SSR的密度最高,每1 Mb含有955.47個(gè)SSR位點(diǎn),接著依次為基因間區(qū)(每1 Mb含有567.39個(gè)SSR位點(diǎn), 見(jiàn)附圖1, 掃OSID碼可見(jiàn))、內(nèi)含子區(qū)(每1 Mb含有535.15個(gè)SSR位點(diǎn))、3′UTR區(qū)(每1 Mb含有385.88個(gè)SSR位點(diǎn)).CDS區(qū)SSR的密度最低,每1 Mb僅含有240.36個(gè)SSR位點(diǎn).
表1 龍眼不同基因組區(qū)域和轉(zhuǎn)錄本序列中SSR密度、G+C含量的分布Table 1 SSR density and G+C content in different genomic regions and transcript sequences of longan
在全基因組中,SSR重復(fù)序列總長(zhǎng)分布為12~69 bp,而轉(zhuǎn)錄本SSR重復(fù)序列總長(zhǎng)分布為12~309 bp.基因組和轉(zhuǎn)錄本的SSR重復(fù)序列長(zhǎng)度均以12 bp為主,分別占SSR總量的48.26%、52.00%(圖1a),分別占類(lèi)型二SSR總量的56.80%、59.24%(圖1b).排在第2位的SSR重復(fù)序列長(zhǎng)度為15 bp,其占比在基因組和轉(zhuǎn)錄本中的趨勢(shì)是相似的,在基因組中約13.33%的SSR長(zhǎng)度為15 bp,在轉(zhuǎn)錄本中,有15.27%的SSR長(zhǎng)度為15 bp.在全基因組的類(lèi)型一SSR中, 總長(zhǎng)為20 bp的重復(fù)序列最多,為11 533個(gè)(29.49%),其次是24 bp(17.70%)(圖1c).相反地,在轉(zhuǎn)錄本中24 bp的SSR重復(fù)序列最多,為497個(gè)(24.52%),緊接著是20 bp(22.00%).有趣的是,當(dāng)SSR重復(fù)序列長(zhǎng)度為3的倍數(shù)時(shí)(如12、15、18、21、24、27、30 bp等),轉(zhuǎn)錄本對(duì)應(yīng)的SSR數(shù)量高于基因組中的SSR數(shù)量.
a:全基因組;b:類(lèi)型二SSR;c:類(lèi)型一SSR.圖1 SSR長(zhǎng)度在龍眼全基因組和轉(zhuǎn)錄本序列中的分布Fig.1 Distribution of longan SSR at the genome and transcriptome level by repeat length
不同SSR基序長(zhǎng)度的分布如圖2所示.在全基因組中,二核苷酸基序SSR的數(shù)量最多,為86 048個(gè)(33.07%),大于其他基序(圖2a).類(lèi)型一中的SSR以二核苷酸基序?yàn)橹?圖2b),高達(dá)60.95%,數(shù)量23 833個(gè),接著依次為三、四、五核苷酸基序,分別占SSR總量的19.58%、7.58%、8.61%.在基因組和類(lèi)型一的SSR中,SSR數(shù)量隨核苷酸基序長(zhǎng)度的增加而減少.但在類(lèi)型二SSR中卻沒(méi)有呈現(xiàn)該規(guī)律(圖2c),類(lèi)型二SSR中重復(fù)次數(shù)最多的為四核苷酸基序,為65 853個(gè)(占29.78%),略高于三核苷酸基序和二核苷酸基序(分別占28.57%、28.14%).在全基因組中,SSR不同基序分布密度在CDS區(qū)、外顯子區(qū)、內(nèi)含子區(qū)和UTR區(qū)呈現(xiàn)不同的趨勢(shì)(圖2).基因編碼區(qū)的分布密度與非編碼區(qū)顯著不同,編碼區(qū)(含轉(zhuǎn)錄本、CDS區(qū)、外顯子區(qū))的三核苷酸基序數(shù)量明顯高于其他核苷酸基序,且六核苷酸基序高于五核苷酸基序.轉(zhuǎn)錄本、CDS區(qū)和外顯子區(qū)的三核苷酸基序數(shù)量占比分別為52.51%、79.19%、56.51%,是非編碼區(qū)5′UTR區(qū)、3′UTR區(qū)和內(nèi)含子區(qū)的該基序占比的1.84倍以上(分別為28.52%、28.29%、22.89%)(圖2a).在轉(zhuǎn)錄本SSR中,三、六核苷酸基序比例略微高于基因組中的該基序(圖2).
a:全基因組;b:類(lèi)型一SSR;c:類(lèi)型二SSR.圖2 不同SSR基序長(zhǎng)度在龍眼全基因組和轉(zhuǎn)錄本序列中的分布Fig.2 Distribution of longan SSR at the genome and transcriptome level by motif length
在全基因組和轉(zhuǎn)錄本中,不同基序的重復(fù)次數(shù)頻率隨重復(fù)單元數(shù)量的增加而急劇下降(圖3).在全基因組和轉(zhuǎn)錄本中,以二核苷酸基序?yàn)橹貜?fù)單元的SSR位點(diǎn)的平均數(shù)量(每1 Mb含有177.99個(gè)SSR位點(diǎn))為三核苷酸重復(fù)基序的1.74~1.76倍,是四至六核苷酸重復(fù)基序的2.53~2.73倍(附表1,掃OSID碼可見(jiàn)).在基因組區(qū)域中,二核苷酸重復(fù)基序的累計(jì)長(zhǎng)度為1 472.40 kb,是所有核苷酸重復(fù)基序類(lèi)型中最長(zhǎng)的.在轉(zhuǎn)錄本中,盡管二核苷酸重復(fù)基序SSR平均重復(fù)單元數(shù)量(8.23個(gè))是三核苷酸重復(fù)基序SSR(4.74個(gè))的1.74倍,然而由于三核苷酸重復(fù)基序的出現(xiàn)頻率(8 716次)最高(52.51%),分布密度最高(每1 Mb含有179.47個(gè)SSR位點(diǎn)),因而三核苷酸重復(fù)基序在轉(zhuǎn)錄本SSR中所占比重最大:其累計(jì)長(zhǎng)度為123.89 kb,約是二核苷酸重復(fù)基序SSR累計(jì)總長(zhǎng)(62.33 kb)的1.99倍(附表1,掃OSID碼可見(jiàn)).在龍眼基因組中最長(zhǎng)的SSR是以AAG三核苷酸為重復(fù)基序的序列,重復(fù)次數(shù)為103,長(zhǎng)達(dá)309 bp;其次仍是以AAG三核苷酸為重復(fù)基序的序列,重復(fù)次數(shù)為99,長(zhǎng)達(dá)296 bp.在轉(zhuǎn)錄本中,二核苷酸重復(fù)基序序列最長(zhǎng),以CT二核苷酸為重復(fù)基序的序列,重復(fù)次數(shù)為34,累計(jì)長(zhǎng)度為68 bp;其次是以AGA三核苷酸為重復(fù)基序的序列,重復(fù)次數(shù)為18,長(zhǎng)度為54 bp.在基因組和轉(zhuǎn)錄本相同的重復(fù)基序中,重復(fù)基序的出現(xiàn)次數(shù)和序列長(zhǎng)度均不同,更詳細(xì)的信息見(jiàn)圖3、附表2(掃OSID碼可見(jiàn))、附表3(掃OSID碼可見(jiàn)).
圖3 龍眼全基因組和轉(zhuǎn)錄本序列中SSR重復(fù)單元和基序的分布Fig.3 Frequency of longan SSR at the genome and transcriptome level by motif length
本研究結(jié)果表明:在含有SSR位點(diǎn)的基因中,含有1~10個(gè)SSR位點(diǎn)的基因數(shù)量最多(附圖2a,掃OSID碼可見(jiàn));在這些基因中,SSR位點(diǎn)分布在外顯子上的數(shù)量集中在1~4個(gè)(附圖2b,掃OSID碼可見(jiàn)).共有20 761個(gè)基因含有SSR位點(diǎn),占全基因組基因數(shù)量的56%,不含SSR位點(diǎn)的基因數(shù)量為16 381個(gè)(44%)(附圖2c,掃OSID碼可見(jiàn)).不同基因含有不同數(shù)量的SSR位點(diǎn).含有SSR位點(diǎn)的基因中,一個(gè)基因最多含有42個(gè)SSR位點(diǎn),8 761個(gè)基因(42.19%)只含有一個(gè)SSR位點(diǎn),5 011個(gè)基因(24.14%)含有兩個(gè)SSR位點(diǎn),2 813個(gè)基因(13.55%)含有3個(gè)SSR位點(diǎn).在不同的基因組區(qū)域中,內(nèi)含子片段包含的SSR位點(diǎn)最多(24 981個(gè)),外顯子片段包含的SSR位點(diǎn)最少(1 730個(gè))(附圖2d,掃OSID碼可見(jiàn)),含有SSR位點(diǎn)的外顯子數(shù)量隨SSR位點(diǎn)的增多而急劇下降(附圖2b,掃OSID碼可見(jiàn)).
將含有SSR位點(diǎn)的基因進(jìn)行GO注釋富集分析,結(jié)果如附圖3(掃OSID碼可見(jiàn))所示.在20 761個(gè)含有SSR位點(diǎn)的基因中,9 231個(gè)基因可比對(duì)到一個(gè)或多個(gè)GO號(hào),分別涉及到1 129個(gè)生物過(guò)程、2 442個(gè)細(xì)胞組分和7 476個(gè)分子功能.在分子功能分類(lèi)中,較高比例的基因(66.70 %)被富集到蛋白結(jié)合和催化活性(62.00%)等功能,接著是轉(zhuǎn)運(yùn)活性(25.36%)和核酸結(jié)合轉(zhuǎn)錄因子活性(10.23%);在細(xì)胞組分分類(lèi)中,97.21%的基因被注釋到細(xì)胞,接著是細(xì)胞膜/細(xì)胞器或部分細(xì)胞器和分子復(fù)合物,所占比例分別是40.26%、72.85%(36.74%)、17.38%;在生物學(xué)過(guò)程分類(lèi)中的基因占比前三的數(shù)據(jù)如下:注釋到細(xì)胞類(lèi)別中的比例為85.73%,單組織過(guò)程中的比例為71.06%,代謝過(guò)程中的比例為62.66%;其他主要被注釋到的功能是:生物調(diào)節(jié)、應(yīng)激反應(yīng)及細(xì)胞成分與信號(hào)傳導(dǎo)等.
基于NCBI下載的無(wú)患子目無(wú)患子科的3個(gè)高質(zhì)量基因組(荔枝、紅毛丹、文冠果)和無(wú)患子目槭樹(shù)科的漾濞楓等物種已組裝的高質(zhì)量基因組,使用與本研究中龍眼SSR位點(diǎn)鑒定相同的方法對(duì)其做了全基因組SSR位點(diǎn)的鑒定,并分析了不同基序SSR位點(diǎn)的分布規(guī)律,結(jié)果如表2、附表4(掃OSID碼可見(jiàn))、圖4所示.龍眼與荔枝基因組大小僅相差13.04 Mb,SSR數(shù)量分布特征和G+C含量特征最為相似,其次相似的是紅毛丹.通過(guò)比較5個(gè)物種SSR的分布,漾濞楓基因組最大(666 Mb),所含SSR位點(diǎn)的數(shù)量最多(457 104個(gè));文冠果基因組大小位居第二(506 Mb),但文冠果是5種植物中含有SSR位點(diǎn)數(shù)量最少的物種(附表4,掃OSID碼可見(jiàn)).基于拷貝同源基因構(gòu)建的進(jìn)化樹(shù),龍眼、荔枝與紅毛丹有著較近的親緣關(guān)系,龍眼與荔枝的親緣關(guān)系最近,而與文冠果、漾濞楓的親緣關(guān)系較遠(yuǎn)(圖4a).通過(guò)統(tǒng)計(jì)5種植物不同基序SSR位點(diǎn)的重復(fù)次數(shù),結(jié)果(圖4b)顯示,二、三核苷酸重復(fù)基序的重復(fù)次數(shù)均高于其他基序類(lèi)型.通過(guò)統(tǒng)計(jì)5種植物不同基序長(zhǎng)度SSR位點(diǎn)的G+C含量,結(jié)果(表2)顯示,除漾濞楓外,二至六核苷酸重復(fù)基序的G+C含量(12.43%~25.17%)遠(yuǎn)低于A+T含量(87.57%~74.83%).在漾濞楓的六核苷酸重復(fù)基序中,G+C含量顯著上升為36.01%,其他植物六核苷酸重復(fù)基序的G+C含量為18.63%~24.04%.
表2 不同物種不同基序G+C含量的統(tǒng)計(jì)Table 2 G+C content of different motifs in longan and closely related species
a:系統(tǒng)發(fā)生樹(shù);b:SSR分布數(shù)量熱圖.圖4 龍眼近緣物種系統(tǒng)發(fā)生樹(shù)和SSR分布數(shù)量熱圖Fig.4 Phylogenetic tree and heatmap of SSR in longan and closely related species
本研究還比較了不同單、雙子葉植物中SSR位點(diǎn)的數(shù)量分布規(guī)律和G+C含量分布情況.除了雙子葉植物龍眼外,還選取擬南芥(Arabidopsisthaliana)、橙子(Citrussinensis)、葡萄3種雙子葉植物及水稻(OryzasativaL.)、高粱[Sorghumbicolor(L.) Moench]兩種單子葉植物.分別對(duì)這些物種的基因組和轉(zhuǎn)錄本進(jìn)行SSR位點(diǎn)鑒定和比較分析,結(jié)果如附表3(掃OSID碼可見(jiàn))所示.單子葉植物基因組SSR比雙子葉植物呈現(xiàn)出較高的G+C含量.在單子葉植物的基因組中,水稻和高粱SSR的G+C含量分別為43.60%、43.90%;而在雙子葉植物中,龍眼SSR的G+C含量?jī)H為16.97%,擬南芥、橙子和葡萄SSR的G+C含量分別為36.00%、32.30%、34.40%.單子葉植物水稻和高粱的SSR均是以三堿基重復(fù)單元為優(yōu)勢(shì)重復(fù)單元,水稻SSR的三堿基重復(fù)單元分布密度最大,每1 Mb含有220.1個(gè)SSR位點(diǎn);在雙子葉植物中,除擬南芥以三堿基重復(fù)單元為優(yōu)勢(shì)重復(fù)單元外,其他物種的SSR均是以二堿基重復(fù)單元為優(yōu)勢(shì)重復(fù)單元,橙子的二堿基重復(fù)單元密度最大,每1 Mb含有146.0個(gè)SSR位點(diǎn).在轉(zhuǎn)錄本SSR中,單子葉植物依舊具有較高的G+C含量,水稻和高粱的G+C含量分別高達(dá)51.50%、52.00%;而在龍眼、擬南芥、橙子和葡萄等雙子葉植物中,G+C含量均表現(xiàn)出明顯的下降趨勢(shì),分別為39.71%、42.70%、41.40%、43.90%.與基因組SSR不同,在轉(zhuǎn)錄本SSR中,本研究涉及的所有單、雙子葉植物均是以三堿基重復(fù)單元為優(yōu)勢(shì)重復(fù)單元,但是在單子葉植物中,四至六堿基重復(fù)單元的密度比雙子葉植物約高出一倍,即單子葉植物的SSR密度均大于雙子葉植物.
微衛(wèi)星標(biāo)記在遺傳學(xué)、生態(tài)學(xué)、分類(lèi)學(xué)和進(jìn)化研究中起著至關(guān)重要的作用.分析龍眼編碼區(qū)和非編碼區(qū)的SSR位點(diǎn),有助于理解龍眼基因組結(jié)構(gòu)與進(jìn)化,為揭示微衛(wèi)星標(biāo)記在基因調(diào)控中的潛在作用以及基因定位提供數(shù)據(jù)支持.隨著近期龍眼基因組的公布,可對(duì)龍眼SSR位點(diǎn)進(jìn)行全基因組水平鑒定.本研究首次對(duì)龍眼高質(zhì)量基因組進(jìn)行SSR位點(diǎn)分析并總結(jié)其分布規(guī)律,為開(kāi)展龍眼屬植物的雜種鑒定、遺傳圖譜構(gòu)建、種質(zhì)資源保護(hù)等提供了重要的基礎(chǔ)數(shù)據(jù)庫(kù).本研究還挖掘了SSR位點(diǎn)在龍眼轉(zhuǎn)錄本中的分布情況,首次對(duì)龍眼SSR序列全基因組和轉(zhuǎn)錄本內(nèi)部特征分布進(jìn)行了詳細(xì)的比較分析.
在龍眼基因組中,以二核苷酸重復(fù)基序?yàn)閮?yōu)勢(shì)基序,SSR位點(diǎn)的分布頻率與重復(fù)單元數(shù)量呈反比,這符合一般規(guī)律[14],與菠蘿[9]、石榴(PunicagranatumL.)[15]、閩楠(Phoebebournei)[16]等物種的分析結(jié)果一致.但在禾本科植物中沒(méi)有此規(guī)律,它們以三、六核苷酸為優(yōu)勢(shì)重復(fù)類(lèi)型[17].本研究也發(fā)現(xiàn),單子葉植物(水稻、高粱)基因組中常常以三核苷酸重復(fù)為優(yōu)勢(shì),雙子葉植物(龍眼、橙子、葡萄)往往以二核苷酸重復(fù)為優(yōu)勢(shì).已有研究顯示,雙子葉植物的SSR位點(diǎn)在基因組出現(xiàn)的頻率要比單子葉植物高得多[18],但本研究未發(fā)現(xiàn)相同的趨勢(shì).
在龍眼基因組中,類(lèi)型二SSR的數(shù)量比類(lèi)型一SSR更豐富(圖1),該規(guī)律與其他物種[19-20]類(lèi)似.本研究中,龍眼基因組共鑒定到了260 204個(gè)SSR位點(diǎn),SSR平均密度為538.24個(gè)·Mb-1,漾濞楓、紅毛丹、文冠果和荔枝SSR的平均密度分別為686.34、678.01、415.92、545.09個(gè)·Mb-1,荔枝與龍眼的親緣關(guān)系最近,基因組大小及SSR位點(diǎn)的數(shù)量和分布最相似.本研究還將無(wú)患子目目前已有的參考基因組構(gòu)建了進(jìn)化發(fā)生樹(shù),盡管紅毛丹的外形、口感與荔枝相似,但該進(jìn)化樹(shù)表明了無(wú)患子科的荔枝與龍眼的關(guān)系近于紅毛丹,這與前人利用同源序列分析研究的結(jié)果[21]一致.另外,文冠果與龍眼的親緣關(guān)系最遠(yuǎn).據(jù)已有研究報(bào)道,二核苷酸重復(fù)或三核苷酸重復(fù)單元越多,則表明該物種具有較高的進(jìn)化水平,反之,則物種的變異較少或進(jìn)化時(shí)間短[22].漾濞楓基因組合中含有最多的二、三核苷酸重復(fù)基序,暗示了漾濞楓在無(wú)患子目中可能具有較高的進(jìn)化水平.甘蔗(Saccharumofficinarum)、玉米(ZeamaysL.)、高粱等禾本科植物SSR數(shù)量的多少與基因組大小呈正相關(guān)[23],而無(wú)患子科卻沒(méi)有此規(guī)律.
基因不同區(qū)域SSR密度的分布規(guī)律與以往的研究報(bào)道[20]基本一致.不同基因位置的SSR可能在發(fā)育、適應(yīng)、生存和進(jìn)化中發(fā)揮不同的作用.含有SSR位點(diǎn)的基因區(qū)域的突變可能會(huì)影響相應(yīng)的基因產(chǎn)物.如:基因編碼區(qū)SSR位點(diǎn)的插入或缺失可能通過(guò)移碼突變或擴(kuò)展毒性mRNA導(dǎo)致基因功能的獲得或喪失[24];在UTR或內(nèi)含子中存在某些多態(tài)SSR可能會(huì)影響基因的表達(dá)水平[25].通過(guò)比較龍眼轉(zhuǎn)錄區(qū)域(CDS、外顯子、EST)和整個(gè)龍眼基因組區(qū)域的SSR位點(diǎn)的結(jié)果表明,除三、六核苷酸重復(fù)外,所有重復(fù)類(lèi)型在轉(zhuǎn)錄區(qū)域的數(shù)量都相對(duì)較少[圖2、附表1(掃OSID碼可見(jiàn))].這種趨勢(shì)在其他物種中也存在.龍眼轉(zhuǎn)錄本中以三核苷酸重復(fù)基序?yàn)閮?yōu)勢(shì)基序,三、六核苷酸相對(duì)于其他重復(fù)類(lèi)型的優(yōu)勢(shì)被歸因于對(duì)移碼突變的負(fù)選擇.三、六核苷酸是多個(gè)密碼子的整合,它們的突變可能不會(huì)破壞閱讀框,這一過(guò)程可能與遺傳保護(hù)有關(guān)[20].以往的研究顯示,在睡蓮(Nymphaeatetragona)[26]、荔枝[27]、黑莓(RubusfruticosusPollich)[28]、胡蘿卜(Daucuscarotavar.sativaHoffm.)[29]的轉(zhuǎn)錄本中,二核苷酸重復(fù)基序的SSR數(shù)量最多,在柑橘(CitrusreticulataBlanco)[30]、黨參[Codonopsispilosula(Franch.) Nannf.][31]、芒果(MangiferaindicaL.)[32]中是三核苷酸重復(fù)基序的SSR數(shù)量最多,因此在轉(zhuǎn)錄本中依舊是以二、三核苷酸重復(fù)基序?yàn)閮?yōu)勢(shì)基序.在龍眼中,全基因組序列SSR以二核苷酸重復(fù)基序?yàn)閮?yōu)勢(shì)基序,轉(zhuǎn)錄本SSR以三核苷酸重復(fù)基序?yàn)閮?yōu)勢(shì)基序,基本具有基序越短而重復(fù)次數(shù)越多、基序越長(zhǎng)而重復(fù)次數(shù)越少的規(guī)律.此外,對(duì)龍眼轉(zhuǎn)錄本SSR的挖掘,有利于進(jìn)一步進(jìn)行重要功能基因的關(guān)聯(lián),做更精細(xì)的基因定位.徐志軍等[33]通過(guò)轉(zhuǎn)錄本數(shù)據(jù)和SSR位點(diǎn)圖譜,聯(lián)合重要性狀的QTL位點(diǎn)對(duì)抗病基因做精準(zhǔn)定位,這是今后研究可探討和結(jié)合的方向.
SSR位點(diǎn)區(qū)域被認(rèn)為是基因組中的突變熱點(diǎn)區(qū)域,因此在基因組的起源和進(jìn)化動(dòng)力學(xué)中發(fā)揮著重要作用[34].這一趨勢(shì)可能是由于較長(zhǎng)的類(lèi)型一SSR重復(fù)序列固有的不穩(wěn)定性,這些重復(fù)序列容易通過(guò)復(fù)制滑移、點(diǎn)突變或重組等機(jī)制突變?yōu)椴煌昝赖腟SR[34],而較短的類(lèi)型二SSR重復(fù)序列對(duì)突變具有更強(qiáng)的耐受力而被保留.在本研究所有物種的SSR位點(diǎn)中,均是AT占主要優(yōu)勢(shì),而G+C含量較少,這種現(xiàn)象在動(dòng)植物中普遍存在.如在花生(ArachishypogaeaLinn.)的SSR位點(diǎn)中,主要重復(fù)單元也是AT、GA、GT和ATT[35].若假設(shè)SSR區(qū)域是DNA穩(wěn)定區(qū)域,GC富集區(qū)域也相對(duì)穩(wěn)定,只存在較少的突變,那么AC或AG的重復(fù)應(yīng)多于AT,但本研究卻發(fā)現(xiàn)相反的情況,這暗示著AT與GC富集基序的突變或修復(fù)機(jī)制的差異,如打破AT結(jié)構(gòu)類(lèi)型的堿基所需的能量相對(duì)于GC結(jié)構(gòu)類(lèi)型的堿基需要的能量更少,使得AT更容易產(chǎn)生突變[36].本研究也觀察到,隨著核苷酸重復(fù)基序變長(zhǎng),AT優(yōu)勢(shì)呈下降趨勢(shì).
SSR在植物基因中的功能尚不清楚.本研究對(duì)龍眼含有SSR位點(diǎn)的基因進(jìn)行功能注釋和分類(lèi)的結(jié)果表明,這些基因具有一系列功能,如蛋白質(zhì)結(jié)合、催化活性、代謝酶、疾病信號(hào)轉(zhuǎn)導(dǎo)、結(jié)構(gòu)和存儲(chǔ)蛋白、轉(zhuǎn)錄因子等.在分子功能分類(lèi)中,含有SSR位點(diǎn)的基因大多與具有結(jié)合和催化活性的蛋白質(zhì)同源;在細(xì)胞成分分類(lèi)中,多與細(xì)胞、細(xì)胞膜和細(xì)胞器相關(guān).表明SSR在植物代謝、基因表達(dá)調(diào)控和基因進(jìn)化中可能具有重要的生物學(xué)意義.