蘆永昌 張 鑫 張璐燕 王久利
(1. 青海省青藏高原植物化學重點實驗室,西寧 810007;2. 青海省藏藥創(chuàng)制工程技術(shù)研究中心,西寧 810007;3. 遼寧大學生命科學學院,沈陽 110036)
丁香屬(Syringa)植物隸屬于木樨科(Oleaceae),共有21 種,分布于亞洲、東南歐,主產(chǎn)于中國[1]。丁香屬植物不僅能夠作為觀賞類植物,也能帶來經(jīng)濟收益以及較高的醫(yī)藥價值。丁香屬植物中主要包括萜類化合物,多數(shù)具有心臟保護、神經(jīng)保護、降血糖、抗流感病毒、抗菌、抗炎和抗氧化等作用[2]。遼東丁香(S. villosasubsp. wolfii)作為丁香屬植物的一種,在我國多分布于吉林、遼寧一帶,因其適應(yīng)性強、花期獨特的特性,可在氣溫、濕度低的高海拔北方地區(qū)培育,用于綠化觀賞。目前對于遼東丁香的研究大多是關(guān)于扦插育種、化學成分提取及藥理活性測定等方面[3-7],分子水平上的相關(guān)報道較少。
在丁香屬的葉綠體基因組研究中,Zhang 等[8]獲得了中國特有瀕危種羽葉丁香(S. pinnatifolia)的完整葉綠體基因組,分析了其密碼子偏好性、散在重復(fù)序列和SSR 等信息,并通過與近緣種的比較研究推斷出羽葉丁香、歐丁香(S. vulgaris)與女貞屬(Ligustrum)具有更近的親緣關(guān)系;田甜等[9]分析了暴馬丁香(S. reticulatasubsp.amurensis)葉綠體基因組的數(shù)量和分布特征等,認為其研究可以為品種選育、引物開發(fā)、物種進化研究提供依據(jù)。本研究將基于高通量測序技術(shù)結(jié)合生物信息學方法獲取遼東丁香的完整葉綠體基因組序列,分析其結(jié)構(gòu)和特征信息,并借此構(gòu)建遼東丁香及其近緣類群的系統(tǒng)發(fā)育樹,為遼東丁香乃至木樨科的遺傳資源、系統(tǒng)發(fā)育、分子標記開發(fā)和質(zhì)體基因組工程等研究提供數(shù)據(jù)基礎(chǔ)。
遼東丁香采摘自于青海省西寧市植物園(36°38′N,101°42′E,海拔2 275 m),所采樣品由王久利博士鑒定。在試驗準備過程中,采摘新鮮嫩葉,用變色硅膠干燥,冰箱中-20 ℃儲存?zhèn)溆谩?/p>
采用改良CTAB 法[9]來提取遼東丁香全基因組DNA。使用1%瓊脂糖凝膠電泳的方法來檢測DNA 質(zhì)量,NanoDrop 2000c[11]檢測DNA 純度和濃度。將檢測合格后的DNA 樣品,送至南京集思慧遠公司構(gòu)建測序文庫,隨后進行文庫質(zhì)檢,文庫檢測合格后用Illumina NovaSeq[12]平臺進行測序。
為得到高質(zhì)量的有效數(shù)據(jù),需要對Raw Data進行數(shù)據(jù)過濾,去除其中的接頭序列及低質(zhì)量Reads 獲得高質(zhì)量的Clean Data。將Clean Data 按參考物種的葉綠體基因組序列進行序列組裝,獲得葉綠體序列組裝結(jié)果,對葉綠體序列組裝結(jié)果進行基因結(jié)構(gòu)注釋。
使用軟件Bowtie2 v2.2.4[13]比對自建的葉綠體基因組數(shù)據(jù)庫,測序Reads 與長參考序列比對,比對上的測序序列作為遼東丁香葉綠體基因組測序序列(cpDNA序列)。
使用SPAdes 軟件進行短序列拼接得到seed序列,基于k-mer 構(gòu)建contig 序列,運行SSPACE v2.0[14]軟件將contig 序列進行連接得到scaffolds。在接下來運行Gapfiller 軟件填補gap 時已經(jīng)實現(xiàn)了零gap,即得到了完整的葉綠體基因組。
以fasta 格式將遼東丁香葉綠體基因組序列上傳到在線軟件GeSeq[15]對遼東丁香的葉綠體基因組進行注釋,得到其葉綠體基因組的編碼序列、tRNA 以及rRNA 的注釋信息,人工校對檢查、修改后下載保存。用在線注釋軟件OGDRAW[16](https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)將注釋信息繪制成環(huán)狀基因組圖譜。
使 用CodonW v1.4.2[17]軟 件(http://codonw.sourceforge.net/)對遼東丁香葉綠體基因組密碼子使用頻次進行分析統(tǒng)計。
重復(fù)序列(repetitive sequence)是指在整個基因組中以多個拷貝出現(xiàn)的核酸序列,是真核生物基因組的重要組成部分[18]。散在重復(fù)序列是與串聯(lián)重復(fù)序列不同的另一種重復(fù)序列,在基因組中呈分散式分布[19]。使用Vmatch v2.3.0[20](http://www.vmatch.de/)軟件鑒定散在重復(fù)序列,最小長度設(shè)為30 bp,海明距離(Hamming distance)設(shè)為3,鑒定的類型為F、R、P 和C。使用MISA v1.0[21](http://pgrc.ipk-gatersleben.de/misa/misa.html)軟件進行cpSSR 的分析,參數(shù)1-8(單堿基重復(fù)8次及以上),2-5,3-3,4-3,5-3,6-3。
為了確定遼東丁香在木樨科中的系統(tǒng)位置,從NCBI 數(shù)據(jù)庫選取遼東丁香以及木樨科植物16個屬、32 種(含亞種或變種)植物完整的葉綠體基因組序列作為內(nèi)類群,包括丁香屬8 種、梣屬(Fraxinus)1 種、女貞屬5 種、連翹屬(Forsythia)1種、木樨屬(Osmanthus)2 種、流蘇樹屬(Chionanthus)2 種、島蠟樹屬(Nestegis)2 種、大苞欖屬(Picconia)2 種、鱗瓣欖屬(Haenianthus)1 種、木樨欖屬(Olea)1 種、梣欖屬(Priogymnanthus)1 種、爪瓣欖屬(Hesperelaea)1 種、澤蠟樹屬(Forestiera)2 種、元春花屬(Schrebera)1 種、河樟欖屬(Comoranthus)1種、翅果連翹屬(Abeliophyllum)1 種。同時以泡桐科楸葉泡桐(Paulownia catalpifolia)、蘭考泡桐(P.elongata)作為外類群,與本研究獲得的遼東丁香葉綠體基因組序列共同構(gòu)建系統(tǒng)發(fā)育樹。使用MAFFT[22]軟件進行序列比對,再將比對的結(jié)果導(dǎo)入到MEGA7[23]軟件并進行手工校正后采用最大似然法(maximum likelihood)構(gòu)建系統(tǒng)發(fā)育樹。
遼東丁香測序結(jié)果為:Clean Data 中pair-end Reads 總數(shù)為29 923 336;Clean Data 總堿基數(shù)為8 977 000 800(約8.4 G);GC 含量為35.73%;Q20、Q30分別為97.66%、93.35%。
遼東丁香葉綠體基因組(GenBank 登錄號為MN901631.1)的形狀為共價閉合的雙鏈環(huán)狀分子,全長為156 517 bp。遼東丁香葉綠體基因組結(jié)構(gòu)保守,具有典型的四分體結(jié)構(gòu),包括:1對相同的反向重復(fù)區(qū)(IR),長為25 362 bp;1 個大單拷貝區(qū)(LSC),長為86 684 bp 和1 個小單拷貝區(qū)(SSC),長為19 109 bp;2 個IR 區(qū)被LSC 和SSC 隔開(見圖1 和表1)。全基因組4 種堿基含量分別為T(31.23%)、A(30.81%)、C(19.27%)、G(18.68%),GC 所占百分比為37.95%,其中IR 區(qū)的GC 含量最高(43.10%),SSC 區(qū)的GC 含量最 低(32.57%)(見表1)。
表1 遼東丁香葉綠體基因組基本特征Table 1 Basic characteristics of S.villosa subsp.wolfii chloroplast genome
整個葉綠體基因組編碼131 個基因,包含87個蛋白質(zhì)編碼基因、36 個tRNA 基因和8 個rRNA基因(見表2)。其中LSC區(qū)包含的基因最多,共81個,包括60 個蛋白質(zhì)編碼基因、21 個tRNA 基因,無核糖體RNA 基因;SSC 區(qū)共12 個基因,包括1 個轉(zhuǎn)移RNA(trnL-UAG)和11 個蛋白質(zhì)編碼基因,無核糖體RNA 基因;19 個基因在IRs 區(qū)中復(fù)制一次,包括8 個蛋白質(zhì)編碼基因(rpl2、rpl23、rps7、rps12、ndhB、ycf1、ycf2、ycf15)、7 個tRNA 基因(trnl-CAU、trnL-CAA、trnV-GAC、trnl-GAU、trnA-UGC、trnRACG、trnN-GUU)和4 個rRNA 基因(rrn16、rrn23、rrn5、rrn4.5),所有的rRNA 基因均在2 個反向重復(fù)區(qū)。ycf1 基因在IRs 區(qū)中不完整,一部分(3′端)在IRs 區(qū),一部分(5′端)在SSC 區(qū)(見圖1)。
表2 遼東丁香葉綠體基因組各分區(qū)的基因組成Table 2 Gene composition of LSC,SSC,IRs in S. villosa subsp.wolfii chloroplast grnome
圖1 遼東丁香葉綠體基因組圖譜正向編碼的基因位于圈外側(cè),反向編碼的基因位于圈內(nèi)側(cè);內(nèi)部的灰色圈代表GC含量Fig.1 Chloroplast genome map of S.villosa subsp.wolfii The forward-coding genes were located on the outer side of the loop,while the reverse-coding genes were located on the inner side of the loop;The gray circles inside represent GC content
遼東丁香葉綠體基因組的編碼基因根據(jù)功能可分為3大類、18小類:第一類是44個與光合作用相關(guān)的基因,包括4 個光系統(tǒng)Ⅰ基因、16 個光系統(tǒng)Ⅱ基因、6 個ATP 合酶、11 個NADH 脫氫酶基因和6 個細胞色素b/f 復(fù)合體基因以及1 個二磷酸核酮糖氧合酶/羧化酶亞基基因;第二類是73 個與葉綠體自我復(fù)制功能相關(guān)的基因,包括8 個核糖體RNA 基因、25 個核糖體亞基蛋白基因(14 個核糖體小亞基基因、11 個核糖體大亞基基因)、36 個轉(zhuǎn)運RNA 基因和4 個RNA 聚合酶基因;第三類為6個其他功能基因及8個未知功能基因(見表3)。
表3 遼東丁香葉綠體基因組注釋信息Table 3 List of S.villosa subsp.wolfii chloroplast genome annotations
對遼東丁香密碼子使用偏好性結(jié)果(見表4)分析表明:RSCU 值>1的密碼子有31個,其中以A/U 堿基結(jié)尾的有21 個;RSCU 值<1 的密碼子有34個,其中以G/C 堿基結(jié)尾的密碼子有22 個;RSCU值等于1 的密碼子有1 個,表明該密碼子使用無偏好性(見圖2)。,
圖2 遼東丁香葉綠體基因組密碼子使用頻次下面方塊代表編碼每種氨基酸的所有密碼子,上方柱子的高度代表所有密碼子RSCU值的總和Fig.2 The relative synonymous codon usage(RSCU)The box below represented all codons encoding each amino acid,and the height of the column above represented the sum of the RSCU values of all codons
表4 遼東丁香葉綠體密碼子偏好性分析Table 4 Statistical table of chloroplast codon usage bias analysis S.villosa subsp.wolfii
在遼東丁香的葉綠體基因組中,檢測出334個散在重復(fù)序列,包括170個正向重復(fù)序列(D 型)和164 個回文重復(fù)序列(P 型),未檢測出其他類型(見圖3)。長度為15 bp 的重復(fù)序列數(shù)量最多,共171 個序列,正向重復(fù)序列81 個,回文重復(fù)序列90個;部分重復(fù)序列只含1 種類型的重復(fù)序列;大小為25 362 的序列最長,只有1 個回文重復(fù)序列(見圖3)。
圖3 遼東丁香散在重復(fù)序列Fig.3 Sequence diagram of scattered repeats in S.villosa subsp.wolfii
使用MISA v1.0 軟件進行遼東丁香cpSSR 的分析,共檢測到227 個SSR 位點,其中IR 區(qū)有44個位點,外顯子中含24 個,內(nèi)含子中含6 個,基因間區(qū)段中含14 個;LSC 區(qū)有147 個位點,外顯子中含40個,內(nèi)含子中含20個,基因間區(qū)段中含87個,SSC 區(qū)有36 個位點,外顯子中含28 個,內(nèi)含子中含1 個,基因間區(qū)段中含7 個(見圖4)。其中226個位點成功設(shè)計出PCR引物。
圖4 遼東丁香葉綠體基因組SSR分布情況Fig.4 The SSR distribution of chloroplast genome in S.villosa subsp.wolfii
對丁香屬物種和女貞屬中的女貞(Ligustrum lucidum)共8個物種進行IR邊界可視化分析(見圖5),查其IR 區(qū)的收縮與擴張的情況。發(fā)現(xiàn)所分析的8 個物種的IR 區(qū)長度為24~25 kb,暴馬丁香IR區(qū)的長度最長,歐丁香與紫丁香(S.oblata)IR 區(qū)片段長度僅相差1 bp。所選物種rps19 都位于LSCIRb 邊界處,且rps19 大部分位于LSC 區(qū),trnH 基因位于LSC 與IRb 區(qū)邊界上。圖中未顯示女貞和歐丁香ycf1基因序列,經(jīng)查閱基因注釋譜圖7個丁香屬物種和女貞的ycf1 位于SSC-IR 邊界處。遼東丁香和歐丁香的ndhF 全部位于SSC 區(qū)間,花葉丁香(S.persica)位于SSC-IRa 邊界處,暴馬丁香距SSCIRb 邊界間隔較短,其他物種則位于SSC-IRb 邊界處。
將泡桐科物種楸葉泡桐、蘭考泡桐作為外類群,再從NCBI數(shù)據(jù)庫中下載32個木樨科植物的葉綠體基因組序列構(gòu)建系統(tǒng)發(fā)育樹(見圖6),系統(tǒng)發(fā)育分析結(jié)果表明:大多數(shù)分支節(jié)點的分支支持率都達到了100%高支持,且總體上同屬物種聚在一起,表明此結(jié)果具有較高的可靠性。系統(tǒng)發(fā)育樹將所分析的植物分成2大類:所有木樨科植物為一大類,外類群毛泡桐為一大類。包括遼東丁香在內(nèi)的9 個丁香屬物種聚為1 支,所有丁香屬和女貞屬植物聚為1支,表明丁香屬與女貞屬親緣關(guān)系最近;遼東丁香與云南丁香(S. yunnanensisMH817943.1)又聚為一小支,表明二者親緣關(guān)系最近,形成姊妹類群。
圖6 基于最大似然法構(gòu)建的系統(tǒng)發(fā)育樹Fig.6 Phylogenetic tree constructed by maximum likelihood method
研究發(fā)現(xiàn)大多數(shù)被子植物完整的質(zhì)體基因組總長為120~220 kb,其中大單拷貝區(qū)大小為81~90 kb、小單拷貝區(qū)為18~20 kb、兩個反向重復(fù)區(qū)長均為20~29 kb,包含130個基因左右[22]。本研究以高通量測序技術(shù)和生物信息方法對遼東丁香葉綠體基因組進行分析,結(jié)果顯示:遼東丁香葉綠體基因組全長為156.517 kb,反向重復(fù)區(qū)長為25.362 kb,包含131 個基因,這與典型的被子植物葉綠體基因組結(jié)構(gòu)[25]相符合。遼東丁香葉綠體基因組的GC 含量為37.95%,與木樨科近緣物種[26]中基本相同,且CG 含量高于高等植物的葉綠體基因組的平均GC 含量,而GC 含量高的DNA 序列相對更穩(wěn)定[27]。在丁香屬和女貞屬的葉綠體基因組IR區(qū)收縮擴張比較中,發(fā)現(xiàn)二者高度相似,rps19、ycf1、trnH 等邊界附近的基因片段所在區(qū)間大致相同,表明2個屬的葉綠體基因組均保守,說明女貞與丁香屬物種的葉綠體基因組有相似的進化歷程。以上結(jié)果均表明,遼東丁香的葉綠體基因組具有高度保守的特征。
本研究通過對遼東丁香20種氨基酸密碼子使用偏好性的分析發(fā)現(xiàn),有31 個密碼子RSCU 值>1,其中氨基酸及終止密碼子的最佳密碼子多以堿基A/U結(jié)尾,具有保守性。密碼子使用偏好性是物種在遺傳信息傳遞過程中的一個重要特點,分析遼東丁香的密碼子使用偏好性對于了解其遺傳信息的傳遞規(guī)律具有重要意義[28]。本研究共檢測到334 個散在重復(fù)序列,對研究遼東丁香基因突變、物種基因組起源及進化起關(guān)鍵性作用[29]。此外,簡單重復(fù)序列分析檢測到227 個SSR 位點,226 個位點成功設(shè)計出PCR 引物,這為種質(zhì)資源鑒定與評價、群體遺傳多樣性分析等研究提供了候選分子標記。
葉綠體基因組由于其相對保守的基因組結(jié)構(gòu)和完整的基因組序列,已在生物領(lǐng)域的研究中被廣泛認可,能夠高效地使人們了解進化生物學,并且提供有價值的信息數(shù)據(jù)源,已成為解決植物系統(tǒng)發(fā)育方面問題的有力工具[30]。李艷萍[31]通過測定葉綠體基因組ITS區(qū)序列的信息點,將遼東丁香劃分為一個單系類群。何淼[32]基于形態(tài)特征和3個DNA 序列片段分析,認為遼東丁香屬于頂生花序系,這與陳進勇[33]以及《中國植物志》的分類系統(tǒng)相一致,并認為頂生花序系可能是一個較原始的類群。本研究基于葉綠體基因組完整序列利用最大似然法分析遼東丁香的系統(tǒng)進化關(guān)系,結(jié)果顯示各屬植物聚成有較高支持率的分支。遼東丁香所屬的丁香屬與女貞屬植物以100%的支持率形成分支,說明丁香屬并不是單系類群,其與女貞屬植物具有緊密的親緣關(guān)系。系統(tǒng)發(fā)育樹顯示遼東丁香與云南丁香聚為獨立的一支,說明二者親緣關(guān)系最近,這與陳進勇[33]、何淼[32]以及《中國植物志》的類群劃分方法相同,即遼東丁香和云南丁香都屬于長花冠管組頂生花序系,該系共有的典型特征是花序常由頂芽抽生,并且花藥為黃色[33]。由于葉綠體基因組為單親遺傳,其分子片段只能提供有限的系統(tǒng)發(fā)育信息,本研究并未獲得丁香屬全部物種或亞種,尤其是缺失了可能與遼東丁香親緣關(guān)系更近的紅丁香的葉綠體基因組數(shù)據(jù),因而在未來的研究中,需要引入更全面的丁香屬類群,同時把葉綠體基因組和雙親遺傳特性的核基因組結(jié)合起來[34],進行形態(tài)解剖學、顯微形態(tài)學和胚胎發(fā)育學等分析,才能更加全面地了解其系統(tǒng)演化。
本研究獲得了遼東丁香葉綠體基因組的基本信息及其系統(tǒng)發(fā)育關(guān)系,為遼東丁香的遺傳多樣性保護、優(yōu)化園藝性狀、系統(tǒng)演化等相關(guān)研究提供數(shù)據(jù)基礎(chǔ),也為種質(zhì)鑒定、DNA 條形碼開發(fā)提供了新思路。