張書東 凌立貞 謝丹丹 劉禎珍
關(guān)鍵詞:白花重樓;重樓屬;藜蘆科;系統(tǒng)發(fā)育;葉綠體基因組
重樓原隸屬于百合科(Liliaceae),根據(jù)分子系統(tǒng)學(xué)研究結(jié)果,現(xiàn)歸屬于藜蘆科(Melanthiaceae),為重樓屬(Paris)植物的統(tǒng)稱,全球約有26種[1],主要分布于我國的西南各省(區(qū))。重樓具有重要的藥用價(jià)值,據(jù)記載,該屬11個(gè)物種(包括種下單位,下同)的根莖可作藥用,用于治療損傷、中毒、腮腺炎等多種疾病[2],滇重樓(P.polyphyllavar.yunnanensis)和華重樓(P.polyphyllavar.chinensis)更是被收錄進(jìn)2020年版的《中國藥典》[3]。
白花重樓(P.polyphyllavar.alba)為七葉一枝花(P.polyphylla)的一個(gè)變種,主要分布于我國西南地區(qū)的云南、貴州、四川、重慶以及湖北等地[4-5]。白花重樓以根莖入藥,用于治療慢性氣管炎、胃痛、扁桃體炎、腮腺炎、乳腺炎、毒蟲咬傷和瘡瘍毒腫等病癥[6]。近年來由于企業(yè)對重樓原料藥需求量逐漸上漲,野生重樓遭到掠奪式采挖,致使部分未記錄有藥用價(jià)值的重樓屬植物的野生資源也遭到嚴(yán)重破壞。根據(jù)最新發(fā)布的《國家重點(diǎn)保護(hù)野生植物名錄》[7],重樓屬除北重樓(P.verticillata)外均被列為國家二級重點(diǎn)保護(hù)植物,白花重樓同時(shí)還被《世界自然保護(hù)聯(lián)盟紅色名錄》(IUCN)列為易危種。然而,到目前為止,有關(guān)白花重樓的研究還很少[8-10]。
為更好地開展白花重樓遺傳背景、種質(zhì)資源保護(hù)及系統(tǒng)發(fā)育等方面的研究,本研究對白花重樓進(jìn)行了全基因組建庫測序,從中篩選并組裝出完整的葉綠體基因組,并對白花重樓葉綠體基因組結(jié)構(gòu)特征及其在重樓屬的系統(tǒng)位置進(jìn)行了分析。
1材料與方法
1.1材料
采自云南省麗江市麗江高山植物園種質(zhì)資源圃(100°11′E,27°00′N)的白花重樓新鮮健康葉片裝入取樣袋后立即加入變色硅膠進(jìn)行干燥,室溫保存。
1.2方法
1.2.1基因組總DNA的提取和全基因組測序取白花重樓硅膠干燥葉片,利用CTAB法[11]提取基因組總DNA。分別采用瓊脂糖凝膠電泳和NanoDrop-2000微量分光光度計(jì)檢測總DNA質(zhì)量和濃度。雙端高通量測序由北京諾禾致源科技股份有限公司的IlluminaHiSeqXTen平臺完成,測序總數(shù)據(jù)量為6Gb。
1.2.2葉綠體基因組的組裝與注釋利用SPAdesv3.6.1[12]以默認(rèn)參數(shù)對原始測序數(shù)據(jù)進(jìn)行從頭組裝生成一系列contigs。利用Bandage[13]手動對生成的contigs進(jìn)行編輯,生成可靠的完整葉綠體基因組。以金線重樓(P.delavayi,登錄號:MN125581)為參考基因組,利用PGA[14]對序列進(jìn)行功能注釋。注釋后的完整葉綠體基因組數(shù)據(jù)提交至GenBank(登錄號:MW980523)。利用OGDRAW[15]在線工具(http://ogdraw.mpimp-golm.mpg.de/index.shtml)繪制白花重樓葉綠體基因組圖譜。
1.2.3葉綠體基因組特征分析利用Geneiousv8.0.2[16]讀取白花重樓基因組基本特征信息。利用REPuter[17]鑒定葉綠體基因組中的長重復(fù)序列,最小重復(fù)設(shè)置為30bp,最小重復(fù)序列長度距離設(shè)置為3。利用MISA[18]對白花重樓葉綠體基因組進(jìn)行微衛(wèi)星(simplesequencerepeats,SSR)位點(diǎn)檢測,參數(shù)閾值設(shè)置為單堿基、二堿基、三堿基、四堿基、五堿基和六堿基最少重復(fù)次數(shù)分別為10、5、5、5、5、5,2個(gè)SSR位點(diǎn)間最小距離設(shè)置為100bp。
1.2.4密碼子偏好性分析利用Geneiousv8.0.2[16]提取白花重樓葉綠體基因組蛋白質(zhì)編碼基因序列(codingsequence,CDS),并手工剔除一個(gè)IR區(qū)的重復(fù)序列和基因長度<300bp的序列。利用CodonW1.4.2在線軟件(http://codonw.sourceforge.net/)分析以ATG為起始密碼子,以TAA、TAG、TGA為終止密碼子的編碼基因的同義密碼子相對使用度(relativesynonymouscodonusage,RSCU)。RSCU是指某一特定密碼子在使用頻率與其無偏好性使用時(shí)預(yù)期頻率之間的比值[19],當(dāng)RSCU>1時(shí),表明該密碼子使用頻率較高;當(dāng)RSCU=1時(shí),說明該密碼子無偏好性;當(dāng)RSCU<1時(shí),表明該密碼子使用頻率較低。
1.2.5重樓屬葉綠體基因組比較分析利用Geneiousv8.0.2[16]讀取重樓屬已公布33個(gè)物種葉綠體基因組特征信息,對34個(gè)物種的基因組大小、基因數(shù)目、蛋白編碼基因數(shù)目、轉(zhuǎn)運(yùn)RNA數(shù)目、核糖體RNA數(shù)目和GC含量進(jìn)行比較分析。
1.2.6系統(tǒng)發(fā)育分析為探討白花重樓的系統(tǒng)位置,從NCBI下載藜蘆科48個(gè)物種的葉綠體全基因組序列用于重建重樓屬的系統(tǒng)發(fā)育關(guān)系,包括重樓屬33條,藜蘆屬(Veratrum)3條、白絲草屬(Chionographis)1條、沼紅花屬(Helonias)2條、延齡草屬(Trillium)6條、熊尾草屬(Xerophyllum)1條和丫蕊花屬(Ypsilandra)2條。根據(jù)相關(guān)研究結(jié)果[20-22],選擇藜蘆屬3個(gè)物種作為外類群。序列比對利用MAFFTv7.245[23](https://mafft.cbrc.jp/alignment/server/)完成。貝葉斯推論(Bayesianreference,BI)建樹時(shí)選擇的最佳替代模型依據(jù)赤池信息量準(zhǔn)則(Akaikeinformationcriterion,AIC)利用Modeltest[24-25]計(jì)算。最大似然法(maximumlikelihood,ML)建樹時(shí)使用RAxMLv.8.2.11[26]完成,核苷酸替代模型設(shè)置為GTRGAMMA,1000次靴帶值估算各分支的支持率(bootstrap,BS)。貝葉斯推論建樹使用Mrbayes3.2.6[27]軟件完成,四條馬爾科夫-蒙特卡洛鏈(markovchainmontecarlo,MCMC)運(yùn)行50萬代,每100代取樣一次,當(dāng)數(shù)據(jù)達(dá)到收斂時(shí),前25%的樣本作為老化樹被丟棄。剩余樣本生成50%的多數(shù)一致樹(50%majority-ruleconsensustree),并生成各分支的后驗(yàn)概率(posteriorprobability,PP)。
2結(jié)果與分析
2.1白花重樓葉綠體基因組結(jié)構(gòu)特征
去除接頭和低質(zhì)量測序數(shù)據(jù)后,白花重樓共獲得34225418條長度為150bp的序列(reads)。利用SPAdes軟件進(jìn)行組裝,Bandage手工編輯后得到白花重樓完整葉綠體基因組序列。結(jié)果表明,白花重樓葉綠體基因組總長度為163944bp,GC含量為37.1%(表1)?;蚪M呈雙鏈環(huán)狀,1個(gè)大單拷貝區(qū)(largesingle-copy,LSC)和1個(gè)小單拷貝區(qū)(smallsingle-copy,SSC)被1對反向互補(bǔ)重復(fù)區(qū)(invertedrepeats,IRs)分隔成典型的四分體結(jié)構(gòu)(圖1)。GC含量在4個(gè)區(qū)域存在明顯差異,IR區(qū)的GC含量最高(39.7%),其次是LSC區(qū)(35.7%)和SSC區(qū)(32.2%)(表1)。
2.2白花重樓葉綠體基因組基因功能及分類
利用PGA軟件注釋和手動校對后,白花重樓葉綠體基因組共注釋有134個(gè)基因,包括88個(gè)蛋白編碼基因、38個(gè)轉(zhuǎn)運(yùn)RNA(tRNA)基因和8個(gè)核糖體RNA(rRNA)基因(圖1)。根據(jù)基因功能可以把它們分為4大類,分別是45個(gè)與光合作用相關(guān)的基因、74個(gè)與自我復(fù)制相關(guān)的基因、6個(gè)與蛋白編碼相關(guān)的其他基因,以及8個(gè)未知功能的蛋白質(zhì)基因(表2)。在這些基因中,有10個(gè)蛋白質(zhì)編碼基因(ndhB、rpl2、rpl22、rpl23、rps12、rps15、rps19、rps7、ycf1、ycf2)、7個(gè)tRNA基因(trnA-UGC、trnH-GUG、trnI-CAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC)和4個(gè)rRNA基因(rrn16S、rrn23S、rrn4.5S、rrn5S)位于反向互補(bǔ)重復(fù)區(qū),為雙拷貝基因(表2)。白花重樓葉綠體基因組未注釋到拷貝數(shù)大于2的基因。白花重樓葉綠體基因共有23個(gè)基因含有內(nèi)含子,其中19個(gè)基因(包括11個(gè)蛋白編碼基因和8個(gè)tRNA基因)含有1個(gè)內(nèi)含子,4個(gè)蛋白質(zhì)編碼基因(ycf3、clpP、rps12×2)含有2個(gè)內(nèi)含子(表2)。
2.3白花重樓長重復(fù)序列和SSR分析
長重復(fù)序列分析表明,白花重樓葉綠體基因組包括全部4種長重復(fù)序列,其中正向重復(fù)序列305條,反向重復(fù)序列21條,互補(bǔ)重復(fù)序列19條,回文重復(fù)序列300條,總長度為68889bp(表3)。除IR區(qū)外,重復(fù)長度范圍在30~152bp之間,主要集中在30、31、43、55、77bp(圖2)。簡單重復(fù)序列分析表明,白花重樓葉綠體基因組共檢測到97個(gè)SSR位點(diǎn),其中單核苷酸重復(fù)基序66個(gè),二核苷酸重復(fù)基序23個(gè),三核苷酸重復(fù)基序4個(gè),六核苷酸重復(fù)基序4個(gè),未發(fā)現(xiàn)四核苷酸和五核苷酸重復(fù)基序(圖3)。SSR的類型以A/T為主,其次為AT/AT,分別有65個(gè)和18個(gè),占檢測到的SSR數(shù)量的67.01%和18.56%(圖3)。進(jìn)一步在比對的49個(gè)藜蘆科葉綠體基因組數(shù)據(jù)矩陣(與系統(tǒng)發(fā)育分析取樣相同)中考察白花重樓97個(gè)SSR位點(diǎn)發(fā)現(xiàn),(GGAAGA)5重復(fù)類型僅在白花重樓的葉綠體基因組中出現(xiàn),可用于準(zhǔn)確鑒別白花重樓。
2.4白花重樓葉綠體基因組密碼子偏好性分析
白花重樓葉綠體基因組篩選出用于密碼子偏好性分析的50條CDS共有64個(gè)密碼子,其中61個(gè)密碼子編碼20種氨基酸,其余3個(gè)為終止密碼子。密碼子總使用頻次為20818次,其中編碼亮氨酸(Leu)的密碼子(UUA,UUG,CUU,CUC,CUA,CUG)使用頻次最高,為2076次,占總數(shù)的9.97%;編碼半胱氨酸(Cys)的密碼子使用頻次最低,為245次,占總數(shù)的1.18%。白花重樓葉綠體CDS中RSCU≤1的密碼子共34種,其中31種以G/C結(jié)尾;RSCU>1的密碼子共30種,其中29種以A/U結(jié)尾(圖4),表明白花重樓葉綠體基因組對A/U結(jié)尾密碼子的偏好性高于G/C結(jié)尾密碼子。
2.5重樓屬葉綠體基因組比較分析
將白花重樓與同屬其他33種植物葉綠體基因組進(jìn)行比較分析,結(jié)果顯示,重樓屬植物葉綠體基因組的GC含量均在37%以上,基因組大小為155957~163944bp,注釋基因133~137個(gè),除白花重樓(88個(gè))外,蛋白編碼基因均為87個(gè),tRNA基因?yàn)?8~42個(gè),rRNA基因數(shù)量保守均為8個(gè)(表4)。白花重樓葉綠體基因組有2個(gè)完整的ycf1基因(圖1),因此擁有最大的葉綠體基因組序列長度。
2.6重樓屬葉綠體基因組系統(tǒng)發(fā)育分析
基于49條完整的葉綠體基因組數(shù)據(jù)構(gòu)建的藜蘆科ML和BI系統(tǒng)進(jìn)化樹(圖5)可見,重樓屬的34個(gè)種聚為一個(gè)分支,構(gòu)成一個(gè)單系類群(BS/PP=100/1.0)。延齡草屬與重樓屬親緣關(guān)系較近,構(gòu)成重樓屬的姐妹群。重樓屬可進(jìn)一步劃分為5個(gè)支持率很高的分支(BS/PP=100/1.0),分別對應(yīng)于5個(gè)組(蚤休組Sect.Euthyra、五指蓮組Sect.Axialis、黑籽組Sect.Thibeticae、日本重樓組Sect.Kinugasa和北重樓組Sect.Paris)。七葉一枝花的幾個(gè)變種均屬于蚤休組,但并不構(gòu)成一個(gè)單系群,其中白花重樓與毛重樓(P.mairei)具有較近的親緣關(guān)系(圖5)。
3討論
本研究通過高通量測序、生物信息學(xué)方法組裝和注釋獲得了白花重樓完整葉綠體基因組,其全長為163944bp,略長于該屬已報(bào)道物種的葉綠體基因組[28-29],但與被子植物葉綠體基因組已有數(shù)據(jù)一致[30]。造成以上特征的原因是白花重樓一對IR區(qū)均較同屬其他物種的長(白花重樓33399bp,其他種小于28000bp)。白花重樓葉綠體基因組具有典型的環(huán)狀四分體結(jié)構(gòu),包括1個(gè)LSC區(qū),1個(gè)SSC區(qū)和2個(gè)IR區(qū),其GC含量為37.1%,與已報(bào)道的該屬物種葉綠體基因組結(jié)構(gòu)和GC含量相似,并且LSC區(qū)(35.7%)和SSC區(qū)(32.2%)的GC含量顯著低于IR區(qū)(39.7%),其原因與完全分布在IR區(qū)的8個(gè)GC含量較高的rRNA基因有關(guān)(均在48.5%以上)。白花重樓葉綠體基因組共編碼134個(gè)基因,包括88個(gè)蛋白編碼基因、38個(gè)tRNA基因和8個(gè)rRNA基因。在重樓屬已報(bào)道的葉綠體基因組中,蛋白編碼基因和rRNAs是非常保守的,但tRNAs的數(shù)目在物種間存在差異,盡管uniquetRNAs的數(shù)目都是30個(gè)。ycf1基因是葉綠體基因組中第二長的基因且存于大多數(shù)植物葉綠體基因組中[31],但通常只有一個(gè)拷貝,白花重樓因?yàn)镮R區(qū)的擴(kuò)張導(dǎo)致注釋出2個(gè)完整的ycf1基因(均全部位于反向重復(fù)區(qū)),從而使其比同屬其他種多出1個(gè)蛋白編碼基因。
白花重樓葉綠體基因組共檢測到645條長重復(fù)序列,包括了全部4種重復(fù)類型,但以正向重復(fù)比例最高,其次是回文重復(fù)、反向重復(fù)和互補(bǔ)重復(fù)比例較低,這與其他重樓屬物種一致,而與同科其他屬物種的結(jié)果不同(未發(fā)表),說明物種的親緣關(guān)系與長重復(fù)序列的種類及數(shù)量存在一定的相關(guān)性。白花重樓葉綠體基因組97個(gè)SSR位點(diǎn)以單核苷酸和二核苷酸SSR為主,且含有較高的AT含量,與前人報(bào)道的植物葉綠體基因組中SSR位點(diǎn)多以A/T堿基出現(xiàn)相符。這些重復(fù)序列可為重樓屬物種遺傳多樣性研究及物種和產(chǎn)品鑒定提供一定的參考信息。密碼子偏好性是物種在長期的進(jìn)化過程中受外界環(huán)境和內(nèi)部因素共同作用的結(jié)果,密碼子偏好性分析可為研究生物進(jìn)化、蛋白結(jié)構(gòu)、基因功能和外源基因轉(zhuǎn)錄和翻譯提供理論依據(jù)。本研究分析表明,亮氨酸(Leu)是白花重樓葉綠體基因組中占比最高的氨基酸,并且RSCU>1的30種密碼子均以A/U結(jié)尾,這與之前發(fā)表的重樓屬植物基本相似[32-33]。
基于葉綠體基因組的系統(tǒng)發(fā)育分析結(jié)果表明,重樓屬分為5個(gè)主要分支,分別對應(yīng)蚤休組、五指蓮組、黑籽組、日本重樓和北重樓組,這與最新的分子系統(tǒng)學(xué)研究結(jié)果一致[28-29],但與基于形態(tài)學(xué)的分類結(jié)果存在一定的分歧。本研究對七葉一枝花的6個(gè)變種的系統(tǒng)位置進(jìn)行了研究,結(jié)果顯示七葉一枝花的所有變種均位于蚤休組,但并不構(gòu)成一個(gè)單系群,白花重樓與毛重樓具有較近的親緣關(guān)系?;诂F(xiàn)有的分子系統(tǒng)學(xué)研究結(jié)果,七葉一枝花種下的各分類單元需進(jìn)一步的分類修訂。