武 悅,陳 陽,王星哲,單飛彪,張 勇,孫鴻舉
(1.內(nèi)蒙古大學(xué) 生命科學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010020;2.巴彥淖爾市農(nóng)牧業(yè)科學(xué)研究院,內(nèi)蒙古 臨河 015000)
扁莖黃芪(Astragaluscomplanatus),別名夏黃草、大沙苑,屬豆科蝶形花亞科,為多年生草本藥用植物,在我國多省市均有分布[1]。扁莖黃芪成熟種子干燥后又名沙苑子,味甘性溫,富含多種人體必需氨基酸、黃酮苷、有機(jī)酸和微量元素等營養(yǎng)物質(zhì),具有補(bǔ)肝、明目、益腎之功效,是我國歷史悠久的名貴藥材[2-3]。扁莖黃芪根系深長,植株高大,耐寒、耐旱、耐瘠薄、生命力頑強(qiáng),能防風(fēng)固沙,尤其適于干旱少雨地區(qū)種植,頗具生態(tài)價(jià)值[4]。扁莖黃芪生物產(chǎn)量高,植株富含營養(yǎng),可作為優(yōu)質(zhì)的飼草料及果園綠肥作物[5-7]。目前,關(guān)于扁莖黃芪的研究多集中于牧草引種[8]、綠肥應(yīng)用[9-10]、藥理作用分析[11-12]、偽品鑒定[13]和多倍體誘導(dǎo)[14-15]等方面,其分子水平的研究未見報(bào)道,遺傳信息還有待探索。
基于高通量測序技術(shù)的轉(zhuǎn)錄組研究能夠在物種基因組學(xué)背景空白的情況下通過測序獲得大量遺傳信息,已逐漸應(yīng)用于非模式生物[16]。我國大多數(shù)藥用植物遺傳背景復(fù)雜,普遍缺乏基因組信息,制約中藥的發(fā)展與利用。近年來,轉(zhuǎn)錄組測序技術(shù)已廣泛應(yīng)用于藥用植物的多個(gè)領(lǐng)域研究,包括功能基因挖掘、次生代謝網(wǎng)絡(luò)調(diào)控和分子標(biāo)記開發(fā)等方面[17]。郝大程等[18]利用 Illumina HiSeq平臺(tái)獲得中藥材虎杖根的轉(zhuǎn)錄組數(shù)據(jù),注釋Unigene 86 418個(gè),發(fā)現(xiàn)144個(gè)可能參與蒽醌類等藥用物質(zhì)生物合成的Unigene,其結(jié)果可用于蓼屬植物農(nóng)藝性狀改良、次生代謝物產(chǎn)量等研究;齊琳潔等[19]利用黃芩轉(zhuǎn)錄組測序結(jié)果挖掘到9對穩(wěn)定、清晰且多態(tài)性好的SSR引物用于分析不同產(chǎn)地黃芪的遺傳多樣性,為黃芩的品種選育、種質(zhì)資源保護(hù)等提供了依據(jù);康恒等[20]利用粗莖秦艽的根、莖等組織的轉(zhuǎn)錄組測序結(jié)果,結(jié)合qRT-PCR對可能參與環(huán)烯醚萜類合成的Unigene進(jìn)行驗(yàn)證,發(fā)現(xiàn)涉及的HMGS、DXS、MCS等7個(gè)基因均在地上部分表達(dá)量較高,為研究藥用植物累積次生代謝規(guī)律奠定了基礎(chǔ)。
本研究利用Illumina HiSeq平臺(tái)對扁莖黃芪幼苗葉片的轉(zhuǎn)錄本進(jìn)行測序,建立扁莖黃芪的轉(zhuǎn)錄組數(shù)據(jù)庫,對測序結(jié)果進(jìn)行富集分類、功能注釋、代謝通路及SSR位點(diǎn)分析,旨在為開展扁莖黃芪有效藥用成分利用、真?zhèn)舞b定、遺傳多樣性分析、生物功能基因挖掘及利用等方面提供理論依據(jù)。
植物材料扁莖黃芪(編號(hào)20ZY01)幼苗采自巴彥淖爾市農(nóng)牧業(yè)科學(xué)研究院種植基地。取新鮮幼苗的嫩葉,蒸餾水洗凈后吸干表面水分,迅速于液氮中冷凍后置于-80 ℃冰箱中保存,送至北京組學(xué)生物科技公司采用TRIzol法提取總RNA,利用Nanodrop 2000檢測RNA純度(OD260/280>2.0)、Agilent 2100檢測RNA完整性(RIN>8.5),合格后構(gòu)建扁莖黃芪cDNA文庫。
利用Illumina HiSeq平臺(tái)對扁莖黃芪幼苗葉片轉(zhuǎn)錄組進(jìn)行測序,嚴(yán)格控制測序得出的原始數(shù)據(jù)質(zhì)量,對所獲得的高質(zhì)量序列進(jìn)行堿基質(zhì)量評估和統(tǒng)計(jì)。利用Trinity軟件完成數(shù)據(jù)組裝,獲得可靠的Unigene(單基因簇)和Transcript(轉(zhuǎn)錄本),分別統(tǒng)計(jì)其長度、平均長度及N50(拼接所得序列從大到小排序累加,長度超過總長1/2時(shí)所累加序列的長度),評價(jià)數(shù)據(jù)組裝質(zhì)量。
使用Blast軟件將扁莖黃芪Unigene序列與Nr、GO、COG、KOG、KEGG、Swiss-Prot數(shù)據(jù)庫比對,統(tǒng)計(jì)Unigene在6大數(shù)據(jù)庫的注釋結(jié)果。
利用MISA軟件對獲得的扁莖黃芪Unigene進(jìn)行SSR位點(diǎn)發(fā)掘,篩選單堿基至六堿基類型以最少重復(fù)次數(shù)依次為10,6,5,5,5,5為標(biāo)準(zhǔn),進(jìn)一步對篩選到的SSR位點(diǎn)進(jìn)行特征分析。
扁莖黃芪幼苗葉片的轉(zhuǎn)錄組測序共獲得33 217 041個(gè)reads,共計(jì)9 965 112 300 bp,其中42.74%為G、C堿基,Q20、Q30的堿基數(shù)分別占98.03%,93.89%(表1),說明扁莖黃芪轉(zhuǎn)錄組測序質(zhì)量較高。
表1 測序數(shù)據(jù)質(zhì)量分析Tab.1 Quality analysis of sequencing data
利用Trinity軟件對扁莖黃芪轉(zhuǎn)錄組測序數(shù)據(jù)進(jìn)行拼接、組裝,共獲得Transcript 21 565條,序列總長27 333 335 bp,平均長度1 267 bp,N50為2 079 bp;獲得Unigene的數(shù)量為19 280條,總長23 472 470 bp,平均長度1 217 bp,N50為2 094 bp(表2)。Transcript、Unigene的N50分別是其平均長度的1.64,1.72倍,說明數(shù)據(jù)的組裝完整度較高。
表2 扁莖黃芪轉(zhuǎn)錄本和單基因簇統(tǒng)計(jì)分析Tab.2 The statistics analysis of Astragalus complanatus transcript and Unigene
利用Blast軟件將組裝獲得的19 280條扁莖黃芪Unigene與6個(gè)不同功能領(lǐng)域的數(shù)據(jù)庫比對(圖1),得到扁莖黃芪較為全面的基因信息,共有12 715條Unigene獲得注釋,占總Unigene的65.95%。其中,Nr數(shù)據(jù)庫注釋數(shù)目最多,有12 541條,占總Unigene的65.05%;其次依次為Swiss-Prot數(shù)據(jù)庫(注釋Unigene 10 120條,占比52.49%)、GO數(shù)據(jù)庫(注釋Unigene 9 412條,占比48.81%)、KEGG數(shù)據(jù)庫(注釋Unigene 8 953條,占比46.44%)和KOG數(shù)據(jù)庫(注釋Unigene 7 494條,占比38.87%);COG數(shù)據(jù)庫注釋Unigene最少(5 052條),占比26.20%。
圖1 扁莖黃芪Unigene的注釋統(tǒng)計(jì)Fig.1 The statistics analysis of annotated Unigene in Astragalus complanatus
經(jīng)比對,扁莖黃芪12 541條Unigene在Nr數(shù)據(jù)庫中得到注釋。將注釋結(jié)果進(jìn)行統(tǒng)計(jì)及物種比對,繪制扁莖黃芪同源物種分布圖(圖2),結(jié)果發(fā)現(xiàn)扁莖黃芪Unigene主要注釋到豆科植物,共占比86.26%。其中,鷹嘴豆(Cicerarietinum)注釋比最高,為31.49%;其次依次為蒺藜苜蓿(Medicagotruncatula)和相思子(Abrusprecatorius),注釋比分別為14.50%和11.65%;其余有一定匹配度的豆科植物有紅三葉(Trifoliumpratense)(5.63%)、地三葉草(Trifoliumsubterraneum)(5.60%)、木豆(Cajanuscajan)(4.97%)、大豆(Glycinemax)(4.69%)、黧豆(Mucunapruriens)(3.47%)、野大豆(Glycinesoja)(2.60%)和羽扇豆(Lupinusangustifolius)(1.66%)。
圖2 扁莖黃芪Unigene的Nr數(shù)據(jù)庫匹配物種分布Fig.2 Matched species distribution of Astragalus complanatus Unigene in Nr database
將扁莖黃芪所有Unigene在GO數(shù)據(jù)庫中進(jìn)行分類注釋,獲得注釋Unigene 9 412條、注釋信息548 323個(gè),分為細(xì)胞組分、分子功能和生物進(jìn)程3個(gè)大類,涉及52個(gè)功能亞類(圖3)。其中,細(xì)胞組分類別注釋Unigene數(shù)目最多(22 522條),包含15個(gè)亞類,主要是細(xì)胞(4 697個(gè))、細(xì)胞部分(4 660個(gè))、膜(3 394個(gè))和細(xì)胞器(3 327個(gè)),分別占細(xì)胞組分類別的20.86%,20.69%,15.07%,14.77%;分子功能類別注釋Unigene 10 374條、亞類15個(gè),主要GO功能是催化活性(4 544條)和綁定(4 452條),分別占分子功能類的43.80%,42.91%;生物進(jìn)程類別注釋Unigene 15 415條,分為22個(gè)亞類,主要GO功能是代謝過程(4 813個(gè))、細(xì)胞進(jìn)程(4 598個(gè))、生物調(diào)控(1 631個(gè))和定位(1 096個(gè))。
1.胞外區(qū);2.細(xì)胞;3.類核;4.膜;5.病毒體;6.細(xì)胞連接;7.膜封閉腔;8.含蛋白復(fù)合物;9.細(xì)胞器;10.胞外區(qū)部分;11.細(xì)胞器部分;12.病毒部分;13.膜部分;14.細(xì)胞部分;15.超分子復(fù)合體;16.催化活性;17.結(jié)構(gòu)分子活性;18.轉(zhuǎn)運(yùn)蛋白活性;19.綁定;20.抗氧化活性;21.蛋白標(biāo)簽;22.運(yùn)貨受體活性;23.蛋白質(zhì)折疊伴侶;24.翻譯調(diào)節(jié)活性;25.營養(yǎng)儲(chǔ)存活性;26.分子轉(zhuǎn)導(dǎo)活性;27.分子功能調(diào)節(jié)劑;28.分子載體活性;29.傳譯調(diào)節(jié)活性;30.小分子傳感器活性;31.繁殖;32.細(xì)胞殺傷;33.免疫過程;34.代謝過程;35.細(xì)胞群增殖;36.細(xì)胞進(jìn)程;37.碳利用;38.氮利用;39.生殖過程;40.生物黏附;41.信號(hào)傳導(dǎo);42.多細(xì)胞生物進(jìn)程;43.發(fā)育進(jìn)程;44.生長;45.轉(zhuǎn)運(yùn);46.節(jié)律進(jìn)程;47.應(yīng)激反應(yīng);48.定位;49.多有機(jī)體進(jìn)程;50.生物調(diào)控;51.細(xì)胞組分及來源;52.解毒。
扁莖黃芪Unigene與KOG數(shù)據(jù)庫比對后獲得注釋Unigene 7 494條,涉及KOG注釋信息8 315個(gè)。獲得注釋的25個(gè)功能中,一般功能預(yù)測注釋Unigene最多,有1 551條,占比18.65%;其次依次為翻譯后修飾、蛋白轉(zhuǎn)運(yùn)和信號(hào)傳導(dǎo)機(jī)制功能,注釋Unigene 分別為926,683條,占比11.14%和8.21%;注釋Unigene最少的功能為細(xì)胞活性,僅有3條,占比0.04%(表3)。
表3 扁莖黃芪Unigene的KOG數(shù)據(jù)庫功能分類Tab.3 KOG function categories of Astragalus complanatus Unigene
扁莖黃芪轉(zhuǎn)錄組中共有8 953條Unigene在KEGG數(shù)據(jù)庫中獲得注釋,涉及6個(gè)大類通路,包含43個(gè)亞類(圖4),按照注釋Unigene數(shù)量由高到低分別是新陳代謝類(Unigene 4 373條)、人類疾病類(Unigene 3 567條)、有機(jī)系統(tǒng)類(Unigene 2 319條)、遺傳信息處理類(Unigene 1 930條)、環(huán)境信息處理類(Unigene 1 750條)和細(xì)胞過程類(Unigene 1 170條)。亞類主要集中于病毒、細(xì)菌、寄生感染性疾病(Unigene 2 097條)、信號(hào)轉(zhuǎn)導(dǎo)(Unigene 1 668條)和碳水化合物代謝(Unigene 1 489條)。8 953條Unigene共獲得15 528個(gè)KEGG注釋信息,涉及354條代謝通路,按照注釋Unigene數(shù)量由高到低排序,以注釋Unigene數(shù)量大于200條為標(biāo)準(zhǔn),得到10條扁莖黃芪KEGG富集顯著的代謝通路(表4),其中注釋Unigene數(shù)量最多的通路為嘌呤代謝。
1.耐藥性:抗菌;2.耐藥性:抗腫瘤藥;3.心血管??;4.免疫疾病;5.藥物依賴;6.內(nèi)分泌和代謝疾?。?.癌癥:特定類型;8.神經(jīng)退行性疾??;9.癌癥:總覽;10.感染性疾?。杭纳?;11.感染性疾病:細(xì)菌;12.感染性疾?。翰《拘裕?3.人類疾病類;14.感覺系統(tǒng);15.開發(fā)與再生;16.循環(huán)系統(tǒng);17.排泄系統(tǒng);18.消化系統(tǒng);19.老化;20.神經(jīng)系統(tǒng);21.內(nèi)分泌系統(tǒng);22.免疫系統(tǒng);23.有機(jī)系統(tǒng)類;24.細(xì)胞群落-原核生物;25.細(xì)胞運(yùn)動(dòng);26.細(xì)胞群落-真核生物;27.細(xì)胞生長與死亡;28.運(yùn)輸和分解代謝;29.細(xì)胞過程類;30.信號(hào)分子與相互作用;31.膜運(yùn)輸;32.信號(hào)轉(zhuǎn)導(dǎo);33.環(huán)境信息處理類;34.復(fù)制和修復(fù);35.轉(zhuǎn)錄;36.折疊、分類和降解;37.翻譯;38.遺傳信息處理類;39.萜類和聚酮化合物的代謝;40.異生物素的生物降解和代謝;41.其他氨基酸的代謝;42.糖的生物合成與代謝;43.輔助因子和維生素的代謝;44.核苷酸代謝;45.能量代謝;46.脂質(zhì)代謝;47.氨基酸代謝;48.碳水化合物代謝;49.新陳代謝類。
表4 扁莖黃芪轉(zhuǎn)錄組Unigene數(shù)量最多的10個(gè)通路注釋Tab.4 Top ten metabolic pathways involving Astragalus complanatus Unigene
在扁莖黃芪19 280條Unigene中共搜索到SSR位點(diǎn)5 849個(gè),SSR出現(xiàn)頻率為30.34%、平均距離4.01 kb。扁莖黃芪SSR位點(diǎn)豐富,6種堿基類型全部出現(xiàn),以單堿基重復(fù)類型數(shù)量最多,有2 372個(gè),占比40.56%,主要重復(fù)基元是A/T;三堿基和雙堿基類型數(shù)量占比次之,依次為28.62%和26.55%,其中AAG/CTT和AG/CT重復(fù)基元出現(xiàn)頻率較高;四堿基、五堿基、六堿基重復(fù)類型占比較低,僅占總數(shù)的4.27%(圖5)。扁莖黃芪SSR重復(fù)單元數(shù)主要分布在5~11次,約占總SSR的78.1%。單堿基SSR主要分布在10~11次(1 490個(gè),占總SSR的25.47%);雙堿基SSR主要分布在6~8次(775個(gè),占總SSR的13.25%);三堿基SSR主要分布在5~8次(1 556個(gè),占總SSR的26.60%);四、五、六堿基SSR主要分布在5~6次,重復(fù)次數(shù)較少(表5)。
圖5 扁莖黃芪SSR類型及主要基元統(tǒng)計(jì)Fig.5 The statistics of SSR types and main unit in Astragalus complanatus
表5 扁莖黃芪轉(zhuǎn)錄組 Unigene SSR 分析Tab.5 SSR analysis of Astragalus complanatus transcriptome Unigene
了解扁莖黃芪的分子生物學(xué)背景、分析其基因組信息,對扁莖黃芪資源的開發(fā)利用、次生代謝物研究和真?zhèn)舞b定等方面均能夠起到良好的推動(dòng)作用,同時(shí)也能夠?yàn)槠渌幱貌课簧吃纷拥难芯刻峁┗A(chǔ)數(shù)據(jù)。本研究利用Illumina HiSeq平臺(tái)對扁莖黃芪幼苗葉片進(jìn)行轉(zhuǎn)錄組測序,獲得了9 965 112 300 bp的序列信息,組裝后得到19 280條Unigene,GC含量達(dá)40%以上,Q20、Q30比例均高于90%,說明測序質(zhì)量和組裝效果較好,為開展數(shù)據(jù)統(tǒng)計(jì)分析奠定了基礎(chǔ)。經(jīng)與六大公共數(shù)據(jù)庫比對發(fā)現(xiàn),有近70%的Unigene(12 715條)獲得注釋,為研究扁莖黃芪基因功能提供了依據(jù)。另外,仍有近30%的扁莖黃芪Unigene未獲得注釋,可能與數(shù)據(jù)庫信息不健全、存在非蛋白質(zhì)的短序列和扁莖黃芪的特有基因有關(guān)。
本研究表明,扁莖黃芪Unigene在Nr數(shù)據(jù)庫獲得最高比例注釋,注釋到的同源物種主要為豆科植物,說明這些豆科植物同源性較高,基因組間存在共性或近似信息。其中扁莖黃芪在鷹嘴豆、蒺藜苜蓿和相思子物種中比對的Unigene數(shù)目最多,占比分別為31.49%,14.50%,11.65%。扁莖黃芪與鷹嘴豆、蒺藜苜蓿和相思子同屬豆科蝶形花亞科,這3個(gè)物種的基因組信息能夠?yàn)檠芯勘馇o黃芪基因功能提供重要參考依據(jù)。同時(shí),隨著扁莖黃芪轉(zhuǎn)錄組數(shù)據(jù)的挖掘與分析,豐富了豆科植物的基因組信息,為其近緣物種的功能基因研究提供參考依據(jù)。扁莖黃芪Unigene的GO及KOG功能類群全面、KEGG代謝通路豐富,分別注釋到52個(gè)GO功能、25個(gè)KOG功能及354個(gè)KEGG代謝通路中,且均存在一條Unigene具有多個(gè)注釋信息,為全面挖掘扁莖黃芪基因的不同功能奠定基礎(chǔ)。在GO、KOG和KEGG數(shù)據(jù)庫中比對的扁莖黃芪Unigene數(shù)目最多的功能、通路分別為代謝過程、一般功能預(yù)測和嘌呤代謝,說明扁莖黃芪幼苗期葉片細(xì)胞新陳代謝活躍,基因表達(dá)豐富。另外,扁莖黃芪Unigene在KEGG數(shù)據(jù)庫中較為集中于人類疾病類別,特別是在感染性疾病中注釋數(shù)目較多,說明除種子沙苑子具有藥用價(jià)值外,扁莖黃芪植株部位也可能含有藥用成分,這與薛利娟等[21]的研究結(jié)果一致,為扁莖黃芪的植株利用及藥用價(jià)值研究提供新思路。
本研究利用MISA軟件共得到5 849個(gè)扁莖黃芪SSR位點(diǎn),SSR出現(xiàn)頻率為30.34%,略低于蒙古黃芪(31.26%),遠(yuǎn)高于膜莢黃芪(13.42%)[22-23]。扁莖黃芪基因組內(nèi)SSR位點(diǎn)豐富、類型多樣化,單堿基到六堿基重復(fù)全部出現(xiàn),其中單堿基、雙堿基、三堿基為主要重復(fù)類型,占比約95%。主要基元類型分別為A/T、AG/CT和AAG/CTT,與川芎[24]、三叉苦[25]及天目鐵木[26]等中草藥材的SSR位點(diǎn)信息相似,這些標(biāo)記的開發(fā)為挖掘扁莖黃芪新基因提供了研究基礎(chǔ)。
本研究利用RNA-Seq技術(shù)對扁莖黃芪幼苗葉片進(jìn)行測序并獲得了大量扁莖黃芪功能表達(dá)基因和遺傳信息,同時(shí)挖掘到豐富的SSR標(biāo)記位點(diǎn),為扁莖黃芪的分子育種、藥理研究、抗逆基因挖掘、遺傳多樣性分析、真?zhèn)舞b別等方面提供科學(xué)依據(jù)。
本研究對扁莖黃芪幼苗葉片進(jìn)行轉(zhuǎn)錄組測序,獲得了9 965 112 300 bp的高質(zhì)量序列信息。將扁莖黃芪Unigene在六大公共數(shù)據(jù)庫進(jìn)行比對及功能注釋,發(fā)現(xiàn)扁莖黃芪與鷹嘴豆親緣關(guān)系最近,GO功能、KOG功能及KEGG通路均主要集中于代謝,說明扁莖黃芪幼苗新陳代謝旺盛。同時(shí)扁莖黃芪Unigene代謝通路在感染性疾病類別通路中也較為集中,表明扁莖黃芪的植株也可能含有藥用成分。扁莖黃芪的SSR位點(diǎn)豐富,以單堿基為主,主要基元類型是A/T、AG/CT和AAG/CTT。