王 祥,王育朋,安 佳,王七龍,井亞江,黃建萍,張 崗,彭 亮,顏永剛*
1.陜西中醫(yī)藥大學(xué) 陜西省秦嶺中草藥應(yīng)用開(kāi)發(fā)工程技術(shù)研究中心/“秦藥”研發(fā)重點(diǎn)實(shí)驗(yàn)室,陜西 咸陽(yáng) 712046
2.陜西海天制藥有限公司,陜西 咸陽(yáng) 712000
蒙古黃芪Astragalus membranaceus(Fisch.)Bge.var.mongholicus(Bge.) Hsiao 的干燥根作為中藥黃芪應(yīng)用[1],最早見(jiàn)于《神農(nóng)本草經(jīng)》,藥用歷史悠久,為“補(bǔ)氣之要藥”具有補(bǔ)氣升陽(yáng)、固表止汗等功效[2]。臨床用于治療腦缺血性疾病,免疫系統(tǒng)疾病,腎病及血糖、血壓等疾病[3-4]。黃芪為臨床常用大宗藥材,且為藥食兩用藥材,市場(chǎng)需求量大,野生資源供不應(yīng)求,故黃芪藥材市場(chǎng)供給以人工種植為主[5-6]。經(jīng)市場(chǎng)調(diào)研及實(shí)地考察,黃芪藥材人工種植采收多以?xún)赡昊蛉晟鸀橹?,故本研究以?xún)赡晟?、三年生蒙古黃芪為研究對(duì)象。黃芪藥材主要有效成分之一為三萜皂苷類(lèi)[7-8],目前已從黃芪植物中獲得三萜皂苷類(lèi)化合物50 余種,主要為黃芪皂苷I~VIII,異黃芪皂苷I、II、IV,乙酰基黃芪皂苷,大豆皂苷等[9-10]。黃芪生物體內(nèi)化學(xué)成分的積累呈動(dòng)態(tài)變化,不同采收時(shí)間有效成分含量差異巨大,即使在相同年限相同采收時(shí)間,不同個(gè)體有效成分含量仍然存在較大差異[11-12]。這些差異不僅受種質(zhì)遺傳的影響,也受外界環(huán)境因子的影響[13],環(huán)境因子通過(guò)影響生物個(gè)體的基因表達(dá)調(diào)控,進(jìn)而影響植物次生代謝產(chǎn)物的合成與積累[14-15]。故研究黃芪三萜皂苷的合成基因及其表達(dá)調(diào)控機(jī)制尤為重要,有助于進(jìn)一步研究如何提高黃芪藥材的質(zhì)量[16]。
轉(zhuǎn)錄組測(cè)序技術(shù)可測(cè)定不同時(shí)期個(gè)體的功能基因及表達(dá)情況,可將生物基因組遺傳信息與功能代謝物建立連接,有助于分析功能基因[17]。目前轉(zhuǎn)錄組測(cè)序技術(shù)已廣泛應(yīng)用于細(xì)胞[18]、組織[19]、動(dòng)物[20]、植物[21]等領(lǐng)域,極大地?cái)U(kuò)寬了生物代謝產(chǎn)物的研究方法,有利于研究藥用植物有效成分的合成與積累機(jī)制,尤其適用于像黃芪這樣的非模式植物[22]。目前少量關(guān)于黃芪轉(zhuǎn)錄組的研究,主要集中在膜莢黃芪且研究部位為莖、葉、花和種子[23],缺少以蒙古黃芪研究對(duì)象,且研究部位為藥用部位(根)的轉(zhuǎn)錄組分析[24]。故本研究以蒙古黃芪的根為研究對(duì)象,對(duì)不同生長(zhǎng)年限蒙古黃芪轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行生物信息學(xué)分析[25],挖掘其有效成分合成基因及相關(guān)酶的表達(dá)情況,為后續(xù)深入研究蒙古黃芪的植物育種、遺傳變異、生長(zhǎng)發(fā)育、有效成分合成提供理論依據(jù)。
蒙古黃芪樣品來(lái)源于內(nèi)蒙古通遼市科爾沁區(qū)慶和鎮(zhèn)黃芪實(shí)驗(yàn)基地(121°60'21''E,43°35'46''N;海拔141 m)。于2022 年5 月1 日分別采集兩年生(A)和三年生(B)蒙古黃芪新鮮植物根各3 份(每份6株),進(jìn)行分組A1、A2、A3 和B1、B2、B3,液氮速凍,每組樣品分別進(jìn)行轉(zhuǎn)錄組測(cè)序和含量測(cè)定。植株經(jīng)陜西中醫(yī)藥大學(xué)王繼濤高級(jí)實(shí)驗(yàn)師鑒定為豆科植物蒙古黃芪A.membranaceus(Fisch.) Bge.var.mongholicus(Bge.) Hsiao。
S3000 高效液相儀(華譜科儀(北京)科技有限公司);UM5800plus 蒸發(fā)光檢測(cè)器(上海通微分析技術(shù)有限公司);K5500?分光光度計(jì)(凱奧公司,北京);Bio-RAD CFX 96 熒光定量PCR 儀(美國(guó)伯樂(lè)公司);Bioanalyzer 2100 系統(tǒng)(美國(guó)加利福尼亞州安捷倫科技)的RNA Nano 6000 檢測(cè)試劑盒。
每組蒙古黃芪樣品中各取50 g,按《中國(guó)藥典》2020 年版項(xiàng)下方法對(duì)蒙古黃芪樣品分別進(jìn)行制備和含量測(cè)定[1],流動(dòng)相為0.3%甲酸水溶液(A)-乙腈(B)。柱溫30 ℃;進(jìn)樣體積10 μL;梯度洗脫(0~13 min,82% A;13~43 min,82%~70% A;43~60 min,70%~45% A;60~70 min,45%~30%A)。ELSD 檢測(cè)器條件:漂移管溫度:65 ℃,氣體體積流量2.5 L/min,信號(hào)增益5。測(cè)定黃芪中6 種主要皂苷(黃芪甲苷、黃芪皂苷I、黃芪皂苷II、黃芪皂苷III、異黃芪皂苷I、異黃芪皂苷II)成分的含量[26]。
對(duì)蒙古黃芪各組樣品總RNA 分別進(jìn)行提取后,用Nanodrop 檢測(cè)RNA 的純度、濃度、核酸吸收峰是否正常;用Agilent 2100 檢測(cè)樣品中RNA 的完整性。樣品檢測(cè)合格后用帶Oligo(dT)的磁珠富集mRNA,然后加入Fragmentation Buffer 將mRNA 隨機(jī)打斷,以之為模板用六堿基隨機(jī)引物(random hexamers)合成第一條cDNA 鏈,再加入緩沖液、dNTPs、RNase H 和DNA polymerase I 合成第2 條cDNA 鏈,利用AMPure XP beads 純化cDNA,并進(jìn)行末端修復(fù)、加A 尾并連接接頭,并進(jìn)行片段大小選擇,再經(jīng)PCR 富集后得到cDNA 文庫(kù)。經(jīng)Qubit 2.0 進(jìn)行初步定量后,用Agilent 2100 對(duì)文庫(kù)的insert size 進(jìn)行檢測(cè),最后用Q-PCR 方法對(duì)文庫(kù)的有效濃度進(jìn)行準(zhǔn)確定量(文庫(kù)有效濃度>2 nmol)。
庫(kù)檢合格后,不同文庫(kù)按照目標(biāo)下機(jī)數(shù)據(jù)量進(jìn)行蓄集。用Illumina HiSeq 進(jìn)行測(cè)序,對(duì)上機(jī)測(cè)序得到的原始序列(raw reads)進(jìn)行過(guò)濾,去掉含接頭的reads 和低質(zhì)量的reads,得到高質(zhì)量的序列(clean reads)。采用Trinity 軟件對(duì)clean reads 進(jìn)行拼接得到轉(zhuǎn)錄本序列,篩選其中必要的非冗余序列(Unigene)用于后續(xù)分析。
用轉(zhuǎn)錄本蛋白編碼潛能預(yù)測(cè)工具(CPC2)查找含編碼潛能的Unigene,然后用BLAST 軟件將發(fā)掘可編碼的Unigene 與非冗余蛋白質(zhì)序列數(shù)據(jù)庫(kù)(non-redundant protein sequence database,Nr)、基因本體論(gene ontology consortium,GO)、同源蛋白質(zhì)簇?cái)?shù)據(jù)庫(kù)(cluster of orthologous groups of proteins,eggNOG/COG)、真核生物蛋白相鄰類(lèi)的聚簇(clusters of orthologous group for eukaryotic complete,KOG)、京都基因與基因組百科全書(shū)數(shù)據(jù)庫(kù)(Kyoto encyclopedia of genes and genomes,KEGG)、Swiss-Prot、Pfam 等數(shù)據(jù)庫(kù)進(jìn)行序列相似性對(duì)比,獲得基因功能注釋信息。用 FPKM(fragments per kilobase of transcript per million fragments mapped)計(jì)算法對(duì)樣品中的mapped reads數(shù)目和轉(zhuǎn)錄本長(zhǎng)度進(jìn)行歸一化,獲得各個(gè)樣本的表達(dá)量值。用DESeq(R 包)對(duì)各組樣品進(jìn)行差異表達(dá)分析。利用BenjaminiHochberg 校正方法對(duì)原有假設(shè)檢驗(yàn)的顯著性P值(P-value)進(jìn)行校正得到q值,以FDR 為差異表達(dá)基因(differentially expressed genes,DEGs)篩選的關(guān)鍵指標(biāo),對(duì)轉(zhuǎn)錄本進(jìn)行KEGG 代謝通路分析及差異基因表達(dá)分析。
對(duì)不同生長(zhǎng)年限蒙古黃芪,按組分別制樣,于“2.1”項(xiàng)下色譜條件進(jìn)行含量測(cè)定。對(duì)不同生長(zhǎng)年限蒙古黃芪中三萜皂苷含量進(jìn)行對(duì)比分析,結(jié)果表明三年生蒙古黃芪各種皂苷成分含量均有不同程度提高,其中黃芪甲苷、黃芪皂苷I、黃芪皂苷II、黃芪皂苷III、異黃芪皂苷I、異黃芪皂苷II 的平均質(zhì)量分?jǐn)?shù)較兩年生分別上升42.50%、86.05%、95.82%、100.00%、27.11%、37.81%。兩年生蒙古黃芪總皂苷質(zhì)量分?jǐn)?shù)(6 種黃芪三萜皂苷含量之和)為16.8~27.1 mg/g,平均質(zhì)量分?jǐn)?shù)為22.57 mg/g;三年生蒙古黃芪總皂苷質(zhì)量分?jǐn)?shù)為28.7~39.0 mg/g,平均質(zhì)量分?jǐn)?shù)為35.57 mg/g;蒙古黃芪總皂苷平均質(zhì)量分?jǐn)?shù)三年生較兩年生高出13.0 mg/g,為兩年生的1.58倍。進(jìn)一步對(duì)不同生長(zhǎng)年限蒙古黃芪樣品中三萜皂苷含量進(jìn)行統(tǒng)計(jì)學(xué)分析驗(yàn)證,結(jié)果表明不同生長(zhǎng)年限蒙古黃芪中三萜皂苷含量存在顯著差異(P<0.05),三年生蒙古黃芪三萜皂苷含量顯著升高。
對(duì)不同生長(zhǎng)年限蒙古黃芪樣本進(jìn)行轉(zhuǎn)錄組測(cè)序,每個(gè)樣本重復(fù)3 次,共生成282 321 486 個(gè)clean reads,包含有42.22 Gb 的clean base。Q20 的堿基百分比分布在98.57%~97.71%,Q30 的堿基百分比分布在94.88%~95.29%,GC 堿基量為46.10%~49.86%(表1)。結(jié)果表明蒙古黃芪轉(zhuǎn)錄組測(cè)序數(shù)據(jù)質(zhì)量較高,用Trinity 軟件將高質(zhì)量數(shù)據(jù)進(jìn)行De novo 組裝,共得到369 790 條transcripts 和336 068條Unigene,N50 長(zhǎng)度分別為1293、904 bp,N90長(zhǎng)度分別為275、261 bp,組裝完整性較好。長(zhǎng)度分布在200~500 bp 的Unigene 最多,有227 595 條,占Unigene 總數(shù)的67.72%(表2)。將Trinity 拼接得到的轉(zhuǎn)錄組作為參考序列,將各樣品的clean reads 與參考序列進(jìn)行比對(duì),得到各個(gè)樣品的mapped reads,其樣品匹配度均在76.0%以上,表明測(cè)序數(shù)據(jù)組裝拼接效果較好。
表1 各樣品轉(zhuǎn)錄組測(cè)序基礎(chǔ)數(shù)據(jù)Table 1 RNA-seq data of samples
表2 轉(zhuǎn)錄本拼接情況統(tǒng)計(jì)Table 2 Statistics of transcripts and Unigenes after sequence assembly
將得到的336 068 條Unigene 與各大核苷酸和蛋白質(zhì)數(shù)據(jù)庫(kù)進(jìn)行比對(duì),發(fā)現(xiàn)Unigene 在NR 數(shù)據(jù)庫(kù)和PFAM 數(shù)據(jù)庫(kù)中基因匹配率最高分別為97.18%、85.94%。其次是Swiss-Prot 數(shù)據(jù)庫(kù)和GO 數(shù)據(jù)庫(kù),在Swiss-Prot 數(shù)據(jù)庫(kù)、GO 數(shù)據(jù)庫(kù)、PFAM 數(shù)據(jù)和NR 數(shù)據(jù)庫(kù)被同時(shí)注釋的Unigene 為16 916 條。在5 個(gè)數(shù)據(jù)庫(kù)被共同注釋到的Unigene 有21 194 條,占總Unigene 的6.31%(表3 和圖1)。
圖1 序列注釋韋恩圖Fig.1 Venn diagram of transcript annotation in different databases
表3 序列注釋統(tǒng)計(jì)Table 3 Statistics of sequence annotation
統(tǒng)計(jì)在NR 數(shù)據(jù)庫(kù)中比對(duì)到的注釋信息,共得到61 285 條Unigene,其中蒙古黃芪與雙子葉植物綱(Dicotyledoneae)相似序列匹配度最高為60 059條(98%);其次為豆目(Fabales Bromhead)39 222條(64%),豆科(Fabaceae)41 061 條(67%),鷹嘴豆屬CicerLinn.18 385 條(30%)、苜蓿屬M(fèi)edicagoL.12 870 條(21%)。進(jìn)行物種信息對(duì)比發(fā)現(xiàn),蒙古黃芪與植物鷹嘴豆Cicer arietinumLinn.相似序列匹配度最高為21 450 條(35%),其次是蒺藜狀苜蓿Medicago_truncatulaGaertn.15 321 條(25%)、歐洲栓皮櫟Quercus suberL.4290 條(7%)、百脈根Lotus japonicusLinn.4290 條(7%)、木豆Cajanus cajan(Linn.) Millsp.3677 條(6%)、稻Oryza sativaL.3064 條(5%)。這些注釋信息可為蒙古黃芪基因相關(guān)研究提供參考(圖2)。
圖2 同源序列物種比對(duì)Fig.2 Species distribution annotated in NR database gene_ontology_blast
通過(guò)GO 基因本體論數(shù)據(jù)庫(kù)注釋?zhuān)M(jìn)一步將蒙古黃芪基因產(chǎn)物功能和概念闡釋[27]。將蒙古黃芪的Unigenes 比對(duì)到GO 數(shù)據(jù)庫(kù)中,發(fā)現(xiàn)共有39 166 條基因序列得到注釋??傮w分為3 大類(lèi):分子功能(molecular function,81 027 條,30.20%)、細(xì)胞組分(cellular component,88 136 條,32.85%)和生物過(guò)程(biological process,99 156 條,36.95%)。注釋到具有分子功能的Unigenes 共分為15 種,其中結(jié)合蛋白(binding,17 842 條)和催化活性(catalytic activity,16 395 條)比對(duì)到的基因數(shù)目最多。注釋到細(xì)胞組分的20 個(gè)組別中,細(xì)胞(cell,24 644 條)、細(xì)胞器(organelle,19 296 條)和細(xì)胞部分(cell part,24 578 條)所占的比例最高。在比對(duì)到生物過(guò)程的 26 個(gè)分組中新陳代謝過(guò)程(metabolic process,16 150 條)、細(xì)胞過(guò)程(cellular process,20 126 條)和生物調(diào)控(biological regulation,7978 條)基因數(shù)目最多(圖3)。
圖3 轉(zhuǎn)錄組的GO 注釋統(tǒng)計(jì)Fig.3 GO annotation of the transcriptome
將蒙古黃芪的Unigenes 在eggNOG/GO 數(shù)據(jù)庫(kù)中進(jìn)行信息比對(duì),共注釋到了36 559 條基因,分為24 類(lèi)(圖4),其中已知功能且條目數(shù)最多的有翻譯后修飾/蛋白質(zhì)周轉(zhuǎn)(posttranslational modification,protein turnover)2982 條、碳水化合物的運(yùn)輸和新陳代謝(carbohydrate transport and metabolism)2553條、信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(signal transduction mechanisms)2442 條。
圖4 基因eggNOG/COG 注釋分類(lèi)統(tǒng)計(jì)圖Fig.4 EggNOG/COG annotation classification statistical map of genes
KEGG 注釋分析發(fā)現(xiàn)蒙古黃芪共有23 630 個(gè)Unigene 成功比對(duì)到84 條通路中,主要在代謝(metabolism,6594 條67.42%)、遺傳信息處理(genetic information processing,2 195 條,22.44%)、細(xì)胞過(guò)程(cellular processes,690 條,7.06%)、有機(jī)系統(tǒng)(organismal systems,179 條,1.83%)、環(huán)境信息處理(environmental information processing,122 條,1.25%)5 個(gè)大的分類(lèi)中(圖5)。富集到代謝過(guò)程的Unigene 最多,其中有20 條代謝途徑共2911 條Unigene 與植物的次生代謝產(chǎn)物合成相關(guān);聚集在氨基?;?tRNA 生物合成(aminoacyl-tRNA biosynthesis,228 條)的DEGs 數(shù)目最多,后富集較多Unigene 的5 條代謝途徑依次是苯丙素生物合成(phenylpropanoid biosynthesis,226 條)、苯丙氨酸、酪氨酸和色氨酸生物合成(phenylalanine,tyrosine and tryptophan biosynthesis,152 條)、萜類(lèi)骨架生物合成(terpenoid backbone biosynthesis,122條)、不飽和脂肪酸的生物合成(biosynthesis of unsaturated fatty acids,114 條)、泛酸鹽和輔酶A 生物合成(pantothenate and CoA biosynthesis,107 條)(表4)。
表4 差異次生代謝物合成途徑Table 4 Differential secondary metabolite synthesis pathways
圖5 基因KEGG 二級(jí)分類(lèi)統(tǒng)計(jì)Fig.5 KEGG secondary classification statistics of genes
差異豐度基因篩選,以差異倍數(shù)|FoldChange|≥2且FDR(false discovery rate)<0.01 作為篩選標(biāo)準(zhǔn),判斷轉(zhuǎn)錄本上調(diào)和下調(diào)表達(dá)情況,篩選到蒙古黃芪轉(zhuǎn)錄本差異表達(dá)基因共48 261 條,其中三年生蒙古黃芪上調(diào)表達(dá)30 138 條,下調(diào)表達(dá)18 123 條。進(jìn)一步對(duì)差異表達(dá)基因進(jìn)行KEGG 代謝通路富集分析(圖6),結(jié)果共有10 061 條DEGs 被富集到84條pathway 上,在富集較顯著的15 條通路中,差異代謝基因主要富集在萜類(lèi)骨架生物合成、二萜類(lèi)生物合成(diterpenoid biosynthesis)、氨基?;?tRNA 生物合成中。三年生蒙古黃芪在氨基?;?tRNA 生物合成途徑富集到228 條Unigenes 的背景下,富集到差異代謝基因有183 條,99 條顯著上調(diào);在萜類(lèi)骨架生物合成途徑富集到122 條Unigenes 的背景下,富集到100條差異代謝基因,其中有53 條DEGs 顯著上調(diào);在二萜類(lèi)生物合成途徑富集到的14 條Unigenes 的背景下,在富集到13 條差異代謝基因,全部表達(dá)下調(diào)。
圖6 差異基因KEGG 途徑富集Fig.6 KEGG pathways enriched for differentially expressed genes
不同生長(zhǎng)年限蒙古黃芪的萜類(lèi)骨架生物合成和二萜類(lèi)生物合成通路中共篩選到15 種差異表達(dá)關(guān)鍵酶基因,分別為六異戊二烯二磷酸合酶(hexaprenyl-diphosphate synthase,hexPS,2 條Unigene)、?;o酶 A-膽固醇?;D(zhuǎn)移酶(acetyl-CoA C-acetyltransferase,ACAT,10 條Unigene)、羥甲基戊二酰輔酶 A 合酶(hydroxymethylglutaryl-CoA synthase,HMGCS,5 條Unigene)、羥甲基戊二酰輔酶A 還原酶(hydroxymethylglutaryl-CoA reductase,HMGCR,13條Unigene)、甲羥戊酸激酶(mevalonate kinase,MVK,4 條 Unigene)、磷酸甲羥戊酸激酶(phosphomevalonate kinase,MVAK2,4 條Unigene)、二磷酸甲羥戊酸脫羧酶(diphosphomevalonate decarboxylase,MVD,4 條Unigene)、異戊烯二磷酸Delta-異構(gòu)酶(isopentenyl-diphosphate deltaisomerase,IDI,3 條Unigene)、過(guò)二磷酸合酶(farnesyl diphosphate synthase,F(xiàn)DPS,11 條Unigene)、牻牛兒基牻牛兒基焦磷酸合酶(geranylgeranyl diphosphate synthase,GGPS1,6 條Unigene)、蛋白香葉烯基轉(zhuǎn)移酶(protein farnesyltransferase subunit beta,F(xiàn)NTB,7 條)、內(nèi)肽酶(endopeptidase,STE24,4 條Unigene)、蛋白質(zhì)-S-異戊二烯半胱氨酸O-甲基轉(zhuǎn)移酶(protein-S-isoprenylcysteineO-methyl transferase,STE14,2 條Unigene)、異戊二烯半胱氨酸氧化酶(prenylcysteine oxidase/ farnesylcysteine lyase,F(xiàn)CLY,6 條)、二轉(zhuǎn)聚戊二烯基二磷酸合酶(ditranspolycis-polyprenyl diphosphate synthase,DHDDS,9 條)。其中hexPS均上調(diào)表達(dá),ACAT、HMGCS、HMGCR、MVK、MVAK2、MVD、IDI、FDPS、GGPS1、FNTB、STE24、STE14、FCLY、DHDDS既有上調(diào)又有下調(diào)表達(dá)的Unigene,其差異表達(dá)基因聚類(lèi)熱圖(圖7)。
圖7 差異代謝基因聚類(lèi)熱圖Fig.7 Clustering heat map of differential metabolic genes
不同生長(zhǎng)年限蒙古黃芪皂苷合成通路中共篩選到8 種CYP 和2 種UGT 差異表達(dá)關(guān)鍵酶基因。分別為參與丙酮酸代謝和氨基苯甲酸酯降解的?;姿崦富颍╝cylphosphatase,acyP);參與苯丙烷生物合成的阿魏酸-5-羥化酶基因(ferulate-5-hydroxylase,CYP84A/F5H);參與類(lèi)固醇生物合成的甾醇14α-去甲基化酶基因(sterol 14alpha-demethylas,CYP51)和甾醇 22-去飽和酶基因(ERG5/CYP61A,sterol 22-desaturase);參與色氨酸代謝、氨基苯甲酸酯降解的細(xì)胞色素P450/NADPH-細(xì)胞色素P450 還原酶基因(cytochrome P450/NADPH-cytochrome P450 reductase,cypD_E/CYP102A/CYP505);參與壞死性凋亡和細(xì)胞衰老通路的肽基-脯氨酰異構(gòu)酶基因(peptidyl-prolyl isomerase D,PPID/CYPD);剪接體酶肽基脯氨酰異構(gòu)酶H [peptidyl-prolyl isomerase H,PPIH/CYPH(cyclophilin H)];參與視黃醇代謝的細(xì)胞色素P450 家族26 亞家族A 酶基因(cytochrome P450 family 26 subfamily A,CYP26A)。2 種UGT 關(guān)鍵酶基因分別是:糖蛋白葡糖基轉(zhuǎn)移酶基因(UDP-glucose:glycoprotein glucosyltransferase,HUGT);SKP1的G2 等位基因抑制因子(suppressor of G2 allele ofSKP1,SUGT1/ SGT1)。篩選的10 種三萜皂苷生物合成后修飾基因,在三年生蒙古黃芪中的表達(dá)均上升(表5)。
表5 黃芪皂苷生物合成的CYP、UGT 基因Table 5 Astragalus saponin biosynthesis of CYP, UGT genes
本研究用高通量測(cè)序技術(shù),對(duì)不同生長(zhǎng)年限蒙古黃芪新鮮植物根進(jìn)行轉(zhuǎn)錄組測(cè)序分析,質(zhì)控和拼接后得到了336 068 條Unigenes,在5 個(gè)數(shù)據(jù)庫(kù)(NR、Swiss-Prot、GO、KEGG、PFAM、)被共同注釋到21 194 條Unigene,占總Unigene 的6.31%,極大地豐富了蒙古黃芪的轉(zhuǎn)錄組信息和生物學(xué)信息,擴(kuò)充了黃芪的數(shù)據(jù)庫(kù)信息。進(jìn)一步對(duì)其基因進(jìn)行分析,發(fā)現(xiàn)在KEGG 數(shù)據(jù)庫(kù)中有23 630 個(gè)Unigenes成功比對(duì)到84 條通路中,兩、三年生蒙古黃芪至少有10 061 條差異表達(dá)基因,主要表現(xiàn)在氨基?;?tRNA 生物合成、萜類(lèi)骨架生物合成、二萜類(lèi)生物合成途徑中。
蒙古黃芪的Unigene在Nr數(shù)據(jù)庫(kù)獲得注釋比例最高(98.17%),注釋到的同源信息主要為雙子葉植物綱(98%),其次為豆目(64%)、蝶形花科(67%)、鷹嘴豆屬(30%)、苜蓿屬(21%),這可為蒙古黃芪的物種起源、植物進(jìn)化、遺傳變異、物種分類(lèi)等提供重要參考。進(jìn)一步進(jìn)行物種序列相似性比對(duì)發(fā)現(xiàn),蒙古黃芪與植物鷹嘴豆(35%)、蒺藜狀苜蓿(25%)、歐洲栓皮櫟(7%)、百脈根(7%)、木豆(6%)的相似序列匹配度較高,這些物種的基因信息可為蒙古黃芪的基因功能研究提供參考。對(duì)蒙古黃芪已知序列但未知結(jié)構(gòu)功能的蛋白質(zhì),可以從這些植物中尋找它的相似序列,從而推測(cè)出相似序列表達(dá)產(chǎn)生的蛋白質(zhì)結(jié)構(gòu)和功能[28-29]。
進(jìn)一步對(duì)兩、三年生蒙古黃芪差異表達(dá)基因進(jìn)行KEGG 代謝通路分析,發(fā)現(xiàn)差異代謝基因主要富集在萜類(lèi)骨架生物合成和二萜類(lèi)生物合成中,其中三年生蒙古黃芪hexPS酶基因均上調(diào)表達(dá),ACAT、HMGCS、HMGCR、MVK、MVAK2、MVD、IDI、FDPS、GGPS1、FNTB、STE24、STE14、FCLY、DHDDS既有上調(diào)表達(dá)又有下調(diào)表達(dá)的Unigene。其中hexPS作為萜類(lèi)合成的關(guān)鍵基因,主要參與萜類(lèi)基礎(chǔ)骨架合成,以滿足黃芪三萜皂苷前體物質(zhì)的供應(yīng),對(duì)黃芪三萜皂苷的合成起著支撐性作用[30]。三年生蒙古黃芪的hexPS基因表達(dá)明顯上調(diào),可能與其三萜皂苷合成量大,對(duì)萜類(lèi)基礎(chǔ)骨架需求量大有關(guān),這與本研究對(duì)兩年生、三年生蒙古三萜皂苷含量驗(yàn)證結(jié)果一致[31]。ACAT、FNTB、STE24、STE14、FCLY、DHDDS主要參與萜骨架的合成與修飾,其表達(dá)既有上調(diào)又有下調(diào),但上調(diào)表達(dá)數(shù)明顯大于下調(diào)表達(dá)數(shù),這可能與萜骨架合成與修飾過(guò)程中一些負(fù)反饋調(diào)節(jié)基因的參與有關(guān),當(dāng)植物合成的某些有機(jī)物積累到一定量時(shí),負(fù)反饋調(diào)節(jié)機(jī)制會(huì)降低其正向合成基因的表達(dá)[32]。HMGCR是HMGCS經(jīng)甲羥戊酸途徑合成C5 類(lèi)異戊二烯中間體的負(fù)反饋調(diào)節(jié)基因,二者雙向調(diào)節(jié)異戊二烯中間體的合成速率,故當(dāng)C5 類(lèi)異戊二烯中間體合成達(dá)到一定量時(shí),HMGCS基因會(huì)受到HMGCR的反饋調(diào)節(jié)而出現(xiàn)短暫的表達(dá)減弱。MVK將高能供體分子磷酸基團(tuán)轉(zhuǎn)移到特定靶分子“激活”或“能化”甲羥戊酸底物分子,然后MVAK2將甲羥戊酸磷酸化,MVD對(duì)二磷酸甲羥戊酸進(jìn)行脫羧反應(yīng),生成的異戊烯二磷酸再由IDI、FDPS、GGPS1、FNTB等酶基因經(jīng)一系列反應(yīng)生成三萜皂苷前體物質(zhì)異戊烯焦磷酸(isopentenyl pyrophosphate,IPP)[33]。黃芪三萜皂苷的生物合成首先經(jīng)過(guò)萜類(lèi)骨架生物合成途徑生成萜類(lèi)前體物質(zhì),然后經(jīng)過(guò)甲羥戊酸(mevalonate)途徑或2-C-甲基-D-赤蘚醇-4-磷酸(2-C-methl-Derythritol-4-phospate)途徑磷酸化,生成異戊烯焦磷酸[34],IPP 再由法尼基焦磷酸合酶、鯊烯合酶、鯊烯環(huán)氧酶、環(huán)阿屯醇合酶經(jīng)一系列反應(yīng)生成三萜皂苷的前體環(huán)阿屯醇(cycloartenol)[35-36],環(huán)阿屯醇再經(jīng)一系列的氧化、還原、糖基化等后修飾,最終生成黃芪皂苷類(lèi)化合物。
關(guān)于黃芪三萜皂苷生物合成的后修基因目前少有報(bào)道,因此,本研究進(jìn)一步從蒙古黃芪轉(zhuǎn)錄組測(cè)序結(jié)果中挖掘參與黃芪三萜皂苷生物合成后修飾的CYP、UGT 酶基因。從不同生長(zhǎng)年限蒙古黃芪皂苷合成通路中共篩選到8 種CYP 差異表達(dá)關(guān)鍵酶基因,分別為acyP、PPID/CYPD、PPIH/CYPH、CYP26A、CYP51、CYP84A、CYP61A、cypD_E/CYP102A/CYP505;2 種UGT 差異表達(dá)關(guān)鍵酶基因,分別是HUGT、SUGT1。共篩選的10 種CYP、UGT 酶基因在三年生蒙古黃芪的表達(dá)均明顯增強(qiáng),本研究對(duì)蒙古黃芪三萜皂苷含量進(jìn)行測(cè)定,三年生蒙古黃芪三萜皂苷含量明顯上升,這可能與黃芪三萜皂苷生物合成的后修飾酶基因CYP、UGT的表達(dá)調(diào)控有關(guān)[37]。其中CYP84A可通過(guò)苯丙烷生物合成途徑合成木質(zhì)素單體[38];CYP61A主要通過(guò)類(lèi)固醇生物合成角鯊烯 2,3-環(huán)氧化物[39];CYP51主要通過(guò)膽固醇生物合成、麥角鈣化醇生物合成、植物甾醇生物合成途徑合成角鯊烯2,3-環(huán)氧化物[40];HUGT主要參與內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)加工修飾[41];這些CYP、UGT 酶基因均可作為蒙古黃芪三萜皂苷合成后加工與修飾的候選基因。
本研究通過(guò)對(duì)蒙古黃芪轉(zhuǎn)錄組測(cè)序和生物信息學(xué)分析,極大地豐富了蒙古黃芪的生物學(xué)信息,挖掘了參與黃芪三萜皂苷的合成通路及關(guān)鍵基因,探討了關(guān)于黃芪三萜皂苷生物合成的后修飾酶基因CYP、UGT及其表達(dá)規(guī)律,為后續(xù)深入研究蒙古黃芪的植物育種、遺傳變異、生長(zhǎng)發(fā)育、有效成分合成提供理論基礎(chǔ)。
利益沖突所有作者均聲明不存在利益沖突