摘"要: "白芷為常用的藥食同源物種,既是臨床常用中藥,又是香料,用途十分廣泛。為獲取白芷全基因組序列信息,該研究首次以杭白芷葉片DNA為材料,采用 Nanopore 測序技術(shù)構(gòu)建杭白芷全基因組數(shù)據(jù)庫,并利用生物信息學方法對獲得的核苷酸序列進行組裝、功能注釋以及進化分析研究。結(jié)果表明:(1)原始測序數(shù)據(jù)過濾后獲得662 Gb三代數(shù)據(jù),Read N50約為32 932 bp,經(jīng)過組裝得到杭白芷基因組大小為5.6 Gb,Contig N50 約為806 638 bp。(2)組裝后的序列通過與 KOG、GO、KEGG 等功能數(shù)據(jù)庫比對,得到了功能注釋的基因占66.47%,KOG功能注釋結(jié)果表明杭白芷的蛋白功能主要集中在一般功能預測、翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換、伴侶以及信號轉(zhuǎn)導機制;GO功能分類表明杭白芷的基因集中在生物學過程及細胞組分;KEGG通路注釋表明參與代謝途徑的基因占主要地位。(3)杭白芷中鑒定到45個BGLU家族基因。該研究首次利用第三代測序技術(shù)對杭白芷全基因組進行解析,為杭白芷的系統(tǒng)生物學研究和BGLU在杭白芷生長發(fā)育中的后續(xù)功能研究提供了重要的理論參考。
關(guān)鍵詞: 杭白芷, 基因組, 第三代測序技術(shù), BGLU基因家族, 藥用植物
中圖分類號: "Q943.2
文獻標識碼: "A
文章編號: "1000-3142(2024)04-0777-16
Complete genome sequencing and BGLU gene
family analysis of Angelica dahurica
WANG Yalan, ZHOU Luojing, ZHANG Lingyu, ZHANG Jing,
BIAN Jinhui, GAO Jihai
( Key Laboratory of Distinctive Chinese Medicine Resources in Southwest China, Chengdu Universityof Traditional Chinese Medicine, Chengdu 611137, China )
Abstract: "Angelica dahurica is a common species of medicine and food homology, which is not only a common clinical traditional Chinese medicine, but also a spice, with a wide range of uses. In order to obtain the whole genome sequence information of A. dahurica, we used A. dahurica var. formosana leaf DNA as material, and the Nanopore sequencing technology was used to establish its nucleotide sequences database, then genome assembly, function annotation and evolution analysis were carried out by bioinformatic methods. The results were as follows:(1) A total of 662 Gb of the third-generation data were obtained after fittering the original sequencing data, with the Read N50 about 32 932 bp. The assembled A. dahurica genome size was 5.6 Gb, Contig N50 was about 806 638 bp. (2) The genes were with gene annotations accounted for 66.47% after being compared with functional databases such as NR, KOG and KEGG. The result of KOG gene annotation was that the protein function of A. dahurica concentrated in the general functional prediction, posttranslational modification, protein turnover, chaperones and signal transduction mechanisms. GO functional classification indicated that the genes of A. dahurica concentrated on cell biological processes and components. KEGG analysis found that the A. dahurica genes mostly involved in metabolic pathways. (3) And 45 genes of BGLU family were identified in A. dahurica. In this study, the whole genome of A. dahurica is resolved by the third-generation sequencing technology for the first time, which provides "important theoretical references for the systematic biological study "and the further study of the function of BGLU in the growth and development of A. dahurica.
Key words:
Angelica dahurica var. formosana, genome, the third-generation sequencing technology, BGLU gene family, medicinal plant
白芷為傘形科(Apiaceae)植物白芷(Angelica dahurica)或杭白芷(A. dahurica var. formosana)的干燥根,主產(chǎn)于四川、杭州等地,多為栽培品。白芷是常見的藥食同源藥材,在臨床上可用于感冒頭痛、眉棱骨痛、牙痛、瘡瘍腫痛等各種類型的疼痛癥狀(國家藥典委員會,2020),在日常生活中也可以作為香料使用。同時,因其氣味芳香,被廣泛應(yīng)用于化妝品、洗護用品等方面(于靜和朱艷華,2014)。白芷含有多種活性成分,如香豆素類、揮發(fā)油類、多糖類、生物堿類等(Li et al., 2014; Zhao et al., 2022),現(xiàn)代研究表明其主要有效成分是香豆素類和揮發(fā)油類,具有解熱鎮(zhèn)痛、抗炎、抗病原微生物、抗腫瘤、降壓、保肝等多種藥理作用(吉慶等,2020;王蕊等,2020)。
白芷的應(yīng)用前景十分廣泛,但近年對白芷的研究多數(shù)集中在化學成分、栽培技術(shù)、藥理藥效的解析等方面,而少有關(guān)于白芷遺傳信息的研究,目前只見對白芷轉(zhuǎn)錄組進行測序分析(吳萍等,2020)的研究,對白芷COSNTANS-like(蔣翼杰等,2021)、NAC(黃文娟等,2021)、MYB-related(姚菲等,2022)基因家族的研究以及白芷中香豆素合成關(guān)鍵基因的挖掘均是依據(jù)轉(zhuǎn)錄組數(shù)據(jù)進行(劉洋,2019),白芷基因組數(shù)據(jù)的缺乏導致無法獲取白芷完整的遺傳信息,更多的研究無法開展或進一步深入,因此對其進行全基因組測序顯得十分重要。
香豆素類成分既是白芷的藥效成分,又是香氣成分,香豆素類化合物廣泛存在于自然界的多種植物中,如傘形科、蕓香科、??频鹊闹参铮╒enugopala et al., 2013),近年來對香豆素的生物合成途徑研究較多,一些關(guān)鍵酶及功能作用的解析也較為清晰(段珍等,2022)。其中,就包括β-葡萄糖苷酶(β-glucosidase, BGLU),β-葡萄糖苷酶家族不僅在香豆素的生物合成中起到重要調(diào)控作用,而且廣泛參與植物激素信號激活(Sun et al., 2014)、次生代謝(Sampedro et al., 2017)等多種重要生理過程。有研究表明β-葡萄糖苷酶家族在草木樨的香豆素合成中起到重要調(diào)控作用(吳凡,2021),在玉米中能通過催化碳水化合物部分和香豆素核心結(jié)構(gòu)間的β-葡萄糖苷鍵的水解,進而產(chǎn)生香豆素苷元形式;黑曲霉來源的β-葡萄糖苷酶對丁公藤粗提物中的東莨菪苷可特異性水解,并使其含量提高47%(于坤朋等,2023);從擬南芥中分離的3種β-葡萄糖苷酶能特異性水解東莨菪苷成東莨菪內(nèi)酯,東莨菪內(nèi)酯屬于香豆素類成分,在白芷中也有存在,課題組推測在白芷的香豆素成分合成中,BGLU基因也起到關(guān)鍵作用。
目前未見關(guān)于白芷高質(zhì)量基因組的研究,對白芷中香豆素合成途徑的解析也較少,為了進一步豐富白芷遺傳進化的研究資料,本研究通過對杭白芷進行第二代、第三代基因組測序,對測序數(shù)據(jù)進行組裝、注釋等,獲得杭白芷的高質(zhì)量基因組,并進行功能注釋、基因家族聚類等分析,然后挖掘香豆素合成途徑關(guān)鍵基因BGLU,通過在線軟件對基因組中提取的BGLU序列進行基本的特征分析,擬探討以下問題:(1)杭白芷基因組概況; (2)基因功能主要集中在哪些生物學過程及代謝通路;(3)BGLU基因家族的基本特征是什么。以期為白芷的后續(xù)研究提供數(shù)據(jù)基礎(chǔ)及分子基礎(chǔ),為后續(xù)深入研究BGLU基因家族在白芷香豆素合成途徑中的功能提供前期基礎(chǔ)。
1"材料與方法
1.1 材料及DNA提取
杭白芷植株采自成都中醫(yī)藥大學藥用植物園,經(jīng)國家中藥種質(zhì)資源庫專家高繼海副教授鑒定為傘形科植物杭白芷(Angelica dahurica var. formosana)。采摘新鮮、幼嫩、無病蟲害的葉片,先用蒸餾水清洗表面,再用75%乙醇清洗3次,擦干后置于-80 ℃凍存,備用。
參照沙麗萍(2018)采用CTAB法提取杭白芷葉片DNA。提取的DNA需通過瓊脂糖凝膠電泳和Qubit Fluorometer檢測濃度,以及Nanodrop檢測純度和完整度。
1.2 文庫構(gòu)建及測序
(1)MGISEQ-200測序:提取的杭白芷基因組DNA經(jīng)檢測合格以后,通過酶解隨機打斷成片段,經(jīng)末端修復、加A尾、加測序接頭、純化、PCR擴增等步驟構(gòu)建插入片段長度為150 bp的DNA文庫。將構(gòu)建好的文庫在MGISEQ-200平臺進行雙端測序。
(2)Nanopore測序:利用磁珠對檢測合格的DNA進行富集和純化,并對純化后的DNA進行損傷修復、末端修復、加A尾后再純化;將產(chǎn)物進行測序相關(guān)的連接及純化,得到最終上機文庫;用Qubit對建好的DNA文庫進行精確的定量檢測,取一定量的DNA文庫混合上機相關(guān)試劑后加入流動槽中;在GridION測序儀上進行單分子測序,得到原始數(shù)據(jù)。
1.3 基因組測序數(shù)據(jù)的質(zhì)量控制
二代原始測序數(shù)據(jù)中包含的接頭信息,低質(zhì)量堿基,未測出的堿基(以N表示)等會對后續(xù)的信息分析造成很大的干擾,這些干擾信息需要利用FastQC v0.11.9軟件和Trimmomatic v0.39軟件進行過濾,最終得到有效數(shù)據(jù)(clean reads)用于后續(xù)分析。
使用NanoPlot v1.20.0軟件對三代Nanopore測序數(shù)據(jù)的測序質(zhì)量進行檢測,再利用NanoFlit v2.8.0軟件進行低質(zhì)量和短片段數(shù)據(jù)的過濾。
1.4 基因組大小和雜合度評估
利用MGISEQ-200測序得到的reads數(shù)據(jù),采用Jellyfish v1.1.10做Survey分析來預估基因組大小、雜合率及重復序列占比,以判斷基因組復雜情況。采用基因K-mer的分析方法來估計杭白芷基因組特征。
1.5 基因組組裝及評估
為得到高準確性的三代組裝結(jié)果,先采用Canu v2.1.1(Koren et al., 2017)軟件對Clean Reads進行糾錯,然后將糾錯后的數(shù)據(jù)進行組裝,用Racon v1.0.0(Senol et al., 2019)軟件對組裝結(jié)果進行糾錯,再用Pilon v1.22軟件使用二代數(shù)據(jù)進行校正,最后利用BUSCO v5.1.2(Simo et al., 2015)軟件對組裝完成的基因組進行完整性評估。
1.6 序列預測
首先,基于結(jié)構(gòu)預測和從頭預測(Ab initio)的原理,使用LTR Finder v1.05(Xu amp; Wang, 2007)、RepeatScout v1.0.6、PILER-DF v2.4軟件構(gòu)建重復序列數(shù)據(jù)庫,利用PASTEClassifier v2.0對構(gòu)建好的重復序列庫進行分類;然后,基于重復序列數(shù)據(jù)庫Repbase(https://www.girinst.org/repbase/)合并作為最終的杭白芷基因組的重復序列數(shù)據(jù)庫;最后,基于構(gòu)建好的數(shù)據(jù)庫采用RepeatMasker v4.1.2軟件對杭白芷進行重復序列的預測。
基于從頭預測和同源物種預測(Homolog)兩種原理對杭白芷基因組進行基因預測,并對預測結(jié)果進行評估。首先,利用Genscan v1.0、Augustus v3.3.1、GlimmerHMM v3.0.4、GeneID v1.4、SNAP v8.0.0進行從頭預測;然后,使用GeMoMa v1.3.1進行基于同源物種的預測;最后,利用EvidenceModeler v1.1.0整合和校正上述方法得到的預測結(jié)果。針對非編碼RNA預測,包括microRNA、rRNA及tRNA等已知功能的RNA,分別基于Rfam(Finn et al., 2006)數(shù)據(jù)庫和miRBase數(shù)據(jù)庫并利用Infenal v1.1.3進行rRNA和microRNA預測;利用tRNAscan-SE v2.0.7識別tRNA。
1.7 功能基因注釋
對預測得到的基因序列與NR(Non-Redundant Protein Database)、KOG(EuKaryotic Orthologous Groups)、KEGG(Kyoto Encyclopedia of Genes and Genomes)、TrEMBL等功能數(shù)據(jù)庫做BLAST v2.2.31比對,設(shè)置比對篩選閾值(e-value<1e-5),得到基因功能注釋?;贜R數(shù)據(jù)庫比對結(jié)果,應(yīng)用軟件 Blast2GO v5.2.5進行GO數(shù)據(jù)庫的功能注釋。
1.8 基因家族聚類分析及系統(tǒng)進化分析
利用杭白芷和其同科物種的對比來尋找基因家族,從NCBI數(shù)據(jù)庫中下載杭白芷同科植物芹菜(Apium graveolens)(Song et al., 2021)、胡蘿卜(Daucus carota subsp. sativus)(Iorizzo et al., 2016)的蛋白序列,從CGDB(http://cgdb.bio2db.com)下載芫荽(Coriandrum sativum)(Song et al., 2020)蛋白序列。通過OrthoMCL v2.0(Li et al., 2003)軟件對all-vs-all blastp獲得的所有物種蛋白序列間的相似性關(guān)系進行聚類分析。將從OrthoMCL聚類結(jié)果中提取單拷貝蛋白序列,通過Muscle v3.8.31(Edgar, 2004)軟件進行對比后,再通過RAxML v8.2.12(Guindon amp; Gascuel, "2003)軟件采用最大似然法(ML TREE)構(gòu)建進化樹。
1.9 杭白芷BGLU基因家族成員挖掘
利用SMART數(shù)據(jù)庫,獲得擬南芥BGLU基因家族的典型結(jié)構(gòu)域序列tBLASTN (P=0.001),并搜索杭白芷基因組數(shù)據(jù)庫,通過Pfam數(shù)據(jù)庫得到杭白芷中所有BGLU基因家族成員。
1.10 BGLU基因家族理化性質(zhì)、亞細胞定位、蛋白二級結(jié)構(gòu)及保守域分析
利用ProtParam tool(https://web.expasy.org/protparam/)(Wilkins et al., 1999)在線軟件對BGLU家族蛋白進行理化性質(zhì)分析;用Plant-mPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/)及WoLF PSORT(https://wolfpsort.hgc.jp/) 在線軟件綜合分析其亞細胞定位;使用SOMPA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)在線軟件分析其二級結(jié)構(gòu);通過MEME(https://meme-suite.org/meme/tools/meme)在線軟件分析保守結(jié)構(gòu)域。
1.11 BGLU家族系統(tǒng)進化分析
利用MEGA軟件中的Clustal W v2.0(Larkin et al., 2007)程序?qū)及总坪蛿M南芥的BGLU家族蛋白序列進行對比,將對比結(jié)果采用鄰接法構(gòu)建系統(tǒng)發(fā)育樹。
2"結(jié)果與分析
2.1 基因組測序
通過測序平臺對杭白芷葉片進行全基因組測序,對原始數(shù)據(jù)的Reads質(zhì)量值進行初步過濾,去掉低質(zhì)量和短片段的Reads,統(tǒng)計得到150 Gb二代原始數(shù)據(jù)、662 Gb三代原始數(shù)據(jù)。三代數(shù)據(jù)中,Read N50為32 932 bp,最長Reads的長度為422 833 bp,平均長度為27 750 bp,測序質(zhì)量符合后續(xù)組裝要求。Survey分析得出杭白芷基因組的大小約為5.2 Gb。
2.2 基因組組裝及評估
借助Canu軟件對杭白芷進行糾錯組裝,基因組大小約為5.6 Gb,Contig N50為806 638 bp,最長的Contig為21 677 961 bp,GC含量為35.73%。組裝后的基因組采用BUSCO v5.1.2 軟件評估,在組裝的基因中共找到1 580個完整的BUSCO基因,其中完整單拷貝的1 272個,F(xiàn)ragmented BUSCO 18個基因,有16個基因在Embryophyta_odb10數(shù)據(jù)庫中沒有找到,BUSCO評估基因組完整度為97.9%,表明該組裝結(jié)果較為完整。
2.3 基因預測結(jié)果
利用RepeatMasker v4.1.2軟件進行重復序列預測得到包含5.4 Gb重復序列的杭白芷基因組,占比91.36% 。其中,長散在重復序列(LINE)數(shù)目為21 726 條,占比0.41%;短散在重復序列(SINE)數(shù)目為0條;長末端重復序列(LTR)數(shù)目為3 550 524 條,占比69.07%;copyia數(shù)目為1 083 004條,占比30.01%;gypsy數(shù)目為989 985條,占比24.56%;Roling-circles數(shù)目為2 893條,占比0.03%;簡單重復序列(SSR)數(shù)目為7 710條,占比0.03%。
在獲得的67 004個基因中,有34 119 (50.92%)個基因得到了其他物種同源性鑒定或RNA-seq數(shù)據(jù)的支持。共鑒定出2 749個非編碼RNA (ncRNA),其中核糖體RNA (rRNA)20個、轉(zhuǎn)移RNA (tRNA)781個、小分子RNA (microRNA)97個和小核RNA (snRNA)1 505個。
2.4 基因功能注釋與分析
通過KOG功能注釋(圖1)可得出,杭白芷基
因組共29 788個基因獲得注釋,占預測到的總基因數(shù)的44.46%。從圖1中可以看出,杭白芷的蛋白功能主要集中在翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換和伴侶,占比為10.8%;其次為信號轉(zhuǎn)導機制,占比為10.1%,轉(zhuǎn)錄,占比為6.7%;碳水化合物轉(zhuǎn)運和代謝,占比為3.7%;一般功能預測,占比為22.8%。這些基因的差異性表達可以為今后杭白芷的深入研究提供數(shù)據(jù)支持。
A. RNA加工和修飾; B. 染色質(zhì)結(jié)構(gòu)和動力學; C. 能量生產(chǎn)和轉(zhuǎn)換; D. 細胞周期調(diào)控,細胞分裂,染色體分配; E. 氨基酸轉(zhuǎn)運和代謝; F. 核苷酸轉(zhuǎn)運和代謝; G. 碳水化合物轉(zhuǎn)運和代謝; H. 輔酶轉(zhuǎn)運和代謝; I. 脂質(zhì)轉(zhuǎn)運和代謝; J. 翻譯,核糖體結(jié)構(gòu)和生物合成; K. 轉(zhuǎn)錄; L. 復制,重組和修復; M. 細胞壁/細胞膜/胞外被膜生物合成; N. 細胞運動; O. 翻譯后修飾,蛋白質(zhì)轉(zhuǎn)換,伴侶; P. 無機離子轉(zhuǎn)運和代謝; Q. 次級代謝產(chǎn)物的生物合成,轉(zhuǎn)運和代謝; R. 一般功能預測; S. 功能未知; T. 信號轉(zhuǎn)導機制; U. 胞內(nèi)運輸,分泌和囊泡運輸; V. 防御機制; W. 胞外結(jié)構(gòu); Y. 細胞核結(jié)構(gòu); Z. 細胞骨架。
A. RNA processing and modification; B. Chromatin structure and dynamics; C. "Energy production and conversion; D. Cell cycle control, cell division, chromosome partitioning; E. Amino acid transport and metabolism; F. Nucleotide transport and metabolism; G. Carbohydrate transport and metabolism; H. Coenzyme transport and metabolism; I. Lipid transport and metabolism; J. Translation, ribosomal structure and biogenesis; K. Transcription; L. Replication, recombination and repair; M. Cell wall/membrane/envelope biogenesis; N. Cell motility; O. Posttranslational modification, protein turnover, chaperones; P. Inorganic ion transport and metabolism; Q. Secondary metabolites biosynthesis, transport and metabolism; R. General function prediction; S. Function unknown; T. Signal transduction mechanisms; U. Intracellular trafficking, secretion, and vesicular transport; V. Defense mechanisms; W. Extracellular structure; Y. Nuclear structure; Z. Cytoskeleton.
杭白芷基因組GO注釋(圖2)表明,共有44 540個基因具有GO注釋功能,占預測到的總基因數(shù)的66.47%。功能主要分布在生殖、細胞過程、脅迫應(yīng)答、細胞、細胞部位等的基因占優(yōu)勢,其中在生殖的基因占比最多。
KEGG通路注釋(圖3)對杭白芷的15 263個基因進行了通路注釋,占預測到的總基因數(shù)的22.78%。其注釋結(jié)果表明其中主要為參與代謝的基因,并且微生物在不同環(huán)境中的代謝、碳代謝、氨基酸生物合成為主要代謝通路。
2.5 基因家族聚類分析及系統(tǒng)進化分析
將杭白芷與同科植物芫荽、芹菜、胡蘿卜的蛋白序列進行對比,在杭白芷基因組的67 004個蛋白序列中共鑒定出24 335個基因家族,其中4 004個基因家族包含18 151個基因特異存在于杭白芷中,4種植物所共有的基因家族有1 030個(圖4)。
為進一步研究杭白芷的種屬關(guān)系,以96條單拷貝蛋白序列進行比較分析,選擇擬南芥(Arabidopsis thaliana)、玉米(Zea mays)、無油樟(Amborella trichopoda)以及同為傘形科的芫荽、芹菜、胡蘿卜、當歸(Angelica sinensis)共7個已知基因組信息的物種,與杭白芷構(gòu)建遺傳進化樹(圖5),結(jié)果表明杭白芷與芫荽聚為一支,兩物種間親緣關(guān)系較近。
2.6 杭白芷BGLU基因家族理化性質(zhì)、亞細胞定位分析
在杭白芷全基因組中共鑒定到45個BGLU家族基因,分別命名為AdBGLU01~AdBGLU45,利用Protparam Tool進行理化性質(zhì)分析,Plant-mPLoc及WoLF PSORT進行亞細胞定位(表1)。結(jié)果表明,杭白芷的[JP+3]45個BGLU基因編碼的氨基酸數(shù)目在51~930之間,最長包含930個氨基酸殘基(AdBGLU32),最短包含51個氨基酸殘基(AdBGLU30);不穩(wěn)定指數(shù)在11.18~61.86之間,其中38個的不穩(wěn)定系數(shù)小于40,推測其為穩(wěn)定蛋白,其余7個為不穩(wěn)定蛋白;脂肪系數(shù)為56.76~113.25,說明蛋白的熱穩(wěn)定性較好;平均親疏水性在-0.643~0.35之間,其中7個為正值,38個為負值,說明主要為親水性蛋白;等電點在4.24~10.35之間,說明氨基酸大多為弱酸或弱堿性;亞細胞定位預測結(jié)果表明AdBGLU家族成員分別定位于細胞核、細胞質(zhì)、葉綠體、液泡中。AdBGLU基因家族的不同成員間理化性質(zhì)差異較大且亞細胞定位較多,推測該基因家族成員功能較為多樣,在生物體內(nèi)參與不同的生理過程。
2.7 杭白芷BGLU基因家族蛋白二級結(jié)構(gòu)及保守域分析
在線分析網(wǎng)站對杭白芷BGLU家族蛋白的二級結(jié)構(gòu)分析(表2)表明,BGLU家族中α-螺旋和無規(guī)則卷曲所占比例最大,其中α-螺旋所占比例最大的有27個,無規(guī)則卷曲所占比例最大的有18個。無規(guī)則卷曲為蛋白中的不穩(wěn)定編碼區(qū),因此可推測無規(guī)則卷曲越多,該家族成員的功能越多樣(姚菲等,2022)。
保守域分析結(jié)果(圖6)表明,Motif 8為最短,含有29個氨基酸殘基;Motif 6稍長,含35個氨基酸殘基;Motif 2、Motif 3和Motif 7較長,含有41個氨基酸殘基;Motif 1、Motif 4、Motif 5最長,均含有50個氨基酸殘基。通過保守基序結(jié)構(gòu)可看出Motif 5的保守性較高。通過保守域分析發(fā)現(xiàn),不同基因含有的保守域數(shù)量不同,在所有基序中,Motif 1出現(xiàn)的頻率最高,推測其為特征基序。
基于杭白芷和擬南芥的蛋白序列構(gòu)建系統(tǒng)發(fā)育樹(圖7),AdBGLU基因被分為6個亞家族(A-F),AdBGLU和AtBGLU基因同時存在于B-F亞族中,表明這些亞族中基因功能保守(張曼等,2023)。A亞族中,有3個AtBGLU,無AdBGLU;B亞族有1個AdBGLU和4個AtBGLU;C亞族有13個AdBGLU和14個AtBGLU;D亞族有5個AdBGLU和8個AtBGLU;E亞族有14個AdBGLU和17個AtBGLU;F亞族有12個AdBGLU和2個
AtBGLU。在C亞族中,杭白芷和擬南芥的基因數(shù)量相似,推測此亞族中的同源基因在擬南芥和杭白芷中可能發(fā)揮相似的作用;而在其余亞族中,數(shù)量差異較大,可能存在調(diào)控杭白芷內(nèi)香豆素合成的關(guān)鍵基因,此結(jié)論還需進一步驗證。
3"討論與結(jié)論
有研究表明物種的基因組大小與其倍性水平及相應(yīng)的染色體數(shù)目存在一定的正相關(guān)性(Mank amp; Avise, 2006),通過對禾本科282種植物基因參數(shù)的研究發(fā)現(xiàn),隨著染色體倍性從二倍體到八倍體之間增加,其對應(yīng)的基因組大小也顯著增大,其基因組大小與倍性、染色體數(shù)呈極顯著正相關(guān)(李桂雙等,2012)。本研究獲得約為 5.6 Gb的杭白芷基因組,其他已完成基因組測序的傘形科植物有積雪草(約為430 Mb)、芹菜(約為3.33 Gb)、當歸(約為2.37 Gb)(Han et al., 2022)、水芹(約為1.28 Gb)、北柴胡(約為621.42 Mb)、胡蘿卜(約為421.5 Mb)、野胡蘿卜(約為371.6 Mb)、芫荽(約為2 130.29 Mb),其中白芷、芹菜、當歸、芫荽的染色體數(shù)目為2n=22條,積雪草和胡蘿卜、野胡蘿卜的染色體數(shù)目為2n=18條,北柴胡的染色體數(shù)目為2n=12條,除北柴胡以外,符合染色體數(shù)目與基因組大小呈正相關(guān)關(guān)系,表明本次測得的杭白芷基因組大小符合染色體數(shù)目。白芷、芹菜的植株生長可達1.5 m,而其余植物均不超過1 m,初步推測傘形科植物基因組大小與植株高度呈正相關(guān)關(guān)系(邵晨等,2021),可為后續(xù)同屬或同科植物基因組的研究提供參考。
香豆素類化合物是一類具有重要藥用價值的天然化合物,分為簡單香豆素、呋喃香豆素、吡喃香豆素和其他香豆素四類 (王榮香等,2022)。在植物中,香豆素通過苯丙烷代謝途徑進行合成,目前已有較多研究揭示參與該生物合成途徑的關(guān)鍵基因。例如,從明亮發(fā)光桿菌中提取的PAL基因能將L-苯丙氨酸轉(zhuǎn)化為肉桂酸,將L-酪氨酸轉(zhuǎn)化為對香豆酸(Zhang et al., 2021);在對向日葵的研究中發(fā)現(xiàn),有3個C4H基因具有催化肉桂酸生成對香豆酸,用同樣方法對白花前胡和紫花前胡的C4H基因功能進行探索,發(fā)現(xiàn)都具有相同的催化功能(Wang et al., 2020);在白花草木樨的研究中也發(fā)現(xiàn)MaBGLU1基因?qū)τ跂|莨菪苷形成東莨菪內(nèi)酯具有關(guān)鍵作用(Wu et al., 2022);在白芷同屬植物當歸的研究中,發(fā)現(xiàn)PT基因?qū)τ谶秽愣顾氐男纬煽赡芷鸬疥P(guān)鍵決定作用。PAL、C4H等在香豆素生物合成途徑中屬于較為上游的基因,對于此類基因的研究較多,但是相對下游的BGLU基因的研究較少,尤其在白芷中更為缺乏。研究表明BGLU通過激活植物激素和防御化合物,與植物生理過程中的多個方面有關(guān),尤其是對生物和非生物脅迫的響應(yīng)。例如,陸地棉中5個GhBGLU或能正向調(diào)控棉花黃萎病抗性(張曼等,2023),擬南芥中的AtBGLU10可以催化游離ABA的產(chǎn)生(Lee et al., 2006),AtBGLU21-23調(diào)控根中東莨菪苷的水解(Ahh et al., 2010),AtBGLU42參與誘導機體對細胞疾病的抵抗力(江舟,2022)。本研究所獲得的杭白芷基因組,可為后續(xù)進行白芷中香豆素類成分合成相關(guān)基因的挖掘提供基礎(chǔ),具有重要價值及意義。
目前,已在擬南芥中發(fā)現(xiàn)48個BGLU家族基因,玉米中發(fā)現(xiàn)26個(Gómez-Anduro et al., 2011),水稻中發(fā)現(xiàn)40個(Opassiri et al., 2006),大豆中發(fā)現(xiàn)42個(柯丹霞等,2019),陸地棉中發(fā)現(xiàn)53個(張曼等,2023),苜蓿發(fā)現(xiàn)51個(Yang et al., 2021),本研究在杭白芷中鑒定出45個BGLU家族基因,并對其進行理化性質(zhì)、二級結(jié)構(gòu)等分析,發(fā)現(xiàn)其亞細胞定位多在細胞質(zhì)、葉綠體、液泡中,這一結(jié)論與玉米中的β-葡萄糖苷酶定位基本一致(Kristoffersen et al., 2000),AdBGLU基因家族的理化性質(zhì)、二級結(jié)構(gòu)、亞細胞定位等特征差異較大,說明該基因家族的結(jié)構(gòu)較為復雜,推測其功能較為多樣,各基因在功能分工上有所不同,在生物體內(nèi)參與多種不同代謝過程。杭白芷中存在多種香豆素類化合物,如歐前胡素、異歐前胡素、白當歸素、佛手柑內(nèi)酯等等,其生物合成途徑也較為復雜,這可能是與AdBGLU基因功能的多樣有關(guān)。AdBGLU的初步分析對杭白芷香豆素生物合成具有重要作用,可為進一步揭示和利用杭白芷香豆素類成分合成途徑關(guān)鍵基因的功能提供前期理論基礎(chǔ)。
4"數(shù)據(jù)獲得
原始測序數(shù)據(jù)已上傳至國家基因庫生命大數(shù)據(jù)平臺(CNGBdb,https://db.cngb.org/),項目編號為CNP0003549。
參考文獻:
DUAN Z, WU F, YAN Q, et al., 2022. Research progress on plant coumarin biosynthesis pathway and the genes encoding the key enzymes [J]. Acta Pratacult Sin, 31(1): 217-228. [段珍, 吳凡, 閆啟, 等, 2022. 植物香豆素生物合成途徑及關(guān)鍵酶基因研究進展 [J]. 草業(yè)學報, 31(1): 217-228.]
EDGAR RC, 2004. MUSCLE: multiple sequence alignment with high accuracy and high throughput [J]. Nucl Acids Res, 32(5): 1792-1797.
FINN RD, MISTRY J, SCHUSTER-BCKLER B, et al., 2006. Pfam: clans, web tools and services [J]. Nucl Acid Res, 34: D247-D251.
GMEZ-ANDURO G, CENICEROS-OJEDA EA, CASADOS-VZQUEZ LE, et al., 2011. Genome-wide analysis of the beta-glucosidase gene family in maize (Zea mays L. var B73) [J]. Plant Mol Biol, 77(1/2): 159-183.
GUINDON S, GASCUEL O, 2003. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood [J]. Syst Biol, 52(5): 696-704.
HAN X, LI C, SUN S, et al., 2022. The chromosome-level genome of female ginseng (Angelica sinensis) provides insights into molecular mechanisms and evolution of coumarin biosynthesis [J]. Plant J, 112(5): 1224-1237.
HUANG WJ, XU X, CHEN JS, et al., 2021. Bioinformatics analysis and expression pattern of NAC transcription factor family of Angelica dahurica var. formosana from Sichuan Province [J]. Chin J Chin Mat Med, 46(7): 1769-1782. "[黃文娟, 許鑫, 陳靳松, 等, 2021. 川白芷NAC家族的生物信息及表達模式分析 [J]. 中國中藥雜志, 46(7): 1769-1782.]
IORIZZO M, ELLISON S, SENALIK D, et al., 2016. A high-quality carrot genome assembly provides new insights into carotenoid accumulation and asterid genome evolution [J]. Nat Genet, 48(6): 657-666.
JI Q, MA YH, ZHANG Y, 2020. Research progress on chemical constituents and pharmacological effects of Angelicae dahuricae radix [J]. Food Drug, 22(6): 509-514. "[吉慶, 馬宇衡, 張燁, 2020. 白芷的化學成分及藥理作用研究進展 [J]. 食品與藥品, 22(6): 509-514.]
JIANG YJ, JIANG YM, YAO F, et al., 2021. Bioinformatics analysis on the CONSTANS-like protein family in "Angelica dahurica var. formosana [J]. Mol Plant Breed, 19(12): 3923-3931. "[蔣翼杰, 江美彥, 姚菲, 等, 2021. 川白芷CONSTANS-like蛋白家族生物信息學分析 [J]. 分子植物育種, 19(12): 3923-3931.]
KE DX, LIU YH, ZHANG JJ, et al., 2019. Genome-wide identification and expression analysis of BGLU family genes in soybean [J]. J Xinyang Norm Univ(Nat Sci Ed), 32(3): 372-378. "[柯丹霞, 劉永輝, 張靜靜, 等, 2019. 大豆BGLU基因家族全基因組鑒定與表達分析 [J]. 信陽師范學院學報(自然科學版), 32(3): 372-378.]
KOREN S, WALENZ BP, BERLIN K, et al., 2017. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation [J]. Genome Res, 27(5): 722-736.
KRISTOFFERSEN P, BRZOBOHATY B, H?HFELD I, et al., 2000. Developmental regulation of the maize Zm-p60.1 gene encoding a beta-glucosidase located to plastids [J]. Planta, 210(3): 407-415.
LARKIN MA, BLACKSHIELDS G, BROWN NP, et al., 2007. Clustal W and Clustal X version 2.0 [J]. Bioinformatics, 23(21): 2947-2948.
LI B, ZHANG X, WANG J, et al., 2014. Simultaneous characterisation of fifty coumarins from the roots of Angelica dahurica by off-line two-dimensional high-performance liquid chromatography coupled with electrospray ionisation tandem mass spectrometry [J]. Phytochem Analysis, 25(3): 229-240.
LI GS, CAO B, BAI CK, 2012. Correlation analysis between genome size and seed characteristics in poaceae plants [J]. Bull Bot Res, 32(6): 701-706. "[李桂雙, 曹博, 白成科, 2012. 禾本科植物基因組大小與種子特性的相關(guān)性分析 [J]. 植物研究, 32(6): 701-706.]
LI L, STOECKERT CJ JR, ROOS DS, 2003. OrthoMCL: identification of ortholog groups for eukaryotic genomes [J]. Genome Res, 13(9): 2178-2189.
LIU Y, 2019. Studies on bacteriostatic mechanism of Angelica dahurica and excavation of key genes of coumarin biosynthesis [D]. Chengdu: Sichuan Agricultural University: 1-69. "[劉洋, 2019. 川白芷抑菌機理研究及香豆素生物合成關(guān)鍵基因的挖掘 [D]. 成都: 四川農(nóng)業(yè)大學: 1-69.]
MANK JE, AVISE JC, 2006. Cladogenetic correlates of genomic expansions in the recent evolution of actinopterygian fishes [J]. Proceed Royal Soc B Biol Sci, 273(1582): 33-38.
NATIONAL PHARMACOPOEIA COMMISSION, 2020. Pharmacopoeia of People’s Republic of China: 1 [M]. Beijing: China Medical Science Press: 109-110. "[國家藥典委員會, 2020. 中華人民共和國藥典: 一部 [M]. 北京: 中國醫(yī)藥科技出版社: 109-110.]
OPASSIRI R, POMTHONG B, ONKOKSOONG T, et al., 2006. Analysis of rice glycosyl hydrolase family 1 and expression of Os4bglu12 beta-glucosidase [J]. BMC Plant Biol, 6: 33.
SAMPEDRO J, VALDIVIA ER, FRAGA P, et al., 2017. Soluble and membrane-bound β-glucosidases are involved in trimming the xyloglucan backbone [J]. Plant Physiol, 173(2): 1017-1030.
SENOL CD, KIM JS, GHOSE S, et al., 2019. Nanopore sequencing technology and tools for genome assembly: computational analysis of the current state, bottlenecks and future directions [J]. Brief Bioinform, 20(4): 1542-1559.
SHA LP, 2018. Examples of CTAB method, SDS method and salting-out method for crude extraction of plant DNA [J]. Teach Middle Sch Biol, 21: 65-67. "[沙麗萍, 2018. 例談植物DNA粗提取的CTAB法、SDS法與鹽析法 [J]. 中學生物教學, 21: 65-67.]
SHAO C, LI YQ, LUO A, et al., 2021. Relationship between functional traits and genome size variation of angiosperms with different life forms [J]. Biodivers Sci, 29(5): 575-585. "[邵晨, 李耀琪, 羅奧, 等, 2021. 不同生活型被子植物功能性狀與基因組大小的關(guān)系 [J]. 生物多樣性, 29(5): 575-585.]
SIMA?O FA, WATERHOUSE RM, IOANNIDIS P, et al., 2015. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs [J]. Bioinformatics, 31(19): 3210-3212.
SONG X, WANG J, LI N, et al., 2020. Deciphering the high-quality genome sequence of coriander that causes controversial feelings [J]. Plant Biotechnol J, 18(6): 1444-1456.
SONG X, SUN P, YUAN J, et al., 2021. The celery genome sequence reveals sequential paleo-polyploidizations, karyotype evolution and resistance gene reduction in apiales [J]. Plant Biotechnol J, 19(4): 731-744.
SUN HH, XUE YM, LIN YF, 2014. Enhanced catalytic efficiency in quercetin-4-glucoside hydrolysis of Thermotoga maritima β-glucosidase A by site-directed mutagenesis [J]. J Agric Food Chem, 62(28): 6763-6770.
VENUGOPALA KN, RASHMI V, ODHAV B, 2013. Review on natural coumarin lead compounds for their pharmacological activity [J]. Biomed Res Int, 2013: 963248.
WANG R, LIU J, YANG DY, et al., 2020. Research progress in chemical constituents and pharmacological action of Angelica dahurica [J]. Inf Trad Chin Med, 37(2): 123-128. "[王蕊, 劉軍, 楊大宇, 等, 2020. 白芷化學成分與藥理作用研究進展 [J]. 中醫(yī)藥信息, 37(2): 123-128.]
WANG RX, SONG J, SUN B, et al., 2022. Research progress of function and biosynthesis of coumarins [J]. Chin Biotechnol, 42(12): 79-90. "[王榮香, 宋佳, 孫博, 等, 2022. 香豆素類化合物功能及生物合成研究進展 [J]. 中國生物工程雜志, 42(12): 79-90.]
WANG Z, JIAN X, ZHAO Y, et al.,2020. Functional characterization of cinnamate 4-hydroxylase from Helianthus annuus Linn using a fusion protein method [J]. Gene, 758: 144950.
WILKINS MR, GASTEIGER E, BAIROCH A, et al., 1999. Protein identification and analysis tools in the ExPASy server [J]. Meth Mol B, 112: 531-552.
WU F, DUAN Z, XU P, et al., 2022. Genome and systems biology of Melilotus albus provides insights into coumarins biosynthesis [J]. Plant Biotechnol J, 20(3): 592-609.
WU F, 2021. Study on whole genome sequencing and functional genes of key traits in Cleistogenes songorica and Melilotus albus [D]. Lanzhou: Lanzhou University: 1-185. "[吳凡, 2021. 無芒隱子草和白花草木樨全基因組及其關(guān)鍵性狀相關(guān)功能基因研究 [D]. 蘭州: 蘭州大學: 1-185.]
WU P, GUO JX, WANG XY, et al., 2020. High-throughput transcriptome sequencing of roots of Angelica dahurica and data analyses [J]. Mol Plant Breed, 18(10): 3207-3216. [吳萍, 郭俊霞, 王曉宇, 等, 2020. 基于高通量測序技術(shù)的杭白芷(Angelica dahurica)根轉(zhuǎn)錄組數(shù)據(jù)分析 [J]. 分子植物育種, 18(10): 3207-3216.]
XU Z, WANG H, 2007. LTR_FINDER: an efficient tool for the prediction of full-length LTR retrotransposons [J]. Nucl Acid Res, 35: W265-W268.
YANG J, MA L, JIANG W, et al., 2021. Comprehensive identification and characterization of abiotic stress and hormone responsive glycosyl hydrolase family 1 genes in Medicago truncatula [J]. Plant Physiol Biochem, 158: 21-33.
YAO F, JIANG MY, YANG YS, et al., 2022. Bioinformatics and expression analysis on MYB-related family in Angelicae dahuricae var. formosana [J]. Chin J Chin Mat Med, 47(7): 1831-1846. "[姚菲, 江美彥, 楊云舒, 等, 2022. 川白芷MYB-related家族的生物信息及表達模式分析 [J]. 中國中藥雜志, 47(7): 1831-1846.]
YU KP, PENG C, LIN YL, et al., 2023. Expression of β-glucosidase An-bgl3 from Aspergillus niger for conversion of scopoline [J]. Chin J Biotechnol, 39(3): 1232-1246. "[于坤朋, 彭程, 林燕玲等, 2023. 黑曲霉β-葡萄糖苷酶An-bgl3的重組表達及東莨菪苷的轉(zhuǎn)化 [J]. 生物工程學報, 39(3): 1232-1246.]
YU J, ZHU YH, 2014. Summary of the application of Angelica dahurica in ancient prescription [J]. Heilongjiang Med J, 27(1): 156-158. "[于靜, 朱艷華, 2014. 中藥白芷在古方中美白作用的應(yīng)用概述 [J]. 黑龍江醫(yī)藥, 27(1): 156-158.]
ZHANG F, REN J, ZHAN J, 2021. Identification and characterization of an efficient phenylalanine ammonia-lyase from Photorhabdus luminescens [J]. Appl Biochem Biotechnol, 193(4): 1099-1115.
ZHANG M, WANG ZC, LIU ZW, et al., 2023. Genome-wide identification and analysis of BGLU genes family in Gossypium hirsutum [J]. J Agric Sci Technol, 25(2): 48-59. "[張曼, 王志城, 劉正文, 等, 2023. 陸地棉BGLU基因家族成員的全基因組鑒定與表達分析 [J]. 中國農(nóng)業(yè)科技導報, 25(2): 48-59.]
ZHAO H, FENG YL, WANG M, et al., 2022. The Angelica dahurica: a review of traditional uses, phytochemistry and pharmacology [J]. Front Pharmacol, 13: 896637.
(責任編輯"李"莉"王登惠)
DOI: 10.11931/guihaia.gxzw202210078
王雅蘭, 周羅靜, 張靈迂, 等, 2024.
白芷全基因組測序分析及BGLU基因家族分析 [J].廣西植物, 44(4): 777-792.
WANG YL, ZHOU LJ, ZHANG LY, et al., 2024.Complete genome sequencing and BGLU gene family analysis of Angelica dahurica [J].Guihaia, 44(4): 777-792.
王雅蘭等: 白芷全基因組測序分析及BGLU基因家族分析
收稿日期: "2023-04-06"接受日期: 2023-07-17
基金項目: "中央本級重大增減支項目(2060302); 國家中醫(yī)藥管理局項目(ZYYCXTD-D-202209); 四川省科技廳科技計劃項目(2020YFN0152,22CXTD0009); 四川省中醫(yī)藥管理局項目(2022C001); 成都中醫(yī)藥大學人才提升項目(QNXZ2018017,QNXZ2019001)。
第一作者: 王雅蘭(1998—),碩士研究生,研究方向為中藥有效成分分析應(yīng)用,(E-mail)wangyalan @stu.cdutcm.edu.cn。
通信作者: "高繼海,博士,副教授,主要從事分子生藥學研究,(E-mail)gaojihai@cdutcm.edu.cn。