摘 要:【目的】對青岡櫟原花青素(縮合單寧)合成基因進行鑒定及生物信息學(xué)分析,可為青岡櫟果實資源開發(fā)利用和品種改良奠定分子基礎(chǔ)?!痉椒ā炕谝压嫉那鄬鶛等蚪M測序數(shù)據(jù),利用生物信息學(xué)方法對原花青素合成基因進行鑒定,并分析其蛋白質(zhì)序列、染色體定位、種間共線性、基因結(jié)構(gòu)及系統(tǒng)發(fā)育關(guān)系?!窘Y(jié)果】青岡櫟中11種原花青素合成基因有42個家族成員,分布在11條染色體上;蛋白質(zhì)理化性質(zhì)在具有多拷貝數(shù)的QgPAL、QgC4H、Qg4CL、QgF3′H基因家族成員間存在差異;Qg4CL8、Qg4CL14、Qg4CL17、QgF3’H2、QgC4H4蛋白具有2~3個跨膜區(qū)域,表明這些蛋白可能在細胞內(nèi)外信號轉(zhuǎn)導(dǎo)中發(fā)揮重要作用;基因家族成員在櫟屬中進化比較保守,通過櫟屬古老的全基因組復(fù)制及串聯(lián)重復(fù)和片段重復(fù)擴張;QgPAL2~QgPAL6和Qg4CL15基因分別與擬南芥中參與原花青素合成的AtPAL1~2和At4CL3聚為同一分支,可能在原花青素生物合成中發(fā)揮重要作用;Qg4CL基因家族在系統(tǒng)發(fā)育樹中進化出新的分支,其家族成員表現(xiàn)出基因結(jié)構(gòu)的多樣性,并在4CL基因的高度保守基序中發(fā)生氨基酸位點的突變,推測這些基因可能因進化出新功能而被保留下來。【結(jié)論】青岡櫟原花青素合成基因通過多種復(fù)制方式進行擴張,復(fù)制基因在櫟屬中相對保守,在青岡櫟中表現(xiàn)出理化性質(zhì)、蛋白結(jié)構(gòu)和進化模式的多樣化。采用生物信息學(xué)方法分析了原花青素合成基因的特征和進化模式,這為深入解析櫟屬植物單寧合成機制奠定了分子基礎(chǔ)。
關(guān)鍵詞:青岡櫟;原花青素合成基因;生物信息學(xué);進化特征
中圖分類號:S718.43 文獻標志碼:A 文章編號:1673-923X(2024)05-0167-14
基金項目:湖南省自然科學(xué)基金項目(2022JJ40861);湖南省教育廳重點研究項目(21A0158);中南林業(yè)科技大學(xué)研究生科技創(chuàng)新基金項目(2022CX02061)。
Identification and analysis of proanthocyanidin synthesis genes in Quercus glauca
CAO Ruibin1, YANG Junjie2, LUO Changsha1, JIANG Xiaolong1, XU Gangbiao1
(1. Laboratory of Forestry Genetics, Central South University of Forestry Technology, Changsha 410004, Hunan, China; 2. Hunan Qingyang Lake State-owned Forest Farm, Ningxiang 410600, Hunan, China)
Abstract:【Objective】This study was conducted to identify and bioinformatically analysis of proanthocyanidin (PA, condensed tannin) synthesis genes of Quercus glauca, which could lay a molecular foundation for development and utilization of Q. glauca fruit resources and variety improvement.【Method】Based on published whole genome sequencing data of Q. glauca, the PA synthesis genes were identified, and the protein sequence, chromosome location, interspecific collinearity, gene structure and phylogenetic relationship were analyzed using bioinformatic methods.【Result】The 11 PA synthesis genes of Q. glauca contain 42 family members, which are distributed on 11 chromosomes; The physical and chemical characters of protein are different among QgPAL, QgC4H, Qg4CL and QgF3′H gene family members with multiple copies; Qg4CL8, Qg4CL14, Qg4CL17, QgF3’H2 and QgC4H4 proteins had 2-3 transmembrane regions, suggesting that these proteins might play an important role in intracellular and extracellular signal transduction; The members of the gene family were relatively conservative in evolution in genus Quercus, through the ancient whole genome duplication, tandem duplication and fragment duplication expansion of genus Quercus; QgPAL2-6 and Qg4CL15 genes clustered in the same branch as AtPAL1-2 and At4CL3 involved in PA biosynthesis in Arabidopsis thaliana, respectively, which might play an important role in PA biosynthesis; The Qg4CL gene family had evolved into new branches in the phylogenetic tree, in which family members exhibit diversity of gene structure, and mutation of amino acid sites occurs in the highly conservative motif of 4CL gene. It was speculated that these genes may be preserved due to the evolution of new functions.【Conclusion】The PA synthesis genes of Q. glauca expand through various replication methods. The replication genes are relatively conservative in the Quercus, and show a diversity of physicochemical properties, protein structures and evolutionary patterns in Q. glauca. The characteristics and evolutionary patterns of proanthocyanidin synthesis genes are analyzed by bioinformatics methods, which lay the molecular foundation for an in-depth analysis of the mechanism of tannin synthesis in genus Quercus.
Keywords: Quercus glauca; proanthocyanidin synthesis genes; bioinformatics; evolutionary characteristics
青岡櫟Quercus glauca隸屬殼斗科Fagaceae櫟屬Q(mào)uercus,是我國亞熱帶常綠闊葉林的優(yōu)勢樹種和主要建群樹種,具有很高的生態(tài)價值和經(jīng)濟價值[1]。青岡櫟果實富含淀粉、單寧、多糖和生物堿等多種生物活性物質(zhì),是一種來源豐富的野生食用資源,廣泛應(yīng)用于白酒釀造、食品加工和動物飼料生產(chǎn)等方面[2]。然而,青岡櫟果實中單寧含量過高,使其口感苦澀,不可鮮食,在一定程度上限制其資源的開發(fā)利用。目前,國內(nèi)外學(xué)者對青岡櫟單寧的化學(xué)成分[3]、物質(zhì)含量[4]、藥理活性[5]等進行了廣泛研究,但由于缺乏全基因組測序數(shù)據(jù),其關(guān)鍵組分原花青素(縮合單寧)生物合成的相關(guān)分子機制猶未可知。
原花青素(proanthocyanidin,PA),也稱縮合單寧(condensed tannins,CT),廣泛存在于高等植物的不同組織中,在結(jié)構(gòu)上由不同數(shù)量的兒茶素(Catechin)或表兒茶素(Epicatechin)聚合而成,是決定果實澀味強弱的關(guān)鍵因素。原花青素的生物合成先后經(jīng)公共苯丙烷途徑、核心類黃酮-花青素途徑和原花青素特異途徑,涉及11個關(guān)鍵酶[苯丙氨酸解氨酶(phenylalanine ammonialyase,PAL)、肉桂酸-4-羥基化酶(cinnamate-4-hydroxylase,C4H)、4-香豆酸-輔酶A連接酶(4-coumaryl-CoA ligase,4CL)、查爾酮合酶(chalcone synthase,CHS)、查爾酮異構(gòu)酶(chalcone isomerase,CHI)、類黃酮3-羥化酶(flavonoid 3-hydroxylase,F(xiàn)3H)、類黃酮3′-羥化酶(flavonoid 3′-hydroxylase,F(xiàn)3′H)、二氫黃酮醇還原酶(dihydroflavonol reductase,DFR)、無色花青素雙加氧酶(leucoanthocyanidin dioxygenase,LDOX)、無色花青素還原酶(leucoanthocyanidin reductase,LAR)、花青素還原酶(anthocyanidin reductase,ANR))]的催化反應(yīng)[6]。最終在無色花青素還原酶(LAR)和花青素還原酶(ANR)的催化下,分別生成原花青素聚合的前體—兒茶素和表兒茶素[7]。隨著原花青素合成通路在擬南芥等模式植物中被明確注釋,針對原花青素生物合成機理的研究已成為熱點問題。迄今為止,國內(nèi)外學(xué)者對多種植物原花青素合成途徑中關(guān)鍵酶的編碼基因家族進行了鑒定與分析,表明原花青素合成基因在不同物種間具有不同的同源拷貝數(shù)、結(jié)構(gòu)和表達模式[8-9]。如今,已完成的青岡櫟全基因組測序[10]為鑒定青岡櫟原花青素合成基因提供了條件。
本研究從基因組水平對青岡櫟原花青素合成基因進行篩選與鑒定,并利用生物信息學(xué)方法深入解析青岡櫟原花青素合成基因的進化特征、共線性關(guān)系、基因結(jié)構(gòu)和系統(tǒng)發(fā)育等,為進一步研究青岡櫟原花青素的轉(zhuǎn)運機制、基因調(diào)控和代謝工程提供重要的目標基因,也為青岡櫟果實資源的開發(fā)利用和品種改良奠定分子基礎(chǔ)。
1 材料與方法
1.1 材 料
青岡櫟[10]的全基因組數(shù)據(jù)和轉(zhuǎn)錄組測序數(shù)據(jù)從NCBI數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)中下載獲得,同時從該數(shù)據(jù)庫中下載白櫟Quercus lobata[11]與蒙古櫟Quercus mongolica[12]的基因組序列文件和基因結(jié)構(gòu)注釋信息文件;擬南芥Arabidopsis thaliana、葡萄Vitis vinifera、毛果楊Populus trichocarpa和毛白楊Populus tomentosa中已鑒定的原花青素合成基因的基因序列和蛋白序列從TAIR數(shù)據(jù)庫(http://www.arabidopsis.org)、UniProt數(shù)據(jù)庫(https://www.uniprot.org/)、PlantGenIE數(shù)據(jù)庫(https://plantgenie.org/)和NCBI數(shù)據(jù)庫中下載獲得。
1.2 方 法
1.2.1 基因的篩選和鑒定
使用BLAST[13]軟件中formatdb命令構(gòu)建青岡櫟基因組蛋白序列數(shù)據(jù)庫,并使用blastp命令在本地數(shù)據(jù)庫中檢索原花青素合成基因,E-value設(shè)置為1e-10;將初步檢索得到的候選蛋白序列提交到在線軟件InterPro(https://www.ebi.ac.uk/ interpro/)和NCBI BLAST(https://blast.ncbi.nlm. nih.gov/Blast.cgi)進行結(jié)構(gòu)域驗證和同源功能驗證,最終得到11個青岡櫟原花青素合成基因的42個家族成員。
1.2.2 原花青素合成基因的生物信息學(xué)分析
使用在線軟件Expasy-ProtParam(https://web. expasy.org/protparam/)預(yù)測蛋白序列的分子量、理論等電點(isoelectric point,IP)、不穩(wěn)定系數(shù)、總平均疏水指數(shù)(grand average of hydropathicity,GRAVY)等蛋白質(zhì)理化性質(zhì);使用在線軟件SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_ automat.pl?page=npsa_sopma.html)預(yù)測蛋白質(zhì)二級結(jié)構(gòu);使用在線軟件NetPhos-3.1(https:// services.healthtech.dtu.dk/service.php?NetPhos-3.1)預(yù)測蛋白質(zhì)磷酸化位點;使用在線軟件PlantmPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plantmulti/)進行亞細胞定位分析;使用在線軟件TMHMM-2.0(https://services.healthtech.dtu.dk/ service.php?TMHMM-2.0)預(yù)測跨膜結(jié)構(gòu)域。
使用TBtools[14]的Gene Location Visualize from GTF/GFF工具繪制原花青素合成基因在染色體上的物理定位圖,其中基因密度使用TBtools的Gene Density Profile工具計算,in Size設(shè)置為100 kb;使用TBtools的MCScanX工具對青岡櫟基因組自身進行比對,E-value設(shè)置為1e-10,從串聯(lián)重復(fù)和片段重復(fù)的鑒定結(jié)果文件中篩選原花青素合成基因;使用DnaSP6[15]計算它們的同義替換率(synonymous substitution rates,Ks)和非同義替換率(nonsynonymous substitution rates,Ka),用于分析青岡櫟原花青素合成基因的進化選擇壓力。
使用TBtools的One Step MCScanX工具將青岡櫟分別與白櫟和蒙古櫟進行全基因組比對,分析種間共線性基因?qū)Γ珽-value設(shè)置為1e-10,Blast Hits的數(shù)量設(shè)置為5;使用TBtools的Multiple Synteny Plot工具可視化,并高亮顯示原花青素合成基因的線性基因?qū)Α?/p>
使用TBtools的GXF Sequences Extract工具提取原花青素合成基因蛋白質(zhì)編碼區(qū)(coding sequence,CDS)上游2 000 bp(base pair,堿基對)作為啟動子序列,使用在線軟件PlantCare(http:// bioinformatics.psb.ugent.be/webtools/plantcare/ html/)預(yù)測順式作用元件;使用在線軟件CDSearch(https://www.ncbi.nlm.nih.gov/Structure/ bwrpsb/bwrpsb.cgi)獲取保守結(jié)構(gòu)域的位置信息,數(shù)據(jù)庫選擇Pfam,其他參數(shù)默認;使用TBtools的Gene Structure View(Advanced)工具將得到的保守結(jié)構(gòu)域和順式作用元件位置信息文件以及基因結(jié)構(gòu)注釋文件可視化。
使用MEGA[16]中ClustalW進行多重序列對比,并采用鄰接法(neighbor-joining,NJ)構(gòu)建系統(tǒng)進化樹,bootstrap值設(shè)置為1 000;使用在線軟件MEME(https://meme-suite.org/meme/tools/meme)預(yù)測保守基序,最大發(fā)現(xiàn)基序(Motif)數(shù)量設(shè)置為10;得到nwk格式的進化樹文件和xml格式的MEME分析結(jié)果文件,使用TBtools的Gene Structure View(Advanced)工具可視化。
使用Hisat2[17]的hisat2-build命令構(gòu)建參考基因組索引,并將青岡櫟不同組織的轉(zhuǎn)錄組測序數(shù)據(jù)比對到參考基因組;使用Samtools[18]將sam文件進行二進制轉(zhuǎn)化為bam文件,并排序和添加索引;使用StringTie[19]根據(jù)基因組注釋文件和排序后bam比對結(jié)果文件計算轉(zhuǎn)錄本表達量,并使用prepDE.py3腳本生成差異表達基因列表;利用ggplot2 R包繪制表達量熱圖[20]。
2 結(jié)果與分析
2.1 基因的篩選和鑒定
青岡櫟原花青素合成基因的篩選與鑒定結(jié)果(表1)顯示,共鑒定出11個原花青素合成基因的42個家族成員(7個PAL、4個C4H、17個4CL、3個CHS、1個F3H、3個F3′H、1個CHI、2個DFR、1個LDOX、2個LAR、1個ANR),并根據(jù)在染色體上的位置進行命名。大部分青岡櫟原花青素合成基因以基因家族的形式存在,分布于不同染色體上?;蚣易宄蓡T間的保守結(jié)構(gòu)域一致,基因長度存在差異。
2.2 蛋白序列分析
蛋白序列理化特征預(yù)測結(jié)果如表2所示。QgPAL和Qg4CL蛋白的氨基酸數(shù)目和分子量在家族成員間存在差異,大部分QgPAL蛋白的氨基酸數(shù)目和分子量在710 aa和77 kDa左右,而QgPAL2和QgPAL3分別為472 aa、51 kDa和665 aa、73 kDa,明顯小于其他基因家族成員;大部分Qg4CL蛋白的氨基酸數(shù)目和分子量在560 aa和61 kDa左右,而Qg4CL5、Qg4CL6和Qg4CL7在900 aa和99 kDa左右,明顯大于其他基因家族成員。42個蛋白的理論等電點在5.25~9.44之間,Qg4CL蛋白中8個成員的理論等電點小于7,呈酸性;其余9個成員大于7,呈堿性。不穩(wěn)定系數(shù)的數(shù)值以40為界,其中24個蛋白的不穩(wěn)定系數(shù)小于40,屬于穩(wěn)定蛋白;其余18個蛋白的不穩(wěn)定系數(shù)大于40,屬于不穩(wěn)定蛋白。42個蛋白的脂溶指數(shù)為84.08~104.40,均大于80,表現(xiàn)出較高的脂溶性。總平均疏水指數(shù)的數(shù)值以0為界,其中30個蛋白的總平均疏水指數(shù)小于0,屬于親水性蛋白;其余12個蛋白的疏水指數(shù)大于0,屬于疏水性蛋白。
蛋白二級結(jié)構(gòu)預(yù)測結(jié)果如表3所示。青岡櫟原花青素合成基因的蛋白序列表現(xiàn)為α螺旋和無規(guī)則卷曲兩種結(jié)構(gòu)占比較大,延伸鏈和β轉(zhuǎn)角占比較少,并在基因家族成員間相對保守。磷酸化位點分析結(jié)果顯示,大部分蛋白的絲氨酸(Serine)位點占比較多,酪氨酸(Tyrosine)位點占比較少??缒そY(jié)構(gòu)域分析結(jié)果顯示,只有Qg4CL8、Qg4CL14、Qg4CL17、QgF3′H2、QgC4H4蛋白擁有2~3個跨膜區(qū)域。亞細胞定位結(jié)果顯示,青岡櫟原花青素合成基因定位在細胞質(zhì)、過氧化物酶體、葉綠體、內(nèi)質(zhì)網(wǎng)等細胞器中。
2.3 染色體定位和進化擴張分析
青岡櫟原花青素合成基因的染色體定位分析結(jié)果如圖1所示。42個基因家族成員分布在11條染色體上,4號染色體上沒有分布。其中,2號染色體上基因分布最多,為11個;9號染色體上僅有1個基因分布。除此之外,部分基因在染色體上的分布存在基因簇的現(xiàn)象,如QgPAL、Qg4CL基因家族成員在2號染色體中部和7號染色體下部出現(xiàn)基因簇。
MCScanX分析共鑒定出7對串聯(lián)重復(fù)基因和4對片段重復(fù)基因。其中,串聯(lián)重復(fù)基因分別是QgPAL(2對)和Qg4CL(5對)基因家族的成員;片段重復(fù)基因?qū)Ψ謩e是QgPAL3和QgPAL7、Qg4CL3和Qg4CL16、Qg4CL9和Qg4CL4、QgC4H1和QgC4H2。DnaSP6計算結(jié)果顯示,串聯(lián)重復(fù)基因的非同義替換率與同義替換率的比值(Ka/Ks)均<1,表明這些基因家族成員在進化中受到純化選擇的作用。4對片段重復(fù)基因的 Ka/Ks值計算結(jié)果顯示,QgC4H1和QgC4H2、Qg4CL9和Qg4CL4的Ka/Ks<1,表明其受到純化選擇的作用;Qg4CL3和Qg4CL16、QgPAL3和QgPAL7的Ka/Ks>1,表明其受到正選擇效應(yīng)。
2.4 種間共線性分析
物種間的共線性分析結(jié)果如圖2所示。在42個青岡櫟原花青素合成基因中,有26個基因與白櫟中的40個基因存在共線性關(guān)系,并有部分不同的26個基因與蒙古櫟中的36個基因存在共線性關(guān)系。3種櫟屬植物間共線性基因?qū)υ?號和8號染色體上分布較多。QgPAL2、QgCHS3、QgLAR1僅與白櫟存在共線性關(guān)系,QgPAL3、Qg4CL4、QgC4H3僅與蒙古櫟存在共線性關(guān)系。部分青岡櫟原花青素合成基因在白櫟和蒙古櫟中存在2~3對共線性基因,如QgPAL1、Qg4CL2、QgANR1僅在白櫟中存在2對共線性基因,在蒙古櫟中存在1對;Qg4CL9在白櫟中存在3對共線性基因,在蒙古櫟中存在2對共線性基因。這種共線性關(guān)系表明原花青素合成基因的擴增可能發(fā)生在這3種櫟屬植物分化之前。
2.5 基因結(jié)構(gòu)和順式作用元件分析
基因結(jié)構(gòu)和順式作用元件分析結(jié)果如圖3所示。圖3顯示,原花青素合成基因的保守結(jié)構(gòu)域在基因家族間保守,在家族成員內(nèi)具有一定差異;原花青素合成基因的啟動子區(qū)域含有光響應(yīng)元件、脫落酸響應(yīng)元件、茉莉酸甲酯響應(yīng)元件、厭氧誘導(dǎo)響應(yīng)元件等多種順式作用元件。除此之外,在啟動子區(qū)域預(yù)測出大量的TATA-box(29.8%)和CAATbox(21.3%)元件。TATA-box為基因轉(zhuǎn)錄起始點上游~30 bp附近的核心啟動子元件,與RNA聚合酶結(jié)合,決定基因轉(zhuǎn)錄的開始;CAAT-box為啟動子和增強子區(qū)域中常見的順式作用元件,位于轉(zhuǎn)錄起始點上游約80 bp處,是轉(zhuǎn)錄因子識別和結(jié)合的幾個位點之一,控制著轉(zhuǎn)錄起始的頻率?;蚪Y(jié)構(gòu)由外顯子、內(nèi)含子和非編碼區(qū)(untranslated region, UTR)組成。圖3中顯示QgPAL1只有外顯子,其余41個原花青素合成基因的編碼序列均含有外顯子和內(nèi)含子(圖3中灰色線表示)。
2.6 QgPAL和Qg4CL基因家族的系統(tǒng)發(fā)育和表達分析
通過收集一個包含16條來自不同物種(其中7條來自青岡櫟,4條來自擬南芥,5條來自毛果楊)的PAL基因蛋白序列數(shù)據(jù)集,采用NJ法構(gòu)建系統(tǒng)發(fā)育樹,探討不同物種PAL基因的進化關(guān)系,結(jié)果如圖4所示。由圖4可知,QgPAL基因家族成員分為三個亞族,QgPAL7與PtPALPotri.008G038200、PtPAL-Potri.010G224100、PtPAL-Potri.010G224200聚為一族,QgPAL2~6與AtPAL1-AT2G37040.1、AtPAL2-AT3G53260.1、PtPAL-Potri.016G091100、PtPAL-Potri.006G126800聚為一族,QgPAL1單獨分為一族。保守基序分析結(jié)果(表4)顯示,青岡櫟大部分PAL基因均鑒定出10個保守基序(Motif),而QgPAL1缺少Motif 1,QgPAL2缺少Motif 5、6、8。Motif 5中存在由Ala-Ser-Gly氨基酸組成的亞甲基咪唑酮(MIO)親電基團,為PAL基因的高度保守基序。
通過收集一個包含26條來自不同物種(其中17條來自青岡櫟,4條來自擬南芥,5條來自毛白楊)的4CL基因蛋白序列數(shù)據(jù)集,采用NJ法構(gòu)建系統(tǒng)發(fā)育樹,探討不同物種4CL基因的進化關(guān)系,結(jié)果如圖5所示。由圖5可知,青岡櫟Qg4CL11、Qg4CL2與Class Ⅰ類的擬南芥At4CL1、At4CL2以及楊樹Pto4CL3聚為一族,這類4CL基因主要參與木質(zhì)素的生物合成;Qg4CL15與Class Ⅱ類的擬南芥At4CL3以及楊樹Pto4CL2聚為一族,這類4CL基因主要參與原花青素的生物合成;其余14個Qg4CL基因形成了獨立的新分支。保守基序分析結(jié)果(表5)顯示,青岡櫟大部分4CL基因均鑒定出10個保守基序(Motif),而Qg4CL9缺少Motif 3、8、9。此外,分別在Motif 3和Motif 4中觀察到4CL基因家族的高度保守基序BoxⅠ(SSGTTGLPKGV)和BoxⅡ(GEICIRG)。多重序列比對結(jié)果顯示,BoxⅠ和BoxⅡ序列只在Qg4CL11、Qg4CL2和Qg4CL15蛋白序列中絕對保守,在其余蛋白序列中發(fā)生不同程度的氨基酸位點突變。
青岡櫟葉、花序、莖轉(zhuǎn)錄組數(shù)據(jù)中原花青素合成基因的42個家族成員的表達分析結(jié)果如圖6所示。QgPAL2~QgPAL6在莖和花序中表達量較高,與聚為同一亞族的AtPAL1和AtPAL2具有相似的表達模式,可能在植物發(fā)育和抗脅迫中發(fā)揮作用[21]。在系統(tǒng)發(fā)育關(guān)系中聚為同一分支的QgPAL7和PtrPAL具有相似的表達模式,在葉中轉(zhuǎn)錄水平很低[22]。屬于Class Ⅰ類的Qg4CL2和Qg4CL11具有高度相似的表達模式,在花序中表達較高。
3 結(jié)論與討論
3.1 討 論
3.1.1 青岡櫟原花青素合成基因理化性質(zhì)和蛋白結(jié)構(gòu)的多樣性
隨著測序技術(shù)的迅速發(fā)展,多種植物的全基因組測序已完成,這為解析植物中關(guān)鍵代謝物的生物合成和基因調(diào)控機制提供了條件。擬南芥作為研究原花青素合成的主要模式植物,其中C4H、CHS、CHI、F3H、F3′H、DFR、LDOX、ANR均由單基因編碼,PAL和4CL分別由4個基因家族成員編碼[23]。青岡櫟PAL、C4H、4CL、F3′H、CHS、DFR、LAR編碼基因的拷貝數(shù)有所增加,而F3H、CHI、LDOX、ANR仍由單基因編碼,表明青岡櫟原花青素基因在全基因組復(fù)制事件和其他小規(guī)模復(fù)制事件后,部分基因由于新功能化或亞功能化被保留,其余基因由于功能的冗余在復(fù)制后迅速回到單拷貝狀態(tài)[24]。
蛋白分析結(jié)果表明,具有多拷貝數(shù)的QgPAL、QgC4H、Qg4CL、QgF3′H基因家族的蛋白質(zhì)理化性質(zhì)在成員間存在差異。其中,QgPAL1基因的編碼長度為2 282 bp,與擬南芥中4個編碼長度為2 100 bp左右的AtPAL相似[14],其余QgPAL基因家族成員的編碼長度為3 567~6 236 bp,推測這與物種基因組大小以及基因功能進化有關(guān);Qg4CL基因家族成員間在分子量、親水性、不穩(wěn)定性等蛋白理化特征上存在差異,這與侯沖等[25]的研究結(jié)果一致。青岡櫟原花青素合成基因家族成員間蛋白理化性質(zhì)和結(jié)構(gòu)上存在差異,表明不同基因家族成員可能具有不同的表達模式和基因功能。除此以外,跨膜結(jié)構(gòu)域預(yù)測結(jié)果顯示,Qg4CL8、Qg4CL14、Qg4CL17、QgF3′H2、QgC4H4蛋白具有2~3個跨膜區(qū)域,在其他植物4CL和F3′H基因家族的部分成員中也預(yù)測出跨膜結(jié)構(gòu)域[26-27],表明4CL、F3′H、C4H可能在細胞內(nèi)外信號轉(zhuǎn)導(dǎo)中發(fā)揮重要作用。
3.1.2 通過串聯(lián)重復(fù)和片段重復(fù)的青岡櫟原花青素合成基因擴張
基因復(fù)制是物種進化的一個基本過程,可以通過全基因組復(fù)制、串聯(lián)復(fù)制、片段復(fù)制和基因轉(zhuǎn)座等多種方式進行,其中串聯(lián)重復(fù)和片段重復(fù)是基因家族擴張的主要方式[28]。研究表明蘋果Malus domestica中MdPAL3~MdPAL4基因和葡萄Vitis vinifera中VviPAL3~VviPAL6、VviPAL8~VviPAL16基因以串聯(lián)重復(fù)的方式進行復(fù)制[29-30]。在青岡櫟中,QgPAL、Qg4CL基因家族同時以串聯(lián)重復(fù)和片段重復(fù)的方式發(fā)生擴張,并主要受到純化選擇的作用。這種物種間基因復(fù)制方式的差異可能影響QgPAL、Qg4CL基因家族的大小和分布。除此之外,有研究表明串聯(lián)重復(fù)與響應(yīng)生物和非生物脅迫相關(guān)基因的擴增有著密切關(guān)系,并且傾向于擴增處于代謝途徑頂端或者末端的基因[31-32]。PAL和4CL作為公共苯丙烷途徑中的頂端和末端的關(guān)鍵酶,通過合成原花青素、木質(zhì)素等多種次生代謝物,在植物生長和抗病抗逆等方面發(fā)揮著重要作用。因此,這可能是QgPAL、Qg4CL基因家族在青岡櫟中以多種方式進行復(fù)制、發(fā)生擴張的原因之一。共線性分析結(jié)果顯示,原花青素合成基因的共線性基因?qū)εc櫟屬基因組間共線性區(qū)塊的分布一致,部分準確匹配到同一染色體上的同一區(qū)域,其余存在于小規(guī)模的染色體重排和倒置區(qū)域[11-12]。此外,櫟屬植物古老的三倍體化復(fù)制事件[10]解釋了單個青岡櫟原花青素合成基因在其他櫟屬植物種中存在2~3對共線性基因的現(xiàn)象,表明原花青素合成基因在櫟屬中進化保守,全基因組復(fù)制和片段重復(fù)及串聯(lián)重復(fù)都為其擴張?zhí)峁?qū)動力。
基因結(jié)構(gòu)分析表明,青岡櫟原花青素合成基因在內(nèi)含子和外顯子的數(shù)量和結(jié)構(gòu)上存在多樣性。通過串聯(lián)重復(fù)產(chǎn)生的基因?qū)gPAL5/QgPAL6、Qg4CL5/Qg4CL6、Qg4CL6/Qg4CL7在基因結(jié)構(gòu)上相似,而片段重復(fù)產(chǎn)生的基因?qū)υ诨蚪Y(jié)構(gòu)上存在差異。研究表明,基因結(jié)構(gòu)的保守和多樣性促進了基因的遺傳冗余或新功能化,都有助于基因的保留,并可能在適應(yīng)新環(huán)境中具有重要的生物學(xué)意義。青岡櫟原花青素合成基因展現(xiàn)出既相對保守又多樣化的基因結(jié)構(gòu),在基因進化和擴張過程中起著重要作用。順式作用元件分析表明,青岡櫟原花青素合成基因啟動子區(qū)域存在大量光響應(yīng)元件,推測這些基因的轉(zhuǎn)錄可能主要受光信號誘導(dǎo)。
3.1.3 QgPAL和Qg4CL基因家族的進化
苯丙氨酸解氨酶(PAL)是原花青素合成的起始酶,催化苯丙氨酸生成肉桂酸,在植物的生長發(fā)育過程中發(fā)揮著多種重要的生物學(xué)作用。本研究在青岡櫟中鑒定出7個QgPAL基因家族成員,比擬南芥和毛果楊多。它們的蛋白序列都含有高度保守的亞甲基咪唑酮(MIO)親電基團,該序列是PAL基因發(fā)揮功能的主要區(qū)域[30]。根據(jù)系統(tǒng)發(fā)育的關(guān)系,QgPAL基因家族成員可以分為三個亞族,QgPAL2~QgPAL6與參與原花青素合成的AtPAL1和AtPAL2聚為一族,表明它們在青岡櫟原花青素生物合成過程中可能發(fā)揮重要作用。
4-香豆酸-輔酶A連接酶(4CL)是公共苯丙烷途徑中處于終端位置的酶,在大部分植物中以基因家族的形式出現(xiàn),可以根據(jù)蛋白的功能分為ClassⅠ和ClassⅡ兩類,分別參與木質(zhì)素和原花青素的生物合成。所有4CL氨基酸序列中都存在幾個保守的基序(Motif),其中BoxⅠ(SSGTTGLPKGV)和BoxⅡ(GEICIRG)是4CL催化反應(yīng)中保守的AMP結(jié)合功能域。系統(tǒng)發(fā)育分析表明,Qg4CL基因家族在系統(tǒng)發(fā)育樹中形成了獨立于ClassⅠ和ClassⅡ的新分支,并且新分支上Qg4CL基因家族成員的高度保守基序BoxⅠ和BoxⅡ發(fā)生不同程度的氨基酸位點突變。雖然在水稻、大豆、藿香等植物中也觀察到保守基序Box I存在殘基突變現(xiàn)象,但相關(guān)機制尚不清楚,對其功能需要進一步試驗驗證[33]。表達分析結(jié)果表明,Qg4CL在不同的組織中展現(xiàn)出不同的表達模式,結(jié)合系統(tǒng)發(fā)育樹中新分支的出現(xiàn),推測Qg4CL在功能上出現(xiàn)了分化。
本研究由于基因家族鑒定和分析方法的局限性,以及缺少青岡櫟其余不同組織的轉(zhuǎn)錄組數(shù)據(jù),無法準確預(yù)測青岡櫟原花青素合成途徑中發(fā)揮關(guān)鍵作用的基因。但根據(jù)青岡櫟原花青素合成基因的復(fù)制擴張以及理化性質(zhì)和進化模式的多樣性,可以推斷出青岡櫟原花青素合成基因在進化過程中并未因功能冗余而被拋棄,相反,可能因為獲得新功能或發(fā)揮重要作用而被保留。在后續(xù)研究中,可通過轉(zhuǎn)錄組和代謝組等多組學(xué)聯(lián)合分析方法,探究青岡櫟原花青素在不同植物組織中的積累機制和基因表達模式。
3.2 結(jié) 論
青岡櫟11種原花青素合成基因共有42個基因家族成員,通過多種復(fù)制方式進行了擴張。復(fù)制基因在櫟屬進化中相對保守,在青岡櫟中表現(xiàn)出理化性質(zhì)、蛋白結(jié)構(gòu)和進化模式的多樣化。本研究通過生物信息學(xué)方法分析原花青素合成基因的特征和進化模式,為深入解析櫟屬植物單寧合成機制奠定了分子基礎(chǔ)。
參考文獻:
[1] 石朔蓉,齊夢娟,王書韌,等.湘西青岡櫟次生林林下主要木本植物的生態(tài)策略[J].中南林業(yè)科技大學(xué)學(xué)報,2022,42(3): 53-61. SHI S R, QI M J, WANG S R, et al. Ecological strategies of main understory woody plants in the Cyclobalanopsis glauca secondary forest in west Hunan[J]. Journal of Central South University of Forestry Technology,2022,42(3):53-61.
[2] 胡芳名,李建安,李若婷.湖南省主要橡子資源綜合開發(fā)利用的研究[J].中南林學(xué)院學(xué)報,2000,20(4):41-45. HU F M, LI J A, LI R T. Oak plant resources in Hunan with reference to its integrated utilization[J]. Journal of Central South Forestry University,2000,20(4):41-45.
[3] 周磊,許敏,楊崇仁,等.殼斗科植物的化學(xué)成分及生物活性研究進展[J].天然產(chǎn)物研究與開發(fā),2012, 24(2):260-273. ZHOU L, XU M, YANG C R, et al. The advance of chemical components and bioactivity of Fagaceous plants[J]. Natural Product Research and Development,2012,24(2):260-273.
[4] MAKKAR H P S, SINGH B. Distribution of condensed tannins(proanthocyanidins) in various fibre fractions in young and mature leaves of some oak species[J]. Animal Feed Science and Technology,1991,32(4):253-260.
[5] 王亞鳳,黃永林,劉金磊,等.殼斗科植物種子的多酚類含量及抗氧化能力[J].廣西科學(xué),2016,23(2):180-183,188. WANG Y F, HUANG Y L, LIU J L, et al. Content and antioxidant capacity of polyphenols from the seeds of Fagaceae plants[J]. Guangxi Sciences,2016,23(2):180-183,188.
[6] HE F, PAN Q H, SHI Y, et al. Biosynthesis and genetic regulation of proanthocyanidins in plants[J]. Molecules,2008,13(10): 2674-2703.
[7] BOGS J, DOWNEY M O, HARVEY J S, et al. Proanthocyanidin synthesis and expression of genes encoding leucoanthocyanidin reductase and anthocyanidin reductase in developing grape berries and grapevine leaves[J]. Plant Physiology,2005,139(2):652-663.
[8] 蘇全勝,王爽,孫玉強,等.植物原花青素生物合成及調(diào)控研究進展[J].中國細胞生物學(xué)學(xué)報,2021,43(1):219-229. SU Q S, WANG S, SUN Y Q, et al. Advances in biosynthesis and regulation of plants proanthocyanidins[J]. Chinese Journal of Cell Biology,2021,43(1):219-229.
[9] YU K J, SONG Y S, LIN J X, et al. The complexities of proanthocyanidin biosynthesis and its regulation in plants[J]. Plant Communications,2022,4(2):100498.
[10] LUO C S, LI T T, SONG Y, et al. High-quality haplotyperesolved genome assemblies of ring-cup oak (Quercus glauca) provide insight into the demographic dynamics of a dominant tree in East Asia subtropics evergreen broadleaved forests[J]. Molecular Ecology Resources,2024,24(3):e13914.
[11] SORK V L, FITZ-GIBBON S T, PUIU D, et al. First draft assembly and annotation of the genome of a California endemic oak Quercus lobata Née (Fagaceae)[J]. G3: Genes, Genomes, Genetics,2016,6(11):3485-3495.
[12] AI W F, LIU Y Q, MEI M, et al. A chromosome-scale genome assembly of the Mongolian oak (Quercus mongolica)[J]. Molecular Ecology Resources,2022,22(6):2396-2410.
[13] CAMACHO C, COULOURIS G, AVAGYAN V, et al. BLAST+: architecture and applications[J]. BMC Bioinformatics,2009, 10(1):1-9.
[14] CHEN C J, CHEN H, ZHANG Y, et al. TBtools: an integrative toolkit developed for interactive analyses of big biological data[J]. Molecular Plant,2020,13(8):1194-1202.
[15] ROZAS J, FERRER-MATA A, SáNCHEZ-DELBARRIO J C, et al. DnaSP 6: DNA sequence polymorphism analysis of large data sets[J]. Molecular Biology and Evolution,2017,34(12): 3299-3302.
[16] KUMAR S, TAMURA K, NEI M. MEGA: molecular evolutionary genetics analysis software for microcomputers[J].Bioinformatics,1994,10(2):189-191.
[17] KIM D, PAGGI J M, PARK C, et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype[J]. Nature Biotechnology,2019,37(8):907-915.
[18] LI H, HANDSAKER B, WYSOKER A, et al. The sequence alignment/map format and SAMtools[J]. Bioinformatics, 2009,25(16):2078-2079.
[19] PERTEA M, PERTEA G M, ANTONESCU C M, et al. StringTie enables improved reconstruction of a transcriptome from RNAseq reads[J]. Nature Biotechnology,2015,33(3):290-295.
[20] KAHLE D, WICKHAM H. ggmap: spatial visualization with ggplot2[J]. The R Journal,2013,5(1):144-161.
[21] WONG J H, NAMASIVAYAM P, ABDULLAH M P. The PAL2 promoter activities in relation to structural development and adaptation in Arabidopsis thaliana[J]. Planta,2012,235(2): 267-277.
[22] SHI R, SUN Y H, LI Q Z, et al. Towards a systems approach for lignin biosynthesis in Populus trichocarpa: transcript abundance and specificity of the monolignol biosynthetic genes[J]. Plant and Cell Physiology,2010,51(1):144-163.
[23] NESI N, JOND C, DEBEAUJON I, et al. The Arabidopsis TT2 gene encodes an R2R3 MYB domain protein that acts as a key determinant for proanthocyanidin accumulation in developing seed[J]. The Plant Cell,2001,13(9):2099-2114.
[24] WU S D, HAN B C, JIAO Y N. Genetic contribution of paleopolyploidy to adaptive evolution in angiosperms[J]. Molecular Plant,2020,13(1):59-71.
[25] 侯沖,晁楠,戴明潔,等.桑樹4CL基因家族的篩選和Mm4CL2的功能研究[J].蠶業(yè)科學(xué),2022,48(1):18-24. HOU C, CHAO N, DAI M J, et al. Screening of 4CL family genes in Mulberry and functional study of Mm4CL2[J]. Science of Sericulture,2022,48(1):18-24.
[26] 王星淇,孫雪麗,車婧如,等.兩個非洲菊4CL基因的克隆及表達[J].應(yīng)用與環(huán)境生物學(xué)報,2020,26(2):272-279. WANG X Q, SUN X L, CHE J R, et al. Cloning and expression analysis of two 4CL genes in gerbera[J]. Chinese Journal of Applied and Environmental Biology,2020,26(2):272-279.
[27] 梁明煒,劉海峰,肖向文,等.棕色棉F3′H-羥化酶基因的克隆與生物信息學(xué)分析[J].生物技術(shù)通報,2011(11):199-206. LIANG M W, LIU H F, XIAO X W, et al. Cloning and bioinformatics analysis of flavonoid 3′ -hydroxylase gene GhF3′ H in brown cotton (Gossypium hirsutum L.) fibers[J]. Biotechnology Bulletin,2011(11):199-206.
[28] CANNON S B, MITRA A, BAUMGARTEN A, et al. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana[J]. BMC Plant Biology,2004,4(1):1-21.
[29] 張麗之,樊勝,安娜,等.蘋果全基因組PAL基因家族成員的鑒定及表達分析[J].浙江農(nóng)業(yè)學(xué)報,2018,30(12):2031-2043. ZHANG L Z, FAN S, AN N, et al. Identification and expression analysis of PAL gene family in apple[J]. Acta Agriculturae Zhejiangensis,2018,30(12):2031-2043.
[30] 孫潤澤,張雪,成果,等.葡萄苯丙氨酸解氨酶基因家族的全基因組鑒定及表達分析[J].植物生理學(xué)報,2016,52(2): 195-208. SUN R Z, ZHANG X, CHENG G, et al. Genome-wide characterization and expression analysis of the phenylalanine ammonia-lyase gene family in grapevine (Vitis vinifera L.)[J]. Plant Physiology Journal,2016,52(2):195-208.
[31] 方璐,程鋒,武劍,等.全基因組與串聯(lián)復(fù)制后白菜基因的保留[J].生物技術(shù)通報,2012(11):9-14. FANG L, CHENG F, WU J, et al. Gene retention following whole genome duplication and tandem duplication in Brassica rapa[J]. Biotechnology Bulletin,2012(11):9-14.
[32] LEISTER D. Tandem and segmental gene duplication and recombination in the evolution of plant disease resistance genes[J]. Trends in Genetics,2004,20(3):116-122.
[33] 黃勝雄,胡尚連,孫霞,等.木質(zhì)素生物合成酶4CL基因的遺傳進化分析[J].西北農(nóng)林科技大學(xué)學(xué)報(自然科學(xué)版),2008, 36(10):199-206. HUANG S X, HU S L, SUN X, et al. Genetic and evolutionary analysis of lignin biosynthase 4CL gene[J]. Journal of Northwest A F University (Natural Science Edition),2008,36(10):199-206.
[本文編校:謝榮秀]