包國(guó)媛, 李文辛, 楊鑫光, 王雅瓊,2,3,4
(1.青海民族大學(xué)生態(tài)環(huán)境與資源學(xué)院,青海 西寧 810007; 2.青海省特色經(jīng)濟(jì)植物高值化利用重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810007; 3.青海省生物技術(shù)與分析測(cè)試重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810007; 4.青藏高原資源化學(xué)與生態(tài)環(huán)境保護(hù)國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810007)
密碼子偏好性是生物基因組進(jìn)化的一個(gè)重要特征[1],植物密碼子偏好性研究對(duì)探究植物分子進(jìn)化和外源蛋白質(zhì)表達(dá)有著重要的意義[2]。植物在進(jìn)化過(guò)程中密碼子的使用會(huì)受到環(huán)境選擇、堿基突變、基因漂變等因素的影響[3-4]。作為傳遞生物遺傳信息的序列單位,密碼子具有簡(jiǎn)并性,常出現(xiàn)2個(gè)或多個(gè)密碼子編碼同一種氨基酸的現(xiàn)象[5]。編碼同一種氨基酸的不同密碼子稱為同義密碼子 (synonymous codon)[6]。64個(gè)密碼子編碼20種氨基酸和3個(gè)終止密碼子[6]。同義密碼子在不同基因組中使用的頻率并不相同,甚至在同一基因組的不同基因中也不相同,這種不平等使用同義密碼子的現(xiàn)象被稱為同義密碼子使用偏好性[7]。
海甜菜(Betavulgarissubsp.)是所有馴化甜菜的祖先[8-9],通常被稱為野生甜菜,起源于馬德拉群島[10-11]。海甜菜亞種主要有4個(gè),而全部的栽培種屬于Betavulgarissubsp.vulgaris亞種[12-13]。海甜菜種群在干旱和鹽堿化高的地區(qū)有較好的適應(yīng)性[14]。中國(guó)海甜菜栽培種(甜菜)主要分布在東北、西北和華北等地區(qū)[15]。海甜菜根富含多種營(yíng)養(yǎng)成分、維生素和生物活性物質(zhì),具有較高的抗氧化性能,在食品生產(chǎn)中得到了較多的應(yīng)用[16-17]。
葉綠體和線粒體是植物能量利用和轉(zhuǎn)化的主要細(xì)胞器[18-19]。線粒體基因組具有重排進(jìn)化快、DNA插入容易等特點(diǎn)[20-21],而葉綠體基因組具有較小的進(jìn)化率和較大的保守性,基因拷貝數(shù)較多、單親遺傳等特點(diǎn)[22]。目前,對(duì)植物線粒體基因組的研究主要側(cè)重于基因結(jié)構(gòu)與功能、基因表達(dá)水平調(diào)控、核質(zhì)互作及線粒體的起源進(jìn)化等領(lǐng)域[23-24],對(duì)葉綠體基因組的研究側(cè)重植物葉綠體遺傳進(jìn)化等方面[25]。
目前海甜菜完整線粒體和葉綠體基因組已經(jīng)公布[26],但海甜菜細(xì)胞器基因組密碼子使用偏好性還缺乏分析。本研究利用Codon W 和CUSP軟件和海甜菜線粒體和葉綠體細(xì)胞器基因組的蛋白質(zhì)編碼序列(CDS),結(jié)合密碼子使用的中性繪圖分析、有效密碼子數(shù)(ENC-plot)分析、偏倚性(PR2-plot)分析,明確海甜菜細(xì)胞器基因組密碼子使用的偏好性及最優(yōu)密碼子。以期為海甜菜基因資源的利用和其他相關(guān)研究提供依據(jù)。
海甜菜線粒體和葉綠體基因組完整序列均來(lái)自NCBI數(shù)據(jù)庫(kù)(GenBank接收號(hào)為:FP885845.1和ON641300.1)。依據(jù)密碼子偏好性分析的序列選擇標(biāo)準(zhǔn)[27],在基因編碼序列(CDS)中,選擇長(zhǎng)度>300 bp,以ATG開(kāi)始,TAG、TAA、TGA結(jié)尾,內(nèi)部不存在終止密碼子及重復(fù)序列的編碼序列進(jìn)行分析。
利用Codon W 軟件分析線粒體和葉綠體基因組中符合密碼子偏好性分析條件的CDS序列,獲得各CDS的有效密碼子數(shù)(ENC)、同義密碼子相對(duì)使用度(RSCU)[28]。利用CUSP在線軟件(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)分析密碼子第1位堿基G+C含量(GC1)、第2位堿基G+C含量(GC2)、第3位堿基G+C含量(GC3)、3位堿基平均G+C含量(GCall)、第3位堿基上A、T、C、G堿基的含量A3、T3、C3、G3及同義密碼子第3位堿基G+C含量(GC3S)等參數(shù)[29-30]。
以線粒體和葉綠體基因密碼子GC1和GC2平均值GC12為縱坐標(biāo),GC3為橫坐標(biāo)制作中性圖[31]。若GC12與GC3之間顯著相關(guān),回歸曲線斜率接近于1,表明密碼子偏好性的成因主要源于堿基突變,反之則說(shuō)明密碼子偏好性受到自然選擇影響較大[32]。
以線粒體和葉綠體基因密碼子GC3為橫坐標(biāo),ENC為縱坐標(biāo)繪制ENC-plot圖。以公式ENCexp=2+GC3+29/[GC3+(1-GC3)2][33]繪制標(biāo)準(zhǔn)曲線。以(ENCexp-ENCobs)/ENCexp計(jì)算各基因有效密碼子比值(ENCobs為各基因?qū)嶋HENC),并進(jìn)行海甜菜線粒體和葉綠體基因組有效密碼子比值頻數(shù)分布分析。基因密碼子ENC取值范圍為20~61。當(dāng)ENC取值為20時(shí),表示每個(gè)氨基酸只使用一個(gè)密碼子,為極端偏好;ENC取值為61時(shí),表示密碼子偏向隨機(jī)使用,不存在使用偏好[34-35]。
以海甜菜線粒體和葉綠體基因組G3/(G3+C3)為橫坐標(biāo),A3/(A3+U3)為縱坐標(biāo),制作基因密碼子偏倚分析圖(PR2-plot)[28]。PR2-plot圖中心點(diǎn)代表無(wú)偏性使用時(shí)的密碼子狀態(tài),即A=U且C=G,其余點(diǎn)與中心點(diǎn)的矢量距離則代表各基因密碼子堿基偏倚程度和方向[36]。
以海甜菜線粒體和葉綠體各基因的ENC排序,從前后兩端各選取10%的基因,分別建立高表達(dá)基因庫(kù)和低表達(dá)基因庫(kù),利用軟件Codon W計(jì)算高表達(dá)和低表達(dá)基因同義密碼子相對(duì)使用度(RSCU)及其差值(△RSCU),定義△RSCU≥0.08且高表達(dá)基因RSCU≥1.00的密碼子為最優(yōu)密碼子[37-38]。
本研究共篩選得到136個(gè)海甜菜線粒體基因編碼序列(CDS)和52個(gè)葉綠體基因編碼序列。線粒體基因組密碼子3位堿基平均G+C含量(GCall)為43.42%,GC1、GC2、GC3及GC3S分別為46.98%、41.21%、42.06%及42.23%(表1)。葉綠體基因組密碼子3位堿基平均G+C含量(GCall)為37.92%,GC1、GC2、GC3及GC3S分別為 46.67%、39.11%、27.97%及28.13%(表2)。線粒體基因組ENC的均值為52.23,介于36.44~61.00,ENC>45的基因有121個(gè);葉綠體基因組有效密碼子數(shù)(ENC)介于35.00~52.01,均值為46.10,ENC>45的基因有35個(gè)。本研究中海甜菜線粒體基因組ENC均值為52.23,葉綠體均值為46.10,更加接近61,說(shuō)明海甜菜線粒體和葉綠體基因組密碼子偏好性較弱。
表1 海甜菜線粒體基因編碼序列(CDS)密碼子各位置的G+C含量及有效密碼子數(shù)
續(xù)表1 Continued 1
續(xù)表1 Continued 1
續(xù)表1 Continued 1
表2 海甜菜葉綠體基因編碼序列(CDS)密碼子各位置的G+C含量及有效密碼子數(shù)
續(xù)表2 Continued 2
線粒體基因組密碼子參數(shù)間的相關(guān)性如表3所示。GCall和GC1、GC2、GC3都呈極顯著相關(guān),GC1和GC2呈顯著相關(guān),GC1和GC3呈極顯著相關(guān),GC2與GC3呈極顯著相關(guān);ENC與GC1呈顯著相關(guān),與GC2不相關(guān),與GC3和GCall呈極顯著相關(guān);ENC、GC1、GC3和密碼子數(shù)均不相關(guān),GC2與密碼子數(shù)呈極顯著負(fù)相關(guān)。ENC與密碼子第1位堿基組成密切相關(guān),與密碼子數(shù)不相關(guān),可能的原因是基因序列長(zhǎng)度對(duì)密碼子使用偏好性的影響很小,這與蔡元保等研究結(jié)果一致[32]。葉綠體基因組密碼子參數(shù)間的相關(guān)性如表4所示。GCall和GC1、GC2、GC3呈極顯著相關(guān),GC1和GC2呈極顯著相關(guān),與GC3呈顯著相關(guān),GC2與GC3無(wú)顯著相關(guān)性;ENC與GC3呈極顯著相關(guān),與GC1、GC2、GCall不相關(guān);密碼子數(shù)與ENC、GC1、GC2、GC3均不相關(guān)。海甜菜線粒體和葉綠體基因組密碼子的使用偏好性均受到G+C含量、ENC和密碼子第1位堿基的影響。其中,線粒體基因組密碼子的使用偏好性與G+C含量密切相關(guān),而葉綠體基因組密碼子的使用偏好性則與ENC和GC3密切相關(guān)。
海甜菜線粒體和葉綠體基因同義密碼子相對(duì)使用度如表5所示。線粒體基因高頻密碼子(RSCU>1)有28個(gè),其中11個(gè)以A結(jié)尾,2個(gè)以G結(jié)尾,15個(gè)以U結(jié)尾;低頻密碼子(RSCU<1)共有34個(gè),其中5個(gè)以A結(jié)尾,16個(gè)以C結(jié)尾,12個(gè)以G結(jié)尾,1個(gè)以U結(jié)尾。葉綠體基因高頻密碼子有30個(gè),其中11個(gè)以A結(jié)尾,12個(gè)U結(jié)尾,4個(gè)以G結(jié)尾,3個(gè)以C結(jié)尾;RSCU為1的密碼子共2個(gè),分別為AUG和UGG;低頻密碼子共有32個(gè),這表明海甜菜線粒體和葉綠體基因組中使用度較高的密碼子是以A和U結(jié)尾,此結(jié)果與沙棗葉綠體基因組相同[39]。
表4 海甜菜葉綠體基因密碼子參數(shù)間的相關(guān)性
表5 海甜菜線粒體基因和葉綠體基因同義密碼子相對(duì)使用度(RSCU)
續(xù)表5 Continued 5
海甜菜線粒體和葉綠體基因組中除甲硫氨酸(Met)和色氨酸(Trp)分別由1個(gè)密碼子AUG和UGG編碼之外,剩余氨基酸由2~6個(gè)密碼子編碼,且都表現(xiàn)出明顯的使用偏好性。在編碼亮氨酸(Leu)的6個(gè)密碼子中,UUA的RSCU最大,線粒體基因組中為1.264 8,葉綠體基因組中為2.065 2,表明UUA具有很高的偏好性,是海甜菜線粒體和葉綠體基因組中常用的密碼子。
海甜菜線粒體基因組GC12的取值范圍在33.12%~58.91%,GC3的取值范圍在21.37%~60.38%,GC12與GC3的相關(guān)系數(shù)為0.346,無(wú)顯著相關(guān)性(圖1A)。這說(shuō)明海甜菜線粒體基因組密碼子第3位與第1、2位堿基突變模式不相同,比起堿基突變密碼子偏好性更易受到自然選擇的影響,這與睡蓮屬植物的結(jié)果相似[40]。葉綠體基因組GC12的取值范圍在32.46%~55.04%,GC3的取值范圍在21.43%~36.01%,GC12與GC3的相關(guān)系數(shù)為0.286,也無(wú)顯著相關(guān)性(圖1B)。此外,圖1B所有點(diǎn)均在1∶1線上方,說(shuō)明所有基因GC12>GC3,即密碼子第3位的G+C含量偏低,密碼子偏好性受自然選擇的影響大。
A:線粒體;B葉綠體。圖1 海甜菜線粒體和葉綠體基因密碼子中性繪圖Fig.1 The neutral mapping of mitochondrial and chloroplast gene codons in Beta vulgaris subsp.
海甜菜線粒體和葉綠體基因組有效密碼子比值頻數(shù)分布及ENC與GC3的關(guān)系圖(ENC-plot)分別如表6和圖2所示。海甜菜線粒體基因ENC大多偏離標(biāo)準(zhǔn)曲線(圖2A),僅有39個(gè)基因有效密碼子比值頻數(shù)分布在-0.05~0.05區(qū),這39個(gè)基因與預(yù)期ENC較接近,其余的97個(gè)基因分布在-0.05~0.05之外。葉綠體基因ENC也大多數(shù)偏離標(biāo)準(zhǔn)曲線(圖2B),分布在-0.05~0.05的基因14個(gè),其余38個(gè)基因分布在-0.05~0.05之外。與葉綠體基因組相比,線粒體基因組有更多基因遠(yuǎn)離標(biāo)準(zhǔn)曲線,表明線粒體基因組密碼子偏好性更易受到堿基突變影響。
表6 有效密碼子比值頻數(shù)分布
海甜菜線粒體和葉綠體各基因密碼子第3位上堿基偏倚性如圖3所示。各基因不均勻地分布在4個(gè)不同區(qū)域,大部分位于平面圖的下半部和右半部。這說(shuō)明海甜菜線粒體和葉綠體基因密碼子第3位上U(T)堿基出現(xiàn)頻率大于A堿基,G堿基出現(xiàn)頻率大于C 堿基。海甜菜細(xì)胞器基因組密碼子偏好性不但受到了突變的影響,還受到了自然選擇的影響。
A:線粒體;B:葉綠體。圖2 海甜菜線粒體和葉綠體基因組有效密碼子數(shù)(ENC)與GC3的關(guān)系圖(ENC-plot)Fig.2 The relationship between GC3 and the effective number of codons (ENC) in mitochondrial and chloroplast genomes of Beta vulgaris subsp.
A:線粒體;B:葉綠體。圖3 海甜菜線粒體和葉綠體基因密碼子偏倚性分析(PR2-plot)Fig.3 Analysis of codon bias of mitochondrial and chloroplast genomes in Beta vulgaris subsp.
海甜菜線粒體和葉綠體高、低表達(dá)基因的數(shù)量及同義密碼子相對(duì)使用度如表7所示。從表中可以看出,線粒體和葉綠體△RSCU不小于0.08的高表達(dá)優(yōu)越密碼子分別有18個(gè)和17個(gè)。線粒體基因組中以A、U、C、G結(jié)尾的優(yōu)越密碼子分別有6個(gè)、10個(gè)、1個(gè)和1個(gè);線粒體△RSCU不小于0.30且小于0.50的優(yōu)越密碼子有2個(gè),△RSCU不小于0.50的優(yōu)越密碼子有6個(gè)。葉綠體基因組中以A、U、C、G結(jié)尾的優(yōu)越密碼子分別有5個(gè)、12個(gè)、0個(gè)和0個(gè);葉綠體△RSCU不小于0.30且小于0.50的優(yōu)越密碼子有4個(gè);△RSCU不小于0.50的優(yōu)越密碼子有8個(gè)。海甜菜線粒體和葉綠體基因組密碼子中共有27個(gè)既滿足高頻率也滿足高表達(dá)的條件,可視為最優(yōu)密碼子。
海甜菜線粒體和葉綠體基因密碼子的平均G+C含量分別為43.42%和37.92%,第3位堿基G+C含量(GC3)大多在50% 以下,說(shuō)明海甜菜線粒體和葉綠體基因密碼子第3位堿基以A、U為主,這與水稻線粒體基因組[41]、玉米線粒體基因組[42],大粒香水稻葉綠體基因組[43]、茍當(dāng)3號(hào)水稻葉綠體基因組[44]、白羊草葉綠體基因組[45]的密碼子偏好性一致。由此可以看出植物細(xì)胞器基因組進(jìn)化趨勢(shì)大致相同。
表7 海甜菜線粒體和葉綠體各基因的RSCU和最優(yōu)密碼子
續(xù)表7 Continued 7
RSCU是評(píng)價(jià)生物細(xì)胞器基因組密碼子使用模式的重要指標(biāo)[46]。本研究中,海甜菜線粒體和葉綠體基因組RSCU>1.00的高頻密碼子有28個(gè)和30個(gè),其中線粒體基因組有26個(gè),葉綠體有23個(gè)以 A/U 結(jié)尾;這與紫花苜蓿(Medicagosativa)葉綠體基因組密碼子使用模式[47]一致。中性繪圖分析、ENC-plot分析、PR2-plot分析結(jié)果均顯示海甜菜線粒體和葉綠體基因組密碼子受自然選擇的影響較大[24],與人參屬植物(PanaxLinn)[48]、烏頭屬藥用植物(Aconiutm)[49]葉綠體基因組密碼子一致,不同于楊樹(shù)(PopulusprzewalskiiMaxim.)葉綠體基因組密碼子主要受堿基突變的影響[50],說(shuō)明物種密碼子偏好性影響因素的多元化[51-58]。
本研究初步揭示了海甜菜線粒體和葉綠體基因組密碼子偏好性形成的主要原因是自然選擇,篩選出27個(gè)最優(yōu)密碼子。本研究結(jié)果為探索海甜菜的分子特性和遺傳多樣性,弄清基因的進(jìn)化壓力以及分子育種具有重要意義。
江蘇農(nóng)業(yè)學(xué)報(bào)2023年9期