尹為治,方 正,黃良鴻,龍文興,李佳靈,
(1.海南五指山國(guó)家級(jí)自然保護(hù)區(qū)管理局,海南 五指山 572200;2.海南大學(xué),海南 ???570100)
密碼子偏性反映了物種或基因的起源、進(jìn)化及突變方式,對(duì)蛋白質(zhì)表達(dá)等有重要的影響[1]。分析不同物種的密碼子使用模式及影響因素,有助于理解生物與環(huán)境適應(yīng)的分子機(jī)制、探討物種間的進(jìn)化關(guān)系[2]。葉綠體基因組具有相對(duì)保守的分子結(jié)構(gòu)、序列獲得容易和進(jìn)化速率適中等特點(diǎn),被廣泛運(yùn)用于植物多樣性、系統(tǒng)發(fā)育、DNA條碼開(kāi)發(fā)等研究中[3-5]。
龍腦香科植物是亞洲熱帶雨林的代表植物,是海南熱帶低地雨林的代表中,分布有坡壘屬坡壘(Hopeahainanensis)和無(wú)翼坡壘(鐵凌Hopeaexalata)、青梅屬青梅(Vaticamangachapoi)[6-7],均為國(guó)家重點(diǎn)保護(hù)野生植物。目前,對(duì)龍腦香科植物的研究,主要集中于資源狀況、種群特征、繁育技術(shù)、開(kāi)發(fā)利用價(jià)值[8-9]等方面。而龍腦香科植物葉綠體基因組密碼子偏好性的研究,僅見(jiàn)于Raju Biswas等針對(duì)龍腦香科matK、rbcL葉綠體基因進(jìn)行密碼子偏好性分析[10]。雖然坡壘和青梅的葉綠體全基因組已完成測(cè)序[11-12],但關(guān)于兩者的葉綠體基因組編碼基因的密碼子使用模式比較的研究尚未見(jiàn)報(bào)道。
在前人研究的基礎(chǔ)上,對(duì)坡壘和青梅的葉綠體基因組中密碼子堿基組成特點(diǎn)及使用偏性進(jìn)行比較分析,揭示其密碼子偏性的影響因素,分析最優(yōu)密碼子,旨在為坡壘、青梅等龍腦香科植物葉綠體基因組的應(yīng)用和研究提供科學(xué)的參考依據(jù)。
從NCBI分別下載坡壘、青梅葉綠體全基因組序列信息,登錄號(hào)為NC_044642.1、NC_041485.1,各獲得了82和83條編碼基因。為降低誤差,篩選其中以AUG為起始密碼子且長(zhǎng)度超過(guò)300 bp的非重復(fù)序列,分別為49條、51條基因,用于后續(xù)分析。研究中的統(tǒng)計(jì)分析使用SPSS 22及R語(yǔ)言完成。
1.2.1密碼子組成分析
運(yùn)用CodonW(http://www.seekbio.com/)和CUSP(http://imed.med.ucm.es/EMBOSS/)軟件分析有效密碼子數(shù)(ENC)、密碼子第三位堿基組成(T3、C3、A3、G3),密碼子第1、2、3位堿基G+C及45個(gè)基因總GC含量(GC1、GC2、GC3、GC)。
1.2.2中性繪圖
以GC1和GC2平均值(GC12)為縱坐標(biāo),GC3為橫坐標(biāo),分析GC3與GC12的相關(guān)性。若二者呈顯著相關(guān)關(guān)系,說(shuō)明堿基的變異模式相同,密碼子的使用受突變的影響;反之,則表示基因有較高的保守性,密碼子使用受選擇壓力的影響較大[13]。
1.2.3PR2-plot分析
為避免密碼子第3位AT和GC之間突變不平衡,統(tǒng)計(jì)編碼丙氨酸、甘氨酸、亮氨酸(CTT、CTC、CTA、CTG)、脯氨酸、精氨酸(CGT、CGC、CGA、CGG)、絲氨酸(TCT、TCC、TCA、TCG)、蘇氨酸、纈氨酸的密碼子第3位堿基的組成情況,以A3/(A3+T3)為縱坐標(biāo),G3/(G3+C3)為橫坐標(biāo)繪制散點(diǎn)圖[14]。
1.2.4ENC-plot繪圖分析
ENC-plot 繪圖用于分析突變?cè)诿艽a子使用模式中的作用。以各基因的ENC、GC3值為縱、橫坐標(biāo),用R語(yǔ)言做散點(diǎn)圖,并與ENC期望值ENC=2+GC3+29/(GC32+(1-GC3)2)進(jìn)行比較。當(dāng)實(shí)際ENC值與預(yù)期ENC值差異較小時(shí),表明突變對(duì)密碼子偏好性影響較大;反之,選擇為影響密碼子偏好性的主要因素[14]。
1.2.5最優(yōu)密碼子分析
對(duì)ENC值進(jìn)行排序,從兩極各選出10%基因作為高、低表達(dá)組,分別計(jì)算對(duì)應(yīng)的相對(duì)同義密碼子使用度(RSCU)值,篩選高低表達(dá)組內(nèi)對(duì)應(yīng)密碼子△RSCU之差大于0.08作為高表達(dá)優(yōu)越密碼子,并與整體密碼子RSCU進(jìn)行結(jié)合比較,將△RSCU>0.08,且整體RSCU>1的密碼子定義為最優(yōu)密碼子[13]。
通過(guò)CodonW和CUSP對(duì)坡壘、青梅葉綠體基因組的CDS進(jìn)行分析,結(jié)果如表1所示:坡壘、青梅葉綠體編碼基因密碼子T3和A3含量分別為46.89%、41.74%和46.85%、41.64%,表明坡壘、青梅葉綠體編碼基因第三位堿基以A/T為主。ENC值分別為50.26、50.29。一般認(rèn)為ENC取值35作為偏性強(qiáng)弱的區(qū)分標(biāo)準(zhǔn)[15-16]。因此,坡壘、青梅葉綠體基因組的密碼子偏好性較弱。
表1 坡壘、青梅葉綠體基因組密碼子第3位堿基組成及GC含量
通過(guò)各編碼基因GC、ENC含量計(jì)算,獲得結(jié)果如表2所示:不同基因的GC含量存在一定的差異,大部分基因的GC1含量高于GC2和GC3。atpF、cemA、rps3、rps14基因的ENC值在坡壘與青梅間的差值分別為10.75、5.17、-5.83、11.57,說(shuō)明坡壘的atpF、cemA、rps14基因的密碼子偏性強(qiáng)于青梅,rps3基因的密碼子偏性弱于青梅。坡壘葉綠體基因組中不存在rpl16基因,而psbC基因的起始密碼子為ACG,因此坡壘與青梅存在一定的種間差異。
表2 坡壘、青梅葉綠體編碼基因密碼子GC含量
GC1、GC2、CG3、GC、ENC及序列長(zhǎng)度(sequence Length,SL)相關(guān)性分析結(jié)果見(jiàn)表3。GC與GC1、GC2、CG3均為極顯著相關(guān),SL與CG3均顯著相關(guān),GC3與GC1、GC2相關(guān)性均不顯著,而GC1與GC2均存在相關(guān)關(guān)系??梢?jiàn),兩種植物間第一、二位堿基組成相似,第三位堿基組成存在較大差異。坡壘ENC與GC1和SL顯著相關(guān),相關(guān)值為0.357、0.287。青梅ENC與CG3極顯著相關(guān)。坡壘第1位堿基組成對(duì)葉綠體基因組密碼子偏性影響強(qiáng)于序列長(zhǎng)度,青梅則是第3位堿基組成對(duì)密碼子偏性影響較大。
表3 密碼子相關(guān)參數(shù)的相關(guān)性分析
中性分析散點(diǎn)圖顯示(圖1),坡壘GC12分布范圍在 0.344 8~0.561 2,GC3在0.214 9~0.378 9;青梅GC12在 0.347 0~0.557 6,GC3在0.225 5~0.376 3。兩者GC3與GC12的Pearson相關(guān)系數(shù)分別為0.161、0.118。雙尾檢驗(yàn)相關(guān)性不顯著(p>0.05)。密碼子第1、2位堿基的突變模式不同于第3位,基因序列的突變偏性較小而更多地受到選擇壓力的影響。
注:坡壘橫坐標(biāo)平均位置為 0.467 2±0.097 0,縱坐標(biāo)為 0.448 8± 0.066 9;青梅橫坐標(biāo)平均位置為 0.467 8±0.101 4,縱坐標(biāo)為 0.450 7±0.069 7。
采用PR2-plot的方法分析了密碼子第3位嘌呤(A和G)與嘧啶(T和C)之間的關(guān)系(圖2)。一般認(rèn)為,密碼子使用模式完全由突變?cè)斐?,則G和 C以及 A和 T 的使用頻率應(yīng)相等[14,17]。而坡壘、青梅葉綠體基因組大部分基因均分布于左下方區(qū)域,說(shuō)明在密碼子第三位T的使用頻率高于A(yíng),C的使用頻率高于G。兩者葉綠體基因組密碼子的使用模式除了突變的影響外,還受自然選擇等因素的影響。
圖2 PR2-plot 繪圖分析
從ENC與GC3的相關(guān)性分析可以看出(圖3),坡壘、青梅葉綠體基因ENC值分布比較分散,基因間偏好程度差別較大。大部分基因落在期望曲線(xiàn)上或附近,表明這些基因密碼子用法受突變影響較大。兩者atpE基因在曲線(xiàn)上方較遠(yuǎn)處,表明該基因?yàn)殡S機(jī)使用密碼子的基因; 坡壘ccsA、rps18和青梅ndhC等偏離期望曲線(xiàn)下方較遠(yuǎn),表明基因受到選擇壓力,密碼子偏性較強(qiáng)。
圖3 ENC-plot 繪圖分析
ENC分布頻數(shù)分析結(jié)果顯示(表4),ENC頻數(shù)集中于-0.05 ~0.05的基因,坡壘22個(gè),青梅21個(gè)。這部分基因密碼子偏性主要受到突變的影響。坡壘ccsA、rps18和青梅ndhC的ENC頻數(shù)分布于0.25~0.35,這部分基因密碼子偏性主要受到選擇壓力的影響。
表4 ENC 比值頻率分布
根據(jù)△RSCU法分析結(jié)果(表5),坡壘17個(gè)最優(yōu)密碼子,其中7個(gè)以A結(jié)尾,9個(gè)以U結(jié)尾,1個(gè)以C結(jié)尾,分別為GCU、UGU、GAA、GGU、AUU、UUA、CCA、CAA、CGU、AGU、GUA、ACU、AAA、GAU、GCA、GUU和UAC。青梅15個(gè)高頻密碼子,其中6個(gè)以A結(jié)尾,9個(gè)以U結(jié)尾,最優(yōu)密碼子7個(gè),分別為GCU、UGU、GAA、GGU、AUU、UUA、CCA、CAA、CGU、AGU、GUA、CCU、UCU、UUU和ACA。兩者葉綠體基因組使用的最優(yōu)密碼子差異很大,相同的最優(yōu)密碼子僅有11個(gè),且△RSCU值存在一定差異。
表5 兩種梧桐密碼子 RSCU 及最優(yōu)密碼子
密碼子的堿基組成是密碼子偏好性的最普遍影響因素[18]。密碼子組成分析的結(jié)果顯示,坡壘、青梅葉綠體基因末位堿基以A/T為主,與 Zhou[19]的研究結(jié)論一致。坡壘第1位堿基組成對(duì)葉綠體基因組密碼子偏性影響強(qiáng)于序列長(zhǎng)度。青梅則是第3位堿基組成對(duì)密碼子偏性影響較大。同科屬不同物種間各堿基位GC含量及序列長(zhǎng)度對(duì)密碼子偏性影響的差異較大,陸奇豐等[20]、沈宗芳等[21]的研究結(jié)果也證實(shí)這一點(diǎn)。
密碼子第3位堿基具有的兼并性及較小的選擇壓力,通常將 GC3作為密碼子使用模式分析的重要依據(jù)[22]。分析GC12與GC3的關(guān)系顯示,密碼子第1、2位與第3位堿基組成變異無(wú)明顯關(guān)聯(lián),密碼子使用偏性受自然選擇壓力的影響更大。PR2-plot分析顯示,兩種植物葉綠體基因組密碼子第3位堿基的使用存在偏性,嘧啶比嘌呤使用更為頻繁。密碼子使用模式的因素,不僅與突變有關(guān),還受到自然選擇等因素的影響。ENC-plot分析結(jié)果表明,大部分基因ENC值位于ENC期望值曲線(xiàn)附近,這部分基因密碼子使用主要受突變影響,但仍有少數(shù)基因ENC值偏離ENC期望值曲線(xiàn)較遠(yuǎn)處,這部分基因主要受選擇的影響。綜合以上分析結(jié)果,自然選擇和堿基突變是影響坡壘、青梅葉綠體基因組密碼子偏好的主要因素,符合突變—選擇—漂變理論[23]的觀(guān)點(diǎn)。
比較高、低表達(dá)組的相對(duì)同義密碼子使用度,確定坡壘最優(yōu)密碼子17個(gè),青梅最優(yōu)密碼子15個(gè),但兩者中相同的最優(yōu)密碼子僅有11個(gè)。兩者葉綠體基因組使用的最優(yōu)密碼子差異較大?;蛟S是由兩者高、低表達(dá)庫(kù)中所使用的編碼基因不同差異,以及兩者不同屬間分類(lèi)的差異導(dǎo)致。
龍腦香科植物在中國(guó)分布有5屬13種[24],其中絕大多數(shù)植物的葉綠體基因組數(shù)據(jù)仍然缺乏,因此龍腦香科植物葉綠體基因組密碼子偏好性特點(diǎn),還需要更多的研究結(jié)果補(bǔ)充。本研究?jī)H分析比較坡壘、青梅葉綠體基因組編碼基因的密碼子偏性形成的影響因素和特點(diǎn),以及葉綠體基因組的最優(yōu)密碼子,為外源基因密碼子改造、葉綠體基因組工程和遺傳多樣性分析等研究提供參考依據(jù)。