原曉龍 劉 音 康洪梅 陳中華 李云琴 王 毅
(1. 云南省林業(yè)和草原科學院,云南省森林植物培育與開發(fā)利用重點實驗室/國家林業(yè)局云南珍稀瀕特森林植物保護和繁育重點實驗室,云南 昆明 650201;2. 云南省水文水資源局昆明分局/云南省水環(huán)境監(jiān)測中心昆明市分中心,云南 昆明 650051)
葉綠體植物自身擁有相對獨立穩(wěn)定的基因組,具母系遺傳、負責光合作用的半自主細胞器[1],其結(jié)構(gòu)簡單、分子量較小、拷貝數(shù)豐富,被廣泛應(yīng)用于DNA條形碼分子標記、系統(tǒng)進化和葉綠體基因工程等[2-3];基于葉綠體的基因工程可避免花粉逃逸帶來的生物安全問題,可迅速得到表達量極高的轉(zhuǎn)基因純合后代[4],及評估物種的分子系統(tǒng)進化水平[1]。除甲硫氨酸和色氨酸外,各氨基酸均有2~6個三聯(lián)體同義密碼子與其相對應(yīng)[5]。在翻譯過程中,編碼同一氨基酸的同義密碼子使用頻率并不相同,表現(xiàn)為有的較高,有的較低,這種偏好使用某一密碼子的現(xiàn)象被稱為密碼子偏好性[6]。密碼子偏好性是物種在漫長的進化過程中受環(huán)境選擇、堿基突變、基因漂變等多種因素共同作用,亦受到基因組大小、tRNA豐度和基因表達水平等的影響[6-8]。
蒜頭果(Malania oleifera)是鐵青樹科(Olacaceae)蒜頭果屬常綠喬木,1992年被中國植物紅皮書列為國家重點保護樹種[9];目前已處于瀕危狀態(tài),主要生長在中國滇東南和桂西喀斯特山地[10]。蒜頭果果仁中油脂含量含量高達51.9%~64.5%[11],果仁油中順-15-二十四碳烯酸(又名神經(jīng)酸、鯊魚酸)是哺乳類動物腦苷脂和神經(jīng)組織的主要成分[12],還是合成某些昆蟲信息素中間體和麝香酮的原料[13],也是一種具重要藥用和保健價值的高級脂肪酸[14],開發(fā)前景巨大[13]。蒜頭果在形態(tài)解剖上兼具原始性狀和進化特征,對研究鐵青樹科植物的進化具重大意義[10,15-16],目前有關(guān)蒜頭果葉綠體基因組的研究報道較少,本研究以蒜頭果葉綠體基因組的高通量測序結(jié)果為基礎(chǔ),通過分析蒜頭果葉綠體基因組蛋白編碼區(qū)(CDS)序列的堿基組成,中性繪圖、ENC-plot及PR2-plot等方法分析影響密碼子偏好性的主要因素,確定了蒜頭果葉綠體基因組的最優(yōu)密碼子,以期為研究蒜頭果分子系統(tǒng)進化、遺傳多樣性分析及培育神經(jīng)酸含量較高的植株品系等提供科學的參考依據(jù)。
本研究通過高通量測序獲得蒜頭果葉綠體基因組序列,并提交至NCBI(登錄號:MG799332),對蒜頭果葉綠體的編碼序列(CDS)進行篩選,剔除序列長度小于300 bp、序列不完整、中間存在終止密碼子的序列,從蒜頭果葉綠體基因組篩選得到含有起始密碼子ATG和末端終止密碼子UAA、UAG、UGA的完整CDS[17]獲得33條。
1.2.1 密碼子堿基組成分析
將蒜頭果葉綠體基因組中符合條件的33條CDS整合到一個.fasta文件中,通過CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)計算不同基因密碼子各位置的GC含量(GC1,GC2,GC3)[4];應(yīng)用Codon W 1.4.2 軟件分析密碼子的有效密碼子數(shù)(ENC)、相對同義密碼子使用度(RSCU)、密碼子適應(yīng)性指數(shù)(CAI)、密碼子偏好性指數(shù)(CBI)、最優(yōu)密碼子使用頻率(FOP)及密碼子3位堿基上的GC含量(GC3S,即密碼子第3個堿基中出現(xiàn)G或C的頻率)等參數(shù);對獲得的各項數(shù)據(jù),應(yīng)用數(shù)理統(tǒng)計分析軟件SPSS和EXCEL對結(jié)果進行分析。
ENC可衡量同義密碼子的使用偏度,其取值范圍為20~61,對應(yīng)密碼子使用偏性從強到弱,即20代表同義密碼子處于完全偏倚狀態(tài)、61代表同義密碼子完全沒有偏倚;通常以ENC值45為區(qū)分密碼子偏倚性強弱的分界點[4,17]。RSCU表示某個密碼子的實際值與理論值間的比值,當RSCU>1時表明該密碼子實際值高于理論值,RSCU<1時表明其實際值低于理論值,RSCU=1該密碼子無偏好性[4]。
應(yīng)用SPSS 17.0分析蒜頭果葉綠體基因組中各基因密碼子不同位置GC堿基含量GC1、GC2、GC3、GCall、ENC和密碼子數(shù)量(N)的相關(guān)關(guān)系,作為判斷各同義密碼子偏好性的依據(jù)。
1.2.2 中性繪圖分析
三聯(lián)體密碼子第1~2位堿基的改變會導(dǎo)致編碼氨基酸的改變,而第3位堿基的改變通常不會引起氨基酸的變化[18]。通常密碼子在不存在外界壓力的情況下,3個位置上的堿基組成無顯著差異;在外界具選擇壓力的條件下,3個位置的堿基會存在一定的差異[4]。以GC12(GC1、GC2的平均值)為縱坐標、以GC3為橫坐標繪制的散點圖中,每1散點代表1個基因。在中性圖中,若所有散點均沿對角線分布,說明GC12和 GC3的變異基本一致,即密碼子的堿基組成無明顯差異,主要受突變的影響;相反則受選擇壓力的影響[18]。結(jié)合SPSS 17.0對GC12和GC3的相關(guān)性分析,以判斷其密碼子偏好性主要受選擇或突變的影響,當GC12和 GC3呈顯著性相關(guān)時,說明密碼子3個位置上的堿基組成無明顯差異,其偏好性主要受突變的影響;當GC12和 GC3不相關(guān)時,說明密碼子的第1、2位與第3位堿基組成存在顯著差異,且基因組中GC含量較保守,其偏好性主要受選擇的影響[4,18]。另回歸系數(shù)(對角線斜率)亦可以作為衡量中性程度的指標之一,若回歸系數(shù)較小,GC12和GC3的變異的相關(guān)性較低,說明選擇是影響密碼子偏好性的主要因素[19]。
1.2.3 ENC-plot分析
ENC-plot分析通過探討ENC與GC3分布關(guān)系,即通過對各基因的密碼子偏好性的圖像可視化手段,同時含有散點圖和標準曲線,其中的標準曲線代表無選擇壓力的存在時,密碼子偏好性完全由基因的核酸序列決定密碼子偏好性[20]。以GC3為橫坐標、ENC值為縱坐標進行ENC-plot分析,標準曲線的計算公式為:
通過散點與標準曲線距離判斷影響密碼子偏好性的主要因素,若散點與標準曲線的距離較近則主要受突變的影響,反之受選擇的影響[18,21]。為了能夠準確量化散點與標準曲線的距離遠近的基因數(shù)量,需結(jié)合ENC比值頻數(shù)分布差異來執(zhí)行,具體的衡量標準以-0.05~0.05區(qū)間為界限[21-22]。
1.2.4 PR2-plot分析
統(tǒng)計各密碼子第3位上A、T、C、G等堿基的具體含量,以A3/(A3+T3)為縱坐標、G3/(G3+C3)為橫坐標進行PR2-plot分析,以平面圖顯示各密碼子中的第3位堿基組成方式,其中A3、T3、C3、G3分別代表各堿基在密碼子第3位上的具體含量;平面圖的中心點代表在無偏倚情況下的密碼子組成狀態(tài),即A=T且C=G,各點與中心點的矢量距離則表示其偏倚的程度和方向[20]。
1.2.5 最優(yōu)密碼子的確定
以蒜頭果葉綠體中各基因的ENC值為偏好性參考標準,從兩極各選擇10%的基因構(gòu)建高低偏性庫,將高、低偏性庫間ΔRSCU≥0.08的密碼子定義為高表達優(yōu)越密碼子;同時將各密碼子在經(jīng)Codon W 1.4.2軟件分析的RSCU值≥1的密碼子定義為高頻密碼子;將同時滿足ΔRSCU≥0.08和RSCU值≥1的密碼子定為最優(yōu)密碼子,以明確蒜頭果葉綠體基因組密碼子的使用偏性規(guī)律[4,21-22]。
應(yīng)用Codon W 1.4.2軟件分析蒜頭果葉綠體中各基因的蛋白編碼序列,結(jié)果顯示(表1),GC1含量為33.90%~57.35%,其中GC1≥40%的基因有30條,平均值為47.74%;GC2含量為30.04%~57.45%,其中GC2≥40%的基因有19條,平均值為41.05%;GC3含量為21.28%~36.70%,平均值為28.43%,無基因的GC含量≥ 40%;全部3個位置的GC含量平均值為39.07%,各位置的GC含量平均值從高到低依次為GC1>GC2>GC3,其第3位平均GC含量遠低于第1位、第2位,說明密碼子第3位堿基多為A和U。33個蛋白編碼序列的ENC值為40.39~54.86,ENC值大于45的有25個,可推斷其使用偏性較弱。
密碼子各位置的堿基GC含量GC1、GC2、GC3,3個位置GC的平均含量GCall、ENC與密碼子數(shù)目(N)的相關(guān)分析(表2),結(jié)果顯示:GCall與GC1、GC2、GC3均呈極顯著相關(guān),GC1與GC2呈顯著相關(guān),說明密碼子的第1位與第2位的堿基組成相似,但與第3位存在不同。ENC與GC3達到極顯著相關(guān)水平,與N達顯著相關(guān),而與GC1、GC2及GCall之間呈不顯著相關(guān),說明密碼子第3位GC含量和N影響ENC的值,說明GC3和基因序列長度對密碼子偏好性存在一定影響。
表 1 蒜頭果葉綠體基因組33個CDS密碼子的GC含量及ENC值Table 1 The GC content and ENC value of 33 CDS codons from M. oleifera
表 2 蒜頭果葉綠體各基因GC含量與ENC值間的關(guān)聯(lián)分析Table 2 The correlation analysis of GC content and ENC value of each gene codons of M. oleifera
除蛋氨酸、色氨酸外,分析其余18種氨基酸的RSCU值(表3),結(jié)果顯示,RSCU≥1的密碼子有30個,其中UUA、AGA、CAA和AAA等12個密碼子以A結(jié)尾;GCU、UCU、ACU和UAU等16個密碼子以U結(jié)尾;而以C和G結(jié)尾的僅有UUG、UCC;說明蒜頭果葉綠體基因組中以A和U結(jié)尾的密碼子出現(xiàn)頻率較高,為偏好密碼子;相反以C和G結(jié)尾的密碼子為非偏好密碼子。
中性繪圖分析(圖1)顯示,GC1和GC2的平均值GC12的取值為0.348~0.546,GC3的取值為0.213~0.367;圖中各基因均位于中性圖對角線的上方,僅1個基因位于對角線附近;GC12和GC3的相關(guān)系數(shù)為0.164 6,相關(guān)性不顯著,回歸系數(shù)為0.000 4,滿足GC12和GC3呈不顯著相關(guān)且回歸系數(shù)趨近于0,說明蒜頭果葉綠體基因組密碼子的第3位堿基與第1、2位堿基組成不同,基因組中GC含量高度保守,其密碼子偏好性主要受選擇的影響。
蒜頭果葉綠體基因組密碼子的ENC與GC3的關(guān)聯(lián)分析(圖2)顯示,根據(jù)標準曲線(公式(1))計算,距離較近基因的實際ENC值與預(yù)期ENC值接近;部分基因位于標準曲線下方較遠位置,這部分基因ENC的實際值與預(yù)測值具較大差異。通過計算ENC比值((預(yù)期ENC值-實際ENC值)/預(yù)期ENC值)可以比較ENC值的實際值與預(yù)期值的差異,結(jié)果顯示(表4),ENC比值分布在-0.05~0.05區(qū)間的數(shù)量有10個,處于-0.05~0.05區(qū)間外的基因有23個,占基因總數(shù)的70%,這部分基因與標準曲線距離較遠,因此其偏好性與GC3含量相關(guān)。說明影響其偏好性主要因素為選擇。
表 3 蒜頭果葉綠體基因組氨基酸相對同義密碼子使用度分析Table 3 The RSCU analysis of codon in M. oleifera chloroplast genome
圖 1 中性繪圖分析Fig. 1 Neutral plotting analysis
采用PR2-plot繪圖方法分析各編碼基因部分氨基酸嘌呤(A和G)和嘧啶(T和C)關(guān)系,結(jié)果顯示(圖3),蒜頭果葉綠體基因組中較多的基因分布在PR2圖的下半部或右下半部,說明在堿基使用頻率方面,T>A且G>C,4個堿基的使用頻率不一致,說明蒜頭果葉綠體基因組密碼子使用偏性在受選擇影響的同時,亦會受到其他因素的影響。
圖 2 ENC與GC3關(guān)聯(lián)分析Fig. 2 The correlation of ENC and GC3
表 4 ENC比值頻數(shù)分布Table 4 Distribution of ENC ration
圖 3 PR2-plot繪圖分析Fig. 3 Analysis of PR2 bias plot
將蒜頭果葉綠體基因組中高表達基因和低表達基因分別在Codon W 1.4.2軟件上運行,計算各自密碼子的RSCU值和ΔRSCU值,結(jié)果顯示(表5),ΔRSCU≥0.08的為高表達優(yōu)越密碼子,共23個,其中9個以A結(jié)尾,11個以U結(jié)尾,3個 以C結(jié) 尾;ΔRSCU≥0.30的 密 碼 子 有10個,ΔRSCU≥0.50的密碼子有6個。將同時滿足ΔRSCU≥0.08和RSCU≥1的密碼子的定義為最優(yōu)密碼子,共18個,分別為UUU、UUA、GUA、UCC、CCU、CCA、ACU、ACA、AUU、CAU、CAA、AAU、AAA、GAU、GAA、UGU、AGA和GGU,其中以A結(jié)尾的密碼子8個,以U結(jié)尾的9個,以C結(jié)尾的1個。
表 5 蒜頭果葉綠體基因組最優(yōu)密碼子的確定Table 5 Preferred codons in chloroplast genome of M. oleifera
密碼子偏好性受多因素的影響,而選擇和突變是其中主要的2個因素[6]。密碼子堿基組成會因為由核苷酸突變和回復(fù)突變而發(fā)生改變,而第3位堿基上的突變通常不會造成氨基酸的改變,可認為密碼子偏好性是某種程度上對偏好密碼子和非偏好密碼子間保留的一種平衡,是物種進化過程中的自我保護機制;同時第3位堿基具兼并性,面對的自然選擇的壓力較小,且GC3與密碼子偏好性具顯著相關(guān)關(guān)系等,是決定氨基酸種類的重要特征,故將GC3作為分析密碼子偏好性的一個重要指標[23-24]。因此,計算密碼子第3位堿基的GC含量對分析密碼子偏好性具重要意義,本研究中蒜頭果葉綠體基因組密碼子第3位堿基的GC含量為28.43%,其GC含量遠低于密碼子前兩位,與馬尾松(Pinus massoniana)[25]葉綠體基因組中不同位置GC含量依次為GC1(49.12%)>GC2(40.62%)>GC3(29.68%),蝴蝶蘭(Phalaenopsis aphroditesubsp.formosana)[26]為GC1(45.83%)>GC2(39.06%)>GC3(31.41%),3個物種葉綠體基因組中密碼子不同位置的GC含量的分布趨勢一致,僅在具體數(shù)據(jù)上有差異。同時中性繪圖分析、ENC-plot和PR2-plot分析均發(fā)現(xiàn)蒜頭果葉綠體基因組的密碼子偏好性較弱,主要受選擇的影響,同時受其他因素的綜合影響,這與大多數(shù)雙子葉植物的表現(xiàn)一致[21-22,25-27]。蒜頭果葉綠體基因組密碼子偏好以AU結(jié)尾,且其最優(yōu)密碼子除了UCC以外,其余的17個密碼子表現(xiàn)形式均為NNA或NNU模式一致,同樣與大多數(shù)雙子葉植物的模式一致[25-27]。這種密碼子的使用模式可能由于葉綠體基因組中含有豐富的AU堿基,但不同植物密碼子使用模式存在顯著差異,因為親緣關(guān)系較近的植物通常表現(xiàn)為相似的密碼子使用模式[28]。通過將蒜頭果葉綠體基因組密碼子偏好性與5種柿屬(Diospyros)植物比對,它們具有相似的GC含量分布趨勢,密碼子偏好性均較弱,且選擇均為其主要的影響因素[29]。蒜頭果僅分布于云南東南部和廣西西部的喀斯特石灰?guī)r山地中[9],而蒜頭果葉綠體基因組密碼子的偏好性與其親緣關(guān)系相對較近的柿屬植物的密碼子使用模式基本一致,表現(xiàn)出一定的特異性,如柿屬植物植物中不含有最優(yōu)密碼子UCC[29],而蒜頭果中則含有這一最優(yōu)密碼子,說明蒜頭果葉綠體基因組的密碼子偏好性相對保守且具有自身的特殊性。本研究通過分析蒜頭果葉綠體密碼子偏好性,明確其密碼子使用模式,存在較弱的偏好性,且分析獲得了蒜頭果葉綠體中編碼基因的最優(yōu)密碼子,以期為研究蒜頭果適應(yīng)性、分子系統(tǒng)進化及葉綠體基因工程等提供參考依據(jù)。