楊祥燕 蔡元保 譚秦亮 覃旭 黃顯雅 吳密
摘? 要:葉綠體基因組密碼子偏好性影響基因的表達效率,對于葉綠體基因工程應用及物種遺傳改良具有重要的科學意義。為了明確菠蘿葉綠體基因組密碼子偏好性的使用特征及主要影響因素,本研究以菠蘿葉綠體基因組為研究對象,利用生物信息學軟件分析其密碼子的使用模式和偏好性。密碼子偏好性相關(guān)參數(shù)分析顯示:(1)菠蘿葉綠體基因密碼子的GC含量平均值為38.31%,密碼子第1~3位的GC含量平均值分別為46.78%、39.61%、28.53%,密碼子前兩位的GC平均含量明顯高于第3位;(2)有效密碼子數(shù)(ENC)的取值范圍為38.48~61.00,平均值為47.21,其密碼子偏性較弱。相關(guān)性分析顯示:(1)GC1與GC2顯著相關(guān),GC與GC1、GC2、GC3都極顯著正相關(guān),GC3與GC1、GC2都不顯著相關(guān);(2)ENC與GC1不顯著相關(guān),但與GC2和GC3分別顯著和極顯著相關(guān);(3)密碼子數(shù)(N)只與GC3顯著相關(guān),說明密碼子3個位置中第3位堿基組成主要影響著密碼子數(shù)。RSCU分析顯示,29個RSCU>1的密碼子中以A結(jié)尾有12個、以U結(jié)尾有16個、以G結(jié)尾有1個。中性繪圖分析顯示,GC12與GC3的相關(guān)系數(shù)和回歸系數(shù)分別為0.065和0.085,二者不顯著相關(guān)。ENC-plot繪圖分析顯示,大多數(shù)基因分布于標準曲線附近,多數(shù)ENC比值分布在–0.05~0.05區(qū)間。PR2-plot繪圖分析顯示,所有基因不均勻分布在平面圖的4個區(qū)域內(nèi),密碼子第3位嘧啶T/C的使用頻率高于嘌呤A/G。這3種繪圖分析綜合表明,自然選擇和突變作為主要因素,相對均衡地影響菠蘿葉綠體基因組的密碼子偏好性。最優(yōu)密碼子和RSCU分析顯示,29個RSCU>1的密碼子及篩選的18個最優(yōu)密碼子絕大多數(shù)偏好以A或U結(jié)尾。這些研究結(jié)果可為外源基因的密碼子優(yōu)化及提高其表達效率提供科學依據(jù)。
關(guān)鍵詞:菠蘿;葉綠體基因組;密碼子偏好性;最優(yōu)密碼子中圖分類號:S668.3 ?????文獻標識碼:A
Analysis of Codon Usage Bias in the Chloroplast Genome of
YANG Xiangyan, CAI Yuanbao, TAN Qinliang, QIN Xu, HUANG Xianya, WU Mi
Guangxi Subtropical Crops Research Institute / Guangxi Academy of Agricultural Sciences, Nanning, Guangxi 530001, China
The codon usage bias of chloroplast genome affects the genes expression efficiency, which provides important information for chloroplast genetic engineering and species genetic improvement. To determine the codon usage characteristic of the chloroplast genome and its main influencing factors in pineapple (), the codon usage pattern and its preference of pineapple chloroplast genome were analyzed using bioinformatics softwares. The average GC content of codons of pineapple chloroplast genes was 38.31%, the average GC content of codons from the first position to the third position was 46.78%, 39.61% and 28.53%, respectively, and the average GC contents at the first and second positions of codons were significantly higher than that at the third position. The value range of effective number of codons (ENC) was 38.48—61.00, and its average value was 47.21, indicating weak codon bias. GC1 was significantly correlated with GC2, GC was significantly positively correlated with GC1, GC2 and GC3, and GC3 was not significantly correlated with GC1 and GC2. ENC was not significantly correlated with GC1, but significantly and extremely significantly correlated with GC2 and GC3, respectively. Codon number (N) was only significantly correlated with GC3, which indicating that the base composition of the third position in the three positions of the codon mainly affects codon number. RSCU analysis showed that among the 29 codons with RSCU>1, 12 codons ended with A, 16 codons ended with U, and 1 codon ended with G. Neutrality plot analysis showed that there was not significant correlation between GC12 and GC3, and the correlation coefficient and regression coefficient was 0.065 and 0.085, respectively. ENC-plot analysis showed most genes were distributed near the standard curve, and most ratios were distributed in the interval of –0.05—0.05. PR2-plot analysis showed that all genes were unevenly distributed in the four regions of the PR2 plan, and the use frequency of pyrimidine T/C at the third position of codon was higher than that of purine A/G. Bias analysis of Neutrality plot, ENC-plot and PR2-plot suggested that natural selection and mutation as the main factors affect the codon usage bias of pineapple chloroplast genome. Analysis of optimal codons and RSCU showed that most of the 29 codons with RSCU>1 and the 18 optimal codons ended with A or U. The results provide scientific basis for codon optimization of exogenous genes and improvement of their expression efficiency.
pineapple (); chloroplast genome; codon usage bias; optimal codons
10.3969/j.issn.1000-2561.2022.03.001
葉綠體基因組是細胞核以外相對獨立的遺傳物質(zhì),具有母系遺傳方式,其分子結(jié)構(gòu)穩(wěn)定、簡單,分子量較小;且拷貝數(shù)較多,進化速率適中,已廣泛用于植物的系統(tǒng)發(fā)育研究、遺傳多樣性分析、基于DNA條形碼的物種鑒定等,尤其是葉綠體基因工程。基于葉綠體基因組的獨特結(jié)構(gòu)與遺傳方式,使得葉綠體基因工程可以實現(xiàn)外源基因的定點整合與高效表達,并有效避免花粉飄逸所引起生態(tài)環(huán)境的污染問題。植物葉綠體基因組編碼蛋白過程中,普遍存在密碼子偏好性,即偏好使用一種或幾種特定的密碼子。已有研究表明,在長期進化中物種的密碼子偏好性受到堿基突變、自然選擇等主要因素的影響,這種密碼子偏好性又會影響到外源基因在葉綠體中的表達水平。而且,密碼子的偏好性在不同的物種間卻有著較大的差異。因此,通過葉綠體基因組的密碼子偏好性研究,可以優(yōu)化外源基因在葉綠體中的表達水平,對于推進葉綠體基因工程的應用及物種遺傳改良具有重要意義。
隨著現(xiàn)代高通量測序技術(shù)的快速發(fā)展,物種葉綠體基因組序列陸續(xù)公開,國內(nèi)外對葉綠體基因組的密碼子偏好性研究均有報道,如水稻(Oryza sativa)、棉花(spp)和小麥()等。菠蘿()是世界三大草本果樹之一,其營養(yǎng)價值高,風味獨特,深受廣大消費者的青睞。目前,REDWAN等利用高通量測序技術(shù)獲得菠蘿卡因類MD-2品種的葉綠體全基因組序列。陳哲等分析了菠蘿核基因組的密碼子偏好性,但有關(guān)菠蘿葉綠體基因組的密碼子偏好性研究在國內(nèi)外還未見報道?;诒菊n題組的前期研究工作,本研究利用菠蘿葉綠體基因組的蛋白編碼區(qū)序列,分析其密碼子偏好性的影響因素及使用特征,篩選出最優(yōu)密碼子,以期通過葉綠體基因工程優(yōu)化外源基因的表達效率,為菠蘿重要農(nóng)藝性狀的遺傳改良打下堅實的基礎(chǔ)。
? 材料
從NCBI數(shù)據(jù)庫中下載菠蘿()葉綠體基因組序列,GenBank登錄號為NC_026220.1。該基因組序列全長159 636 bp,共有86條編碼蛋白的CDS序列。為了提高密碼子偏好性分析的準確性,剔除重復的CDS序列及小于300 bp的CDS序列,將剩余的52個CDS序列作為后續(xù)分析的樣本序列。
? 方法
1.2.1 ?密碼子偏好性相關(guān)參數(shù)分析? 利用CodonW 1.4.2軟件分析菠蘿葉綠體基因組52個CDS序列的相對同義密碼子使用度(RSCU)、有效密碼子數(shù)(ENC)、密碼子數(shù)(N)等。利用CUSP軟件分析52個CDS序列的密碼子總GC含量、第1、2、3位的GC含量(分別以GC、GC1、GC2、GC3表示)。采用SPSS 18.0軟件對密碼子偏好性相關(guān)參數(shù)進行相關(guān)性分析。
1.2.2? 密碼子堿基組成的差異性分析? 通過中性繪圖分析用Excel軟件以GC3為橫坐標,GC1和GC2的平均值GC12為縱坐標繪制散點圖和回歸曲線,圖中每個點代表相應基因的位置。采用SPSS 18.0軟件分析GC3與GC12的差異顯著性和相關(guān)性,以此推測密碼子偏好性的主要影響因素。如果二者顯著相關(guān),則密碼子偏好性主要受到突變壓力的影響;如果二者不顯著相關(guān),則密碼子偏好性更多地受到自然選擇的影響。
1.2.3? 堿基組成對密碼子偏好性分析? 利用ENC-plot繪圖分析方法,在Excel中以各基因的GC3為橫坐標,ENC實際值為縱坐標,繪制二維散點圖;并根據(jù)公式ENC=2+GC3+29/[GC3+ (1-GC3)]計算ENC期望值,以GC3為橫坐標,ENC期望值為縱坐標繪制其標準曲線。如果各基因的散點分布于標準曲線上或其附近,則密碼子偏好性受到突變壓力的影響;如果各散點分布于標準曲線下方較遠的地方,則其偏好性主要受到自然選擇的影響。根據(jù)公式ENC比值=(ENC期望-ENC實際)/ENC期望計算ENC比值頻率,更直觀地判斷密碼子偏好性的主要影響因素。
1.2.4? 堿基奇偶偏好分析? 利用CodonW 1.4.2軟件計算各基因8種氨基酸(絲氨酸、亮氨酸、精氨酸、脯氨酸、蘇氨酸、纈氨酸、丙氨酸和甘氨酸)的密碼子第3位上的A、T、C、G含量(分別以A3、T3、C3、G3表示)。在Excel中以G3/(G3+C3)為橫坐標,A3/(A3+T3)為縱坐標進行PR2偏倚分析作圖。從圖的中心點(A=T且C=G,即密碼子偏好性全部受突變的影響)發(fā)出的矢量距離則表示各基因的偏倚方向與程度。
1.2.5? 最優(yōu)密碼子篩選? 對菠蘿52個葉綠體基因的ENC值進行排序,分別選取兩端基因各5個,構(gòu)建高表達基因庫(ENC值小)和低表達基因庫(ENC值大),并計算二者的RSCU差值(ΔRSCU)。篩選ΔRSCU≥0.08的高表達密碼子,且RSCU>1的高頻率密碼子定義為菠蘿葉綠體基因組的最優(yōu)密碼子。
?密碼子偏好性相關(guān)參數(shù)分析
利用CodonW 1.4.2軟件和CUSP軟件分析菠蘿葉綠體基因組密碼子偏好性相關(guān)參數(shù)可知(表1),52個基因密碼子的GC含量平均值為38.31%,其中,密碼子第1~3位的GC含量平均值分別為46.78%、39.61%、28.53%,可見,密碼子3個不同位置GC含量不是均勻分布,且絕大多數(shù)基因密碼子前兩位的GC含量明顯高于第3位,
表明菠蘿葉綠體基因組密碼子末位堿基偏好使用A或U。此外,菠蘿52個葉綠體基因ENC的取值范圍為38.48~61.00,平均值為47.21,表明菠蘿葉綠體基因組編碼區(qū)的密碼子偏性較弱。
相關(guān)性分析可見(表2),GC1與GC2顯著相關(guān),GC與GC1、GC2、GC3都極顯著正相關(guān),GC3與GC1、GC2都不顯著相關(guān),說明菠蘿葉綠體基因組密碼子中,前2位堿基相似度很高,但與第3位差異較大;ENC與GC1不顯著相關(guān),但與GC2和GC3分別顯著和極顯著相關(guān),說明密碼子第2、3位(尤其是第3位)堿基組成會影響密碼子使用的偏好性;密碼子數(shù)(N)只與GC3顯著相關(guān),說明密碼子3個位置中第3位堿基組成主要影響著密碼子數(shù);密碼子數(shù)(N)與ENC不顯著相關(guān),說明基因序列長度影響密碼子的使用偏好性很小。
RSCU分析可見(表3),29個RSCU>1的密碼子中以A結(jié)尾有12個、以U結(jié)尾有16個、以G結(jié)尾有1個,說明菠蘿葉綠體基因組密碼子偏好以A或U結(jié)尾。
?密碼子堿基組成的差異性分析
菠蘿葉綠體基因組52個基因的中性繪圖分析結(jié)果顯示(圖1),GC12的取值范圍為0.3294~ 0.5468,GC3的取值范圍為0.2014~0.3729;在圖中除了基因、和接近于對角線,其余49個基因都偏離對角線,并分布在對角線上方。GC12與GC3的相關(guān)性分析顯示,其相關(guān)系數(shù)為0.065,二者不顯著相關(guān),回歸系數(shù)(即對角線斜率)為0.085。說明在菠蘿葉綠體基因組中絕大多數(shù)基因的密碼子前兩位的堿基組成與第3位顯著差異,因此,其密碼子偏好性除了受突變影響外,更多地受到自然選擇的影響。
? 堿基組成對密碼子偏好性分析
ENC-plot繪圖分析結(jié)果顯示(圖2),大多數(shù)基因分布于標準曲線附近,即這些基因密碼子偏好性受到突變壓力的影響;基因、和距離標準曲線最遠,其偏好性更多地受到自然選擇的影響。通過ENC比值頻率分析進一步顯示(表4),32個基因(占總基因數(shù)的61.5%)的ENC比值分布在–0.05~0.05區(qū)間,說明這些基因的ENC實際與ENC期望值差異很小,即大多數(shù)基因密碼子的偏性受到了突變的影響,這與ENC-plot繪圖分析結(jié)果相一致。
堿基奇偶偏好分析
由菠蘿葉綠體基因的PR2-plot繪圖分析可知(圖3),52個基因不均勻分布在平面圖的4個區(qū)域內(nèi),右上方區(qū)域幾乎無基因分布,大部分基因分布在左下方區(qū)域,說明這些基因密碼子第3位的T>A且C>G,即嘧啶T/C的使用頻率高于嘌呤A/G;且基因、和偏離中心點(A=T且C=G)的矢量距離最遠。因此,這4種堿基的不均衡使用說明菠蘿葉綠體基因組密碼子使用模式受到突變壓力、自然選擇等因素的綜合影響。
?最優(yōu)密碼子篩選
RSCU分析顯示(表3),RSCU>1的密碼子有29個,并作為菠蘿葉綠體基因組的高頻密碼子。根據(jù)ENC值分別構(gòu)建高表達基因庫(基因、、、和)和低表達基因庫(基因、、、和)。2個基因庫的RSCU分析顯示(表3),ΔRSCU≥0.08的密碼子有23個,并作為菠蘿葉綠體基因組的高表達密碼子。同時滿足高頻密碼子和高表達密碼子確定為菠蘿葉綠體基因組的最優(yōu)密碼子,即UUU、UUA、UUG、AUU、GUA、UCC、AGU、CCU、ACA、GCA、CAU、CAA、AAA、GAA、UGU、CGU、AGA、GGU等18個密碼子。這些最優(yōu)密碼子絕大多數(shù)以U或A結(jié)尾(各有8個),以G和C結(jié)尾各1個。
葉綠體基因組密碼子偏好性是物種長期適應外界環(huán)境的進化結(jié)果,主要受到堿基突變、基因表達水平、自然選擇等因素的影響。與密碼子前兩位堿基相比,第3位堿基突變所受到的自然選擇壓力小,且又決定氨基酸的種類特征,對于研究密碼子偏好性具有重要作用。本研究的菠蘿葉綠體基因組中絕大多數(shù)基因密碼子的第3位GC含量明顯低于前兩位堿基,偏好使用A或U。這與水稻、棉花和小麥、燈盞花()等多種植物葉綠體基因組密碼子的使用偏好性很相似,也表明在長期進化過程中這些植物葉綠體基因組密碼子的使用模式相對保守且高度相似。
已有研究表明,堿基突變和自然選擇是影響葉綠體基因組密碼子偏好性的2個主要因素。本研究中菠蘿葉綠體基因組的編碼區(qū)存在較弱的密碼子偏性;中性繪圖分析表明其密碼子偏好性更多地受到自然選擇的影響;而ENC-plot繪圖分析表明突變是絕大多數(shù)基因密碼子偏好性形成的主要因素。可見,自然選擇和突變作為主要因素,相對均衡地影響著菠蘿葉綠體基因組密碼子偏好性。本研究的PR2-plot分析結(jié)果也進一步驗證了該結(jié)論。不少植物葉綠體基因組的密碼子使用特性在漫長進化中也受到了類似的影響因素,如陸地棉()、巨桉()、芒果()等。這些研究結(jié)論表明,堿基突變和自然選擇綜合影響這些植物葉綠體基因組的密碼子偏性,但其具體的分子作用機制還有待于深入研究。
大多數(shù)單子葉植物葉綠體基因組密碼子偏好以G或C結(jié)尾,也有少數(shù)植物偏好以A或U結(jié)尾。本研究中菠蘿作為單子葉草本植物,其葉綠體基因組密碼子和最優(yōu)密碼子偏好以A或U結(jié)尾,這和其他少數(shù)單子葉植物的密碼子偏好性一致,如糜子()、文心蘭(Gower Ramsey)、蒙古韭( Regel)等。而且,植物葉綠體基因組最優(yōu)密碼子可以有效提高氨基酸的翻譯準確性與效率,從而促進基因的表達。本研究篩選出的18個菠蘿葉綠體基因組最優(yōu)密碼子,符合大多數(shù)植物葉綠體基因組的最優(yōu)密碼子以NNA或NNU為使用模式。通過對菠蘿葉綠體基因組密碼子偏好性分析及最優(yōu)密碼子確定,為下一步外源基因的密碼子優(yōu)化,從而提高該基因在菠蘿葉綠體中的表達效率提供重要的參考依據(jù)。
參考文獻