杜 雨,李效雄,賈西貝,胡曉桐,劉 筠,馬彥軍*
1. 甘肅農(nóng)業(yè)大學(xué),甘肅 蘭州 730070
2. 蘭州資源環(huán)境職業(yè)技術(shù)大學(xué),甘肅 蘭州 730030
葉綠體是一種存在于高等植物和藻類中含有光合色素的質(zhì)體,同時(shí)葉綠體基因組也為植物系統(tǒng)發(fā)育研究提供了重要作用[1-2]。與核基因組相比,葉綠體基因組具有序列高度保守和進(jìn)化速率適中等優(yōu)勢,可用于研究物種的起源和進(jìn)化等方向[3-7]。目前,因?yàn)楦咄繙y序具有比較高的準(zhǔn)確性,因此可以較為準(zhǔn)確的研究生物體的系統(tǒng)發(fā)育和進(jìn)化等[8-10]。通常來說,發(fā)育關(guān)系越密切的物種,其密碼子使用模式越相近[11]。如白羊草BothriochloaischaemumL.[12]、刺柏屬JuniperusL.[13]、煙草NicotianatabacumL.[14]及其近緣種利用葉綠體基因組同義密碼子相對使用度(relative synonymous codon usage,RSCU)構(gòu)建聚類分析圖,分析其與近緣種的系統(tǒng)發(fā)育關(guān)系。
mRNA 上相鄰的3 個(gè)堿基構(gòu)成了密碼子,且密碼子是連接核酸與蛋白質(zhì)的紐帶,在生物遺傳信息傳遞時(shí)具有重要作用[12]。密碼子的簡并性是指在編碼過程中一種氨基酸可以由2 個(gè)或2 個(gè)以上的密碼子編碼,而這些密碼子則被稱為同義密碼子。在自然界中存在的氨基酸有20 種,其中甲硫氨酸和色氨酸由一個(gè)密碼子編碼外,剩余氨基酸則由2~6 個(gè)同義密碼子編碼[15]。由于同義密碼子的使用頻率有所差異,形成了密碼子使用的偏好性(codon usage bias,CUB)。而密碼子使用的偏好性在不同物種或同一物種中也有所差異[16],如杜仲Eucommia ulmoidesOliv.密碼子主要以G/C 結(jié)尾[17],唐古特白刺N(yùn)itrariatangutorumBobr.密碼子則主要使用A/U結(jié)尾[18]等。影響CUB 的因素主要有突變和自然選擇等。目前對密碼子偏好性的研究主要集中在分子進(jìn)化、翻譯調(diào)控等方面[19-20]。研究表明,密碼子偏好性可以通過改變蛋白質(zhì)結(jié)構(gòu)、核苷酸序列等方式影響外源基因的表達(dá)[21-22]。因此,研究密碼子的偏好性不僅可幫助了解物種的分子進(jìn)化、環(huán)境適應(yīng)和基因組特征,還可以用來判斷未知基因的表達(dá)以及預(yù)測一些未知功能基因[23-24]。
枸杞屬LyciumL.植物為多年生灌木,隸屬于茄科(Solanaceae)。枸杞屬植物約有80 種,以離散型方式隨機(jī)分布在各地,其中南美洲和北美洲分布較廣。我國枸杞屬植物分為7 個(gè)種和3 個(gè)變種[25]。在野外調(diào)查時(shí)發(fā)現(xiàn)枸杞果實(shí)顏色較為豐富,主要有紅果、黃果、黑果和白果等。其中,中國枸杞具有長橢圓形或卵狀披針形的葉片,并且果實(shí)呈紅橘黃色,其直徑在5~10 mm,葉片單葉互生或2~4 枚簇生。中國枸杞的色素主要是類胡蘿卜素。黃果枸杞的葉片較為狹窄,呈條形或狹披針形,果實(shí)呈橙黃色,其直徑為4~8 mm,是寧夏枸杞的1 個(gè)變種,被稱為“黃金枸杞”,種植面積較小。白果枸杞的條形或條狀披針形的葉片在短枝上2~6 枚簇生,果實(shí)為球狀漿果,呈白色或表皮略帶紫色斑點(diǎn),其直徑在4~9 mm。枸杞的花期均為5~10 月[26]。目前,在野外調(diào)查時(shí)發(fā)現(xiàn)存在中國枸杞、黑果枸杞、黃果枸杞和白果枸杞等,其中中國枸杞、黑果枸杞和黃果枸杞的分類學(xué)地位已經(jīng)清晰,并且也應(yīng)用于研究中,而對白果枸杞的分類地位尚不清楚。因此,本研究以中國枸杞、黃果枸杞和白果枸杞的葉綠體基因組為研究對象,分析枸杞的密碼子使用的特征及其影響因素,闡明枸杞葉綠體基因組密碼子使用模式,為枸杞屬植物的系統(tǒng)發(fā)育關(guān)系提供理論依據(jù)。
進(jìn)行枸杞種質(zhì)資源調(diào)查時(shí)在青海采集中國枸杞、黃果枸杞和白果枸杞的植株并栽植到甘肅農(nóng)業(yè)大學(xué)校內(nèi)實(shí)習(xí)基地(地理坐標(biāo):38°28′N,106°16′E)。經(jīng)甘肅農(nóng)業(yè)大學(xué)馬彥軍教授鑒定為茄科中國枸杞LyciumchinenseMill.、黃果枸杞L.barbarumLinn.var.auranticarpumK. F. Ching.和白果枸杞L.ruthenicumMurray。
S220 型超聲波DNA 破碎儀(美國Covaris 公司),Thermo Qubit 4.0 熒光定量儀(Q33226),臺(tái)式高速低溫離心機(jī)( Thermo Scientific Sorvall LegendMicro 21R),DE13805054 型Agilent 2100 Bioanalyzer(美國Agilent 公司)。
通過Illumina 高通量測序(上海生工生物公司測)獲得高質(zhì)量數(shù)據(jù)(clean data),然后進(jìn)行葉綠體全基因組序列拼接、組裝與注釋,最終匯總整理為完整的注釋結(jié)果。注釋完成后,提交到NCBI 數(shù)據(jù)庫(https://www. ncbi. nlm.nih. gov/genbank/)。其中國枸杞、黃果枸杞和白果枸杞的葉綠體基因組登錄號(hào)為OP866962、OP846044 和OP846050。中國枸杞、黃果枸杞和白果枸杞的葉綠體基因組大小分別為155 655、154 978、154 976 bp,其中中國枸杞和黃果枸杞含有83 個(gè)蛋白編碼基因(protein-coding genes,CDS),白果枸杞含有81 個(gè)蛋白編碼基因(protein-coding genes,CDS)。根據(jù)注釋信息剔除長度小于300 bp 和重復(fù)的蛋白質(zhì)編碼序列,篩選起始密碼子為ATG,且終止密碼子為TAA、TGA 或TAG 的序列。
2.2.1 密碼子組成分析 利用CodonW 1.4.2 軟件(http://codonw. sourceforge.net)對中國枸杞、黃果枸杞和白果枸杞的有效密碼子數(shù)(effective number of codons,ENC)、同義密碼子相對使用(relative synonymous codon usage,RSCU)以及密碼子GC 值進(jìn)行分析,并利用SPSS24.0 和Chiplot(https://www.chiplot.online/#Bubble-plot)進(jìn)行顯著性分析。其中GC值包括第1、2、3 位堿基以及三堿基中的平均含量。
2.2.2 ENC-plot 繪圖分析 ENC 值是了解密碼子偏好性的重要參數(shù),可以判斷內(nèi)源基因的表達(dá)量,ENC 越小,密碼子偏好性強(qiáng),為高表達(dá)基因。使用Python 軟件繪制以ENC 值為縱坐標(biāo),GC3 含量(密碼子第3 位堿基的GC 含量)為橫坐標(biāo)的曲線圖(終止密碼子、甲硫氨酸和色氨酸除外)。同時(shí),根據(jù)ENC 的比值頻數(shù)可以糾正ENC-plot 分析可能存在的錯(cuò)誤,按照以下公式計(jì)算ENC。
ENC=2+GC3+29/[(GC3)2+(1-GC3)2]
2.2.3 PR2-plot 和中性繪圖分析 以G3/(G3+C3)為X 軸,A3/(A3+T3)為Y 軸繪制PR2-plot 散點(diǎn)圖。其中PR2-plot 圖的中心點(diǎn)位置表明堿基含量為A=T、G=C,即密碼子不具有偏好性,其余點(diǎn)與中心點(diǎn)的矢量距離則代表其偏倚程度和方向。
以第1、2 位堿基上的GC 平均含量為縱坐標(biāo),GC3 為橫坐標(biāo)繪制中性分析(neutrality plots)散點(diǎn)圖。通過直線擬合分析圖進(jìn)行分析。利用二者的相關(guān)性,推斷影響密碼子偏好性的因素。當(dāng)密碼子受突變影響時(shí),直線斜率接近1,二者呈顯著相關(guān);反之,則受自然選擇影響,無顯著相關(guān),GC 含量高度保守。
2.2.4 最優(yōu)密碼子的確定及聚類分析 利用ENC值和CodonW 軟件構(gòu)建高、低表達(dá)基因庫和同義密碼子使用度(relative synonymous codon usage,RSCU)值和ΔRSCU 值(ΔRSCU=RSCU 高表達(dá)-RSCU 低表達(dá))的計(jì)算。最優(yōu)密碼子的確定則是需要同時(shí)滿足高表達(dá)密碼子和高頻密碼子的條件。
利用NCBI 數(shù)據(jù)庫下載茄屬秘魯茄Solanum peruvianumL.、智利番茄S.chilense(Dunal) Reiche.、多毛番茄S.habrochaitesS. Knapp & D. M. Spooner、契斯曼尼番茄S.cheesmanii、栽培番茄S.lycopersicumL.、黑果枸杞LyciumruthenicumMurray.的葉綠體基因組序列并計(jì)算密碼子的RSCU 值,通過聚類分析驗(yàn)證3 種枸杞葉綠體基因組密碼子偏好性。
分析結(jié)果(表1)顯示,3 種枸杞植物的RSCU比較接近,其中有30 個(gè)密碼子的RSCU 值大于1,且以U、A 和G 結(jié)尾的密碼子分別有16、13 和1;而3 種植物RSCU 值小于1 的密碼子中只有3 個(gè)密碼子以A 結(jié)尾,表明3 種枸杞植物的密碼子中主要以A/U 結(jié)尾。中國枸杞(OP866962)、黃果枸杞(OP846044)和白果枸杞(OP846050)的密碼子GC含量、ENC 值分析結(jié)果顯示(表2、3):在3 種枸杞植物的GC1 平均含量均為49.80%,GC2 平均含量為39.83%~39.85%,GC3 平均含量為25.68~25.77%,GC 總含量(GCall_s)平均值為38.44~38.47%,ENC 平均值為48.05~48.06,表明3 種枸杞植物的GC 值和ENC 無明顯差異。同時(shí)3 種枸杞植物密碼子的GC 含量均表現(xiàn)為GC1>GC2>GCall_s>GC3,且GC1、GC2、GC3 平均含量都小于50%,表明3 種枸杞不同位置的密碼子GC 含量有所差異且更偏好使用以A/U 結(jié)尾的密碼子。
表1 枸杞葉綠體基因組中各氨基酸的RSCU 分析Table 1 RSCU analysis of amino acids in chloroplast genomes of L. chinense
表2 枸杞植物葉綠體基因組Table 2 Chloroplast genomes of L. Chinese plants
枸杞的相關(guān)分析表明GCall_s 和GC1、GC2、GC3具有極顯著(P<0.01)相關(guān)性(0.361~0.848),與ENC不相關(guān);GC3 與GC1、GC2 不具有相關(guān)性,表明密碼子的第3 為堿基組成與第1 位和第2 位有所差異,而GC3 與GCall_s(0.361~0.362)、ENC(0.431~0.438)有顯著(P<0.05)相關(guān)性,表明枸杞密碼子的使用主要是受GC3 含量變化的影響(圖1)。
圖1 枸杞葉綠體基因組密碼子參數(shù)的相關(guān)性分析Fig. 1 Correlation analysis of codon parameters in chloroplast genomes of L. Chinese
根據(jù)ENC 值和GC3 的關(guān)聯(lián)分析以及標(biāo)準(zhǔn)曲線的距離來判斷對密碼子偏好性起主要作用的因素。當(dāng)突變起主要作用時(shí),數(shù)值主要分布于曲線附近,反之選擇壓力則起主導(dǎo)作用。根據(jù)ENCplot 分析圖(圖2),發(fā)現(xiàn)3 種枸杞植物的ENC值均大于30,且多數(shù)數(shù)值分布于曲線附近。結(jié)合ENC 比值頻數(shù)分布表(表3)顯示,3 種枸杞葉綠體基因組分別有20、21、21 個(gè)基因位于標(biāo)準(zhǔn)曲線附近,分別有31、30、30 個(gè)基因遠(yuǎn)離標(biāo)準(zhǔn)曲線,表明影響大部分密碼子偏好性的要素是自然選擇。
圖2 ENC-plot 分析圖Fig. 2 Analysis of ENC-plot
當(dāng)影響密碼子偏好性的因素僅為突變時(shí),因突變具有隨機(jī)性的特點(diǎn)會(huì)使第3 位堿基A/T(U)或C/G 具有相等的概率,而自然選擇則會(huì)使A/T(U)或G/C 使用不均等。由圖2 可知,4 個(gè)區(qū)域內(nèi)的點(diǎn)分布不均勻:在垂直方向上多數(shù)基因在中線的下方;在水平方向上基因稍微偏向于中線右側(cè),垂直方向分布差異較大。(圖3)。因此,枸杞植物的密碼子第3 位堿基C 頻率低于G,T(U)頻率大于A,表明了枸杞植物多數(shù)基因受到自然選擇的影響。
圖3 PR2-plot 分析Fig. 3 Analysis of PR2-plot
密碼子第3 位堿基的改變通常不會(huì)引起編碼氨基酸的改變,對密碼子偏好性的研究有重要意義。可根據(jù)枸杞植物的中性繪圖分析判斷影響密碼子偏好性的因素。當(dāng)基因沿對角線分布且斜率接近1 時(shí),堿基在3 個(gè)位置的差異不明顯,說明影響密碼子偏好性的主要因素是突變,反之則受自然選擇。如圖4 所示,回歸系數(shù)在-0.003 97~-0.001 74,兩者呈負(fù)相關(guān)關(guān)系。其中黃果枸杞的回歸系數(shù)為-0.003 97,受自然選擇影響最??;中國枸杞的回歸系數(shù)為-0.001 74,自然選擇的影響較大。中性繪圖分析表明影響枸杞密碼子偏好性的主要因素是自然選擇,與ENC-plot 的結(jié)果相同。
圖4 中性繪圖分析Fig. 4 Analysis of neutrality plot
同時(shí)滿足RSCU>1 且ΔRSCU 值>0.08 的密碼子即為枸杞的最優(yōu)密碼子。結(jié)果顯示(表4):枸杞葉綠體基因組中絕大多數(shù)密碼子以A 和U 結(jié)尾,且以U 結(jié)尾的密碼子較多。其中中國枸杞有17 個(gè)最優(yōu)密碼子,黃果枸杞和白果枸杞具有18 個(gè)相同的最優(yōu)密碼子。此外,3 種枸杞植物的共同最優(yōu)密碼子有13 個(gè),分別是UGU、UAA、UUG、CCU、CGA、AUU 等。
表4 枸杞植物葉綠體基因組密碼子RSCU 值Table 4 RSCU values of codons in chloroplast genomes of L. Chinese plants
對3 種枸杞植物葉綠體基因組密碼子RSCU進(jìn)行聚類分析,使用SPSS 24.0 進(jìn)行聚類分析(圖5)。在歐氏距離為5 時(shí),9 個(gè)物種分為3 大類:黑果枸杞、黃果枸杞和白果枸杞聚為一類,栽培番茄單獨(dú)聚為一類,中國枸杞與其余近緣物種聚為一大類;在歐式距離為10 時(shí),黑果枸杞、黃果枸杞和白果枸杞與栽培番茄聚為一類,中國枸杞與其余近緣物種聚為一大類;在歐式距離為25 時(shí),所有茄科植物聚為一類。由此可知,中國枸杞未與白果枸杞、黃果枸杞聚為一類,這表明在密碼子的使用模式上它們存在一定的差異。同時(shí)從枸杞植物的RSCU 聚類結(jié)果來看白果枸杞與黃果枸杞的遺傳關(guān)系較近。
圖5 基于RSCU 值的樹狀聚類Fig. 5 Cluster tree based on RSCU values
由于物種和基因的演化,造成了密碼子的使用偏性現(xiàn)象。并且密碼子使用偏性在不同物種或同一物種的不同基因中有明顯的差異[27]。目前由于物種基因組測序的廣泛使用,使人們對密碼子使用模式的研究產(chǎn)生了的興致[27]。本研究通過對3 種枸杞植物的密碼子使用偏性和影響因素進(jìn)行分析,為枸杞種質(zhì)資源的開發(fā)和遺傳育種提供參考。
在進(jìn)化時(shí)遺傳關(guān)系較近的物種,它們的第3 位密碼子堿基組成比較相同。如大多數(shù)雙子葉植物的密碼子偏好使用以A/T(U)堿基結(jié)尾,單子葉植物則以G/C 堿基結(jié)尾[28]。通常密碼子第3 位堿基受到較小的選擇壓力,對氨基酸的對應(yīng)關(guān)系影響較小,因此密碼子偏好性的研究對遺傳育種具有重要意義[29]。密碼子偏性和氨基酸的組成受GC 含量影響。目前研究發(fā)現(xiàn),大部分植物的密碼子使用偏性會(huì)隨著物種的進(jìn)化而降低,并且單細(xì)胞藻類的GC 含量最高,雙子葉植物的GC 含量最低[27]。3 種枸杞植物的密碼子 GC 平均含量為 38.44%~38.47%,且主要以A/T(U)堿基結(jié)尾,這與大部分被子植物的密碼子偏好性相同[9,29-30]。此外,本研究中3 種枸杞植物的密碼子偏好性均有較弱的表達(dá)(ENC 值>48),推測與葉綠體基因的保守性有關(guān)。
遺傳密碼子變異的主要進(jìn)化力量包括2 個(gè)因素,即堿基突變和自然選擇。在具有極高核苷酸含量的基因組中,影響同義密碼子使用模式的一個(gè)重要因素是突變[31]。通過對枸杞ENC-plot、中性繪圖和PR2-plot 分析發(fā)現(xiàn),GC3 和GC1、GC2 表現(xiàn)為不顯著相關(guān)性,且GC3<GC1、GC2,說明第3 位堿基與第1、2 位堿基存在差異性,且A/T(U)堿基有較高的使用頻率,與雙子葉植物的密碼子偏好使用結(jié)果一致[32-33],這表明對枸杞密碼子偏性影響較小的是堿基突變,可能更多地取決于物種進(jìn)化和人工選擇作用。
在高表達(dá)基因組中,最優(yōu)密碼子的使用可以提高翻譯效率,而除最優(yōu)密碼子外,低表達(dá)基因可以降低翻譯效率[34]。宿主細(xì)胞通過密碼子堿基的組成影響外源基因的表達(dá),也可通過優(yōu)化密碼子來提高基因表達(dá)的水平[8]。在不同植物中,最優(yōu)密碼子的種類也存在巨大差異。在單子葉植物中,如水稻OryzasativaL.、玉米ZeamaysL.等通常以G/C 結(jié)尾,而擬南芥、煙草等主要以A/T 結(jié)尾,也有一些以G/C 結(jié)尾的植物,南方菟絲子的高表達(dá)基因主要以G/C 結(jié)尾[31]。在物種的進(jìn)化過程中,遺傳密碼子的偏性逐漸減少,低等植物需要更多的密碼子優(yōu)化,而高等植物的密碼子優(yōu)化較少[30],其主要原因是高等植物的基因表達(dá)受到順式作用元件等多種因素的調(diào)控[34]。枸杞的ENC 平均值為48.05~48.06,說明大多數(shù)基因在序列水平上表達(dá)潛力較低,但也有部分ENC 值高的基因有相對高的組織表達(dá),表明高等植物的基因表達(dá)受多種因素調(diào)控,由此可知,僅通過ENC 值來預(yù)測基因表達(dá)水平是不準(zhǔn)確的。從3 種枸杞密碼子中篩選出71 個(gè)最優(yōu)密碼子,其中13 個(gè)為共有最優(yōu)密碼子,大部分最優(yōu)密碼子以A 或U 結(jié)尾,尤其以A 結(jié)尾,這與部分雙子葉植物一致,說明高等植物葉綠體基因組的進(jìn)化相對保守。
研究表明,根據(jù)RSCU 值構(gòu)建聚類分析圖可能與其系統(tǒng)發(fā)育樹不相同。前者只能在一定程度上支持系統(tǒng)分類,而不能真實(shí)反映物種的系統(tǒng)發(fā)育位置,這種現(xiàn)象一般是因?yàn)楹Y選的RSCU 值缺少CDS 序列的中低偏好密碼子信息造成的;而后者包含位點(diǎn)突變和基因組非編碼區(qū)序列等相關(guān)遺傳信息,使種間關(guān)系更真實(shí)可靠。由于葉綠體基因在進(jìn)化時(shí)受到的外界影響較小,因此可用于研究物種進(jìn)化的進(jìn)程[8]。物種間的遺傳關(guān)系越近,密碼子的偏性越類似,歐式距離則越小[35]。聚類圖可以反映出某些物種的遺傳關(guān)系在一定程度上與其密碼子偏好性有關(guān)。聚類結(jié)果顯示,黃果枸杞和白果枸杞遺傳關(guān)系較近,單獨(dú)聚為一類,而中國枸杞則與近緣物種聚為一類,與木蘭科(Magnoliaceae)[36]、玉米[37]、番茄[38]等研究結(jié)果相似,進(jìn)一步說明了3 種果色枸杞的遺傳關(guān)系,也為異源基因表達(dá)載體的設(shè)計(jì)和基因工程的應(yīng)用和研究提供數(shù)據(jù)基礎(chǔ)。
綜上所述,3 種枸杞植物的葉綠體基因組的密碼子堿基組成位置特征顯示GC1>GC2>GCall_s>GC3;3 種枸杞植物的葉綠體基因組密碼子的使用模式主要以A/T(U)堿基結(jié)尾;密碼子的使用偏好性ENC-plot、PR2-plot 和中性分析顯示枸杞植物的密碼子使用模式主要受自然選擇的影響;最優(yōu)密碼子分析顯示枸杞材料共有密碼子有13 個(gè);聚類分析表明3 種枸杞的密碼子使用存在一些差異,其中黃果枸杞和白果枸杞無明顯差異,說明其遺傳關(guān)系較近。3 種枸杞植物的葉綠體基因組特征為改良枸杞植物重要性狀和探究枸杞的系統(tǒng)發(fā)育提供基礎(chǔ)。
利益沖突所有作者均聲明不存在利益沖突