梁湘蘭,郭 松,2*
(1.廣西科技師范學院 食品與生化工程學院,廣西 來賓 546199;2.廣西科技師范學院 特色瑤藥資源研究與開發(fā)重點實驗室,廣西 來賓 546199)
苦馬豆(Sphaerophysasalsula)是中亞西北荒漠區(qū)重要的豆科植物。目前僅有2個種,其中一個產(chǎn)自我國,在海拔960~3 180 m的戈壁綠洲、山坡、荒地、草原、沙灘、溝渠旁及鹽池周圍可見其蹤跡??囫R豆耐鹽耐堿、耐瘠耐澇,是改良鹽堿地的先鋒植物。從苦馬豆的同一根瘤中分離出的非共生內(nèi)生細菌可以與根瘤菌協(xié)同作用,有助于改善豆類植物的根瘤和固氮作用[1-2]??囫R豆蛋白質(zhì)含量較高,除了可以提高土壤肥力外還可以在冬季用作牧草,是極具開發(fā)和利用價值的經(jīng)濟植物。在天然產(chǎn)物的研究方面,苦馬豆中存在2個新的芪類化合物[3],且富含黃酮類化合物[4],民間常被用作為治療高血壓的藥物[5]?,F(xiàn)代藥理學表明,苦馬豆具有抗病毒[6]、抗肝炎[7]、抗腫瘤[8]等作用,具有重要的藥用開發(fā)和研究價值。
密碼子又稱遺傳密碼,編碼不同氨基酸密碼子的準確識別對于遺傳信息正確表達至關(guān)重要。密碼子具有簡并性,除了甲硫氨酸和色氨酸外其余氨基酸一般是由2~6個同義密碼子編碼。經(jīng)過長期的進化,不同的生物體在編碼氨基酸的過程中傾向于使用一種或幾種特定的密碼子,將該現(xiàn)象稱為密碼子的偏好性[9]。研究表明,同義密碼子在生物體內(nèi)普遍存在使用具有偏好性的現(xiàn)象和特點。物種在長期進化的過程中,其基因等會受到環(huán)境選擇和堿基突變等因素的綜合作用,同時還受到基因組大小、tRNA豐富度和基因表達水平等各種外在和內(nèi)在因素的影響[10]。密碼子偏好性通過對基因翻譯準確性和效率的調(diào)節(jié)影響基因的表達水平。植物葉綠體的規(guī)模較小,在植物中存在拷貝數(shù)多的現(xiàn)象,在基因結(jié)構(gòu)上具有相對保守的特點[11]。因此,從葉綠體基因組中選擇最優(yōu)密碼子,并設(shè)計葉綠體基因的表達載體,對于迅速提高特定基因在葉綠體中的表達量具有一定的作用。根據(jù)已知的密碼子使用模式,推斷未知基因的表達模式,或預測未知基因的功能也是分析葉綠體基因組密碼子偏好性的一個作用。分析苦馬豆葉綠體基因組密碼子的偏好性,對苦馬豆葉綠體基因組工程具有重要意義。
本文將通過對苦馬豆葉綠體基因組蛋白編碼基因密碼子的偏好性進行分析,并對密碼子偏好性形成的原因進行探究,研究篩選最優(yōu)密碼子,為苦馬豆葉綠體基因組的改良、目的基因的優(yōu)化等提供科學依據(jù)。
苦馬豆(S.salsula)葉綠體基因組下載于NCBI數(shù)據(jù)庫(GenBank號為MW122834)??囫R豆葉綠體基因組中篩選得到76條可以編碼蛋白質(zhì)的基因序列(Coding DNA Sequence,CDS),排除長度小于300 bp和重復的24條基因序列,其余52條CDS用于后續(xù)的分析。
1.2.1 相關(guān)參數(shù)計算及偏性強弱判斷 將52條CDS整合到一個fasta文件中,運用Codon W 1.4.2軟件進行分析,獲得相對同義密碼子使用度(Relative Synonymous Codon Usage,RSCU)信息,并將RSCU>1的密碼子確定為高頻密碼子。使用在線軟件CUSP計算不同基因中各個密碼子第1、第2、第3位GC含量(分別用GC1、GC2、GC3表示)以及該基因中堿基GC的含量(GCall);使用Chips計算有效密碼子數(shù)(Effective Number of Codon,ENC)。ENC值的高低可以推斷密碼子偏好性的強弱。ENC理論取值為20~61,越靠近20,密碼子偏好性越強;越靠近61,每個密碼子被均衡使用,密碼子偏好性較弱,并將45作為判斷密碼子偏好性強弱的標準[12]。
1.2.2 偏向有無分析 使用SPSS 23.0將GC1、GC2、GC3、GCall、ENC以及每個基因的密碼子數(shù)目(N)進行相關(guān)性分析。對于葉綠體蛋白編碼基因的密碼子偏好性而言,相關(guān)性分析的結(jié)果能夠初步判斷選擇或突變對密碼子偏好性的影響較為突出。密碼子堿基第3位的改變通常為同義突變,而密碼子第1、第2位的改變通常會改變基因的功能或活性。以GC3為橫坐標,GC1、GC2的平均值(用GC12表示)為縱坐標,一個基因用1個散點表示,進行中性繪圖分析。在中性分析的圖中,若所有基因都沿著對角線分布,或GC12與GC3相關(guān)性顯著時,密碼子3個位置的堿基組成無明顯差異,選擇壓力弱,但受突變影響大。
ENC-plot分析使用R語言程序,以GC3s為橫坐標,ENC為縱坐標,ENC=2+GC3s2+[29/GC3s+(1-GC3s)2]為標準曲線進行繪圖。ENC-plot圖用于分析突變在密碼子使用模式中的作用,當實際ENC值與預期ENC值差異較小時,基因分布于曲線附近,密碼子偏性受突變影響?;蚨喾植加谇€下方較遠的位置時密碼子偏性較多受選擇因素的影響[13]。
PR2偏好性分析僅由4種密碼子編碼的氨基酸進行分析,以G3/(G3+C3)、A3/(A3+U3)分別為橫、縱坐標,G3/(G3+C3)=A3/(A3+U3)=0.5的點為中心點繪制散點圖。為了避免密碼子第3位堿基之間的突變不平衡,在無選擇壓力情況下,A、U、G、C的分布是均勻的。
1.2.3 最優(yōu)密碼子確立 以ENC為參考指標,從兩端各選取10%的基因構(gòu)建高低表達基因庫,將高低基因表達庫的基因利用Codon W 1.4.2分別計算RSCU值,計算高低基因表達庫之間的差值,△RSCU≥0.08的密碼子篩選為高表達優(yōu)越密碼子。若一密碼子既為高頻密碼子,也為高表達優(yōu)越密碼子,則將該密碼子確定為最優(yōu)密碼子。
利用在線軟件CUSP和Chips分析篩選的蛋白編碼基因的GC含量,以及ENC結(jié)果得到密碼子第1~第3位的平均GC含量分別為46.30%,38.39%,27.14%,除了基因rps11、rps18、ycf1外,其他基因的各個位置GC的含量均為GC1>GC2>GC3,密碼子在3個位置上GC含量差距較大,第3位堿基的GC含量最低,密碼子主要偏好A、U結(jié)尾。由Codon W 1.4.2測得RSCU(表1),同時,RSCU>1的密碼子有29個,除了密碼子UUG外,其他密碼子均以A、U結(jié)尾。判斷偏好性強弱的ENC值測得在38.729~56.534,平均值為47.110,而ENC>45的基因有41個。若將45作為分界線來判斷密碼子偏好性強弱,分析結(jié)果顯示出苦馬豆葉綠體基因組密碼子偏好性較弱的特點。
表1 苦馬豆葉綠體基因組中各氨基酸的RSCU分析
利用SPSS 23.0測得各個位置的GC含量(GC1,GC2,GC3)GCall、ENC和密碼子數(shù)目(N)的相關(guān)性如表2所示。由表2可知,GC1、GC2與GC3之間并無顯著相關(guān)性,3位密碼子之間堿基組成存在差異。GC3與ENC相關(guān)性顯著,說明GC3對密碼子偏好性存在影響。而密碼子數(shù)目與其他因素都不存在相關(guān)性,說明密碼子數(shù)目對密碼子偏好性的影響較小。
表2 苦馬豆葉綠體基因組密碼子各位置GC含量、數(shù)量及ENC值相關(guān)性分析
中性繪圖分析結(jié)果如圖1所示,GC12與GC3的相關(guān)系數(shù)為r=0.265 7(R2=0.070 6),相關(guān)性不顯著,且基因均位于對角線的上方,密碼子的3個堿基存在差異,密碼子偏好性主要受到選擇因素的影響。
由R語言程序繪制的ENC-plot圖(圖2)可知,密碼子較為均勻?qū)Ψ植加谇€的兩側(cè),根據(jù)ENC比值=(ENC實際-ENC期望)/ENC實際得到結(jié)果(表3),由表3可知,比值在-0.05~0.05的基因有27個,占0.519。以此可以初步分析認為,苦馬豆葉綠體基因組密碼子的偏好性同時受到選擇和突變作用的影響。
表3 ENC比值頻數(shù)分布
PR2-plot結(jié)果表明(圖3),基因的分布并不均勻,位于左下方的基因數(shù)量最多,說明密碼子第3位堿基U的使用頻率大于A、C的使用頻率大于G。當突變?yōu)槲ㄒ挥绊懸蛩貢r,4種堿基的使用頻率應該相等。但此時的結(jié)果表明,苦馬豆葉綠體基因組蛋白編碼基因密碼子偏好性受到選擇因素的影響可能較為突出。
通過構(gòu)建高低基因表達庫(表4),得到21個△RSCU≥0.08的密碼子,并將該密碼子確立為高表達優(yōu)越密碼子。將既屬于高表達優(yōu)越密碼子,又屬于高頻密碼子的確立為最優(yōu)密碼子。最終得到16個最優(yōu)密碼子,分別為GUU、UCA、UUAAUU、CCA、、UUG、ACU、UAU、GCU、GAU、GAA、CAU、CGA、CAA、AAA、GGU。
表4 苦馬豆葉綠體基因組最優(yōu)密碼子分析
密碼子是體內(nèi)遺傳信息傳遞的基礎(chǔ)部分,密碼子的使用偏好性對于外源基因的表達具有重要意義。近年來,隨著基因組測序的不斷增加,關(guān)于密碼子偏好性分析的論文也越來越多[14-18]。之前已有小球藻(Chlorellasorokiniana)[19]、蒺藜苜蓿(Medicagotruncatula)[20]、云南藍果樹(Nyssayunnanensis)[17]、秋茄(Kandeliaobovata)[18]等物種的密碼子偏好性分析,相關(guān)研究為重要經(jīng)濟和藥用植物的基因工程改良奠定了基礎(chǔ)。
本研究通過分析苦馬豆葉綠體基因組密碼子52個CDS,得到密碼子3位堿基的GC含量分布情況為GC1>GC2>GC3,該結(jié)果與已經(jīng)研究的大多數(shù)物種籽粒莧(Amaranthushypochondriacus)[21]、酸棗(Ziziphusjujubavar.spinosa)[22]、美國紅梣(Fraxinuspennsylvanica)[23]得出的結(jié)果一致,GC3的含量均為最低,密碼子偏好以A、U結(jié)尾。在RSCU>1的密碼子中,僅有密碼子UUA的RSCU>2,該密碼子的偏好性較強。判斷密碼子偏好性強弱的ENC值為38.729~56.534,大多數(shù)的密碼子更偏向于61,其中52個基因中>45的有41個,密碼子偏好性較弱。在現(xiàn)在已發(fā)表的葉綠體基因組密碼子偏好性論文中[20,22-25],關(guān)于密碼子偏好性的強弱問題,大多數(shù)都傾向于偏好性較弱。密碼子的使用偏性是物種對自身基因組成和外界環(huán)境選擇長期適應的結(jié)果。由于密碼子第3位的堿基受到的壓力比第1、2位小,因此GC3常常是用來分析密碼子偏好性的重要參數(shù)。以GC12為縱坐標,GC3為橫坐標的中性繪圖分析得到,堿基第1、第2位堿基存在差異,密碼子偏好性主要受到選擇因素的影響,與紫花苜蓿(Medicagosativa)[14]、美國紅梣(Fraxinuspennsylvanica)[23]的結(jié)果一致。ENC-plot圖分析結(jié)果表明,密碼子偏好性除了受到選擇因素影響外還受到突變因素的影響,該分析結(jié)果與西南樺葉(Betulaalnoides)[26]、紫花苜蓿(Medicagosativa)[14]的分析結(jié)果相同。PR2-plot分析可以說明4個堿基的使用情況,分析結(jié)果表明,4個堿基的分布并不均勻,主要分布于左下角,U的使用頻率大于A,C的使用頻率較G的使用頻率高,說明其偏好性同時受到突變和自然選擇的影響,密碼子使用模式較為復雜。
通過建立高低表達庫的對比,計算這2個庫間的△RSCU值,采用高頻密碼子與高表達優(yōu)越密碼子相結(jié)合的方法,最終確立了16個最優(yōu)密碼子,其中以A結(jié)尾的有7個,以U結(jié)尾的有8個,僅有1個密碼子以G結(jié)尾,無以C結(jié)尾的最優(yōu)密碼子。同時再次證實了苦馬豆葉綠體基因組密碼子偏好以A、U結(jié)尾,與大多數(shù)物種的密碼子偏好以A、U結(jié)尾一致。在構(gòu)建基因表達載體的時候,選取最優(yōu)密碼子,可以提高基因的表達效率。
本研究通過生物信息學的方法,對苦馬豆葉綠體基因組的使用模式有了一定的了解,對將來開發(fā)苦馬豆資源利用、外源基因能夠在苦馬豆中高效表達提供有利的依據(jù)。