韓利紅, 賈欣楠, 陳仁歡, 劉潮
(曲靖師范學院生物資源與食品工程學院,云南省高校特色果酒技術創(chuàng)新與應用工程研究中心,云南 曲靖 655011)
生物體內(nèi)同義密碼子的不均衡使用稱為密碼子使用偏性(codon usage bisa,CUB)。CUB受突變和選擇壓力的影響,是生物進化的重要特征,不僅影響基因的功能和表達潛力,而且影響翻譯的準確性和效率?;虻谋磉_水平越高,密碼子使用偏性就越強。分析基因組密碼子使用偏性對提高外源基因的表達和選擇更合適的宿主表達系統(tǒng)具有重要意義。研究發(fā)現(xiàn),通過對萊茵衣藻(Chlamydomonas reinhardtii)轉(zhuǎn)入基因密碼子的優(yōu)化,大大提高了其轉(zhuǎn)錄水平,表明最優(yōu)密碼子的利用可提升基因的轉(zhuǎn)錄水平,翻譯起始附近的mRNA折疊能量需求也顯著影響基因的表達[1]。
中醫(yī)藥學是中華民族的偉大創(chuàng)造,對世界文明進步產(chǎn)生了積極影響。中藥材是中醫(yī)藥學發(fā)展的物質(zhì)基礎,茯苓(Wolfiporia cocos)為擔子菌門多孔菌科茯苓屬真菌,可與松屬植物共生,其干燥菌核具有重要的藥用價值[2]。茯苓作為重要的中醫(yī)藥方成分之一,包含在1/10的藥方之中[2],具有廣闊的開發(fā)和利用前景。研究表明,茯苓菌核主要藥用成分為多糖和三萜,具有抗腫瘤、抗氧化、調(diào)節(jié)免疫等多種免疫和藥理活性[3]。因茯苓菌核的形成依賴松屬植物,生產(chǎn)上每年需要消耗大量松木[4]。如何降低資源消耗、提升茯苓品質(zhì)成為當前亟待解決的重要課題。一些研究人員探索使用茯苓菌絲液體發(fā)酵的方式生產(chǎn)胞內(nèi)多糖與三萜,并取得一定成果[5-6]。周燕麗等[5]通過研究液態(tài)發(fā)酵過程中茯苓菌絲體形態(tài)與胞內(nèi)三萜產(chǎn)量關系發(fā)現(xiàn),胞內(nèi)三萜產(chǎn)量與發(fā)酵時間、裝液量、接種體積、初始pH、溫度和轉(zhuǎn)速等均有直接關系,培養(yǎng)條件苛刻,不易控制。金文松等[6]初步篩選到了較適合液體發(fā)酵的茯苓菌株,但仍然出現(xiàn)培養(yǎng)物變黑的現(xiàn)象。利用背景清晰的模式菌株表達異源蛋白已成為獲取生物活性物質(zhì)的有效方法[7],而密碼子的優(yōu)化是實現(xiàn)異源基因高效表達的關鍵。目前開展的關于茯苓基因沉默體系和特定藥用成分關鍵調(diào)控基因的研究為茯苓菌種選育和遺傳育種奠定了基礎[2,8]。茯苓菌株的基因工程操作及功能基因的遺傳轉(zhuǎn)化均需要考慮基因組密碼子偏性特征。本研究分析茯苓核基因組和線粒體基因組編碼基因的密碼子使用偏性及其影響因素,并確定物種的最優(yōu)密碼子,以期為茯苓屬藥用真菌基因工程中外源基因的改良及其表達研究奠定基礎。
從Ensemble數(shù)據(jù)庫和GenBank數(shù)據(jù)庫下載茯苓(菌株MD-104 SS10)核基因組[9]和線粒體基因組[10](GEO 登錄號 MT079862.1)的編碼序列(coding sequences,CDS)。為避免計算密碼子偏性時出現(xiàn)樣本偏差,按照以下條件篩選序列:①CDS長度大于300 bp;②以ATG為起始密碼子,以TAA、TGA或TAG為終止密碼子。從Codon Usage Database(http://www.kazusa.or.jp/codon/)[11]獲得釀酒酵母(Saccharomyces cerevisiae)、大腸桿菌(Escherichia coli)和畢赤酵母(Pichia pastoris)密碼子的使用偏性數(shù)據(jù),用于選擇分析最優(yōu)異源表達載體。
1.2.1 密碼子使用偏性分析 使用CodonW 1.4.2軟件分析第3位同義密碼子上各堿基的出現(xiàn)頻率(A3s、T3s、G3s、C3s)、基因第3位同義密碼子鳥嘌呤和胞嘧啶出現(xiàn)頻率(GC3s)、基因鳥嘌呤和胞嘧啶含量(GC)、有效密碼子數(shù)(effective number of codon,ENC)。使用 EMBOSS網(wǎng)站的CUSP程序統(tǒng)計同義密碼子相對使用度(relative synonymous codon usage,RSCU)。使用Mega X分析密碼子第1位、第2位和第3位鳥嘌呤和胞嘧啶含量(GC1、GC2、GC3)和氨基酸組成。
1.2.2 中性繪圖 分別以GC3和GC12(GC1和GC2的平均值)為橫坐標和縱坐標繪制散點圖,并做直線擬合分析,直線斜率越接近1,表明GC3和GC12相關性越強,密碼子偏性受突變作用影響越大,反之受選擇壓力影響越大。
1.2.3 ENC-plot繪圖 分別以GC3s和ENC值(公式1)為橫坐標和縱坐標繪制ENC-plot散點圖,觀察基因在期望曲線上的分布?;蚵潼c越靠近曲線,ENC值越大,密碼子偏性越小,表示突變對密碼子偏性影響越大,反之受選擇對密碼子偏性影響越大。
1.2.4 奇偶偏性繪圖 奇偶偏性(parity rule 2,PR2)用于分析第3位密碼子使用偏好。根據(jù)基因中A3、T3、C3、G3的含量計算G3/(G3+C3)和A3/(A3+T3)的值,分別作為橫坐標和縱坐標作圖。當A3=T3、C3=G3,即A3/(A3+T3)和G3/(G3+C3)坐標均為中心點0.5時,表示DNA兩條互補鏈之間不存在突變或選擇偏性[12]。
1.2.5 對應性分析 對應性分析(correspondence analysis,COA)是研究不同基因密碼子變異趨勢的多元統(tǒng)計方法。以59個氨基酸編碼密碼子的RSCU值為變量,得到每個基因在59維上的空間分布。對應性分析通過基因的分布探究基因向量的變異程度,判斷導致密碼子偏性的影響因素。
1.2.6 最優(yōu)密碼子分析 以CDS的ENC值為依據(jù),分別篩選ENC值較小和較大兩端各5%的基因作為高表達(high expression gene,HEG)和低表達基因(low expression gene,LEG)。當核基因RSCU值>1時,密碼子確定為高頻密碼子,如果△RSCU(高表達組RSCU值與低表達組RSCU值之差)≥0.20時,密碼子確定為高表達密碼子,同時滿足以上2個條件定義為最優(yōu)密碼子。
使用 SPSS 23.0(SPSS Inc.,Chicago,IL,USA)對數(shù)據(jù)進行統(tǒng)計和獨立樣本t檢驗。使用Microsoft Excel 2019進行繪圖分析。
2.1.1 堿基組成分析 茯苓核基因組大小為50.48 Mb,編碼12 212個蛋白,基因組GC含量為52%[8]。茯苓線粒體基因組大小為124.84 kb,含有49個開放閱讀框,GC含量為34.8%。剔除小于300 bp以及起始和終止密碼不正確的CDS后,得到10 449條候選核基因序列和42條候選線粒體基因序列。分析(表1)發(fā)現(xiàn),茯苓核基因平均GC含量為57.28%,平均GC3s值為63.74%,密碼子第3位上C3s值最高,其次為G3s,A3s最低,而線粒體基因A3s最高,其次為T3s,G3s最低。核基因GC、GC3、GC12和GC3s均大于50%,而線粒體基因除GC12較高外,GC、GC3和GC3s均小于35%。338個核基因的ENC值小于35,核基因ENC平均值為51.65,明顯高于線粒體基因。相比較而言,核基因各參數(shù)浮動范圍更大。3種表達宿主中,茯苓核基因GC含量和GC3s均更接近于大腸桿菌[11]。
表1 茯苓基因組密碼子使用參數(shù)Table 1 Codon usage parameter in genes of Wolfiporia cocos
2.1.2 氨基酸組成分析 由圖1可知,茯苓核編碼蛋白和線粒體編碼蛋白中均含有較高的亮氨酸(Leu),較低的半胱氨酸(Cys)和色氨酸(Trp)(圖1)。二者不同之處在于,核編碼蛋白中丙氨酸(Ala)含量最高,而線粒體編碼蛋白中丙氨酸含量處于中等水平,線粒體編碼蛋白中異亮氨酸含量(Ile)也較高,僅次于色氨酸,而核編碼蛋白中異亮氨酸含量處于中等水平。
圖1 茯苓核基因組和線粒體基因組的氨基酸組成Fig.1 Amino acid composition of nuclear and genome in Wolfiporia cocos
2.2.1 中性繪圖分析 由圖2可知,大部分茯苓核基因位于中性圖靠右的位置,GC3與GC12呈極顯著正相關(R2=0.107 6,P<0.01),回歸曲線斜率為0.164 6,表明核基因密碼子第1位和第2位與第3位堿基的組成和變異模式相似,突變對核基因密碼子偏性的形成有重要影響,同時較低的回歸斜率表明選擇等其他因素也影響了核基因密碼子偏性的形成。茯苓線粒體基因位于中性圖左上角偏離對角線較遠的位置,GC3與GC12呈極顯著正相關關系(R2=0.506,P<0.01),回歸曲線斜率為0.612 6(圖2),表明茯苓線粒體基因密碼子偏性受突變和選擇作用影響。
2.2.2 奇偶偏性繪圖分析 由圖3可知,大部分茯苓核基因落在PR2-plot第2象限,說明同義密碼子第3位堿基上A的使用率高于T,C的使用率高于G。茯苓線粒體基因PR2-plot結果顯示,T的使用率高于A,C的使用率高于G,表明茯苓核基因和線粒體基因密碼子的使用偏性受到選擇和突變等因素共同影響,相比較而言,核基因受到較強的選擇作用。
圖3 茯苓核基因和線粒體基因PR2-plotFig.3 PR2-plot of nuclear and mitochondrial genome in Wolfiporia cocos
2.2.3 ENC-GC3s關聯(lián)分析 ENC-GC3s散點圖(圖4)分析顯示,茯苓核基因組大部分基因位于預期曲線下方較遠位置,GC3s值普遍較大,而大部分線粒體基因位于預期曲線下方靠左的位置,GC3s值相對較小。由ENC比率分析結果(圖5)可知,茯苓核基因ENC比率分布在?0.15~0.55之間,線粒體基因ENC比率分布在?0.15~0.35之間,核基因和線粒體基因ENC比率值均在0.05~0.15間所占比例最高,其次是?0.05~0.05,表明茯苓大部分核基因和線粒體基因在進化過程中受到較大的環(huán)境選擇壓力等因素的影響。
圖5 ENC比率分布Fig.5 Distribution of ENC ration
2.2.4 RSCU對應性分析 對應性分析結果(圖6)顯示,各基因在59維向量空間上的分布,核基因分析中,4個向量軸解釋了總變異的32.5%,其中第1向量軸的差異占21.8%,其他3個向量軸占比較低,A和T結尾的密碼子主要分布在第1和4象限,C結尾的密碼子主要分布在第2和第3象限,G結尾的密碼子分布在第4象限。線粒體基因分析中,4個向量軸解釋了總變異的40.4%,各向量軸比例依次為18.7%、9.6%、6.9%和5.2%,A結尾的密碼子分布在第1象限,C和G結尾的密碼子主要分布在第2和3象限,T結尾的密碼子主要分布在第4象限,G結尾的密碼子分布在第4象限。說明第1軸是核基因和線粒體基因密碼子偏性的主要貢獻者,其對核基因序列的貢獻高于線粒體基因序列。結果表明,茯苓核基因序列和線粒體基因序列的密碼子偏性形成過程并不一致,核基因主要受到選擇作用影響,線粒體基因除了受選擇作用影響,還受到較強的堿基突變影響。
圖6 茯苓核基因和線粒體基因RSCU對應性分析Fig.6 Correspondence analysis of the RSCU of nuclear and mitochondrial genome in Wolfiporia cocos
茯苓核基因密碼子使用頻度分析結果(表2)顯示,有25個高頻密碼子,其ΔRSCU均大于0.2,最終確定為25個最優(yōu)密碼子,均以G/C結尾,其中以C結尾的占60.0%,以G結尾的占40.0%。雖然丙氨酸密碼子GCC的核基因RSCU值(0.93)小于1,但ΔRSCU大于0.2,也屬于高表達密碼子。部分同義密碼子間RSCU值差異較大,如核基因中亮氨酸密碼子CTC的RSCU值(1.96)是TTA(0.26)的7.5倍,異亮氨酸密碼子ATC的RSCU值(1.68)是ATA(0.48)的3.5倍,精氨酸密碼子CGC的RSCU值(2.02)是AGA(0.56)的3.6倍。與核基因高頻密碼子結果相反,線粒體基因中發(fā)現(xiàn)26個高頻密碼子,均以A/T結尾,其中以A結尾的占46.2%,以T結尾的占53.8%。通過計算茯苓與3種表達宿主每種密碼子使用頻率比值,發(fā)現(xiàn)釀酒酵母、大腸桿菌和畢赤酵母中分別有40、51和45個比值介于0.5~2.0之間[11],表明茯苓基因密碼子使用模式更接近于大腸桿菌。
表2 茯苓基因組編碼基因的相對同義密碼子使用度Table 2 Relative synonymous codon usage of genomic genes in Wolfiporia cocos
隨著后基因組時代的到來,越來越多物種的全基因組數(shù)據(jù)被公布,密碼子使用偏性分析的研究引起了廣泛關注。CUB分析不僅有助于進化生物學的解析,而且有助于通過密碼子優(yōu)化提高外源基因在宿主細胞中的表達水平。茯苓的菌核具有重要的藥用價值,通過與其他藥材配制成多種中藥藥方,具有鎮(zhèn)靜、利尿、健脾胃等功效[13]。研究表明,茯苓菌核中兩種主要活性成分——多糖和三萜,具有多種免疫應激和藥理活性[4]。本研究對茯苓核基因和線粒體基因的密碼子使用性分析發(fā)現(xiàn),核基因平均GC含量為57.28%,GC3s為63.74,線粒體基因GC含量33.01%,GC3s為23.91%。GC含量影響轉(zhuǎn)錄過程DNA的穩(wěn)定性和構型轉(zhuǎn)換,GC含量高的基因比GC含量低的基因具有更高的表達潛力[14]。研究發(fā)現(xiàn),大型藥用真菌豬苓(Polyporus umbellatus)基因GC含量為53.57%,ENC值介于38~61,密碼子偏性較弱[15]。本研究中,茯苓核基因組中338個基因ENC值小于35,且均具有較高的GC含量和GC3s值,表明這些基因密碼子偏性較強,具有較高的表達潛力。一些線粒體基因可能在茯苓菌核發(fā)育過程中起到了一定的作用[10]。茯苓線粒體基因密碼子使用偏性與稻瘟病病菌(Phyricularia grisea)、栽培大豆(Glycine max)和野生大豆(Glycine soja)等物種線粒體基因密碼子使用偏性一致,多表現(xiàn)為GC含量低,偏好使用A/T結尾的密碼子,最優(yōu)密碼子多以A或T結尾[16-17]。
同義密碼子使用偏性受堿基突變和自然選擇等因素的影響。多種繪圖分析和對應性分析表明,茯苓核基因密碼子偏性主要受到選擇作用影響,而線粒體基因除了受到選擇作用影響,還受到較強的堿基突變影響。核基因密碼子偏性受到較強的選擇作用,可能與茯苓的生長環(huán)境有關,自然條件下,茯苓通常寄生于各種松屬植物的根部[18],寄生過程中受到較強的環(huán)境和寄主物種選擇作用影響。球孢白僵菌(Beauveria bassiana)是一種宿主范圍廣泛的病原真菌,其基因組密碼子偏性較多地受宿主等環(huán)境選擇壓力的影響[19]。而寄主范圍較窄的落葉松?楊柵銹菌(Melampsora larici populina)基因密碼子偏性更多地受到突變壓力的影響[20]。
密碼子使用偏性通過影響RNA轉(zhuǎn)錄與翻譯等多種過程決定整體編譯的效率?;蛎艽a子優(yōu)化通過影響轉(zhuǎn)錄導致RNA水平的明顯上調(diào)和翻譯蛋白的積累[21]。密碼子優(yōu)化大大提高了宿主細胞中外源基因的表達水平[22]。茯苓25個高頻密碼子均為最優(yōu)密碼子,且均以G/C結尾,該結果與茯苓核基因較高的GC含量和GC3s值一致,說明最優(yōu)密碼子受基因堿基組成影響。豬苓[15]和草菇(Volvariella volvacea)[23]最優(yōu)密碼子分析的結果與該研究一致,也偏好G/C結尾的密碼子,而落葉松?楊柵銹菌高頻密碼子和最優(yōu)密碼子并不一致[20]。研究認為,低等生物比高等生物更需要優(yōu)化密碼子[24],這與高等生物的基因表達還受到順式作用元件、轉(zhuǎn)錄后調(diào)控、mRNA穩(wěn)定性、選擇性剪切等多種因素的調(diào)節(jié)有關[25]。茯苓核基因中,部分同義密碼子間RSCU值差異較大,說明最優(yōu)密碼子明顯影響了茯苓高表達基因的轉(zhuǎn)錄,在對茯苓進行基因工程操作時,有必要對基因的密碼子進行優(yōu)化處理。茯苓基因密碼子使用模式與大腸桿菌更接近,對茯苓功能基因進行研究和開發(fā)利用時,可選擇大腸桿菌作為異源表達宿主。