蔣瑞平,趙辰暉,李文杰,安秋菊,李佳倫,周嘉裕,李遂焰,廖 海
(西南交通大學(xué) 生命科學(xué)與工程學(xué)院,四川 成都 610031)
萜類(lèi)物質(zhì)是由異戊二烯及其衍生物連接而成的一類(lèi)次生代謝產(chǎn)物,廣泛存在于植物界。以赤霉素、脫落酸、類(lèi)胡蘿卜素與葉綠素等為代表的萜類(lèi)物質(zhì),在調(diào)節(jié)植物生長(zhǎng)發(fā)育、響應(yīng)外界環(huán)境變化、抵御病原微生物和病蟲(chóng)侵害等過(guò)程發(fā)揮重要作用。以人參皂苷、紫杉醇、丹參酮與青蒿素等為代表的萜類(lèi)物質(zhì)具有提高免疫力、抗腫瘤、促進(jìn)活血化瘀與抗瘧疾等重要的藥用活性,受到科研人員的廣泛關(guān)注。植物萜類(lèi)成分主要通過(guò)甲羥戊酸(MVA)途徑和赤蘚糖(MEP)途徑合成,二者交匯于由異戊烯基焦磷酸異構(gòu)酶(IPI)催化的異戊烯焦磷酸(isopentenyl pyrophosphate,IPP)異構(gòu)化形成二甲基丙烯基焦磷酸(dimethylallyl pyrophosphate,DMAPP)的可逆反應(yīng)。IPI是MVA和MEP途徑的關(guān)鍵酶之一,調(diào)控中間代謝產(chǎn)物的合成方向與速率。Okada等構(gòu)建的1-2缺失突變體在長(zhǎng)日照條件下表現(xiàn)出侏儒癥和雄性不育,與野生型擬南芥相比,突變體中甾醇和泛醌含量低于50%。反之,提高基因的表達(dá)能夠增加下游萜類(lèi)物質(zhì)的合成。例如,Sun等通過(guò)控制光強(qiáng)提高的表達(dá)效率,導(dǎo)致類(lèi)胡蘿卜素富集于紅球藻的細(xì)胞質(zhì)中而呈現(xiàn)深紅色。Kajiwara等將酵母和綠藻的基因分別轉(zhuǎn)入含有、、與基因的大腸埃希菌中過(guò)表達(dá),能夠明顯提高類(lèi)胡蘿卜素的含量。趙惠娟成功構(gòu)建并鑒定了紫苜蓿轉(zhuǎn)基因煙草,為基因在植物表達(dá)載體中的功能檢測(cè)奠定基礎(chǔ)。以上研究結(jié)果表明,提高基因的表達(dá)效率,將明顯增加下游萜類(lèi)物質(zhì)產(chǎn)率,因此,提高基因的表達(dá)效率是開(kāi)展植物萜類(lèi)代謝工程的重要途徑。
已有研究表明,密碼子偏好性是影響基因表達(dá)效率的關(guān)鍵因素之一。生物體中同義密碼子的非均衡使用稱為密碼子偏好性。不同種屬的生物偏好使用的密碼子不同,甚至同一物種不同功能和保守性的基因也具有不同的密碼子偏好性。研究顯示,通過(guò)優(yōu)化密碼子可提高基因的表達(dá)效率,如陳徵婷等根據(jù)大腸埃希菌密碼子偏好性,優(yōu)化基因序列,使其在大腸埃希菌中的表達(dá)量提高了2.2~3.8倍。豆科植物含有多種萜類(lèi)物質(zhì),例如甘草酸、三萜皂苷、環(huán)菠蘿蜜烷三萜。本研究收集了25種豆科植物、5種除豆科外的雙子葉植物、煙草和擬南芥來(lái)源的32條基因,分析其堿基組成、同義密碼子偏好性與影響因素,確定豆科植物偏好使用的最優(yōu)密碼子,并與6種模式生物相比較,確定適宜豆科基因外源表達(dá)的潛在宿主,為豆科植物的基因工程研究提供理論支撐。
決明()的基因序列來(lái)源于實(shí)驗(yàn)室前期獲得的決明轉(zhuǎn)錄組數(shù)據(jù),登錄號(hào)為SRP144670。其余31種植物的基因來(lái)源于NCBI數(shù)據(jù)庫(kù),具體信息如表1所示。
1.2.1基因同義密碼子偏好性分析
通過(guò)Codon W分析獲取相對(duì)密碼子使用度(relative synonymous codon usage,RSCU)、密碼子適應(yīng)指數(shù)(codon adaptation index,CAI)、同義密碼子GC含量(GC)與第3位堿基含量(GC3s,T3s,C3s,A3s,G3s)。通過(guò)CUSP獲得密碼子使用頻率,CHIPS獲得基因有效密碼子數(shù)(effective number of codons,ENc)。其中,CAI為使用最優(yōu)密碼子編碼蛋白時(shí)該基因的適應(yīng)指數(shù),介于0~1,密碼子偏好程度越低,其CAI值越趨于0。ENc介于20~61,其值越小,表明密碼子偏好性強(qiáng),反之,密碼子偏好性較低。
1.2.2 ENc-GC3s繪圖分析
1.2.3 PR2-plot偏倚分析
PR2 (Parity Rule 2)規(guī)則是堿基組成的一個(gè)規(guī)則,當(dāng)DNA的兩條互補(bǔ)鏈沒(méi)有突變和選擇的偏倚,則該基因其中一條鏈的堿基含量為A=T、C=G,否則偏好可能受自然選擇及其他因素影響。分別以25種豆科植物基因的G3/(G3+C3)值與A3/(A3+T3)值作為橫坐標(biāo)和縱坐標(biāo),形成25個(gè)坐標(biāo)點(diǎn),以它們到達(dá)中心點(diǎn)(0.5,0.5)的矢量值計(jì)算基因的奇偶偏好。
1.2.4 基于RSCU和CDS的聚類(lèi)分析
去除3種終止密碼子與RSCU=1的密碼子,以剩余59種密碼子的RSCU值于SPSS 26軟件進(jìn)行聚類(lèi)分析,聚類(lèi)方式采用組間聯(lián)接,基因間的距離規(guī)定為RSCU值的平方歐式距離。
利用MEGA軟件采用最大似然法(Maximum Likelihood Tree)構(gòu)建基于32個(gè)物種基因CDS序列的系統(tǒng)發(fā)育樹(shù)。序列比對(duì)完成后人工去掉Gaps,經(jīng)自舉法(Bootstrap method)檢驗(yàn)1 000次后輸出進(jìn)化樹(shù)。
1.2.5 豆科植物基因的最優(yōu)密碼子分析
根據(jù)ENc值對(duì)25種豆科植物基因進(jìn)行排序,分別選取ENc值最小和最大各5個(gè)基因建立低表達(dá)基因庫(kù)和高表達(dá)基因庫(kù)。Codon W分析計(jì)算得到2個(gè)表達(dá)庫(kù)的RSCU值,分別記作RSCU和RSCU,以RSCU-RSCU得到△RSCU值。將RSCU>1且△RSCU≥0.08的密碼子視為最優(yōu)密碼子。
1.2.6 豆科植物基因的外源表達(dá)宿主確定
在1.2.1節(jié)中得到豆科植物基因的密碼子使用頻率,通過(guò)Kazusa數(shù)據(jù)庫(kù)獲得大腸埃希菌、釀酒酵母、煙草、擬南芥、水稻、玉米基因組的密碼子使用頻率,將豆科植物基因的ENc與6種模式生物基因組的ENc相比較,以確定適合的外源表達(dá)宿主。
圖1 豆科植物IPI密碼子偏好性聚類(lèi)熱圖
豆科植物基因偏好使用(RSCU值>1)的密碼子有6個(gè),分別是UUC、UUG、CUU、AUU、UCU與CCU,其中4個(gè)密碼子以U結(jié)尾。UCU(RSCU=3.05)、AUU(RSCU=2.23)是豆科植物偏好性最強(qiáng)的2個(gè)密碼子。AUG和UGG無(wú)密碼子偏好性(RSCU=1),UGA、CCG、AUA等12個(gè)密碼子偏好性極低(RSCU<1)。
如表1所示,25種豆科植物基因的ENc值為46.69~55.00,平均值為50.57,密碼子偏好性整體偏低(ENc>35)。CAI廣泛應(yīng)用于評(píng)估基因表達(dá)水平,25種豆科植物基因的CAI介于0.23~0.27,平均值0.26,CAI值整體偏低,推測(cè)的表達(dá)水平偏低。25種豆科植物基因的GC3s為0.416~0.503,除落花生2(0.503)外,其余均小于0.5,GC含量為0.437~0.482,小于0.5,表明豆科植物偏好使用AU并以AU結(jié)尾。
表1 三十二個(gè)物種IPI基因的登錄號(hào)、ENc、CAI、GC3s、GC含量
ENc-GC3s分析顯示(圖2),所有分布點(diǎn)均落在標(biāo)準(zhǔn)曲線的下方,且距離較遠(yuǎn)。統(tǒng)計(jì)發(fā)現(xiàn)25個(gè)豆科植物基因的ENc比值的絕對(duì)值均大于0.05,說(shuō)明基因的密碼子使用偏好性主要受到自然選擇等因素的影響。
GC3s,第3位同義密碼子上G和C的含量。
PR2-plot分析(圖3)顯示,所有的點(diǎn)都偏離中心點(diǎn)(0.5,0.5),存在第三位密碼使用偏好。以A/T為例,所有分布點(diǎn)均位于A3/(A3+T3)<0.5區(qū)域,表明25個(gè)豆科植物的基因更偏好使用堿基U,而非A作為第三位密碼。以G/C為例,除相思子、大豆1、野大豆2、紫苜蓿、赤豆與膜莢黃芪,其余豆科植物的分布點(diǎn)位于G3/(G3+C3)<0.5區(qū)域,偏好使用堿基C為第三位密碼。
圖3 豆科植物IPI基因PR2-plot偏倚分析
基于SPSS的系統(tǒng)聚類(lèi)分析得到32個(gè)物種基因的RSCU聚類(lèi)圖(圖4),32個(gè)物種在等級(jí)結(jié)合線=25處分成3支,其中小??Х葐为?dú)為一支,長(zhǎng)春花、胡桃、木槿聚為一支,日本杜鵑、煙草、擬南芥同25種豆科植物聚為一大支,表明豆科植物與日本杜鵑、煙草、擬南芥的密碼子使用模式較為相近。
圖4 三十二個(gè)物種IPI基因的RSCU聚類(lèi)分析
基于CDS序列的系統(tǒng)發(fā)育樹(shù)(圖5)顯示,原始花被亞綱(胡桃除外)和合瓣花亞綱植物形成兩個(gè)分支。原始花被亞綱分支中,25種豆科植物聚為一個(gè)單系群(Bootstrap=88),在豆科分支中,含羞草亞科的阿根廷牧豆樹(shù)同云實(shí)亞科的決明聚為一支(Bootstrap=81),其余23種蝶形花亞科植物聚為一支(Bootstrap=33),表明基于CDS序列的系統(tǒng)發(fā)育樹(shù)能夠更好地反映物種間的親緣關(guān)系。該聚類(lèi)結(jié)果與基于密碼子偏好性的聚類(lèi)分析結(jié)果不完全相同,表明密碼子偏好性與親緣關(guān)系并非絕對(duì)一致。
圖5 三十二個(gè)物種IPI的系統(tǒng)進(jìn)化樹(shù)分析
根據(jù)最優(yōu)密碼子判定的條件,RSCU>1且ΔRSCU≥0.08,篩選出豆科植物中8個(gè)優(yōu)勢(shì)密碼子(表2),分別是CUG、AUU、GUG、UCC、GAU、CGC、AGA、GGU,其中,以A、U、C與G結(jié)尾的密碼子分別有1、3、2與2個(gè)。值得注意的是,ΔRSCU>0.5的密碼子有2個(gè),CUG(ΔRSCU=0.698)和GGU(ΔRSCU=0.942),它們以堿基G和U作為結(jié)尾。
表2 豆科植物IPI基因最優(yōu)密碼子分析
若外源基因與宿主基因組之間的密碼子使用頻率比值介于0.5~2.0,表明二者密碼子使用模式比較接近。與大腸埃希菌、釀酒酵母、煙草、擬南芥、水稻、玉米相比較,25個(gè)豆科植物基因的密碼子使用頻率介于0.5~2.0的密碼子數(shù)分別為43、40、44、44、41、40,表明相較于釀酒酵母,大腸埃希菌更適合作為豆科植物基因的微生物表達(dá)宿主,相較于水稻和玉米,煙草和擬南芥更適合作為豆科基因的植物表達(dá)宿主,若選擇水稻和玉米為遺傳轉(zhuǎn)化受體,需根據(jù)這兩種糧食作物的密碼子偏好性對(duì)豆科植物基因進(jìn)行密碼子優(yōu)化。
豆科植物基因偏好使用的密碼子(RSCU>1)有6個(gè),其中,UCU(RSCU=3.05)和AUU(RSCU=2.23)為偏好性最強(qiáng)的密碼子。已有報(bào)道表明,同屬M(fèi)EP途徑的基因?qū)GA與AGG有較強(qiáng)的偏好性(RSCU>2),而基因中偏好性最強(qiáng)的密碼子為AGA(RSCU=3.60)與UCU(RSCU=2.17)。、與基因中偏好性最強(qiáng)的密碼子有部分重疊,但它們?nèi)匀痪哂懈髯元?dú)特的偏好性密碼子,表明來(lái)源于相同代謝途徑的不同基因在進(jìn)化上可能受到不同的選擇壓力,并且也強(qiáng)調(diào)了對(duì)不同基因開(kāi)展密碼子偏好性分析的必要性。最優(yōu)密碼子分析結(jié)果表明,豆科植物有8個(gè)優(yōu)勢(shì)密碼子,其中最優(yōu)密碼子是GGU,以上密碼子均可以作為基因密碼子優(yōu)化改造的重要組成部分。豆科植物的ENc值介于46.69~55.00,表明豆科植物的基因表達(dá)水平整體較低,推測(cè)提高基因的表達(dá)強(qiáng)度能夠明顯增加下游萜類(lèi)物質(zhì)的產(chǎn)量,例如,楊帆等在大腸埃希菌中過(guò)表達(dá)黏細(xì)菌基因,與未轉(zhuǎn)化的對(duì)照菌株相比,該菌株番茄紅素產(chǎn)量最高提高了約2倍。豆科植物基因的密碼子更偏好以A/U結(jié)尾(GC3s<0.5,落花生2除外),且GC含量低(GC<0.5),該結(jié)果與Kawabe等的分析類(lèi)似,即雙子葉植物基因的密碼子大多以A/U結(jié)尾,且雙子葉植物的整體GC含量低于單子葉植物。
ENc-plot和PR2-plot分析均顯示,豆科植物基因密碼子偏好性的形成主要源于自然選擇,這與MEP途徑的、基因的密碼子使用偏好性主要受到純化選擇的影響不同,推測(cè)來(lái)自同一途徑的基因其密碼子偏好性的形成受到不同選擇壓力的作用。這一結(jié)果與最優(yōu)密碼子的結(jié)果相類(lèi)似。相較于基于RSCU值的聚類(lèi)樹(shù),基于CDS序列的系統(tǒng)進(jìn)化樹(shù)能夠更準(zhǔn)確反映植物間的親緣關(guān)系,例如,煙草、擬南芥分別為茄科與十字花科植物,它們?cè)谙到y(tǒng)進(jìn)化樹(shù)上與25種豆科植物未聚為一支,而在基于RSCU值的聚類(lèi)樹(shù)中,兩種植物與豆科植物聚為一個(gè)分支。類(lèi)似結(jié)果也出現(xiàn)在趙春麗等對(duì)莧菜基因的RSCU和CDS聚類(lèi)分析中。另一方面,RSCU值聚類(lèi)與基因CDS序列進(jìn)化樹(shù)的結(jié)果又有一定的相似性,表明密碼子偏好性受到了多種因素的影響,其聚類(lèi)分析可以作為基因CDS聚類(lèi)分析的補(bǔ)充。將兩種聚類(lèi)結(jié)果相結(jié)合,能更準(zhǔn)確反映物種真實(shí)系統(tǒng)分類(lèi)和親緣關(guān)系。
RSCU聚類(lèi)中,煙草、擬南芥與豆科植物具有相近的密碼子使用模式,表明兩者均可作為豆科植物基因的適宜外源表達(dá)宿主。通過(guò)與煙草、擬南芥等4種模式生物的密碼子使用頻率對(duì)比,確定大腸埃希菌、煙草、擬南芥均適合作為豆科基因的外源表達(dá)系統(tǒng),這也驗(yàn)證了聚類(lèi)樹(shù)的分析結(jié)果。本文所獲結(jié)果為基因的密碼子優(yōu)化改造和開(kāi)展植物萜類(lèi)代謝工程奠定了重要的理論基礎(chǔ)。