王麗珊
(閩西職業(yè)技術(shù)學(xué)院,福建 龍巖 364021)
纖維素是植物細(xì)胞壁的主要組成成分。纖維素酶解是將生物質(zhì)原料轉(zhuǎn)化為乙醇的一條高效的、無(wú)污染的關(guān)鍵途徑。研究纖維素酶對(duì)解決世界糧食短缺、能源危機(jī)、環(huán)境污染等問(wèn)題具有重要意義。植物合成的纖維素酶(Cellulase,Cel),通常也稱內(nèi)切-1,4-β-葡 聚 糖 酶 (endo-1,4-β-D-glucanases,EC 3.2.1.4),屬于糖苷水解酶家族9(glycoside hydrolase family 9,GH9),在纖維素的合成和分解過(guò)程中起著重要的作用[1]。Hayashi等鑒定了25個(gè)擬南芥Cel基因和20個(gè)水稻Cel基因[2]。研究表明纖維素酶與擬南芥長(zhǎng)角果開(kāi)裂和楊樹(shù)側(cè)根生成有關(guān)[3-4]。目前已有多種植物Cel基因相繼報(bào)道,但對(duì)雙子葉植物擬南芥和單子葉植物水稻Cel基因的對(duì)比分析報(bào)道較少。本研究運(yùn)用生物信息學(xué)的方法,對(duì)擬南芥和水稻Cel基因的基因結(jié)構(gòu)、系統(tǒng)發(fā)育進(jìn)化、蛋白質(zhì)結(jié)構(gòu)、跨膜結(jié)構(gòu)、信號(hào)肽(signal peptide,SP)、亞細(xì)胞定位、結(jié)構(gòu)域、保守基序進(jìn)行預(yù)測(cè)和對(duì)比分析,以期為今后深入研究植物Cel基因家族的進(jìn)化、結(jié)構(gòu)特征和功能的多樣性提供一些理論依據(jù)。
本文數(shù)據(jù)來(lái)自于擬南芥數(shù)據(jù)庫(kù)TAIR、水稻數(shù)據(jù)庫(kù)RGAP、碳水化合物活性酶數(shù)據(jù)庫(kù)CAZY、植物信息資源網(wǎng)Phytozome、美國(guó)國(guó)立生物信息中心NCBI、歐洲分子生物學(xué)實(shí)驗(yàn)室EMBL。
1.2.1 Cel基因家族成員的鑒定與分類、基因結(jié)構(gòu)分析和系統(tǒng)進(jìn)化樹(shù)構(gòu)建
以擬南芥和水稻Cel基因編碼蛋白質(zhì)序列為檢索序列,利用BLAST工具進(jìn)行同源搜索。運(yùn)用軟件Pfam、CDD、SMART等預(yù)測(cè)蛋白質(zhì)的保守結(jié)構(gòu)域,具有GH9催化結(jié)構(gòu)域的蛋白質(zhì)序列屬于纖維素酶。將結(jié)構(gòu)域特征進(jìn)行比對(duì)分析后分類和命名。運(yùn)用軟件GSDS對(duì)Cel基因的染色體位置、基因結(jié)構(gòu)、內(nèi)含子和外顯子位置和數(shù)量進(jìn)行預(yù)測(cè)和分析。運(yùn)用軟件BioEdit、Clustal W、MEGA7.0 對(duì)蛋白質(zhì)進(jìn)行多重比對(duì)、聚類分析、構(gòu)建系統(tǒng)發(fā)育進(jìn)化樹(shù)。
1.2.2 Cel基因家族成員蛋白質(zhì)一級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)特性分析
運(yùn)用軟件PROTPARAM、PROTSCALE對(duì)Cel基因編碼蛋白質(zhì)的一級(jí)結(jié)構(gòu)(氨基酸數(shù)目、分子量、理論等電點(diǎn)等)進(jìn)行預(yù)測(cè)和分析。運(yùn)用軟件SOPMA對(duì)蛋白質(zhì)的二級(jí)結(jié)構(gòu),如α-螺旋、β-轉(zhuǎn)角、延伸鏈和無(wú)規(guī)則卷曲等進(jìn)行預(yù)測(cè)和分析。運(yùn)用軟件Swiss-Model對(duì)蛋白質(zhì)三級(jí)結(jié)構(gòu)進(jìn)行同源建模,Swiss-PdbViever分析同源建模的結(jié)果,并構(gòu)建拉氏圖。拉氏圖中二面角有90%以上位于允許區(qū)和最大允許區(qū),則表明構(gòu)建的空間構(gòu)象是合理的。
1.2.3 Cel基因家族成員蛋白質(zhì)的跨膜結(jié)構(gòu)、信號(hào)肽、亞細(xì)胞定位、結(jié)構(gòu)域、保守基序和多序列比對(duì)分析
運(yùn) 用 軟 件 TMHMM、SIGNALP、PSORT、Plant-PLoc對(duì)Cel基因編碼蛋白質(zhì)的跨膜結(jié)構(gòu)、SP及亞細(xì)胞定位進(jìn)行預(yù)測(cè)和分析。運(yùn)用軟件Pfam、CDD、SMART、Prosite對(duì)蛋白質(zhì)的保守結(jié)構(gòu)域進(jìn)行預(yù)測(cè)和分析。運(yùn)用軟件MEME對(duì)蛋白質(zhì)的保守基序進(jìn)行預(yù)測(cè)和分析。運(yùn)用Clustal W對(duì)蛋白質(zhì)進(jìn)行多序列比對(duì)分析。
從擬南芥和水稻數(shù)據(jù)庫(kù)中分別搜索到各25個(gè)Cel基因,數(shù)目差別不大。Urbanowicz將GH9分為3個(gè)亞家族:GH9A、GH9B、GH9C[5]。GH9A 成員的蛋白質(zhì)N端具有胞質(zhì)結(jié)構(gòu)域(cytosolic domain,CT)和跨膜結(jié)構(gòu)域 (transmembrane domain,TM),C 端具有GH9催化結(jié)構(gòu)域(catalytic domain,CD)。GH9B成員的蛋白質(zhì)N端具有SP,C端具有CD。GH9C成員的蛋白質(zhì)N端具有SP和CD,C端具有CBM和連接肽。參照該分類方法,對(duì)50個(gè)Cel基因進(jìn)行分類和命名。擬南芥GH9A有4個(gè)成員,GH9B有18個(gè)成員,GH9C有3個(gè)成員;水稻GH9A有4個(gè)成員,GH9B有17個(gè)成員,GH9C有4個(gè)成員(表1,篇幅有限僅展示部分成員)。
由圖1可知,系統(tǒng)進(jìn)化樹(shù)中擬南芥和水稻沒(méi)有單獨(dú)聚類形成各自的分支,而是相互交叉,3個(gè)亞家族沒(méi)有明顯地分為3大支。Cel基因分成4大類群:Ⅰ類群有21個(gè)成員,均是GH9B成員;Ⅱ類群有18個(gè)成員,是GH9B和GH9C成員;Ⅲ類群有6個(gè)成員,均是GH9A成員;Ⅳ類群有5個(gè)成員,均是GH9B成員。GH9B既能與GH9A聚成一支,又能與GH9C聚成一支。Cel基因家族中出現(xiàn)較多的旁系同源蛋白,其中GH9B旁系同源蛋白數(shù)量最多。擬南芥和水稻Cel基因結(jié)構(gòu)差異很大,具有十分明顯的多樣性特征。擬南芥中,大部分Cel基因有3~7個(gè)內(nèi)含子(92%)。水稻中,大部分Cel基因有2~6個(gè)內(nèi)含子(88%)。GH9A成員的內(nèi)含子數(shù)量多于GH9C成員。GH9A成員中,AtGH9A2和OsGH9A3發(fā)生了內(nèi)含子丟失,其余Cel基因結(jié)構(gòu)相似。GH9C成員中,OsGH9C1、OsGH9C2、OsGH9C4發(fā)生了內(nèi)含子丟失,其余Cel基因結(jié)構(gòu)相似。GH9B成員中,擬南芥和水稻的Cel基因結(jié)構(gòu)差異較大。由表1可知,Cel基因在染色體上分布并不均勻。擬南芥中,第1號(hào)染色體上分布最多;水稻中,第2號(hào)染色體上分布最多。水稻的基因長(zhǎng)度比擬南芥略長(zhǎng),但轉(zhuǎn)錄產(chǎn)物長(zhǎng)度、編碼基因長(zhǎng)度和肽鏈氨基酸個(gè)數(shù)差別不大。
由表1可知,Cel基因編碼的蛋白質(zhì)分子量相近, 擬南芥在 52.5~69.8kDa 之間, 水稻在 41.5~69.2kDa 之間(OsGH9C3 除外)。Cel基因編碼的蛋白質(zhì)的理論等電點(diǎn)(PI)大小不等,擬南芥PI最高為9.33,最低為 5.03;水稻 PI最高為 9.36,最低為 5.2。不穩(wěn)定系數(shù)大于40為不穩(wěn)定蛋白,小于40為穩(wěn)定蛋白,大部分Cel基因編碼的蛋白質(zhì)為穩(wěn)定蛋白(92%)。 親水性指數(shù)介于-0.5~0.5 之間為兩性蛋白質(zhì)[6],Cel基因編碼的蛋白質(zhì)均為兩性蛋白質(zhì)。Cel基因編碼的蛋白質(zhì)的二級(jí)結(jié)構(gòu)基本相似(AtGH9B8和OsGH9C4除外),主要結(jié)構(gòu)元件是無(wú)規(guī)則卷曲和α-螺旋,特征為無(wú)規(guī)則卷曲>α-螺旋>延伸鏈>β-轉(zhuǎn)角。Cel基因編碼的蛋白質(zhì)序列三級(jí)結(jié)構(gòu)同源建模結(jié)果顯示,α-螺旋和無(wú)規(guī)則卷曲是主要結(jié)構(gòu),拉氏圖顯示空間構(gòu)象合理(圖略)。
由表1可知,GH9A和GH9C成員均具有1個(gè)跨膜螺旋;GH9B大部分成員不具有跨膜螺旋(擬南芥67%、水稻59%)。GH9A成員均不具有SP(Os-GH9A4除外);GH9C成員均具有SP(OsGH9C4除外);GH9B大部分成員具有SP(擬南芥83%,水稻82%)。擬南芥和水稻的13個(gè)Cel基因編碼的蛋白質(zhì)亞細(xì)胞定位于細(xì)胞膜 (26%)、3個(gè)定位于細(xì)胞壁(6%)、34個(gè)定位于細(xì)胞膜或細(xì)胞壁(68%)。
由表1可知,Cel基因編碼的蛋白質(zhì)均有CD,大部分成員在CD內(nèi)有1個(gè)DAGD氨基酸模塊(92%)。其中OsGH9B17沒(méi)有DAGD模塊,AtGH9A2為DGGS模塊,OsGH9B7、OsGH9C4為GSDG模塊。GH9A成員的蛋白質(zhì)N端均有TM (位于71~101氨基酸殘基片段上),沒(méi)有SP(OsGH9A4除外);C端有脯氨酸富集區(qū)域 (最后16個(gè)氨基酸中有8~10個(gè)脯氨酸)。GH9B少部分成員具有TM,且位置不一樣。GH9C成員的蛋白質(zhì)N端均有TM (位于7~29的氨基酸殘基片段上)和SP;C端均有纖維素結(jié)合結(jié)構(gòu)域(CBM49)。GH9具有2個(gè)催化活性位點(diǎn)特征(active sites signature):特征 1 具有[STV]-x-[LIVMFY]-[STV]-x(2)-G-x-[NKR]-x(4)-[PLIVM]-H-x-R 序列;特征 2 具有[FYW]-x-D-x(4)-[FYW]-x(3)-E-x-[STA]-x(3)-N-[STA]序列[5]。 19 個(gè) Cel基因編碼的蛋白質(zhì)同時(shí)有催化活性位點(diǎn)特征1和2(38%)。大部分只有特征1的成員,有RGD模塊。由圖2可知,共鑒定出了25個(gè)保守基序(motif 1~25),這些保守基序形成了多樣性和復(fù)雜性的組成模式。最大基序長(zhǎng)度為49個(gè)氨基酸,最小基序長(zhǎng)度僅為8個(gè)氨基酸。motif 1~19、motif 22出現(xiàn)在較多數(shù)Cel基因編碼的蛋白質(zhì)中,且出現(xiàn)在CD內(nèi)。GH9A成員特有基序?yàn)?motif 20、motif 21、motif 23、motif 25。GH9C 成員特有基序?yàn)閙otif24。GH9B成員具有多樣化的組成模式。保守結(jié)構(gòu)域與模塊預(yù)測(cè)的位置基本一致 (圖略)。motif 2在微生物有發(fā)現(xiàn),且較保守,通常第1個(gè)酪氨酸被色氨酸取代,其中DAGD模塊可能與金屬結(jié)合有關(guān);motif 3和motif 9,只存在于植物的葡聚糖酶中,微生物中沒(méi)有;motif 7在植物和微生物中均有;motif 1和motif 4分別是GH9的2個(gè)催化活性位點(diǎn)所在區(qū)域,且相對(duì)保守;motif 14是RGD模塊所在區(qū)域;motif 21是脯氨酸富集區(qū)域;motif 24是CBM所在區(qū)域;motif 20是CT所在區(qū)域[5]。
圖1 擬南芥和水稻Cel基因家族基因結(jié)構(gòu)預(yù)測(cè)
利用現(xiàn)有的擬南芥和水稻生物信息資源,各鑒定出25個(gè)Cel基因,其數(shù)目上相差不大,說(shuō)明Cel基因家族在不同植物中進(jìn)化是相對(duì)保守的。從系統(tǒng)進(jìn)化分析,擬南芥和水稻Cel基因沒(méi)有單獨(dú)聚類,說(shuō)明在單雙子葉植物分化前,Cel基因發(fā)生過(guò)大幅度擴(kuò)張。Cel基因家族具有較多的旁系同源蛋白,說(shuō)明在單雙子葉植物分化后,Cel基因家族許多成員獲得了新功能,同時(shí)產(chǎn)生許多假基因。其中GH9B旁系同源蛋白數(shù)量最多。3個(gè)亞家族沒(méi)有明顯地分為3大支,這可能與糖苷水解酶結(jié)構(gòu)域的保守性有關(guān)。GH9B既能與GH9A聚為一支,又能與GH9C聚成一支,說(shuō)明GH9B在結(jié)構(gòu)上與GH9A和GH9C具有共同點(diǎn)(CD,SP),與結(jié)構(gòu)域分析相吻合。
圖2 擬南芥和水稻Cel基因家族保守模塊預(yù)測(cè)
從基因結(jié)構(gòu)看,擬南芥和水稻Cel基因在染色體上的分布比較散,基因結(jié)構(gòu)差異大,說(shuō)明Cel基因具有明顯的多樣性特征,有復(fù)雜的起源和進(jìn)化歷史。GH9A成員的內(nèi)含子數(shù)量多于GH9C成員,說(shuō)明GH9A成員在進(jìn)化過(guò)程中插入不少內(nèi)含子,使其功能更為特化,產(chǎn)生的時(shí)間較晚。由此推測(cè),GH9C是GH9A和GH9B的祖先,GH9A屬于進(jìn)化過(guò)程中較新的亞家族。GH9A和GH9C成員中,擬南芥和水稻的Cel基因結(jié)構(gòu)相似,說(shuō)明在單子葉植物和雙子葉植物中,GH9A和GH9C功能進(jìn)化較保守。AtGH9A2、OsGH9A3是GH9A中較早出現(xiàn)的成員。OsGH9C1~2、OsGH9C4是GH9C中較早出現(xiàn)的成員,且都是水稻的Cel基因,表明單子葉植物的GH9C出現(xiàn)的時(shí)間較早。
從蛋白質(zhì)結(jié)構(gòu)看,擬南芥和水稻Cel基因編碼的蛋白質(zhì)分子量相近,理論等電點(diǎn)大小不等,均為兩性蛋白,大部分成員為穩(wěn)定蛋白質(zhì)(82%),二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)基本相似,說(shuō)明纖維素酶的結(jié)構(gòu)與功能緊密相聯(lián)。GH9A和GH9C成員均具有1個(gè)跨膜螺旋,GH9B大部分成員不具有跨膜螺旋,說(shuō)明GH9A、GH9C全部成員和GH9B少部分成員,需要經(jīng)跨膜轉(zhuǎn)運(yùn)錨定于生物膜,才能發(fā)揮生物學(xué)作用。GH9A成員均不具有SP,GH9C成員和GH9B大部分具有SP,說(shuō)明GH9A成員均為非分泌蛋白,GH9C成員和GH9B大部分成員為分泌蛋白。亞細(xì)胞定位顯示纖維素酶位于細(xì)胞膜或細(xì)胞壁,說(shuō)明蛋白質(zhì)合成后,需經(jīng)過(guò)轉(zhuǎn)運(yùn)到達(dá)細(xì)胞膜或細(xì)胞壁后才能發(fā)揮催化作用。
從蛋白質(zhì)結(jié)構(gòu)域和保守基序看,纖維素酶蛋白質(zhì)的結(jié)構(gòu)域與保守基序位置一致。Cel基因編碼的蛋白質(zhì)均具有 CD,CD內(nèi)有一個(gè) DAGD模塊(motif 2)。其中 OsGH9B7、OsGH9C4 為 GSDG 模塊,因此推測(cè)GSDG模塊可能只出現(xiàn)在單子葉植物中,這個(gè)位點(diǎn)上的基因突變是否對(duì)其功能造成影響,有待進(jìn)一步研究。GH9A成員的蛋白質(zhì)N端有TM和CT(motif 20),C 端有脯氨酸富集區(qū)(motif 21),這個(gè)特點(diǎn)與微生物的連接不同結(jié)構(gòu)域的連接肽結(jié)構(gòu)相似。GH9C成員的蛋白質(zhì)N端均有TM和SP,C端均有纖維素結(jié)合結(jié)構(gòu)域(CBM49,motif 24)。 GH9B 少部分成員具有TM。Cel基因家族少部分成員同時(shí)具有催化活性位點(diǎn)特征1和2(motif 1,motif 4)。只有特征1的大部分成員,其蛋白質(zhì)都具有RGD模塊(motif 20),推測(cè)與細(xì)胞附著有關(guān)[7-8]。 motif 23和motif 25的功能有待進(jìn)一步研究分析。motif 20、motif 21、motif 23、motif24、motif 25 屬于稀少基序,表現(xiàn)出不同亞家族特異性,說(shuō)明這些保守基序可能參與亞家族蛋白功能的形成,是決定亞家族功能的關(guān)鍵保守基序。