張嵐,程琦,梁士辰,鄧雨瀟,潘玉欣
(華北理工大學(xué)生命科學(xué)學(xué)院,河北 唐山 063210)
尿苷二磷酸葡萄糖 (Uridine diphosphate glucose,UDPG)作為反應(yīng)底物和產(chǎn)物,參與蔗糖、纖維素、糖蛋白、糖脂和碳水化合物等合成代謝過(guò)程[1]。 UDP- 葡萄糖焦磷酸化酶(UDP-glucose pyrophosphorylase, UGPase)可逆催化葡萄糖-1-磷酸與尿苷三磷酸(Uridine triphosphate)反應(yīng)形成UDPG 和焦磷酸。 在葡萄糖合成糖原過(guò)程中,UGPase 催化葡萄糖-1- 磷酸與UTP 分子合成為UDPG; 在糖原分解過(guò)程中,UGPase 催化UDPG轉(zhuǎn)化為葡萄糖-1-磷酸。
到目前為止,UGPase已經(jīng)在多種植物中被鑒定,如水稻[2]、黃芪[3]、大麥[4]、馬鈴薯[5]、香蕉[6]和陸地棉[7]等。植物通常含有UGPase-A 和UGPase-B兩類蛋白。UGPase-B 蛋白與UGPase-A 沒(méi)有同源性,但具有相同的催化功能[8]。 在大麥葉片、胚胎和胚乳中僅發(fā)現(xiàn)1 種類型的UGPase 蛋白[4],馬鈴薯中UGPase等位基因多態(tài)性導(dǎo)致cDNA 序列的微小差異[9],在擬南芥、水稻和楊樹(shù)中均發(fā)現(xiàn)有2個(gè)高度同源的UGPase-A 基因[1,10]; 在萊茵衣藻(Chlamydomonas reinhardtii) 和擬南芥中發(fā)現(xiàn)了與UGPase-A 基因具有相同催化功能的UGPase-B基因[11-12]。
棉花是世界上重要的纖維作物。 已有的研究表明UGPase基因參與纖維素的合成。 在擬南芥中過(guò)表達(dá)陸地棉(Gossypium hirsutum)GhUGP基因,可導(dǎo)致轉(zhuǎn)基因擬南芥的可溶性糖、淀粉和纖維素含量增加[7]。 在黃麻中過(guò)表達(dá)CcUGPase基因, 轉(zhuǎn)基因植物的株高和纖維素含量都有所增加,但木質(zhì)素含量沒(méi)有變化[13]。棉花基因組在一億三千萬(wàn)年前經(jīng)歷了雙子葉植物共同祖先物種的1次全基因組三倍化事件,而后棉花物種又發(fā)生了獨(dú)立的全基因組五倍化事件[14-15]。 這種全基因組水平上的加倍事件增加了基因的多樣性。 而在棉花全基因組水平研究UGPase基因家族成員基因結(jié)構(gòu)、進(jìn)化特征、組織表達(dá)等未見(jiàn)報(bào)道。
本研究將在全基因組水平上鑒定亞洲棉(G.arboreum)、雷蒙德氏棉(G. raimondii)、異源四倍體陸地棉、海島棉(G.barbadense)、葡萄、榴蓮、可可等19 種植物中的UGPase基因家族成員,從系統(tǒng)發(fā)育、基因結(jié)構(gòu)、選擇壓力、表達(dá)特性等多方面進(jìn)行比較分析,以推斷其進(jìn)化規(guī)律,為深入研究棉花UGPase基因的功能奠定基礎(chǔ)。
在SGD(https://www.yeastgenome.org/)數(shù)據(jù)庫(kù)中下載1 個(gè)酵母UGPase基因。 從TAIR(https://www.arabidopsis.org/)下載得到3 個(gè)擬南芥UGPase基 因(AT3G56040.1、AT3G03250.1、AT5G17310.2)序列。 二倍體的亞洲棉、雷蒙德氏棉,四倍體的陸地棉、 海島棉全基因組序列數(shù)據(jù)來(lái)源于Cotton-FGD((https://cottonfgd.org/)[16]。 4 種雙子葉植物葡萄(Vitis vinifera)、可可(Theobroma cacao)、楊樹(shù)(Populus trichocarpa)、榴 蓮(Durio zibethinusMurr.),單子葉植物水稻(Oryza sativa),基部被子植物無(wú)油樟 (Amborella trichopoda),5 種藻類萊茵衣藻、綠色鞭毛藻(Ostreococcus lucimarinus)、膠球藻(Coccomyxa subellipsoidea)、團(tuán)藻(Volvox carteri)和細(xì)小微胞藻(Micromonas pusilla),小立碗蘚(Physcomitrella patens)以及卷柏(Selaginella moellendorffii)的全基因組序列數(shù)據(jù)下載自Phytozome 網(wǎng)站(https://phytozome.jgi.doe.gov/pz/portal.html)。
以擬南芥UGPase 蛋白質(zhì)序列為種子序列,通過(guò)本地blastp[17]對(duì)上述所有物種基因組數(shù)據(jù)進(jìn)行全基因組檢索,設(shè)置E值≤1e-5,氨基酸序列一致性≥40%,打分≥100,初步獲取各物種基因組中UGPase候選基因。 然后通過(guò)Pfam 網(wǎng)站(https://pfam.xfam.org,v32.0)[18]預(yù)測(cè)候選基因的結(jié)構(gòu)域,具有UGPase 結(jié)構(gòu)域(PF01704)的即為UGPase基因家族成員。 在ExPASy(https://www.expasy.org/) 對(duì)棉花UGPase 蛋白的理化性質(zhì)進(jìn)行預(yù)測(cè)。
利用MEGA X[19]軟件對(duì)UGPase基因家族成員進(jìn)行多序列比對(duì)與進(jìn)化樹(shù)構(gòu)建,采用最大似然法(Maximum likelihood,ML)和JTT+G(Jones-Taylor-Thornton+Gamma-Distributed rates)模型,bootstrap 值設(shè)為1 000。
根據(jù)各基因組基因位置文件,利用數(shù)據(jù)處理工具TBtools[20]繪制基因結(jié)構(gòu);利用序列分析工具M(jìn)EME[21](http://meme-suite.org/, v5.1)分 析 上 述19 個(gè)物種的UGPase 蛋白中的保守基序。 參數(shù)設(shè)置:基序最大發(fā)現(xiàn)數(shù)量為25,基序最大長(zhǎng)度為50 nt(Nucleotide,核苷酸)。
利用蛋白序列同源性分析工具OrthoMCL[22]。(參數(shù)設(shè)置:E值≤1e-5、 一致性≥50%、 膨脹系數(shù)>1.5)鑒定亞洲棉、雷蒙德氏棉、陸地棉、海島棉、葡萄、可可和榴蓮基因組中的直系同源和旁系同源UGPase基因,并利用Circos[23]軟件繪制基因同源關(guān)系圖。
利用Perl 語(yǔ)言編寫(xiě)程序, 計(jì)算棉花UGPase基因家族成員同源基因?qū)﹂g的同義替換率Ks值,并利用Circos[23]軟件圖形化展示基因間的Ks值。
使用EasyCodeML[24]軟件位點(diǎn)模型方法對(duì)UGPase基因進(jìn)行選擇壓力分析。ω表示Ka/Ks,ω>1 表示進(jìn)化中主要受正選擇影響,ω<1 表示進(jìn)化中主要受負(fù)選擇影響,ω=1 表示進(jìn)化中主要受中性選擇影響。
從CottonFGD 網(wǎng)站下載陸地棉UGPase基因表達(dá)數(shù)據(jù), 基因表達(dá)量的衡量指標(biāo)為RPKM(Reads per kilobases per million reads, 每百萬(wàn)片段中來(lái)自某基因每千堿基長(zhǎng)度的片段數(shù)),用TBtools 繪制基因表達(dá)熱圖。分析UGPase基因在胚珠發(fā)育的10 個(gè)時(shí)期〔-3 DPA(day post anthesis, 開(kāi) 花 后 天 數(shù))、-1 DPA、0 DPA、1 DPA、3 DPA、5 DPA、10 DPA、20 DPA、25 DPA、35 DPA〕和纖維發(fā)育的4 個(gè)時(shí)期(5、10、20、25 DPA),及在根、莖、葉、花托、花瓣、雄蕊、雌蕊、副萼的表達(dá)量。
對(duì)4 個(gè)棉種和其他15 個(gè)代表物種進(jìn)行蛋白序列比對(duì)初篩和特征結(jié)構(gòu)域復(fù)篩, 鑒定出79 個(gè)UGPase基因。 其中來(lái)自雷德蒙氏棉的最多(13個(gè));其次為海島棉(12 個(gè));然后依次為單子葉植物水稻(11 個(gè))、陸地棉(9 個(gè))、亞洲棉和小立碗蘚(各4 個(gè));其余低等植物和酵母中UPGase基因數(shù)目為1~3(圖1 和附表1)。 除雷蒙德氏棉和釀酒酵母外, 其余物種中均含有UGPase-B 類基因。綠色鞭毛藻和細(xì)小微胞藻不含UGPase-A 類基因,其余物種均含有UGPase-A 類基因。 總體上各物種中UGPase-A 類基因多于UGPase-B類,且UGPase-A 類基因隨著物種進(jìn)化發(fā)生了明顯的基因擴(kuò)張。
同源性分析表明UGPase-A 類蛋白和UGPase-B 類蛋白同源性極低, 因此對(duì)上述19 個(gè)物種的UGPase-A 蛋白和UGPase-B 蛋白分別構(gòu)建系統(tǒng)進(jìn)化樹(shù)(圖2)。 UGPase-A 類蛋白分為4 組,棉花UGPase-A 類蛋白分布在A1、A2 和A3 亞組,其中A1 亞組只有棉花UGPase 蛋白,A2 亞組成員來(lái)自棉花、可可、葡萄和榴蓮4 個(gè)物種,A3 亞組成員來(lái)自棉花和無(wú)油樟,A4 亞組成員來(lái)自9 個(gè)物種。這說(shuō)明棉花UGPase-A 基因可能在結(jié)構(gòu)或功能上發(fā)生了分化。所有UGPase-B 類基因聚在一起(B 組),表明棉花UGPase-B 類基因并沒(méi)有表現(xiàn)出明顯的分化。
對(duì)比葡萄基因組進(jìn)化過(guò)程,棉花基因組又經(jīng)歷1 次五倍化過(guò)程(圖1),因此葡萄基因組中的單個(gè)基因, 在棉花基因組中應(yīng)該有5 個(gè)對(duì)應(yīng)基因。但葡萄和棉花都僅有1 個(gè)UGPase-B 基因,說(shuō)明棉花中丟失了約80%的UGPase-B 基因, 在其他物種基因組中也存在類似的丟失現(xiàn)象 (圖2B)。這與文獻(xiàn)報(bào)道一致,在棉花全基因組加倍事件中發(fā)生大量的基因丟失、 染色體重排現(xiàn)象,有約70%基因丟失[15]。
為探究UGPase家族基因的起源和進(jìn)化模式,用MEME 程序檢測(cè)了25 個(gè)基序(圖3)。結(jié)果表明UGPase-A 蛋白和UGPase-B 蛋白幾乎沒(méi)有同源性,兩者僅共有基序11 和基序23,且只存在于部分蛋白中?;?1 只存在于A3 亞組的棉花UGPase-A 中, 而在所有UGPase-B 蛋白中都存在?;?3 存在于所有高等植物的UGPase-A 蛋白, 以及雙子葉植物可可、 榴蓮、 棉花的UGPase-B 蛋白。 這些結(jié)果表明,在單雙子葉植物分化后,UGPase 蛋白功能發(fā)生了一定的變化。 值得注意的是, 基序11 和基序23 在UGPase-A 和UGPase-B 中位置不同, 而且共有的基序11 存在于不同的特征結(jié)構(gòu)域中。 在UGPase-A 蛋白中,基序11 和基序25 構(gòu)成Ribosomal_S2 結(jié)構(gòu)域,且Ribosomal_S2 結(jié)構(gòu)域僅在A3 亞組的棉花UGPase 中檢測(cè)到, 因此Ribosomal_S2 并不是這些蛋白的主要結(jié)構(gòu)域。 但在UGPase-B 蛋白中,基序11 與基序14、基序13、基序16 和基序21 則構(gòu)成UGPase-B 蛋白的重要結(jié)構(gòu)域。
比較A1、A2、A3 和A4 四個(gè)亞組發(fā)現(xiàn),棉花UGPase-A 蛋白在進(jìn)化過(guò)程中存在基序丟失現(xiàn)象。 在A1 亞組中,棉花UGPase-A 蛋白僅保留基序4;在A2 亞組中,棉花GbD07G02825 僅保留基序20;在A3 亞組中,有3 個(gè)棉花UGPase-A 蛋白只有基序9。 上述3 個(gè)亞組中的棉花基因均來(lái)自棉花D 基因組,說(shuō)明棉花D 基因組的UGPase基序丟失現(xiàn)象比較嚴(yán)重。
對(duì)棉花和其他15 個(gè)物種的基因結(jié)構(gòu)分析顯示,低等植物中UGPase-A 基因的外顯子較長(zhǎng);高等植物中UGPase-A 類基因的外顯子較短。 含有Ribosomal_S2 結(jié)構(gòu)域的蛋白中,其基因5'端外顯子較長(zhǎng)。UGPase-B 類基因5'端外顯子普遍較長(zhǎng)。無(wú)油樟和雙子葉植物UGPase-B 類基因均存在較長(zhǎng)的內(nèi)含子。
綜上,UGPase-B 類基因比較保守。 在單子葉、雙子葉植物進(jìn)化分離后,UGPase-A 類基因結(jié)構(gòu)差異較大。 棉花UGPase-A 類基因可能發(fā)生了結(jié)構(gòu)或功能上的分化,這與系統(tǒng)進(jìn)化分析中得到的結(jié)論一致。
同源基因分為直系同源基因和旁系同源基因。 直系同源基因是指2 個(gè)物種中來(lái)源于共同祖先的同源基因,旁系同源則是基因復(fù)制產(chǎn)生的同源基因。 為了解棉花UGPase家族基因的同源進(jìn)化問(wèn)題,引入葡萄、可可和榴蓮作為參考物種進(jìn)行分析。 在葡萄和可可中未檢測(cè)到UGPase旁系同源基因,在榴蓮中發(fā)現(xiàn)1 對(duì)旁系同源基因。 在榴蓮和可可間有3 對(duì)同源基因,在榴蓮和陸地棉間有1 對(duì)直系同源基因。 棉花中的同源基因?qū)^多,包括32 對(duì)直系同源基因和12 對(duì)旁系同源基因(圖4)。 由此推斷棉花中UGPase基因主要由共同祖先基因組加倍產(chǎn)生。
Ks是基因的同義置換率,反映了基因的分歧時(shí)間。 棉花A 和D 基因祖先分歧時(shí)間對(duì)應(yīng)的Ks值為0.032, 異源四倍體棉花形成時(shí)間對(duì)應(yīng)的Ks值為0.007~0.009, 陸地棉和海島棉分歧時(shí)間對(duì)應(yīng)的Ks值為0.003(480 萬(wàn)年前)[25]。 因此,按棉花各祖先基因組形成時(shí)間和各物種的分歧時(shí)間,可將Ks分為4 個(gè)區(qū)間0~0.003、0.003~0.009、0.009~0.032 和大于0.032。43.2%同源基因?qū)Γ?9對(duì))Ks值大于0.032,38.6%同源基因?qū)Γ?7 對(duì))Ks值處于0.009~0.032,11.4%的同源基因?qū)Γ? 對(duì))Ks值處于0~0.003,6.8%的同源基因?qū)?(3 對(duì))Ks值處于0.003~0.009。 這說(shuō)明棉花大部分UGPase基因產(chǎn)生于異源四倍體棉花形成前,也證明了棉花UGPase基因主要來(lái)源于棉花基因組的加倍。
為研究UGPase基因在棉花中是否發(fā)生了適應(yīng)性進(jìn)化, 利用EasyCodeML 程序按照A1、A2、A3 和B 四個(gè)亞組分別進(jìn)行UGPase基因的選擇壓力分析。 位點(diǎn)模型結(jié)果顯示,棉花中的UGPase基因主要受到純化選擇影響, 以同義突變?yōu)橹?。在A3 亞組UGPase基因中檢測(cè)到11 個(gè)位點(diǎn)受到顯著正選擇影響(表1),且均分布于基因的5'端。但在A1、A2 和B 亞組UGPase基因中未發(fā)現(xiàn)顯著正選擇位點(diǎn)。這表明,雖然UGPase基因在進(jìn)化中主要受到純化選擇影響, 但在A3 亞組UG Pase基因中仍有少量位點(diǎn)受到正選擇, 這些顯著位點(diǎn)可能引起UGPase基因在結(jié)構(gòu)或功能上的分化。
表1 棉花UGPase 基因選擇壓力位點(diǎn)模型檢測(cè)結(jié)果Table 1 Results of model test for selecting pressure sites in cotton UGPase genes
從棉花數(shù)據(jù)庫(kù)CottonFGD 網(wǎng)站下載陸地棉(JGI assembly)UGPase基因的轉(zhuǎn)錄組數(shù)據(jù), 包括根、莖、葉、花托、花瓣、雄蕊、雌蕊、副萼和胚珠發(fā)育的10 個(gè)時(shí)期以及纖維發(fā)育的4 個(gè)時(shí)期的表達(dá)量。 利用TBtools 軟件展示表達(dá)結(jié)果見(jiàn)圖5。 9 個(gè)陸地棉UGPase基因的表達(dá)模式和表達(dá)量有明顯的差別。 在A1 亞組中GhD11G03015 和GhA11G03147 在各發(fā)育時(shí)期和檢測(cè)的各組織中表達(dá)量都較高;GhD11G03160 和GhD04G00927在棉纖維發(fā)育的不同時(shí)期及器官中表達(dá)量都極低。 表達(dá)量極低的2 個(gè)基因編碼產(chǎn)物中僅包含基序4, 說(shuō)明UGPase 保守基序的丟失可能影響其基因的表達(dá)。 通過(guò)比較陸地棉UGPase-A 類基因和UGPase-B 類基因的表達(dá)模式,發(fā)現(xiàn)UGPase-A類在根、葉中表達(dá)量較高,同時(shí)UGPase-A 類基因在雌蕊和雄蕊中表達(dá)較高;UGPase-B 類基因在雄蕊中表達(dá)量較低,在花萼和花托中高表達(dá)。 在纖維和胚珠發(fā)育的各時(shí)期,UGPase-A 類基因表達(dá)量較UGPase-B 類基因高,UGPase-A 類基因在5 DPA 表達(dá)量最高;UGPase基因在3~25 DPA 的胚珠中表達(dá)量較高。 這暗示棉花UGPase基因,尤其是UGPase-A 類基因在棉花纖維細(xì)胞的起始和伸長(zhǎng)中起重要作用。
UGPase 是糖代謝過(guò)程中的一類重要酶,在植物的生長(zhǎng)發(fā)育過(guò)程中起重要作用[26]。 而目前植物中鑒定該類基因的研究較少[27]。 本研究在亞洲棉、雷蒙德氏棉、陸地棉以及海島棉中分別鑒定出4、13、9 和12 個(gè)UGPase基因,在葡萄、可可和榴蓮中分別鑒定出2、2 和3 種UGPase基因。 基因數(shù)目上的差異表明棉花中的UGPase基因家族成員與其它3 種雙子葉植物相比,有較為明顯的擴(kuò)增。
UGPase 分為UGPase-A 與UGPase-B 兩類,2類蛋白結(jié)構(gòu)差異較大,各類蛋白保守性較高[26,28]。本研究中的UGPase基因結(jié)構(gòu)分析可知,棉花、擬南芥、葡萄等植物含有2 類UGPase 蛋白,且不同植物間同類UGPase 結(jié)構(gòu)保守性較高。 棉花UGPase-A 類基因分布在A1、A2、A3 亞組中,而水稻UGPase-A 類基因全部聚在A4 亞組, 暗示UGPase基因在單雙子葉植物之間存在不同的進(jìn)化軌跡。 A3 亞組UGPase-A 蛋白的氨基端包含1個(gè)特殊的含有基序11 和基序25 的結(jié)構(gòu)域,這個(gè)結(jié)構(gòu)域在其他組是不存在的。 在棉花A3 亞組發(fā)現(xiàn)11 個(gè)顯著正選擇位點(diǎn), 這些正選擇位點(diǎn)主要分布在基因5'端。 這與A3 亞組基因在5'端的新結(jié)構(gòu)域一致,說(shuō)明UGPase基因在棉花中發(fā)生了分化。 棉花與葡萄、可可、榴蓮UGPase基因的同源性分析顯示,棉花中存在較多同源基因,且大部分的棉花UGPase基因的Ks值大于0.009, 推斷棉花UGPase基因大部分來(lái)源于棉花基因組加倍事件。
UGPase存在于植物光合組織和非光合組織中,參與營(yíng)養(yǎng)生長(zhǎng)以及生殖生長(zhǎng)[26-27,29]。 擬南芥AtUGP1和AtUGP2突變體影響擬南芥生長(zhǎng)[30]。水稻中OsUpg1和OsUpg2調(diào)控花粉不育和育性轉(zhuǎn)換過(guò)程[31]。除此,在擬南芥、楊樹(shù)、番茄等多種植物中均證實(shí)UGPase 影響細(xì)胞壁成分[32-34]。UGPase基因在陸地棉中的表達(dá)分析結(jié)果顯示, 其在根、莖、葉、花、纖維、胚珠等不同器官都有表達(dá),這與文獻(xiàn)報(bào)道結(jié)果類似,GhUGP(即GhD11G03015)在擬南芥中的過(guò)表達(dá)試驗(yàn)證實(shí),UGPase基因參與調(diào)控葡萄糖向葡萄糖-1- 磷酸的轉(zhuǎn)化,GhUGP的表達(dá)對(duì)擬南芥莖中纖維素含量增加有促進(jìn)作用[7]。 表達(dá)量較高的GhD11G03015、GhA11G03147和較低的GhD11G03160、GhD04G00927 都屬于A1 亞組,推測(cè)保守基序的改變及丟失可能影響該類基因的表達(dá)。 UGPase-B 類基因在雄蕊中表達(dá)量高,這揭示了2 類基因功能上的差異。
在全基因組水平上鑒定了亞洲棉、雷蒙德氏棉、陸地棉和海島棉等19 種植物中的UGPase基因家族成員。UGPase基因包含UGPase-A 和UGPase-B 兩個(gè)類型。 隨著棉花的全基因組加倍,棉花UGPase-A 類基因發(fā)生了明顯的基因擴(kuò)張,且在結(jié)構(gòu)和功能上發(fā)生分化; 棉花UGPase-B 類基因在進(jìn)化上十分保守。 同源性分析顯示,棉花UGPase基因主要來(lái)源于棉花四倍體形成前的基因組加倍。 表達(dá)分析顯示,UGPase基因尤其是UGPase-A 類基因在棉花纖維細(xì)胞的生長(zhǎng)發(fā)育中起重要作用。 棉花UGPase基因家族鑒定及進(jìn)化分析為深入了解UGPase基因功能奠定了基礎(chǔ)。
附表:
附表詳細(xì)內(nèi)容參見(jiàn)https://journal.cricaas.com.cn
附表1 棉花UGPase 蛋白的理化性質(zhì)
Table S1 The physicochemical properities of UGPase proteins in cotton