周光怡,李魁印,,李志友,姚茂星,王 睿,陳薇薇,吳傳喜,任明見(jiàn),2
(1.貴州大學(xué),貴陽(yáng) 550025;2.國(guó)家小麥改良中心貴州分中心, 貴陽(yáng) 550025;3.安順學(xué)院農(nóng)學(xué)院, 貴州 安順 561000;4.桐梓縣貴粱農(nóng)業(yè)發(fā)展有限責(zé)任公司, 貴州 遵義 563200)
高粱[Sorghumbicolor(L.) Moench]是世界第五大糧食作物,僅次于玉米、小麥、水稻和大麥。籽粒高粱按總淀粉的含量以及支鏈淀粉所占的比例可分為粳高粱和糯高粱,支鏈淀粉占比高的糯高粱是貴州醬香型白酒的主要釀酒原料之一,總淀粉含量與支鏈淀粉所占比例對(duì)醬香型白酒的風(fēng)味、品質(zhì)有著決定性作用[1]。淀粉以淀粉粒的形式存在于胚乳中,是禾谷類(lèi)作物產(chǎn)量、品質(zhì)形成的重要組分[2-3]。淀粉的生物合成包括兩種形式,一種是在光合組織葉綠體中進(jìn)行瞬時(shí)淀粉的合成,另一種是在造粉體中完成貯藏淀粉的合成[4]。
Cao H等[5]根據(jù)淀粉合成酶基因的保守序列進(jìn)行分類(lèi),認(rèn)為禾谷類(lèi)作物胚乳中至少含有5種SS同工酶,即GBSS、SSⅠ、SSⅡ、SSⅢ和SSⅣ,根據(jù)理化性質(zhì)可分為顆粒結(jié)合型淀粉合成酶(Granule-bound starch synthase,GBSS)和可溶性淀粉合成酶(Soluble starch synthase,SSS)兩類(lèi)。李祥棟等[2]研究發(fā)現(xiàn),GBSS基因直接參與胚乳中直鏈淀粉的生物合成途徑。此外,淀粉的生物合成代謝還需要多種酶及其同工酶的相互調(diào)控,主要包括二磷酸腺苷葡萄糖焦磷酸化酶(ADP-glucose pyrophosphorylase,AGPase)、淀粉分支酶(Starch branching enzyme,SBE)、淀粉去分支酶(Starch debranching enzyme,DBE)和質(zhì)體淀粉磷酸化酶(Plastidial starch phosphorylase,Pho)等[6]。
前人在水稻、玉米、谷子等物種中都鑒定出淀粉合成酶基因家族,并對(duì)其進(jìn)行詳細(xì)報(bào)道,但對(duì)高粱淀粉合成酶基因家族的相關(guān)研究較少。本研究通過(guò)生物信息學(xué)方法,對(duì)高粱淀粉合成酶基因家族的理化性質(zhì)、系統(tǒng)進(jìn)化樹(shù)、蛋白結(jié)構(gòu)和順式作用元件等方面進(jìn)行研究,并通過(guò)轉(zhuǎn)錄組數(shù)據(jù)對(duì)該家族基因進(jìn)行表達(dá)模式分析,為高粱淀粉合成酶分子水平上的進(jìn)一步研究和貴州酒用糯高粱的分子選擇育種提供一定的參考依據(jù)。
以水稻和玉米的淀粉合成酶家族基因序列作為參考,在NCBI(https://www.ncbi.nlm.nih.gov/)和Phytozome(https://phytozome-next.jgi.doe.gov/)兩個(gè)數(shù)據(jù)庫(kù)進(jìn)行BlastP比對(duì)[7],根據(jù)NCBI的注釋功能篩選出11個(gè)高粱淀粉合成酶基因家族成員。
將蛋白序列提交至在線蛋白質(zhì)分析網(wǎng)站ExPASy(https://web.expasy.org/protparam/),對(duì)該基因家族做蛋白長(zhǎng)度、分子量、等電點(diǎn)、不穩(wěn)定系數(shù)、脂溶系數(shù)以及蛋白親疏水性的預(yù)測(cè)[8],采用Softberry分析軟件(http://www.softberry.com/)對(duì)11個(gè)基因進(jìn)行亞細(xì)胞定位。
利用MAGA 11軟件對(duì)高粱淀粉合成酶家族基因的蛋白序列進(jìn)行Clustal W比對(duì)[9],將比對(duì)結(jié)果采用最大似然法(Maximum likelihood,ML)構(gòu)建系統(tǒng)進(jìn)化樹(shù),通過(guò)1 000次校驗(yàn)來(lái)增加分析的可靠性,進(jìn)行系統(tǒng)進(jìn)化樹(shù)分析,導(dǎo)出NWK文件,用在線進(jìn)化樹(shù)美化軟件EVOLVIEW(https://www.evolgenius.info/evolview-v 2)對(duì)進(jìn)化樹(shù)進(jìn)行美化[10]。
根據(jù)已比對(duì)篩選出的高粱淀粉合成酶家族的基因號(hào)和基因組注釋文件,找到該家族成員的染色體位點(diǎn),并利用在線繪圖軟件MG 2 C(http://mg2c.iask.in/mg2c_v2.1/)繪制高粱淀粉合成酶家族基因的染色體分布圖[11]。
利用SOPMA(https://npsa-prabi.ibcp.fr/)對(duì)高粱淀粉合成酶基因家族蛋白質(zhì)的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)分析[12];提交家族基因的蛋白序列至蛋白質(zhì)三級(jí)結(jié)構(gòu)在線預(yù)測(cè)網(wǎng)站SwissModel(https://swissmodel.expasy.org/interactive)構(gòu)建模型[13],對(duì)SOPMA預(yù)測(cè)的二級(jí)結(jié)構(gòu)的準(zhǔn)確性進(jìn)行檢驗(yàn)。
利用GSDS 2.0在線分析網(wǎng)站(http://gsds.gao-lab.org/)繪制基因結(jié)構(gòu)圖[14];利用在線工具M(jìn)EME(https://meme-suite.org/meme/org)對(duì)高粱淀粉合成酶基因家族保守基序進(jìn)行分析[15],設(shè)置motif數(shù)為8,其余為默認(rèn)參數(shù)。
利用TBtools軟件提取起始密碼子上游2 000 bp的基因序列[16],上傳至PlantCARE數(shù)據(jù)庫(kù)(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/),進(jìn)行啟動(dòng)子順式作用元件分析[17],在TBtools軟件進(jìn)行可視化繪圖。
通過(guò)ArrayExpress數(shù)據(jù)庫(kù)[18](https://www.ebi.ac.uk/arrayexpress/)查詢(xún)已公布的高粱轉(zhuǎn)錄組數(shù)據(jù),分析了Wang B等[19]在Btx 623不同發(fā)育階段取樣的轉(zhuǎn)錄組數(shù)據(jù)(數(shù)據(jù)代碼:E-MTAB-5956),包括萌發(fā)后14 d的根、莖、葉和幼苗,授粉后20 d的胚、胚乳和果實(shí),9~10周階段的花粉和3種不同長(zhǎng)度的花序時(shí)期。數(shù)據(jù)整理后用在線繪圖工具BioLadder(https://www.bioladder.cn/)繪制表達(dá)模式熱圖。
為全面了解高粱淀粉合成酶的進(jìn)化歷程及其在高粱淀粉合成中的重要性,為高粱淀粉合成酶基因家族進(jìn)行全面分析。以水稻和玉米淀粉合成酶基因家族為參考,經(jīng)過(guò)對(duì)比與篩選,在高粱上遴選出11個(gè)淀粉合成酶基因,參考水稻淀粉合成酶基因家族名稱(chēng)及NCBI上對(duì)應(yīng)基因的描述,發(fā)現(xiàn)高粱該家族中除了SSⅠ和SSⅤ沒(méi)有同工酶外,GBSS、SSⅢ和SSⅣ都有兩種同工酶,SSⅡ有三種同工酶,家族成員基因命名及基因基本信息如表1所示。
表1 高粱淀粉合成酶基因家族基本信息Table 1 Information of sorghum starch synthase gene family
對(duì)以上11個(gè)淀粉合成酶家族基因所編碼的蛋白進(jìn)行理化性質(zhì)分析,結(jié)果(表2)表明,氨基酸殘基數(shù)目在607(SbGBSSⅡ)~1 680(SbSSⅢa)之間,分子量在66 073.95(SbGBSSⅠ)~190 017.22(SbSSⅢa)之間,可見(jiàn)顆粒結(jié)合型淀粉合成酶(SbGBSSⅠ、SbGBSSⅡ)的序列長(zhǎng)度與分子量明顯小于可溶性淀粉合成酶(SbSSⅠ~SbSSⅤ)。在可溶性淀粉合成酶中,SbSSⅢ兩個(gè)基因編碼的蛋白(XP_021320945.1和XP_021318466.1)長(zhǎng)度和分子量都顯著大于其他9個(gè)基因。家族基因的蛋白質(zhì)等電點(diǎn)介于5.01(SbSSⅢa)和6.37(SbGBSSⅠ)之間,說(shuō)明高粱淀粉合成酶基因家族所編碼的蛋白均為酸性蛋白;蛋白不穩(wěn)定系數(shù)在29.02(SbGBSSⅡ)~53.58(SbSSⅢa)之間,除GBSS和SSⅠ兩個(gè)亞家族中的三個(gè)蛋白(SbGBSSⅠ、SbGBSSⅡ、SbSSⅠ)為穩(wěn)定蛋白外,其余的8個(gè)蛋白不穩(wěn)定系數(shù)均大于40,蛋白穩(wěn)定性較差;基因家族蛋白的脂溶系數(shù)在73.21(SbSSⅢb)~91.01(SbSSⅤ)之間,親水系數(shù)平均值均小于0,表明高粱淀粉合成酶基因家族蛋白為親水蛋白,且流動(dòng)性較好。對(duì)已知的高粱淀粉合成酶基因家族成員進(jìn)行亞細(xì)胞定位,結(jié)果表明,SbGBSS Ⅰ、SbGBSS Ⅱ、SbSS Ⅲ a、SbSS Ⅲ b和SbSS Ⅳ a等5個(gè)蛋白定位在細(xì)胞外,SbSS Ⅰ、SbSS Ⅱ a、SbSS Ⅱ b、SbSSⅡc、SbSSⅣb和SbSSⅤ等6個(gè)蛋白定位在葉綠體上。
表2 高粱淀粉合成酶蛋白質(zhì)理化性質(zhì)Table 2 Physicochemical properties of sorghum starch synthase protein
為了探究高粱淀粉合成酶基因家族的進(jìn)化關(guān)系,對(duì)部分單子葉禾本科植物和雙子葉模式植物的淀粉合成酶家族基因進(jìn)行聚類(lèi)分析,包括9個(gè)玉米淀粉合成酶基因、11個(gè)水稻淀粉合成酶基因、9個(gè)谷子淀粉合成酶基因和6個(gè)擬南芥淀粉合成酶基因。各物種間的淀粉合成酶的進(jìn)化關(guān)系如圖1所示,46個(gè)不同物種的淀粉合成酶基因被劃分為5個(gè)分支,各同工酶間相互存在同源性,其中,GBSSⅠ與GBSSⅡ、SSⅣ與SSⅤ的進(jìn)化距離較近,基因都可以聚類(lèi)同一分支;再者,ZmGBSSⅠ與SbGBSSⅠ、ZmGBSSⅡ與SbGBSSⅡ、SiSSⅡa與SbSSⅡa、ZmSSⅡb與SbSSⅡb、ZmSSⅡc與SbSSⅡc、ZmSSⅢa與SbSSⅢa、ZmSSⅢb與SbSSⅢb、OsSSⅣb與SbSSⅣb互為直系同源基因,可以看出,玉米與高粱的淀粉合成酶基因在進(jìn)化過(guò)程中的同源關(guān)系最近,其次是谷子和水稻,而擬南芥與單子葉植物的淀粉合成酶家族基因之間的進(jìn)化距離較遠(yuǎn)。
圖1 淀粉合成酶基因家族的系統(tǒng)進(jìn)化樹(shù)分析Fig.1 Phylogenetic tree analysis of the starch synthase gene family
圖2 高粱淀粉合成酶基因的染色體分布Fig.2 Chromosome distribution of sorghum starch synthase gene
通過(guò)對(duì)高粱淀粉合成酶11個(gè)基因進(jìn)行染色體定位分析,發(fā)現(xiàn)各基因并未均勻分布在高粱的10條染色體上,在Chr 3、Chr 5、Chr 8染色體上均未見(jiàn)該基因家族成員基因的分布,在其余7條染色體中分布也不均勻(圖2),在Chr 4、Chr 10染色體上各分布3個(gè)基因,Chr 1、Chr 2、Chr 6、Chr 7和Chr 9染色體上各分布1個(gè)基因。該家族基因均分布在各染色體的兩端,各同工酶基因并沒(méi)有映射到同一條染色體上,而是散布在各染色體中。
2.5 高粱淀粉合成酶基因家族蛋白二
級(jí)結(jié)構(gòu)分析及三級(jí)結(jié)構(gòu)預(yù)測(cè)
高粱淀粉合成酶基因家族蛋白的二級(jí)結(jié)構(gòu)以α-螺旋和無(wú)規(guī)則卷曲為主,二者在各蛋白質(zhì)中所占核苷酸數(shù)量均大于70%,延伸鏈與β-轉(zhuǎn)角占比較少(表3),可知高粱淀粉合成酶基因家族蛋白是由α-螺旋和無(wú)規(guī)則卷曲支撐,而延伸鏈和β-轉(zhuǎn)角則散布在整個(gè)蛋白中。
利用在線網(wǎng)站SwissModel對(duì)基因蛋白模型進(jìn)行預(yù)測(cè),圖3為高粱淀粉合成酶基因家族的蛋白三級(jí)結(jié)構(gòu)預(yù)測(cè)結(jié)果,可以直觀地看出,11個(gè)蛋白均以α-螺旋和無(wú)規(guī)則卷曲為主要結(jié)構(gòu)元件,與其二級(jí)結(jié)構(gòu)結(jié)果吻合。家族中11個(gè)蛋白的結(jié)構(gòu)相似,SSⅠ、SSⅡ中4個(gè)基因的蛋白三級(jí)結(jié)構(gòu)相似度較高,GBSS、SSⅢ、SSⅣ和SSⅤ中的7個(gè)基因的蛋白三級(jí)結(jié)構(gòu)相似度較高。
圖3 高粱淀粉合成酶基因蛋白三級(jí)結(jié)構(gòu)預(yù)測(cè)Fig.3 Prediction of protein tertiary structure of sorghum starch synthase gene
圖4 高粱淀粉合成酶基因結(jié)構(gòu)Fig.4 Gene structure of sorghum starch synthase
表3 高粱淀粉合成酶基因蛋白二級(jí)結(jié)構(gòu)預(yù)測(cè)Table 3 Prediction of protein secondary structure of sorghum starch synthase gene
高粱淀粉合成酶基因家族的基因結(jié)構(gòu)如圖4所示,除了SbSSⅡc沒(méi)有下游非編碼區(qū),其余每個(gè)基因均有長(zhǎng)短不一的上下游非編碼區(qū)。CDS(Coding sequence)是指可以被翻譯成蛋白質(zhì)的編碼序列區(qū)域,即外顯子;Intorn是編碼區(qū)域間沒(méi)有編碼作用的序列,即內(nèi)含子。大部分基因的外顯子數(shù)目在8~19個(gè)之間,SbGBSS、SbSSⅡ和SbSSⅢ中的基因成員分別有13、8個(gè)和16個(gè)外顯子,可以看出各同工酶基因在外顯子數(shù)目、長(zhǎng)度和分布位置上在一定程度相似。
圖5 高粱淀粉合成酶家族保守基序Fig.5 Conserved motifs of sorghum starch synthase family
對(duì)高粱淀粉合成酶家族基因的蛋白質(zhì)序列進(jìn)行保守基序分析(圖5),結(jié)果顯示,高粱淀粉合成酶基因家族共有8種保守基序,保守基序的氨基酸殘基數(shù)在29~40之間。其中4個(gè)保守基序(motif 1、motif 2、motif 5和motif 8)在11個(gè)基因成員蛋白質(zhì)序列中都有分布,motif 4分布在GBSS、SSⅠ和SSⅡ中,motif 7分布在SSⅢ、SSⅣ和SSⅤ中,motif 6在除GBSS外的其他基因中都有分布,motif 3在除SbSSⅣa和SbSSⅤ外的基因中都有分布。從motif的分布位置來(lái)看,高粱淀粉合成酶的基序特征與系統(tǒng)進(jìn)化樹(shù)分析結(jié)果吻合,各同工酶間motif位置分布情況幾乎一致。
圖6 高粱淀粉合成酶啟動(dòng)子順式作用元件Fig.6 Sorghum starch synthase promoter cis-acting element
為更好地探索高粱淀粉合成酶基因調(diào)控表達(dá),提取高粱淀粉合成酶基因家族起始密碼子上游2 000 bp的序列,對(duì)這部分序列進(jìn)行順式作用元件分析,發(fā)現(xiàn)該區(qū)域存在35種順式元件,主要分為三類(lèi),包括光響應(yīng)元件、激素響應(yīng)元件和脅迫響應(yīng)元件,如圖6所示。在SbGBSSⅡ和SbSSⅢa的啟動(dòng)子區(qū)域發(fā)現(xiàn)與淀粉合成直接相關(guān)的順式調(diào)節(jié)元件GCN 4_motif,在SbSSⅢa發(fā)現(xiàn)參與晝夜節(jié)律控制的順式調(diào)節(jié)元件circadian;光響應(yīng)元件在高粱淀粉合成酶基因家族中廣泛分布,SbSSⅡc存在26個(gè)光響應(yīng)元件,SbSSⅣb只有6個(gè)。家族中還存在一定數(shù)量的激素響應(yīng)元件,包括參與脫落酸反應(yīng)的順式作用元件ABRE、調(diào)控赤霉素反應(yīng)元件P-box和GARE-motif、調(diào)控生長(zhǎng)素反應(yīng)元件TGA-element等,另外在可溶性淀粉合成酶SSI~SSIV中都發(fā)現(xiàn)了參與低溫反應(yīng)的順式作用元件LTR,但在顆粒型淀粉合成酶GBSS兩個(gè)基因中并未發(fā)現(xiàn)該元件。
在高粱不同發(fā)育階段的轉(zhuǎn)錄組數(shù)據(jù)中篩選出淀粉合成酶基因家族的基因表達(dá)數(shù)據(jù),并繪制熱圖進(jìn)行分析,該家族基因在高粱不同發(fā)育階段中都有表達(dá),但FPKM值差異較大。如圖7所示,SbGBSSⅠ、SbSSⅡc和SbSSⅠ在授粉20 d的胚、胚乳和果實(shí)中高表達(dá),其中SbGBSSⅠ在胚乳中的FPKM值最大,平均為1 579.2;SbSSⅠ、SbGBSSⅡ和SbSSⅢb在開(kāi)花14 d的根、莖、葉和幼苗中高表達(dá),其中在葉片中的FPKM值最大;SbSSⅠ、SbGBSSⅡ、SbSSⅢb在花序展開(kāi)的三個(gè)時(shí)期高表達(dá),SbSSⅡc和SbSSⅣa兩個(gè)基因在不同時(shí)期不同部位的FPKM值都較低。
圖7 高粱淀粉合成酶基因表達(dá)熱圖Fig.7 Heat map of sorghum starch synthase gene expression
對(duì)高粱基因組進(jìn)行對(duì)比、篩選,鑒定出了11個(gè)高粱淀粉合成酶基因家族成員,與玉米[20]、水稻[21]、谷子[22]、莧菜[23]等植物的鑒定結(jié)果一致。通過(guò)對(duì)高粱淀粉合成酶基因家族理化性質(zhì)的分析,發(fā)現(xiàn)11個(gè)高粱淀粉合成酶基因家族所編碼的蛋白均為酸性蛋白,且均是親水性蛋白,整體穩(wěn)定性較差,但流動(dòng)性較好。對(duì)高粱、玉米、水稻、谷子和擬南芥的淀粉合成酶基因進(jìn)行系統(tǒng)進(jìn)化樹(shù)分析,發(fā)現(xiàn)以上5個(gè)物種的同工酶可以聚類(lèi)在一起,說(shuō)明植物淀粉合成酶基因在進(jìn)化過(guò)程中高度保守。其次,進(jìn)化樹(shù)聚類(lèi)分成兩個(gè)分支,一個(gè)分支包括GBSS、SSⅢ、SSⅣ和SSⅤ,另一個(gè)分支包括SSⅠ和SSⅡ,推測(cè)淀粉合成酶家族基因可能是來(lái)自于2個(gè)祖先基因。高粱淀粉合成酶基因家族與玉米的親緣關(guān)系最近,谷子次之,而擬南芥與單子葉植物淀粉合成酶家族成員間的進(jìn)化距離較遠(yuǎn),推測(cè)淀粉合成酶在植物進(jìn)化過(guò)程中的某一時(shí)期出現(xiàn)了單雙子葉之分。
蛋白質(zhì)復(fù)雜的組成和結(jié)構(gòu)是其多樣性生物學(xué)功能的基礎(chǔ),不同蛋白結(jié)構(gòu)決定著高粱淀粉合成酶功能的多樣性[24]。對(duì)家族成員的蛋白二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)進(jìn)行了預(yù)測(cè)和分析,結(jié)果都與系統(tǒng)進(jìn)化樹(shù)的結(jié)果一致,通過(guò)基因結(jié)構(gòu)與motif分析,再次驗(yàn)證了各同工酶之間的進(jìn)化關(guān)系。順式作用元件本身不編碼蛋白,但它們參與基因表達(dá)的調(diào)控,對(duì)高粱淀粉合成酶家族基因啟動(dòng)子區(qū)域的順式作用元件進(jìn)行分析,發(fā)現(xiàn)該區(qū)域存在大量光響應(yīng)元件和激素響應(yīng)元件,但高粱淀粉合成酶與脫落酸之間存在的關(guān)系并不清晰,有待進(jìn)一步研究。在除顆粒結(jié)合型淀粉合成酶外的9個(gè)基因中均發(fā)現(xiàn)LTR元件(參與低溫反應(yīng)的順式作用元件),推測(cè)可溶性淀粉合成酶可能參與了高粱低溫介導(dǎo)的信號(hào)通路,在高粱耐低溫機(jī)制中起著一定的調(diào)節(jié)作用[25]。
對(duì)各基因在不同部位間的FPKM值繪制熱圖分析,發(fā)現(xiàn)高粱淀粉合成酶基因主要在葉片和胚乳中高表達(dá),這與植物淀粉合成場(chǎng)所和貯藏部位吻合。李曉兵[20]在玉米淀粉合成酶基因家族的時(shí)空表達(dá)分析中認(rèn)為,玉米淀粉合成酶基因在授粉后隨時(shí)間推移整體呈上升趨勢(shì),在葉片中的相對(duì)表達(dá)量最大。本研究結(jié)果與之相似。
淀粉合成酶在谷物胚乳淀粉生物合成過(guò)程中發(fā)揮關(guān)鍵作用,在與其他淀粉合成相關(guān)酶的相互作用下,進(jìn)而影響谷物的質(zhì)量與產(chǎn)量[6]。本研究對(duì)高粱淀粉合成酶基因家族成員的系統(tǒng)進(jìn)化樹(shù)、亞細(xì)胞定位、蛋白結(jié)構(gòu)和表達(dá)模式等進(jìn)行了較為全面的分析,以期為高粱淀粉合成酶分子水平上的進(jìn)一步研究和貴州酒用糯高粱的分子選擇育種提供一定的參考依據(jù)。