鐘 靜,吳小明,胡 穎
(1.湖北第二師范學(xué)院/植物抗癌活性物質(zhì)提純與應(yīng)用湖北省重點實驗室,湖北 武漢430205;2.武漢大學(xué)/雜交水稻國家重點實驗室,湖北 武漢 430072)
大豆FLAs蛋白理化性質(zhì)和結(jié)構(gòu)特征的生物信息學(xué)分析
鐘 靜1,2,吳小明1,胡 穎2
(1.湖北第二師范學(xué)院/植物抗癌活性物質(zhì)提純與應(yīng)用湖北省重點實驗室,湖北 武漢430205;2.武漢大學(xué)/雜交水稻國家重點實驗室,湖北 武漢 430072)
基于已公布的大豆基因組數(shù)據(jù)庫,鑒定大豆類成束阿拉伯半乳糖蛋白(fasciclin-like arabinogalactan proteins,F(xiàn)LAs)基因,并對其基本理化性質(zhì)、保守基序、功能域、系統(tǒng)發(fā)生樹、蛋白質(zhì)二級結(jié)構(gòu)等進行綜合分析。結(jié)果顯示,從大豆基因組中共鑒定出33個FLAs,其編碼的蛋白質(zhì)氨基酸長度在237~455 aa,分子質(zhì)量在25.483 0~50.578 5 ku,理論等電點在4.33~9.56。亞細胞定位分析顯示,GmFLAs均定位在質(zhì)膜上(其中GmFLA4/25也可定位在葉綠體中)。GmFLAs含有1~2個該家族的保守成束蛋白質(zhì)結(jié)構(gòu)域(fasciclin domains,F(xiàn)AS)。系統(tǒng)進化分析顯示,大豆和擬南芥FLAs的同源性不高。GmFLAs二級結(jié)構(gòu)均由α螺旋、無規(guī)則卷曲和延伸鏈等元件組成,其中,延伸鏈的比例最低,無規(guī)則卷曲比例最高。
大豆; 類成束阿拉伯半乳糖蛋白; 理化性質(zhì); 結(jié)構(gòu)特征; 生物信息學(xué)分析
類成束阿拉伯半乳糖蛋白(Fasciclin-like arabinogalactan proteins,F(xiàn)LAs)家族是阿拉伯半乳糖蛋白(arabinogalactan proteins,AGPs)家族的一個亞類[1]。FLAs廣泛分布在植物體中,并在植物生長發(fā)育的各階段中起著重要作用[2]。例如,F(xiàn)LAs功能的缺失會影響植株側(cè)根的發(fā)育、幼苗的生長,造成莖強度和彈性減弱,還能引起花粉敗育從而嚴重影響植株種子形成[3-7]。因此,對作物中FLAs基因家族進行研究,對深入了解該基因家族成員的生物學(xué)功能以及促進作物生產(chǎn)等也具有重要意義。目前,對FLAs的研究目前主要集中在模式植物擬南芥中,其作用機制可能涉及細胞壁中纖維素的分布和沉積,進而影響植物細胞壁的形成[5-6]。從水稻、小麥等農(nóng)作物中也分別鑒定出了33、34個FLAs[8-9],但對其研究并不深入。大豆是我國傳統(tǒng)的糧食和油料作物,在人們的日常膳食結(jié)構(gòu)中占有重要比重[10]。隨著大豆全基因組測序的完成,對大豆基因的分子生物學(xué)研究越來越深入[11]。但是,對大豆FLAs基因家族的研究目前尚未見報道。鑒于此,采用生物信息學(xué)的方法對大豆基因組中FLAs基因家族成員進行全面鑒定,并對其蛋白質(zhì)產(chǎn)物的基本理化性質(zhì)、系統(tǒng)進化、結(jié)構(gòu)域、亞細胞定位、二級結(jié)構(gòu)等進行綜合分析,旨在揭示大豆FLAs基因家族成員的結(jié)構(gòu)和進化特點,為該家族成員的進一步功能研究提供理論依據(jù)。
1.1 大豆FLA蛋白序列的獲取
分別從Pfam(http://pfam.sanger.ac.uk/)和Interpro(http://www.ebi.ac.uk/interpro/)數(shù)據(jù)庫中下載大豆中含有FAS結(jié)構(gòu)域的蛋白質(zhì)序列[12-13]。將獲得的序列提交到植物基因組數(shù)據(jù)庫Phytozome(https://phytozome.jgi.doe.gov/pz/portal.html)中進行比對,獲得目標(biāo)蛋白質(zhì)的全長序列[14]。從擬南芥官方網(wǎng)站TAIR(http://www.arabidopsis.org/)數(shù)據(jù)庫中下載獲得擬南芥FLAs基因和蛋白質(zhì)序列數(shù)據(jù)。
1.2 大豆FLA蛋白信號肽預(yù)測
利用SignalP 4.0(http://www.cbs.dtu.dk/services/SignalP/)在線分析大豆FLAs蛋白信號肽[15]。
1.3 大豆FLA蛋白基本理化性質(zhì)分析
利用ProtParam (http://web.expasy.org/protparam/)分析蛋白質(zhì)的主要理化性質(zhì)。利用ProtScale(http://web. expasy.org/cgi-bin/protscale/protscale.pl)軟件進行蛋白質(zhì)親水性/疏水性分析。利用Plant-mPLoc(http://www.csbio.sjtu.edu.cn/bioinf/plant-multi/)分析蛋白質(zhì)亞細胞定位。
1.4 多序列比對和系統(tǒng)進化樹的構(gòu)建
利用ClustalX 1.83和DNAMAN(http://www.lynnon.com)軟件對大豆FLA蛋白的FAS結(jié)構(gòu)域進行多序列比對。應(yīng)用多序列比對工具ClustalX 1.83對大豆和擬南芥FLAs氨基酸全序列進行比對[16]。采用MEGA 7.0軟件中的鄰接法(neighbor-joining,NJ)構(gòu)建系統(tǒng)進化樹[17]。通過隨機逐步比較的方法搜索最佳系統(tǒng)進化樹,對生成的系統(tǒng)進化樹進行Bootstrap校正。
1.5 大豆FLA蛋白基序分析
利用MEME program3(http://meme-suite.org/)軟件分析大豆FLA蛋白的motif類型和排列順序,并對相關(guān)參數(shù)進行修改,將可找到的模體最大值調(diào)整為15,其他均為默認值[18]。
1.6 大豆FLA蛋白二級結(jié)構(gòu)預(yù)測
利用NPS(http://npsa-pbil.ibcp.fr/cgi-bin/ npsa_automat.plpage=/NPSA/npsa_hnn.html)對大豆FLAs蛋白的二級結(jié)構(gòu)進行預(yù)測分析[19]。
2.1 大豆FLAs基因家族成員鑒定
將從Pfam和Interpro數(shù)據(jù)庫獲得的大豆中含有FAS結(jié)構(gòu)域的蛋白質(zhì)序列提交到Phytozome數(shù)據(jù)庫中進行比對,確定其全長序列。去除重復(fù)序列后,將剩余蛋白質(zhì)序列提交到SignalP 4.0檢測N端信號肽。并進一步手動查找蛋白質(zhì)序列中富含脯氨酸(Pro)、丙氨酸(Ala)、絲氨酸(Ser)和蘇氨酸(Thr)(PAST)的AGPs結(jié)構(gòu)域[2]。序列中含有N端信號肽、FAS結(jié)構(gòu)域和AGPs結(jié)構(gòu)域的蛋白質(zhì)被認為是FLA蛋白[8]。最終共鑒定獲得了33個大豆FLAs基因,并依據(jù)其在染色體上的位置依次命名為GmFLA1—33。
2.2 大豆FLAs基本理化性質(zhì)分析
對33個GmFLAs基因編碼蛋白質(zhì)序列基本理化性質(zhì)的分析結(jié)果見表1。大豆中各FLA蛋白氨基酸數(shù)目、分子質(zhì)量和理論等電點存在明顯差異。GmFLA30含有的氨基酸數(shù)目最少,為237個;含氨基酸數(shù)目最多的是GmFLA26和GmFLA32,均為455個。盡管GmFLAs蛋白的氨基酸數(shù)目差異較大,但是其氨基酸組成卻較為相似。GmFLAs蛋白序列中Ser、Leu和Ala比例都很高,而Cys和Trp比例都很低(表2)。GmFLAs的分子質(zhì)量在25.483 0~50.578 5 ku,理論等電點在4.33~9.56。其中,GmFLA5/6/9/10/11/12/13/14/15/16/17/18/19/21/22/23/24/27/29等19個蛋白質(zhì)的理論等電點大于7,說明這些蛋白質(zhì)屬于堿性蛋白質(zhì);其余14個GmFLAs的等電點小于7,屬于酸性蛋白質(zhì)。亞細胞定位分析顯示,所有GmFLAs都可定位在質(zhì)膜上;此外,GmFLA4和GmFLA25還可定位在葉綠體中。除GmFLA2/4/8/14/20/25/26/32外,其余25個GmFLAs的平均疏水指數(shù)均為正值,說明這些蛋白質(zhì)屬于疏水性蛋白質(zhì)。GmFLA2/3/12/17/19/21/27/31的不穩(wěn)定系數(shù)小于40,屬于不穩(wěn)定蛋白質(zhì);其余GmFLAs的不穩(wěn)定系數(shù)均大于40,屬于穩(wěn)定蛋白質(zhì)。此外,GmFLAs的脂肪族系數(shù)均大于85。
表1 大豆FLAs理化性質(zhì)分析
表2 大豆FLAs氨基酸比例 %
續(xù)表2 大豆FLAs氨基酸比例 %
2.3 大豆FLAs基因家族系統(tǒng)進化分析
為研究大豆FLAs基因家族的進化情況,利用MEGA 7.0軟件,采用鄰接法構(gòu)建了包含21個擬南芥FLAs和33個大豆FLAs蛋白的系統(tǒng)進化樹(圖1)。根據(jù)大豆和擬南芥FLAs蛋白同源關(guān)系,所有54個FLAs蛋白被聚類在5個獨立的進化分支中。分支Ⅰ中僅包括16個GmFLAs;分支Ⅱ中包括5個GmFLAs和2個AtFLAs;分支Ⅲ中包括2個GmFLAs和4個AtFLAs;分支Ⅳ中包括8個GmFLAs和6個AtFLAs;分支Ⅴ中則包括2個GmFLAs和9個AtFLAs。整體上來看,大豆和擬南芥FLAs的分布并不均勻。多數(shù)GmFLAs聚類在分支Ⅰ和Ⅳ中,而AtFLAs則多數(shù)聚類在分支Ⅳ和Ⅴ中。即使在同一分支中的GmFLAs和AtFLAs也并不呈現(xiàn)明顯的交叉分布,來源于2個物種的FLAs通常分別聚類在更小的分支中。
圖1 大豆FLAs與擬南芥FLAs蛋白的系統(tǒng)發(fā)生樹
2.4 大豆FLAs蛋白基序和FAS結(jié)構(gòu)域多序列比對分析
對33個GmFLAs保守基序的分析結(jié)果表明,GmFLAs具有15個保守基序。進一步分析保守基序的分布情況顯示,所有蛋白質(zhì)均存在不同程度的保守基序缺失,無一蛋白質(zhì)包含所有15個保守基序(圖2)。GmFLA8/20/25/26和GmFLA15/16/18/22/24含有的基序數(shù)目最多,都包含9個保守基序,但是其基序類型并不相同。除GmFLA7/30/33之外,其余30個GmFLAs蛋白中都存在基序12。此外,基序2出現(xiàn)的頻率也較高,該基序在除Gm-FLA2/7/30/33之外的29個蛋白質(zhì)中都存在。這暗示著基序2和基序12在GmFLAs家族成員中可能是十分保守的。
對GmFLAs蛋白中的FAS結(jié)構(gòu)域進行多序列比對分析,結(jié)果顯示,所有FAS結(jié)構(gòu)域都含有2個保守區(qū)H1和H2(圖3)。H1保守區(qū)的Thr(T)在所有GmFLAs蛋白中都十分保守,Thr后第6位氨基酸通常是Asp(D)或者Asn(N)。H2保守區(qū)內(nèi)富含Val(V)、 Leu(L)和Ile(I)等3種疏水氨基酸。在H1和H2之間還存在一段較為保守的[Y/F]-H序列,其中His在所有GmFLAs中都十分保守(圖3)。
2.5 大豆FLAs蛋白二級結(jié)構(gòu)分析
利用NPS程序?qū)mFLAs蛋白序列進行二級結(jié)構(gòu)分析,結(jié)果顯示,GmFLAs蛋白均由α螺旋、無規(guī)則卷曲和延伸鏈等結(jié)構(gòu)元件組成。但是3種元件的比例和分布存在明顯差異,其中,延伸鏈的比例最低,在11.99%~23.13%;無規(guī)則卷曲比例最高,在43.27%~58.15%;α螺旋的比例介于延伸鏈和無規(guī)則卷曲之間(表3)。對于大多數(shù)GmFLAs而言,α螺旋和延伸鏈比例差異在10個百分點以上。但在GmFLA6/9/10/14/17等5個蛋白質(zhì)中,其α螺旋和延伸鏈比例十分相近(表3)。
圖2 大豆FLAs的保守基序分析
FLAs可能通過影響植物細胞壁的形成,從而在植物生長發(fā)育過程中發(fā)揮重要作用。近年來,對模式植物擬南芥中FLAs基因的研究取得了一定的成績,但對很多糧食作物和經(jīng)濟作物中該基因家族的研究還不清楚。通過生物信息學(xué)的方法對FLAs進行鑒定和預(yù)測分析,對于深入研究該類基因的生物學(xué)功能具有良好的指導(dǎo)意義。
本研究中共獲得了33個大豆FLAs基因,盡管其編碼的蛋白質(zhì)產(chǎn)物中氨基酸數(shù)目差異較大,但是氨基酸組成卻較為相似。其中Ser、Leu和Ala的含量較其他氨基酸高。33個GmFLAs中,19個蛋白質(zhì)屬于堿性蛋白質(zhì),14個屬于酸性蛋白質(zhì)。并且大多數(shù)GmFLAs是疏水性穩(wěn)定蛋白質(zhì)。FLAs是一種糖蛋白,研究表明,糖蛋白中糖基側(cè)鏈能夠伸出細胞外接受胞外信號,并將信號傳遞至胞內(nèi)[2]。亞細胞定位預(yù)測結(jié)果表明,所有GmFLAs都能夠定位在質(zhì)膜上,GmFLA4和GmFLA25還可定位在葉綠體中。此結(jié)果暗示,大豆GmFLAs不僅涉及細胞外信號轉(zhuǎn)導(dǎo),在葉綠體的信息傳遞過程中可能也發(fā)揮著一定作用。
系統(tǒng)進化分析結(jié)果顯示,大豆和擬南芥的FLAs往往分別聚類在不同進化分支中。少數(shù)聚類在同一分支中的GmFLAs和AtFLAs也并不呈現(xiàn)明顯的交叉分布。此結(jié)果說明,盡管該基因家族的祖先基因可能起源于2個物種分化之前,但是在單子葉和雙子葉植物進化之后才分別進行大規(guī)模擴張。對GmFLAs蛋白的保守基序分析發(fā)現(xiàn),所有GmFLAs均存在不同程度的保守基序缺失現(xiàn)象,并且不同GmFLAs間保守基序的分布和排列模式也并不一致,這意味著其功能可能并不相同。對GmFLAs中FAS結(jié)構(gòu)域進行的多序列比對結(jié)果表明,所有FAS結(jié)構(gòu)域都包含典型的H1和H2保守區(qū)結(jié)構(gòu),而且保守區(qū)中氨基酸類型也較為一致。這些保守氨基酸可能在維持蛋白質(zhì)結(jié)構(gòu)和功能方面起著重要作用[20]。進一步的結(jié)構(gòu)預(yù)測分析結(jié)果顯示,GmFLAs蛋白二級結(jié)構(gòu)均包括α螺旋、無規(guī)則卷曲和延伸鏈等3種結(jié)構(gòu)元件。其中,無規(guī)則卷曲所占比例最高,α螺旋次之,延伸鏈比例最少。在不同GmFLAs之間,這3種結(jié)構(gòu)元件的比例也存在較大差異。以往的研究表明,含有FAS結(jié)構(gòu)域的蛋白質(zhì)通常參與細胞與細胞、細胞與基質(zhì)間的黏附作用[21],GmFLAs可能也具有類似作用。但是不同GmFLAs的保守基序和二級結(jié)構(gòu)存在明顯差異,這暗示著GmFLAs功能具有多樣性。該基因家族成員如何參與調(diào)控植物生長過程還需進一步研究。
[1] 馬浩力,余禮,梁榮洪,等.高等植物阿拉伯半乳糖蛋白的功能研究[J].中國科學(xué)(生命科學(xué)),2015,45:113-123.
[2] Ellis M,Egelund J,Schultz C,etal.Arabinogalactan-proteins:Key regulators at the cell surface[J].Plant Physiology,2010,153(2):403-419.
[3] Shi H,Kim Y,Guo Y,etal.TheArabidopsisSOS5 locus encodes a putative cell surface adhesion protein and is required for normal cell expansion[J].The Plant Cell,2003,15(1):19-32.
[4] Li J,Yu M,Geng L L,etal.The fasciclin-like arabinogalactan protein gene,FLA3,is involved in microspore development ofArabidopsis[J].The Plant Journal,2010,64(3):482-497.
[5] Macmillan C,Mansfield S,Stachurski Z,etal.Fasciclin-like arabinogalactan proteins:Specialization for stem biomechanics and cell wall architecture inArabidopsisandEucalyptus[J].The Plant Journal,2010,62(4):689-703.
[6] Johnson K,Kibble N,Bacic A,etal.A fasciclin-like arabinogalactan-protein(FLA) mutant ofArabidopsisthaliana,fla1,shows defects in shoot regeneration[J].PLoS One,2011,6(9):e25154.
[7] Seifert G,Xue H,Acet T.TheArabidopsisthalianaFASCICLINLIKEARABINOGALACTANPROTEIN4 gene acts synergistically with abscisic acid signalling to control root growth[J].Annals of Botany,2014,114(6):1125-1133.
[8] Ma H,Zhao J.Genome-wide identification,classification, and expression analysis of the arabinogalactan protein gene family in rice(OryzasativaL.)[J].Journal of Experimental Botany,2010,61(10):2647-2668.
[9] Faik A,Abouzouhair J,Sarhan F.Putative fasciclin-like arabinogalactan-proteins(FLA) in wheat(Triticumaestivum) and rice(Oryzasativa):Identification and bioinformatic analyses[J].Molecular Genetics and Genomics,2006,276(5):478-494.
[10] 陳紅梅.大豆XHS基因家族生物信息學(xué)分析[J].大豆科學(xué),2015,34(3):384-388.
[11] Schmutz J,Cannon S,Schlueter J,etal.Genome sequence of the palaeopolyploid soybean[J].Nature,2010,463(7278):178-183.
[12] Finn R,Mistry J,Schuster-B?ckler B,etal.Pfam:Clans,web tools and services[J].Nucleic Acids Research,2006,34:D247-D251.
[13] Quevillon E,Silventoinen V,Pillai S,etal.InterProScan:Protein domains identifier[J].Nucleic Acids Research,2005,33:W116-W120.
[14] Goodstein D M,Shu S,Howson R,etal.Phytozome:A comparative platform for green plant genomics[J].Nucleic Acids Research,2012,40:D1178-D1186.
[15] Petersen T N,Brunak S,Von Heijne G,etal.SignalP 4.0:Discriminating signal peptides from transmembrane regions[J].Nature Methods,2011,8(10):785-786.
[16] Thompson J D,Gibson T J,Plewniak F,etal.The CLUSTAL_X windows interface: Flexible strategies for multiple sequence alignment aided by quality analysis tools[J].Nucleic Acids Research,1997,25(24):4876-4882.
[17] Kumar S,Stecher G,Tamura K.MEGA7:Molecular evolutionary genetics analysis version 7.0 for bigger datasets[J].Molecular Biology and Evolution,2016,33(7):1870-1874.
[18] Bailey T L,Williams N,Misleh C,etal.MEME:Discovering and analyzing DNA and protein sequence motifs[J].Nucleic Acids Research,2006,34:W369-W373.
[19] Biasini M,Bienert S,Waterhouse A,etal.SWISS-MODEL:Modelling protein tertiary and quaternary structure using evolutionary information[J].Nucleic Acids Research,2014,42(W1):W252-W258.
[20] Johnson K L,Jones B J,Bacic A,etal.The fasciclin-like arabinogalactan proteins ofArabidopsis.A multigene family of putative cell adhesion molecules[J].Plant Physiology,2003,133:1911-1925.
[21] Moody R G,Williamson M P.Structure and function of a bacterial fasciclin I domain protein elucidates function of related cell adhesion proteins such as TGFBIp and periostin[J].FEBS Open Bio,2013,3:71-77.
Bioinformatics Analysis of Physichemical Properties and Stucture Characteristic of Fasciclin-like Arabinogalactan Proteins in Soybean
ZHONG Jing1,2,WU Xiaoming1,HU Ying2
(1.Hubei University of Education/Hubei Key Laboratory of Purification and Application of Plant Anti-cancer Active Ingredients,Wuhan 430205,China; 2.Wuhan University/State Key Laboratory of Hybrid Rice,Wuhan 430072,China)
Based on the published soybean genome database,fasciclin-like arabinogalactan proteins(FLAs) were identified,and the basic physical and chemical properties,conserved motifs,functional domains,phylogenetic trees,secondary structure were analyzed.The results showed that 33GmFLAswere identified in soybean genome.The length of GmFLAs were 237—455 amino acids,the molecular weight were 25.483 0—50.578 5 ku,the oretical isoelectric point were 4.33—9.56.The subcellular location showed that the GmFLAs were all located on the plasma membrane(GmFLA4/25 were also located on chloroplast).GmFLAs generally contained 1—2 conserved fasciclin(FAS) domains.Phylogenetic analysis showed that the homology of FLAs between soybean andArabidopsiswas not high.The secondary structure of GmFLAs were mainly composed of α-helix,extended strand and random coil.The proportion of extended strand was the lowest,while that of random coil was the highest.
soybean; FLAs protein; physichemical properties; structure characteristic; bioinformatics analysis
2016-08-23
Trans助研夢想基金項目(Trans-RasDF-019)
鐘 靜(1979-),女,湖北荊州人,講師,博士,主要從事發(fā)育生物學(xué)研究。E-mail:jjing2003_1@163.com
S565.1
A
1004-3268(2017)03-0034-07