摘要:從NCBI查找大豆(Glycine max)基因組中轉(zhuǎn)錄因子WRI1基因,通過(guò)同源比對(duì)在大豆基因組中確定了31個(gè)同源基因。利用在線分析工具和生物信息學(xué)方法對(duì)31個(gè)蛋白質(zhì)進(jìn)行了初步分析,發(fā)現(xiàn)蛋白質(zhì)的一級(jí)結(jié)構(gòu)存在較大差異,二級(jí)結(jié)構(gòu)以無(wú)規(guī)則卷曲和α-螺旋為主要構(gòu)成元件,亞細(xì)胞均定位于細(xì)胞核。保守結(jié)構(gòu)域分析發(fā)現(xiàn),31個(gè)蛋白質(zhì)的高保守區(qū)域由大約200個(gè)氨基酸殘基組成;正選擇位點(diǎn)分析發(fā)現(xiàn)Glyma08g24420.1和Glyma15g34770.1兩個(gè)蛋白質(zhì)序列的第381、382、383個(gè)氨基酸位點(diǎn)受到了正選擇,進(jìn)行了適應(yīng)性進(jìn)化。
關(guān)鍵詞:大豆(Glycine max);WRI1;生物信息;正選擇位點(diǎn)
中圖分類號(hào):S565.1;Q78 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0439-8114(2016)13-3482-04
DOI:10.14088/j.cnki.issn0439-8114.2016.13.055
植物油脂在人類日常生活中扮演著不可替代的角色,不僅可以作為食用油,還是重要的工業(yè)原料,是生物新能源開發(fā)的重要材料來(lái)源。目前,隨著植物油需求量的增加和消費(fèi)者對(duì)膳食脂肪安全意識(shí)的提高,培育高油量、高質(zhì)量的油料作物已經(jīng)成為育種的主要任務(wù)之一。植物油脂合成過(guò)程涉及許多關(guān)鍵酶,通過(guò)生物學(xué)方法,一些關(guān)鍵酶已經(jīng)確定,如乙酰輔酶A羧化酶、丙酮酸激酶、脂肪酸延長(zhǎng)酶等[1],抑制或提高這些關(guān)鍵酶的活性可以影響植物種子的含油量。近年來(lái),研究表明利用轉(zhuǎn)錄因子基因改造植物脂肪代謝過(guò)程,可以更好地提高油脂含量,改善油脂成分。
轉(zhuǎn)錄因子能與基因5′端上游特定序列專一結(jié)合,保證目的基因以特定的強(qiáng)度在特定的時(shí)間與空間表達(dá)蛋白質(zhì)分子??蒲腥藛T通過(guò)抑制或過(guò)表達(dá)手段已經(jīng)研究了一些與油脂合成有關(guān)的轉(zhuǎn)錄因子的功能,例如WRINKLED1、LEAFYCOTYLEDON1、FUSCA3等[2],其中WRINKLED1研究的比較多。WRI1基因?qū)儆贏P2/EREBP轉(zhuǎn)錄因子家族[3],于1998年首次被發(fā)現(xiàn),當(dāng)其突變時(shí)種子含油量降低80%,而當(dāng)其過(guò)表達(dá)時(shí)含油量卻提高了20%[4]。作為全球第二大農(nóng)作物,大豆(Glycine max)是重要的蛋白質(zhì)和食用油來(lái)源[5]。本試驗(yàn)以大豆中WRI基因?yàn)檠芯繉?duì)象,利用在線工具和生物信息相關(guān)方法對(duì)該基因及其蛋白質(zhì)進(jìn)行生物信息學(xué)分析,為植物油脂合成品質(zhì)改進(jìn)提供參考。
1 材料與方法
1.1 數(shù)據(jù)材料
從JGI(http://phytozome.jgi.doe.gov/pz/portal.html)中下載大豆基因組CDS數(shù)據(jù)和蛋白質(zhì)數(shù)據(jù),在NCBI上查找大豆基因組中WRI1基因,獲得其CDS序列。用大豆基因組蛋白質(zhì)數(shù)據(jù)構(gòu)建本地BLAST數(shù)據(jù)庫(kù),以WRI1基因的蛋白質(zhì)序列為查詢序列,執(zhí)行BLASTp進(jìn)行同源基因搜索,得到WRI1蛋白質(zhì)的同源序列。
1.2 一級(jí)結(jié)構(gòu)和二級(jí)結(jié)構(gòu)分析
使用ExPaSy提供的在線分析工具Protparam[6](http://web.expasy.org/protparam/),分析WRI1蛋白質(zhì)序列的一級(jí)結(jié)構(gòu),包括氨基酸數(shù)目、等電點(diǎn)、分子量、疏水性等。二級(jí)結(jié)構(gòu)預(yù)測(cè)采用在線分析工具SOPMA[7](https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)。
1.3 亞細(xì)胞定位
用ProtComp(http://linux1.softberry.com/berry.phtml?group=programs subgroup=proloc topic= protcom pan)對(duì)WRI1蛋白質(zhì)進(jìn)行亞細(xì)胞定位預(yù)測(cè)分析。
1.4 保守結(jié)構(gòu)域和系統(tǒng)發(fā)育分析
采用ClustalX軟件進(jìn)行多序列比對(duì),分析保守結(jié)構(gòu)域。采用MEGA 4.0軟件中的鄰近法,bootstrap值設(shè)為1 000,構(gòu)建系統(tǒng)發(fā)育樹。
1.5 正選擇位點(diǎn)分析
分析正選擇的方法:在密碼子水平上分析核酸替換,非同義突變率(dN)與同義突變率(dS)的比值可以用來(lái)衡量選擇壓力,進(jìn)而判斷自然選擇對(duì)非同義突變的固定具有促進(jìn)還是抑制作用[8],用ω= dN/dS表示。ω=1,表示發(fā)生中性選擇;ω<1,表示發(fā)生凈化選擇;ω>1,表示受到正選擇。本試驗(yàn)采用Paml 4.7軟件包中的Codeml子程序計(jì)算ω值,采用位點(diǎn)模型N Sites,同時(shí)選擇M0、M1、M2、M7和M8模型,運(yùn)行Codeml程序。在結(jié)果中找到Model 7和Model 8的InL值,進(jìn)行LRT檢驗(yàn),計(jì)算2△InL。然后用Chi2程序進(jìn)行卡方(χ2)檢驗(yàn),自由度取2,若檢驗(yàn)結(jié)果中P小于0.05,說(shuō)明備擇假設(shè)模型成立。最后,通過(guò)貝葉斯經(jīng)驗(yàn)檢驗(yàn)(BEB)和NBE檢驗(yàn)獲得每個(gè)氨基酸位點(diǎn)的后驗(yàn)概率,同時(shí)Model 2和Model 8檢測(cè)到的正選擇位點(diǎn)被作為最后確認(rèn)的正選擇位點(diǎn)。
2 結(jié)果與分析
2.1 WRI1蛋白質(zhì)的理化性質(zhì)和亞細(xì)胞定位
同源基因搜索得到31條序列,由表1可見,31個(gè)蛋白質(zhì)所含氨基酸數(shù)目在290~710不等,Glyma18g47980.2所含氨基酸數(shù)目最多,Glyma07g-02380.1含有氨基酸數(shù)目最少,分子量在33 105.3~78 008.9之間;8個(gè)蛋白質(zhì)的等電點(diǎn)大于7.5,顯堿性,15個(gè)蛋白質(zhì)的等電點(diǎn)小于6.5,顯酸性;大部分蛋白質(zhì)中含量最多的氨基酸是Ser;除Glyma08g-38190.2和Glyma18g29400.2的不穩(wěn)定系數(shù)小于40.00,屬于穩(wěn)定蛋白質(zhì),其他蛋白質(zhì)的不穩(wěn)定系數(shù)均大于40.00,屬于不穩(wěn)定蛋白質(zhì);平均疏水性均為負(fù)值,屬于親水蛋白質(zhì)。31個(gè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)以無(wú)規(guī)則卷曲為主要構(gòu)成元件,以α-螺旋為次要構(gòu)成元件,β-轉(zhuǎn)角和延伸鏈的百分比最少。亞細(xì)胞定位預(yù)測(cè)結(jié)果顯示,31個(gè)WRI1蛋白質(zhì)均定位于細(xì)胞核。
2.2 WRI1保守結(jié)構(gòu)域和系統(tǒng)發(fā)育分析
采用ClustalX軟件對(duì)31個(gè)蛋白質(zhì)序列進(jìn)行多序列比對(duì),結(jié)果如圖1所示。31個(gè)蛋白質(zhì)序列中間的保守性要強(qiáng)于兩端,其保守結(jié)構(gòu)域由大約200個(gè)氨基酸殘基組成。
采用MEGA 4.0軟件的鄰近法,bootstrap值為1 000,構(gòu)建WRI1蛋白質(zhì)系統(tǒng)發(fā)育樹。如圖2所示,31個(gè)蛋白質(zhì)大體上分為2個(gè)分支,Glyma08g24420.1和Glyma15g34770.1最為古老,推測(cè)是進(jìn)行了適應(yīng)性進(jìn)化。結(jié)合多序列比對(duì)結(jié)果,Glyma11g14040.1的保守結(jié)構(gòu)域中也有一段特殊的氨基酸序列(圖1中框住部分)。
2.3 正選擇分析
利用Paml 4.7軟件包中的Codeml程序?qū)?個(gè)蛋白質(zhì)的氨基酸序列進(jìn)行正選擇位點(diǎn)分析,用Model 7和Model 8的InL值做LRT檢驗(yàn),取自由度df=2,然后進(jìn)行χ2檢驗(yàn),所得結(jié)果(表2)中 Glyma08g24420.1和Glyma15g34770.1的P值分別為7.575×10-6和4.515×10-6,遠(yuǎn)遠(yuǎn)小于0.05,備擇假設(shè)模型成立,進(jìn)行后續(xù)檢驗(yàn)。Glyma11g14040.1的P值為0.425,備擇假設(shè)模型不成立,不再進(jìn)行后續(xù)檢驗(yàn)。
BEB后驗(yàn)結(jié)果顯示,在Glyma08g24420.1蛋白質(zhì)序列中有3個(gè)位點(diǎn)受到正選擇,分別是第381、382、383個(gè)氨基酸位點(diǎn),Model 2和Model 8同時(shí)檢測(cè)到這3個(gè)位點(diǎn)受到正選擇,將后驗(yàn)概率和ω值列于表3中。
在Glyma15g34770.1蛋白質(zhì)序列中有3個(gè)位點(diǎn)受到正選擇,分別是第381、382、383個(gè)氨基酸位點(diǎn),Model 2和Model 8同時(shí)檢測(cè)到這3個(gè)位點(diǎn)受到正選擇,將后驗(yàn)概率和ω值列于表4中。
3 小結(jié)
近年來(lái),基因組測(cè)序工作的開展為大豆基因組的研究提供了新契機(jī),對(duì)認(rèn)識(shí)其生物學(xué)機(jī)制,并在分子水平上改進(jìn)大豆品質(zhì)有重大意義。所以,在完成了較單純的大豆全基因組測(cè)序后[9],更多重測(cè)序工作深入開展[10,11]。本試驗(yàn)從NCBI中查找得到大豆基因組中WRI1基因的CDS序列和蛋白質(zhì)序列。用其CDS序列和大豆基因組CDS數(shù)據(jù)做blastp比對(duì),得到31個(gè)基因。
利用在線工具和生物信息學(xué)方法對(duì)31個(gè)基因序列和蛋白質(zhì)序列做了初步分析。一級(jí)結(jié)構(gòu)分析發(fā)現(xiàn)31個(gè)蛋白質(zhì)的理化性質(zhì)存在明顯差異,氨基酸數(shù)目為290~710,分子量為33 105.3~78 008.9;8個(gè)蛋白質(zhì)的等電點(diǎn)大于7.5,呈堿性,15個(gè)蛋白質(zhì)的等電點(diǎn)小于6.5,呈酸性;大部分蛋白質(zhì)中含量最多的氨基酸是Ser;Glyma08g38190.2和Glyma18g29400.2的不穩(wěn)定系數(shù)小于40.00,屬于穩(wěn)定蛋白質(zhì),其他蛋白質(zhì)的不穩(wěn)定系數(shù)均大于40.00,屬不穩(wěn)定蛋白質(zhì);平均疏水性都是負(fù)值,屬于親水蛋白質(zhì);31個(gè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)以無(wú)規(guī)則卷曲和α螺旋為主要構(gòu)成元件,含量在70%以上;亞細(xì)胞定位預(yù)測(cè)31個(gè)蛋白質(zhì)都定位于細(xì)胞核;正選擇位點(diǎn)分析結(jié)果顯示Glyma08g24420.1和Glyma15g34770.1的第381、382、383個(gè)氨基酸位點(diǎn)都受到了正選擇。WRI1基因在植物油脂合成過(guò)程起著重要的作用,利用生物信息學(xué)方法對(duì)其進(jìn)行研究,分析其理化性質(zhì)和選擇壓力,將為培育高油脂作物提供基礎(chǔ)數(shù)據(jù)。
參考文獻(xiàn):
[1] 柴國(guó)華,白澤濤,蔡 麗,等.油菜基因BnWRI1的克隆及RNAi對(duì)種子含油量的影響[J].中國(guó)農(nóng)業(yè)科學(xué),2009,42(5):1512-1518.
[2] 施春霖,劉 聰,肖旦望,等.甘藍(lán)型油菜WRI1基因cDNA的克隆與序列分析[J].湖南農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013, 39(3):247-252.
[3] 沈 奇,韓宏仕,秦信蓉,等.轉(zhuǎn)錄因子在調(diào)控種子油脂生物合成及增加植物儲(chǔ)脂含量中的重要作用[J].農(nóng)業(yè)科學(xué)與技術(shù),2013, 14(1):30-34.
[4] 丁 霄,楊淑巧,許 琦,等.轉(zhuǎn)錄因子WRI1在主要作物中的研究進(jìn)展[J].分子植物育種,2015,13(3):697-701.
[5] CLEMENTE T E,CAHOON E B. Soybean oil: Genetic approaches for modification of functionality and total content1[J]. Plant Physiology,2009,9(151):1030-1040.
[6] WILKINS M R,GASTEIGER E,BAIROCH A,et al. Protein identification and analysis tools on the ExPASy server[J]. Methods Mol Biol,1999,112:571-607.
[7] GEOURJON C,DEL?魪AGE G. SOPMA:Significant improvement in protein secondary structure prediction by cprediction from alignments and joint prediction[J].CABIOS,1995,11(6):681-684.
[8] YANG Z.Computational molecular evolution[M].England:Oxford University Press,2006.
[9] SCHMUTZ J,CANNON S B,JACKSON S A,et al. Genome sequence of the palaeopolyploid soybean[J].Nature,2010,463: 180-183.
[10] LAM H M,XU X,WANG B,et al. Resequcing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection[J].Nature Genetics,2010,42:1053-1059.
[11] LI Y H,ZHAO S C,QIU L J,et al. Molecular footpringts of domestication and improvement in soybean revealed by whole genome re-sequencing[J].BMC Genomics,2013,14:579-581.