葉 靜,陳 偉,金殿川
(華北理工大學(xué)理學(xué)院,河北 唐山 063009)
?
基于不同物種的熱休克蛋白90的生物信息學(xué)分析
葉 靜,陳 偉*,金殿川
(華北理工大學(xué)理學(xué)院,河北 唐山 063009)
熱休克蛋白90 (Heat shock protein 90,Hsp90)是生物體受到刺激時發(fā)生應(yīng)激反應(yīng)而產(chǎn)生的一類應(yīng)激蛋白。Hsp90包含Hsp90A, Hsp90B, Hsp90C, TRAP和HtpG5個亞家族。本文采用生物信息學(xué)方法對所選11個物種的Hsp90基因進(jìn)行了分析。統(tǒng)計Hsp90亞家族在物種間的分布情況,驗證了Hsp90亞家族在物種間的分布規(guī)律,即Hsp90A亞家族分布于除細(xì)菌外的其他所有物種中,Hsp90B和TRAP1亞家族在物種間的分布無明顯規(guī)律,Hsp90C亞家族只存在于植物中,HtpG亞家族大部分存在于細(xì)菌中。通過構(gòu)建系統(tǒng)發(fā)育樹,發(fā)現(xiàn)Hsp90家族在進(jìn)化過程中具有保守性。使用Cell-PLoc, SubLoc v1.0, PSORT II和MultiLoc四種亞細(xì)胞定位軟件對所選的11個物種的Hsp90進(jìn)行亞細(xì)胞定位分析,發(fā)現(xiàn)Hsp90A,HtpG亞家族偏好出現(xiàn)在細(xì)胞質(zhì)中,Hsp90B亞家族除存在于細(xì)胞質(zhì)外還存在于內(nèi)質(zhì)網(wǎng)中,Hsp90C亞家族則集中于細(xì)胞質(zhì)和線粒體中,TRAP1亞家族基本位于線粒體中。
熱休克蛋白90;系統(tǒng)發(fā)育樹;基因結(jié)構(gòu); 亞細(xì)胞定位
熱休克蛋白(Heat shock protein, Hsp)是生物體受到環(huán)境中物理、化學(xué)、生物等因素刺激時發(fā)生應(yīng)激反應(yīng)而在細(xì)胞中產(chǎn)生的一類應(yīng)激蛋白[1]。按照其分子量大小的不同,熱休克蛋白可以分為Hsp20(sHsp),Hsp40 (J-class protein),Hsp60,Hsp70,Hsp90和Hsp100等6個家族[2],它們在細(xì)胞中發(fā)揮著不同的生物學(xué)功能。
自1962年首次在果蠅體內(nèi)發(fā)現(xiàn)以來[3],研究人員已從細(xì)菌,酵母,線蟲,大鼠,小鼠,和人類等生物體內(nèi)分別發(fā)現(xiàn)了熱休克蛋白的存在。近年來,熱休克蛋白的應(yīng)用更是十分廣泛,從農(nóng)業(yè)到抗癌試劑的制備,熱休克蛋白都扮演著重要的角色。
然而我們對熱休克蛋白進(jìn)化關(guān)系的認(rèn)識仍舊有限,因此通過比較基因組學(xué)和生物信息學(xué)方法對熱休克蛋白進(jìn)行研究,將幫助我們闡明熱休克蛋白的進(jìn)化規(guī)律,對理解熱休克蛋白的功能也具有重要的生物學(xué)意義。
Hsp90作為熱休克蛋白家族中的一類應(yīng)激蛋白,廣泛存在于各類機(jī)體中,古老且具有高度保守性[4]。其家族之下又分為五個亞家族,分別是Hsp90A,Hsp90B,Hsp90C,TRAP和HtpG亞家族,其中Hsp90A亞家族在Hsp90家族中數(shù)量是最多的,分布于除細(xì)菌外的其他所有物種中,Hsp90C亞家族只存在于植物中,而HtpG亞家族則絕大多數(shù)存在于細(xì)菌中[5]。2006年,Chen[5]等人通過對32個物種的Hsp90家族的研究,建立了包含所有Hsp90家族信息及進(jìn)化的框架。
作為一種重要的分子伴侶,Hsp90參與多種生理過程,如信號傳導(dǎo)、蛋白質(zhì)折疊降解和多種應(yīng)激反應(yīng)的調(diào)節(jié)[6]。研究表明Hsp90的表達(dá)與多種癌癥是密切相關(guān)的,如肺癌,胰腺癌等,因此可以通過檢測Hsp90的含量進(jìn)而有效地監(jiān)控癌癥[7]。然而,隨著科技的飛速發(fā)展,我們需要快速簡潔的從生物信息學(xué)的角度去分析Hsp90家族的進(jìn)化情況,進(jìn)而研究Hsp90的功能作用,確定其進(jìn)化及基因結(jié)構(gòu)情況,驗證Hsp90五個亞家族在物種間的分布情況以及亞細(xì)胞定位情況。
1.1 材料
從HSPIR(http://pdslab.biochem.iisc.ernet.in/hspir/)數(shù)據(jù)庫,收集百日咳博代氏桿菌(Bordetellapertussis),破傷風(fēng)桿菌(Clostridiumtetani),致病疫霉(Phytophthorainfestans),四膜蟲(Tetrahymenathermophile),構(gòu)巢曲霉(Aspergillusnidulans),新型隱球菌(Cryptococcusneoformans),萊茵衣藻(Chlamydomonasreinhardtii),埃及斑蚊(Aedesaegypti),大豆(Glycinemax),高粱(Sorghumbicolor) 和水稻(Oryzasativa)11個物種的Hsp90基因家族成員的CDS(或基因)序列和蛋白質(zhì)序列。
由此得到來自上述11個物種的37條Hsp90序列,它們在物種間分布情況和Hsp90亞家族的分布情況見表1。其中屬于Hsp90A亞家族的有20條,約占了所選物種亞家族的54.05%,在除百日咳博代氏桿菌和破傷風(fēng)桿菌外的其余物種中都存在;Hsp90B亞家族的數(shù)量較少但分布較廣泛,在致病疫霉、新型隱球菌、萊茵衣藻、高粱、水稻和埃及斑蚊中都有發(fā)現(xiàn);Hsp90C亞家族存在于萊茵衣藻、高粱和水稻中;TRAP1亞家族存在于致病疫霉、四膜蟲、水稻和埃及斑蚊四個物種中;HtpG亞家族只存在于百日咳博代氏桿菌和破傷風(fēng)桿菌中,其他物種中沒有發(fā)現(xiàn)。進(jìn)一步驗證了Chen[5]對于Hsp90亞家族在物種間的分布情況即Hsp90A亞家族分布于除細(xì)菌外的其他所有物種中,Hsp90B和TRAP1亞家族在物種間的分布情況沒有規(guī)律,Hsp90C亞家族只存在于植物中,HtpG亞家族則絕大多數(shù)存在于細(xì)菌中。
表1 Hsp90亞家族在11個物種間分布情況
1.2 系統(tǒng)發(fā)育樹的簡述
根據(jù)所處理數(shù)據(jù)的類型,可以將系統(tǒng)發(fā)育樹的構(gòu)建方法分為兩大類。一類是基于距離的構(gòu)建方法,利用所有物種或分類單元間的進(jìn)化距離,依據(jù)一定的原則及算法構(gòu)建對應(yīng)的系統(tǒng)發(fā)育樹。其中包括非加權(quán)分組平均法(Unweighted-pair-group method with arithmetic mean,UPGMA)、最小進(jìn)化法(Minimum evolution)和鄰近歸并法(Neighbor-joining method)等。其中UPGMA法已經(jīng)較少使用,因大多數(shù)蛋白家族起源較早,序列分化程度較大,相互之間較為遠(yuǎn)源,因此構(gòu)建此類系統(tǒng)發(fā)育樹的時候使用鄰法近歸并法較多。
另一類方法是基于離散特征的構(gòu)建方法,利用的是具有離散特征狀態(tài)的數(shù)據(jù),如基因序列中特定位點(diǎn)的核苷酸。此類方法中包括最大簡約法(Maximum parsimony method),最大似然法(Maximum likelihood approach)等。
1.3 亞細(xì)胞定位的概述及軟件介紹
亞細(xì)胞定位是某種蛋白或者蛋白的產(chǎn)物在細(xì)胞內(nèi)具體存在的位置,即根據(jù)所給出的蛋白質(zhì)序列來預(yù)測蛋白質(zhì)所在的亞細(xì)胞位置[8]。蛋白質(zhì)亞細(xì)胞定位的準(zhǔn)確預(yù)測使得我們可以更快的了解該蛋白質(zhì)功能。為了準(zhǔn)確的給出Hsp90的亞細(xì)胞定位信息,選取Cell-PLoc[9],SubLoc v1.0[10],PSORT II[11]和MultiLoc[12]四個常用的蛋白質(zhì)亞細(xì)胞定位預(yù)測軟件,采用集成分類器方法對Hsp90進(jìn)行亞細(xì)胞定位分析,即通過上述四種軟件分別對Hsp90進(jìn)行亞細(xì)胞定位預(yù)測,以預(yù)測結(jié)果中所出現(xiàn)的頻率最高的亞細(xì)胞位置作為最終的亞細(xì)胞定位結(jié)果。
2.1 Hsp90基因結(jié)構(gòu)分析
根據(jù)HSPIR數(shù)據(jù)庫中的基因信息在NCBI數(shù)據(jù)庫中搜索本文所選的37條Hsp90的基因序列,搜索結(jié)果顯示,在37條基因序列中,有8條序列無注釋信息,使用GSDS2.0[13](https://gsds.cbi.pku.edu.cn/)軟件繪制其余29條Hsp90基因序列的外顯子-內(nèi)含子結(jié)構(gòu)圖(見圖1)。發(fā)現(xiàn)在Hsp90的5個亞家族中,Hsp90C亞家族的基因結(jié)構(gòu)最為復(fù)雜,內(nèi)含子數(shù)目較其余4個亞家族的內(nèi)含子數(shù)目要多,其中高粱基因組中的Hsp90C0251Sb和Hsp90C0252Sb基因的結(jié)構(gòu)最為復(fù)雜,含有18個內(nèi)含子。
圖1 Hsp90家族的基因結(jié)構(gòu)分析Fig. 1 The genetic structure analysis of Hsp90 family
2.2 Hsp90家族系統(tǒng)發(fā)育樹的構(gòu)建和分析
利用MEGA軟件對所研究的11個物種的Hsp90家族的基因做CLUSTAL多序列比對,之后使用鄰近歸并法構(gòu)建對應(yīng)的系統(tǒng)發(fā)育樹,設(shè)置自舉檢驗(Bootstrap)的值為1 000,并對系統(tǒng)發(fā)育樹中自舉檢驗值小于50的樹枝做歸并處理,結(jié)果如圖2所示。從構(gòu)建出的系統(tǒng)發(fā)育樹可以看出,Hsp90家族形成了四個分支,分別對應(yīng)亞家族Hsp90A,亞家族Hsp90C,和亞家族TRAP1,而Hsp90B和HtpG兩個亞家族區(qū)分不明顯,兩者聚集到了同一分枝上,這可能與HtpG亞家族樣本數(shù)量少有關(guān)。
2.3 Hsp90家族的亞細(xì)胞定位的結(jié)果
分別使用Cell-PLoc、SubLoc v1.0、PSORT II和MultiLoc對Hsp90家族的蛋白質(zhì)進(jìn)行定位預(yù)測,綜合四個分類器得到的結(jié)果最后確定每個蛋白質(zhì)在亞細(xì)胞中的位置,如表2所示。可以看出,Hsp90家族在細(xì)胞質(zhì)、線粒體、內(nèi)質(zhì)網(wǎng)和細(xì)胞核等細(xì)胞器中都有發(fā)現(xiàn)。其中Hsp90A和HtpG兩個亞家族在細(xì)胞質(zhì)中存在的比例較高,Hsp90B亞家族集中于細(xì)胞質(zhì)和內(nèi)質(zhì)網(wǎng)中,Hsp90C亞家族則集中于細(xì)胞質(zhì)和線粒體中,TPAP1亞家族則更偏好定位于線粒體中。
圖2 11個物種Hsp90家族的系統(tǒng)發(fā)育樹Fig. 2 The Hsp90 family phylogenetic tree in 11 species
注:圖中Bp代表百日咳博代氏桿菌、Ct代表破傷風(fēng)桿菌、Pi代表致病疫霉、Tt代表四膜蟲、An代表構(gòu)巢曲霉、Cn代表新型隱球菌、Cr代表萊茵衣藻、Gm代表大豆、Sb代表高粱、Os代表水稻、Aa代表埃及斑蚊。
表2 Hsp90家族亞細(xì)胞預(yù)測結(jié)果
Hsp90分布廣泛,存在于各個物種間,本文通過對其不同亞家族在物種間分布進(jìn)行統(tǒng)計,驗證了其五個亞家族在物種間分布各有特點(diǎn),其中Hsp90A亞家族數(shù)量最多,分布于除細(xì)菌外的其他所有物種中,Hsp90C亞家族只存在于植物中,而HtpG亞家族則絕大多數(shù)存在于細(xì)菌中。Hsp90家族的基因結(jié)構(gòu)分析說明Hsp90C亞家族的結(jié)構(gòu)最為復(fù)雜。構(gòu)建的系統(tǒng)發(fā)育樹進(jìn)一步證明Hsp90在進(jìn)化過程中具有保守性,不同物種的同一亞家族在系統(tǒng)發(fā)育樹上聚集明顯,即同一亞家族間的序列有較好的相似性。通過對Hsp90亞家族進(jìn)行亞細(xì)胞定位分析,基本確定了Hsp90A,Hsp90B,Hsp90C,TRAP1和HtpG亞家族在細(xì)胞器中的位置。希望這些研究結(jié)果能夠為Hsp90功能的研究提供新線索。
References)
[1]SAKATANI M, BONILLA L, DOBBS K B, et al. Changes in the transcriptome of morula-stage bovine embryos caused by heat shock: relationship to developmental acquisition of thermotolerance[J]. Reproductive Biology Endocrinology, 2013(11):3. DOI: 10.1186/1477-7827-11-3.
[2]RATHEESH K R, NAGARAJAN N S , ARUNRAJ S P , et al. HspIR: a manually annotated heat shock protein information resource [J]. Bioinformatics, 2012, 28(21):2853-2855.DOI: 10.1093/bioinformatics/bts520.
[3]RITOSSA F. A new puffing pattern induced by temperature shock and DNP in drosophila [J]. Experientia, 1962, 18(12):571-573.DOI: 10.1007/BF02172188.
[4]CSERMELY P, SCHNAIDER T, S?TI C, et al.The 90-kDa molecular chaperone family: structure, function, and clinical applications [J].Pharmacology Therapeutics,1998,79(2):129-168.
[5]CHEN B, ZHONG D, MONTEIRO A.Comparative genomics and evolution of the Hsp90 family of genes across all kingdoms of organisms [J]. BMC Genomics,2006(7):156. DOI:10.1186/1471-2164-7-156.
[6]ALI A B S, O’CARROL R, OVSENEK N.Hsp90 interacts with and regulates the activity of heat shock factor 1 in Xenopus oocytes [J].Molecular Biology, 1998, 18(9):4949-4960.
[7]宋曉敏.分泌型熱休克蛋白90a在腫瘤發(fā)生和轉(zhuǎn)移中的作用機(jī)理[D].北京:清華大學(xué),2010.
SONG Xiaomin.Secretory type heat shock protein 90a mechanism in tumorigenesis and metastasis [D].Beijing:Tsinghua University,2010.
[8]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測研究進(jìn)展 [J].山東師范大學(xué)學(xué)報,2012,4(27):33-37.
WU Zeyue,CHEN Yuehui.The research progress of protein subcellular localization prediction [J].Journal of Shandong Normal University,2012,4(27):33-37.
[9]CHOU K C, SHEN H B.Cell-PLoc: a package of Web servers for predicting subcellular localization of proteins in various organisms [J].Nature Protocols, 2008(153):162. DOI:10.1038/nprot.2007.494.
[10]HUA S,SUN Z.Support vector machine approach for protein subcellular localization prediction [J]. Bioinformatics,2001, 17(8):721-728.
[11]MITSUTERU C N, KENTA N. Improvement of PSORT II Protein Sorting Prediction for Mammalian Proteins [J]. Genome Informatics,2002(13):441-442.
[12]H?GLUNDA, D?NNES P, BLUM T, et al.MultiLoc: prediction of protein subcellular localization using N-terminal targeting sequences, sequence motifs and amino acid composition [J].Bioinformatics,2006,22(10):1158-1165.
[13]BO H, JINPU J, AN-YUAN G, et al.GSDS 2.0: an upgraded gene feature visualization server[J]. Bioinformatics, 2015, 31(8):1296-1297.
Bioinformatic analysis of Heat shock protein 90 from multiple species
YE Jing, CHEN Wei*, JIN Dianchuan
(SchoolofScience,NorthChinaUniversityofScienceandTechnology,TangshanHebei063009,China)
Heat Shock Protein 90 (Hsp90) is a kind of proteins which are produced under stresses. Hsp90 includes five subfamilies, namely Hsp90A, Hsp90B, Hsp90C, TRAP and HtpG.In this paper, the Hsp90 genes from 11 species were analyzed using bioinformatics methods. The distributions of Hsp90 across species were studied. Hsp90A is found in all the selected species except for bacteria. Hsp90C subfamily is only present in plants. HtpG subfamily mostly presents in bacteria. Phylogenetic analysis revealed the evolutionary conservation of Hsp90 across species. Finally, by using Cell-PLoc, SubLoc v1.0, PSORT II and MultiLoc, the subcellular location of Hsp90 was predicted. Hsp90A and HtpG are bias to cytoplasm. Hsp90B prefers to both endoplasmic reticulum and cytoplasm. Hsp90C are located in cytoplasm and mitochondria. TRAP1 mainly located in mitochondria.
Hsp90; Phylogenetic tree; Gene Structure; Subcellular localization
2016-06-06;
2016-06-23.
河北省自然科學(xué)基金項目(C2013209105)。
葉靜,女,碩士研究生,研究方向:生物信息學(xué);E-mail: yejing@gmail.com.
*通信作者:陳偉, 男,副教授,研究方向:生物信息學(xué);E-mail: greatchen@ncst.edu.cn.
10.3969/j.issn.1672-5565.2016.03.02
Q811
A
1672-5565(2016)03-134-05