李明陽,馬春霞,吳翰欣,吳小海,,楊淵,,俞建昆
1.中國醫(yī)學科學院&北京協(xié)和醫(yī)學院 醫(yī)學生物學研究所 中心實驗室,云南 昆明 650118;2.昆明醫(yī)科大學 附屬第二醫(yī)院,云南 昆明 650118
SRSF2基因的生物信息學分析與蛋白質(zhì)預(yù)測
李明陽1,馬春霞1,吳翰欣2,吳小海1,2,楊淵1,2,俞建昆1
1.中國醫(yī)學科學院&北京協(xié)和醫(yī)學院 醫(yī)學生物學研究所 中心實驗室,云南 昆明 650118;2.昆明醫(yī)科大學 附屬第二醫(yī)院,云南 昆明 650118
目的:分析富含絲氨酸和精氨酸的剪接因子2(SRSF2)基因序列和表達產(chǎn)物的特征。方法:運用生物信息學相關(guān)軟件分析和預(yù)測人類和小鼠SRSF2基因的同源區(qū)段、開放讀框、啟動子區(qū)域、轉(zhuǎn)錄因子結(jié)合位點、CpG島分布情況,分析預(yù)測小鼠SRSF2基因蛋白產(chǎn)物的功能結(jié)構(gòu)域以及與其他蛋白的相互作用。結(jié)果:人類和小鼠SRSF2基因共有3個同源區(qū)段、19個開放讀框、4個相同的轉(zhuǎn)錄因子結(jié)合位點,2個基因的CpG島各項參數(shù)基本一致;小鼠SRSF2蛋白會與至少10種其他蛋白因子發(fā)生相互作用。結(jié)論:SRSF2基因及其蛋白產(chǎn)物的生物信息學分析,為相關(guān)研究提供了重要的信息基礎(chǔ)。
富含絲氨酸和精氨酸的剪接因子2(SRSF2);生物信息學;蛋白質(zhì)相互作用
真核生物的結(jié)構(gòu)基因由多個編碼和非編碼序列互相間隔但又連續(xù)鑲嵌形成,絕大部分基因轉(zhuǎn)錄出前體mRNA(pre-mRNA)后需要通過剪除非編碼序列后再連接成為成熟的mRNA,方可翻譯出由連續(xù)氨基酸組成的完整蛋白質(zhì),這些基因我們稱之為斷裂基因(split gene)。
可變剪接是真核生物中普遍存在的一種分子加工過程,人類95%以上的基因都受到可變剪接的調(diào)控[1-2],可變剪接調(diào)控過程異常將會導致多種疾病,如Frasier綜合征、脊髓性肌肉萎縮等[3]。完成mRNA剪接的工具是剪接體(spliceosome),其包含多個亞單位,共同完成剪接工作[4]??勺兗艚拥恼{(diào)控因子包括順式元件和反式調(diào)節(jié)因子。利用高通量測序技術(shù)發(fā)現(xiàn)可變剪接的調(diào)控因子具有雙向功能,既能促進、也能抑制外顯子的接入,何時發(fā)揮何種功能與其他調(diào)控蛋白與前體mRNA的結(jié)合位置有關(guān)[5]。
真核生物外顯子的上游一般存在一段外顯子剪接增強子(exonic splicing enhancer,ESE),它與SR蛋白家族結(jié)合,促進剪接體對特異剪接位點的識別,保證基因的準確剪接。SR蛋白家族具有特定的RNA識別結(jié)構(gòu)域(RNA recognition mo?tif,RRM)和RS結(jié)構(gòu)域,至今已發(fā)現(xiàn)幾十種SR蛋白家族成員和相關(guān)蛋白。1992年分離鑒定的富含絲氨酸和精氨酸的剪接因子2(serine and argi?nine rich splicing factor 2,SRSF2)是SR蛋白家族的一員,在剪接體組裝過程中發(fā)揮重要作用[6]。
通過生物信息學方法探討SRSF2基因及其蛋白產(chǎn)物,有利于了解其在疾病發(fā)生中的生物學作用,為研究SRSF2的基因調(diào)控奠定了基礎(chǔ)。
登錄GenBank數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/gene/)檢索人類(HOMO)和小鼠(MUS)的SRSF2基因,獲得全長基因序列及氨基酸序列(HOMO ID:6427,NC_000017.11;MUS ID:20382,NC_000077.6),保存為FASTA格式用于本研究。
用在線序列比對工具BLASTN(http://blast.nc?bi.nlm.nih.gov/)對人類和小鼠的SRSF2基因進行比對,獲得同源區(qū)段。用NCBI ORFfinder(https://www.ncbi.nlm.nih.gov/orffinder/)在線分析2個基因的開放讀框,并采用3種在線啟動子預(yù)測軟件[Network Promoter Prediction(http://www.fruitfly.org/seq_tools/promoter.html)、Promoter SCAN(http://www-bimas.cit.nih.gov/molbio/prosca)、Promoter 2.0(http://www.cbs.dtu.dk/services/Promoter)]和在線轉(zhuǎn)錄因子預(yù)測軟件P-Match1.0(http://gene-regulation.com/cgi-bin/pub/programs/patch/bin/patch.cgi)分析人類和小鼠的SRSF2基因啟動子所在位置及轉(zhuǎn)錄因子結(jié)合位點。用MerhPrimer CpG Island Pre?diction(http://www.urogene.org/cgi-bin/methpeimer./methprimer.cgi)預(yù)測人類和小鼠SRSF2基因中的CpG島分布情況。登錄ExPASy網(wǎng)站,用Protparam(http://web.expasy.org/protparam/)、SWISS-MODEL(https://swissmodel.expasy.org/) 和 SMART(http://smart.embl-heidelberg.de/)工具對小鼠SRSF2基因的蛋白產(chǎn)物進行分析。
人類SRSF2基因定位于染色體17q25.1,共有5個外顯子,全長3317 bp。小鼠SRSF2基因定位于染色體11E2;1181.49cM,共有2個外顯子,全長3218 bp。序列比對顯示,人類與小鼠的SRSF2基因有3個高度同源區(qū)段(圖1)。
ORFfinder分析顯示,人類和小鼠SRSF2基因均有19個開放讀框(ORF)。人類SRSF2基因ORFs中-6 ORF最長,跨越822 bp;小鼠SRSF2基因中則為+8 ORF最長,跨越429 bp(表1)。
3種在線啟動子軟件最終分析結(jié)果有一定差異,其中Promoter Prediction 2.0并未檢測到小鼠SRSF2基因的啟動子;Promoter Scan結(jié)果顯示人類SRSF2基因的反向啟動子得分較高,而小鼠SRSF2基因正向啟動子得分較高,顯示了物種間的差異。見表2、3、4。
圖1 人類與小鼠SRSF2基因的同源區(qū)段
表1 人類和小鼠SRSF2基因ORF預(yù)測結(jié)果
表2 Promoter Scan分析結(jié)果
表3 Promoter Prediction 2.0分析結(jié)果
表4 Network Promoter Prediction分析結(jié)果
設(shè)置P-Match1.0程序的核心序列相似性為0.70,矩陣相似性為0.75,輸入人與小鼠的SRSF2基因序列,搜索脊椎動物轉(zhuǎn)錄因子結(jié)合部位數(shù)據(jù)庫,獲得啟動子區(qū)轉(zhuǎn)錄因子結(jié)合位點總數(shù)4個,全部為共有的轉(zhuǎn)錄因子(表5)。
表5 P-Match 1.0分析結(jié)果
MerhPrimer CpG Island Prediction分析結(jié)果顯示人類SRSF2基因共有一個CpG島,序列長度為11163 bp(48~1210 bp),島大小>100,GC含量>50.0%,Obs/Exp>0.6;小鼠SRSF2基因CpG島數(shù)目也為1,序列長度為11 011 bp(48~1058 bp), 島大小>100、GC含量>50.0%、Obs/Exp>0.6等指標與人類SRSF2基因CpG島基本一致(圖2、3)。
2.6.1SRSF2蛋白產(chǎn)物相關(guān)指數(shù)測定 人類SRSF2蛋白分子式為C892H1377N225O264S12,相對分子質(zhì)量19 861.81;共有179個氨基酸殘基,其中異亮氨酸殘基含量最高,為12.8%;帶有23個負電殘基和10個正電殘基,等電點4.69;在哺乳動物體外,該蛋白的半衰期為30 h,不穩(wěn)定指數(shù)為54.68,因此判定為不穩(wěn)定蛋白;溶脂系數(shù)為99.72,親水性的總平均值為0.148。
小鼠SRSF2蛋白分子式為C1054H1760N400O330S5,相對分子質(zhì)量25 476.35;共有221個氨基酸殘基,其中精氨酸含量最高為84.5%;帶有21個負電殘基和65個正電殘基,等電點11.86;在哺乳動物體外,該蛋白的半衰期為30 h,不穩(wěn)定指數(shù)為133.678,也為不穩(wěn)定蛋白;溶脂系數(shù)為28.64,親水性的總平均值為-1.624。
圖2 人類SRSF2基因CpG島分布
圖3 小鼠SRSF2基因CpG島分布
2.6.2 SRSF2蛋白產(chǎn)物功能域預(yù)測 SMART程序分析結(jié)果顯示,小鼠SRSF2蛋白也具有SR蛋白家族的經(jīng)典結(jié)構(gòu)域RRM,會與其他多種蛋白相互作用,形成一個復雜的網(wǎng)狀體系。目前已知SRSF2蛋白作為一種細胞調(diào)控因子,不僅參與調(diào)控可變剪接,還與某些基因的轉(zhuǎn)錄過程,維持胸腺、骨髓等造血系統(tǒng)的正常發(fā)育有重要關(guān)系。見圖4、5。
圖4 小鼠SRSF2蛋白功能結(jié)構(gòu)域
圖5 小鼠SRSF2蛋白與其他因子的相互作用
研究顯示,剪接因子SRSF2基因突變將可能導致骨髓增生異常綜合征(myelodysplastic syn?dromes,MDS)[7-9]、慢性粒單核細胞白血?。╟hron?ic myelomonocytic leukemia,CMML)[10-11]、骨髓增殖性腫瘤(myeloproliferative neoplasm,MPN)[12]等多種血液疾病。分析結(jié)果指出,超過一半的突變發(fā)生在SRSF2的第95位密碼子上,以P95H、P95R、P95L這3種突變形式最為常見,該位點位于N端RRM結(jié)構(gòu)域和C端RS結(jié)構(gòu)域之間[13]。此外,多種遺傳性疾病的發(fā)病原因是其他基因的突變導致了SRSF2蛋白的異常調(diào)控。早年衰老綜合征(Hutchinson-Gilford progeria syndrome,HGPS)是由其LMNA基因突變后導致,LMNA基因中存在SRSF2蛋白結(jié)合序列,SRSF2蛋白可調(diào)控LMNA與LMNC的比例,從而在一定程度上治療HGPS[14]。
我們采用生物信息學方法與技術(shù),分析了人類與小鼠SRSF2基因及其蛋白產(chǎn)物的結(jié)構(gòu)特征和功能結(jié)構(gòu)域。但僅僅依靠生物信息學分析并不十分嚴謹,須將軟件預(yù)測分析和實驗驗證結(jié)合起來方能得到可信度最高的結(jié)果,為進一步探討SRSF2基因調(diào)控奠定基礎(chǔ)。
[1]Pan Q,Shai O,Lee L J,et al.Deep surveying of al?ternative splicing complexity in the human transcrip?tome by high-throughput sequencing[J].Nat Genet,2008,40(12):1413-1415.
[2]Kahles A,Ong C S,Zhong Y,et al.SplAdder:identi?fication,quantification and testing of alternative splic?ing events from RNA-Seq data[J].Bioinformatics,2016,32(12):1840-1847.
[3]Chabot B,Shkreta L.Defective control of pre-messen?ger RNA splicing in human disease[J].J Cell Biol,2016,212(1):13-27.
[4]Will C L,Lührmann R.Spliceosome structure and function[J].Cold Spring Harb Perspect Biol,2011,3(7):322-330.
[5]Kahles A,Ong C S,Zhong Y,et al.SplAdder:identi?fication,quantification and testing of alternative splic?ing events from RNA-Seq data[J].Bioinformatics,2016,32(12):1840-1847.
[6]Fu X D,Maniatis T.The 35-kDa mammalian splicing factor SC35 mediates specific interactions between U1 and U2 small nuclear ribonucleoprotein particles at the 3'splice site[J].Proc Natl Acad Sci USA,1992,89(5):1725-1729.
[7]Wu S J,Kuo Y Y,Hou H A,et al.The clinical im?plication of SRSF2 mutation in patients with myelodys?plastic syndrome and its stability during disease evolu?tion[J].Blood,2012,120(15):3106-3111.
[8]Kim E,Ilagan J O,Liang Y,et al.SRSF2 mutations contribute to myelodysplasia by mutant-specific effects on exon recognition[J].Cancer Cell,2015,27(5):617-630.
[9]Komeno Y,Huang Y J,Qiu J,et al.SRSF2 is essen?tialforhematopoiesis,and its myelodysplastic syn?drome-related mutations dysregulate alternative prem RNA splicing[J].Mol Cell Biol,2015,35(17):3071-3082.
[10]Meggendorfer M,Roller A,Haferlach T,et al.SRSF2 mutations in 275 cases with chronic myelomonocytic leukemia(CMML)[J].Blood,2012,120(15):3080-3088.
[11]Itzykson R,Itzkson R,Fenaux P,et al.Chronic myelo?monocytic leukemia:myelodysplastic or myeloprolifera?tive[J]?Best Pract Res Clin Haematol,2013,26(4):387-400.
[12]Cazzola M,Porta M G D,Malcovati L.The genetic ba?sis of myelodysplasia and its clinical relevance[J].Blood,2013,122(25):4021-4034.
[13]Hahn C N,Venugopal P,Scott H S,et al.Splice fac?tor mutations and alternative splicing as drivers of he?matopoietic malignancy[J].Immunol Rev,2015,263(1):257-278.
[14]Lee J M,Nobumori C,Tu Y,et al.Modulation of LM?NA splicing as a strategy to treat prelamin A diseases[J].J Clin Invest,2016,126(4):1592-1602.
Bioinformatics Analysis and Prediction ofSRSF2Gene and Protein
LI Ming-Yang1,MA Chun-Xia1,WU Han-Xin2,WU Xiao-Hai1,2,YANG Yuan1,2,YU Jian-Kun1*
1.Central Laboratory,Institute of Medical Biology,Chinese Academy of Medical Sciences & Peking Union Medi?cal College,Kunming 650118;2.Second Affiliated Hospital of Kunming Medical University,Kunming 650118;China
Objective:To analyze the character of serine and arginine rich splicing factor 2(SRSF2) gene se?quence and protein.Methods:The homologous sequences,open reading frame(ORF),promoter region,transcrip?tion factor binding site,distribution of CpG islands of human and mouse'sSRSF2gene,and the functional struc?ture and interact with other proteins of mouse SRSF2 protein were analyzed and predicted by bioinformatics-relat?ed software.Results:There were three homologous fragments,19 ORFs and four same identical transcription fac?tor binding sites in the human and mouse'sSRSF2genes;the parameters of the CpG islands of the two genes were similar.The mouse SRSF2 protein interacted with at least ten protein factors.Conclusion:The bioinformatics analysis of SRSF2geneand its protein provides an important information for related research.
serine and arginine rich splicing factor 2(SRSF2);bioinformatics;protein interactions
Q811.4
A
1009-0002(2017)05-0590-05
10.3969/j.issn.1009-
*Corresponding author,E-mail:yjk@imbcams.com.cn
2017-03-20
高等學校博士學科點專項科研基金(20111106120056);中國醫(yī)學科學院重大協(xié)同創(chuàng)新項目(2016-12M-001)
李明陽(1993- ),男,碩士研究生,(E-mail)403124921@qq.com
俞建昆,(E-mail)yjk@imbcams.com.cn