劉 毅, 李秀英, 莫雪梅, 張 光, 孫晗笑
(暨南大學藥學院基因組藥物研究所,廣東 廣州 510632)
先天性心臟病相關易感基因的預測性研究*
劉 毅, 李秀英, 莫雪梅, 張 光, 孫晗笑△
(暨南大學藥學院基因組藥物研究所,廣東 廣州 510632)
目的: 應用生物信息學預測先天性心臟病相關易感基因,為先天性心臟病的臨床診斷和治療提供理論依據。方法通過OMIM數據庫獲取已知的先天性心臟病相關易感基因。將已知的疾病相關易感基因作為“種子基因”,利用蛋白質相互作用網絡尋找鄰近節(jié)點中富集了疾病相關易感基因的“種子基因”,并視其鄰居基因為候選的疾病相關易感基因。對已知的疾病相關易感基因進行GO、Pathway和Human Phenotype富集分析,并據此注釋候選基因;運用文獻挖掘法對候選基因進行驗證性分析。結果通過OMIM共獲取已知的先天性心臟病相關易感基因28個,發(fā)現鄰近節(jié)點中富集了疾病相關易感基因的“種子基因”4個,得到候選的疾病相關易感基因20個,通過功能富集分析從中預測出新的先天性心臟病易感基因7個。文獻挖掘發(fā)現這7個基因在心臟發(fā)育過程中均起著極其重要的作用。結論通過生物信息學分析發(fā)現7個候選基因與已知的先天性心臟病相關易感基因關系密切,提示該病的發(fā)生是多種基因相互作用的結果,為后續(xù)深化該病機制研究提供了有效的指導。
心臟病,先天性; 蛋白質相互作用網絡; 疾病易感基因; 功能富集分析
先天性心臟病(congenital heart disease,CHD)是指胚胎時期心血管發(fā)育異常對心功能產生了實際或潛在影響的一組先天畸形,在新生兒中發(fā)病率約為1%,嚴重危害嬰幼兒健康。隨著遺傳學研究的深入開展及分子生物技術的廣泛應用,許多基因被證實在心臟發(fā)育中扮演重要角色,尤其是各種轉錄因子之間通過相互作用形成精確的調控網絡,發(fā)揮著中樞性作用,參與心臟發(fā)育。研究表明,很多人成年后發(fā)生的心律不齊、心肌收縮力下降等心臟疾患也可能是這些基因異常的結果[1]。隨著后基因組時代的到來,對基因組功能的研究變得更加廣泛而深入,破譯基因的生物學功能并且利用它們已成為功能基因組學的一個主要目標。復雜疾病被認為是由許多個基因相互作用導致的疾病。尋找與復雜疾病相關的易感基因并闡述它們在疾病中的作用,對復雜疾病的臨床診斷、治療手段的發(fā)展起著巨大的推動作用。本研究立足于蛋白質相互作用網絡,并根據功能相似基因可能導致相似疾病表型這一理論依據[2],對先天性心臟病相關易感基因進行了預測性研究,旨在為后續(xù)深化該病機制研究提供有效的指導。
1數據源與軟件分析工具
通過OMIM數據庫,共獲得已知的先天性心臟病相關易感基因28個。經過整合的人類蛋白質相互作用數據來源于HPRD、BIOGRID和BIND數據庫。互作數據整理后得到一個包含9 817個蛋白質的互作網絡。HPRD互作數據下載地址:http://www.hprd.org/。BIOGRID互作數據下載地址:http://www.thebiogrid.org/。BIND互作數據下載地址:http://bond.unleashedinformatics.com/。功能富集分析工具網絡地址:http://toppgene.cchmc.org/。文獻挖掘工具Chilibot網絡地址:http://www.chilibot.net/。
2蛋白質互作網絡分析
將所有已知的疾病易感基因作為“種子基因”在線輸入HPRD、BIOGRID和BIND數據庫,檢索、下載和整合已知的疾病易感基因對應蛋白在數據庫中的蛋白質-蛋白質相互作用信息,清除蛋白質相互作用數據中的重復數據。統(tǒng)計“種子基因”和直接與其發(fā)生相互作用的基因(亦稱鄰居基因)所構成的亞網絡包含的節(jié)點數目,計算以“種子基因”和鄰居基因構成的亞網絡中所包含的疾病易感基因的比例,并與所有具有蛋白質相互作用信息的“種子基因”及其鄰居基因構成的網絡中所包含的疾病易感基因的比例比較,判斷該“種子基因”鄰近節(jié)點是否能夠富集疾病相關易感基因,并據此將其鄰居基因視為候選的疾病相關易感基因。
3功能富集分析
利用功能富集分析工具ToppFun對已知的疾病易感基因從分子功能、生理過程和信號通路、細胞組分以及人體表型特征4個生物學功能角度進行注釋。根據疾病致病基因之間相同的生物學功能,篩選候選疾病相關易感基因中與已知易感基因功能一致的基因作為本次研究所預測的新的先天性心臟病相關易感基因。
4文獻挖掘分析
將英文關鍵詞(“congenital heart disease” 、 “congenital heart defects” 或 “heart development”)和所預測的結果基因在線輸入文獻挖掘工具Chilibot。通過閱讀Chilibot所列出的相關文獻摘要,判斷該基因與先天性心臟病、先天性心臟缺損和心臟發(fā)育之間的關系。
5統(tǒng)計學處理
1蛋白質互作網絡分析
28個已知的先天性心臟病基因中有24個基因對應的蛋白具有相互作用信息,24個“種子基因”共有鄰居基因233個(相互之間無重復),構成了一個由257個蛋白質、993個非自身相互作用構成的蛋白質相互作用網絡。每個“種子基因”與其鄰居基因構成的亞網絡包含的節(jié)點數目和所包含的疾病易感基因的比例結果見表1。統(tǒng)計分析發(fā)現,24個“種子基因”中,鄰近節(jié)點富集了疾病易感基因的“種子基因”僅4個,分別為:GATA結合蛋白4(GATA-binding protein 4,GATA4)(6/18,33.3%)、NK2相關轉錄因子5(NK2 transcription factor related,locus 5,NKX2-5)(4/11,36.4%)、Jumonji樣蛋白/AT富集反應性結構域2 (Jumonji/AT-rich interactive domain 2,JARID2)(4/6,66.7%)和T盒轉錄因子5(T-box transcription factor 5,TBX5)(3/3,100%),明顯高于在由257個蛋白質構成的蛋白質相互作用網絡中的比例(24/257,9.3%)(分別為:Plt;0.01、Plt;0.05、Plt;0.01和Plt;0.01)。以上分析結果提示,與先天性心臟病相關的易感基因具有更高的概率傾向富集于GATA4、NKX2-5、JARID2和TBX5這4個“種子基因” 鄰近節(jié)點中。因此,將GATA4、NKX2-5、JARID2和TBX5的鄰近節(jié)點中尚未被標記為疾病易感基因的基因進行整理,清除重復數據,共得到20個候選的先天性心臟病相關易感基因。
表1 “種子基因”與其鄰居基因構成的亞網絡包含的節(jié)點數目和所包含的疾病易感基因的比例
2功能富集分析
應用功能富集分析工具ToppFun對28個已知的先天性心臟病相關易感基因功能富集分析(顯著性水平為0.05)結果如下。
2.1分子功能的富集分析 選擇數據庫GO-Molecular Function,Plt;0.05,通過富集分析,共有16條分子功能條目具有顯著差異,見圖1。分析這16條分子功能條目發(fā)現:已知的先天性心臟病相關易感基因大部分為轉錄因子和轉錄活化因子、轉錄因子結合蛋白,參與調控基因的正確轉錄和表達。
2.2生理過程的富集分析 選擇數據庫GO-Biologic Process,Plt;0.05,通過富集分析,共有98條生理過程條目具有顯著差異。分析這98條生理過程條目發(fā)現:已知的先天性心臟病相關易感基因大部分為與心血管發(fā)育、組織器官形態(tài)發(fā)生、胚胎發(fā)育有著極為密切的聯系。
2.3信號通路的富集分析 選擇Pathway數據庫,Plt;0.05,通過富集分析,共有7條信號通路具有顯著差異,見圖2。分析這7條信號通路條目發(fā)現:所富集的信號通路主要與心肌細胞的生理活動密切相關,同時也從另一方面確證了生理過程的富集分析結果。
Figure 1.Significant molecular function terms for known congenital heart disease-related susceptibility genes.P va-lue was obtained through Fisherps exact probability test,Plt;0.05.
2.4細胞組分的富集分析 選擇GO-Cell Component數據庫,Plt;0.05,通過富集分析,未發(fā)現有顯著性細胞成分條目出現。
Figure 2.Significant pathway terms for known congenital heart disease-related susceptibility genes.P value was obtained through Fisherps exact probability test,Plt;0.05.
2.5人體表型特征的富集分析 選擇Human Phenotype數據庫,Plt;0.05,通過富集分析,共有7條人體表型特征條目具有顯著差異,見圖3。分析這7條人體表型特征條目發(fā)現:所富集的人體表型特征條目反映出已知疾病易感基因突變極易導致心室異常、心中隔異常、室間隔異常、室間隔缺損以及心臟血管異常等病理現象。
2.6功能注釋候選基因 以已知疾病相關易感基因所富集的GO、Pathway和Human Phenotype功能條目為背景,對所預測的20個候選的疾病相關易感基因進行注釋。結果發(fā)現:20個基因全部注釋到已知的疾病相關易感基因所富集的GO上,5個基因共享了已知疾病相關易感基因所富集的信號通路,2個基因與已知疾病相關易感基因反映了相同的人體表型特征。為了保證預測結果的準確性,同時考慮到3種數據庫所覆蓋的基因范圍不盡一致,我們選擇GO與Pathway或者GO與Human Phenotype共同識別的基因作為本次研究的最終預測結果,共計7個基因,分別為:血清反應因子(serum response factor,SRF)、肌細胞增強子元件因子(myocyte enhancer factor 2C,MEF2C)、E1A結合蛋白p300(E1A binding protein p300,EP300)、促分裂原活化蛋白激酶1(mitogen-activated protein kinase 1,MAPK1)、促分裂原活化蛋白激酶3(mitogen-activated protein kinase 3,MAPK3)、活化T細胞質鈣神經素依賴性轉錄因子4(nuclear factor of activated T-cells,cytoplasmic,calcineurin-dependent 4,NFATC4)和常染色質組蛋白賴氨酸N-甲基轉移酶(euchromatic histone-lysineN-methyltransferase 1,EHMT1)。
Figure 3.Significant human phenotype terms for known congenital heart disease-related susceptibility genes.P value was obtained through Fisherps exact probability test,Plt;0.05.
3文獻挖掘分析
應用文獻挖掘工具Chilibot搜索7個疾病相關易感基因與congenital heart disease、congenital heart defects、heart development等關鍵詞的關聯,發(fā)現7個基因中有2個基因(MAPK1、MAPK3)與先天性心臟病相關,1個基因(EHMT1)與先天性心臟缺損相關,4個基因(SRF、MEF2C、EP300、NFATC4)與心臟發(fā)育相關,見表2。
表2 預測所得的7個先天性心臟病易感基因及其參考文獻
伴隨著大量自發(fā)突變體的研究,人們已經越來越清楚1個基因控制1個性狀的關系是不存在的,所有復雜性狀都受控于多個基因。不少復雜疾病被認為是由許多個基因相互作用而導致的疾病。人們研究復雜疾病的一個主要目標是對疾病相關的易感基因進行預測性分析,從為疾病的診斷與防治提供理論參考。
本研究中,我們引入了蛋白質相互作用網絡對先天性心臟病相關易感基因進行了預測性分析。從系統(tǒng)生物學角度觀察,蛋白質作為生命活動的主要執(zhí)行者,各種生物學事件都是由蛋白質與別的基因、蛋白質或其它小分子物質相互作用并形成復雜的生物學網絡來完成的,基因或蛋白質不能獨立發(fā)揮生物學作用。而一旦正常的蛋白相互作用發(fā)生異常,就可能會導致疾病的發(fā)生。因此,研究蛋白質之間如何通過相互作用形成分子間調控網絡,具有重要的生物學意義,不僅有助于從系統(tǒng)角度理解各種生物學過程,還能廣泛應用于探索復雜性疾病的發(fā)生機制,評價臨床治療手段和尋找新的藥物靶標。近幾年,隨著蛋白質相互作用數據的海量增長,與其相關的數據庫也與日俱增,利用此類數據信息以研究各種生命活動現象已成為必然。從越來越多關于疾病相關易感基因預測的研究中,我們發(fā)現,即使是利用定位候選策略或是基因芯片技術[3],最終都要轉化到蛋白質相互作用網絡平臺來解決問題,如文獻[2],部分研究甚至直接利用蛋白質相互作用網絡來對疾病相關易感基因進行預測,如文獻[4]。本研究正是基于此種考慮,直接利用蛋白質相互作用網絡對先天性心臟病相關易感基因進行預測性分析,不失為一種更簡便準確的手段。
從生物學角度上觀察,基因與其鄰居基因往往具有相似的生物學功能,它們彼此之間的相互聯系則與某生物表型或者疾病密切相關[5-7]。Goh等[8]研究發(fā)現同一疾病蛋白在網絡中更傾向于存在相互作用,蛋白網絡中與某疾病相關的蛋白,其鄰近節(jié)點蛋白的功能變化更有可能與該蛋白一樣導致相同或相近的疾病[9,10]。Jonsson[11]研究發(fā)現,致病基因之間的互作不僅遠高于非致病基因之間的互作,而且致病基因比非致病基因在網絡中更傾向于成簇存在。在本研究中我們以“種子基因”的鄰居基因為篩選對象,其優(yōu)勢在于簡單且預測效果準確率高,但是忽略了蛋白質網絡的拓撲屬性特征與基因功能的關系,可能會造成部分潛在的候選基因被遺漏[12]。通過分析本研究的蛋白質相互作用網絡分析結果,我們發(fā)現,在由24個“種子基因”和233個鄰居基因所構成的蛋白質相互作用網絡中,與先天性心臟病相關的易感基因具有更高的概率傾向富集于GATA4、NKX2-5、JARID2和TBX5這4個“種子基因”鄰近節(jié)點中(Plt;0.05),提示我們:(1)這4個“種子基因”與其鄰居基因所構成的亞網絡與先天性心臟病的關系較其它“種子基因”更為密切,因此,我們將GATA4、NKX2-5、JARID2和TBX5的鄰近節(jié)點中尚未被標記為疾病易感基因的基因視為候選的先天性心臟病相關易感基因;(2)以這4個“種子基因”與其鄰居基因所構成的亞網絡可能與先天性心臟病發(fā)病相關的一種亞網絡機制。這表明先天性心臟病的發(fā)生可能是亞網絡中的基因協同作用的結果。而后續(xù)功能富集性分析的結果也證實了這一推測,所得到的7個候選易感基因與已知的疾病易感基因相比,有著相似的分子生物學功能,參與了相同的生物信號通路,導致了相關的病理表象。
從研究最終的分析結果來看,所得出的7個候選易感基因,經過文獻搜索,發(fā)現這7個候選基因與先天性心臟病的發(fā)生存在著極為密切的關聯。如:Nakamura等[13]的小鼠模型實驗證實下調MAPK1/3活性可以有效緩解先天性心臟病病情的發(fā)展;而Ghosh等[14]則發(fā)現TBX5與MEF2C之間的蛋白質物理相互作用對于早期的心臟發(fā)育不可或缺。文獻挖掘分析的結果提示,后續(xù)對于先天性心臟病機制的研究,可以擴大相關易感基因的研究范圍,深入探究這7個候選易感基因與已知的易感基因的互動關系,有利于更清楚地揭示先天性心臟病的發(fā)病機制。
[1]Srivastava D.Heart disease: an ongoing genetic battle?[J].Nature,2004,429 (6994): 819-822.
[2]趙 研,陳麗娜,張良才,等.基于功能一致性和網絡拓撲屬性預測冠心病致病基因[J].生物化學與生物物理進展,2009,36 (6): 781-786.
[3]張 黎,趙仲生,馬 杰,等.應用基因芯片篩選胃癌淋巴轉移相關基因及TLN1的初步研究[J].中國病理生理雜志,2009,25 (7): 1271-1278.
[4]Ortutay C,Vihinen M.Identification of candidate disease genes by integrating Gene Ontologies and protein-interaction networks: case study of primary immunodeficiencies[J].Nucleic Acids Res,2009,37 (2): 622-628.
[5]Gunsalus KC,Ge H,Schetter AJ,et al.Predictive models of molecular machines involved inCaenorhabditiselegansearly embryogenesis[J].Nature,2005,436 (7052): 861-865.
[6]Gandhi TK,Zhong J,Mathivanan S,et al.Analysis of the human protein interactome and comparison with yeast,worm and fly interaction datasets[J].Nat Genet,2006,38(3): 285-293.
[7]Xia K,Xue H,Dong D,et al.Identification of proliferation/differentiation switch in the cellular network of multicellular organisms[J].PLoS Comput Biol,2006,2(11): e145.
[8]Goh KI,Cusick ME,Valle D,et al.The human disease network[J].Proc Natl Acad Sci USA,2007,104 (21): 8685-8590.
[9]Oti M,Snel B,Huynen MA,et al.Predicting disease genes using protein-protein interactions[J].J Med Genet,2006,43 (8): 691-698.
[10]Karni S,Soreq H,Sharan RA network-based method for predicting disease-causing genes[J].J Comput Biol,2009,16 (2):181-189.
[11]Jonsson PF,Bates PA.Global topological features of cancer proteins in the human interactome[J].Bioinformatics,2006,22 (18): 2291-2297.
[12]Sharan R,Ulitsky I,Shamir R.Network-based prediction of protein function[J].Mol Syst Biol,2007,3: 88.
[13]Nakamura T,Colbert M,Krenz M,et al.Mediating ERK 1/2 signaling rescues congenital heart defects in a mouse model of Noonan syndrome[J].J Clin Invest,2007,117 (8): 2123-2132.
[14]Ghosh TK,Song FF,Packham EA,et al.Physical interaction between TBX5 and MEF2C is required for early heart development[J].Mol Cell Biol,2009,29 (8): 2205-2218.
Predictionofcongenitalheartdisease-relatedsusceptibilitygenes
LIU Yi, LI Xiu-ying, MO Xue-mei, ZHANG Guang, SUN Han-xiao
(InstituteofGenomicMedicine,CollegeofPharmacy,JinanUniversity,Guangzhou510632,China)
AIM: To understand the molecular pathogenesis of congenital heart disease and provide theoretical guideline for clinical diagnosis and treatment,congenital heart disease-related susceptibility genes were predicted.METHODSCongenital heart disease-related susceptibility genes recorded in NCBI OMIM database were considered as “seed genes” and extracted.Protein-protein interaction network was utilized for searching “seed genes”,whose neighborhood enriched disease-related susceptibility genes.Once the target “seed genes” were identified,its neighbor genes were considered as candidate disease-related susceptibility genes.The candidate genes were annotated according to the functional enrichment analysis of GO,Pathway and Human Phenotype for the known disease-related susceptibility genes.Literature-mining method was utilized for validating the predicted genes.RESULTSTwenty-eight congenital heart disease-related susceptibility genes recorded in NCBI OMIM database were extracted.According to the statistical analysis,4 “seed genes”,whose neighborhood enriched disease-related susceptibility genes,were identified.There were 20 candidate disease-related susceptibility genes.Seven genes were predicted to be congenital heart disease-related susceptibility genes and all of them participate in heart development by literature retrieval.CONCLUSIONThere are close relationships between the 7 candidate genes and the known disease-related susceptibility genes.The pathogenesis of congenital heart disease involves multiple genes,and investigation of these genes may provide valuable insights into the mechanism of congenital heart disease.
Heart disease,congenital; Protein-protein interaction network; Disease-related susceptibility genes; Functional enrichment analysis
1000-4718(2011)05-0928-06
R318.04
A
10.3969/j.issn.1000-4718.2011.05.018
2010-12-20
2011-03-30
國家自然科學基金資助項目(No.30872221)
△通訊作者 Tel:020-38375022; E-mail: sunhx718@yahoo.com.cn