艾倫娜,劉昱圻,陳韻岱
(中國人民解放軍總醫(yī)院: 1第一醫(yī)學(xué)中心心血管內(nèi)科, 2研究生院, 北京 100853;3中國人民總醫(yī)院第六醫(yī)學(xué)中心心血管病醫(yī)學(xué)部, 北京 100142)
冠心病是世界范圍內(nèi)最常見的心血管疾病[1],其中急性心肌梗死是導(dǎo)致死亡的主要原因之一[2]?;蛘{(diào)控對冠心病的發(fā)生和發(fā)展具有重要作用[3],在不同種族、性別患者中均具有一定影響[4,5]。最近,涉及數(shù)十萬人的全基因組關(guān)聯(lián)研究發(fā)現(xiàn)了許多新的冠心病相關(guān)基因位點,如影響血脂代謝和血壓等的相關(guān)基因。目前,面臨的主要挑戰(zhàn)之一是進一步探索這些基因中的致病基因,并了解其導(dǎo)致冠心病[6]的可能的分子機制。因此,尋找潛在的分子標志物為冠心病的早期診斷和臨床治療提供了可能。微陣列分析,別名基因表達譜,被發(fā)現(xiàn)對揭示分子機制和預(yù)測疾病預(yù)后有關(guān)鍵影響[7]。大多數(shù)微陣列數(shù)據(jù)存儲在公共數(shù)據(jù)庫中,如基因表達(gene expression omnibus, GEO)數(shù)據(jù)庫和Oncomine數(shù)據(jù)庫,其中GEO數(shù)據(jù)庫是由美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBD)于2000年創(chuàng)建并維護至今的高通量基因表達數(shù)據(jù)庫,包括了多種疾病相關(guān)的高通量基因表達數(shù)據(jù)。近年來,隨著高通量測序和表達譜芯片手段不斷發(fā)展進步,產(chǎn)生了海量的測序數(shù)據(jù),生物信息學(xué)作為一門新的學(xué)科領(lǐng)域也由此得到了快速發(fā)展。通過生物信息學(xué)手段,可以從基因?qū)用娣治錾飳W(xué)功能,從而進一步了解基因表達的調(diào)控機制,根據(jù)生物分子在基因調(diào)控中的作用,進而發(fā)現(xiàn)人類疾病潛在的診斷及藥物的分子靶點或疾病相關(guān)分子機制,心血管領(lǐng)域也已有相關(guān)研究。Chen等[8]通過生物信息分析來自微陣列的基因表達譜數(shù)據(jù),確定了單核細胞相關(guān)的3個關(guān)鍵基因(CUX1、CTSD和ADD3)作為早期識別急性心肌梗死(acute myocardial infarction,AMI)患者發(fā)生心力衰竭風(fēng)險的潛在生物標志物;Zhu等[9]在GEO數(shù)據(jù)庫中獲得6個數(shù)據(jù)集,并通過生物信息手段對它們進行了識別免疫相關(guān)基因的分析及診斷模型的構(gòu)建,最后發(fā)現(xiàn)AMI組C-C趨化因子受體(C-C chemokine receptor, CCR)、巨噬細胞、中性粒細胞、Treg細胞的比例明顯高于正常組,免疫相關(guān)基因和免疫細胞與AMI密切相關(guān),除此外仍有大量與AMI相關(guān)的生物信息學(xué)數(shù)據(jù)有待探索。本研究對GSE71226中冠心病患者和健康人的差異表達基因(differentially expressed genes, DEGs)進行了檢測,并對這些基因進行了基因本體論(gene ontology, GO)和京都基因與基因組百科(Kyoto encyclopedia of genes and genomes, KEGG)分析。也建立了蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction, PPI)網(wǎng)絡(luò),以可視化DEGs和識別樞紐基因。本研究旨在對GEO數(shù)據(jù)庫中的基因表達譜進行生物信息學(xué)分析,進一步研究探討冠心病相關(guān)的新的分子標志物,為冠心病機制探索提供新思路。
GEO (http://www.ncbi.nlm.nih.gov/geo)是用于存儲微陣列數(shù)據(jù)[10]的開放基因組數(shù)據(jù)庫。孟等[11]提交的基因表達數(shù)據(jù)集GSE71226有6個樣本,包括3例冠心病患者樣本和3名健康中國漢族樣本。
應(yīng)用GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)進行冠心病患者外周血總RNA與健康人的DEGs鑒定[12]。GEO2R是基于Web的程序、用于檢測GEO系列中的DEGs、且基于R語言的limma包[13]。矯正后的P<0.05和|logFC|≥1作為上調(diào)和下調(diào)的選擇條件。
注釋、可視化和綜合發(fā)現(xiàn)數(shù)據(jù)庫DAVID (https://david.ncifcrf.gov/)是執(zhí)行GO和KEGG[8]的有效方法。GO提供了轉(zhuǎn)錄組數(shù)據(jù)的分析平臺以解釋基因和基因產(chǎn)物在分子功能(molecular function, MF)、生物過程(biological progress, BP)和細胞成分(cellular component, CC)[9]三個關(guān)鍵領(lǐng)域的特征。KEGG是研究基因和分子系統(tǒng)基因功能的系統(tǒng)數(shù)據(jù)庫[14]。它是一種從分子水平理解生物功能的數(shù)據(jù)源,特別是海量分子數(shù)據(jù)集的評估。P<0.05為差異有統(tǒng)計學(xué)意義。采用R語言ggplot2包進行可視化相關(guān)分析。
檢索相互作用基因的搜索工具(STRING, http://www.string-db.org/)研究DEGs的PPI網(wǎng)絡(luò),Cytoscape(San Diego, California)進行繪制[15]。STRING數(shù)據(jù)庫收集、排序和組合所有公開可訪問的PPI數(shù)據(jù)資源,并通過計算預(yù)測進行匹配。CytoHubba根據(jù)連接程度選擇樞紐基因。CytoHubba為Cytoscape應(yīng)用程序,它使用一些拓撲計算預(yù)測和研究每個系統(tǒng)[16]中的重要樞紐和子網(wǎng)絡(luò)。
GSE71226數(shù)據(jù)集包括3例冠心病和3名健康樣本。應(yīng)用GEO2R技術(shù)探索2組差異表達的基因。最終發(fā)現(xiàn)了225個上調(diào)的DEGs和350個下調(diào)的DEGs(圖1)。
圖1 GSE71226的差異表達分析Figure 1 Differential expression analysis of GSE71226A: volcano plot; B: clustering heat map of DEGs, red indicates up-regulated DEGs and blue indicates down-regulated DEGs. DEGs: differentially expressed genes; CHD: coronary heart disease.
為了更系統(tǒng)地理解這些篩選的DEGs,本研究通過DAVID進行了功能分析。上調(diào)的前15名DEGs主要富含BP,涉及調(diào)節(jié)胰島素分泌、心臟傳導(dǎo)系統(tǒng)發(fā)育和心臟心房形態(tài)發(fā)生。在CC中,二纖維細胞主要與細胞-細胞連接、基底外側(cè)血漿膜和高爾基腔有關(guān)。此外,MF分析發(fā)現(xiàn),DEGs主要富含序列特異性的雙鏈DNA結(jié)合、雙鏈DNA結(jié)合和絲氨酸型內(nèi)肽酶活性(圖2A)。下調(diào)的前15名DEGs在BP的非運動纖毛組裝、線粒體內(nèi)膜組織和中心體蛋白定位中富集。它們在CC中富含S-腺苷蛋氨酸(S-adenosylmethionine, SAM)復(fù)合物、線粒體膜間空間橋接(mitochondrial inter-membrane-space bridging, MIB)復(fù)合物和線粒體外膜轉(zhuǎn)位酶復(fù)合物。它們在MF中富含snoRNA結(jié)合、核糖核酸內(nèi)切酶活性、產(chǎn)生5′-磷酸單核酸酯和M7g(5′)pppN二磷酸酶活性(圖2B)。
圖2 GO富集分析Figure 2 GO enrichment analysisA: GO enrichment analysis of up-regulated genes in BP, CC and MF; B: GO enrichment analysis of down-regulated genes in BP, CC and MF. GO: gene ontology; SAM: S-adenosylmethionine; MIB: mitochondrial intermembrane spacebridging; BP: biological progress; CC: cellular component;MF: molecular function.
KEGG通路的富集圖譜詳見圖3。這些上調(diào)的DEGs富含神經(jīng)活性配體-受體相互作用、環(huán)狀腺苷單磷酸酯(cyclic adenosine monophosphate, cAMP)信號通路、GnRH分泌和脂肪消化吸收,而下調(diào)的DEGs富含DNA復(fù)制、過氧化物酶體、RNA轉(zhuǎn)運和維生素消化。
圖3 DEGs的KEGG分析Figure 3 KEGG analysis of DEGsRed is the KEGG pathway upregulated by DEGs, blue is the KEGG pathway downregulated by DEGs. The higher the count, the higher the correlation between enriched pathways and DEGs. DEGs: differentially expressed genes; KEGG: Kyoto encyclopedia of genes and genomes.
構(gòu)建PPI網(wǎng)絡(luò),研究DEGs在冠心病外周血總RNA中的表達產(chǎn)物。上調(diào)的PPI網(wǎng)絡(luò)有713個節(jié)點和1 687條邊,下調(diào)的PPI網(wǎng)絡(luò)有410個節(jié)點和882條邊。基于圖4中的連通性顯示了PPI網(wǎng)絡(luò)。前5個樞紐基因分別為SST、CCK、POMC、HSPA9和BBS10。
圖4 PPI網(wǎng)絡(luò)Figure 4 PPI networkA: PPI network diagram of up-regulated DEGs; B: PPI network diagram of down-regulated. Circles represent genes and the linkage between two genes represents protein interactions. DEGs: differentially expressed genes; PPI: protein-protein interaction.
冠心病,即冠狀動脈動脈粥樣硬化性心臟病,屬常見心臟病[17]。經(jīng)皮冠狀動脈腔內(nèi)成形術(shù)已被應(yīng)用于許多冠心病患者的初期階段[18]。然而,冠心病癥狀在早期往往不典型。因此,發(fā)現(xiàn)相關(guān)臨床生物信息學(xué)對冠心病防治變得越來越重要。
本研究發(fā)現(xiàn)多種關(guān)鍵基因相關(guān)功能與冠心病的進展相關(guān),或可能參與冠心病的發(fā)生發(fā)展,如序列特異性雙鏈DNA結(jié)合,已被證明與心臟病相關(guān)。端粒是一種富含g的串聯(lián)DNA序列,呈雙鏈狀,隨著細胞分裂而縮短,它們可以通過保存和延長端粒減緩這一過程。一些相關(guān)研究表明,心肌細胞和內(nèi)皮細胞中端粒酶的表達和活性顯著升高,表明端粒酶調(diào)節(jié)心臟疾病中的組織修復(fù)[19]。這表明,雙鏈DNA結(jié)合是治療冠心病的一個重要靶點。
同時,本研究也發(fā)現(xiàn)了與冠心病進展相關(guān)的多種信號通路,如cAMP信號通路。環(huán)核苷酸cAMP和cGMP是心臟生理和病理的重要調(diào)節(jié)因子,也是心臟細胞中的主要第二信使。在環(huán)核苷酸水解磷酸二酯酶的水平上,有越來越多的證據(jù)表明cAMP和cGMP信號通路磷酸二酯酶之間存在功能上顯著的串?dāng)_[20]。在多種心臟疾病中,cAMP/cGMP微域和亞細胞濃度分布被強烈重構(gòu),導(dǎo)致磷酸二酯酶進一步參與cAMP/cGMP信號通路調(diào)節(jié)[20]。
本研究構(gòu)建了PPI網(wǎng)絡(luò),并在冠心病SST、CCK、POMC、HSPA9和BBS10中鑒定了幾個樞紐基因。根據(jù)文獻報道,這些樞紐基因與心臟病有關(guān)[21-23]。例如,載脂蛋白C3(apolipoprotein C-Ⅲ, APOC3)是一種脂蛋白,而脂蛋白是動脈粥樣硬化的重要因素。因此,參與脂蛋白代謝的基因可能是冠心病的候選基因[24]。APOC3基因具有許多多態(tài)性,包括C-482T、T-455C、SST1和C1100T[25]。其中,SST是我們從PPI網(wǎng)絡(luò)中提取的關(guān)鍵基因之一,其多態(tài)性與冠心病風(fēng)險之間的關(guān)系仍需要進一步研究。
BBS10是Bardet-Biedl綜合征(Bardet-Biedl syndrome, BBS)基因家族[26]的成員。BBS是一種常染色體退性功能障礙,以進行性視網(wǎng)膜變性、多指和認知障礙為特征。許多BBS蛋白存在于細胞的基底體、纖毛軸突和中心周區(qū)域,它們通過微管相關(guān)運輸[27]在細胞內(nèi)發(fā)揮作用。它們可能影響其他纖毛或基底體蛋白作為分子伴侶的折疊或穩(wěn)定性,具體表現(xiàn)為其表達阻斷前脂肪細胞的纖毛發(fā)生,從而增加心肌纖維化的可能性。一般來說,心肌纖維化與心臟代謝異常、心肌缺血、冠狀動脈粥樣硬化[28]等因素有關(guān)。因此,尋找新的肌纖維治療靶點對冠心病[29]及 CCK、POMC、HSPA9的研究也很有幫助,目前還沒有相關(guān)研究表明這些樞紐基因與冠心病有很強的相關(guān)性。這些差異表達基因可能與疾病相關(guān),但也可能只是伴隨現(xiàn)象,未來仍然需要進一步驗證分析。
綜上,對冠心病患者和健康樣本的芯片數(shù)據(jù)進行分析,揭示了冠心病的部分機制。本研究分析的樞紐基因和信號通路可能是冠心病診斷的有前途的生物標志物和潛在靶點。