黃 蕾,秦顯雨,吳岳恒,林吉進(jìn)
[1.南方醫(yī)科大學(xué)第二臨床醫(yī)學(xué)院,廣州 510515;2.廣東省心血管病研究所心內(nèi)科廣東省人民醫(yī)院(廣東省醫(yī)學(xué)科學(xué)院),廣州 510080]
肥厚型心肌病(hypertrophic cardiomyopathy,HCM)是最常見的由常染色體顯性遺傳的心肌病,既往普遍認(rèn)為其發(fā)病率在普通人群中為1∶500~1∶200[1-2]。HCM 是年輕人包括訓(xùn)練有素的運(yùn)動員猝死的最常見原因之一[3]。因此,HCM 發(fā)病機(jī)制的研究對HCM 的診療有著極其重要的意義。有研究表明,能量代謝、血管形成和炎癥反應(yīng)在心肌病理性肥大和心肌重構(gòu)過程中起著至關(guān)重要的作用[4-5]。但其具體機(jī)制至今尚未明確,系統(tǒng)性分析其分子機(jī)制及轉(zhuǎn)錄圖譜有利于進(jìn)一步揭示疾病的整體病理進(jìn)程。本研究擬通過系統(tǒng)性分析HCM患者的高通量測序芯片,構(gòu)建心肌病的差異性基因表達(dá)譜,進(jìn)行生物信息學(xué)注釋,從而發(fā)現(xiàn)與HCM 相關(guān)的關(guān)鍵基因及信號通路,并進(jìn)一步闡明其潛在的分子機(jī)制。
本研究所使用的高通量測序數(shù)據(jù)集(GSE36961)來自于美國國家生物信息中心(NCBI)下的高通量基因表達(dá)數(shù)據(jù)庫Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/),平臺編號為GPL15389(Illumina HumanHT-12 V3.0 expression beadchip),表達(dá)數(shù)據(jù)類型為Expression profiling by array,種屬為Homo sapiens。該數(shù)據(jù)集中包含106例HCM 樣本及39 例對照組樣本,HCM 的基因組樣本來自于HCM 患者的外科手術(shù)切除組織,對照組樣本來自于正常人的心肌組織。
1.2.1 差異表達(dá)基因譜構(gòu)建 通過使用R 語言中Bioconductor 工具集中的“l(fā)imma 程序包”,來完成GSE36961 數(shù)據(jù)集中的HCM 和正常心肌組織間的差異表達(dá)基因分析,并應(yīng)用貝葉斯算法對P值進(jìn)行校正,定義|LogFC|≠0 且校正后P<0.05 為標(biāo)準(zhǔn)來對數(shù)據(jù)集進(jìn)行篩選,從而構(gòu)建HCM 患者的差異表達(dá)基因譜。
1.2.2 加權(quán)重共表達(dá)網(wǎng)絡(luò)構(gòu)建及模塊識別 通過使用R 語言中的“WGCNA 程序包”,來進(jìn)行加權(quán)重共表達(dá)網(wǎng)絡(luò)的構(gòu)建及模塊的識別。首先剔除離群樣本從而使網(wǎng)絡(luò)構(gòu)建結(jié)果穩(wěn)定,然后選擇適當(dāng)?shù)能涢撝郸率箻?gòu)建的網(wǎng)絡(luò)近似為一個(gè)無尺度網(wǎng)絡(luò),并將數(shù)據(jù)轉(zhuǎn)化為拓?fù)渲丿B矩陣。隨后利用動態(tài)剪切樹法行層次聚類,從而得到差異基因的整體聚類樹,聚類樹的分支即定義為基因模塊。然后計(jì)算這些基因模塊的特征向量基因(module eigengene,ME),通過聚類合并這些模塊的ME,可得到相似程度高的基因模塊,從而構(gòu)建出差異表達(dá)基因的加權(quán)重共表達(dá)網(wǎng)絡(luò)。接著對模塊的ME 進(jìn)行分析,最終得到我們所需要的目的模塊。
1.2.3 模塊內(nèi)基因功能富集分析 為了解識別出來的模塊內(nèi)基因所具有的生物學(xué)功能,本研究使用ToppGene 數(shù)據(jù)庫(https://toppgene.cchmc.org/)進(jìn)行基因本體論分析(gene ontology,GO)及京都基因與基因組百科全書分析(Kyoto encyclopedia of genes and genomes,KEGG)。通過GO 分析,我們可得到各模塊中基因所富集的生物過程(biological process,BP)、細(xì)胞組分(cellular components,CC)及分子功能(molecular function,MF)。通過KEGG分析,我們可得到各模塊基因所富集的信號通路。以上均定義P<0.05 為顯著富集。
1.2.4 蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建 使用STRING數(shù)據(jù)庫(https://string-db.org/)對差異表達(dá)基因進(jìn)行蛋白質(zhì)相互作用網(wǎng)絡(luò)分析。在蛋白互作網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)(Node)代表一個(gè)蛋白質(zhì),節(jié)點(diǎn)間的連線(Edge)代表蛋白間的相互作用。使用Cytoscape軟件(3.7.1 版)對蛋白質(zhì)互相作用的結(jié)果進(jìn)行繪圖,并使用軟件中的CytoHubba 插件通過12 種方法篩選出連接度最高的前10 個(gè)關(guān)鍵基因。
本研究中的差異表達(dá)基因譜的構(gòu)建、加權(quán)重共表達(dá)網(wǎng)絡(luò)的構(gòu)建及模塊識別均使用基于R 語言平臺的R 軟件(3.6.1 版)來完成。以上均定義P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
通過運(yùn)用R 語言中的“l(fā)imma 程序包”以|Log-FC|≠0、P<0.05 為標(biāo)準(zhǔn)對數(shù)據(jù)集GSE36961 進(jìn)行分析,篩選出8 002 個(gè)差異表達(dá)基因。根據(jù)差異表達(dá)基因的結(jié)果構(gòu)建火山圖(圖1),從而對樣本之間和基因之間的差異表達(dá)結(jié)果進(jìn)行直觀展示。同時(shí)對前40 個(gè)顯著性最高的差異表達(dá)基因進(jìn)行層次聚類分析并構(gòu)建熱圖(圖2),熱圖的橫坐標(biāo)代表組織樣本的聚類,一列代表一個(gè)樣本,其聚類基于樣本間基因表達(dá)的相似性,因此樣本間基因的表達(dá)越接近,則靠得越近;縱坐標(biāo)則代表差異表達(dá)基因的聚類,一行代表一個(gè)基因,聚類基于基因在樣本中表達(dá)的相似性,因此基因在樣本中的表達(dá)越接近,則靠得越近。由此可見,表達(dá)模式相近的基因具有功能相關(guān)性。
如方法學(xué)所示,使用R 語言中的“WGCNA 包”來實(shí)現(xiàn)差異表達(dá)基因的加權(quán)重共表達(dá)網(wǎng)絡(luò)的構(gòu)建。在選擇合適的軟閾值β以構(gòu)建無尺度網(wǎng)絡(luò)時(shí),需考慮對各基因節(jié)點(diǎn)(Node)的平均連接度、中位連接度及最大連接度進(jìn)行適度保留,本研究最終選取β=11 用于構(gòu)建加權(quán)重共表達(dá)網(wǎng)絡(luò)。確定β值后,通過動態(tài)剪切樹法進(jìn)行模塊的初步識別并合并ME 相似的模塊,去除灰色模塊(此模塊由無法分配至任何一個(gè)模塊的基因構(gòu)成)后,最終得到11 個(gè)基因共表達(dá)模塊。
在納入研究的臨床信息中,性別(gender)和年齡(age)為非時(shí)間相關(guān)的變量。以ME 及其相應(yīng)變量的Pearson 相關(guān)系數(shù),即模塊隸屬度(module membership,MM),來代表模塊與相應(yīng)臨床信息的相關(guān)性,可見青色模塊MEcyan(Pearson cor=0.77,P=4e-29)、紫紅色模塊MEmagenta(Pearson cor=0.76,P=2e-28)均與HCM 中等程度相關(guān),其余模塊與臨床信息的關(guān)系均為弱相關(guān)或不相關(guān)(圖3)。各模塊與性別、年齡的相關(guān)系數(shù)絕對值均小,且相關(guān)性均基本為不顯著。
為篩選出基因顯著水平(gene significance,GS)與MM 有較高相關(guān)程度且在模塊中發(fā)揮更重要作用的基因,將MM 相對于GS 做散點(diǎn)圖,可見青色模塊中cor=0.68,P<1e-200(圖4),紫紅色模塊中cor=0.76,P=9.8e-73(圖5)。
將兩個(gè)模塊中篩選出來的基因分別導(dǎo)入ToppGene 數(shù)據(jù)庫(https://toppgene.cchmc.org/)中進(jìn)行GO 分析及KEGG 通路分析,設(shè)置P<0.05 為顯著富集的標(biāo)準(zhǔn),富集相關(guān)性最強(qiáng)的前10 個(gè)條目繪圖。通過GO 分析,可見青色模塊基因的生物過程主要富集在能量代謝中(圖6A);細(xì)胞組分主要富集在線粒體中(圖6B);分子功能則主要富集在能量代謝相關(guān)蛋白活性及結(jié)合中(圖6C)。而紫紅色模塊通過GO 分析,可見其生物過程主要富集在血管形成中(圖7A);細(xì)胞組分主要富集在含細(xì)胞外基質(zhì)相關(guān)成分中(圖7B);分子功能則主要富集在細(xì)胞外基質(zhì)相關(guān)蛋白活性及結(jié)合中(圖7C)。通過KEGG 分析,可見青色模塊中基因的信號通路主要富集于能量代謝中(圖6D),紫紅色模塊基因的信號通路主要富集在細(xì)胞外成分形成的相關(guān)通路中(圖7D)。
將兩個(gè)模塊中所有篩選出來的基因(青色模塊2 816 個(gè),紫紅色模塊380 個(gè),共3 196 個(gè)基因)導(dǎo)入STRING 數(shù)據(jù)庫(https://string-db.org/),得到差異表達(dá)基因的蛋白質(zhì)相互作用網(wǎng)絡(luò),并使用Cytoscape 軟件對蛋白互作的結(jié)果進(jìn)行可視化(圖8)。隨后使用軟件中的MCODE 插件篩選子模塊,并設(shè)置MCODE 評分>10 為標(biāo)準(zhǔn)。經(jīng)過篩選后,我們從中獲得了32 個(gè)基因(平均MCODE 得分=10.129),包括32 節(jié)點(diǎn)(Node)及157 個(gè)節(jié)點(diǎn)間的連線(Edge),其中一個(gè)節(jié)點(diǎn)代表一個(gè)蛋白質(zhì),節(jié)點(diǎn)間的連線代表蛋白間的相互作用。然后使用軟件中的CytoHubba 插件,通過12 種算法篩選連接度最高的前10 位的基因作為關(guān)鍵基因(圖9),分別為APP、DYNC1H1、甲酰肽受體2(formyl peptide receptor 2,F(xiàn)PR2)、GNB1、毒蕈堿型膽堿受體M2(cholinergic receptor muscarinic 2,CHRM2)、CD59、ARPC2、GNG7、AP2M1、HSP90B1。
HCM 可導(dǎo)致心律失常性猝死、心力衰竭和心房纖顫(可致栓塞性卒中)等不良后果,是年輕人包括訓(xùn)練有素的運(yùn)動員猝死的最常見原因之一[6],其治療方式現(xiàn)已有了較大的進(jìn)步,但其發(fā)病機(jī)制仍未完全明確,許多人的治療效果并不理想,預(yù)期壽命或?qū)嵸|(zhì)性癥狀沒有大幅度降低[7]。關(guān)于HCM的基因研究始于20多年前,現(xiàn)已發(fā)現(xiàn)上千種肌節(jié)相關(guān)蛋白基因如MYH7、MYPBC3 和TNNT2 等基因的突變與疾病的發(fā)生相關(guān)[8]。基因檢測可在臨床疾病發(fā)病前識別無癥狀的HCM 患者,從而對疾病的診斷、治療和預(yù)后進(jìn)行指導(dǎo),因此,基因檢測已成為歐洲和北美指南中I 類推薦的輔助檢查[9-11]。由此可見,對HCM 的基因譜進(jìn)行分析,從而對HCM 的發(fā)病機(jī)制進(jìn)行分子層面的探索,這對疾病的預(yù)防、治療及預(yù)后有著極其重要的作用。
本研究通過從GEO 數(shù)據(jù)庫中下載GSE36961數(shù)據(jù)集并使用R 語言的“l(fā)imma 程序包”進(jìn)行分析后,共獲得與HCM 相關(guān)的差異表達(dá)基因8 002 個(gè)。這些數(shù)據(jù)表明,HCM 患者的心肌組織與正常人的心肌組織間的基因表達(dá)確實(shí)存在差異。
為系統(tǒng)性展現(xiàn)并解釋疾病的分子網(wǎng)絡(luò)機(jī)制,本研究利用了R 語言中的“WGCNA 程序包”進(jìn)行網(wǎng)絡(luò)圖譜構(gòu)建,從中發(fā)現(xiàn)了與HCM 相關(guān)的青色模塊與紫紅色模塊。通過對青色模塊內(nèi)的基因進(jìn)行功能富集分析,本研究發(fā)現(xiàn)其生物過程、分子功能及信號通路主要富集在能量代謝中,細(xì)胞組分主要富集在線粒體中。既往研究發(fā)現(xiàn),在心肌病理性肥大的發(fā)展過程中,心肌細(xì)胞重構(gòu)了能量代謝的產(chǎn)生機(jī)制,減少了葡萄糖的氧化,增加了糖酵解和其他形式的代謝[12],這種細(xì)胞代謝的改變直接誘導(dǎo)或促進(jìn)了心肌病理性肥大的發(fā)生[13]。此外,供應(yīng)心肌細(xì)胞能量的減少導(dǎo)致了心肌細(xì)胞的死亡和纖維化,從而導(dǎo)致心肌細(xì)胞從適應(yīng)到心肌肥大甚至心力衰竭的轉(zhuǎn)變[14],而線粒體功能障礙是這一過程公認(rèn)的潛在機(jī)制[15-16]。這些都和本研究所發(fā)現(xiàn)結(jié)果相符合。
通過對紫紅色模塊內(nèi)的基因進(jìn)行功能富集分析,本研究發(fā)現(xiàn)其生物過程主要富集在血管形成中。既往研究表明,毛細(xì)血管的數(shù)量會對心肌能量的供應(yīng)造成影響,從而成為影響心肌病理性肥大的重要因素[17]。血管內(nèi)皮生長因子(vascular endothelial growth factor,VEGF)是維持心肌新生毛細(xì)血管數(shù)量的重要血管生成分子,VEGF 的缺失會導(dǎo)致心肌血管生成的減少和心臟功能的受損[18]。目前VEGF 信號通路抑制劑已被臨床上批準(zhǔn)用于治療各種類型的癌癥,然而,這些抑制劑的使用可能導(dǎo)致心肌病等心血管相關(guān)毒性疾病的發(fā)生[19]。在心肌生理性肥大中,新生毛細(xì)血管的數(shù)量隨著心肌細(xì)胞的生長而增加,從而為心肌提供足夠的營養(yǎng)和氧氣,但在心肌病理性肥大時(shí),新生毛細(xì)血管數(shù)量和冠狀動脈血流儲備不足,不能支持心肌生長,從而導(dǎo)致心肌輕度缺氧和營養(yǎng)不足[20-21]。這些也與本研究所發(fā)現(xiàn)結(jié)果相一致。
本研究還發(fā)現(xiàn),紫紅色模塊內(nèi)基因的細(xì)胞組分、分子功能和信號通路主要富集在細(xì)胞外基質(zhì)成分的形成當(dāng)中。本研究還通過STRING 數(shù)據(jù)庫篩選出前10 位連接度最高的基因,其中FPR2 被報(bào)道與心肌的炎癥反應(yīng)及免疫激活相關(guān)[22-23],CHRM2 被報(bào)道與自身免疫性心肌病相關(guān)[24]。既往研究顯示,心肌病理性肥大的發(fā)生與炎癥信號因子的釋放和免疫細(xì)胞的激活有關(guān)。而炎癥信號因子在心肌細(xì)胞和非心肌細(xì)胞中所引發(fā)的反應(yīng)各不相同,比如白細(xì)胞介素-1β、腫瘤壞死因子-α和白細(xì)胞介素-6 等炎癥信號因子,在心臟的成纖維細(xì)胞中,它們所引發(fā)的反應(yīng)主要表現(xiàn)為抑制心肌細(xì)胞增殖,減少基質(zhì)合成,以及增加基質(zhì)金屬蛋白酶的活性;在心肌細(xì)胞中,則表現(xiàn)為誘導(dǎo)心肌細(xì)胞肥大,并引起心肌細(xì)胞的凋亡;而在免疫細(xì)胞中,則表現(xiàn)為促進(jìn)炎癥的發(fā)生,造成心肌細(xì)胞的損傷[25-26]。由此可見,在心臟損傷和肥厚性重構(gòu)的過程中,心肌炎癥的發(fā)生可以誘導(dǎo)心肌病理性肥大和心肌纖維化,最終導(dǎo)致心肌細(xì)胞死亡的不良結(jié)局[27]。以上亦與本研究所發(fā)現(xiàn)結(jié)果相符合。
此外,本研究發(fā)現(xiàn)年齡或性別與模塊之間沒有顯著相關(guān)性。這與既往流行病學(xué)調(diào)查結(jié)果相類似:HCM 與性別、年齡無明顯相關(guān)性,無論男女均可發(fā)生,亦可在任何年齡出現(xiàn)臨床表現(xiàn),兒童和成人均可能發(fā)生猝死[28-29]。
綜上所述,本研究通過生物信息學(xué)算法再分析了GEO 數(shù)據(jù)庫中106 例HCM 及39 例對照組人類心肌樣本,一方面充分利用數(shù)據(jù)庫資源,減少了取樣和測序的成本,另一方面通過更新的系統(tǒng)生物信息學(xué)算法也可再挖掘更多的分子機(jī)制信息。本研究通過分析結(jié)果識別出與HCM 相關(guān)的兩個(gè)模塊,并篩選出相應(yīng)的關(guān)鍵基因,印證了HCM 的發(fā)病機(jī)制與能量代謝、血管形成及炎癥反應(yīng)相關(guān),為HCM 的進(jìn)一步治療提供思路,從而使患者能夠最大程度從治療中獲益。同時(shí),識別出的關(guān)鍵基因中,除FPR2 及CHRM2 外的其余基因與HCM 的關(guān)聯(lián)雖尚未見報(bào)道,但其對HCM 發(fā)病的分子機(jī)制的深層次分析具有一定的價(jià)值,這為HCM 分子機(jī)制的深入研究提供了一定的理論依據(jù),這些基因的作用仍需在未來的細(xì)胞及動物實(shí)驗(yàn)中得到進(jìn)一步的驗(yàn)證。