劉 錚,王治財(cái),倉(cāng) 彥,錢(qián)云云,劉 靜,尹依恒
(1.安徽理工大學(xué)醫(yī)學(xué)院,安徽 淮南 232001 ;2.同濟(jì)大學(xué)附屬上海市第十人民醫(yī)院心內(nèi)科,上海 200072)
急性心肌梗死(acute myocardial infarction,AMI)是一種給社會(huì)和患者帶來(lái)極大負(fù)擔(dān)的急性冠狀動(dòng)脈疾病[1]。AMI主要包括急性ST段抬高型心肌梗死(ST-segment elevation myocardial infarction,STEMI)和急性非ST段抬高型心肌梗死(non-ST-elevation MI,NSTEMI),其高死亡率是威脅人類(lèi)健康的主要因素,尤其是STEMI[2]。近年來(lái),心臟生物標(biāo)志物的發(fā)現(xiàn)和評(píng)估快速發(fā)展,然而目前已廣泛應(yīng)用于臨床診斷的生物標(biāo)志物在急性心肌梗死前4h內(nèi)血清濃度一般不會(huì)達(dá)到峰值[3]745。
心肌標(biāo)志物不僅具有診斷價(jià)值,而且對(duì)患者的預(yù)后能力存在相關(guān)性[4-5]。有研究表明肌鈣蛋白是很好的預(yù)后指標(biāo),心肌肌鈣蛋白水平升高明顯增加心血管事件復(fù)發(fā)的風(fēng)險(xiǎn),與肌鈣蛋白濃度正常的患者相比,肌鈣蛋白升高與死亡或心肌梗死復(fù)發(fā)風(fēng)險(xiǎn)增加約4倍相關(guān)[6-8],即使是在生物標(biāo)志物不能用于診斷目的STEMI患者中,入院時(shí)肌鈣蛋白升高與更糟糕的預(yù)后相關(guān)[9-10]。目前研究表明心力衰竭、腎病、心肌炎等其他病因可造成檢測(cè)到的肌鈣蛋白水平升高[11-12]和檢測(cè)的“假陽(yáng)性”[13]。
早期心肌梗死中不能準(zhǔn)確確定肌鈣蛋白的水平,最近集中在尋找更敏感和特異性的替代標(biāo)志物,以促進(jìn)AMI患者早期適當(dāng)?shù)闹委?,在入院早期排除“假?yáng)性”患者,從而盡早阻斷或延緩其進(jìn)展。本研究旨在利用生物信息學(xué)分析GEO數(shù)據(jù)庫(kù)數(shù)據(jù)集,從基因表達(dá)綜合數(shù)據(jù)庫(kù)中提取RNA表達(dá)譜數(shù)據(jù)集,進(jìn)行了注釋、合并、標(biāo)準(zhǔn)化去除批次效應(yīng),對(duì)差異表達(dá)基因(differentially expressed genes,DEGs)進(jìn)行基因本體(Gene Ontology,GO)富集分析和京都基因與基因組百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析,蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)分析后用Cytoscape軟件繪制PPI網(wǎng)絡(luò)圖并篩選Hub基因。為了驗(yàn)證模型的穩(wěn)定性,本研究建立了基于Hub基因的隨機(jī)森林模型和邏輯回歸模型,以期為進(jìn)一步闡明STEMI的分子機(jī)制、幫助STEMI患者早期診斷及個(gè)性化治療提供理論依據(jù)。
(1)數(shù)據(jù)采集與預(yù)處理
為了確定早期4h內(nèi)ST段抬高型心肌梗死的關(guān)鍵基因和信號(hào)路徑,從GEO數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/geo/)[14]獲得GSE 60993( GPL 6884)和GSE 61144(GPL 6106)的RNA表達(dá)譜數(shù)據(jù)[15]12 981, 研究了ST段抬高型心肌梗死患者和正常人血液樣本的微陣列。數(shù)據(jù)集的納入標(biāo)準(zhǔn)如下: ①微陣列表達(dá)數(shù)據(jù); ②人類(lèi)樣本外周血全基因組表達(dá)譜; ③數(shù)據(jù)集包括ST段抬高型心肌梗死患者和正常對(duì)照組; ④急性胸痛發(fā)作后4h內(nèi)就診的STEMI患者的血液。14個(gè)樣本來(lái)自GSE 60993,該樣本基于GPL 6884 Illumina HumanWG-6v3.0表達(dá)芯片,包括7名ST段抬高型心肌梗死患者和7名健康對(duì)照組樣本。17個(gè)樣本來(lái)自GSE 61144,該樣本基于GPL 6106 Sentrix Human-6v2 Expression BeadChip,包括7名STEMI患者和10名健康對(duì)照的樣本[15]12 972。隨后將數(shù)據(jù)集中探針中轉(zhuǎn)換為基因符號(hào),將兩個(gè)表達(dá)數(shù)據(jù)集合并為一個(gè)數(shù)據(jù)集,并且使用R的“SVA”軟件包進(jìn)行標(biāo)準(zhǔn)化處理,以消除批次效應(yīng)影響[16]。
(2)DEGs鑒定
“l(fā)imma”包的經(jīng)驗(yàn)“Bayes”方法用來(lái)識(shí)別DEGs[17]?;鹕綀D和熱圖通過(guò)R的“l(fā)imma”和“pheatmap”軟件繪制。本研究中DEGs的臨界值選擇標(biāo)準(zhǔn)是矯正后P<0.05,F(xiàn)C=1.8。
(3)GO與KEGG分析
R軟件Bioconductor “org.Hs.eg.db”軟件包被用來(lái)將基因符號(hào)轉(zhuǎn)換成entrezID。然后利用R的“cluster profiler”軟件包[18]和“pathview”軟件包[19]對(duì)轉(zhuǎn)化后的entrezID進(jìn)行GO富集分析和KEGG通路分析(P<0.05和Q<0.05),R的“ggplot2”包用于對(duì)結(jié)果進(jìn)行可視化。
(4)PPI構(gòu)建與Hub基因選擇
在STRING數(shù)據(jù)庫(kù)(http://string-db.org)中尋找DEGs相互作用關(guān)系[20-21],置信度閾值為≥0.7。Cytoscape軟件用于繪制蛋白質(zhì)相互作用關(guān)系網(wǎng)絡(luò)圖[22],分析從STEMI患者和正常對(duì)照組獲得的DEG編碼蛋白質(zhì)之間的關(guān)系,應(yīng)用cytoHubba 插件篩選Hub基因。R的“ggplot2”包用于對(duì)篩選出30個(gè)分值最大的候選基因進(jìn)行可視化。
(5)模型的建立
根據(jù)蛋白質(zhì)相互作用網(wǎng)絡(luò)對(duì)篩選出7個(gè)Hub基因建立了隨機(jī)森林模型和邏輯回歸模型,其中連續(xù)預(yù)測(cè)變量是7關(guān)鍵基因的表達(dá),結(jié)果變量是樣本類(lèi)型(STEMI和正常)。分別采用隨機(jī)森林R包和R的“glm”包構(gòu)建隨機(jī)森林模型和邏輯回歸模型[23-24]。R“Caret”包用于在兩個(gè)模型中的5倍交叉驗(yàn)證[25]。用受試者操作特征曲線(xiàn)評(píng)價(jià)模型的特異性和敏感性,用曲線(xiàn)下面積(area under the curve,AUC)評(píng)價(jià)模型的準(zhǔn)確性。
(1)DEGs的鑒定
與健康對(duì)照組相比,在STEMI樣本中鑒定出了300個(gè)DEGs (標(biāo)準(zhǔn)為矯正后P<0.05和FC=1.8),包括237個(gè)上調(diào)基因和63個(gè)下調(diào)基因,火山圖和熱圖如圖1(a)和圖1(b)所示,圖1(b)中每行代表1個(gè)DEG,每列代表1個(gè)樣本;N代表正常,S代表STEMI,顯示出顯著差異。其中上調(diào)基因中前10個(gè)差異基因?yàn)锳LOX5AP、CEBPD、PREX1、SLA、IL18R1、FKBP5、MANSC1、HMGB2、IRAK3、IRS2,下調(diào)基因中前10個(gè)差異基因?yàn)镸AP4K1、PTPRCAP、ADA、PLEKHF1、SCAP1、EOMES、GIMAP5、LOC387841、CD6、LOC127295,這些基因中大部分參與炎癥、免疫過(guò)程,表明炎癥、免疫在心肌梗死發(fā)生發(fā)展過(guò)程中起重要作用。
(a)DEGs的火山圖
(b)DEGs的熱圖圖1 火山圖和熱圖
(2)GO和KEGG分析
為初步了解這些DEGs,根據(jù)已識(shí)別的DEGs進(jìn)行GO和KEGG通路分析。如圖2(a)和圖2(b)所示,7個(gè)GO項(xiàng)和19條KEGG通路在分析中顯著富集(P<0.05,校正后P<0.05)。根據(jù)GO富集分析表明,脂多糖結(jié)合、模式識(shí)別受體活性、RAGE受體結(jié)合、信號(hào)模式識(shí)別受體活性和水解酶活性(作用于碳氮,而不是肽鍵)是最顯著富集的生物過(guò)程。此外,對(duì)于KEGG通路分析結(jié)果,利什曼病、造血細(xì)胞譜系和炎癥性腸病是顯著富集的信號(hào)途徑,這些富集的通路在急性心肌梗死的發(fā)生發(fā)展中起著重要作用。KEGG途徑富集分析表明,DEGs主要參與細(xì)胞粘附分子、吞噬體、金黃色葡萄球菌感染、人T細(xì)胞白血病病毒-1感染和病毒性心肌炎。
(a)GO分析
(3)PPI網(wǎng)絡(luò)構(gòu)建與Hub基因選擇
通過(guò)篩選的DEGs構(gòu)建了一個(gè)包含119個(gè)節(jié)點(diǎn)和416條邊的PPI網(wǎng)絡(luò),并在Cytoscape中繪制了PPI網(wǎng)絡(luò)圖。如圖3(a)所示,網(wǎng)絡(luò)中間為7個(gè)Hub基因?qū)?yīng)蛋白,所有節(jié)點(diǎn)的PPI分值由外向內(nèi)依次升高,顏色由淺到深。通過(guò)R的ggplot2軟件包對(duì)篩選出30個(gè)分值最高的基因進(jìn)行可視化,如圖3(b)所示,其中分值最高的7個(gè)基因FPR2、ITGAM、BST1、CEACAM8、MMP9、FPR1和ELANE被確定為Hub基因。
(a)PPI網(wǎng)絡(luò)與Hub基因
(4)模型的構(gòu)建
隨機(jī)森林模型和邏輯回歸模型基于PPI網(wǎng)絡(luò)中選定的7個(gè)Hub基因,即FPR2、ITGAM、BST1、CEACAM8、MMP9、ELANE和FPR1,其中連續(xù)預(yù)測(cè)變量為7個(gè)Hub基因的表達(dá),結(jié)果變量為樣本類(lèi)型(STEMI和正常)。5倍交叉驗(yàn)證隨機(jī)森林模型和5倍交叉驗(yàn)證邏輯回歸模型驗(yàn)證表明,如圖4所示,兩個(gè)模型的驗(yàn)證一致。兩個(gè)模型關(guān)鍵基因?qū)?yīng)樣本分類(lèi)特征表明,31個(gè)樣本中包括14名STEMI患者和17名健康對(duì)照樣本均能正確分類(lèi),分類(lèi)準(zhǔn)確率為100%,模型對(duì)STEMI的敏感性為100%、特異性為100%,ROC曲線(xiàn)下面積都等于1,表明兩個(gè)模型都能準(zhǔn)確地區(qū)分STEMI患者和健康對(duì)照組,從而驗(yàn)證了模型的準(zhǔn)確性。
(a)采用5倍交叉驗(yàn)證法建立隨機(jī)森林模型
經(jīng)皮冠狀動(dòng)脈介入治療是STEMI患者最突出的治療方法之一?;颊邚募痹\室到血管開(kāi)通的時(shí)間應(yīng)小于90min,因到達(dá)醫(yī)院后再灌注時(shí)間的任何延遲都與住院死亡率的高風(fēng)險(xiǎn)相關(guān)[26]。然而,在實(shí)現(xiàn)這一目標(biāo)方面存在重大障礙,涉及交通、醫(yī)院設(shè)施、入院等候時(shí)間和診斷檢測(cè)等問(wèn)題。由于時(shí)間延遲導(dǎo)致了較差的結(jié)果,因此繼續(xù)尋求診斷和治療時(shí)間的改進(jìn),特別是在STEMI方面具有較高的死亡率,生物標(biāo)志物作為重要的診斷標(biāo)準(zhǔn)之一。一般認(rèn)為,在急性心肌梗死患者的功能失調(diào)效應(yīng)發(fā)生之前,影響已經(jīng)在細(xì)胞水平上出現(xiàn)。表明對(duì)暴露的血細(xì)胞中分子應(yīng)激反應(yīng)的分析可以產(chǎn)生關(guān)于每種作用模式和AMI不同發(fā)病機(jī)制的信息。由于分子應(yīng)激反應(yīng)是通過(guò)基因表達(dá)的變化來(lái)反映的,因此利用生物信息學(xué)方法對(duì)GEO數(shù)據(jù)集(GSE 60993和GSE 61144數(shù)據(jù)集)進(jìn)行二次分析進(jìn)一步闡明了STEMI患者分子機(jī)制。
急性心肌梗死的早期發(fā)現(xiàn)和適當(dāng)治療對(duì)于有效的治療是非常重要的。傳統(tǒng)生物標(biāo)志物如肌鈣蛋白(cTnI/T)和肌酸激酶-MB在STEMI的診斷中起著重要作用,但在4h內(nèi)不能滿(mǎn)足早期診斷的要求[3]745。本研究中通過(guò)對(duì)GSE 60993和GSE 61144數(shù)據(jù)集的系統(tǒng)深入分析,KEGG和GO分析證明,在STEMI的進(jìn)展過(guò)程中,斑塊中的炎癥和免疫相關(guān)細(xì)胞被激活。因此,研究STEMI在心血管事件中的分子機(jī)制對(duì)其診斷和治療具有重要意義。從數(shù)據(jù)集GSE 60993和GSE 61144中篩選出新的潛在ST段抬高型心肌梗死的生物標(biāo)志物,用于進(jìn)一步驗(yàn)證。本研究中FPR2、ITGAM、BST1、CEACAM8、MMP9、ELANE和FPR1被確定為STEMI的潛在生物標(biāo)記物。
總之,通過(guò)分析STEMI關(guān)鍵基因來(lái)識(shí)別和選擇出了新的生物標(biāo)志物?;谶@7個(gè)關(guān)鍵基因的隨機(jī)森林模型和邏輯回歸模型成功地將STEMI患者與健康對(duì)照組區(qū)分開(kāi)來(lái)。因此,有必要進(jìn)一步探討這些基因在STEMI發(fā)病中的診斷意義。由于樣本量的局限性,需要更多同質(zhì)化人群、更大樣本量和標(biāo)準(zhǔn)化方案的臨床研究,以全面探索STEMI患者在這7個(gè)基因特征的預(yù)后潛力。