張開健,胡康,張步春
缺血性心肌病(ischemic cardiomyopathy,ICM)為冠心病晚期階段和特殊類型,主要發(fā)病機制與冠狀動脈粥樣硬化有關,引起心肌變性、壞死和纖維化,隨著疾病進展,容易發(fā)展為心力衰竭。而ICM心力衰竭具有起病急、病情進展快、致死率高等特點,隨著人口老齡化,ICM發(fā)病率呈升高趨勢[1-2]。生物信息學是研究各種組學數(shù)據,包括轉錄組學、蛋白質組學等生物學數(shù)據的一門新興交叉學科,研究方法主要包括對生物學數(shù)據的搜集(收集和篩選)、處理(編輯、整理、管理和顯示) 、利用(計算和模擬)及分析[3],近年來實踐表明生物信息學技術在篩選疾病生物標志物中有極大的應用價值,其對疾病的診斷、治療以及預后有極大的意義,使人們對疾病的認識更加全面且深刻。目前許多預測心血管疾病生物標志物已經被評估,且成功地應用于心血管疾病的風險預測[4],但在心肌缺血方面還需要進一步研究確定新的生物標志物。本研究基于生物信息學方法,通過分析ICM患者心肌組織的高通量測序芯片,初步篩選心肌缺血相關的潛在生物標志物,以期為ICM診療提供依據。
1.1 數(shù)據來源 研究數(shù)據來自美國國家生物信息中心NCBI(www.ncbi.nlm.nih.gov)中的GEO數(shù)據庫,利用R語言(R4.1.2)直接從GEO數(shù)據庫中下載數(shù)據集GSE26887,該數(shù)據集用取自患者心臟左心室活檢組織,基于GPL6244檢測平臺,用Affymetrix GeneChips Human Gene 1.0 ST芯片檢測基因表達,包含5例健康對照、7例缺血后擴張型心肌病合并糖尿病、12例缺血后擴張型心肌病不合并糖尿病患者的基因的RNA表達譜。本研究設置5例健康樣本為對照組(GSM662158—GSM662162)、12例ICM患者為實驗組(GSM662179—GSM662181),2組患者的年齡、性別、吸煙、高血壓、體重指數(shù)(BMI)等一般資料比較差異無統(tǒng)計學意義,且排除了重要影響因素糖尿病對研究的影響。
1.2 數(shù)據的獲取與前期處理 基于R語言(R4.1.2)的GEOquery包獲取GSE26887數(shù)據集,通過GPL6244平臺對應的hugene10sttranscriptcluster.db包對數(shù)據集基因芯片探針進行基因名稱注釋,獲取基因名稱、基因表達值,去除探針未對應基因名的數(shù)據及一個基因名對應多個探針的數(shù)據(僅保留最大表達量探針對應基因名),去除7例ICM合并糖尿病數(shù)據集。
1.3 DEGs的獲取與可視化 基于R語言limma包對上述數(shù)據進行差異表達分析,獲得DEGs及LogFC、t值、P值、adj.P等,由于存在DEGs基數(shù)較大,部分DEGs差異倍數(shù)(fold change,F(xiàn)C)較小、差異無統(tǒng)計學意義等因素,設定篩選條件|LogFC|>1且adj.P<0.01進一步篩選DEGs,并基于R語言ggplot2包、pheatmap包分別對其繪制火山圖、熱圖進行可視化處理。
1.4 DEGs的GO和KEGG富集分析 GO(gene ontology,GO)富集分析可以從基因的生物學過程(biological process,BP)、細胞組分(cellular component,CC)及分子功能(molecular function,MF)等方面進行基因注釋,KEGG(kyoto encyclopedia of genes and genomes,KEGG)富集分析可以對DEGs的信號通路方面進行富集分析,以挖掘疾病相關基因的生物學通路,基于R語言clusterProfiler、org.Hs.eg.db包行DEGs的GO和KEGG富集分析,使用ggplot2包行可視化處理,以P<0.05為差異有統(tǒng)計學意義。
1.5 DEGs對應PPI網絡的構建 蛋白-蛋白互作網絡可以基于現(xiàn)有數(shù)據對DEGs建立功能性蛋白質關聯(lián)網絡,可通過string數(shù)據庫(https://cn.string-db.org/)實現(xiàn),并通過Cytoscape3.7.1軟件構建PPI網絡,篩選關聯(lián)度高的hub gene。
1.6 部分Hub gene應用價值的初步驗證 利用R語言pROC包,以Cytoscape3.7.1軟件中degree值為篩選標準,對部分關聯(lián)度高的hub gene做ROC曲線,初步驗證其作為疾病標志物的價值。
2.1 DEGs篩選 通過對數(shù)據的下載及前期處理,健康對照組相對于病變組做差異表達分析后一共得到18 843個DEGs,根據|LogFC|>1、adj.P<0.01條件篩選得到259個FC值明顯改變的基因,包括135個上調基因,124個下調基因(對照組與ICM組),R語言繪制可視化火山圖,見圖1。以|LogFC|>1.5、adj.P<0.01為條件共篩選出52個DEGs,包括25個上調基因,27個下調基因,R語言繪制可視化熱圖,見圖2。按|LogFC|的大小分別篩選上調、下調基因前10的DEGs并列表。見表1。
表1 上調、下調DEGs列表
圖1 健康心肌組織與缺血性心肌病心肌組織DEGs火山圖
圖2 健康心肌組織與缺血性心肌病心肌組織DEGs熱圖(|LogFC|>1.5,adj.P<0.01)
(|LogFC|>1,adj.P<0.01),紅色點表示上調基因,藍色點表示下調基因,黑色點為未達到篩選條件的差異基因。
2.2 DEGs GO分析結果 對篩選得到的135個上調基因,124個下調基因分別做GO富集分析,設定P值<0.05。見圖3。上調基因的BP主要富集在炎癥反應調節(jié)、白細胞游走、創(chuàng)傷修復、細胞之間黏附調節(jié)、對內毒素的應答、對細菌來源分子的應答、骨髓白細胞游走、白細胞趨化性、炎癥反應的正向調節(jié)、單核細胞趨化性;下調基因的BP主要富集在肌系統(tǒng)進程、肌肉收縮、心臟傳導系統(tǒng)動態(tài)變化。見圖3A。上調基因CC主要富集在含膠原纖維的細胞外基質、細胞焦點粘連、細胞基質連接、分泌囊內腔、細胞質囊、囊泡腔、質膜外側面、初級溶酶體、嗜苯胺藍粒(淋巴細胞)、血小板α顆粒;下調基因CC主要富集在平滑肌纖維。見圖3B。上調基因MF主要富集在糖基化終產物受體(RAGE)受體結合,下調基因MF主要富集在氧化還原酶活性、NADP結合途徑、細胞外基質中具有抗壓功能的結構成分。見圖3C。
2.3 DEGs KEGG分析結果 對篩選得到的135個上調基因,124個下調基因分別做KEGG富集分析,設定P值<0.05。見圖4。上調的DEGs主要富集在ECM受體交互作用途徑、沙門氏菌感染、HIF-1信號通路、TNF信號通路、Malaria通路、細胞中吞噬體、造血細胞譜系、致病性大腸桿菌感染、細胞的焦點粘連、癌癥中的MicroRNAs。下調的DEGs主要富集在藥物代謝細胞色素P450途徑。
4A 上調基因KEGG富集分析 4B 下調基因KEGG富集分析
2.4 PPI網絡的構建 將259個DEGs導入string(https://cn.string-db.org/)數(shù)據庫構建相互之間的作用網絡,在獲得的網絡中,每個節(jié)點(node)代表DEGs表達對應的蛋白質,節(jié)點之間的連線(edge)代表蛋白質之間的相互作用,利用NetworkAnalyzer計算無向網絡拓撲參數(shù),得出每個節(jié)點的連線數(shù)量,即degree值,按degree值從大到小篩選節(jié)點,degree值越大的節(jié)點越有可能是疾病相關的生物標志物,利用CytoHubba插件生成DEGs前10個節(jié)點可視化網絡圖,見圖5,并按Degree值大小分別列出前十個節(jié)點對應的DEGs、差異上調基因及差異下調基因。見表2。
圖5 利用cytoscape構建的DEGsPPI網絡圖
表2 Degree數(shù)值前10位DEGs列表
2.5 部分Hub gene應用價值的驗證 選擇上述上調、下調基因中degree值最大的前2個hub gene(IL6和RHOA),結合其在基因芯片中的表達量數(shù)值,基于R語言的pROC包繪制ROC曲線圖,可見IL6和RHOA的AUC值分別達到了93.3%和96.7%,其作為疾病相關的潛在標志物價值較大。見圖6。
6A IL-6 的ROC曲線圖 6B RHOA的ROC曲線圖
ICM患者與健康人基因表達存在差異,利用生物信息學方法,從ICM患者的基因及蛋白質層面進行挖掘分析,試圖找到ICM相關生物標志物,以期對ICM患者的早期診斷、治療及預后提供參考。與正常對照組相比,DEGs的GO富集分析顯示,上調基因的BP富集結果包括肌肉收縮、心臟傳導系統(tǒng)的變化,CC富集結果包括平滑肌纖維,MF富集結果包括具有抗壓性的細胞外基質成分;下調基因的CC富集結果包括含膠原纖維的細胞外基質(extracellular matrix,ECM)、細胞基質連接、細胞焦點粘連等,下調基因的KEGG富集分析主要富集在ECM受體交互作用途徑。ICM患者在支配平滑肌纖維、肌肉收縮、心臟傳導等基因中表達上調,這符合心肌缺血病理生理。此外,ICM患者細胞外基質與正常人差異明顯,Jiang等[5]研究ICM患者的心外膜脂肪組織(epicardialadpose tissue,EAT)發(fā)現(xiàn),EAT發(fā)生了嚴重的ECM重構,而EAT與心肌是無筋膜隔開的,其與心肌有共同的微循環(huán)[6],可見ECM的變化對ICM的診治有著重要的意義。此外,ICM患者上調基因中GO富集分析MF富集在氧化還原酶活性、NADP聯(lián)合,提示ICM患者的發(fā)病可能與某些氧化還原酶活性相關,Watanabe等[7]研究發(fā)現(xiàn)血漿黃嘌呤氧化還原酶(xanthine oxidoreductase,XOR)活性是冠狀動脈痙攣(coronaryspasm ,CAS)發(fā)生的獨立危險因素,且較高的XOR活性與痙攣的嚴重程度相關,黃嘌呤氧化酶、黃嘌呤脫氫酶及大部分氧化還原酶均以NAD+/NADH作為電子轉移的受體和供體,可見ICM患者的部分氧化還原酶可能成為疾病的潛在生物標志物。
RHOA在ICM患者中表達上調,RHOA表達為蛋白質RhoA,其下游靶點是Rho激酶ROCK(rho-associated protein kinase,ROCK)。在心血管系統(tǒng)中,血管張力的調節(jié)主要依賴肌球蛋白輕鏈激酶活化的Ca依賴性血管收縮和RhoA/ROCK非Ca依賴性血管收縮[8-9]兩條途徑,RhoA/ROCK可作用于肌球蛋白輕鏈,使其磷酸化并導致血管收縮,也可直接作用于肌球蛋白輕鏈磷酸酶,使肌球蛋白輕鏈去磷酸化受限導致血管收縮[10]。因此RHOA過表達有可能是心肌缺血的重要原因,目前Rho激酶抑制劑鹽酸法舒地爾已被廣泛應用于臨床改善腦組織微循環(huán),包括Y-27643等Rho激酶抑制劑[11]。也有研究[12]表明在進行冠狀動脈搭橋手術時,用異氟烷預處理會抑制RhoA/ROCK,激活內皮細胞NO合成酶,導致移植血管冠狀動脈前降支血管舒張,對冠狀動脈左前降支血管重建后缺血心肌的再灌注非常有用。所以RHOA的過表達可能是ICM心肌缺血的一個潛在靶點,對ICM的預防和早期治療有意義。
IL-6不僅是一種多效免疫調節(jié)細胞因子,可由多種類型細胞分泌[13]。血管內皮細胞中IL-6可以使血小板衍生生長因子(platelet derived growth factor,PDGF)表達升高,PDGF不僅可以刺激血管平滑肌細胞和成纖維細胞的增殖和遷移,同時PDGF也作為一種趨化因子,對單核細胞和中性粒細胞有趨化作用,誘導其產生炎癥因子。IL6也可以增加血管內皮細胞的滲透性,促進血管炎與動脈粥樣硬化的發(fā)生。內皮細胞可以通過L-精氨酸合成、釋放NO,調節(jié)冠狀動脈血管及鄰近血管的血管阻力,在心肌缺血梗死后,IL-6可能激活L精氨酸/NO通路[14]。研究[15]顯示IL-6對心臟組織的作用因作用的時間和下游信號而不同,在急性缺血損傷期,IL-6信號轉導主要起保護心肌組織作用,當長期持續(xù)時,則會抑制肌細胞功能造成組織損傷,主要基于JAK-STAT(janus kinase-signal transducers and activators of transcription)通路完成。Podewski等[16]研究發(fā)現(xiàn)IL-6在缺血性擴張型心肌病患者的心肌組織中表達下調,且IL-6及其相關因子通過共同作用于gp130、JAKs及STATs為心肌細胞提供重要生存途徑,這與篩選結果是一致的。NPPA、NPPB可轉錄利鈉肽,研究顯示其在缺血心肌病后期心衰時可升高,目前B型利鈉肽、氨基末端B型利鈉肽在心力衰竭診斷及預后評估中被廣泛應用。TLR2、TLR4主要表達Toll樣受體,與炎癥相關,部分GO、KEGG富集分析顯示ICM與炎癥反應、免疫反應相關。本研究顯示IL-6 ROC曲線下面積AUC高達93.3%,對ICM的診斷價值較高,應進一步研究其對ICM的診斷和療效觀察價值。
本研究通過生物信息學方法結合高通量數(shù)據集,通過健康心肌組織與缺血心肌組織的DEGs分析,并對DEGs進行富集分析、構建PPI網絡尋找hub gene及對部分hub gene做ROC曲線驗證其應用價值,發(fā)現(xiàn)ICM患者RHOA基因的過表達、細胞外基質的變化、氧化還原酶活性、炎癥反應的調節(jié)等,可能與ICM的發(fā)病密切相關,并且本研究發(fā)現(xiàn)RHOA和IL-6是ICM潛在的生物標志物,需要進一步驗證其用于ICM的診療和療效觀察價值。