張德寶 陳俊羽 黃于朗 阮煥鈞 李騰★
心房顫動(atrial fibrillation,AF)是臨床上最為常見的心律失常之一,也是電生理領(lǐng)域的研究重點。流行病學(xué)資料顯示其發(fā)生率約為0.77%[1-2],并且隨年齡增加其發(fā)病率顯著上升[3]。AF 不僅干擾了正常的心臟功能,而且可能導(dǎo)致腦卒中及外周動脈栓塞等不良后果。目前,大部分AF 患者可以通過服用抗心律失常藥物或采用電復(fù)律來改善癥狀,但AF 的復(fù)發(fā)率仍然很高[4-5]。因此,進(jìn)一步揭示AF 的病理以及發(fā)生機制有其必要性,同時,闡明機制有助于開發(fā)新型靶向藥物或改進(jìn)當(dāng)前治療策略。加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)是確認(rèn)疾病表型與基因相關(guān)性的重要研究方法。本研究擬從美國國家生物技術(shù)信息中心(National Center for Bio-technology Information,NCBI)中的基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus,GEO)中下載心房組織的轉(zhuǎn)錄組數(shù)據(jù),采用WGCNA 分析鑒定AF 的關(guān)鍵基因(Hub Gene)并對Hub Gene 進(jìn)行功能注釋。
通過數(shù)據(jù)挖掘和統(tǒng)計分析R 軟件(3.5.1 版本)從GEO 數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)中下載GSE161450 訓(xùn)練集和GPL20301 平臺注釋文件。GSE161450 所包含的全部轉(zhuǎn)錄組數(shù)據(jù)均來自一名75 歲死于中風(fēng)的AF 患者。組織樣本包括:肺靜脈(n=12)、左心房組織(n=10)和左心耳(n=3)。GPL20301 平臺注釋文件用于將探針序號轉(zhuǎn)換為對應(yīng)的基因名稱。R 軟件實現(xiàn)基因表達(dá)數(shù)據(jù)清洗的原則為:刪除一個探針同時對應(yīng)多個基因,對于同一個基因同時對應(yīng)多個探針的情況則取平均值;選擇GSE161450 中各組織樣本中表達(dá)超過50%背景值的探針用于后續(xù)分析;基因表達(dá)的缺失值通過最近鄰算法(k-nearest neighbor,KNN)進(jìn)行補充;差異表達(dá)通過加載limma 包進(jìn)行,組間多重比較采用貝葉斯方法,組間基因表達(dá)值|log2FC|>0.5 且P<0.05 時鑒定為表達(dá)差異顯著的基因。
為探索不同心臟組織和房顫臨床特征相關(guān)模塊和基因,通過在R 軟件中加載WGCNA 程序包對GSE161450 數(shù)據(jù)進(jìn)行分析。首先,運用R 語言中的聚類分析工具flash Clust 對GSE161450 中所有組織樣本轉(zhuǎn)錄組信息進(jìn)行聚類,同時檢測和清除異常值。然后通過運行WGCNA 包中的pick Soft Threshold 函數(shù)獲得相鄰函數(shù)加權(quán)參數(shù)的最優(yōu)值,并將該值確定為構(gòu)建基因模塊的過程中合適的軟閾值。梯度法用于檢測不同軟閾值(賦值從1 到20)下不同基因模塊的獨立性和平均連接性。最終采用模塊獨立性為3 的軟閾值作為最佳的軟閾值。在確定最佳的軟閾值后,最后利用拓?fù)渲丿B矩陣(topology overlap matrix,TOM)相似性函數(shù)將鄰接值轉(zhuǎn)換為具有適當(dāng)功率值的TOM 矩陣,進(jìn)而將基因分為不同的模塊計算與AF 的相關(guān)性,并提取每個模塊中相應(yīng)基因信息。
根據(jù)WGCNA 構(gòu)建的每個獨立基因模塊中的特征性表達(dá)基因,將具有高連通性的表達(dá)基因聚類在同一個模塊中,然后探究模塊與臨床表型相關(guān)的重要基因,進(jìn)而識別該模塊與該表型的相關(guān)性強弱。在每個表達(dá)模塊中,基因顯著性(Gene significance,GS)是基因表達(dá)譜單個基因與每個表型特征之間相關(guān)性的絕對值,值越高則模塊與表型相關(guān)性越大。模塊成員(module membership,MM)是模塊中基因的貢獻(xiàn)度和隸屬度,值越高,則該基因在模塊中貢獻(xiàn)度和隸屬度越高。特征基因連接性(eigengene connectivity,KME)值是通過主成分分析計算出的特征基因值,它將每個模塊的表達(dá)模式總結(jié)為特征基因,即Hub Gene。
構(gòu)建模塊后,將關(guān)鍵基因所在模塊中每個基因的KME 值和GS 值分別進(jìn)行排序,并設(shè)置篩選條件。通過設(shè)置GS>0.45 和MM>0.45,與差異基因取交集篩選出Hub Gene。通過對Hub Gene 進(jìn)行基因功能注解(Genome annotation,GO)富集分析,探究Hub Gene 的主要功能以及所在模塊涉及的信號通路。最后通過STRING 在線平臺(https://version-11-0b.string-db.org/)進(jìn)行Hub Gene 的蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)分析。
所有統(tǒng)計分析全部基于R 軟件(3.5.1)。R 軟件加載WGCNA 安裝包用于加權(quán)基因共表達(dá)相關(guān)網(wǎng)絡(luò)分析。P<0.05 為差異有統(tǒng)計學(xué)意義。
對GSE161450 包含的25 個組織樣本進(jìn)行聚類分析,未見離群值,見圖1A。基于無標(biāo)度拓?fù)錅?zhǔn)則,確認(rèn)3 為合適的軟閾值,在此條件下各基因模塊的平均連接度高,且樣品聚類查看分組信息后,未發(fā)現(xiàn)異常樣品,排除批次效應(yīng)后,軟閾值仍未下降,見圖1B。將表達(dá)譜中的所有基因進(jìn)行篩選,選取中位絕對偏差前65%的基因,共構(gòu)建8 模塊見圖1C。
圖1 樣本聚類與軟閾值篩選Figure 1 Sample clustering and soft threshold filtering
模塊-臨床特征關(guān)系表中可以看出(基于Pearson 相關(guān)性檢驗),在所有模塊中,棕色模塊(MEbrown)與心房組織區(qū)域表達(dá)異質(zhì)性顯著正相關(guān),見圖2A-2B。將MEbrown 模塊中表型為右肺下靜脈(Right Inferior Pulmonary Vein,RIPV)的模塊選為興趣模塊(該模塊相關(guān)系數(shù)為0.48,P<0.05),見圖2C。進(jìn)一步篩選出與性狀高度相關(guān)的基因,亦與性狀相關(guān)的模塊基因進(jìn)行分布展示,共有1 408個基因與RIPV 表型顯著相關(guān),見圖2D。
圖2 WGCNA 分析AF 相關(guān)模塊及基因分析Figure 2 WGCNA analysis AF-related modules and genetic analysis
將MEbrown 模塊中包含的606 個基因中獲取44 個核心基因進(jìn)行通路富集分析發(fā)現(xiàn)核心基因主要聚集于3 個信號通路上,分別是GO:0034702 離子通道復(fù)合體(ion channel complex),GO:1902495跨膜轉(zhuǎn)運體復(fù)合體(transmembrane transporter complex)和GO:1990351 轉(zhuǎn)運體復(fù)合體(transporter complex)。主要涉及基因為超極化激活環(huán)狀核苷酸門控通道2(hyperpolarization-activated cyclic nucleotide-gated channel 2,HCN2)、親離子型谷氨酸受體5(ionotropic glutamate receptor 5,GRIK5)、乙酰膽堿受體E(acetylcholine receptor E,CHRNE)、鉀向內(nèi)整流通道亞族J 成員2(potassium inward rectifier channel sub-channel Family J member 2,KCNJ2)和熱休克蛋白家族成員2(heat shock protein family member 2,HSPA2)。STRING 數(shù)據(jù)分析平臺將這五個基因進(jìn)行PPI 網(wǎng)絡(luò)互作分析(圖3A-3B)。
圖3 Hub Gene 的富集分析及PPI 網(wǎng)絡(luò)構(gòu)建Figure 3 GO analysis of Hub Gene and construction of PPI network
生物信息學(xué)時代,各種疾病表型的轉(zhuǎn)錄數(shù)據(jù)不斷增加,不同研究機構(gòu)上傳到GEO 的數(shù)據(jù)集為數(shù)據(jù)的二次分析提供了可能,為進(jìn)一步探索各種疾病表型的發(fā)病機制提供了機會。不同于傳統(tǒng)的測序篩選差異基因的表達(dá)模式,WGCNA 是通過整合多個數(shù)據(jù)集或多個組織樣本,不僅避免了潛在的主觀決策或選擇偏差,同時能夠更有效地揭示目標(biāo)表型更為復(fù)雜的生物學(xué)機制。目前,關(guān)于AF患者外周血液以及心臟組織樣本測序數(shù)據(jù)已有研究[6-7],但是AF 在心臟不同組織部位的基因表達(dá)差異尚未研究,因此,通過二次分析GEO 中的數(shù)據(jù)集,并通過WGCNA 整合分析有可能有助于進(jìn)一步揭示心房顫動的發(fā)病機制。本研究分析結(jié)果表明左心房存在顯著的區(qū)域差異表達(dá)。而且這些數(shù)據(jù)表明,參與AF 發(fā)病機制的基因具有明顯的心臟區(qū)域表達(dá)異質(zhì)性,尤其是在左房體、肺靜脈和左房耳之間。本研究通過WGCNA 方法構(gòu)建了8 個基因共表達(dá)模塊,并找到了與AF 區(qū)域異質(zhì)性顯著相關(guān)的基因模塊。通過進(jìn)一步分析,本研究找到了棕色基因模塊中與AF 區(qū)域異質(zhì)性呈顯著正相關(guān)的5 個Hub Gene,分別是HCN2、GRIK5、CHRNE、KCNJ2 和HSPA2。
HCN2 編碼電壓門控通道蛋白[8]。在人體中,HCN2 高表達(dá)于心房組織。有研究表明,HCN2 基因敲除小鼠模型中觀察到心臟起搏細(xì)胞自發(fā)活動下降,且出現(xiàn)竇房功能障礙導(dǎo)致的竇性心律失常[9]。而心臟特異性HCN2 過表達(dá)小鼠出現(xiàn)心率加快,在β-腎上腺素刺激情況下,HCN2 通道活性的進(jìn)一步增強,降低心室動作電位和提高心室肌細(xì)胞自主性,從而影響自身節(jié)律。此外,心臟過表達(dá)HCN2 也會加重低鉀血癥的促心律失常幾率[10]。
KCNJ2 編碼鉀離子通道蛋白,是心肌細(xì)胞動作電位的關(guān)鍵調(diào)控離子通道,主要在維持細(xì)胞膜靜息電位和除極后的復(fù)極過程中起作用,進(jìn)而保證心肌細(xì)胞節(jié)律穩(wěn)定性和響應(yīng)神經(jīng)內(nèi)分泌調(diào)控[11-12]。KCNJ2 基因的突變導(dǎo)致膜蛋白的不完整性會抑制鉀離子通道引起復(fù)極化末期電流強度減少,延長QT 間期,導(dǎo)致心臟電生理功能障礙[13]。
GRIK5 是一類谷氨酸受體,可以促使多巴胺能神經(jīng)元興奮,減輕疼痛感[14]。但目前尚未有研究闡明GRIK5 和AF 之間的聯(lián)系。CHRNE 基因編碼乙酰膽堿受體[15],目前研究主要局限于CHRNE 基因在先天性肌無力綜合征中的機制[16]。HSPA2 是一種在睪丸內(nèi)高表達(dá)的蛋白,主要在精子發(fā)育中起到關(guān)鍵作用[17-18],目前關(guān)于HSPA2 和AF 之間的聯(lián)系尚未有研究。但有證據(jù)表明HSPA2 甲基化與調(diào)控細(xì)胞程序性死亡過程,可能與腫瘤的預(yù)后密切相關(guān)[19-20]。
綜上所述,本研究通過WGCNA 分析方法確認(rèn)了與AF 心臟組織基因表達(dá)異質(zhì)性密切相關(guān)的brown 模塊,并在該基因模塊中鑒定出HCN2、GRIK5、CHRNE、KCNJ2 和HSPA2 共5 個Hub Gene。其中HCN2 和KCNJ2 與心肌細(xì)胞的離子通道相關(guān),是AF 心肌細(xì)胞離子通道異常表達(dá)相關(guān)機制的一次新的探索。但本研究具有一定局限性,本次分析僅來源于一個數(shù)據(jù)集的同一個心臟大體標(biāo)本的多個不同組織部位的轉(zhuǎn)錄信息,不能完全代所有房顫患者心臟組織基因差異表達(dá)的特征;同時,鑒定的Hub Gene 在AF 中的功能表征有待進(jìn)一步的生物學(xué)功能驗證。