殷曉曉,薛小峰,趙華
膽囊癌是膽道系統(tǒng)常見的惡性腫瘤,起病隱匿,早期無特異性臨床癥狀,常被膽囊炎、膽囊結(jié)石及其并發(fā)癥所掩蓋。由于膽囊癌早期診斷困難,多數(shù)膽囊癌確診時已屬中晚期。目前,影像學(xué)檢查結(jié)合血清腫瘤標志物檢測是膽囊癌診斷和監(jiān)測的方法,但有一定的局限性,特異性較低?;虮磉_芯片作為一種高效、大規(guī)模的基因數(shù)據(jù)獲取技術(shù),已被廣泛用于收集基因微陣列表達譜數(shù)據(jù),研究多種人類癌癥的基因表達譜。這些微陣列為研究腫瘤相關(guān)基因提供了一種新的方法,為分子預(yù)測、分子靶向藥物和分子治療提供了廣闊的前景。隨著基因表達芯片技術(shù)的廣泛應(yīng)用,大量的數(shù)據(jù)已經(jīng)在公共數(shù)據(jù)庫平臺上發(fā)布,整合這些數(shù)據(jù)庫可以更加深入地研究分子機制。本研究從NCBI-基因表達綜述(Gene Expression Omnibus,GEO)數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)中下載了兩個原始微陣列數(shù)據(jù)集GSE76633[1]和GSE74048[2],利用GEO2R對膽囊癌和正常膽囊樣本中的差異表達基因(differentially expressed genes,DEGs)進行篩選,在DAVID(https://david.ncifcrf.gov/)和KOBAS-京都基因與基因組百科全書(KEGG)通路(http://kobas.cbi.pku.edu.cn/)上對DEGs進行GO分析及通路富集分析。然后,利用STRING在線數(shù)據(jù)庫蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)分析DEGs的關(guān)聯(lián)性,發(fā)現(xiàn)參與腫瘤發(fā)生的相互作用分子。通過膽囊癌GEO數(shù)據(jù)庫篩選出與膽囊癌發(fā)生、發(fā)展相關(guān)的DEGs,并進行分析。討論了這些DEGs的生物學(xué)功能和關(guān)鍵信號通路,并分析了編碼蛋白相互作用的網(wǎng)絡(luò)。為膽囊癌的診斷和治療提供了可靠的分子標志物。
1.1 膽囊癌微陣列數(shù)據(jù)集采集和處理 利用關(guān)鍵詞“膽囊癌”在基因表達數(shù)據(jù)庫GEO數(shù)據(jù)庫下載GSE76633和GSE74048的基因表達譜。GSE76633的實驗平臺為GPL18180,其中包括9份膽囊癌標本和9份正常膽囊標本。GSE74048的實驗平臺為GPL20115,其中包括3個膽囊癌標本和3個正常膽囊標本。數(shù)據(jù)集信息見表1。
表1 GEO中膽囊癌數(shù)據(jù)集信息
1.2 差異基因的獲取與分析 使用在線分析軟件GEO2R對基因進行分組分析,分為膽囊癌樣本組和正常膽囊樣本組。設(shè)置P值和差異倍數(shù)(fold change,FC)進行差異基因的篩選。認為當(dāng)P<0.05,∣log2FC∣>2時差異具有統(tǒng)計學(xué)意義。使用ImageGP(www.ehbio.com/ImageGP/index.php/Home/Index/)在線制作火山圖和韋恩圖,使用R語言繪制熱圖。
1.3 差異基因的GO和KEGG通路富集分析 使用DAVID(https://david.ncifcrf.gov/)在線工具對所選差異基因進行GO分析;使用KOBAS在線分析數(shù)據(jù)庫(http://kobas.cbi.pku.edu.cn/)對差異基因進行京都基因與基因組百科全書(KEGG)通路富集分析,設(shè)置P<0.05,分析結(jié)果分別以柱狀圖、氣泡圖展示。
1.4 差異基因的PPI網(wǎng)絡(luò)構(gòu)建 利用STRING(http://string-db.org/)來識別膽囊癌中差異基因編碼的蛋白質(zhì)之間的相互作用和通路關(guān)系。
2.1 膽囊癌差異基因的篩選結(jié)果 我們使用R語言對GSE76633和GSE74048兩個膽囊癌表達微陣列數(shù)據(jù)集進行標準化處理(圖1)。兩個數(shù)據(jù)集所包含的兩個樣本數(shù)據(jù)中多個基因的差異表達情況(圖2)。利用GEO2R在線分析工具對數(shù)據(jù)集進行基因差異表達分析。該工具借助R和Limma軟件包完成分析過程,得到DEGs(校正后P<0.05,logFC>2)。在GSE76633中我們發(fā)現(xiàn)了72個下調(diào)基因和23個上調(diào)基因(表2)。在GSE74048中鑒定出92個下調(diào)基因和10個上調(diào)基因(表3)。用R-heatmap軟件繪制兩個數(shù)據(jù)集差異基因的熱圖(圖3)。前35個差異最顯著的基因是CDCA7,SEMA3C,PYCR1,ITPR3,PKM2,TRIM59,C1orf151-NBL1,PFKP,CKAR,LPPR1,SEC14L3,SARDH。SCP2,ADHFE1,CYP2B6,CECR2,CIDEB,CPVL,PPP1R1A,CNTN1,ALDH6A1,SDS,ACADSB,SHMT1,CTH,EHHADH,GLYAT,ABI3BP,ETNK2,MASP1,DMGDH,TAT,CYP2A13,CLEC4M,GNMT。兩個數(shù)據(jù)集中均下調(diào)的差異基因有SARDH,ADHFE1,CECR2。
1A:GSE76633;1B:GSE74048圖1 膽囊癌表達微陣列數(shù)據(jù)集
2A:GSE76633;2B:GSE74048注:紅色點代表上調(diào)基因,綠色的點代表下調(diào)基因,灰色點代表無顯著差異的基因。Fold change(倍數(shù)變化)>2.0且P<0.05作為標準,倍數(shù)進行l(wèi)og2的轉(zhuǎn)化,P值進行-log10的轉(zhuǎn)化圖2 GSE76633、GSE74048微陣數(shù)據(jù)集的火山圖
表3 膽囊癌的差異表達基因
3A:GSE76633;3B:GSE74048注:根據(jù)|倍數(shù)變化|>2.0和P值<0.05,紅色表示基因表達相對上調(diào),綠色表示基因的表達相對下調(diào),黑色表示基因表達無明顯變化,灰色表示基因的信號強度不高圖3 聚類熱圖
2.2 GO生物過程分析和KEGG通路分析 利用DAVID在線分析工具對兩個膽囊癌數(shù)據(jù)集中差異表達基因的生物過程、細胞組成和分子功能進行了富集分析,見表4和圖4,發(fā)現(xiàn)其主要富集于脂肪酸β-氧化、氧化-還原過程和代謝過程、肝素結(jié)合、蛋白質(zhì)同聚活性、脂肪?;?CoA結(jié)合、磷酸吡啶結(jié)合、氧化還原酶活性、異構(gòu)酶活性、黃素腺嘌呤二核苷酸結(jié)合、電子載流子活性、肝素結(jié)合和碳水化合物結(jié)合、異構(gòu)酶活性和代謝過程。KEGG分析顯示主要富集于代謝途徑、甘氨酸,絲氨酸和蘇氨酸代謝、纈氨酸,亮氨酸和異亮氨酸降解、碳代謝、丙酸酯的新陳代謝、抗生素的生物合成、脂肪酸降解、甘草酸和二羧酸代謝、脂肪酸代謝、乙型丙氨酸代謝、過氧化物酶體、初級膽汁酸的生物合成、PPAR信號通路、氨基酸的生物合成、細胞粘附分子等途徑,見表5和圖5C。
表4 膽囊癌DEGs的 GO注釋
表5 膽囊癌DEGs的KEGG通路分析
2.3 膽囊癌差異基因的PPI網(wǎng)絡(luò)構(gòu)建 利用STRING數(shù)據(jù)庫構(gòu)建膽囊癌中差異基因表達產(chǎn)物的PPI網(wǎng)絡(luò),刪除孤立和部分連接的節(jié)點后見圖5A和5B所示。并確定了以下32個中心節(jié)點基因:ACADM、EDI2、ACADSB、EHHADH、ALDH6AI、ECHS1、ACAA1、PCCA、MUT、ADHFE1、HSD17B4、SCP2、AMT、PKM、CTH、SDS、GRHPR。GNMT、AKR1D1、SHMT1、SARDH、GLUD2、DMGDH、TAT、CYP2B6、CYP2A13、EPHX1、ENTPD1、TAGAP、WDFY4、FCER1A和IL7R。其對應(yīng)的蛋白可能是核心蛋白或具有重要生理調(diào)控功能的關(guān)鍵候選基因。
4A:GSE76633;4B:GSE74048;4C:GSE76633;4D:GSE74048注:4A、4B中GO分析將DEGs分為生物過程、細胞組成、分子功能和三個功能組4C、4D中不同功能組DEGs的GO富集,顏色深淺代表P值的高低圖4 GO分析 (4A、4C)GSE76633 (4B、4D)GSE74048
膽囊癌是消化系統(tǒng)第6大惡性腫瘤[3],手術(shù)是治愈膽囊癌的唯一可能手段,但大多數(shù)患者確診時已處于進展期,只有10%~30%的患者能獲得根治性切除,總體5年生存率僅為5%[4]。微陣列技術(shù)和高通量測序技術(shù)的出現(xiàn)及其快速發(fā)展,拓展了癌癥研究的手段,加速了各種癌癥治療潛在靶點的發(fā)現(xiàn)[5-8]。本研究通過分析膽囊癌樣本基因表達譜篩選出DEGs,GO分析和KEGG信號通路分析發(fā)現(xiàn)這些基因富集于代謝途徑、氨基酸代謝、細胞轉(zhuǎn)化與凋亡、轉(zhuǎn)錄調(diào)控、PPAR信號通路、氨基酸的生物合成、氧化還原過程等多個方面。能量代謝編程被認為是癌癥潛在的多功能新興標志[9]。PI3K-AKT-mTOR網(wǎng)絡(luò)通路的異常激活是各種癌癥中最常見的變化之一[10-11]。另一種常見的失調(diào)途徑是通過染色體易位、基因擴增和單核苷酸多態(tài)性獲得MYC功能[12]。本研究通過對膽囊癌差異基因的GO分析,發(fā)現(xiàn)其可能參與了MYC等抑癌基因的激活,通過對代謝基因的轉(zhuǎn)錄調(diào)控進一步促進合成代謝,因此與膽囊癌的發(fā)生和發(fā)展密切相關(guān)。我們發(fā)現(xiàn)膽囊癌中與代謝途徑密切相關(guān)的基因表達均下調(diào),包括ACADSB、CYP2B6、GLUD2、EHHADH、AMT、ECHS1、KMO、FAH、MUT、DMGDH、ETNK2、HSD17B4、SARDH、ALDH6A1、SHMT1、ST6GAL1、ACADM、GRHPR、TAT、CTH、MTMR14、SDS、QPRT、AKR1D1、SCP2、PCCA和ACAA1。SARDH與腫瘤的生長和侵襲有內(nèi)在聯(lián)系。此前已有研究表明,在PCa異種移植中過量表達SARDH可抑制腫瘤生長[13]。而SARDH可抑制在結(jié)直腸癌發(fā)病過程中起著重要作用的特異性趨化因子基因CXCL1和CCL20的表達[14]。SARDH在我們研究的膽囊癌數(shù)據(jù)集中都出現(xiàn)了下調(diào)(圖5E),說明它可能在膽囊癌中具有致癌功能。ACAA1編碼了一種在過氧化物體的β-氧化系統(tǒng)中起作用的酶[15],它在肝癌、肺癌等多種癌癥中的表達量較低[16-18],具有抗腫瘤的潛力。鑒于ACAA1在極長脂肪酸的過氧體β-氧化中的重要性,該過程的功能障礙可能與GBC的發(fā)病機制有關(guān)。
5A:GSE76633;5B:GSE74048;5C:KEGG氣泡圖;5D:韋恩圖;5E:差異基因logFC值5A、5B:圓圈代表基因,線條代表基因之間蛋白質(zhì)的相互作用,線條顏色代表蛋白質(zhì)之間相互作用的證據(jù);5C:各通路的富集倍數(shù),點的大小表示通路中基因表達的數(shù)量,點的顏色代表P值的變化;5D:兩個數(shù)據(jù)集基因取交集;5E:在兩個數(shù)據(jù)集中均下調(diào)的3個基因的表達情況,方框中的數(shù)值及顏色代表logFC值(倍數(shù)變化值)圖5 PPI網(wǎng)絡(luò)圖
我們構(gòu)建了一個由DEGs編碼蛋白質(zhì)的PPI網(wǎng)絡(luò),并確定了以下32個密切相關(guān)的基因ACADM、EDI2、ACADSB、EHHADH、ALDH6AI、ECHS1、ACAA1、PCCA、MUT、ADHFE1、HSD17B4、SCP2、AMT、PKM、CTH、SDS、GRHPR、GNMT、AKR1D1、SHMT1、SARDH、GLUD2、DMGDH、TAT、CYP2B6、CYP2A13、EPHX1、ENTPD1、TAGAP、WDFY4、FCER1A和IL7R。這些基因所編碼的蛋白是PPI網(wǎng)絡(luò)中的關(guān)鍵節(jié)點。烯酰輔酶A水合酶短鏈1(ECHS1)是線粒體脂肪酸β-氧化途徑的重要組成部分。ECHS1通過PKB和GSK3β相關(guān)信號通路在胃癌及腎癌細胞增殖和遷移中發(fā)揮重要作用[19-20]。此外,ECHS1作為HBsAg結(jié)合蛋白,通過線粒體途徑增強肝癌細胞的凋亡[21]。作為?;?CoA脫氫酶的成員,ACADSB通過催化?;?CoA衍生物的脫氫,促進脂質(zhì)代謝[22]。甘氨酸N-甲基轉(zhuǎn)移酶(GNMT)的非活性突變導(dǎo)致肝臟AdoMet水平改變,進而導(dǎo)致肝損傷,纖維化和肝癌。MAT/GNMT基因表達失調(diào)如何導(dǎo)致氧化應(yīng)激,脂質(zhì)代謝受損和惡性轉(zhuǎn)化的分子機制尚不清楚[23]。
本研究的局限性在于樣本量相對較小,易造成統(tǒng)計學(xué)上的偏差。ADHFE1作為癌基因會導(dǎo)致致癌代謝物D-2HG在乳腺腫瘤中的積累[24],但我們發(fā)現(xiàn)其在膽囊癌中的表達是下調(diào)的(圖5D和5E),具體的機制和原因還需要我們進一步研究。
綜上,我們篩選了197個候選DEGs,它們可能參與了膽囊癌的進展,成功構(gòu)建了膽囊癌中DEGs的PPI網(wǎng)絡(luò),并篩選出網(wǎng)絡(luò)中可能參與膽囊癌過程的幾個關(guān)鍵基因編碼蛋白。對該網(wǎng)絡(luò)的進一步研究將有利于理解DEGs之間的相互作用,在膽囊癌發(fā)病機制的基礎(chǔ)分子機制方面對我們有所啟發(fā),為尋找膽囊癌新的治療靶點提供思路。膽囊癌相關(guān)基因的功能還需要進一步的分子生物學(xué)實驗來證實。