張巖巖,曹 靜,陳曉彤,陳俊輝,鄭玉寶
中山大學(xué)附屬第三醫(yī)院感染科,廣州 510630
肝癌是全球最致命的癌癥之一,70%~90%的原發(fā)性肝癌為肝細(xì)胞癌,發(fā)病率逐年增加,男性患病率高于女性[1-2]。1997至2016年,中國(guó)肝癌的患病率從28.22/10萬(wàn)增至60.04/10萬(wàn),發(fā)病率從27.33/10萬(wàn)增至41.40/10萬(wàn),死亡率從27.40/10萬(wàn)增至31.49/10萬(wàn),傷殘調(diào)整生命年(disability-adjusted life years,DALYs)從10 311 308年增至11 539 102年[3]。肝癌的患病率和死亡率仍在持續(xù)上升,其不良預(yù)后也給國(guó)家和家庭帶來(lái)沉重負(fù)擔(dān)。對(duì)于肝癌目前仍缺乏有效治療手段,除放射線、消融、手術(shù)切除、移植和經(jīng)動(dòng)脈化學(xué)栓塞(transcatheter arterial chemoembolization,TACE)等物理和化學(xué)治療方法外,就只有一些少量的效果甚微的昂貴藥物[4]。研究顯示,肝癌的危險(xiǎn)因素有乙型肝炎病毒(hepatitis B virus,HBV)、丙型肝炎病毒(hepatitis C virus,HCV)、酒精脂肪肝疾病、酒精相關(guān)性肝硬化、吸煙、肥胖、糖尿病、鐵超載和各種飲食暴露,但肝癌發(fā)生發(fā)展的具體機(jī)制尚未闡明,仍待進(jìn)一步探索[5-6]。
微陣列和RNA測(cè)序技術(shù)的發(fā)展促進(jìn)了研究人員對(duì)RNA和DNA的進(jìn)一步研究,已成為生物醫(yī)學(xué)研究的一個(gè)重要組成部分[7-8]。目前,美國(guó)國(guó)家生物技術(shù)信息中心(National Center of Biotechnology Information,NCBI)的GEO數(shù)據(jù)庫(kù)中儲(chǔ)存了3萬(wàn)多個(gè)系列和100萬(wàn)個(gè)基因表達(dá)數(shù)據(jù)樣本[9],為深入研究腫瘤基因以及尋找腫瘤生物標(biāo)志物和預(yù)后指標(biāo)提供了新方法。本研究從GEO數(shù)據(jù)庫(kù)中鑒定了差異表達(dá)基因(differentially expressed genes,DEGs),并對(duì)其功能和關(guān)鍵基因在肝癌發(fā)生發(fā)展及預(yù)后中的作用進(jìn)行了系統(tǒng)分析。
DEGs篩選從NCBI的GEO數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/geo/)選擇GSE57957、GSE121248、GSE36376和GSE14520 4個(gè)數(shù)據(jù)集,采用GEO數(shù)據(jù)庫(kù)官網(wǎng)提供的Analyze with GEO2R在線工具進(jìn)行整合和差異分析,以P<0.05和|log2FC|>1為標(biāo)準(zhǔn)篩選出4個(gè)數(shù)據(jù)集中的DEGs。使用VENN圖軟件分別顯示4個(gè)數(shù)據(jù)集的上調(diào)和下調(diào)基因元素集合重疊區(qū)域,將前20個(gè)上調(diào)基因和前20個(gè)下調(diào)基因以熱圖形式呈現(xiàn)。
基因本體富集和京都基因與基因組百科全書(shū)通路分析采用DAVID6.8(https://david.ncifcrf.gov)在線工具進(jìn)行基因本體(gene ontology,GO)分析和京都基因與基因組百科全書(shū)(kyoto encyclopedia of genes and genomes,KEGG)分析,P<0.05被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。GO注釋內(nèi)容包括生物過(guò)程(biological process,BP)、細(xì)胞成分(cellular components,CC)和分子功能(molecular function,MF)3大類。
蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建及分析采用相互作用基因搜索工具(search tool for the retrieval of interacting genes,STRING)(http://string-db.org)建立蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein-protein interaction network,PPIN),然后使用公共生物信息學(xué)軟件平臺(tái)Cytoscape3.6.1軟件(http://cytoscape.org/)中的插件Cytohubba分析可視化分子相互關(guān)聯(lián)密切程度,分子復(fù)合物檢測(cè)插件(molecular complex detection,MCODE)從PPIN中選擇樞紐基因的重要模塊(其中Degree Cutoff=2,Node Score Cutoff=0.2,K-core=2和Max.Depth=100)。
GEPIA和HPA篩選關(guān)鍵基因以P<0.05,|log2FC|>2為標(biāo)準(zhǔn)從DEGs中篩選出差異表達(dá)顯著的上下調(diào)基因。為了分析這些基因的總體存活率,采用基因表達(dá)譜交互式分析(gene expression profiling interactive analysis,GEPIA)(http://gepia.cancer-pku.cn)進(jìn)行生存和統(tǒng)計(jì)學(xué)分析,以log rankP<0.05為標(biāo)準(zhǔn)鑒定出主要表達(dá)在肝臟組織中且預(yù)后明顯較差的關(guān)鍵基因。同時(shí),將基于抗體和抗原之間結(jié)合的高度特異性的方法與轉(zhuǎn)錄組學(xué)數(shù)據(jù)相結(jié)合,使用人類蛋白質(zhì)圖譜(human protein atlas,HPA)(https://www.proteinatlas.org)觀察比較在正常組織和肝癌組織中這些關(guān)鍵基因蛋白質(zhì)的表達(dá)水平。
統(tǒng)計(jì)學(xué)處理GEO2R采用limma包篩選差異表達(dá)基因,GEPIA采用one-way ANOVA方差分析方法進(jìn)一步驗(yàn)證,P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
DEGs鑒定GSE57957、GSE121248、GSE36376和GSE14520 4個(gè)數(shù)據(jù)集共包含1063個(gè)樣本,其中573個(gè)肝癌組織和490個(gè)鄰近的癌旁組織。通過(guò)GEO中的GEO2R整合分析鑒定,以P<0.05和|log2FC|>1為篩選標(biāo)準(zhǔn)篩選出DEGs,并采用RRA繪制火山圖,呈現(xiàn)每個(gè)數(shù)據(jù)集中上下調(diào)基因(圖1)。GSE57957、GSE121248、GSE36376和GSE14520數(shù)據(jù)集中分別篩選出109、306、423和486個(gè)顯著上調(diào)基因及308、590、266和557個(gè)顯著下調(diào)基因,采用VENN圖軟件從4個(gè)數(shù)據(jù)集中得到45個(gè)共同上調(diào)基因和132個(gè)共同下調(diào)基因(圖2),前20個(gè)上調(diào)基因和前20個(gè)下調(diào)基因見(jiàn)圖3。
A.GSE57957;B.GSE121248;C.GSE36376;D.GSE14520圖1 健康對(duì)照組與肝癌組差異表達(dá)基因火山圖Fig 1 Volcano plots of differentially expressed genes in the healthy control group and liver cancer group
A.4個(gè)數(shù)據(jù)集中的45個(gè)共同上調(diào)基因(log2FC>1);B.4個(gè)數(shù)據(jù)集中的132個(gè)共同下調(diào)基因(log2FC<-1)A.45 differentially expressed genes were up-regulated in the four datasets(log2FC>1);B.132 differentially expressed genes were down-regulated in four datasets(log2FC<-1)圖2 4個(gè)數(shù)據(jù)集上調(diào)基因交集和下調(diào)基因交集Fig 2 Intersections of significantly up-regulated and down-regulated genes in the four datasets
橫坐標(biāo)代表四個(gè)數(shù)據(jù)集,縱坐標(biāo)代表基因名稱,紅色代表log2FC>1,綠色代表log2FC<-1,值代表log2FC值The abscissa represents the four data sets,and the ordinate represents the gene name;the red represents log2FC>1,the green represents log2FC<-1,and the value represents the log2FC value圖3 前20個(gè)上調(diào)基因和前20個(gè)下調(diào)基因的log2FC熱圖Fig 3 Log2FC heatmap of the top 20 up-regulated genes and the top 20 down-regulated genes
DEGs的GO功能富集及KEGG通路分析采用DAVID6.8在線數(shù)據(jù)庫(kù)分別對(duì)篩選出的45個(gè)共同上調(diào)基因和132個(gè)共同下調(diào)基因進(jìn)行GO和KEGG分析,結(jié)果顯示:上調(diào)DEGs主要富集注釋:BP(氧化還原作用、有絲分裂核分裂、視黃醇代謝和膠原分解過(guò)程),CC(細(xì)胞核、胞漿、細(xì)胞外空間和外泌體),MF(蛋白結(jié)合、氧化還原酶活性、微管結(jié)合和細(xì)胞外基質(zhì)結(jié)構(gòu)組成);KEGG途徑(M受體相互作用、細(xì)胞分裂、二次循環(huán)和消化吸收通路)。下調(diào)DEGs主要富集注釋:BP(氧化還原作用、環(huán)氧合酶P450途徑、細(xì)胞對(duì)鋅離子的反應(yīng)、生長(zhǎng)負(fù)性調(diào)節(jié)、異型生物質(zhì)和藥物的代謝過(guò)程),CC(細(xì)胞外區(qū)域、細(xì)胞外泌體、細(xì)胞器膜、血液微粒和細(xì)胞外空間),MF(金屬離子結(jié)合、血紅素結(jié)合、氧化還原酶活性、鐵離子結(jié)合和同源蛋白結(jié)合);KEGG途徑(代謝通路、凝血級(jí)聯(lián)反應(yīng)、致癌通路和細(xì)胞色素P450對(duì)異種生物的誘導(dǎo)作用)(圖4)。
KEGG:京都基因與基因組百科全書(shū)KEGG:Kyoto Encyclopedia of Genes and GenomesA.生物過(guò)程(log2FC>1);B.生物過(guò)程(log2FC<-1);C.細(xì)胞成分(log2FC>1);D.細(xì)胞成分(log2FC<-1);E.分子功能(log2FC>1);F.分子功能(log2FC<-1);G.KEGG(log2FC>1);H.KEGG(log2FC<-1)A.biological process(log2FC>1);B.biological process(log2FC<-1);C.cellular component(log2FC>1);D.cellular component(log2FC<-1);E.molecular function(log2FC>1);F.molecular function(log2FC<-1);G.KEGG(log2FC>1);H.KEGG(log2FC<-1)圖4 顯著上調(diào)基因和下調(diào)基因的GO富集與KEGG通路分析Fig 4 GO enrichment and KEGG pathway analysis of significantly up-regulated and down-regulated genes
PPIN網(wǎng)絡(luò)構(gòu)建和分析STRING建立了177顯著表達(dá)基因的PPIN,其中152個(gè)DEGs被過(guò)濾到PPIN復(fù)合體中,該復(fù)合體包含153個(gè)節(jié)點(diǎn)和607個(gè)邊(average node degree:6.9,avg.local clustering coefficient:0.46,PPI enrichmentP-value:<1.0e-16)。采用Cytoscape3.6.1的插件Cytohubba分析可視化Hub基因的相互關(guān)聯(lián)密切程度,結(jié)果顯示,MCODE聚類發(fā)現(xiàn)13個(gè)模塊,score值較大的Cluster1和Cluster2分別包括16個(gè)基因和13個(gè)基因,其中Cluster1基因分別為NCAPG、PRC1、KIAA0101、TOP2A、PTTG1、MCM4、RFC4、CDC20、MELK、AURKA、CCNB2、NUSAP1、CDKN3、ASPM、RACGAP1、HMMR(圖5)。
A.蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò);B.Cytoscape3.6.1的插件Cytohubba分析可視化分子之間相互關(guān)聯(lián)的密切程度,顏色越深,則關(guān)聯(lián)越多;C和D:通過(guò)Cytoscape軟件進(jìn)行的模塊分析:聚類模塊1和聚類模塊2(Degree cutoff=2,Node score cutoff=0.2,K-core=2,Max Depth=100)A.protein-protein interaction network;B.the Cytoscape3.6.1 plug-in CytoHubba visualizes the degree of molecular associations,and darker color represents stronger association;C and D:cluster 1 and cluster 2(Degree Cutoff=2,Node Score Cutoff=0.2,K-core=2,Max.Depth=100)identified by the Cytoscape plug-in MCODE圖5 蛋白質(zhì)相互作用網(wǎng)絡(luò)及緊密關(guān)聯(lián)程度分析Fig 5 Protein-protein interaction network and the association degree
篩選肝癌預(yù)后相關(guān)關(guān)鍵基因以P<0.05及|log2FC|>2進(jìn)一步篩選出差異表達(dá)特別顯著的32個(gè)上下調(diào)基因,通過(guò)GEPIA生存分析發(fā)現(xiàn)其中12個(gè)基因與預(yù)后顯著相關(guān),包括:TOP2A、CDC20、SPINK1、AKR1B10、CLEC1B、IGFALS、HGFAC、CYP3A4、SLC22A1、TAT、CYP2E1。進(jìn)一步分析顯示,12個(gè)基因中,IGFALS、HGFAC、CYP3A4、SLC22A1、TAT和CYP2E1等6個(gè)基因在肝癌中低表達(dá),在肝臟組織中的表達(dá)明顯高于其他器官或者幾乎不表達(dá)于其他器官(圖6)。
圖6 關(guān)鍵基因(IGFALS、HGFAC、CYP3A4、SLC22A1、TAT、CYP2E1)在GEPIA的TCGA和GTEx中表達(dá)及預(yù)后分析Fig 6 Expression of key genes(IGFALS,HGFAC,CYP3A4,SLC22A1,TAT,CYP2E1)in TCGA and GTEx of GEPIA and prognosis analysis
通過(guò)HPA的免疫組織化學(xué)(immunohisto-chemistry,IHC)數(shù)據(jù)庫(kù)檢索發(fā)現(xiàn),與正常組織相比,肝癌組織中的IGFALS、CYP3A4、SLC22A1、CYP2E1均顯示下調(diào);HGFAC在正常肝臟與肝癌之間表達(dá)的差異不明顯;TAT在該數(shù)據(jù)庫(kù)中尚未提供相關(guān)數(shù)據(jù)證明(圖7)。
圖7 關(guān)鍵基因(IGFALS、HGFAC、CYP3A4、SLC22A1、CYP2E1)在正常肝臟組織和肝癌組織中蛋白質(zhì)的表達(dá)Fig 7 Expression of key genes(IGFALS,HGFAC,CYP3A4,SLC22A1,CYP2E1)in normal liver tissue and liver cancer tissue
肝癌是全球第6最常見(jiàn)癌癥,也是癌癥相關(guān)死亡的第2常見(jiàn)原因[10],其中,半數(shù)以上的新病例和死亡病例發(fā)生在中國(guó)[11]。肝癌的進(jìn)展速度快,缺乏有效的靶向藥物,患者存活率較低[12]。同時(shí),個(gè)體差異、各類危險(xiǎn)因素、遺傳易感性及微環(huán)境差異等極大限制了肝癌的早期發(fā)現(xiàn)及治療進(jìn)展[13]。因此,研究與肝癌發(fā)生發(fā)展相關(guān)的生物標(biāo)志物并找到肝癌預(yù)后指標(biāo),可為未來(lái)早發(fā)現(xiàn)早治療從而降低中國(guó)肝癌疾病負(fù)擔(dān)提供有效策略。
本研究采用生物信息學(xué)方法篩選出在GSE57957、GSE121248、GSE36376和GSE145204數(shù)據(jù)集中都顯著上調(diào)的基因45個(gè),下調(diào)基因132個(gè),并對(duì)其GO和KEGG功能進(jìn)行富集分析。結(jié)果發(fā)現(xiàn),IGFALS、CYP3A4、SLC22A1和CYP2E1基因在肝臟中特異性表達(dá),其在肝癌中的低表達(dá)可能與肝癌的不良預(yù)后相關(guān)。
IGFALS是一種蛋白質(zhì)編碼基因,可與胰島素生長(zhǎng)因子-I(insulin-like growth factor-I,IGF-I)和胰島素樣生長(zhǎng)因子結(jié)合蛋白質(zhì)3(insulin-like growth factor binding proteins-3,IGFBP-3)形成三元復(fù)合物[14],人胰島素樣生長(zhǎng)因子酸不穩(wěn)定亞基(the insulin-like grouth factor binding protein acid labile subunit,IGFALS)突變可導(dǎo)致三元復(fù)合物形成障礙,從而影響乳腺癌和其他癌癥的發(fā)生和發(fā)展[15]。同時(shí),全基因組甲基化分析證明,IGFALS是人類肝癌發(fā)生的抑制基因。當(dāng)IGFALS高表達(dá)時(shí)會(huì)顯著降低HuH7細(xì)胞的總體活力和克隆形成[16]。轉(zhuǎn)錄組序列分析進(jìn)一步確定了IGFALS是肝癌中優(yōu)先下調(diào)的關(guān)鍵遺傳決定因素基因,IGFALS的下調(diào)是肝癌發(fā)生的遺傳生物標(biāo)記[17]。
CYP3A4是編碼酶的細(xì)胞色素P450超家族成員,位于內(nèi)質(zhì)網(wǎng),其表達(dá)是由糖皮質(zhì)激素和某些藥理作用劑誘導(dǎo),相關(guān)通路包括藥物代謝-細(xì)胞色素P450和萘代謝。研究發(fā)現(xiàn),CYP3A4可能是通過(guò)調(diào)節(jié)性激素代謝產(chǎn)物水平或者代謝激活一些外源性致癌物,從而在乳腺癌和前列腺癌的發(fā)生中發(fā)揮重要作用[18];孕烷X受體可通過(guò)CYP3A4依賴性途徑調(diào)節(jié)利托那韋的肝毒性[19];CYP3A4基因下調(diào)的患者比正常表達(dá)的患者更容易發(fā)生腫瘤分化[20]。因此,CYP3A4被認(rèn)為可能是一種與肝細(xì)胞癌預(yù)后不良有關(guān)的新型抑癌基因。
CYP2E1是細(xì)胞色素P450超家族的另一個(gè)成員,與CYP2E1相關(guān)的疾病包括酒精性肝硬化和脂肪肝。其相關(guān)通路包括藥物代謝-細(xì)胞色素P450和萘代謝。CYP2E1可以增強(qiáng)大量飲酒后引起的腸道滲漏、脂肪性肝炎和細(xì)胞凋亡[21]。研究顯示,CYP2E1 RsaI/PstI和DraI多態(tài)性可能影響肺癌的易感性[22],篩選CYP2E1致癌基因多態(tài)性的遺傳和測(cè)定易感對(duì)象該基因表型及開(kāi)發(fā)其抑制劑,對(duì)預(yù)防其介導(dǎo)的癌癥十分重要[23]。但也有研究表明,CYP2E1基因多態(tài)性可能是亞洲人對(duì)膀胱癌的保護(hù)因素[24]。因此,CYP2E1在肝癌中的調(diào)控作用機(jī)制仍待進(jìn)一步探索。
SLC22A1是一種蛋白質(zhì)編碼基因,與其相關(guān)的疾病有白血病、慢性髓樣和染色體17Q23.1-Q23.2缺失綜合征。與該基因有關(guān)的GO注釋包括蛋白質(zhì)均二聚活性和跨膜轉(zhuǎn)運(yùn)蛋白活性。SLC22A1作為金屬運(yùn)輸溶質(zhì)載體可能對(duì)癌癥的發(fā)生和進(jìn)展以及抗癌藥和腫瘤顯像劑的輸送做出重大貢獻(xiàn)[25],并且其下調(diào)與腫瘤進(jìn)展和患者生存率降低有關(guān)[26-27]。編碼有機(jī)陽(yáng)離子轉(zhuǎn)運(yùn)蛋白1(organic cation transporter 1,OCT1)的下調(diào)可能影響肝細(xì)胞癌和膽管癌對(duì)索拉非尼(一種陽(yáng)離子藥物)的反應(yīng)[28]。綜上,推測(cè)SLC22A1可能通過(guò)調(diào)節(jié)OCT1表達(dá)從而在肝癌發(fā)生發(fā)展中發(fā)揮重要作用。
由于本研究是基于公共數(shù)據(jù)庫(kù)的生物信息學(xué)分析,這些肝癌相關(guān)的信號(hào)通路和關(guān)鍵基因還需要分子生物學(xué)方法和實(shí)驗(yàn)數(shù)據(jù)來(lái)進(jìn)一步驗(yàn)證。