陸 進(jìn),楊 月,趙學(xué)影,胡超力
(1蚌埠醫(yī)學(xué)院組織移植安徽省重點實驗室,蚌埠 233030;2蚌埠醫(yī)學(xué)院人體解剖學(xué)教研室;3蚌埠醫(yī)學(xué)院第一附屬醫(yī)院;4同濟(jì)大學(xué)附屬第十人民醫(yī)院;*通訊作者,E-mail:49015735@qq.com)
肝細(xì)胞癌(hepatocellular carcinoma,HCC)主要由肝炎病毒、肝硬化、酒精性肝病和基因變異等因素引起[1],已成為一種全球性最常見的惡性腫瘤之一,而且近年來其新發(fā)病例呈逐年上升趨勢,死亡率在癌癥相關(guān)腫瘤中排第三位,對人類健康產(chǎn)生嚴(yán)重威脅[2]。相對于西方發(fā)達(dá)國家,我國HCC發(fā)病率較高[3]。然而,由于缺乏有效的早期診斷方法,且預(yù)后難以準(zhǔn)確判斷,HCC死亡率仍然很高。隨著腫瘤基因組學(xué)的不斷深入發(fā)展,越來越多的研究表明HCC與多種癌基因相關(guān)。因此,了解HCC早期診斷、治療和生存預(yù)后相關(guān)基因,為制定有效診斷和治療HCC的策略提供依據(jù)。
目前,基因芯片技術(shù)和生物信息學(xué)被廣泛應(yīng)用于篩選基因組水平上的遺傳變異,對早期診斷參與HCC發(fā)生和發(fā)展的關(guān)鍵基因和判斷生存預(yù)后非常有利。然而,在獨立微陣列分析中,假陽性率很高,很難得到可靠的結(jié)果。因此,研究從基因表達(dá)總庫(GEO)中下載3個mRNA芯片數(shù)據(jù)集,并對其進(jìn)行分析,以獲得肝癌組織與非癌組織之間的差異表達(dá)序列,篩選可作為HCC候選生物標(biāo)記物,為臨床HCC的診斷、治療和判斷生存預(yù)后提供依據(jù)。
研究所用HCC芯片數(shù)據(jù)GSE76427(腫瘤樣本115例,非腫瘤樣本52例)、GSE33006(腫瘤樣本和非腫瘤樣本各3例)和GSE41804(腫瘤樣本和非腫瘤樣本各20例)來源于GEO(Gene Expression Omnibus,GEO)數(shù)據(jù)庫。芯片類型是全基因組mRNA芯片。
1.2.1 數(shù)據(jù)和差異基因分析 采用GEO(https://www.ncbi.nlm.nih.gov/geo/)在線分析工具GEO2R對3組HCC數(shù)據(jù)進(jìn)行分析,并進(jìn)行差異基因分析和韋恩圖繪制。條件設(shè)置為P<0.05且|logFC|≥1。
1.2.2 GO功能注釋和KEGG通路富集 利用在線工具DAVID(The Database for Annotation,Visua-lization and Integrated Discovery,https://david.ncifcrf.gov/)對差異基因進(jìn)行GO(Gene Ontology,GO)功能注釋和KEGG(Kyoto Encyclopedia of Gene and Genome,KEGG)通路富集分析,條件設(shè)定P<0.05,且Count>10。
1.2.3 蛋白互作網(wǎng)絡(luò)分析和基因篩選 利用String(https://string-db.org/)在線分析工具對235個差異基因進(jìn)行蛋白互作(protein-protein interaction,PPI)網(wǎng)絡(luò)分析。再利用Cytoscape軟件CytoHubba插件的MCC算法,獲取鏈接度最高的前10個基因。
1.2.4 生存分析 利用Kaplan-Meier Plotter(http://kmplot.com/analysis/)數(shù)據(jù)庫對篩選出的10個基因與HCC患者的預(yù)后進(jìn)行總體生存(Overall Survival,OS)分析。
1.2.5 確定關(guān)鍵基因 利用cBioPortal(http://www.cbioportal.org/)數(shù)據(jù)庫對HCC患者總體生存有意義的基因進(jìn)行共表達(dá)分析、基因突變、基因突變與生存預(yù)后以及藥物靶點基因分析。最終確定HCC的關(guān)鍵基因。檢索條件設(shè)置①liver;②liver hepatocellular carcinoma(TCGA Provisional,442samples);③oncoprint;④mutual exclusivity;⑤survival;⑥network。
1.2.6 關(guān)鍵基因驗證 利用TCGA門戶網(wǎng)站UALCAN(http://ualcan.path.uab.edu)數(shù)據(jù)庫對關(guān)鍵基因在HCC數(shù)據(jù)集中進(jìn)行驗證分析。檢索條件設(shè)置①gene symbol;②TCGA dataset:liver hepatocellular carcinoma;③expression;④survival。
通過GEO2R在線分析工具對3組HCC數(shù)據(jù)處理后,并進(jìn)行在線維恩圖繪制,共得到235個差異基因(見圖1)。
對235個差異基因進(jìn)行GO功能注釋和KEGG通路富集在線分析,發(fā)現(xiàn)差異基因的生物學(xué)過程(biological process,BP)主要富集在氧化還原過程、補(bǔ)體激活、藥物反應(yīng)、細(xì)胞表面受體信號通路和免疫反應(yīng)、細(xì)胞黏附、炎癥反應(yīng)和蛋白水解等129個過程;細(xì)胞構(gòu)成(cellular component,CC)主要集中在細(xì)胞外區(qū)域、細(xì)胞外間隙、細(xì)胞外小體、細(xì)胞膜、血液微粒、細(xì)胞質(zhì)核周區(qū)和蛋白細(xì)胞基質(zhì)等229個部分;分子功能(molecular function,MF)主要富集在單加氧酶活動、血紅素結(jié)合和鐵離子結(jié)合、絲氨酸型內(nèi)肽酶活性和蛋白質(zhì)均聚活性等72個功能。KEGG主要富集在代謝途徑以及補(bǔ)體和凝固級聯(lián)的55條通路(見表1)。
圖1 HCC差異基因維恩圖Figure 1 Venn diagram of HCC differential gene
表1 差異基因的GO功能注釋和KEGG通路富集分析
Table 1 GO functional annotation and KEGG pathway enrichment of differentially expressed genes
類別 項目 描述數(shù)量 PBPGO:0055114oxidation-reduction process342.36×10-12GO:0006956complement activation112.19×10-7GO:0042493response to drug142.11×10-4GO:0007166cell surface receptor signaling pathway120.001084503GO:0006955immune response150.001469409GO:0007155cell adhesion150.003258778GO:0006954inflammatory response130.004636582GO:0006508proteolysis150.00684636CCGO:0005576extracellular region582.43×10-13GO:0005615extracellular space469.09×10-10GO:0070062extracellular exosome721.31×10-9GO:0031090organelle membrane121.07×10-8GO:0072562blood microparticle112.12×10-5GO:0005578proteinaceous extracellular matrix125.57×10-4GO:0048471perinuclear region of cytoplasm180.002073131MFGO:0004497monooxygenase activity112.67×10-9GO:0020037heme binding142.04×10-8GO:0005506iron ion binding135.83×10-7GO:0004252serine-type endopeptidase activity142.33×10-5GO:0042803protein homodimerization activity200.002430275KEGGhsa04610Complement and coagulation cascades114.36×10-7hsa01100Metabolic pathways447.55×10-6
利用String在線網(wǎng)絡(luò)分析工具對差異基因進(jìn)行PPI網(wǎng)絡(luò)分析,得到PPI網(wǎng)絡(luò)圖(見圖2),再利用Cytoscape軟件CytoHubba插件的MCC算法進(jìn)行基因篩選,得到鏈接度高的前10個HUB基因(見圖3)。其中AURKA和TOP2A鏈接度最高。
利用Kaplan-Meier Plotter數(shù)據(jù)庫對篩選出的前10個HUB基因進(jìn)行在線生存分析,發(fā)現(xiàn)篩選出的前10個HUB基因?qū)CC患者OS均有顯著的統(tǒng)計學(xué)意義(P<0.05,見圖4)。
圖2 HCC關(guān)鍵基因的蛋白互作網(wǎng)絡(luò)Figure 2 Protein interaction network diagram of key HCC genes
圖3 HUB基因網(wǎng)絡(luò)鏈接Figure 3 Gene network link map of HUB gene
cBioPortal數(shù)據(jù)庫分析發(fā)現(xiàn),對HCC患者總體生存有意義的10個HUB基因存在共表達(dá)情況(見表2),除AURKA與NUSAP1和TOP2A共表達(dá)無統(tǒng)計學(xué)意義外(P>0.05),其他均有統(tǒng)計學(xué)差異意義(P<0.05)。10個基因在HCC中均有一定的突變發(fā)生率(見圖5),并且基因突變對HCC患者的總體生存和無病生存(disease free survival,DFS)均具有顯著差異意義(P<0.05)(見圖6)。目前研究藥物的靶基因只有AURKA和TOP2A,而獲得(美國)食品藥品監(jiān)督管理局(Food and Drug Administration,FDA)批準(zhǔn)藥物的靶基因只有TOP2A(見圖7)。因此,AURKA和TOP2A是本研究最終確定的關(guān)鍵基因。
圖4 HUB基因?qū)CC患者的總體生存預(yù)后意義Figure 4 Significance of HUB gene for overall survival and prognosis of patients with HCC
表2 10個HUB基因之間的共表達(dá)關(guān)系
Table 2 Co-expression of 10 HUB genes
基因共表達(dá)基因 Log2ORP基因共表達(dá)基因 Log2ORPCCNB2NUSAP1>3<0.001TOP2AKIF20A>3<0.001CCNB2NCAPG>3<0.001TOP2ANUSAP1>3<0.001CCNB2PTTG1>3<0.001TOP2ACCNB2>3<0.001CCNB2ASPM>3<0.001TOP2AUBE2C2.723<0.001CDC20NCAPG>3<0.001TOP2ACDC202.913<0.001CDC20PTTG1>3<0.001TOP2AASPM>3<0.001CDC20CCNB2>3<0.001TOP2ANCAPG>3<0.001CDC20KIF20A>3<0.001TOP2APTTG12.258<0.001CDC20ASPM>3<0.001NCAPGNUSAP1>3<0.001CDC20UBE2C>3<0.001NCAPGASPM2.562<0.001CDC20NUSAP1>3<0.001PTTG1NCAPG>3<0.001KIF20APTTG1>3<0.001PTTG1NUSAP12.843<0.001KIF20ACCNB2>3<0.001PTTG1ASPM1.688<0.001KIF20AASPM2.697<0.001AURKAUBE2C2.766<0.001KIF20ANCAPG>3<0.001AURKAPTTG12.0440.001KIF20ANUSAP1>3<0.001AURKACCNB22.1790.002UBE2CCCNB2>3<0.001AURKAASPM1.570.006UBE2CNUSAP1>3<0.001AURKANCAPG2.0380.01UBE2CKIF20A>3<0.001AURKACDC201.9560.022UBE2CPTTG1>3<0.001AURKAKIF20A1.7110.024UBE2CNCAPG>3<0.001AURKANUSAP11.5180.055UBE2CASPM1.7540.001AURKATOP2A0.5010.392ASPMNUSAP12.801<0.001
圖5 基因突變和表達(dá)熱圖Figure 5 Gene mutation and expression heat map
利用UALCA數(shù)據(jù)庫對最終確定的關(guān)鍵基因AURKA和TOP2A在HCC數(shù)據(jù)集中進(jìn)行驗證分析。結(jié)果顯示AURKA和TOP2A在HCC中高表達(dá),并且差異有統(tǒng)計學(xué)意義(P<0.05),對HCC患者生存預(yù)后不利(見圖8)。
圖6 基因突變與患者生存預(yù)后關(guān)系Figure 6 Relationships between gene mutation and survival and prognosis of hepatocellular carcinoma patients
圖7 基因網(wǎng)絡(luò)關(guān)系圖和藥物靶點基因Figure 7 Gene network diagram and drug target genes
圖8 基于UALCAN數(shù)據(jù)庫的關(guān)鍵基因在HCC患者中的表達(dá)和生存預(yù)后意義Figure 8 Expression of key genes in patients with HCC and its significance for survival and prognosis based on UALCAN data
HCC最常見的致病因素是慢性乙型肝炎病毒(HBV)和丙型肝炎病毒(HCV),占HCC治致病因素的80%以上[4]。而由于環(huán)境污染、食品安全和職業(yè)危險因素等導(dǎo)致基因變異造成HCC病例也日漸增多,而且發(fā)病趨勢迅猛[5]。然而,目前對HCC相關(guān)癌基因的分子機(jī)制研究還不夠清楚,大部分HCC患者早期診斷困難,缺乏相應(yīng)治療癌基因的藥物,而且難以對生存預(yù)后做出準(zhǔn)確的判斷,以致HCC患者生存預(yù)后不良。因此,迫切需要尋找高效、準(zhǔn)確的診斷、治療和判斷HCC患者生存預(yù)后的潛在生物標(biāo)記物?;蛐酒夹g(shù)使我們能夠研究HCC的遺傳改變,并且已被證明是一種發(fā)現(xiàn)新的腫瘤生物標(biāo)記物的有效方法。
本研究采用大數(shù)據(jù)分析方法對GEO數(shù)據(jù)庫下載的3組肝細(xì)胞癌和癌旁組織的生物芯片數(shù)據(jù)進(jìn)行GO功能注釋、KEGG富集、PPI網(wǎng)絡(luò)、關(guān)鍵基因篩選、生存曲線繪制、關(guān)鍵基因確定和關(guān)鍵基因驗證分析。
研究3組HCC數(shù)據(jù)集共得到235個差異基因,對其進(jìn)行GO功能注釋發(fā)現(xiàn)生物學(xué)過程主要富集在氧化還原過程、補(bǔ)體活化、細(xì)胞表面受體信號通路和免疫反應(yīng)、炎癥反應(yīng)和蛋白水解等多個過程,這些過程均與腫瘤的發(fā)生、發(fā)展、轉(zhuǎn)移和復(fù)發(fā)密切相關(guān)。其中,補(bǔ)體活化已經(jīng)被證明有促進(jìn)腫瘤發(fā)生和發(fā)展的作用[6]。此外,當(dāng)機(jī)體的氧化還原系統(tǒng)平衡被打破,可導(dǎo)致細(xì)胞代謝和功能異常,若此系統(tǒng)長期失衡,可致腫瘤的發(fā)生[7]。因此,這些生物過程和研究的結(jié)果是一致的。KEGG通路結(jié)果顯示差異基因主要富集在代謝途徑以及補(bǔ)體和凝固級聯(lián)通路,與GO功能注釋結(jié)果基本一致。
對235個差異基因進(jìn)行PPI網(wǎng)絡(luò)分析和HUB基因篩選得到鏈接度最高的前10個基因,分別是AURKA、TOP2A、CDC20、UBE2C、KIF20A、CCNB2、PTTG1、NCAPG、ASPM和NUSAP1。對篩選出的基因做生存曲線,發(fā)現(xiàn)所有基因?qū)CC患者的總體生存預(yù)后均有統(tǒng)計學(xué)意義(P<0.05),并提示基因的高表達(dá)不利于HCC患者的總體生存預(yù)后,與已有文獻(xiàn)關(guān)報道一致[8-17]。進(jìn)一步對所有基因的突變與HCC患者的生存預(yù)后進(jìn)行分析發(fā)現(xiàn),所有基因在HCC中均有一定的突變發(fā)生,同時顯示所有基因在HCC中存在共表達(dá)的現(xiàn)象,且基因突變導(dǎo)致HCC患者的OS和DFS顯著縮短,提示基因的突變不利于HCC患者的生存預(yù)后。此外,基因的網(wǎng)絡(luò)關(guān)系圖和藥物靶點圖分析顯示,目前所研究藥物的靶基因只有AURKA和TOP2A。因此,AURKA和TOP2A基因可能在HCC發(fā)生、發(fā)展、診斷、治療和預(yù)后過程中起到重要作用,是最終確定的關(guān)鍵基因,故重點對兩個關(guān)鍵基因進(jìn)行分析。
有研究者證實在HCC中AURKA表達(dá)上調(diào)[18],而且表明高表達(dá)的AURKA不利于HCC患者的生存預(yù)后[19,20],這與本研究和驗證結(jié)果一致。另有研究者表明AURKA是治療HCC的新靶點[21],主要是因AURKA被證明是一種新型的Ras結(jié)合蛋白,可與H-Ras相互結(jié)合,增強(qiáng)Ras介導(dǎo)的MAPK信號傳導(dǎo)通路。此外,有文獻(xiàn)報道AURKA通過調(diào)節(jié)HCC上皮-間充質(zhì)轉(zhuǎn)化和癌癥干細(xì)胞特性促進(jìn)癌癥轉(zhuǎn)移,不利于HCC患者生存預(yù)后[8]。而TOP2A基因的高表達(dá)被證明與HCC復(fù)發(fā)、侵襲、轉(zhuǎn)移以及化療耐藥有關(guān),不利于HCC患者的生存預(yù)后[22]。因TOP2A基因可以編碼TOP2A蛋白,從而參與DNA的復(fù)制、轉(zhuǎn)錄以及損傷修復(fù)程序,調(diào)節(jié)DNA的拓?fù)浣Y(jié)構(gòu)[23]。目前,獲得FDA批準(zhǔn)藥物的靶基因只有TOP2A,說明該基因在HCC的治療過程中占據(jù)關(guān)鍵地位。因此,TOP2A也被作為診斷和治療腫瘤及判斷生存預(yù)后的生物標(biāo)志物,如依托泊苷和替莫唑胺[22,24]。此外,在其他一些腫瘤中也發(fā)現(xiàn)TOP2A高表達(dá),如卵巢癌、肺癌和乳腺癌等腫瘤[25-27]。AURKA和TOP2A在HCC中雖然存在共表達(dá)現(xiàn)象,但沒有顯著的統(tǒng)計學(xué)意義(P>0.05),說明兩種關(guān)鍵基因?qū)CC起到相對獨立的作用,同時也說明研究相應(yīng)的基因靶點藥物不同的原因。
總之,本研究通過一種新的大數(shù)據(jù)分析方法,得到與HCC早期診斷、治療和生存預(yù)后相關(guān)的關(guān)鍵基因AURKA和TOP2A,為HCC的診斷、治療和預(yù)后判斷提供重要的依據(jù),具有重要的臨床意義。雖具有循證醫(yī)學(xué)依據(jù),但未進(jìn)行相關(guān)實驗驗證。因此,下一步將以預(yù)測結(jié)果為依據(jù),進(jìn)行相應(yīng)的實驗研究和臨床數(shù)據(jù)搜集。