席義博, 張皓旻, 楊 波, 陳熙勐1,, 賀培鳳, 盧學(xué)春,
(1. 山西醫(yī)科大學(xué)管理學(xué)院, 太原 030001; 2. 解放軍總醫(yī)院南樓血液科, 國(guó)家老年疾病臨床醫(yī)學(xué)研究中心 北京 100853)
肝細(xì)胞癌 (hepatocellular carcinoma, HCC) 是原發(fā)性肝癌中最常見(jiàn)的類(lèi)型,占原發(fā)性肝癌的83%,也是全球癌癥死亡的第二大主要原因[1]。HCC遺傳異質(zhì)性強(qiáng),疾病發(fā)生發(fā)展中涉及到很多基因的改變及相互作用,這也是其復(fù)發(fā)、轉(zhuǎn)移及耐藥的分子學(xué)基礎(chǔ)。目前已有大量關(guān)于HCC預(yù)后相關(guān)基因的報(bào)道[2, 3],其中多數(shù)研究探討某個(gè)基因與HCC預(yù)后的關(guān)系,其結(jié)果具有一定的局限性且缺乏臨床大宗病例驗(yàn)證,因此在臨床評(píng)估HCC預(yù)后中受到限制。當(dāng)前,已進(jìn)入二代測(cè)序驅(qū)動(dòng)的精準(zhǔn)醫(yī)學(xué)時(shí)代,海量的基因組、表觀基因組和蛋白質(zhì)組的數(shù)據(jù)層出不窮,這為人類(lèi)從多組學(xué)角度研究腫瘤發(fā)生、發(fā)展及轉(zhuǎn)移提供了良好的契機(jī)。
本課題組在前期建立了“疾病-藥物多組學(xué)大數(shù)據(jù)臨床生物信息學(xué)分析平臺(tái)”[4-12]的基礎(chǔ)上,本研究利用GEO和TCGA數(shù)據(jù)庫(kù)中HCC的全基因組表達(dá)譜數(shù)據(jù)和臨床生存信息,篩選HCC預(yù)后不良的相關(guān)基因,以期為臨床指導(dǎo)HCC危險(xiǎn)分層提供依據(jù)。
美國(guó)國(guó)立生物技術(shù)信息中心 (national center for biotechnology information, NCBI) 是生物信息學(xué)研究的重要工具和服務(wù)資源,基因表達(dá)綜合數(shù)據(jù)庫(kù) (gene expression omnibus, GEO)是其中的一個(gè)國(guó)際公共高通量微陣列數(shù)據(jù)庫(kù)。從GEO (https://www.ncbi.nlm.nih.gov/geo) 獲取HCC的基因表達(dá)譜芯片數(shù)據(jù)GSE84402,其中包含9例HCC組織樣本和9例癌旁正常組織樣本,該數(shù)據(jù)使用HumanGenomeU133Plus2.0 Affymetrix表達(dá)譜芯片平臺(tái)GPL570完成注釋。此外,從癌癥基因組圖譜數(shù)據(jù)庫(kù) (the Cancer Genome Atlas, TCGA) 中獲取到129例包含完整生存時(shí)間的HCC樣本。本研究的分析流程(圖1)。
Fig. 1 Analysis flow chart of this study
使用R語(yǔ)言程序包Impute (http://www.bioconductor.org/packages/release/bioc/) 對(duì)數(shù)據(jù)GSE84402進(jìn)行缺失值的補(bǔ)充,使用R語(yǔ)言程序包Limma (http://www.bioconductor.org/packages/release/bioc/) 進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化并分析中9例HCC樣本與9例癌旁正常組織的基因表達(dá)情況,根據(jù)Benjamini和Hochberg提出的方法修正原始P,并以FDR<0.05,|logFC|≥2作為DEGs的篩選閾值。對(duì)DEGs的表達(dá)譜數(shù)據(jù)進(jìn)行聚類(lèi)分析并構(gòu)建熱圖,使用Origin lab (https://www.originlab.com/)進(jìn)行可視化分析。
String蛋白相互作用數(shù)據(jù)庫(kù) (https://string-db.org/ version 10.5) 是關(guān)于已知或預(yù)測(cè)的蛋白質(zhì)間相互作用的生物數(shù)據(jù)庫(kù)。使用String構(gòu)建蛋白質(zhì)互作用網(wǎng)絡(luò) (protein-protein interation, PPI),以可信度評(píng)分>0.9為篩選閾值,刪除無(wú)關(guān)聯(lián)的孤立點(diǎn),導(dǎo)出TSV格式的數(shù)據(jù)文件。Gephi (https://gephi.org version 0.9.2) 是一款開(kāi)源免費(fèi)的跨平臺(tái)復(fù)雜網(wǎng)絡(luò)分析軟件。將TSV格式的數(shù)據(jù)導(dǎo)入Gephi進(jìn)行可視化分析,統(tǒng)計(jì)網(wǎng)絡(luò)節(jié)點(diǎn)和邊(Degree)的數(shù)量,基于MCODE算法識(shí)別稠密子圖,構(gòu)建PPI加權(quán)網(wǎng)絡(luò)圖并篩選中心節(jié)點(diǎn)。
使用DAVID生物學(xué)信息注釋及可視化數(shù)據(jù)庫(kù) (https://david.ncifcrf.gov version 6.8) 完成PPI中所有節(jié)點(diǎn)的基因本體分析與通路富集分析,分析其中的GO (Gene oncology) 生物進(jìn)程和KEGG (Kyoto Encyclopedia of Genes and Genomes) 通路富集結(jié)果,以P<0.05及FDR<0.05表示具有顯著性。根據(jù)PPI的中心節(jié)點(diǎn)及聚類(lèi)情況,篩選在顯著性富集結(jié)果中出現(xiàn)的基因?yàn)殛P(guān)鍵基因。
Cox比例風(fēng)險(xiǎn)回歸模型由英國(guó)統(tǒng)計(jì)學(xué)家D.R.Cox于1972年提出,主要用于腫瘤和其它慢性病的預(yù)后分析。從TCGA數(shù)據(jù)庫(kù) (https://cancergenome.nih.gov/) 獲取129個(gè)具有完整生存時(shí)間數(shù)據(jù)的HCC樣本。使用R語(yǔ)言程序包edgeR (http://www.bioconductor.org/packages/release/bioc/) 和survival (https://cran.rstudio.com/web/packages/survival/) 對(duì)關(guān)鍵基因進(jìn)行Cox比例風(fēng)險(xiǎn)回歸模型分析。依據(jù)赤池信息量準(zhǔn)則 (Akaike information criterion, AIC)和Kaplan-Meier方法計(jì)算風(fēng)險(xiǎn)系數(shù),并以此將樣本分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組,利用log-rank進(jìn)行生存差異檢驗(yàn),P<0.05表示其具有統(tǒng)計(jì)學(xué)意義。并繪制ROC曲線,曲線下所覆蓋區(qū)域的面積 (Area Under roc Curve, AUC) >0.7表示結(jié)果具有一定的準(zhǔn)確性。
使用R語(yǔ)言程序包Impute和Limma分別對(duì)數(shù)據(jù)GSE84402進(jìn)行缺失值的補(bǔ)充與標(biāo)準(zhǔn)化處理,以提高數(shù)據(jù)分析精度(圖2 A,B),并使用Limma程序包篩選DEGs,以校正P<0.05, |log2FC|>1作為篩選標(biāo)準(zhǔn),得到1141個(gè)DEGs,其中上調(diào)基因720個(gè),下調(diào)基因421個(gè),DEGs的表達(dá)情況及聚類(lèi)分析結(jié)果反映出樣本數(shù)據(jù)間的差異情況 (圖3 A,B,見(jiàn)彩圖頁(yè)Ⅱ)。
Fig.2Normalization of data set GSE84402
A, B: The ordinate in the figure shows the range of gene expression amount of each sample in the data set, and it is normalized by using R package. Impute, so that the median value of gene expression amount of each sample is roughly on the same level to screen the DEGs
利用String在線工具進(jìn)行蛋白質(zhì)互作用分析,并利用Gephi進(jìn)行可視化分析,根據(jù)蛋白質(zhì)間的互作用關(guān)系構(gòu)建PPI網(wǎng)絡(luò)圖 (圖4,見(jiàn)彩圖頁(yè)Ⅱ),結(jié)果顯示PPI網(wǎng)絡(luò)中有346個(gè)節(jié)點(diǎn),Degree最大值為89,最小值為1 (表1),與之對(duì)應(yīng)的上調(diào)基因有178個(gè),下調(diào)基因有168個(gè),經(jīng)MCODE算法聚類(lèi)得到7個(gè)顯著類(lèi)團(tuán),分別與細(xì)胞周期、凝血、DNA合成、細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)、神經(jīng)活動(dòng)、mRNA剪接、細(xì)胞色素P450代謝相關(guān),這表明HCC是機(jī)體多因素變化的綜合結(jié)果,除了異常的細(xì)胞增殖、血管生成、信號(hào)傳導(dǎo)等方面,肝細(xì)胞色素P450的異常代謝也是HCC發(fā)生發(fā)展的關(guān)鍵因素(表2)。
Tab. 1 The top 20 genes by degree
使用DAVID對(duì)PPI網(wǎng)絡(luò)中的基因進(jìn)行富集分析。其中GO富集結(jié)果中有27個(gè)生物進(jìn)程具有顯著性,主要涉及DNA復(fù)制相關(guān)過(guò)程、有絲分裂G1/S期、異型生物質(zhì)的代謝過(guò)程、色素P450通路等生物學(xué)過(guò)程 (表3)。KEGG的富集結(jié)果中有10條通路具有顯著性,包括化學(xué)致癌作用、視黃醇代謝、藥物代謝-細(xì)胞色素P450通路,神經(jīng)膠質(zhì)瘤、小細(xì)胞肺癌、乙型肝炎、黑色素瘤等疾病通路 (表4)。篩選閾值為P<0.05。
Tab. 2 The cluster analysis results of MCODE algorithm
Tab. 3 The top 10 enrichment analysis results of GO biological processes
Tab. 4 The enrichment analysis results of KEGG pathways
依據(jù)PPI網(wǎng)絡(luò)的聚類(lèi)情況、節(jié)點(diǎn)的Degree值以及DEGs功能富集的結(jié)果,篩選出10個(gè)關(guān)鍵基因,分別為CDK1、CDC6、CCNA2、CHEK1、CENPE 、PIK3R1、RACGAP1、BIRC5、KIF11和CYP2B6。
利用R語(yǔ)言包Survival對(duì)關(guān)鍵基因進(jìn)行Cox回歸模型分析,結(jié)果顯示CDC6、PIK3R1、RACGAP1和KIF11的高表達(dá)和CENPE的低表達(dá)與HCC的不良預(yù)后具有顯著相關(guān)性。使用Origin Lab進(jìn)行可視化分析并繪制高低風(fēng)險(xiǎn)熱圖,反映出CDC6、PIK3R1、RACGAP1、KIF11和CENPE在樣本中的表達(dá)情況,及其對(duì)預(yù)后風(fēng)險(xiǎn)的影響 (圖5,見(jiàn)彩圖頁(yè)Ⅴ)。依據(jù)AIC和Kaplan-Meier方法計(jì)算風(fēng)險(xiǎn)系數(shù)將樣本分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組,并用log-rank進(jìn)行生存差異檢驗(yàn) (圖6A),P<0.05表示具有統(tǒng)計(jì)學(xué)意義, 結(jié)果反映出樣本高低風(fēng)險(xiǎn)組的生存率隨時(shí)間變化的趨勢(shì),并以此反映預(yù)后情況。ROC曲線越凸越近左上角表明結(jié)果的參考價(jià)值越大,AUC用于判斷其準(zhǔn)確性,圖中AUC=0.875表明該結(jié)果具有一定參考價(jià)值 (圖6B)。
Fig.6Prognostic analysis results of significantly related genes
A: Survival curve of genes significantly associated with prognosis, which indicates that with the interaction of related genes, the survival rates of high and low risk group change with time, and survival rates presents significant difference. P-value<0.05 indicates that the result has statistical significance; B: ROC curve is performed to find out the most optimal cutoff value to divide the samples into high risk and low risk group. In statistical sense, the AUC value > 0.7 indicates that it is accurate to a degree
肝細(xì)胞癌 (hepatocellular carcinoma, HCC) 是一種發(fā)病率和死亡率較高的消化系統(tǒng)惡性腫瘤[13]。近年來(lái),隨著精準(zhǔn)醫(yī)學(xué)和高通量測(cè)序技術(shù)的發(fā)展,越來(lái)越多的新技術(shù)與新方法應(yīng)用在腫瘤的研究上,本研究以HCC為研究對(duì)象,運(yùn)用生物信息學(xué)方法,分析了基金表達(dá)綜合數(shù)據(jù)庫(kù)(GEO)和癌癥基因組圖譜數(shù)據(jù)庫(kù)(TCGA)中HCC相關(guān)的數(shù)據(jù)集,通過(guò)Cox回歸模型分析了差異表達(dá)基因(DEGs)與HCC預(yù)后的相關(guān)性,結(jié)果表明CDC6、PIK3R1、RACGAP1和KIF11的高表達(dá)和CENPE的低表達(dá)與HCC的不良預(yù)后密切相關(guān),未來(lái)可能作為HCC預(yù)后不良的分子標(biāo)志物具有潛在的臨床價(jià)值。
在本研究結(jié)果中,細(xì)胞分裂周期蛋白6 (CDC6) 在DNA復(fù)制、有絲分裂等GO生物進(jìn)程中出現(xiàn)顯著富集,以往有研究表明[14]在真核細(xì)胞中,CDC6是啟動(dòng)細(xì)胞DNA復(fù)制的必需蛋白之一,其主要功能是促進(jìn)“復(fù)制前復(fù)合體”形成,此外還通過(guò)多途徑影響細(xì)胞分裂并參與細(xì)胞的惡性轉(zhuǎn)化。另有研究表明[15],CDC6的高表達(dá)可有效抑制DNA復(fù)制和細(xì)胞增殖,從而阻止腫瘤的生長(zhǎng),這與本研究的結(jié)果保持一致,說(shuō)明該基因?qū)δ[瘤預(yù)后具有重要意義,可能作為抗腫瘤藥物的靶點(diǎn)。
目前,已有大量的實(shí)驗(yàn)研究表明PI3K信號(hào)通路對(duì)癌細(xì)胞的生長(zhǎng)、存活和新陳代謝至關(guān)重要[16, 17]。而PIK3R1是PI3K信號(hào)通路的關(guān)鍵癌癥相關(guān)基因[18]。本研究的結(jié)果發(fā)現(xiàn),PIK3R1在多種癌癥通路中均表現(xiàn)出高表達(dá)的狀態(tài),如神經(jīng)膠質(zhì)瘤、小細(xì)胞肺癌、乙型肝炎、黑色素瘤。過(guò)去已有研究表明PIK3R1突變發(fā)生于多種癌癥,包括卵巢癌、結(jié)腸癌等[19]。另有研究證明PIK3R1是FOXA1的直接作用靶點(diǎn),而FOXA1作為一種腫瘤抑制因子,通過(guò)抑制PI3K信號(hào)通路,對(duì)HCC的細(xì)胞增殖、遷移和入侵產(chǎn)生負(fù)面調(diào)節(jié)作用[20],證明本研究結(jié)果具有意義,PIK3R1作為癌癥的關(guān)鍵基因,未來(lái)可能在HCC的診斷治療和預(yù)后中發(fā)揮重要作用。
另外,CENPE是重要的紡錘體檢查點(diǎn)蛋白之一,一旦其表達(dá)被抑制染色體就無(wú)法正常分離,可能引起染色體非整倍性變異,這是大多數(shù)實(shí)體癌的重要標(biāo)志[21]。本研究結(jié)果顯示,CENPE在HCC患者體內(nèi)呈低表達(dá)狀態(tài),推測(cè)其可能引起了患者染色體數(shù)目或結(jié)構(gòu)異常,進(jìn)而導(dǎo)致腫瘤的發(fā)生。在以往的研究中[22],通過(guò)逆轉(zhuǎn)錄-聚合酶鏈反應(yīng) (RT-qPCR) 檢測(cè)HepG-2人類(lèi)肝癌細(xì)胞系和LO2正常細(xì)胞系中CENPE mRNA的表達(dá)水平,結(jié)果發(fā)現(xiàn),在細(xì)胞分裂期間HepG-2細(xì)胞系中CENPE的蛋白質(zhì)表達(dá)水平顯著低于LO2細(xì)胞系,表明CENPE的表達(dá)在HepG-2肝癌細(xì)胞系中被抑制,因此 CENPE可能是人類(lèi)肝細(xì)胞中染色體數(shù)目異常進(jìn)而引發(fā)肝癌的關(guān)鍵因素之一,再次證明本研究結(jié)果具有可靠性。
Rac GTPase-活化蛋白1 (Rac GTPase activating protein 1, RACGAP 1) 是一種GTP 酶激活蛋白,在細(xì)胞有絲分裂過(guò)程中起到調(diào)節(jié)RAC、CDC42和RHOA的GTP酶活性的作用從而形成紡錘體,促進(jìn)胞質(zhì)分裂的完成[23],其在控制細(xì)胞分裂、轉(zhuǎn)化、侵襲性轉(zhuǎn)移等各種細(xì)胞活動(dòng)中起著關(guān)鍵作用[24]。目前已陸續(xù)有文獻(xiàn)證實(shí)RACGAP1在白血病[25]、胃癌[26]、非小細(xì)胞肺癌[27]中的高表達(dá)與癌癥的預(yù)后不良關(guān)系密切,本研究的預(yù)后分析結(jié)果中,RACGAP1表達(dá)升高對(duì)HCC患者預(yù)后不良的影響具有統(tǒng)計(jì)學(xué)意義,可能作為潛在的HCC預(yù)后不良關(guān)鍵因素,但目前對(duì)該基因的相關(guān)研究少有報(bào)道,其分子作用機(jī)制還需進(jìn)一步研究證實(shí)。
此外,本研究還發(fā)現(xiàn),KIF11的高表達(dá)也與HCC的預(yù)后不良具有顯著相關(guān)性。KIF11是驅(qū)動(dòng)蛋白超家族蛋白 (kinesin superfamily proteins, KIFs) 的成員,它們參與細(xì)胞內(nèi)的物質(zhì)運(yùn)輸、有絲分裂、減數(shù)分裂、控制微管的動(dòng)態(tài)特征和信號(hào)轉(zhuǎn)導(dǎo)[28]。已有研究顯示大多數(shù)驅(qū)動(dòng)蛋白超家族蛋白的異常高表達(dá)與HCC的發(fā)生和預(yù)后不良顯著相關(guān)[29],其中包括KIF14[30]、KIF18A[31],但針對(duì)KIF11的研究仍比較少,作為KIFs蛋白家族的重要成員,KIF11的高表達(dá)與HCC預(yù)后的相關(guān)研究,未來(lái)可能具有重要的臨床意義。
綜上所述,本研究通過(guò)對(duì)GEO數(shù)據(jù)庫(kù)中HCC相關(guān)基因芯片的分析,結(jié)合TCGA的臨床數(shù)據(jù),發(fā)現(xiàn)基因CDC6、PIK3R1、RACGAP1和KIF11的高表達(dá),CENPE的低表達(dá)與肝細(xì)胞癌的預(yù)后不良具有明顯相關(guān)性,提示其可能成為HCC預(yù)后不良的新指標(biāo),并為其預(yù)后監(jiān)測(cè)提供實(shí)質(zhì)性指導(dǎo)。
中國(guó)應(yīng)用生理學(xué)雜志2019年1期