劉 虎,吳思浛,包楚陽(yáng),李文娟,周守兵, 金 偉
胃癌惡性度高,預(yù)后差,尤其晚期病情進(jìn)展迅速,通常伴隨惡病質(zhì)狀態(tài)。胃癌患者代謝異常導(dǎo)致生存期縮短是目前臨床上的棘手問(wèn)題。癌基因人類(lèi)表皮生長(zhǎng)因子受體2(human epidermal growth factor receptor 2 gene,Her2)過(guò)度表達(dá)是胃癌預(yù)后差的指標(biāo),也是靶向治療的靶點(diǎn),約有20%胃癌病人伴有Her2過(guò)表達(dá),是胃癌明確的癌基因[1]。Her2是否會(huì)對(duì)胃癌代謝產(chǎn)生影響尚未有報(bào)道和關(guān)注。該文通過(guò)基因集富集分析(gene set enrichment analysis,GSEA)對(duì)癌基因Her2進(jìn)行轉(zhuǎn)錄組測(cè)序技術(shù)及生物信息學(xué)方法研究。通過(guò)對(duì)癌癥基因組圖譜(the cancer genome atlas,TCGA)、 基因表達(dá)綜合數(shù)據(jù)庫(kù)(the gene expression omnibus databases,GEO)和歐洲生物信息研究所(EMBL-EBI )ArrayExpress中的胃癌轉(zhuǎn)錄測(cè)序數(shù)據(jù)庫(kù)進(jìn)行分析,試圖探討Her2基因的高低表達(dá)水平對(duì)胃癌代謝通路的影響。
1.1 研究對(duì)象以TCGA的胃癌數(shù)據(jù)庫(kù)(stomach adenocarcinoma,STAD)[2]、GEO 數(shù)據(jù)庫(kù)、ArrayExpress中搜索的胃癌RNAseq相關(guān)數(shù)據(jù)庫(kù)(樣本量在100以上)作為研究對(duì)象,篩選出10個(gè)數(shù)據(jù)庫(kù)作為研究對(duì)象,見(jiàn)表1。通過(guò)R語(yǔ)言軟件包TCGA2STAT[3]從Broad GDAC Firehose下載TCGA STAD RNA轉(zhuǎn)錄表達(dá)(RNAseq)和CNA數(shù)據(jù),GEO在NCBI GEO直接下載,ArrayExpress在EMBL-EBI ArrayExpress直接下載。
表1 入選的胃癌基因表達(dá)數(shù)據(jù)庫(kù)
1.2 GSEA軟件分析在下載的數(shù)據(jù)庫(kù)中,根據(jù)Her2基因表達(dá)水平排列次序,選取高低表達(dá)各20~30樣本制作表型標(biāo)簽,以TCGA STAD的為例見(jiàn)表2。將表達(dá)數(shù)據(jù)庫(kù)(下載的TCGA和GEO表達(dá)數(shù)據(jù)庫(kù))、表型標(biāo)簽加載到GSEA java軟件中,設(shè)置排列數(shù)目為1 000個(gè),chip platform選用對(duì)應(yīng)數(shù)據(jù)所用的測(cè)序或者芯片平臺(tái),比如GPL5175平臺(tái)。MSigDB選擇C2 curated gene sets CP KEGG gene sets(包含186個(gè)基因集)。選取不同樣本,制作不同的標(biāo)簽,運(yùn)行3~4次GSEA java,取錯(cuò)誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR) q val<25% 和 nomPval<0.01基因集最多的結(jié)果。
表2 TCGA STAD表型標(biāo)簽制作
1.3 應(yīng)用的軟件格式GSEA富集分析JAVA軟件下載于Broad Institute,版本號(hào) GSEA 4.0.3,R語(yǔ)言TCGA2STAT軟件包從The Comprehensive R Archive Network(CRAN)下載。
1.4 統(tǒng)計(jì)學(xué)處理GSEA 富集分析取FDR q val<25%和/或nomPval<0.01的富集結(jié)果認(rèn)為差異有統(tǒng)計(jì)學(xué)意義。
2.1 TCGA Her2表達(dá)高低組的GSEA結(jié)果在Her2高表達(dá)表型中120/278基因集上調(diào),5個(gè)基因集富集FDR<25%,5個(gè)基因集富集 nomP<1%, 16個(gè)基因集富集 nomP<5%。FDR q val<25%且nomP<0.01的基因集有3個(gè):過(guò)氧化物酶體(KEGG PEROXISOME)、含硒氨基酸(KEGG SELENOAMINO ACID METABOLIS)、甘油酯類(lèi)代謝(KEGG GLYCEROLIPID METABOLISM)(詳見(jiàn)表3)受Her2高表達(dá)影響最明顯的前50基因熱圖見(jiàn)圖1。圖2列出3個(gè)有意義基因集的富集圖。
表3 TCGA STAD中Her2高表達(dá)富集結(jié)果列表
圖1 TCGA Her2高低表達(dá)相關(guān)基因列表熱圖
圖2 有意義的基因集的富集圖
2.2 TCGA和GEO數(shù)據(jù)庫(kù)的GSEA分析結(jié)果用上述TCGA的GSEA分析方法對(duì)入選的TCGA的CNA和GEO、ArrayExpress所有數(shù)據(jù)進(jìn)行分析,結(jié)果綜合見(jiàn)表4。以FDR q val<25%和/或nomPval<0.01判斷為有意義。結(jié)果顯示Her2的高表達(dá)在TCGA、GSE15459和GSE66229數(shù)據(jù)中GSEA分析有陽(yáng)性結(jié)果。
表4 Her2高表達(dá)在不同基因數(shù)據(jù)庫(kù)中對(duì)基因集的富集分析結(jié)果
2.3 不同數(shù)據(jù)庫(kù)代謝通路影響的熱圖通過(guò)繪制熱圖比較顯示Her2對(duì)過(guò)氧物酶體、N-聚糖生物合成和嘧啶代謝通路基因集有非常影響(FDR q<25%且nomP<0.01), 糖基磷脂酰肌醇、甘油磷脂、鞘脂類(lèi)代謝差異有統(tǒng)計(jì)學(xué)意義(nomP<0.01)(見(jiàn)圖3)。
圖3 Her2在不同數(shù)據(jù)中對(duì)基因集影響的熱圖綠色:FDR q val<25%且nom P val<0.001,黃色:nom P val<0.001
胃癌起病隱匿,疾病進(jìn)展迅速,晚期伴有代謝異常,營(yíng)養(yǎng)吸收障礙,加速病情惡化。本研究組前期轉(zhuǎn)錄組研究也發(fā)現(xiàn)胃癌中脂質(zhì)代謝相關(guān)基因的異常表達(dá)[12]。Her2是胃癌最明確的癌基因且有判斷預(yù)后和靶向藥物,而癌基因?qū)ξ赴┐x的影響并未受關(guān)注。生物信息學(xué)的發(fā)展提供了數(shù)據(jù)挖掘分析的可能。GSEA富集分析java軟件可以初步探討Her2對(duì)胃癌代謝的影響。
本研究搜索了TCGA,GEO和ArrayExpress數(shù)據(jù)庫(kù)中胃癌的主要上規(guī)模的測(cè)序數(shù)據(jù),共10個(gè),并用Her2表達(dá)高低或者拷貝數(shù)高低(copy number analyses,CNA)作為表型標(biāo)簽,加載到GSEA中,和MSigDB中注釋(curated)的基因集進(jìn)行富集分析。當(dāng)FDR q val<25% 且 nomPval<0.01時(shí)判斷為有意義的基因集。在本文中詳細(xì)列舉了TCGA STAD中Her2高低表達(dá)的GSEA分析結(jié)果,GSEA能獲得與表型相關(guān)的基因熱圖,通過(guò)標(biāo)化的富集評(píng)分(normalized enrichment score, NES)評(píng)判基因集與表型的關(guān)聯(lián)。通過(guò)比較不同數(shù)據(jù)庫(kù)中的GSEA分析結(jié)果獲得一個(gè)共性結(jié)果,從而得到推斷Her2高表達(dá)可能對(duì)過(guò)氧物酶體、N-聚糖生物合成和嘧啶代謝通路有影響。
Her2高表達(dá)所影響的代謝通路本身與腫瘤就有密切聯(lián)系并起核心作用,比如:過(guò)氧化物酶體分子和過(guò)氧化物酶體特異性蛋白在過(guò)氧化應(yīng)激與腫瘤發(fā)生中有作用。過(guò)氧化物酶體本身可能充當(dāng)信號(hào)樞紐,促進(jìn)其他支持腫瘤的發(fā)生過(guò)程,例如自噬[13]。再比如:參與N-聚糖生物合成的酶及其產(chǎn)物表達(dá)的變化可以調(diào)節(jié)結(jié)直腸癌細(xì)胞的細(xì)胞黏附、細(xì)胞信號(hào)傳導(dǎo)和侵襲性[14]。而嘧啶作為DNA合成原料其代謝與腫瘤的失控生長(zhǎng)關(guān)系更是密切[15]。Her2與這些代謝之間的相互影響尚未被關(guān)注并需進(jìn)一步實(shí)驗(yàn)證實(shí)。
綜上所述,通過(guò)GSEA探討了癌基因Her2對(duì)代謝通路的可能影響,并比較不同數(shù)據(jù)庫(kù)中的結(jié)果初步形成了推斷:Her2高表達(dá)可能對(duì)多個(gè)代謝通路產(chǎn)生影響。
(致謝:感謝英國(guó)帝國(guó)理工大學(xué)Stefan Antonowitz博士提供的技術(shù)指導(dǎo)和幫助。)