于 哲,羅 婧,楊永平
肝癌是一種常見的消化系統(tǒng)惡性腫瘤,全球年新增肝癌病例達(dá)84.1萬,死亡約78.2萬,分別排在惡性腫瘤的第6位和第2位[1]。肝細(xì)胞癌(hepatocellular carcinoma, HCC)這一病理學(xué)類型占肝癌總體近90%,即使在發(fā)達(dá)國家其5年生存率也低于20%。因此,對(duì)HCC的早期診治尤為重要。目前,HCC的確診、復(fù)查和預(yù)后判斷仍依賴血清學(xué)、影像學(xué)和組織病理學(xué)檢查。組織病理學(xué)檢查存在有創(chuàng)性,血清學(xué)檢查的有效性稍差,反復(fù)CT或MRI檢查存在著放射性污染和費(fèi)用貴的問題。因此,亟需更精準(zhǔn)的無創(chuàng)性生物標(biāo)記物用于HCC患者的診斷和預(yù)后判斷。有研究報(bào)道,乳腺癌細(xì)胞可將外周血單個(gè)核細(xì)胞(peripheral blood mononuclear cells,PBMC)募集到腫瘤部位,在腫瘤微環(huán)境中將其轉(zhuǎn)化為促進(jìn)腫瘤發(fā)展的免疫細(xì)胞,隨后激活相關(guān)信號(hào)通路,改變PBMC的基因表達(dá)譜[2]。因此,PBMC基因水平差異的變化往往早于腫瘤周圍的正常組織,提示通過檢測(cè)PBMC基因有可能實(shí)現(xiàn)對(duì)腫瘤更精準(zhǔn)的早期診斷或預(yù)后判斷。多組學(xué)結(jié)合生物信息學(xué)工具的聯(lián)合應(yīng)用使我們有望找到HCC潛在的關(guān)鍵基因和治療靶點(diǎn)。本研究通過挖掘公共數(shù)據(jù)庫中HCC患者基因和臨床數(shù)據(jù),探索了HCC患者PBMC與腫瘤組織基因水平變化的相似性,以尋找有潛力的PBMC關(guān)鍵基因,研究關(guān)鍵基因在腫瘤發(fā)展過程中可能的作用及其與預(yù)后的關(guān)系,以期找到診斷HCC的新型標(biāo)志物,為HCC的早期診斷和預(yù)后判斷提供新指標(biāo)。
1.1 數(shù)據(jù)檢索 從NCBI-GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)[3]檢索數(shù)據(jù)集,納入標(biāo)準(zhǔn)如下:①同時(shí)包含有HCC患者和健康人的PBMC資料數(shù)據(jù);②HCC患者和健康人樣本量均≥10例;③數(shù)據(jù)檢測(cè)類型為總RNA。最終選擇GSE49515數(shù)據(jù)集進(jìn)行深入分析。該數(shù)據(jù)集基于GPL570芯片分析平臺(tái)的處理,包含26例PBMC樣本,其中HCC患者10例、健康人10例、胃癌3例和胰腺癌3例。本研究選擇HCC患者和健康人樣本進(jìn)行研究[4]。此外,在TCGA數(shù)據(jù)庫(https://portal.gdc.cancer.gov/)下載HCC患者基因和臨床數(shù)據(jù),用于分析關(guān)鍵基因在HCC患者腫瘤組織中的表達(dá)水平與預(yù)后的關(guān)系。
1.2 數(shù)據(jù)分析 本研究所用各類分析工具如下:應(yīng)用在線分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)獲取HCC與健康人間的差異表達(dá)基因(differentially expressed genes, DEGs)。當(dāng)一個(gè)探針對(duì)應(yīng)多個(gè)基因時(shí),說明探針特異性不強(qiáng),予以刪除;當(dāng)多個(gè)探針對(duì)應(yīng)一個(gè)基因時(shí),取差異倍數(shù)(fold change,F(xiàn)C)絕對(duì)值的最大值。應(yīng)用STRING(https://string-db.org/)[5]完成基因功能與通路的富集分析及蛋白質(zhì)相互作用(protein-protein interaction, PPI)網(wǎng)絡(luò)的構(gòu)建。應(yīng)用軟件Cytoscape 3.7.2[6]及其中的MCODE插件完成PPI網(wǎng)絡(luò)可視化和基因模塊的篩選。應(yīng)用GEPIA(http://gepia.cancer-pku.cn/)[7]完成關(guān)鍵模塊基因的生存分析。GEPIA數(shù)據(jù)庫整合了TCGA和GTEx兩大數(shù)據(jù)庫,可有效驗(yàn)證基因水平與生存期的關(guān)系。最后,應(yīng)用IBM SPSS Statistics 25結(jié)合TCGA中的臨床數(shù)據(jù)進(jìn)行單因素和多因素Cox比例風(fēng)險(xiǎn)回歸模型分析。
1.3 基因篩選與富集分析 應(yīng)用GEO2R在線工具篩選HCC患者PBMC中的DEGs,標(biāo)準(zhǔn)為:|logFC|>2,調(diào)整后的P值<0.05;將獲取的DEGs錄入STRING,分析其對(duì)應(yīng)的編碼蛋白的相互作用關(guān)系。同時(shí),進(jìn)行基因本體分子功能(molecular function, MF)、生物學(xué)過程(biological process, BP)、細(xì)胞組分(cellular component, CC)和京都基因與基因組百科全書數(shù)據(jù)庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析,構(gòu)建PPI網(wǎng)絡(luò)圖,其中數(shù)據(jù)證據(jù)等級(jí)設(shè)置為最高的0.9[8, 9]。將PPI網(wǎng)絡(luò)數(shù)據(jù)文件下載并導(dǎo)入Cytoscape軟件,應(yīng)用其中的MCODE插件尋找關(guān)鍵基因模塊。
1.4 驗(yàn)證基因水平與預(yù)后的關(guān)系 應(yīng)用GEPIA對(duì)關(guān)鍵模塊內(nèi)的DEGs進(jìn)行生存分析驗(yàn)證,LogrankP值<0.01的基因被列為關(guān)鍵基因,在TCGA數(shù)據(jù)庫下載的HCC數(shù)據(jù)中提取對(duì)應(yīng)關(guān)鍵基因,綜合臨床數(shù)據(jù)對(duì)HCC分期進(jìn)行分層的單因素和多因素Cox比例風(fēng)險(xiǎn)回歸模型分析,獲取與預(yù)后相關(guān)的基因,比對(duì)腫瘤與PBMC中與預(yù)后相關(guān)的基因,再確定有預(yù)后判斷價(jià)值的基因。
2.1 數(shù)據(jù)分析結(jié)果 由GSE49515分析得到可用DEGs共225個(gè),其中上調(diào)基因105個(gè),下調(diào)基因120個(gè)。為了觀察這些DEGs的編碼蛋白質(zhì)間相互作用關(guān)系,在STRING中按預(yù)定設(shè)置上傳此225個(gè)基因,去除與其他蛋白質(zhì)無關(guān)聯(lián)的點(diǎn)后,構(gòu)建完成PPI網(wǎng)絡(luò)圖(圖1)。進(jìn)一步查看DEGs的富集情況,可見:1)DEGs顯著富集于細(xì)胞死亡的正向調(diào)控(positive regulation of cell death)、對(duì)有機(jī)物的反應(yīng)(response to organic substance)和細(xì)胞死亡的調(diào)控(regulation of cell death)等基因本體BP;2)DEGs顯著富集于結(jié)合(binding)、信號(hào)受體結(jié)合(signaling receptor binding)和有機(jī)環(huán)狀化合物結(jié)合(organic cyclic compound binding)等基因本體MF;3)DEGs顯著富集于細(xì)胞內(nèi)(intracellular)、細(xì)胞質(zhì)(cytoplasm)和細(xì)胞器(organelle)等基因本體CC;4)DEGs在KEGG通路中顯著富集于類風(fēng)濕性關(guān)節(jié)炎(rheumatoid arthritis)、甲型流感(influenza A)、瘧疾(malaria)(表1)。這些結(jié)果充分體現(xiàn)了基因水平變化對(duì)細(xì)胞增殖的調(diào)控作用,在多種感染和免疫相關(guān)疾病的信號(hào)通路富集中也體現(xiàn)了炎癥和免疫反應(yīng)活躍的特點(diǎn)。
圖1 根據(jù)DEGs編碼蛋白間相互作用關(guān)系構(gòu)建的PPI網(wǎng)絡(luò)圖
表1 差異水平基因功能和通路富集分析
2.2 關(guān)鍵基因的篩選 將PPI網(wǎng)絡(luò)的數(shù)據(jù)文件導(dǎo)入Cytoscape中構(gòu)建可視化網(wǎng)絡(luò)圖,應(yīng)用軟件中的MCODE插件篩選關(guān)鍵模塊。該插件可根據(jù)各基因所編碼蛋白間聯(lián)系的證據(jù)強(qiáng)度來篩選聯(lián)系最緊密的基因,進(jìn)而構(gòu)建出基因模塊。將K-core值設(shè)置為6,可得到兩個(gè)關(guān)鍵基因模塊。模塊1和模塊2都包含有8個(gè)關(guān)鍵基因(圖2)。分別將兩個(gè)模塊的關(guān)鍵基因錄入STRING中進(jìn)行富集分析。模塊1主要富集于mRNA的剪接、剪接體、癌組織中的轉(zhuǎn)錄失調(diào)等功能和通路;模塊2主要富集于G蛋白偶聯(lián)受體信號(hào)通路、白細(xì)胞遷移的正向調(diào)控、趨化因子信號(hào)通路、細(xì)胞因子與細(xì)胞因子受體的相互作用和IL-17信號(hào)通路等功能和通路,體現(xiàn)了兩個(gè)模塊在HCC發(fā)生發(fā)展過程中對(duì)細(xì)胞轉(zhuǎn)錄、免疫和信號(hào)轉(zhuǎn)導(dǎo)等方面起著重要作用。
圖2 篩選得到的關(guān)鍵基因模塊1(左)和模塊2(右)
2.3 判斷基因水平與預(yù)后的關(guān)系 為了判斷HCC腫瘤組織中來自關(guān)鍵模塊的16個(gè)關(guān)鍵基因水平與患者總體生存期的關(guān)系,我們?cè)贕EPIA在線工具上將16個(gè)關(guān)鍵基因分別進(jìn)行了總生存期驗(yàn)證,得出其中6個(gè)關(guān)鍵基因的高水平與總生存期縮短呈顯著相關(guān),這6個(gè)基因名稱分別為GPSM2、PPIL1、POLR2H、CRNKL1、U2SURP和TRA2B。隨后,我們從TCGA數(shù)據(jù)庫下載到包括371例HCC患者基因水平和臨床數(shù)據(jù)的數(shù)據(jù)集,在該數(shù)據(jù)集中,采用射頻消融、無水酒精注射、微波聚束熱療和其他治療者分別為22例、3例、1例和2例,而TNM分期I期、II期、III期和IV期分別為171例、86例、85例和5例。影響肝癌患者生存預(yù)后的大樣本研究表明,住院時(shí)長(zhǎng)和是否接受手術(shù)治療是患者預(yù)后的獨(dú)立保護(hù)因素,而TNM分期III期和IV期是患者預(yù)后的獨(dú)立危險(xiǎn)因素[10]。鑒于上述數(shù)據(jù)中治療方法的有效記錄缺失過多,因此將HCC患者按TNM分期進(jìn)行分層,利用這6個(gè)基因水平數(shù)據(jù)并綜合患者的臨床數(shù)據(jù)進(jìn)行影響生存預(yù)后的單因素和多因素分析(表3和表4),結(jié)果顯示PPIL1是影響I期HCC患者生存預(yù)后的獨(dú)立危險(xiǎn)因素(HR=1.061,95%CI:1.005~1.121),GPSM2是影響III期HCC患者生存預(yù)后的獨(dú)立危險(xiǎn)因素(HR=1.556,95%CI:1.153~2.100),說明GPSM2和PPIL1水平與不同TNM分期的HCC患者生存預(yù)后獨(dú)立相關(guān)。最后,通過比對(duì)PBMC與腫瘤組織中這6個(gè)關(guān)鍵基因的水平,發(fā)現(xiàn)其中GPSM2、TRA2B和U2SURP在PBMC和腫瘤組織中基因水平趨勢(shì)相同??傊?,腫瘤組織GPSM2高水平與生存預(yù)后縮短相關(guān),且PBMC中GPSM2水平與腫瘤組織趨勢(shì)相同,預(yù)示GPSM2可能是未來無創(chuàng)性判斷HCC患者,尤其是III期HCC患者生存預(yù)后的關(guān)鍵指標(biāo)。
表3 影響HCC患者生存預(yù)后的單因素分析
表4 影響HCC患者生存預(yù)后的多因素分析
HCC的惡性程度極高,雖然早期治療效果較好,但確診時(shí)多已錯(cuò)過最佳的治療時(shí)機(jī),療效和預(yù)后差,與其復(fù)雜的發(fā)病機(jī)制密切相關(guān)。常用的臨床病理學(xué)、血清學(xué)和影像學(xué)等檢查仍不能達(dá)到滿意的診斷敏感度和特異度[11,12]。隨著多種組學(xué)技術(shù)的發(fā)展和聯(lián)合應(yīng)用,在基因?qū)用娴奶剿骺砂l(fā)現(xiàn)致癌基因的過度表達(dá)、抑癌基因的低水平表達(dá)和基因突變等,尤其對(duì)HCC組織DEGs的解析有助于揭示疾病本質(zhì)并為診療新技術(shù)的探索指明方向。
本研究通過深入挖掘GEO和TCGA數(shù)據(jù)庫,綜合應(yīng)用多種在線工具和軟件,對(duì)比了HCC患者與健康人PBMC中的DEGs,探索可能與HCC發(fā)生發(fā)展及預(yù)后判斷相關(guān)的關(guān)鍵基因。我們結(jié)合DEGs的基因本體和通路的富集分析揭示可能參與其中的細(xì)胞組分和信號(hào)通路,構(gòu)建PPI網(wǎng)絡(luò),識(shí)別關(guān)鍵模塊,結(jié)合GEPIA生存分析工具和TCGA數(shù)據(jù)的多因素分析驗(yàn)證確定了6個(gè)關(guān)鍵基因,即GPSM2、PPIL1、POLR2H、CRNKL1、U2SURP和TRA2B。它們?cè)诜肿訉用媾cmRNA的剪接、癌癥基因轉(zhuǎn)錄失調(diào)和多個(gè)免疫反應(yīng)信號(hào)通路密切相關(guān),且GPSM2和PPIL1與肝癌患者預(yù)后獨(dú)立相關(guān)。經(jīng)過比對(duì)確定GPSM2、TRA2B和U2SURP這三個(gè)關(guān)鍵基因在PBMC中與腫瘤組織中有相似的上調(diào)趨勢(shì)。因此,我們認(rèn)為GPSM2、TRA2B和U2SURP可能是診斷HCC的潛在靶基因,尤其是GPSM2與III期HCC患者預(yù)后獨(dú)立相關(guān),更值得我們深入研究。
基因GPSM2編碼蛋白為G蛋白信號(hào)調(diào)節(jié)因子2,是在細(xì)胞有絲分裂過程中紡錘體定向的決定因素。有體外細(xì)胞實(shí)驗(yàn)研究報(bào)道,基因GPSM2高水平可促進(jìn)癌細(xì)胞的增殖、遷移和侵襲,同時(shí)抑制癌細(xì)胞凋亡,可能通過PI3K/AKT通路起致癌基因的作用[13]。近年來,也有研究證實(shí)GPSM2的過度表達(dá)同樣是非小細(xì)胞肺癌和乳腺癌不良結(jié)局的獨(dú)立預(yù)后因素[14, 15]?;騎RA2B編碼TRA2β蛋白,屬于富含絲氨酸/精氨酸的剪接因子家族成員,能夠以濃度依賴的方式調(diào)節(jié)基因的選擇性剪接[16]。TRA2B在多種癌癥中過度表達(dá),如女性的乳腺癌、宮頸癌、卵巢癌,男性的前列腺癌和肺癌等[17-20]。TRA2B過度表達(dá)是前列腺癌復(fù)發(fā)和不良預(yù)后的重要預(yù)測(cè)因子[18]。抑制TRA2B過度表達(dá)可降低子宮內(nèi)膜癌細(xì)胞增殖和侵襲能力。TRA2B也被認(rèn)為是骨肉瘤的致癌基因。研究證實(shí)來源于骨髓間充質(zhì)干細(xì)胞的外泌體中存在miR-206,通過靶向TRA2B基因?qū)崿F(xiàn)抑制骨肉瘤進(jìn)展。
基因U2SURP又稱SR140,編碼小核糖核蛋白復(fù)合體U2亞基。該亞基富含絲氨酸/精氨酸,是構(gòu)成剪接體的主要部件之一,研究證明其可與鈣穩(wěn)態(tài)內(nèi)質(zhì)網(wǎng)蛋白協(xié)同調(diào)節(jié)RNA監(jiān)視因子的表達(dá),進(jìn)而在結(jié)直腸癌的發(fā)生過程中起致癌作用。也有研究確定基因U2SURP是與乳腺癌患者生存期密切相關(guān)的剪接體相關(guān)基因。
GPSM2、TRA2B和U2SURP在PBMC中的高水平有可能成為診斷HCC的新型精準(zhǔn)生物標(biāo)志,尤其GPSM2基因與III期HCC患者生存預(yù)后相關(guān),有較大的探索價(jià)值。這些關(guān)鍵基因的具體分子機(jī)制有待進(jìn)一步驗(yàn)證,需要更深入的研究明確其在細(xì)胞功能中的作用,闡明分子間的相互作用關(guān)系和信號(hào)傳導(dǎo)通路,以期能更好地驗(yàn)證這些基因在HCC早期診斷和預(yù)后判斷中的價(jià)值,甚至在綜合治療中成為新的治療靶點(diǎn)。