宋章興 崔應(yīng)東 李時(shí)軍 譚威 向圣坎 向奎
腎細(xì)胞癌(renal cell carcinoma, RCC)是成人腎腫瘤最常見的惡性腫瘤,占所有成人腎腫瘤的90%以上,大約1/3的RCC患者診斷明確時(shí)已經(jīng)有遠(yuǎn)處轉(zhuǎn)移,盡管目前的檢測和治療取得了很大的進(jìn)展,但RCC的總體生存率仍然很低[1]。腎透明細(xì)胞癌(clear cell renal cell carcinoma, ccRCC)占RCC的75%~85%,是其最常見的亞型,ccRCC通常對放化療有抵抗性,靶向療法因其靶點(diǎn)特異性和低毒性而被采用,可能成為非手術(shù)治療的最佳選擇[2-3]。目前發(fā)現(xiàn)的可以預(yù)測ccRCC治療效果和臨床預(yù)后的生物標(biāo)志物,包括VHL、VEGF、CAIX和HIF1α/2α突變[4]。ccRCC的致癌機(jī)制可能涉及多因子、多基因協(xié)同的復(fù)雜過程,包括多種致癌基因或腫瘤抑制因子失控等[5]。因此,迫切需要鑒定出可以預(yù)測ccRCC患者疾病階段和臨床結(jié)果的新型分子生物標(biāo)志物,從而有助于了解其發(fā)病機(jī)制并提供個(gè)性化治療。加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis, WGCNA)算法可以構(gòu)建自由尺度的基因共表達(dá)網(wǎng)絡(luò),以探索不同基因集之間或基因集與臨床特征之間的關(guān)系[6]。本研究中,采用WGCNA分析ccRCC患者臨床特征和基因芯片數(shù)據(jù),構(gòu)建共表達(dá)網(wǎng)絡(luò)篩選與ccRCC病理分級相關(guān)的核心基因,以期為ccRCC的診斷和預(yù)后提供新的生物標(biāo)志物或治療靶點(diǎn)。
從基因綜合表達(dá)(Gene Expression Omnibus, GEO)數(shù)據(jù)庫下載芯片數(shù)據(jù)集,基于芯片平臺為GPL10558的GSE40435(2013 捷克)作為訓(xùn)練集進(jìn)行WGCNA的構(gòu)建,該數(shù)據(jù)集包括101例癌組織及配對的癌旁組織,臨床特征包括年齡、性別、病理分級。芯片基于芯片平臺為GPL570的數(shù)據(jù)集GSE73731(2017 美國)作為測試集,該數(shù)據(jù)集包括265例癌組織,臨床特征包括年齡、病理分期、病理分級?;诎┌Y和腫瘤基因圖譜(The Cancer Genome Atlas, TCGA)數(shù)據(jù)庫可視化分析工具GEPIA中的623例樣本,其中523例ccRCC及100例癌旁組織數(shù)據(jù)作為獨(dú)立的第二個(gè)測試集[7]。
本研究中的GEO數(shù)據(jù)集采用R軟件Affy包讀取原始CEL文件,采用RMA算法對數(shù)據(jù)進(jìn)行背景過濾、歸一化、標(biāo)準(zhǔn)化處理后得到表達(dá)矩陣,再進(jìn)行后續(xù)處理;GSE40435訓(xùn)練集篩除臨床數(shù)據(jù)中為空值的樣本,同時(shí)保證GSE73731測試集病理分級的數(shù)據(jù)無空值。GSE40435訓(xùn)練集及GSE73731測試集進(jìn)行標(biāo)準(zhǔn)化等處理,提取相關(guān)重要臨床數(shù)據(jù)。GSE40435訓(xùn)練集包括101例癌組織及配對的癌旁組織,101例癌組織樣本的臨床信息:年齡為(64.11±9.22)歲,其中男59例、女52例;病理分級為1級22例,2級47例,3級24例,4級8例。GSE73731測試集包括265例癌組織,其中256例癌組織包含完整數(shù)據(jù)的病理分級:1級22例,2級90例,3級95例,4級49例。
2.差異基因分析:訓(xùn)練集GSE40435的表達(dá)矩陣,通過計(jì)算樣本之間的Pearson相關(guān)系數(shù)進(jìn)行聚類分析,去除離群樣本后,采用R軟件limma包分析ccRCC與癌旁組織獲得差異表達(dá)基因(differentially expressed genes, DEGs),篩選條件為校正后的P值,即錯(cuò)誤發(fā)生率(false discovery rates, FDR)<0.05和對數(shù)化表達(dá)倍數(shù)(︱log2FC︱)≥0.585。
3.WGCNA的構(gòu)建:使用R軟件包WGCNA包,通過一步法構(gòu)建DEGs的加權(quán)基因共表達(dá)網(wǎng)絡(luò)。通過計(jì)算基因間的Pearson相關(guān)系數(shù)確定最佳的軟閾值β,從而使網(wǎng)絡(luò)更逼近無尺度網(wǎng)絡(luò)。然后通過計(jì)算把鄰接矩陣轉(zhuǎn)化為拓?fù)渲丿B矩陣(TOM),并計(jì)算基因間的相異度dissTOM=1-TOM,進(jìn)行層次聚類。最后使用動(dòng)態(tài)剪切的方法合并相似模塊。
4.核心基因的篩選:模塊與臨床特征關(guān)聯(lián)后,通過計(jì)算模塊顯著性(module-significance, MS)確定顯著性模塊,MS值越高,提示該模塊越重要。以顯著性模塊中模塊身份(module membership, MM)>0.8及基因顯著性(gene significance, GS)>0.2為篩選條件篩選基因。構(gòu)建顯著性模塊內(nèi)基因的蛋白互作網(wǎng)絡(luò)(protein-protein interaction, PPI),顯著性模塊內(nèi)的基因?qū)隨TRING數(shù)據(jù)庫構(gòu)建PPI網(wǎng)絡(luò),同時(shí)采用Cyctoscape軟件進(jìn)行可視化,設(shè)置基因間的連接度>10為篩選基因的條件。網(wǎng)格網(wǎng)絡(luò)篩選基因的共有基因最終確定為核心基因。
使用驗(yàn)證數(shù)據(jù)集GSE73731的表達(dá)矩陣及臨床特征進(jìn)行線性回歸分析,驗(yàn)證核心基因的表達(dá)水平與ccRCC之間的關(guān)系。使用TCGA可視化分析工具GEPIA中的623例樣本(包含523例ccRCC及100例癌旁組織)數(shù)據(jù)驗(yàn)證核心基因在ccRCC中的表達(dá)水平、病理分期及預(yù)后情況。進(jìn)一步采用人類蛋白質(zhì)表達(dá)圖譜,利用免疫組化分析核心基因在正常腎組織和癌組織的蛋白水平。
以GSEA官網(wǎng)MSigDB數(shù)據(jù)庫中的h.all.v6.2.symbols.gmt [Hallmarks] 數(shù)據(jù)集作為功能基因集,置換次數(shù)為1 000次,設(shè)定P<0.05、FDR<0.25的基因集作為顯著富集基因集,分析核心基因可能相關(guān)的生物學(xué)功能。
GSE40435訓(xùn)練集通過去離群后發(fā)現(xiàn)GSM994069、GSM994041、GSM993996、GSM994065明顯偏離,踢除離群樣本后,GSE40435訓(xùn)練集最終納入194例(癌組織97例,癌旁組織97例)樣本進(jìn)行差異基因分析,見圖1。通過設(shè)置的篩選條件,得到2 546個(gè)DEGs,其中1 207個(gè)基因上調(diào),1 339個(gè)基因下調(diào)。
圖1 在GSE40435訓(xùn)練集的去離群
對GSE40435訓(xùn)練集中2 546個(gè)DEGs進(jìn)行構(gòu)建共表達(dá)網(wǎng)絡(luò)。導(dǎo)入97例癌組織臨床信息,與2 546個(gè)DEGs表達(dá)譜矩陣進(jìn)行聚類分析,以用于后續(xù)分析,見圖2A。選擇β=9(R2=0.91)最為軟閾值(圖2B、2C)。確定軟閾值后,采用動(dòng)態(tài)剪切法,獲得9個(gè)模塊,見圖3A。進(jìn)一步分析各模塊的特征向量基因(module eigengene, ME)及MS,發(fā)現(xiàn)紅色模塊包括86個(gè)基因,與ccRCC中的病理分級相關(guān)性最高(R2=0.56),紅色模塊的MS也是最高的,確定為顯著性模塊,見圖3B、3C。
A:去離群后腫瘤樣本及對應(yīng)臨床特征聚類樹,圖中顏色深淺代表數(shù)字對應(yīng)的臨床信息分類取值大小;B:不同軟閾值對應(yīng)的R2,確定β=9為軟閾值;C:不同軟閾值對應(yīng)的基因鄰接系數(shù)的均值圖2 WGCNA樣本與表型聚類及軟閾值的確定
A:模塊合并后WGCNA聚類樹;B:基因模塊ME與臨床特征的相關(guān)性,顏色越深表示相關(guān)性越大,相關(guān)系數(shù)為正表示正相關(guān),為負(fù)表示負(fù)相關(guān);C:各模塊MS分布柱狀圖圖3 WGCNA網(wǎng)絡(luò)構(gòu)建及模塊識別
在紅色模塊中,通過︱MM︱>0.8和︱GS︱>0.2篩選得到17個(gè)備選核心基因。同時(shí)把該模塊中的86個(gè)基因?qū)隨TRING數(shù)據(jù)庫,進(jìn)行PPI網(wǎng)絡(luò)構(gòu)建,以連接度>10篩選得到14個(gè)備選核心基因,取二者的交集獲得TOP2A、PTTG1、PRC1、UHRF1這4個(gè)基因?yàn)樽罱K的核心基因,見表1。
表1 篩選關(guān)鍵基因
使用GSE73731測試集及GEPIA數(shù)據(jù)庫分析各核心基因與ccRCC病理分級及病理分期的關(guān)系,結(jié)果顯示各核心基因與ccRCC病理分級及分期呈正相關(guān),驗(yàn)證了訓(xùn)練集的分析,見圖4。使用GEPIA數(shù)據(jù)集中的623例樣本(其中523例ccRCC及100例癌旁組織)數(shù)據(jù)驗(yàn)證核心基因在ccRCC的表達(dá)水平及預(yù)后情況,結(jié)果顯示各核心基因在癌組織中表達(dá)顯著升高,同時(shí)各核心基因高表達(dá)則OS及無病生存期(disease free survival, DFS)均較差,見圖5。人類蛋白質(zhì)表達(dá)圖譜分析結(jié)果顯示TOP2A與UHRF1在癌組織中呈中強(qiáng)度表達(dá),PTTG1與PRC1在癌組織中呈高強(qiáng)度表達(dá),見圖6。
A:GSE73731測試集及GEPIA數(shù)據(jù)庫分析核心基因與ccRCC病理分級的關(guān)系;B:GEPIA數(shù)據(jù)庫分析核心基因與ccRCC分期的表達(dá)水平及預(yù)后情況圖4 核心基因與ccRCC病理分級及分期的關(guān)系
A:GEPIA數(shù)據(jù)庫分析核心基因在ccRCC的表達(dá)水平;B:GEPIA數(shù)據(jù)庫分析核心基因在ccRCC的OS;C:GEPIA數(shù)據(jù)庫分析核心基因在ccRCC的DFS圖5 GEPIA數(shù)據(jù)集驗(yàn)證核心基因在ccRCC的表達(dá)水平及預(yù)后情況
圖6 人類蛋白質(zhì)表達(dá)圖譜分析各核心基因在腎組織和癌組織中的蛋白水平
核心基因以GSEA官網(wǎng)MSigDB數(shù)據(jù)庫中的h.all.v6.2.symbols.gmt [Hallmarks] 數(shù)據(jù)集進(jìn)行分析,結(jié)果提示,核心基因主要富集了E2F、有絲分裂紡錘體信號通路及G2M檢查點(diǎn)等生物學(xué)過程,提示核心基因可能通過以上生物學(xué)過程促進(jìn)腫瘤細(xì)胞增殖,影響患者臨床及預(yù)后,見表2。
表2 核心基因的GSEA分析
ccRCC預(yù)后差,給患者帶來巨大的負(fù)擔(dān)。在精確的醫(yī)學(xué)時(shí)代,迫切需要更好的生物標(biāo)志物用于癌癥的預(yù)后和進(jìn)展,從而可以提高患者早期診斷及治療的決策能力。WGCNA已被廣泛應(yīng)用于尋找與不同癌癥類型的臨床特征相關(guān)的核心基因[8-9]。 WGCNA相較于單獨(dú)的差異基因分析,可以對基因之間的高度互連網(wǎng)絡(luò)進(jìn)行整體分析,同時(shí)識別基因或模塊簇與樣本外部特征之間的關(guān)系[10]。因此在本研究中,我們使用了該方法進(jìn)行綜合分析來篩選ccRCC進(jìn)展和預(yù)后相關(guān)的生物標(biāo)志物。
本研究利用WGCNA識別出紅色模塊(包括86個(gè)基因)與ccRCC的病理分級相關(guān)性最高(R2=0.56),確定紅色模塊為顯著性模塊,進(jìn)一步結(jié)合PPI網(wǎng)絡(luò),挖掘出TOP2A、PTTG1、PRC1、UHRF1這4個(gè)核心基因。GSE73731測試集及GEPIA數(shù)據(jù)庫驗(yàn)證了核心基因與ccRCC的病理分級及分期呈正相關(guān)。GEPIA數(shù)據(jù)庫驗(yàn)證了核心基因在ccRCC中高表達(dá),同時(shí)初步探討了核心基因?qū)cRCC預(yù)后的影響,發(fā)現(xiàn)高表達(dá)核心基因組的ccRCC預(yù)后差。TOP2A稱作DNA拓?fù)洚悩?gòu)酶Ⅱα,該基因編碼為DNA拓?fù)洚悩?gòu)酶,是一種在轉(zhuǎn)錄過程中控制和改變DNA拓?fù)錉顟B(tài)的酶。這種核酶參與了諸如染色體濃縮、染色單體分離和DNA轉(zhuǎn)錄和復(fù)制過程。Liu等[11]報(bào)道MDM4和TOP2A相互結(jié)合,并在翻譯后水平相互上調(diào),導(dǎo)致TOP2A蛋白穩(wěn)定,抑制p53,促進(jìn)腫瘤細(xì)胞增殖,結(jié)果揭示了MDM4和TOP2A的新功能以及它們在腫瘤發(fā)生中的相互作用,提示抑制MDM4-TOP2A的相互作用可能是一種同時(shí)特異性地針對TOP2A和MDM4癌癥治療的新策略。Zhang等[12]研究發(fā)現(xiàn)LncRNA SNHG3通過上調(diào)TOP2A促進(jìn)ccRCC的增殖和遷移,初步表明了TOP2A在ccRCC中可能的作用。PTTG1稱作垂體腫瘤轉(zhuǎn)化基因1,該基因編碼的蛋白是酵母securin蛋白的同源物,可阻止separins促進(jìn)姐妹染色單體分離,作為一種細(xì)胞周期后期促進(jìn)復(fù)合物(APC)底物,可與separin結(jié)合直至激活A(yù)PC。PTTG1產(chǎn)物具有體外轉(zhuǎn)化活性和體內(nèi)致瘤活性,并且該基因在各種腫瘤中高表達(dá)[13]。Wei等[14]通過轉(zhuǎn)移組及非轉(zhuǎn)移組ccRCC的差異基因分析,發(fā)現(xiàn)PTTG1在ccRCC組織中表達(dá)上調(diào),且與預(yù)后相關(guān)。Hu等[15]報(bào)道MicroRNA-329介導(dǎo)的PTTG1下調(diào)使絲裂原激活蛋白激酶(MAPK)信號通路失活,抑制了膽管癌細(xì)胞的增殖和腫瘤生長,為膽管細(xì)胞癌的靶向治療提供依據(jù)。PRC1稱作細(xì)胞分裂蛋白調(diào)節(jié)劑1,該基因編碼參與胞質(zhì)分裂的蛋白質(zhì),在有絲分裂的S和G2/ M階段以高水平存在,但是當(dāng)細(xì)胞退出有絲分裂并進(jìn)入G1階段時(shí),其水平急劇下降。Liao等[16]報(bào)道,PRC1基因沉默可能通過抑制Wnt/β-catenin途徑使細(xì)胞增殖和侵襲能力降低,G0/G1期延長,S期和G2/M期縮短,從而抑制視網(wǎng)膜母細(xì)胞瘤細(xì)胞的增殖和血管生成。Wu等[17]發(fā)現(xiàn)PRC1通過P53/PRC1/EGFR信號通路調(diào)控口腔鱗癌細(xì)胞增殖和細(xì)胞周期參與口腔鱗癌的發(fā)生、發(fā)展,為口腔鱗癌的靶向治療提供了依據(jù)。UHRF1稱作靶向泛素樣含PHD和環(huán)指域1,該基因編碼環(huán)指域E3型泛素連接酶亞家族的成員,與特定的DNA序列結(jié)合,并招募組蛋白去乙?;竵碚{(diào)節(jié)基因表達(dá),在調(diào)控細(xì)胞周期及p53 依賴性 DNA 損傷檢查點(diǎn)中發(fā)揮作用。Lu等[18]研究提示UHRF1通過誘導(dǎo)細(xì)胞增殖促進(jìn)黑色素瘤的進(jìn)展,并與黑色素瘤患者的不良預(yù)后相關(guān)。Ma等[19]發(fā)現(xiàn)UHRF1調(diào)控ccRCC p53泛素化和p53依賴性細(xì)胞凋亡,促進(jìn)ccRCC的進(jìn)展。以上相關(guān)研究支持挖掘的4個(gè)核心基因可能在ccRCC進(jìn)展及預(yù)后中的作用,TOP2A、PTTG1、UHRF1在ccRCC的相關(guān)研究主要也是基于生物信息學(xué)分析,表明對ccRCC的進(jìn)展存在重要作用,但具體的機(jī)制仍不十分明了,PRC1對ccRCC的作用尚未見報(bào)道。本研究進(jìn)一步對這4個(gè)核心基因進(jìn)行人類蛋白質(zhì)表達(dá)圖譜分析,提示TOP2A、PTTG1、PRC1、UHRF1在癌組織的蛋白水平較腎組織高表達(dá),同時(shí)GSEA分析其機(jī)制可能通過E2F、有絲分裂紡錘體信號通路及G2M檢查點(diǎn)參與ccRCC的生物學(xué)過程。
本研究通過WGCNA及PPI網(wǎng)絡(luò)的方法識別并驗(yàn)證與ccRCC進(jìn)展和預(yù)后相關(guān)的4個(gè)核心基因(TOP2A、PTTG1、PRC1、UHRF1),其可能作為ccRCC的候選生物標(biāo)志物。