肖又德 鄭永法 戈 偉
1.泰康同濟(jì)(武漢)醫(yī)院腫瘤科,湖北武漢 430000;2.武漢大學(xué)人民醫(yī)院腫瘤科,湖北武漢 430000
胃癌(gastric cancer)是世界上癌癥相關(guān)性死亡的常見原因之一,其病死率位居癌癥病死率的第三位[1],盡管以手術(shù)結(jié)合化療的方案廣泛應(yīng)用于胃癌的治療,但胃癌的5 年生存率依然較低[2-3]?;蛐酒壳皬V泛應(yīng)用于包括癌癥在內(nèi)的多種復(fù)雜疾病的診斷、預(yù)測(cè)以及藥物篩選等領(lǐng)域[4-6]。但傳統(tǒng)的篩選差異基因表達(dá)極易遺漏調(diào)控過程中的核心分子。通過系統(tǒng)的繪制個(gè)體生物網(wǎng)絡(luò)互作圖可以精準(zhǔn)找出與預(yù)后相關(guān)的核心分子[7-8],加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene coexpression network analysis,WGCNA)可以有效解決上述問題[9-10]。本研究擬利用該方法篩選更為有效的胃癌分子標(biāo)志物。
從TCGA 數(shù)據(jù)庫(https://portal.gdc.cancer.gov/,檢索時(shí)間:建庫至2020 年11 月14 日)中下載胃癌患者的RNA-seq 數(shù)據(jù)及其臨床資料,并剔除生存情況及病理分期不明的患者,最終納入359 例胃癌患者。同時(shí) 從GEO 數(shù) 據(jù) 庫(https://www.ncbi.nlm.nih.gov/geo/)中,通過關(guān)鍵詞(胃癌、生存和基因芯片)檢索篩選帶有生存數(shù)據(jù)的胃腺癌數(shù)據(jù)集,且數(shù)據(jù)集能獲得標(biāo)準(zhǔn)化的注釋文件,獲取兩個(gè)數(shù)據(jù)集(GES15459 和GSE22377,檢索時(shí)間:建庫至2020 年11 月14 日),用于外部驗(yàn)證胃癌患者的預(yù)后。含有多種癌癥組織和癌 旁 組 織 的ONCOMINE 數(shù) 據(jù) 庫(https://www.oncomine.org)也用于外部驗(yàn)證。
WGCNA 是一種常用的模塊化分析技術(shù),已被用于識(shí)別和篩選復(fù)雜疾病的生物標(biāo)志物或藥物靶點(diǎn)[11]。首先,通過R 軟件中的“WGCNA”分析包構(gòu)建基因共表達(dá)網(wǎng)絡(luò)[8,12]。然后,建立兩個(gè)基因之間的相關(guān)矩陣,通過對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析,確定軟閾值大小,將鄰接轉(zhuǎn)化為拓?fù)渲丿B矩陣(TOM),TOM 可以度量1個(gè)基因的網(wǎng)絡(luò)連通性[7,13]。為了將表達(dá)譜相似的基因分類到基因模塊(ME)中,基于TOM 的差異測(cè)度進(jìn)行平均連鎖層次聚類[8,12]。模塊鑒定后,采用t 檢驗(yàn)計(jì)算組間各基因表達(dá)顯著性檢驗(yàn)的P 值。為進(jìn)一步分析模塊特征基因的差異性,為模塊樹狀圖選擇一條切線,并合并部分模塊。
對(duì)每個(gè)ME 進(jìn)行分析時(shí),通過Pearson 相關(guān)檢驗(yàn)來評(píng)估MEs 與轉(zhuǎn)移的相關(guān)性,以確定相關(guān)模塊(各模塊在各個(gè)樣本上Pearson 系數(shù)絕對(duì)值相加為最高者認(rèn)定為響應(yīng)系數(shù)最高模塊)。選擇與轉(zhuǎn)移高度相關(guān)的模塊作為轉(zhuǎn)移模塊進(jìn)行分析。利用STRING 網(wǎng)站進(jìn)行蛋白-蛋白的互作(PPI)分析(選擇連接數(shù)最大10個(gè)),并利用Cytoscape 軟件中的MCODE 插件進(jìn)一步分析。同時(shí)利用R 軟件的LASSO 回歸分析包篩選轉(zhuǎn)移模塊中基因。
為了解轉(zhuǎn)移模塊涉及的功能學(xué)和通路。采用標(biāo)準(zhǔn)富集計(jì)算方法進(jìn)行GO 功能分析和KEGG 通路分析用以篩選與其相關(guān)的功能和通路。為了解核心分子在胃癌患者中的潛在功能,利用TCGA 胃癌患者數(shù)據(jù)集進(jìn)行GSEA 分析。將P<0.05 和|富集評(píng)分(ES)|>0.3作為截止標(biāo)準(zhǔn)。
采 用SPSS 24.0、GraphPad Prism 7.0 和R 3.4.1軟件進(jìn)行數(shù)據(jù)分析,同時(shí)用上述軟件進(jìn)行圖像生成處理。組間比較采用t 檢驗(yàn)?;蜃罴呀攸c(diǎn)取值,利用X-Tile 軟件,基于最小P 值和最大Log-rank χ2值進(jìn)行分析計(jì)算[14]。繪制受試者工作特征(ROC)曲線,評(píng)估核心靶基因的預(yù)測(cè)能力,利用曲線下面積(AUC)評(píng)估敏感度和特異性。K-M 法繪制生存曲線,預(yù)測(cè)基因?qū)颊哳A(yù)后的影響。以P <0.05 為差異有統(tǒng)計(jì)學(xué)意義。
本研究共納入359 例胃癌患者進(jìn)行分析,其中男230 例,女129 例;年齡(65.7±10.9)歲;腫瘤位置:近端87 例,胃體134 例,遠(yuǎn)端131 例,未知7 例;腫瘤組織學(xué)分級(jí):G18 例,G2128 例,G3215 例,GX8 例;病理分期:Ⅰ期53 例,Ⅱ期116 例,Ⅲ期152 例,Ⅳ期38 例。
WGCNA 方法將基因進(jìn)行模塊化富集分析(圖1,封三),共篩選16個(gè)相應(yīng)的ME,見圖2(封三),依據(jù)各模塊在各個(gè)樣本上Pearson 系數(shù)篩選獲取了BLUE模塊,BLUE 模塊共含有2078個(gè)基因。
圖1 基因共表達(dá)網(wǎng)絡(luò)分析模式圖
圖2 各模塊相關(guān)分析圖
BLUE 模塊中相關(guān)基因篩選表達(dá)響應(yīng)基因參與的信號(hào)通路關(guān)聯(lián)提示,主要與蛋白磷酸化異常、蛋白激酶活化等相關(guān),見圖3(封三)。PPI 和MOCDE 插件篩選位于調(diào)控核心位置的基因,見圖4。LASSO 分析篩選出19個(gè)與預(yù)后相關(guān)的靶基因(DUSP16、NUP50、CDC5L、PTPRF、KBTBD2、SLC11A2、DHX15、ACBD5、RMI1、TRIM25、C3orf38、MSI2、VPS35、RNF43、PACRGL、GMCL1、SMAD5、IMPACT、IDE)。將上述3種方法篩選的結(jié)果進(jìn)行綜合分析,獲得CDC5L。
圖3 BLUE 模塊中GO 和KEGG 分析
圖4 蛋白互作分析
CDC5L 表達(dá)量為7.2 時(shí)為最佳截點(diǎn),見圖5(封三)。低表達(dá)CDC5L 患者的總生存率高于高表達(dá)患者(P=0.038),見圖6。為了解CDC5L 表達(dá)量在患者TNM 分期中的作用,對(duì)其分層分析,結(jié)果提示其Ⅰ、Ⅱ期低表達(dá)CDC5L 患者總生存率高于高表達(dá)患者(P=0.06、0.03),見圖7。CDC5L 顯示出較強(qiáng)的預(yù)測(cè)胃癌轉(zhuǎn)移患者能力(AUC=0.745),見圖8。ONCOMINE數(shù)據(jù)庫對(duì)CDC5L 基因進(jìn)行meta 分析發(fā)現(xiàn),納入的33個(gè)數(shù)據(jù)集中,癌組織中CDC5L 表達(dá)量高于癌旁組織(P <0.001),見圖9。GEO 數(shù)據(jù)庫驗(yàn)證結(jié)果顯示,低表達(dá)CDC5L 的胃癌患者有著更好的預(yù)后,見圖10。
圖5 X-tile軟件選取得CDC5L最佳截點(diǎn)
圖6 不同CDC5L 表達(dá)情況胃癌患者生存分析曲線
圖7 不同病理分期胃癌患者生存分析曲線
圖8 CDC5L 預(yù)測(cè)胃癌轉(zhuǎn)移的ROC 曲線
圖9 胃癌和癌旁組織中CDC5L 表達(dá)比較
圖10 CDC5L 在GEO 數(shù)據(jù)集的驗(yàn)證結(jié)果
結(jié)果顯示,CDC5L 主要涉及細(xì)胞周期調(diào)控以及糖代謝通路。見圖11。
圖11 GSEA 分析功能學(xué)分析結(jié)果
胃癌是世界上癌癥相關(guān)性死亡的常見原因之一,盡管目前以手術(shù)結(jié)合化療/免疫治療/靶向治療等多種方案已廣泛應(yīng)用于胃癌的治療當(dāng)中,但胃癌的五年生存率依然低下[2-3]。這主要是因?yàn)榇蠖鄶?shù)胃癌患者被發(fā)現(xiàn)時(shí)已處于中晚期,造成其預(yù)后不佳[15]。晚期轉(zhuǎn)移性胃癌患者五年生存率不足10%[16-17]。為更早地識(shí)別具有高危轉(zhuǎn)移風(fēng)險(xiǎn)的胃癌患者,本研究利用TCGA 數(shù)據(jù)集,通過精準(zhǔn)的WGCNA 方法識(shí)別出CDC5L 與胃癌患者預(yù)后相關(guān),同時(shí)其能夠較好地預(yù)測(cè)早期胃癌患者是否發(fā)生轉(zhuǎn)移;內(nèi)部和外部數(shù)據(jù)集同時(shí)驗(yàn)證CDC5L 具有較強(qiáng)的重復(fù)性和可靠性。
CDC5L 是G2/M 轉(zhuǎn)變所必需的細(xì)胞周期調(diào)節(jié)劑[18-20]。CDC5L 通過與細(xì)胞周期檢查點(diǎn)蛋白ATR 相互作用,激活A(yù)TR 下游效應(yīng)因子,干擾CDC5L 表達(dá)使S期細(xì)胞周期檢查點(diǎn)失活,從而增加藥物敏感性[21-22]。研究顯示[23-25],CDC5L 在肝癌、口腔鱗癌和神經(jīng)母細(xì)胞瘤中也發(fā)揮了作用。但目前尚無CDC5L 在胃癌中的作用及相關(guān)機(jī)制的報(bào)道。本研究結(jié)果顯示,CDC5L 能較好地預(yù)測(cè)胃癌患者生存及轉(zhuǎn)移發(fā)生情況。外部ONCOMINE 數(shù)據(jù)庫發(fā)現(xiàn),CDC5L 在癌組織中高表達(dá)。GEO 數(shù)據(jù)集驗(yàn)證了低表達(dá)CDC5L 胃癌患者有更好的預(yù)后。因此,本研究結(jié)果對(duì)未來探索CDC5L 與胃癌患者不良預(yù)后奠定了一定的基礎(chǔ)。但不可否認(rèn)的是,本研究結(jié)果還需進(jìn)一步在臨床樣本中獲得更為可靠的驗(yàn)證,以及通過體內(nèi)/外實(shí)驗(yàn)驗(yàn)證CDC5L 的臨床和生物學(xué)意義。
總之,本研究通過WGCNA 等生物信息學(xué)方法利用TCGA 數(shù)據(jù)庫發(fā)現(xiàn)CDC5L 高表達(dá)與較差預(yù)后相關(guān)。利用外部數(shù)據(jù)集對(duì)上述結(jié)果驗(yàn)證,發(fā)現(xiàn)CDC5L 在癌組織中高表達(dá)。CDC5L 有可能成為新的預(yù)后指標(biāo),有助于胃癌患者個(gè)性化治療及臨床預(yù)后判斷。