田蓮蓮,朱 軍,馬 騫,章屹然,王兆熹,陳 睿
胃癌(gastric cancer,GC)是最常見消化道惡性腫瘤之一。據(jù)估計,中國平均每年約有200萬人死于胃癌,占全球胃癌死亡人數(shù)的近1/2[1]。早期胃癌治療效果較好,但檢出率很低,大多數(shù)患者(>70%)檢出時已發(fā)展為晚期胃癌。部分患者甚至失去進行手術(shù)切除的機會或者發(fā)生轉(zhuǎn)移,因此晚期胃癌總體預后較差[2-4]。故對于胃癌的預后預測是臨床工作中的重點內(nèi)容且具有較大價值。除了分級分期系統(tǒng),可以尋找一些新穎的手段進行預后預測。
研究表明腫瘤的生長和擴張與腫瘤內(nèi)血管網(wǎng)絡(luò)的發(fā)展密切相關(guān)[5]。血管生成受到某些關(guān)鍵分子的調(diào)節(jié)。其中,血管內(nèi)皮生長因子(vascular endothelial growth factor,VEGF)是驅(qū)動腫瘤血管生成的最重要因素之一。VEGF家族由7個成員組成:VEGF-A,VEGF-B,VEGF-C,VEGF-D,VEGF-E,VEGF-F和胎盤生長因子。這些蛋白質(zhì)主要通過內(nèi)皮細胞上表達的特異性酪氨酸激酶受體起作用。這些分子中的大多數(shù)通過血小板運輸,并在血液凝固過程中,由血小板脫顆粒后釋放到血清中,只有小部分在血液中自由循環(huán)[6]。研究發(fā)現(xiàn)阻斷血管生成是預防腫瘤生長的良好策略[5]。由于VEGF在大多數(shù)人類癌癥中的表達增加以及與腫瘤微血管密度增加和預后不良相關(guān),因此VEGF通路已成為抗血管生成治療的主要靶標[7]。靶向VEGF治療(如貝伐單抗、雷莫蘆單抗)聯(lián)合化療已被證實具有抗腫瘤活性,具有較好的耐受性和安全性,可改善胃癌患者生存率[8-9]。因此篩選出胃癌VEGF通路相關(guān)基因,建立一個立足于胃癌VEGF通路相關(guān)基因預后模型,對于預后評估或為個體化治療提供新視角,甚至作為靶向治療的有效性指標,具有重大臨床意義。
1.1 數(shù)據(jù)來源 從TCGA官網(wǎng)(https://portal.gdc.cancer.gov/)下載胃癌轉(zhuǎn)錄組數(shù)據(jù)及其相應的臨床數(shù)據(jù),其中包括癌組織375例和癌旁組織32例。將轉(zhuǎn)錄組數(shù)據(jù)與臨床生存數(shù)據(jù)匹配,最終完整臨床信息的胃癌患者共計371例。VEGF通路相關(guān)基因集在GSEA官網(wǎng)(https://www.gsea-msigdb.org/gsea/index.jsp)的MSigDB (Molecular Signatures Database)數(shù)據(jù)庫下載。其中包括BIOCARTA VEGF PATHWAY和REACTOME SIGNALING BY VEGF。以這2個VEGF數(shù)據(jù)庫為基礎(chǔ),進行GSEA富集分析。外部數(shù)據(jù)集來自GEO數(shù)據(jù)庫,下載胃癌基因芯片數(shù)據(jù)GSE84437,用于驗證VEGF通路基因預后模型的準確性。數(shù)據(jù)進行l(wèi)og2轉(zhuǎn)換后提取模型基因,最后用生存曲線的方式驗證模型準確性。
1.2 GSEA富集分析 GSEA富集分析是使用GSEA軟件(版本4.0.1),并且使用1000次排列數(shù)。按照癌組織與癌旁組織分為2組,富集上述已經(jīng)下載的2個VEGF通路基因。篩選標準為:基因數(shù)目大于15個,P值小于0.05,標準化富集分數(shù)絕對值(Standardized enrichment fraction,NES)大于1.2。
1.3 篩選差異表達的VEGF通路相關(guān)基因 在癌組織與癌旁組織的全轉(zhuǎn)錄組中提取VEGF通路相關(guān)基因219個。使用Wilcoxon秩和檢驗,對差異基因進行差異性分析。通過Benjamin-Hochberg方法對P值進行校正。差異基因篩選標準為:P<0.05。
1.4 構(gòu)建預后模型及繪制ROC曲線 將上述VEGF通路差異表達基因與胃癌基本臨床信息合并。使用生存曲線和單因素COX風險回歸分析篩選出與預后相關(guān)基因。隨后進行多因素COX風險回歸分析,采取向前向后法,篩選出赤池信息量準則(Akaike information criterion,AIC)最小的模型,并且得到模型中各個基因的比例系數(shù)β。然后根據(jù)公式計算每位患者的風險值,以中位數(shù)為界限將患者人群分為高風險組(大于中位數(shù))和低風險組(小于中位數(shù)),其中風險值的計算公式為:β1×expression(gene 1) +β2×expression(gene 2) + …βn×expression(gene n)。ROC曲線用來驗證模型的預測能力。最后使用R語言中timeROC包分別繪制1、3年和5年的ROC曲線并且計算相應AUC。
1.5 構(gòu)建VEGF通路基因相關(guān)列線圖 使用R語言rms包繪制列線圖和校正圖進一步驗證模型基因的臨床價值。列線圖被廣泛用于癌癥預后,主要是因為它們能夠?qū)⒔y(tǒng)計預測模型簡化為針對個別癌癥患者情況而定的事件(例如死亡或復發(fā))概率的單個數(shù)值估計[10]。用于生成這些估計值的用戶友好型圖形界面有助于使用列線圖來告知患者臨床決策[10]。
1.6 統(tǒng)計學處理 所有統(tǒng)計方式都是在R軟件(版本:3.63)中完成。計量資料以±s表示,采用t檢驗或方差分析。非正態(tài)分布數(shù)據(jù)檢驗使用Wilcoxon秩和檢驗。生存分析結(jié)果采用Kaplan-Meier曲線,其檢驗方式為Log-Rank法。所有檢驗為雙側(cè)檢驗,以P<0.05為差異有統(tǒng)計學意義。單因素和多因素COX風險比例回歸分析篩選并確定VEGF通路相關(guān)基因的胃癌預后模型。本研究中相應的R語言數(shù)據(jù)包有:survival包、edgeR包、rms包、timeROC包及一些R語言自帶的基礎(chǔ)繪圖包。
2.1 差異基因在VEGF通路顯著富集 GSEA結(jié)果顯示,與胃癌正常的癌旁組織(藍色)比較,癌組織(紅色)在2個VEGF通路上顯著富集(P<0.05,NES>1.2)(圖1)。這表明在胃癌的發(fā)生發(fā)展過程中,VEGF通路的異常激活起到了重要作用。
圖1 癌組織與癌旁組織差異基因在VEGF通路顯著富集
2.2 胃癌VEGF通路基因的差異表達 2個VEGF通路提取的基因共219個,使用差異分析的方式篩選出154個差異基因(P<0.05)。其中34個基因下降,120個基因上升。為了建立最優(yōu)的模型,對logFC沒有限定(|logFC|>0)。這也驗證了大部分的VEGF基因在癌組織與癌旁組織異常表達。
2.3 預后模型的篩選與確定 首先對上述154個VEGF差異基因進行與生存數(shù)據(jù)的合并。使用單因素COX風險回歸分析,確定了28個與預后相關(guān)的VEGF通路基因(P<0.05),用于后續(xù)模型的構(gòu)建。通過多因素COX風險回歸分析建立模型,前進后退法篩選最小AIC值,最終確定6個基因組成的預后模型,這6個基因分別為錨蛋白重復域1(ankyrin repeat domain 1,ANKRD1)、整聯(lián)蛋白α-Ⅴ(integrin alpha-V,ITGAV)、內(nèi)皮一氧化氮合酶(nitric oxide synthase,NOS3)、神經(jīng)菌毛蛋白1(neuropilin-1,NRP1)、Ⅵ型膠原蛋白α3(collagen type Ⅵ alpha 3,COL6A3)、骨膜素(periosteal protein,POSTN)??傻?,風險值的計算公式為:風險值=0.0269×ANKRD1+0.0181×ITGAV+0.0697×NOS3+0.0549×NRP1+ (-0.0078)×COL6A3 +0.005×POSTN。
2.4 預后模型的評估 根據(jù)計算公式得到每位患者的風險值,按照二分法(中位數(shù))將患者分為高風險和低風險2組。Kaplan-Meier曲線顯示:高風險組的預后要遠遠差于低風險組(P<0.05)(圖2A)。高風險組的中位生存期為1.66年,低風險組的中位生存期為4.60年。繪制時間依賴的ROC曲線,結(jié)果顯示,該模型的1、3年和5年AUC分別為65.4%、72.2%和73.0%(圖2B)。這表明該模型可以較為準確的預測胃癌患者預后。
圖2 預后模型的評估
2.5 預后模型獨立于臨床因素指導預后 首先通過單因素COX風險回歸分析篩選胃癌預后相關(guān)臨床因素,并繪制森林圖。單因素森林圖顯示年齡(風險值=1.026,95%CI:1.008~1.044),TNM分期(風險值=1.534,95%CI:1.241~1.896)和本模型(風險值=1.235,95%CI:1.153~1.323)與胃癌預后息息相關(guān)(P<0.05)。隨后將上述結(jié)果進一步納入多因素COX風險回歸分析,仍然顯示年齡(風險值=1.033,95%CI:1.014~1.052),TNM分期(風險值=1.593,95%CI:1.279~1.985)和本模型(風險值=1.239,95%CI:1.146~1.339)與胃癌患者預后相關(guān)(P<0.05)(圖3)。
圖3 預后模型獨立于臨床因素指導預后
2.6 GEO外部數(shù)據(jù)驗證 為了進一步確認模型的預測能力,下載GEO數(shù)據(jù)庫中胃癌數(shù)據(jù)集GSE84437,與臨床資料合并后使用生存曲線的方式驗證。生存曲線表明:高風險的患者(中位生存時間:3.5年)預后遠遠差于低風險的患者(中位生存時間:10.0年)(P<0.05)(圖4)。提示在不同的環(huán)境下,該模型對胃癌的預后具有較好的預測能力。
圖4 GEO數(shù)據(jù)庫驗證預后模型:高風險組和低風險組的生存分析
2.7 臨床運用 為了進一步將這6個VEGF通路相關(guān)基因在臨床運用,繪制了列線圖(圖5A)。列線圖顯示,每個基因?qū)粋€分數(shù),最后得分是每個基因分數(shù)累加所得。根據(jù)每位患者的這6個基因的表達水平,可以通過查詢列線圖得到患者1、3年和5年生存率。同時為了驗證列線圖的預測準確性,繪制了校正圖。校正圖顯示3年的預測與真實情況較為接近,說明VEGF通路相關(guān)基因預后模型在胃癌患者預后預測中具有較好的準確性(圖5B)。
圖5 列線圖的構(gòu)建和驗證
胃癌是第五大最常見的惡性腫瘤,是全球癌癥死亡的第三大主要原因[11]。胃癌患者表現(xiàn)出“三高三低”的特征:發(fā)病率、轉(zhuǎn)移率和病死率高;早期診斷率、根治性切除率和5年生存率低[12-14]。早期胃癌患者接受根治性手術(shù)后再進行化療,術(shù)后5年生存率為90%;晚期胃癌進行連續(xù)化療治療,但預后很差。多數(shù)患者診斷時已發(fā)展為晚期胃癌,因此對胃癌預后預測具有較大的臨床運用價值。
腫瘤血管生成和淋巴管生成通過促進向腫瘤細胞輸送氧氣、營養(yǎng)物質(zhì)和生長因子,在實體腫瘤生長、侵襲和轉(zhuǎn)移擴散中起著至關(guān)重要的作用[6]。內(nèi)皮抑素是內(nèi)源性腫瘤血管生成抑制劑。它通過限制腫瘤的血液供應來抑制腫瘤血管生成和轉(zhuǎn)移,從而剝奪腫瘤營養(yǎng),被認為是治療惡性腫瘤的潛在抗癌標志物[15]。VEGF參與腫瘤血管生成,研究表明靶向VEGF治療具有抗腫瘤生長的作用[16]。在進展期胃癌中,分子靶向治療已經(jīng)成為聯(lián)合治療方案之一。貝伐單抗為重組人克隆抗體,通過抑制VEGF生物學活性對腫瘤血管生成起到抑制作用并可在一定程度上阻斷腫瘤血供,誘導腫瘤細胞凋亡[16]。
本研究通過生物信息學確定了6個VEGF通路的胃癌預后基因。ANKRD1在卵巢癌中的高表達與生存不良有關(guān),而在卵巢癌細胞系中與鉑耐藥相關(guān)[17]。ITGAV的過表達與經(jīng)由神經(jīng)周圍浸潤的結(jié)直腸癌的更高進展和擴散有關(guān)[18]。NOS3是鈣依賴型酶,可調(diào)節(jié)血管功能,并且在激活的同時會產(chǎn)生一氧化氮[19]。NRP1是一種跨膜糖蛋白,可作為許多細胞外配體(包括Ⅲ/Ⅳ類信號蛋白,VEGF的某些同工型和轉(zhuǎn)化生長因子β)的共受體[20]。NRP1對于介導VEGF對腫瘤干細胞的作用也至關(guān)重要,這主要是因為它們可以影響生長因子受體和整聯(lián)蛋白功能。一些研究表明,靶向NRP1或NRP2可以抑制腫瘤發(fā)生并降低腫瘤對其他療法的抵抗[21]。COL6A3是CRC的獨立預后因子,主要在癌癥相關(guān)成纖維細胞中表達[22]。而且獨立于腫瘤淋巴結(jié)轉(zhuǎn)移分期,COL6A3突變與總體生存期顯著相關(guān)[23]。POSTN基因編碼整聯(lián)蛋白的配體,整聯(lián)蛋白是促成細胞外基質(zhì)與整聯(lián)蛋白之間結(jié)構(gòu)連接形成的關(guān)鍵粘著斑蛋白之一。POSTN基因高表達與許多人類惡性腫瘤相關(guān)[24]??傊?,本研究模型中的VEGF通路相關(guān)基因都與腫瘤發(fā)生發(fā)展密切相關(guān)。結(jié)合本研究多因素COX風險回歸分析建立的預后模型及生存分析和外部數(shù)據(jù)驗證結(jié)果,提示本研究所構(gòu)建的預后模型基本符合臨床研究和基礎(chǔ)研究,具有一定的臨床預測能力。
本研究首次通過GSEA富集驗證胃癌的發(fā)生發(fā)展與VEGF通路相關(guān)基因激活相關(guān),并且建立了胃癌VEGF通路相關(guān)基因預后模型。使用生存分析和外部數(shù)據(jù)驗證,進一步證實了該模型預測的準確性與穩(wěn)定性。同時本研究通過繪制列線圖的方式,將模型基因納入列線圖,使得該模型的臨床運用更加簡潔。挖掘的6個VEGF相關(guān)基因為胃癌的靶向治療提供了新的啟發(fā)和思路,并可能為胃癌的個體化治療提供新視角。本研究的不足之處在于只是從生信角度出發(fā),尚需臨床試驗及基礎(chǔ)實驗進一步驗證。