王永強 彭際奎 姜洪偉 王舉
內蒙古自治區(qū)人民醫(yī)院胃腸外科,呼和浩特 010017
胃癌是嚴重威脅人類健康的消化道惡性腫瘤之一,我國胃癌發(fā)病率高,在男性、女性分別居惡性腫瘤第2、第3位,病死率均居惡性腫瘤第2位[1]。早期胃癌,手術治療能有效控制疾病的惡化。然而,胃癌發(fā)病隱匿,早期癥狀不明顯,就診時大多屬晚期,已出現(xiàn)腹膜、肝、肺等遠處轉移,失去手術機會。另外,雖然化療聯(lián)合靶向治療是晚期胃癌或胃癌術后的主要手段,但受耐藥的影響,其療效有限[2-3]。數(shù)據(jù)顯示,胃癌5年生存率僅為31.5%[4]。因此,探索胃癌發(fā)生發(fā)展新機制以及制定治療新策略迫在眉睫。近年來,胃癌腫瘤微環(huán)境免疫抑制狀態(tài)以及胃癌對免疫治療響應的研究備受關注。
目前認為,免疫微環(huán)境影響腫瘤發(fā)生、發(fā)展、轉移及耐藥[5-6],腫瘤浸潤淋巴細胞可用來評估腫瘤患者復發(fā)及死亡風險[7-8]。研究表明微衛(wèi)星不穩(wěn)定的胃癌患者接受抗PD-1/PD-L1單抗的免疫治療可獲得明顯的生存受益[9-10]。另外,對于腫瘤微環(huán)境中效應T細胞浸潤增多、腫瘤突變負荷高的患者,臨床預后也更佳[11-12]。然而,受限于免疫細胞標志物,傳統(tǒng)檢測免疫浸潤的方法,例如流式細胞計數(shù)、免疫組化法等,并不能全面反應免疫細胞的浸潤情況。利用轉錄組數(shù)據(jù),通過單樣本基因集富集分析,可充分展示腫瘤患者28種免疫細胞浸潤特征,從而指導臨床實踐。對于胃癌,目前還沒有基于免疫基因數(shù)據(jù)庫分析其免疫微環(huán)境以及評估其預后的分子模型。因此,本研究基于癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫獲取大樣本的胃癌轉錄數(shù)據(jù),以期構建胃癌免疫相關生存模型,并探索免疫微環(huán)境生存相關性以及其影響胃癌發(fā)生發(fā)展的重要調控通路。
1.1 原始數(shù)據(jù)下載及數(shù)據(jù)預處理 從TCGA官網(https://portal.gdc.cancer.gov/repository)下載胃癌測序數(shù)據(jù),依次選擇STAD→RNA-Seq→FPKM,并整理成行名為基因名、列名為樣本名的矩陣文件。免疫相關基因列表從ImmPort網站(https.//www.immport.org/home)下載并整理,總共1 739個免疫基因。從總矩陣中提取免疫相關基因表達量,用于后續(xù)分析。此外,從TCGA網站下載胃癌臨床數(shù)據(jù),整理成矩陣文件,并排除:(1)臨床信息不完整的病例;(2)術后隨訪時間小于90 d的病例。
1.2 構建風險預測模型
1.2.1 分組 將免疫相關基因、臨床預后矩陣合并成行名為樣本名,列名為生存時間、生存狀態(tài)和基因的新矩陣,采用R“caret”包,按6∶4比例分為訓練集、驗證集,并采用卡方檢驗分析兩組樣本集臨床病理特征的差異性。
1.2.2 構建風險評估模型 首先采用單因素Cox分析在訓練集中篩選預后相關免疫基因,在此基礎上,利用多因素Cox分析,得到胃癌風險評估模型。進一步利用模型對樣本進行評分,以中位風險評分將樣本分為高、低風險組,運用R“survminer”包繪制高、低風險Kaplan-Meier生存曲線從而分析該模型預測效果;運用R“survival ROC”包繪制受試者工作特征曲線(ROC)從而驗證分析模型可靠性;再運用以R“pheatmap”包繪制風險狀態(tài)圖。
1.2.3 驗證風險評估模型 利用上述風險模型對驗證集樣本進行評分,并以測試集中位風險評分將驗證集樣本分為高、低風險組,再分別運用R“survminer”“survival ROC”及“pheatmap”包繪圖,進一步驗證模型預測的有效性及可靠性。
1.3 Cox回歸分析篩選影響胃癌預后的獨立危險因素 將臨床病理特征及生存矩陣、風險評分(risk score)矩陣整理合并成包含生存時間、生存狀態(tài)、性別、年齡、分化程度、TNM分期以及風險評分的新矩陣。先采用單因素Cox分析,篩選預后相關變量,再預后相關的變量納入多因素Cox回歸分析,最終篩選影響胃癌預后的獨立危險因素。
1.4 免疫細胞浸潤分析 利用單樣本富集分析(single sample gene set enrichment analysis,ssGSEA),將基因表達矩陣轉化成28種免疫細胞相對浸潤比例矩陣,行名是免疫細胞類型,列名是樣本名。預設特征基因集,即各免疫細胞的特征基因集,從最近發(fā)表的2篇文獻整理[13-14]??ǚ綑z驗分析高、低風險組與各免疫細胞浸潤比例、各臨床病理特征的關系,采用R“pheatmap”包繪制高、低風險熱圖。
1.5 高、低風險組差異分析 運用R“edger”包分析高、低風險組差異表達基因后,再利用R“clusterProfiler”對差異基因進行基因本體論(GO)、京都基因與基因組大百科全書數(shù)據(jù)庫(KEGG)富集分析,以探索影響胃癌預后的重要調控通路以及相關分子機制。
1.6 統(tǒng)計學分析 采用R語言對本研究進行統(tǒng)計學分析,采用survival包進行單因素、多因素Cox回歸分析。計數(shù)資料采用χ2檢驗,以R“chisq.test”函數(shù)分析。計量資料采用t檢驗或Wilcoxon秩和檢驗,以R“t.test”或“wilcox.test”函數(shù)分析。
2.1 分組 按照排除標準,將胃癌樣本分為訓練集(221例)、驗證集(147例),χ2檢驗結果顯示,訓練集、驗證集樣本在年齡、性別、病理分級、臨床分期、淋巴結轉移及遠處轉移方面差異均無統(tǒng)計學意義(均P>0.05),說明兩組樣本具有可比性,見表1。
2.2 Cox比例風險回歸模型分析結果 采用單因素Cox分析在訓練集中篩選預后相關免疫基因(P<0.05),再納入多因素Cox分析,得到由9個免疫基因構成的胃癌預后風險評估模型(圖1),風險值(risk score)=PROC×0.076+IGKV1D-43×0.032+CLCF1×0.049+IL21RA×-0.074+TAFA4×0.061+NOX4×0.446+INHA×0.133+ITGAV×0.025+FABP3×0.019,按訓練集中位風險值分別將訓練集、驗證集樣本分為高、低風險組。
2.3 Kaplan-Meier生存及ROC分析 采用R“survminer”包對高、低風險組進行Kaplan-Meier分析,檢測風險評估模型預測胃癌患者預后的有效性,結果顯示,訓練集中高、低風險組5年總生存率(OS)分別為20.0%(22/110)、50.5%(55/111);驗證集中高、低風險組5年OS分別為24.7%(18/73)、43.2%(32/74)(圖2A、B);兩組樣本集高風險組OS均顯著低于低風險組(均P<0.05)。采用R“time ROC”包進行ROC繪制,檢測風險評估模型預測胃癌患者預后的可靠性,結果顯示,訓練集1、3、5年ROC的AUC值為0.69、0.71、0.78,驗證集1、3、5年ROC曲線的AUC為0.56、0.71、0.78(圖2C、D)。
圖2 訓練集、測試集胃癌患者中高、低風險組Kaplan-Meier生存曲線及ROC(A為訓練集的生存曲線,B為驗證集的生存曲線,C為訓練集的ROC,D為驗證集的ROC)
2.4 免疫風險評估模型Cox回歸分析 以構建的免疫風險評估模型聯(lián)合胃癌臨床病理特征,包括性別、年齡、分化程度、TNM分期,先做Cox單因素分析,再納入預后相關的因素做Cox多因素分析,篩選影響胃癌預后的獨立因素,結果顯示,在訓練集、驗證集中免疫風險評估模型、TNM分期都是影響胃癌預后的獨立因素(表2)。
2.5 免疫風險評估模型與免疫細胞浸潤、臨床病理特征的關系 利用Cibersort反卷積算法,將每個樣本基因表達矩陣轉化成28種免疫細胞浸潤比例的矩陣,并采用χ2檢驗分析訓練集、驗證集中高、低風險組與臨床病理特征的關系,采用Wilcoxon秩和檢驗(屬于非參數(shù)檢驗)分析訓練集、驗證集中高、低風險組與免疫細胞浸潤的關系。結果如圖3所示,訓練集、驗證集中免疫風險評分均與活化的CD4+T細胞的浸潤有關,高風險組活化CD4+T細胞的浸潤比例顯著降低(P<0.05)。
表1 訓練集、測試集胃癌患者的臨床病理特征分布(例)
表2 胃癌臨床病理特征及風險預測模型在訓練集、測試集的單因素及多因素Cox回歸分析
2.6 風險差異基因GO、KEGG富集分析 利用非參數(shù)檢驗,分別在訓練集、驗證集中,篩選高、低風險組差異基因,再以R“clusterProfiler”包對差異基因進行KEGG富集分析,以初步探索模型中基因促進胃癌進展的分子機制。如圖4所示,訓練集、驗證集的差異基因均富集于PI3K-Akt、cGMP-PKG、ECM-受體結合、黏著斑激酶、腫瘤蛋白多糖等腫瘤相關信號通路。
作為構成腫瘤微環(huán)境的重要組成部分,免疫細胞在腫瘤發(fā)生、轉移、耐藥、預后評估、治療評估等方面起重要作用。免疫評分已作為胃腸道腫瘤預后判斷的重要依據(jù)。本研究基于TCGA數(shù)據(jù)庫,利用Cox比例回歸模型,構建了由9個免疫基因組成的胃癌預測模型,利用該模型可準確、有效地評價胃癌預后。
利用公共數(shù)據(jù)庫如TCGA、GEO測序或芯片、臨床數(shù)據(jù)構建胃癌預后模型的研究較多,包括利用編碼蛋白基因、lncRNA、miRNA構建模型。此類預測模型存在以下問題:(1)為減少納入構建模型的基因數(shù),先設定嚴格閾值,篩選差異表達基因。然而,預后相關基因不一定是差異基因。因此,一些關鍵基因可能被剔除。隨著生物信息學發(fā)展,功能基因被進一步注釋、分類,如免疫、代謝以及RNA結合蛋白相關基因。(2)利用全部樣本構建模型,缺少外部和/或內部數(shù)據(jù)的交叉驗證,模型的可靠性有待商榷。鑒于以上問題,本研究納入全部免疫相關基因(1 739例)建模,而不篩選差異基因;TCGA胃癌樣本分為訓練集、驗證集,在訓練集中建模,在驗證集中檢測,設置循環(huán),滿足條件后輸出結果。本研究構建的模型在訓練集、驗證集中均能有效評估胃癌患者預后,隨訪時間越長,準確性越高,且該模型是胃癌預后的獨立危險因素。高風險組患者活化CD4+T細胞浸潤比例減少,CD4+T細胞浸潤是影響結腸癌預后的獨立危險因素,部分解釋了該組患者預后差的原因[15]。此外,本研究分別在訓練集、驗證集中篩選高、低風險組差異基因,納入GO、KEGG富集分析以初步探索模型基因導致患者預后差的分子機制,結果顯示模型基因可能通過激活PI3K-Akt通路促進胃癌轉移、耐藥。有文獻報道,PI3K-Akt參與胃癌轉移及化療耐藥[16-17]。
圖3 訓練集、驗證集胃癌患者高低風險組臨床及免疫細胞浸潤熱圖(A為訓練集,221例,B為驗證集,147例)
圖4 訓練集、驗證集胃癌患者風險差異基因KEGG富集圖(A為訓練集,B為驗證集)
該胃癌預后評估模型包含8個風險基因PROC、IGKV1D-43、CLCF1、TAFA4、NOX4、INHA、ITGAV、FABP3和1個保護基因IL27RA,其中4個風險基因被報道與胃癌或其他惡性腫瘤發(fā)生、發(fā)展及預后相關。心肌營養(yǎng)因子樣細胞因子1(CLCF1)屬于Gp130細胞因子家族成員,與細胞因子受體因子1(CRLF1)形成異源二聚體,與神經營養(yǎng)因子(CNTF)競爭性結合其受體CNTFR,從而激活JAK-STAT增殖相關信號通路,與肝細胞癌索拉菲尼耐藥、有氧糖酵解有關[18]。另外,腫瘤相關巨噬細胞通過CLCF1/CXCL6/TGF-β軸協(xié)調肝癌細胞與中性粒細胞的“對話”[19]。目前尚無CLCF1與胃癌發(fā)生、轉移、預后及耐藥的報道。本研究提示CLCF1是影響胃癌預后的危險因素,CLCF1高表達的患者預后差,然而,CLCF1促進胃癌進展的作用及機制需要進一步研究。NAPDH氧化酶4(NOX4)作為催化亞基,可促進活性氧(ROS)的產生,而ROS伴隨腫瘤代謝重編程產生,可作為第二信使,參與多條信號通路的激活及氧化還原信號調控與腫瘤代謝。沉默NOX4或使用抑制劑可逆轉由腫瘤相關成纖維細胞引起的CD8+T細胞耗竭而出現(xiàn)的免疫抑制狀態(tài),從而改善免疫治療耐藥情況[20]。本研究顯示,NOX4在模型中所占權重最高,高表達個體罹患胃癌的風險增高1.56倍,說明NOX在胃癌預后評估中的作用最大。整合素α5(integrinαV,ITGAV)屬于整合素家族成員之一,與整合素β亞基形成異源二聚體,調節(jié)新生血管生成及腫瘤發(fā)展。細胞外基質通過ITGAV激活JAK2/STAT5通路,而該通路參與細胞干性維持及腫瘤發(fā)生,IL-32γ通過抑制ITGAV介導的STAT5通路從而抑制肺癌干細胞的增殖[21]。作為轉錄調控因子YAP、WWTR1靶基因的ITGAV不僅直接激活Hippo通路,促進肝癌轉移,而且正反饋調節(jié)YAP、WWTR1的活性。而且,有文獻報道,ITGAV促進胃癌細胞增殖、遷移及侵襲的能力[22]。本研究發(fā)現(xiàn),ITGAV高表達個體預后差,提示ITGAV可能促進胃癌的轉移從而影響預后。脂肪酸結合蛋白3(fatty acid binding protein 3,F(xiàn)ABP3),在脂肪酸轉運、細胞增殖以及基因調控方面起重要作用,其高表達被認為是非小細胞肺癌的不良預后因素[23],與本研究顯示的FABP3高表達是胃癌不良預后因素相似。
綜上所述,本研究利用TCGA胃癌轉錄組數(shù)據(jù),構建了由9個免疫基因組成的預后評估模型,訓練集、驗證集驗證結果進一步證實了該模型具有良好的預測性能,其能準確區(qū)分高、低風險的病例,具有潛在臨床應用價值。