王舉,竇忠霞,姜洪偉,王永強,高小平,張勇
胃癌是嚴重威脅人類健康的常見消化道惡性腫瘤之一,發(fā)病率居惡性腫瘤第四位,僅次于肺癌、乳腺癌和結(jié)直腸癌,死亡率居第三位。由于發(fā)病隱匿,早期癥狀不明顯,就診時大多屬晚期,5年總生存率(overall survival,OS)僅為 28.3%[1]。然而影響胃癌發(fā)生、發(fā)展及預(yù)后的因素尚不明確,因此,從基因分子水平挖掘與胃癌預(yù)后相關(guān)的基因,對胃癌治療及預(yù)后評估具有重要意義。由美國國家癌癥研究所(National Cancer Institute,NCI)和國家人類基因組研究所(National Human Genome Research Institute,NHGRI)于2006年啟動的癌癥基因組譜圖(The Caner Genome Atlas,TCGA)計劃,試圖通過應(yīng)用基因組分析技術(shù),特別是采用大規(guī)模的基因組測序,將人類全部癌癥的基因組變異圖譜繪制出來,篩選癌基因和抑癌基因,進行系統(tǒng)分析,了解腫瘤發(fā)生發(fā)展的機制,發(fā)展新的診斷和治療方法。TCGA數(shù)據(jù)庫包含了豐富的腫瘤和數(shù)據(jù)類型,截止2018年9月27日,TCGA共收錄人類69個部位、43種類型的腫瘤,病例總數(shù)達33 096例。數(shù)據(jù)類型包括基因測序(gene sequencing)、DNA 拷貝數(shù)分析(DNA copy number analysis)、轉(zhuǎn) 錄 譜 分 析(transcriptome analysis)、甲基化分析(methylation analysis)、小分子非編碼RNA分析(miRNA analysis)和臨床信息。其中,臨床資料涵蓋患者性別、年齡、種族、族群、腫瘤分化程度、體積、TNM分期和隨訪時間等?;诖髷?shù)據(jù)庫的生物信息學(xué)分析,為腫瘤研究指明了方向,通過差異分析、功能及通路富集分析、生存分析等,可以篩選影響腫瘤發(fā)生發(fā)展的核心基因和信號通路。本研究首先從TCGA網(wǎng)站下載胃癌及臨床相關(guān)數(shù)據(jù),篩選胃癌及癌旁組織的差異表達基因(differential expressed genes,DEGs),再進行Cox比例風(fēng)險回歸模型分析,構(gòu)建胃癌預(yù)后評估模型。
1.1 數(shù)據(jù)下載 登錄TCGA網(wǎng)站(https://portal.gdc.cancer.gov/repository),病例選擇胃癌(Stomach),文件-數(shù)據(jù)分類選擇轉(zhuǎn)錄譜(Transcriptome profiling),數(shù)據(jù)類型選擇基因表達定量(Gene Expression Quantification),工作流程類型(workflow type)選擇原始數(shù)據(jù)HTSeq-Counts,共407個文件,每個文件對應(yīng)1個樣本,樣本包括胃癌及癌旁正常組織,將選擇的文件加入Cart,以命令行形式下載。同法下載胃癌臨床樣本文件。
1.2 數(shù)據(jù)處理 采用perl腳本將下載的407個文件合并、轉(zhuǎn)化成一個矩陣(Matrix),行名為基因名/EnsembleID/基因功能注釋,列名為樣本名,其中功能注釋包括蛋白編碼基因(Protein coding gene)、長鏈非編碼RNA(lincRNA)、假基因(pseudogene)等。本研究目的是構(gòu)建mRNA胃癌預(yù)后評估模型,因此根據(jù)基因功能注釋只從矩陣提取蛋白編碼基因進行后續(xù)分析。同樣,胃癌臨床文件合并成一個行名為樣本名,列名為各臨床病理特征的矩陣。
1.3 篩選DEGs 采用R語言“edgeR”包從蛋白編碼基因矩陣中篩選胃癌及癌旁正常組織的DEGs,用于后續(xù)Cox比例風(fēng)險回歸模型分析。“edgeR”包通過命令首先剔除本底表達水平低的基因,分別計算癌癥組和正常組的組間差異、組內(nèi)差異,將組間差異大于組內(nèi)差異的基因再進行配對t檢驗。篩選標準,校正后P值(FDR,F(xiàn)alse Discovery Rate)<0.01,差異倍數(shù)(Fold change,F(xiàn)C)>2,即FC取2的對數(shù)(log2FC)>1,或log2FC<-1。將DEGs數(shù)據(jù)可視化,以R“ggplot”包繪制火山圖,并選擇前20個上調(diào)、下調(diào)最顯著的DEGs,采用R“pheatmap”包繪制熱圖。
1.4 Cox比例風(fēng)險回歸模型分析 本研究首先從TCGA下載臨床文件,提取生存數(shù)據(jù),將DEGs與生存數(shù)據(jù)合并生成一個行名為樣本名,列名為生存時間、生存狀態(tài)以及DEGs的矩陣,再采用R“survival”包Cox函數(shù)對DEGs做單因素回歸分析,得到與胃癌預(yù)后有關(guān)的DEGs。在此基礎(chǔ)上進行Cox多因素分析,得到胃癌預(yù)后評估模型,Risk Score=β1X1+β2X2+…+βnXn,β表示基因相關(guān)系數(shù),X表示基因表達量。根據(jù)公式計算樣本風(fēng)險值(Risk Score),取中位數(shù)作為界值,將胃癌患者分為高、低風(fēng)險組,并以R“pheatmap”包將模型數(shù)據(jù)可視化。同時,采用“survival”包做高、低風(fēng)險Kaplan-Meier生存曲線,以“survival ROC”包繪制ROC曲線驗證該模型的準確性。
1.5 Cox回歸分析影響胃癌預(yù)后的因素 從胃癌臨床文件提取相關(guān)信息、與生存文件及Risk Score文件合并成一個矩陣,包含生存時間、生存狀態(tài)、性別、年齡、分化程度、TNM分期以及Risk Score(Lowvs.High)。先采用Cox單因素回歸分析,再將分析結(jié)果中與胃癌預(yù)后相關(guān)的因素納入Cox多因素回歸分析,篩選影響胃癌預(yù)后的獨立危險因素。
2.1 TCGA胃癌數(shù)據(jù)DEGs分析結(jié)果 合并后的矩陣包含胃癌樣本375例,癌旁正常樣本32例,基因56 863個,按基因功能注釋,提取出編碼基因19 660個,差異表達分析共篩選出4 332個DEGs(FDR<0.01,|log2FC|>1),其中 2 145個 DEGs呈高表達,2 187個DEGs呈低表達。選取前20個上下調(diào)的DEGs,分別繪制熱圖及火山圖,見圖1。
2.2 Cox比例風(fēng)險回歸模型分析結(jié)果 采用R“survival”包的Cox函數(shù)對4 332個DEGs做單因素回歸分析,結(jié)果顯示,710個DEGs與胃癌OS有關(guān)(P<0.05)。選擇P<0.001的25個DEGs納入Cox多因素分析,得到包含8個DEGs胃癌預(yù)后評估模型,按公式計算每個樣本的風(fēng)險值,Risk Score=BCHE×0.071+INPP5J×(-0.151)+VCAN×0.166+IGFBP1×0.065+CGB5×0.123+HP×0.067+PSG9×0.154+MEI14×0.149,根據(jù)中位數(shù)將樣本分為高、低風(fēng)險組,并以可視化高低風(fēng)險熱圖呈現(xiàn),見圖2。同時,采用R語言“survival”包的survdiff函數(shù)對8個DEGs進行批量Kaplan-Meier生存曲線分析,結(jié)果與Cox單因素分析結(jié)果相似,7個DEGs與胃癌預(yù)后相關(guān),見圖3。
2.3 Cox生存分析及ROC曲線 采用R“survival”包對預(yù)后評估模型呈高、低風(fēng)險組進行Cox生存分析,結(jié)果顯示,高風(fēng)險組5年OS為56.20%,低風(fēng)險組5年OS為17.27%,差異有統(tǒng)計學(xué)意義(χ2=39.232,P<0.001),見圖4A。采用R“survival ROC”包繪制5年ROC曲線,判斷風(fēng)險評估模型的準確性,結(jié)果曲線下面積(AUC)=0.781,該風(fēng)險評估模型預(yù)測胃癌預(yù)后有一定的準確性,見圖4B。
Fig.1 The heatmap and volcano map of DEGs in gastric cancer and normal tissues of TCGA圖1 TCGA胃癌及正常組織DEGs熱圖和火山圖
Fig.2 The heatmap of high-and low-risk score based on the predictive prognosis model of TCGA gastric cancer cases圖2 TCGA胃癌預(yù)后評估模型高低風(fēng)險熱圖
Fig.3 The Kaplan-Meier survival curves of each gene in the predictive prognosis model of gastric cancer圖3 胃癌預(yù)后評估模型中各基因的Kaplan-Meier生存曲線圖
Fig.4 The Kaplan-Meier survival curve(A)and ROC curve(B)of high-and low-risk of TCGA gastric cancer cases圖4 TCGA胃癌高、低風(fēng)險Kaplan-Meier生存(A)及ROC曲線圖(B)
2.4 篩選影響胃癌預(yù)后的獨立危險因素 以表1中的因素為自變量并給予賦值,以生存時間為因變量行Cox單因素回歸分析,結(jié)果顯示,年齡>67歲、腫瘤TNM分期晚(Ⅲ+Ⅳ期)、淋巴結(jié)轉(zhuǎn)移、遠處轉(zhuǎn)移、風(fēng)險模型評分為高風(fēng)險是影響TCGA胃癌患者預(yù)后的危險因素(表2)。以表2中Cox單因素分析有統(tǒng)計學(xué)意義的因素為自變量,生存時間為因變量進一步行Cox多因素回歸分析,結(jié)果顯示高齡和風(fēng)險評估模型評分為高風(fēng)險是影響TCGA胃癌患者預(yù)后的獨立危險因素,見表3。
Tab.1 Independent variable assignment of prognosis related factor in TCGA gastric cancer cases表1 TCGA胃癌患者預(yù)后相關(guān)因素賦值表
Tab.2 The Cox univariate regression of prognosis related factors for TCGA gastric cancer cases表2 TCGA胃癌患者預(yù)后相關(guān)因素的Cox單因素回歸分析
Tab.3 The Cox multivariate regression of prognosis related risk factors for TCGA gastric cancer cases表3 TCGA胃癌預(yù)后相關(guān)因素的Cox多因素回歸分析
胃癌遺傳學(xué)背景復(fù)雜,按分子生物學(xué)特征,可分為EB病毒(EBV)陽性、微衛(wèi)星灶不穩(wěn)定型(MSI)、基因組穩(wěn)定型(GS)和染色體不穩(wěn)定型(CIN)。TCGA數(shù)據(jù)庫包含胃癌RNA-Seq樣本375例,臨床信息完整,為胃癌臨床基礎(chǔ)研究提供了重要的資源。本研究采用生物信息學(xué)方法,首先篩選出差異表達基因,納入Cox比例風(fēng)險回歸分析,構(gòu)建了包含8個DEGs(BCHE、INPP5J、VCAN、IGFBP1、CGB5、HP、PSG9、AFF2)的胃癌預(yù)后評估模型,通過Kaplan-Meier和ROC曲線驗證了該模型的有效性和準確性,而且證實該模型可以用于預(yù)測胃癌的預(yù)后。BCHE、VCAN、IGFBP1、CGB5、HP、PSG9和AFF2可能是癌基因,而INPP5J是抑癌基因。鑒于在胃癌預(yù)后評估中的重要作用,這些基因可能在胃癌發(fā)生發(fā)展過程中發(fā)揮重要作用,可能成為胃癌精準治療的新靶點,值得深入研究。
目前該預(yù)后評估模型的8個DEGs在胃癌及其他惡性腫瘤中的報道較少。Koie等[2-3]報道,血清BCHE水平是膀胱癌、前列腺癌的獨立預(yù)后因素,而且血清BCHE增高的膀胱癌、前列腺癌患者5年OS和DFS均高于BCHE降低的患者,這似乎與本研究分析的結(jié)果相反,其原因在于腫瘤的異質(zhì)性,另外,TCGA數(shù)據(jù)標本來源于腫瘤及正常組織,BCHE在腫瘤組織及血液中的表達可能不一致。Chida等[4]采用基因芯片技術(shù)篩選了與Ⅱ/Ⅲ期結(jié)腸癌復(fù)發(fā)相關(guān)的基因,包括VCAN,進一步免疫組化研究證實基質(zhì)VCAN是判斷結(jié)腸癌復(fù)發(fā)的重要指標。Li等[5]采用R語言包分析GEO數(shù)據(jù)庫,篩選了與胃癌預(yù)后相關(guān)的12個節(jié)點基因,其中包括VCAN。IGFBP1是一種分泌性蛋白,調(diào)節(jié)細胞增殖、遷移、侵襲及黏附等生物學(xué)活性。Luo等[6]報道IGFBP1抑制胃癌細胞BGC-823的遷移活性,在幽門螺旋桿菌誘發(fā)的胃癌發(fā)生發(fā)展過程中起保護作用。Geis等[7]證實HIF-2α通過上調(diào)IGFBP1抑制肝癌細胞的淋巴結(jié)轉(zhuǎn)移。這與本研究分析結(jié)果相反,腫瘤細胞的異質(zhì)性可能是重要原因。Yang等[8]分析TCGA胃癌數(shù)據(jù),同樣證實CGB5是影響胃癌總生存率和無進展生存率的獨立危險因素。結(jié)合珠蛋白(haptoglobin,HP)屬急性期反應(yīng)蛋白,也是一種分泌性蛋白,其分子結(jié)構(gòu)類似免疫球蛋白,主要由肝臟合成,研究發(fā)現(xiàn)HP在肺癌[9]、胰腺癌[10]、肝癌[11]等多種腫瘤患者血清中增高。近來報道PSG9促進腫瘤新生血管生成,與結(jié)直腸癌、肝癌的發(fā)生發(fā)展密切相關(guān)[12-13]。Ooms等[14]報道抑癌基因INPP5J通過PI3K/AKT信號通路影響乳腺癌的發(fā)生發(fā)展,細胞、動物實驗均證實,INPP5J敲減一方面促進腫瘤細胞增長,另一方面卻抑制腫瘤細胞的遷移、侵襲。
綜上文獻所述,該預(yù)后評估模型中基因與惡性腫瘤發(fā)生發(fā)展密切相關(guān),可以從不同角度去深入研究,有些基因可作為腫瘤早期診斷的分子標志物,如分泌性蛋白HP,有些基因可作為預(yù)后評估的指標,如BCHE、CGB5、VCAN,有些基因可作為精準治療的新靶點,如PSG9。然而本研究還存在不足之處,第一,胃癌預(yù)后評估模型基于TCGA數(shù)據(jù)庫RNA測序分析的結(jié)果,缺少臨床及細胞、動物功能學(xué)實驗。第二,某些基因,如BCHE、IGFBP1的TCGA分析結(jié)果與文獻報道相反,腫瘤異質(zhì)性是重要原因,數(shù)據(jù)分析的可靠性也需要考慮。