周雪桐,安彩艷,張 謙
1.巴彥淖爾市醫(yī)院消化內(nèi)科,內(nèi)蒙古巴彥淖爾 015000;2.呼和浩特市第一醫(yī)院基礎(chǔ)與轉(zhuǎn)化醫(yī)學(xué)研究中心,內(nèi)蒙古呼和浩特 010030;3.內(nèi)蒙古醫(yī)科大學(xué)藥學(xué)院,內(nèi)蒙古呼和浩特 010110
胃癌是中國乃至世界范圍內(nèi)最常見的惡性腫瘤之一。有研究顯示,胃癌與肺癌和乳腺癌占據(jù)了50%的新發(fā)癌癥病例[1],已成為全球關(guān)注的焦點醫(yī)療問題[2],并且絕大多數(shù)胃癌患者在被確診時已經(jīng)進入進展期,失去了最佳手術(shù)治療機會。因此,胃癌的早期診斷和預(yù)后評估意義重大。穩(wěn)健排序整合算法(RRA)是由愛沙尼亞學(xué)者Raivo Kolde等提出的一種利用概率模型整合排序列表的分析方法。該算法可以使用R語言中的核心函數(shù)“Robust Rank Aggreg”包來實現(xiàn)[3]。本研究利用高通量基因表達(dá)數(shù)據(jù)庫(GEO)中的7套胃癌基因芯片表達(dá)譜數(shù)據(jù)集(GSE54129、GSE63089、GSE65801、GSE66229、GSE79973、GSE118897、GSE118916),采用基于RRA算法的多步驟生物信息學(xué)分析方法鑒定差異表達(dá)基因,并分析其在胃癌發(fā)生和發(fā)展中的分子生物學(xué)功能,以期為后續(xù)胃癌早期診斷預(yù)后模型的構(gòu)建、實驗驗證、機制研究和胃癌早期診斷試劑盒的開發(fā)提供理論依據(jù)。
1.1資料來源 在GEO(https://www.ncbi.nlm.nih.gov/geo/)中檢索胃癌相關(guān)基因表達(dá)譜數(shù)據(jù)。在數(shù)據(jù)庫的檢索框中,首先輸入“gastric cancer”,然后點擊“Search”進行檢索。基因表達(dá)芯片選擇標(biāo)準(zhǔn)如下:(1)數(shù)據(jù)集為胃癌組織樣本;(2)樣本同時包含胃癌組織及正常組織;(3)數(shù)據(jù)類型為基因表達(dá)譜;(4)數(shù)據(jù)的組織來源為人源樣本;(5)數(shù)據(jù)集的樣本量≥10例。根據(jù)以上篩選條件,最終篩選得到了7套符合要求的GEO胃癌芯片表達(dá)譜數(shù)據(jù)。這些數(shù)據(jù)集分別是GSE54129、GSE63089、GSE65801、GSE66229、GSE79973、GSE118897和GSE118916。
1.2方法
1.2.1胃癌表達(dá)譜數(shù)據(jù)預(yù)處理 胃癌基因表達(dá)譜數(shù)據(jù)通過數(shù)據(jù)清洗、標(biāo)準(zhǔn)化和轉(zhuǎn)換等步驟,獲得數(shù)據(jù)表達(dá)矩陣并進行后續(xù)的差異分析。
1.2.2差異基因篩選 使用R語言limma包,根據(jù)差異倍數(shù)(FC)的對數(shù)的絕對值|log2(FC)|>1,并且滿足錯誤發(fā)現(xiàn)率(FDR)<0.05分析。為了觀察FDR和FC之間的關(guān)系,利用火山圖進行可視化,并按照每個基因的變化倍數(shù)對結(jié)果進行排序,以便進行后續(xù)的分析。
1.2.3RRA分析 根據(jù)每個數(shù)據(jù)集中基因的FC對上調(diào)和下調(diào)的基因進行排名。然后,使用R包根據(jù)7套數(shù)據(jù)集中基因的排名來獲取穩(wěn)健的差異表達(dá)基因(DEGs)。
1.2.4功能富集分析 針對1.2.3中獲取穩(wěn)健的DEGs,利用R語言的clusterProfiler包進行基因本體論(GO)和京都基因和基因組百科全書(KEGG)富集分析,并生成可視化結(jié)果,如富集柱狀圖和通路圖。
1.2.5蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)構(gòu)建和可視化 將穩(wěn)健的差異表達(dá)基因(robust DEGs)上傳到STRING在線數(shù)據(jù)庫,并選擇了置信度大于0.9作為篩選標(biāo)準(zhǔn)。通過Cytoscape(版本3.6.1)軟件,生成PPI網(wǎng)絡(luò),使用Cytoscape插件MCODE來篩選PPI網(wǎng)絡(luò)中的顯著模塊。
1.2.6核心基因篩選 使用10種拓?fù)浞治鏊惴?MCC、DMNC、MNC、Degree、EPC、BottleNeck、EcCentricity、Closeness、Radiality、Betweenness)對前50個基因進行排名,10種算法的基因取交集得到核心基因。
1.2.7免疫細(xì)胞浸潤分析 通過CIBERSORT算法將歸一化的基因表達(dá)矩陣轉(zhuǎn)換成22種免疫細(xì)胞矩陣。根據(jù)P<0.05的標(biāo)準(zhǔn)對免疫細(xì)胞矩陣進行過濾,然后用CIBERSORT算法識別正常組織和胃癌樣本之間22種免疫細(xì)胞的相對表達(dá),并進行主成分分析(PCA)以確定正常組織和胃癌組織之間的差異。
1.2.8癌癥基因組圖譜(TCGA)數(shù)據(jù)庫胃癌基因表達(dá)譜數(shù)據(jù)下載 在TCGA(https://cancergenome.nih.gov/)數(shù)據(jù)庫中以“gastric cancer”為關(guān)鍵詞進行檢索。對TCGA數(shù)據(jù)庫中的胃癌數(shù)據(jù)進行如下篩選:(1)病例,選擇TCGA-STAD(Stomach adenocarcinoma);(2)文件中的數(shù)據(jù)分類,選擇轉(zhuǎn)錄組譜(Transcriptome profiling);(3)數(shù)據(jù)類型,選擇基因表達(dá)定量;(4)實驗策略,選擇RNA測序(RNA-seq);(5)工作流類型,選擇HTSeq-FPKM。隨后,下載胃癌表達(dá)譜數(shù)據(jù)和臨床數(shù)據(jù)。
1.2.9統(tǒng)計學(xué)處理 根據(jù)|log2(FC)|>1且FDR<0.05篩選穩(wěn)定的DEGs。采用多因素COX比例風(fēng)險回歸分析方法,建立具有預(yù)后價值的胃癌核心基因評估模型。利用受試者工作特征(ROC)曲線及曲線下面積(AUC)預(yù)測胃癌患者10年生存率,使用Kaplan-Meier生存曲線來比較不同組之間生存率的差異。以P<0.05為差異有統(tǒng)計學(xué)意義。
2.1胃癌GEO基因表達(dá)芯片數(shù)據(jù)集篩選 根據(jù)前期對GEO數(shù)據(jù)集的嚴(yán)格篩選條件,獲得7套胃癌基因表達(dá)數(shù)據(jù),總樣本量為756例。其中,胃癌樣本為523例,正常樣本為233例。7套胃癌基因芯片表達(dá)數(shù)據(jù)中上調(diào)基因和下調(diào)基因的數(shù)量分布情況見表1。使用火山圖(圖1)顯示了差異基因在各個數(shù)據(jù)集中的分布情況,紅色表示上調(diào)基因和綠色表示下調(diào)基因。
注:Significant,顯著性;Down,下調(diào);Up,上調(diào);Not,不顯著。圖1 各組基因表達(dá)芯片數(shù)據(jù)火山圖
表1 各GEO基因芯片表達(dá)數(shù)據(jù)差異基因分布(n)
2.2Robust rank aggregation算法篩選胃癌差異表達(dá)基因 選擇FDR<0.05且差異變化倍數(shù)>1作為最終的差異表達(dá)基因。經(jīng)過篩選,共計得到344個顯著差異表達(dá)基因,其中包括126個顯著上調(diào)基因和218個顯著下調(diào)基因。為了說明這些基因在7套胃癌數(shù)據(jù)集中的表達(dá)模式一致性,繪制了排名最顯著的前20個基因的表達(dá)譜熱圖,見圖2。
圖2 RRA算法篩選的胃癌DEGs
2.3差異基因功能及通路富集 對差異基因進行功能和通路富集分析,GO功能富集分析結(jié)果顯示,在生物學(xué)過程分類上,差異表達(dá)基因的主要富集于細(xì)胞外基質(zhì)組織,在細(xì)胞組分分類上,這些基因顯著富集于細(xì)胞外基質(zhì),內(nèi)質(zhì)網(wǎng)和基底膜等,同時,這些差異表達(dá)基因在分子功能分類上顯著富集于受體和配體的調(diào)節(jié)功能;通過KEGG通路富集,分析發(fā)現(xiàn),表達(dá)差異基因顯著富集于蛋白的消化和吸收、胃酸分泌、化學(xué)致癌及其他物質(zhì)能量代謝途徑。
2.4DEGs的PPI網(wǎng)絡(luò)構(gòu)建 將344個差異基因?qū)隨TRING數(shù)據(jù)庫,來觀察基因PPI網(wǎng)絡(luò),并使用R語言插件MCODE進行分析構(gòu)建子網(wǎng)絡(luò),其中,紅色表示上調(diào)基因,綠色表示下調(diào)基因,見圖3。
2.5核心基因篩選 使用MCC、DMNC、MNC、Degree、EPC、BottleNeck、EcCentricity、Closeness、Radiality、Betweenness 10種拓?fù)浞治鏊惴▽η?0個基因進行排名,10種算法的基因取交集得到核心基因,分別是:CHGB、COL4A1、THBS1、COL3A1、COL1A1、COL1A2、SPP1、LUM、FGG、TIMP1、VCAN和SPARC。
2.6免疫細(xì)胞浸潤分析 使用CIBERSORT算法,胃癌組織中22種免疫細(xì)胞種類(圖4A)。與其他免疫細(xì)胞相比,CD4 T細(xì)胞在胃癌組織中表達(dá)較低,而在正常胃組織中表達(dá)較高(圖4B)。以上結(jié)果表明,CD4 T細(xì)胞對于胃癌的發(fā)生發(fā)展可能起著至關(guān)重要的作用。此外,本研究還構(gòu)建了可視化小提琴圖以證明上述發(fā)現(xiàn)(圖4C)。PCA圖(圖4D)顯示,在正常胃組織和胃癌組織中免疫細(xì)胞浸潤具有個體差異。
注:A為胃癌組織中22種免疫細(xì)胞種類;B為CD4 T細(xì)胞表達(dá)情況;C為可視化小提琴圖;D為PCA圖;Normal,正常胃組織;Tumor,胃癌組織。圖4 免疫細(xì)胞浸潤分析
2.7生存分析 使用R語言Survival包分析12個核心基因與患者總生存率的相關(guān)性,將患者樣本分為高、低表達(dá)兩組,以獲得Kaplan-Meier生存曲線。生存曲線分析結(jié)果表明,CHGB(P=0.008)、COL4A1(P=0.001)、THBS1(P=0.004)、COL3A1(P=0.002)、COL1A1(P=0.010)、COL1A2(P=0.009)、SPP1(P=0.045)、LUM(P=0.006)、FGG(P<0.001)、TIMP1(P=0.013)、VCAN(P<0.001)和SPARC(P=0.003)在高、低表達(dá)組間相比,P值均小于0.05,說明這些基因高、低表達(dá)與胃癌患者的總生存期顯著相關(guān)。
根據(jù)2015年的中國癌癥統(tǒng)計數(shù)據(jù),胃癌是中國乃至世界范圍內(nèi)發(fā)病率和死亡率最高的四種癌癥之一[4-5]。很多胃癌患者在被診斷時已經(jīng)處于進展期,錯過了最佳的手術(shù)切除的機會,晚期和進展期胃癌患者的5年總生存率較低[6]。因此,挖掘和尋找關(guān)鍵的潛在胃癌治療和預(yù)后的標(biāo)志物具有極其重要的意義。
生物信息學(xué)技術(shù)和方法的不斷發(fā)展推動了人們對惡性腫瘤大數(shù)據(jù)挖掘研究的認(rèn)知和理解。通過基因芯片、RNA-seq技術(shù)及公開數(shù)據(jù)庫,如GEO和TCGA的應(yīng)用,研究人員能夠從轉(zhuǎn)錄組、蛋白組和其他組學(xué)層面更深入地了解癌癥的發(fā)生和發(fā)展機制。本研究利用了GEO數(shù)據(jù)庫中的7個胃癌基因芯片表達(dá)譜數(shù)據(jù)集(GSE54129、GSE63089、GSE65801、GSE66229、GSE79973、GSE118897、GSE118916)。通過RRA算法的多步驟生物信息學(xué)分析方法,初步鑒定出344個顯著的穩(wěn)健差異表達(dá)基因,其中包括126個上調(diào)表達(dá)基因和218個下調(diào)表達(dá)基因。同時,通過經(jīng)典的生物信息學(xué)注釋和富集分析方法篩選出12個核心基因(CHGB、COL4A1、THBS1、COL3A1、COL1A1、COL1A2、SPP1、LUM、FGG、TIMP1、VCAN和SPARC)。之后,利用逐步多因素COX風(fēng)險比例模型構(gòu)建了胃癌核心基因的預(yù)后評估模型,結(jié)果發(fā)現(xiàn)這些基因在高、低表達(dá)組中P值均小于0.05,說明這些基因高低表達(dá)組與胃癌患者的總生存期顯著相關(guān)。免疫細(xì)胞浸潤結(jié)果表明,與其他免疫細(xì)胞相比,CD4 T細(xì)胞在胃癌組織中表達(dá)較低,而在正常胃組織中表達(dá)較高,表明CD4 T細(xì)胞對于胃癌的發(fā)生發(fā)展可能起著至關(guān)重要的作用[7]。在胃癌發(fā)展的過程中,CD4 T細(xì)胞的功能和數(shù)量可以受到多種因素的影響[8]。免疫系統(tǒng)中的CD4 T細(xì)胞可以識別和攻擊癌細(xì)胞,發(fā)揮抗癌免疫應(yīng)答的作用[9];其能夠激活其他免疫細(xì)胞,如CD8 T細(xì)胞和自然殺傷細(xì)胞,增強其對癌細(xì)胞的殺傷效應(yīng)[10]。此外,CD4 T細(xì)胞還可以產(chǎn)生細(xì)胞因子,如干擾素γ和腫瘤壞死因子,抑制癌細(xì)胞的增殖和生存[11]。癌細(xì)胞和其他免疫抑制細(xì)胞,如調(diào)節(jié)性T細(xì)胞(Treg細(xì)胞)和腫瘤相關(guān)巨噬細(xì)胞,可以釋放免疫抑制因子,限制CD4 T細(xì)胞的功能和增殖[12]。這種抑制性微環(huán)境可以導(dǎo)致免疫耐受和免疫逃逸,使得胃癌細(xì)胞能夠逃避免疫系統(tǒng)的攻擊。
CHGB、COL4A1、THBS1、COL3A1、COL1A1、COL1A2、SPP1、LUM、FGG、TIMP1、VCAN和SPARC可能成為胃癌的早期診斷和預(yù)后的關(guān)鍵靶點。CHGB屬于一種特異性蛋白質(zhì),它在神經(jīng)內(nèi)分泌細(xì)胞中起到儲存和釋放激素的作用。有研究發(fā)現(xiàn),高表達(dá)的CHGB基因與胃癌的惡性生物學(xué)行為如侵襲和轉(zhuǎn)移相關(guān)。此外,CHGB也被認(rèn)為參與了胃癌細(xì)胞的血管生成和腫瘤微環(huán)境的調(diào)節(jié)[13]。COL4A1是編碼膠原蛋白Ⅳα1鏈的基因,可以與其他細(xì)胞外基質(zhì)分子相互作用,調(diào)節(jié)腫瘤細(xì)胞與基質(zhì)的相互作用,從而影響胃癌的浸潤和轉(zhuǎn)移能力[14]。THBS1是一種細(xì)胞外基質(zhì)蛋白質(zhì),具有調(diào)節(jié)細(xì)胞-細(xì)胞和細(xì)胞-基質(zhì)相互作用的功能,THBS1可以影響腫瘤微環(huán)境中的血管生成過程,為胃癌的生長和轉(zhuǎn)移提供支持[15];COL3A1是編碼膠原蛋白Ⅲα1鏈的基因,其在組織的彈性和穩(wěn)定性中發(fā)揮關(guān)鍵作用。COL1A1和COL1A2分別是編碼膠原蛋白Ⅰα1鏈和編碼膠原蛋白Ⅰα2鏈的基因。COL3A1、COL1A1、COL1A2與胃癌細(xì)胞的增殖、遷移、凋亡和侵襲密切相關(guān)[16]。SPP1可通過激活PI3K/AKT信號通路抑制胃癌細(xì)胞的增殖、侵襲、轉(zhuǎn)移和上皮間質(zhì)轉(zhuǎn)化[17]。LUM是一種編碼骨架蛋白的基因,LUM在細(xì)胞外基質(zhì)中發(fā)揮重要的調(diào)節(jié)作用,并參與多種生物學(xué)過程,是彌漫型胃癌的核心基因[18]。FGG是人類體內(nèi)的一種蛋白質(zhì),屬于纖維蛋白原家族的成員之一,在腫瘤細(xì)胞中通過激活EMT信號通路,促進癌細(xì)胞的惡性侵襲,與腫瘤細(xì)胞的早期浸潤和術(shù)后復(fù)發(fā)密切相關(guān)[13]。TIMP1是一種由TIMP1基因編碼的蛋白質(zhì),TIMP1通過抑制金屬蛋白酶的活性,參與調(diào)節(jié)細(xì)胞外基質(zhì)的降解和重建,血清TIMP1水平升高與胃癌患者預(yù)后不良相關(guān),因此,高表達(dá)的TIMP1是患者預(yù)后不良的獨立衡量指征[19]。VCAN是一種編碼大分子基質(zhì)蛋白的基因,在細(xì)胞外基質(zhì)中起著重要的調(diào)節(jié)作用,VCAN基因的表達(dá)與特定免疫細(xì)胞CD4+T、CD8+T和免疫分子如CD2、CD3D和CD3E密切相關(guān)[20]。SPARC是一種由細(xì)胞分泌的酸性且富含半胱氨酸的蛋白質(zhì),在腫瘤進展的不同階段可參與細(xì)胞外基質(zhì)的重塑過程,充當(dāng)腫瘤抑制或啟動的因子[21]。
本研究在分析和篩選過程中采取了循序漸進、系統(tǒng)并具有邏輯性的方法,然而,在深入分析時需要注意以下問題和不足之處:首先,后續(xù)根據(jù)臨床樣本,采用實時熒光定量PCR(qPCR)和蛋白質(zhì)印跡(Western blotting)來驗證上述差異表達(dá)基因的結(jié)果;其次,在臨床樣本中,應(yīng)用該基因模型來評估胃癌患者的預(yù)后時,需要進行相應(yīng)的檢測。這將有助于確定該基因模型在不同樣本集群中的適用性,還可以探索這些差異表達(dá)基因在胃癌發(fā)生發(fā)展中的功能和機制,從而更好地理解其生物學(xué)意義。
綜上所述,CD4 T細(xì)胞在胃癌的發(fā)生發(fā)展中起著重要作用,CHGB、COL4A1、THBS1、COL3A1、COL1A1、COL1A2、SPP1、LUM、FGG、TIMP1、VCAN和SPARC可能為胃癌的早期診斷和預(yù)后的關(guān)鍵靶點。研究這些基因在胃癌發(fā)生和發(fā)展中的分子生物學(xué)功能,可為后續(xù)胃癌早期診斷預(yù)后模型的構(gòu)建、實驗驗證、機制研究和胃癌早期診斷試劑盒的開發(fā)提供了理論依據(jù)。