李飛 秦強(qiáng)強(qiáng) 谷戰(zhàn)峰 張?zhí)煜?申思 周麗 張樂莎
結(jié)直腸癌是一種常見消化道惡性腫瘤,2020年全球癌癥統(tǒng)計數(shù)據(jù)[1]顯示結(jié)直腸癌新增病例250萬,新增死亡90萬,其發(fā)病率和死亡率居于腫瘤第三位和第二位[1]。近30年來,得益于以全結(jié)腸系膜切除術(shù)(CME)和靶向治療等為代表的一大批新型治療方法的出現(xiàn),結(jié)直腸癌患者5年生存率已有較明顯提高。但目前中國結(jié)直腸癌發(fā)病率和死亡率仍呈上升趨勢并有年輕化傾向[2]?,F(xiàn)有文獻(xiàn)[3]表明包括遺傳、環(huán)境和營養(yǎng)在內(nèi)的多種因素參與結(jié)直腸癌的發(fā)生與發(fā)展,但其具體分子機(jī)制仍不清楚。結(jié)直腸癌現(xiàn)有的常用檢測方法有結(jié)腸鏡、電子計算機(jī)斷層掃描(CT)、大腸潛血試驗(yàn)(FOBT)、糞便免疫學(xué)測試(FIT)等。其中最具代表性的結(jié)腸鏡檢查雖具較高特異度和靈敏度,但它為侵入性檢查且價格高,檢測前準(zhǔn)備也較為苛刻,故患者接受性差。同時結(jié)直腸癌常以出血為臨床表現(xiàn),因癥狀無特異性,70%結(jié)直腸癌出血患者第一次就診時被誤診為痔出血、息肉出血等。另外,現(xiàn)有以癌胚抗原(CEA)為代表的一類生物標(biāo)志物特異度和敏感度并不理想[4],部分患者初次診斷即為中晚期,這是導(dǎo)致患者預(yù)后不良的一個重要因素。目前臨床上對結(jié)直腸癌進(jìn)行治療和預(yù)后評價主要依據(jù)腫瘤TNM分期,該分期系統(tǒng)僅僅包含了腫瘤范圍、區(qū)域淋巴結(jié)、遠(yuǎn)處轉(zhuǎn)移三個宏觀預(yù)測因素且未考慮患者個體特異性[5]。對于具體基因和信號通路研究還不充分,故利用生物信息學(xué)篩選高靈敏度和特異度生物標(biāo)志物用于篩查、診療和預(yù)后預(yù)測就顯得非常有必要。生物信息學(xué)是一門新興學(xué)科,它結(jié)合生物學(xué)、數(shù)學(xué)和信息技術(shù),使分析大型且復(fù)雜的分子數(shù)據(jù)集成為可能[6],本研究從基因表達(dá)綜合數(shù)據(jù)庫(GEO)篩選并下載數(shù)據(jù)集,通過比較腫瘤組織與相鄰部位正常組織樣本的基因表達(dá)譜篩選出差異表達(dá)基因(DEGs)。利用生物信息學(xué)方法分析出樞紐基因并使用GEPIA網(wǎng)站進(jìn)行在線驗(yàn)證與預(yù)后分析,進(jìn)而從分子角度探究結(jié)直腸癌發(fā)生與發(fā)展機(jī)制,為結(jié)直腸癌診療、預(yù)后預(yù)測及靶向藥物研究提供理論依據(jù)。
登錄美國國家生物技術(shù)信息中心旗下GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/),并以colorectal cancer為關(guān)鍵詞進(jìn)行檢索,篩選標(biāo)準(zhǔn)為:(1)數(shù)據(jù)集需來源于同一平臺;(2)樣本需包括結(jié)直腸癌組織與同一患者正常結(jié)直腸組織;(3)樣本總量不小于20;(4)樣本來源于“homo sapines”。共篩選出3套結(jié)直腸癌數(shù)據(jù)集(GSE110224、GSE41328、GSE22598),三套數(shù)據(jù)集均基于GPL570平臺且為Affymetrix Human Genome U133 Plus 2.0 Array芯片。數(shù)據(jù)集GSE110224包含17個正常組織樣本與17個結(jié)直腸腺癌樣本,數(shù)據(jù)集GSE41328包含10個正常組織樣本與10個結(jié)直腸腺癌樣本,數(shù)據(jù)集GSE22598由17個正常組織樣本與17個結(jié)直腸癌樣本構(gòu)成。
利用R語言4.0.3通過R軟件“affy”包將原始表達(dá)數(shù)據(jù)批間差去除,隨后進(jìn)行背景校正,標(biāo)準(zhǔn)化處理,使用“l(fā)imma”包篩選結(jié)直腸癌組織與正常組織差異表達(dá)基因,篩選條件:(1)校正后P值<0.05;(2)|log2FC|>1,其中l(wèi)og2FC>1為上調(diào)基因,log2FC<-1為下調(diào)基因。對三組數(shù)據(jù)集中均上調(diào)或者下調(diào)的基因取交集后使用R軟件4.0.3“ggplot2”包繪制火山圖。
DAVID數(shù)據(jù)庫[7](https://david.ncifcrf.gov)集基因注釋、可視化與綜合發(fā)現(xiàn)為一體,是進(jìn)行高通量基因功能分析的重要數(shù)據(jù)庫。GO分析常用于功能富集研究,包含生物學(xué)過程(biological process,BP)、分子功能(molecular function,MF)和細(xì)胞組分(cellular component,CC)3類[7]。京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)包含關(guān)于基因組生物途徑和系統(tǒng)功能信息,可對基因功能進(jìn)行系統(tǒng)分析。本研究使用DAVID數(shù)據(jù)庫通過對差異基因進(jìn)行注釋并對其編碼蛋白進(jìn)行GO與KEGG分析,認(rèn)為P<0.05具有統(tǒng)計學(xué)意義。
STRING數(shù)據(jù)庫(http://string-db.org)涵蓋了多種生物相關(guān)蛋白質(zhì)—蛋白質(zhì)關(guān)聯(lián)數(shù)據(jù),每個節(jié)點(diǎn)都代表一個基因、蛋白質(zhì)或者分子,其間連線代表相互作用關(guān)系,可用于判斷結(jié)直腸癌中差異表達(dá)基因編碼蛋白質(zhì)間相互作用。本研究將差異基因?qū)隨TRING數(shù)據(jù)庫構(gòu)建差異表達(dá)基因蛋白質(zhì)—蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI),以綜合分?jǐn)?shù)(combined score)>0.4為篩選條件。所得結(jié)果導(dǎo)入Cytoscape v3.7.2軟件進(jìn)行可視化[7]。具有較高連通度(degree)的節(jié)點(diǎn)往往在對于該網(wǎng)絡(luò)的穩(wěn)定有著重要作用,因此使用Cytohubba插件篩選出PPI網(wǎng)絡(luò)中連通度排名前10的基因并確定為樞紐基因。
GEPIA(http://gepia.cancer-pku.cn)數(shù)據(jù)庫是由北京大學(xué)研制的在線分析網(wǎng)站,包含來源于TCGA的9 736個腫瘤組織與726個正常組織,以及GTEx數(shù)據(jù)庫8 000余例正常組織數(shù)據(jù)。本研究包含其中300余例結(jié)直腸癌數(shù)據(jù)與712例正常組織數(shù)據(jù)[8-9]。通過GEPIA網(wǎng)站以樞紐基因相對表達(dá)量中位數(shù)為界值,根據(jù)差異基因mRNA表達(dá)量將患者分為高表達(dá)與低表達(dá)組進(jìn)行組間比較,驗(yàn)證所篩選樞紐基因在正常組織與結(jié)直腸癌組織中表達(dá)差異與患者整體預(yù)后情況,認(rèn)為檢驗(yàn)值P<0.05為差異具有統(tǒng)計學(xué)意義。
對GSE110224、GSE41328、GSE22598三組數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,處理結(jié)果顯示三個數(shù)據(jù)集各樣本表達(dá)量處于同一水平,表明其標(biāo)準(zhǔn)化特征良好。對三組數(shù)據(jù)集使用“l(fā)imma”包篩選結(jié)直腸癌組織與正常大腸黏膜組織差異表達(dá)基因,共篩選出差異表達(dá)基因366個,其中明顯上調(diào)基因128個,明顯下調(diào)基因238個。樣本均一化結(jié)果(圖1)與火山圖(圖2)如圖所示。
圖1 數(shù)據(jù)集均一化處理。1A:GSE41328數(shù)據(jù)集均一化前;1B:GSE22598數(shù)據(jù)集均一化前;1C:GSE110224均一化前;1D:GSE41328數(shù)據(jù)集均一化后;1E:GSE22598數(shù)據(jù)集均一化后;1F:GSE100224數(shù)據(jù)集均一化后
圖2 差異表達(dá)基因火山圖
利用DAVID網(wǎng)站對366個差異表達(dá)基因進(jìn)行GO富集分析與KEGG富集分析。GO分析結(jié)果表明差異表達(dá)基因主要參與蛋白水解、細(xì)胞黏附、細(xì)胞增殖的正性調(diào)節(jié)、炎癥反應(yīng)等生物學(xué)過程(圖3A);主要定位于細(xì)胞外間隙、胞外區(qū)、蛋白質(zhì)細(xì)胞外基質(zhì)等細(xì)胞成分(圖3B);主要參與鋅離子結(jié)合、鈣離子結(jié)合、受體結(jié)合等分子功能(圖3C)。此外KEGG分析顯示差異表達(dá)基因主要富集于細(xì)胞因子受體相互作用、趨化因子信號通路、PI3K-Akt通路等相關(guān)信號通路(圖3D)。
圖3 差異表達(dá)基因的GO分析與KEGG分析信號。3A:通路1:生物學(xué)過程;3B:通路2:細(xì)胞組分;3C:通路3:分子功能;3D:KEGG信號通路富集圖
通過STRING數(shù)據(jù)庫預(yù)測差異表達(dá)基因間相互作用,并將所得結(jié)果導(dǎo)入Cytoscape v3.7.2以構(gòu)建蛋白質(zhì)—蛋白質(zhì)相互作用網(wǎng)絡(luò),得到一個包含282個節(jié)點(diǎn)和742條邊的PPI網(wǎng)絡(luò)。隨后基于軟件中Cytohubba插件篩選出連通度(具有較高聯(lián)通度的節(jié)點(diǎn)意味著對維護(hù)整個網(wǎng)絡(luò)的穩(wěn)定更加重要)排名前10位樞紐基因,分別為CXCL8、CXCL1、SPP1、 CXCL12、 COL1A1、 SOX9、 MMP3、COL1A2、CD44和CXCL5。除CXCL12下調(diào)外,其余均為上調(diào)(表1)。
表1 10個樞紐基因
通過GEPIA(http://gepia.cancer-pku.cn)網(wǎng)站驗(yàn)證所篩選差異表達(dá)基因在正常人與結(jié)直腸癌患者中表達(dá)量,驗(yàn)證結(jié)果與GEO來源數(shù)據(jù)分析結(jié)果相一致。即在腫瘤組織中CXCL8、CXCL1、SPP1、COL1A1、 SOX9、 MMP3、 COL1A2、 CXCL5、CD44表達(dá)水平均較正常組織上調(diào),CXCL12在腫瘤組織中較正常組織表達(dá)下調(diào)。除COL1A1和COL1A2以外的8個基因差異均具有統(tǒng)計學(xué)意義(LogrankP<0.05)(圖4)。通過預(yù)后分析得出CXCL8、SPP1和COL1A2對于結(jié)直腸癌患者整體生存率、無病生存率均有影響(圖5),提示其表達(dá)差異與患者預(yù)后相關(guān)。綜合以上結(jié)果,顯著性差異驗(yàn)證一致且與結(jié)直腸癌預(yù)后相關(guān)的基因?yàn)镃XCL8和SPP1。
圖4 樞紐基因在正常組織與腫瘤組織中的表達(dá)情況。T:Tumor,以紅色表示;N:Normal,以灰色表示。COAD: Colon adenocarcinoma, 結(jié) 腸 癌 ; READ:Rectum adenocarcinoma,直腸癌
圖5 預(yù)后相關(guān)基因與患者生存率的關(guān)系
隨著醫(yī)學(xué)研究進(jìn)入大數(shù)據(jù)時代以及多組學(xué)技術(shù)的發(fā)展,基于表達(dá)譜芯片和轉(zhuǎn)錄組測序的生物信息學(xué)分析在癌癥發(fā)生發(fā)展機(jī)制探究、診斷和分型中應(yīng)用越來越多[10]。其中不乏應(yīng)用TCGA和GEO數(shù)據(jù)庫進(jìn)行分析的研究。GEO數(shù)據(jù)庫為美國基因表達(dá)綜合數(shù)據(jù)庫,和癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫都是常用于進(jìn)行生物信息學(xué)分析的數(shù)據(jù)庫,且后者包含較為全面的癌癥基因表達(dá)譜、突變基因譜,并配有相關(guān)臨床信息,是目前最大的癌癥基因信息數(shù)據(jù)庫[11]。本研究對篩選出的GEO數(shù)據(jù)庫中的三組結(jié)直腸癌表達(dá)譜基因芯片經(jīng)過批間差去除、背景校正和標(biāo)準(zhǔn)化處理后,利用R軟件對結(jié)直腸癌組織與正常組織進(jìn)行分析篩選,得到366個差異表達(dá)基因,包括顯著上調(diào)基因128個,顯著下調(diào)基因238個。對差異基因進(jìn)行GO富集分析發(fā)現(xiàn),差異基因主要參與的生物學(xué)過程有蛋白水解、細(xì)胞增殖的正性調(diào)節(jié)、炎癥反應(yīng)等,差異基因主要定位于細(xì)胞外間隙、蛋白質(zhì)細(xì)胞外基質(zhì)等細(xì)胞成分。分子功能上與增強(qiáng)鋅離子結(jié)合、鈣離子結(jié)合作用相關(guān)。KEGG通路分析顯示差異基因主要參與細(xì)胞因子受體相互作用通路、PI3K-Akt信號通路、趨化因子信號通路,表明炎癥反應(yīng)在結(jié)直腸癌中具有重要作用。
基于PPI網(wǎng)絡(luò)篩選出的10個樞紐基因?yàn)镃XCL8、CXCL1、 SPP1、 COL1A1、 SOX9、 MMP3、COL1A2、CXCL5、CD44,其中COL1A1、COL1A2兩個基因在GEPIA驗(yàn)證差異表達(dá)時不顯示具有統(tǒng)計學(xué)意義,可能跟這兩種基因的基礎(chǔ)水平表達(dá)量較高有關(guān)[10]。CXCL8是CXC家族典型趨化因子,具有負(fù)責(zé)招募和激活炎癥細(xì)胞如中性粒細(xì)胞到炎癥部位作用,CXCL8募集N2型TANs(腫瘤相關(guān)中性粒細(xì)胞),后者分泌的1型精氨酸酶通過抑制T細(xì)胞受體表達(dá),減弱抗原特異性T細(xì)胞應(yīng)答和募集T調(diào)節(jié)細(xì)胞從而引起免疫抑制,使機(jī)體免疫功能降低促進(jìn)結(jié)直腸癌發(fā)生和發(fā)展;另一方面CXCL8也可通過下游胞內(nèi)信號磷脂酰肌醇激酶誘導(dǎo)底物蛋白激酶B磷酸化,從而在調(diào)節(jié)腫瘤細(xì)胞存活、血管生成和遷移中發(fā)揮關(guān)鍵作用[12]。由此看來CXCL8在結(jié)直腸癌發(fā)生中可能為危險性因素,但我們的結(jié)果顯示CXCL8在結(jié)腸癌患者中高表達(dá),其下調(diào)為預(yù)后不良的表現(xiàn),提示為保護(hù)性因素。對此我們認(rèn)為有進(jìn)一步驗(yàn)證的必要。另一趨化因子CXCL5可激活CXCR2 中 ERK/Elk-1/Snail途徑和 AKT/GSK3β/βcatenin途徑誘導(dǎo)上皮—間充質(zhì)轉(zhuǎn)化,并通過AKT/GSK3β/β-catenin/MMP7途徑侵入CXCR2,導(dǎo)致腫瘤細(xì)胞遷移和侵襲[13]。CD44具有維持結(jié)直腸癌干細(xì)胞活性的功能,高表達(dá)CD44意味著預(yù)后不良[14]。COL1A1是Ⅰ型膠原a1,可通過WNT/平面細(xì)胞極性(PCP)途徑激活三條通路Rac1-GTP、p-JNK、RhoA-GTP從而發(fā)揮不同作用,其中Rho GTPases和JNK途徑將信號從細(xì)胞表面Frizzled和ROR2/RYK共受體傳遞到細(xì)胞核是腫瘤細(xì)胞轉(zhuǎn)移的重要過程[15],因此,COL1A1可能參與了結(jié)直腸癌的轉(zhuǎn)移過程。另一膠原COL1A2為Ⅰ型膠原a2,則通過調(diào)控細(xì)胞外基質(zhì)(extracellular matrix,ECM)相關(guān)功能參與結(jié)直腸癌發(fā)生和轉(zhuǎn)移,ECM是腫瘤微環(huán)境中最主要成分,其中Ⅰ型膠原在ECM中含量豐富,作為Ⅰ型膠原的一種,COL1A2可促進(jìn)上皮—間充質(zhì)轉(zhuǎn)化從而增強(qiáng)腫瘤細(xì)胞對細(xì)胞凋亡抵抗,促進(jìn)腫瘤細(xì)胞逃脫衰老過程[16];體外實(shí)驗(yàn)[13]結(jié)果也顯示Ⅰ型膠原培養(yǎng)基上生長的結(jié)直腸癌細(xì)胞可通過誘導(dǎo)Cdx2瞬時轉(zhuǎn)錄下調(diào)導(dǎo)致分化受到抑制,這與COL1A2高表達(dá)患者預(yù)后不良相關(guān)。ECM與結(jié)直腸癌生物學(xué)行為密切相關(guān),MMP3具有蛋白水解作用,能水解ECM,有利于結(jié)直腸癌細(xì)胞在降解的基質(zhì)間隙及基底膜缺損處生長,同時其降解產(chǎn)物有化學(xué)趨化性并促進(jìn)血管生成促進(jìn)結(jié)直腸癌的侵襲和轉(zhuǎn)移。失控的細(xì)胞增殖是結(jié)直腸癌細(xì)胞一種顯著的生物學(xué)行為,體外研究[17]表明,上調(diào)的長鏈非編碼RNA MALAT1通過下游靶基因miR-145使SOX9抑制作用減弱,導(dǎo)致SOX9表達(dá)上調(diào),上調(diào)的SOX9使結(jié)直腸癌細(xì)胞分裂周期中停滯在G1期細(xì)胞比例減少,促進(jìn)結(jié)直腸癌細(xì)胞增殖、遷移和侵襲。有報道[18]稱,腸道中慢性炎癥會增加結(jié)直腸癌的患病風(fēng)險,在Rictor特異性缺失的結(jié)直腸癌患者中巨噬細(xì)胞對mTORC2抑制作用減弱,使骨橋蛋白SPP1分泌,導(dǎo)致炎癥性結(jié)直腸癌的發(fā)生。
隨后的研究中,我們使用GEPIA網(wǎng)站(包含TCGA數(shù)據(jù)庫)對10個樞紐基因進(jìn)行預(yù)后分析,發(fā)現(xiàn)CXCL8的低表達(dá)和SPP1、COL1A2的高表達(dá)與預(yù)后不良相關(guān)。關(guān)于結(jié)直腸癌,Chen等[17]曾應(yīng)用TCGA和GEO數(shù)據(jù)庫分析得出了207個結(jié)直腸癌差異表達(dá)基因,其中CXCL家族基因有四個亞型屬于樞紐基因,而Gong等[18]也類似地發(fā)現(xiàn)CXCL家族的四個亞型與結(jié)直腸癌的預(yù)后相關(guān)。這些發(fā)現(xiàn)都與本文結(jié)論一致。本文也提出了COL1A兩種亞型作為關(guān)鍵基因,其中COL1A2雖然GEPIA驗(yàn)證差異一致性中未顯示出統(tǒng)計學(xué)意義,但與預(yù)后顯著相關(guān),在未來的研究中尚需進(jìn)一步確認(rèn)。
本研究為結(jié)直腸癌預(yù)后模型構(gòu)建提供新的分子,從而進(jìn)一步為結(jié)直腸癌診療與預(yù)后篩選提供理論依據(jù)。本研究也存在不足之處,結(jié)果雖經(jīng)過不同網(wǎng)站和已有文獻(xiàn)驗(yàn)證,但由于缺少具體實(shí)驗(yàn)數(shù)據(jù),部分基因在結(jié)直腸癌發(fā)生發(fā)展以及預(yù)后等不同階段作用未知,因此本研究中所涉及的分子及其機(jī)制仍需進(jìn)一步分子生物學(xué)實(shí)驗(yàn)進(jìn)行驗(yàn)證。
由于目前較多為單基因和針對二代測序進(jìn)行的分析,廣泛的探索性數(shù)據(jù)非常有限[19],今后的生物信息分析可能會向多基因模塊發(fā)展。諸如加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA),通過對復(fù)雜的基因相互作用網(wǎng)絡(luò)進(jìn)行系統(tǒng)生物學(xué)方法分析,考慮同時評估所有基因的表達(dá),以揭示共同表達(dá)(也可能是共同調(diào)節(jié))的基因集群(模塊)的變化,這樣就可以認(rèn)為是一種調(diào)控機(jī)制發(fā)生了改變而誘導(dǎo)出病因[20]。此外,基因水平分析得出的生物標(biāo)記物也有一定局限性,由于基因轉(zhuǎn)錄和翻譯水平的變化,使得僅使用基因組生物標(biāo)記物是不夠的,加之非遺傳性因素的影響,可以考慮使用轉(zhuǎn)錄組分析來定義新的生物標(biāo)記物對靶向藥物的反應(yīng)[21],并且多種RNA生物標(biāo)志物的組合可以提高診斷和預(yù)后的敏感度和特異度[22]。