劉欣然 康悅 于守江 于永生 劉玉偉 王洪偉
結(jié)直腸癌作為最常見(jiàn)的消化道惡性腫瘤之一,嚴(yán)重影響著公眾健康[1]。結(jié)直腸癌的發(fā)病機(jī)制一直是腫瘤研究領(lǐng)域的重點(diǎn)問(wèn)題,而其中炎癌轉(zhuǎn)化作為癌變潛在的原因越來(lái)越多地受到研究者關(guān)注[2-3]。炎癥和腫瘤之間存在千絲萬(wàn)縷的聯(lián)系,既往研究已經(jīng)證實(shí)炎癥性腸病患者患結(jié)直腸癌的風(fēng)險(xiǎn)明顯增加[4-5],而口服非甾體抗炎藥能夠降低腸道腫瘤的發(fā)生率及炎癥性腸病癌變的風(fēng)險(xiǎn),一定程度上驗(yàn)證了炎癌轉(zhuǎn)化這一機(jī)制的存在[6-7]。但是由于炎癥性腸病發(fā)生癌變的過(guò)程較為隱匿且時(shí)間較長(zhǎng),也對(duì)這一過(guò)程的研究增加了一定難度[8]。
近年來(lái),隨著大數(shù)據(jù)和多組學(xué)技術(shù)的發(fā)展,生物信息學(xué)在疾病發(fā)生與發(fā)展機(jī)制探究和疾病診斷和分型的應(yīng)用中越來(lái)越廣泛[9]。包括表達(dá)譜芯片和轉(zhuǎn)錄組測(cè)序在內(nèi)的技術(shù)方法能夠通過(guò)基因差異表達(dá)的篩選,確定不同病理狀態(tài)下的轉(zhuǎn)錄差異,找出全新生物標(biāo)志物,從而更好地探究和理解疾病的發(fā)生發(fā)展機(jī)制,并進(jìn)一步用于臨床的診斷及治療。與此同時(shí),GEO,TCGA等數(shù)據(jù)庫(kù)將不同中心的數(shù)據(jù)進(jìn)行匯總儲(chǔ)存,并且作為開(kāi)源數(shù)據(jù)為研究者提供下載服務(wù),成為當(dāng)今生物科學(xué),尤其是為腫瘤領(lǐng)域的研究開(kāi)啟全新的格局。
本研究結(jié)合GEO和TCGA兩個(gè)公共數(shù)據(jù)庫(kù),從生物信息學(xué)角度著手獲得炎癥性腸病相關(guān)的差異基因,然后結(jié)合結(jié)直腸癌表達(dá)譜和生存數(shù)據(jù),篩選炎癥性腸癌相關(guān)的候選基因,為后續(xù)炎癌轉(zhuǎn)化機(jī)制和炎癥性腸癌預(yù)防及治療提供研究基礎(chǔ)和出發(fā)點(diǎn)。
在GEO中篩選炎癥性腸病表達(dá)譜數(shù)據(jù),經(jīng)過(guò)全面篩選獲取RNA-seq數(shù)據(jù)集GSE95473和GSE107597。前者數(shù)據(jù)集中包含25例潰瘍型結(jié)腸炎(活動(dòng)期)病灶標(biāo)本,20例克隆恩?。ɑ顒?dòng)期)病灶標(biāo)本,還有29例健康對(duì)照組正常腸黏膜標(biāo)本。后者則包括24例潰瘍型結(jié)腸炎的炎癥病灶和配對(duì)的非炎性的黏膜。在確定了候選數(shù)據(jù)集后,則進(jìn)行下一步差異基因篩選,利用BioJupies分別對(duì)兩個(gè)數(shù)據(jù)集中的病灶和腸黏膜的數(shù)據(jù)進(jìn)行處理。通過(guò)使用limma R包比較對(duì)照組和實(shí)驗(yàn)組之間的基因表達(dá)水平來(lái)產(chǎn)生基因表達(dá)特征(表1)。
表1 來(lái)自GEO數(shù)據(jù)庫(kù)的數(shù)據(jù)集的相關(guān)信息
通過(guò)基于R語(yǔ)言limma包中的DESeq2法進(jìn)行差異基因表達(dá)分析,對(duì)炎性病灶和正常黏膜樣品之間的差異表達(dá)基因(differentially expressed genes,DEGs)進(jìn)行分析篩選。DEGs的閾值設(shè)定為P<0.01和 |logFoldChange|> 2。
通過(guò)基因本體論(gene ontology,GO)富集分析可以利用這些信息來(lái)識(shí)別生物過(guò)程,分子功能和細(xì)胞成分。通過(guò)從基因表達(dá)特征中分別提取具有最高和最低值的500個(gè)基因來(lái)產(chǎn)生上調(diào)和下調(diào)的基因組。使用Benjamini-Hochberg校正后,P<0.1作為截止值。同時(shí),生物學(xué)通路是細(xì)胞學(xué)行為中起關(guān)鍵作用的生物化合物之間相互作用序列。包括KEGG在內(nèi)的數(shù)據(jù)庫(kù)包含了這些基因和通路的大量關(guān)聯(lián)信息,使用Benjamini-Hochberg校正后,P<0.1作為截止值。
在TCGA數(shù)據(jù)庫(kù)中查找與結(jié)直腸癌預(yù)后相關(guān)的基因,篩選出的差異表達(dá)基因譜進(jìn)行取交集,篩選出結(jié)直腸癌預(yù)后相關(guān)的基因。與此同時(shí),利用GEPIA的工具(http://gepia.cancer-pku.cn/index.html)分析來(lái)自TCGA項(xiàng)目的RNA測(cè)序表達(dá)數(shù)據(jù),用于本研究中的批量TCGA數(shù)據(jù)處理。差異分析的方法采用單向ANOVA,使用疾病狀態(tài)(腫瘤或正常)作為計(jì)算差異表達(dá)的變量。
采用SPSS 20.0統(tǒng)計(jì)軟件對(duì)數(shù)據(jù)進(jìn)行處理。計(jì)量資料采用均值±標(biāo)準(zhǔn)差表示,計(jì)數(shù)資料采用頻率和百分比表示。采用獨(dú)立樣本t檢驗(yàn)和單向ANOVA評(píng)估連續(xù)變量的統(tǒng)計(jì)學(xué)顯著性,通過(guò)Tukey檢驗(yàn)進(jìn)行多重比較。通過(guò)卡方檢驗(yàn)或Fisher精確檢驗(yàn)來(lái)分析等級(jí)資料之間的差異。采用Kaplan-Meier方法繪制存活曲線(xiàn),并使用log-rank檢驗(yàn)方法比較不同分組的結(jié)直腸癌患者總生存期。P<0.05被認(rèn)為差異具有統(tǒng)計(jì)學(xué)意義。
我們?cè)贕EO中篩選炎癥性腸病表達(dá)譜數(shù)據(jù),經(jīng)過(guò)全面篩選獲取RNA-seq數(shù)據(jù)集GSE95473和GSE107597。前者數(shù)據(jù)集中包含25例潰瘍型結(jié)腸炎(活動(dòng)期)病灶標(biāo)本,20例克隆恩?。ɑ顒?dòng)期)病灶標(biāo)本,還有29例健康對(duì)照組正常腸黏膜標(biāo)本。后者則包括24例潰瘍型結(jié)腸炎的炎癥病灶和配對(duì)的非炎性的黏膜。
采用將P<0.01和|logFoldChange|>2作為閾值,其中GSE95473中通過(guò)比較炎癥性腸病病灶和正常對(duì)照組腸黏膜進(jìn)行差異表法分析,獲得114個(gè)DEGs,同樣地通過(guò)比較GSE107597中炎癥病灶和非炎癥黏膜,篩選到了709個(gè)DEGs。兩個(gè)數(shù)據(jù)集篩選到的DEGs按照|logFoldChange|由大到小的順序進(jìn)行排列,前30的基因展示在表2和表3中。
將上述兩個(gè)數(shù)據(jù)集篩選出的基因取交集,獲得100個(gè)DEGs。為了進(jìn)一步探索其腫瘤生物學(xué)行為,我們對(duì)其進(jìn)行了功能富集分析。100個(gè)DEGs按照GO細(xì)胞組分、分子功能和生物學(xué)過(guò)程進(jìn)行注釋。并富集到包括KEGG在內(nèi)信號(hào)通路中。結(jié)果證實(shí),在細(xì)胞組分上與顆粒腔、囊泡腔以及各種顆粒有關(guān)。在這分子功能上,與趨化因子受體結(jié)合、趨化因子的激活以及各種金屬離子的結(jié)合有關(guān)。在生物過(guò)程中,則與炎性反應(yīng)、粒細(xì)胞調(diào)控、中性粒細(xì)胞介導(dǎo)的免疫反應(yīng)和趨化因子介導(dǎo)的一系列信號(hào)通路有關(guān)。在信號(hào)通路上與IL-17信號(hào)通路,趨化因子-趨化因子受體相互作用、趨化因子信號(hào)通路等關(guān)系密切,見(jiàn)圖1。
為了建立炎癥性腸病和結(jié)直腸癌之間的關(guān)聯(lián),我們將從上述兩個(gè)炎癥性腸病數(shù)據(jù)集篩選到的100個(gè)DEGs在TCGA腫瘤數(shù)據(jù)庫(kù)中進(jìn)行驗(yàn)證。基于上述差異基因在TCGA數(shù)據(jù)庫(kù)中對(duì)結(jié)腸腫瘤及正常黏膜、直腸腫瘤及正常黏膜表達(dá)譜數(shù)據(jù)進(jìn)行主成分分析。從結(jié)果可以看出,數(shù)據(jù)結(jié)果能夠被明顯聚成兩類(lèi),腫瘤跟正常組織能夠明顯區(qū)分,進(jìn)而提示這100個(gè)DEGs跟結(jié)直腸癌的表達(dá)特征存在內(nèi)部關(guān)聯(lián),見(jiàn)圖2。
與此同時(shí),為了進(jìn)一步探究上述基因跟腫瘤預(yù)后的關(guān)系,我們篩選結(jié)直腸癌數(shù)據(jù)(COAD+READ)中總生存率LogrankP<0.05的差異表達(dá)基因,共獲得10個(gè)。分別為AQP8,ALDOB,SPINK4,REG4,IL1B,C2CD4A,TNIP3,CXCL8,NOS2,CXCL3,見(jiàn)圖 3。
為了進(jìn)一步研究上述基因在結(jié)直腸癌中的表達(dá)模式,我們?cè)赥CGA數(shù)據(jù)庫(kù)中進(jìn)一步探究其表達(dá)。結(jié)果顯示AQP8在結(jié)腸癌數(shù)據(jù)集中表達(dá)下降,TNIP3在結(jié)腸和直腸兩個(gè)數(shù)據(jù)集中腫瘤灶與正常黏膜之間的表達(dá)差異無(wú)統(tǒng)計(jì)學(xué)意義,而其他8個(gè)基因和正常黏膜相比腫瘤中的表達(dá)明顯升高,差異有統(tǒng)計(jì)學(xué)意義,見(jiàn)圖4。
隨著組學(xué)技術(shù)的應(yīng)用和發(fā)展,有學(xué)者根據(jù)結(jié)直腸癌的病理特征和特征性表達(dá)譜將其分為杯狀細(xì)胞型、腸上皮細(xì)胞型、干細(xì)胞型、炎癥型和轉(zhuǎn)化放大型[10]。同時(shí)發(fā)現(xiàn)其中的炎癥型腸癌患者對(duì)放療相對(duì)敏感,并且可以通過(guò)口服阿司匹林等抗炎治療能夠達(dá)到預(yù)防腸癌發(fā)生的目的[11]。炎癥性腸病作為結(jié)直腸癌發(fā)生的高危因素,慢性炎癥腸病患結(jié)直腸癌的風(fēng)險(xiǎn)明顯高于普通人群[12]。與此同時(shí),也有文獻(xiàn)證實(shí)對(duì)于結(jié)直腸癌的影響不僅限于炎癥性腸病,結(jié)直腸癌的發(fā)生發(fā)展與某些隱匿性炎癥有關(guān)[13]。炎癥性腸病相關(guān)結(jié)直腸癌的研究對(duì)于炎癌轉(zhuǎn)化和炎癥相關(guān)結(jié)直腸癌的發(fā)生與發(fā)展具有重要的價(jià)值[14]。
表2 GSE95473差異表達(dá)基因(|logFoldChange|由大到小的順序排名前30的基因)
本研究首先在GEO數(shù)據(jù)庫(kù)中找到兩個(gè)炎癥性腸病相關(guān)的RNA測(cè)序數(shù)據(jù),通過(guò)常規(guī)的差異表達(dá)分析流程,獲得了100個(gè)共有的DEGs。這些基因能夠反映出炎癥性腸病的表達(dá)特征,在此基礎(chǔ)上我們提出假設(shè),即這些基因中包含腸癌發(fā)生與發(fā)展過(guò)程相關(guān)的基因。為了驗(yàn)證這一想法,我們對(duì)TCGA中的結(jié)直腸癌的腫瘤病灶和正常黏膜中這100個(gè)基因進(jìn)行主成分分析,從結(jié)果可以明顯看出這些基因能夠很好區(qū)分腫瘤和正常組織。此外,如果一個(gè)基因的表達(dá)能夠影響腫瘤的預(yù)后,我們可以認(rèn)為該基因在腫瘤的病理生理過(guò)程中發(fā)揮一定的作用,基于此點(diǎn),本研究中利用TCGA數(shù)據(jù)庫(kù)中生存相關(guān)的數(shù)據(jù)信息,在結(jié)直腸癌中篩選有預(yù)后意義的基因。同時(shí),為了進(jìn)一步了解這些基因在腫瘤和正常黏膜中表達(dá)情況,我們?cè)僖淮卧赥CGA的數(shù)據(jù)集中進(jìn)行驗(yàn)證,發(fā)現(xiàn)10個(gè)基因中有8個(gè)在結(jié)腸癌和直腸癌中的表達(dá)均顯著升高,而另外兩個(gè)基因AQP8和TNIP3則沒(méi)有這個(gè)趨勢(shì),這可能跟這兩種基因本身的表達(dá)量基線(xiàn)較低有關(guān)。這也從另一個(gè)角度說(shuō)明通過(guò)預(yù)后來(lái)篩選腫瘤差異基因的科學(xué)性和可行性。
表3 GSE107597差異表達(dá)基因(|logFoldChange|由大到小的順序排名前30的基因)
通過(guò)上述流程,我們最終獲得了8個(gè)候選基因。在這些基因中,已有一部分已在多個(gè)研究中證實(shí)其介導(dǎo)炎癥反應(yīng),并同時(shí)在結(jié)直腸癌發(fā)生發(fā)展甚至是遠(yuǎn)處轉(zhuǎn)移過(guò)程中發(fā)揮重要作用,如IL1B,CXCL8,NOS2,CXCL3[15-18]。既往研究已經(jīng)證明,IL-1β作為一個(gè)促炎因子,炎癥性腸病活動(dòng)期往往伴隨高水平的IL-1β,與此同時(shí)IL-1β能夠促進(jìn)腫瘤侵襲,并且在多種消化道腫瘤的發(fā)生與進(jìn)展中發(fā)揮作用[15,19-21]。同時(shí)在體外實(shí)驗(yàn)中證實(shí)IL-1β可以調(diào)節(jié)VEGF-α和COX-2的表達(dá),參與腫瘤血管的形成[22-23]。已有文獻(xiàn)證實(shí)CXCL8與結(jié)直腸癌關(guān)系密切,CXCL8能夠誘導(dǎo)結(jié)腸癌上皮間質(zhì)轉(zhuǎn)化、同時(shí)抵抗失巢凋亡,促進(jìn)腫瘤的侵襲、遷移,還可介導(dǎo)腫瘤細(xì)胞-免疫細(xì)胞之間的相互作用,負(fù)向調(diào)節(jié)機(jī)體免疫功能[16,24-25]。而誘導(dǎo)型一氧化氮合酶(nitric oxide synthase 2,NOS2)在結(jié)直腸癌中的表達(dá)有助于判斷結(jié)直腸癌的惡性程度,并且抑制NOS2在結(jié)直腸癌中表達(dá)可以抑制腫瘤血管生成[26-28]。有另研究表明,CXCL3的表達(dá)水平在結(jié)直腸腫瘤組織中顯著提高,并且具有潛在的診斷價(jià)值,CXCL3可能通過(guò)調(diào)控DNA修復(fù),細(xì)胞凋亡及TP53的表達(dá)水平影響患者預(yù)后[18,29]。本研究還發(fā)現(xiàn)了ALDOB,SPINK4,REG4,C2CD4A等四個(gè)候選基因,這些基因既往關(guān)于結(jié)直腸癌的炎癌轉(zhuǎn)化相關(guān)研究較少,而本研究發(fā)現(xiàn)這些基因在結(jié)直腸腫瘤中高表達(dá),并且這些基因的高表達(dá)往往提示患者預(yù)后較好。而這些相關(guān)轉(zhuǎn)化機(jī)制和人群隊(duì)列研究有待于后續(xù)進(jìn)一步的探索和驗(yàn)證。
圖1 GO富集和KEGG通路富集分析結(jié)果。該圖包含交互式條形圖,顯示使用Enrichr生成的GO富集分析和KEGG信號(hào)通路的結(jié)果。條形圖的長(zhǎng)度表示每個(gè)條目的富集分?jǐn)?shù)
圖2 主成分析結(jié)果?;趦蓚€(gè)隊(duì)列重合的100個(gè)差異基因在TCGA數(shù)據(jù)庫(kù)中對(duì)結(jié)腸腫瘤及正常黏膜、直腸腫瘤及正常黏膜表達(dá)譜數(shù)據(jù)進(jìn)行主成分分析。2A:是降維過(guò)程中每一個(gè)主成分中的比例。2B和2C:顯示了結(jié)直腸癌病灶及正常黏膜測(cè)序數(shù)據(jù)的散點(diǎn)圖(二維和三維)。每個(gè)點(diǎn)代表RNA-seq樣品。具有相似基因表達(dá)譜的樣品在三維空間中更接近
圖3 基于TCGA數(shù)據(jù)集候選基因在結(jié)直腸癌中的預(yù)后意義。根據(jù)TCGA的數(shù)據(jù),候選基因的表達(dá)情況對(duì)結(jié)直腸癌的總生存期的影響,采用對(duì)數(shù)秩檢驗(yàn)進(jìn)行計(jì)算
關(guān)于尚存在以下局限有待于后續(xù)研究,首先,本課題篩選到了8個(gè)候選基因,尤其有4個(gè)既往研究報(bào)道較少的基因,有進(jìn)一步探索的價(jià)值。同時(shí)本研究假設(shè)的前提是由炎癥性腸病發(fā)展而來(lái)的結(jié)直腸癌和散發(fā)性結(jié)直腸癌基因特征相近。因此在后續(xù)研究中我們會(huì)納入炎癥性腸病發(fā)展而來(lái)的結(jié)直腸癌的相關(guān)意義基因。其次,從當(dāng)前篩選的方法來(lái)看,只能夠說(shuō)明這些基因跟炎癥性腸病和結(jié)直腸癌的表達(dá)及預(yù)后有關(guān),而具體這些基因是如何通過(guò)調(diào)節(jié)炎癥反應(yīng),誘導(dǎo)腫瘤的發(fā)生與發(fā)展,最終影響患者預(yù)后的,仍有待于進(jìn)一步機(jī)制探究和模型驗(yàn)證。第三,本研究應(yīng)用公共數(shù)據(jù)來(lái)篩選和探究結(jié)直腸癌的表達(dá)模式,缺乏大樣本的隊(duì)列的驗(yàn)證和臨床因素對(duì)于這些標(biāo)志物表達(dá)水平相關(guān)性的研究;只是研究了炎癥性腸病的差異表達(dá)基因,以及候選基因的表達(dá)模式和預(yù)后意義。此外,本研究發(fā)現(xiàn)一個(gè)有趣的結(jié)果,篩選出的生存相關(guān)的差異表達(dá)基因,高水平表達(dá)提示預(yù)后良好,可能由于這些基因在腫瘤癌變之后,發(fā)揮炎癥反應(yīng)的作用,抑制腫瘤細(xì)胞的惡性生物學(xué)行為,相對(duì)好的預(yù)后,這也是本研究發(fā)現(xiàn)的一個(gè)重要的結(jié)果,其生物學(xué)作用仍有待于進(jìn)一步探索。
圖4 基于TCGA數(shù)據(jù)集候選基因在結(jié)直腸癌中的表達(dá)模式。結(jié)直腸癌原發(fā)灶和正常黏膜中的候選基因的表達(dá)情況,腫瘤灶用紅色表示,正常組織用綠色表示,*表示P<0.05