藍樹金,饒紹奇
523808廣東 東莞,廣東醫(yī)科大學(xué) 公共衛(wèi)生學(xué)院
消化道癌癥包含食管癌、胃癌、結(jié)腸癌和直腸癌,這幾種消化道癌癥對人體健康造成巨大威脅,這幾種癌癥病因及發(fā)病機制復(fù)雜[1]。國內(nèi)學(xué)者對上消化道癌癥的研究指出中國上消化道惡性腫瘤新發(fā)病例占全球的44.60%,這一數(shù)據(jù)表明消化道癌癌癥對醫(yī)療衛(wèi)生系統(tǒng)的及人民健康造成巨大的負(fù)擔(dān)[2-3]。但受限于當(dāng)前醫(yī)療水平的發(fā)展,對于這些癌癥的常規(guī)治療方案主要是外科手術(shù)切除和化療,但是癌癥的高復(fù)發(fā)率會影響常規(guī)治療方案的最終效果并有可能造成手術(shù)失敗,影響醫(yī)療效果。隨著測序技術(shù)的快速發(fā)展,利用生物信息學(xué)可以分析疾病的分子機制及識別重要的分子機制以及重要分子功能。
癌癥患者的預(yù)后往往是由疾病的分型決定的,而腫瘤的最終的分型是由多種基因調(diào)節(jié)網(wǎng)絡(luò)以及不同組學(xué)之間的相互影響最終決定的[4]。轉(zhuǎn)錄調(diào)控因子(transcription factor,TF),亦稱為反式作用因子,是有序結(jié)合在目標(biāo)基因啟動子序列中的特殊位點,其通過結(jié)合基因的特定序列motif,亦稱作模序,在轉(zhuǎn)錄前水平調(diào)節(jié)下游基因的表達水平[5-6]。已有大量相關(guān)研究指出TF在轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)中起重要作用,如Farhan等[7]發(fā)現(xiàn)FOXO轉(zhuǎn)錄因子在癌癥代謝及血管生成中起作用,Lan等[8]發(fā)現(xiàn)CIN-like TCP作為植物特定的轉(zhuǎn)錄因子在植物的形態(tài)發(fā)育起重要作用,針對植物形態(tài)諸如植物枝葉的發(fā)育等對調(diào)控信息。所列舉的研究均表明了轉(zhuǎn)錄因子在細(xì)胞乃至形態(tài)學(xué)上都起到重要的作用。通過構(gòu)建疾病相關(guān)的TF-mRNA調(diào)控網(wǎng)絡(luò),識別在調(diào)控網(wǎng)絡(luò)中起重要作用的TF及其靶基因,并探究TF對其調(diào)控的靶基因的作用參與的生物學(xué)過程以及疾病相關(guān)的致病機制有助進一步在疾病發(fā)生發(fā)展轉(zhuǎn)錄前水平轉(zhuǎn)錄調(diào)控模式。有研究指出轉(zhuǎn)錄因子在癌癥的成因、發(fā)展以及惡化都起了重要作用,Zacksenhaus等[5]的研究指出在乳腺癌中,影響調(diào)節(jié)因子或染色體形態(tài)關(guān)鍵基因的變異在基因的增強子和促進子中形成了新的TF結(jié)合位點,并間接促進了癌癥的發(fā)生。
消化道癌癥包括食管癌、胃癌、結(jié)腸癌以及直腸癌,這幾種癌癥具有一些共同的背景特點,首先在組織胚胎學(xué)上,消化道如食管,胃及結(jié)直腸具有相似的生長發(fā)育背景,均起源于內(nèi)胚層,其次,盡管食管、胃、結(jié)腸及直腸在消化功能各異,但在解剖結(jié)構(gòu)上,其解剖結(jié)構(gòu)大體都是管狀結(jié)構(gòu)[9]。通過系統(tǒng)分析消化道癌癥的共享分子并構(gòu)建TF-mRNA調(diào)節(jié)網(wǎng)絡(luò)可分析出重要的分子以及重要的功能。
本研究旨在通過TF-mRNA調(diào)控網(wǎng)絡(luò)系統(tǒng)分析消化道癌癥,即包含食管癌、胃癌、結(jié)腸癌及直腸癌之間共享的轉(zhuǎn)錄調(diào)控模式及其所調(diào)控基因的參與的生物學(xué)功能,結(jié)合轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò)及蛋白互作網(wǎng)絡(luò),識別重要消化道癌癥共享轉(zhuǎn)錄因子及其靶基因并為消化道癌癥治療方法提供研究方向。
消化道癌癥(食管癌、胃癌、結(jié)腸癌及直腸癌)RNAseq數(shù)據(jù)都是由TCGA公共數(shù)據(jù)網(wǎng)站下載。分別選取了STAD,ESCA, COAD及READ四種癌癥項目,其分別對應(yīng)胃癌、食管癌、結(jié)腸癌及直腸癌,本研究下載了對應(yīng)每種癌癥的實驗策略為RNAseq,工作類型為HTSeq-Counts數(shù)據(jù),癌癥基本信息如表1所示。
表1 消化道癌癥RNAseq數(shù)據(jù)基本信息
首先,本研究分別構(gòu)建每個消化道癌癥RNAseq表達譜,利用R軟件包里的DESeq2軟件包(1.34.0版)[10]在R軟件上進行差異分析。其次,以|log2FC|>1.5和P<0.05作為篩選差異基因的閾值選取差異基因,分別得到每種消化道癌癥的差異基因。最后,通過對這三類癌癥的差異結(jié)果取交集,獲得共享差異基因,并區(qū)分共同上調(diào)和共同下調(diào)的基因。火山圖及韋恩圖分別用于展示差異結(jié)果及共享的差異基因。
利用R軟件包里的clusterProfiler軟件包(4.2.0版)分別對差異基因、共同上調(diào)基因及共同下調(diào)基因進行GO功能富集及通路富集分析[11]。GO富集分析基于超幾何分布,應(yīng)用超幾何檢驗進行富集分析,利用Benjamini-Hochberg方法對富集結(jié)果進行P值校正,以校正后的P<0.05作為標(biāo)準(zhǔn)選擇差異顯著的富集結(jié)果。
STRING[12]數(shù)據(jù)庫(八版)包含人類蛋白之間的互作信息,本研究通過STRING數(shù)據(jù)庫獲取差異基因蛋白互作信息,并由Cytoscape軟件3.8.0版進行蛋白互作網(wǎng)絡(luò)的可視化,并借助軟件Cytoscape中的cytoNCA插件(2.1.6版)進行網(wǎng)絡(luò)拓?fù)鋵傩苑治?,設(shè)置條件為:Betweenness和degree項均選without weight。以此為基礎(chǔ)篩選蛋白互作網(wǎng)絡(luò)中具有高連通度的節(jié)點。
利用Cytoscape軟件里的mCODE插件(1.6.1版)對蛋白互作網(wǎng)絡(luò)進行分解,設(shè)置條件為:node score cutoff項選0.2;K-Core項選0.2;Degree Cutoff項選2;max.Depth項選100。得到的模塊將被用于進一步的分析,分析這些子模塊里面的節(jié)點及其鄰居節(jié)點,分析密集且重于的互作的模塊的拓?fù)鋵傩圆诵墓?jié)點進行拓?fù)鋵W(xué)分析。
TRRUST數(shù)據(jù)庫2.0版是一個包含轉(zhuǎn)錄因子及其調(diào)控的靶基因信息的在線數(shù)據(jù)庫,通過在TRRUST在線數(shù)據(jù)庫查詢并識別消化道癌癥共享的差異基因中的轉(zhuǎn)錄因子及轉(zhuǎn)錄因子調(diào)控的差異基因。
為了更深入的了解這些轉(zhuǎn)錄因子在轉(zhuǎn)錄前水平基因轉(zhuǎn)錄調(diào)控的作用及其靶基因到下游的基因表達水平的影響,結(jié)合TF-mRNA調(diào)控信息及蛋白互作通過繪圖分析TF及TF所調(diào)控的基因?qū)ο掠伪磉_水平的影響。
通過差異分析之后進行取交集本研究識別到食管癌、胃癌,直腸癌及結(jié)腸癌之間共享的差異基因共有741個,其中共同上調(diào)的基因有333個,共同下調(diào)的基因有337個,如圖1所示,四種癌癥之間的差異結(jié)果用火山圖進行展示如圖1,其中四個癌癥之間的共享基因則用韋恩圖將來進行展示,如圖2。
圖1 四種消化道癌癥差異基因火山圖
圖2 四種癌癥的共享基因韋恩圖
如圖3所示,差異基因基因功能主要富集在肌肉收縮(muscle contraction)、肌肉系統(tǒng)過程(muscle system process)、胞外基質(zhì)形成(extracellular matrix organization)、胞外結(jié)構(gòu)形成(extracellular structure organization)等功能。而共同上調(diào)基因主要富集的功能有胞外基質(zhì)的形成(extracellular matrix organization)、胞外結(jié)構(gòu)形成(extracellular structure organization)等功能,下調(diào)基因主要富集在肌肉收縮(muscle contraction)、肌肉系統(tǒng)過程(muscle system process)及膜電位的調(diào)節(jié)(regulation of membrane potential)。
圖3 功能富集分析圖
如圖4所示,通路富集分析顯示差異基因主要參與的通路有GPCR配體結(jié)合(GPCR ligand binding)、類A/1(視紅紫質(zhì)樣受體)(Class A/1(Rhodopsin-like receptor))等通路。共同上調(diào)基因主要參與了肽配體結(jié)合受體(Peptide ligand-binding receptors)、膠原降解(collagen degradation)及由胰島樣生長因子結(jié)合蛋白介導(dǎo)的胰島樣生長因子的轉(zhuǎn)運及吸收(regulation of insulin-like growth factor(IGF)transport and uptake by insulin-like growth factor binding proteins(IGFBPs))、轉(zhuǎn)錄前蛋白磷酸化(post-translational protein phosphorylation)等通路,共同下調(diào)基因參與的通路有神經(jīng)系統(tǒng)(neuronal system)、神經(jīng)遞質(zhì)受體和突觸后信號傳輸(Neurotransmitter receptors and postsynaptic signal transmission)、平滑肌收縮(smooth muscle contraction)、離子穩(wěn)態(tài)(ion homeostasis)。
圖4 通路富集分析圖
借助STRING蛋白互作數(shù)據(jù)庫,獲取741個差異基因的蛋白互作信息,并用Cytoscape進行網(wǎng)絡(luò)繪圖,發(fā)現(xiàn)蛋白互作網(wǎng)絡(luò)共有731個節(jié)點,3 038條邊。
利用CytoNCA插件針對連通度(Degree),介數(shù)(Betweenness),緊密度(Closeness)對網(wǎng)絡(luò)中的核心節(jié)點進行分析,部分網(wǎng)絡(luò)節(jié)點屬性如表2。以Degree>25為標(biāo)準(zhǔn)篩選核心節(jié)點,共別到52個基因如CXCL8,SPP1,CXCL12等。
表2 蛋白互作網(wǎng)絡(luò)節(jié)點的屬性
利用軟件Cytoscape里的MCODE插件,對蛋白互作網(wǎng)絡(luò)進行分解網(wǎng)絡(luò)分解,獲得29個模塊,部分模塊分析結(jié)果如表3。對結(jié)果中前四個Module用R軟件包里的igraph軟件包1.2.11版進行繪圖,如圖5所示。
表3 網(wǎng)絡(luò)模塊分析結(jié)果
圖5 網(wǎng)絡(luò)模塊
本研究借助TRRUST在線數(shù)據(jù)庫,對差異基因中的轉(zhuǎn)錄因子進行預(yù)測。識別在差異基因中起到轉(zhuǎn)錄因子作用的基因共有13個,最終識別到28對TF-mRNA調(diào)控關(guān)系及部分調(diào)控方式諸如激活和抑制,調(diào)控關(guān)系預(yù)測結(jié)果如表4所示。
表4 TF-mRNA 調(diào)控關(guān)系
結(jié)合TF-mRNA調(diào)控信息及蛋白互作網(wǎng)絡(luò)模塊結(jié)果,分析TF所調(diào)節(jié)的基因所參與的功能。如圖6 Module 2所示,在所有的上調(diào)基因中有TF基因OTX2調(diào)控AURKA,AR調(diào)控CDC6及MYBL2調(diào)控MYBL2。特別指出,AR除了作為轉(zhuǎn)錄因子調(diào)控CDC6之外,也作為基因與CDC6存在蛋白互作關(guān)系。結(jié)合表4中TF-mRNA調(diào)控信息及基因本身表達水平,分析TF及TF所調(diào)控的基因的在模塊中起的作用。
圖6 子模塊分析
消化道癌癥包括食管癌、胃癌、結(jié)腸癌及直腸癌,這四種癌癥都對人群健康造成了巨大的威脅。從組織胚胎發(fā)育起源的角度分析,消化道癌癥之間有共同的內(nèi)胚起源,且都暴露于相似的導(dǎo)致癌癥形成的管道環(huán)境致病因素[13]。消化道在消化系統(tǒng)中起著營養(yǎng)消化吸收等重要功能,消化道組織學(xué)上的癌變情況影響到原先正常的消化道的組織結(jié)構(gòu)乃至原先的正常功能。癌變的過程是一個復(fù)雜的過程,癌癥腫瘤結(jié)構(gòu)的改變到在病理上的改變往往是從功能學(xué)上的直至出現(xiàn)器質(zhì)性改變。出于這兩個立足點出發(fā),分析消化道癌癥之間的共享的分子特點,本文系統(tǒng)分析四種消化癌癥間共享功能,其中結(jié)果提示主要富集在肌肉收縮、肌肉系統(tǒng)過程、胞外基質(zhì)形成、胞外結(jié)構(gòu)形成等功能,這些功能差異最為顯著的是肌肉收縮、平滑肌收縮,其中,肌肉收縮的功能在消化道癌癥中的起著極其重要的功能,本文功能富集分析結(jié)果發(fā)現(xiàn)消化道癌癥中下調(diào)基因顯著地富集于肌肉收縮等功能,表明癌變的消化道肌肉收縮功能的顯著下降,而在上調(diào)基因富集結(jié)果表明胞外基質(zhì)形成、胞外結(jié)構(gòu)形成及膠原代謝等功能,已有Wu等[14]研究指出I型膠原在結(jié)腸癌中通過整聯(lián)蛋白α2β1介導(dǎo)PI3K/AKT信號通路增強結(jié)腸癌干細(xì)胞的特性和強烈的侵襲性。
通過分析蛋白互作網(wǎng)絡(luò)的拓?fù)鋵傩匀邕B通度等屬性,本研究篩選出52個具有高連通度的基因如CXCL8,SPP1,GNGT1,GRIA2等?;诒磉_水平,發(fā)現(xiàn)CXCL8,CXCL1,CXCL10,CXCL5,PPBP,WT1,PAX2等31個在三個癌癥中表達均上調(diào),而在共同下調(diào)的基因中如SPP1,ADCY5,CXCL12,PTGDR2則呈下調(diào)。其中發(fā)現(xiàn)在上調(diào)基因中存在CXC家族的基因有CXCL1,CXCL5,CXCL6,CXCL8,CXCL10,CXCL11,如CXCL8及CXCL12,均被相關(guān)研究指出CXCL基因主要參與趨化因子受體結(jié)合趨化因子等功能且都具有可作為胃癌預(yù)后的生物標(biāo)志物[15-17]。結(jié)合功能富集分析結(jié)果顯示,CXC家族基因主要參與涉及細(xì)胞因子信號傳導(dǎo)等功能。除CXC家族基因外,其他上調(diào)基因基因如MMP1通過P13K/AKT通路促進食管鱗狀細(xì)胞癌的發(fā)生[18]。這些基因在功能上形成一些功能結(jié)合體如功能模塊行使特定的功能,這些模塊里面的基因在功能層面上緊密連接,對功能的維持極其重要。
本研究共識別到13個轉(zhuǎn)錄因子如AR,CBX7,ETV4,HOXC6及HOXC8等,其中存在轉(zhuǎn)錄調(diào)節(jié)關(guān)系的共有28對,如AR調(diào)節(jié)KISS1R、PEMPA1、UTG2B15及USP26。對蛋白互作網(wǎng)絡(luò)的結(jié)構(gòu)在連通度大于25且受到轉(zhuǎn)錄因子調(diào)控的基因有COL1A1,MMP1等。其中在本研究預(yù)測結(jié)果中的轉(zhuǎn)錄因子中,其中PAX2和WT1不僅在蛋白互作網(wǎng)路中作為高連通度的節(jié)點,且作為轉(zhuǎn)錄因子在轉(zhuǎn)錄前對靶基因進行表達調(diào)節(jié)。其中轉(zhuǎn)錄因子如ETV4已被發(fā)現(xiàn)在消化道基底癌中通過經(jīng)典Wnt/β-catenin通路影響細(xì)胞周期[19]。其他轉(zhuǎn)錄因子如HOXC6亦被報道通過活化劑protein-1通路在消化道癌癥影響腫瘤的生長[20]。其中MYBL2調(diào)控COL1A1,其中COL1A1被發(fā)現(xiàn)與腫瘤轉(zhuǎn)移性質(zhì)有關(guān),所以MYBL2作為重要轉(zhuǎn)錄因子在結(jié)腸癌中起重要作用[21],但目前并沒有相關(guān)實驗證據(jù)證明其他消化道癌癥如胃癌被報道與MYBL2的作用與效應(yīng),MYBL2在胃癌及食管癌中的表達作用及參與的重要通路仍需進一步深入分析。
結(jié)合模塊分析結(jié)果TF-mRNA轉(zhuǎn)錄調(diào)控關(guān)系,分析轉(zhuǎn)錄因子及其所調(diào)控的基因起的調(diào)節(jié)作用,模塊2中,MYBL2作為轉(zhuǎn)錄因子調(diào)節(jié)MYBL2,MYBL2作為模塊2中的分子又與其他基因存在蛋白互作關(guān)系。模塊3中,ETV4對MMP4存在兩種調(diào)節(jié)關(guān)系,因為模塊本身是由于基因之間緊密的作用形成的一種集合,任何對其中模塊中的節(jié)點的影響都間接地影響到模塊中的其他基因。最終識別重要的轉(zhuǎn)錄因子AR,CBX7,ETV4,HOXC6及重要的基因CDC6,NCAM1,AGTR1,MMP1,COL1A1。為深入研究消化道癌癥間共享的機制及轉(zhuǎn)錄前TF調(diào)節(jié)機制重要分子提供深入的分子層面的并為消化道癌癥之間的治療提供啟發(fā)。
本研究通過構(gòu)建TF-mRNA調(diào)節(jié)網(wǎng)絡(luò),發(fā)現(xiàn)消化道癌癥之間重要的共享功能有肌肉收縮、肌肉系統(tǒng)過程、細(xì)胞外基質(zhì)的組織、構(gòu)建細(xì)胞外結(jié)構(gòu),并識別到重要的轉(zhuǎn)錄因子AR,CBX7,ETV4,WT1, PAX2及基因CDC6,NCAM1,AGTR1,MMP1,COL1A1。為消化道癌癥間識別到重要的共享轉(zhuǎn)錄因子及靶基因,為開發(fā)更安全更有效的藥物提供更好提供理論支持。
作者聲明:本文全部作者對于研究和撰寫的論文出現(xiàn)的不端行為承擔(dān)相應(yīng)責(zé)任;并承諾論文中涉及的原始圖片、數(shù)據(jù)資料等已按照有關(guān)規(guī)定保存,可接受核查。
學(xué)術(shù)不端:本文在初審、返修及出版前均通過中國知網(wǎng)(CNKI)科技期刊學(xué)術(shù)不端文獻檢測系統(tǒng)的學(xué)術(shù)不端檢測。
同行評議:經(jīng)同行專家雙盲外審,達到刊發(fā)要求。
利益沖突:所有作者均聲明不存在利益沖突。
文章版權(quán):本文出版前已與全體作者簽署了論文授權(quán)書等協(xié)議。