吳慧慧 唐旭清,2
(1. 江南大學(xué)理學(xué)院, 無錫, 214122; 2. 江南大學(xué)無錫市生物計算工程技術(shù)研究中心,無錫,214122)
結(jié)直腸癌(Colorectal cancer,CRC)包括結(jié)腸癌和直腸癌,是目前全球范圍內(nèi)較為常見的消化系統(tǒng)惡性腫瘤之一[1]。近幾年來,隨著經(jīng)濟(jì)的發(fā)展、人們生活水平的提高、飲食習(xí)慣的改變以及遺傳因素的影響等,我國結(jié)直腸癌的發(fā)病率和死亡率逐年上升[2],其病死率居世界范圍內(nèi)惡性腫瘤的第4位,發(fā)病率居第3位[3],已嚴(yán)重威脅人類的健康。大多數(shù)研究者認(rèn)為結(jié)直腸癌是一種復(fù)雜疾病,其發(fā)生與發(fā)展是在遺傳因素、環(huán)境因素以及腫瘤發(fā)展過程的個體反應(yīng)等背景下,多因素參與相互作用的結(jié)果。因此,預(yù)測并鑒定CRC的致病基因?qū)ι钊肜斫馄渲虏C(jī)制有著重要的意義。
由多個基因相互作用所產(chǎn)生的疾病通常被認(rèn)為是復(fù)雜疾病,而挖掘與其相關(guān)的致病基因并闡釋它們在疾病發(fā)展過程中所產(chǎn)生的作用已逐漸成為人們研究復(fù)雜疾病的主要目標(biāo)之一。隨著生物信息學(xué)分析的發(fā)展,基于網(wǎng)絡(luò)的方法已經(jīng)成為研究疾病機(jī)制的有力工具[4-6],其主要包括共表達(dá)網(wǎng)絡(luò)[7]、蛋白質(zhì)互作網(wǎng)絡(luò)[8]、蛋白質(zhì)磷酸化網(wǎng)絡(luò)[9]和DNA甲基化網(wǎng)絡(luò)[10]等生物分子網(wǎng)絡(luò)。而隨著蛋白質(zhì)相互作用(Protein-protein interaction, PPI)數(shù)據(jù)的豐富,基于蛋白質(zhì)互作網(wǎng)絡(luò)[11]的方式逐漸成為挖掘復(fù)雜疾病候選基因的主要方法。其中,模塊分析或聚類分析作為一種工具和算法已經(jīng)廣泛應(yīng)用到蛋白質(zhì)互作網(wǎng)絡(luò)分析中,例如從局部擴(kuò)展來探測社區(qū)的重疊社區(qū)發(fā)現(xiàn)算法(Local and wave-like extension algorithm of detecting overlapping community, LWS-OCD)算法[12]能夠有效地發(fā)現(xiàn)無向圖中的重疊區(qū)域。而拓?fù)浞治鲎鳛榱硗庖环N分析復(fù)雜網(wǎng)絡(luò)的工具也被廣泛應(yīng)用,如其中的中心性分析中圖中心的措施如度、介數(shù)和接近中心性對識別在網(wǎng)絡(luò)中具有關(guān)鍵作用的節(jié)點(diǎn)十分有用。在蛋白質(zhì)互作網(wǎng)絡(luò)中,通常稱度數(shù)高的節(jié)點(diǎn)為中心節(jié)點(diǎn),介數(shù)高的節(jié)點(diǎn)為瓶頸節(jié)點(diǎn),這些節(jié)點(diǎn)在網(wǎng)絡(luò)中都發(fā)揮著舉足輕重的作用。
疾病基因篩選面臨的主要問題是數(shù)據(jù)高維且樣本量少,因此其數(shù)據(jù)處理主要側(cè)重于數(shù)據(jù)挖掘方法的多重篩選與驗(yàn)證。本研究是基于結(jié)直腸癌的公開表達(dá)譜數(shù)據(jù),進(jìn)行結(jié)直腸癌差異表達(dá)基因分析以獲取疾病基因的初選;通過這些初選的疾病基因與結(jié)直腸癌已知致病基因之間的重要關(guān)系來組建互作網(wǎng)絡(luò),進(jìn)行結(jié)直腸癌致病的候選基因篩選;最后,利用功能富集分析和子網(wǎng)絡(luò)的拓?fù)浞治鲞M(jìn)行結(jié)直腸癌疾病候選基因的篩選與驗(yàn)證。
本文從美國生物技術(shù)中心GEO(http://www.ncbi.nlm.nih.gov/geo/)數(shù)據(jù)庫下載結(jié)直腸癌基因表達(dá)譜數(shù)據(jù),登錄號為GSE9348,平臺為Affymetrix Plus 2.0。下載其中的82例包含癌旁樣本12例和癌樣本70例作為樣本數(shù)據(jù),其中數(shù)據(jù)以DNA微陣列的表達(dá)譜數(shù)據(jù)形式給出,且維數(shù)是5萬多。這一數(shù)據(jù)作為本研究的實(shí)驗(yàn)數(shù)據(jù),記為Ω;從在線孟德爾人類遺傳學(xué)數(shù)據(jù)庫(Online Mendelian inheritance in man, OMIM)中下載135個結(jié)直腸癌的疾病基因,這些疾病基因是已被證實(shí)的結(jié)直腸癌致病基因,該數(shù)據(jù)在本文中當(dāng)作驗(yàn)證數(shù)據(jù),記為Ω0。
1.2.1 數(shù)據(jù)處理
在數(shù)據(jù)Ω的基礎(chǔ)上,首先通過軟件R對原始數(shù)據(jù)進(jìn)行重復(fù)值合并、數(shù)據(jù)轉(zhuǎn)換、標(biāo)準(zhǔn)化和缺失數(shù)據(jù)刪除等處理。然后,利用T檢驗(yàn)法進(jìn)行基因篩選實(shí)現(xiàn)降維,挑選出樣本間有顯著性差異的基因,即篩選出結(jié)直腸癌的差異表達(dá)基因。這一過程是通過R中的LIMMA包(http://www. bioconductor.org/packages/release/bioc/html/limma. html)來實(shí)現(xiàn),其中涉及參數(shù)P和Fold change 。參數(shù)P為基因間差異的顯著性水平,參數(shù)Fold change為實(shí)驗(yàn)組與對照組的差異表達(dá)的比值,且P<α和Fold change>β。一般地,參數(shù)P越小且Fold change越大,則篩選的基因就越多。在具體實(shí)驗(yàn)中,依據(jù)研究需要選取閾值α和β,一般分別取0.05和2。通過數(shù)據(jù)處理獲得的差異表達(dá)基因記為Ω1。
1.2.2 蛋白質(zhì)互作網(wǎng)絡(luò)的構(gòu)建
將基因集Ω0和基因集Ω1上傳到STRING(Search tool for the retrieval of interacting genes)數(shù)據(jù)庫中,通過SRTING在線分析工具獲得疾病基因與差異基因之間的相互作用[13],然后選取可靠性指數(shù)(Confidence scores )大于0.9的基因?qū)?,以及它們之間的作用數(shù)據(jù),得到數(shù)據(jù)集Ω2。將Ω2導(dǎo)入Cytoscape 軟件中,對結(jié)直腸癌的已知疾病與差異表達(dá)基因之間的相互作用進(jìn)行可視化[14],得到相互作用網(wǎng)絡(luò)圖。
1.2.3 子網(wǎng)絡(luò)的識別
重疊領(lǐng)域擴(kuò)展聚類(Clustering with overlap neighborhood expansion,ClusterONE)是一種從加權(quán)或非加權(quán)的蛋白質(zhì)網(wǎng)絡(luò)中挖掘重疊的密集連接區(qū)域的復(fù)合物識別算法[15],已有很多研究者利用其識別能力在各種生物網(wǎng)絡(luò)中檢測有意義的局部結(jié)構(gòu)[16-17]。因此,本文可通過這種圖聚類算法來挖掘蛋白質(zhì)互作網(wǎng)絡(luò)中節(jié)點(diǎn)高度連接的重疊區(qū)域,其算法的聚類凝聚力定義為
(1)
式中:Win(V)表示一組頂點(diǎn)V內(nèi)的邊的總重量;Wbound(V)表示連接此組頂點(diǎn)到圖的其余部分邊的總重量;P|V|為懲罰項。
本文通過Cytoscape的ClusterONE插件來進(jìn)行子網(wǎng)絡(luò)的挖掘,其中,涉及到參數(shù)minimum density、degree和P的設(shè)定。通常情況下,參數(shù)P越大,一般被挖掘的聚類(模塊)數(shù)量越少,minimum density和degree越大, 反之亦然。因此,P值的選擇應(yīng)在一個合理范圍內(nèi),一般認(rèn)為不能太小。為便于分析,被挖掘的子網(wǎng)絡(luò)模塊的數(shù)量應(yīng)在適宜的范圍,因此參數(shù)minimum density和degree也有閾值,一般分別不小于0.5和6。
1.2.4 子網(wǎng)絡(luò)的拓?fù)浞治雠c富集分析
在無標(biāo)度網(wǎng)絡(luò)中[18]的中心節(jié)點(diǎn)通常由大量互作連線的節(jié)點(diǎn)來代表,而中心節(jié)點(diǎn)對應(yīng)的蛋白質(zhì)為核心蛋白質(zhì)(基因),并且這些基因在生理調(diào)節(jié)的過程中扮演著重要的角色。因此,本文通過Cytoscape的NetworkAnalyzer插件來篩選子網(wǎng)絡(luò)中的中心節(jié)點(diǎn),NetworkAnalyzer插件可對有向網(wǎng)絡(luò)和無向網(wǎng)絡(luò)進(jìn)行拓?fù)浞治觯玫酵負(fù)鋵傩灾等缍?、介?shù)和接近中心性等,定義如下:
(1) 度(Degree)
deg(v)=|N(v)|
(2)
式中:v為節(jié)點(diǎn),N(v)表示節(jié)點(diǎn)v鄰節(jié)點(diǎn)的集合;deg(v)表示v與網(wǎng)絡(luò)中其他節(jié)點(diǎn)的關(guān)聯(lián)性,當(dāng)deg(v)越大時,說明v在網(wǎng)絡(luò)中越重要。
(2) 接近中心性(Closeness centrality)
(3)
式中:dist(v,w)表示節(jié)點(diǎn)v,w間的最短路徑長度;Cc(v)表示v接近中心位置的程度,當(dāng)Cc(v)越小時,越說明v是網(wǎng)絡(luò)的核心點(diǎn),在網(wǎng)絡(luò)中作用越重要。
(3) 介數(shù)(Betweenness centrality)
(4)
式中:C(v)為包含節(jié)點(diǎn)v的組成部分;σst表示從節(jié)點(diǎn)s到節(jié)點(diǎn)t的最短路徑數(shù);BC(v)表示v對網(wǎng)絡(luò)中其他節(jié)點(diǎn)之間通信連接的影響程度。當(dāng)BC(v)越大時,表明v的重要度越高。
CytoHubba 軟件(http://hub.iis.sinica.edu.tw/cytoHubba/index.html)通過網(wǎng)絡(luò)特征對網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行排名,它實(shí)現(xiàn)了11個節(jié)點(diǎn)的排名方法來評估生物網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性,包括度、邊緣滲出成分、最大社區(qū)成分、最大鄰域成分和最大團(tuán)中心等,其中最大團(tuán)中心(Maximal clique centrality,MCC)方式能夠更準(zhǔn)確地預(yù)測蛋白質(zhì)互作網(wǎng)絡(luò)中的重要基因[19],其定義為
(5)
式中:S(v)是包含節(jié)點(diǎn)v的最大團(tuán)簇,(|C|-1)!是小于|C|的所有正整數(shù)乘積。如果節(jié)點(diǎn)v的鄰節(jié)點(diǎn)間沒有邊界,則節(jié)點(diǎn)v的最大團(tuán)中心就是它的度。
子網(wǎng)絡(luò)的拓?fù)浞治鼍褪抢镁W(wǎng)絡(luò)節(jié)點(diǎn)度、介數(shù)、接近中心性等指標(biāo)進(jìn)行差異表達(dá)基因分析比較,篩選出子網(wǎng)絡(luò)的中心節(jié)點(diǎn),即結(jié)直腸癌的致病基因。子網(wǎng)絡(luò)富集分析的目的是用來注釋這些差異表達(dá)基因參與的生物學(xué)過程[20],且通過選取基因本體論(Gene ontology, GO)條目來實(shí)現(xiàn)。在GO條目中涉及錯誤發(fā)現(xiàn)率(False discovery rate, FDR),且FDR<γ。閾值γ越小表示GO條目樣本變化判斷越準(zhǔn)確,試驗(yàn)中取γ=0.05。
綜上,本文所采用方法的流程為
(1) 在Ω0基礎(chǔ)上,利用R軟件和LIMMA包進(jìn)行降維和篩選,獲得差異表達(dá)基因,即基因集Ω1;
(2) 將基因集Ω0和基因集Ω1上傳到STRING在線工具,獲得可靠性大于0.9的基因?qū)?,并從中刪除差異表達(dá)基因之間的基因?qū)?,得到?shù)據(jù)集Ω2,利用 Cytoscape得到Ω2蛋白質(zhì)互作網(wǎng)絡(luò);
(3) 在步驟(2)的基礎(chǔ)上,通過ClusterONE聚類算法對蛋白質(zhì)互作網(wǎng)絡(luò)進(jìn)行分析,獲取其子網(wǎng)絡(luò),記子網(wǎng)絡(luò)的基因集為Ω3;
(4) 在步驟(3)的基礎(chǔ)上,進(jìn)行子網(wǎng)絡(luò)拓?fù)浞治?,列出?jié)點(diǎn)度、介數(shù)、接近中心性排名前10的差異表達(dá)基因,并對這些差異表達(dá)基因進(jìn)行分析比較,篩選出子網(wǎng)絡(luò)中的中心節(jié)點(diǎn),即結(jié)直腸癌的致病基因。
在原始數(shù)據(jù)Ω的基礎(chǔ)上,通過一系列的預(yù)處理和基因的篩選,共獲得了339個差異基因Ω1,其中α=0.05,β=2。
圖1 差異表達(dá)基因和已知疾病基因的蛋白質(zhì)互作網(wǎng)絡(luò)Fig.1 Protein-protein interaction network of identified differentially expressed genes and known disease genes
采用STRING在線分析工具可獲得268個可靠性指數(shù)大于0.9的基因?qū)?,即|Ω2|=268。利用 Cytoscape對Ω2可視化的結(jié)果如圖1所示。在圖1中,蛋白質(zhì)相互作用網(wǎng)路由132個基因?qū)M建。在此基礎(chǔ)上,通過ClusterONE插件,取minimum density>0.5,degree > 6,P<0.001,可挖掘出一個含有53個節(jié)點(diǎn)的子網(wǎng)絡(luò)模塊,如圖2所示,其中圖1,2中的粉色為識別差異表達(dá)基因,青色為結(jié)直腸癌的已知疾病基因。
圖2 蛋白質(zhì)互作網(wǎng)絡(luò)中識別的子網(wǎng)絡(luò)Fig.2 Sub-network identified from PPI network
為了識別子網(wǎng)絡(luò)中潛在的樞紐基因,NetworkAnalyzer插件統(tǒng)計網(wǎng)絡(luò)中節(jié)點(diǎn)的度、介數(shù)和接近中心性,且節(jié)點(diǎn)度、介數(shù)和接近中心性最高的點(diǎn)被認(rèn)為是中心節(jié)點(diǎn),統(tǒng)計結(jié)果如表1所示,表中所列的是子網(wǎng)絡(luò)中節(jié)點(diǎn)度、介數(shù)和接近中心性分別排名前10的差異表達(dá)基因。從表 1可知,節(jié)點(diǎn)度、介數(shù)和接近中心性都排在前10 的差異基因有FOS,CCND1,CEBPB,EGR1和NOS3。因此,F(xiàn)OS,CCND1,CEBPB,EGR1和NOS3在被識別的網(wǎng)絡(luò)中具有重要作用,即為網(wǎng)絡(luò)的中心節(jié)點(diǎn)。
此外,通過Cytoscape的CytoHubba插件獲得了排名前15的差異表達(dá)基因,包括TP53,F(xiàn)OS,EP300,CCND1,PPARG,AKT1,SMAD3,SERPINE1,CEBPB,MYC,SMAD4,CDC25A,EGR1和NOS3,其中FOS,CCND1,SERPINE1,CEBPB,CDC25A,EGR1和NOS3為差異表達(dá)基因。結(jié)合篩選的中心節(jié)點(diǎn),可獲得結(jié)直腸癌候選疾病基因FOS,CCND1,CEBPB,EGR1,NOS3。
表1 子網(wǎng)絡(luò)中的中心基因
進(jìn)一步,對含有53個節(jié)點(diǎn)的子網(wǎng)絡(luò)模塊進(jìn)行富集分析。依據(jù)FDR<0.05篩選出的子網(wǎng)絡(luò)差異表達(dá)基因的9條GO條目測試,結(jié)果見表2,其中Count記錄的是子網(wǎng)絡(luò)模塊中參與相應(yīng)生物學(xué)過程的基因數(shù),F(xiàn)DR是檢驗(yàn)的錯誤發(fā)生率。由表2可知,子網(wǎng)絡(luò)模塊中差異基因參與大分子代謝負(fù)調(diào)控過程、基因表達(dá)調(diào)控和細(xì)胞代謝負(fù)調(diào)控過程等9個生物學(xué)過程。
表2 子網(wǎng)絡(luò)中差異表達(dá)基因的基因本體論分析
對于實(shí)驗(yàn)所獲結(jié)果,細(xì)胞周期蛋白D1(Cyclin D1,CCND1)為細(xì)胞周期蛋白的編碼基因,參與細(xì)胞周期G1-S期轉(zhuǎn)換的調(diào)控,目前已被公認(rèn)為是一種原癌基因[21]。它的過度表達(dá)能夠使細(xì)胞G1期縮短,促進(jìn)G1期向S期過渡[22],從而導(dǎo)致DNA合成及增殖,引起細(xì)胞增殖失控和癌變。此外,已有研究表明,Cyclin D1異常表達(dá)與包括結(jié)直腸癌在內(nèi)的多種腫瘤發(fā)生密切相關(guān)[23],例如Tan等[24]發(fā)現(xiàn)CCND1 870A能夠增加結(jié)直腸癌的發(fā)病風(fēng)險;Toncheva等[25]發(fā)現(xiàn)Cycling D1在結(jié)直腸癌中的蛋白表達(dá)陽性率明顯高于正常結(jié)直腸組織。
c-fos為早期反應(yīng)因子,能夠?qū)Ω鞣N刺激做出迅速的反應(yīng)。作為原癌基因的c-fos參與了細(xì)胞增殖、侵襲、凋亡的調(diào)控和血管生成、分化和凋亡等過程,并在腫瘤細(xì)胞的運(yùn)動、細(xì)胞外基質(zhì)的降解、異常粘附及轉(zhuǎn)移灶新生血管生長等多個環(huán)節(jié)中有著重要作用。此外,有研究表明,c-fos異常表達(dá)對腫瘤細(xì)胞的生長產(chǎn)生重要的影響[26],例如調(diào)節(jié)腫瘤細(xì)胞的侵襲性生長[27]。
EGR1為早期生長反應(yīng)因子1,是一種對細(xì)胞生長起調(diào)節(jié)作用的轉(zhuǎn)錄因子。在細(xì)胞的增殖、分化、凋亡、信號傳遞和細(xì)胞生長調(diào)控等過程中產(chǎn)生了重要影響,并且能夠促進(jìn)細(xì)胞增生和組織修復(fù)。近年來,有研究表明外源性Egr-1基因有抑制腫瘤細(xì)胞的生長和惡性轉(zhuǎn)化的作用,其異常表達(dá)可引起細(xì)胞增殖與凋亡的失衡,對乳腺癌、食管癌、胃癌、前列腺癌等癌細(xì)胞有著十分重要的影響。
NOS3為人血管內(nèi)皮型一氧化氮合酶(endothelial Nitric oxide synthase,eNOS),其釋放的內(nèi)皮型一氧化氮在血管生成過程中能夠促進(jìn)血管舒張,調(diào)控血管的生成。事實(shí)上,實(shí)體腫瘤的固有特征之一就是異常的血管增生,而腫瘤細(xì)胞或激活的免疫細(xì)胞都能產(chǎn)生促血管因子。例如,巨噬細(xì)胞、中性粒細(xì)胞、肥大細(xì)胞以及骨髓造血祖細(xì)胞等參與固有免疫的細(xì)胞在血管生成轉(zhuǎn)換的過程中都能產(chǎn)生重要的作用。促進(jìn)腫瘤細(xì)胞的增殖和遷移的NO/NOS3信號轉(zhuǎn)導(dǎo)同時可以增強(qiáng)血管通透性、誘導(dǎo)細(xì)胞外基質(zhì)降解以及腫瘤血管新生[28]。目前,已有多個研究發(fā)現(xiàn)NOS 3 894G>T增加了膀胱癌、結(jié)直腸癌和乳腺癌的發(fā)病風(fēng)險[29]。
轉(zhuǎn)錄因子CEBPB(CCAAT enhancer-binding protein,CCAAT增強(qiáng)結(jié)合蛋白),參與許多生物過程,包括細(xì)胞分化、代謝平衡、增殖,腫瘤發(fā)生、凋亡以及機(jī)體的免疫、應(yīng)激反應(yīng),能量代謝和血液生成[30]。有研究表明C/EBP在腫瘤發(fā)生發(fā)展中通過與其他基因相互作用形成調(diào)控網(wǎng)絡(luò)而影響腫瘤發(fā)生[31],也有研究顯示C/EBP轉(zhuǎn)錄因子的LIP亞型可以誘導(dǎo)人乳腺癌細(xì)胞凋亡并誘發(fā)其自身的吞噬作用,分析可能是一種誘發(fā)腫瘤自我吞噬的抑癌因襲。此外,PLAC1基因在人類大部分惡性腫瘤中都是異常表達(dá)。例如,在乳腺癌組織中, PLAC1能夠被C/EBP激活,并在乳腺癌的惡性轉(zhuǎn)化過程中產(chǎn)生重要的作用[32]。另外,通過檢測得到C/EBP在肝癌、卵巢癌、淋巴細(xì)胞白血病、淋巴瘤、皮膚癌等多種腫瘤中均表達(dá)上調(diào),但其在結(jié)直腸癌中具體的表達(dá)機(jī)制尚不清楚,需要進(jìn)一步的深入研究。
綜上,本文獲得的結(jié)直腸癌致病基因FOS,CCND1,CEBPB,EGR1和NOS3在結(jié)直腸癌的發(fā)展過程中起著重要的作用。
本研究通過生物學(xué)分析對結(jié)直腸癌致病基因進(jìn)行了識別。首先,基于GEO中GSE9348基因表達(dá)數(shù)據(jù)集,利用R語言的LIMMA包篩選出P<0.05,F(xiàn)old change>2的結(jié)直腸癌差異基因339個,并從OMIM數(shù)據(jù)庫中下載結(jié)直腸癌已知的致病基因135個;其次,將這339個差異基因和135個已知的致病基因上傳到STRING數(shù)據(jù)庫中,獲得了228個可靠性指數(shù)大于0.9的基因?qū)?,并通過這些基因?qū)?gòu)建了差異表達(dá)基因與致病基因的蛋白質(zhì)互作網(wǎng)絡(luò);進(jìn)一步,利用Cytoscape軟件的ClusterONE插件進(jìn)行了蛋白質(zhì)互作網(wǎng)絡(luò)模塊分析,獲得了一個含有53個基因的子網(wǎng)絡(luò);最后,通過對子網(wǎng)絡(luò)的拓?fù)浞治觯@得了FOS,CCND1,CEBPB,EGR1和NOS3等5個新結(jié)直腸癌致病基因。同時,通過功能富集分析和文獻(xiàn)挖掘?qū)π掳l(fā)現(xiàn)的致病基因進(jìn)行了驗(yàn)證,數(shù)據(jù)試驗(yàn)結(jié)果顯示本文的研究方法是行之有效的。本文提供的方法具有通用性,它對癌癥發(fā)病機(jī)制的闡述以及分子靶向?qū)ふ业妊芯烤哂兄匾饬x。