萬喻婷 王 治 洪 莉
子宮內(nèi)膜癌(endometrial carcinoma, EC)是常見的女性生殖系統(tǒng)惡性腫瘤,其發(fā)生率與病死率逐年上升,呈年輕化趨勢(shì)[1~3]。近年來,子宮內(nèi)膜癌的診療技術(shù)日益完善,早期患者通過全面分期手術(shù),輔以放化療或內(nèi)分泌治療,可獲得良好預(yù)后,晚期及復(fù)發(fā)的子宮內(nèi)膜癌預(yù)后較差[4]。因此,挖掘更多的EC腫瘤標(biāo)志物及治療靶點(diǎn),為臨床檢測(cè)和治療方案具有重要意義。生物信息學(xué)分析在肺癌、結(jié)直腸癌、甲狀腺癌、前列腺癌、胃癌、卵巢癌等多種腫瘤的分子機(jī)制及治療靶點(diǎn)研究中也有廣泛應(yīng)用[5~10]。高通量基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus, GEO)收集了豐富的各類腫瘤組織基因表達(dá)譜,癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)是迄今最大的癌癥基因數(shù)據(jù)庫,二者為EC的分子研究提供了重要的數(shù)據(jù)支撐。本研究利用生物信息學(xué)方法,對(duì)GEO和TCGA兩大數(shù)據(jù)庫來源的基因集進(jìn)行獨(dú)立分析和聯(lián)合分析,篩選重疊差異表達(dá)基因,增強(qiáng)了結(jié)果可靠性,發(fā)現(xiàn)CDCA2、AURKA、DLGAP5等10個(gè)關(guān)鍵基因可能與EC發(fā)生、發(fā)展密切相關(guān),或?qū)⒊蔀镋C新的生物學(xué)標(biāo)志物和潛在的分子靶標(biāo),由此預(yù)測(cè)出候選藥物,為EC的分子機(jī)制研究和藥物研發(fā)提供了新的線索和參考。
1.基因芯片數(shù)據(jù)集信息:通過GEO數(shù)據(jù)庫下載高通量測(cè)序數(shù)據(jù)集GSE17025,數(shù)據(jù)類型為Expression profiling by array,種屬為Homo sapiens,注釋平臺(tái)為GPL570,包含79例EC樣本(GSM425837~GSM425915)和12例正常組織樣本(GSM425927~GSM425938)。從 GDC(Genomic Data Commons)數(shù)據(jù)門戶網(wǎng)站下載TCGA中的 EC及正常對(duì)照組的RNA-seq數(shù)據(jù),共計(jì)552例EC樣本和35例正常組織樣本。
2. DEGs的篩選:使用R(version 4.2.1)軟件進(jìn)行基因表達(dá)譜芯片差異表達(dá)基因(differentially expressed genes, DEGs)的處理和差異分析,原始數(shù)據(jù)的預(yù)處理和標(biāo)準(zhǔn)化借助R軟件中的Affy包完成,并用中位數(shù)方法標(biāo)準(zhǔn)化表達(dá)譜數(shù)據(jù),KNN方法補(bǔ)充缺失值等,Limma包篩選出腫瘤中異常表達(dá)的基因集。來自TCGA的RNA-seq數(shù)據(jù),用Limma包篩選差異基因,篩選條件:P<0.05且|log2(FC)|>2。用ggplot2和pheatmap程序包分析DEGs并將結(jié)果可視化,分別生成熱圖,最后用FunRich軟件作venn圖,得出最終差異基因進(jìn)行下一步分析。
3. DEGs 的PPI網(wǎng)絡(luò)構(gòu)建和關(guān)鍵基因篩選:String(the search tool for the retrieval of interacting genes)數(shù)據(jù)庫和Cytoscape 軟件是用來構(gòu)建蛋白-蛋白互作(protein-protein interaction, PPI)網(wǎng)絡(luò)的主要工具。首先使用String數(shù)據(jù)庫DEGs之間的相互作用進(jìn)行分析,構(gòu)建PPI網(wǎng)絡(luò),使用Cytoscape對(duì)其進(jìn)行可視化,使用Cytohubba插件計(jì)算得出的基因間的連接得分,以相關(guān)度最高的前10個(gè)DEGs作為EC發(fā)病相關(guān)的關(guān)鍵基因,即hub基因。
4. PPI網(wǎng)絡(luò)關(guān)鍵子模塊構(gòu)建:使用Cytoscape軟件MCODE插件對(duì)PPI網(wǎng)絡(luò)進(jìn)行子網(wǎng)絡(luò)模塊構(gòu)建,關(guān)鍵模塊篩選標(biāo)準(zhǔn)為MCODE評(píng)分>4。模塊篩選標(biāo)準(zhǔn):Degree cut off=2,K-Score=2,Maximum Depth=100,Node Score cut off=0.2。
5.DEGs的GO功能富集分析和KEGG通路富集分析:利用基因本體論(gene ontology, GO)分析對(duì)DEGs作注釋,是生物信息學(xué)分析的常用手段,包括細(xì)胞成分(cell component,CC)、生物途徑(biological process,BP)和分子功能(molecular fuction,MF)方向的注釋。基因百科全書數(shù)據(jù)庫(Kyoto encyclopedia of gene and genomes, KEGG)用于通路富集分析,獲取DEGs富集的主要信號(hào)通路,為研究DEGs的致癌途徑提供線索。以上分析使用R語言ClusterProfiler包完成,結(jié)果可視化。
6.關(guān)鍵基因的候選藥物的篩選:比較毒物遺傳學(xué)數(shù)據(jù)庫(comparative toxicogenomics database,CTD)數(shù)據(jù)庫可提供關(guān)于基因-藥物-疾病三者間相互作用的信息,廣泛用于藥物篩選。將所得出的10個(gè)關(guān)鍵基因(CDCA2、AURKA、DLGAP5、BIRC5、KIF11、CENPE、NCAPH、CCNB1、CDCA5、NCAPG)導(dǎo)入CTD 數(shù)據(jù)庫中,篩找出可降低關(guān)鍵基因表達(dá)水平的化合物作為EC的潛在靶向藥物。
1.DEGs的篩選:用R軟件進(jìn)行分析后,在GEO數(shù)據(jù)集GSE17025中篩出1119個(gè)顯著差異表達(dá)基因,在TCGA的EC基因組數(shù)據(jù)庫篩出2854個(gè)顯著差異表達(dá)基因,分別生成差異基因火山圖(圖1A)。將兩組篩選結(jié)果進(jìn)行Venny分析后,發(fā)現(xiàn)在GSE17025和TCGA中有269個(gè)基因同時(shí)上調(diào),132個(gè)基因同時(shí)下調(diào)(圖1B)。
圖1 基于TCGA和GEO數(shù)據(jù)庫篩選EC差異基因A.TCGA和GSE17025分別篩選DEGs:藍(lán)點(diǎn)為下調(diào)基因,紅點(diǎn)為上調(diào)基因;B.TCGA和GSE17025中DEGs的維恩圖
2.DEGs 的PPI網(wǎng)絡(luò)構(gòu)建和關(guān)鍵基因篩選:String數(shù)據(jù)庫分析DEGs,綜合得分>0.4的納入PPI網(wǎng)絡(luò),最終獲得317個(gè)PPI節(jié)點(diǎn)和2834個(gè)蛋白互作關(guān)系,用Cytoscape軟件對(duì)結(jié)果進(jìn)行可視化展示(圖2A)。經(jīng)過Cytoscape軟件的CytoHubba插件對(duì)PPI節(jié)點(diǎn)進(jìn)行評(píng)分,得分最高的前10個(gè)DEGs作為關(guān)鍵樞紐基因(圖2B),分別為細(xì)胞分裂周期相關(guān)蛋白(cell division cycle-associated 2, CDCA2)、極光激酶A(aurora kinase A, AURKA)、Discs大同源相關(guān)蛋白5(discs large homologous affinity protein 5, DLGAP5)、桿狀病毒凋亡抑制蛋白5(baculoviral IAP repeat-containing 5, BIRC5)、驅(qū)動(dòng)蛋白家族成員11(kinesin family member 11, KIF11)、著絲粒蛋白E(centromere protein E, CENPE)、非染色體結(jié)構(gòu)維持蛋白凝縮蛋白復(fù)合體Ⅰ亞單位H(non-SMC condensin I complex subunit H, NCAPH)、細(xì)胞周期蛋白B1(cyclin B1, CCNB1)、細(xì)胞分裂周期相關(guān)蛋白(cell division cycle-associated 5, CDCA5)、非染色體結(jié)構(gòu)凝縮蛋白 Ⅰ復(fù)合體亞基 G(non-SMC condensin I complex subunit H, NCAPG)。
圖2 DEGs的PPI網(wǎng)絡(luò)構(gòu)建和關(guān)鍵基因篩選A.DEGs的PPI網(wǎng)絡(luò):包含317個(gè)PPI節(jié)點(diǎn)和2834個(gè)蛋白互作關(guān)系;B.10個(gè)關(guān)鍵基因
3.PPI網(wǎng)絡(luò)關(guān)鍵子模塊構(gòu)建:用Cytoscape軟件的MCODE插件構(gòu)建DEGs的聚類功能模塊,獲得5個(gè)重要的子模塊,可視化后,節(jié)點(diǎn)顯示為點(diǎn),相互作用關(guān)系顯示為線。A模塊MCODE得分59.281,包含65個(gè)點(diǎn)和1897個(gè)線(圖3A),B模塊MCODE得分為13.143,包含15個(gè)點(diǎn)和92個(gè)線(圖3B),C模塊MCODE得分6.667,包含10個(gè)點(diǎn)和30個(gè)線(圖3C),D模塊MCODE得分5.667,包含7個(gè)點(diǎn)和17個(gè)線(圖3D),E模塊MCODE得分為4.250,包含9個(gè)點(diǎn)和17個(gè)線(圖3E)。
4.DEGs 的GO功能富集分析和KEGG通路富集分析:對(duì)PPI網(wǎng)絡(luò)的5個(gè)重要子模塊共106個(gè)DEGs進(jìn)行GO功能富集分析,結(jié)果顯示,差異基因在細(xì)胞成分(CC)上主要富集于紡錘體、染色體、著絲粒等;在生物途徑(BP)上主要富集于細(xì)胞器分裂、核分裂、染色體分離等;在分子功能(MF)主要富集于受體配體活性、G蛋白偶聯(lián)受體結(jié)合、細(xì)胞因子活性等。KEGG通路富集分析的結(jié)果顯示,DEGs主要富集于細(xì)胞因子-細(xì)胞因子受體相互作用、IL-17信號(hào)通路、細(xì)胞周期等信號(hào)通路(圖4)。
圖4 DEGs的GO富集和KEGG信號(hào)通路富集A.GO富集-細(xì)胞成分(CC);B.GO富集-生物學(xué)進(jìn)程(BP);C.GO富集-分子功能(MF);D.KEGG富集
5.EC治療的候選藥物篩選結(jié)果:通過CTD藥物數(shù)據(jù)庫進(jìn)行靶向藥物預(yù)測(cè),篩選能使關(guān)鍵基因表達(dá)減少的藥物,作對(duì)EC有潛在療效的候選藥物,依據(jù)藥物作用的關(guān)鍵基因數(shù)量進(jìn)行排序,前3位分別是阿霉素、舒尼替尼和丙戊酸(表1)。
表1 CTD數(shù)據(jù)庫篩選出的候選藥物
子宮內(nèi)膜癌的發(fā)生率在全球女性惡性腫瘤中位列第6位,好發(fā)于圍絕經(jīng)期和絕經(jīng)后,發(fā)生率和病死率逐年增高[1]。EC首選手術(shù)治療,同時(shí)輔以放化療或內(nèi)分泌治療,早期患者可獲得較好預(yù)后,中晚期患者因疾病進(jìn)展及治療方式有限,生存率明顯降低,Ⅰ期EC患者經(jīng)治療后5年生存率可達(dá)95%,但Ⅲ期患者5年生存率降至47%~69%,Ⅳ期則低至15%~17%,早發(fā)現(xiàn)、早治療是提高EC患者生存率的最佳途徑[11~13]。
近年來,生物信息學(xué)分析技術(shù)廣泛應(yīng)用于癌癥相關(guān)的基因篩查、信號(hào)通路研究、生物學(xué)標(biāo)志物和分子靶點(diǎn)篩選等,本研究通過對(duì)GEO數(shù)據(jù)集GSE17025和TCGA子宮內(nèi)膜癌數(shù)據(jù)庫的重疊差異表達(dá)基因進(jìn)行分析,最終篩選出關(guān)鍵基因CDCA2、AURKA、DLGAP5、BIRC5、KIF11、CENPE、NCAPH、CCNB1、CDCA5和NCAPG。CDCA2和CDCA5是細(xì)胞分裂周期相關(guān)蛋白,有研究發(fā)現(xiàn),EC患者血清中和癌組織中的CDCA5水平均明顯高于對(duì)照組,且其表達(dá)水平跟臨床分期、分化程度、肌層浸潤(rùn)深度有關(guān)[14]。Zhang 等[15]基于生物信息學(xué)方法研究了CDCA家族在EC中的作用,發(fā)現(xiàn)CDCA2、CDCA5在EC中呈現(xiàn)高表達(dá),且高表達(dá)的患者分化和預(yù)后更差,其生物學(xué)功能與細(xì)胞周期、DNA復(fù)制、p53等信號(hào)通路有關(guān)。
AURKA是一種周期性蛋白,多在正常子宮內(nèi)膜的功能層表達(dá),EC中AURKA顯著上調(diào),其在p53、BRAC缺失或異常表達(dá)時(shí)可誘導(dǎo)EC的形成與進(jìn)展,AURKA在多種腫瘤組織中發(fā)現(xiàn)表達(dá)升高,并參與了一些經(jīng)典致癌途徑,部分AURKA抑制劑已在臨床前試驗(yàn)中證實(shí)其抗癌效果[16, 17]。DLGAP5作為細(xì)胞周期調(diào)節(jié)蛋白,參與了細(xì)胞周期、紡錘體組裝、微管運(yùn)動(dòng)等一系列細(xì)胞生物學(xué)過程,一些研究提及了其在EC中的異常表達(dá)及潛在預(yù)后價(jià)值,但需要開展進(jìn)一步實(shí)驗(yàn)研究予以證實(shí)[18, 19]。BIRC5是一種新發(fā)現(xiàn)的凋亡抑制蛋白,在細(xì)胞有絲分裂、血管生成和耐藥等過程中發(fā)揮著重要作用,在EC中檢測(cè)到高表達(dá),但表達(dá)水平與臨床分期、肌層浸潤(rùn)、淋巴結(jié)轉(zhuǎn)移無關(guān),未發(fā)現(xiàn)對(duì)總生存率的影響[20]。
此外,針對(duì)BIRC5的靶向藥物研發(fā)也取得了不錯(cuò)的進(jìn)展[21]。KIF11和CENPE是兩種有絲分裂驅(qū)動(dòng)蛋白,KIF11與細(xì)胞增殖密切相關(guān),作為分子馬達(dá)參與染色體的分離和雙極紡錘體的組裝過程[22]。CENPE是最大的驅(qū)動(dòng)蛋白,它在微管著絲粒中的捕獲作用對(duì)染色體聚集至關(guān)重要,在腫瘤的發(fā)生、發(fā)展中有著雙向作用,二者在EC中的研究目前鮮見報(bào)道[23]。NCAPH是Barr家族中的蛋白復(fù)合體,參與染色體的組裝和分離并調(diào)節(jié)拓?fù)洚悩?gòu)酶Ⅱ的活性,在EC中的功能尚不明確[24]。CCNB1屬于細(xì)胞周期蛋白家族成員,是細(xì)胞周期G2/M轉(zhuǎn)換階段的關(guān)鍵蛋白,直接參與細(xì)胞周期,促使細(xì)胞異常增殖,Bian 等[25]采用WGCNA等分析方法,發(fā)現(xiàn)CCNB1在EC中高表達(dá)且與EC進(jìn)展相關(guān),可能成為EC的預(yù)測(cè)因子。有研究在肝癌中也觀察到CCNB1促進(jìn)了PI3K和AKT磷酸化,以及促p53泛素化[26]。NCAPG是一種有絲分裂相關(guān)的染色體縮合蛋白,與細(xì)胞增殖分裂有關(guān),其凝集作用使染色體重組為棒狀,并確保姐妹染色單體的分離,Liu 等[27]研究發(fā)現(xiàn),敲低NCAPG能抑制EC細(xì)胞增殖,且通過Wnt/β-catenin途徑誘導(dǎo)了EC細(xì)胞的凋亡。
對(duì)以上關(guān)鍵基因的潛在靶向藥物進(jìn)行預(yù)測(cè),篩選出阿霉素、舒尼替尼和丙戊酸。其中阿霉素是EC的常用化療藥物之一,其療效早已證實(shí)。舒尼替尼作為酪氨酸激酶抑制劑,抑制血管生成,其在EC治療中的療效與耐受性的一些研究已進(jìn)入Ⅱ期試驗(yàn)[28]。丙戊酸是一種組蛋白去乙酰化酶抑制劑,臨床上常作為抗癲癇藥,在乳腺癌、前列腺癌研究中發(fā)現(xiàn)丙戊酸與其它化療藥物聯(lián)合使用獲得了更好的抗癌效果,丙戊酸在EC中研究較少[29, 30]。有研究發(fā)現(xiàn),丙戊酸在EC中可誘導(dǎo)腫瘤細(xì)胞周期阻滯和凋亡,抑制細(xì)胞增殖,也有一定的抗血管生成作用,其在EC中的作用機(jī)制及療效有望進(jìn)一步發(fā)掘[31,32]。
綜上所述,本研究利用生物信息學(xué)的分析方法,聯(lián)合GEO和TCGA數(shù)據(jù)庫,對(duì)EC組織和正常組織的基因表達(dá)進(jìn)行差異分析,發(fā)現(xiàn)了可能與EC相關(guān)的DEGs,隨后通過構(gòu)建PPI網(wǎng)絡(luò)以及GO和KEGG富集分析,找到EC密切相關(guān)的關(guān)鍵基因和富集通路,并篩選出能夠調(diào)控關(guān)鍵基因的潛在靶向藥物,為進(jìn)一步揭示EC發(fā)生、發(fā)展的分子機(jī)制、發(fā)掘敏感而特異的生物學(xué)標(biāo)志物和治療靶點(diǎn)提供新的思路。