許修穎,龔榮府,楊娉娉,方文
(貴州醫(yī)科大學(xué) 醫(yī)學(xué)檢驗學(xué)院 生化教研室,貴州 貴陽 550004)
據(jù)2018年世界衛(wèi)生組織統(tǒng)計,宮頸癌(cervical cancer,CC)是全球女性癌癥發(fā)病率和死亡率均位居第4位的癌癥[1]。隨著醫(yī)療技術(shù)的提高、CC篩查的普及、生活方式的改變,CC發(fā)病呈年輕化趨勢[2],研究發(fā)現(xiàn)CC仍然是20~39歲女性癌癥死亡的第二大原因[3]。在欠發(fā)達國家,CC的發(fā)病率及死亡率過高,可能是因為篩查機會減少和人類乳頭狀瘤病毒(humanpapillomavirus,HPV)疫苗的高成本[4]。因此,仍有必要尋找與CC早期診斷、治療和預(yù)后密切相關(guān)的靶點基因。近年來,越來越多的研究人員將基因圖譜和基因芯片應(yīng)用于科學(xué)研究[5],認(rèn)為大多數(shù)基因芯片或基因圖譜數(shù)據(jù)只存儲在數(shù)據(jù)庫中未被充分利用,重新分析這些數(shù)據(jù)可為研究癌癥提供新的方法[6],研究人員利用生物信息學(xué)方法分析肝細胞癌、肺癌及乳腺癌等多種癌癥的治療靶點[7-9]。近期研究中,有學(xué)者通過分析基因表達數(shù)據(jù)庫(gene expression omnibus,GEO)中GSE103512數(shù)據(jù)集,篩選出在宮頸癌組織中表達水平明顯增加的基因,并認(rèn)為是宮頸癌治療的靶標(biāo)[10]。然而,只從一個數(shù)據(jù)集中篩選表達升高的基因作為治療的靶標(biāo)的研究并不全面,本研究通過分析GEO中CC的多個基因表達數(shù)據(jù)集,采用多種生物信息學(xué)方法篩選調(diào)控CC的樞紐基因,并利用腫瘤基因組圖譜(the cancer genome atlas,TCGA)驗證樞紐基因的表達。
從GEO(https://www.ncbi.nlm.nih.gov/geo/)中篩選CC微陣列數(shù)據(jù)集,輸入關(guān)鍵字“cervical cancer”,選擇“series”、“home sapiens”、“expression profiling by array”,最后得到134個“series”。通過閱讀摘要,本研究選擇了GSE9750、GSE7083和GSE63514作為數(shù)據(jù)來源,在基因表達譜中選擇正常宮頸(normal cervix,NC)組織、高級別鱗狀上皮內(nèi)病變(high grade squamous intraepithelial lesion of the cervix,HSIL)、宮頸上皮內(nèi)瘤樣病變(cervical intraepithelial neoplasia,CIN)及CC組織樣本進行后續(xù)分析。見表l。
表1 CC相關(guān)數(shù)據(jù)信息Tab.1 Data information on CC
1.2.1篩選差異基因 在R(vesion:3.6.1)語言環(huán)境下,R-Studio利用GEOquery、limma、ggplot2等軟件包處理3個數(shù)據(jù)集,根據(jù)表1中選擇樣本分組后篩選出差異表達基因。定義差異基因的篩選標(biāo)準(zhǔn)如下:P<0.05,且|log2FC|>1。獲得差異基因后,用火山圖展現(xiàn)3個數(shù)據(jù)集的差異基因,取3個數(shù)據(jù)集的差異基因交集,并用VennDiagram軟件包繪制韋恩圖。
1.2.2差異基因的富集分析 使用database for annotation、visualization and integrated discovery網(wǎng)站(DAVID,Vision:6.7,https://david-d.ncifcrf.gov/)闡明相互作用基因的生物學(xué)過程和信號通路[11- 12]。通過DAVID在線分析的方式獲得差異基因在基因本體(gene ontology,GO)與基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)通路分析中具體的富集情況,其中GO分析分為生物學(xué)過程、細胞定位CC及分子功能。
1.2.3蛋白質(zhì)相互作用(protein-protein Interactions,PPI)網(wǎng)絡(luò)分析及篩選樞紐基因 將差異基因?qū)隨TRING數(shù)據(jù)庫來繪制相互作用基因并構(gòu)建PPI網(wǎng)絡(luò)[13],將PPI網(wǎng)絡(luò)數(shù)據(jù)導(dǎo)入Cytoscape軟件(Vision:3.7.2),利用Cytoscape插件CytoHubba預(yù)測和查找網(wǎng)絡(luò)中的重要節(jié)點和子網(wǎng)絡(luò),采用12種拓?fù)浞治龇椒?,包括degree、edge percolated component(EPC)、maximum neighborhood component (MNC)、density of maximum neighborhood component (DMNC)等[14],從每種方法中選擇前10個基因,計算所有選擇出的基因在12種算法中的出現(xiàn)次數(shù),最終選取次數(shù)最多的前10個基因作為樞紐基因,最終所有鑒定的樞紐基因被用來構(gòu)建一個完整的PPI網(wǎng)絡(luò)。
1.2.4樞紐基因的篩選及表達 采用 The Kaplan Meier plotter (http://kmplot.com/analysis/)網(wǎng)站在線分析樞紐基因[15],數(shù)據(jù)來自于TCGA數(shù)據(jù)庫的宮頸癌(CC:n=304)臨床信息,篩選與CC總體生存率(overall survival,OS)相關(guān)的基因。UALCAN(http://ualcan.path.uab.edu/)是一個基于 TCGA 數(shù)據(jù)集,腫瘤基因表達分析的在線數(shù)據(jù)庫[16],本研究在UALCAN網(wǎng)站下載TCGA宮頸癌相關(guān)數(shù)據(jù)NC(n=3)和CC(n=305),并分析樞紐基因的表達情況。
1.2.5人類蛋白質(zhì)圖譜(the human protein atlas,HPA)數(shù)據(jù)庫的分析 從HPA[17]中分別調(diào)取CC和NC組織中的細胞周期蛋白依賴性激酶1(cyclin dependent kinase 1,CDK1)、驅(qū)動蛋白家族成員11(kinesin family member 11,KIF11)、細胞周期蛋白B1 (cyclin B1,CCNB1)、細胞分裂周期蛋白45 (cell division cycle 45,CDC45)及CXC趨化因子配體8(c-x-c motif chemokine ligand 8,CXCL8)蛋白的免疫組織化學(xué)結(jié)果,明確其在CC和NC組織中的蛋白表達。
經(jīng)R-Studio軟件分析,分別從數(shù)據(jù)集GSE7083、GSE9750及GSE63514中得到差異表達基因760、1 454及3 019個,其中上調(diào)差異基因分別為393、785及1 880個,下調(diào)差異基因分別為367、669及1 139個。分別用火山圖顯示3個數(shù)據(jù)集差異基因(圖1),全面系統(tǒng)地剖析3個數(shù)據(jù)集中的差異表達基因,經(jīng)過VennDiagram軟件包交集3個數(shù)據(jù)集差異基因后獲得401個共同差異表達基因,包括219個上調(diào)基因和182個下調(diào)基因(圖2)。
注:A為GSE7803,上調(diào)差異基因個數(shù)為393,下調(diào)差異基因個數(shù)為367;B為GSE9750,上調(diào)差異基因個數(shù)為785,下調(diào)差異基因個數(shù)為669;C為GSE63514,上調(diào)差異基因個數(shù)為1 880,下調(diào)差異基因個數(shù)為1 139;藍色為下調(diào)差異基因,紅色為上調(diào)差異基因,黑色為無顯著差異基因。圖1 GSE7803、GSE9750及GSE63514差異表達基因的火山圖Fig.1 Volcano plot of GSE7803,GSE 9750, and GSE 63514 DEGs
注:綠色、藍色及紅色圓圈分別為GSE7803、GSE9750、GSE63514差異基因個數(shù)。圖2 上調(diào)和下調(diào)差異基因交集的韋恩圖 Fig.2 Venn diagram of up-regulation and down-regulation of intersection of DEGs
GO分析結(jié)果顯示,DEGs的細胞定位主要在染色體、無膜細胞器、角質(zhì)包膜及紡錘體中。在生物學(xué)過程的分析中,DEGs與細胞周期、有絲分裂細胞周期、細胞周期過程及M期有關(guān);DEGs的分子功能主要富集在絲氨酸型內(nèi)肽酶活性、絲氨酸型肽酶活性、絲氨酸水解酶活性、細胞周期素依賴性蛋白激酶調(diào)節(jié)活性及內(nèi)肽酶活性(表2)。DEGs的KEGG通路富集結(jié)果顯示,細胞周期、DNA復(fù)制、卵母細胞減數(shù)分裂、p53信號通路及花生四烯酸代謝是主要途徑(表3)。
表2 差異基因的GO富集分析Tab.2 GO enrichment results of DEGs
表3 差異基因的KEGG通路分析Tab.3 KEGG pathway analysis of DEGs
401個DEGs被用于構(gòu)建PPI網(wǎng)絡(luò),結(jié)果表明,PPI網(wǎng)絡(luò)具有明顯高于預(yù)期的交互作用(P<1.0×10-16),節(jié)點數(shù)為398,邊緣數(shù)為4 899。經(jīng)過12種算法的計算,由于第11個基因與第10個基因在12種算法中出現(xiàn)次數(shù)相同,故本研究共篩選出 11個樞紐基因(CDK1、KIF11、BUB1B、CCNB1、CCND1、CDC20、CDC45、CXCL8、ECT2、ESR1及TOP2A,表4),其中除了ESR1和CCND1基因在CC組織中表達下調(diào)外,其余基因表達上調(diào);11個樞紐基因重新導(dǎo)入STRING數(shù)據(jù)庫后構(gòu)建PPI網(wǎng)絡(luò)顯示蛋白間有較高的交互作用(P=1.95×10-10,圖3)。
表4 樞紐基因在12種算法中的出現(xiàn)次數(shù)Tab.4 Number of occurrences of hub genes in 12 algorithms
圖3 樞紐基因的PPI網(wǎng)絡(luò)Fig.3 PPI networks of hub genes
在The Kaplan Meier plotter網(wǎng)站中收錄304例CC患者數(shù)據(jù)中,CDK1、KIF11、CCNB1、CDC45及CXCL8基因的表達水平對患者的總生存時間有著顯著影響;與低表達組相比,CDK1、KIF11、CCNB1及CDC45高表達組的CC患者的總生存時間增高(P<0.05);與低表達組相比,CXCL8高表達組的CC患者的總生存時間明顯降低(P<0.001,圖4)。UALCAN分析結(jié)果表明,CDK1、KIF11、CCNB1、CDC45及CXCL8基因在CC組患者中表達較NC組明顯上調(diào)(P<0.01,圖5)。
圖4 樞紐基因高、低表達組CC患者預(yù)后的Kaplan-Meier分析Fig.4 Kaplan-Meier analysis of overall survival in CC patients with hub genes high and low
注:(1)與NC組比較,P<0.01。圖5 CC組與NC組樞紐基因的表達Fig.5 The expression of hub genes in CC and NC groups
HPA數(shù)據(jù)庫中,采用不同的免疫組織化學(xué)抗體分析NC組織和CC組織的免疫組化結(jié)果及5種蛋白在CC組腫瘤細胞及對照組宮頸細胞中的定位(表5),CDK1、KIF11、CCNB1及CDC45蛋白相對于NC細胞在CC腫瘤細胞中表達增加,但CXCL8蛋白在CC及NC組織中都未檢測到(圖6),證實CDK1、KIF11、CCNB1及CDC45蛋白在CC組中較NC組織高表達。
表5 CDK1、KIF11、CCNB1、 CDC45和CXCL8蛋白在NC及 CC腫瘤細胞中表達Tab.5 The expression of CDK1, KIF11,CCNB1,CDC45, and CXCL8 proteins in CC and NC tumor cells
圖6 CC和NC組織相關(guān)蛋白的表達(免疫組織化學(xué),×40)Fig.6 The expression of related proteins in CC and NC tissues(immunohistochemistry,×40)
CC是一種高度侵襲性腫瘤,是女性癌癥相關(guān)死亡的主要原因之一,2018年全球估計有57萬個新增病例,31.1萬人死亡[1]。傳統(tǒng)的治療方式主要為手術(shù)和放療,但中晚期CC單純放療效果差,患者5年生存率偏低,治療效果仍不夠理想[18]。因此,仍有必要為CC的診斷和治療尋找新的靶點。CDK1是一種蛋白質(zhì)編碼基因,該基因編碼的蛋白質(zhì)是Ser/Thr蛋白激酶家族的成員[19]。該蛋白是高度保守的蛋白激酶復(fù)合物的催化亞基,被稱為M期促進因子(maturation promoting factor,MPF),對于真核細胞周期的G1/S和G2/M相變至關(guān)重要[20]。CDK1已被確定為肺癌、乳腺癌和結(jié)直腸癌患者潛在的臨床靶點和預(yù)后生物標(biāo)志物[21]。CDK1在介導(dǎo)與CC進展相關(guān)的基因網(wǎng)絡(luò)中起著全面的作用,靶向CDK1或其相關(guān)途徑的新療法可能有助于改善晚期CC的預(yù)后[22]。KIF11是驅(qū)動蛋白超家族的一員,這個蛋白質(zhì)家族的成員已知參與各種紡錘體動力學(xué),該基因產(chǎn)物的功能包括細胞有絲分裂過程中的染色體定位、中心體分離和雙極紡錘體建立[23]。抑制KIF11能夠引起細胞分裂紊亂和細胞周期阻滯,最終導(dǎo)致細胞凋亡,此外,KIF11能夠調(diào)控軸突的分支和生長錐活性,研究表明KIF11在多種惡性腫瘤中高表達并與預(yù)后相關(guān)[24]。CCNB1基因編碼的蛋白是一種參與有絲分裂的調(diào)節(jié)蛋白,其于正確控制細胞周期的G2/M轉(zhuǎn)換期是必需的[25]。CCNB1與CDKl結(jié)合形成成熟促進因子MPF,MPF的激活是真核細胞啟動有絲分裂必要條件,從而控制細胞周期進程[26]。既往研究發(fā)現(xiàn)CCNB1的高水平表達與肝癌、乳腺癌、胰腺癌及胃癌患者預(yù)后相關(guān),其可能的機制多認(rèn)為是抑制細胞增殖、遷移和侵襲,進而導(dǎo)致腫瘤的發(fā)生及發(fā)展[27]。CDC45編碼的蛋白質(zhì)是啟動DNA復(fù)制所必需的蛋白質(zhì)[28]。CDC45是高度保守的多蛋白復(fù)合體的成員,其在真核生物中DNA復(fù)制的早期步驟很重要[29]。染色質(zhì)免疫共沉淀(chromatin immunoprecipitation, ChIP)實驗發(fā)現(xiàn)CDC45與復(fù)制原點只在S期結(jié)合,同時這種結(jié)合需要CDK和CDC7的幫助,而CDC45在S期持續(xù)過程中遠離復(fù)制原點[30]。CXCL8是CXC趨化因子家族的成員,是炎癥反應(yīng)的主要介質(zhì),負(fù)責(zé)中性粒細胞和粒細胞向炎癥部位的招募和激活[31]。在對癌癥的研究中,許多研究人員認(rèn)為CXCL8在腫瘤的增殖、侵襲、遷移和腫瘤微環(huán)境中以自分泌或旁分泌的方式發(fā)揮著極其關(guān)鍵的作用[32]。在CC中,研究人員直接探討CXCL8在組織和細胞系中的表達狀況,并分析CXCL8表達與CC患者臨床病理特征的關(guān)系[33]。但在本研究中,利用GEO數(shù)據(jù)庫本研究篩選了CXCL8等基因作為CC的樞紐基因,并且在TCGA數(shù)據(jù)庫中驗證樞紐基因的表達去GEO數(shù)據(jù)庫中一致,并探討了樞紐基因?qū)C患者的總生存率的影響,這更有力地證明了CXCL8在CC中的預(yù)后功能。
本研究利用GEO數(shù)據(jù)庫中CC表達微陣列GSE7803、GSE9750及GSE63514中的數(shù)據(jù)進行DEGs篩選,并對DEGs進行GO分析和KEGG通路分析,這些基因的GO富集主要包括有絲分裂細胞周期、細胞周期過程、絲氨酸型內(nèi)肽酶活性等;KEGG信號通路主要富集在細胞周期、DNA復(fù)制、卵母細胞減數(shù)分裂、P53信號通路和花生四烯酸代謝。通過STRING及Cytoscape軟件篩選出11個樞紐基因(CDK1、KIF11、BUB1B、CCNB1、CCND1、CDC20、CDC45、CXCL8、ECT2、ESR1及TOP2A),且利用The Kaplan Meier plotter網(wǎng)站分析得出5個樞紐基因(CDK1、KIF11、CCNB1、CDC45及CXCL8)CC患者總體生存率相關(guān),進一步在TCGA數(shù)據(jù)庫中驗證了上述樞紐基因的表達水平,結(jié)果與GEO數(shù)據(jù)集的表達譜結(jié)果一致,并利用HPA數(shù)據(jù)庫驗證以上五種基因編碼的蛋白在CC中較正常宮頸組織的表達情況,結(jié)果顯示除CXCL8蛋白外,其余在腫瘤細胞中均呈表達上升水平。CXCL8 mRNA在CC中表達增高但CXCL8蛋白未被檢測到的原因可能是因為轉(zhuǎn)錄后調(diào)控和翻譯及翻譯后調(diào)控,再有就是mRNA的降解、蛋白的降解、修飾折疊等因素導(dǎo)致mRNA豐度與蛋白表達水平不一致。最后綜合分析發(fā)現(xiàn)CXCL8 mRNA 在CC患者中高表達且OS較差, 這表明高表達的CXCL8與CSCC的預(yù)后有關(guān)。
綜上所述,本研究通過運用多種生物信息學(xué)分析方法篩選CC樞紐基因及信號通路,進一步對樞紐基因進行預(yù)后分析,挖掘CC預(yù)后分析的潛在分子標(biāo)志,最終鑒定了5個CC樞紐基因,分別為CDK1、KIF11、CCNB1、CDC45及CXCL8,為CC治療及預(yù)后分析提供新的思路。