丁華杰,葉 云,安 歡,高 強,鐘英英
(廣西科技大學,廣西 柳州 545006)
在我國,肺癌的發(fā)病率及死亡率在惡性腫瘤中位居第一位[1],而肺腺癌又是肺癌的主要類型之一[2],嚴重威脅著人類健康。臨床上75%的患者被確診時已發(fā)生轉(zhuǎn)移或者已處于癌癥晚期,雖然隨著現(xiàn)代臨床診斷水平的提高,使得肺癌患者整體生存率和生存質(zhì)量有了改善,但是預后生存率依然不理想,僅為15%左右[3-4]。雖然目前對肺癌分子機制有一定的了解,但對于改善肺癌的診治現(xiàn)狀而言還是不夠的,因而需要進一步發(fā)現(xiàn)肺癌相關(guān)基因,為肺癌的診斷、治療、預后診斷等提供新的靶點,研究肺腫瘤發(fā)生發(fā)展和潛在機制,以及確定潛在預后生物標志物靶標。
研究表明,腫瘤的發(fā)生是多基因、多步驟、多階段的過程[5],這一過程可能涉及不同的基因和不同的變化形式,而基因的變化和基因間的信號傳遞與腫瘤臨床治療的敏感性密切相關(guān)[6],如能在分子水平上對腫瘤基因變化提供指標,則對腫瘤的個性化和預見性治療具有臨床實用意義。近年來,分子靶點和網(wǎng)絡(luò)的大數(shù)據(jù)生物信息學越來越受到重視[7-8],特別是引入了大量的分子分析平臺,包括肺癌在內(nèi)的多種癌癥基因組數(shù)據(jù)是公開的[9-10]。這些數(shù)據(jù)為研究人員更好地認知癌癥分子,尋找新的治療靶點提供了寶貴的資源[11-12]。鑒于肺腺癌是肺癌的主要類型之一,本文遵循循證醫(yī)學的原理及方法,采用了Kaplan-Meier分析和系統(tǒng)評價方法等的應用,從基因表達綜合數(shù)據(jù)庫、DAVID數(shù)據(jù)庫和Oncomine、GEPIA等數(shù)據(jù)庫著手研究,探討關(guān)鍵基因在肺腺癌患者中的表達分布和預后意義,篩選出候選基因作為預測癌癥生物標志物與肺腺癌預后關(guān)系等,無論從方法學、理論基礎(chǔ)等方面均具有十分重要的意義。因此,生物信息學分析是一種可行的、非常有價值的數(shù)據(jù)挖掘和基因篩選預測的方法,可為后期的實驗驗證、新藥物的研發(fā)、患者的預后提供很好的思路。
在本研究中,通過Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo)數(shù)據(jù)庫獲取數(shù)據(jù)集(GSE18842,GSE74706,GSE101929),均基于GPL570平臺(Affymetrix Human Genome U133 Plus 2.0 Array)。如表1。
為了揭示差異基因的生物學功能,對獲取的差異基因進行富集分析。Gene Ontology(GO)功能注釋分析(包括細胞組成、生物過程和分子功能三個方面)。以及京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes, KEGG),信號通路分析均通過DAVID6.7執(zhí)行,分析這些差異基因可能引起哪些基因功能和信號通路的改變。
STRING數(shù)據(jù)庫(https://string-db.org)(版本11.0)包括2031種生物的9 643 763種蛋白質(zhì),共計1 380 838 440個相互作用的信息??梢杂糜跇?gòu)建蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò),它主要是通過節(jié)點、邊緣、度和網(wǎng)絡(luò)結(jié)構(gòu)來測量網(wǎng)絡(luò),因此它可以幫助識別關(guān)鍵基因和關(guān)鍵蛋白質(zhì)群落。
Oncomine是癌癥微陣列數(shù)據(jù)庫和在線數(shù)據(jù)挖掘平臺,可用于分析差異基因、尋找離群值、預測共表達基因等。其中包括74個癌癥微陣列數(shù)據(jù)庫,在本研究中,選用基于微陣列平臺Human Genome U133 Plus 2.0來檢索mRNA表達信息來驗證在肺癌中的表達差異情況。設(shè)定篩選條件為:P<1E-4,F(xiàn)OLD CHANGE>2倍,GENE RANK=Top 10%。
通過基因表達譜動態(tài)分析(Gene Expression Profiling Interactive Analysis,GEPIA)選擇TCGA和GTEx數(shù)據(jù)集,分析候選基因在正常肺組織以及肺腺癌組織中的表達情況并進行比較。
Kaplan-Meier Plotter[13]包含乳腺癌、肺癌、卵巢癌和胃癌患者共計54 675個基因和10 461個癌癥樣本的存活率。使用Kaplan-Meier繪圖儀分析了mRNA在所有肺腺癌中不同類型的臨床病理分類中的預后價值。以P<0.05為差異有統(tǒng)計學意義。
表1 基因表達譜數(shù)據(jù)集
圖1 差異基因的篩選Figure 1 Screening of the differential genes
通過R語言多種軟件包對以上基因表達譜數(shù)據(jù)進行分析,篩選得到上下調(diào)差異基因,繪制火山圖,如圖1所示。篩選條件設(shè)定為:校正后P<0.05,|log2FC|>2.0。利用FunRich軟件獲得共同差異基因314個,如圖2所示。
圖2 獲取的共同差異表達基因Figure 2 Obtained common differentially expressed genes
差異基因功能富集分析結(jié)果顯示,細胞組成(CC)主要包括染色體組成、中心體和紡錘體等相關(guān),生物過程(BP)主要包括細胞周期及有絲分裂,分子功能(MF)則主要包含核苷酸、蛋白激酶和細胞因子活性等(圖3A)。信號通路富集結(jié)果顯示,差異基因主要與細胞周期、p53信號通路、PPAR信號通路、ECM受體相互作用等顯著相關(guān)(圖3B)。
注:A:基因功能富集分析結(jié)果。 B:信號通路富集分析結(jié)果。圖3 基因功能富集分析和信號通路分析Note. A,Gene function enrichment analysis results. B, Signal pathway enrichment analysis results.Figure 3 Gene functional enrichment analysis and signal pathway analysis
如圖4所示,將STRING中已經(jīng)構(gòu)建的PPI蛋白網(wǎng)絡(luò),導入Cytoscape 3.6.1軟件中的cytoHubba插件,采用最大聚集中心(Maximal Clique Centrality,MCC)方法,選取排名前50個基因做出蛋白網(wǎng)絡(luò)圖,最終選取前6個基因定義為關(guān)鍵基因(BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB)進行下一步的分析。
圖4 部分關(guān)鍵基因的蛋白互作網(wǎng)絡(luò)圖Figure 4 Protein interaction network diagram of some key genes
如圖5所示,在Oncomine數(shù)據(jù)庫中確定這六個候選基因在不同癌癥中的mRNA表達水平,在所有有統(tǒng)計學意義的研究中,候選基因在肺癌中全部呈現(xiàn)高表達。
GEPIA數(shù)據(jù)庫分析結(jié)果圖6顯示,與正常肺組織相比,(BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB)在肺腺癌中mRNA均呈現(xiàn)高表達狀態(tài)。并且都具有顯著性差異,P<0.05。
為了進一步驗證候選基因在肺腺癌發(fā)生發(fā)展過程中的影響,采用Kaplan-Meier Plotter分析候選基因?qū)颊哳A后的影響,分析結(jié)果如圖7所示。
盡管目前肺腺癌的研究一直是科研界的研究熱點,但是其早期診斷、治療以及預后效果仍然得不到較好的改善。因此,闡明肺腺癌的發(fā)生發(fā)展機制對肺腺癌的發(fā)現(xiàn)、診斷以及預后恢復至關(guān)重要。隨著腫瘤分子生物學的深入研究,肺腺癌發(fā)生發(fā)展過程中的差異表達基因的篩選變得更方便,這為預防和治療肺腺癌提供了一個很好的思路。
圖5 候選基因在不同癌癥中的表達情況Figure 5 Expression of the candidate genes in different cancers
為了找到與肺腺癌預后相關(guān)的候選生物標志物,由全球最大基因表達綜合數(shù)據(jù)庫(GEO)選取三組基因表達譜數(shù)據(jù)(GSE18842,GSE74706,GSE101929)。為了對數(shù)據(jù)結(jié)果進行更透徹的分析,結(jié)果更有意義,對基因進行分類,并與生物學表型相關(guān)聯(lián),發(fā)掘其調(diào)控的生物學功能,DAVID數(shù)據(jù)庫因其使用簡便,分析結(jié)果全面受到科研工作者的廣泛使用,所以本次研究選用DAVID對篩選出的差異基因進行GO功能注釋及KEGG通路富集分析,提示這些差異基因主要參與染色體組成、中心體、細胞周期、有絲分裂和蛋白激酶等作用。而在KEGG信號通路富集分析發(fā)現(xiàn)這些基因主要參與細胞周期、p53信號通路、PPAR信號通路以及ECM-受體相互作用等。眾所周知,腫瘤細胞增殖與細胞周期密切相關(guān),并受到周期相關(guān)因子的調(diào)控[14]。早些年的研究顯示,P53基因是明確的保守基因,并且參與細胞周期阻滯,細胞凋亡和衰老誘導。Weiss等[15]的研究表明,P53信號通路的改變在非小細胞肺癌中很常見。最近的研究表明,PPARs受體激動劑可能會導致某些腫瘤的發(fā)生,比如乳腺癌、膀胱癌、肝癌、血管癌等[16]。除此之外,還有部分基因富集到ECM受體相互作用,同樣在癌癥的發(fā)生發(fā)展過程中起著重要作用。
將篩選高表達基因?qū)氲紺ytoscape產(chǎn)生的PPI網(wǎng)絡(luò)中,進一步采用CytoHubba識別候選基因,做出蛋白相互作用網(wǎng)絡(luò)圖,BUB1B等六個基因富集分數(shù)較高,且相關(guān)性較好。另外Oncomine數(shù)據(jù)庫是當今世界上最大的腫瘤芯片數(shù)據(jù)庫與整合平臺,可以通過可視化結(jié)果將關(guān)鍵基因在不同癌癥種類中的表達情況展示出來,有助于我們進一步研究基因的潛在意義,基因表達譜數(shù)據(jù)交互分析(Gene Expression Profiling Interactive Analysis,GEPIA)數(shù)據(jù)庫是在腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)與基因型—組織表達(The Genotype-Tissue Expression,GTEx)這兩大著名轉(zhuǎn)錄組數(shù)據(jù)庫基礎(chǔ)上建立的可視化癌癥大數(shù)據(jù)分析平臺,因此本文通過Oncomine數(shù)據(jù)庫、GEPIA數(shù)據(jù)庫以及Kaplan-Meier Plotter數(shù)據(jù)庫分析了各個基因在正常與癌癥細胞中的表達情況以及生存分析情況,進一步驗證了研究人員篩選的候選基因的準確性。BUBIB是細胞周期的重要調(diào)控因子,在多種細胞周期中有明顯的過表達,其過表達與胃癌[17]、膀胱癌[18]、肝癌[19]等多種癌癥的進展和復發(fā)有關(guān)[20]。但在肺癌中的研究相對較少。CDCA8和CDC20是屬于CDC家族(cell division cycle gene,細胞分裂周期基因)的基因,這是一類編碼周期性激酶的蛋白[21]。人類細胞分裂周期相關(guān)蛋白-8(CDCA8),是細胞有絲分裂的調(diào)節(jié)因子,被證明與肺癌相關(guān)[22]。研究發(fā)現(xiàn),當敲除CDCA8基因時,胚胎干細胞、結(jié)腸癌、肺癌的增殖得到了明顯的抑制[23]。而CDC20可能是一種致癌蛋白,促進人類癌癥的發(fā)生發(fā)展。其在分化不良的腫瘤細胞中的表達顯著升高,與肺癌[24]、膀胱癌[25]、結(jié)腸癌[26]、乳腺癌[27]等癌癥的不良預后有關(guān)。
注:A(BUB1B),B(CDCA8),C(CDC20),D(BUB1),E(KIF20A),F(xiàn)(AURKB)。圖6 基因在肺腺癌中的表達情況Note. A(BUB1B),B(CDCA8),C(CDC20),D(BUB1),E(KIF20A),F(xiàn)(AURKB).Figure 6 Gene expression in lung adenocarcinoma
圖7 候選基因在肺腺癌中的生存分析Figure 7 Survival analysis of the candidate genes in lung adenocarcinoma
BUB1可提高抑癌基因如P53的突變率,致使由p53信號通路引起的細胞凋亡障礙,從而導致細胞無限惡性增殖[28]。Jia等[29]的研究發(fā)現(xiàn),BUB1可能是通過磷酸化CDC20分子來實現(xiàn)對細胞周期的調(diào)控的。有趣的是,相關(guān)研究發(fā)現(xiàn)BUB1顯著過表達與預后不良相關(guān)[30],但其在不同類型癌癥中發(fā)揮不同作用的一個原因可能是表達水平的不同。研究表明KIF(驅(qū)動蛋白家族成員)的表達和功能方面發(fā)生異常,提示在各種腫瘤的發(fā)生中發(fā)揮重要作用[23]。KIF20A是一種微管蛋白相關(guān)的驅(qū)動蛋白,是屬于KIF(肌動蛋白超家族)蛋白的一員,協(xié)調(diào)細胞分裂中的細胞轉(zhuǎn)運,在多種癌細胞中過表達,并與紫杉醇耐藥性相關(guān)[31]。Sheng等[32]的研究表明,KIF20A基因的高表達與胃癌的預后不良有關(guān),但其在肺腺癌中具體的作用機理、表達水平和臨床價值尚不清楚。AURKB是一種有絲分裂檢查點激酶,其過表達導致P53信號通路失活,從而在細胞癌變過程中發(fā)揮作用[33]。這與BUB1基因的致病機理相似。AURKB通過直接磷酸化CDCA8的Ser154、Ser219、Ser275和Thr278位點,可以穩(wěn)定癌細胞中的CDCA8蛋白,通過在肺癌中磷酸化CDCA8,從而抑制肺癌細胞的生長[23]。然而,異常AURKB高表達是如何維持平衡的,以協(xié)調(diào)驅(qū)動有絲分裂細胞的進展和惡性腫瘤仍不清楚。因此,可以做出假設(shè),這幾個基因是肺腺癌發(fā)生發(fā)展的并有希望成為治療靶標的候選生物標志物。
本研究初步分析顯示,在肺腺癌患者中,BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB均高表達且與腫瘤的發(fā)生發(fā)展有關(guān),并對于預測肺腺癌預后有一定價值?;诜治鼋Y(jié)果可以認為,BUB1B等六個基因極有可能是肺腺癌發(fā)生發(fā)展的重要部分,以及準確的治療靶點,本研究可為后續(xù)肺腺癌的診斷、靶向治療、藥物的研發(fā)方提供新的思路。