余東虎,黃靜宇,沈小艷,汪育錦,李 勝,胡衛(wèi)東
肺癌是世界第一大癌癥,每年約造成150萬人死亡,而肺腺癌是最常見的肺癌類型,約占肺癌的40%[1]。肺腺癌早期多無征兆,一般生長較慢,通常診斷出來時已是晚期,治療上存在困難,因此,從基因?qū)用孢M一步了解肺腺癌,能給臨床提供更多的解決方法。一些基因已經(jīng)被報道過與肺腺癌之間的聯(lián)系,Salim等[2]研究發(fā)現(xiàn)DKK1是潛在的非小細胞肺癌的治療靶點,Shi等[3]報道MAD2L1可能是肺腺癌的一個預后靶標。但是,肺腺癌的發(fā)生機制仍然有待進一步的研究。本研究利用生物信息學方法對基因芯片GSE10072進行分析,以此獲得差異表達基因(differentially expressed genes,DEGs),同時還對DEGs進行聚類分析和功能富集分析,并且構建蛋白互作(protein-protein interaction,PPI)網(wǎng)絡來篩選核心基因,最后通過GEPIA數(shù)據(jù)庫對結果進行驗證,期待提供給肺腺癌更多的診斷靶標。
1.1 數(shù)據(jù)獲取 在美國國立生物技術信息中心創(chuàng)建并維護的基因表達數(shù)據(jù)庫(Gene Expression Omnibus,GEO;http://www.ncbi.nlm.nih.gov/geo/)中下載編號為GSE10072的基因芯片,該芯片的平臺信息:GPL96 [HG-U133A] Affymetrix Human Genome U133A Array,共有107個樣本,其中49例正常肺組織樣本,58例肺腺癌組織樣本。將58例肺腺癌組織樣本作為實驗組,49例正常肺組織樣本作為對照組。
1.2 樣本的預處理、聚類分析 利用R軟件讀取文件后,使用RMA算法,將數(shù)據(jù)標準化后得到基因的表達矩陣,計算樣本間的Pearson相關矩陣中不同樣本之間的距離,對樣本進行聚類分析。
1.3 DEGs的分析 用R軟件讀入預處理后得到的基因表達矩陣文件,用Limma包對58例肺腺癌組織樣本和49例正常肺組織樣本進行基因差異表達分析[4]。DEGs篩選標準是錯誤發(fā)現(xiàn)率(false discovery rate,FDR)<0.05和基因表達值倍數(shù)變化>2或<-2。
1.4 功能與富集分析 使用DAVID在線分析平臺(https://david.ncifcrf.gov/)[5]對DEGs在基因本體(Gene Ontology,GO)中注釋這些基因參與的生物學過程(biological process,BP),并且利用京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)進行通路分析,F(xiàn)DR<0.05被認為具有統(tǒng)計學意義。
1.5 PPI網(wǎng)絡與樞紐基因的篩選 采用STRING數(shù)據(jù)庫[6]分析肺腺癌組織和正常肺組織DEGs之間的PPI關系,構造出PPI網(wǎng)絡,閾值條件為綜合評分大于0.4。將分析的數(shù)據(jù)導入Cytoscape軟件[7]后,利用網(wǎng)絡分析插件計算節(jié)點的連通度,以此篩選網(wǎng)絡中心節(jié)點,中心節(jié)點對應的基因是核心基因。
1.6 核心基因的驗證 用GEPIA(http://GEPIA.cancer-pku.cn/)進行進一步驗證與生存分析。GEPIA是一個基于TCGA和GTEx數(shù)據(jù)庫的網(wǎng)站工具,具有差異表達分析、輪廓繪圖和患者生存分析等功能[8]。使用GEPIA能避免下載TCGA原始數(shù)據(jù)再進行生存分析的繁瑣,不足之處是無法查看基因與癌癥患者的臨床病理相關性,但結果仍然具有嚴格的統(tǒng)計意義。
2.1 樣本聚類情況 結果顯示58例肺腺癌組織樣本(實驗組)和49例正常肺組織樣本(對照組)聚類良好,107例樣本均可用于下一步分析(圖1),差異基因熱圖也顯示樣本聚類分界明確(圖2)。
圖1 樣本聚類情況
紅色表示高表達,綠色表示低表達圖2 差異基因熱圖
2.2 DEGs情況 設FDR<0.05和基因表達值倍數(shù)變化>2或<-2為篩選條件,肺腺癌組織和正常肺組織DEGs有888個,其中上調(diào)基因有317個,下調(diào)基因有571個(圖2)。
2.3 DEGs的生物學功能注釋 GO功能注釋表示,有11個富集高的肺腺癌DEGs富集的BP(表1),其中相關程度高的BP是細胞粘附、藥物反應以及細胞外基質(zhì)的組成。
表1 功能富集(GO)
2.4 DEGs的KEGG信號通路 肺腺癌DEGs富集到的KEGG通路中富集度程度高的有2條,分別是細胞外基質(zhì)受體相互作用通路、補體和凝血級聯(lián)反應通路(表2)。
表2 KEGG通路富集
2.5 通過Cytoscape軟件構建PPI網(wǎng)絡 根據(jù)每個基因的節(jié)點數(shù)目排序,得到8個節(jié)點數(shù)最多的基因,即最相關的核心基因:GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1,CCNB1(圖3)。
紅色的點表示高表達基因,藍色表示低表達基因圖3 PPI網(wǎng)絡圖
2.6 核心基因外部驗證 通過查詢GEPIA腫瘤數(shù)據(jù)庫,相較正常組織,GAPDH,TOP2A,CDK1,MMP9,BIRC5,CCNB1在肺腺癌中高表達,IL6,EDN1在肺腺癌中低表達;在生存分析中,GEPIA基于TCGA數(shù)據(jù)庫,有514個腫瘤組織(但只有502名患者有較完整的臨床信息)和59個正常組織,肺腺癌患者的部分臨床信息如表3所示。顯示GAPDH,TOP2A,BIRC5,CCNB1的表達量與肺腺癌的預后相關,都具有嚴格的統(tǒng)計學意義;但IL6,CDK1,MMP9,EDN1與預后的關系無統(tǒng)計學意義。
表3 肺腺癌患者的部分臨床信息
通過對基因芯片GSE10072分析,共發(fā)現(xiàn)888個DEGs,其中上調(diào)基因有317個,下調(diào)基因有571個,GO功能富集和KEGG通路富集顯示在肺腺癌的發(fā)生進展中細胞外基質(zhì)的變化起到重要作用。同時還對DEGs構建了PPI網(wǎng)絡,然后篩選出了8個核心基因,分別是GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1和CCNB1。
通過數(shù)據(jù)庫驗證顯示,上調(diào)的核心基因GAPDH調(diào)節(jié)細胞凋亡的過程并參與細胞癌變進程,它的表達狀態(tài)在癌細胞中會被解禁[9]。Nicholls等[10]發(fā)現(xiàn)GAPDH作用于端粒酶復合體,會讓癌細胞持續(xù)增殖。KRAS突變能促發(fā)癌癥。Brooks等[11]報道IL6能引發(fā)KRAS突變,在肺腺癌細胞中IL6表達增強,遺憾的是,我們得到正好相反的結果。TOP2A是另一個重要的上調(diào)核心基因,它不僅參與DNA復制、轉(zhuǎn)錄與DNA重組,也參與了染色質(zhì)重塑的過程[12],研究顯示TOP2A高表達在前列腺癌、腎上腺皮質(zhì)癌、乳腺癌和子宮平滑肌肉瘤的侵襲和轉(zhuǎn)移中起重要作用。但目前還沒有研究涉及肺腺癌受TOP2A表達水平的影響。CDK1基因是細胞G2-M期過渡的關鍵因素,這就是眾所周知的成熟促進因子[13]。Jacquot等[14]發(fā)現(xiàn)四環(huán)三萜葫蘆素能有效抑制非小細胞肺癌,可檢測到CDK1表達明顯增強。MMP9編碼的蛋白可以降解組織中基底膜主要成分,能讓腫瘤細胞突破原發(fā)腫瘤部位[15]。Yu等[16]發(fā)現(xiàn)MMP9活性水平能作為切除Ⅰ期B型肺腺癌的預后評價的指標。這些研究都與我們的結果相一致。BIRC5是另一個上調(diào)基因,研究表明,BIRC5可以通過調(diào)節(jié)Arf6表達發(fā)揮其作用[17],故而猜測Arf6也是肺腺癌進展的作用基因。Baykara等[18]發(fā)現(xiàn)位于17號染色體上的BIRC5基因在肺癌細胞中表達增強。下調(diào)基因EDN1缺乏與癌癥相關性,是值得研究的新方向。Shi等[19]發(fā)現(xiàn)ISL1是CCNB1基因表達的新型調(diào)節(jié)器,并且敲除ISL1之后,CCNB1的表達量會減少,故而可推測ISL1也是肺腺癌潛在的治療靶點。
本研究通過生物信息學方法篩選出了DEGs,發(fā)現(xiàn)了GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1,CCNB1這8個核心基因,它們有可能成為肺腺癌的治療靶點和診斷靶標,但仍需要相關的生物實驗進一步探討它們在肺腺癌中的具體作用機制。