黃河 李成長(zhǎng) 彭燕 姜洪波
(1新鄉(xiāng)市中心醫(yī)院(新鄉(xiāng)醫(yī)學(xué)院第四臨床學(xué)院)呼吸與危重癥醫(yī)學(xué)科一,河南 新鄉(xiāng) 453000;新鄉(xiāng)醫(yī)學(xué)院 2基礎(chǔ)醫(yī)學(xué)院生理學(xué)與疾理生理系;3第三附屬醫(yī)院營(yíng)養(yǎng)科)
肺癌是腫瘤相關(guān)死亡的主要病因之一。導(dǎo)致肺癌的因素很多,吸煙是引起肺癌重要的因素之一〔1〕,可以導(dǎo)致多種類型的肺癌發(fā)生,如小細(xì)胞肺癌和鱗狀細(xì)胞肺癌〔2,3〕,該方面的研究也較多,但相當(dāng)一部分肺癌患者從不吸煙〔4〕,他們易罹患非小細(xì)胞肺癌(NSCLC)且大部分屬于肺腺癌(ADC),這方面的研究較少,發(fā)病原因及其分子機(jī)制尚不明確〔5〕,此外,對(duì)于相同的治療方案,吸煙人群和非吸煙人群NSCLC的治療效果并不一致〔6〕,提示兩者發(fā)病機(jī)制并不相同。目前幾乎所有肺癌治療的靶向藥物在治療過程中都會(huì)出現(xiàn)繼發(fā)耐藥現(xiàn)象〔7〕,目前尚未發(fā)現(xiàn)有關(guān)NSCLC患者中NCAPG基因的相關(guān)研究報(bào)道。本研究通過檢索美國(guó)國(guó)立衛(wèi)生研究院GEO數(shù)據(jù)庫(kù)的基因表達(dá)譜數(shù)據(jù),探討非吸煙肺癌患者NSCLC發(fā)病的分子生物學(xué)機(jī)制。
1.1基因表達(dá)譜數(shù)據(jù)的獲取 檢索GEO數(shù)據(jù)庫(kù)(Gene Expression Omnibus),選取GSE19804和GSE31210兩個(gè)基因表達(dá)譜數(shù)據(jù)集作為研究對(duì)象,其中,GSE19804包含來自非吸煙人群的60例腫瘤組織樣本和60例正常組織樣本。GSE31210數(shù)據(jù)集同時(shí)包含吸煙與非吸煙人群的標(biāo)本,僅從該數(shù)據(jù)集中選取不吸煙人群作為研究對(duì)象,包括含115例腫瘤組織樣本和8例正常組織樣本。
1.2差異基因的篩選 基于R語(yǔ)言的差異基因在線分析工具GEO2R對(duì)兩個(gè)基因表達(dá)譜數(shù)據(jù)集分別進(jìn)行差異表達(dá)分析,獲得差異表達(dá)基因(DEGs),差異表達(dá)基因的篩選條件為校正后P<0.05和|log2FC(fold change)|>1。然后利用火山圖可視化顯著差異表達(dá)基因。 最后,對(duì)兩個(gè)基因差異表達(dá)分析結(jié)果取交集,作為最終的差異表達(dá)基因。
1.3GO 和KEGG通路富集分析 DEGs的GO富集分析主要包括生物過程、分子功能和細(xì)胞組成3個(gè)方面。 使用京都基因與基因組百科全書(KEGG)對(duì)DEGs相關(guān)的生物學(xué)通路進(jìn)行富集分析。DAVID是一個(gè)強(qiáng)大的在線基因功能富集分析工具,本研究主要使用DAVID進(jìn)行GO和KEGG信號(hào)通路進(jìn)行富集分析,P<0.05和基因數(shù)大于10作為顯著富集的納入標(biāo)準(zhǔn)。
1.4蛋白互作網(wǎng)絡(luò)的構(gòu)建與關(guān)鍵基因的鑒別 基于STRING數(shù)據(jù)庫(kù)利用DEGs構(gòu)建蛋白-蛋白互作(PPI)網(wǎng)絡(luò)。為對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的分析,將蛋白互作信息導(dǎo)入Cytoscape軟件?;贑ytoscape的內(nèi)置插件Cytohubba對(duì)網(wǎng)絡(luò)進(jìn)行拓?fù)浣Y(jié)構(gòu)分析,基于MCC算法對(duì)PPI網(wǎng)絡(luò)中的節(jié)點(diǎn)按照度值排序,選取度值排名前10位的基因?yàn)殛P(guān)鍵基因。
1.5生存分析 利用Kaplan Meier plotter和GEPIA在線生存分析工具對(duì)所鑒別的關(guān)鍵基因進(jìn)行生存分析,研究關(guān)鍵基因高表達(dá)與NSCLC患者生存時(shí)間的關(guān)系。參數(shù)均采用網(wǎng)站默認(rèn)設(shè)置,P<0.05代表關(guān)鍵基因高表達(dá)與患者生存時(shí)間顯著相關(guān)。
2.1差異表達(dá)基因的篩選 使用基于R語(yǔ)言的GEO2R在線分析工具分別對(duì)GSE19804和GSE31210兩個(gè)基因表達(dá)譜數(shù)據(jù)集中不吸煙人群的NSCLC腫瘤組織和正常肺組織樣本進(jìn)行差異表達(dá)基因分析。結(jié)果顯示:GSE19804表達(dá)譜差異分析共得到456個(gè)上調(diào)DEGs和950個(gè)下調(diào)DEGs;GSE31210表達(dá)譜差異分析共產(chǎn)生1 342個(gè)上調(diào)DEGs和1 413個(gè)下調(diào)DEGs。上述兩個(gè)基因表達(dá)譜數(shù)據(jù)差異表達(dá)基因的分布情況最終用火山圖可視化展示,見圖1。對(duì)兩組基因的上調(diào)和下調(diào)基因分別取交集,其中上調(diào)DEGs 343個(gè)、下調(diào)DEGs 679個(gè),兩個(gè)基因表達(dá)譜差異表達(dá)分析共得到1 022個(gè)共有DEGs。
虛線上灰色點(diǎn)代表上調(diào)基因,虛線下灰色的點(diǎn)代表下調(diào)基因,黑色的點(diǎn)代表在腫瘤和正常組織中表達(dá)差異不顯著的基因圖1 GSE19804 和GSE31210基因表達(dá)譜數(shù)據(jù)集基因差異表達(dá)分析結(jié)果的火山圖
2.2共有DEGs的GO與KEGG通路富集分析 以P<0.05且基因數(shù)大于10作為顯著富集的納入標(biāo)準(zhǔn),對(duì)共有DEGs進(jìn)行GO和KEGG通路富集分析。選取富集顯著水平排名前10的GO詞匯和通路進(jìn)行可視化展示,見圖2。結(jié)果顯示,GO富集顯著的生物學(xué)過程主要包括細(xì)胞黏附、細(xì)胞外基質(zhì)組織、血管生成、個(gè)體細(xì)胞間黏附、白細(xì)胞遷移、細(xì)胞表面受體信號(hào)通路、受體內(nèi)化、血管生成的正調(diào)控等方面。顯著富集的GO分子功能主要體現(xiàn)在肝素結(jié)合、鈣離子結(jié)合、金屬內(nèi)肽酶活性、金屬肽酶活性、碳水化合物結(jié)合、膠原結(jié)合、轉(zhuǎn)錄激活子活性、RNA聚合酶Ⅱ核心啟動(dòng)子近端區(qū)域序列特異性結(jié)合、Ras鳥苷核苷酸交換因子活性、肌動(dòng)蛋白結(jié)合。顯著富集的GO細(xì)胞組分包括細(xì)胞外區(qū)域、細(xì)胞外空間、蛋白細(xì)胞外基質(zhì)、質(zhì)膜、質(zhì)膜的組成部分、膜筏、細(xì)胞表面、細(xì)胞外泌體、細(xì)胞外基質(zhì)、膜的組成部分等。顯著富集信號(hào)通路包括細(xì)胞黏附分子(CAMs)、細(xì)胞周期、細(xì)胞外基質(zhì)-受體相互作用、癌癥相關(guān)轉(zhuǎn)錄失調(diào)等。
A代表GO生物學(xué)過程富集分析結(jié)果,B代表GO分子功能富集分析結(jié)果,C代表GO細(xì)胞組分富集分析結(jié)果,D代表KEGG通路富集分析結(jié)果。柱狀圖長(zhǎng)度(-log10 P值)代表富集顯著程度圖2 GO和KEGG富集
2.3PPI網(wǎng)絡(luò)的構(gòu)建 為從系統(tǒng)角度展現(xiàn)與肺癌發(fā)生密切相關(guān)的重要基因及它們之間的互作關(guān)系。將共有DEGs輸入到STRING數(shù)據(jù)庫(kù),采用默認(rèn)參數(shù)構(gòu)建PPI,所構(gòu)建PPI網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為945,邊數(shù)為6033,平均節(jié)點(diǎn)度為12.8,局部聚類系數(shù)為0.343,PPI富集P值<0.05。提示網(wǎng)絡(luò)圖中各基因直接有明顯的互作關(guān)系。
2.4關(guān)鍵基因鑒別 PPI網(wǎng)絡(luò)是典型的無(wú)標(biāo)度網(wǎng)絡(luò),節(jié)點(diǎn)間的連接狀況具有高度不均勻分布性,僅少數(shù)基因與多個(gè)基因之間存在相互作用,大多數(shù)基因只與很少量的其他基因存在互作關(guān)系,網(wǎng)絡(luò)中少數(shù)與其他基因間存在大量互作關(guān)系,具有較高的連接度值,處于PPI 網(wǎng)絡(luò)中的關(guān)鍵位置,被稱為關(guān)鍵基因(Hub gene)。在本研究中,按照連接度值,選取排名前10的基因?yàn)殛P(guān)鍵基因,分別是CDK1、CCNB1、BUB1B、CCNB2、AURKA、MAD2L1、CDC20、CCNA2、BUB1、NCAPG,見圖3。
深色節(jié)點(diǎn)為根據(jù)MCC算法選取的關(guān)鍵基因,白色節(jié)點(diǎn)是與這些關(guān)鍵基因有直接互作關(guān)系的相鄰節(jié)點(diǎn)圖3 基于MCC算法所選取的關(guān)鍵基因及與有直接互作關(guān)系的節(jié)點(diǎn)形成的蛋白互作網(wǎng)絡(luò)
2.5生存分析 選取排名前10的關(guān)鍵基因進(jìn)行Kaplan Meier生存分析,其中CDK1通過GEPIA在線工具分析完成,其余9個(gè)關(guān)鍵基因利用Kaplan Meier plotter完成,結(jié)果表明本文鑒別的所有關(guān)鍵基因高表達(dá)與肺癌人群的總體存活時(shí)間減少存在顯著的相關(guān)性(P<0.05),見圖4。
圖4 6個(gè)代表性關(guān)鍵基因的Kaplan Meier生存分析結(jié)果
肺癌是一種發(fā)病率與致死率都很高的疾病,研究表明,每年約有120萬(wàn)人死于該病〔8〕。NSCLC是肺癌的一種亞型,發(fā)病率占肺癌患者的75%~80%,因此,NSCLC相關(guān)方面研究具有重要的理論與現(xiàn)實(shí)意義。富谷氨酸WD重復(fù)序列蛋白(GRWD)1過表達(dá)與腫瘤患者較差的預(yù)后密切相關(guān),研究表明,GRWD1 可通過CDK1和 CCNB1促進(jìn)NSCLC腫瘤細(xì)胞的細(xì)胞集落的形成〔9〕,這一研究結(jié)果提示CDK1和 CCNB1在NSCLC發(fā)生發(fā)展過程中發(fā)揮了重要作用?;赪GCNA方法的研究顯示BUB1B 與CCNB2分別是與肺腺癌和鱗狀細(xì)胞癌腫瘤疾病進(jìn)展相關(guān)的關(guān)鍵基因,這一研究結(jié)論為本研究結(jié)果的可靠性提供了更多依據(jù)〔10〕?;虮磉_(dá)的定量實(shí)驗(yàn)研究顯示,預(yù)后較差的NSCLC患者其AURKA基因表達(dá)量顯著升高〔11〕,提示AURKA是預(yù)后不良的一個(gè)重要標(biāo)志物。Pabla等〔12〕報(bào)道10個(gè)NSCLC細(xì)胞增殖關(guān)聯(lián)基因BUB1、CCNB2、CDK1、CDKN3、FOXM1、KIAA0101、MAD2L1、MELK、MKI67和TOP2A與腫瘤對(duì)免疫檢查點(diǎn)抑制劑(ICI)的耐藥性相關(guān)。免疫組化實(shí)驗(yàn)表明,CDC20高表達(dá)的NSCLC患者預(yù)后相對(duì)較差〔13〕。Ruan等〔14〕發(fā)現(xiàn)CCNA2是NSCLC腫瘤細(xì)胞轉(zhuǎn)移的關(guān)鍵調(diào)節(jié)劑,可作為靶向治療NSCLC的新靶標(biāo)。Gemma等〔15〕發(fā)現(xiàn)BUB1基因突變與有絲分裂檢查點(diǎn)基因的突變與腫癌的發(fā)生發(fā)展有關(guān)。
NSCLC患者的腫瘤發(fā)病關(guān)鍵基因的研究目前已有部分報(bào)道,Chen等〔16〕對(duì)3個(gè)基因表達(dá)譜的研究共鑒別10個(gè)NSCLC關(guān)鍵基因,但僅有CDK1、PLK1、RAD51和RFC4 4個(gè)基因被證明與患者生存時(shí)間降低密切相關(guān),Liu等〔17〕研究表明,CDK1、UBE2C、AURKA、CCNA2、CDC20、CCNB1、TOP2A、ASPM、MAD2L1和KIF11是NSCLC患者發(fā)病的關(guān)鍵基因。由于上述研究未對(duì)吸煙及未吸煙樣本進(jìn)行區(qū)分,研究對(duì)象的不同可能是引起與本研究結(jié)果不一致的重要原因。
綜上,本研究共鑒別10個(gè)與不吸煙人群NSCLC患者腫瘤發(fā)生和進(jìn)展密切關(guān)聯(lián)的關(guān)鍵基因,其中NCAPG未見相關(guān)報(bào)道,這些基因的高表達(dá)與患者生存時(shí)間降低顯著相關(guān)。