黃河 彭燕 盧娜 姜洪波 李成長
(1新鄉(xiāng)醫(yī)學(xué)院第四臨床學(xué)院 新鄉(xiāng)市中心醫(yī)院呼吸與危重癥醫(yī)學(xué)科一,河南 新鄉(xiāng) 453000;新鄉(xiāng)醫(yī)學(xué)院 2生理學(xué)與神經(jīng)生物學(xué)教研室;3第三附屬醫(yī)院營養(yǎng)科)
肺癌是全球范圍內(nèi)癌癥相關(guān)死亡的主要病因〔1〕。據(jù)估計(jì)80%~85%的肺癌患者罹患非小細(xì)胞肺癌(NSCLC)〔2〕,發(fā)病早期癥狀輕微,患者無明顯不適,導(dǎo)致大多數(shù)患者被發(fā)現(xiàn)并確診時(shí)已處于中晚期,治愈的機(jī)會非常小。晚期NSCLC的治療手段有放療、化療、分子靶向治療和免疫檢查點(diǎn)抑制劑治療等,其中免疫檢查點(diǎn)抑制劑毒副作用小,患者易于耐受,已成功應(yīng)用到許多晚期NSCLC患者的臨床治療中。目前,美國國家食品藥物監(jiān)督管理局(FDA)已批準(zhǔn)兩種針對程序性死亡分子(PD)-1的靶向性抗體藥物nivolumab和pembrolizumab用于治療晚期NSCLC患者〔2〕,以上兩種藥物對許多NSCLC患者的治療取得了積極效果,但對于表皮生長因子受體(EGFR)突變患者,尤其是已發(fā)生耐藥患者的治療,療效不明,尚存爭議〔3〕。為探索有效的NSCLC分子治療靶標(biāo),許多學(xué)者就NSCLC發(fā)病機(jī)制開展了大量探索〔4~6〕。研究表明延伸因子-2激酶(eEF-2K)表達(dá)上調(diào)引起絲裂原蛋白激活激酶(MAPK)/細(xì)胞外信號調(diào)節(jié)激酶(ERK)信號途徑激活,通過Src和細(xì)胞周期蛋白D1促進(jìn)肺癌細(xì)胞的增殖和轉(zhuǎn)移侵襲〔4〕。miR-302b-3p下調(diào)N-乙酰葡糖胺基轉(zhuǎn)移酶GCNT3表達(dá)可減少NSCLC細(xì)胞增殖、遷移和侵襲〔5〕。Rasip1是一種RUNX1靶基因,可促進(jìn)NSCLC細(xì)胞的遷移〔6〕。癌癥是一種多基因突變引起的疾病,參與其發(fā)生發(fā)展基因很多,生物信息學(xué)方法可在網(wǎng)絡(luò)層面同時(shí)對數(shù)萬個(gè)基因進(jìn)行研究,本文利用圖論的相關(guān)算法尋找NSCLC發(fā)病的關(guān)鍵基因。
1.1基因表達(dá)微陣列數(shù)據(jù)獲取 本研究基因表達(dá)微陣列數(shù)據(jù)集(GSE19804)下載于Gene Expression Omnibus(GEO),實(shí)驗(yàn)樣本取自不吸煙女性NSCLC患者的肺癌組織和癌旁組織,實(shí)驗(yàn)平臺是GPL570(HG-U133_Plus_2:Affymetrix Human Genome U133 Plus 2.0 Array)。
1.2差異基因分析 差異基因分析使用GEO2R在線工具,該工具基于R語言GEOquery 包和limma包比較肺癌組織和癌旁組織的基因表達(dá)差異,結(jié)果為按顯著性排序的基因列表。肺癌樣本和癌旁樣本之間的基因表達(dá)值比較P<0.05且差異倍數(shù)>2為顯著性變化差異基因。
1.3差異基因的GO富集分析 使用DAVID在線基因富集析工具對差異顯著的所有上調(diào)和下調(diào)基因進(jìn)行功能注釋,富集分析主要集中在GO生物過程、分子功能和細(xì)胞組成3個(gè)方面。
1.4構(gòu)建差異基因的蛋白互作網(wǎng)絡(luò)與KEGG通路富集分析 利用string在線蛋白質(zhì)互作網(wǎng)絡(luò)工具構(gòu)建差異基因的蛋白互作網(wǎng)絡(luò)。數(shù)據(jù)輸入采用Multiple Proteins模式,所有參數(shù)采用默認(rèn)數(shù)值,物種為人,可信度為0.40。輸入差異基因相應(yīng)的基因名,利用string數(shù)據(jù)庫生成蛋白互作網(wǎng)絡(luò),并進(jìn)行KEGG通路富集分析。
1.5選取關(guān)鍵基因 關(guān)鍵基因的選取利用Cytoscape軟件的一個(gè)插件CytoHubba完成,該插件集成了11種關(guān)鍵基因選擇算法,這些算法分別基于節(jié)點(diǎn)的連接度、最大鄰居組件(MNC)、邊緣滲出組件(EPC)、最大鄰居組件的密度(DMNC)、瓶頸值(BN)、最大團(tuán)中心性(MCC)、緊密度、偏心度、發(fā)散性、應(yīng)力、中介性進(jìn)行關(guān)鍵基因的選擇〔7〕。其中,MCC法效果相對更好,因此本課題采用MCC法選取關(guān)鍵基因。將利用string構(gòu)建的蛋白質(zhì)互作網(wǎng)絡(luò)數(shù)據(jù)導(dǎo)出,導(dǎo)入到Cytoscape軟件并利于cytohubba分析網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),基因MCC算法選擇關(guān)鍵基因,排名前十位的基因即為關(guān)鍵基因。
1.6生存分析 Kaplan Meier plotter是一個(gè)生存分析在線工具,它利用10 461個(gè)癌癥及存活樣本的數(shù)據(jù)評估54 675個(gè)基因?qū)颊呱鏁r(shí)間的影響。為驗(yàn)證MCC算法選取的關(guān)鍵基因?qū)︻A(yù)后的影響,分別將每個(gè)基因輸入到該分析工具進(jìn)行生存分析,所有參數(shù)采用網(wǎng)站默認(rèn)數(shù)值。
2.1差異表達(dá)基因 即使不懂R語言、芯片和測序分析方面的知識也可以使用GEO2R進(jìn)行操作。利用GEOquery和limma兩個(gè)R包對60個(gè)肺部腫瘤和癌旁組織樣本進(jìn)行基因表達(dá)的差異分析,共產(chǎn)生268個(gè)差異基因,其中有216個(gè)下調(diào)基因,52個(gè)上調(diào)基因。
2.2GO的術(shù)語富集分析 非吸煙者肺癌組織和正常組織差異表達(dá)基因的GO富集分析結(jié)果顯示,細(xì)胞黏附、炎癥反應(yīng)、蛋白水解、細(xì)胞外基質(zhì)重構(gòu)等生物學(xué)過程與NSCLC的發(fā)生密切相關(guān) (圖1)。與NSCLC發(fā)生相關(guān)的GO顯著富集細(xì)胞組分有:細(xì)胞膜、外泌體、細(xì)胞外基質(zhì)、細(xì)胞表面成分、三聚體膠原蛋白和膜筏等(圖2)。GO分子功能顯著富集于肝素結(jié)合和鈣離子結(jié)合 (圖3)。
2.3差異基因蛋白質(zhì)互作網(wǎng)絡(luò)構(gòu)建 利用顯著富集的GO生物學(xué)過程,構(gòu)建蛋白質(zhì)互作網(wǎng)絡(luò),所構(gòu)建網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為40、邊數(shù)為61、平均節(jié)點(diǎn)度為3.05、局部聚類系數(shù)為0.402、PPI富集P<0.01(圖4)。此外,利用string數(shù)據(jù)庫進(jìn)行KEGG分子通路注釋,注釋結(jié)果顯示,細(xì)胞因子-細(xì)胞因子受體互作、磷脂酰肌醇激酶-蛋白激酶B(PI3K-Akt)信號傳導(dǎo)途徑、細(xì)胞外基質(zhì)(ECM)-受體互作等信號通路參與NSCLC的發(fā)生。
2.4關(guān)鍵基因篩選 基于MCC算法,共選取了10個(gè)關(guān)鍵基因,分別是白細(xì)胞介素(IL)6、細(xì)胞紅蛋白(CYGB)的下游效應(yīng)物膠原蛋白(COL)1A1、金屬蛋白酶組織抑制劑(TIMP)1、血小板堿性蛋白基因(PPBP)、基質(zhì)金屬蛋白酶(MMP)1、分泌型磷蛋白(SPP)1、CXC型趨化因子受體(CXCR)2、趨化因子生長調(diào)節(jié)基因(CXCL)2、CXCL13和COL11A1。深色為基因MCC算法選取的關(guān)鍵基因,顏色越深代表基因的重要性越高,空白節(jié)點(diǎn)為與關(guān)鍵基因有直接互作關(guān)系的基因,見圖5。
圖1 GO生物學(xué)過程富集分析結(jié)果
圖2 GO細(xì)胞學(xué)組分
圖3 GO分子功能富集分析結(jié)果
圖4 蛋白質(zhì)互相作用網(wǎng)絡(luò)
2.5生存分析 對上述10個(gè)關(guān)鍵基因進(jìn)行Kaplan Meier生存分析,除了CXCR2網(wǎng)站沒有收錄之外,其他9個(gè)都有分析結(jié)果,上述關(guān)鍵基因的高表達(dá)導(dǎo)致預(yù)后總體存活時(shí)間顯著縮短(P<0.05),見圖6,圖7。
圖5 關(guān)鍵基因及其相鄰節(jié)點(diǎn)
圖6 代表性基因IL6、TIMP1的Kaplan Meier生存分析結(jié)果
圖7 代表性基因COL1A1、PPBP的Kaplan Meier生存分析結(jié)果
肺癌是全世界范圍內(nèi)最常見的惡性腫瘤之一,每年有超過100萬例患者死于該疾病。目前,肺癌在中國的發(fā)病率和死亡率均居惡性腫瘤第1位〔8〕。吸煙是導(dǎo)致肺癌的重要原因之一,但肺癌的發(fā)病與包括體重指數(shù)(BMI)〔9〕、53基因突變〔10〕、飲酒〔11〕和病毒感染〔12〕等一系列因素有關(guān),這是一個(gè)多因素誘發(fā)和多基因參與的疾病。NSCLC作為肺癌患者中占比最大的群體,確診時(shí)大多數(shù)患者已處于晚期,死亡率較高。
目前,肺癌發(fā)病機(jī)制的研究多集中在煙草致癌物所導(dǎo)致的代謝途徑改變以及基因表達(dá)譜的分析,對非吸煙者NSCLC的相關(guān)研究較少。腫瘤壞死因子(TNF)-α增強(qiáng)CD62E介導(dǎo)的發(fā)生轉(zhuǎn)移NSCLC癌細(xì)胞在血管內(nèi)皮細(xì)胞的黏附〔13〕,提示本研究顯著富集的細(xì)胞黏附相關(guān)基因大量參與NSCLC癌細(xì)胞的轉(zhuǎn)移。作為免疫球蛋白超家族成員之一,黏附分子(ICAM)-1已被證實(shí)與晚期NSCLC患者的放射性肺炎的相關(guān)性密切〔14〕,ICAM的高表達(dá)也可能由放療引起。蛋白分解和細(xì)胞外基質(zhì)重構(gòu)也是晚期NSCLC發(fā)生轉(zhuǎn)移的典型表現(xiàn),以上結(jié)果表明晚期NSCLC患者癌細(xì)胞轉(zhuǎn)移相關(guān)基因表達(dá)顯著增強(qiáng)。GO細(xì)胞組分和GO分子功能研究結(jié)果跟GO生物學(xué)過程基本一致。
臨床病理學(xué)研究表明,NSCLC陽性患者血清IL6水平明顯高于NSCLC陰性患者〔15〕,提示NSCLC癌細(xì)胞可能大量釋放IL6到血漿中,引起血漿IL6升高,IL6可作為臨床診斷肺癌的一個(gè)重要指標(biāo)。COL1A1在NSCLC中顯著過表達(dá),特別是在缺氧環(huán)境中,COL1A1過表達(dá)尤其顯著〔16〕,這表明COL1A1可能是NSCLC抵御缺氧環(huán)境頑強(qiáng)生存的重要原因。重癥NSCLC患者的TIMP1表達(dá)較高的患者中發(fā)現(xiàn)較短的存活時(shí)間〔17〕,提示TIMP1表達(dá)水平可作為預(yù)測患者存活時(shí)間的重要指標(biāo)。MMP1是與多種癌癥侵襲和轉(zhuǎn)移有關(guān)的蛋白水解酶,頭頸癌中的表達(dá)MMP1免疫陽性染色與較高的腫瘤分級顯著相關(guān)〔18〕,提示該基因可能在NSCLC發(fā)病過程中有類似的作用,并可能與腫瘤的分級有關(guān)。肺腺癌細(xì)胞中SPP1介導(dǎo)NSCLC相關(guān)巨噬細(xì)胞(TAM)極化,使肺癌逃避免疫攻擊,促進(jìn)肺癌的進(jìn)展〔19〕。CXCR2已被證實(shí)可影響各種惡性腫瘤發(fā)生發(fā)展,NSCLC患者CXCR2高表達(dá),與淋巴結(jié)轉(zhuǎn)移顯著相關(guān)〔20〕。淋巴細(xì)胞趨化因子CXCL2、CXCL13可介導(dǎo)淋巴細(xì)胞攻擊腫瘤,這兩種因子的高表達(dá)提示機(jī)體自身可能通過提高淋巴細(xì)胞對抗腫瘤細(xì)胞,發(fā)揮自身的防御功能。膠原蛋白COL11A1已被證實(shí)參與多種人類惡性腫瘤的細(xì)胞發(fā)生、發(fā)展與轉(zhuǎn)移,這表明COL11A1可作為轉(zhuǎn)移性NSCLC的生物標(biāo)志物〔21〕。PPBP在NSCLC患者發(fā)病過程中的作用尚未有報(bào)道,提示可能發(fā)現(xiàn)了一個(gè)新的與NSCLC發(fā)病相關(guān)的關(guān)鍵基因。