楊芳,李濟(jì)民,袁偉奇,羅以勤
肺癌作為全球發(fā)病率和死亡率最高的惡性腫瘤之一[1],嚴(yán)重威脅著人類的生命與健康。肺癌分為小細(xì)胞肺癌和非小細(xì)胞肺癌,其中肺腺癌是非小細(xì)胞肺癌最常見的組織學(xué)類型之一,約占40%[2-3]。盡管在肺癌的診治方面取得了不錯(cuò)的進(jìn)步,但是肺腺癌的預(yù)后仍然較差,5年生存率較低[4-5]。所以,尋找更有效的生物學(xué)標(biāo)志物對(duì)改善肺腺癌病人的生存和預(yù)后意義深遠(yuǎn)。
隨著基因芯片和RNA測(cè)序技術(shù)的發(fā)展,生物學(xué)信息分析方法已經(jīng)被廣泛用于識(shí)別與癌癥相關(guān)的生物標(biāo)志物[6]。具有類似表達(dá)模式的基因在功能上可能是相關(guān)的,然而這些方法僅僅是篩選出差異基因,卻忽視了基因間可能的相關(guān)性。加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analaysis,WGCNA)可以通過構(gòu)建基因共表達(dá)網(wǎng)絡(luò)來探索不同基因模塊與臨床特征之間的相關(guān)性[7]。
本研究采用WGCNA構(gòu)建肺腺癌基因共表達(dá)網(wǎng)絡(luò),識(shí)別共表達(dá)模塊,并根據(jù)相應(yīng)臨床信息探討其與基因模塊間的相關(guān)性,篩選出與肺腺癌臨床特征高關(guān)聯(lián)的模塊,最后對(duì)這個(gè)模塊基因編碼蛋白進(jìn)行蛋白質(zhì)相互作用(protein-protein interaction,PPI)分析,篩選出樞紐基因核分裂周期蛋白80(nuclear division cycle 80,NDC80)。
1.1 差異表達(dá)基因的篩選收集TCGA數(shù)據(jù)庫(https://cancergenome.nih.gov/)中497例肺腺癌癌組織和54例正常肺組織的RNA-seq表達(dá)矩陣及相應(yīng)的臨床信息。利用R語言的DESeq2軟件,對(duì)整理好的RNA-seq數(shù)據(jù)進(jìn)行基因表達(dá)差異分析,以對(duì)數(shù)化表達(dá)變化倍數(shù)(|log2FoldChange|)>1,及校正后的P<0.05作為篩選條件,得到差異表達(dá)基因(differentially expressed genes,DEGs),并制作火山圖。
1.2 WGCNA
1.2.1 構(gòu)建基因共表達(dá)網(wǎng)絡(luò) 在R語言下運(yùn)行WGCNA包建立基因共表達(dá)網(wǎng)絡(luò),剔除離群值,保證此網(wǎng)絡(luò)的穩(wěn)定性。依據(jù)無尺度網(wǎng)絡(luò)的標(biāo)準(zhǔn)挑選出合適的軟閾值β[8],并應(yīng)用β將相關(guān)矩陣轉(zhuǎn)為鄰接矩陣,然后將鄰接矩陣轉(zhuǎn)換成拓?fù)渚仃嚕╰opological overlap matrix,TOM),并計(jì)算1-TOM值。接著采用動(dòng)態(tài)剪切樹法進(jìn)行模塊的識(shí)別,最小模塊尺寸設(shè)置為20。最后采用層次聚類法對(duì)特征向量基因(module eigengene,ME)進(jìn)行聚類分析,同時(shí)制作出模塊樹狀圖。
1.2.2 鑒別與臨床信息相關(guān)的模塊 計(jì)算各模塊的ME與外部每個(gè)臨床特征信息的Pearson相關(guān)系數(shù)及P值,繪制模塊-特征的相關(guān)性熱圖,選取Pearson相關(guān)系數(shù)最高的基因模塊作為目的基因模塊。
1.3 樞紐基因的篩選將目的基因模塊里的所有基因編碼蛋白上傳到STRING數(shù)據(jù)庫(https://stringdb.org/),建立PPI網(wǎng)絡(luò)。綜合得分>0.4作為截止標(biāo)準(zhǔn)。并采用Cytoscape軟件對(duì)PPI網(wǎng)絡(luò)進(jìn)行可視化。最后使用其中的MCODE插件鑒定出樞紐基因(seed基因)。
1.4 樞紐基因的表達(dá)水平與肺腺癌分期、預(yù)后的關(guān)系使用基于TCGA的GEIPA數(shù)據(jù)庫(http://gepia.cancer-pku.cn/)分析樞紐基因在肺腺癌組織中的表達(dá)水平及其與腫瘤分期、預(yù)后的關(guān)系。
1.5 統(tǒng)計(jì)學(xué)方法統(tǒng)計(jì)分析均在R(3.5.3)語言上進(jìn)行,其中使用的R語言程序包包括DESeq2 1.26.0、WGCNA 1.69。樞紐基因的表達(dá)差異及其表達(dá)量與分期的關(guān)系采用單因素方差分析法;在肺腺癌中表達(dá)量與預(yù)后的關(guān)系采用Log-rank檢驗(yàn),以P<0.05表示差異有統(tǒng)計(jì)學(xué)意義。
2.1 差異表達(dá)基因的篩選使用R軟件讀取芯片數(shù)據(jù)得到13 289個(gè)肺腺癌相關(guān)基因,以(|log2FoldChange|)>1,校正后的P<0.05 為篩選標(biāo)準(zhǔn),得到11 904個(gè)DEGs,包括1 112個(gè)上調(diào)基因和792個(gè)下調(diào)基因。DEGs火山圖見圖1。
圖1 肺腺癌差異表達(dá)基因火山圖
2.2 基因共表達(dá)網(wǎng)絡(luò)的建立在R語言下運(yùn)行WGCNA包建立基因共表達(dá)網(wǎng)絡(luò),發(fā)現(xiàn)無需剔除離群值,故將1 904個(gè)DEGs全部用于WGCNA??紤]到無尺度網(wǎng)絡(luò)的構(gòu)建及平均連接度的適度保留,本研究選擇β=5構(gòu)建共表達(dá)網(wǎng)絡(luò)(相關(guān)系數(shù)等于0.98作為標(biāo)準(zhǔn)),見圖2。最終得到6個(gè)基因模塊,見圖3。
圖2 WGCNA軟閾值(β)的確定:A為不同β下計(jì)算的無尺度擬合指數(shù)分析;B為不同β下計(jì)算的平均連接度;C為當(dāng)β=5時(shí)連接度分布直方圖;D為當(dāng)β=5時(shí)無尺度拓?fù)錂z測(cè)
圖3 基因聚類樹狀圖
2.3 鑒別與臨床信息相關(guān)的模塊根據(jù)各個(gè)模塊的特征向量,利用R語言下的WGCNA包分別計(jì)算這些模塊與肺腺癌樣本臨床信息(腫瘤病人的生存時(shí)間、生存狀態(tài)、年齡、性別及腫瘤的TNM分期及遠(yuǎn)處轉(zhuǎn)移)之間的相關(guān)性。結(jié)果表明,棕色模塊與腫瘤病人生存時(shí)間的相關(guān)性較高(P=9e-04),藍(lán)色模塊與腫瘤病人性別的相關(guān)性較高(P=7e-04),見圖4。
圖4 肺腺癌不同臨床特征與模塊特征值相關(guān)性熱圖
2.4 樞紐基因的篩選為了篩選出樞紐基因,本研究將棕色模塊里的128個(gè)基因編碼蛋白和藍(lán)色模塊里的517個(gè)基因編碼蛋白分別上傳到STRING數(shù)據(jù)庫構(gòu)建PPI網(wǎng)絡(luò)。綜合得分>0.4時(shí),棕色模塊里的基因編碼蛋白構(gòu)建了包含46個(gè)節(jié)點(diǎn)和48個(gè)邊的網(wǎng)絡(luò),藍(lán)色模塊里的基因編碼蛋白構(gòu)建了包含290個(gè)節(jié)點(diǎn)和2347個(gè)邊的網(wǎng)絡(luò)??紤]到棕色模塊的PPI網(wǎng)格節(jié)點(diǎn)的度數(shù)普遍≤5,所以藍(lán)色模塊被確定為樞紐模塊。最后使用Cytoscape軟件中的MCODE篩選出藍(lán)色模塊中的核心模塊進(jìn)行后續(xù)分析,并發(fā)現(xiàn)NDC80是其樞紐基因(Seed基因)。
2.5 NDC80基因的表達(dá)與肺腺癌預(yù)后的關(guān)系。本研究使用GEIPA數(shù)據(jù)庫驗(yàn)證結(jié)果顯示,與正常肺組織樣本相比,NDC80基因的表達(dá)水平在肺腺癌組織中明顯升高(|log2FC|>1,P<0.05),且與肺腺癌的分期相關(guān)(F=3.58,P<0.05);預(yù)后結(jié)果顯示NDC80基因的高表達(dá)與肺腺癌的總生存期(Overall Survival,OS)較差明顯相關(guān)(HR=1.6,P<0.05),見圖5。
圖5 GEPIA數(shù)據(jù)庫中NDC80基因表達(dá)水平與肺腺癌分期及預(yù)后的關(guān)系:A為NDC80基因表達(dá)水平(P<0.05);B為NDC80表達(dá)水平與腫瘤分期的關(guān)系(P<0.05);C為NDC80基因表達(dá)水平與腫瘤總生存期的關(guān)系(P<0.05)
本研究利用基因共表達(dá)網(wǎng)絡(luò)分析及蛋白質(zhì)相互作用方法,篩選出肺腺癌差異表達(dá)基因NDC80,并通過GEIPA數(shù)據(jù)庫驗(yàn)證NDC80與肺腺癌分期及預(yù)后的關(guān)系。
NDC80復(fù)合體是一種異四聚體蛋白復(fù)合物,對(duì)細(xì)胞有絲分裂至關(guān)重要[9]。復(fù)合體異常表達(dá)會(huì)引起染色體異常分離,導(dǎo)致染色體不穩(wěn)定,而染色體不穩(wěn)定是腫瘤細(xì)胞的一個(gè)共同特征,是腫瘤形成的重要機(jī)制[10]。NDC80作為復(fù)合體的重要組成部分之一,其表達(dá)量在S期至M期顯著升高,且在G2/M期發(fā)揮著重要的調(diào)節(jié)作用[11]。研究表明NDC80基因在肝癌、乳腺癌、胃癌和胰腺癌組織中表達(dá)量均明顯升高,且NDC80基因的高表達(dá)與胰腺癌的預(yù)后有關(guān)[12-15]。Yuan 等[16]篩選了 13 個(gè) GSE數(shù)據(jù)集,發(fā)現(xiàn)NDC80等7個(gè)關(guān)鍵基因與ZW10基因相互作用,參與了肺癌的形成過程。本研究發(fā)現(xiàn)肺腺癌組織的NDC80基因的表達(dá)量明顯高于正常肺組織,且與腫瘤的分期相關(guān)。提示NDC80基因可能在肺腺癌的發(fā)生發(fā)展中發(fā)揮著重要的作用,這與前面的文獻(xiàn)報(bào)道是一致的。其次NDC80基因表達(dá)含量高的肺腺癌病人的總生存期明顯較短,這暗示了NDC80基因有望成為肺腺癌預(yù)后的生物學(xué)標(biāo)志物。
綜上所述,本研究通過WGCNA構(gòu)建共表達(dá)網(wǎng)絡(luò)及PPI網(wǎng)絡(luò)分析,篩選出與肺腺癌的分期及預(yù)后有關(guān)的基因NDC80,這些結(jié)論揭示了NDC80基因可能在肺腺癌病人的發(fā)生發(fā)展過程中發(fā)揮著重要的作用。