陳超 童國俊 張建斌 沈亮 何煥鐘
食管癌是因癌癥導(dǎo)致死亡的第六大原因,5年生存率僅為19%,其中晚期食管癌患者5年生存率僅0.9%[1]。近年來,食管腺癌發(fā)病率逐年上升;在西方國家,食管腺癌已成為發(fā)病率最高的食管惡性腫瘤[2]。隨著醫(yī)療水平的發(fā)展,食管腺癌患者的預(yù)后改善仍十分有限。在復(fù)雜的腫瘤微環(huán)境下,傳統(tǒng)的單基因研究因不能揭示腫瘤基因復(fù)雜的信號(hào)傳導(dǎo)網(wǎng)絡(luò)而存在很大的局限性。隨著基因芯片、轉(zhuǎn)錄組測序(RNA-seq)技術(shù)的發(fā)展,應(yīng)用生物信息分析實(shí)現(xiàn)多個(gè)基因表達(dá)及功能研究的方法,為疾病發(fā)生、發(fā)展的機(jī)制探索提供了新思路。本研究提取癌癥和腫瘤基因圖譜計(jì)劃(TCGA)數(shù)據(jù)庫中78例具有RNA-seq的食管腺癌標(biāo)本信息,通過加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGC原NA)研究腫瘤的RNA-seq數(shù)據(jù),篩選與預(yù)后相關(guān)的模塊及樞紐基因,并根據(jù)表達(dá)譜信息構(gòu)建多個(gè)樞紐基因的共表達(dá)網(wǎng)絡(luò)關(guān)系?,F(xiàn)將結(jié)果報(bào)道如下。
1.1 數(shù)據(jù)來源與預(yù)處理 9例正常食管組織和78例食管腺癌組織的基因表達(dá)數(shù)據(jù)及臨床預(yù)后數(shù)據(jù)均來源于免費(fèi)、開源的TCGA數(shù)據(jù)庫(https://cancergenome.nih.gov/)。將所有樣本的基因名轉(zhuǎn)化為標(biāo)準(zhǔn)基因名;數(shù)據(jù)的標(biāo)準(zhǔn)化處理是以正常食管組織為參照,對(duì)腫瘤標(biāo)本數(shù)據(jù)進(jìn)行歸一化處理。
1.2 共表達(dá)網(wǎng)絡(luò)的構(gòu)建和模塊的識(shí)別 利用R-3.5.1軟件運(yùn)行“WGCNA”包。為降低運(yùn)算量,筆者篩選出基因表達(dá)量方差大于所有方差四分位數(shù)的基因用于共表達(dá)網(wǎng)絡(luò)的構(gòu)建。采用樣本聚類樹方法,根據(jù)聚類圖剔除離群樣本來保證構(gòu)建穩(wěn)定的共表達(dá)網(wǎng)絡(luò)。構(gòu)建無尺度網(wǎng)絡(luò)使基因共表達(dá)網(wǎng)絡(luò)符合無尺度現(xiàn)象,以無尺度網(wǎng)絡(luò)指數(shù)(R2)=0.9作為滿足無尺度條件的標(biāo)準(zhǔn),同時(shí)根據(jù)平均連接度確定軟閾值(茁)。利用拓?fù)渲丿B(TOM)矩陣、相異常度矩陣計(jì)算基因與基因間的關(guān)聯(lián)程度[3];對(duì)基因構(gòu)建層次聚類樹圖形,采用動(dòng)態(tài)剪枝法計(jì)算基因模塊顏色。計(jì)算基因模塊的特征值(ME),引入臨床信息,對(duì)ME進(jìn)行分層聚類并繪制樹狀圖,設(shè)置高度值0.25為分割線,合并相似程度較高的基因模塊,再用剪切后的模塊繪制新的聚類樹和模塊圖。
1.3 表觀數(shù)據(jù)的納入和樞紐基因的篩選 讀取、清洗臨床樣本表觀數(shù)據(jù),主要包括性別、年齡、腫瘤級(jí)別、生存時(shí)間等,將樣本與表達(dá)矩陣進(jìn)行匹配重建樣本聚類樹。計(jì)算模塊與表觀數(shù)據(jù)相關(guān)性,繪制模塊內(nèi)基因表達(dá)熱圖,根據(jù)生存時(shí)間性狀與模塊特征向量基因的相關(guān)性及P值來挖掘與該性狀相關(guān)的模塊。計(jì)算相關(guān)模塊內(nèi)基因顯著性(GS)以及基因在模塊內(nèi)的模塊隸屬度(MM),設(shè)置樞紐模塊中候選樞紐基因3個(gè)篩選標(biāo)準(zhǔn),P.GS<0.05。同時(shí)計(jì)算加權(quán)基因共表達(dá)網(wǎng)絡(luò)的權(quán)重值,篩選出權(quán)重值前200位的基因,與上述候選樞紐基因的交集為共同樞紐基因。
1.4 樞紐基因及共表達(dá)網(wǎng)絡(luò)可視化 將共同樞紐基因及基因共表達(dá)網(wǎng)絡(luò)的權(quán)重信息導(dǎo)入Cytoscape3.7.0軟件,根據(jù)互作網(wǎng)絡(luò)關(guān)系繪制樞紐基因共表達(dá)網(wǎng)絡(luò)圖。
2.1 TCGA數(shù)據(jù)庫中食管腺癌病例基本信息 本研究共納入食管腺癌患者78例,其中男67例,女11例;年齡 28.0~86.6[68.4(58.0,77.1)]歲;生存時(shí)間(634依513)d;隨訪時(shí)間(603依524)d;國際抗癌聯(lián)盟食管癌TNM分期:玉期10例,域A期9例,域B期16例,芋期33例,郁期10例。
2.2 共表達(dá)網(wǎng)絡(luò)的構(gòu)建與樞紐模塊的選擇 基因表達(dá)量方差大于所有方差四分位數(shù)的基因共9 933個(gè),通過聚類樹刪除離群樣本14例,剩余64例食管腺癌樣本納入下一步分析。根據(jù)R2=0.9、茁=5作為標(biāo)準(zhǔn),當(dāng)茁=5時(shí),無尺度拓?fù)渚W(wǎng)絡(luò)的R2=0.95,見圖1。引入生存時(shí)間信息,采用動(dòng)態(tài)剪切法將樹剪切成不同的模塊,合并相似度較高的模塊,見圖2a(插頁)。通過模塊樣本性狀相關(guān)性熱圖,發(fā)現(xiàn)深藍(lán)色模塊與生存預(yù)后密切相關(guān),相關(guān)系數(shù)(Cor)=0.3,P=0.01,即深藍(lán)色模塊為樞紐模塊,見圖2b(插頁)。樞紐模塊中基因內(nèi)部連接度與MM相關(guān),深藍(lán)色模塊與基因顯著性相關(guān),Cor=0.61,P<0.01,見圖 3。
圖1 WGCNA的茁確定(a:不同茁下計(jì)算的無尺度網(wǎng)絡(luò)符合指數(shù);b:不同茁下計(jì)算的平均連接度;c:茁=5時(shí)連接度分布直方圖;d:茁=5時(shí)無尺度網(wǎng)絡(luò)拓?fù)錂z測)
2.3 樞紐基因確定及共表達(dá)網(wǎng)絡(luò)可視化 在深藍(lán)色樞紐模塊中,根據(jù)的標(biāo)準(zhǔn),篩選得到20個(gè)候選樞紐基因集A,再根據(jù)基因權(quán)重共表達(dá)網(wǎng)絡(luò)的權(quán)重大小篩選得到32個(gè)候選樞紐基因集B,基因集A和B的交集基因有19個(gè),見表1。將19個(gè)基因間的權(quán)重信息導(dǎo)入Cytoscape軟件后得到基因間互作網(wǎng)絡(luò)圖,其中基因間共表達(dá)權(quán)重系數(shù)最大的3對(duì)基因分別是FOLH1和SCRG1、FOLH1和UGT2B15、FOLH1和SFTB,見圖4。
圖2 動(dòng)態(tài)剪切樹與模塊樣本性狀相關(guān)性熱圖(a:確定β=5,合并相似度較高的模塊;b:引入生存時(shí)間作為樣本性狀,顯示與樣本性狀相關(guān)的模塊)
圖3 深藍(lán)色模塊中GS與MM的關(guān)系(右上角為的基因分布)
表1 19個(gè)與臨床預(yù)后相關(guān)的樞紐基因GS、MM和P.GS
圖4 樞紐基因之間的共表達(dá)網(wǎng)絡(luò)關(guān)系圖
胃食管反流、吸煙、肥胖、飲食習(xí)慣是食管腺癌的危險(xiǎn)因素[2]。而在危險(xiǎn)因素影響下的表觀遺傳異常修飾導(dǎo)致基因轉(zhuǎn)錄水平改變是腫瘤預(yù)后研究的基礎(chǔ)。局限于某個(gè)基因或某幾個(gè)分子的傳統(tǒng)研究方法不能全面地闡述腫瘤的發(fā)展及預(yù)后。WGCNA在2005年首先被提出,是指根據(jù)基因集的內(nèi)連性和基因集與表型之間的關(guān)聯(lián)鑒定候補(bǔ)生物標(biāo)記基因或治療靶點(diǎn)[4]。相比于傳統(tǒng)的單基因研究,WGCNA利用數(shù)千或近萬個(gè)變化最大的基因或全部基因的信息識(shí)別感興趣的基因模塊,并與表型進(jìn)行顯著性關(guān)聯(lián)分析。該方法創(chuàng)新性強(qiáng),研究結(jié)果可信度較高。近期亦有不少期刊發(fā)表了利用WGCNA的相關(guān)研究[5-7]。
本研究利用WGCNA處理78例食管腺癌標(biāo)本基因的RNA-seq數(shù)據(jù)及臨床數(shù)據(jù),通過深層次挖掘得到19個(gè)樞紐基因,并構(gòu)建了樞紐基因的共表達(dá)網(wǎng)絡(luò)。WGCNA構(gòu)建的預(yù)后相關(guān)的樞紐基因共表達(dá)網(wǎng)絡(luò)圖中,F(xiàn)OLH1與SCRG1、UGT2B15、SFTB等3個(gè)基因的共表達(dá)權(quán)重系數(shù)最高,屬于共表達(dá)網(wǎng)絡(luò)圖中的核心基因。FOLH1是一種域型跨膜糖蛋白,其分子量約為100kDa,由750個(gè)氨基酸組成[8]。FOLH1主要在前列腺、中樞及外周神經(jīng)系統(tǒng)、腎臟、小腸和腫瘤相關(guān)的新血管系統(tǒng)中表達(dá)[9],可通過谷氨酸代謝來調(diào)節(jié)葉酸的吸收[10]。有研究認(rèn)為FOLH1表達(dá)水平能評(píng)估腫瘤患者的預(yù)后,尤其在已發(fā)生腫瘤轉(zhuǎn)移的情況下;同時(shí)發(fā)現(xiàn)經(jīng)普通篩查發(fā)現(xiàn)的惡性腫瘤分級(jí)與FOLH1表達(dá)亦密切相關(guān)[11]。Chang等[12]稱FOLH1在多種惡性腫瘤的新生血管系統(tǒng)中均有表達(dá),可作為抗腫瘤新生血管生成治療的有效靶點(diǎn)。目前關(guān)于FOLH1在前列腺腫瘤中表達(dá)的研究較多[13-15],亦有FOLH1與乳腺癌[16]、非小細(xì)胞肺癌[17]等腫瘤預(yù)后有關(guān)的報(bào)道。然而,關(guān)于FOLH1在食管惡性腫瘤中表達(dá)的研究尚未見報(bào)道。根據(jù)WGCNA構(gòu)建的共表達(dá)網(wǎng)絡(luò)分析以及關(guān)于FOLH1的現(xiàn)有研究結(jié)果,筆者認(rèn)為FOLH1可能是食管腺癌中新的預(yù)后相關(guān)分子。
本研究通過WGCNA構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò),初步篩選得到與食管腺癌預(yù)后相關(guān)的19個(gè)樞紐基因及其共表達(dá)網(wǎng)絡(luò)關(guān)系,為食管腺癌的治療提供新靶點(diǎn)。