吳奇橋 張樹民 鄭婷婷 劉 娟 胡 永 林登強(qiáng) 戴夢婷 孫 菁▲
1.復(fù)旦大學(xué)附屬中山醫(yī)院廈門醫(yī)院放療科,福建廈門 361006;2.復(fù)旦大學(xué)附屬中山醫(yī)院放療科,上海 200030;3.復(fù)旦大學(xué)附屬中山醫(yī)院廈門醫(yī)院放射科,福建廈門 361006;4.復(fù)旦大學(xué)附屬中山醫(yī)院廈門醫(yī)院泌尿外科,福建廈門 361006
乳腺癌是威脅女性健康的最常見惡性腫瘤,是美國第二大最常見的癌癥相關(guān)死亡[1]。乳腺原位癌通常具有良好的預(yù)后,然而,乳腺癌若出現(xiàn)遠(yuǎn)處轉(zhuǎn)移往往會導(dǎo)致危及生命的結(jié)果[2]。總體而言,乳腺癌的5年平均生存率為90%,但如果存在遠(yuǎn)處轉(zhuǎn)移,則降至26%[3]。
乳腺癌進(jìn)展的分子機(jī)制尚未完全了解。鑒于其高死亡率,迫切需要弄清乳腺癌轉(zhuǎn)移的潛在分子機(jī)制。既往的研究已經(jīng)調(diào)查乳腺癌轉(zhuǎn)移的相關(guān)基因,如Chen 等[4]揭示了ECM-受體相互作用可能有助于乳癌骨轉(zhuǎn)移;Cai 等[5]表明CDCA8、CCNA2 與乳癌遠(yuǎn)處轉(zhuǎn)移有關(guān);Zheng 等[6]鑒定了幾種與乳腺癌轉(zhuǎn)移相關(guān)的基因。然而上述研究僅對單個(gè)數(shù)據(jù)集進(jìn)行分析,目前仍然沒有研究結(jié)合相似數(shù)據(jù)集進(jìn)行基因分析。本研究分析了三個(gè)數(shù)據(jù)集中與乳腺癌轉(zhuǎn)移相關(guān)的差異表達(dá)基因(differentially expressed genes,DEGs),目的是更好地了解潛在乳腺癌轉(zhuǎn)移的機(jī)制,并找到潛在生物標(biāo)志物和治療靶標(biāo)。
GSE32489、GSE14776 和GSE103357[7]使 用 基 因表達(dá)綜合數(shù)據(jù)庫(Gene Expression Omnibus,GEO,http://www.ncbi.nlm.nih.gov/geo)得到的三個(gè)基因數(shù)據(jù)集,均使用Illumina HumanRef 平臺芯片,根據(jù)平臺中的注釋信息將探針轉(zhuǎn)換為相應(yīng)的基因符號。GSE32489包含非轉(zhuǎn)移尸檢組織19 個(gè),淋巴結(jié)轉(zhuǎn)移組織90 個(gè)。GSE14776 包含8 個(gè)非轉(zhuǎn)移細(xì)胞樣本和6 個(gè)骨轉(zhuǎn)移樣本。GSE103357 包含2 個(gè)非轉(zhuǎn)移細(xì)胞樣本和3 個(gè)骨轉(zhuǎn)移樣本。
Network Analyst(版本號:10.0)[8-9](http://www.networkanalyst.ca)用于提取數(shù)據(jù)集乳腺腫瘤樣本和轉(zhuǎn)移樣本之間的DEGs。具有調(diào)整P 值<0.05 和|log2FC|>1.0的基因被認(rèn)為是DEGs。通過維恩(Venn)工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)檢測重疊以得到共差異表達(dá)的基因(co different-expressed genes,Co-DEGs)。調(diào)整P 值、Benjamini 和Hochberg 假陽性發(fā)現(xiàn)率,用于在統(tǒng)計(jì)顯著基因的發(fā)現(xiàn)和假陽性之間提供平衡。沒有相應(yīng)基因符號的探針組或具有多于一個(gè)探針組的基因被去除。識錯(cuò)率(false discovery rate,F(xiàn)DR)的計(jì)算公式如下:q-value(i)=p(i)length(p)/rank(p),表明當(dāng)樣本量增大時(shí),檢出假陽性率的概率增高,F(xiàn)DR 值越高,表明大樣本數(shù)據(jù)富集后出現(xiàn)的假陽性概率越高。
基因本體(gene ontology,GO)分析用于對基因集進(jìn)行功能研究[10]。京都基因與基因組百科全書途徑富集(Kyoto encyclopedia of genes and genomes,KEGG)[11]是處理基因組和生物通路的數(shù)據(jù)庫集合。注釋可視化和 集 成 發(fā) 現(xiàn) 數(shù) 據(jù) 庫(DAVID,http://david.ncifcrf.gov)(6.8 版)[12]用于解開已識別共基因的GO 和KEGG 途徑。
STRING(版本號:11.5)用于闡明蛋白質(zhì)-蛋白質(zhì)交互(protein-protein interaction,PPI)相互作用[13]。使用Cytoscape(版本號:3.8.2)[14]進(jìn)行可視化PPI 網(wǎng)絡(luò)。選擇>0.4 的組合分?jǐn)?shù)作為閾值。PPI 網(wǎng)絡(luò)可以協(xié)助從蛋白層面識別參與乳腺癌轉(zhuǎn)移的重要基因模塊。此外,應(yīng)用分子模塊檢測(molecular complex detection,MCODE)[15]插件對重要模塊進(jìn)行驗(yàn)證。
使用cytoHubba(版本號:3.8.2)插件和最大集團(tuán)中心性(maximum group centrality,MCC)方法來識別前20 個(gè)中樞基因。核心基因的熱圖是通過使用R 中的熱圖包繪制的,使用的聚類方法為離差平和法(Ward),標(biāo)準(zhǔn)化方法為正態(tài)標(biāo)準(zhǔn)化(Z-score scaling)。使用Kaplan Meier-plotter(KM plotter,http://kmplot.com/analysis/)實(shí)現(xiàn)生存分析,Kaplan-Meier plotter 是一種生存分析軟件[16]。通過Cytoscape 的BiNGO 插件(版本號:3.8.2)評估核心基因的GO 功能。
乳腺癌患者根據(jù)特定基因的表達(dá)分為兩組(高表達(dá)與低表達(dá))。通過Kaplan-Meier 生存圖比較兩個(gè)組患者的隊(duì)列,并計(jì)算具有95%置信區(qū)間和對數(shù)等級P 值的風(fēng)險(xiǎn)比(HR),其中,HR=1 意味著基因低表達(dá)與高表達(dá)的等效性,若低表達(dá)處理優(yōu)于高表達(dá),則HR<1;若低表達(dá)處理劣于高表達(dá),則HR>1。GEPIA[17]是基于TCGA 數(shù)據(jù)庫的在線基因表達(dá)譜分析工具,用于驗(yàn)證樞紐基因與臨床分期之間的相關(guān)性,其中,F(xiàn) value 代表單因素分析的F 值,這個(gè)值越大,表示組間差異越大,且當(dāng)P<0.05 時(shí),表示該基因在腫瘤不同分期中差異是有統(tǒng)計(jì)學(xué)意義的。
三個(gè)基因數(shù)據(jù)集中,韋恩圖見圖1A 及圖1B,基因表達(dá)熱圖見圖1C。結(jié)果顯示,295 個(gè)基因被鑒定為co-DEGs。其中上調(diào)151 個(gè),下調(diào)144 個(gè)。調(diào)整P<0.05和|log2FC|>1 被設(shè)置為截止標(biāo)準(zhǔn)。
圖1 維恩圖及基因熱圖
DAVID 在線工具用于闡明富集的co-DEGs 中的GO 和KEGG 通路。結(jié)果表明,對于BP,上調(diào)的基因主要富集在Ⅰ型干擾素信號通路、凋亡過程中,而下調(diào)的基因主要集中在DNA 修復(fù)、先天免疫反應(yīng)等方面。KEGG 通路結(jié)果顯示,DEGs 顯著富集在與癌癥發(fā)展的信號通路,包括絲裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK) 信號通路和Rap1 信號通路(表1~2)。
表1 Co-DEGs 中上調(diào)基因的GO 分析
基于STRING 數(shù)據(jù)庫得到PPI 網(wǎng)絡(luò)分析結(jié)果,見圖2A,結(jié)果顯示,DEG 的PPI 網(wǎng)絡(luò)由280 個(gè)節(jié)點(diǎn)和357 條邊構(gòu)成。使用MCC 方法,總共選擇了20 個(gè)基因作為樞紐基因,分別為:CHEK1、POLR3H、IFITM1、XAF1、MCM5、ADCY3、ADCY6、KIF14、ADCY7、ADCY2、IFITM3、TYMS、IFI6、CDCA8、TIMP1、STAT2、SKA1、PKM、MX1、PRC1(ASE1)。
圖2 PPI 網(wǎng)絡(luò)分析結(jié)果和樞紐基因的鑒定結(jié)果
表2 Co-DEGs 中下調(diào)基因的GO 分析
樞紐基因的鑒定結(jié)果見圖2B,結(jié)果顯示,使用MCODE 從DEG 的PPI 網(wǎng)絡(luò)中獲得了3 個(gè)分值大于或等于6 的重要模塊。
根據(jù)每個(gè)基因的表達(dá),繪制乳癌患者的無遠(yuǎn)處轉(zhuǎn)移生存(distance metastasis free survival,DMFS)和總生存(overall survival,OS)曲線,結(jié)果分別見圖3A 和圖3B。結(jié)果顯示,TYMS 的低表達(dá)[HR=0.52(0.29~0.91),P=0.021]、SKA1 的低表達(dá)[HR=0.57(0.32~1.01),P=0.049]、ADCY7 的低表達(dá)[HR=0.45(0.30~0.68),P<0.001]、MX1 的高表達(dá)[HR=2.07(1.17~3.66),P=0.011]與較差的OS 相關(guān)(圖3A)。POLR3H 的低表達(dá)[HR=0.71(0.51~0.98),P=0.039]、CDCA8 的高表達(dá)[HR=1.67(1.37~2.04),P<0.001]、ASE1 的高表達(dá)[HR=2.1(1.72~2.57),P<0.001]、KIF14 的高表達(dá)[HR=1.86(1.33~2.59),P<0.001]、MX1 的高表達(dá)[HR=1.31(1.08~1.6),P=0.006]與較差的DMFS 相關(guān)(圖3B)。
圖3 樞紐基因的臨床分析
選擇數(shù)據(jù)集TCGA-BRCA 來驗(yàn)證20 個(gè)核心基因與乳腺癌臨床分期之間的相關(guān)性。筆者比較了不同臨床分期乳腺癌樣本中核心基因的表達(dá),結(jié)果見圖3C,結(jié)果顯示,在乳腺癌較晚分期中,TYMS 呈現(xiàn)低表達(dá)(P=0.0416),CDCA8 呈現(xiàn)高表達(dá)(P=0.003 66),PRC1(ASE1)呈現(xiàn)高表達(dá)(P=0.002 07),SKA1(P=0.000 909)呈現(xiàn)低表達(dá),KIF14(P=0.000 711)呈現(xiàn)高表達(dá)。
本研究中分析了三個(gè)包含乳腺癌轉(zhuǎn)移患者的基因數(shù)據(jù)集,進(jìn)行了功能富集分析,表明了樞紐基因通過某些途徑在轉(zhuǎn)移的進(jìn)展中發(fā)揮了作用。
結(jié)果表明,上調(diào)基因主要參與Ⅰ型干擾素信號通路、凋亡過程、粘著斑、蛋白質(zhì)同二聚化活性Rap1 信號通路[18]和MAPK 信號通路[19-21],抗原加工和呈遞,細(xì)胞粘附分子,而下調(diào)基因主要富集在p53 類介質(zhì)、雌激素信號通路和趨化因子信號通路。這些發(fā)現(xiàn)與已報(bào)道的研究[19-29]高度一致,表明細(xì)胞凋亡、細(xì)胞遷移和粘附在乳腺癌進(jìn)展過程中的重要作用。
先前的研究[19-29]已經(jīng)為本研究所篩選的一些樞紐基因在乳腺癌癥進(jìn)展中的功能提供了大量證據(jù)。例如,TYMS 因其作為胸苷酸合酶的功能而被認(rèn)為是5-氟尿嘧啶的靶標(biāo)[23-24]。它與晚期乳腺癌[25]患者對化療的耐藥性和敏感性有關(guān)。CDCA8 是是有絲分裂的調(diào)節(jié)因子,SKA1 與有絲分裂有關(guān),均被鑒定為乳癌遠(yuǎn)處轉(zhuǎn)移的樞紐基因[5,26]。KIF14 通過負(fù)調(diào)節(jié)Rap1a-Radil 信號通路促進(jìn)乳腺癌進(jìn)展。參與細(xì)胞抗病毒的MX1與乳腺癌對淋巴結(jié)的侵襲有關(guān)[28-29]。盡管有報(bào)道稱,PRC1(ASE1)促進(jìn)了肺腺癌的發(fā)生和肝癌的早期復(fù)發(fā)[30-31],也和鼻咽癌的轉(zhuǎn)移[32]和乳癌患者較差的無遠(yuǎn)處轉(zhuǎn)移生存期相關(guān)[33],POLR3H 與促腫瘤作用相關(guān)[34-35]。它們在乳腺癌腫瘤轉(zhuǎn)移中的確切功能仍然知之甚少,值得進(jìn)一步深入研究。
綜上所述,本研究確定了乳腺癌轉(zhuǎn)移過程中的優(yōu)勢基因及其PPI 網(wǎng)絡(luò)。其中一些基因從未被報(bào)道過影響乳腺癌的進(jìn)展,因此可能作為潛在的藥物靶點(diǎn)或生物標(biāo)志物。然而,本研究仍具有局限性,即需要進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。需要檢測更多基因來豐富網(wǎng)絡(luò),以便更全面地了解乳腺癌的轉(zhuǎn)移通路。