馬藝琿 李國琛
胃癌為全球常見的消化道惡性腫瘤,位于癌癥致死原因的第二位[1]。盡管近年來診療技術不斷進步,但是目前患者的長期生存率還有待提高,其中胃癌的侵襲和轉(zhuǎn)移是造成預后較差的重要原因[2]。高通量測序及基因芯片技術的發(fā)展及公共數(shù)據(jù)集的完善,為胃癌診斷指標,治療靶點及預后評價指標的篩選提供了更多的可能性[3]。本研究對Gene Expression Omnibus(GEO)及Cancer Genome Atlas(TCGA)現(xiàn)有的一系列胃癌相關數(shù)據(jù)集進行了生物信息學分析,結果提示編碼膠原蛋白的一系列基因家族存在表達異常,可能參與胃癌的發(fā)生發(fā)展。其中Ⅰ型膠原α1(COL1A1)基因與胃癌患者的TNM分期及預后具有密切關系,現(xiàn)報道如下。
從Gene Expression Omnibus(GEO)下載4個獨立的胃癌患者組織標本mRNA芯片數(shù)據(jù)。4個數(shù)據(jù)集的訪問編號為GSE13861,GSE13911,GSE19826及GSE54129(具體信息見表1)。同時下載Cancer Genome Atlas中胃癌數(shù)據(jù)集(TCGA-STAD)的患者組織標本mRNA數(shù)據(jù)集臨床信息。TCGA-的數(shù)據(jù)用于分析正常組織和癌組織之間的基因差異,TNM分期與基因差異的關系及生存分析。
使用R統(tǒng)計分析軟件結合Limma程序包利用線性模型對GSE13861、GSE13911、GSE19826及GSE54129四個數(shù)據(jù)集中胃癌癌周正常組織及癌組織間差異基因進行篩選。表達差異倍數(shù)大于2倍且P<0.05的基因定義為具有變化的差異基因。利用韋恩圖對四個數(shù)據(jù)集中獲取的顯著變化的差異基因進行取交集操作,以便整合四個數(shù)據(jù)集的結果。
對四個數(shù)據(jù)集的顯著差異基因進行取交集后整合,將得到一份整合后的癌周正常組織及癌組織間顯著差異的基因列表。對這些基因進行進一步的GO富集分析,以便明確這些基因涉及的生物學過程,功能及分子定位(細胞組分)。同時進行KEGG信號通路分析以明確這些基因參與哪些信號通路的調(diào)控。GO富集分析及KEGG信號通路富集分析使用DAVID Functional Annotation Bioinformatics Microarray Analysis在線工具進行(https://david.ncifcrf.gov/)。
利用String數(shù)據(jù)庫(https://string-db.org),對上述整合后顯著差異基因編碼的蛋白質(zhì)進行網(wǎng)絡分析,獲取各基因編碼蛋白質(zhì)間的調(diào)控網(wǎng)絡。Cytoscape軟件(版本號3.5.1)計算網(wǎng)絡節(jié)點的連接度。
統(tǒng)計學分析采用R統(tǒng)計學軟件(版本號3.4.2)。癌周正常組織及癌組織間的差異使用獨立樣本t檢驗及貝葉斯檢驗。TNM分期間的基因表達差異使用單因素方差分析。生存分析使用Kaplan-Meier法結合log-rank分析。以P<0.05為差異具有統(tǒng)計學意義。
四個GEO數(shù)據(jù)集中胃癌癌周正常組織與癌組織相比,差異具有統(tǒng)計學意義(表達倍數(shù)>2或<0.5且P<0.05)的基因個數(shù)及上調(diào)/下調(diào)情況如表1所示。通過對四個數(shù)據(jù)集取交集發(fā)現(xiàn),共105個基因在四個數(shù)據(jù)集中均存在顯著表達的差異。其中34個基因上調(diào),71個基因下調(diào)。
本研究四個數(shù)據(jù)集中均存在顯著表達差異的105個基因進行了Go基因富集發(fā)現(xiàn),對這些基因參與的生物學過程,分子功能及細胞定位(細胞組分)進行了分析(圖1)。結果顯示一些基因在生物學過程、分子功能及細胞定位等方面均參與細胞外基質(zhì)的調(diào)控相關,有趣的是基因多來自膠原調(diào)控基因家族,包括COL1A1,COL1A2,COL3A1,COL6A3,COL5A2,COL10A1,COL4A1 及COL4A2等。同時我們對上述105個基因進行了KEGG信號通路富集分析,這些基因涉及的主要信號通路見圖1,除細胞外基質(zhì)通路外,PI3K-AKT等信號通路也與胃癌的發(fā)生發(fā)展有關。這些證據(jù)提示這些差異表達的基因在胃癌中扮演一定的角色。蛋白-蛋白互作網(wǎng)絡分析發(fā)現(xiàn)這105個基因編碼的蛋白間存在網(wǎng)絡調(diào)控關系,其中COL1A1基因編碼的蛋白連接度最大(連接度=13),提示COL1A1基因在該網(wǎng)絡中處于核心位置。
四個GEO數(shù)據(jù)集及TCGA數(shù)據(jù)集中(圖2),COL1A1均在胃癌癌組織中存在高表達,與癌周組織相比,差異均具有統(tǒng)計學意義(P均<0.05)。TCGA數(shù)據(jù)集中COL1A1 mRNA水平在擁有較晚TNM分期(2期以上)的患者中存在高表達(圖3),并且與患者的生存率具有關系(圖4),即COL1A1較高的患者,十年總體生存率較低(P<0.05,風險比=1.5)。
精準醫(yī)療和個體化醫(yī)療的發(fā)展需要明確更多胃癌相關基因的作用及其與胃癌患者臨床特征的關系[4-5]。近十年來,RNA測序及基因芯片等技術不斷成熟,在準確度,效率增加的同時,技術費用又所下降,形成了癌癥相關的大數(shù)據(jù)[6]。利用生物信息學手段挖掘這些大數(shù)據(jù),可以方便的找到可能與胃癌發(fā)生發(fā)展相關的基因。相比傳統(tǒng)研究,更加經(jīng)濟且有效縮短了研究周期[4]。
通過差異分析及整合,我們發(fā)現(xiàn)105個基因在四個GEO胃癌數(shù)據(jù)集中的表達特征一致,其中34個基因在胃癌組織中上調(diào),71個基因下調(diào)。通過GO富集分析及KEGG信號通路分析,可以將這105個基因按照其功能進行歸類,達到對差異基因進行注釋和分類的目的,同時發(fā)現(xiàn)這些基因參與哪些信號通路。在本研究我們發(fā)現(xiàn)胃癌組織105個差異表達的基因參與的生物學過程主要包括細胞黏附,細胞外基質(zhì)的調(diào)控。KEGG信號通路富分析排名靠前的信號通路主要包括PI3K-Akt通路及細胞外基質(zhì)調(diào)控通路。這些生物學功能及通路均和腫瘤細胞的增殖和遷移有關,很大程度上決定了腫瘤的侵襲程度和患者的預后[7-8]。本研究重點關注了細胞外基質(zhì)調(diào)控的相關基因,有趣的是這些基因均來自膠原形成相關的基因家族(COL基因家族),包括COL1A1、COL1A2、COL3A1、COL6A3、COL5A2、COL10A1、COL4A1 及 COL4A2[9]。
表1 四個GEO胃癌數(shù)據(jù)集中癌周組織及癌組織間具有顯著表達差異的基因信息
圖1 胃癌組織中105個差異基因的GO基因富集分析及KEGG信號通路富集分析結果(富集分數(shù)前5位)
圖2 COL1A1 mRNA在四個GEO胃癌數(shù)據(jù)集及TCGA胃癌數(shù)據(jù)集中的表達水平*P<0.05 與癌周組織相比
圖3 COL1A1表達與胃癌患者分期及預后的關系
胃癌發(fā)展的過程是與腫瘤微環(huán)境互相作用的動態(tài)過程。胃癌的生存及遷移均與微環(huán)境關系密切[8-10]。而膠原是胃癌細胞的細胞外間質(zhì)的主要成分,也是間質(zhì)微環(huán)境的主要組成。膠原可以為腫瘤細胞提供生長依附和支架,誘導腫瘤細胞的移行[11-12]。證據(jù)表明在胃癌發(fā)生時膠原的合成增多[13]。本研究也在胃癌組織中發(fā)現(xiàn)了上述膠原相關基因的表達增加。膠原可以影響E-鈣黏蛋白介導的細胞間黏附復合物的形成及解聚,從而影響腫瘤細胞的擴散和增殖。還有一些膠原如Ⅰ型及Ⅲ型膠原還可以機會整合信號通路,誘導上皮間質(zhì)轉(zhuǎn)化,從而導致腫瘤細胞的浸潤和轉(zhuǎn)移[9,12]。本研究通過對差異基因進行蛋白-蛋白互作網(wǎng)絡分析發(fā)現(xiàn),上述的COL基因似乎更為重要,表現(xiàn)為與其他基因編碼的蛋白存在廣泛聯(lián)系。特別是COL1A1基因,其編碼的蛋白質(zhì)在構成的網(wǎng)絡中,連接度最高。因此我們認為COL1A1可能是一個參與胃癌發(fā)生發(fā)展的關鍵基因。在四個GEO數(shù)據(jù)集及TCGA數(shù)據(jù)集中,COL1A1均在胃癌組織中高表達,且結合TCGA的臨床數(shù)據(jù)分析發(fā)現(xiàn)COL1A1在TNM分期較晚的患者中,表達較高且較高的COL1A1預示著較低的十年總體生存率,提示COL1A1是胃癌患者預后較差的一個風險因素。
總之,本研究通過數(shù)據(jù)挖掘發(fā)現(xiàn)了一系列可能參與胃癌發(fā)生發(fā)展的基因,特別是一些參與膠原形成與細胞外基質(zhì)相關的基因在胃癌組織中存在明顯的表達差異。這些基因可能作為胃癌的診斷指標,治療靶點或者預后評估標志物。其中COL1A1與胃癌患者的TNM分期及預后相關。