黃子林,劉可舒,陳 雄
武漢大學(xué)中南醫(yī)院耳鼻咽喉頭頸外科(武漢 430071)
胃癌是全球第五大最常見(jiàn)的癌癥和第三大最常見(jiàn)的癌癥死亡原因,每年新發(fā)病例超100萬(wàn)例[1]。胃癌發(fā)生過(guò)程涉及多種遺傳和表觀遺傳改變,如致癌基因的激活、抑癌基因的失活、細(xì)胞黏附分子和DNA錯(cuò)配修復(fù)基因的突變等[2-3]。常見(jiàn)的生物標(biāo)志物如癌胚抗原和癌抗原19-9,可能有助于胃癌的診斷,但其早期診斷效果不佳[4]。由于缺乏可靠的生物標(biāo)志物用于胃癌早期診斷或篩查高危人群[6-7],胃癌患者早期發(fā)現(xiàn)率低,預(yù)后普遍較差,5年生存率低于20%[5],因此尋找可靠的診斷和預(yù)后標(biāo)志物至關(guān)重要[8]。癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫(kù)是一個(gè)公共基因組學(xué)數(shù)據(jù)源,包括測(cè)序數(shù)據(jù)和臨床樣本信息,為用戶提供實(shí)驗(yàn)和策劃的基因表達(dá)信息[9]。本研究使用TCGA數(shù)據(jù)庫(kù)中胃癌公開(kāi)樣本進(jìn)行生物信息學(xué)分析,篩選出腫瘤患者與健康人群之間差異表達(dá)的基因[10],并對(duì)胃癌患者的差異基因進(jìn)行系統(tǒng)性分析,以預(yù)測(cè)新的胃癌診斷和預(yù)后標(biāo)志物,旨在改善胃癌診療現(xiàn)狀,為患者預(yù)后提供治療依據(jù)。
本研究收集TCGA數(shù)據(jù)庫(kù)中胃癌患者臨床資料(包含病理分級(jí)、臨床分期、治療、生存時(shí)間等)和測(cè)序數(shù)據(jù)中mRNA的表達(dá)數(shù)據(jù),通過(guò)TCGA數(shù)據(jù)庫(kù)在線工具篩選差異表達(dá)基因。本研究嚴(yán)格遵守TCGA發(fā)布的發(fā)表指導(dǎo)規(guī)范(https://portal.gdc.cancer.gov)。
LinkedOmics(http://www.linkedomics.org)是一個(gè)基于web的分析TCGA癌癥相關(guān)多維數(shù)據(jù)集的平臺(tái)[11-12]。本研究使用LinkedOmics的LinkFinder模塊研究TCGA胃癌隊(duì)列中與COL1A1、COMP相關(guān)的差異表達(dá)基因。LinkFinder模塊可提供多種屬性的查詢,不僅可為單個(gè)基因繪制統(tǒng)計(jì)圖,也能查看基因組改變產(chǎn)生的mRNA或蛋白表征、臨床屬性的候選生物標(biāo)志物以及轉(zhuǎn)錄因子,并且分析結(jié)果可以可視化呈現(xiàn)。所有結(jié)果都以火山圖、熱圖的形式呈現(xiàn)。LinkedOmics的鏈接解釋器模塊對(duì)差異表達(dá)基因進(jìn)行通路和網(wǎng)絡(luò)分析。
通過(guò)在線數(shù)據(jù)庫(kù)STRING進(jìn)行蛋白-蛋白相互作用(protein-proteion interaction,PPI)網(wǎng)絡(luò)和功能分析,篩選胃癌表達(dá)差異的關(guān)鍵基因?qū)?yīng)的具有相互作用的蛋白質(zhì)(相互作用分?jǐn)?shù)為0.9)。蛋白相互作用結(jié)果進(jìn)一步在cytoscape軟件中通過(guò)插件Cytohubba采用MCC算法。最后網(wǎng)絡(luò)邊緣的不同顏色展示了應(yīng)用的生物信息學(xué)方法:共表達(dá)、網(wǎng)站預(yù)測(cè)、路徑、物理交互和共定位。不同顏色的網(wǎng)絡(luò)節(jié)點(diǎn)主要顯示富集基因的生物學(xué)功能。
本研究利用 SPSS 22.0軟件、R 3.3.5軟件和 Perl 5.22 軟件對(duì)數(shù)據(jù)進(jìn)行處理。使用 R 軟件 Survplot 函數(shù)包采用 Kaplan-Meier法繪制生存曲線,并進(jìn)行l(wèi)og-rank 檢驗(yàn)分析胃癌患者COL1A1、COMP表達(dá)水平與生存期的關(guān)系。TCGA篩選獲得的差異基因通過(guò)Bioconductor 軟件的limma工具包(LogFC≥2)對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行差異表達(dá)分析,LinkFinder結(jié)果采用Pearson相關(guān)系數(shù)進(jìn)行統(tǒng)計(jì)學(xué)分析,統(tǒng)計(jì)檢驗(yàn)P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
TCGA數(shù)據(jù)集分析發(fā)現(xiàn)胃癌差異基因有COL1A1(Collagen Type I Alpha 1 Chain)、COMP(Cartilage Oligomeric Matrix Protein)、CCNE1(Cyclin E1)、SPP1(Secreted Phosphoprotein 1) 等, 且該分析差異基因集的分子功能主要富集在蛋白結(jié)合、金屬內(nèi)肽酶活性、胞外細(xì)胞因子活動(dòng)等方面;在生物學(xué)過(guò)程方面主要富集在損傷回復(fù)、細(xì)胞黏附、蛋白水解作用、調(diào)節(jié)細(xì)胞增殖等方面;在細(xì)胞成分方面主要富集在細(xì)胞外區(qū)、細(xì)胞外間隙、細(xì)胞表面、內(nèi)質(zhì)網(wǎng)腔高爾基腔等(圖1)。
圖1 胃癌中差異基因的 GO 和 KEGG 分析Figure 1. GO and KEGG analysis of differential genes in gastric cancer
為進(jìn)一步了解上述差異基因在人體內(nèi)的影響機(jī)制,本研究通過(guò)STRING數(shù)據(jù)庫(kù)構(gòu)建了隊(duì)形功能蛋白質(zhì)-蛋白質(zhì)相互作用,結(jié)果提示其中有5個(gè)互作網(wǎng)絡(luò)的核心基因節(jié)點(diǎn):COL1A1、COMP、CCNE1、SPP1、LAMC2,以及相互作用前20的差異基因,見(jiàn)圖2。
圖2 胃癌中差異基因蛋白互作網(wǎng)絡(luò)圖Figure 2. The protein-protein interaction network of differential genes in gastric cancer
Kaplan-Meier生存分析發(fā)現(xiàn)上述5個(gè)核心節(jié)點(diǎn)基因?qū)τ谖赴┗颊呖偵嫫?( overall survival,OS)存在一定的影響。COL1A1(HR=1.48,logrankP< 0.001)和COMP(HR=1.54,log-rankP<0.001)表達(dá)水平對(duì)患者OS影響較大,COL1A高表達(dá)組(第50個(gè)月,30.2% vs. 43.5%,P<0.05)、COMP高表達(dá)組(22.7% vs. 40.6%,P< 0.05)的胃癌患者5年中位生存時(shí)間均顯著低于低表達(dá)組,而CCNE1低表達(dá)的胃癌患者生存概率顯著高于低表達(dá)組(第50個(gè)月,36.8% vs. 26.4%,P<0.05),但是遠(yuǎn)期預(yù)后價(jià)值不具有差異性,其余兩組核心基因LAMC2(HR=0.9,log-rankP=0.200)、SPP1(HR=1.1,log-rankP=0.270)的表達(dá)差異與胃癌患者的總體生存預(yù)后價(jià)值相關(guān)性未見(jiàn)統(tǒng)計(jì)學(xué)意義(圖3)。
圖3 胃癌基因mRNA水平的預(yù)后價(jià)值Figure 3. The prognostic value of mRNA levels of gastric cancer
在胃腺癌(STAD)中,本研究分析了正常組(34例)、I期(18例)、Ⅱ期(123例)、Ⅲ期(169例)和Ⅳ期(41例)共385例樣本的COL1A1和COMP基因的表達(dá)情況。與正常組患者相比,I~Ⅳ期胃癌患者COL1A1基因表達(dá)水平增高;Ⅱ~Ⅳ期胃癌患者COMP基因表達(dá)水平亦顯著增高,見(jiàn)圖4。
圖4 COL1A1, COMP在不同分期胃癌與正常個(gè)體中的相對(duì)表達(dá)的箱線圖Figure 4. Box-plot of relative expression of COL1A1 and COMP in different stage gastric cancer or normal individuals
通過(guò)LinkedOmics的功能模塊分析發(fā)現(xiàn),與COL1A1正相關(guān)的基因在COLs家族的部分基因包含有SPARC、BGN、CD245、THY1等,說(shuō)明與COL1A1正相關(guān)的上述基因主要富集在細(xì)胞黏附、蛋白分泌和調(diào)節(jié)細(xì)胞增殖等方面。此外,與COMP正相關(guān)的基因:SFRP4、ITGBL4、FNDC1(0<P<1)主要調(diào)節(jié)細(xì)胞分化和細(xì)胞聚集等方面,并且能夠作用于多種信號(hào)通路的上游。而與COL1A1和COMP基因負(fù)相關(guān)的富集基因(AP1AR、PPA2、AFTPH等)能夠負(fù)性調(diào)節(jié)腫瘤細(xì)胞增殖(-1<P<0),見(jiàn)圖5。
圖5 胃癌中基因差異表達(dá)與COL1A1、COMP的相關(guān)性(LinkedOmics)Figure 5. Correlation between differential expression of gene and COL1A1, COMP in gastric cancer(Linkedomics)
本研究發(fā)現(xiàn)COL1A1、COMP、CCNE1、SPP1、LAMC2五個(gè)基因與胃癌發(fā)生相關(guān),通過(guò)生存分析并結(jié)合臨床患者癌癥分期進(jìn)一步篩選出COL1A1、COMP與胃癌發(fā)生密切相關(guān),LinkedOmics功能模塊分析也顯示了COL1A1、COMP對(duì)轉(zhuǎn)錄組有廣泛影響,有望作為胃癌診斷和預(yù)后預(yù)測(cè)的潛在標(biāo)志物。
目前與胃癌預(yù)后相關(guān)的診療標(biāo)志物主要集中于DNA甲基化、長(zhǎng)鏈非編碼RNA、PD-1/PD-L1、循環(huán)癌細(xì)胞等方面。而胃腸腫瘤的發(fā)生與轉(zhuǎn)移與細(xì)胞的局部黏附和突變緊密相關(guān),因此與細(xì)胞增殖、細(xì)胞黏附及腫瘤細(xì)胞分化相關(guān)的COL1A1和COMP是較為合適的基因標(biāo)志物。膠原是細(xì)胞外基質(zhì)的重要組成部分,I型、Ⅱ型和Ⅲ型膠原的比例最高。作為I型膠原家族的成員,COL1A1與腫瘤細(xì)胞增殖和侵襲的關(guān)系已在許多癌癥中被報(bào)道,如乳腺癌和腎癌[13-14]。COL1A1表達(dá)可促進(jìn)乳腺癌轉(zhuǎn)移,是一種新的乳腺癌預(yù)后生物標(biāo)志物和潛在的治療靶點(diǎn)[15-16]。在本研究中,組織中均為高表達(dá),在 PPI 交互網(wǎng)絡(luò)中COL1A1和COMP均處于中心位置,且顯著富集到胞外基質(zhì)受體和黏著斑信號(hào)等通路。國(guó)外已有研究表明,COL1A1在乳腺癌和肺癌中高表達(dá),COL1A1的敲除缺失可以影響多種基因表達(dá),其機(jī)制可能是通過(guò)改變腫瘤微環(huán)境來(lái)降低腫瘤的遷移能力和增殖能力,從而抑制腫瘤細(xì)胞浸潤(rùn)生長(zhǎng)及向別處轉(zhuǎn)移[17-18]。此外,在間皮瘤中,COL1A1的突變與中性粒細(xì)胞、CD4+ T細(xì)胞和樹(shù)突狀細(xì)胞浸潤(rùn)具有明顯的相關(guān)性;同時(shí),COL1A1的表達(dá)水平與腫瘤浸潤(rùn)純度、CD4+ T細(xì)胞、巨噬細(xì)胞和中性粒細(xì)胞有顯著相關(guān)性[19]。另一項(xiàng)綜合生物信息學(xué)分析也發(fā)現(xiàn)COL1A1與胃癌的發(fā)病機(jī)制相關(guān)[20]。所以,COL1A1的表達(dá)差異可能受胃癌腫瘤免疫微環(huán)境調(diào)節(jié)。
COMP是一種524kda的可溶性五聚糖蛋白[21],在多種細(xì)胞及組織中表達(dá),通過(guò)與細(xì)胞表面的整合素結(jié)合發(fā)揮生物活性,目前研究表明COMP的異常表達(dá)在骨骼疾病、血管生成、乳腺癌及前列腺癌中發(fā)揮重要作用[22-23]。肝癌患者血清中COMP水平可用于肝癌發(fā)展的無(wú)創(chuàng)評(píng)估診斷[24]。且COMP在肝癌中誘導(dǎo)依賴CD36的MEK/ERK和PI3K/AKT通路的激活,以及一系列促腫瘤因子的分泌,包 括 EMT makers、MMP-2/9、Slug 和 Twist, 從而促進(jìn)其促腫瘤作用。在肝癌細(xì)胞與活化的造血干細(xì)胞之間的動(dòng)態(tài)相互作用中COMP也發(fā)揮了重要作用,并且該基因可通過(guò)阻斷半胱天冬酶-3的活化和誘導(dǎo)IAP家族的生存蛋白(BIRC3,BIRC2,BIRC5和XIAP)來(lái)抑制細(xì)胞凋亡[25-26]。而關(guān)于COMP的免疫組化研究發(fā)現(xiàn)在胃癌組織中該基因表達(dá)高于正常胃黏膜和癌旁組織,同時(shí)胃低分化腺癌組織高于高、中分化胃癌組織以及癌旁組織高于正常胃黏膜組織表達(dá),提示該蛋白可能參與胃癌發(fā)生與發(fā)展,其作用機(jī)制可能與COMP蛋白誘導(dǎo)凋亡抑制因子的表達(dá),抑制細(xì)胞的凋亡有關(guān)[27-28]。結(jié)果提示,COMP蛋白的表達(dá)與胃癌的分化程度、淋巴結(jié)轉(zhuǎn)移及TNM分期有關(guān),隨著胃癌組織分化程度的降低、淋巴結(jié)轉(zhuǎn)移及TNM分期的增加,陽(yáng)性表達(dá)率則升高。但細(xì)胞的凋亡涉及眾多細(xì)胞因子的參與,至于COMP蛋白如何在胃癌發(fā)生與發(fā)展中發(fā)揮作用,有待后續(xù)的進(jìn)一步研究。雖然目前尚未明確COL1A1、COMP在胃癌細(xì)胞中的確切影響作用, 但根據(jù)當(dāng)前數(shù)據(jù)庫(kù)分析以及已發(fā)表的文獻(xiàn)報(bào)道,推測(cè)二者可能通過(guò)影響胃癌腫瘤細(xì)胞的運(yùn)動(dòng)和轉(zhuǎn)移促進(jìn)腫瘤細(xì)胞聚集和局部粘附,可能與胃癌的發(fā)生發(fā)展具有重要關(guān)系。
本研究仍存在一定的局限性。首先,近年來(lái)越來(lái)越多的實(shí)驗(yàn)研究從蛋白質(zhì)表達(dá)水平去檢測(cè)COL1A1和COMP在腫瘤以及癌旁組織中的表達(dá)情況,但是其基因下游富集對(duì)應(yīng)著多種細(xì)胞代謝通路以及細(xì)胞黏附機(jī)制,令研究者難以確定其中主要影響胃癌腫瘤細(xì)胞發(fā)生轉(zhuǎn)移和增殖的重要機(jī)制。而且針對(duì)上述關(guān)鍵基因的靶向干預(yù)研究數(shù)據(jù)依舊不足,難以確保敲低或者抑制COL1A1和COMP的表達(dá)來(lái)觀察腫瘤細(xì)胞系的結(jié)果。其次,TCGA數(shù)據(jù)庫(kù)中關(guān)于胃癌的相關(guān)數(shù)據(jù)缺乏對(duì)胃癌患者生活質(zhì)量數(shù)據(jù)的關(guān)注,可能忽略了胃癌患者患病后因?yàn)樯钤驅(qū)е碌乃劳龌蛘呤гL。再次,上述預(yù)后相關(guān)基因可能受到外界因素的干擾,而TCGA的數(shù)據(jù)庫(kù)中也未完全納入相關(guān)數(shù)據(jù)集案例如吸煙、飲酒、HPV感染狀態(tài)以及婚姻質(zhì)量等臨床外的數(shù)據(jù),因此在統(tǒng)計(jì)分析胃癌患者預(yù)后相關(guān)基因的表達(dá)情況時(shí)可能不夠完善。最后,雖然當(dāng)前中國(guó)地區(qū)關(guān)于胃癌的治療預(yù)防受到社會(huì)的廣泛關(guān)注,但是相關(guān)研究多局限于小規(guī)模、局部的抽樣調(diào)查,缺乏大規(guī)模、全人群的時(shí)間動(dòng)態(tài)基因數(shù)據(jù),將中國(guó)國(guó)民健康相關(guān)的胃癌基因數(shù)據(jù)研究同歐美地區(qū)的同類型研究進(jìn)行對(duì)比的科學(xué)性不足。
綜上所述,本研究基于生物信息學(xué)方法研究發(fā)現(xiàn)COL1A1,COMP是對(duì)胃癌有預(yù)后價(jià)值的關(guān)鍵基因。未來(lái)可進(jìn)一步探究胃癌發(fā)生發(fā)展的潛在分子機(jī)制,證實(shí)其診療價(jià)值。