劉少博,黃 波
(錦州醫(yī)科大學附屬第一醫(yī)院胸外科,錦州 121000)
肺腺癌(lung adenocarcinoma,LUAD)屬于非小細胞肺癌的一種,是世界上最常見的癌癥之一,也是最常見的臨床病理類型[1]。目前肺腺癌的發(fā)生率逐年增加,呈現出年輕化的傾向,疾病初期癥狀少,發(fā)病迅速,死亡率高且預后差,因此對肺腺癌的診斷及預后的診斷是非常重要的[2]。目前由于無法確定肺腺癌潛在的分子機制,其早期診斷以及預后治療都是比較困難的,多數患者被診斷時已經處于晚期[3-4]。隨著醫(yī)療技術和分子生物學技術的飛速發(fā)展,肺腺癌的治療方式也逐漸向分子靶向治療過渡[5]。肺腺癌早期診斷及預后的分子標志物對于其治療有很大價值[6-8]。通過對疾病的發(fā)生發(fā)展及基因組水平的研究,尋找預后的生物標志物以及影響預后的因素,對惡性腫瘤的早期發(fā)現、診斷治療及預后評估有突出作用[9]。隨著基因組微陣列和高通量測序技術的進步,生物信息學分析為研究腫瘤的發(fā)生發(fā)展提供了有效方法,基因芯片和RNA測序的廣泛應用也極大豐富了腫瘤相關的數據,通過在線數據庫可獲取大量的與腫瘤相關的數據[10]。本研究通過在線數據庫及分析工具對多組肺腺癌組織與正常組織的數據集進行整合處理,利用生物信息學方法分析肺腺癌發(fā)生、發(fā)展及轉移的可能機制,討論肺腺癌診斷及預后可能潛在的生物標志物,為探討肺腺癌預后相關基因的篩選提供理論依據。
通過Gene Expression Omnibus(GEO)數據庫(https://www.ncbi.nlm.nih.gov/)提取符合標準的基因表達譜數據(GSE63459、GSE27262、GSE75037)。篩選標準:1)標本為LUAD組織和對應的癌旁組織;2)每個芯片數據集都包含信使RNA(messenger RNA,mRNA)且數量不少于8對,本研究所選GSE63459數據集包含33個LUAD樣本和32個癌旁樣本,GSE27262含有25個LUAD樣本和25個癌旁樣本,GSE75037含有83個LUAD樣本和83個癌旁樣本。
GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r)是GEO中基于R的網絡應用程序的一種交互式網絡工具,可對 GEO數據庫中的數據進行差異分析。運用GEO2R對芯片中差異表達基因(differentially expressed genes,DEGs)進行處理,對3組數據集利用t檢驗的方法,定義校正后P<0.010和|Log2FC|≥1有統計學意義。通過上述方法分別篩選出3組具有意義的數據集,然后利用在線分析平臺維恩圖(http://bioinformatics.psb.ugent.be/webtools/Venn)繪制差異基因的Venn圖,獲取3個數據集共同表達的上、下調的差異基因。
使用生物信息注釋數據庫DAVID 在線分析平臺(https://david.ncifcrf.gov/)對DEGs在基因本體(gene ontology,GO)中注釋,包括分子生物學功能(molecular function,MF)、細胞學組分(cellular components,CC)和生物學過程(biological process,BP)的GO功能富集。利用京都基因與基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)進行通路分析,設定P<0.050為顯著性基因富集[11]。對差異基因進行GO和KEGG分類分析是為了確定有哪些遺傳功能和細胞信號通路的變化可能與差異基因有關。
STRING(search tool for the retrieval of interacting genes)是一個搜索已知蛋白質之間和預測蛋白質之間相互作用的數據庫,并提供蛋白質-蛋白質互相作用(protein-protein interaction,PPI)的數據。用STRING數據庫(http://string-db.org/)分析肺腺癌組織和正常肺組織 DEGs之間的 PPI關系,構造出PPI網絡,綜合得分(combined score)>0.4被認為有顯著性差異。將分析的數據導入 Cytoscape(https://www.cytoscape.org/)軟件后,基于k核(k-core)算法,利用插件MCODE(molecular complex detection)發(fā)掘肺腺癌蛋白-蛋白相互作用網絡中不同功能的基因模塊,篩選出MCODE score得分最高連接最顯著的模塊,篩選標準設定為:Degree Cutoff=2,Node Score Cutoff=0.2,k-core=2,Max Depth=100。隨后運用DAVID在線分析平臺對最顯著模塊中的基因進行GO和KEGG分析,使用 Cytoscape軟件中 Cytohubba程序包分析 PPI 網絡,并從 DEGs的PPI 網絡中篩選出高度連通性排名前10的基因作為關鍵基因。Cytohubba 使用多種拓撲算法預測在既定網絡中重要節(jié)點和子網間的關系。最后利用插件BINGO對關鍵基因的生物學過程進行分析,并通過熱圖來構建關鍵基因的層次聚類,用來區(qū)分肺腺癌和非癌樣本。
Kaplan-Meier plotter是基于EGA(European Genomephenome Archive,https://ega.crg.eu)、TCGA(The Cancer Genome Atlas,https://tcgadata.nci.nih.gov/tcga)和GEO數據庫評估大量基因對生存影響的常用網站工具。GEPIA(http://gepia.cancer-pku.cn/)是一個在線的基因表達譜動態(tài)數據分析數據庫,用于分析癌癥和正常組織之間的表達差異以及總生存率。首先,利用 Kaplan-Meier plotter驗證10個關鍵基因與肺癌患者預后總生存率的關系,然后,通過GEPIA數據庫發(fā)掘在mRNA表達水平上癌與癌旁的表達差異,并用UALCAN數據庫(https://www.ualcan.com/)分析符合要求的關鍵基因與肺腺癌病理分期、淋巴結轉移狀態(tài)的關系。人類蛋白質圖譜[human protein atlas(HPA),https://www.proteinatlas.org/]是一個基于免疫組織化學(immunohistochemistry,IHC)的正常組織、癌癥和細胞系蛋白質表達圖譜的數據庫[12]。用免疫組化法從人類蛋白質圖譜數據庫中檢測肺腺癌與正常組織之間生存相關基因的蛋白表達,明確基因在蛋白水平上是否存在差異表達。
通過對基因表達譜進行數據標準化處理之后,鑒定出3個數據集的差異表達基因,其中GSE75037中有3 413個,GSE27262中有2 272個,GSE63459中有407個。3個數據集之間的重疊包含共同差異基因355個,如韋恩圖(圖1a)所示,其中包括肺腺癌組織和非癌組織之間的273個下調基因和82個上調基因。
通過DAVID在線分析平臺對差異基因進行功能和途徑富集分析,利用GO分析,將所有差異基因同時富集到MF、CC和BP這3種生物學關系中,富集分析結果顯示:LUAD相關基因主要參與細胞外基質組織、細胞黏附、膠原分解代謝過程、血管生成和基因表達正調控等生物過程;差異基因的產物主要參與細胞外基質、胞外區(qū)域、胞外體、膠原三聚體、細胞外間隙等細胞組分,主要發(fā)揮調節(jié)金屬內肽酶活性、肝素結合、糖胺聚糖的綁定、轉化生長因子結合和調節(jié)受體活性等分子功能(表1)。通過KEGG通路分析,得到具有統計學意義的信號通路(P<0.050),即下調的DEGs主要在細胞黏附分子、過氧化物酶體增殖物激活型受體(peroxisome proliferator activated-receptors,PPARs)信號通路、轉化生長因子-β(transforming growth factor-β,TGF-β)信號通路、調節(jié)干細胞多能性的信號通路、腫瘤壞死因子(tumor necrosis factor,TNF)信號通路中富集,而上調的DEGs主要富集在血小板激活、胞外基質-受體信號通路、黏著斑信號通路、磷脂酰肌醇-3-激酶(phosphatidy linositol-3-kinase and protein kinase,PI3K-Akt)信號通路等。
利用Cytoscape的插件MCODE,根據MCODE模塊中 MCODE score 降序排序,選擇得分最顯著的模塊,具體見圖1b,此模塊涉及的基因功能分析也采用DAVID分析平臺進行分析。GO分析結果表明,最顯著模塊中的基因主要參與細胞的有絲分裂、促進后期復雜分解等過程,參與細胞核、細胞質、紡錘體等細胞成分的組成;KEGG路徑分析顯示,基因的重要模塊主要富集在卵母細胞減數分裂和細胞周期(表2)。之后,通過STRING數據庫和Cytoscape軟件對差異表達基因進行PPI網絡的構建(圖1c)。
通過PPI網絡可見其中共有318個節(jié)點,最大連接度為89,最小為1(圖1c)。利用插件Cytohubba以連接度排序,取前10位基因為關鍵基因,分別為IL6、MMP9、VWF、SPP1、PPARG、CCL2、PECAM1、TIMP1、COL1A1、CDH5。利用這些基因進行層次聚類,結果表明,關鍵基因可以區(qū)分肺腺癌樣本和非癌樣本(圖2a),其生物學過程分析如圖2b所示。隨后,利用Kaplan-Meier曲線對關鍵基因進行單變量生存分析,結果得出10個關鍵基因的其中9個在總體生存率(overall survival,OS)上存在顯著差異,6個顯著的關鍵基因表達水平的升高表現出顯著的OS下降,而其余3個關鍵基因表達水平的升高則表現出了OS上升(logrankP<0.01)。上述結果提示這些基因可以作為監(jiān)測預后的指標。
表2 最顯著模塊基因的GO和KEGG途徑富集分析Tab.2 GO and KEGG pathway enrichment analysis of DEGs in the most significant module
圖1 差異基因的韋恩圖、最重要的DEGs模塊和蛋白互助網絡圖Fig.1 Venn diagram, the most significant module of DEGs and PPI network
圖2 關鍵基因的差異表達熱圖和生物學過程分析Fig.2 Differential expression thermogram and biological process analysis of key genes
圖3 9個核心基因總生存率分析Fig.3 Analysis of total survival rate of 9 core genes
通過Kaplan-Meier曲線分析得出IL6、MMP9、VWF、SPP1、CCL2、PECAM1、TIMP1、COL1A1、CDH59種關鍵基因對患者的總生存時間有著顯著影響(P<0.050)。進一步利用GEPIA基于TCGA數據庫分析上述基因在mRNA水平上肺腺癌與癌旁樣本之間的表達差異,發(fā)現MMP9、SPP1、TIMP1、COL1A1在肺腺癌組織中明顯高表達,而其他5種基因在肺腺癌組織中明顯低表達。同時,利用UALCAN數據庫分析癌組織中高表達的基因與肺腺癌病理分期、淋巴結轉移狀態(tài)的關系,具體結果見圖4。另外從人類蛋白質圖譜數據庫獲得了癌和癌旁組織中上述4種基因蛋白水平的免疫組織化學染色圖像(圖5),結果表明,LUAD組織中MMP9、SPP1、TIMP1和COL1A1蛋白水平高于正常組織,提示這些基因可能成為預后的分子標記物和治療靶點。
圖4 COL1A1、MMP9、SPP1、TIMP1在LUAD腫瘤組織和鄰近正常肺組織中的轉錄表達Fig.4 Expression of COL1A1, MMP9, SPP1 and TIMP1 in LUAD tumor tissue and adjacent normal lung tissue
圖5 COL1A1、MMP9、SPP1、TIMP1的LUAD組織和正?;颊呓M織中蛋白表達的免疫組化染色Fig.5 Iimmunohistochemical staining of protein expression in LUAD tissues of COL1A1, MMP9, SPP1 and TIMP1 genes and normal tissues of patients
LUAD的發(fā)生發(fā)展是一個涉及多種基因和蛋白表達異常的復雜生理過程,由于惡性腫瘤的侵襲性強、易轉移、生長快等特點,早期的診斷及預后治療方法需要改進。微陣列技術和大規(guī)模序列技術的研究發(fā)展表明,基因對腫瘤的診斷和預后起著重要的作用[13-14]。因此,分析與LUAD侵襲和轉移密切相關的基因尤為重要,可為早期診斷和預后治療評估提供更多理論依據。為尋找LUAD早期診斷及預后的分子標志物從而達到肺腺癌患者的早期診療及預后的靶點治療,本文對多種LUAD研究數據進行統一的方法處理,從基因和蛋白的層面剖析了LUAD的發(fā)展及轉移的機制。
本研究對3組芯片數據進行挖掘,得到了355個差異基因,其中包括上調基因82個和下調基因273個。通過STRING數據庫及Cytoscape軟件對差異基因進一步篩選,得出10個關鍵基因,然后通過生存分析、基因及蛋白水平癌與癌旁的差異表達情況,得出SPP1、TIMP1、COL1A1、MMP94個基因,既往已有研究表明這4個基因可對癌癥產生影響,本研究進一步從生物信息學角度驗證了其可能對肺腺癌的診斷發(fā)展及預后有一定貢獻。通過功能富集顯示,上調差異基因主要富集在與細胞外基質(extracellular matrix,ECM)相關的細胞成分、生物學過程、分子功能以及信號通路中。而細胞外基質是腫瘤微觀環(huán)境的重要組成部分,當腫瘤細胞脫落,便會黏附在細胞外基質,隨著細胞外基質的分解向外侵襲和浸潤。因此腫瘤細胞是否向別處轉移和侵襲很大部分取決于細胞外基質的降解和細胞之間的黏附,這對腫瘤的預后有很大意義[15]。
組織金屬蛋白酶抑制劑(tissue inhibitor of matrix metalloproteinases,TIMPs)是基質金屬蛋白酶(matrix metalloproteinases,MMPs)的特異性抑制因子。TIMP1是由巨噬細胞和結締組織細胞產生的一種糖蛋白,廣泛存在于組織和體液中,可抑制包括MMP9在內的所有膠原[16],MMPS通過對細胞外基質的降解和突破基底膜的蛋白水解酶達到惡性腫瘤的侵襲和轉移[17]。TIMP1既能抑制MMPS基質蛋白的水解,在一定程度上又可以激活MMPS從而抑制其降解作用[18]。另外有研究表明,TIMP1基因與大多數實體癌的侵襲和轉移潛能密切相關,在前列腺癌[19]、結直腸癌[20]、肺癌[21]中的表達異常并可作為其侵襲轉移的潛在的分子標志。另外,新生毛細血管的生成以及毛細血管的增生也可以促進腫瘤細胞的生長和擴散[22]。TIMP1還可與 MMP9形成1∶1的共價鍵復合物,抑制酶原活化和水解的作用,使細胞外基質的穩(wěn)態(tài)處在動態(tài)平衡狀態(tài),而一旦兩者的動態(tài)平衡被打破,便會促進腫瘤的侵襲和轉移。利用GO及KEGG富集分析中可見,TIMP1和MMP9基因的表達在癌組織中上調,參與細胞黏附、血管生成,影響細胞外基質組成和金屬內肽酶的活性,顯著富集于胞外基質-受體和黏著斑信號通路,因此,TIMP1和MMP9可作為評估肺癌預后的獨立指標和早期的分子標志物。
Ⅰ型膠原蛋白α1(typeⅠcollagen α1,COL1A1)是纖維膠原家族的主要成分,也是參與細胞外基質結構的組成的主要結構蛋白。研究發(fā)現COL1A1基因在胃癌[23-24]、乳腺癌[25]、食管癌[26]、肝癌[27]等多種惡性腫瘤的發(fā)生及轉移中存在異常表達,并且可能與其預后相關。COL1A1的敲除缺失可以影響多種基因表達,從而抑制腫瘤細胞增殖,促進細胞凋亡[28]。另外,已有證據證明,COL1A1可誘導細胞間黏附復合物解聚和β-鏈蛋白的核轉位從而促進胰腺癌細胞的擴散及增殖[29-30],并可通過TGF-β信號加快肺癌以及乳腺癌細胞中的上皮間質轉化[31]。COL1A1基因在肺腺癌患者中使PI3K-Akt信號通路的許多組分比其他通路組分更容易被激活[32],胞外基質-受體和黏著斑信號通路也通過細胞黏附來影響腫瘤的預后與轉移[33]。在本研究中,COL1A1基因在癌組織中上調且顯著富集胞外基質-受體、TGF-β、PI3K-Akt、黏著斑信號通路之中,表明其有可能通過這4種通路參與LUAD發(fā)生發(fā)展的過程。
分泌性磷蛋白1(secretory phospho-protein1,SPP1)是一種富含趨化素樣的基質磷酸糖蛋白,多存在于人體體液、肺、胃腸道、胰腺等多個器官,在多種腫瘤的發(fā)生和轉移時都可見SPP1基因的高表達[34]。既往研究發(fā)現,RNA的干擾可以減少SPP1蛋白的表達,從而抑制腫瘤的生長,因此通過徹底敲除SPP1基因的方法可抑制腫瘤細胞生長[35-36]。據文獻報道,在肺腺癌組織中尤其是浸潤性腺癌中SPP1基因高度表達,其表達量與浸潤轉移程度相關[37]。特別對于相對早期的患者,SPP1可作為一種獨立的具有預后意義的生物標志物[38]。另外SPP1還可通過NF-κB(nuclear factor kappa-B)依賴的信號轉導通路促進基質金屬蛋白酶的分泌,通過對細胞基底膜和細胞外基質的降解,使腫瘤細胞向遠處轉移從而造成更差的預后[39-40]。SPP1內含有的GRGDS(甘氨酸-精氨酸-甘氨酸-天冬氨酸-絲氨酸)序列可引起蛋白水解酶的激活從而降低細胞黏附作用,而且可通過抑制PI3KAkt信號通路抑制癌細胞的上皮間質轉化[41]。在本研究中,SPP1基因在mRNA和蛋白水平在癌組織中表達均上調,而且多顯著富集于胞外基質-受體、PI3KAkt、黏著斑信號通路之中,為肺腺癌的診斷預后治療提供了方向。
綜上所述,本研究對肺腺癌的芯片數據進行了挖掘及生物信息學分析,發(fā)現關鍵基因主要通過胞外基質-受體、黏著斑信號通路、TGF-β和PI3K-Akt信號通路等參與LUAD的發(fā)生發(fā)展過程?;騎IMP1、SPP1、COL1A1、MMP9可能是肺腺癌的潛在治療靶基因,然而其具體的作用機制仍然需要更多的研究來證實。