孫珊珊,馮 虎,畢莎杉
(1.山東大學(xué)附屬威海市立醫(yī)院腫瘤 綜合治療科,山東 威海264200;2.山東大學(xué)附屬威海市立醫(yī)院 病理科,山東 威海264200)
2019年肺癌(LC)死亡比例占癌癥相關(guān)死亡的23.5%[1],而非小細(xì)胞肺癌(NSCLC)占LC發(fā)病率和死亡率的80%以上[2]。隨著高通量測(cè)序和芯片技術(shù)的快速發(fā)展,發(fā)現(xiàn)了許多與腫瘤預(yù)后有關(guān)的致病基因,推動(dòng)了分子革命時(shí)代的浪潮。靶向及免疫藥物的發(fā)現(xiàn)也為NSCLC治療做出重大貢獻(xiàn),提高了NSCLC患者的無進(jìn)展生存期(progression free survival,PFS),但其總生存(OS)仍不理想,尤其是晚期患者[3-4]。因此迫切需要發(fā)現(xiàn)針對(duì)NSCLC的更有效的治療靶點(diǎn)。
本研究利用GEO(Gene Expression Omnibus)平臺(tái)上的5個(gè)mRNA表達(dá)數(shù)據(jù)集分析了NSCLC與正常組織的差異表達(dá)基因(DEGs)。利用Cytoscape軟件中的ClueGO 插件進(jìn)行通路富集分析并利用基于String 11.0數(shù)據(jù)庫的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)進(jìn)行分析。并對(duì)差異表達(dá)基因進(jìn)行了靶向miRNA的預(yù)測(cè),構(gòu)建了mRNA-miRNA調(diào)控網(wǎng)絡(luò)。最終篩選出6個(gè)與NSCLC預(yù)后相關(guān)的分子。本研究旨在尋找與NSCLC發(fā)生發(fā)展和預(yù)后相關(guān)的潛在靶分子,為臨床治療提供依據(jù)和方向。
從GEO平臺(tái)(http://www.ncbi.nlm.nih.gov/geo)上獲取5個(gè)mRNA數(shù)據(jù)集(GSE18842,GSE19188,GSE21933,GSE33356和GSE102287)和miRNA數(shù)據(jù)集(GSE53882)。RNA數(shù)據(jù)集分別基于GPL570(Affymetrix Human Genome U113 Plus 2.0 Array)(GSE18842,GSE19188,GSE33356 和GSE102287);GPL6254(Phalanx Human OneArray)(GSE21933)和GPL18130(State Key Laboratory Human microRNA array 1888)測(cè)序。各個(gè)數(shù)據(jù)集包含的NSCLC樣本數(shù)及正常肺組織樣本數(shù)分別為:GSE18842為46和45;GSE19188為94和62;GSE33356為60和60;GSE102287為32和34;GSE21933為21和21;GSE53882為397和103。
通過均值、log2轉(zhuǎn)換和插值缺失的表達(dá)數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。利用基于R 3.5.2的limma軟件包對(duì)NSCLC和正常肺組織的DEGs和差異miRNA(DEMs)進(jìn)行鑒定,LogFC>2 和校正P值<0.05被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。
利用String11.0數(shù)據(jù)庫(https://string-db.org)獲取DEGs的PPI信息,富集閾值P值<0.001,利用Cytoscape軟件(v.3.7.1)對(duì)PPI網(wǎng)絡(luò)進(jìn)行可視化。我們?cè)贑ytoscape軟件中使用了ClueGO插件,進(jìn)一步分析研究DEGs的生物學(xué)過程、細(xì)胞組成、分子功能以及KEGG通路信息,P值<0.05被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。
利用ENCORI(Encyclopedia of RNA Interactomes,http://starbase.sysu.edu.cn)進(jìn)行了差異表達(dá)基因靶miRNAs的預(yù)測(cè)分析,然后篩選預(yù)測(cè)miRNA和DEMs的重疊miRNA。并在GENEMANIA(http://genemania.org)平臺(tái)上獲取DEGs可能的mRNA相互作用信息。構(gòu)建mRNA-miRNA調(diào)控網(wǎng)絡(luò),揭示miRNA對(duì)mRNA的調(diào)控參與NSCLC的發(fā)生發(fā)展。
我們使用公共開放數(shù)據(jù)庫GEPIA(Gene Expression Profile Interactive Analysis,http://gepia.cancer-pku.cn/)來評(píng)估DEGs的表達(dá)與不同病理類型之間的相關(guān)性,分別基于肺腺癌(LUAD)和肺鱗癌(LUSC)資料分析DEGs與TNM分期、PFS和OS的相關(guān)性。
數(shù)據(jù)預(yù)處理后,通過限制logFC>2和P值<0.05,我們分別得出在NSCLC組織中DEGs有466、309、715、111和650個(gè)。DEMs有184個(gè),其中48個(gè)miRNA表達(dá)下調(diào),49個(gè)miRNA表達(dá)上調(diào),在5個(gè)mRNA數(shù)據(jù)集中,共篩選出51個(gè)重疊基因(上調(diào)13個(gè),下調(diào)38個(gè)),見表1,圖1。
表1 51個(gè)差異表達(dá)基因的情況
圖1 5個(gè)mRNA數(shù)據(jù)集差異基因交集的韋恩圖(A),以及差異基因表達(dá)譜的熱圖(B、C)。
利用ClueGo軟件進(jìn)行了GO和KEGG富集分析,發(fā)現(xiàn)DEGs與調(diào)節(jié)細(xì)胞分化,組織重塑和蛋白激酶A的生物功能調(diào)節(jié)密切相關(guān),且與構(gòu)成多囊泡小體相關(guān)。KEGG富集分析表明,DEGs主要聚集在PPAR信號(hào)通路中(P值均<0.05)(見圖2)。
圖2 差異表達(dá)基因的GO和KEGG富集分析結(jié)果圖
利用GENMANIA網(wǎng)站獲取和生成DEGs及它們相互作用基因之間的網(wǎng)絡(luò),見圖3A。基于STRING平臺(tái)獲取DEGs編碼的蛋白質(zhì)信息,并使用Cytoscape軟件生成PPI網(wǎng)絡(luò),見圖3B,發(fā)現(xiàn) IL6位于調(diào)控網(wǎng)絡(luò)的中心位置,提示DEGs可能通過IL6調(diào)節(jié)細(xì)胞功能。
基于TCGA中肺腺癌(LUAD)和肺鱗癌(LUSC)數(shù)據(jù)集的分析也證實(shí)了ANKDR29、IGSF10和PPBP在NSCLC樣本中表達(dá)下調(diào),相反,THBS2、 GREM1和SPP1在腫瘤組織中表達(dá)上調(diào),見圖4A。此外,IGSF10與病理分期相關(guān)(P=0.039),但其他基因沒有發(fā)現(xiàn)明顯的差異,見圖4B。在GEPIA平臺(tái)中評(píng)估分析,我們發(fā)現(xiàn)ANKRD29、GREM1、IGSF10、THBS2、PPBP和SPP1對(duì)NSCLC患者的OS有顯著影響(P值分別為0.012、0.013、0.008、0.042、0.017和0.01),見圖5A,但只有IGSF10高表達(dá)患者的PFS顯著優(yōu)于低表達(dá)患者P=0.019,見圖5B。
圖4 DEGs在LUAD和LUSC中的表達(dá)情況(A)以及在對(duì)不同分期的影響(B)
圖5 DEGs在NSCLC中OS(A)和PFS(B)中的生存曲線
在51個(gè)DEGs中,我們?cè)贓NCORI平臺(tái)上發(fā)現(xiàn)了3761個(gè)可能相關(guān)的miRNAs。與我們獲得的DEMs比較后,認(rèn)為有22個(gè)miRNAs參與調(diào)控DEGs,見表2。值得注意的是miR-143-3p與IGSF10和GERM1密切相關(guān),結(jié)合肺癌組織中miR-143-3p表達(dá)上調(diào)與IGSF10表達(dá)下調(diào)趨勢(shì),提示miR-143-3p有可能抑制IGSF10轉(zhuǎn)錄,影響肺癌細(xì)胞分化增殖。
表2 NSCLC中22個(gè)重疊差異表達(dá)的miRNA的信息
隨著信息數(shù)字化的發(fā)展,包括高通量測(cè)序和DNA芯片技術(shù)在內(nèi)的生物信息學(xué)分析技術(shù)在醫(yī)學(xué)研究領(lǐng)域得到了廣泛的應(yīng)用,挖掘新的生物標(biāo)志物可能成為診斷和治療的靶標(biāo)[5-6]。本研究從GEO平臺(tái)篩選出5個(gè)基因芯片數(shù)據(jù)集(GSE18842、GSE19188、GSE21933、GSE33356和GSE102287),將每個(gè)數(shù)據(jù)集中的DEGs交互,得到51個(gè)與NSCLC的發(fā)生發(fā)展密切相關(guān)的DEGs,應(yīng)用ClueGo軟件對(duì)51個(gè)DEGs進(jìn)行GO和KEGG富集分析,我們發(fā)現(xiàn)DEGs主要富集于組織重塑、細(xì)胞分化和蛋白激酶A(PKA)的調(diào)控,并主要構(gòu)成細(xì)胞成分的多囊泡小體。KEGG富集分析證實(shí)了PPAR信號(hào)通路與NSCLC相關(guān)。以往研究表明,PKA通過不同亞基的作用參與細(xì)胞分化、腫瘤轉(zhuǎn)化和預(yù)后[7-8],靶向PAK可抑制耐selumentinb(一種MEK抑制劑)肺癌細(xì)胞的生長[9]。PPAR通路失調(diào)會(huì)激活腫瘤免疫和缺氧,最終導(dǎo)致代謝紊亂[10]。上述發(fā)現(xiàn)間接說明我們研究結(jié)果的準(zhǔn)確性。此外我們發(fā)現(xiàn)有22個(gè)miRNAs與DEGs之間存在mRNA-miRNA相互作用網(wǎng)絡(luò)。有6個(gè)候選基因(ANKRD29、GREM1、IGSF10、THBS2、PPBP和SPP1)對(duì)NSCLC患者的OS有顯著影響。
miRNA通過3’端非編碼區(qū)與特定mRNA結(jié)合來抑制相關(guān)基因的蛋白表達(dá),但這一過程不是絕對(duì)的[11]。我們的結(jié)果顯示只有3個(gè)基因(IGSF10、GREM1、THBS2)與22個(gè)miRNAs相關(guān),miR-143-3p可能在調(diào)控IGSF10和GREM1表達(dá)方面起關(guān)鍵作用。先前報(bào)道表明miR-143-3p在NSCLC中下調(diào)導(dǎo)致自噬潮增加,降低對(duì)藥物的敏感性[12]。IGSF10是定位于細(xì)胞膜上的免疫球蛋白超家族成員,在多種腫瘤中檢測(cè)到突變,而沉默IGSF10可誘導(dǎo)整合素-β1/FAK信號(hào)的激活促進(jìn)腫瘤增殖和黏附[13]。GREM1是編碼骨形態(tài)發(fā)生蛋白拮抗劑家族成員,在細(xì)胞外基質(zhì)合成、膠原合成和生物結(jié)構(gòu)修飾等方面中起關(guān)鍵作用[14]。文獻(xiàn)報(bào)道,GREM1高表達(dá)的患者在乳腺癌、結(jié)腸癌、基底細(xì)胞癌等疾病中預(yù)后較差,這可能與不同的內(nèi)部機(jī)制激活有關(guān),包括激活TGF-β/smad通路、BMP通路或EMT通路[15-16]。這與我們的研究結(jié)果相一致。但這些候選基因在NSCLC背景下的認(rèn)識(shí)還不夠深入,考慮到分子調(diào)控的復(fù)雜性和多樣性,我們不能給出一個(gè)潛在的特定調(diào)控環(huán)路,我們提出它是否也可以調(diào)節(jié)IGSF10或GREM1參與NSCLC的發(fā)生發(fā)展,還需要更多的研究來證實(shí)。
前期也有一些生物信息學(xué)分析來揭示NSCLC的分子機(jī)制[17-18]。與已有研究相比,我們的研究具有更大的數(shù)據(jù)量(5個(gè)微陣列數(shù)據(jù)集)和更嚴(yán)格的DEGs篩選條件(logFC>2),從而保證了結(jié)果的準(zhǔn)確性。我們利用預(yù)測(cè)平臺(tái)和GEO數(shù)據(jù)庫的結(jié)合,建立了mRNA-miRNA相互作用網(wǎng)絡(luò),更好地探索候選基因在NSCLC中的意義。但仍有許多不足之處,還需要蛋白和RNA水平上的分子實(shí)驗(yàn)來探索這些候選基因在NSCLC中的生物學(xué)機(jī)制。
綜上所述,我們通過綜合生物信息學(xué)分析確定了6個(gè)與NSCLC患者OS相關(guān)的DEGs,其中IGSF10與PFS相關(guān)。我們發(fā)現(xiàn)ANKRD29 和 IGSF10可能與NSCLC發(fā)生發(fā)展有關(guān),這在以往是鮮有報(bào)道的。綜合預(yù)測(cè)和mRNA-miRNA互作網(wǎng)絡(luò)給出的22個(gè)miRNAs可以為下一步的研究指明方向。總之,本研究為NSCLC個(gè)體化治療提供了潛在靶點(diǎn)。