張印恩 王鍵龍 陳 康 馬 錚 焦建寶 張 鐸
肺癌(lung cancer, LC)是世界上最常見的癌癥之一,約80%的患者5年內(nèi)死亡[1]。吸煙是LC的主要高危因素,非吸煙相關(guān)的肺腺癌(lung adenocarcinoma, LUAD)發(fā)展危險(xiǎn)因素包括接觸氡氣、接觸二手煙草煙霧、室內(nèi)污染物和環(huán)境污染等[2]。LUAD是肺癌中非小細(xì)胞肺癌的一種類型, 占所有肺癌診斷的50%,其頻率正在增加[3]。LUAD早期常無明顯癥狀,因此不能被及時(shí)發(fā)現(xiàn)。臨床上常常采用手術(shù)治療、靶向治療、免疫治療、放療等方法來治療患者[4~6]。LUAD的發(fā)生涉及了多個(gè)因素、多個(gè)階段、多個(gè)基因的改變,十分復(fù)雜[7]。
LUAD預(yù)后不良,早期發(fā)現(xiàn)LUAD可以顯著地提高患者的生存率[8]。更好地理解LUAD發(fā)生的分子機(jī)制可為早期發(fā)現(xiàn)LUAD和開發(fā)有效的治療策略鋪平道路[9,10]。因此,尋找新的可以早期診斷LUAD的關(guān)鍵基因是十分有必要的。筆者利用TCGA數(shù)據(jù)庫對(duì)LUAD組織與正常組織的差異基因進(jìn)行篩選,并做出富集分析、生存分析等尋找新的與LUAD相關(guān)的關(guān)鍵基因且分析其在LUAD中的作用,為臨床早期診斷LUAD提供參考。
1.數(shù)據(jù)的提取:從TCGA數(shù)據(jù)庫中下載所有關(guān)于LUAD的mRNA轉(zhuǎn)錄組Count數(shù)據(jù)。整理Count數(shù)據(jù)形成一個(gè)列名為基因名,行名為樣本名的矩陣文件。其中列名與行名的交點(diǎn)為該基因在該樣本中的表達(dá)情況。樣本一共有594例,LUAD樣本535例,其余為正常組織樣本。從TCGA數(shù)據(jù)庫中下載所有關(guān)于LUAD的臨床數(shù)據(jù)并整理,處理成一個(gè)包含樣本名、生存時(shí)間(單位為天)、生存狀態(tài)(“0”代表患者生存,“1”代表患者死亡)、年齡、性別、Stage分期、TNM分期的表格,以便后期用來做生存分析。
2.差異表達(dá)分析:將上述矩陣文件經(jīng)過處理,分離出mRNA與LncRNA。之后對(duì)mRNA數(shù)據(jù)進(jìn)行正常組織與LUAD的差異表達(dá)分析。將分離出的mRNA數(shù)據(jù)導(dǎo)入R語言,利用limma工具包讀取并處理文件,通過計(jì)算所有數(shù)據(jù)的倍數(shù)變化(fold change, FC) 值以及偽發(fā)現(xiàn)率(false discovery rate, FDR),并且篩選出FC值< 1,且P<0.05的mRNA(為了選取在正常組織中特異性上調(diào)表達(dá)的基因,擴(kuò)大差異分子數(shù)目),形成一個(gè)包含基因名、log2FC、log2CPM、Pvalue、FDR值的文件。其中上調(diào)基因3713個(gè)(log2FC>0),下調(diào)基因1813個(gè)(log2FC<0)。之后對(duì)所有的 mRNA 轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行散點(diǎn)圖繪制。其中散點(diǎn)圖的橫軸為-lgFDR,縱軸為log2FC。
3.KEGG與GO富集分析:篩選log2FC排名前200的基因(上調(diào)基因與下調(diào)基因各100個(gè)),利用sublime、R語言、GSEA軟件進(jìn)行GO富集分析與KEGG富集分析。
4.篩選FDR排名前200的差異基因:蛋白質(zhì)是由mRNA為模板翻譯而來,因此研究mRNA對(duì)應(yīng)的蛋白質(zhì)非常有意義。對(duì)FDR值排序,選取排名前200的mRNA差異基因,通過String數(shù)據(jù)庫進(jìn)行分析,分析時(shí)隱藏沒有連線的節(jié)點(diǎn)以便圖像更為簡(jiǎn)潔清晰,之后構(gòu)建蛋白互作網(wǎng)絡(luò)圖。將下載的Sting數(shù)據(jù)采用軟件“Cytoscape 3.6.1” 對(duì)蛋白互作網(wǎng)絡(luò)進(jìn)行分析作圖。利用R語言,將網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行降序排列,選取前30個(gè)關(guān)鍵基因進(jìn)行分析。
5.基因表達(dá)水平及生存分析:將關(guān)鍵基因的表達(dá)次數(shù)降序排列,尋找關(guān)鍵基因,找出其表達(dá)水平的中位數(shù),以此為界,將關(guān)鍵基因分為高、低兩個(gè)表達(dá)組,并用R軟件、Strawberry perl、sublime進(jìn)行生存分析。
6.關(guān)鍵基因在不同Stage分期中表達(dá)量的差異分析:將下載的臨床數(shù)據(jù)按Stage分期進(jìn)行分組,利用ggplot2和ggpubr軟件包將生存分析中差異有統(tǒng)計(jì)學(xué)意義的5個(gè)關(guān)鍵基因進(jìn)行不同Stage分期的基因表達(dá)量差異分析,得到關(guān)鍵基因在臨床早期和隨疾病分期進(jìn)展的差異表達(dá)情況。
7.統(tǒng)計(jì)學(xué)方法與圖形繪制:應(yīng)用 SPSS 25.0 統(tǒng)計(jì)學(xué)軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。通過R語言軟件3.6.3和limma軟件包處理數(shù)據(jù)得到差異表達(dá)基因。采用Kaplan-Meier法繪制生存曲線,關(guān)鍵基因的高表達(dá)組和低表達(dá)組的比較采用Log-rankχ2檢驗(yàn)。用ggplot2和ggpubr軟件包將生存分析中差異有統(tǒng)計(jì)學(xué)意義的關(guān)鍵基因進(jìn)行差異表達(dá)分析,用Kruskal-Wallis檢驗(yàn)進(jìn)行多組檢驗(yàn),Wilcoxon檢驗(yàn)進(jìn)行兩兩配對(duì)檢驗(yàn),以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.差異基因篩選結(jié)果:根據(jù)篩選條件,篩選出上調(diào)基因3713個(gè),下調(diào)基因1813個(gè),共5526個(gè)(圖1)。
圖1 差異基因表達(dá)散點(diǎn)圖
2.GO及KEGG富集分析結(jié)果:GO富集分析結(jié)果:GO分析結(jié)果表明,其生物過程主要在多細(xì)胞生物過程等功能富集(圖2)。KEGG富集分析結(jié)果表明,其生物過程主要在神經(jīng)活性配體-受體相互作用等方面發(fā)揮作用(圖3)。
圖2 GO富集分析圖
圖3 KEGG富集分析圖
3.蛋白互作網(wǎng)絡(luò):由String數(shù)據(jù)庫分析得出的網(wǎng)絡(luò)圖如圖4。利用R 語言將網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行降序排列,選取排在前30的關(guān)鍵基因CDH5、PECAM1、VWF、CAV1、TEK、CLDN5、HBB、RAMP2、TIE1、WNT3A、ADRB2、ALAS2、ANGPT4、CALCRL、CLEC14A、GIMAP8、GRK5、HBA1、HBA2、HEG1、LDB2、LMO2、PTPRB、RAMP3、TAL1、TNS1、ACVRL1、ADAMTS8、ARC和CCM2L。
圖4 蛋白互作網(wǎng)絡(luò)圖
4.關(guān)鍵基因生存分析:R語言將網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行降序排列后,對(duì)排名前30的基因使用Strawberry perl、sublime、R語言軟件進(jìn)行生存分析。分析顯示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8高表達(dá)組生存率與低表達(dá)組比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。其中ADRB2和GIMAP8與生存期的關(guān)聯(lián)較強(qiáng),后3組不明顯;其他25個(gè)基因高表達(dá)組生存率與低表達(dá)組比較,差異無統(tǒng)計(jì)學(xué)意義(P>0.05,圖5)。因此,筆者主要對(duì)差異有統(tǒng)計(jì)學(xué)意義的ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8基因進(jìn)行分析。
圖5 生存曲線圖
5.關(guān)鍵基因在不同Stage分期中表達(dá)量的差異分析:將下載的臨床數(shù)據(jù)按Stage分期進(jìn)行分組,利用ggplot2和ggpubr軟件包將生存分析中差異有統(tǒng)計(jì)學(xué)意義的關(guān)鍵基因進(jìn)行差異表達(dá)分析。分析顯示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8均在LUAD臨床早期就有表達(dá),ADAMTS8差異有統(tǒng)計(jì)學(xué)意義(P<0.05),其余4個(gè)基因比較,差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。使用Wilcoxon檢驗(yàn)對(duì)ADAMTS8各分期進(jìn)行兩兩之間配對(duì)檢驗(yàn),顯示其StageⅠA與StageⅠB、StageⅡA、StageⅡB、StageⅢA、StageⅢB、StageⅣ之間表達(dá)量比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05,圖6)。ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8均在LUAD臨床早期就有一定表達(dá),這些基因?qū)υ缙谠\斷LUAD具有一定價(jià)值,有望成為早期診斷LUAD的基因。
在國際上,肺癌的病死率仍然較高[11]。中國等發(fā)展中國家癌癥病死率較高。造成這樣局面的原因包括獲得保健服務(wù)的機(jī)會(huì)不平等導(dǎo)致診斷和治療延誤、環(huán)境污染、吸煙等[11]。非小細(xì)胞肺癌患者在所有LC中的比例高達(dá)4/5,而LUAD在非小細(xì)胞肺癌中較為常見[12~14]。LUAD預(yù)后較差,當(dāng)LUAD患者出現(xiàn)癥狀去就診時(shí),通常已是LUAD晚期。EGFR、BRAF、KRAS、FGFR3和ERBB2等基因突變、染色體雜合性缺失包括9q和16p或NFE2L2/Nrf2信號(hào)通路的改變均可導(dǎo)致LUAD,但LUAD早期發(fā)病相關(guān)基因有待于進(jìn)一步研究。因此,為了提高患者的生存率,降低患者的經(jīng)濟(jì)壓力,探索與研究和LUAD的相關(guān)的分子標(biāo)志物、基因以及癌癥的發(fā)生機(jī)制并早期發(fā)現(xiàn)LUAD是十分有必要的。
本研究采用了生物信息學(xué)分析的方法,首先從TCGA數(shù)據(jù)庫搜索并下載了549例LUAD樣本與LUAD的臨床數(shù)據(jù)來進(jìn)行生存分析。549例LUAD樣本中包含了59例正常組織樣本和535例LUAD組織樣本。通過差異分析篩選出上調(diào)基因與下調(diào)基因,利用String數(shù)據(jù)庫與Cytoscape軟件獲得蛋白網(wǎng)絡(luò)互作圖。進(jìn)一步生存分析顯示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8高表達(dá)組與低表達(dá)組生存率比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),其中ADRB2和GIMAP8與生存期的關(guān)聯(lián)較強(qiáng),后3組不明顯;其他25個(gè)基因高表達(dá)組生存率與低表達(dá)組比較,差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。關(guān)鍵基因在不同Stage分期的差異表達(dá)分析顯示ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8在LUAD臨床早期就已有表達(dá),且ADAMTS8各分期表達(dá)比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。
ADRB2是G蛋白偶聯(lián)受體超家族的成員,可被β-激動(dòng)劑激活,如腎上腺素、去甲腎上腺素等。該受體與其最終效應(yīng)器之一的C類L型鈣通道Ca(V)直接相關(guān)。該受體通道復(fù)合物還包含G蛋白、腺苷酸環(huán)化酶、cAMP依賴性激酶和平衡磷酸酶PP2A,并且這個(gè)基因無內(nèi)含子[15]。ADRB2與許多癌癥的發(fā)生相關(guān)。香煙煙霧中的應(yīng)激激素(如腎上腺素和去甲腎上腺素)和致癌物可與β2受體結(jié)合,進(jìn)一步促進(jìn)癌癥的發(fā)展[16]。本研究中ADRB2高表達(dá)組與低表達(dá)組的生存分析比較,差異有統(tǒng)計(jì)學(xué)意義,且與生存期的關(guān)聯(lián)較強(qiáng)。ADRB2在LUAD臨床早期就已有表達(dá),但Stage各期表達(dá)量比較差異無統(tǒng)計(jì)學(xué)意義。研究表明ADRB2與肺癌密切相關(guān)[17,18]。Adissu等[19]
研究發(fā)現(xiàn)LUAD的Clara細(xì)胞系對(duì)β受體激動(dòng)劑如異丙腎上腺素的促瘤作用高度敏感,異丙腎上腺素能促進(jìn)cAMP的表達(dá)。然而,由肺泡Ⅱ型細(xì)胞發(fā)展而來的LUAD對(duì)β受體激動(dòng)劑有耐藥性,并其對(duì)cAMP刺激有反應(yīng)。這一發(fā)現(xiàn)提示了ADRB2在肺癌發(fā)生中的重要作用,并提示AR阻斷劑的應(yīng)用可能是預(yù)防肺癌發(fā)生的有效手段。Szentendre等[20,21]在培養(yǎng)的A549(人非小細(xì)胞肺癌細(xì)胞系)細(xì)胞中發(fā)現(xiàn)該細(xì)胞中IL-1受體的激活導(dǎo)致細(xì)胞選擇性地上調(diào)ADRB2,這種效應(yīng)的機(jī)制涉及ADRB2 mRNA19的形成和穩(wěn)定性的增加。然而,進(jìn)一步的研究發(fā)現(xiàn),ADRB2在Calu-3(培養(yǎng)的白種人LUAD)細(xì)胞中表達(dá),表明ADRB2與LUAD的發(fā)生密切相關(guān)。
GIMAP8屬于GTP結(jié)合超家族和核苷酸結(jié)合蛋白的免疫相關(guān)核苷酸(IAN)亞家族的蛋白質(zhì)。本研究GIMAP8高表達(dá)組與低表達(dá)組生存分析比較,差異有統(tǒng)計(jì)學(xué)意義。GIMAP8在LUAD臨床早期就已有表達(dá),但Stage各分期表達(dá)比較差異無統(tǒng)計(jì)學(xué)意義。Shiao等[22]在共20例非小細(xì)胞肺癌的實(shí)驗(yàn)中用定量PCR證實(shí)了GIMAP6和GIMAP8在非小細(xì)胞肺癌中的基因表達(dá)顯著降低。非小細(xì)胞肺癌包含了鱗癌、LUAD和大細(xì)胞癌,在Shiao等實(shí)驗(yàn)中并沒有明確提出GIMAP8與LUAD的關(guān)系,僅僅表明GIMAP8與非小細(xì)胞癌有關(guān)。目前有關(guān)與GIMAP8與肺癌的相關(guān)研究極少,因此,GIMAP基因的調(diào)控機(jī)制有待于進(jìn)一步研究。
LMO2編碼卵黃囊紅細(xì)胞生成所需的富含半胱氨酸的雙LIM結(jié)構(gòu)域蛋白質(zhì)。LMO2蛋白在造血發(fā)育中起著核心和關(guān)鍵作用,并且高度保守。LMO2轉(zhuǎn)錄起始位點(diǎn)位于11p13 T細(xì)胞易位簇(11p13 ttc)下游約25kb處,在此發(fā)生大量T細(xì)胞急性淋巴細(xì)胞白血病特異性易位。本研究中,LMO2高表達(dá)組與低表達(dá)組生存分析比較差異有統(tǒng)計(jì)學(xué)意義,但與生存期的關(guān)聯(lián)性不明顯。LMO2在LUAD臨床早期就已有表達(dá),但Stage各期表達(dá)量差異無統(tǒng)計(jì)學(xué)意義。Wang等[23]研究表明LMO2可以調(diào)控PTTG1在肺癌組織中的表達(dá),Li等[24]研究表明,PTTG1促進(jìn)人非小細(xì)胞肺癌細(xì)胞的遷移和侵襲并受到LMO2的調(diào)控。Mao等[25]研究非吸煙LUAD患者的相關(guān)基因時(shí)發(fā)現(xiàn),非吸煙LUAD患者的惡性磨玻璃結(jié)節(jié)中存在LMO2的突變,表明LMO2可能通過調(diào)節(jié)基因表達(dá)來發(fā)揮作用,從而影響LUAD的發(fā)展和預(yù)后。
TNS1基因編碼的蛋白質(zhì)定位于局灶性黏附,即細(xì)胞附著在細(xì)胞外基質(zhì)上的質(zhì)膜區(qū)域。這種蛋白質(zhì)交聯(lián)肌動(dòng)蛋白絲并包含Src同源2(SH2)結(jié)構(gòu)域,該結(jié)構(gòu)域通常存在于參與信號(hào)轉(zhuǎn)導(dǎo)的分子中。在本研究中,TNS1高表達(dá)組生存率高于低表達(dá)組,差異有統(tǒng)計(jì)學(xué)意義但與生存期的關(guān)聯(lián)性不明顯。TNS1在LUAD臨床早期就已表達(dá),但Stage各期表達(dá)量差異無統(tǒng)計(jì)學(xué)意義。Duan等[26]將si-NC、pcDNA3.1、si-TNS1或pcDNA3.1-TNS1轉(zhuǎn)染到A549和H460細(xì)胞(非小細(xì)胞肺癌細(xì)胞株)中,通過RT-qPCR和Western blot法分析轉(zhuǎn)染效率,采用MTT法和流式細(xì)胞儀檢測(cè)TNS1對(duì)非小細(xì)胞肺癌細(xì)胞生長(zhǎng)的影響,證實(shí)TNS1在非小細(xì)胞肺癌患者中顯著上調(diào),并與非小細(xì)胞肺癌的生長(zhǎng)轉(zhuǎn)移相關(guān)。
研究表明,miR-152/TNS1軸通過Akt/mTOR/RhoA通路抑制非小細(xì)胞肺癌進(jìn)展。Chen等[27]構(gòu)建了與LUAD生存相關(guān)的lncRNA-miRNA-mRNA ceRNA網(wǎng)絡(luò),證實(shí)TNS1在LUAD組織中表達(dá)下調(diào),且表達(dá)越高,預(yù)后越好。Zhu等[28]研究表明,miR-31-5p在LUAD組織中顯著上調(diào),且與TNS1表達(dá)水平呈負(fù)相關(guān),證實(shí)TNS1是miR-31-5p的直接靶點(diǎn)。進(jìn)一步研究表明TNS1在一定程度上減弱了miR-31-5p對(duì)LUAD細(xì)胞功能的促腫瘤作用,證實(shí)miR-31-5p可以通過TNS1/p53軸促進(jìn)LUAD細(xì)胞的生長(zhǎng)。因此,LUAD與TNS1密切相關(guān)。
ADAMTS8是編碼ADAMTS蛋白質(zhì)家族的一個(gè)成員,在體內(nèi)破壞血管生成。在該基因附近已經(jīng)繪制了許多疾病的圖譜,最顯著的是肺腫瘤。ADAMTS8是一種腫瘤抑制因子,在多種人類癌癥中觀察到ADAMTS8的表達(dá)降低。本研究中ADAMTS8高表達(dá)組與低表達(dá)組生存分析比較,差異有統(tǒng)計(jì)學(xué)意義,但與生存期的關(guān)聯(lián)性不明顯。ADAMTS8在LUAD臨床早期就已有表達(dá)且其StageⅠA與StageⅠB、StageⅡA、StageⅡB、StageⅢA、StageⅢB、StageⅣ之間表達(dá)量差異有統(tǒng)計(jì)學(xué)意義。Zhang等[29]采用RT-qPCR方法探索ADAMTS8在肺癌細(xì)胞株H460和A549中的表達(dá),研究表明ADAMTS8在肺癌中具有抑制作用。ADAMTS8在體外通過VEGFA調(diào)控HUVECs細(xì)胞增殖、凋亡、管形成,在體內(nèi)介導(dǎo)腫瘤生長(zhǎng)和血管生成,證實(shí)了ADAMTS8在肺癌中可能具有抗腫瘤和抗血管生成的作用。Li等[30]用CCK-8和RT-qPCR等研究方法表明ADAMTS8為促進(jìn)調(diào)節(jié)預(yù)后炎癥相關(guān)的生物學(xué)標(biāo)志物,這些基因的表達(dá)抑制了LUAD細(xì)胞的增殖,且ADAMTS8的表達(dá)受TNF-α和增強(qiáng)子的調(diào)控。這些基因的表達(dá)抑制了LUAD細(xì)胞的增殖,證實(shí)了ADAMTS8表達(dá)是影響LUAD患者預(yù)后的獨(dú)立危險(xiǎn)因素。
綜上所述,通過TCGA數(shù)據(jù)庫分析出ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8在LUAD臨床早期就已有表達(dá),且ADAMTS8在不同Stage分期中表達(dá)量差異有統(tǒng)計(jì)學(xué)意義。ADRB2、LMO2、TNS1、ADAMTS8已被證實(shí)與LUAD的發(fā)生和預(yù)后相關(guān),GIMAP8已被證實(shí)與肺非小細(xì)胞癌有關(guān),但其與LUAD的相關(guān)機(jī)制有待于進(jìn)一步研究。這些關(guān)鍵基因與中腸發(fā)育、循環(huán)系統(tǒng)中的血管過程、碳酸氫鹽運(yùn)輸?shù)壬飳W(xué)過程有關(guān),未來有希望成為早期診斷LUAD的基因。