董 謙,龔娜英,陳 康,王偉佳△
1.廣東省中山市人民醫(yī)院,廣東中山 528403;2.廣東省深圳市人民醫(yī)院轉(zhuǎn)化醫(yī)學(xué)協(xié)調(diào)創(chuàng)新中心,廣東深圳 518116
急性髓系白血病(AML)是一種高度異質(zhì)性的血液系統(tǒng)惡性腫瘤,表現(xiàn)為髓系起源的白血病細(xì)胞在骨髓和外周血中克隆性增殖[1]。在我國(guó),AML的發(fā)病率為1.62/100 000,占成人急性白血病的60%~70%。目前,通過(guò)規(guī)范的聯(lián)合化療、造血干細(xì)胞移植及生物治療等手段,AML的治愈率可達(dá)50%,但存在易復(fù)發(fā)的問(wèn)題,有30%的患者病情不能完全緩解,且預(yù)后較差[2]。臨床上,AML主要按照世界衛(wèi)生組織2016年的標(biāo)準(zhǔn),通過(guò)細(xì)胞形態(tài)學(xué)-免疫學(xué)-細(xì)胞遺傳學(xué)-分子生物學(xué)方法(MICM)進(jìn)行診斷和分型,其中細(xì)胞遺傳學(xué)-分子生物學(xué)檢測(cè)結(jié)果是對(duì)患者治療方案選擇和預(yù)后判斷的重要指標(biāo)之一。但是目前仍有部分AML未發(fā)現(xiàn)有重現(xiàn)性遺傳學(xué)異常,新的分子生物標(biāo)志物可能有助于使AML患者更好地進(jìn)行風(fēng)險(xiǎn)分層,并幫助確定預(yù)后較差的患者。因此,探究與AML相關(guān)的新的基因、分子標(biāo)志物、分子治療靶點(diǎn)等對(duì)研究 AML的發(fā)病機(jī)制、預(yù)防和治療具有重要意義。
隨著高通量測(cè)序技術(shù)的發(fā)展,基因芯片技術(shù)是一項(xiàng)能夠快速檢測(cè)差異表達(dá)基因的可靠技術(shù),通過(guò)這項(xiàng)技術(shù),可將檢測(cè)到的差異表達(dá)基因存儲(chǔ)在公共數(shù)據(jù)庫(kù)。因此,在這些數(shù)據(jù)的基礎(chǔ)上,可以為新的研究尋找大量有價(jià)值的線索。本研究利用生物信息學(xué)方法,通過(guò)挖掘NCBI的基因表達(dá)數(shù)據(jù)庫(kù)(GEO數(shù)據(jù)庫(kù))中與AML疾病研究進(jìn)展有關(guān)的芯片數(shù)據(jù),利用在線工具和軟件進(jìn)行生物學(xué)分析,以期找到AML發(fā)病中的潛在關(guān)鍵基因和信號(hào)通路,為研究疾病的發(fā)病機(jī)制、腫瘤標(biāo)志物的篩選提供理論基礎(chǔ)。
1.1數(shù)據(jù)集的獲取和分析 GEO(https://www.ncbi.nlm.nih.gov/pubmed)包含的基因表達(dá)數(shù)據(jù)資源在全球范圍內(nèi)最全面,是一個(gè)公共功能基因組數(shù)據(jù)存儲(chǔ)庫(kù)。筆者以關(guān)鍵詞“acute myeloid leukemia”在GEO數(shù)據(jù)庫(kù)中檢索,選擇研究類型:Expression profiling by array,限制種屬類型:Homo sapiens,在GEO數(shù)據(jù)庫(kù)中查找出多個(gè)在AML患者的骨髓細(xì)胞和健康人骨髓細(xì)胞中的基因表達(dá)譜數(shù)據(jù)集。在結(jié)果中篩選包含AML疾病組與健康組對(duì)照實(shí)驗(yàn)數(shù)據(jù)的數(shù)據(jù)集。
1.2差異表達(dá)基因的篩選 GEO數(shù)據(jù)庫(kù)的GEO2R[3]是一個(gè)基于R語(yǔ)言程序的微陣列芯片數(shù)據(jù)集分析工具。利用GEO2R在線工具(http://www.ncbi.nlm.nih.gov/geo/geo2r/)對(duì)從GEO數(shù)據(jù)庫(kù)篩選出的GSE79605和GSE90062兩個(gè)數(shù)據(jù)集中的基因進(jìn)行差異表達(dá)基因篩選。實(shí)驗(yàn)條件和樣本類型相同的多個(gè)基因數(shù)據(jù)集可通過(guò)GEOR工具分析,從而篩選出差異表達(dá)基因。根據(jù)log FC值(FC為差異倍數(shù))對(duì)基因進(jìn)行分類,log FC<0的差異表達(dá)基因?yàn)橄抡{(diào)基因,log FC>0的DEGs為上調(diào)基因。設(shè)定篩選條件:采用t檢驗(yàn),以P<0.05和|log FC|≥0為變化閾值。再通過(guò)Venn制圖工具,篩選出兩個(gè)數(shù)據(jù)集中共同差異表達(dá)基因,并繪制交集圖。
1.3共同表達(dá)基因的生物功能和信號(hào)通路途徑分析 在線生物信息學(xué)分析工具DAVID[4](https://david.ncifcrf.gov/)收集了大量基因生物功能和信號(hào)傳導(dǎo)通路研究信息,可對(duì)大規(guī)模的基因進(jìn)行富集分析,注釋其生物學(xué)功能和信號(hào)通路途徑。將兩個(gè)數(shù)據(jù)集中共同差異表達(dá)基因上傳,通過(guò)基因本體論(GO)數(shù)據(jù)庫(kù)(https://geneontology.org/)進(jìn)行生物功能富集分析(以P<0.05設(shè)定為顯著富集的臨界值)和KEGG數(shù)據(jù)庫(kù)(https://david.ncifcrf.gov/)進(jìn)行信號(hào)通路富集分析(以P<0.05設(shè)定為納入標(biāo)準(zhǔn)),以此識(shí)別差異表達(dá)基因的生物功能。
1.4蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu)建與分析 STRING數(shù)據(jù)庫(kù)中收錄了大量已知和預(yù)測(cè)的蛋白質(zhì)相互作用數(shù)據(jù),利用這些數(shù)據(jù)資料編輯繪制蛋白質(zhì)相互作用網(wǎng)絡(luò)。將共同差異表達(dá)基因譜上傳至STRING建立的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)(PPI)。下載網(wǎng)絡(luò)數(shù)據(jù)使用Cytoscape中的STRING app檢測(cè)這些DEGs之間的潛在相關(guān)性(最大交互作用體數(shù)=0,置信度評(píng)分0.4)。使用Cytoscape中的MCODE app對(duì)PPI網(wǎng)絡(luò)中的模塊進(jìn)行檢測(cè),以此篩選出核心基因。
1.5核心基因的生物功能和信號(hào)通路富集再分析 應(yīng)用DAVID數(shù)據(jù)庫(kù)對(duì)篩選出的核心基因進(jìn)行再次的生物信息學(xué)分析,結(jié)合GEO數(shù)據(jù)庫(kù)附帶的臨床信息對(duì)核心基因進(jìn)行分析,篩選出AML的發(fā)病機(jī)制、診斷、預(yù)后的潛在關(guān)鍵基因。代謝通路富集分析KEGG,應(yīng)用統(tǒng)計(jì)學(xué)檢驗(yàn),設(shè)置篩選條件:P<0.05,求出在差異表達(dá)基因中顯著性富集的通路。
2.1芯片數(shù)據(jù)集 筆者從GEO數(shù)據(jù)庫(kù)中篩選出GSE79605和GSE90062兩個(gè)基因芯片數(shù)據(jù)。GSE79605是基于Agilent-014850全人類基因組微陣列4x44K G4112F 的芯片平臺(tái)GPL6480,包括兩個(gè)AML患者骨髓組織和兩個(gè)健康人骨髓組織;GSE90062是基于Affymetrix人類基因表達(dá)陣列芯片平臺(tái)GPL15207,其中包括3個(gè)AML患者骨髓組織和3個(gè)健康人骨髓組織。
2.2GSE79605和GSE9006中共同的差異表達(dá)基因篩選 本研究共納入5個(gè)AML患者骨髓組織和5個(gè)健康人骨髓組織。通過(guò)GEO的GEO2R在線工具,筆者從GSE79605提取了1 134個(gè)上調(diào)基因和717個(gè)下調(diào)基因;從GSE90062中提取了2 404個(gè)上調(diào)基因和2 004個(gè)下調(diào)基因。共檢測(cè)到269個(gè)共同差異表達(dá)基因,其中有192個(gè)上調(diào)基因(log FC>0),77個(gè)下調(diào)基因(log FC<0)。見(jiàn)圖1。
2.3共同差異表達(dá)基因的生物功能及信號(hào)通路途徑分析結(jié)果 269個(gè)共同差異表達(dá)基因由DAVID軟件分析,GO分析結(jié)果顯示,(1)對(duì)于分子功能:在鋅離子結(jié)合中上調(diào)的差異表達(dá)基因顯著富集;(2)對(duì)于細(xì)胞成分,上調(diào)的差異表達(dá)基因在細(xì)胞表面、線粒體、突觸前顯著富集,下調(diào)的差異表達(dá)基因在細(xì)胞外的外來(lái)體、溶酶體膜、細(xì)胞間連接顯著富集;(3)對(duì)于生物過(guò)程,上調(diào)的差異表達(dá)基因在G蛋白偶聯(lián)受體信號(hào)通路、蛋白質(zhì)加工、平滑肌細(xì)胞遷移的調(diào)節(jié)、機(jī)械性刺激的探測(cè)及乳腺導(dǎo)管形態(tài)發(fā)生方面特別豐富;下調(diào)的差異表達(dá)基因在細(xì)菌防御反應(yīng)、神經(jīng)元投射發(fā)展、MAP激酶活性負(fù)調(diào)控方面富集,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表1。
表1 共同差異表達(dá)基因的生物功能富集分析結(jié)果
KEGG信號(hào)途徑分析結(jié)果顯示,在癌癥通路、Rap1信號(hào)通路、血小板激活等方面上調(diào)的差異表達(dá)基因尤為富集,而下調(diào)的差異表達(dá)基因無(wú)明顯信號(hào)通路,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表2。
表2 差異表達(dá)基因的信號(hào)通路富集分析結(jié)果
2.4PPI網(wǎng)絡(luò)構(gòu)建與分析結(jié)果 利用STRING在線工具對(duì)上調(diào)的差異表達(dá)基因構(gòu)建PPI,使用Cytoscape檢測(cè)PPI中DEGs之間的潛在相關(guān)性,并通過(guò)MCODE app對(duì)PPI網(wǎng)絡(luò)中的模塊進(jìn)行檢測(cè),以此篩選出核心基因分別為GNB5、GNA11、GNAS、PLCB2、GNA12、PRKCD、ADORA2B、F2RL3、LPAR5、GCA、MNDA、PLAC8、CTSA。
2.5核心基因生物信息學(xué)分析結(jié)果 根據(jù)生物功能富集再分析,這13個(gè)差異表達(dá)核心基因的生物功能主要富集于G蛋白β/亞單位復(fù)合物結(jié)合(GNA11、GNA12、GNAS),信號(hào)傳感器活動(dòng)(GNA11、GNA12、GNAS、PLCB2),三磷酸鳥(niǎo)苷(GTP)酶活性(GNA11、GNA12、GNAS)和GTP的結(jié)合(GNA11、GNA12、GNAS),見(jiàn)表3。通過(guò)KEGG信號(hào)通路再富集分析,結(jié)果表明,GNA11、GNA12、GNAS、GNB5和PLCB2這5個(gè)基因在癌癥通路中顯著富集,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。
注:A表示兩個(gè)數(shù)據(jù)集中上調(diào)的差異表達(dá)基因,B表示在兩個(gè)數(shù)據(jù)集中下調(diào)的差異表達(dá)基因;左圓代表GES90062數(shù)據(jù)集,右圓代表GES79605數(shù)據(jù)集,中間部分代表共同差異表達(dá)基因。
表3 核心差異表達(dá)基因的生物功能富集分析結(jié)果
隨著新一代芯片測(cè)序技術(shù)的發(fā)展,出現(xiàn)越來(lái)越多收錄測(cè)序數(shù)據(jù)的數(shù)據(jù)庫(kù)及數(shù)據(jù)挖掘和分析的手段。當(dāng)前的生物醫(yī)學(xué)研究中,數(shù)據(jù)分析技術(shù)在研究生物學(xué)信號(hào)通路、代謝機(jī)制及人類疾病的診斷、治療、預(yù)后判斷中,作用不可小覷。本研究應(yīng)用生物信息學(xué)分析方法,針對(duì)基因表達(dá)微陣列芯片數(shù)據(jù)集進(jìn)行挖掘,對(duì)從GEO數(shù)據(jù)庫(kù)篩選出的兩個(gè)GSE79605和GSE90062基因數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析,以期探索可作為研究AML發(fā)病機(jī)制、腫瘤標(biāo)志物篩選的潛在關(guān)鍵基因。
在本研究中,從GSE79605和GSE90062兩個(gè)數(shù)據(jù)集中共獲得192個(gè)上調(diào)共同差異表達(dá)基因和77個(gè)下調(diào)共同差異表達(dá)基因。根據(jù)生物功能富集分析結(jié)果顯示:上調(diào)的DEGs在鋅離子結(jié)合中顯著富集,并且在細(xì)胞表面、線粒體、突觸前顯著富集,在G蛋白偶聯(lián)受體信號(hào)通路、平滑肌細(xì)胞遷移的調(diào)節(jié)、蛋白質(zhì)加工、機(jī)械性刺激的探測(cè)及乳腺導(dǎo)管形態(tài)發(fā)生方面特別豐富;通過(guò)KEGG信號(hào)通路途徑分析發(fā)現(xiàn)上調(diào)的DEGs主要在癌癥通路、Rap1信號(hào)通路、血小板激活等方面發(fā)揮作用。下調(diào)的DEGs在細(xì)胞外的外來(lái)體、溶酶體膜、細(xì)胞間連接顯著富集,在細(xì)菌防御反應(yīng)、神經(jīng)元投射發(fā)展、MAP激酶活性負(fù)調(diào)控方面特別豐富。對(duì)上調(diào)的DEGs使用Cytoscape中的MCODE app對(duì)PPI網(wǎng)絡(luò)中的模塊進(jìn)行檢測(cè),以此篩選出13個(gè)核心基因:GNB5、GNA11、GNAS、PLCB2、GNA12、PRKCD、ADORA2B、F2RL3、LPAR5、GCA、MNDA、PLAC8、CTSA。最后,筆者通過(guò)DAVID重新對(duì)13個(gè)核心基因進(jìn)行生物功能富集分析,結(jié)果顯示,這些差異表達(dá)基因在G蛋白β/亞單位復(fù)合物結(jié)合(GNA11、GNA12、GNAS),信號(hào)傳感器活動(dòng)(GNA11、GNA12、GNAS、PLCB2),GTP酶活性(GNA11、GNA12、GNAS)和GTP的結(jié)合(GNA11、GNA12、GNAS)等生物功能中顯著富集。信號(hào)通路途徑再分析表明,GNA11、GNA12、GNAS、GNB5和PLCB2在癌癥通路中顯著富集。
G蛋白是一組具有酶活性的蛋白質(zhì),參與多種生物代謝和信號(hào)傳遞活動(dòng),主要參與GTP的結(jié)合、水解,在各種跨膜信號(hào)系統(tǒng)中作為調(diào)節(jié)劑或傳感器發(fā)揮作用。其由α、β和γ 3個(gè)亞基組成,根據(jù)α亞基氨基酸的序列不同可以將G蛋白分為Gs、Gi、Gq和G12 4類[5],GNA11、GNA12、GNAS均為G蛋白的α亞基的編碼基因,GNA11為Gq一類,GNA12為G12一類,GNAS為Gs一類。G蛋白的作用受體G蛋白偶聯(lián)受體與腫瘤的增殖作用密切相關(guān)。G蛋白偶聯(lián)受體和激動(dòng)劑結(jié)合后與G蛋白發(fā)生作用,在G蛋白的參與下,傳遞來(lái)自細(xì)胞外的各種信號(hào),比如激素、趨化因子、生長(zhǎng)因子等,與下游效應(yīng)分子作用,從而影響腫瘤的發(fā)生、發(fā)展[6]。
VAN RAAMSDONK等[7]研究發(fā)現(xiàn),黑色素細(xì)胞腫瘤中,有83%的瘤細(xì)胞中出現(xiàn)GNA11突變,在內(nèi)分泌、胃腸、闌尾癌中也有報(bào)道GNA11表達(dá)異常[8],但其在白血病中鮮有報(bào)道。GNA12編碼的G蛋白α亞基具有致癌潛力,激活的GNA12在體內(nèi)外也促進(jìn)前列腺和乳腺癌細(xì)胞的侵襲,其表達(dá)在許多腫瘤中上調(diào)[9],但鮮見(jiàn)其與白血病相關(guān)的研究報(bào)道。有研究發(fā)現(xiàn),多種實(shí)體瘤中可見(jiàn)GNAS的表達(dá)異常[10-12],但血液病中GNAS的異常表達(dá)較為罕見(jiàn),但BEJAR等[13]和HEO等[14]在骨髓異常增生綜合征患者骨髓研究中證明GNAS存在異常表達(dá)。
PLCB2編碼蛋白質(zhì)PLC-β2,該蛋白可以傳導(dǎo)歸巢信號(hào),參與造血干細(xì)胞的歸巢過(guò)程[15],PLCB2的異常表達(dá)影響造血干細(xì)胞歸巢,也可能導(dǎo)致血液病的發(fā)生,但PLCB2的表達(dá)異常在乳腺癌中多見(jiàn)[16-17],目前還鮮見(jiàn)其在血液病中的相關(guān)報(bào)道。
綜上所述,對(duì)AML骨髓組織進(jìn)行生物信息學(xué)分析鑒定,共獲得269個(gè)共同差異表達(dá)基因,從中篩選出13個(gè)核心基因。這些核心基因中的GNA11、GNA12、GNAS等上調(diào)基因參與編輯G蛋白,與G蛋白偶聯(lián)受體作用參與細(xì)胞的生物調(diào)節(jié)過(guò)程,G蛋白的異常與腫瘤的發(fā)生、發(fā)展密切相關(guān),且目前鮮見(jiàn)GNA11、GNA12、GNAS、GNBS和PLCB2與AML關(guān)系的研究。所以在AML的發(fā)病機(jī)制、腫瘤標(biāo)志物的篩選研究中,GNA11、GNA12、GNAS、GNBS和PLCB2有望成為新的潛在基因、分子標(biāo)志物、分子治療靶點(diǎn)。