李 娟,馬 麗,張小晴,童 也,李玉云
急性髓系白血病(acute myeloid leukemia,AML)是一種以未成熟血液細(xì)胞分化障礙且浸潤其他器官或組織從而抑制骨髓造血功能為特點的造血祖細(xì)胞惡性增殖性疾病。目前臨床上仍是以傳統(tǒng)的蒽環(huán)類藥物和阿糖胞苷為基礎(chǔ)進(jìn)行治療。近年來,AML病人的總體生存時間較以往雖然有所提高,但治療策略卻并未發(fā)生太大變化。目前,20~30歲AML病人的3年生存率大約只有30%,而對于>60歲的老年病人,5年生存率僅有5%左右[1]。AML病人治愈率低、預(yù)后差以及缺乏特異性藥物仍是目前臨床研究亟待解決的難題,因此,可靠的預(yù)后評估對治療策略至關(guān)重要。隨著對AML細(xì)胞遺傳學(xué)及基因改變的不斷認(rèn)識,細(xì)胞及分子遺傳學(xué)異常逐漸被認(rèn)為是影響AML預(yù)后的重要因素。常見基因突變?nèi)鏦TI基因突變,IDH1/2基因突變、FLT3和TET2基因突變都已被證實與AML病人的預(yù)后不良高度相關(guān)[2-5]。此外,在AML中,轉(zhuǎn)錄因子RUNX1 被檢測到發(fā)生突變的概率較大,早在2008就已被WHO作為AML特異性的分子標(biāo)志進(jìn)行單獨分類[6]。
RUNX1基因是RUNX家族成員之一,位于21號染色體長臂(21q22,12),可與核心結(jié)合因子B(CBF)形成異二聚體復(fù)合物,并與DNA序列發(fā)生相互作用[7]。RUNX1基因作為造血過程中關(guān)鍵的調(diào)節(jié)因子,參與多種造血基因的表達(dá)調(diào)節(jié),如粒細(xì)胞-巨噬細(xì)胞刺激因子[8],是人類白血病中多種染色體易位的常見靶點。RUNX1基因突變見于多種血液系統(tǒng)疾病,如急性髓系白血病、骨髓增生異常綜合癥等,且RUNX1突變是AML病人預(yù)后不良的影響因素,RUNX1突變對AML病人總體生存率的下降具有重要意義[9-10]。本研究從RUNX1突變AML病人和RUNX1未突變AML病人樣本中找出差異基因,結(jié)合樣本對應(yīng)的臨床信息,將全部的差異基因進(jìn)行Cox回歸分析并進(jìn)一步構(gòu)建預(yù)后基因模型,以期為AML的臨床個體化治療、預(yù)后判斷及病情監(jiān)測提供有價值的實驗依據(jù)?,F(xiàn)作報道。
1.1 數(shù)據(jù)獲取 從美國國立生物技術(shù)信息中心(NBCI)的基因表達(dá)匯編(GEO,https://www.ncbi.nlm.nih.gov/geo/)數(shù)據(jù)庫中下載數(shù)據(jù)集GSE37642以及其對應(yīng)的平臺文件GPL96(Affymetrix Human Genome U133A Array)?;贕PL96平臺的GSE37642數(shù)據(jù)集中共包含422個AML病人的組織樣本(骨髓單核細(xì)胞),提取樣本對應(yīng)的生存時間、生存狀態(tài)、是否發(fā)生RUNX1突變等臨床信息。
1.2 數(shù)據(jù)處理 將GSE37642的矩陣數(shù)據(jù)讀入R軟件中,通過平臺文件GPL96將表達(dá)矩陣的探針信息轉(zhuǎn)換為基因名。多個探針對應(yīng)同一個基因名時取表達(dá)值最大的探針并對樣本表達(dá)值做標(biāo)準(zhǔn)化處理(log2對數(shù)轉(zhuǎn)換)。此外,將缺少RUNX1突變信息的樣本予以剔除,最終得到包含370個AML組織樣本的表達(dá)矩陣文件(59個RUNX1突變樣本,311個未突變樣本)。
1.3 差異表達(dá)分析 上述得到的表達(dá)矩陣文件,按照是否發(fā)生RUNX1突變將樣本分為2組,并通過Limma軟件包從2組樣本中篩選差異表達(dá)基因。Pvalue<0.05和差異倍數(shù)的絕對值(|log2(Fold Change)|)>0.7為差異基因的篩選條件。
1.4 預(yù)后基因模型的構(gòu)建 從標(biāo)準(zhǔn)化的表達(dá)矩陣中提取全部差異基因的表達(dá)量,并與樣本對應(yīng)的生存時間、生存狀態(tài)信息合并。將全部的差異基因進(jìn)行單因素Cox回歸分析,并篩選出P<0.05的基因納入到后續(xù)的多因素Cox回歸當(dāng)中。構(gòu)建的多因素Cox回歸模型中,基于雙向逐步回歸法,對構(gòu)建模型的基因進(jìn)一步的篩選,并用得到的基因構(gòu)建預(yù)后基因模型。
1.5 基因模型評估 根據(jù)基因模型的公式,計算每個樣本的風(fēng)險評分,并按照中位數(shù)將樣本分為高風(fēng)險評分組與低風(fēng)險評分組。對2組樣本做生存分析并通過未來1、3、5年的ROC曲線對模型預(yù)測精度予以評估。
2.1 差異表達(dá)基因 從RUNX1突變組與未突變組中共篩選得到89個差異基因,其中30個基因上調(diào),有BIK、SMYD3、CCNA1、CRIP1等;59個基因下調(diào),有SETBP1、DNTT、PTK2、APP等(見圖1)。
2.2 預(yù)后基因模型 基于樣本對應(yīng)的生存信息,全部的差異基因通過單因素Cox回歸進(jìn)行篩選,得到38個基因(見圖2)。采用38個基因構(gòu)建多因素Cox回歸模型,并通過雙向逐步回歸法篩選得10個基因(見圖3),包括BIK、APP、MLLT3、C10orf10、PLXNC1、FHL1、CST3、TGLL1、HOXA5、KIAAO125。使用該10個基因構(gòu)建預(yù)后基因模型,風(fēng)險評分公式為:風(fēng)險評分=-0.100×(BIK)+0.215×(APP)+-0.232×(MLLT3)+0.112×(C10orf10)+0.160×(PLXNC1)+0.113×(FHL1)+ -0.167×(CST3)+ -0.152×(IGLL1)+ 0.164×(HOXA5)+ 0.084×(KIAA0125)。根據(jù)風(fēng)險評分公式,其中BIK、MLLT3、CST3和IGLL1的風(fēng)險比小于1,表明這些基因可能是AML預(yù)后保護(hù)因素。而其他6個基因的風(fēng)險比大于1,提示這些基因可能是AML預(yù)后危險因素。預(yù)后基因模型的風(fēng)險曲線(見圖4)。
2.3 預(yù)后基因模型 基于預(yù)后基因模型,對高、低風(fēng)險評分組進(jìn)行生存分析,結(jié)果表明高風(fēng)險評分組的總體生存率顯著低于低風(fēng)險評分組(χ2=14.03,P<0.01)(見圖5);基于預(yù)后基因模型,采用ROC曲線對未來1年、3年和5年的總體生存率進(jìn)行預(yù)測,結(jié)果表明,1年的AUC為0.709,3年的AUC為0.769,5年的AUC為0.771,提示構(gòu)建的模型具有較好的預(yù)測能力。
研究[11-12]發(fā)現(xiàn),RUNX家族參與多種腫瘤的發(fā)生發(fā)展,如RUNX1在造血調(diào)控以及血液系統(tǒng)腫瘤的發(fā)生發(fā)展中起重要作用;RUNX2作為骨細(xì)胞的特異性轉(zhuǎn)錄因子,可參與骨骼發(fā)育與骨肉瘤的形成,RUNX3的缺失會導(dǎo)致實體瘤的形成[13-14]。RUNX1在造血調(diào)控以及血液系統(tǒng)疾病的發(fā)生發(fā)展中亦發(fā)揮重要作用,RUNX1能夠促進(jìn)白血病細(xì)胞增殖發(fā)揮致癌作用[15]。本研究從NBCI的基因表達(dá)匯編數(shù)據(jù)庫中收集共包含422個AML病人的組織樣本,提取樣本對應(yīng)的生存時間、生存狀態(tài)、是否發(fā)生RUNX1突變等臨床信息,將樣本分為RUNX1突變組和RUNX1未突變組,并通過Limma軟件包從2組樣本中篩選出89個差異表達(dá)基因,其中30個基因上調(diào),有BIK、SMYD3、CCNA1、CRIP1等;其中59個基因下調(diào),有SETBP1、DNTT、PTK2、APP等。基于樣本對應(yīng)的生存信息,全部的差異基因通過單因素Cox回歸進(jìn)行篩選,得到38個基因被納入到后續(xù)的多因素Cox回歸模型當(dāng)中。基于雙向逐步回歸法,從38個基因中進(jìn)一步篩選得到10個基因,包括BIK、APP、MLLT3、C10orf10、PLXNC1、FHL1、CST3、IGLL1、HOXA5、KIAAO125。上述10個基因被用來構(gòu)建預(yù)后基因模型,并基于該模型得到每個病人的風(fēng)險評分,其中BIK、MLLT3、CST3和IGLL1的風(fēng)險比小于1,表明這些基因可能是AML預(yù)后保護(hù)因素。MLLT3是維持人類造血干細(xì)胞的一個重要調(diào)節(jié)因子[16]。而APP、C10orf10、PLXNC1、FHL1、HOXA5和KIAAO125這6個基因的風(fēng)險比大于1,提示這些基因很有可能是AML預(yù)后的危險因素。近年來,APP(淀粉樣前體蛋白)的表達(dá)增加可促進(jìn)AML1/eto陽性白血病細(xì)胞的增殖和遷移,同時提高了髓外浸潤的發(fā)生率,與AML病人的預(yù)后不良高度相關(guān)[17]。FU等[18]研究發(fā)現(xiàn),高表達(dá)FHL1的AML病人其總體生存率和化療反應(yīng)較對照組更差,而靶向干預(yù)FHL1的表達(dá)可以有效提高AML病人對阿糖胞苷的藥物敏感性。值得注意的是,高、低風(fēng)險評分組的生存分析結(jié)果表明高風(fēng)險評分組的總體生存率顯著低于低風(fēng)險評分組。此外,通過ROC曲線對病人未來1、3和5年的總體生存率進(jìn)行預(yù)測,結(jié)果表明AUC均大于0.7,這反映出我們構(gòu)建的模型具有較好的預(yù)測能力。
本研究通過生物信息學(xué)工具篩選差異基因成功構(gòu)建了預(yù)后模型,其中BIK、MLLT3、CST3和IGLL1可能是AML預(yù)后保護(hù)因素,APP、C10orf10、PLXNC1、FHL1、HOXA5和KIAAO125可能是AML預(yù)后的危險因素。鑒于我們的標(biāo)本量少和部分病人年齡、體能狀態(tài)原因,我們建立的預(yù)后模型可能為AML今后的靶向治療及預(yù)后判斷提供新的方向,BIK、MLLT3、CST3等基因可能會成為RUNX1突變型AMl治療的新靶點。其具體機(jī)制仍需擴(kuò)大病例樣本及結(jié)合細(xì)胞實驗后進(jìn)一步明確。