賈曉晨,賈勇圣,孟文靜,佟仲生
乳腺癌是全球女性最常見的惡性腫瘤之一,發(fā)病率正在逐年上升,死亡率居女性惡性腫瘤的第二位,因此建立準(zhǔn)確預(yù)測(cè)乳腺癌患者預(yù)后的工具對(duì)于指導(dǎo)臨床診治至關(guān)重要[1?2]。目前臨床上主要通過(guò)年齡、腫瘤大小、淋巴結(jié)轉(zhuǎn)移情況以及組織學(xué)分級(jí)等臨床病理特征評(píng)價(jià)乳腺癌患者預(yù)后[3]。乳腺癌是在分子水平上高度異質(zhì)性的腫瘤,根據(jù)雌激素受體(ER)、孕激素受體(PR)、人表皮生長(zhǎng)因子受體?2(HER?2)、Ki?67蛋白表達(dá)的結(jié)果將乳腺癌分為L(zhǎng)uminal A型、Luminal B型、HER?2過(guò)表達(dá)型及Basal?like型,不同分子亞型的乳腺癌患者的預(yù)后差異明顯[4?5]。癌癥基因組圖譜數(shù)據(jù)庫(kù)(The Cancer Genome Atlas,TCGA)涵蓋33個(gè)癌種,包含11 000例患者的腫瘤樣本和與之對(duì)應(yīng)的正常組織樣本,是由美國(guó)國(guó)家癌癥研究所(National Cancer Institute,NCI)及美國(guó)國(guó)家人類基因組研究所(National Human Genome Research Institute,NHGRI)啟動(dòng)并完成的對(duì)人類腫瘤基因組進(jìn)行大規(guī)模測(cè)序得到的基因組變異圖譜[6?7]。本研究利用TCGA數(shù)據(jù)庫(kù)中的乳腺癌數(shù)據(jù)分析乳腺癌樣本和正常樣本中差異表達(dá)的基因,從中篩選并建立可以獨(dú)立預(yù)測(cè)乳腺癌患者預(yù)后的多基因預(yù)后模型,并在總體乳腺癌患者和根據(jù)臨床病理特征分組的各乳腺癌亞組中驗(yàn)證該模型的預(yù)測(cè)價(jià)值。
1.1 一般資料 從TCGA數(shù)據(jù)庫(kù)中選取乳腺癌患者的mRNA數(shù)據(jù),同時(shí)下載與患者相關(guān)的臨床數(shù)據(jù)。提取的臨床數(shù)據(jù)信息包括總生存期(overall survival,OS)、年齡、ER狀態(tài)、HER?2表達(dá)情況、腫瘤大小、淋巴結(jié)轉(zhuǎn)移情況和臨床病理分期。OS定義為從患者診斷日期開始到死亡日期截止。本文所有下載數(shù)據(jù)均截止于2017年12月25日。
1.2 方法 應(yīng)用R語(yǔ)言軟件edgeR包對(duì)下載的數(shù)據(jù)進(jìn)行表達(dá)值的標(biāo)準(zhǔn)化,采用DEGseq包分析和篩選出在乳腺癌組織樣本和正常組織樣本中的差異表達(dá)的基因,即差異基因(differentially expression genes,DEGs)。采用Survival包通過(guò)單因素Cox回歸分析對(duì)DEGs進(jìn)行篩選,篩選出影響患者總體生存期的DEGs,納入多因素Cox回歸分析建立多基因預(yù)后預(yù)測(cè)模型并計(jì)算預(yù)后評(píng)分(prognostic index,PI),根據(jù)評(píng)分中位值將患者分為高風(fēng)險(xiǎn)組及低風(fēng)險(xiǎn)組。臨床特征分組及變量賦值如下:根據(jù)年齡分為高年齡組(≥60歲),低年齡組(<60歲);根據(jù)ER狀態(tài)分為ER陽(yáng)性組和ER陰性組;根據(jù)腫瘤大小分為T1組(腫瘤最大徑≤2 cm),T2組(2 cm<腫瘤最大徑≤5 cm),T3組(腫瘤最大徑>5 cm),T4組(侵犯胸壁及皮膚);根據(jù)淋巴結(jié)轉(zhuǎn)移狀態(tài)分為淋巴結(jié)陽(yáng)性組和淋巴結(jié)陰性組;根據(jù)美國(guó)癌癥聯(lián)合委員會(huì)(American Joint Committee on Cancer,AJCC)乳腺癌臨床病理分期分為Ⅰ期組、Ⅱ期組、Ⅲ期組和Ⅳ期組。
1.3 統(tǒng)計(jì)學(xué)方法 采用R語(yǔ)言edgeR和DEGseq包篩選差異基因,差異倍數(shù)(Fold Change,F(xiàn)C)采取log2處理,篩選標(biāo)準(zhǔn)為:∣log2FC∣>1且P<0.05。通過(guò)R語(yǔ)言Survival包進(jìn)行單因素和多因素Cox比例回歸模型篩選,并建立多基因預(yù)后模型。通過(guò)SPSS 22.0軟件將臨床病理因素及預(yù)后評(píng)分納入單因素和多因素Cox回歸模型分析乳腺癌患者生存的影響因素,P<0.05為差異有統(tǒng)計(jì)學(xué)意義。生存分析采用Kaplan?Meier(K?M)法,根據(jù)年齡、ER狀態(tài)、HER?2表達(dá)情況、淋巴結(jié)轉(zhuǎn)移狀態(tài)及病理分期,驗(yàn)證多基因預(yù)后模型在總體和各亞組乳腺癌患者中的預(yù)后預(yù)測(cè)價(jià)值;受試者工作特征(ROC)曲線用來(lái)評(píng)價(jià)多基因預(yù)后模型的有效性和敏感性,計(jì)算曲線下面積(AUC)。
2.1 TCGA數(shù)據(jù)庫(kù)中選取的乳腺癌患者的臨床特征 TCGA數(shù)據(jù)庫(kù)中共下載了1 109例乳腺癌組織樣本和113例正常組織樣本的mRNA表達(dá)信息,同時(shí)下載1 097例乳腺癌患者的臨床信息,對(duì)可以提取到完整臨床數(shù)據(jù)的709例乳腺癌患者的相關(guān)數(shù)據(jù)進(jìn)行整理并分析,納入患者的臨床特征見表1。
Tab.1 Clinical characteristics of 709 patients with breast cancer in TCGA database表1 TCGA數(shù)據(jù)庫(kù)中709例乳腺癌患者的臨床特征
2.2 差異基因的篩選以及多基因預(yù)后模型的建立 篩選出乳腺癌組織和正常組織中差異基因共2 142個(gè),其中上調(diào)1 353個(gè),下調(diào)789個(gè)。2 142個(gè)差異基因經(jīng)過(guò)單因素Cox回歸模型篩選后,共有18個(gè)差異基因可能影響患者的總體生存期,分別是CEL、POU3F2、CYP24A1、FABP7、LOC100190940、MURC、MYBPC1、TUBA3D、GCGR、NPY1R、LRP1B、FGFBP1、PRSS2、SLC25A47、ARPP21、LINC01854、DLGAP1-AS4及IGF2BP1。將上述18個(gè)基因進(jìn)行多因素Cox分析后,共篩選出羧基酯脂肪酶(CEL)、POU區(qū)域轉(zhuǎn)錄因子(POU3F2)、維生素D?24羥化酶(CYP24A1)、脂肪酸結(jié)合蛋白7(FABP7)、MURC、G蛋白偶聯(lián)受體(GCCR)、低密度脂蛋白受體相關(guān)蛋白?1B(LRP1B)及絲氨酸蛋白酶2(PRSS2)等8個(gè)基因并建立預(yù)后預(yù)測(cè)模型,見表2。預(yù)后評(píng)分公式為:PI=0.156×CEL的表達(dá)量+0.112×POU3F2的表達(dá)量-0.071×CYP24A1的表達(dá)量-0.065×FABP7的表達(dá)量+0.135×MURC的表達(dá)量-0.201×GCGR的表達(dá)量-0.063×LRP1B的表達(dá)量-0.090×PRSS2的表達(dá)量。根據(jù)預(yù)后評(píng)分公式計(jì)算709例患者的中位PI值為0.98,將評(píng)分<0.98的354例患者納入低風(fēng)險(xiǎn)組,評(píng)分≥0.98的355例患者納入高風(fēng)險(xiǎn)組。
2.3 乳腺癌患者生存影響因素的Cox回歸分析 納入Cox回歸分析的自變量賦值如下:年齡(歲),ER狀態(tài)(陰性=0,陽(yáng)性=1),HER?2狀態(tài)(陰性=0,陽(yáng)性=1),腫瘤大?。═1期=1,T2期=2,T3期=3,T4期=4),淋巴結(jié)狀態(tài)(陰性=0,陽(yáng)性=1),病理分期(Ⅰ期=1,Ⅱ期=2,Ⅲ期=3,Ⅳ期=4),八基因模型(PI<0.98=0,PI≥0.98=1);因變量賦值如下:總體生存期(天)及生存狀態(tài)(存活=0;死亡=1)。單因素Cox回歸模型分析結(jié)果顯示,年齡、腫瘤大小、淋巴結(jié)轉(zhuǎn)移情況、病理分期及八基因預(yù)后模型可能是乳腺癌總體生存期的影響因素(P<0.05),見表3。將可能影響乳腺癌預(yù)后的因素納入多因素Cox回歸模型分析,結(jié)果顯示年齡、病理分期、八基因預(yù)后模型是乳腺癌患者預(yù)后的獨(dú)立影響因素(P<0.05),見表4。
Tab.3 Factors related with overall survival for 709 patients with breast cancer in univariate Cox proportional hazard analysis表3 單因素Cox回歸分析影響709例患者總體生存期的因素
Tab.4 Factors related with overall survival for 709 patients with breast cancer in multivariate Cox proportional hazard analysis表4 多因素Cox回歸分析影響患者總體生存期的因素
2.4 八基因預(yù)后模型與各臨床病理特征關(guān)系 在共709例患者中,將低風(fēng)險(xiǎn)組和高風(fēng)險(xiǎn)組的乳腺癌患者的總生存期進(jìn)行對(duì)比,結(jié)果顯示低風(fēng)險(xiǎn)組的中位OS(2.75年)較高風(fēng)險(xiǎn)組(1.92年)明顯延長(zhǎng),總生存率優(yōu)于高風(fēng)險(xiǎn)組(Log rankχ2=63.700,P<0.01),見圖1A。ROC曲線的AUC值為0.707(零假設(shè):實(shí)面積=0.5,P<0.001),提示八基因模型預(yù)測(cè)預(yù)后能力較好,見圖1B。除病理分期Ⅳ期外,在各亞組中,預(yù)后評(píng)分為低風(fēng)險(xiǎn)組患者的總生存率高于高風(fēng)險(xiǎn)組(P<0.01),見表5。
Fig.1 Kaplan?Meier plots(A)and ROC curves(B)of overall survival in 8?gene signature and prognosis in 709 patients with breast cancer圖1 709例乳腺癌患者中八基因預(yù)后模型與預(yù)后關(guān)系的生存曲線Kaplan?Meier分析(A)及ROC曲線分析(B)
本研究建立了八基因預(yù)后預(yù)測(cè)模型,在總體乳腺癌患者及各乳腺癌亞組中進(jìn)行了驗(yàn)證,證實(shí)八基因預(yù)后模型可以預(yù)測(cè)乳腺癌患者的預(yù)后。
CEL參與肝臟中膽固醇酯的攝取及降解過(guò)程,影響脂類的代謝,有研究證實(shí)CEL突變可能與非酒精性脂肪肝相關(guān)肝細(xì)胞癌和胰腺癌的發(fā)生有關(guān)[8?9]。POU3F2通過(guò)調(diào)節(jié)腫瘤相關(guān)NADH氧化酶的表達(dá)水平參與腫瘤形成的過(guò)程,POU3F2過(guò)表達(dá)可能會(huì)促進(jìn)胃癌細(xì)胞的增殖、遷徙及侵襲[10]。CYP24A1被證實(shí)在多個(gè)癌種中過(guò)表達(dá),目前已經(jīng)證實(shí)CYP24A1的過(guò)表達(dá)與結(jié)直腸癌、乳腺癌的發(fā)生密切相關(guān)[11?12]。在膠質(zhì)母細(xì)胞瘤、腎透明細(xì)胞腫瘤中,細(xì)胞的增殖、浸潤(rùn)都可能與FABP7的表達(dá)上調(diào)有關(guān),也有報(bào)道證實(shí),在基底樣乳腺癌中FABP7基因高表達(dá)預(yù)示著較差的預(yù)后[13?15]。MURC/cavin?4與小凹蛋白一起參與調(diào)節(jié)心肌功能和小凹結(jié)構(gòu)的形成和功能,有報(bào)道稱MURC/cavin?4基因沉默阻止了橫紋肌肉瘤細(xì)胞的分化[16?17]。GCGR 是 B 類 G 蛋白偶聯(lián)受體(G protein coupled receptor,GPCR)的一員,參與維持機(jī)體血糖的穩(wěn)定,是2型糖尿病病生理過(guò)程的重要影響因素[18]。LRP1B是低密度脂蛋白(LDL)家族的一員,有研究證實(shí),LRP1B可能是非小細(xì)胞肺癌和胃癌的腫瘤抑制因子[19]。多個(gè)研究報(bào)道,PRSS2可以減輕胰腺內(nèi)胰蛋白酶活性,對(duì)慢性胰腺炎起到保護(hù)作用[20]。
Tab.5 Association between eight-gene signature and prognosis in patients of subgroups(Kaplan-Meier method)表5 八基因模型與各亞組乳腺癌患者預(yù)后的關(guān)系(Kaplan-Meier方法)
目前乳腺癌預(yù)后預(yù)測(cè)工具包括第一代預(yù)后標(biāo)志物(21基因檢測(cè),MammaPrint,Genomic Grade Index)[21]和第二代預(yù)后標(biāo)志物(Prosigna,EndoPredict,乳腺癌指數(shù))[22]。美國(guó)國(guó)家癌癥網(wǎng)絡(luò)(NCCN)指南推薦乳腺癌21基因檢測(cè)適用對(duì)象為:Ⅰ期或Ⅱ期、ER陽(yáng)性、淋巴結(jié)陰性的新確診乳腺癌;淋巴結(jié)陽(yáng)性(1~3個(gè))、ER陽(yáng)性的絕經(jīng)后浸潤(rùn)性乳腺癌患者,可以評(píng)估是否需要化療。目前現(xiàn)有的乳腺癌預(yù)后標(biāo)志物僅適用于ER陽(yáng)性的早期乳腺癌,對(duì)于ER陰性、淋巴結(jié)轉(zhuǎn)移大于3個(gè)的乳腺癌患者仍缺乏有效的預(yù)后預(yù)測(cè)手段[23?24]。在本研究中,八基因模型在不同臨床病理分組(Ⅳ期除外)的患者中均具有較好的預(yù)后預(yù)測(cè)價(jià)值,特別是對(duì)于淋巴結(jié)陽(yáng)性,病理分期Ⅱ期和Ⅲ期以及HER?2陰性和陽(yáng)性的患者。
本研究仍存在許多不足和問題亟待解決:(1)多基因預(yù)后模型的預(yù)測(cè)能力仍需大量多中心的循證醫(yī)學(xué)證據(jù)證實(shí)。(2)多基因預(yù)后模型對(duì)于不同亞型乳腺癌患者的治療方案選擇及治療周期的指導(dǎo)意義尚不明確。(3)由于經(jīng)濟(jì)、技術(shù)等局限性,多基因檢測(cè)模型在未來(lái)臨床應(yīng)用的前景仍不明確。(4)被納入的多基因模型的基因功能和參與的機(jī)制尚不明確,與乳腺癌的發(fā)生、發(fā)展的關(guān)系仍需要大量的研究進(jìn)一步印證。
建立多基因預(yù)后模型比臨床病理指標(biāo)更能提供精確的預(yù)后評(píng)價(jià)指導(dǎo),可以減少醫(yī)療資源的浪費(fèi),對(duì)個(gè)體化治療方案的選擇具有重要的參考價(jià)值,使患者從臨床獲益。