王鳳松,朱劉洋,白易,張雅敏
(1.天津醫(yī)科大學一中心臨床學院,天津 300192;2.天津市第一中心醫(yī)院肝膽外科,天津 300192)
原發(fā)性肝癌是世界范圍內(nèi)最常見的消化系統(tǒng)惡性腫瘤之一。肝細胞癌(hepatocellular carcinoma,HCC)是原發(fā)性肝癌的主要病理類型,占85%~90%,5年生存率僅為12%,這也與大多數(shù)患者確診時已處于晚期有關[1]。目前,臨床醫(yī)生可以根據(jù)病理分期、腫瘤分級、淋巴結轉移等臨床信息預測HCC患者預后,但預測能力有限[2]。因此,進一步探索新的生物標志物對判斷HCC患者預后和選擇治療方案具有重要意義。
近年來,隨著針對HCC晚期患者的免疫檢查點抑制劑(ICIS)的開發(fā),其治療策略發(fā)生了革命性的變化[3]。腫瘤突變負荷(tumor mutation burden,TMB)和程序性死亡配體-1(PD-L1)的表達已逐漸成為多種腫瘤免疫檢查點選擇的最佳生物標志物,包括肺癌、結直腸癌、前列腺癌和乳腺癌[4]。本研究從腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫下載多組學數(shù)據(jù),探討TMB水平與HCC預后的關系,并運用生物信息學方法篩選出3個與TMB相關的風險基因,建立風險評分預后模型。作為獨立的預后因素,該預后模型為判斷肝癌患者的預后和治療方案的選擇提供了一種新的工具,具有潛在臨床應用價值。
1.1 數(shù)據(jù)下載與處理從TCGA數(shù)據(jù)庫(https://portal.gdc.cancer.gov/)下載截至2020年12月1日的HCC患者的多組學數(shù)據(jù)(刪除病理類型為非HCC的樣本),包括364例HCC組織和49例正常肝組織的mRNA表達數(shù)據(jù)(Illumina HiSeq RNA-Seq平臺)、354例體細胞突變數(shù)據(jù)和367例患者臨床資料。對基因表達數(shù)據(jù)進行注釋(http://asia.ensembl.org/homo_sapiens/info/index),重復的基因計算表達量平均值,所有基因表達量進行l(wèi)og2(基因表達值+1)轉換用于后續(xù)分析。
1.2 基因突變圖譜及腫瘤突變負荷通過“maftools”R包[5]繪制HCC患者基因突變圖譜。運用Perl軟件確定每個樣本的基因突變總數(shù)以計算TMB,基因突變包括堿基置換、編碼移位、插入和缺失等。根據(jù)X-Tile軟件(版本3.6.1)[6]產(chǎn)生的最佳截止值,將HCC樣本分為高TMB組(n=279)和低TMB組(n=69)。Kapla n-Meier法和Log-rank檢驗分析TMB水平與HCC患者總體生存率的關系。Wilcoxon秩和檢驗和卡方檢驗分析TMB水平與HCC患者臨床特征的相關性,包括年齡、性別、體重指數(shù)(BMI)、T分期、M分期、N分期、病理分期、腫瘤分級及乙肝病毒感染。
1.3 構建并驗證風險評分預后模型將每個樣本TMB數(shù)據(jù)與基因表達數(shù)據(jù)合并,利用“edgeR”R包[7],分析得到高、低TMB組之間差異表達基因及肝癌組織、癌旁組織之間差異表達基因(|Log2FC|>1,F(xiàn)DR<0.01),兩組差異表達基因取交集得到TMB相關差異表達基因。合并基因表達數(shù)據(jù)和生存數(shù)據(jù),將355個肝癌樣本隨機平均分為訓練集和驗證集。根據(jù)X-Tile軟件產(chǎn)生的最佳截止值,在訓練集中對交集差異表達基因進行批量生存分析,篩選P<0.01(Log-rank檢驗)的基因為預后相關差異表達基因以進一步分析。通過LASSO(least absolute shrinkage and selection operator,1 000次重復中出現(xiàn)>950次)及多元回歸分析確定模型基因及風險系數(shù)。TMB相關的風險評分預后模型構建如下:風險評分=∑(風險系數(shù)*基因的表達量)。計算訓練集中每個樣本的風險評分,由X-Tile軟件確定的最佳截止值以分成高、低風險組,繪制風險評分的生存曲線,并通過受試者特征(ROC)曲線及曲線下面積(AUC)評估風險評分預后模型的預測性能。此外,在驗證集中驗證風險評分預后模型的預測能力。
1.4 獨立預后因素分析為評估HCC風險評分預后模型臨床預測能力,將風險評分與其他臨床特征(年齡、性別、BMI、病理分期、腫瘤分級和乙肝病毒感染)進行單因素和多因素分析。其中,單因素分析中具有統(tǒng)計學意義的變量被納入多因素分析以確定獨立預后因素。
1.5 統(tǒng)計學處理采用R軟件(版本3.6.0)及SPSS26.0軟件進行統(tǒng)計學分析及繪圖。P<0.05為差異有統(tǒng)計學意義。
2.1 HCC患者基因突變圖譜TCGA數(shù)據(jù)庫354例HCC患者基因突變圖譜中,327例(92.7%)具有基因突變(圖1A),所有HCC樣本基因突變量的中位值為71。其中最常見的基因突變類型是錯義突變,但在某些基因中錯義突變比例較小,如AXIN1和RB1。單核苷酸多態(tài)性(SNP)是最常見的變異類型,C>T、T>C和C>A是最常見的SNP。HCC中最常見的突變基因是TP53(30%)、TTN(24%)、CTNNB1(25%),見圖1B。
圖1 HCC患者基因突變圖譜Fig 1 Gene mutation profiles of patients with HCC
2.2 TMB與預后和臨床特征有關計算得到HCC患者TMB,合并TMB數(shù)據(jù)和臨床信息得到348個HCC樣本(刪除6個生存天數(shù)為0及缺乏生存信息的樣本)。根據(jù)X-tile得到的最佳截止值(TMB=1.895),將所有樣本分為兩組,其中高TMB組有279個樣本,低TMB組有69個樣本。Kaplan-Meier分析表明低TMB組的HCC患者總體生存率較高(χ2=6.632,P=0.01),見圖2。對TMB水平與臨床特征的關系分析顯示,較高的TMB水平與高齡(χ2=10.328,P=0.001 7)、男性(χ2=9.384,P=0.002 9)和N0分期(χ2=4.723,P=0.03)有關(圖3)。
圖2 TMB水平與HCC患者總體生存率之間的關系Fig 2 Relationship between TMB level and overall survival of patients with HCC
圖3 TMB水平與HCC患者臨床特征的關系Fig 3 Relationship between TMB level and clinical characteristics of patients with HCC
2.3 TMB相關差異表達基因合并HCC患者TMB數(shù)據(jù)和基因表達數(shù)據(jù),高、低TMB組差異表達分析得到690個差異表達基因。其中在高TMB組,282個基因表達上調(diào),408個基因表達下調(diào)。對364個HCC組織和49個癌旁組織進行差異表達分析得到8 562個差異表達基因,在HCC組織中有6 943個基因表達上調(diào)和1 619個基因表達下調(diào)。兩組差異表達基因取交集,共有457個與TMB相關的差異表達基因。
2.4 構建并驗證風險評分預后模型將基因表達數(shù)據(jù)和生存數(shù)據(jù)合并得到355個樣本,按照1∶1的比例隨機分組,其中訓練集有177個樣本,驗證集有178個樣本。在訓練集中,457個TMB相關差異表達基因進行批量生存分析顯示,62個基因與HCC患者預后顯著相關(均P<0.01)。對62個基因進行LASSO分析得到風險基因為FABP6、PFKP和PROK1,多元回歸分析得到3個基因的風險系數(shù)分別為0.132 08、0.153 83和-0.180 47。風險評分預后模型構建如下:風險評分=(0.13208×FABP6表達量)+(0.153 83×PFKP表達量)+(-0.18047×PROK1表達量)。計算訓練集中每個樣本的風險評分,根據(jù)Xtile軟件生成的最佳截止值,高風險組有49個樣本,低風險組有128個樣本。Kaplan-Meier分析顯示低風險組HCC患者總體生存率較高(χ2=66.725,P<0.000 1,圖4B),且3個模型基因均與預后顯著相關(圖4A)。ROC顯示,該模型在1年、3年及5年的AUC分別為0.764、0.707、0.716,表現(xiàn)出良好的預后能力(圖4C)。
圖4 訓練集中構建風險評分預后模型Fig 4 Construction of risk score prognostic model in training set
在驗證集中,根據(jù)已建立的模型計算178個樣本的風險評分,其中高風險組有46個樣本,低風險組有132個樣本。與訓練集結果一致,Kaplan-Meier分析顯示低風險組HCC患者總體生存率較高(χ2=38.364,P<0.000 1,圖5),且3個模型基因均與HCC患者預后相關。驗證集中ROC曲線顯示,該模型在1年、3年及5年的AUC分別為0.682、0.689、0.724。
圖5 驗證集中驗證風險評分預后模型Fig 5 Construction of risk score prognostic model in validation set
2.5 單因素及多因素分析預后影響因素將風險評分、年齡、性別、BMI、病理分期、腫瘤分級和病毒感染狀態(tài)納入單因素分析,其中風險評分(HR=2.252,95%CI:1.520~3.337,P<0.001)、病理分期(HR=1.732,95%CI:1.400~2.143,P<0.001)及病毒狀態(tài)(HR=0.488,95%CI:0.320~0.743,P<0.001)與HCC預后顯著相關。多因素分析結果顯示,風險評分(HR=2.016,95%CI:1.356~2.997,P<0.001)及病理分期(HR=1.591,95%CI:1.274~1.987,P<0.001)為獨立預后因素(圖6)。
圖6 風險評分及臨床特征對HCC患者預后影響的單因素及多因素分析Fig 6 Univariate and multivariate analysis of the influence of risk score and clinical characteristics on the prognosis of patients with HCC
由于其復雜的分子機制和細胞異質(zhì)性,HCC是我國致死率較高的惡性腫瘤之一[8]。盡管在免疫治療及靶向治療方面取得了巨大進展,晚期HCC患者的預后仍然較差。HCC患者的常見臨床信息對判斷預后具有一定的意義,但其預測能力有限。因此,發(fā)現(xiàn)新的生物標志物對更加準確預測HCC患者預后具有重要臨床意義,有助于指導治療方案的選擇。
通過對TCGA數(shù)據(jù)庫中HCC樣本分析發(fā)現(xiàn),低TMB的患者預后較好。作為一種新的生物標志物,TMB與免疫抑制劑對非小細胞肺癌和惡性黑色素瘤的治療效果有關[9]。有研究證實,在非小細胞肺癌和惡性黑色素瘤中,高TMB的患者具有更好的預后,而在腎透明細胞癌、結腸癌和前列腺癌中則相反[10]。有研究表明,高TMB促進了自然殺傷(NK)細胞的激活,NK細胞通過分泌血小板衍生因子和血管內(nèi)皮細胞生長因子,促進血管生成和腫瘤進展[11-12]。另外,由NK細胞分泌的干擾素-γ增加了腫瘤細胞中HLA-G的表達,并抑制免疫應答,導致HCC患者預后較差,但其具體機制仍然需要進一步研究[13-14]。
本研究通過生物信息學方法篩選出3個風險基因(FABP6、PFKP和PROK1),其中PFKP和FABP6的高表達與HCC患者預后不良有關,而PROK1可能與預后較好有關。PFKP基因編碼血小板型磷酸果糖激酶,作為糖酵解的重要調(diào)節(jié)酶,其異常表達與許多類型的腫瘤有關,包括肺癌、腎透明細胞癌、乳腺癌、膠質(zhì)母細胞瘤[15-17]。除了促進腫瘤生長和增殖之外,PFKP還通過與癌基因的相互作用在腫瘤轉移中發(fā)揮著重要作用[18]。FABP6是脂肪酸結合蛋白之一,已被證明在結腸癌中的異常高表達可導致腫瘤的快速進展[19]。Ohata等[20]發(fā)現(xiàn),脂肪酸結合蛋白5可以通過上皮間充質(zhì)轉化,促進HCC的進展和轉移,可作為HCC預后生物標志物和治療靶標。Monnier等[21]發(fā)現(xiàn),在HCC中PROK1具有抑制血管生成的效果,從而抑制腫瘤的增殖和遷移。
黃秀紅等[22]通過篩選miRNA構建HCC風險評分模型,預測準確性均優(yōu)于TNM分期,并可作為獨立預測HCC患者預后的模型。楊雙燕等[23]基于生物信息學分析發(fā)現(xiàn),細胞周期蛋白B2可作為肝癌潛在預后生物標志物。本研究基于TMB,通過多組學分析識別預后生物標志物,構建了HCC風險評分預后模型,該模型在訓練集和驗證集中均具有良好的預測能力。此外,該風險評分模型被證明是獨立預后因素,對于臨床醫(yī)生判斷患者預后和選擇適當?shù)闹委煼桨赣泻艽蟮膸椭?,可實現(xiàn)對HCC患者的個性化精準治療。但是,本研究仍然存在很多不足,TCGA數(shù)據(jù)庫中的HCC樣本量較少且多為西方國家人群,因此有必要擴大樣本量及納入國內(nèi)測序結果,以提高模型的預測能力。其次,本模型缺乏外部驗證,需要在外部數(shù)據(jù)庫及臨床樣本中驗證其預測能力。此外,3個風險基因影響HCC預后的具體機制仍需進一步研究,其可能成為HCC治療的新靶點。
綜上所述,本研究利用生物信息學方法分析TCGA數(shù)據(jù)庫中HCC樣本多組學數(shù)據(jù),發(fā)現(xiàn)低TMB水平與HCC預后較好顯著相關,并基于TMB構建了HCC風險評分預后模型,該模型具有良好的預后能力,是HCC患者獨立預后因素。因此,該模型能作為新的生物標志物判斷HCC患者預后,對治療方案的選擇具有一定的參考價值。