余志龍,童山石,姜可偉
1.北京大學人民醫(yī)院胃腸外科 北京大學人民醫(yī)院外科腫瘤研究室 結直腸癌診療研究北京市重點實驗室,北京 1000442;2.上海交通大學醫(yī)學院附屬仁濟醫(yī)院膽胰外科,上海 200127
胰腺癌是消化系統(tǒng)常見的惡性腫瘤之一,致死率排在世界惡性腫瘤的第7位,預計在2030年將成為惡性腫瘤的第二大死因[1-2]。胰腺癌起病隱匿,病程早期缺乏特異性臨床體征,容易發(fā)生轉移,惡性程度高,其病理類型主要為腺癌。預后差,5年生存率小于10%[3]。以腹痛為首發(fā)癥狀就診的部分病人往往已經(jīng)發(fā)生了明顯的遠處轉移,錯失手術機會。因此,深入探究胰腺癌生物學發(fā)生發(fā)展機制,尋找理想的藥物分子靶點與預后分子標志物對胰腺癌的早期診斷與治療意義重大[4-5]。轉錄因子19(transcription factor 19,TCF19)與結直腸癌、非小細胞肺癌、肝癌等幾種惡性腫瘤的發(fā)生發(fā)展有關[6-8]。目前TCF19在腫瘤中的報道和研究較少,其在胰腺癌中的功能與作用尚不清楚。本研究檢索了多個開放的大型腫瘤數(shù)據(jù)庫,深入挖掘胰腺癌中TCF19的表達水平,探究其與胰腺癌病人臨床預后之間的關系,分析TCF19與胰腺癌腫瘤免疫微環(huán)境之間的關系,構建TCF19相關基因的預后模型,為胰腺癌中潛在的TCF19靶點治療提供理論支持。
179例胰腺癌組織與4例正常胰腺組織的基因表達譜數(shù)據(jù)和相應的臨床資料取自癌癥基因組圖譜(TCGA)數(shù)據(jù)庫(www.tcga.org/),從基因型-組織表達(the genotype-tissue expression,GTEx)數(shù)據(jù)庫中獲取167例胰腺正常組織的基因表達譜數(shù)據(jù)(www.gtexportal.org/),并將兩個數(shù)據(jù)庫中的胰腺正常組織進行合并。
1.Oncomine(www.oncomine.org) Oncomine數(shù)據(jù)庫是世界上規(guī)模較大的癌基因芯片數(shù)據(jù)庫[9]。從Oncomine數(shù)據(jù)庫中胰腺癌提取TCF19數(shù)據(jù),設置篩選條件為:(1)Gene:TCF19;(2)Analysis Type:Tumor tissue and normal tissue;Critical condition:P<0.01,F(xiàn)OLD change>2與GENE BANK=TOP 10%。
2.GEPIA(http://gepia.cancer-pku.cn/) GEPIA是由北京大學開發(fā)的建立在TCGA與GTEx基礎上的數(shù)據(jù)分析平臺[10]。設定目的基因TCF19,下載TCF19在胰腺癌組織的表達情況與預后相關數(shù)據(jù)。設置搜索條件為:(1)Gene: TCF19;(2)Datasets selection:PAAD(pancreatic adenocarcinoma,胰腺腺癌)。
3.UALCAN(http://ualcan.path.uab.edu/) UALCAN是一種操作簡潔的用于分析挖掘包括TCGA和 MET500數(shù)據(jù)庫在內(nèi)的腫瘤轉錄組數(shù)據(jù)的網(wǎng)站工具[11]。設置搜索條件為:(1)Gene:TCF19;(2)TCGA dateset:PAAD。
4.Kaplan-Meier plotter(K-M plotter,https://kmplot.com/) K-M plotter是一個基于薈萃分析的生存生物標志物發(fā)現(xiàn)和驗證的工具。登錄K-M plotter, 設置搜索條件為:(1)Cancer: PAAD; (2)Gene:TCF19;(3)Survival: overall survival;(4)Follow up threshold: all。對K-M plotter中的數(shù)據(jù)進行分析處理。
5.MethSurv(https://biit.cs.ut.ee/methsurv/) MethSurv是一個研究基因甲基化位點與預后的相關性的數(shù)據(jù)庫。搜索的關鍵條件為:(1)TCGA cancer datasets:PAAD;(2)Gene:TCF19。
6.TISIDB(http://cis.hku.hk/TISIDB/) TISIDB是一個研究腫瘤和免疫系統(tǒng)相關作用的網(wǎng)站[12]。本研究探究胰腺癌中與TCF19表達相關的基因和TCF19的潛在靶點。在TISIDB數(shù)據(jù)中的設置條件為Gene Symbol:TCF19(PAAD)。
7.TIMER(https://cistrome.shinyapps.io/timer/) TIMER數(shù)據(jù)庫是用于一個能夠分析各種癌癥類型的免疫浸潤的網(wǎng)站式數(shù)據(jù)庫,通過相關的算法計算得到6種免疫浸潤細胞(B淋巴細胞、CD4+T細胞、CD8+T細胞、嗜中性粒細胞、巨噬細胞和樹突狀細胞)與目的基因之間的相關性[13]。設置參數(shù)如下:(1)Gene Symbol:TCF19;(2)Cancer Types:PAAD;(3)Immune Infiltrates:B cells, CD4+T cells, CD8+T cells, Neutrophils, Macrophages and Dendritic cells。
8.LinkedOmics(http://www.linkedomics.org/) LinkedOmics是一個開放的包含了TCGA中32種腫瘤與臨床蛋白質(zhì)組學腫瘤分析協(xié)會(CPTAC)的數(shù)據(jù)分析平臺。在LinkedOmics數(shù)據(jù)庫中的設置條件如下:(1)Cancer type:PAAD;(2)SELECT SEARCH DATASET:RNA-seq;(3)SELECT SEARCH DATASET ATTRIBUTE: TCF19;(4)SELECT TARGET DATASET:RNAseq;(5)SELECT STATISTICAL METHOD:pearson analysis。在界面中選擇LinkFinder模塊,出現(xiàn)UGT1A6表達相關的基因。TCF19相關基因的閾值設置為:P<0.05,Pearson系數(shù)>0.5或<-0.5。
9.生物信息學數(shù)據(jù)庫提取數(shù)據(jù) 從UCSC-Xenc下載TCGA-PAAD數(shù)據(jù)集(包括基因表達數(shù)據(jù)與臨床數(shù)據(jù))與GTEx數(shù)據(jù)庫中正常胰腺組織的基因表達量,將每個樣本的FPKM數(shù)據(jù)轉化為TPM形式,其中TCGA中的胰腺癌數(shù)據(jù)集作為預測模型的訓練組。從GEO數(shù)據(jù)庫中下載GSE28735與GSE62452數(shù)據(jù)集,合并兩個數(shù)據(jù)集為預測模型的驗證組。
利用R軟件中的Limma軟件包對下載的數(shù)據(jù)進行分析,篩選出胰腺癌與正常胰腺組織的差異表達TCF19相關基因(differentially expressed TCF19-related genes,DETRGs),篩選條件為log FoldChange>1或<-1,P<0.05。隨后對差異基因進行單因素Cox回歸分析(閾值:P<0.05),得到與胰腺癌病人總生存時間相關的DETRGS。為了減少過擬合,我們將單因素Cox回歸分析得到的DETRGS進行LASSO分析。接下來將LASSO分析以后的基因納入多因素Cox回歸分析中,建立預后風險評分模型。模型可以計算每個病人的風險數(shù)值,根據(jù)風險數(shù)值的中位數(shù)將病人分為高風險組、低風險組,通過K-M法比較各組之間的預后差異。隨后,計算受試者工作特征(ROC)曲線,評估該預后模型的有效性并計算曲線下面積(AUC)。
所有用于統(tǒng)計分析的R程序包均通過R v4.0.4軟件進行,其他生物信息分析數(shù)據(jù)統(tǒng)計均由所使用數(shù)據(jù)庫自備統(tǒng)計軟件完成。P<0.05為差異有統(tǒng)計學意義。
在Oncomine數(shù)據(jù)庫中限定搜索詞后,發(fā)現(xiàn)TCF19在胰腺癌組織中的表達顯著高于正常胰腺組織(圖1A)。利用GEPIA數(shù)據(jù)庫分析TCF19在不同腫瘤中的表達差異,發(fā)現(xiàn)TCF19在胰腺癌中高表達(圖1B、C)。隨后在GEPIA數(shù)據(jù)庫中對TCF19進行了K-M生存分析,TCF19升高預示更短的總生存時間與無病生存期(圖1D、E)。為進一步驗證TCF19的預后意義,我們通過K-M plotter再次分析TCF19在胰腺癌中表達水平與病人預后的相關性,結果證實TCF19高表達的病人死亡風險較低表達病人明顯升高,這與我們從TCGA數(shù)據(jù)庫中得到的結論一致(圖1F、G)。
圖1 轉錄因子19(TCF19)在不同腫瘤中的表達情況以及在胰腺癌中的預后情況 A.TCF19在Oncomine數(shù)據(jù)庫中不同腫瘤組織中的表達水平差異;B.TCF19在GEPIA數(shù)據(jù)庫中不同腫瘤組織中的表達水平差異;C.TCF19在GEPIA數(shù)據(jù)庫中胰腺腺癌(PAAD,n=179)與正常胰腺組織(n=171)中表達水平;D.TCF19表達水平與胰腺癌病人總生存期的關系(藍、紅各2條虛線表示置信區(qū)間;GEPIA數(shù)據(jù)庫);E.TCF19表達水平與胰腺癌病人無病生存期的關系(藍、紅各2條虛線表示置信區(qū)間;GEPIA數(shù)據(jù)庫);F.TCF19表達水平與胰腺癌病人總生存期的關系(Kaplan-Meier plotter數(shù)據(jù)庫);G.TCF19表達水平與胰腺癌病人無病生存期的關系(Kaplan-Meier plotter數(shù)據(jù)庫)
我們使用MethSurv數(shù)據(jù)庫對TCF19的甲基化位點在胰腺癌病人中分布情況進行全景分析與展示(圖2A)。其中TCF19與胰腺癌發(fā)生發(fā)展相關的位點有11個,分別為cg03303475,cg05008570,cg05080926,cg07950252,cg10647991,cg17114475,cg20217307,cg20347648,cg21165793,cg23998635與cg24176040。這些甲基化位點與胰腺癌病人的預后密切相關(圖2B~L)。
圖2 胰腺癌中轉錄因子19(TCF19)甲基化位點與預后的關系 A.胰腺癌中TCF19甲基化位點的可視化熱圖(MethSurv數(shù)據(jù)庫);B~L.與胰腺癌病人預后相關的11個甲基化位點
在TISIDB數(shù)據(jù)庫中,我們發(fā)現(xiàn)在胰腺癌病人中,TCF19與免疫浸潤淋巴細胞、免疫抑制因子和細胞因子均存在相關性(圖3A~C)。此外,我們在TIMER數(shù)據(jù)庫中探究了TCF19與不同類型腫瘤免疫浸潤細胞之間的關系,結果表明TCF19與B淋巴細胞、CD8+T細胞、中性粒細胞、樹突狀細胞有關(圖3D)。
圖3 轉錄因子19(TCF19)的表達與腫瘤免疫浸潤的關系 A~C.TCF19表達水平與腫瘤浸潤淋巴細胞、細胞因子和免疫抑制因子的關系;D1~4.TCF19在胰腺腺癌(PAAD)中表達與免疫浸潤細胞的關系
從LinkeDomics數(shù)據(jù)庫中獲得胰腺癌中與TCF19相關的基因,利用Limma軟件對比了癌和非癌組織,得到85個差異基因,其中50個上調(diào),35個下調(diào)(圖4A、B)。對這85個基因進行單因素Cox回歸分析,得到了52個基因與預后相關(圖4C)。為了減少過擬合,我們對52個基因進行LASSO分析,得到7個基因,分別為SARM1、ANLN、CENPA、FAM111B、DLGAP5、CEP55與TPX2,見圖4D、E。將這7個基因納入多因素Cox回歸分析,篩選出4個基因(ANLN、FAM111B、DLGAP5、CEP55)用于構建模型(圖4F)。計算公式為RiskScore=0.013 503 88×EXPANLN+0.029 805 43×EXPFAM111B+0.024 169 21×EXPDLGAP5+0.029 069 61×EXPCEP55。根據(jù)評分的中位值,將訓練組的176例病人分為高風險組(88例)與低風險組(88例)。K-M分析揭示低風險組病人相比于高風險組有更長的總生存期。ROC曲線提示該模型在訓練組中有較高的預測價值(AUC=0.716),見圖4G、H。隨后我們將該預測模型用于驗證隊列進行驗證,結果顯示在驗證隊列中,低風險組比高風險組生存期更長,這與我們在訓練組中得到的結論一致,ROC曲線提示該模型在驗證組中的預測價值也較高(AUC=0.621),如圖4I、J所示。綜上所述,這些結果證實由這4個與TCF19有關基因構成的預測模型能夠有效地預測胰腺癌病人的預后。
圖4 轉錄因子19(TCF19)相關基因及其預后模型的構建 A.火山圖揭示胰腺癌中258個TCF19相關基因的表達水平;B.熱圖展示TCF19表達水平的聚類 紅色:高表達;綠色:低表達;黑色:基因在腫瘤與正常組織之間沒有差異;C.單因素Cox回歸模型中52個與胰腺癌預后相關的基因;D.LASSO篩選變量動態(tài)過程圖;E.交叉驗證參數(shù)λ的選擇過程圖;F.多因素Cox回歸模型中4個關鍵基因;G.訓練組中預后預測模型的受試者工作特征(ROC)曲線;H.訓練組高風險組(紅線)和低風險組(藍線)Kaplan-Meier法生存曲線分析;I.驗證組中預后預測模型的ROC曲線;J.驗證組中高風險組(紅線)和低風險組(藍線)Kaplan-Meier法生存曲線分析
通過GEPIA數(shù)據(jù)庫分析TCGA數(shù)據(jù)庫中ANLN、FAM111B、DLGAP5及CEP55在胰腺癌中的表達水平,發(fā)現(xiàn)這4個基因在胰腺癌中均高表達(圖5A)。進一步生存分析發(fā)現(xiàn)ANLN、FAM111B、DLGAP5、CEP55與病人的預后相關,這4個關鍵基因表達量越高,病人的總體生存率越低(圖5B)。
圖5 轉錄因子19(TCF19)相關基因在胰腺癌中的表達和預后情況 A1~4.4個關鍵基因(ANLN、FAM111B、DLGAP5、CEP55)在胰腺腺癌(PAAD,n=179)與正常胰腺組織(n=171)中的表達水平;B1~4.4個關鍵基因(ANLN、FAM111B、DLGAP5、CEP55)與胰腺癌病人總體生存率的關系(藍、紅各2條虛線表示置信區(qū)間)
近年來胰腺癌的發(fā)病率持續(xù)升高,而胰腺癌是一種惡性程度非常高的消化道腫瘤,早期容易發(fā)生侵襲與轉移,其主要類型是胰腺導管細胞癌。雖然胰腺癌的藥物治療方法比以前有了較大的進步,但是依舊缺乏突破性的進展,總體治療效果并不能讓人滿意。對胰腺癌的生物學行為進行深入研究并尋找理想的生物標志物與靶點是目前科學家們的研究重點。
TCF19在1型糖尿病發(fā)生發(fā)展和維持胰腺β細胞正常功能中起著關鍵作用[14]。TCF19包含一個叉頭關聯(lián)(FHA)域、富含脯氨酸的區(qū)域、PHD(植物同源域)或環(huán)形指域,表明TCF19能夠與多個區(qū)域交互工作[15]。先前的文獻報道TCF19在非小細胞肺癌、肝癌與結直腸癌中參與腫瘤的發(fā)生發(fā)展[16-18],然而目前無任何研究報道TCF19在胰腺癌中的作用與臨床意義。Oncomine和GEPIA數(shù)據(jù)庫是世界上大型的權威腫瘤基因芯片與測序數(shù)據(jù)庫,能避免因樣本數(shù)目過小、種族差異和測序方法等其他因素而導致結論的偏頗。本研究通過挖掘上述多個大型腫瘤數(shù)據(jù)庫,分析TCF19在胰腺癌中的表達水平以及其與胰腺癌病人臨床預后之間的關系。結果顯示TCF19在胰腺癌病人中的表達水平高于正常組織。此外,通過GEPIA與K-M plotter數(shù)據(jù)庫分析TCF19表達水平與胰腺癌病人臨床預后之間的相關性,發(fā)現(xiàn)TCF19表達水平高的病人總體生存期明顯縮短。
腫瘤免疫是近年來腫瘤研究領域的一個熱點。本研究探索了胰腺癌中TCF19與腫瘤免疫微環(huán)境以及免疫浸潤細胞之間的關系,TCF19基因與淋巴細胞、MHC、免疫刺激因子等存在相關性,進一步提示了TCF19可能與PAAD腫瘤相關免疫有關。接下來,本研究從TCGA數(shù)據(jù)庫與GTEx數(shù)據(jù)庫的整合隊列中得到與TCF19相關的差異表達基因,依次使用單因素Cox,LASSO分析與多因素Cox構建一個由ANLN、FAM111B、DLGAP5與CEP55組成的預后模型。該模型的預測效力與穩(wěn)定性在訓練組與驗證組均得到證實。同時,我們驗證了ANLN、FAM111B、DLGAP5及CEP55關鍵基因在胰腺癌中高表達,且與病人的不良預后相關。
本研究主要是通過生物信息學的方法來研究TCF19在胰腺癌中的作用,缺乏相應的分子生物學實驗驗證。此外,TCF19在胰腺癌中表達量升高是否能促進腫瘤細胞增殖、遷移與侵襲需要進一步實驗證實。
綜上所述,本研究通過對多個公共數(shù)據(jù)庫進行深入挖掘,分析結果顯示TCF19在胰腺癌病人中高表達,并且表達水平與臨床預后緊密相關,有望成為胰腺癌臨床診療的理想靶點,為進一步研究TCF19在胰腺癌發(fā)生發(fā)展中起到的作用奠定了基礎。同時,我們通過回歸分析,組建了由4個TCF19相關基因構成的胰腺癌病人預后預測模型,具有較高的特異度與靈敏度,推進了胰腺癌病人個體化、精準化醫(yī)療的進展。
利益沖突所有作者均聲明不存在利益沖突