張漢榮,林聯(lián)拯,趙 力,于忠英,李金雨
(中國(guó)人民解放軍聯(lián)勤保障部隊(duì)第909醫(yī)院(廈門大學(xué)附屬東南醫(yī)院)泌尿外科,福建 漳州363000)
前列腺癌是一種常見(jiàn)而復(fù)雜的惡性腫瘤,根據(jù)最新的全球癌癥統(tǒng)計(jì)數(shù)據(jù),全球每年約有130萬(wàn)例前列腺癌新發(fā)病例,死亡病例達(dá)36萬(wàn)例,占所有腫瘤新發(fā)病例的15%,是男性第二常見(jiàn)的腫瘤類型和第五大癌癥死亡原因[1-2].目前,前列腺癌的治療方法主要有手術(shù)治療、放療、化療和激素治療[3-4].選擇何種治療手段與腫瘤的分期、分級(jí)及危險(xiǎn)度等因素密切相關(guān)[5].前列腺癌的預(yù)后模型的構(gòu)建、或利用構(gòu)建的預(yù)測(cè)模型指導(dǎo)前列腺癌患者分層治療是前列腺癌的研究熱點(diǎn)之一.目前的預(yù)測(cè)模型大多數(shù)是以患者的年齡、腫瘤大小、TNM分期等臨床資料為影響因素,預(yù)測(cè)模型的效率和精度上仍存在不足[6-8].隨著高通量基因測(cè)序技術(shù)的發(fā)展和成熟,利用癌癥基因組或轉(zhuǎn)錄組數(shù)據(jù)構(gòu)建的癌癥預(yù)后模型顯示出良好的預(yù)測(cè)性能[9-10].本研究的目的是,利用公共數(shù)據(jù)庫(kù)TCGA中提供的前列腺癌RNA-Seq數(shù)據(jù),篩選潛在的前列腺癌相關(guān)基因,并利用這些候選基因構(gòu)建預(yù)測(cè)模型,為臨床前列腺癌的風(fēng)險(xiǎn)評(píng)估、分層治療提供參考依據(jù).
從the cancer genome atlas(TCGA)數(shù)據(jù)庫(kù)(http://www.tcga.org/)下載前列腺癌及對(duì)應(yīng)癌旁組織的mRNA表達(dá)數(shù)據(jù)與臨床資料.TCGA數(shù)據(jù)庫(kù)共收錄前列腺癌癌組織492例,癌旁組織52例.
根據(jù)TCGA下載的數(shù)據(jù),利用R軟件的“edge”包篩選出癌組織與癌旁組織間差異表達(dá)的mRNA.篩選標(biāo)準(zhǔn)為:|Log2FC|≥1,Padj≤0.05.利用Volcano Plot包對(duì)差異基因數(shù)據(jù)繪制火山圖.利用clusterProfiler包對(duì)前列腺癌組織的上調(diào)基因分別進(jìn)行GO富集和KEGG富集分析,以了解前列腺癌與癌旁組織差異基因的基因功能和信號(hào)通路的富集情況.
以上調(diào)最明顯的10個(gè)基因?yàn)楹蜻x基因,分別以上述基因mRNA表達(dá)量中值為分界線,將492例前列腺癌患者分為高表達(dá)組和低表達(dá)組,并做生存分析.比較差異基因?qū)η傲邢侔╊A(yù)后的影響.生存分析采用Log-rank檢驗(yàn)方法,P<0.05為差異有統(tǒng)計(jì)學(xué)意義.
將上述生存分析有統(tǒng)計(jì)學(xué)意義的基因納入COX回歸分析,以各基因的表達(dá)量為自變量,患者的生存時(shí)間為因變量.COX回歸模型計(jì)算各患者的風(fēng)險(xiǎn)得分(Risk score),最后根據(jù)患者的風(fēng)險(xiǎn)得分將492例患者分為高危組和低危組,進(jìn)一步進(jìn)行生存分析,比較高危組和低危組的生存差異.ROC曲線用于驗(yàn)證該風(fēng)險(xiǎn)模型的預(yù)測(cè)精度.
基因表達(dá)差異分析結(jié)果如圖1A所示,共篩選表達(dá)上調(diào)基因1978個(gè),下調(diào)基因1644個(gè).其中,上調(diào)最明顯的基因?yàn)椋篜CA3、AMACR、MTND4P12、RNY3P8、DLX1、OR51E2、PCAT14、GOLM1、HPN、GLYATL1.下調(diào)最明顯的基因?yàn)椋篈DAM33、MEG3、GSTM2、GABRE、CYP3A5、CORO6、GOLGA8A、DIO3OS、SLC26A10、HIF3A.
對(duì)上調(diào)基因做GO功能富集分析,結(jié)果如圖1B所示,上調(diào)的基因主要與carboxylic acid biosynthetic process,organic acid biosynthetic process及sulfur compound metabolic process等代謝過(guò)程有關(guān).KEGG富集分析(圖1C)顯示,上調(diào)基因主要集中在Phagosome、Cell adhesion molecules和Hematopopoietic aureus infection等信號(hào)通路.
圖1 差異基因火山圖及GO功能、KEGG通路富集分析結(jié)果
上調(diào)最明顯的10個(gè)基因?qū)︻A(yù)后的影響分別如圖2所示,生存分析有顯著差異的基因有6個(gè),分別為PCA3、MTND4P12、RNY3P8、OR51E2、PCAT14、GOLM1.且上述基因的生存分析中,均表現(xiàn)為低表達(dá)組的總生存率較高表達(dá)組高.因此,考慮上述6個(gè)基因可能是前列腺癌發(fā)生、發(fā)展的關(guān)鍵基因.
圖2 10個(gè)差異基因?qū)?92例前列腺癌患者預(yù)后的影響
以各基因的表達(dá)量為自變量,生存時(shí)間為因變量,得到風(fēng)險(xiǎn)得分公式為:Risk score=0.5503×(PCA3)+0.6777×(MTND4P12)+0.5605×(RNY3P8)-0.365×(OR51E2)+0.5358×(PCAT14)-0.1972×(GOLM1).計(jì)算492例前列腺癌患者的風(fēng)險(xiǎn)得分,并以風(fēng)險(xiǎn)得分的中值將患者分為高風(fēng)險(xiǎn)組與低分險(xiǎn)組(圖3A),該模型的ROC曲線(圖3B)曲線下面積為0.801,故認(rèn)為該模型的預(yù)測(cè)精度較好.高、低風(fēng)險(xiǎn)組的生存分析結(jié)果如圖3C所示,結(jié)果提示,高風(fēng)險(xiǎn)組的總生存時(shí)間明顯較低風(fēng)險(xiǎn)組低,P<0.0001.從高、低風(fēng)險(xiǎn)組的生存曲線可看出,多個(gè)基因表達(dá)水平構(gòu)建的預(yù)測(cè)模型,較單一基因表達(dá)水平的生存分析差異更大,提示多基因表達(dá)構(gòu)建的預(yù)測(cè)模型比單一基因構(gòu)建的模型預(yù)測(cè)精度更高.
圖3 COX風(fēng)險(xiǎn)回歸模型的構(gòu)建
與其他腫瘤相比,前列腺癌具有更明顯的腫瘤異質(zhì)性,不同個(gè)體間的差異大[11].良好的預(yù)后模型可以促進(jìn)臨床咨詢和指導(dǎo)醫(yī)生制定治療和隨訪計(jì)劃.目前臨床上用于評(píng)估前列腺癌患者預(yù)后的模型主要有前列腺特異抗原(PAS)水平,Gleason評(píng)分腫瘤臨床分期等[12-14].然而,上述用于評(píng)估前列腺癌患者危險(xiǎn)度的模型的精確度仍不能滿足準(zhǔn)確的患者分類和分層的需求.因此,臨床上亟需一種可精確預(yù)測(cè)患者危險(xiǎn)度的預(yù)測(cè)模型,以指導(dǎo)前列腺癌患者的指導(dǎo)治療,實(shí)現(xiàn)個(gè)體化治療.目前已有大量基因單個(gè)基因表達(dá)量構(gòu)建的前列腺癌預(yù)后模型,如Mee YK等[15]的研究提示,高表達(dá)FOXM1基因與前列腺癌預(yù)后差相關(guān).除FOXM1基因外,近年來(lái),ARHGAP10[16],SNW1[17],NCAPH[18]等基因也有類似報(bào)道.但是基于單基因構(gòu)建的預(yù)測(cè)模型預(yù)測(cè)效能及模型的穩(wěn)定性相對(duì)較差.L Schmidt等[19]通過(guò)對(duì)接受根治性前列腺切除術(shù)的123名男性的前列腺癌組織樣本進(jìn)行全基因組miRNA表達(dá)譜分析,篩選出6個(gè)與前列腺癌預(yù)后最相關(guān)的miRNA,并利用其中的4個(gè)miRNA的表達(dá)量比值構(gòu)建預(yù)測(cè)模型.結(jié)果顯示該預(yù)測(cè)模型對(duì)前列腺癌具有良好的預(yù)測(cè)作用.
本研究通過(guò)對(duì)TCGA數(shù)據(jù)庫(kù)收錄的492例前列腺癌組織和52例癌旁組織的全基因組測(cè)序結(jié)果分析,篩選出在癌組織中高表達(dá)的基因.以上調(diào)最明顯的10個(gè)基因?yàn)楹蜻x基因,分別以各基因的表達(dá)水平中值為界,比較高表達(dá)組與低表達(dá)組間患者預(yù)后的差異.結(jié)果提示,10個(gè)候選基因,有6個(gè)(PCA3、MTND4P12、RNY3P8、OR51E2、PCAT14、GOLM1)基因的表達(dá)量與預(yù)后相關(guān),均表現(xiàn)為高表達(dá)提示預(yù)后不良.進(jìn)一步對(duì)聯(lián)合上述6個(gè)基因做COX風(fēng)險(xiǎn)回歸模型.以上述6個(gè)基因的表達(dá)量為自變量,患者生存資料為因變量.結(jié)果提示,聯(lián)合6個(gè)基因構(gòu)建的風(fēng)險(xiǎn)預(yù)測(cè)模型具有良好的預(yù)測(cè)精度(AUC=0.801).根據(jù)模型可利用各患者上述6個(gè)基因的表達(dá)量計(jì)算該患者的風(fēng)險(xiǎn)得分.本研究進(jìn)一步將492例患者風(fēng)險(xiǎn)得分的中值為分界線,比較高、低分險(xiǎn)組生存差異.結(jié)果提示,高風(fēng)險(xiǎn)組的生存時(shí)間明顯較低風(fēng)險(xiǎn)組短(P<0.00001).聯(lián)合6個(gè)基因構(gòu)建的風(fēng)險(xiǎn)模型做的生存分析的P值明顯小于單一基因生存分析的P值,提示,該風(fēng)險(xiǎn)模型具有更好的預(yù)測(cè)精度.
綜上所述,本研究利用生物信息學(xué)方法,成功構(gòu)建了一個(gè)以6基因(PCA3、MTND4P12、RNY3P8、OR51E2、PCAT14、GOLM1)mRNA表達(dá)水平為自變量的風(fēng)險(xiǎn)模型.該模型顯示出良好的預(yù)測(cè)精度.