康爭(zhēng)春 鄂繼福 徐曉東 王顥 于恩達(dá)
結(jié)腸癌(colon cancer)是我國(guó)最常見(jiàn)的消化道惡性腫瘤之一,并隨著環(huán)境、人們生活方式、飲食習(xí)慣的改變發(fā)病率不斷上升,嚴(yán)重威脅我國(guó)人民生命健康[1]。手術(shù)根治性切除仍然是結(jié)腸癌最有效的治療方式,早期診斷可以很大程度上提高手術(shù)效果,提高術(shù)后生存率[2]。術(shù)后腫瘤的分子檢測(cè)對(duì)結(jié)腸癌進(jìn)行危險(xiǎn)度分層,針對(duì)高危患者針對(duì)性治療也能極大提高術(shù)后生存率,隨著高通量測(cè)序時(shí)代的到來(lái),大量的結(jié)腸癌腫瘤標(biāo)志物應(yīng)運(yùn)而生[3-5]。單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)作為最典型的第三代基因遺傳標(biāo)記,具有普遍性、廣泛性、多樣性的特點(diǎn),是研究結(jié)腸癌生物標(biāo)志物的理想手段[6]。本研究通過(guò)生物信息學(xué)手段,對(duì)癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)中單核苷酸突變數(shù)據(jù)進(jìn)行挖掘,篩選突變后顯著影響基因表達(dá)進(jìn)而顯著影響結(jié)腸癌患者預(yù)后的基因突變,以期為結(jié)腸癌預(yù)后提供新的腫瘤標(biāo)志物。現(xiàn)報(bào)道如下。
首先,從癌癥基因組圖譜官方網(wǎng)站(TCGA,https://cancergenome.nih.gov/)下載結(jié)腸腺癌組織樣本單核苷酸突變數(shù)據(jù)(數(shù)據(jù)類型為Masked Somatic Mutation)、表達(dá)譜數(shù)據(jù)、臨床病理數(shù)據(jù)。選擇TCGA.COAD.varscan文件進(jìn)行數(shù)據(jù)整理。單核苷酸突變數(shù)據(jù)利用Perl 5.26.2軟件,對(duì)TCGA.COAD.varscan中的組織樣本ID、檢測(cè)基因、是否突變等信息進(jìn)行抽提。表達(dá)譜數(shù)據(jù)利用Perl 5.26.2軟件,將原始數(shù)據(jù)轉(zhuǎn)化為gene id表達(dá)矩陣,并將gene id改寫成gene symbol,對(duì)表達(dá)譜信息進(jìn)行編碼蛋白的信使RNA(messenger RNA,mRNA)的抽提。
利用Perl 5.28.2軟件對(duì)上述抽提信息所得文件進(jìn)行計(jì)算并統(tǒng)計(jì),在R 3.5.0環(huán)境下,加載GenVisR程序包,對(duì)突變數(shù)目前10位的基因進(jìn)行瀑布圖可視化,瀑布圖顯示內(nèi)容包括:突變數(shù)目前10位的基因的組織樣本數(shù)目和百分比、突變類型、突變與TNM分期和性別對(duì)應(yīng)關(guān)系、突變效應(yīng)等統(tǒng)計(jì)。
首先篩選突變后表達(dá)水平有差異的基因,將表達(dá)譜數(shù)據(jù)所檢測(cè)基因和單核苷酸突變數(shù)據(jù)所檢測(cè)基因取交集,將包含兩類數(shù)據(jù)的基因整合到一個(gè)文件,在R 3.5.0環(huán)境下,利用wilcoxon秩和檢驗(yàn)進(jìn)行具有顯著表達(dá)差異的基因篩選,取P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。將單核苷酸突變數(shù)據(jù)和臨床預(yù)后信息的組織樣本信息取交集,將包含兩類數(shù)據(jù)的組織樣本整合到一個(gè)文件,去除生存時(shí)間小于30天的組織樣本,在R 3.5.0環(huán)境下,利用survival程序包進(jìn)行具有顯著生存差異的基因篩選,取P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。最后取兩者交集,為突變后表達(dá)水平有顯著性差異合并生存率有顯著差異的基因。
利用Perl 5.28.2軟件對(duì)上述步驟中結(jié)果中突變數(shù)目前10位的基因進(jìn)行計(jì)算并統(tǒng)計(jì)基因突變位點(diǎn)數(shù)目,對(duì)突變數(shù)目前10位的基因進(jìn)行瀑布圖可視化,瀑布圖顯示內(nèi)容包括:突變數(shù)目前10位的基因的組織樣本數(shù)目和百分比、突變類型、突變與TNM分期和性別對(duì)應(yīng)關(guān)系、突變效應(yīng)等統(tǒng)計(jì)。
共有396個(gè)檢測(cè)單核苷酸突變數(shù)據(jù)的結(jié)腸癌組織樣本納入研究,共有521個(gè)檢測(cè)表達(dá)譜數(shù)據(jù)的結(jié)腸癌組織樣本納入研究。
共發(fā)現(xiàn)19 640個(gè)基因突變,突變數(shù)量前10位的基因分別為:APC,TTN,TP53,KRAS,SYNE1,MUC16,PIK3CA,OBSCN,F(xiàn)AT4,RYR2。突變數(shù)量前10位突變基因的數(shù)量及每個(gè)突變基因的突變位點(diǎn)數(shù)量如表1所示。這10個(gè)突變率最高的基因分布在385個(gè)組織樣本中,占到了總樣本數(shù)的97.2%。APC突變的主要類型為無(wú)義突變、框架移位插入突變和框架移位刪失突變;TTN,TP53,KRAS,SYNE1,MUC16,PIK3CA,OBSCN,F(xiàn)AT4,RYR2突變的主要類型為錯(cuò)義突變;備受關(guān)注的KRAS一共有173個(gè)突變組織樣本,其中170個(gè)突變類型為錯(cuò)義突變,3個(gè)為3′非翻譯區(qū)突變;PIK3CA的突變也較為特殊,一共有114個(gè)組織樣本突變,其中110個(gè)突變?yōu)殄e(cuò)義突變,3個(gè)框內(nèi)刪失突變,1個(gè)3′非翻譯區(qū)突變。其中突變大部分為非同義突變,改變了所編碼氨基酸。各基因突變類型和TNM分期、性別未在圖中發(fā)現(xiàn)明顯相關(guān)性差異。如圖1所示。
共篩選出了42個(gè)基因突變,分別為EIF3J,GAS2L1,DBI,ZNF407,ZC3H18,USP7,METTL17,USP40,BCR,H2AFJ,MBD6,C8orf46,CD226,DYNC1I1,HLA-DQA1,ATIC,OR51I2,ZWILCH,ANXA2,EDIL3,TMEM256-PLSCR3,ZNF385A,HMG20A,LGALS9B,F(xiàn)DCSP,KCNH2,RNF148,SNTN,ZDHHC9,MED9,NOLC1,C11orf63,ACO1,OR5M11,CDA,SEMA4C,ASAH1,TRIM46,METTL23,WDR45,LST1,HES2。其中突變數(shù)量前10位基因突變一般情況如表2所示。突變數(shù)目最多的是MBD6,為31個(gè),占到了總樣本數(shù)量的7.8%;其次是BCR,為28個(gè),占到了總樣本數(shù)量的7.1%。二者的突變型和野生型表達(dá)差異和生存差異如圖2(圖2A、圖2B)、圖3(圖2A、圖2B)所示,并且在MBD6的rs762648935位點(diǎn)也發(fā)現(xiàn)突變后的顯著差異表達(dá),見(jiàn)圖4。
表1 突變數(shù)量前10位基因基本信息
圖1 突變數(shù)量前10位基因瀑布圖
表2 突變型和野生型顯著差異表達(dá)及生存曲線有顯著差異的突變數(shù)量前10位基因基本信息
圖2 MBD6突變與mRNA表達(dá)、患者預(yù)后的相關(guān)性示意圖。圖2A:MBD6的野生型、突變型與mRNA表達(dá)水平的相關(guān)性,MBD6突變后其表達(dá)水平顯著降低,P=0.002;圖2B:MBD6野生型、突變型患者的總生存期生存曲線圖,突變型患者生存期顯著縮短,P=0.017
圖3 BCR突變與mRNA表達(dá)、患者預(yù)后的相關(guān)性示意圖。圖3A:BCR的野生型、突變型與mRNA表達(dá)水平的相關(guān)性,BCR突變后其表達(dá)水平顯著升高,P=0.001;圖3B:BCR野生型、突變型患者的總生存期生存曲線圖,突變型患者生存期顯著縮短,P=0.028
圖4 MBD6(rs762648935位點(diǎn))表達(dá)情況
突變后表達(dá)水平有顯著性差異合并生存率有顯著差異的基因突變共42個(gè)。這42個(gè)突變率最高的基因分布在136個(gè)組織樣本中,占到了總樣本數(shù)的34.3%。MBD6突變的主要類型為框架移位刪失突變和錯(cuò)義突變;BCR、ZNF407突變的主要類型為錯(cuò)義突變和沉默突變;值得注意的METTL17主要突變類型為內(nèi)含子突變,H2AFJ主要突變類型為3’端突變,EIF3J主要類型為框架移位插入突變;大多數(shù)其他基因突變以錯(cuò)義突變?yōu)橹?,限于篇幅,不贅述。其中突變大部分為非同義突變,改變了所編碼氨基酸。MBD6突變主要發(fā)生于Ⅰ期、Ⅱ期和女性患者,BCR突變主要發(fā)生于Ⅰ期、Ⅱ期、Ⅲ期,而Ⅳ期極少見(jiàn)。有趣的是,ZC3H18突變主要集中于男性患者組織樣本。見(jiàn)圖5。
結(jié)腸癌作為我國(guó)最常見(jiàn)的消化道惡性腫瘤之一,其高發(fā)病率和病死率嚴(yán)重威脅我國(guó)人民生命健康,對(duì)其基礎(chǔ)機(jī)制研究對(duì)于結(jié)腸癌的防治有著十分重要的意義。目前針對(duì)結(jié)腸癌治療的難點(diǎn)依然在于沒(méi)有靈敏度和特異度均高的生物標(biāo)志物,不能進(jìn)行及時(shí)有效且經(jīng)濟(jì)的早期診斷和術(shù)后危險(xiǎn)分層針對(duì)性治療。SNP由于其數(shù)量巨大、分布廣泛、易檢測(cè)等獨(dú)特優(yōu)勢(shì),是目前研究最多,也是最有潛力的第3代分子標(biāo)記,是研究結(jié)腸癌生物標(biāo)志物的理想手段[6]。
圖5 突變型和野生型顯著差異表達(dá)及生存曲線有顯著差異的突變基因瀑布圖
目前有許多SNP作為結(jié)腸癌的發(fā)生、發(fā)展、預(yù)后標(biāo)志物的報(bào)道。Hahn-Str?mberg等[7]發(fā)現(xiàn)CLDN1和CLDN7 CLDN1(c.369C>T)與結(jié)腸癌風(fēng)險(xiǎn)增加有關(guān),CLDN7(c.590C>T)與腫瘤分化和結(jié)腸癌淋巴結(jié)受累有關(guān)。Dai等[8]通過(guò)研究證明,XRCC1和ERCC1多態(tài)性可能影響CRC患者的易感性,化療反應(yīng)和存活率。Zaanan等[9]則通過(guò)實(shí)驗(yàn)證實(shí)ERCC1和XRCC1基因多態(tài)性的相關(guān)性可能影響FOLFOX輔助化療治療的Ⅲ期結(jié)腸癌患者的預(yù)后。Slattery等[10]也有相關(guān)發(fā)現(xiàn),他證明了FLT1中的4個(gè)SNP與結(jié)腸癌存活相關(guān),而KDR中的3個(gè)SNP與直腸癌診斷后的存活相關(guān)。然而,上述研究多局限于一個(gè)或兩個(gè)孤立的SNP及其位點(diǎn),結(jié)腸癌是多基因、多因素、多過(guò)程的疾病,其進(jìn)展受到了多基因的共同作用及調(diào)控,每個(gè)SNP在疾病進(jìn)展中發(fā)揮的作用都相對(duì)較小,因此需要將SNP看成一個(gè)整體和組合來(lái)研究其作用機(jī)制,單獨(dú)研究幾個(gè)SNP存在其不足及局限。
本研究主要借助TCGA公共數(shù)據(jù)庫(kù),對(duì)TCGA數(shù)據(jù)庫(kù)收集的結(jié)直腸癌患者組織樣本單核苷酸突變測(cè)序數(shù)據(jù)進(jìn)行分析研究,篩選出了如 MBD6,BCR,ZNF407,ZC3H18,USP7,C11orf63,TRIM46,USP40,DYNC1I1,ATIC 等42個(gè)突變后顯著影響基因表達(dá)進(jìn)而顯著影響患者預(yù)后的突變基因。對(duì)其進(jìn)行瀑布圖可視化發(fā)現(xiàn),突變樣本占到了總樣本數(shù)的34.3%,主要以錯(cuò)義突變?yōu)橹鳌W鳛橥蛔償?shù)量最多的基因MBD6突變主要發(fā)生于Ⅰ期、Ⅱ期,推斷其在結(jié)腸癌發(fā)生、發(fā)展的早期階段起到了十分重要的作用,其主要突變發(fā)生于女性患者,這也提示我們女性患者要重點(diǎn)關(guān)注其突變情況。BCR突變主要發(fā)生于Ⅰ期、Ⅱ期、Ⅲ期,而Ⅳ期極少見(jiàn),提示我們晚期結(jié)腸癌患者檢測(cè)BCR的突變實(shí)用性不高,也可能是在晚期結(jié)腸癌分子調(diào)控中,BCR很少發(fā)揮重要作用。ZC3H18突變主要集中于男性患者組織樣本,我們則需要在男性患者中關(guān)注其突變情況,更好地對(duì)男性結(jié)腸癌患者危險(xiǎn)分層,針對(duì)性治療。
經(jīng)查閱文獻(xiàn),挖掘的42個(gè)突變基因在結(jié)腸癌的發(fā)生、發(fā)展、預(yù)后中發(fā)揮的重要作用已經(jīng)得到腫瘤科研工作者的實(shí)驗(yàn)證實(shí),如MBD6[11]在編碼序列中具有單核苷酸重復(fù)(外顯子7中的C7和外顯子9中的G8),可能是具有微衛(wèi)星不穩(wěn)定性的結(jié)直腸癌中的突變靶標(biāo);PI3K/AKT介導(dǎo)的WDR5上調(diào)通過(guò)直接靶向ZNF407[12]促進(jìn)結(jié)直腸癌轉(zhuǎn)移;STAT3-USP7-P53分子網(wǎng)絡(luò)控制結(jié)腸癌的發(fā)展[13]。也有一些突變基因在其他惡性腫瘤中發(fā)現(xiàn)重要作用,但未在結(jié)腸癌中報(bào)道,如EDIL3發(fā)現(xiàn)在乳腺癌[14]、胰腺癌[15]、肝細(xì)胞癌[16]中均對(duì)腫瘤的發(fā)生、發(fā)展起到重要調(diào)控作用,提示了一個(gè)很好的結(jié)腸癌研究思路。但大部分突變基因并未發(fā)現(xiàn)相關(guān)研究。顯示了本研究的可靠性、科學(xué)性及對(duì)今后結(jié)腸癌基礎(chǔ)機(jī)制研究以及生物標(biāo)志物研究的參考價(jià)值。
綜上所述,我們利用TCGA數(shù)據(jù)庫(kù)挖掘結(jié)腸癌顯著差異表達(dá)合并生存率顯著差異的突變基因并進(jìn)行相關(guān)生物信息學(xué)和臨床病理信息的分析,這些發(fā)現(xiàn)有助于幫助我們深入理解結(jié)腸癌發(fā)生、發(fā)展過(guò)程中的關(guān)鍵基因突變?nèi)?,從整體上把控基因突變?nèi)簩?duì)結(jié)腸癌發(fā)生、發(fā)展、轉(zhuǎn)歸的影響,并為將來(lái)的調(diào)控機(jī)制研究提供參考,有可能作為結(jié)腸癌預(yù)后標(biāo)志物和治療靶點(diǎn)應(yīng)用于臨床。