劉 陽,王麗茹,張 巖
(哈爾濱工業(yè)大學(xué) 生命科學(xué)與技術(shù)學(xué)院計(jì)算生物學(xué)研究中心,哈爾濱 150001)
結(jié)直腸癌(Colorectal cancer,CRC)是一種發(fā)生率極高的惡性腫瘤[1]。結(jié)腸腺癌(Colon adenocarcinoma,COAD)是結(jié)直腸癌最常見的病理類型之一(約占95%)[2]。然而目前現(xiàn)有的結(jié)腸腺癌的治療手段(包括手術(shù)和化療等綜合治療)仍然不能達(dá)到令人滿意的效果,結(jié)腸腺癌的五年生存率依然不容樂觀[3]。大部分患者發(fā)現(xiàn)和初診為結(jié)腸腺癌時(shí)已處于癌癥晚期,因此,現(xiàn)階段的醫(yī)療診治過程中晚就診、缺乏可靠的生物標(biāo)志物和不精準(zhǔn)的治療靶點(diǎn)已成為治療結(jié)腸腺癌的主要障礙[4],而早期診斷和治療對(duì)于改善患者的預(yù)后和生活質(zhì)量至關(guān)重要。最新的研究表明,除了遺傳變異以外,擾亂的、不平衡的表觀遺傳基因組也是癌癥發(fā)生發(fā)展的重要原因[5]。DNA甲基化是一種重要的調(diào)控基因表達(dá)的表觀遺傳修飾,與癌癥的發(fā)生和發(fā)展緊密相關(guān)[6]。異常的DNA甲基化通過激活癌基因和/或使腫瘤抑制基因失活誘導(dǎo)癌癥的發(fā)生發(fā)展[7]。通過因此本課題旨在通過結(jié)腸腺癌DNA甲基化譜,分析患者的DNA甲基化模式并識(shí)別出與預(yù)后相關(guān)的結(jié)腸腺癌亞型。
從癌癥基因組圖譜(The Cancer Genome Atlas,TCGA,https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)數(shù)據(jù)庫中下載了結(jié)腸腺癌樣本DNA甲基化數(shù)據(jù)和這些樣本對(duì)應(yīng)病人的臨床信息,甲基化數(shù)據(jù)全部由Illumina Infinium HumanMethylation450 BeadChip芯片平臺(tái)產(chǎn)生。選取324個(gè)記錄了患者生存狀態(tài)的結(jié)腸腺腫瘤樣本數(shù)據(jù)進(jìn)行接下來的分析。研究表明,發(fā)生在DNA啟動(dòng)子區(qū)的異常甲基化對(duì)癌癥的發(fā)生發(fā)展起著重要調(diào)控作用。在本研究中啟動(dòng)子區(qū)域定義為轉(zhuǎn)錄起始位點(diǎn)上游2 kb至下游0.5 kb。首先選取癌癥樣本數(shù)據(jù)中屬于啟動(dòng)子區(qū)的位點(diǎn),去除其中的SNP位點(diǎn)、對(duì)應(yīng)于性染色體上的位點(diǎn)和一個(gè)位點(diǎn)對(duì)應(yīng)多個(gè)基因的位點(diǎn)。接下來去除70%以上的樣本中有缺失的位點(diǎn),最后使用k近鄰算法(knn)補(bǔ)全其余的缺失值,該算法使用“impute”R包中的impute.knn()函數(shù)實(shí)現(xiàn),其中參數(shù)k取10、maxp取3 000。
為尋找在癌癥和癌旁樣本中甲基化水平有差異且差異具有顯著性的CpG位點(diǎn),計(jì)算每個(gè)位點(diǎn)在癌癥和癌旁樣本中的甲基化水平平均值,求出均值差并用t檢驗(yàn)方法計(jì)算該差異的顯著性。本研究將均值差絕對(duì)差異>0.1且經(jīng)Benjamini-Hochberg多重檢驗(yàn)校正方法校正后p<0.05的CpG位點(diǎn)視作差異甲基化位點(diǎn)。將324個(gè)樣本按7∶3的比例劃分為訓(xùn)練集與測(cè)試集,分組原則為隨機(jī)分組且死亡率相似。最后分為226個(gè)樣本的訓(xùn)練集和98個(gè)樣本的測(cè)試集。
為獲得與預(yù)后相關(guān)的結(jié)腸腺癌分子亞型,將使用顯著影響生存的CpG位點(diǎn)作為分類特征。首先,使用每個(gè)樣本所對(duì)應(yīng)患者的生存狀態(tài)和生存時(shí)間為每個(gè)差異甲基化CpG位點(diǎn)和患者的性別、年齡、臨床分期構(gòu)建單變量COX比例風(fēng)險(xiǎn)回歸模型,分析每個(gè)CpG位點(diǎn)的甲基化水平、年齡、階段與預(yù)后的關(guān)系。再將單變量中顯著影響預(yù)后的臨床因素作為協(xié)變量引入多變量模型篩選得到獨(dú)立影響預(yù)后的CpG位點(diǎn)。對(duì)于每個(gè)CpG位點(diǎn)i,單變量和多變量COX比例風(fēng)險(xiǎn)回歸模型的公式定義如下:
h(t,x)i=h0(t)exp(βmethymethyi)
(1)
h(t,x)i=h0(t)exp(βmethymethyi+βstagestage)
(2)
式中h0(t)是基準(zhǔn)風(fēng)險(xiǎn)方程,可以是任意一個(gè)針對(duì)時(shí)間t的非負(fù)方程,methyi是代表CpGi甲基化水平的矢量,stage是代表患者臨床分期的矢量,βmethy和βstage代表回歸系數(shù)。該模型使用Benjamini-Hochberg多重檢驗(yàn)校正方法對(duì)P值進(jìn)行校正。
在指定聚類算法和度量距離時(shí),使用ConcensusClusterPlus包內(nèi)嵌的多種聚類算法和距離進(jìn)行嘗試,以探尋最優(yōu)的聚類結(jié)果。根據(jù)輸出的結(jié)果文件,使用歐幾里得距離為度量的K均值聚類算法被納入考慮范圍。
分組數(shù)k的確定是本研究要解決的一個(gè)重要問題,對(duì)從k=2到k=10的不同分組數(shù),應(yīng)用上一步的聚類方法,除了固有的輸出結(jié)果外,對(duì)不同分組數(shù)下類別的平均一致性和一致性變異系數(shù)進(jìn)行了計(jì)算。最終用于確定聚類方法和聚類數(shù)的標(biāo)準(zhǔn)是:在某一聚類數(shù)k下,組間的一致性數(shù)值相對(duì)較高、變異系數(shù)相對(duì)較低,并且CDF曲線下面積在相鄰的兩個(gè)類別數(shù)量間的改變趨勢(shì)較緩。變異系數(shù)根據(jù)下式計(jì)算:
(3)
式(3)中SD是同一分類數(shù)下不同分組間一致性的標(biāo)準(zhǔn)差,MN是同一分類數(shù)下不同分組間的平均一致性。根據(jù)上述標(biāo)準(zhǔn),最終選擇使用K均值算法,以歐幾里得距離作為相似度指標(biāo)的聚類方法,確定聚類數(shù)目k為7。
通過與預(yù)后相關(guān)的CpG位點(diǎn)區(qū)分出了七個(gè)亞組,自然應(yīng)該考察這七個(gè)DNA甲基化亞組間的預(yù)后情況。對(duì)得到的甲基化亞組進(jìn)行Kaplan-Meier生存分析。這一分析通過“survival”R包中的函數(shù)survfit()和survdiff()完成。并使用對(duì)數(shù)秩檢驗(yàn)(log-rank test)分析生存差異的統(tǒng)計(jì)學(xué)顯著性。
目前結(jié)腸腺癌還沒有通過臨床病理特征定義的細(xì)分亞型,在分析并確定了不同DNA甲基化亞型間的預(yù)后差異之后,進(jìn)一步分析各個(gè)甲基化亞型與臨床特征的相關(guān)性,所有檢驗(yàn)方法若無特殊說明均采取雙側(cè)檢驗(yàn)。
根據(jù)臨床數(shù)據(jù)的情況,使用費(fèi)希爾精確檢驗(yàn)(Fisher’s exact test)分析各臨床特征在不同甲基化亞型間的分布是否有顯著差異。
在每個(gè)甲基化亞型內(nèi),對(duì)每個(gè)臨床特征和總體之間進(jìn)行超幾何檢驗(yàn),以分析各臨床特征在各甲基化亞型內(nèi)的富集是否具有顯著性。
使用一種基于香農(nóng)熵模型可從全基因組甲基化譜中鑒定差異甲基化區(qū)域(DMR)的軟件QDMR[12](Quantitative Differentially Methylated Regions),從用于識(shí)別七個(gè)甲基化亞組的137個(gè)CpG位點(diǎn)中篩選每個(gè)亞組的特異性甲基化標(biāo)記。由于在前述亞組確定的過程中采用了一致性聚類的方法,這意味著各個(gè)亞組內(nèi)的樣本有著相似的甲基化模式。因此,本研究計(jì)算用于一致性聚類的137個(gè)特征位點(diǎn)在七個(gè)亞組中的甲基化均值,以該均值來表征各位點(diǎn)在不同亞組中的甲基化狀態(tài),將得到285×6維矩陣作為QDMR的輸入。在衡量特異性的過程中,參數(shù)SD被設(shè)置為0.07。
本研究的DNA甲基化亞型由前述無監(jiān)督的一致性聚類方法得到,為了驗(yàn)證DNA甲基化分型結(jié)果并建立更為便捷精確的結(jié)腸腺癌甲基化分型方法,使用有著7個(gè)甲基化亞型標(biāo)簽的訓(xùn)練集構(gòu)建有監(jiān)督的SMO分類模型。在98個(gè)樣本的測(cè)試集中使用1.2中得到的預(yù)測(cè)模型,根據(jù)樣本的甲基化數(shù)據(jù)將患者劃分到7個(gè)DNA甲基化亞型中,也就是使用SMO分類模型將訓(xùn)練集得到的7個(gè)甲基化亞型標(biāo)簽分配給測(cè)試集中的樣本。然后對(duì)測(cè)試集中7個(gè)甲基化亞型進(jìn)行生存分析,驗(yàn)證模型的穩(wěn)定性和準(zhǔn)確性。
本研究將均值差絕對(duì)差異>0.1且p<0.05的CpG位點(diǎn)視作樣本對(duì)之間顯著差異的CpG位點(diǎn)。最終得到26 158個(gè)差異甲基化位點(diǎn),這一結(jié)果可視化使用R包ggplot(見圖1)。
圖1 結(jié)腸腺癌差異甲基化位點(diǎn)火山圖Fig.1 Volcano plot of differential methylation sites of colon adenocarcinoma注:橫坐標(biāo)是癌癥癌旁樣本間不同CpG位點(diǎn)的均值差,縱坐標(biāo)是經(jīng)過多重檢驗(yàn)校正后的p值負(fù)對(duì)數(shù)。在均值差閾值和P值分別設(shè)置為0.1和0.05的情況下,紅色區(qū)域?yàn)椴町惽绎@著的低甲基化位點(diǎn),藍(lán)色區(qū)域是差異且顯著的高甲基化位點(diǎn)。
為獲得與預(yù)后相關(guān)的結(jié)腸腺癌分子亞型,使用顯著影響存活的CpG位點(diǎn)作為分類特征。首先將所有結(jié)腸腺癌樣本按照7∶3的比例劃分為訓(xùn)練集和測(cè)試集,分別包含226個(gè)樣本和98個(gè)樣本。接著,為訓(xùn)練集中的樣本基于生存時(shí)間和存活情況構(gòu)建COX比例風(fēng)險(xiǎn)回歸模型。單變量COX模型獲得的2 838個(gè)與預(yù)后顯著相關(guān)位點(diǎn)被用于多變量COX模型構(gòu)建,3個(gè)顯著的臨床因素“分期”(gender:p=0.017,age:0.004,stage:0.016)被作為協(xié)變量也引入其中,最終多變量的回歸模型獲得137個(gè)依舊顯著的位點(diǎn),部分位點(diǎn)所對(duì)應(yīng)的基因(見表1)。
表1 特異性位點(diǎn)基因?qū)?yīng)表Table 1 Characteristic sites and corresponding gene symbols
P值使用Benjamini-Hochberg方法進(jìn)行了多重檢驗(yàn)校正,Hazard.Ratio代表著COX模型的風(fēng)險(xiǎn)比,風(fēng)險(xiǎn)比是相對(duì)而言的,風(fēng)險(xiǎn)比大于1的位點(diǎn)被認(rèn)為與不良預(yù)后相關(guān),小于1的位點(diǎn)被認(rèn)為與良好預(yù)后相關(guān)。137個(gè)CpG位點(diǎn)將被用作分組特征。
進(jìn)一步對(duì)所獲得的137 個(gè)CpG位點(diǎn)進(jìn)行一致性聚類以獲得與預(yù)后相關(guān)的結(jié)腸腺癌DNA甲基化亞型。本研究計(jì)算每個(gè)類別的平均聚類一致性和聚類之間的變異系數(shù),結(jié)合ConcensusClusterPlus包的輸出結(jié)果(見圖2),根據(jù)1.3中描述的方法來確定選擇最優(yōu)的聚類算法和類別數(shù)k。
圖2 基于K均值算法的結(jié)腸腺癌亞型分類標(biāo)準(zhǔn)Fig.2 Classification standards for colon adenocarcinoma subtypes based on k-means algorithm注:(a)表示每個(gè)類別號(hào)k與k -1 相比的累積分布函數(shù)(CDF)曲線下面積的相對(duì)變化。橫軸表示類別編號(hào)k,縱軸表示CDF曲線下面積的相對(duì)變化。(b)中紅線代表平均類一致性,藍(lán)線代表類間的變異系數(shù)。
對(duì)于K均值算法,CDF曲線下面積改變趨勢(shì)從聚類數(shù)目k=6開始明顯趨緩且分類數(shù)為7時(shí),其平均聚類一致性曲線和變異系數(shù)曲線有一個(gè)明顯的拐點(diǎn),擁有相對(duì)高的一致性系數(shù)和相對(duì)低的變異系數(shù)。因此,對(duì)于K均值算法,認(rèn)為它在聚類數(shù)為7時(shí)具有較高的聚類穩(wěn)定性,k=7是最適聚類數(shù)。最終確定使用聚類數(shù)k=7時(shí)K均值算法的聚類結(jié)果用于下一步的分析。
因?yàn)槭褂玫氖桥c預(yù)后相關(guān)的CpG位點(diǎn)區(qū)分的亞組,進(jìn)一步本研究對(duì)7個(gè)亞組進(jìn)行Kaplan-Meier生存分析,并使用對(duì)數(shù)秩檢驗(yàn)(log-rank test)研究生存差異的統(tǒng)計(jì)學(xué)顯著性(見圖3)。與其他癌癥類型相比較而言,結(jié)腸腺癌屬于惡性程度高、預(yù)后狀況差的一類腫瘤,目前還沒有應(yīng)用于臨床的可以區(qū)分腫瘤預(yù)后的分型方法。在本文的DNA甲基化亞組中,生存分析顯示這7個(gè)DNA甲基化亞組主要分為兩大組,之間的預(yù)后差異存在顯著性。三年(1 095 d)存活率分析結(jié)果表明,cluster1、cluster3、cluster4、cluster6生存時(shí)間明顯優(yōu)于其他亞型。
圖3 訓(xùn)練集中甲基化亞組的生存曲線Fig.3 Survival of methylation subgroups in training set注:橫坐標(biāo)是存活時(shí)間(d),縱坐標(biāo)是存活概率.
對(duì)各個(gè)亞型中樣本的臨床特征進(jìn)行分析,臨床特征年齡、腫瘤分期、T分期、N分期、M分期、組織學(xué)類型等較為經(jīng)典的6個(gè)指標(biāo),同時(shí),歷年來有多篇NCS文章表明微衛(wèi)星不穩(wěn)定性與結(jié)腸腺癌的發(fā)生發(fā)展密切相關(guān),故也將其選出作為結(jié)腸腺癌的重要臨床特征。其中T分期是對(duì)原發(fā)腫瘤的評(píng)估,隨著腫瘤體積的增加和鄰近 組織受累范圍的增加,依次用T1~T4來表示;N分期是對(duì)區(qū)域淋巴結(jié)的評(píng)估,本研究中患者該項(xiàng)指標(biāo)被納入分析的分期有N0和N1,分別表示著沒有區(qū)域淋巴結(jié)轉(zhuǎn)移和1~3枚區(qū)域淋巴結(jié)轉(zhuǎn)移;M分期是對(duì)腫瘤是否有遠(yuǎn)端轉(zhuǎn)移的評(píng)估;腫瘤解剖學(xué)細(xì)分評(píng)估了腫瘤位置,不同位置的結(jié)腸腺癌腫瘤侵犯范圍、術(shù)式選擇等方面存在差異。
本研究在7個(gè)DNA甲基化亞型之間,使用Fisher’s exact test分析各臨床特征在不同亞型之間的分布差異是否具有顯著性(見表2)。結(jié)果顯示:年齡(p=0.017)、組織學(xué)類型((p=0.039)、微衛(wèi)星不穩(wěn)定性(p=0.003)、N分期((p=0.038)在不同亞型樣本中的分布差異是顯著的。這說明基于DNA甲基化譜分出的結(jié)腸腺癌亞型間的預(yù)后差異,一定程度上可由患者的年齡、發(fā)生部位、淋巴結(jié)受累情況、微衛(wèi)星不穩(wěn)定性去解釋。而臨床分期、腫瘤的大小和腫瘤轉(zhuǎn)移情況,對(duì)于甲基化亞型的區(qū)分沒有顯著的指導(dǎo)意義。
表2 甲基化亞型間Fisher’s exact test結(jié)果Table 2 Fisher’s exact test results among methylation subtypes
在確定了不同亞型間的臨床特征有著差異性后,進(jìn)一步分析臨床特征在各亞型內(nèi)的富集情況是否具有顯著性。對(duì)每個(gè)臨床特征在各亞型內(nèi)的分布情況和在總體中的分布進(jìn)行超幾何檢驗(yàn),檢驗(yàn)結(jié)果(見表3)。
表3 超幾何檢驗(yàn)各特征在亞型內(nèi)富集的顯著性Table 3 Hypergeometric test for significance of feature enrichment in subtypes
根據(jù)上一步對(duì)亞型間進(jìn)行Fisher’s exact test的結(jié)果,將7個(gè)甲基化亞型和基于這兩個(gè)臨床特征下的樣本分組進(jìn)行比較(見圖4)。
圖4 DNA甲基化亞型和N分期類型、組織學(xué)類型、年齡、微衛(wèi)星不穩(wěn)定性相互富集Fig.4 Enrichment of DNA methylation clusters,N stage,histology type, age,and microsatellite instability注:A.N分期類型對(duì)應(yīng)于DNA甲基化亞型。B.DNA甲基化亞型對(duì)應(yīng)N分期。C.組織學(xué)類型對(duì)應(yīng)于DNA甲基化亞型。D.DNA甲基化亞型對(duì)應(yīng)組織學(xué)類型。E.年齡對(duì)應(yīng)于DNA甲基化亞型。F.DNA甲基化亞型對(duì)應(yīng)年齡。G.DNA甲基化亞型對(duì)應(yīng)微衛(wèi)星不穩(wěn)定性。H.微衛(wèi)星不穩(wěn)定性對(duì)應(yīng)于DNA甲基化亞型。
提取訓(xùn)練集樣本中通過QDMR得到的79個(gè)特征CpG位點(diǎn)的甲基化數(shù)據(jù),部分位點(diǎn)對(duì)應(yīng)的基因(見表4)。生成特征位點(diǎn)甲基化矩陣。使用R包pheatmap為該矩陣?yán)L制熱圖,并為它從0-1的甲基化值關(guān)聯(lián)上藍(lán)色到紅色。每個(gè)類別中特性低甲基化位點(diǎn)在熱圖中顯示出藍(lán)色,特異高甲基化位點(diǎn)顯示出紅色(見圖5)。這79個(gè)特征位點(diǎn)可以作為結(jié)腸腺癌中不同DNA甲基化亞型的特異性DNA甲基化標(biāo)記,代表著每個(gè)亞型獨(dú)特的DNA甲基化模式(見圖5)。class1具有最大數(shù)量的特異性低甲基化位點(diǎn),class2具有最大數(shù)量的特異性高甲基化CpG位點(diǎn)。
圖5 七個(gè)甲基化亞型中特征CpG位點(diǎn)甲基化水平Fig.5 CpG site methylation level among seven subtypes
表4 特異性位點(diǎn)基因?qū)?yīng)表Table 4 Characteristic sites and corresponding gene symbols
為了驗(yàn)證本研究獲得的甲基化亞型及更為準(zhǔn)確高效地對(duì)樣本進(jìn)行分類,使用訓(xùn)練集樣本構(gòu)建基于決策樹學(xué)習(xí)有監(jiān)督的SMO分類模型(見表5),所得到的模型有著87.61%的分類準(zhǔn)確性,每一行代表模型預(yù)測(cè)的樣本類別,每列代表樣本真實(shí)的類別。C1-C7對(duì)應(yīng)著class1-class7,表中對(duì)角線上的數(shù)字表示每個(gè)class中預(yù)測(cè)類別與實(shí)際類別相符的樣本數(shù)量。
表5 SMO分類器的混淆矩陣Table 5 Confusion matrix of SMO classifier
本研究的分類數(shù)量為7,而ROC曲線通常針對(duì)二分類的研究,故將7個(gè)亞型的真實(shí)值和模型的預(yù)測(cè)值轉(zhuǎn)化為7個(gè)二分類對(duì)象以適應(yīng)ROC曲線特征(見圖6),使用訓(xùn)練集樣本訓(xùn)練出的該模型對(duì)6個(gè)亞型的分類都具有較高的AUC值(ROC曲線下面積),而模型對(duì)class6的特異性和敏感性則相對(duì)較低。
圖6 預(yù)測(cè)模型的敏感性和特異性Fig.6 Sensitivity and specifity of prediction model
將訓(xùn)練集中得到的模型應(yīng)用到預(yù)留的檢驗(yàn)集中,對(duì)檢驗(yàn)集中未知類別標(biāo)簽的患者進(jìn)行DNA甲基化亞型的分類。檢驗(yàn)集中98個(gè)樣本根據(jù)特征CpG位點(diǎn)的甲基化模式被分配到了7個(gè)不同的組內(nèi)。對(duì)不同分組的3年(109 5 d)存活率進(jìn)行分析,并使用對(duì)數(shù)秩檢驗(yàn)(Log-rank test)分析發(fā)現(xiàn)生存差異具有較高的顯著性(p=0.052)。生存曲線(見圖7)。
圖7 檢驗(yàn)集生存分析結(jié)果Fig.7 Survival analysis results of test set
誘發(fā)癌癥的因素復(fù)雜而多樣,眾所周知,目前的主流觀點(diǎn)認(rèn)為癌癥由于基因突變引起[10],是一個(gè)累積漸進(jìn)的過程,遺傳改變的積累導(dǎo)致了惡性腫瘤的發(fā)生和發(fā)展。但是最新的研究表明,除了遺傳變異以外,異常的DNA甲基化也在癌癥的發(fā)生和發(fā)展中起到重要作用[11]。目前,異常的DNA甲基化在胃癌中是被廣泛研究的一種失調(diào)的表觀遺傳機(jī)制。例如,有研究證明胃癌中一些腫瘤抑制基因或者腫瘤相關(guān)基因(如p16、RUNX3、MLH1和CDH1等)會(huì)被啟動(dòng)子的甲基化沉默[12]。這些研究都驗(yàn)證了DNA甲基化作為腫瘤標(biāo)志物的重要價(jià)值。在確定了DNA甲基化與癌癥的發(fā)生和進(jìn)展相關(guān)聯(lián)后,甲基化模式的動(dòng)態(tài)性可能有助于癌癥的早期診斷和評(píng)估:異常甲基化位點(diǎn)增加或減少的時(shí)間趨勢(shì)可以幫助預(yù)測(cè)惡性腫瘤轉(zhuǎn)化的速率和概率。因此,異常DNA甲基化被認(rèn)為是可用來評(píng)估癌癥前期進(jìn)展的潛在早期診斷生物標(biāo)志物[13],是臨床實(shí)踐中癌癥診斷的理想靶標(biāo)。此外,識(shí)別癌癥特異或亞型特異的生物標(biāo)志物也具有預(yù)測(cè)價(jià)值。
本研究中包含了大量的結(jié)腸腺癌樣本的 Infinium HumanMethylation450 BeadChip 陣列數(shù)據(jù)集從 TCGA 數(shù)據(jù)庫下載,這些 數(shù)據(jù)可以用于本文的結(jié)腸腺癌異質(zhì)性分析。龐大的樣本量使得本研究能夠更全面地探索結(jié)腸腺癌的分子亞型和分子異質(zhì)性。
許多研究表明,表觀遺傳修飾(DNA 甲基化)在結(jié)腸腺 癌中的早期檢測(cè),以及改善分子分類,預(yù)后和輔助治療中發(fā)揮關(guān)鍵作用,體現(xiàn)了 基因組范圍的分子水平分析在精準(zhǔn)醫(yī)學(xué)時(shí)代具有重要的生物學(xué)和臨床意義[14]。利用基因啟動(dòng)子區(qū)域內(nèi)篩選的預(yù)后相關(guān)的 CpG 位點(diǎn)進(jìn)行無監(jiān)督的聚類分析,通過一致性聚類獲得七個(gè)預(yù)后不同的分子亞型,深入分析發(fā)現(xiàn)不同亞型之間有著分子或臨床特征上的差異,這證實(shí)了結(jié)腸腺腫瘤的異質(zhì)性及對(duì)結(jié)腸腺癌詳細(xì)分類的必要性。
一致性聚類與其他無監(jiān)督聚類方法(如層次聚類)相比,提供了聚類的類別 數(shù)量的選取參考依據(jù)[15]。本研究首次提出建議根據(jù) DNA 甲基化水平將結(jié)腸腺腫分為七個(gè)預(yù)后分子亞型。這種詳細(xì)程度帶來了較高的類內(nèi)一致性,可更好地指導(dǎo)個(gè)性化醫(yī)療。在本研究中,SMO模型的甲基化亞型分類能力有著較高的穩(wěn)定性。但是,第六亞型的AUC曲線太直,分析可能是由于樣本量過少,過擬合導(dǎo)致。同時(shí),在模型運(yùn)用到檢驗(yàn)集時(shí),在訓(xùn)練集和檢驗(yàn)集中,class6,class5,class3,class2的生存曲線差異較大,其可能是由于分類器對(duì)class6的靈敏性和特異性相對(duì)較低,導(dǎo)致預(yù)測(cè)類別有誤所致。觀察混淆矩陣可注意到實(shí)際類別為class6的不少樣本被錯(cuò)誤劃分為class3,class5和class2,從而可以解釋檢驗(yàn)集中class3,class5和class2生存率提升的現(xiàn)象,這說明在一定程度上本研究建立的分類模型對(duì)于結(jié)腸腺癌DNA甲基化亞型的預(yù)測(cè)與預(yù)后情況相關(guān)聯(lián)。值得注意的是,本研究建立的模型為各個(gè)甲基化亞型分配的樣本數(shù)量占總樣本數(shù)的相對(duì)數(shù)目多少在訓(xùn)練集和檢驗(yàn)集中是相似的,例如:分配到class3的樣本數(shù)目在訓(xùn)練集和檢驗(yàn)集樣本數(shù)均是最多。這也從一定程度上說明本研究建立的模型對(duì)甲基化亞型分類能力的穩(wěn)定性。
在使用 QDMR的分析中,發(fā)現(xiàn)了79個(gè)在亞型中特異性高/低甲基化的 CpG 位點(diǎn),對(duì)應(yīng)于76個(gè)基因,它們定義了結(jié)腸腺癌的特定 DNA 甲基化亞組。這些位點(diǎn)可以被視為診斷結(jié)腸腺癌的精準(zhǔn)醫(yī)療的靶標(biāo)和生物標(biāo)志物。在這些特異性的CpG位點(diǎn)對(duì)應(yīng)的基因中,需多先前已報(bào)道與結(jié)腸腺癌有關(guān)。其中,Sfrp5基因的甲基化被認(rèn)為與結(jié)腸腺癌中致癌物誘導(dǎo)過程WNT基因的響應(yīng)有關(guān)[16],Thbs4基因是大腸癌中一個(gè)與年齡相關(guān)的甲基化腫瘤抑制基因[17],GDF10基因與結(jié)腸癌發(fā)生密切相關(guān)[18]。
總之,使用TCGA 數(shù)據(jù)庫中的結(jié)腸腺腫瘤數(shù)據(jù)識(shí)別出七種不同的 DNA 甲基化預(yù)后分子亞型,這些亞型在分子水平或臨床特征上也存在著顯著差異。這可以對(duì)單一腫瘤內(nèi)部的異質(zhì)性更詳細(xì)地解釋。同時(shí),該研究方法也可以推廣到其他腫瘤的分型中。
使用TCGA中結(jié)腸腺癌的DNA甲基化數(shù)據(jù),篩選到137個(gè)與預(yù)后相關(guān)的CpG位點(diǎn)?;谝恢滦跃垲惙椒ㄗR(shí)別出7個(gè)與預(yù)后相關(guān)的亞型,這些亞型的預(yù)后差異顯著且亞型特征可由年齡、N分期、微衛(wèi)星不穩(wěn)定性、解剖學(xué)發(fā)生部位反映。在不同的結(jié)腸腺癌亞型中篩選出79個(gè)特異性高/低甲基化位點(diǎn),這些位點(diǎn)代表著每個(gè)亞型獨(dú)特的甲基化模式。利用結(jié)腸腺癌亞型特異性DNA甲基化特征構(gòu)建了基于序列最小最優(yōu)化的分類模型,該模型對(duì)結(jié)腸腺癌亞型的分類準(zhǔn)確性達(dá)到87.61%,提供了用于結(jié)腸腺癌分型的精確的DNA甲基化標(biāo)記。