薛春萌,高潔,李嘉樂(lè),李榮佳,劉暢,梁建偉
1.山東第一醫(yī)科大學(xué)第一附屬醫(yī)院(山東省千佛山醫(yī)院)健康管理學(xué),山東省健康體檢工程實(shí)驗(yàn)室,山東濟(jì)南 250000;2.山東第一醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,山東濟(jì)南 250000;3.山東省泰安市中心醫(yī)院普外科,山東泰安 271000
結(jié)直腸癌(colorectal cancer,CRC)作為消化系統(tǒng)好發(fā)癌癥之一,近年來(lái)在全世界范圍內(nèi)發(fā)病率呈顯著上升的趨勢(shì)[1]。在我國(guó),CRC的疾病負(fù)擔(dān)也較重,其呈現(xiàn)男性高發(fā)、高齡高發(fā)的總體趨勢(shì)[2]。臨床早期CRC患者常無(wú)明顯癥狀,易被忽視,發(fā)現(xiàn)時(shí)往往已進(jìn)展至中晚期。結(jié)腸鏡下取組織活檢是CRC診斷的金標(biāo)準(zhǔn)。但該操作對(duì)患者造成損傷較大,患者配合度低,加之對(duì)醫(yī)療人員技術(shù)水平要求較高[3]。而目前已應(yīng)用的CRC診斷的標(biāo)志物在實(shí)踐過(guò)程中有一定局限性。糖類蛋白腫瘤標(biāo)志物CA19-9缺乏器官特異性,對(duì)早期患者的敏感度僅為30%[4-5]。癌胚抗原(carcino-embryonic antigen,CEA)在CRC早期時(shí)陽(yáng)性率較低,不易被檢測(cè)出[6-7]。因此,開(kāi)發(fā)出特異性強(qiáng)靈敏度高、且創(chuàng)傷性小的診斷方式系當(dāng)務(wù)之急。CRC的遺傳分析顯示CRC的發(fā)生源于基因突變和表觀遺傳變化的積累[8],特定基因甲基化水平的變化與CRC的發(fā)病階段以及患者預(yù)后相關(guān)[9]。甲基化標(biāo)志物可在患者的血液、糞便和手術(shù)標(biāo)本中檢測(cè)到[10],并且穩(wěn)定性強(qiáng)、檢測(cè)簡(jiǎn)便,在CRC診斷方面具有較大潛力。
由于近年來(lái)科研人員已經(jīng)依據(jù)癌癥基因組圖譜數(shù)據(jù)庫(kù)(The Cancer Genome Atlas,TCGA)在多種腫瘤中發(fā)現(xiàn)了潛在的臨床標(biāo)志物和治療靶點(diǎn)[11-13],2020年12月-2021年9月本研究應(yīng)用機(jī)器學(xué)習(xí)(Machine Learning)的方法,利用TCGA數(shù)據(jù)庫(kù)中的結(jié)直腸癌27 K甲基化數(shù)據(jù)和臨床信息,運(yùn)用SPSS分析與CRC不良預(yù)后有關(guān)的因素。應(yīng)用Weka3-9-4建立起基于數(shù)個(gè)DNA甲基化位點(diǎn)的診斷模型,并在GEO數(shù)據(jù)庫(kù)(Gene Expression Omnibus)中獲取獨(dú)立數(shù)據(jù)集(GSE131013)來(lái)驗(yàn)證模型,以期對(duì)臨床上CRC的早期診斷和預(yù)測(cè)提供幫助?,F(xiàn)報(bào)道如下。
在TCGA網(wǎng)站下載207例結(jié)直腸癌27 K甲基化測(cè)序數(shù)據(jù)和相關(guān)臨床資料。27 K甲基化數(shù)據(jù)包括169例結(jié)直腸癌組織(其中有5例資料缺失)和38例癌旁正常組織的CpG島基因位點(diǎn)的甲基化程度值。臨床隨訪數(shù)據(jù)包括169例CRC患者的社會(huì)人口學(xué)特征、臨床病理信息和隨訪時(shí)間。其中社會(huì)人口學(xué)特征包括年齡、性別、種族等信息,臨床病理信息包括腫瘤切除或活檢部位、腫瘤分期。本研究以年齡中位值72歲為閾值,將CRC患者分為高齡組和低齡組,各82例;以甲基化位點(diǎn)(cg24446548)Beta值的中位值0.783為閾值,將CRC患者分為高甲基化組(n=81)和低甲基化組(n=83)。stageⅠ,stageⅡ,stageⅡa,stageⅡb為CRC早中期,stageⅢ,stageⅢa,stageⅢb,stageⅢc,stageⅣ,stageⅣa為CRC晚期。見(jiàn)表1。
使 用R3.1.0(http://www.cran.r-project.org/)中edger軟件包篩選差異甲基化位點(diǎn)。差異甲基化位點(diǎn)篩選的設(shè)定條件為:差異倍數(shù)(fold change,F(xiàn)C)>4或<0.4,P<0.05。FC即為兩組樣品間位點(diǎn)甲基化程度的比值,是表示差異倍數(shù)的變量。對(duì)篩選出的位點(diǎn)進(jìn)行受試者操作特征(receiver operating characteristic,ROC)分析,使用SPSS軟件繪制受試者操作特征曲線(receiver operator characteristic curve,ROC曲線),計(jì)算曲線下面積(area under the curve,AUC),保留曲線下面積較大的12個(gè)位點(diǎn),從而篩選出檢驗(yàn)效能較大的位點(diǎn);在篩選出的12個(gè)位點(diǎn)中選取檢驗(yàn)效能最大的位點(diǎn)(cg24446548)和檢驗(yàn)效能最小的位點(diǎn)(cg05345286)作ROC曲線圖。使用SPSS逐步回歸分析進(jìn)一步篩選,篩選標(biāo)準(zhǔn)是P≤0.05進(jìn)入模型,P≥0.1自動(dòng)排除。
結(jié)直腸癌診斷模型的構(gòu)建方法。使用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、邏輯回歸(Logistic回歸)、支持向量機(jī)(support vector machine,SVM)3種方法建立模型。將逐步回歸篩選出來(lái)的位點(diǎn)導(dǎo)入Weka系統(tǒng)。為了提高計(jì)算效率,增強(qiáng)模型的穩(wěn)定性和準(zhǔn)確度,選用Discretize過(guò)濾器離散化的甲基化值,此時(shí)甲基化數(shù)據(jù)已被分為較均等的多個(gè)子空間[14],異常數(shù)據(jù)對(duì)模型的影響降低。接著使用ANN、Logistic回歸及SVM3種方法分別建立模型,并進(jìn)行10折交叉驗(yàn)證。10折交叉驗(yàn)證即將數(shù)據(jù)集隨機(jī)分成10份,依次將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù)進(jìn)行試驗(yàn);取10次實(shí)驗(yàn)結(jié)果的平均值作為模型的精確度估計(jì),來(lái)進(jìn)一步優(yōu)化模型。
為進(jìn)一步驗(yàn)證模型的預(yù)測(cè)能力,于GEO數(shù)據(jù)庫(kù)中下載GSE131013數(shù)據(jù)集。用數(shù)據(jù)集中的96例腫瘤組織樣本和144例正常組織樣本作為驗(yàn)證集對(duì)ANN模型、Logistic模型、SVM模型分別進(jìn)行測(cè)試。利用已建立的混淆矩陣和相關(guān)指標(biāo),選出診斷性能較優(yōu)的模型。模型的分類預(yù)測(cè)效果用平均準(zhǔn)確率、漏診率來(lái)評(píng)價(jià)。平均準(zhǔn)確率較高且漏診率較低的模型診斷性能較好。同時(shí)使用特異度、靈敏度、AUC、Kappa值等指標(biāo)來(lái)輔助評(píng)價(jià)模型。較大的AUC代表了較好的預(yù)測(cè)性能;Kappa>0.75,說(shuō)明兩種診斷方法結(jié)果一致性較好。
采用SPSS統(tǒng)計(jì)學(xué)軟件對(duì)CRC患者臨床隨訪數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。首先進(jìn)行Kaplan-Meier(KM)生存分析,采用對(duì)數(shù)秩檢驗(yàn)(Log-Rank法)比較不同組別患者生存率。然后采用多因素Cox回歸模型分析性別、年齡、腫瘤分期和位點(diǎn)甲基化程度對(duì)CRC患者預(yù)后的影響。同時(shí),用相關(guān)性分析探究甲基化位點(diǎn)與年齡、腫瘤分期和基因表達(dá)量之間的相關(guān)性。相關(guān)系數(shù)反映其相關(guān)性,>0表示正相關(guān),<0表示負(fù)相關(guān)。相關(guān)系數(shù)的絕對(duì)值,0~0.1為沒(méi)有相關(guān)性,0.1~0.3為弱相關(guān),0.3~0.5為中等相關(guān),0.5~1.0為強(qiáng)相關(guān)。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
采用甲基化分析資源工具(shiny methylation analysis resource tool,SMART)分析位點(diǎn)的甲基化程度在結(jié)腸癌組織與癌旁組織之間有無(wú)明顯差異以及甲基化程度與基因表達(dá)量之間有無(wú)相關(guān)性。
采用R語(yǔ)言“edger”軟件包篩選出63個(gè)位點(diǎn),其中l(wèi)ogFC最大的18個(gè)位點(diǎn)和logFC最小的18個(gè)位點(diǎn)。見(jiàn)圖1。ROC分析篩選出了12個(gè)檢驗(yàn)效能較大 的 位 點(diǎn)(cg00240432、cg05345286、cg06151165、
圖1 差異分析中l(wèi)ogFC最大的18個(gè)位點(diǎn)和logFC最小的18個(gè)位點(diǎn)
cg08090772、cg13577076、cg14197923、cg15087147、cg17872757、cg18349835、cg22879515、cg24446548
和cg06744574)。見(jiàn)圖2。將篩選出的12個(gè)位點(diǎn)納入逐步回歸分析,篩選出6個(gè)位點(diǎn)(cg00240432、
圖2 甲基化位點(diǎn)cg24446548和cg05345286的ROC曲 線
cg06744574、cg08090772、cg13577076、cg17872757、cg24446548),這6個(gè)位點(diǎn)的甲基化程度在結(jié)腸癌組織與癌旁組織之間差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。見(jiàn)圖3。
圖3 結(jié)腸癌的癌旁組織與癌癥組織的6個(gè)差異甲基化位點(diǎn)的Beta值分布
基于6個(gè)差異甲基化位點(diǎn)建立模型,結(jié)果見(jiàn)表1。SVM模型、ANN模型和Logistic回歸模型的平均準(zhǔn)確率分別為99.5%、99.0%和98.0%。ANN模型(圖4)、Logistic回歸模型和SVM模型的漏診率分別為1.0%、2.0%和0.5%。ANN模型、Logistic回歸模型和SVM模型AUC值分別為0.999、0.994和0.997。獨(dú)立數(shù)據(jù)集驗(yàn)證結(jié)果見(jiàn)表2。ANN模型、Logistic回歸模型、SVM模型的準(zhǔn)確率分別為92.9%、85.8%和91.2%,漏診率分別為7.1%、14.2%和8.8%。
表2 獨(dú)立數(shù)據(jù)集評(píng)估3種模型性能
圖4 基于6個(gè)甲基化位點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型
表1 10折交叉驗(yàn)證評(píng)估3種模型的性能
Log-Rank檢驗(yàn)結(jié)果顯示男女兩性別之間的生存分析差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05);以72歲(中位數(shù))為界限數(shù)值分類時(shí),高齡組(≥72歲)和低齡組(<72歲)生存分析差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。高甲基化組與低甲基化組生存分析比較,CRC早中期與晚期的生存分析比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。將P<0.20的性別、年齡、腫瘤分期、和甲基化位點(diǎn)(cg24446548)納入Cox多因素分析,性別、年齡和甲基化位點(diǎn)對(duì)生存時(shí)間的影響無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05);腫瘤分期對(duì)生存時(shí)間的影響有統(tǒng)計(jì)學(xué)意義(HR=4.423,P<0.05)。見(jiàn)圖5、表3。
表3 KM生存分析中的參數(shù)估計(jì)及Log-Rank檢驗(yàn)結(jié)果
圖5 169例CRC患者臨床隨訪數(shù)據(jù)生存分析
相關(guān)性分析結(jié)果顯示,cg17872757與年齡呈現(xiàn)正相關(guān)(r=0.227,P<0.05)。甲基化水平與腫瘤分期無(wú)相關(guān)性(P>0.05)。為了探究位點(diǎn)甲基化程度與所在基因表達(dá)量的相關(guān)性,采用SMART對(duì)篩選出的6個(gè)差異甲基化位點(diǎn)進(jìn)行相關(guān)性分析。甲基化程度與基因表達(dá)量具有一定相關(guān)性,其中,cg08090772甲基化程度與ADHFE1基因表達(dá)呈現(xiàn)負(fù)相關(guān)(r=-0.700,P<0.05);cg17872757甲基化程度與FLI1基 因 表 達(dá) 呈負(fù) 相 關(guān)(r=-0.410,P<0.05);cg06744574甲基化程度與BEND5表達(dá)呈負(fù)相關(guān)(r=-0.350,P<0.05)。
DNA甲基化是表觀遺傳學(xué)的重要表現(xiàn)之一,是指在DNA甲基化轉(zhuǎn)移酶作用下,基因組CpG二核苷酸胞嘧啶的5’碳位與甲基基團(tuán)共價(jià)結(jié)合[15]。CpG二核苷酸序列通常成串出現(xiàn)在DNA上,稱為CpG島,常出現(xiàn)在真核生物編碼基因的調(diào)控區(qū)。正常狀態(tài)下,啟動(dòng)子中CpG島處于未甲基化狀態(tài),CpG序列中出現(xiàn)C甲基化則可能會(huì)導(dǎo)致正?;蜣D(zhuǎn)錄被抑制。Hu YH等[15]的研究顯示,ADHFE1在CRC組織中下調(diào)和高甲基化,ADHFE1的下調(diào)與CRC患者的分化差和晚期TNM分期相關(guān)。相關(guān)性分析結(jié)果表明:cg08090772高甲基化與其所在的ADHFE1基因低表達(dá)高度相關(guān)(r=-0.700,P<0.05)。ADHFE1基因的高甲基化可能會(huì)抑制基因的表達(dá)。
DNA甲基化異常已被發(fā)現(xiàn)是腫瘤發(fā)生過(guò)程中出現(xiàn)的最早分子事件之一,且在正常細(xì)胞向腫瘤細(xì)胞轉(zhuǎn)化的過(guò)程中就能被檢測(cè)到[16]。因此,基因異常甲基化的檢測(cè)在惡性腫瘤的早期篩查中具有潛在的應(yīng)用價(jià)值。本研究利用TCGA數(shù)據(jù)庫(kù)中結(jié)直腸癌27 K甲基化數(shù)據(jù),采用生物信息學(xué)數(shù)據(jù)的處理方法,篩選出了6個(gè)具有診斷CRC潛力的位點(diǎn),其中cg24446548的高甲基化與CRC患者不良生存顯著相關(guān)(P<0.05)。然后通過(guò)機(jī)器學(xué)習(xí)的方法初步建立了基于6個(gè)甲基化位點(diǎn)的ANN、Logistic和SVM診斷模型。ANN模型、Logistic回歸模型和SVM模型的漏診率分別為1.0%、2.0%和0.5%,AUC值分別為0.999、0.994和0.997,模型分類能力較好。3種模型均能夠根據(jù)現(xiàn)有數(shù)據(jù)建立起預(yù)測(cè)性能良好的模型。其中,ANN和SVM的分類和預(yù)測(cè)性能較佳。SVM模型的Kappa系數(shù)為0.984,MAE值為0.005,因而SVM模型診斷CRC的診斷一致性很高。而后通過(guò)GEO數(shù)據(jù)庫(kù)的獨(dú)立數(shù)據(jù)集進(jìn)行驗(yàn)證,進(jìn)一步比較3種模型的診斷效果,結(jié)果同樣顯示ANN模型與SVM模型的分類和預(yù)測(cè)性能較優(yōu)。Log-Rank檢驗(yàn)結(jié)果表明:高vs低甲基化組和CRC早中期vs晚期的生存分析顯示差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。因此,cg24446548位點(diǎn)的高甲基以及CRC晚期(Ⅲ、Ⅳ期)預(yù)示著患者的不良生存預(yù)后。Cox多因素分析結(jié)果表明,CRC晚期(Ⅲ、Ⅳ期)預(yù)示著CRC患者不良預(yù)后(HR=4.423,P<0.05),且晚期(Ⅲ、Ⅳ期)癌癥患者的死亡風(fēng)險(xiǎn)為早期(Ⅰ、Ⅱ期)患者死亡風(fēng)險(xiǎn)的4.423倍。
本研究的創(chuàng)新之處在于建立了準(zhǔn)確率較高的CRC診斷模型。Hou PZ等[17]分別采用12個(gè)指標(biāo)、4個(gè)指標(biāo)和7個(gè)指標(biāo)建立了3個(gè)SVM模型,分類準(zhǔn)確率分別為76.7%、83.3%和90.0%,對(duì)CRC的診斷具有較高價(jià)值。Zhang B等[18]基于5個(gè)血清標(biāo)志物CEA、CA199、CA242、CA125、CA153建立SVM和BP神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確率分別為82.5%和75.0%。本研究基于6個(gè)甲基化位點(diǎn)建立的SVM模型分類準(zhǔn)確率為91.2%,取得了較好的分類效果,同時(shí)具有較低的漏診率。
局限性:本研究篩選的甲基化位點(diǎn)建立的模型可以有效地診斷結(jié)直腸癌。位點(diǎn)所在的基因甲基化程度有待大樣本的實(shí)驗(yàn)驗(yàn)證或測(cè)序檢驗(yàn)。由于目前測(cè)序成本較高,所以對(duì)該方法的推廣有一定限制。
綜上所述,流程篩選的6個(gè)甲基化位點(diǎn),具有診斷結(jié)直腸癌的潛能;建立的ANN和SVM模型可以有效區(qū)分腫瘤組和癌旁正常組。cg24446548位點(diǎn)的高甲基化以及腫瘤晚期預(yù)示著不良生存預(yù)后。