王 威,馮曉蕾,段曉冉,王團(tuán)偉,譚善娟,吳逸明,吳擁軍
鄭州大學(xué)公共衛(wèi)生學(xué)院勞動(dòng)衛(wèi)生與衛(wèi)生毒理學(xué)教研室鄭州450001
肺癌發(fā)病率和病死率均居于全世界癌癥譜的首位,早期無(wú)特異癥狀。已有研究[1-2]發(fā)現(xiàn),脆性組氨酸三聯(lián)體(fragile histidine traid,F(xiàn)HIT)、RASSF1A 和p16 等基因甲基化引起的抑癌基因表達(dá)沉默,以及外周血的DNA 端粒長(zhǎng)度縮短,會(huì)使肺癌的危險(xiǎn)性增加。課題組[3-4]前期進(jìn)行了一些研究,發(fā)現(xiàn)FHIT、p16、RASSF1 和外周血的DNA 端粒長(zhǎng)度4 項(xiàng)生物標(biāo)志在肺癌診斷中具備價(jià)值,構(gòu)建了肺癌診斷的神經(jīng)網(wǎng)絡(luò)模型和決策樹(shù)模型,為進(jìn)一步研究肺癌早期診斷技術(shù)奠定了基礎(chǔ)。支持向量機(jī)是建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理和VC 維理論基礎(chǔ)上的一種數(shù)據(jù)挖掘方法,理論基礎(chǔ)堅(jiān)實(shí),數(shù)學(xué)模型簡(jiǎn)明,克服了“維數(shù)災(zāi)難”,在解答小樣本、非線性和高維模式識(shí)別類(lèi)型這些問(wèn)題時(shí)獨(dú)具優(yōu)勢(shì)[5]。作者嘗試進(jìn)行基于以上4種生物標(biāo)志的肺癌診斷支持向量機(jī)模型的構(gòu)建。
1.1 研究對(duì)象 選擇2009年1月至2010年6月鄭州大學(xué)第一附屬醫(yī)院胸外科和呼吸內(nèi)科確診為原發(fā)性肺癌的患者200例,其中腺癌72例,鱗狀細(xì)胞癌87例,大細(xì)胞肺癌8例,小細(xì)胞肺癌33例;同期沒(méi)有惡性腫瘤的健康體檢者200例作對(duì)照。經(jīng)研究對(duì)象知情同意后,由醫(yī)生和專(zhuān)業(yè)調(diào)查員來(lái)收集血樣本以及包括年齡、性別、吸煙等在內(nèi)的流行病學(xué)資料。每天吸煙1 支且吸煙1 a 以上定義為吸煙[6]。
1.2 主要試劑和儀器 全血基因組DNA 提取試劑盒(上海萊楓公司),PTC200 型PCR 擴(kuò)增儀(美國(guó)MJ Research 公司),Real-time PCR 儀(美國(guó)Startagene 公司),引物(上海生工生物工程服務(wù)有限公司),EPS-350 電泳儀(瑞典Pharmaera-LKB 公司),GoTaq qPCR Mastermix(美國(guó)Promega 公司),組織DNA 提取試劑盒(北京康為世紀(jì)公司)。
1.3 實(shí)驗(yàn)方法 按照全血基因組DNA 提取試劑盒的要求進(jìn)行外周血基因組DNA 的提取;甲基化水平檢測(cè)的方法為實(shí)時(shí)定量甲基化特異性PCR 法;甲基化水平(率)的計(jì)算參考文獻(xiàn)[7];端粒長(zhǎng)度的測(cè)定采取實(shí)時(shí)熒光定量PCR 法[8]。
1.4 統(tǒng)計(jì)學(xué)處理 使用SPSS 12.0 分析,定性資料兩樣本比較用χ2檢驗(yàn)。定量資料若符合正態(tài)分布,用ˉx±s 描述,若不符合,采取M(P25~P75)描述;兩樣本比較用秩和檢驗(yàn)或t 檢驗(yàn)。檢驗(yàn)水準(zhǔn)α=0.05。
1.5 數(shù)據(jù)挖掘
1.5.1 數(shù)據(jù)的預(yù)處理 數(shù)據(jù)轉(zhuǎn)換:使用SPSS Clementine 12.0 對(duì)不符合正態(tài)分布的3個(gè)基因的甲基化水平做變量變換。數(shù)據(jù)分組:使用軟件SPSS Clementine 12.0 將數(shù)據(jù)隨機(jī)分成預(yù)測(cè)集和訓(xùn)練集2組,按3∶1 抽樣,將400個(gè)樣本分為訓(xùn)練集(對(duì)照者150個(gè),肺癌患者150個(gè))和預(yù)測(cè)集(對(duì)照者50個(gè),肺癌患者50個(gè))。
1.5.2 模型的建立 Fisher 判別分析模型:見(jiàn)文獻(xiàn)[2]。支持向量機(jī)模型:該模型在SPSS Clementine 12.0 中實(shí)現(xiàn),輸入項(xiàng)設(shè)定為訓(xùn)練集的吸煙史、年齡、端粒長(zhǎng)度和FHIT、RASSF1A 及p16 基因甲基化水平,輸出項(xiàng)設(shè)定為group(肺癌=1,對(duì)照=2)?;诖搜芯糠蔷€性的訓(xùn)練樣本,采用非線性支持向量機(jī)算法,通過(guò)初步的探索后:Mode 為Expert,Kernel type 為Polynomial,Stopping criteria 為1.0E-3,Gamma 為1 被確定為最終的參數(shù)。
1.5.3 模型的評(píng)價(jià) 采用特異度、靈敏度、準(zhǔn)確度、陰性預(yù)測(cè)值、陽(yáng)性預(yù)測(cè)值及ROC 曲線下面積(AUC)等指標(biāo)來(lái)進(jìn)行模型評(píng)價(jià),其中設(shè)定當(dāng)AUC<0.5,無(wú)診斷意義;AUC 0.5~,準(zhǔn)確度極低;AUC 0.7~,準(zhǔn)確度比較好;AUC >0.9,準(zhǔn)確度最好。
2.1 研究對(duì)象基本情況 肺癌組患者200 名,其中男143 名,女57 名;吸煙者107 名,不吸煙者93 名;年齡(59.6 ±10.6)歲;對(duì)照組200 名,其中男151名,女49 名;吸煙者79 名,不吸煙者121 名;年齡(53.7 ±13.3)歲;兩組間性別均衡,年齡和吸煙人數(shù)差異具有統(tǒng)計(jì)學(xué)意義(t/χ2 =9.537 和6.221,P =0.001 和0.005)。
2.2 肺癌組和對(duì)照組FHIT、RASSF1A 和p16 基因啟動(dòng)子甲基化水平及端粒長(zhǎng)度的比較 結(jié)果見(jiàn)表1。
2.3 數(shù)據(jù)挖掘模型結(jié)果 對(duì)不符合正態(tài)分布的p16、RASSF1A 和FHIT 基因啟動(dòng)子的甲基化水平進(jìn)行正態(tài)性變換,其中p16 和FHIT 基因啟動(dòng)子的甲基化水平用取log10 變換,RASSF1A 基因啟動(dòng)子的甲基化水平用取平方根變換。最終得到的數(shù)據(jù)挖掘模型見(jiàn)表2。
2.4 模型的評(píng)估 見(jiàn)表3。
表3 兩數(shù)據(jù)挖掘模型的效果評(píng)估
大量研究[9-10]結(jié)果表明,肺癌與FHIT、RASSF1A 和p16 基因的甲基化之間有關(guān)聯(lián)。該研究結(jié)果顯示,肺癌組和對(duì)照組FHIT、RASSF1A 和p16 基因啟動(dòng)子甲基化水平差異均有統(tǒng)計(jì)學(xué)意義。端粒長(zhǎng)度變化將對(duì)端粒結(jié)構(gòu)和功能改變產(chǎn)生重要影響[11]。該研究發(fā)現(xiàn)肺癌組端粒長(zhǎng)度要短于對(duì)照組,提示端粒縮短是肺癌的危險(xiǎn)因素,這與文獻(xiàn)[12-13]研究結(jié)果相一致。
支持向量機(jī)具有完善的數(shù)學(xué)表達(dá)、出色的泛化功能、直觀的幾何圖形,在數(shù)據(jù)挖掘方面可以避免局部最優(yōu)解,完美解決過(guò)學(xué)習(xí)問(wèn)題。同時(shí),它以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為基本原理,強(qiáng)調(diào)置信區(qū)間的最小化,能夠很好地解決算法中復(fù)雜程度與泛化能力間的矛盾。支持向量機(jī)模型只和樣本數(shù)量有關(guān),且人為設(shè)定的參數(shù)較少,便于使用,因此該模型在解決小樣本的問(wèn)題時(shí)具有獨(dú)特的優(yōu)勢(shì)[14-15]。鑒于以上優(yōu)點(diǎn),支持向量機(jī)模型在臨床輔助診斷等方面也具有很大的潛力[16]。目前,卓越的分類(lèi)性能使支持向量機(jī)在多種數(shù)據(jù)挖掘方法中很受關(guān)注,在生物信息處理,特別是生物輔助診斷方面已取得了一系列很好的成績(jī)[17]。
該研究采用支持向量機(jī)模型對(duì)預(yù)測(cè)集的預(yù)測(cè)準(zhǔn)確度達(dá)到81.0%,而判別分析模型的預(yù)測(cè)準(zhǔn)確度為67.0%,因此支持向量機(jī)模型在肺癌的輔助診斷方面可能具有較高的價(jià)值。課題組前期做了肺癌預(yù)測(cè)的相關(guān)工作,嘗試采取其他腫瘤標(biāo)志聯(lián)合數(shù)據(jù)挖掘建立數(shù)據(jù)挖掘模型,準(zhǔn)確度高達(dá)90%[18]。該研究建立的支持向量機(jī)模型預(yù)測(cè)準(zhǔn)確度未達(dá)到該水平,考慮原因?yàn)?樣本發(fā)生了變化,篩選出的生物標(biāo)志物發(fā)生了變化。因此,需要綜合分析和比較研究樣本中的不同生物標(biāo)志,進(jìn)一步篩選出理想的生物標(biāo)志物,完善數(shù)據(jù)挖掘模型。
綜上所述,該研究發(fā)現(xiàn)人外周血DNA 端粒長(zhǎng)度和FHIT、RASSF1A、p16 基因啟動(dòng)子甲基化與肺癌有關(guān),并首次成功構(gòu)建了基于上述4種生物標(biāo)志的肺癌診斷支持向量機(jī)模型,結(jié)果表明支持向量機(jī)在肺癌診斷中具有較高的應(yīng)用價(jià)值。
[1]Hsu HS,Chen TP,Hung CH,et al.Characterization of a multiple epigenetic marker panel for lung cancer detection and risk assessment in plasma[J].Cancer,2007,110(9):2019
[2]譚善娟,王娜,王威,等.人外周血基因組DNA 端粒長(zhǎng)度與肺癌關(guān)系[J].中國(guó)公共衛(wèi)生,2012,28(5):652
[3]魏小玲,譚善娟,何其棟,等.決策樹(shù)聯(lián)合生物標(biāo)志在肺癌輔助診斷中應(yīng)用[J].中國(guó)公共衛(wèi)生,2013,29(10):1479
[4]王威,段曉冉,譚善娟,等.基于3種基因啟動(dòng)子甲基化聯(lián)合端粒長(zhǎng)度構(gòu)建肺癌篩查神經(jīng)網(wǎng)絡(luò)模型[J].鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2014,49(2):176
[5]丁世飛.齊丙娟,譚紅艷.支持向量機(jī)理論與支持算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2
[6]World Health Organization.Guidelines for controlling and monitoring the tobacco epidemic[R].Geneva:WHO,1998:200
[7]Lu L,Katsaros D,De La Longrais IA,et al.Hypermethylation of let-7a-3 in epithelial ovarian cancer is associated with low insulin-like growth factor-Ⅱexpression and favorable prognosis[J].Cancer Res,2007,67(21):10117
[8]王威,李智濤,祝寒松,等.煤焦瀝青煙提取物致人支氣管上皮細(xì)胞惡性轉(zhuǎn)化細(xì)胞端粒損傷研究[J].中國(guó)職業(yè)醫(yī)學(xué),2011,38(5):369
[9]Zhang YW,Wang R,Song HZ,et al.Methylation of multiple genes as a candidate biomarker in non-small cell lung cancer[J].Cancer Lett,2011,303(1):21
[10]Liu Z,Li W,Lei Z,et al.CpG island methylator phenotype involving chromosome 3p confers an increased risk of nonsmall cell lung cancer[J].J Thorac Oncol,2010,5(6):790
[11]王海兵.DNA 甲基化在肺癌中的研究進(jìn)展[J].中國(guó)肺癌雜志,2010,13(11):1074
[12]Dammann R,Li C,Yoon JH,et al.Epigenetic inactivation of a RAS association domain family protein from the lung tumour suppressor locus 3p21.3[J].Nat Genet,2000,25(3):315
[13]劉利東,黃金水,譚兆珍,等.RASSF1A 啟動(dòng)子甲基化與非小細(xì)胞肺癌TNM 分期關(guān)系的Meta 分析[J].嶺南現(xiàn)代臨床外科,2010,109(2):142
[14]Zhang Y,Miao Y,Yi J,et al.Frequent epigenetic inactivation of deleted in lung and esophageal cancer 1 gene by promoter methylation in non-small-cell lung cancer[J].Clin Lung Cancer,2010,11(4):264
[15]Nagji AS,Liu Y,Stelow EB,et al.BRMS1 transcriptional repression correlates with CpG island methylation and advanced pathological stage in non-small cell lung cancer[J].J Pathol,2010,221(2):229
[16]Wang R,Zhang YW,Chen LB.Aberrant promoter methylation of FBLN-3 gene and clinicopathological significance in non-small cell lung carcinoma[J].Lung Cancer,2010,69(2):239
[17]Huang TM,Kecman V.Gene extraction for cancer diagnosis by support vector machines--an improvement[J].Artif Intell Med,2005,35(1/2):185
[18]馮斐斐,聶廣金,吳擁軍,等.基于6 項(xiàng)腫瘤標(biāo)志聯(lián)合檢測(cè)的3種分類(lèi)模型判別肺癌的對(duì)比分析[J].衛(wèi)生研究,2009,38(4):429