何其棟, 魏小玲, 張紅巧, 王 威, 吳擁軍#
1)鄭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生毒理學(xué)教研室 鄭州 450001 2)鄭州大學(xué)第五附屬醫(yī)院腫瘤科 鄭州 450052 3)鄭州大學(xué)公共衛(wèi)生學(xué)院勞動(dòng)衛(wèi)生學(xué)教研室 鄭州 450001
基于“優(yōu)選腫瘤標(biāo)志群”建立的決策樹(shù)模型對(duì)肺癌輔助診斷的價(jià)值*
何其棟1), 魏小玲1), 張紅巧2), 王 威3), 吳擁軍1)#
1)鄭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生毒理學(xué)教研室 鄭州 450001 2)鄭州大學(xué)第五附屬醫(yī)院腫瘤科 鄭州 450052 3)鄭州大學(xué)公共衛(wèi)生學(xué)院勞動(dòng)衛(wèi)生學(xué)教研室 鄭州 450001
#通訊作者,男,1968年1月生,博士,教授,研究方向:生化與分子毒理,E-mail:wuyongjun@zzu.edu.cn
決策樹(shù);腫瘤標(biāo)志;肺腫瘤;輔助診斷
目的:應(yīng)用決策樹(shù)技術(shù)聯(lián)合腫瘤標(biāo)志蛋白芯片建立基于“優(yōu)選腫瘤標(biāo)志群”的決策樹(shù)模型,實(shí)現(xiàn)對(duì)肺癌的快速診斷。方法運(yùn)用腫瘤標(biāo)志定量檢測(cè)試劑盒測(cè)定201例肺部良性疾病及199例肺癌患者血清中9項(xiàng)腫瘤標(biāo)志[癌胚抗原、糖原類抗原19-9(CA199)、神經(jīng)元特異性烯醇化酶、CA242、鐵蛋白、CA125、甲胎蛋白、人生長(zhǎng)激素和CA153]水平,應(yīng)用logistic回歸對(duì)腫瘤標(biāo)志進(jìn)行篩選以獲得“優(yōu)選腫瘤標(biāo)志群”,分別于篩選前后建立決策樹(shù)模型和Fisher判別分析模型。結(jié)果肺癌組9項(xiàng)血清腫瘤標(biāo)志水平均高于肺良性疾病組(P<0.05)。篩選前基于9項(xiàng)腫瘤標(biāo)志分別建立的Fisher判別分析模型、決策樹(shù)模型和篩選后基于6項(xiàng)腫瘤標(biāo)志建立的Fisher判別分析模型、決策樹(shù)模型,其預(yù)測(cè)準(zhǔn)確度分別為86.0%、92.5%、84.5%、91.5%。篩選前和篩選后決策樹(shù)模型ROC曲線的AUC分別為0.925和0.915,均高于Fisher判別分析的0.860和0.845(Z=4.462和4.575,P均<0.01);但決策樹(shù)模型和Fisher判別分析篩選前后自身相比,差異均無(wú)統(tǒng)計(jì)學(xué)意義(Z=1.914和1.074,P均>0.05)。結(jié)論基于6項(xiàng)腫瘤標(biāo)志建立的決策樹(shù)模型診斷肺癌的效果優(yōu)于Fisher判別分析。
肺癌居我國(guó)各類腫瘤之首,且發(fā)病率及病死率逐年增長(zhǎng),成為嚴(yán)重威脅人類健康的惡性腫瘤之一。肺癌發(fā)病隱匿,轉(zhuǎn)移較快,預(yù)后差,總的5 a生存率約為15%,而早期發(fā)現(xiàn)的肺癌患者5 a生存率則可以提高到70%~80%[1]。對(duì)肺癌進(jìn)行早期診斷成為提高療效的關(guān)鍵。腫瘤標(biāo)志檢測(cè)近年來(lái)已被用于肺癌的輔助診斷,對(duì)肺癌的早期診斷和預(yù)后都有重要的意義。目前對(duì)肺癌鑒別診斷的研究主要集中于尋找新的腫瘤標(biāo)志或者聯(lián)合檢測(cè)多項(xiàng)腫瘤標(biāo)志,以期提高肺癌檢出的靈敏度和特異度[2-3];也有文獻(xiàn)[4]報(bào)道采用數(shù)據(jù)挖掘技術(shù)用于肺癌的判別診斷;但是多種血清腫瘤標(biāo)志聯(lián)合檢測(cè)時(shí)一些標(biāo)志對(duì)聯(lián)合檢測(cè)陽(yáng)性率的貢獻(xiàn)不大,而且還會(huì)帶來(lái)大量的參數(shù),同時(shí)增加診斷成本。該研究應(yīng)用蛋白芯片檢測(cè)系統(tǒng)測(cè)定肺癌和肺良性疾病患者血清中癌胚抗原(CEA)、糖原類抗原19-9(CA199)、神經(jīng)元特異性烯醇化酶(NSE)、CA242、鐵蛋白(Ferritin)、CA125、甲胎蛋白(AFP)、人生長(zhǎng)激素(HGH)和CA153共9項(xiàng)腫瘤標(biāo)志的水平,利用logistic回歸對(duì)以上9種腫瘤標(biāo)志進(jìn)行篩選后,聯(lián)合建立決策樹(shù)模型和判別分析模型,探討2種模型對(duì)肺癌輔助診斷的意義。
1.1研究對(duì)象2010年6月至2011年12月自鄭州大學(xué)第五附屬醫(yī)院呼吸內(nèi)科及腫瘤科收集有腫瘤標(biāo)志蛋白芯片檢測(cè)記錄的肺癌和肺良性疾病患者共400例,其中肺癌199例、肺良性疾病201例。肺癌患者均經(jīng)病理或細(xì)胞學(xué)確診,肺良性疾病患者均未發(fā)現(xiàn)合并有肺或其他器官腫瘤。流行病學(xué)資料和血標(biāo)本收集均經(jīng)研究對(duì)象知情同意后由專業(yè)調(diào)查員和醫(yī)生收集。
1.2血清腫瘤標(biāo)志檢測(cè)方法所有研究對(duì)象的血清腫瘤標(biāo)志檢測(cè)嚴(yán)格按照多腫瘤標(biāo)志蛋白芯片檢測(cè)試劑盒(湖州數(shù)康生物科技有限公司)說(shuō)明書(shū)步驟,由專職人員進(jìn)行操作。對(duì)待測(cè)樣本的測(cè)試要求在短時(shí)間內(nèi)快速完成,同時(shí)使用盒內(nèi)質(zhì)控品對(duì)檢測(cè)過(guò)程進(jìn)行控制。使用生物芯片閱讀儀讀取結(jié)果。
1.3腫瘤標(biāo)志的篩選將原始數(shù)據(jù)進(jìn)行以10為底的對(duì)數(shù)處理后,以疾病(肺癌=1,肺良性疾病=0)為因變量,以9項(xiàng)標(biāo)志為自變量,采用logistic回歸分析方法,以α=0.10作為入選和剔除標(biāo)準(zhǔn),采用偏最大似然估計(jì)前進(jìn)法進(jìn)行逐步回歸分析。
1.4訓(xùn)練集和預(yù)測(cè)集選擇隨機(jī)選擇樣本中 75%的病例作為訓(xùn)練集(肺癌150例,肺良性疾病150例),將全部樣本作為預(yù)測(cè)集(肺癌199例,肺良性疾病201例)來(lái)測(cè)試已建立模型的預(yù)測(cè)準(zhǔn)確度。
1.5決策樹(shù)模型的建立對(duì)于輸出變量,定義1為肺癌,0為肺良性疾病。以訓(xùn)練集建模,用預(yù)測(cè)集對(duì)模型進(jìn)行評(píng)價(jià);為了提高精確率,使用推進(jìn)的方法,試驗(yàn)次數(shù)選擇10;設(shè)置預(yù)期噪聲為20以避免噪聲數(shù)據(jù)過(guò)度訓(xùn)練;選擇95%精確度的置信度;使用誤分類損失矩陣設(shè)置。用全部9項(xiàng)生物標(biāo)志和進(jìn)入logistic回歸方程的腫瘤標(biāo)志分別作為輸入變量,建立篩選前后的決策樹(shù)模型。
1.6統(tǒng)計(jì)學(xué)處理采用SPSS 12.0進(jìn)行描述性統(tǒng)計(jì)學(xué)分析。使用SPSS Clementine 12.0建立Fisher判別分析與決策樹(shù)模型,用MedCalc V12.4.0 軟件繪制ROC曲線并比較2種模型的曲線下面積(AUC),用篩檢試驗(yàn)的評(píng)價(jià)指標(biāo)和ROC曲線比較篩選前后2種模型的預(yù)測(cè)效果。
2.1研究對(duì)象的一般情況參加研究的肺癌和肺良性疾病患者的年齡、性別、吸煙情況差異均有統(tǒng)計(jì)學(xué)意義,見(jiàn)表1。
表1 2組研究對(duì)象的一般特征
2.2血清腫瘤標(biāo)志檢測(cè)結(jié)果對(duì)9種腫瘤標(biāo)志進(jìn)行秩和檢驗(yàn)中的單樣本K-S檢驗(yàn)發(fā)現(xiàn)所有指標(biāo)均不服從正態(tài)分布,因此用中位數(shù)(M)和上、下四分位數(shù)(P25、P75)表示。肺癌組血清中9項(xiàng)腫瘤標(biāo)志水平均高于肺良性疾病組。見(jiàn)表2。
2.3腫瘤標(biāo)志的篩選結(jié)果經(jīng)單因素logistic回歸分析,9項(xiàng)腫瘤標(biāo)志均與肺癌有關(guān)。多因素logistic回歸分析后,NSE、CEA、Ferritin、AFP、CA125、CA153進(jìn)入回歸方程,而CA199、CA242、HGH未進(jìn)入回歸方程。見(jiàn)表3。
2.4肺癌-肺良性疾病的決策樹(shù)和Fisher判別分析模型的構(gòu)建利用logistic回歸分析篩選前后的血清腫瘤標(biāo)志群分別建立決策樹(shù)模型和Fisher判別分析模型,訓(xùn)練集和預(yù)測(cè)集的分類結(jié)果見(jiàn)表4,可以看出篩選前后決策樹(shù)模型的準(zhǔn)確率均高于Fisher判別分析模型。
表2 9項(xiàng)血清腫瘤標(biāo)志的檢測(cè)結(jié)果
表3 腫瘤生物標(biāo)志的多因素logistic回歸分析
表4 各模型對(duì)訓(xùn)練集和預(yù)測(cè)集的分類結(jié)果
2.5篩選前后2種模型預(yù)測(cè)效果的比較結(jié)果見(jiàn)表5。篩選前和篩選后決策樹(shù)模型ROC曲線的AUC均高于Fisher判別分析(Z=4.462和4.575,P均<0.01);但決策樹(shù)模型和Fisher判別分析篩選前后自身相比,差異均無(wú)統(tǒng)計(jì)學(xué)意義(Z=1.914和1.074,P>0.05)。
表5 篩選前后2種模型對(duì)預(yù)測(cè)集的診斷結(jié)果
腫瘤標(biāo)志蛋白芯片檢測(cè)系統(tǒng)可以全面定量地比較肺癌患者和正常對(duì)照者血清中的蛋白質(zhì)種類和數(shù)量變化[5],對(duì)臨床腫瘤的輔助診斷或無(wú)明顯癥狀的門(mén)診患者的篩查,特別是對(duì)高危人群的篩檢有一定意義。有研究[6-8]表明,肺癌患者血清腫瘤標(biāo)志CYFRA21-1、NSE、CEA、CA153、CA125水平均明顯高于正常人;而且將幾項(xiàng)腫瘤標(biāo)志進(jìn)行聯(lián)合檢測(cè)可以提高肺癌檢出的靈敏度和特異度。
該研究對(duì)Ferritin、AFP、CEA、NSE、CA199、CA242、CA125、CA153和HGH共9項(xiàng)腫瘤標(biāo)志進(jìn)行檢測(cè),發(fā)現(xiàn)肺癌組以上指標(biāo)血清水平均高于肺良性疾病組??紤]到實(shí)驗(yàn)因素及樣本量可能造成影響,進(jìn)行多因素logistic回歸分析時(shí)放寬入選和剔除標(biāo)準(zhǔn),取α=0.10;結(jié)果中CA125對(duì)應(yīng)的P值為0.054,考慮到其對(duì)后續(xù)模型的貢獻(xiàn),故選擇其進(jìn)入模型。而CA199、CA242、HGH未進(jìn)入方程,說(shuō)明與其他6項(xiàng)腫瘤標(biāo)志相比,它們與肺癌的關(guān)系不十分顯著。這可能與CA199、CA242、HGH在肺癌患者血清陽(yáng)性率較低和特異性差有關(guān)[9-10]。
決策樹(shù)是一種比較有效的機(jī)器學(xué)習(xí)分類算法,在醫(yī)學(xué)上的應(yīng)用是通過(guò)數(shù)據(jù)學(xué)習(xí),用倒置的樹(shù)展現(xiàn)參數(shù)所受到各變量的影響,并且對(duì)數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)其規(guī)律,建立人工智能最優(yōu)的分類診斷模型,從而達(dá)到減少臨床醫(yī)生主觀診斷的目的[11-12]。決策樹(shù)是一種非參數(shù)方法,對(duì)原始數(shù)據(jù)類型的要求較低,其模型的分類結(jié)果靈敏度、特異度較高,對(duì)于臨床診斷的實(shí)用性更高。C5.0算法是通過(guò)分散的數(shù)據(jù)集來(lái)構(gòu)建決策樹(shù),數(shù)據(jù)集中的值使增益率最大化,在執(zhí)行效率和內(nèi)存使用方面上進(jìn)行了改進(jìn)[13]。而Fisher判別分析是基于投影,根據(jù)類間方差最大、類內(nèi)方差最小的原則確定判別函數(shù)[14]。Fisher判別分析作為傳統(tǒng)的統(tǒng)計(jì)分析方法仍有重要意義。該研究經(jīng)logistic回歸分析篩選出NSE、CEA、Ferritin、AFP、CA125及CA153共6項(xiàng)腫瘤標(biāo)志,在此基礎(chǔ)上建立決策樹(shù)模型,其靈敏度、特異度、準(zhǔn)確度分別為91.0%、92.0%、91.5%,各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于基于該腫瘤標(biāo)志群的Fisher判別分析。篩選后的決策樹(shù)模型ROC曲線的AUC為0.915,說(shuō)明該模型能夠較好地應(yīng)用于肺癌的輔助診斷;且該模型AUC與篩選前基于9項(xiàng)血清腫瘤標(biāo)志的決策樹(shù)模型相比,差異無(wú)統(tǒng)計(jì)學(xué)意義。
總之,優(yōu)選的基于6項(xiàng)腫瘤標(biāo)志建立的決策樹(shù)模型能夠有效診斷肺癌。
[1]Siegel R,Ward E,Brawley O,et al.Cancer statistics, 2011: the impact of eliminating socioeconomic and racial disparities on premature cancer deaths[J].CA Cancer J Clin,2011,61(4):212
[2]田滿福,韓波.檢測(cè)CA199、CA125、CA153及CEA在腫瘤診斷中的意義[J].臨床和實(shí)驗(yàn)醫(yī)學(xué)雜志,2010,9(7):483
[3]Flores-Fernández JM,Herrera-López EJ,Sánchez-Llamas F,et al.Development of an optimized multi-biomarker panel for the detection of lung cancer based on principal component analysis and artificial neural network modeling[J].Expert Syst Appl,2012,39(12):10851
[4]馮斐斐,吳擁軍,聶廣金,等.基于“優(yōu)化腫瘤標(biāo)志群”建立的人工神經(jīng)網(wǎng)絡(luò)模型對(duì)肺癌輔助診斷的作用[J].腫瘤防治研究,2011,38(6):709
[5]周建光,楊梅.多腫瘤標(biāo)志物蛋白芯片檢測(cè)在腫瘤診斷中的臨床應(yīng)用及研究進(jìn)展[J].中國(guó)醫(yī)學(xué)檢驗(yàn)雜志,2010,11(3):165
[6]毛正道,韋國(guó)楨,殷小偉.探討腫瘤標(biāo)記物CY211、NSE、CEA及CA125在肺癌診斷中的意義[J].實(shí)用臨床醫(yī)藥雜志,2010,14(2):18
[7]曾聰,全國(guó)莉,王春蓮.聯(lián)合檢測(cè)6種血清腫瘤標(biāo)志物在肺癌診斷中的意義[J].廣東醫(yī)學(xué),2012,33(6):808
[8]Chiu JS,Wang YF,Su YC,et al.Artificial neural network to predict skeletal metastasis in patients with prostate cancer[J].J Med Syst,2009,33(2):91
[9]王峰.血清腫瘤標(biāo)志物CA125、CA199、CEA、NSE聯(lián)合檢測(cè)在肺癌診斷中的應(yīng)用[J].中國(guó)臨床實(shí)用醫(yī)學(xué),2010,4(6):17
[10]梁茱,王海楓,吳愛(ài)祝,等.多腫瘤標(biāo)志物蛋白芯片檢測(cè)系統(tǒng)在肺癌診斷中的臨床意義[J].南方醫(yī)科大學(xué)學(xué)報(bào),2010,30(11):2516
[11]Kim J,Hwang M,Jeong DH,et al.Technology trends analysis and forecasting application based on decision tree and statistical feature analysis[J].Expert Syst Appl,2012,39 (16):12618
[12]薛薇,陳歡歌.Clementine數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社,2010.
[13]劉強(qiáng).基于信息增益的完全決策樹(shù)算法研究[D].武漢:華中科技大學(xué),2011.
[14]趙敏,鄭崇勛,趙春臨,等.利用Fisher判別式和事件相關(guān)電位的心理意識(shí)真實(shí)性識(shí)別[J].西安交通大學(xué)學(xué)報(bào),2010,44(8):132
(2013-04-28 收稿 責(zé)任編輯 徐春燕)
Application of decision tree combined with filtered biomarkers in the diagnosis of lung cancer
HEQidong1),WEIXiaoling1),ZHANGHongqiao2),WANGWei3),WUYongjun1)
1)DepartmentofToxicology,CollegeofPublicHealth,ZhengzhouUniversity,Zhengzhou450001 2)DepartmentofOncology,theFifthAffiliatedHospital,ZhengzhouUniversity,Zhengzhou450052 3)DepartmentofOccupationalHealth,CollegeofPublicHealth,ZhengzhouUniversity,Zhengzhou450001
decision tree;tumor marker;lung neoplasm;auxiliary diagnosis
Aim: To establish decision tree model based on filtered biomarkers to achieve rapid diagnosis of lung cancer. Methods: The serum levels of 9 tumor markers (CEA,CA199,NSE,CA242,Ferritin,CA125,AFP,HGH and CA153) in 199 patients with lung cancer and 201 patients with benign pulmonary lesion were measured by multiple tumor marker protein biochip, and the models of C5.0 and Fisher discrimination analysis were developed based on the tumor markers before and after being filtered by logistic regression. Results: The serum levels of the 9 tumor markers in patients with lung cancer were significantly higher than those in patients with benign pulmonary lesion(P<0.05). The accuracies of Fisher discrimination analysis and C5.0 models based on 9 tumor markers and 6 tumor markers filtered by logistic regression were 86.0%,92.5%,84.5% and 91.5%, respectively. The area under receiver operating curve(AUC) of C5.0 model was higher than that of Fisher discrimination analysis in both of 9 tumor markers model and 6 tumor markers model(Z=4.462 and 4.575,P<0.01). However, there was no significant difference inAUCbetween before and after screening in both models(Z=1.914 and 1.074,P>0.05). Conclusion: The effect of the model of C5.0 is better than Fisher discrimination analysis in diagnosis of lung cancer especially based on the tumor markers screened by logistic regression.
*國(guó)家自然科學(xué)基金資助項(xiàng)目 30972457;河南省重大科技攻關(guān)項(xiàng)目 112102310102;河南省醫(yī)學(xué)科技攻關(guān)項(xiàng)目 2011020082
R734.2
10.3969/j.issn.1671-6825.2014.01.011