李尊稅,魏小玲,何其棟,張紅巧,吳擁軍#
1)鄭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生毒理學(xué)教研室 鄭州 450001 2)濟(jì)南市兒童醫(yī)院感染科 濟(jì)南 250022 3)鄭州大學(xué)第五附屬醫(yī)院腫瘤科 鄭州 450052
基于腫瘤標(biāo)志群的人工神經(jīng)網(wǎng)絡(luò)模型對肺癌輔助診斷的價(jià)值*
李尊稅1),魏小玲2),何其棟1),張紅巧3),吳擁軍1)#
1)鄭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生毒理學(xué)教研室 鄭州 450001 2)濟(jì)南市兒童醫(yī)院感染科 濟(jì)南 250022 3)鄭州大學(xué)第五附屬醫(yī)院腫瘤科 鄭州 450052
#通訊作者,男,1968年1月生,博士,教授,研究方向:生物化學(xué)與分子毒理學(xué),E-mail:wuyongjun@zzu.edu.cn
肺癌;腫瘤標(biāo)志;人工神經(jīng)網(wǎng)絡(luò);Fisher 判別分析;輔助診斷
目的:應(yīng)用人工神經(jīng)網(wǎng)絡(luò)(ANN)技術(shù)聯(lián)合腫瘤標(biāo)志蛋白芯片建立人工智能輔助診斷模型,探討其對肺癌診斷的價(jià)值。方法采用蛋白芯片(化學(xué)發(fā)光法)測定201例肺良性疾病患者、202例肺癌患者血清中9項(xiàng)血清腫瘤標(biāo)志(CA199、Ferritin、AFP、CA153、CEA、NSE、CA242、CA125、HGH)的水平,logistic回歸篩選,建立ANN和Fisher判別分析肺癌診斷模型。結(jié)果4項(xiàng)腫瘤標(biāo)志(CEA、NSE、Ferritin、CA153)建立的ANN模型的ROC曲線下面積(0.850)高于4項(xiàng)Fisher、6項(xiàng)(CEA、NSE、Ferritin、CA153、AFP、CA125)Fisher和6項(xiàng)ANN的ROC曲線下面積(0.793、0.767和0.825)。結(jié)論基于4種腫瘤標(biāo)志的ANN模型判別診斷肺癌的效果優(yōu)于Fisher判別分析,優(yōu)于6種腫瘤標(biāo)志建立的ANN模型;ANN模型診斷效果優(yōu)于Fisher判別分析。
肺癌嚴(yán)重威脅著人類健康,病死率較高,臨床上迫切需要開發(fā)新的生物標(biāo)志對肺癌進(jìn)行診斷[1-2]。以往的數(shù)據(jù)處理方式對臨床數(shù)據(jù)要求過高,而實(shí)際臨床數(shù)據(jù)往往達(dá)不到要求。數(shù)據(jù)挖掘技術(shù)對臨床數(shù)據(jù)要求并不十分嚴(yán)格,且該技術(shù)應(yīng)用于肺癌判別診斷可以提高肺癌的檢出率[3]。當(dāng)使用多種腫瘤標(biāo)志聯(lián)合檢測時(shí),一些腫瘤標(biāo)志假陽性率低,不僅不利于檢測,而且還會帶來大量的參數(shù),增加診斷的成本。該研究應(yīng)用蛋白芯片檢測系統(tǒng)測定肺癌和肺良性疾病患者血清中CA242、CEA、CA125、CA199、NSE、Ferritin、AFP、HGH和CA153等9項(xiàng)腫瘤標(biāo)志的血清水平[4],對原始數(shù)據(jù)進(jìn)行對數(shù)處理,并對處理前后的數(shù)據(jù)利用logistic回歸加以篩選,分別建立人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)模型和判別分析模型,探討ANN診斷模型對肺癌輔助診斷的意義。
1.1研究對象選擇2010年6月至2011年12月鄭州大學(xué)第五附屬醫(yī)院呼吸內(nèi)科及腫瘤科收治的有腫瘤標(biāo)志蛋白芯片檢測記錄的肺癌和肺良性疾病患者403例,其中肺癌患者202例,肺良性疾病患者201例。所有肺癌患者均得到病理學(xué)或細(xì)胞學(xué)確診,肺良性疾病患者均未合并肺或其他器官腫瘤。血清標(biāo)本和流行病學(xué)資料的收集均經(jīng)研究對象知情同意后由專業(yè)調(diào)查員和醫(yī)生收集。一般資料包括性別、年齡、吸煙等,其中吸煙的定義為1支/d且吸煙1 a以上[3]。
1.2血清腫瘤標(biāo)志檢測方法和主要試劑多腫瘤標(biāo)志蛋白芯片檢測(化學(xué)發(fā)光法)試劑盒由浙江湖州數(shù)康生物科技有限公司提供。檢測工具為HD2001-A生物芯片閱讀器。由專職人員嚴(yán)格按照試劑盒說明書進(jìn)行操作。
1.3正常參考值范圍以試劑盒提供的參考值作為陽性閾值:即CEA>5 μg/L,CA199>35 kU/L,NSE>13 μg/L,CA242>20 kU/L,CA153>35 kU/L,CA125>35 kU/L,AFP>20 μg/L,F(xiàn)erritin男>322 μg/L、女>219 μg/L,HGH>7.5 μg/L為陽性。
1.4ANN模型的建立對9項(xiàng)腫瘤標(biāo)志的血清水平和人口學(xué)特征先進(jìn)行Kruskal-Wallis檢驗(yàn),再采用logistic逐步回歸進(jìn)行分析,以α=0.05作為變量進(jìn)入標(biāo)準(zhǔn),α=0.10作為變量剔除標(biāo)準(zhǔn),進(jìn)入變量作為輸入變量,輸出變量定義1為肺癌、0為肺良性疾病。隨機(jī)選擇樣本中75%病例作為訓(xùn)練集(肺癌150例,肺良性疾病150例),將部分樣本作為預(yù)測集(肺癌199例,肺良性疾病201例)來測試已建立模型的預(yù)測準(zhǔn)確度。
1.5統(tǒng)計(jì)學(xué)處理采用SPSS 12.0進(jìn)行統(tǒng)計(jì)學(xué)分析。采用SPSS 12.0建立判別分析、ANN模型,MedCalc V12.4.0繪制ROC曲線并比較4種模型的ROC曲線下面積(AUC);2組患者年齡、性別構(gòu)成、吸煙情況的比較采用t檢驗(yàn)或χ2檢驗(yàn),9種血清腫瘤標(biāo)志水平的比較采用秩和檢驗(yàn)。檢驗(yàn)水準(zhǔn)α=0.05。
2.1研究對象的一般情況見表1。2組年齡、性別構(gòu)成、吸煙情況比較,差異均有統(tǒng)計(jì)學(xué)意義。
表1 2組研究對象的一般特征
2.2血清腫瘤標(biāo)志檢測結(jié)果肺癌組9種腫瘤標(biāo)志水平均高于肺良性疾病組,見表2。
表2 2組9種血清腫瘤標(biāo)志檢測結(jié)果
表中數(shù)據(jù)為M(P25~P75)。
2.3Logistic回歸分析結(jié)果
2.3.1 4項(xiàng)腫瘤標(biāo)志的篩選 吸煙狀況賦值,0=不吸煙,1=吸煙;9種腫瘤標(biāo)志以血清水平進(jìn)行賦值。篩選結(jié)果見表3。
表3 4項(xiàng)腫瘤標(biāo)志的logistic回歸分析結(jié)果
2.3.2 6項(xiàng)腫瘤標(biāo)志的篩選 對9種腫瘤標(biāo)志的血清水平進(jìn)行對數(shù)處理后,再利用logistic逐步回歸進(jìn)行分析,篩選出的6種生物標(biāo)志分別是CEA、NSE、CA153、Ferritin、AFP、CA125,見表4。
表4 6項(xiàng)腫瘤標(biāo)志的logistic回歸分析結(jié)果
2.4肺癌-肺良性疾病的ANN和Fisher判別分析模型構(gòu)建運(yùn)用4項(xiàng)腫瘤標(biāo)志群和6項(xiàng)腫瘤標(biāo)志群建立ANN模型和Fisher判別分析模型預(yù)測集的分類結(jié)果見表5。
表5 各模型預(yù)測集的分類結(jié)果 例
2.5 4種模型的預(yù)測結(jié)果見圖1和表6。
圖1 4種模型對預(yù)測集分類的ROC曲線
1:4項(xiàng)ANN;2:6項(xiàng)ANN;3:4項(xiàng)Fisher分析;4:6項(xiàng)Fisher分析。
表6 4種模型對預(yù)測集的診斷結(jié)果
腫瘤標(biāo)志蛋白芯片檢測系統(tǒng)可以全面定量地檢測肺癌患者和正常對照者血清中的蛋白質(zhì)種類和數(shù)量變化[5],對于無明顯癥狀的門診患者的篩查或臨床腫瘤的輔助診斷,特別是對高危人群的篩查有一定意義[6]。已有研究[7-8]證實(shí),肺癌患者血清腫瘤標(biāo)志Ferritin、CA153、CEA、NSE水平均明顯高于肺良性疾病患者,將幾種指標(biāo)進(jìn)行聯(lián)合檢測可以提高肺癌檢出的特異度和靈敏度。
該研究對CA199、Ferritin、AFP、CA153、CEA、NSE、CA242、CA125、HGH等9項(xiàng)腫瘤標(biāo)志的血清水平進(jìn)行檢測,并聯(lián)合年齡和吸煙情況進(jìn)行分析,發(fā)現(xiàn)肺癌組均高于肺良性疾病組,差異有統(tǒng)計(jì)學(xué)意義。Logistic回歸分析時(shí),CA199、AFP、CA242、CA125和HGH未進(jìn)入方程,說明與其他4項(xiàng)腫瘤標(biāo)志相比,它們對肺癌影響較小。這可能與CA199、AFP、CA242、CA125和HGH在肺癌患者血清陽性率較低和特異性差有關(guān)[9-10]。
ANN最早是在醫(yī)學(xué)領(lǐng)域中輔助臨床進(jìn)行疾病診斷,實(shí)現(xiàn)對疾病客觀的檢測和分類,達(dá)到提高疾病監(jiān)測和鑒別診斷有效率的目的[11]。在數(shù)據(jù)處理上ANN并不要求原始數(shù)據(jù)必須符合正態(tài)分布,這點(diǎn)優(yōu)于傳統(tǒng)方法;其次ANN具有良好的容錯(cuò)性,提高了樣本利用率[12-13];在傳統(tǒng)統(tǒng)計(jì)學(xué)中,聯(lián)合檢測的標(biāo)志越多,陽性率和假陽性率同時(shí)升高,而ANN可以在提高陽性率的同時(shí)提高特異性[14]。該研究在logistic回歸分析篩選出NSE、CEA、Ferritin、CA153等4種腫瘤標(biāo)志的基礎(chǔ)上聯(lián)合年齡、吸煙情況建立診斷模型,篩選后的腫瘤標(biāo)志群建立的ANN 診斷模型的AUC為0.850,優(yōu)于4項(xiàng)的Fisher判別分析、6項(xiàng)的ANN和判別分析,說明該模型聯(lián)合腫瘤標(biāo)志檢測能夠較好地應(yīng)用于肺癌的輔助診斷??傊?,該研究優(yōu)化了診斷指標(biāo),有利于醫(yī)生的判斷,可降低診療成本,對于開發(fā)新的肺癌特異性的檢測試劑盒有一定的參考價(jià)值。
[1]Zhang Y,Yang D,Weng L,et al.Early lung cancer diagnosis by biosensors[J].Int J Mol Sci,2013,14(8):15479
[2]Brothers JF,Hijazi K,Mascaux C,et al.Bridging the clinical gaps:genetic,epigenetic and transcriptomic biomarkers for the early detection of lung cancer in the post-National Lung Screening Trial era[J].BMC Med,2013,11:168
[3]馮斐斐,吳擁軍,聶廣金,等.基于“優(yōu)化腫瘤標(biāo)志群”建立的人工神經(jīng)網(wǎng)絡(luò)模型對肺癌輔助診斷的作用[J].腫瘤防治研究,2011,38(6):709
[4]譚善娟,余春華,王威,等.基于人工神經(jīng)網(wǎng)絡(luò)的腫瘤標(biāo)志蛋白芯片在肺癌輔助診斷中的應(yīng)用[J].鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2012,47(6):762
[5]周建光,楊梅.多腫瘤標(biāo)志物蛋白芯片檢測在腫瘤診斷中的臨床應(yīng)用及研究進(jìn)展[J].中國醫(yī)學(xué)檢驗(yàn)雜志,2010,11(3):165
[6]謝梅,李艷,陳高.多種腫瘤標(biāo)志物蛋白芯片檢測系統(tǒng)(C-12)對老年肺癌轉(zhuǎn)移診斷的臨床價(jià)值研究[J].現(xiàn)代腫瘤醫(yī)學(xué),2012,20(6):1189
[7]李海燕,劉紅,王靜,等.腫瘤標(biāo)志物聯(lián)合檢測在肺癌診斷中的價(jià)值[J].中國老年學(xué)雜志,2012,32(1):46
[8]曾聰,全國莉,王春蓮.聯(lián)合檢測6種血清腫瘤標(biāo)志物在肺癌診斷中的意義[J].廣東醫(yī)學(xué),2012,33(6):808
[9]王峰.血清腫瘤標(biāo)志物CA125、CA199、CEA、NSE聯(lián)合檢測在肺癌診斷中的應(yīng)用[J].中國臨床實(shí)用醫(yī)學(xué),2010,4(6):17
[10]梁茱,王海楓,吳愛祝,等.多腫瘤標(biāo)志物蛋白芯片檢測系統(tǒng)在肺癌診斷中的臨床意義[J].南方醫(yī)科大學(xué)學(xué)報(bào),2010,30(11):2516
[11]Vallejo M,Isaza CV,Lopez JD.Artificial Neural Networks as an alternative to traditional fall detection methods[J].Conf Proc IEEE Eng Med Biol Soc,2013,2013:1648
[12]陳杰,周勤.人工神經(jīng)網(wǎng)絡(luò)在疾病預(yù)后研究中的應(yīng)用進(jìn)展[J].中國胸心血管外科臨床雜志,2013,20(1):95
[13]白雪峰,王平瑜,吳擁軍.基于兩種判別模式的腫瘤標(biāo)志物聯(lián)合檢測對肝癌輔助診斷的價(jià)值[J].解放軍醫(yī)學(xué)雜志,2012,37(11):1019
[14]張紅巧.基于數(shù)據(jù)挖掘技術(shù)的腫瘤標(biāo)志蛋白芯片在肺癌輔助診斷中的應(yīng)用[D].鄭州:鄭州大學(xué),2012.
(2013-11-07收稿 責(zé)任編輯姜春霞)
Value of artificial neural network combined with optimal biomarkers in diagnosis of lung cancer
LIZunshui1),WEIXiaoling2),HEQidong1),ZHANGHongqiao3),WUYongjun1)
1)DepartmentofToxicology,CollegeofPublicHealth,ZhengzhouUniversity,Zhengzhou450001 2)DepartmentofInfectiousDisease,JinanChildren’sHospital,Jinan250022 3)DepartmentofOncology,theFifthAffiliatedHospital,ZhengzhouUniversity,Zhengzhou450052
lung cancer;tumor marker;artificial neural network;Fisher discriminant analysis;auxiliary diagnosis
Aim:To establish the model by artificial neural network(ANN) technology combined with tumor marker protein chip for the diagnosis of lung cancer,and to explore the diagnosis value of artificial intelligence model.Methods:Protein chips based on chemiluminescence were used to measure the levels of nine serum tumor markers (CA199,F(xiàn)erritin,AFP,CA153,CEA,NSE,CA242,CA125,HGH) in 201 cases of benign lung diseases and 203 cases of lung cancer.Multivariate logistic regression was employed to optimize the tumor marker group.ANN and Fisher discriminant analysis was used to develop the two diagnostic model of lung cancer.Results:Based on the optimal four tumor markers(CEA,NSE,Ferritin,CA153),area under the ROC curve of ANN model (0.850) was higher than those of the Fisher discriminant analysis based on the optimal four and six tumor markers (CEA,NSE,Ferritin,CA153,AFP,CA125) as well as ANN model based on the optimal six tumor markers(0.793,0.767 and 0.825).Conclusion:Based on the four kinds of tumor markers in the diagnosis of lung cancer,ANN model is better than Fisher discriminant analysis.ANN model established by six tumor markers is superior to Fisher discriminant analysis.
10.13705/j.issn.1671-6825.2014.05.017
*國家自然科學(xué)基金資助項(xiàng)目 30972457,81001239;河南省重大科技攻關(guān)項(xiàng)目 112102310102;河南省醫(yī)學(xué)科技攻關(guān)計(jì)劃項(xiàng)目 2011020082
R734.2