宋敏,王開正,杭永倫,李光榮,田剛,劉靳波
基于人工神經(jīng)網(wǎng)絡(luò)的前列腺癌診斷模型對(duì)前列腺癌的診斷價(jià)值研究
宋敏,王開正,杭永倫,李光榮,田剛,劉靳波
目的結(jié)合前列腺腫瘤標(biāo)志物檢驗(yàn)組套和患者臨床信息進(jìn)行數(shù)據(jù)挖掘,建立基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的前列腺癌診斷模型,為前列腺癌的臨床診斷和治療提供客觀的參考信息。方法通過實(shí)驗(yàn)信息系統(tǒng)與醫(yī)院信息管理系統(tǒng)的數(shù)據(jù)信息平臺(tái)檢索并統(tǒng)計(jì)2010年1月—2011年7月我院前列腺腫瘤標(biāo)志物檢驗(yàn)組套病例365例,其中前列腺癌組60例,非前列腺癌組305例。采用受試者工作特征(ROC)曲線下面積法篩選出有價(jià)值的指標(biāo),用244例樣本(前列腺癌組40例,非前列腺癌組204例)建立ANN模型,并用121例樣本(前列腺癌組20例,非前列腺癌組101例)盲法測(cè)試和評(píng)估此模型。結(jié)果納入分析的指標(biāo)有年齡、甲胎蛋白(AFP)、癌胚抗原(CEA)、總前列腺特異抗原(tPSA)和結(jié)合前列腺特異抗原(cPSA),各指標(biāo)的曲線下面積分別為0.623、0.517、0.499、0.907和0.913,其中年齡、tPSA和cPSA與前列腺癌的發(fā)病有相關(guān)性(P<0.05);經(jīng)方差分析前列腺癌組的年齡、tPSA和cPSA與非前列腺癌組比較,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05)。建立的模型對(duì)訓(xùn)練樣本預(yù)測(cè)的特異度為93.63%,敏感度為82.50%;此模型對(duì)121例測(cè)試樣本預(yù)測(cè)的特異度為93.07%,敏感度為80.00%。結(jié)論數(shù)據(jù)挖掘技術(shù)能夠提煉出高效的診治信息,基于ANN的前列腺癌診斷模型對(duì)前列腺癌的早期診斷具有一定價(jià)值。
前列腺腫瘤;腫瘤標(biāo)記,生物學(xué);神經(jīng)網(wǎng)絡(luò)(計(jì)算機(jī));ROC曲線;診斷
前列腺癌是男性生殖系統(tǒng)最常見的惡性腫瘤。我國(guó)前列腺癌的發(fā)病率雖然低于西方國(guó)家,但隨著我國(guó)人口老齡化及生活方式的改變,近年來發(fā)病率呈顯著增長(zhǎng)趨勢(shì)。早期診斷、早期治療是提高前列腺癌患者生存率和降低病死率的關(guān)鍵,因此提高前列腺癌早期診斷有著重要意義。隨著醫(yī)療技術(shù)的發(fā)展,越來越多的實(shí)驗(yàn)室檢查、臨床檢查、醫(yī)學(xué)影像和病理活檢技術(shù)用于前列腺癌的診斷。為了突破基于單一指標(biāo)的診斷模式的局限性和臨床醫(yī)生診斷的局限性,本研究聯(lián)合檢測(cè)前列腺癌的多種相關(guān)指標(biāo),建立基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的前列腺癌診斷模型,將有限的檢驗(yàn)數(shù)據(jù)提煉為高效的診治信息,試圖從技術(shù)層面上更好地協(xié)同臨床醫(yī)生對(duì)前列腺癌進(jìn)行診斷和治療。
1.1 一般資料檢索并統(tǒng)計(jì)2010年1月—2011年7月我院檢驗(yàn)科信息管理系統(tǒng)中前列腺腫瘤標(biāo)志物檢驗(yàn)組套病例共558例,年齡29~87歲,平均61.3歲。入選標(biāo)準(zhǔn):(1)臨床診斷明確;(2)甲胎蛋白(AFP)、癌胚抗原(CEA)、總前列腺特異抗原(tPSA)和結(jié)合前列腺特異抗原(cPSA)4項(xiàng)腫瘤標(biāo)志物檢查齊全;(3)為首次治療(包括手術(shù)切除、化療、放療及對(duì)癥治療等)前的檢驗(yàn)結(jié)果。最終納入研究的共365例。根據(jù)臨床病理學(xué)分為兩組,前列腺癌組60例,非前列腺癌組305例。
1.2 標(biāo)本采集所有患者在首次治療前采集清晨空腹外周靜脈血3 ml,離心后取血清并立即上機(jī)檢測(cè)。
1.3 儀器與方法AFP、CEA、tPSA和cPSA均采用Siemens ADVIA Centaur XP全自動(dòng)免疫分析系統(tǒng)及其配套試劑進(jìn)行檢測(cè),并嚴(yán)格按照說明書操作。
1.4 統(tǒng)計(jì)學(xué)方法從實(shí)驗(yàn)信息系統(tǒng)(LIS)智能統(tǒng)計(jì)模塊中,將所需信息以Microsoft Excel形式導(dǎo)出,用SPSS 17.0對(duì)納入統(tǒng)計(jì)的365例患者的分組信息、年齡和4項(xiàng)腫瘤標(biāo)志物進(jìn)行受試者工作特征(ROC)曲線分析,并以曲線下面積(AUC)的大小排列5個(gè)指標(biāo),以此來評(píng)價(jià)各個(gè)指標(biāo)與前列腺癌的相關(guān)性。偏態(tài)分布資料以中位數(shù)(M)及四分位間距(QR)表示,采用Wilcoxon秩和檢驗(yàn),以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.5 ANN模型的建立將AUC具有統(tǒng)計(jì)學(xué)意義的指標(biāo)作為ANN BP插件NNX 2.0的輸入節(jié)點(diǎn),分組數(shù)值“1”和“0”作為輸出賦值。用244例樣本(前列腺癌組40例,非前列腺癌組204例)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),建立ANN模型,并用121例樣本(前列腺癌組20例,非前列腺癌組101例)盲法測(cè)試評(píng)估模型。
2.1 ROC曲線分析各指標(biāo)與前列腺癌的相關(guān)性納入分析的指標(biāo)有年齡、AFP、CEA、tPSA和cPSA,各指標(biāo)的AUC分別為0.623、0.517、0.499、0.907和0.913,其中年齡、tPSA和cPSA與前列腺癌的發(fā)病有相關(guān)性(P值分別為0.016,0.000和0.000,見圖1)。前列腺癌組的年齡、tPSA和cPSA與非前列腺癌組比較,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05,見表1),入選模型。
圖1 各研究指標(biāo)的ROC曲線Figure 1 ROC curve of various research indicators
表1 前列腺癌組與非前列腺癌組各指標(biāo)比較〔M(QR)〕Table 1 Comparison of each index between prostate cancer group and non-prostate cancer group
2.2 前列腺癌的ANN模型根據(jù)ROC曲線和Wilcoxon秩和檢驗(yàn),將具有統(tǒng)計(jì)學(xué)意義的指標(biāo):年齡、tPSA、cPSA作為ANN模型的輸入節(jié)點(diǎn)。建模參數(shù):輸入層含3個(gè)神經(jīng)元,隱含層1層含4個(gè)神經(jīng)元,輸出層含1個(gè)神經(jīng)元。目標(biāo)輸出值(前列腺癌設(shè)為1,非前列腺癌設(shè)為0)。建立的模型對(duì)訓(xùn)練集預(yù)測(cè)的特異度為93.63%,敏感度為82.50%(見表2);用此模型對(duì)121例測(cè)試樣本進(jìn)行盲法驗(yàn)證,預(yù)測(cè)的特異度為93.07%,敏感度為80.00%(見表3)。
表2 3個(gè)指標(biāo)組合建立的ANN模型預(yù)測(cè)前列腺癌的結(jié)果Table 2.Results of predicting prostatic carcinoma using the neural network model established by the combination of three serum markers
表3 3個(gè)指標(biāo)組合建立的ANN模型預(yù)測(cè)測(cè)試樣本的結(jié)果Table 3.Results of predicting test samples using the neural network model established by the combination of three serum markers to establish the neural network model
數(shù)據(jù)挖掘就是通過對(duì)大量繁雜的數(shù)據(jù)進(jìn)行選擇、探索、建模,提取隱含在其中的、人們事先不知道的、潛在有用的信息和知識(shí)的過程[1]。數(shù)據(jù)挖掘的常用方法有ANN、決策樹方法、貝葉斯分類、K-最臨近分類、支持向量機(jī)等,其精確度在很大程度上取決于挖掘方法與研究目標(biāo)的匹配程度。數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用能有效地將各種類型和各個(gè)時(shí)期的醫(yī)學(xué)信息進(jìn)行深層次地分析研究,不僅能夠提煉出高效的診治信息,而且能夠優(yōu)化醫(yī)院管理,提高工作效率。因此探索數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)信息方面的研究具有重要的實(shí)用價(jià)值和廣闊的發(fā)展前景。本研究正是在數(shù)據(jù)挖掘基本思想的指導(dǎo)下,基于ANN的基本原理進(jìn)行預(yù)測(cè)建模,為前列腺癌的早期診斷提供一種新的思路和方法。
ANN是一種在對(duì)人腦神經(jīng)網(wǎng)絡(luò)基本認(rèn)識(shí)的基礎(chǔ)上,用數(shù)理方法從信息處理的角度對(duì)人腦神經(jīng)網(wǎng)絡(luò)進(jìn)行抽象,并建立某種簡(jiǎn)化模型的智能處理系統(tǒng)。ANN具有很強(qiáng)的自組織性、魯棒性和容錯(cuò)性,在醫(yī)學(xué)數(shù)據(jù)挖掘中得到廣泛應(yīng)用。ANN模型中目前應(yīng)用最廣泛的是誤差反向傳播(BP)神經(jīng)網(wǎng)絡(luò)模型。BP神經(jīng)網(wǎng)絡(luò)模型的基本思想:信號(hào)從輸入層傳入,經(jīng)隱含層逐層處理后,傳向輸出層。若輸出層的實(shí)際輸出與期望的輸出不符,則轉(zhuǎn)入BP階段。BP是將輸出誤差以某種形式通過隱含層逐層反傳,在此過程中逐層調(diào)整層間連接權(quán)值。這種信號(hào)正向傳播和BP周而復(fù)始地進(jìn)行,直到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止[2]。目前,ANN模型在前列腺癌中的應(yīng)用已經(jīng)得到美國(guó)食品藥品管理局(FDA)的認(rèn)可[3]。利用ANN模型診斷前列腺癌可以提高診斷的準(zhǔn)確性,在一定程度上減少不必要的穿刺等損傷。Matsui等[4]運(yùn)用ANN模型預(yù)測(cè)前列腺癌,49%的患者減少了不必要穿刺。Stephan等[5]在綜合多個(gè)參數(shù)的基礎(chǔ)上,使用ANN模型提高了前列腺癌的診斷準(zhǔn)確率,20%~25%的患者可以避免穿刺。本研究綜合了年齡、tPSA、cPSA指標(biāo),建立ANN模型,經(jīng)盲法驗(yàn)證預(yù)測(cè)的特異度為93.07%,敏感度為80.00%。說明基于ANN的前列腺癌診斷模型對(duì)前列腺癌的早期診斷具有一定價(jià)值。
ROC曲線的AUC可以反映某個(gè)診斷試驗(yàn)的價(jià)值大小,也可以比較兩個(gè)診斷試驗(yàn)的價(jià)值高低。AUC的取值范圍為0.5~1.0,AUC≥0.5且<0.7時(shí)診斷價(jià)值較低,0.7~0.9時(shí)診斷價(jià)值中等,>0.9時(shí)診斷價(jià)值較高[6]。因此,可從本研究看出tPSA和cPSA具有較高診斷價(jià)值;年齡具有較低診斷價(jià)值;AFP、ACE無診斷價(jià)值。隨著診療技術(shù)的發(fā)展,越來越多的檢測(cè)指標(biāo)供臨床醫(yī)生參考,但并不是指標(biāo)越多,診斷效果越好;相反,不好的指標(biāo)會(huì)誤導(dǎo)臨床醫(yī)生的診斷,從而降低診斷的準(zhǔn)確性。通過ROC曲線,提煉出與疾病有相關(guān)性的指標(biāo),建立優(yōu)化組合,可減少一些不必要的檢查。ANN模型可以含多個(gè)輸入?yún)?shù),所有臨床上的指標(biāo)可以同時(shí)作為ANN模型的輸入節(jié)點(diǎn),其可以有效地利用這些看似無關(guān)的變量,進(jìn)行訓(xùn)練預(yù)測(cè),從而實(shí)現(xiàn)輔助診斷。在這些ANN模型的輸入變量中,比較常見的有前列腺體積、前列腺特異性抗原(PSA)相關(guān)指標(biāo)、直腸指檢和年齡等。本研究利用ROC曲線AUC從AFP、CEA、tPSA、cPSA和年齡中篩選出年齡、tPSA、cPSA 3項(xiàng)指標(biāo),建立BP神經(jīng)網(wǎng)絡(luò)模型具有可行性。在以后的研究中,可以將醫(yī)學(xué)影像、前列腺分泌物相關(guān)檢測(cè)指標(biāo)等納入ROC曲線篩選,以建立更加優(yōu)化的ANN模型。
完成一個(gè)診斷或治療的過程,也就是信息的獲取、處理和利用的過程??梢哉f,更廣泛地獲取信息,更科學(xué)地分析信息,更合理地利用信息,決定了醫(yī)療質(zhì)量和醫(yī)療水平。在互聯(lián)網(wǎng)、醫(yī)院信息系統(tǒng)(HIS)和實(shí)驗(yàn)信息系統(tǒng)(LIS)基本普及的信息時(shí)代,將臨床信息、檢驗(yàn)信息和患者信息聯(lián)系起來,對(duì)本身具有統(tǒng)計(jì)分布屬性的檢驗(yàn)結(jié)果進(jìn)行數(shù)據(jù)挖掘有重要意義。毫無疑問,基于數(shù)據(jù)挖掘思想的ANN模型在前列腺癌的早期診斷、評(píng)估患者患有前列腺癌的風(fēng)險(xiǎn)、指導(dǎo)穿刺活檢等方面具有廣闊的應(yīng)用前景。
1 Giudici P.Applied Data Mining:Statistical Methods for Business and Industry[M].Hoboken:Wiley Sons,2003:2.
2 韓力群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京:北京郵電大學(xué)出版社,2006:58-59.
3 Reckwitz T,Potter SR,Snow PB,et al.Artificial neural networks in urology:Update 2000[J].Prostate Cancer Prostatic Dis,1999,2(5/6):222-226.
4 Matsui Y,Utsunomiya N,Ichioka K,et al.The use of artificial neural network analysis to improve the predictive accuracy of prostate biopsy in the Japanese population[J].Jpn J Clin Oncol,2004,34(10):602-607.
5 Stephan C,Xu C,F(xiàn)inne P,et al.Comparison of two different artificial neural networks for prostate biopsy indication in two different patient populations[J].Urology,2007,70(3):596-601.
6 李曉松.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].北京:高等教育出版社,2008:236.
Artificial Neural Network-based Diagnostic Model for Prostatic Cancer
SONG Min,WANG Kai-zheng,HANG Yonglun,et al.Department of Laboratory Medicine,the Affiliated Hospital of Luzhou Medical College,Luzhou 646000,China
ObjectiveTo establish diagnostic model for prostatic carcinoma based on artificial neural network(ANN)by combining the serum markers of prostatic carcinoma and clinical information in order to provide references for clinical diagnosis and treatment of prostatic carcinoma.MethodsBased on experiment information system and hospital information system,365 patients whose serum markers of prostatic carcinoma were tested and collected from January 2010 to July 2011 were retrieved and they were divided into prostatic carcinoma group(60 cases)and non-prostatic carcinoma group(305 cases).The indicators were evaluated with the method of area under the ROC curves,and 244 cases(40 cases from prostatic carcinoma group and 204 cases from non-prostatic carcinoma group)were used to built the diagnostic model with artificial neural network and 121 samples(20 samples from prostatic carcinoma group and 101 samples from non-prostatic carcinoma group)were used to assess this model.ResultsAge,AFP,CEA,tPSA and cPSA were involved into the analysis.The areas under the curve of the indicators were 0.623,0.517,0.499,0.907 and 0.913,respectively.The incidence of prostatic carcinoma were related to age,tPSA and cPSA(P<0.05)and the three indicators showed statistically significant differences between prostatic carcinoma group and non-prostatic carcinoma group by analysis of variance(P<0.05).The specificity and sensitivity of this model were 93.63%and 82.50%for the exercise sample and 93.07%and 80.00%for the test sample.ConclusionThe technology of data mining can extract effective information of diagnosis and treatment.The diagnostic model for prostatic carcinoma which was based on artificial neural network may be a valuable clinical tool for early diagnosis of prostatic carcinoma.
Prostatic neoplasms;Tumor markers,biological;Neural networks(computer);ROC curve;Diagnosis
R 737.25
A
1007-9572(2012)12-4061-03
10.3969/j.issn.1007-9572.2012.12.043
四川省衛(wèi)生廳科研課題([2010]493號(hào)100258)
646000四川省瀘州市,瀘州醫(yī)學(xué)院附屬醫(yī)院檢驗(yàn)科
劉靳波,646000四川省瀘州市,瀘州醫(yī)學(xué)院附屬醫(yī)院檢驗(yàn)科;E-mail:liujb7203@163.com
2012-06-03;
2012-11-20)
(本文編輯:張小龍)