高孜博,李迪,段書(shū)音,周曉蕾,劉紅,王靜,王威,吳擁軍
晚期肺癌患者5年生存率僅5%,但若能在早期診斷并治療,5年存活率可達(dá)57%[1-2]。因此,結(jié)合肺癌危險(xiǎn)因素及其臨床特征建立肺癌危險(xiǎn)度預(yù)測(cè)模型對(duì)早期診斷及治療肺癌,提高患者5年生存率具有重要意義。近年來(lái),數(shù)據(jù)挖掘技術(shù)已經(jīng)在生物醫(yī)學(xué)預(yù)測(cè)模型中得到廣泛應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)具有良好的魯棒性、高容錯(cuò)性和較強(qiáng)的歸納能力,而C5.0算法作為決策樹(shù)模型的常用算法之一,適用于分類(lèi)變量和大數(shù)據(jù)集[3]。因此,該研究擬將肺癌常見(jiàn)危險(xiǎn)因素與臨床癥狀相結(jié)合,采用C5.0決策樹(shù)與ANN構(gòu)建肺癌危險(xiǎn)度預(yù)測(cè)模型,并評(píng)價(jià)兩模型的性能優(yōu)劣,為肺癌早期篩查及臨床輔助診斷提供依據(jù)和工具。
收集2014年10月至2016年10月鄭州大學(xué)第一附屬醫(yī)院的住院患者樣本420例,其中包括肺癌患者180例,肺良性疾病患者240例。入組患者均知情同意并自愿參加。
入選標(biāo)準(zhǔn):肺癌組:以《中華醫(yī)學(xué)會(huì)肺癌臨床診療指南(2019版)》為標(biāo)準(zhǔn)[4],經(jīng)病理學(xué)或細(xì)胞學(xué)被證實(shí)為原發(fā)性肺癌患者;肺良性疾病組:由鄭州大學(xué)第一附屬醫(yī)院診斷為肺部良性病變患者。排除標(biāo)準(zhǔn):(1)入組前曾接受放化療、藥物治療或手術(shù)治療者;(2)主要臟器功能衰竭患者;(3)合并肺或其他惡性腫瘤患者;(4)妊娠或哺乳期患者;(5)不同意入組者。
調(diào)查人員經(jīng)過(guò)統(tǒng)一培訓(xùn)后,通過(guò)問(wèn)卷訪(fǎng)談形式對(duì)患者進(jìn)行調(diào)查詢(xún)問(wèn)獲得數(shù)據(jù)資料,包括流行病學(xué)資料(疾病診斷、年齡、吸煙史、飲酒史、粉塵接觸史、輸血史、肺癌家族史、炎性反應(yīng)史)和臨床癥狀(咳嗽、咳痰、痰中帶血、咯血、胸悶、胸痛、心慌、乏力、畏寒、發(fā)熱出汗)。其中年齡根據(jù)《中華醫(yī)學(xué)會(huì)肺癌臨床診療指南(2019版)》以45歲為界限進(jìn)行分組。總數(shù)據(jù)集包括18個(gè)定性變量(17個(gè)預(yù)測(cè)變量和1個(gè)因變量),因變量為診斷結(jié)果,各變量賦值見(jiàn)表1。
表1 肺癌危險(xiǎn)度評(píng)價(jià)研究的變量賦值說(shuō)明Table1 Instructions of variables assignment in risk assessment studies of lung cancer
應(yīng)用SPSS21.0對(duì)420例樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,對(duì)所有變量進(jìn)行描述性統(tǒng)計(jì)分析,采用χ2檢驗(yàn)進(jìn)行差異分析,檢驗(yàn)水準(zhǔn)α=0.05。
使用SPSS Clementine 12.0軟件建立兩種數(shù)據(jù)挖掘預(yù)測(cè)模型,使用MedCalc15.10軟件繪制受試者工作特征(receiver operating characteristic curve,ROC)曲線(xiàn)。將兩組樣本均按照7:3隨機(jī)分為兩部分,其中訓(xùn)練數(shù)據(jù)集包含302例樣本,測(cè)試數(shù)據(jù)集包含118例樣本。C5.0決策樹(shù)模型和ANN模型的比較采用敏感度、特異性、準(zhǔn)確度、陽(yáng)性預(yù)測(cè)值(positive predictive values,PPV)、陰性預(yù)測(cè)值(positive and negative predictive values,NPV)、約登指數(shù)和ROC曲線(xiàn)下面積(area under ROC curve,AUC)進(jìn)行評(píng)估。
420例患者中,肺癌患者180例(42.9%),肺良性疾病患者240例(57.1%)。肺良性疾病患者中小于45歲者(63.8%)明顯多于肺癌組(36.2%),差異有統(tǒng)計(jì)學(xué)意義(P=0.004)。肺癌患者中吸煙、飲酒者(57.1%、55.7%)均多于肺良性疾病患者(42.9%、44.3%)。肺癌組有粉塵接觸史或肺癌家族史者分別僅2例。肺良性疾病組中有6例有輸血史,而肺癌組中沒(méi)有。10個(gè)臨床癥狀變量中,肺癌組中痰中帶血(64.0%)及胸痛(55.3%)的比例高于肺良性疾病患者(36.0%、44.7%)。兩組樣本的基線(xiàn)特征分析結(jié)果見(jiàn)表2。
兩組間年齡(P=0.004)、吸煙史(P<0.001)、飲酒史(P=0.028)、輸血史(P=0.033)、炎癥史(P<0.001)、痰中帶血(P=0.001)、胸痛(P=0.006)、乏力(P=0.049)和發(fā)熱出汗(P<0.001)9個(gè)因素差異有統(tǒng)計(jì)學(xué)意義,見(jiàn)表2。此外由于既往研究提示粉塵接觸史、癌癥家族史、咳痰、咳嗽和咯血為肺癌的影響因素[4-5],該研究入選這14個(gè)因素作為輸入變量建立風(fēng)險(xiǎn)預(yù)測(cè)模型。
表2 肺癌組和肺良性疾病組的樣本基線(xiàn)特征及卡方檢驗(yàn) (n(%))Table 2 Baseline characteristics and chi-square test of lung cancer and lung benign disease groups (n(%))
2.3.1 兩種風(fēng)險(xiǎn)預(yù)測(cè)模型的建立 經(jīng)過(guò)訓(xùn)練,C5.0決策樹(shù)風(fēng)險(xiǎn)預(yù)測(cè)模型的參數(shù)設(shè)置如下:Use partitioned data:no,Output type:Decision Tree,Group symbolic:no,Use boosting:yes,Cross-validate:no,Mode:expert,Pruning severity:75,Minimum records per child brunch:2,Use global pruning:yes,Window attributes:no,Use misclassification costs:no。ANN風(fēng)險(xiǎn)預(yù)測(cè)模型的參數(shù)設(shè)置如下:Use partitioned data:yes,Method:prune,Prevent overtraining sample:50%,Set random seed:321,Stop on:time (mins) 1 min,Optimize:memory,Continue training existing model:no;Use binary set encoding:yes,Show feedback graph:yes,Model selection:Use best network,Mode:expert。
2.3.2 兩種危險(xiǎn)度預(yù)測(cè)模型的性能比較 兩種模型訓(xùn)練集和測(cè)試集樣本的分類(lèi)結(jié)果見(jiàn)表3。在訓(xùn)練集與測(cè)試集樣本中C5.0模型的準(zhǔn)確率分別為68.54%和61.0%,ANN模型的準(zhǔn)確率分別為69.5%和65.3%。可以看出ANN模型在訓(xùn)練集和預(yù)測(cè)集中準(zhǔn)確度均高于C5.0模型。根據(jù)兩個(gè)數(shù)據(jù)挖掘模型的ROC曲線(xiàn)中各危險(xiǎn)因素對(duì)應(yīng)的AUC評(píng)估各自變量對(duì)模型的影響大小,重要性前10位影響因素排序見(jiàn)表4。由表可知,對(duì)模型影響最大的三個(gè)影響因素在ANN模型中分別是吸煙史、痰中帶血與胸痛;而在C5.0模型中分別是吸煙史、胸痛與年齡。在ANN模型和C5.0模型中吸煙均為最主要的影響因素。
表3 C5.0決策樹(shù)和ANN模型的訓(xùn)練集和測(cè)試集樣本分類(lèi)結(jié)果Table 3 Classification results of training set and testing set samples by Decision tree C5.0 and ANN models
表4 C5.0決策樹(shù)模型和ANN模型中納入變量的重要性排序Table 4 Importance ranking of variables in Decision tree C5.0 model and ANN model
兩種數(shù)據(jù)挖掘模型對(duì)肺癌綜合預(yù)測(cè)性能的相關(guān)指標(biāo)包括準(zhǔn)確度、約登指數(shù)、敏感度、特異性、預(yù)測(cè)值和AUC。其中C5.0決策樹(shù)模型的特異性和NPV高于ANN模型,ANN模型預(yù)測(cè)模型的準(zhǔn)確度、約登指數(shù)、敏感度、PPV和AUC均高于C5.0決策樹(shù)模型,見(jiàn)表5。測(cè)試集中兩種數(shù)據(jù)挖掘模型的ROC曲線(xiàn)可發(fā)現(xiàn)ANN模型預(yù)測(cè)性能優(yōu)于C5.0決策樹(shù)模型,見(jiàn)圖1。
表5 兩種數(shù)據(jù)挖掘模型的測(cè)試集結(jié)果比較Table 5 Comparison of testing set results between two data mining models
圖1 測(cè)試集中兩種數(shù)據(jù)挖掘模型的ROC曲線(xiàn)Figure 1 ROC curves of two data mining models in testing set
當(dāng)前,肺癌的高發(fā)病率和高病死率已經(jīng)造成巨大的公共衛(wèi)生負(fù)擔(dān),利用肺癌的危險(xiǎn)因素來(lái)預(yù)測(cè)肺癌危險(xiǎn)度,對(duì)于肺癌的預(yù)防和早期篩查具有重要意義。本研究分別建立了C5.0決策樹(shù)與ANN肺癌風(fēng)險(xiǎn)預(yù)測(cè)模型,比較發(fā)現(xiàn),ANN模型預(yù)測(cè)性能優(yōu)于C5.0決策樹(shù)模型。
本研究按照0.05的顯著性水平,單因素檢驗(yàn)發(fā)現(xiàn)有9個(gè)變量與肺癌患病率呈相關(guān)關(guān)系:5個(gè)流行病學(xué)變量中年齡、吸煙史、飲酒史、炎性反應(yīng)史與肺癌患病率呈正相關(guān),輸血史與肺癌患病率呈負(fù)相關(guān);4個(gè)臨床癥狀中痰中帶血、胸痛與肺癌患病率正相關(guān),乏力和發(fā)熱出汗與肺癌患病率存在負(fù)相關(guān)關(guān)系。同時(shí),本研究的兩種數(shù)據(jù)挖掘模型中吸煙均為關(guān)鍵影響變量。既往研究表明肺癌常見(jiàn)于70歲以上人群且發(fā)病率和死亡率隨年齡增加而升高,同時(shí)吸煙、飲酒以及慢性炎性反應(yīng)均為肺癌的危險(xiǎn)因素之一[5],而圍手術(shù)期輸血對(duì)肺癌預(yù)后和復(fù)發(fā)的影響當(dāng)前研究仍不一致[6],這與本研究結(jié)果基本相符。有研究顯示,遺傳因素與職業(yè)性粉塵接觸也是肺癌的危險(xiǎn)因素之一[7],這與本研究結(jié)果不符。
決策樹(shù)模型是一種由層次分類(lèi)逐步構(gòu)建的貪心算法,作為一種新興的數(shù)據(jù)挖掘技術(shù),它可以經(jīng)過(guò)多次迭代演算后得到最優(yōu)化的算法模型,具有較高的數(shù)據(jù)分析能力。相關(guān)研究已經(jīng)將C5.0決策樹(shù)模型用于利用基因表達(dá)數(shù)據(jù)和職業(yè)危險(xiǎn)因素預(yù)測(cè)肺癌風(fēng)險(xiǎn)的模型建立[8-10]。C5.0算法作為決策樹(shù)模型的常用算法之一,適用于分類(lèi)變量和大數(shù)據(jù)集,已經(jīng)在生物醫(yī)學(xué)預(yù)測(cè)模型的建立中得到廣泛應(yīng)用。另外一些研究將C5.0決策樹(shù)模型與其他多種研究進(jìn)行比較,建立疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,均得到C5.0決策樹(shù)模型的預(yù)測(cè)性能最優(yōu)的結(jié)果[11-12]。
ANN模型的數(shù)學(xué)結(jié)構(gòu)模擬人類(lèi)大腦的生物神經(jīng)元學(xué)習(xí)動(dòng)態(tài),對(duì)輸入變量經(jīng)過(guò)訓(xùn)練產(chǎn)生一個(gè)加權(quán)組合的輸出結(jié)果。ANN相比于一般統(tǒng)計(jì)學(xué)方法優(yōu)勢(shì)顯著,具有良好的魯棒性、高容錯(cuò)性和較強(qiáng)的歸納能力,可以快速識(shí)別線(xiàn)性模型、受閾值影響的非線(xiàn)性模型、分類(lèi)模型、逐步線(xiàn)性模型,甚至偶然影響,故其可以確定潛在的預(yù)后影響因素[13]。已有研究將ANN應(yīng)用于肺癌風(fēng)險(xiǎn)評(píng)估相關(guān)模型的構(gòu)建[3,14]。該研究結(jié)果同樣顯示ANN模型在準(zhǔn)確度、敏感度、約登指數(shù)、陽(yáng)性預(yù)測(cè)值、ROC曲線(xiàn)下面積均優(yōu)于決策樹(shù)模型[15-16],這與相關(guān)研究結(jié)果一致。因此,本研究建議利用ANN模型結(jié)合人群的流行病學(xué)資料和臨床癥狀判別肺癌高危人群,為肺癌的早期診斷早期治療提供參考依據(jù)[17]。
本研究仍然存在一定的局限性:一方面,納入的樣本量較少,如果能收集更大樣本量和多中心樣本資料,樣本數(shù)據(jù)將具有更好的代表性,模型將具有更優(yōu)異的性能;另一方面,納入的變量種類(lèi)有限,而與肺癌相關(guān)的危險(xiǎn)因素眾多且對(duì)肺癌存在交互作用,如果能納入環(huán)境因素、職業(yè)因素、遺傳因素、行為生活方式等多種研究變量,模型將更為準(zhǔn)確可靠。因此,我們建議未來(lái)的研究應(yīng)涵蓋更大的樣本量,納入更為豐富的研究變量進(jìn)行綜合分析,同時(shí)將ANN模型應(yīng)用于肺癌高危人群中篩查驗(yàn)證。