張琪,周琳,陳亮,張晉昕,溫興煊,何賢英
(1.中山大學公共衛(wèi)生學院醫(yī)學統(tǒng)計與流行病學系,廣州 510080;2.廣東省結核病控制中心,廣州 510630)
專家推薦
決策樹模型用于結核病治療方案的分類和預判
張琪1,周琳2,陳亮2,張晉昕1,溫興煊1,何賢英1
(1.中山大學公共衛(wèi)生學院醫(yī)學統(tǒng)計與流行病學系,廣州 510080;2.廣東省結核病控制中心,廣州 510630)
學科:流行病與衛(wèi)生統(tǒng)計學
推薦專家:王斌副教授(安徽醫(yī)科大學)
推薦論文:張琪,周琳,陳亮,等. 決策樹模型用于結核病治療方案的分類和預判[J]. 中華疾病控制雜志,2015,19(5): 510-513
·專家點評·
該文創(chuàng)新性地利用分類精度高、對數(shù)據(jù)噪聲具有穩(wěn)定性、且提取規(guī)則易量化與理解的數(shù)據(jù)挖掘方法——決策樹構建結核病治療方案的預測與分類模型,結果表明,初發(fā)、因癥就診且痰涂片搞酸染色陽性患者多采用2HRZE/4HR治療方案,而初發(fā)、痰涂片搞酸染色陽性患者多采用個性化治療。
該文重要意義表現(xiàn)在:研究結果有利于臨床醫(yī)生根據(jù)結核病患者病史、臨床癥狀、檢驗結果等,對治療方案做出更為準確地預判和指導;采用的決策樹數(shù)據(jù)挖掘模型,能夠充分利用患者臨床資料信息等,為其他慢性疾病治療方案選擇的研究方法及研究思路提供相應的借鑒;對研究者為適應當今醫(yī)學發(fā)展,即由經(jīng)驗醫(yī)學、實驗醫(yī)學轉向以證據(jù)為基礎的循證醫(yī)學,以滿足醫(yī)學大數(shù)據(jù)時代的要求,把決策樹及其他數(shù)據(jù)挖掘技術運用于臨床資料或醫(yī)學其他等信息的分析有一定的啟迪作用。
文章決策樹建模采用的統(tǒng)計分析軟件是SPSS Modeler,無需編寫程序,易于操作與實施,醫(yī)學研究者進行數(shù)據(jù)挖掘的技術瓶頸則顯得蕩然無存,運用SPSS Modeler軟件進行數(shù)據(jù)挖掘,在預防醫(yī)學工作及科研過程中值得普及與推廣。
文中討論雖陳述了研究的不足,但仍有兩點稍顯匱乏與不完善,1)從全文行文看,作者對決策樹建模的系統(tǒng)知識仍未達到瑧善,表現(xiàn)在讀者難以一氣呵成地閱讀并能夠透徹理解;2)文章對決策樹模型“預判”的靈敏度、特異度及Kappa一致性進行了分析,但如能將靈敏度和特異度結合起來,進一步做ROC曲線,對“預判”做出評價分析,或可更上一層樓。
結核病多年來一直嚴重威脅著各國人民的身體健康。我國每年大約新增結核病患者100萬,占全球的12%,位居世界第2位,是全球22個結核病高負擔國家之一[1]。而近來年隨著耐多藥結核分枝桿菌的出現(xiàn),結核病的治療變得越來越棘手和復雜。了解肺結核發(fā)病的危險因素,可以對肺結核患者進行風險評估和預測,也可以指導臨床醫(yī)生制定相應的治療方案。本研究利用數(shù)據(jù)挖掘中的決策樹構建預測模型,并提取決策樹規(guī)則集,為結核病患者的臨床治療提供參考。
1.1資料來源資料來源于廣東省結核病控制中心提供的2013年度廣州市番禺區(qū)結核病專項檔案資料,共計1141個研究對象,均為結核病確診病例,他們來自番禺區(qū)的12個街道。其中新發(fā)病例1098例,復發(fā)病例41例;男性788例,女性353例;年齡最小15歲,最大90歲,平均年齡(39.6±15.1)歲。被調查個體的專檔資料經(jīng)過合并、清洗、去重等預處理形成適合進行決策樹建模的數(shù)據(jù)倉庫[2]。觀察資料中包含性別、年齡、民族、文化程度、職業(yè)、婚姻狀況、居住地、病人發(fā)現(xiàn)方式(因癥就診、轉診等)、病人管理方式(全程督導、住院、自服藥等)、病人登記方式(新發(fā)病、復發(fā)、初治失敗等)、結核病接觸史、卡介苗接種史,以及痰涂片抗酸染色、結核菌培養(yǎng)、發(fā)熱谷草轉氨酶等實驗室檢查、治療方案、轉歸情況、治療時間等40個變量。
1.2研究方法
1.2.1決策樹模型的原理決策樹模型源于人工智能領域的機器學習技術,用于實現(xiàn)數(shù)據(jù)的分類和預測。經(jīng)過多年發(fā)展,其核心算法已經(jīng)逐漸成熟,被各類智能決策系統(tǒng)所采納。決策樹模型的兩大特點是:數(shù)據(jù)分析能力高效準確、結果又直觀易懂。近年來數(shù)據(jù)挖掘這一概念興起,決策樹也成為數(shù)據(jù)挖掘領域使用最廣泛的算法之一[3]。決策樹模型的建立圍繞2個問題:(1)是決策樹的生長,是用訓練樣本集進行決策樹的構建;(2)是決策樹的修剪,是用測試樣本再精簡已經(jīng)建立的決策樹。
1.2.1.1決策樹的生長決策樹的生長是對訓練樣本數(shù)據(jù)集不斷地重新分組的過程。決策樹模型的各分枝是在數(shù)據(jù)被不斷地分組過程中逐步生長出來的。當某亞組數(shù)據(jù)繼續(xù)新的分組不再有意義時,它所對應的分枝就不再生長。而當所有的數(shù)據(jù)分組都不再有意義時,決策樹將會不再生長,此時完整的決策樹就建好了。而建立決策樹模型時所采用的核心算法不同,決策樹的分枝準則也有所不同。
1.2.1.2決策樹的修剪建好的決策樹模型雖然對樣本數(shù)據(jù)的擬合得非常好,但是可能因此失去一般代表性而無法用于對新數(shù)據(jù)的外推應用,出現(xiàn)了所謂的過度擬合。在決策樹模型構建中解決此問題的方法就是對建立的決策樹進行修剪,常用的方法有預修剪和后修剪。預修剪是在決策樹成長時就對它的規(guī)模進行一定的限制,后修剪是先讓決策樹充分生長,再對其進行修剪。
1.2.1.3C5.0算法原理[4]C5.0算法可以建立多分叉的決策樹,自變量可以是數(shù)值或者分類型變量,因變量只能為分類型變量。C5.0以信息論為理論基礎,用信息增益率來確定最佳的分組變量和連續(xù)變量的分割點。信息量的數(shù)學定義如下:
信息量是以2為底的對數(shù)形式,它的單位是比特(bit)。而信息熵為信息量的數(shù)學期望,其數(shù)學定義是:
相應的信息增益和增益率為:
1.2.1.4CHAID算法原理[5]卡方自動交互診斷器(chi-squared automatic interaction detector,CHAID)的核心算法依舊是最佳分組變量以及分割點的確定,基本思路與C5.0相同,但不同的有兩點。首先,對于輸入變量的預處理。對數(shù)值型輸入變量進行分箱處理,而合并分類型輸入變量的取值。預處理的目的在于減少決策樹的分枝,防止過度擬合。其次,根據(jù)統(tǒng)計檢驗的結果確定最佳分組變量以及分割點。輸出變量如果是分類型的則采用卡方檢驗,如果是數(shù)值型則采用F檢驗。
1.2.2決策樹算法的選擇目前比較常用的決策樹算法有:ID3、C5.0、CHAID、QUEST、CART等,其中最早是Quinlan提出的ID3算法[6],其他算法都是在此基礎上的改進或拓展[7,8]。但是ID3算法僅能用于分類型變量構建決策樹,而不能用于連續(xù)型的變量,因此本次研究采用CHAID和C5.0算法建立決策樹模型。
1.3統(tǒng)計分析統(tǒng)計描述及一致性分析使用IMB SPSS 21.0,決策樹模型建模與預測使用SPSS Moder 14.2。
隨機抽取70%的個體構成訓練樣本,30%的個體構成測試樣本,分別使用C5.0算法和CHAID算法建立決策樹模型。C5.0算法使用自動建模,預期噪聲設置為5%;CHAID算法設置最大樹狀深度為3,以控制決策樹生長過于“茂盛”,避免過擬合的問題。另外,停止規(guī)則為使用百分比,父分枝最小記錄數(shù)設置為2%,子分枝最小記錄數(shù)設置為1%,以防止樣本量過小的分枝的出現(xiàn)。為減少樣本隨機抽樣引起的抽樣誤差,輸出類型勾選交叉驗證,折疊次數(shù)10次。
2.1變量篩選使用SPSS Moder 14.2建立預測模型時可以對各個自變量的重要程度進行排序。使用C5.0算法建模得到的各自變量重要程度從大到小依次為:痰涂片抗酸染色、其他陽性體征和病人登記方式;使用CHAID算法建模得到的各自變量重要程度從大到小依次為:痰涂片抗酸染色、病人登記分類、發(fā)熱、結核病類型、病人發(fā)現(xiàn)方式。
2.2模型建立決策樹模型建立后,可以輸出樹形圖,簡單易懂,C5.0算法模型輸出的樹形圖見圖1。根據(jù)樹形圖也可以提取規(guī)則集,見表1,2,表中置信度表示該條規(guī)則應用于樣本數(shù)據(jù)的預測成功率,表1、2中賦值情況:結核病類型:1=原發(fā)性肺結核,2=血型播撒性肺結核,3=繼發(fā)性肺結核,4=結核性胸膜炎,5=其他肺外結核;痰涂片抗酸染色:1=未檢,2=陰性,3=陽性;病人登記分類:1=新患者,2=復發(fā);病人發(fā)現(xiàn)方式:1=因癥就診,2=轉診;發(fā)熱:0=否,1=是。
2.3模型評估本次研究建模前采用SPSS Moder 14.2的“分區(qū)”節(jié)點,設立隨機數(shù)種子,將70%樣本797例作為訓練樣本,30%樣本344例作為測試樣本。為避免單次分區(qū)的抽樣誤差對結果的影響,在決策樹建模的時候需勾選交叉驗證。使用CHAID決策樹模型訓練樣本正確率為77.92%,測試樣本正確率為76.74%;使用C5.0決策樹模型訓練樣本正確率為90.72%,測試樣本正確率為88.37%。說明C5.0算法在構建本次研究的分類預測模型中預測效果更好。
2.4一致性分析由于C5.0算法在本次研究中預測效果更佳,此處僅僅列出C5.0決策樹模型對訓練樣本和測試樣本的預測結果與實際情況一致性對比情況,見表3、4。訓練樣本的靈敏度為95.9%,特異度為86.8%,Kappa系數(shù)為0.814,測試樣本的靈敏度為96.4%,特異度為82.8%,Kappa系數(shù)0.767。
決策樹是一種非常重要的數(shù)據(jù)挖掘算法,具有分類的精度高、提取的規(guī)則能量化易理解以及對噪聲數(shù)據(jù)也有比較好的穩(wěn)健性等優(yōu)點,在預防醫(yī)學、公共衛(wèi)生及臨床的輔助診斷等方面已經(jīng)取得了較好的效果[9-12]。本研究采用決策樹的CHAID算法和C5.0算法篩選出一些影響因素,對模型進行評估結果表明,C5.0算法決策樹模型預測的準確性高于85%,預測結果與實際情況的一致性也較好,訓練樣本和測試樣本的Kappa系數(shù)均高于0.7。由于在SPSS Moder暫不能通過編寫程序實現(xiàn)計算,因此要獲得較理想的預測模型,需對建模過程中的涉及到的參數(shù)進行反復多次調整,采用最優(yōu)模型。此外訓練樣本和測試樣本的隨機選取對決策樹模型的穩(wěn)定性和預測效果也可能有一定的影響,通過建模過程中使用交叉驗證的方法可以一定程度避免。臨床醫(yī)生在選擇患者的治療方案時,主要是基于衛(wèi)生部制定的結核病診療指南,僅僅基于是否初治和是否涂陽來選擇治療方案[13,14],而千篇一律的治療方案是造成結核病廣泛耐藥的重要原因之一。本研究中CHAID算法提取的規(guī)則集顯示,結核病類型、痰涂片抗酸染色及病人發(fā)現(xiàn)方式、病人登記方式、發(fā)熱與否會影響治療方案的選擇;而C5.0算法提取的規(guī)則集顯示,痰涂片抗酸染色、病人登記分類以及其他陽性體征會影響治療方案的選擇。7條規(guī)則集有5條置信度高于90%。綜合決策樹模型產(chǎn)生的規(guī)則集,可以發(fā)現(xiàn)有如下規(guī)律:發(fā)現(xiàn)初發(fā)、因癥就診且痰涂片抗酸染色陽性的患者多采用2HRZE/4HR治療方案,而初發(fā)、痰涂片抗酸染色陰性的患者以及復發(fā)患者多采用個性化治療。兩種算法提取的規(guī)則不完全相同,主要原因是兩種算法在決策樹模型的生長和修剪中的思路和方法不同,C5.0算法主要基于信息學中信息熵的理論,而CHAID算法有對數(shù)據(jù)預處理的過程,主要基于統(tǒng)計檢驗的理論[15,16]。本研究利用已有的結核病專檔數(shù)據(jù),篩選預后良好的1141名結核病患者,利用與治療相關的40多個變量建立結核病治療的預測與分類模型,旨在評估和預測結核病患者的患病狀態(tài),為臨床醫(yī)生選擇治療方案提供一定的借鑒。此外,本研究的研究思路和方法也可以適用于其他的慢性疾病治療方案的選擇,例如高血壓、糖尿病。本研究也有不足一些不足之處,比如納入研究的變量數(shù)較多,而樣本量僅有1141,可能會存在樣本不足導致檢驗功效降低的問題。相信隨著采集樣本和指標的不斷增多,使用決策樹模型能夠對結核病患者應使用哪種治療方案做出更為準確地預判和指導,從而使結核病患者能夠得到更有效的治療,改善其預后。
醫(yī)學的發(fā)展已經(jīng)由經(jīng)驗醫(yī)學、實驗醫(yī)學轉向以證據(jù)為基礎的循證醫(yī)學,產(chǎn)生的醫(yī)學數(shù)據(jù)量大,且具有客觀性。臨床醫(yī)生應結合患者的病史、臨床癥狀,逐漸學會使用大樣本下建立的數(shù)據(jù)挖掘模型,分析病情、制定合理治療方案及預測疾病的發(fā)展。決策樹模型及其他數(shù)據(jù)挖掘模型在大數(shù)據(jù)時代將會體現(xiàn)出更重要的實用價值和經(jīng)濟價值。
責任編輯:吳曉麗