★ 聶斌 林劍鳴 杜建強(qiáng)*** 王卓 何萬生 葉青 熊玲珠 朱明峰 李智彪 吳友平
(1.江西中醫(yī)學(xué)院南昌 330006;2.南昌大學(xué)軟件學(xué)院 南昌 330047;3.江西省峽江縣水邊衛(wèi)生院 331409)
決策樹[1-2]是用于分類和預(yù)測的一種類似于流程圖的樹結(jié)構(gòu)。決策樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它著眼于從一組無序、無規(guī)則的實(shí)例中推理出決策表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同屬性判斷從該結(jié)點(diǎn)向下的分支,在決策樹的葉結(jié)點(diǎn)得到結(jié)論。從根結(jié)點(diǎn)就對(duì)應(yīng)著一條合取規(guī)則,整棵樹就對(duì)應(yīng)一組析取表達(dá)式。其分類研究及應(yīng)用如[3-9]。其特點(diǎn)是分類速度快,計(jì)算量相對(duì)較小,容易轉(zhuǎn)化成分類規(guī)則;分類準(zhǔn)確性高且便于理解。其缺乏伸縮性,處理大訓(xùn)練集時(shí)算法的額外開銷大,降低了分類的準(zhǔn)確性;一般的算法分類時(shí),只根據(jù)某個(gè)字段來分類;當(dāng)類別過多時(shí),錯(cuò)誤可能就會(huì)較快增加。
C5.1模型(PASW Modeler helptext)的工作原理:根據(jù)提供最大信息增益的字段分割樣本,并遞進(jìn)分割由上次分割定義的每個(gè)子樣本,直到無法分割為止。重新檢查最底層分割,并刪除或修剪對(duì)模型值沒有顯著貢獻(xiàn)的分割。
規(guī)則集源自決策樹,并且在某種程度上表示在決策樹中建立的經(jīng)簡化或提取的信息版本。通常,規(guī)則集可保留完整的決策樹中的大部分重要信息,但其使用的模型比較簡單。其與其它決策樹最重要的區(qū)別是,使用規(guī)則集時(shí),可以為任意特定記錄應(yīng)用多個(gè)規(guī)則,也可以不應(yīng)用任何規(guī)則。其優(yōu)點(diǎn):對(duì)有缺失數(shù)據(jù)和輸入字段較多的問題時(shí)非常穩(wěn)??;通常訓(xùn)練次數(shù)不是很長則可進(jìn)行估計(jì);模型易于理解,規(guī)則可直觀解釋。
CART分類和回歸樹(PASW Modeler helptext)節(jié)點(diǎn)是一種基于樹的分類和預(yù)測方法。其原理:使用遞歸分區(qū)將訓(xùn)練記錄分割為具有相似輸出字段值的段,通過檢查輸入字段找到最佳分割來啟動(dòng)CART樹,并根據(jù)由分割導(dǎo)致的純度指數(shù)降低情況進(jìn)行測量。分割可定義兩個(gè)子組,每個(gè)子組遞歸被分割為兩個(gè)子組,直到觸發(fā)其中一個(gè)停止標(biāo)準(zhǔn)為止。其優(yōu)點(diǎn)可自動(dòng)選擇對(duì)目標(biāo)變量有貢獻(xiàn)的屬性變量;對(duì)有缺失數(shù)據(jù)和輸入字段較多的問題時(shí)非常穩(wěn)?。还烙?jì)模型通常訓(xùn)練時(shí)間不長;推理過程完全依據(jù)屬性變量的取值特點(diǎn);根據(jù)目標(biāo)是定類變量和定距變量分別為分類樹和回歸樹。
QUEST(PASW Modeler helptext),是一種用于構(gòu)建決策樹的二元分類法。此方法的主要目的是:減少包含很多變量或觀測值的大型CART分析所需的處理時(shí)間,連續(xù)預(yù)測變量或具有多個(gè)類別的預(yù)測變量。QUEST與CART和CHAID都不同的是,在評(píng)估預(yù)測變量以供選擇時(shí)不會(huì)檢驗(yàn)類別組合,因此可加快分析的速度。通過使用由目標(biāo)類別形成的組中選定的預(yù)測變量來運(yùn)行二次判別分析可以確定分割。使用此方法可再次使速度較窮舉搜索(CART)得到提高以便確定最優(yōu)分割。優(yōu)點(diǎn):運(yùn)算過程比CART更簡單有效,QUEST節(jié)點(diǎn)可提供用于構(gòu)建決策樹的二元分類法,可減少處理時(shí)間等。
CHAID也稱為卡方自動(dòng)交互效應(yīng)檢測(PASW Modeler helptext)是一種通過使用卡方統(tǒng)計(jì)量識(shí)別最優(yōu)分割來構(gòu)建決策樹的分類方法。
CHAID首先檢查每個(gè)預(yù)測變量和結(jié)果之間的交叉列表,然后使用卡方獨(dú)立性測試來檢驗(yàn)顯著性。如果以上多個(gè)關(guān)系具有顯著的統(tǒng)計(jì)意義,則CHAID將選擇最重要(P值最?。┑念A(yù)測變量。如果預(yù)測變量具有兩個(gè)以上的類別,將會(huì)對(duì)這些類別進(jìn)行比較,然后將結(jié)果中未顯示出差異的類別合并在一起。此操作通過將顯示的顯著性差異最低的類別對(duì)相繼合并在一起來實(shí)現(xiàn)。當(dāng)所有剩余類別在指定的檢驗(yàn)級(jí)別上存在差異時(shí),此類別合并過程將終止。對(duì)于集合預(yù)測變量,可以合并任何類別;對(duì)于有序集合預(yù)測變量,只能合并連續(xù)的類別。優(yōu)點(diǎn):可產(chǎn)生多分支的決策樹;可以定距或定類目標(biāo)變量;從統(tǒng)計(jì)角度優(yōu)化樹的分支過程。
從確診病例數(shù)據(jù)庫中獲取了3 969例糖尿病并發(fā)癥病例,包括診斷結(jié)果在內(nèi)共80個(gè)字段,12種并發(fā)癥。在醫(yī)學(xué)專家指導(dǎo)下,通過字段合并篩選以及統(tǒng)計(jì)方法預(yù)處理后,共得84條病例診斷信息。如圖1為診斷信息表截圖。
圖1 部分診斷信息表
將數(shù)據(jù)導(dǎo)入PASW13,通過自動(dòng)分類,如圖2表明,4種決策樹構(gòu)造時(shí)間都小于1分鐘,精確性都大于66%,使用字段分別為10號(hào)喝酒、23號(hào)腎病、20號(hào)肝病史、6號(hào)飲食。通過PASW可獲取4種決策樹方法的決策規(guī)則和決策樹,經(jīng)專家確認(rèn),雖然診斷過程先后有出入,但吻合不同臨床專家的診斷思維。在本實(shí)例分類中,后3種方法的結(jié)果不能完全給出所有12種并發(fā)癥的診斷規(guī)則和診斷結(jié)果,而C5.1方法效果最好,其能對(duì)12種并發(fā)癥給出診斷樹及診斷規(guī)則。結(jié)果如圖2-8,在圖3中,結(jié)果先是定糖尿病足,再從下往后辯識(shí)??紤]決策樹圖過大,故分成5部分,上下相接,接口分別為“皮膚病”、“滲透壓”、“尿酮”、“糖尿病史”字段,圖中,類別指并發(fā)癥;%在待診部分表明各占比例,%在已診結(jié)果部分表明通過上一字段作為依據(jù)時(shí)在總類別中所占比例;n表明病例個(gè)數(shù)。分類決策過程如圖4,有“潰瘍”則為糖尿病足,84個(gè)信息庫中,有8例,占所有糖尿病足的100%,占所有84個(gè)病例中的9.524%,其它分類結(jié)果見圖2-8。
圖2 決策樹分類模型
圖3 C5.1診斷規(guī)則
圖4 C5.1決策樹結(jié)果(1)
圖5 C5.1決策樹結(jié)果(2)
圖6 C5.1決策樹結(jié)果(3)
圖7 C5.1決策樹結(jié)果(4)
圖8 C5.1決策樹結(jié)果(5)
經(jīng)提取臨床確診病例信息后,用4種決策樹方法對(duì)其分類,得到了診斷規(guī)則和決策樹,其診斷過程吻合臨床專家的診斷思維,對(duì)于本實(shí)例C5.1效果最好。包括中醫(yī)西醫(yī)在內(nèi)的確診病例數(shù)據(jù)庫有待進(jìn)一步完善,字段有待進(jìn)一步規(guī)范,方法有待進(jìn)一步研究和改進(jìn),以期輔助臨床診斷。
[1]楊淑瑩,模式識(shí)別與智能計(jì)算——MATLAB技術(shù)實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2008.
[2]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[3]左思強(qiáng),馮少榮.決策樹C5算法在教學(xué)實(shí)踐中的應(yīng)用[J].福建電腦,2011,4:140-142.
[4]方俊群,羅家有,姚寬保,等.C5.0決策樹法在出生缺陷預(yù)測中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計(jì),2009,26(5):473-476.
[5]黃奇.基于CHAID決策樹的個(gè)人收入分析.數(shù)學(xué)理論與應(yīng)用[J],2009,29(4):33-37.:
[6]Wozniak,Michal.A hybrid decision tree training method using data streams[J].Knowledge And Information Systems.2011,29(2):335-347.
[7]Liangxiao Jiang,Chaoqun Li.An Empirical Study on Class Probability Estimates in Decision Tree Learning[J].Journal of Software.2011,6(7):1 368-1 373.
[8]Aviad,Barak,Roy,Gelbard.Classification by clustering decision tree-like classifier based on adjusted clusters[J].Expert Systems With Applications.2011,38(7):8 220-8 228.
[9]Meng Yi-cheng,Liu Wen-qi,Li Yue-qiu.Optimized decision treealgorithm based on rough set theory[J].Journal of Kunming University of Science and Technology(Science and Technology).2009,34(2):95-97.