岳 路 馬凌燕 魏本征
(山東中醫(yī)藥大學(xué),山東濟(jì)南 250355)
目前醫(yī)院都在推行信息管理系統(tǒng),為患者建立電子病歷,隨著電子病歷的普及,存儲(chǔ)的數(shù)據(jù)量急劇增加,這些數(shù)據(jù)內(nèi)部存在著各種千絲萬縷的聯(lián)系,如何對(duì)這些海量數(shù)據(jù)進(jìn)行篩選、分析,并發(fā)現(xiàn)其中未知的規(guī)律是一個(gè)非常有研究?jī)r(jià)值的方向。數(shù)據(jù)挖掘就是一種用于在大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的常用技術(shù),在對(duì)病歷數(shù)據(jù)進(jìn)行挖掘的過程中,最關(guān)鍵的問題是能否選擇適用于挖掘環(huán)境的數(shù)據(jù)挖掘算法,能否建立恰當(dāng)?shù)姆诸惸P汀?/p>
肺炎是一種危害嬰幼兒健康和生命安全的常見病,是導(dǎo)致5歲以下嬰幼兒死亡的主要病因,中醫(yī)對(duì)于肺炎辯證和治療有獨(dú)有的特點(diǎn)和手段,在小兒肺炎的中醫(yī)辯證中,要搜集小兒的各種病理表現(xiàn)參數(shù),這些參數(shù)在肺炎辯證中具有重要的作用。如小兒肺炎指紋,是指從虎口到食指內(nèi)側(cè)的橈側(cè)淺靜脈,由于小兒皮膚很薄,所以這條小靜脈的形狀、顏色、顯露程度可以反應(yīng)出小兒的血液運(yùn)行情況和身體狀況,為辯證提供有力依據(jù),故在臨床中,觀察小兒指紋是一種常用的診斷手法。目前,采用數(shù)據(jù)挖掘技術(shù)對(duì)小兒肺炎指紋圖像進(jìn)行研究還處于探索階段,本文以小兒肺炎中醫(yī)辨證理論為基礎(chǔ),結(jié)合小兒肺炎指紋圖像,采用決策樹算法構(gòu)造小兒肺炎分類模型。
決策樹是一種典型的分類算法,起源于概念學(xué)習(xí)系統(tǒng)CLS(Concept Learning System),其方法就是利用信息論中的信息增益尋找具有最大信息量的分類字段,可以從一組無次序、無規(guī)則的事例中推理出可視的分類規(guī)則,它具有分類和測(cè)試速度快,可以選擇重要的決策屬性,分類準(zhǔn)確率比較高等優(yōu)點(diǎn)。
本文涉及到的所有數(shù)據(jù)來源于山東中醫(yī)藥大學(xué)附屬醫(yī)院兒科臨床病例,共選取300例已經(jīng)確診的病兒信息作為研究對(duì)象,每例含有29個(gè)數(shù)據(jù)項(xiàng)。包括食指內(nèi)側(cè)的橈側(cè)淺靜脈的顯露部位、顯露程度、是否流暢、色澤特點(diǎn)、病兒的體溫、咳嗽的特點(diǎn)、舌象、鼻咽部癥狀、消化道癥狀、睡眠狀況、三凹征、是否存在氣促、肺部聽診結(jié)果、面部色澤、大便特點(diǎn)、小便特點(diǎn)、變癥等。
對(duì)于臨床采集的數(shù)據(jù),難免會(huì)產(chǎn)生不完整性、不一致性和噪聲等現(xiàn)象。因此,必須對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,盡可能提高數(shù)據(jù)的質(zhì)量。經(jīng)過數(shù)據(jù)預(yù)處理,在臨床采集表中共選取目標(biāo)樣本300個(gè),其中100個(gè)樣本作為訓(xùn)練集,其余200個(gè)作為檢驗(yàn)集。每個(gè)樣本提取與分類結(jié)果關(guān)聯(lián)性較強(qiáng)的22個(gè)指標(biāo)屬性,對(duì)原始數(shù)據(jù)中每個(gè)分類變量指標(biāo)數(shù)量化,對(duì)分類變量指標(biāo)的可能屬性賦值,例如“指紋顏色”屬性用1表示“淡紅隱隱”,用2表示“紫紅”(見表1);小兒肺炎辨證分類空間共有7個(gè)不同取值,如表2所示。
表1 對(duì)小兒肺炎辨證有影響的指標(biāo)屬性
R12 口渴 無(1) 口渴(2)R13 口唇 發(fā)紺(1) 紅赤(2) 干燥(3) 紅潤(rùn)(4)R14 乏力 乏力(1) 無(2)R15 汗出 微汗(1) 多汗(2) 無汗(3)R16 消化道癥狀 腹脹(1) 惡心(2) 嘔吐(3) 無(4)R17 飲食 正常(1) 食少納呆(2)食欲不振(3)R18 大便 正常(1) 溏薄(2) 干結(jié)(3)R19 小便 清長(zhǎng)(1) 黃赤(2) 正常(3)R20 舌色 淡紅(1) 紅(2) 淡白(3)R21 舌苔厚薄 厚(1) 薄(2) 剝脫苔(3)少苔(4)R22 舌苔顏色 白(1) 黃(2)
表2 小兒肺炎的分類
(1)選擇決策樹算法
本文采用的算法采取一系列局部最優(yōu)決策來構(gòu)造決策樹。即通過將訓(xùn)練集相繼劃分成較純的子集,以遞歸方式建立決策樹。設(shè)Dt是與結(jié)點(diǎn)相關(guān)聯(lián)的訓(xùn)練記錄集,而 Y ={y1,y2 ,...,y c}是類標(biāo)號(hào),遞歸定義如下:
1)如果Dt中所有的記錄都屬于同一個(gè)類yt,則t是葉結(jié)點(diǎn),用yt標(biāo)記。
2)如果Dt中包含屬于多個(gè)類的記錄,則選擇一個(gè)屬性測(cè)試條件(attribute test condition),將記錄劃分成較小的子集,對(duì)于測(cè)試條件的每個(gè)輸出,創(chuàng)造一個(gè)子女結(jié)點(diǎn),并根據(jù)測(cè)試結(jié)果將Dt中的記錄分布到子女結(jié)點(diǎn)中,然后,對(duì)于每個(gè)子女結(jié)點(diǎn),遞歸的調(diào)用該算法。
建立決策樹的偽代碼描述如下:
(2) 選擇最佳劃分的度量
設(shè) P (i|t)表示給定結(jié)點(diǎn)t中屬于類i的記錄所占的比例。選擇最佳劃分的度量可以參照劃分后子女結(jié)點(diǎn)不純性的程度。
對(duì)某組訓(xùn)練模型中的結(jié)點(diǎn),需計(jì)算每個(gè)屬性值的Gini系數(shù),多路劃分的總Gini系數(shù)等于子女節(jié)點(diǎn)的不純度量的加權(quán)平均值。如:當(dāng)選擇根結(jié)點(diǎn)為R1(鼻部癥狀)時(shí),R1產(chǎn)生4路分支,分別是 R1=1(鼻塞),R2=2(黃涕),R3=3(白涕),R4=4(鼻孔干燥)。計(jì)算得到:
圖1 小兒肺炎中醫(yī)辨證分類的決策樹模型
決策樹模型建立后,用200個(gè)病歷作為測(cè)試樣本進(jìn)行測(cè)試,得出小兒肺炎的辨證分類準(zhǔn)確率為82.3%。具有較廣泛的實(shí)用價(jià)值,可用于小兒肺炎中醫(yī)臨床辨證的輔助診斷。
[1] 葉晨洲,楊杰,狄道穎.應(yīng)用數(shù)據(jù)挖掘技術(shù)從大腦膠質(zhì)瘤病例中獲取診斷知識(shí).生物醫(yī)學(xué)工程學(xué)雜志,2002,19(3):426-430
[2] 馮少榮,肖文俊.基于樣本選取的決策樹改進(jìn)算法,西南交通大學(xué)學(xué)報(bào),2009,5
[3] 龔德平,高穎,唐濤,基于數(shù)據(jù)挖掘的數(shù)字化中醫(yī)診斷系統(tǒng),中國(guó)醫(yī)學(xué)影像技術(shù),2003