曹 艷,殷 旭
(北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京100085)
隨著醫(yī)療信息量的增長(zhǎng),數(shù)據(jù)挖掘技術(shù)在醫(yī)療領(lǐng)域得到廣泛應(yīng)用。決策樹C4.5算法因其具有直觀、高效和結(jié)果易于理解的特點(diǎn)備受 關(guān)注。Jinn-Yi Yeh等[1]使 用C4.5 算法得到透析病人是否需要住院治療和相關(guān)癥狀的關(guān)系,以合理安排住院和治療方案;Zerina Maetic等[2]綜合使用自回歸 (AR)特征提取模塊和C4.5算法檢測(cè)分離正常和充血性心臟衰竭,分類準(zhǔn)確率高達(dá)99.77。在對(duì)乳腺癌數(shù)據(jù)分類中,C4.5算法可以較好的控制決策樹的規(guī)模,規(guī)則的可理解性較高[3]。Ture、Tokatli等[4]在對(duì)乳腺癌患者的無復(fù)發(fā)生存期預(yù)測(cè)實(shí)驗(yàn)中發(fā)現(xiàn)C4.5在準(zhǔn)確度和樹結(jié)構(gòu)方面優(yōu)于CART、CHAID、QUEST 和ID3 算法。上述研究中C4.5都取得了較好效果,但都建立在均衡數(shù)據(jù)基礎(chǔ)之上,為了提高整體分類精確度,可能將某些少數(shù)類數(shù)據(jù)作為可允許誤差進(jìn)行錯(cuò)誤分類。不均衡數(shù)據(jù)處理主要是對(duì)數(shù)據(jù)集進(jìn)行重構(gòu),數(shù)據(jù)重構(gòu)通常采用欠采樣技術(shù)、過采樣技術(shù)和Chawla等提出的SMOTE (synthetic minority oversampling technique)算法[5]。文獻(xiàn) [6-11]分別是近年針對(duì)不均衡數(shù)據(jù)提出的處理方法。SMOTE 算法與主動(dòng)學(xué)習(xí)算法[6]集成使用,在一定程度上避免數(shù)據(jù)不均衡帶來的分類偏倚問題;許丹丹等從數(shù)據(jù)水平的過抽樣角度出發(fā),提出SMOTE 的改進(jìn)算法ISMOTE算法,更好地提高了不均衡數(shù)據(jù)的分類性能[7];用陰性免疫算法實(shí)現(xiàn)少數(shù)類樣本空間覆蓋,可以避免SMOTE生成的新樣本空間代表性不足的問題[8];在SVM 分類偏倚問題研究中,集成使用代價(jià)敏感學(xué)習(xí)、欠采樣和 過 采 樣 技 術(shù) 效 果 明 顯[9];Wang 等[10]結(jié) 合SMOTE、PSO (particle swarm optimization)和C5.0 算 法 對(duì) 不 均 衡的乳腺癌數(shù)據(jù)分類,發(fā)現(xiàn)經(jīng)SMOTE 處理后分類效果明顯提高;孫濤等醫(yī)學(xué)專家也發(fā)現(xiàn)SMOTE 算法可以對(duì)臨床的不均衡數(shù)據(jù)進(jìn)行有效糾偏[11]。上述方法主要是針對(duì)少數(shù)類數(shù)據(jù)進(jìn)行的,忽略了多數(shù)類數(shù)據(jù)處理,當(dāng)兩類數(shù)據(jù)數(shù)量相差較大,一味增加少數(shù)類數(shù)據(jù)會(huì)造成少數(shù)類分類過度擬合,生成虛假關(guān)系。
SMOTE算法[5]是2002年由Chawla等提出的一種針對(duì)不均衡數(shù)據(jù)集的智能型過抽樣技術(shù),可以有效改善傳統(tǒng)過抽樣技術(shù)帶來的分類過度擬合現(xiàn)象,解決分類結(jié)果偏倚問題。
定義1 設(shè)樣本集合為T,x為集合中的單個(gè)樣本,k為搜索的少數(shù)類最鄰近樣本的數(shù)量,向上采樣的倍率為N(N 為可被100整除的數(shù)),在k個(gè)少數(shù)類最鄰近樣本中隨機(jī)選取N/100個(gè)樣本,m1,m2,…,mn,在x與m1(j=1,2,…,n)之間隨機(jī)線性插入0到1之間的數(shù),形成新的少數(shù)類樣本qj
SMOTE算法的核心思想是首先尋找每個(gè)少數(shù)類樣本的k個(gè)最鄰近樣本,然后選取其中N/100個(gè),分和少數(shù)類樣本兩兩組合,最后在兩個(gè)樣本間進(jìn)行隨機(jī)線性插值,構(gòu)造新的少數(shù)類樣本。
算法的具體是實(shí)現(xiàn)過程是:
輸入:訓(xùn)練樣本集T,最鄰近樣本數(shù)量k,向上采樣倍率N
輸出:少數(shù)類空間擴(kuò)大的訓(xùn)練樣本集T1
(1)判斷N 是否小于100,如果是,則直接對(duì)樣本進(jìn)行隨機(jī)采樣;否則計(jì)算樣本中各決策屬性中樣本的數(shù)量,確定少數(shù)類和多數(shù)類;
(2)根據(jù)k、N 的值和式 (1)合成新的少數(shù)類數(shù)據(jù);
(3)將新生成的少數(shù)類樣本加入原數(shù)據(jù)集中,生成新數(shù)據(jù),算法結(jié)束。
實(shí)驗(yàn)中,在此過程之前,首先應(yīng)使用隨機(jī)抽樣算法抽取訓(xùn)練集中所有的樣本,即對(duì)數(shù)據(jù)進(jìn)行隨機(jī)排序,避免數(shù)據(jù)預(yù)處理時(shí)排序篩選等操作影響最鄰近樣本分布的隨機(jī)性。這樣,既可增大少數(shù)類數(shù)據(jù)的規(guī)模,又可以避免傳統(tǒng)過抽樣中完全復(fù)制少數(shù)類樣本帶來的過度擬合問題。
K-means算法是MacQueen在1967年提出的基于距離的聚類算法,該算法因效率較高得到廣泛應(yīng)用。算法的基本思想是:首先選定聚類數(shù)量K 和K 個(gè)初始聚類中心Zj,依據(jù)距離最小原則將樣本nj分配到距離聚類中心最近的類中,分配完后,計(jì)算每個(gè)類的均值作為新的聚類中心,循環(huán)樣本分配過程,直到聚類收斂為止。聚類的目標(biāo)函數(shù)如下
其中,函數(shù)d(xj,zj)為歐幾里得距離函數(shù),如下
PAM (portioning around medoid),是一種圍繞中心的劃分,試圖對(duì)N 個(gè)對(duì)象進(jìn)行K 個(gè)劃分。該算法首先為每個(gè)類選取一個(gè)初始中心點(diǎn)數(shù)據(jù),剩余的數(shù)據(jù)依據(jù)到與中心點(diǎn)的距離或相異度分配給相近的中心點(diǎn)所在的類;然后反復(fù)地用非代表數(shù)據(jù)替換代表數(shù)據(jù),并使用代價(jià)函數(shù)進(jìn)行評(píng)估聚類質(zhì)量,選取當(dāng)前代表數(shù)據(jù)最好的代替,提高聚類質(zhì)量,得到正確的劃分。
K-means算法聚類效果相對(duì)較好,較為準(zhǔn)確,但對(duì)孤立點(diǎn)和噪聲較為敏感,且需人為指定K 值。而PAM 算法不需要指定聚類數(shù)目K,對(duì)孤立點(diǎn)和噪聲不敏感,且能處理不同類型的數(shù)據(jù),但聚類效果相對(duì)K-means較差。
為了使聚類效果較好,本文采用PAM-means算法,首先使用PAM 算法得到聚類數(shù)量K,然后使用K-means算法對(duì)多數(shù)類數(shù)據(jù)進(jìn)行聚類,將相似度較高的數(shù)據(jù)聚到一簇,相似度較低的數(shù)據(jù)分開。這樣,對(duì)聚類后每個(gè)簇進(jìn)行抽樣所得的數(shù)據(jù)特點(diǎn)基本可代表整個(gè)多數(shù)類數(shù)據(jù)的特點(diǎn),從而避免傳統(tǒng)欠抽樣造成的信息嚴(yán)重丟失問題。
算法的基本流程如下:
(1)PAM 算法聚類,得到K 值;
(2)任意選取K 個(gè)數(shù)據(jù)對(duì)象作為初始聚類中心;
(3)計(jì)算樣本中所有數(shù)據(jù)到聚類中心的距離,如式(3)所示,選擇距離最小的數(shù)據(jù)對(duì)象,并將該數(shù)據(jù)對(duì)象劃分到該聚類中心所在的簇;
(4)計(jì)算每個(gè)簇中數(shù)據(jù)對(duì)象的均值,作為新的聚類中心;
(5)循環(huán)步驟 (3)和步驟 (4),直到聚類中心不再改變;
(6)算法結(jié)束。
決策樹C4.5算法是JR Quinlan于1993在算法ID3的基礎(chǔ)上提出的,相對(duì)于ID3算法,C4.5具有更高的分類精確度,并且可以處理連續(xù)屬性。C4.5算法用信息增益率來選擇決策屬性,對(duì)于連續(xù)屬性要首先進(jìn)行離散化,離散化的依據(jù)是將連續(xù)屬性排序后,從中間開始選取可能分裂點(diǎn),計(jì)算各可能分裂點(diǎn)的信息增益率,將信息增益率最大的點(diǎn)作為分裂點(diǎn)。因此在C4.5算法中對(duì)于連續(xù)屬性的分裂是二元分裂。
C4.5算法利用信息熵原理,以信息增益率作為分類屬性的選擇標(biāo)準(zhǔn),克服了信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足,遞歸的構(gòu)造決策樹[12]。本文在構(gòu)造樹的過程中使用十折交叉驗(yàn)證和測(cè)試集驗(yàn)證對(duì)分類樹進(jìn)行剪枝,不斷的訓(xùn)練樹的結(jié)構(gòu),以達(dá)到最簡(jiǎn)最可靠有效的分類結(jié)果。
算法的具體實(shí)現(xiàn)過程是:
輸入:訓(xùn)練集T,決策屬性C
輸出:決策樹
(1)以T 為根節(jié)點(diǎn)構(gòu)造分類樹;
(2)判斷T 的樣本的決策屬性是否相同,如果相同,那么當(dāng)前節(jié)點(diǎn)即為葉節(jié)點(diǎn),算法結(jié)束;否則,計(jì)算k個(gè)決策類的總信息量;
(3)判斷條件屬性是連續(xù)屬性還是離散屬性,如果是連續(xù)屬性,根據(jù)連續(xù)屬性的可能分裂點(diǎn)的信息增益率對(duì)該屬性進(jìn)行離散化;
(4)分別計(jì)算條件屬性基于決策屬性的條件信息量和分裂信息;
(5)計(jì)算各條件屬性的信息增益率,并選擇最大的為分裂屬性,同時(shí)將該屬性對(duì)應(yīng)的樣本作為子分類樣本集;
(6)針對(duì)選中的分裂屬性,根據(jù)分裂信息構(gòu)建對(duì)應(yīng)的節(jié)點(diǎn),并將對(duì)應(yīng)的樣本劃分到該節(jié)點(diǎn)下;
(7)重復(fù)步驟 (2)到步驟 (6),對(duì)個(gè)訓(xùn)練樣本子集進(jìn)行劃分,生成新的決策分支,直到?jīng)]有可以再分的屬性,算法停止。
C4.5算法雖然可以比較準(zhǔn)確有效的對(duì)連續(xù)和離散數(shù)據(jù)進(jìn)行分類,但是沒有針對(duì)數(shù)據(jù)本身分布不均的特點(diǎn)進(jìn)行處理,尤其是在遇到普遍存在不均衡性的醫(yī)學(xué)數(shù)據(jù)時(shí),C4.5算法為了保證整體分類精確度,很容易產(chǎn)生不可預(yù)知的偏倚性,將少數(shù)類數(shù)據(jù)誤分到多數(shù)類中,隱藏少數(shù)類數(shù)據(jù)的信息,造成靈敏度較高,特異度較低的結(jié)果。因此合理的對(duì)不均衡數(shù)據(jù)進(jìn)行均衡處理至關(guān)重要。
本文以腦卒中高危因素篩查和防治項(xiàng)目的調(diào)查問卷數(shù)據(jù)為樣本數(shù)據(jù),分析與腦卒中相關(guān)的因素之間的關(guān)系,并預(yù)測(cè)患腦卒中的風(fēng)險(xiǎn),為有效干預(yù)腦卒中預(yù)防提供支持。
提高少數(shù)類的分類性能是不均衡數(shù)據(jù)分類問題的研究重點(diǎn),表1是3類數(shù)據(jù)集的混淆矩陣,這3類數(shù)據(jù)的標(biāo)號(hào)分別為A、B和C,以A 類為例,TA 為A 類正確分類的樣本數(shù)量,F(xiàn)AB表示A 類樣本誤分到B類的樣本數(shù)量,F(xiàn)AC表示A 類樣本誤分到C類的樣本數(shù)量。
表1 3類數(shù)據(jù)集的混淆矩陣
分類模型中常用的評(píng)價(jià)標(biāo)準(zhǔn)為精確度Accuracy,體現(xiàn)分類的整體性能,但不能合理準(zhǔn)確的評(píng)價(jià)不均衡數(shù)據(jù)集的分類性能。對(duì)于不均衡數(shù)據(jù)分類評(píng)價(jià)標(biāo)準(zhǔn)常用F-measure,是查全率Recall和查準(zhǔn)率Precision的組合,β通常為1。只有少數(shù)類的查全率和查準(zhǔn)率都大時(shí),少數(shù)類的F-measure才會(huì)大,因此他能正確的反應(yīng)少數(shù)類的分類性能。式 (5)、式 (6)和式 (7)分別是類A 的F-measure(A)、查準(zhǔn)率Precision (A)和查全率Recall(A),分類的總體Recall在3類數(shù)據(jù)集分類中為每類查全率的加權(quán)均值,權(quán)重為各類樣本所占比例,整體Precision和F-measure同Recall。
原始數(shù)據(jù)集有冗余數(shù)據(jù)、缺失數(shù)據(jù)、不確定數(shù)據(jù)和不一致數(shù)據(jù)等,導(dǎo)致結(jié)果不準(zhǔn)確、不全面,甚至得出錯(cuò)誤的規(guī)則。所以首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)噪聲帶來的分類問題。
此次調(diào)查問卷得到的原數(shù)據(jù)共有524條記錄,100個(gè)數(shù)據(jù)項(xiàng),其中除了與腦卒中相關(guān)的數(shù)據(jù)項(xiàng),還有大量的與腦卒中無關(guān)的個(gè)人統(tǒng)計(jì)學(xué)信息和醫(yī)院信息,如姓名,民族,篩查日期等。
首先刪除如姓名、篩查日期等無關(guān)信息,去除數(shù)據(jù)項(xiàng)中只包含一兩條記錄的數(shù)據(jù)項(xiàng)。其次,整合數(shù)據(jù),在醫(yī)生專家的指導(dǎo)下將某些數(shù)據(jù)項(xiàng)整合到一起形成新的數(shù)據(jù)項(xiàng),如在判斷是否是家族遺傳腦卒中時(shí),可以將父母、子女、兄弟姐妹中有得腦卒中的情況視為有家族遺傳腦卒中;將身高體重合并為身體質(zhì)量指數(shù) (BMI)作為衡量身體胖瘦程度的標(biāo)準(zhǔn)等。經(jīng)過這些處理,數(shù)據(jù)中包含15項(xiàng)數(shù)據(jù)項(xiàng),179條數(shù)據(jù)。最后,統(tǒng)一數(shù)據(jù)格式,并用出現(xiàn)頻率最高的數(shù)據(jù)填充本數(shù)據(jù)項(xiàng)中個(gè)別的缺失值。最后生成的數(shù)據(jù)形式見表2。
表2 腦卒中數(shù)據(jù)
表2中與腦卒中相關(guān)的數(shù)據(jù)項(xiàng)包括決策屬性患腦卒中的風(fēng)險(xiǎn)和條件屬性年齡、性別、身體質(zhì)量指數(shù) (BMI)、是否從事輕體勞動(dòng)、體育鍛煉情況、是否有腦卒中史、是否有短暫性腦缺血發(fā)作史 (TIA)、是否患有高血壓、是否有過房顫或瓣膜性心臟病 (AF/AHD)、是否吸煙、是否飲酒、是否有血脂異常、是否有慢性病史、是否是家族遺傳腦卒中。數(shù)據(jù)中性別項(xiàng)F表示女性,M 表示男性;體育鍛煉情況1表示有規(guī)律性鍛煉,2表示有鍛煉但不規(guī)律,3表示無體育鍛煉;其它數(shù)據(jù)項(xiàng)中1表示是,2表示否;決策屬性有3個(gè)取值L、M、H,分別表示低危、中危和高危。
整個(gè)實(shí)驗(yàn)過程如圖1所示,數(shù)據(jù)預(yù)處理后進(jìn)行均衡判斷,首先統(tǒng)計(jì)每個(gè)類中記錄數(shù),找出記錄數(shù)的最大值max和最小值min,然后對(duì)max和min做商,如果max/min<3則判斷數(shù)據(jù)均衡,直接進(jìn)入C4.5分類器進(jìn)行分類;否則判斷該數(shù)據(jù)集存在不均衡性,需要先進(jìn)行均衡處理,然后進(jìn)入分類模塊。
(1)菌種活化分別取適量乳桿菌菌株凍干菌粉接種于10 mL滅苗MRS肉湯培養(yǎng)基中,旋渦混勻于37℃在恒溫培養(yǎng)箱中培養(yǎng)24 h得到一代菌懸液。按5%的接種量將一代菌懸液接種于MRS肉湯培養(yǎng)基中,37℃恒溫培養(yǎng)24 h得二代菌懸液。重復(fù)上述步驟37℃恒濕培養(yǎng)18 h,進(jìn)行第三次活化得到三代活化菌懸液,4℃冰箱儲(chǔ)存?zhèn)溆谩?/p>
圖1 模型實(shí)現(xiàn)流程
均衡處理的工作流程如圖2所示,生成的是均衡處理后的均衡數(shù)據(jù)集。整個(gè)均衡處理過程包含兩個(gè)部分,一部分針對(duì)少數(shù)類數(shù)據(jù),首先對(duì)整個(gè)數(shù)據(jù)集抽樣,抽樣方式為不可重復(fù)抽樣,數(shù)量為數(shù)據(jù)集數(shù)量,使各記錄隨機(jī)排序,然后使用SMOTE 生成新的少數(shù)類數(shù)據(jù)。排除預(yù)處理時(shí)篩選排序等操作對(duì)SMOTE 算法的影響,確保SMOTE 得到的數(shù)據(jù)是隨機(jī)綜合多數(shù)類數(shù)據(jù)和少數(shù)類數(shù)據(jù)得到的,避免SMOTE生成的數(shù)據(jù)僅來源于少數(shù)類數(shù)據(jù)而造成過度擬合問題。針對(duì)多數(shù)類數(shù)據(jù),主要是進(jìn)行欠抽樣,但考慮到欠抽樣帶來的信息丟失問題,首先對(duì)多數(shù)類數(shù)據(jù)做PAMmeans聚類,然后計(jì)算聚類結(jié)果中每簇中各個(gè)分類屬性的樣本數(shù)量,按比例進(jìn)行抽樣,使最終得到的數(shù)據(jù)集中每類數(shù)據(jù)的數(shù)量相當(dāng)。
圖2 數(shù)據(jù)均衡處理流程
原始C4.5算法分類結(jié)果的混淆矩陣如表3所示。表3顯示樣本總量為179,其中P=L 的有104例,P=H 的有66例,而P=M 的只有9例,P=M 相對(duì)P=L和P=H 類別屬于少數(shù)類?;煜仃囷@示P=M 類中只9例樣本,只有44.445% 正 確 分 類,有33.333% 偏 向p =L 類,22.222%偏向P=H 類,即大部分少數(shù)類數(shù)據(jù)被誤分到其它類別。而P=H 類別中,分類正確的占78.788%,分類偏向P=M 類的7.576%,偏向P=L類的13.636%。對(duì)于多數(shù)類P=L,只有2例被誤分到了P=H 類中??v向看,P=M 類9例中只有4例來自正確數(shù)據(jù),其余都是P=H 類錯(cuò)誤分類的結(jié)果。綜上所述,少數(shù)類數(shù)據(jù)的分類性能極差,結(jié)果不能正確體現(xiàn)少數(shù)類數(shù)據(jù)的特點(diǎn)。因此,不均衡的腦卒中數(shù)據(jù)在C4.5算法分類中存在嚴(yán)重的分類偏倚問題,解決數(shù)據(jù)不均衡問題是改善分類性能的首要問題。
表3 C4.5算法分類混淆矩陣
為了解決分類偏倚問題,實(shí)驗(yàn)中分別對(duì)原始數(shù)據(jù)做了不同的均衡處理,包括欠采樣、過采樣、SMOTE 和SMOTE&PAM-means算法,然后用C4.5 算法進(jìn)行分類,分類過程中采用十折交叉驗(yàn)證對(duì)樹進(jìn)行剪枝。均衡處理過程中,欠采樣以少數(shù)類樣本數(shù)量為標(biāo)準(zhǔn)分別對(duì)兩個(gè)多數(shù)類進(jìn)行欠采樣,形成新的數(shù)據(jù)集。SMOTE 算法處理數(shù)據(jù),形成的均衡數(shù)據(jù)集中P=M 含有27例樣本。過采樣中少數(shù)類數(shù)據(jù)數(shù)量與SMOTE 處理結(jié)果中P=M 類的樣本數(shù)量相同,同時(shí)從多數(shù)類數(shù)據(jù)中隨機(jī)取一半數(shù)據(jù),以便與SMOTE和原始C4.5算法進(jìn)行F-measure和驗(yàn)證精確度的對(duì)比。由于均衡處理后進(jìn)入分類器的數(shù)據(jù)為部分原始數(shù)據(jù),所以使用整個(gè)原始數(shù)據(jù)集對(duì)生成的規(guī)則進(jìn)行驗(yàn)證,得到驗(yàn)證精確度。
原始C4.5算法、欠采樣+C4.5 算法、過采樣+C4.5算法、SMOTE+C4.5算法和最終改進(jìn)的SMOTE&PAMmeans+C4.5算法分類結(jié)果對(duì)比見表4。
表4 各算法結(jié)果對(duì)比
表4中顯示均衡處理后,分類樹的結(jié)構(gòu)有不同程度的簡(jiǎn)化,樹的節(jié)點(diǎn)和葉節(jié)點(diǎn)數(shù)都減少,過采樣簡(jiǎn)化程度相對(duì)最小,SMOTE&PAM-means+C4.5 相對(duì)最大。從均衡角度分析,原始C4.5算法的F-measure(M)值僅0.394,而整體F-measure值為0.879,相對(duì)較大,說明少數(shù)類分類性能比較差,而多數(shù)類分類性能很好,再次說明原始C4.5算法的分類結(jié)果嚴(yán)重偏倚。均衡處理后,少數(shù)類的分類性能都有明顯提高,但整體F-measure 只有SMOTE&PAMmeans+C4.5算法有明顯改善,其它3 種都有不同程度的下降,說明只針對(duì)少數(shù)類數(shù)據(jù)進(jìn)行的均衡會(huì)造成多數(shù)類數(shù)據(jù)信息嚴(yán)重丟失,影響整體的分類性能,使得均衡處理得不償失。而SMOTE&PAM-means+C4.5算法的分類精確度和驗(yàn)證精確度也明顯提高。因此,SMOTE&PAM-means+C4.5算法同時(shí)對(duì)少數(shù)類和多數(shù)類數(shù)據(jù)進(jìn)行處理,可有效增大少數(shù)類樣本空間的同時(shí)需減少多數(shù)類樣本信息損失量,改善不均衡數(shù)據(jù)分類偏倚問題,提高分類性能。
SMOTE&PAM-means+C4.5算法生成的樹結(jié)構(gòu)如圖3所示,對(duì)應(yīng)的規(guī)則如下:
規(guī)則2:如果慢性病史=1∧腦卒中史=2∧飲酒=1,則風(fēng)險(xiǎn)=H;
規(guī)則3:如果慢性病史=1∧腦卒中史=2∧飲酒=2∧年齡>66,則風(fēng)險(xiǎn)=H;
規(guī)則4:如果慢性病史=1∧腦卒中史=2∧飲酒=2∧年齡<=66,則風(fēng)險(xiǎn)=M;
規(guī)則5:如果慢性病史=2∧腦卒中史=1,則風(fēng)險(xiǎn)=H;
規(guī)則6:如果慢性病史=2∧腦卒中史=2∧血脂異常=2,則風(fēng)險(xiǎn)=L;
規(guī)則7:如果慢性病史=2∧腦卒中史=2∧血脂異常=1∧高血壓=1,則風(fēng)險(xiǎn)=H;
規(guī)則8:如果慢性病史=2∧腦卒中史=2∧血脂異常=1∧高血壓=2,則風(fēng)險(xiǎn)=L。
圖3 SMOTE&PAM-means+C4.5算法生成的樹結(jié)構(gòu)
實(shí)驗(yàn)結(jié)果顯示,在沒有慢性病史的情況下,腦卒中史或血脂異常、高血壓都會(huì)增大病人患腦卒中的概率,使病人處于高?;疾∪巳骸6谟新圆∈返那闆r下,腦卒中史仍是導(dǎo)致病人患腦卒中的關(guān)鍵因素;同時(shí),對(duì)于沒有腦卒中史的人,飲酒和年齡大于66歲是兩個(gè)導(dǎo)致腦卒中發(fā)病的關(guān)鍵因素。因此,此預(yù)測(cè)模型有助于人們尤其是老年人及時(shí)了解自身健康情況,準(zhǔn)確預(yù)測(cè)腦卒中發(fā)病風(fēng)險(xiǎn),并根據(jù)自身情況,尋求更適合自己遠(yuǎn)離腦卒中的預(yù)防措施,最終達(dá)到有效干預(yù)腦卒中預(yù)防治療的效果。
基于均衡分類的腦卒中風(fēng)險(xiǎn)預(yù)測(cè)模型中SMOTE&PAM-means+C4.5算法對(duì)少數(shù)類數(shù)據(jù)進(jìn)行了處理,通過少數(shù)類數(shù)據(jù)和少數(shù)類最鄰近的樣本生成新的少數(shù)類數(shù)據(jù),一定程度增大少數(shù)類數(shù)據(jù)規(guī)模。同時(shí)對(duì)多數(shù)類進(jìn)行PAM-means聚類,然后按比例對(duì)每簇樣本進(jìn)行隨機(jī)抽樣,達(dá)到少數(shù)類和多數(shù)類數(shù)據(jù)均衡的效果。通過實(shí)驗(yàn)可知,均衡后有效解決了分類結(jié)果偏倚問題,并且分類精確度和樹的結(jié)構(gòu)也得到了改善。此模型生成了8條腦卒中風(fēng)險(xiǎn)預(yù)測(cè)規(guī)則,為人們及時(shí)準(zhǔn)確的預(yù)測(cè)腦卒中風(fēng)險(xiǎn)提供依據(jù)。在以后的工作中我們將進(jìn)一步研究如何更有效解決不均衡數(shù)據(jù)分類問題,提高最終準(zhǔn)確度的分類,簡(jiǎn)化樹的結(jié)構(gòu),為疾病的有效預(yù)防治療等提供數(shù)據(jù)支持。
[1]Jinn-Yi Yeh,Tai-Hsi Wu,Chuan-Wei Tsao.Using data mining techniques to predict hospitalization of hemodialysis patients [J].Decision Support Systems,2011,50 (1):439-448.
[2]Zerina Masˇetic,Abdulhamit Subasi.Detection of congestive heart failure using C4.5decision [J].Southeast Europe Journal of Soft Computing,2013,2 (2):74-77.
[3]LI Zhi,LI Guolin.Comparative study of C4.5and CART algorithm in medical data mining [J].Electronic Technology &Software Engineering,2013,10 (3):47-48 (in Chinese).[李治,李國(guó)琳.C4.5 和CART 算法在醫(yī)學(xué)數(shù)據(jù)挖掘中的對(duì)比研究 [J].電子技術(shù)與軟件工程,2013,10 (3):47-48.]
[4]MevlutTure,F(xiàn)usunTokatli,Imran Kurt.Using Kaplan-Meier analysis together with decision tree methods(CART,CHAID, QUEST,C4.5and ID3)indetermining recurrence-free survi-val of breast cancer patients [J].Expert Systems with Applications,2009,36 (2):2017-2026.
[5]Chawla NV,Bowyer K,Hall L,et al.SMOTE:Synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16 (1):321-357.
[6]ZHANG Yong,LI Zhuoran,LIU Xiaodan.Active learning SMOTE based imbalanced data classification [J].Computer Application and Software,2012,29 (3):91-94 (in Chinese).[張永,李卓然,劉曉丹.基于主動(dòng)學(xué)習(xí)SMOTE 的非均衡 數(shù) 據(jù) 分 類 [J].計(jì) 算 機(jī) 應(yīng) 用 軟 件,2012,29 (3):91-94.]
[7]XU Dandan,WANG Yong,CAI Lijun.ISMOTE algorithm for imbalanced data set[J].Journal of Computer Application,2011,30 (9):2399-2401 (in Chinese).[許丹丹,王勇,蔡立軍.面向不均衡數(shù)據(jù)集的ISMOTE 算法 [J].計(jì)算機(jī)應(yīng)用,2011,30 (9):2399-2401.]
[8]TAO Xinmin,XU Jing,TONG Zhijing,et al.Over-sampling algorithm based on negative immune in imbalanced data sets learning [J].Control and Decision,2010,25 (6):1-7(in Chinese).[陶新民,徐晶,童志靖,等.不均衡數(shù)據(jù)下基于陰性免疫的過抽樣新算法[J].控制與決策,2010,25 (6):1-7.]
[9]Tang Y,Zhang YQ,Chawla NV,et a1.SVMs modeling for highly imbalanced classifications [J].IEEE Transaction on Systems,Man,and Cybernetics,Part B:Cybernetics,2009,39 (1):281-288.
[10]Wang K J,Makond B,Chen KH,et al.A hybrid classifier combining SMOTE with PSO to estimate 5-year survivability of breast cancer patients [J].Applied Soft Computing,2014,20 (3):15-24.
[11]SUN Tao,WU Haifeng,LIANG Zhigang,et al.SMOTE algorithm in the application of imbalanced data [J].Beijing Biomedical Engineering,2012,31 (5):528-530 (in Chinese).[孫濤,吳海豐,梁志剛,等.SMOTE算法在不平衡數(shù)據(jù)中的應(yīng)用 [J].北京生物醫(yī)學(xué)工程,2012,31 (5):528-530.]
[12]Zhong L,Wang B,Wang Z,et al.Research and application of massive data processing technology [C]//8th International Conference on Computer Science & Education.IEEE,2013:829-833.