張新英,付川南
(中原工學院信息商務學院,河南 鄭州 451191)
一種高效的多類型數(shù)據(jù)挖掘算法
張新英,付川南
(中原工學院信息商務學院,河南 鄭州 451191)
已有大部分挖掘算法基本是針對兩類數(shù)據(jù)來發(fā)現(xiàn)對照模式以挖掘所需信息,但是針對多類型數(shù)據(jù)發(fā)現(xiàn)對照模式的數(shù)據(jù)挖掘仍面臨挑戰(zhàn)。關(guān)聯(lián)規(guī)則挖掘算法的缺陷是因為要生成大量規(guī)則,然而這其中卻包含較多的冗余規(guī)則,非冗余規(guī)則挖掘算法盡管去除了冗余規(guī)則,然而有些規(guī)則針對特定應用領(lǐng)域的數(shù)據(jù)興趣度太低,所以文中給出一種高效的多類型數(shù)據(jù)挖掘算法。所給算法根據(jù)統(tǒng)計方法定義了誘因模式與安全模式,并實現(xiàn)在多類醫(yī)療數(shù)據(jù)中發(fā)現(xiàn)所定義的兩種模式。仿真實驗給出多類醫(yī)療數(shù)據(jù)的直觀因果關(guān)系圖,且由所給算法生成的規(guī)則所獲得的分類器證實了所給算法的高效性與實用性。所給算法生成的規(guī)則提供了精確且非常有用的信息,能夠在諸如醫(yī)療研究領(lǐng)域中實際應用。
數(shù)據(jù)挖掘;多類型數(shù)據(jù);優(yōu)化規(guī)則;興趣度
針對多類型數(shù)據(jù)發(fā)現(xiàn)對照模式實現(xiàn)數(shù)據(jù)挖掘目前愈來愈備受關(guān)注,以往用于比較正常與非正常兩類樣本所獲取的相關(guān)模式集,大多均是采用數(shù)據(jù)分析工具(比如SPSS)實現(xiàn),但該方式效率低而且較為復雜,特別是用于多類型數(shù)據(jù)時,如果要實現(xiàn)全面比較以挖掘出有用的信息是非常不易的[1]。然而,在多類型數(shù)據(jù)中挖掘有用的信息對于諸如醫(yī)療領(lǐng)域研究來說是相當重要的。規(guī)則發(fā)現(xiàn)[2-3]是機器學習與數(shù)據(jù)挖掘研究的重點和熱點,而制約關(guān)聯(lián)規(guī)則應用的缺陷主要是生成的規(guī)則數(shù)量龐大,同時將會有大量的冗余規(guī)則。目前已有數(shù)據(jù)挖掘算法的重點主要是聚焦在頻繁項集如何高效生成[4]。比如,文獻[5]定義的頻繁閉項集和文獻[6]定義的最大頻繁項集主要通過減少頻繁項集個數(shù)以制約生成的規(guī)則個數(shù),但是還是仍然生成了較多的冗余規(guī)則。文獻[7]提出的非冗余規(guī)則生成算法盡管去除了大量冗余規(guī)則,但在特定應用領(lǐng)域中仍然有很多冗余規(guī)則,主要是由于生成的規(guī)則對于特定應用領(lǐng)域的興趣度太低或是沒有興趣,因此在特定應用領(lǐng)域中,發(fā)現(xiàn)興趣度大的規(guī)則要比發(fā)現(xiàn)關(guān)聯(lián)規(guī)則具有更重要的意義,所以優(yōu)化的發(fā)現(xiàn)規(guī)則應是可以挖掘出最大化興趣度的規(guī)則,因而則需要一個度量函數(shù)來用于定義興趣度?,F(xiàn)有的多數(shù)挖掘算法因為所挖掘出的結(jié)果很難被解釋、生成的規(guī)則數(shù)量過多、不關(guān)心興趣度等諸多原因,通常很少會被用在醫(yī)療領(lǐng)域數(shù)據(jù)的研究上[8]。挖掘算法的主要目的不只是要發(fā)現(xiàn)頻繁模式,更為重要的目的是發(fā)現(xiàn)針對特定領(lǐng)域感興趣的模式。對于醫(yī)療領(lǐng)域的數(shù)據(jù)挖掘,其目的是在多類醫(yī)療數(shù)據(jù)中挖掘出對應的誘因模式與安全模式,所挖掘出的模式對醫(yī)療領(lǐng)域研究者而言非常有價值。文中給出一種高效的多類型數(shù)據(jù)挖掘算法(an Efficiency Mining algorithm for Multiple Class Data, EMMCD)。所給算法針對醫(yī)療領(lǐng)域數(shù)據(jù),首先根據(jù)統(tǒng)計方法定義了興趣度度量函數(shù),并利用該函數(shù)挖掘出不包含冗余規(guī)則的最大興趣度規(guī)則,其次根據(jù)最大興趣度規(guī)則定義誘因模式與安全模式,且在多類型醫(yī)療數(shù)據(jù)中挖掘出所定義的兩種模式。仿真結(jié)果表明,所給EMMCD算法挖掘出多類醫(yī)療數(shù)據(jù)中的誘因模式與安全模式具備有效性與實用性,同時根據(jù)挖掘出的兩種模式畫出了因果分析圖,且所挖掘出的結(jié)果要比關(guān)聯(lián)規(guī)則挖掘的結(jié)果更為清晰與直觀,可以更為適用于醫(yī)療領(lǐng)域數(shù)據(jù)的研究分析。
所給EMMCD算法假設(shè)以醫(yī)療數(shù)據(jù)作為應用背景。采用A,B,C,D表示病人某類疾病不同的癥狀,用下標1,2,3,…表示每種癥狀不同的發(fā)病狀態(tài),則病人的某疾病元組可表示為(Ai,Bj,CS,Dt,Lk),其中Ai為病人A癥狀的發(fā)病狀態(tài)值為Ai(i=1,2,3,…,m),Bj為病人B癥狀的發(fā)病狀態(tài)值為Bj(j=1,2,3,…,n),CS為病人C癥狀的發(fā)病狀態(tài)值為Cs(s=1,2,3,…,u),Dt為病人D癥狀的發(fā)病狀態(tài)取為Dt(t=1,2,3,…,v),Lk為疾病分類標簽,表示病人在經(jīng)診斷之后確定為Lk(k=1,2,3,…,w)型疾病。
假設(shè)某疾病癥狀全集I={p1,p2,…,pr},集合P={p1,p2,…,pq}?I表示取全集I中的一個或一系列屬性對,稱P為模式或模式集合,記為Pattern,簡稱模式P。例如,集合{發(fā)燒,咳嗽}為兩個屬性對組成的模式,則可簡稱模式P={發(fā)燒,咳嗽}。
令P為一個模式或模式集合,N為數(shù)據(jù)集的總記錄個數(shù),Count(P)為包含模式P的記錄個數(shù)。則P的支持度Support(P)計算如式(1)所示,表示包含模式P的記錄個數(shù)占整個數(shù)據(jù)集記錄總數(shù)的比值。
(1)
如果當前記錄總數(shù)為N,包含模式P的記錄為X。則P的支持度為X/N。令Supportmin為用戶指定的支持度閾值,若Support(P)>Supportmin,則稱模式P是頻繁的。
令P為一個模式或模式集合,Lk為一個顯型疾病。則稱P在Lk中的支持度為模式P的類內(nèi)支持度Inter_Support(P,Lk),其計算如式(2)所示。
(2)
若規(guī)則P→Lk滿足Inter_Support(P,Lk)≥Support(Lk),則稱P在Lk中是頻繁的。其中,Support(Lk)表示在用戶定義的多顯型數(shù)據(jù)集中,每個顯型模式均需要滿足的最小支持度閾值,且規(guī)定Support(Lk)=2。同時,假定模式Px為P所有超集的集合。若Inter_Support(Px,Lk)≥Support(Lk),則稱模式Px在Lk上是頻繁的;反之,若0≤Inter_Support(Px,Lk)≤Support(Lk),則稱模式Px在Lk上是不頻繁的。
假定有模式集合F={P,Pa,Pab,…,Pabcd},模式Pa為P的超集,模式Pab為Pa與P的超集,據(jù)此類推,模式Pabcd表示除自身之外所有集合的超集。則稱集合F是以P為公共前綴的前綴規(guī)則集。
以模式P為前綴的規(guī)則集F={Pa,Pab,…,Pabcd}滿足Pa→Lk,Pab→Lk,…,Pabcd→Lk。假如不存在P′∈P滿足P′→Lk,則模式Pa為導出類型Lk的最簡模式;假如不存在Pabcd∈P″滿足P″→Lk,則模式Pabcd為導出類型Lk的精確模式。
一個模式P對于特定顯型Lk的興趣度可以用關(guān)聯(lián)規(guī)則的支持度來表示,如式(3)所示。
(3)
式中,Support(P,-Lk)=Support(P)-Support(P,Lk),Support(-P,Lk)=Support(Lk)-Support(P,Lk),Support(-P,-Lk)=1-Support(P)-Support(Lk)+Support(P,Lk)。OR是用來評估模式與某類疾相關(guān)程度的興趣度度量函數(shù),其取值為[0,∞),通過計算P對應的OR值可以得到其在不同顯型中的重要程度。
定義1:假定模式P={P1,P2,…,Pq},疾病類型Lk∈L(k=1,2,…,w)。如果OR(P→Lk)≥δ,則稱模式P為導致疾病Lk類的誘因模式,其中δ為用戶定義的最小閾值。也即表示模式P對Lk類疾病的貢獻率大于所給定閾值的模式;
定義2:假定模式P={P1,P2,…,Pq},疾病類型Lk∈L(k=1,2,…,w)。如果OR(P→Lk)≤λ,則稱模式P為導致疾病Lk類的安全模式,其中λ為用戶定義的最大閾值。也即表示模式P對Lk類疾病的貢獻率低于所給定閾值的模式。
在文獻[9]中給出了OR值對照表。針對某一給定模式P與Lk,OR>10表示P與Lk具有強烈的正相關(guān)性,則稱模式P是疾病Lk的誘因模式;OR<1表示P與Lk負相關(guān),則稱模式P是疾病Lk的安全模式,即該模式的出現(xiàn)不會導致病人感染Lk類疾病,對疾病具有預防與安全作用。1 優(yōu)化的規(guī)則集需滿足如下條件:1) 每個顯型中的模式均是頻繁的;2) 如果一個前綴規(guī)則集中所有模式均能推導出某顯型,則僅保留置信度最高的模式;3) 特定應用領(lǐng)域知識興趣度最大的模式。則可導出以下優(yōu)化規(guī)則集定理: 定理1:給定類內(nèi)支持度的閾值γ,前綴規(guī)則集F={P,Pa,Pab,…,Pabcd},對應的顯型疾病為Lk(k=1,2,3,…,w)。如果模式P滿足0≤Inter_Support(P,Lk)≤γ,則P及其所有超集包括Pa將不會成為優(yōu)化規(guī)則集。(說明:該定理描述的僅是多顯型疾病中的局部支持度,不是全局支持度,避免有些疾病數(shù)量相對較少而導致支持度相對全局很高而局部很低的情況,以減少冗余規(guī)則。這有別于關(guān)聯(lián)規(guī)則中定義的支持度。) 定理2:假定前綴規(guī)則集F={P,Pa,Pab,…,Pabcd}中所有模式均滿足類內(nèi)支持度最小閾值γ,對應的顯型疾病為Lk(k=1,2,3,…,w)。如果存在Support(P)=Support(Pa),其中Pa是模式P的超集,則模式Pa及其超集將不會成為優(yōu)化規(guī)則集。 定理3:假定前綴規(guī)則集F={P,Pa,Pab,…,Pabcd}中的所有模式都滿足類內(nèi)支持度最小閾值γ,對應的顯型疾病為Lk(k=1,2,3,…,w),令-Lk表示除Lk以外的全部顯型疾病。如果存在Support(P,-Lk)=Support(Pa,-Lk),其中Pa是模式P超集,則模式Pa及其超集將不會成為優(yōu)化規(guī)則集。 下面給出用于挖掘出誘因模式與安全模式的EMMCD算法,具體描述如算法1所示。算法1獲得的誘因模式與安全模式規(guī)則集要遠遠小于關(guān)聯(lián)規(guī)則產(chǎn)生的規(guī)則集,為使挖掘結(jié)果能夠進一步方便研究者閱讀和理解,可在每個Lk類中選擇值最優(yōu)的若干個誘因模式與安全模式,可使挖掘結(jié)果更具代表性,然而這種挖掘出的模式只是數(shù)據(jù)集的其中一部分,所得結(jié)果的精確性可能不夠高,因此要根據(jù)實際需求選擇所需的優(yōu)化模式。算法1中的函數(shù)1是用于產(chǎn)生候選項模式集的生成函數(shù)。所有產(chǎn)生的候選模式集均是基于前綴生成樹結(jié)構(gòu),通過采用CIk-1CIk-1方法結(jié)合獲取候選項集,這可在規(guī)則形成之前削減很多冗余規(guī)則。其中,假設(shè)整個算法的最小類內(nèi)支持度為Inter_Support=2?;静襟E如下所示: 步驟1:首先生成頻繁候選模式集1-pattern。如果候選模式集的支持度已經(jīng)小于最小類內(nèi)支持度閾值γ(其中γ=Inter_Support),則可直接削減規(guī)則而不需考慮類內(nèi)支持度。例如:如果{C0}與{D3}的項集個數(shù)已經(jīng)不滿足最小約束,將會全部被削減掉。削減掉C0等于削減掉對應的A0C0,A1C0,…,A2B1C0D3等46個子模式,這些子模式將不會出現(xiàn)在候選項集中,D3同理。否則,按照定理1削減掉不滿足類內(nèi)支持度的規(guī)則,被削減掉的項將不會再參與下層運算;(d+1)-pattern 步驟2:然后利用函數(shù)1[10]產(chǎn)生候選模式集(d+1)-pattern。如果候選模式集(d+1)-pattern的類內(nèi)支持度小于最小類內(nèi)支持度閾值γ,則采用定理1直接削減規(guī)則;否則,如果在候選模式集中包含于超集Pa的模式P滿足定理2或定理3,則需刪除模式P。其中,由于定理3能夠削減掉興趣度較低的規(guī)則,所以它非常重要且必不可少。例如:如果Support(A0D1,-L1)=Support(A0,-L1),則L1在候選規(guī)則(A0,D2,L1,L2)中將會被刪除。在削減掉了大量的冗余規(guī)則后即可獲得感興趣的非冗余規(guī)則; 步驟3:再次通過計算削減規(guī)則后模式集的興趣度OR值,然后根據(jù)OR值發(fā)現(xiàn)合適的誘因模式與安全模式,產(chǎn)生新的下一層模式集,然后重復執(zhí)行步驟2的規(guī)則削減步驟,最后返回最大興趣度優(yōu)化規(guī)則模式集。 算法1 EMMCD多類數(shù)據(jù)挖掘算法 輸入:多類數(shù)據(jù)集合I,最小類內(nèi)支持度閾值γ; 輸出:最終挖掘出的模式集S。 1. 令S=φ,d=1; 2. 產(chǎn)生模式集d-pattern添加到各自的集合中; 3. 計算模式集d-pattern中每個模式的支持度Support(P); 3.1 若Support(P)<γ,則直接刪除模式P及其子模式來削減規(guī)則; 3.2 若Support(P)≥γ,則執(zhí)行: 3.2.1 計算模式集d-pattern的每個類內(nèi)支持度Inter_Support(Pa,Lk); 3.2.2 如果Inter_Support(Pa,Lk)<γ,則采用定理1削減規(guī)則; 4. 利用函數(shù)1產(chǎn)生新的候選模式集(d+1)-pattern; 5. 如果新的候選模式模式集非空,則重復執(zhí)行: 5.1 在新的候選模式集中計算類內(nèi)支持度Inter_Support(Pa,Lk); 5.2 對于每個模式集P,重復執(zhí)行: 5.2.1 若Inter_Support(Pa,Lk)<γ,則利用定理1直接削減規(guī)則; 5.2.2 若在(d+1)-pattern集中有Pa的子集P滿足定理2或定理3,則在S集中刪除模式P; 5.3 計算OR值,根據(jù)OR值大小選擇合適的誘因模式與安全模式添加到S集; 5.4d=d+1; 5.5 采用函數(shù)1產(chǎn)生新的(d+1)-pattern集; 6. 返回S。 其中,函數(shù)1的具體執(zhí)行步驟如下所示: 函數(shù)1 產(chǎn)生候選模式集(d+1)-pattern。 1. 令候選模式集(d+1)-pattern為空; 2. 對每個在d-pattern中的模式對PPd-1與Pd-1R,重復執(zhí)行: 2.1 在候選模式集(d+1)-pattern中插入模式Pd-1PR; 2.2 對所有Pd?Pd-1,重復執(zhí)行: 2.2.1 若Pd不在模式集d-pattern中,則刪掉候選模式Pd-1PR; 3. 返回(d+1)-pattern集。 圖1多種顯型肺炎疾病因果分析圖 實驗采用的數(shù)據(jù)集為肺炎醫(yī)療數(shù)據(jù),病歷分別采自北京、南京、上海、合肥、福州、杭州等地的科研協(xié)作單位,每個單位的病歷均由亞型1至亞型6等多個亞型的數(shù)據(jù)集以及一些健康人的數(shù)據(jù)集。病歷數(shù)是從各協(xié)作單位收集幾百甚至幾千病歷中選取的3000例樣本,包含100個屬性,其中病人的基本信息等屬性描述將會在預處理中被刪除,這些屬性不會被用來作為挖掘?qū)傩浴嶒灥哪繕耸窃诙囡@型疾病中發(fā)現(xiàn)誘因模式與安全模式,這些優(yōu)化模式集的發(fā)現(xiàn)將用于幫助專家系統(tǒng)進行診斷治療。在挖掘出的優(yōu)化規(guī)則中,有些規(guī)則對于某顯型肺炎或許是誘因模式,但對于其它類亞型肺炎卻可能是安全模式,此外還可能存在一些模式對于某幾種顯型肺炎的興趣度度量函數(shù)OR值幾乎均是相等的,這些模式可被稱為公共模式。通過采用所給EMMCD算法對六種顯型肺炎疾病進行數(shù)據(jù)挖掘,將發(fā)現(xiàn)的誘因模式與安全模式畫成因果圖,如圖1所示。從圖1能夠看出所有肺炎亞型代表模式所挖掘出的結(jié)果更加直觀而且更有利于分析,專家可以根據(jù)所繪因果分析圖更加清晰的判斷各種模式是獨立的還是條件獨立的。其中,圖1所包含的4類邊,其含義分別表示如下: (a) 雙線有向邊(?)用于表示因果關(guān)系。箭頭指向結(jié)果,尾部表示原因,表示這個發(fā)現(xiàn)模式為誘因模式,可根據(jù)其OR值判定其對該疾病的影響程度(貢獻率)。從圖1中可以看出,模式SF、CLF、MP等為顯型1肺炎的誘因模式;模式WC、IT、TFY等為顯型2肺炎的誘因模式;模式HF、DF、R、YF等為顯型3肺炎的誘因模式;模式FS、RT、PC為顯型4肺炎的誘因模式;模式SN、WP為顯型5肺炎的誘因模式;模式SPP、CWS、FS為顯型6肺炎的誘因模式。 (b) 雙線雙向邊(?)用于表示兩端為安全關(guān)系,無誘因關(guān)系。該模式表示不會引起該顯型疾病,稱這個模式為該顯型的安全模式。從圖1中可以看出,模式NF、WT為顯型1肺炎的誘因模式;模式FS、RT為顯型2肺炎的誘因模式;模式CR為顯型3肺炎的誘因模式;模式CRE、TC為顯型4肺炎的誘因模式;模式WT、GP為顯型5肺炎的誘因模式;模式SJ、CR、ALB為顯型6肺炎的誘因模式。 (c) 單線有向邊(→)也用于表示因果關(guān)系。其與雙線有向邊的區(qū)別是,單線有向邊表示獨有模式,雙線有向邊表示兩個或多個顯型的共有模式。從圖1中可以看出,模式CF為顯型1、顯型5與顯型2肺炎的共有模式;模式TFW、PT為顯型1與顯型6肺炎的共有模式;模式CU為顯型4、顯型5與顯型6肺炎的共有模式。 (d) 單線雙向邊(?)用于表示兩個模式同時出現(xiàn)。表示在一個模式出現(xiàn)的同時會伴隨著另一個模式出現(xiàn),兩個模式具有伴隨特性。從圖1可以看出,模式WP為顯型1肺炎的誘因模式,同時伴隨出現(xiàn)了顯型1肺炎的誘因模式WG;模式Y(jié)P為顯型2肺炎的誘因模式,同時伴隨出現(xiàn)的另一種模式TP為顯型2與顯型4肺炎的共有模式。 下面圖2給出了EMMCD算法在不同的顯型肺炎中的OR值比較。從圖2中能夠清晰地看出每個模式在不同的顯型肺炎中的OR值均不同。模式C在不同顯型肺炎中的OR值區(qū)別較大,在顯型1肺炎中為誘因模式,但在顯型2肺炎中的OR值卻比較低。由此說明相同的式對于不同顯型肺炎的重要性(貢獻率)是不同的,同樣能夠更為清晰地驗證EMMCD算法中所給興趣度規(guī)則的重要性。 圖2 多顯型肺炎在不同模式下的興趣度OR值 下面圖3給出了EMMCD算法中模式在不同類內(nèi)支持度情況下的精度比較。從圖3可以看出,在不同的類內(nèi)支持度下得到的精度是不同的。然而即使在不同的類內(nèi)支持度參數(shù)設(shè)置下,EMMCD算法的精度均為較好的。且在選擇好的參數(shù)情況下,采用EMMCD算法實現(xiàn)的最好精度能夠達到92.8%以上,因而能夠較為充分地證明EMMCD算法的實用性。 圖3 EMMCD算法在不同類內(nèi)支持度下的精度比較 下面圖4給出了EMMCD算法在相同支持度下跟SVM與C4.5算法的精度比較。從圖4可以看出,在候選模式集d-pattern項數(shù)較小時,EMMCD算法與C4.5算法的精度大致相似,但是隨著候選模式集d-pattern項數(shù)增加,EMMCD算法的精度均優(yōu)于傳統(tǒng)SVM與C4.5算法,因而可以較為充分地證明EMMCD算法的高效性。 圖4 EMMCD算法與傳統(tǒng)SVM、C4.5算法的精度比較 針對醫(yī)療領(lǐng)域中多類數(shù)據(jù)的挖掘比較困難且結(jié)果很難解釋等不足,給出了一種高效的可用在醫(yī)療領(lǐng)域中實現(xiàn)對多類疾病數(shù)據(jù)發(fā)現(xiàn)誘因模式與安全模式的EMMCD算法。EMMCD算法通過利用所給優(yōu)化規(guī)則集消除大量冗余規(guī)則,從而能夠更加高效地挖掘出精確的數(shù)據(jù)結(jié)果,同時根據(jù)興趣度度量函數(shù)來判斷一個發(fā)現(xiàn)模式對一個特定領(lǐng)域來說是否是感興趣的,并且可以用興趣度度量函數(shù)及其性質(zhì)有效地發(fā)現(xiàn)感興趣的規(guī)則或刪除一些冗余的規(guī)則。通過發(fā)現(xiàn)多類醫(yī)療數(shù)據(jù)中的誘因模式與安全模式畫出因果圖,能夠清晰直觀地幫助醫(yī)療領(lǐng)域工作者分析挖掘出的結(jié)果。根據(jù)性能分析表明,EMMCD算法在不同的參數(shù)設(shè)置下均有效,通過跟傳統(tǒng)SVM算法與C4.5算法進行比較,能夠看出EMMCD算法具有更好的精度。所以EMMCD算法通過選擇恰當?shù)呐d趣度度量函數(shù)來發(fā)現(xiàn)感興趣的模式,并用該模式優(yōu)化規(guī)則集是相當高效實用的,對于醫(yī)療領(lǐng)域研究者來說具有非常重要的意義。 [1] 王元卓, 靳小龍, 程學旗. 網(wǎng)絡(luò)大數(shù)據(jù): 現(xiàn)狀與展望[J]. 計算機學報, 2013, 36(6): 1125-1138. [2] Hu Y, Feng B, Zhang X Z, et al. Stock trading rule discovery with an evolutionary trend following model[J]. Expert Syst. Appl. (ESWA), 2015, 42(1): 212-222. [3] Isam E, Salima B, Mourad O, et al. A tensor-based distributed discovery of missing association rules on the cloud[J]. Future Generation Comp. Syst. (FGCS), 2014, 35: 49-56. [4] 耿生玲, 李永明, 劉震. 關(guān)聯(lián)規(guī)則挖掘的軟集包含度方法[J]. 電子學報, 2013, 41(4): 804-809. [5] Liu G M, Lu H J, Jeffrey X, et al. AFOPT: An Efficient Implementation of Pattern Growth Approach[C]//In FIMI Workshop, Florida, USA, November, 2003: 1106-1114. [6] Doug B, Manuel C, Johannes G. MAFIA: A Maximal Frequent Itemset Algorithm for Transactional Databases[C]. In: Proc. of 17nd Intl. Conf. on Data Engineering, 2001: 443-452. [7] Mohanmmed J. Zaki. Mining Non-Redundant Association Rules[C]. Data Mining and Knowledge Discovery, 2004: 223-248. [8] 李思男, 李寧, 李戰(zhàn)懷. 多標簽數(shù)據(jù)挖掘技術(shù): 研究綜述[J]. 計算機科學, 2013, 40(4): 14-20. [9] Stephen D, Simon. Understanding the Odds Ratio[J]. Journal of Andrology, 2001, 22(4): 533-536. [10]Tan P N, Michael S, Vipin K. Introduction to data Mining[M]. USA: Addison-Wesley, 2014: 88-109. An Efficiency Mining Algorithm for Multiple Class Data ZHANG Xin-ying, FU Chuan-nan (College of Information and Business, Zhongyuan University of Technology, Zhengzhou 451191, China) The contrast pattern which basically aiming to two types of data is found to gain required message, but it is great challenge that to find contrast pattern in existing multiple class data to carry out data mining. The limitation of the association rules in data mining algorithm is that the association rules need to generate lots of rules, and many of this rules are redundant rules. However, while the non-redundant rules of data mining algorithm has wiped the redundant rules, but there are still kinds of rules have low interest degree in certain specific application field. Thus, an effective mining algorithm for multiple class data is presented. The pathogenic pattern and protect pattern are defined based on statistical method, and the novel algorithm is realized to find the two patterns in multiple class medical data. Meanwhile, a clearly causal graph is drawn according to the simulated experiment, and the classifier of the novel rules generated by the presented algorithm also verified the efficiency and practicability of the novel algorithm. So the rules generated by the presented algorithm provided accurate and useful message, and could be applied actually in medical research fields. data mining; multiple class data; optimize rules; odd ratio 10.3969/j.issn.1673-5692.2017.04.006 2017-05-01 2017-07-10 河南省重點科技攻關(guān)項目(152102210155); 河南省高等學校重點科研項目(17A413014);中原工學院信息商務學院院級科研項目(ky1615) 張新英(1983—),女,河南人,碩士,講師,主要研究方向為數(shù)據(jù)挖掘、多傳感器信息融合、非線性濾波; E-mail: zxy_teacher@126.com 付川南(1992—),女,河南人,碩士,助教,主要研究方向為數(shù)據(jù)挖掘。 TP311 A 1673-5692(2017)04-359-062 EMMCD算法
3 實驗結(jié)果與分析
4 結(jié) 語