霍緯綱,屈 峰,程 震
(中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)
基于演進(jìn)向量量化聚類的增量模糊關(guān)聯(lián)分類方法
霍緯綱*,屈 峰,程 震
(中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)
為了提高動(dòng)態(tài)數(shù)據(jù)集上模糊關(guān)聯(lián)分類器(FAC)的建模效率,提出了一種基于演進(jìn)向量量化(eVQ)聚類的增量模糊關(guān)聯(lián)分類方法。首先,采用eVQ聚類算法增量更新數(shù)量屬性上的高斯隸屬度函數(shù)參數(shù);然后,擴(kuò)展早剪枝更新(UWEP)算法,使之適用于增量挖掘模糊頻繁項(xiàng);最后,以模糊相關(guān)度(FCORR)和分類規(guī)則前件長(zhǎng)度為度量方式裁剪并更新模糊關(guān)聯(lián)分類規(guī)則庫。在4個(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 與批量模糊關(guān)聯(lián)分類建模方法相比,所提方法能夠在保證分類精度和解釋性的前提下,減少模糊關(guān)聯(lián)分類器的訓(xùn)練時(shí)間;基于eVQ的高斯隸屬度函數(shù)的增量更新有助于提高動(dòng)態(tài)數(shù)據(jù)集上模糊關(guān)聯(lián)分類器的分類精度。
增量學(xué)習(xí);模糊關(guān)聯(lián)分類;演進(jìn)向量量化聚類;早剪枝更新;高斯隸屬度函數(shù)
模糊關(guān)聯(lián)分類器(Fuzzy Associative Classifier, FAC)是數(shù)據(jù)挖掘領(lǐng)域重要的分類方法之一[1],因其較高的分類準(zhǔn)確度和較好的解釋性受到了研究人員的關(guān)注[2-7]。文獻(xiàn)[2]采用多間隔離散化方法確定模糊區(qū)間,然后基于改進(jìn)的FP-Growth算法挖掘模糊頻繁項(xiàng),生成模糊關(guān)聯(lián)分類規(guī)則(Fuzzy Associative Classification Rule,F(xiàn)ACR); 文獻(xiàn)[3]將信息熵的概念引入到數(shù)據(jù)模糊化的過程中,采用規(guī)則覆蓋方法篩選模糊關(guān)聯(lián)分類規(guī)則; 文獻(xiàn)[4]以模糊相關(guān)度(Fuzzy CORRelation, FCORR)作為衡量分類規(guī)則質(zhì)量的標(biāo)準(zhǔn)對(duì)分類規(guī)則庫進(jìn)行精簡(jiǎn)以提高FAC的解釋性; 文獻(xiàn)[5]將AdaBoost.M1W集成學(xué)習(xí)算法應(yīng)用于FAC構(gòu)建過程中以提高FAC在多類不平衡數(shù)據(jù)情形下的分類性能; 在應(yīng)用方面,文獻(xiàn)[6]基于模糊關(guān)聯(lián)分類器進(jìn)行民用飛機(jī)超限事件診斷; 文獻(xiàn)[7]使用模糊關(guān)聯(lián)分類模型進(jìn)行遙感圖像分類。上述方法用于在靜態(tài)數(shù)據(jù)集上建立高效的模糊關(guān)聯(lián)分類模型,對(duì)于動(dòng)態(tài)數(shù)據(jù)集,當(dāng)有新數(shù)據(jù)加入到初始數(shù)據(jù)集時(shí),上述批量模糊關(guān)聯(lián)分類建模方法需要在更新后的數(shù)據(jù)集上重新訓(xùn)練FAC,這種重復(fù)學(xué)習(xí)產(chǎn)生的時(shí)空開銷降低了FAC的構(gòu)建效率。目前對(duì)FAC的增量更新研究工作相對(duì)較少。
FAC是一類基于規(guī)則的模糊分類器。針對(duì)如何在流動(dòng)態(tài)數(shù)據(jù)上構(gòu)建模糊分類器,研究者們做了很多工作[8-11]。文獻(xiàn)[8]基于eVQ(evolving Vector Quantization)聚類算法和T-S(Takagi-Sugeno)模型提出了一種數(shù)據(jù)驅(qū)動(dòng)的在線模糊回歸模型FLEXFIS(Flexible Fuzzy Inference System)。文獻(xiàn)[9]基于FLEXFIS提出模糊分類模型FLEXFIS-Class,該模型單模結(jié)構(gòu)中規(guī)則的前件與T-S模糊系統(tǒng)的規(guī)則前件相同,規(guī)則的后件為類標(biāo)簽;多模結(jié)構(gòu)為每種類別樣本訓(xùn)練一個(gè)T-S模糊回歸模型,其規(guī)則前件與單模結(jié)構(gòu)中規(guī)則的前件相同,規(guī)則的后件是分類超平面。文獻(xiàn)[10]提出了基于eTS(evolving T-S fuzzy system)的模糊分類模型eClass,該模型與FLEXFIS-Class相比最大特點(diǎn)在于,以規(guī)則年齡(Rule Age)為指標(biāo)識(shí)別數(shù)據(jù)概念偏移,根據(jù)數(shù)據(jù)概念偏移情況自動(dòng)調(diào)整分類模型參數(shù)及其結(jié)構(gòu)。文獻(xiàn)[11]從局部學(xué)習(xí)模糊分類規(guī)則后件函數(shù)參數(shù)、處理流數(shù)據(jù)中概念漂移和異常點(diǎn)等方面提高eClass和FLEXFIS-Class兩類在線模糊分類模型的分類準(zhǔn)確率和魯棒性。由于流數(shù)據(jù)具有實(shí)時(shí)、連續(xù)、有序、無限等特征[12],上述在線模糊分類模型在增量學(xué)習(xí)過程中不需要考慮使用初始數(shù)據(jù)集而只是采用最新時(shí)間窗口中的數(shù)據(jù)修正分類器。
與上述流動(dòng)態(tài)數(shù)據(jù)上模糊分類模型不同,本文在增量學(xué)習(xí)過程中綜合考慮初始數(shù)據(jù)集和新加入的數(shù)據(jù),從隸屬度函數(shù)和模糊關(guān)聯(lián)分類規(guī)則庫兩個(gè)方面實(shí)現(xiàn)FAC的增量更新。該方法的基本思想:初始訓(xùn)練階段,使用eVQ聚類算法生成數(shù)量屬性的高斯隸屬度函數(shù),基于Apriori算法挖掘模糊頻繁項(xiàng)并生成模糊關(guān)聯(lián)分類規(guī)則庫。增量學(xué)習(xí)階段,利用eVQ聚類算法自身的進(jìn)化機(jī)制更新高斯隸屬度函數(shù)參數(shù),然后對(duì)早剪枝更新(Update With Early Pruning, UWEP)算法進(jìn)行擴(kuò)展,增量挖掘模糊頻繁項(xiàng)。最后以FCORR和分類規(guī)則前件長(zhǎng)度作為度量方式裁剪更新模糊關(guān)聯(lián)分類規(guī)則庫。
由數(shù)量屬性的隸屬度函數(shù)表示的模糊區(qū)間決定了FAC的分類精度,所以確定隸屬度函數(shù)是FAC建模的一項(xiàng)重要預(yù)處理工作。文中采用eVQ聚類算法對(duì)初始數(shù)據(jù)集進(jìn)行聚類分析,將聚類中心點(diǎn)投影到各個(gè)數(shù)量屬性,得到單個(gè)數(shù)量屬性的高斯隸屬度函數(shù)參數(shù)。當(dāng)新數(shù)據(jù)加入時(shí),再由eVQ聚類算法實(shí)現(xiàn)各個(gè)數(shù)量屬性的高斯隸屬度函數(shù)增量更新。
設(shè)初始訓(xùn)練集DB=[XY],X=[xk, j]M×N表示在N個(gè)數(shù)量屬性上的M個(gè)取值,Y=[yk]M×1為類別屬性上的M個(gè)取值。增量數(shù)據(jù)集記為db=[X′Y′],其中X′=[xk, j]L×N,Y′=[yk]L×1,DB∪db表示DB與db合并后的數(shù)據(jù)集。在DB上由eVQ聚類算法生成s個(gè)類簇,第i個(gè)類簇中心點(diǎn)記作Ci=[ci,1,ci,2,…,ci,N](1≤i≤s),ci, j表示第i個(gè)類簇中心點(diǎn)在第j個(gè)數(shù)量屬性上投影,ki表示第i個(gè)類簇中數(shù)據(jù)樣本個(gè)數(shù),采用式(1)表示第j個(gè)屬性上第i個(gè)模糊區(qū)間對(duì)應(yīng)的高斯隸屬度函數(shù)。
(1)
其中:δi, j表示第j(1≤j≤N)個(gè)屬性上第i(1≤i≤s)個(gè)模糊區(qū)間的范圍。
(2)
(cwin, j-xk, j)2
(3)
Δcwin, j=cwin, j′-cwin, j; 1≤j≤N
(4)
基于eVQ聚類算法的高斯隸屬度函數(shù)更新方法詳細(xì)描述如下:
輸入 增量數(shù)據(jù)集db,原始數(shù)據(jù)集DB上生成的s個(gè)類簇中心點(diǎn),s×N個(gè)模糊區(qū)間對(duì)應(yīng)的高斯隸屬度函數(shù)參數(shù)ci, j,δi, j(1≤i≤s,1≤j≤N),確定類簇?cái)?shù)目的閾值ρ。
Fork=1,2,…,s
End For
Form=1,2,…,L
Fork=1,2,…,s
End For
Ifdmin>ρ,Then
else
Forj=1,2,…,N
用式(2)把第win個(gè)聚類中心在第j個(gè)屬性上的投影更新為cwin, j′;
用式(3)把第win個(gè)聚類中心在第j個(gè)屬性上確定的模糊區(qū)間范圍更新為δwin, j′。
End For
End If
End For
UWEP(Update With Early Pruning)[13]是一種針對(duì)布爾型頻繁項(xiàng)的增量挖掘算法,本文對(duì)UWEP算法進(jìn)行擴(kuò)展,使其可以增量挖掘模糊頻繁項(xiàng),主要擴(kuò)展點(diǎn)為:1)通過閾值θ篩選出各個(gè)屬性上變化較明顯的模糊集,從LDB中剔除由這些模糊集生成的模糊1-頻繁項(xiàng)及其相應(yīng)的超集;2)同一數(shù)量屬性擴(kuò)展而來的模糊項(xiàng)不能被組合生成模糊頻繁項(xiàng)。算法主要步驟如下:
步驟1 計(jì)算s×N個(gè)模糊區(qū)間對(duì)應(yīng)的高斯隸屬度函數(shù)參數(shù)ci, j的變化范圍Δci, j(1≤i≤s,1≤j≤N),若Δci, j大于預(yù)設(shè)閾值θ,則將參數(shù)ci, j對(duì)應(yīng)的高斯隸屬度函數(shù)所表示的1-模糊項(xiàng)CItem加入ChangedFItem中,若CItem∈LDB,則從LDB中刪除CItem及其超集。
模糊關(guān)聯(lián)分類規(guī)則庫的增量更新過程為:
步驟1 由新模糊頻繁項(xiàng)集合中帶有類標(biāo)簽的模糊頻繁項(xiàng)生成新分類規(guī)則集RuleBasenew。
步驟2 刪除初始FAC的分類規(guī)則集RuleBase中不屬于RuleBasenew的FACR,將RuleBasenew中不屬于RuleBase的FACR加入到RuleBase。
步驟3 采用文獻(xiàn)[4]中以FCORR和FACR前件長(zhǎng)度為度量方式的規(guī)則庫精簡(jiǎn)方法對(duì)RuleBase進(jìn)行裁剪得到更新后的模糊關(guān)聯(lián)分類規(guī)則庫RuleBase′。
增量更新與裁剪初始分類規(guī)則庫RuleBase的具體算法描述如下:
輸入 模糊關(guān)聯(lián)分類規(guī)則庫RuleBase,RuleBasenew。
輸出 精簡(jiǎn)后的分類規(guī)則庫RuleBase′。
ForRuleBase中每個(gè)模糊關(guān)聯(lián)分類規(guī)則R
IfR?RuleBasenew, Then
從RuleBase中刪除R
End If
End For
ForRuleBasenew中每個(gè)模糊關(guān)聯(lián)分類規(guī)則Rnew
IfRnew?RuleBase,Then
將Rnew加入到RuleBase中
End If
End For
在RuleBase中掃描不同類別中每種長(zhǎng)度的FACR,將具有最大FCORR的FACR加入規(guī)則集RuleBase′,RuleBase′中最長(zhǎng)規(guī)則的長(zhǎng)度記作Len。
Do untilLen=2
For 每個(gè)模糊關(guān)聯(lián)分類規(guī)則RLen(RLen∈RuleBase′)
IfRLen-1∈RuleBase′并且RLen的前件包含RLen-1的前件
IfFCORR(RLen-1)>FCORR(RLen),Then
從RuleBase′中刪除RLen
End If
End If
Len=Len-1
End For
End Do
RuleBase′中最長(zhǎng)規(guī)則的長(zhǎng)度記作Len′
Do untili=Len′
For 每個(gè)模糊關(guān)聯(lián)分類規(guī)則Ri(Ri∈RuleBase′)
IfRi+1∈RuleBase′并且Ri+1的前件包含Ri的前件
IfFCORR(Ri+1)>FCORR(Ri),Then
從RuleBase′中刪除Ri
End If
End If
i=i+1
End For
End Do
為了驗(yàn)證文中增量模糊關(guān)聯(lián)分類器建模方法的有效性,實(shí)驗(yàn)選取UCI(http://archive.ics.uci.edu/ml/datasets.html)機(jī)器學(xué)習(xí)數(shù)據(jù)集中的4個(gè)數(shù)據(jù)集進(jìn)行測(cè)試,數(shù)據(jù)集的詳細(xì)信息如表1所示。
實(shí)驗(yàn)中以最少類別樣本在訓(xùn)練樣本集中出現(xiàn)頻率的0.1倍為最小模糊支持度, 采用多類別規(guī)則投票方式[4]為分類推理引擎。eVQ算法中閾值ρ按式(5)[14]計(jì)算:
(5)
其中:p為訓(xùn)練樣本集維數(shù),fac為調(diào)節(jié)因子,文中在實(shí)驗(yàn)過程中以獲得理想的類簇個(gè)數(shù)和較高的分類精度為指標(biāo)調(diào)整參數(shù)fac的值,從而確定閾值ρ。各個(gè)數(shù)據(jù)集上eVQ聚類算法的閾值ρ及fac取值如表2所示。實(shí)驗(yàn)環(huán)境:CentOS Linux release 7.0.1406,C語言,gcc4.8.2編譯器,CPU 3.4 GHz,1 GB內(nèi)存。
表2 各數(shù)據(jù)集參數(shù)設(shè)置Tab. 2 Parameter setting for experimental data sets
I-FAC與B-FAC對(duì)比分析,將表1中所列每個(gè)數(shù)據(jù)集隨機(jī)等分為6部分,選擇3部分作為DB,2部分作為db,剩余部分作為測(cè)試集,UWEP算法閾值θ設(shè)為1,采用6-交叉驗(yàn)證方式評(píng)估分類模型。B-FAC與I-FAC在分類精度與訓(xùn)練時(shí)間兩方面的實(shí)驗(yàn)結(jié)果如表3所示。從表3中不難發(fā)現(xiàn),B-FAC與I-FAC的分類準(zhǔn)確率相當(dāng),I-FAC的訓(xùn)練時(shí)間低于B-FAC,因此本文所提方法能夠在保證分類準(zhǔn)確率的前提下,降低模糊關(guān)聯(lián)分類器在動(dòng)態(tài)數(shù)據(jù)集上的訓(xùn)練時(shí)間。主要原因分析如下:FAC構(gòu)建過程的主要時(shí)間開銷是挖掘模糊頻繁項(xiàng)。當(dāng)db加入到DB時(shí),I-FAC首先從LDB中繼承部分模糊頻繁項(xiàng),然后生成由db的加入而變得頻繁的模糊項(xiàng)。表4中列出了I-FAC在4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上繼承的模糊頻繁項(xiàng)個(gè)數(shù)和DB∪db上生成的模糊頻繁項(xiàng)總數(shù),從表4可知I-FAC在增量挖掘模糊頻繁項(xiàng)過程中從LDB中繼承了大量模糊頻繁項(xiàng),所以I-FAC能明顯減少分類器的訓(xùn)練時(shí)間。
表3 B-FAC與I-FAC在分類精度和訓(xùn)練時(shí)間上對(duì)比結(jié)果Tab. 3 Comparison results of B-FAC and I-FAC in classification accuracy and training time
表4 保留的模糊頻繁項(xiàng)數(shù)目與生成的模糊頻繁項(xiàng)總數(shù)Tab. 4 The number of frequent items reserved and the number of frequent items generated
解釋性為評(píng)價(jià)模糊關(guān)聯(lián)分類器的另一個(gè)重要指標(biāo)。該指標(biāo)通常以分類器中包含的規(guī)則數(shù)目以及所有分類規(guī)則前件長(zhǎng)度(包含的模糊項(xiàng)個(gè)數(shù))來表示。表5為B-FAC與I-FAC生成的分類規(guī)則庫中FACR個(gè)數(shù)和規(guī)則前件長(zhǎng)度對(duì)比結(jié)果,表5中所列數(shù)據(jù)為6次實(shí)驗(yàn)結(jié)果的均值。
從表5可知,I-FAC與B-FAC的解釋性相當(dāng),因此I-FAC在保持分類精度的同時(shí)并沒有以損失解釋性為代價(jià)。
為了驗(yàn)證文中基于eVQ增量更新高斯隸屬度函數(shù)的有效性,將表1所列的每個(gè)數(shù)據(jù)集隨機(jī)分成10份,隨機(jī)選取3份作為初始訓(xùn)練集,剩余7份作為增量訓(xùn)練集,全部10份作為測(cè)試集。采用下面三種方式對(duì)初始訓(xùn)練集上的FAC增量更新:
1) 用初始訓(xùn)練集上的高斯隸屬度函數(shù)對(duì)增量訓(xùn)練集模糊化,采用1.2節(jié)的方法增量挖掘模糊頻繁項(xiàng),更新并裁剪初始訓(xùn)練集上的分類規(guī)則庫,該方法記為NI-FAC。
2) 由文中1.1節(jié)、1.2節(jié)描述的方法增量更新高斯隸屬度函數(shù)及FAC。
3) 采用增量FCM聚類算法[15]對(duì)初始訓(xùn)練集和增量訓(xùn)練集模糊化處理,基于文中1.2節(jié)的方法生成并更新FAC,該方法記作I-FCM。
上述三種模糊預(yù)處理方式的分類準(zhǔn)確率對(duì)比結(jié)果如表6所示。
表5 B-FAC與I-FAC的FACR個(gè)數(shù)和規(guī)則前件長(zhǎng)度對(duì)比Tab. 5 The number of FACR and the length of fuzzy items of rule antecedent in B-FAC and I-FAC
表6 I-FAC與NI-FAC、I-FCM分類精度對(duì)比Tab. 6 Comparison of I-FAC,NI-FAC and I-FCM in classification accuracy
從表6可知,I-FAC的分類準(zhǔn)確率明顯高于NI-FAC。這主要是因?yàn)楫?dāng)新數(shù)據(jù)加入原始數(shù)據(jù)集時(shí),整個(gè)訓(xùn)練數(shù)據(jù)集分布會(huì)發(fā)生變化,I-FAC在增量學(xué)習(xí)階段更新了高斯隸屬度函數(shù)參數(shù),使得由其表示的模糊區(qū)間更加合理。除Breast數(shù)據(jù)集外,I-FAC分類準(zhǔn)確率均高于I-FCM。而且在數(shù)據(jù)集Heart和Pima上,NI-FAC的分類準(zhǔn)確率也高于I-FCM,這是因?yàn)閑VQ聚類機(jī)制本身具有增量學(xué)習(xí)的能力,由其獲得高斯隸屬度函數(shù)能較好地表示樣本對(duì)其所屬類別的隸屬關(guān)系。
本文提出了一種適用于動(dòng)態(tài)數(shù)據(jù)集上的模糊關(guān)聯(lián)分類器建模方法。該方法采用eVQ聚類算法更新高斯隸屬度函數(shù),通過預(yù)先設(shè)定的閾值θ確定需要保留的模糊頻繁項(xiàng),擴(kuò)展了UWEP方法,使之能用于增量挖掘模糊頻繁項(xiàng)。實(shí)驗(yàn)結(jié)果表明文中方法能夠在保證分類精度和解釋性的同時(shí)降低模糊關(guān)聯(lián)分類器的訓(xùn)練時(shí)間,而且高斯隸屬度函數(shù)更新是增量FAC建模重要環(huán)節(jié)。下一步將研究其他增量聚類算法對(duì)本文方法的影響,研究基于遺傳優(yōu)化的規(guī)則庫增量更新方法,進(jìn)一步提高模糊關(guān)聯(lián)分類器的分類精度和解釋性。
References)
[1] ALCALA-FDEZ J, ALCALA R, HERRERA F. A fuzzy association rule-based classification model for high-dimensional problems with genetic rule selection and lateral tuning[J]. IEEE Transactions on Fuzzy Systems, 2011, 19(5): 857-872.
[2] ANTONELLI M, DUCANGE P, MARCELLONI F, et al. A novel associative classification model based on a fuzzy frequent pattern mining algorithm[J]. Expert Systems with Applications, 2015, 42(4):2086-2097.
[3] MA Y, CHEN G, WEI Q. A novel fuzzy associative classifier based on information gain and rule-covering[C]// Proceedings of the 2013 Joint IFSA World Congress and NAFIPS Annual Meeting. Piscataway, NJ: IEEE, 2013: 490-495.
[4] PACH F P, GYENESEI A, ABONYI J. Compact fuzzy association rule-based classifier[J]. Expert Systems with Applications, 2008, 34(4): 2406-2416.
[5] 霍緯綱, 高小霞.一種適用于多類不平衡數(shù)據(jù)集的模糊關(guān)聯(lián)分類方法[J].控制與決策, 2012,27(12):1833-1838.(HUO W G, GAO X X. A fuzzy associative classification method for multi-class imbalanced datasets[J]. Control and Decision, 2012, 27(12): 1833-1838.
[6] 高小霞, 霍緯綱, 馮興杰.基于模糊關(guān)聯(lián)分類器的民機(jī)超限事件診斷方法[J].北京航空航天大學(xué)學(xué)報(bào),2014,40(10):1366-1371.(GAO X X, HUO W G,FENG X J. Civil aircraft’s exceedance event diagnosis method based on fuzzy associative classifier[J]. Journal of Beijing University of Aeronautics and Astronautics, 2014, 40(10): 1366-1371.
[7] 董杰, 沈國(guó)杰.一種基于模糊關(guān)聯(lián)分類的遙感圖像分類方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(7):1500-1506.(DONG J, SHEN G J. Remote sensing image classification based on fuzzy associative classification[J]. Journal of Computer Research and Development, 2012, 49(7): 1500-1506.
[8] LUGHOFER E, KLEMENT E P. FLEXFIS: a variant for incremental learning of Takagi-Sugeno fuzzy systems[C]// Proceedings of the 14th IEEE International Conference on Fuzzy Systems. Piscataway, NJ: IEEE, 2005: 915-920.
[9] LUGHOFER E, ANGELOV P, ZHOU X. Evolving single-and multi-model fuzzy classifiers with FLEXFIS-Class[C]// Proceedings of the 2007 IEEE International Fuzzy Systems Conference. Piscataway, NJ: IEEE, 2007:1-6.
[10] ANGELOV P P, ZHOU X. Evolving fuzzy-rule-based classifiers from data streams[J].IEEE Transactions on Fuzzy Systems, 2008, 16(6):1462-1475.
[11] ANGELOV P, LUGHOFER E, ZHOU X. Evolving fuzzy classifiers using different model architectures[J]. Fuzzy Sets and Systems, 2008,159(23):3160-3182.
[12] 張杰, 趙峰. 流數(shù)據(jù)概念漂移的檢測(cè)算法[J].控制與決策,2013,28(1):29-35.(ZHANG J, ZHAO F. Detecting algorithm of concept drift from stream data[J]. Control and Decision, 2013, 28(1): 29-35.
[13] AYAN N F, TANSEL A U, ARKUN E. An efficient algorithm to update large itemsets with early pruning[C]// Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 1999:287-291.
[14] LUGHOFER E.Extensions of vector quantization for incremental clustering[J].Pattern Recognition, 2008,41(3):995-1011.
[15] HORE P, HALL L O, GOLDGOF D B. Single pass fuzzy c means[C]// Proceedings of the 2007 IEEE International Conference on Fuzzy Systems. Piscataway, NJ: IEEE, 2007: 240-246.
This work is partially supported by the National Natural Science Foundation of China (61301245), the Joint Fund of National Natural Science Foundation of China and Civil Aviation Administration of China (U1633110).
HUOWeigang, born in 1978, Ph. D., associate professor. His research include data mining, fuzzy classification.
QUFeng, born in 1988, M.S. candidate. His research include data mining.
CHENGZhen, born in 1991, M.S. candidate. His research include data mining.
Incrementalfuzzyassociativeclassificationmethodbasedonevolvingvectorquantizationclusteringalgorithm
HUO Weigang*, QU Feng, CHENG Zhen
(CollegeofComputerScienceandTechnology,CivilAviationUniversityofChina,Tianjin300300,China)
In order to improve the efficiency of building Fuzzy Associative Classifier (FAC) on the dynamic data sets, an incremental fuzzy associative classification method based on eVQ (evolving Vector Quantization) clustering algorithm was proposed. Firstly, eVQ clustering algorithm was adopted to incrementally update the parameters of Gauss membership functions of quantitative attributes. Secondly, Update With Early Pruning (UWEP) algorithm was extended to incrementally mine fuzzy frequent itemsets. Finally, Fuzzy CORRelation (FCORR) of Fuzzy Associative Classification Rule (FACR) and the length of antecedent of FACR were regarded as measures to prune and update fuzzy associative classification rule base. The experimental results on four UCI benchmark data sets show that compared with the batch fuzzy association classification modeling method, the proposed method can reduce the time of training the FAC in the premise of not decreasing the accuracy and interpretability. The Gauss membership function updating method based on eVQ clustering algorithm contributes to improve the classification accuracy of the FAC on the dynamic data sets.
incremental learning; fuzzy associative classification; evolving Vector Quantization (eVQ) cluster; Update With Early Pruning (UWEP); Gauss membership function
2017- 05- 16;
2017- 06- 20。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61301245);國(guó)家自然科學(xué)基金委員會(huì)與中國(guó)民用航空局聯(lián)合資助項(xiàng)目(U1633110)。
霍緯綱(1978—),男,山西洪洞人,副教授,博士,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘、模糊分類; 屈峰(1988—),男,遼寧沈陽人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘; 程震(1991—),男,江蘇沛縣人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘。
1001- 9081(2017)11- 3075- 05
10.11772/j.issn.1001- 9081.2017.11.3075
(*通信作者電子郵箱wghuo@cauc.edu.cn)
TP311
A