趙慧珍,劉付顯,李龍躍
(空軍工程大學(xué) 防空反導(dǎo)學(xué)院,陜西 西安 710051)
Parzen窗確定系數(shù)的協(xié)同模糊C均值算法
趙慧珍,劉付顯,李龍躍
(空軍工程大學(xué) 防空反導(dǎo)學(xué)院,陜西 西安 710051)
協(xié)同模糊C均值(collaboration fuzzy C-means,CFC)算法的協(xié)同系數(shù)通常根據(jù)經(jīng)驗(yàn)人工設(shè)定,且在協(xié)同過(guò)程中保持不變,不能充分利用數(shù)據(jù)子集之間的協(xié)同關(guān)系,算法精度有限。提出Parzen窗確定系數(shù)的協(xié)同模糊C均值(βp-CFC)算法。用模糊C均值(fuzzy C-means,F(xiàn)CM)算法求出各數(shù)據(jù)子集的隸屬度和聚類(lèi)中心,再用Parzen窗求出各子集在聚類(lèi)中心處的密度,根據(jù)子集間密度的相關(guān)性設(shè)定變化的協(xié)同系數(shù),利用變化的協(xié)同系數(shù)進(jìn)行協(xié)同聚類(lèi)。以Matlab為平臺(tái),對(duì)βp-CFC算法進(jìn)行了實(shí)驗(yàn),算法聚類(lèi)準(zhǔn)確率可達(dá)到80.34%,比模糊C均值算法、固定系數(shù)的CFC算法的準(zhǔn)確率分別高出11.80%和3.94%。實(shí)驗(yàn)證明,βp-CFC算法較為合理,聚類(lèi)性能較好。
Parzen窗;密度;模糊C均值;協(xié)同系數(shù)
聚類(lèi)算法是數(shù)據(jù)挖掘領(lǐng)域的重要數(shù)據(jù)分析方法之一,其原理是利用數(shù)據(jù)集中對(duì)象的相似性形成有限個(gè)簇,簇間對(duì)象相似性盡可能低,簇內(nèi)對(duì)象相似性盡可能高[1]。常用相似性度量指標(biāo)有歐式距離、馬氏距離、切比雪夫距離等。眾多聚類(lèi)算法中,模糊C均值[2-3](fuzzy C-Means, FCM)算法作為對(duì)經(jīng)典C均值算法的擴(kuò)展[4],在數(shù)據(jù)挖掘、模式識(shí)別等領(lǐng)域有著廣泛研究和應(yīng)用。
協(xié)同模糊聚類(lèi)最早在文獻(xiàn)[5]中提出,算法利用同一對(duì)象在不同數(shù)據(jù)子集中的信息,即數(shù)據(jù)子集之間的協(xié)同作用,得到更精確的隸屬度矩陣,從而提高聚類(lèi)性能。協(xié)同模糊C均值(collaborative fuzzy C-means, CFC)[5-6]算法是在FCM[7]的基礎(chǔ)上提出來(lái)的,是關(guān)于協(xié)同模糊聚類(lèi)最先進(jìn)的方法之一。如何合理地對(duì)數(shù)據(jù)子集之間的協(xié)同關(guān)系進(jìn)行量化,并以協(xié)同系數(shù)的方式表現(xiàn)出來(lái)是CFC算法的關(guān)鍵[8-9]。通常協(xié)同系數(shù)根據(jù)經(jīng)驗(yàn)人工設(shè)定,且在整個(gè)協(xié)同過(guò)程中保持不變,不能充分描述數(shù)據(jù)子集之間的協(xié)同關(guān)系[10-11]。針對(duì)這種情況,本文提出Parzen窗確定系數(shù)的協(xié)同模糊C均值(βp-CFC)算法。首先,利用FCM求出各數(shù)據(jù)子集的隸屬度矩陣和聚類(lèi)中心;其次,利用Parzen窗求出各數(shù)據(jù)子集在聚類(lèi)中心處的密度;再其次,根據(jù)子集間密度的相關(guān)性設(shè)定變化的協(xié)同系數(shù);最后,用變化的協(xié)同系數(shù)進(jìn)行協(xié)同聚類(lèi)。變化的協(xié)同系數(shù)能夠更加充分地描述數(shù)據(jù)子集之間的協(xié)同關(guān)系,從而提高聚類(lèi)精確度。
1.1 Parzen窗密度估計(jì)
Parzen窗密度估計(jì)是一種非參數(shù)估計(jì)方法,能夠很好地利用一組樣本對(duì)總體概率密度進(jìn)行估計(jì),從而描述一維或者多維數(shù)據(jù)的分布狀態(tài)[1]。以方窗為例,窗函數(shù)定義為
(1)
(1)式中,μj為第j維的坐標(biāo),當(dāng)|μj|<0.5(j=1,2,3,…,d)時(shí),窗函數(shù)φ(μ)值取1,否則取0。易知,φ(μ)是以原點(diǎn)為中心、以1為邊長(zhǎng)的的超立方體。落入超立方體內(nèi)的樣本數(shù)為
(2)
(2)式中:xi為樣本點(diǎn);x為待估計(jì)密度處;hN為方窗窗寬。根據(jù)落入窗內(nèi)的樣本點(diǎn),估計(jì)樣本在x處的密度為
(3)
(3)式中:N為樣本總數(shù);VN為方窗體積。(3)式為Parzen窗概率密度估計(jì)的基本公式。Parzen窗有多種核函數(shù),只需滿足條件
(4)
本文所用核函數(shù)為描述正態(tài)窗的高斯函數(shù),表示為
(5)
1.2 協(xié)同模糊C均值算法
假設(shè)數(shù)據(jù)集X含有N個(gè)對(duì)象X={x1,…,xN},任一對(duì)象xj為d維向量,代表著d個(gè)特征,即xj=[xj1,…,xjd]T∈Rd,利用FCM算法將其聚為c類(lèi),則需要目標(biāo)函數(shù)J取得最小值[12-14],表示為
‖xj-vi‖2
(6)
(6)式中:m是模糊指數(shù),表示隸屬度的模糊程度,通常取m=2;xj(j=1,…,N)為待聚類(lèi)的對(duì)象;vi=[vi1,…,vid]T∈Rd(i=1,2,…,c)為第i個(gè)聚類(lèi)中心;‖xj-vi‖為對(duì)象與聚類(lèi)中心之間的距離范數(shù),通常采用歐式距離;uij為隸屬度矩陣元素,代表第j個(gè)對(duì)象屬于第i個(gè)聚類(lèi)的程度,隸屬度矩陣U的表現(xiàn)形式及其元素uij需滿足的約束條件為
U=[uij]c×N
(7)
最優(yōu)化隸屬度矩陣元素urs(r=1,2,…,c;s=1,2,…,N)通過(guò)迭代(8)式獲得。
(8)
最優(yōu)化聚類(lèi)中心vrt(r=1,2,…,c;t=1,2,…,d)通過(guò)迭代(9)式獲得。
(9)
(10)
(11)
(12)
CFC算法能夠利用數(shù)據(jù)子集之間的協(xié)同關(guān)系,提高聚類(lèi)性能,但算法的協(xié)同系數(shù)一般根據(jù)經(jīng)驗(yàn)人工設(shè)定且保持不變,不能充分描述子集間的協(xié)同關(guān)系。
協(xié)同系數(shù)β需要反映數(shù)據(jù)子集之間的協(xié)同關(guān)系,β越大,協(xié)同數(shù)據(jù)子集對(duì)待處理數(shù)據(jù)子集的影響越大。數(shù)據(jù)子集由在相同特征集下定義的對(duì)象組成,相同特征在不同數(shù)據(jù)子集中的分布具有一定的密度相似性,密度相似性越高,相互之間的協(xié)同影響越大,反之,影響越小。βp-CFC算法基于Parzen窗密度估計(jì)原理,分別估計(jì)各數(shù)據(jù)子集在聚類(lèi)中心處的密度,再根據(jù)密度相關(guān)性設(shè)定變化的協(xié)同系數(shù)β,密度相似性越高,β越大。
(13)
對(duì)于第k個(gè)聚類(lèi)中心vk[ii],落入以vk[ii]為中心的正態(tài)窗內(nèi)的對(duì)象數(shù)為
(14)
(14)式中,窗長(zhǎng)度hN取值為
(15)
(15)式中:N=N[ii],N是數(shù)據(jù)子集中對(duì)象的個(gè)數(shù);h1為可調(diào)節(jié)的參數(shù),能夠調(diào)節(jié)窗口大小。根據(jù)落入窗內(nèi)的數(shù)據(jù)點(diǎn),估計(jì)在vk[ii]處的密度為
(16)
(16)式中,VN為窗的體積。且對(duì)于同一數(shù)據(jù)子集,對(duì)象數(shù)量N與窗體積VN為固定值。數(shù)據(jù)子集D[ii]中各聚類(lèi)的密度函數(shù)為
(17)
數(shù)據(jù)子集D[jj]與D[ii]密度的相關(guān)系數(shù)為
(18)
(18)式中:cov(P[ii],P[jj])=E[(P[ii]-E(P[ii]))(P[jj]-E(P[jj]))]表示子集P[ii],P[jj]間的協(xié)方差;A[P[ii]]=E(P[ii]-E(P[ii]))2表示子集自身方差。令
K[ii]=[k(v1[ii]),k(v2[ii]),…,k(vc[ii])]T
(19)
則
(20)
簡(jiǎn)化(18)式得
(21)
由(21)式可知,相關(guān)系數(shù)可通過(guò)計(jì)算落入正態(tài)窗內(nèi)的對(duì)象個(gè)數(shù)得到。顯然,子集間的相互協(xié)同作用越強(qiáng),相關(guān)系數(shù)越大,反之,相關(guān)系數(shù)越小。令
β[ii|jj]=β[jj|ii]=ρ[ii|jj]
(22)
則數(shù)據(jù)子集D[jj]與D[ii]的相關(guān)性越大,二者協(xié)同作用越強(qiáng),協(xié)同系數(shù)β[ii|jj]越大;子集間相關(guān)性越小,協(xié)同作用越弱,協(xié)同系數(shù)β[ii|jj]越小。故協(xié)同系數(shù)能夠充分描述數(shù)據(jù)子集之間的協(xié)同關(guān)系。
從圖4可見(jiàn),含鈦高爐渣的雜質(zhì)CaO、MgO、Fe、Al2O3脫除率隨著反應(yīng)時(shí)間的延長(zhǎng)逐漸增大,但時(shí)間超過(guò)6 h時(shí),TiO2損失率明顯提高,因此,合適的反應(yīng)時(shí)間為6 h。
βp-CFC算法利用變化的協(xié)同系數(shù)進(jìn)行聚類(lèi),迭代(23)式與(24)式得到隸屬度矩陣與聚類(lèi)中心分別表示為
(23)
(24)
βp-CFC算法的具體步驟如下。
1)拆分?jǐn)?shù)據(jù)子集;
2)利用FCM算法計(jì)算每個(gè)數(shù)據(jù)子集的隸屬度矩陣U[ii]和聚類(lèi)中心V[ii];
3)數(shù)據(jù)子集間類(lèi)別匹配;
4)根據(jù)(21)式計(jì)算各子集間相關(guān)系數(shù);
5)根據(jù)(22)式計(jì)算各子集間協(xié)同系數(shù)β[ii|jj];
6)分別根據(jù)(23)式和(24)式計(jì)算協(xié)同隸屬度矩陣和協(xié)同聚類(lèi)中心;
7) 輸出聚類(lèi)結(jié)果。
βp-CFC算法流程如圖1所示。
圖1 βp-CFC算法流程Fig.1 Flow chart of βK-CFC algorithm
為驗(yàn)證βp-CFC算法協(xié)同系數(shù)的有效性及聚類(lèi)性能,本文進(jìn)行了2組實(shí)驗(yàn)。第1組是聚類(lèi)準(zhǔn)確性分析,利用加州大學(xué)(university of California Lrvine, UCI)數(shù)據(jù)庫(kù)中的Wine數(shù)據(jù)集[12-13],分別以不同且固定的β值和βp-CFC算法得到的變化的β值進(jìn)行聚類(lèi),并將聚類(lèi)結(jié)果與UCI提供的標(biāo)準(zhǔn)結(jié)果進(jìn)行比較;第2組是聚類(lèi)指標(biāo)分析,利用人工數(shù)據(jù)集Dataset,分別以βp-CFC算法和FCM算法進(jìn)行聚類(lèi),并用系數(shù)(partition coefficient,PC),分離熵(classification entropy, CE),SC指標(biāo)(partition index,SC),S指標(biāo)(separation index,S),XB 指標(biāo)(Xie and Beni’s index,XB),DI指標(biāo)(Dunn’s index,DI)這6項(xiàng)指標(biāo)對(duì)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià)[14]。
3.1 聚類(lèi)準(zhǔn)確性分析
利用UCI數(shù)據(jù)庫(kù)中的真實(shí)數(shù)據(jù)集Wine進(jìn)行實(shí)驗(yàn)。Wine數(shù)據(jù)集描述了178個(gè)對(duì)象的13種特征,這些對(duì)象可被聚為3類(lèi)。UCI同時(shí)提供了準(zhǔn)確的聚類(lèi)結(jié)果用于對(duì)比分析。
將數(shù)據(jù)集拆分為4個(gè)數(shù)據(jù)子集,每個(gè)數(shù)據(jù)子集均由從原始數(shù)據(jù)中抽取的6組特征組成,如表1所示。
根據(jù)第2節(jié)所述求得協(xié)同系數(shù)β,見(jiàn)表2。因?yàn)橹豢紤]子集之間的協(xié)同作用,故令子集與自身的協(xié)同系數(shù)為0。
表1 數(shù)據(jù)子集所包含的特征
表2 數(shù)據(jù)子集之間的協(xié)同系數(shù)
根據(jù)協(xié)同系數(shù)β,迭代(23)式與(24)式,求得隸屬度矩陣和聚類(lèi)中心,判定對(duì)象屬于隸屬度最大的一類(lèi),從而聚類(lèi)。為對(duì)比分析,設(shè)β分別取固定值0.2,0.4,0.6,0.8,并在同一數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)。將5組實(shí)驗(yàn)得到的聚類(lèi)結(jié)果與UCI提供的標(biāo)準(zhǔn)聚類(lèi)比較,得到如表3所示結(jié)果。由表3可見(jiàn),βp-CFC算法得到的聚類(lèi)正確率最高。當(dāng)β取不同的固定值時(shí),聚類(lèi)效果差異較大,但CFC算法總體性能優(yōu)于FCM算法。
表3 β取不同值時(shí)得到的聚類(lèi)結(jié)果
根據(jù)特征12和特征13可視化聚類(lèi)結(jié)果。作為對(duì)比,UCI提供的標(biāo)準(zhǔn)結(jié)果,βp-CFC算法得到的聚類(lèi)結(jié)果及協(xié)同系數(shù)取固定值0.8時(shí)的聚類(lèi)結(jié)果分別如圖2—圖4所示,其中,圖3和圖4中的圓圈內(nèi)的點(diǎn)表示錯(cuò)誤聚類(lèi)的點(diǎn)。顯然,與標(biāo)準(zhǔn)結(jié)果相比較,固定協(xié)同系數(shù)得到的聚類(lèi)錯(cuò)分點(diǎn)較多,本文算法得到的錯(cuò)分點(diǎn)相對(duì)較少。
圖2 標(biāo)準(zhǔn)聚類(lèi)Fig.2 Standard clustering result
圖3 βp-CFC得到的聚類(lèi)Fig.3 Clustering result gained by βP-CFC
圖4 β=0.8時(shí)得到的聚類(lèi)Fig.4 Clustering result when β=0.8
3.2 聚類(lèi)指標(biāo)分析
聚類(lèi)有效性評(píng)價(jià)方法有多種,本文選取了常用的幾種評(píng)價(jià)方法用于實(shí)驗(yàn)[15-16],從多角度描述聚類(lèi)結(jié)果。
1) PC指標(biāo)。PC是僅考慮隸屬度的聚類(lèi)有效性指標(biāo),如(25)式,其取值為[0,1]。PC指標(biāo)形式簡(jiǎn)單,易于計(jì)算。
(25)
PC的值越大,意味著聚類(lèi)性能越好。
2)CE指標(biāo)。CE也僅度量隸屬度信息,如(26)式,其取值為[0,logaC],并隨著聚類(lèi)數(shù)的增加而單調(diào)變化。
(26)
CE的值越大,意味著聚類(lèi)性能越好。
3)SC指標(biāo)。SC同時(shí)考慮了數(shù)據(jù)集幾何結(jié)構(gòu)信息和隸屬度信息2個(gè)方面,采用緊致性度量和分離性度量的比值形式,如(27)式,其中,緊致性是指類(lèi)內(nèi)各樣本與聚類(lèi)中心的距離之和;分離性是指所有聚類(lèi)中心距離之和。
(27)
SC的值越小,意味著聚類(lèi)性能越好。
4)S指標(biāo)。與SC相反,S利用最小距離分離度來(lái)衡量隸屬度的有效性,表示為
(28)
S的值越小,意味著聚類(lèi)性能越好。
5)XB 指標(biāo)。XB也同時(shí)考慮了數(shù)據(jù)集幾何結(jié)構(gòu)信息和隸屬度信息2個(gè)方面,是一個(gè)比值型模糊聚類(lèi)有效性指標(biāo),表示為
(29)
XB的值越小,意味著聚類(lèi)性能越好。
6)DI指標(biāo)。DI指標(biāo)考慮了數(shù)據(jù)集幾何結(jié)構(gòu)信息,如(30)式,其最初目的是為了衡量分離性較好的聚類(lèi),而這類(lèi)聚類(lèi)通常模糊性較小,故DI的衡量過(guò)程有些類(lèi)似硬聚類(lèi)性能的衡量。
(30)
DI的值越小,意味著聚類(lèi)性能越好。
文章利用人工數(shù)據(jù)集Dataset進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集共有2 000個(gè)對(duì)象,6種特征,可被分為3類(lèi)。對(duì)數(shù)據(jù)集分別利用βp-CFC算法和FCM算法進(jìn)行實(shí)驗(yàn),并利用上文所述聚類(lèi)指標(biāo)進(jìn)行評(píng)價(jià),對(duì)比得到如表4所示的結(jié)果。表4中評(píng)價(jià)依據(jù)里的“↑”表示指標(biāo)越大,聚類(lèi)性能越好;“↓”表示指標(biāo)越小,聚類(lèi)性能越好。
表4 聚類(lèi)指標(biāo)
由表4可知,PC,CE,SC,S和XB這5個(gè)指標(biāo)顯示,βp-CFC算法不劣于甚至明顯優(yōu)于FCM算法。這5種指標(biāo)均考慮的是聚類(lèi)幾何結(jié)構(gòu)信息和隸屬度信息中的1個(gè)方面甚至2個(gè)方面,而文中模糊協(xié)同聚類(lèi)是根據(jù)點(diǎn)間距離,即聚類(lèi)幾何結(jié)構(gòu)信息得到的隸屬度信息進(jìn)行劃分的,顯然βp-CFC算法優(yōu)于FCM算法。DI指標(biāo)雖然考慮了數(shù)據(jù)集的幾何結(jié)構(gòu)信息,但其最初目的是為了衡量分離性較好的聚類(lèi),而這類(lèi)聚類(lèi)通常模糊性較小,故DI的衡量過(guò)程有些類(lèi)似硬聚類(lèi)性能的衡量,βp-CFC算法根據(jù)數(shù)據(jù)子集之間的協(xié)同性進(jìn)一步描述數(shù)據(jù)的模糊性,故在DI指標(biāo)上βp-CFC算法性能略遜于FCM算法。總體而言,βp-CFC算法優(yōu)于FCM算法。
本文利用Parzen窗密度估計(jì)算法,分別估計(jì)各數(shù)據(jù)子集的密度,根據(jù)密度相關(guān)性得到變化的協(xié)同系數(shù)β,且密度相似性越高,β值越大,能夠充分描述數(shù)據(jù)子集之間的協(xié)同關(guān)系,提高協(xié)同聚類(lèi)算法的性能。
[1] 邊肇祺,張學(xué)工.模式識(shí)別[M]. 3版. 北京:清華大學(xué)出版社,2010:274-295. BIAN Z Q, ZHANG X G. Pattern Recognition[M]. 3rd ed.Beijing: Press of Tsinghua University,2010:274-295.
[2] BEZDEk J C.Pattern recognition with fuzzy objective function algorithms[M].New York:Plenum Press,1981.
[3] 楊漫,蘇亞坤.采用模糊C-均值聚類(lèi)的自適應(yīng)圖像分割算法[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2015,29(6):94-99. YANG Man,SU Yakun.Adaptive Algorithm Based on Fuzzy C-Means for Image Segmentaion[J].Journal of Chongqing University of Technology:Natural Science Edition,2015,29(6):94-99.
[4] JAIN A K. Data clustering: 50 years beyond K-means[J].Pattern Recognition Letters,2010,31(8):651-666.
[5] PEDRYCZ Witold.Collaborative fuzzy clustering[J].Pattern Recognition Letters, 2002,23(14):1675-1686.
[6] PEDRYCZ W, RAI P. Collaborative clustering with the use of fuzzy C-means and its quantification [J]. Fuzzy Sets and Systems, 2008,159(18): 2399-2427.
[7] COLETTA L F S.Collaborative fuzzy clustering algorithms: some refinements and design guidelines[J].IEEE Transactions on Fuzzy Systems, 2012, 20(3):444-462.
[8] 孫延維,彭智明,李健波. 基于粒子群優(yōu)化與模糊聚類(lèi)的社區(qū)發(fā)現(xiàn)算法[J]. 重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2015,27(5):660-666. SUN Yanwei, PENG Zhiming, LI Jianbo. Community detection algorithm based on particle swarm optimization and fuzzy clustering [J].Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2015,27(5):660-666.
[9] ZARINBAL M,ZARANDI M H F, TURKSEN I B.Relative entropy collaborative fuzzy clustering method[J].Pattern Recognition,2014,8(3):338-353.
[10] PATERLINI S,KRINK T.Differential evolution and particle swarm optimization in partitional clustering[J]. Computational Statistics and Data Anlysis, 2006,50(5):1220-1247.
[11] 高翠芳,黃珊維,沈莞薔,等. 基于信息熵加權(quán)的協(xié)同聚類(lèi)改進(jìn)算法[J]. 計(jì)算機(jī)應(yīng)用研究,2015,32(4):1016-1018,1023. GAO Cuifang,HUANG Shanwei,SHEN Wanqiang, et al. Improved collaborative clustering algorithm based on entropy weight[J]. Application Research of Computers, 2015,32(4): 1016-1018,1023.
[12] KARTHI R, ARUMUGAM S, RAMESHKUMAR K. Comparative evaluation of particle swarm optimization algorithms for data clustering using real world data sets[J]. IJCSNS International Journal of Computer Science and Network Security, 2008,8(1):203-212.
[13] 毛韶陽(yáng),李肯立.K-means初始聚類(lèi)中心優(yōu)化算法研究[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2007,19(4):422-425. MAO Shaoyang, LI Kenli. Research on K-means initial clustering center optimal algorithm[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2007, 19(4):422-425.
[14] 陳小輝,張功萱. 基于信息熵的符號(hào)屬性精確賦權(quán)聚類(lèi)方法[J]. 重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2014,26(6):850-855. CHEN Xiaohui, ZHANG Gongxuan.Symbol property accurate weight clustering method based on information entropy[J].Journal of Chongqing University of Posts and Telecommunications :Natural Science Edition, 2014,26(6):850-855.
[15] 符保龍, 張愛(ài)科. 基于均值密度中心估計(jì)的k-means聚類(lèi)文本挖掘方法[J]. 重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2014, 26(1): 111-115. FU Baolong, ZHANG Aike. K-means clustering text mining method using center estimation based on mean density[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2014, 26(1): 111-115.
[16] 周開(kāi)樂(lè),楊善林,丁帥,羅賀.聚類(lèi)有效性研究綜述[J].系統(tǒng)工程理論與實(shí)踐,2014,34(9):2417-2431. ZHOU Kaile, YANG Shanlin, DING Shuai, et al. On cluster validation[J].Systems Engineering-Theory & Practice, 2014,34(9):2417-2431.
(編輯:王敏琦)
Novel collaboration fuzzy C-means algorithm with Parzen window determined collaboration coefficient
ZHAO Huizhen, LIU Fuxian, LI Longyue
(School of Air and Missile Defense, Air Force Engineering University, Xi’an 710051, P.R.China)
Collaboration fuzzy C-means algorithm (CFC) can improve the performance of fuzzy C-means algorithm by using the collaborative relationship between the sub data sets. But the collaboration coefficient of CFC, in an inadequate using of the collaborative relationship, is always determined by priori knowledge and remains constant during collaboration stages. In order to circumvent this limitation, a novel collaboration fuzzy C-means algorithm with Parzen window determined collaboration coefficient(βp-CFC) was developed. First, fuzzy partition matrix and cluster prototypes of every sub data sets are computed by fuzzy C-means algorithm (FCM),for the further computing of collaboration coefficient. Second, density of the cluster prototypes is gained by Parzen window method. Third, collaborative coefficient is dynamically adjusted by the correlation of density. Last, objects are clustered with dynamical collaborative coefficient. The algorithm is tested on the matlab platform, achieving a high accuracy of 80.34%, higher than FCM and CFC with 11.80% and 3.94%, respectively. Examples are provided to demonstrate the rationality of collaboration coefficient and the better performance of CFC.
Parzen window;density;fuzzy C-means algorithm;collaborative coefficient
10.3979/j.issn.1673-825X.2017.02.020
2016-01-21
2016-10-12 通訊作者:趙慧珍 happy100zhao90@163.com
TP391.3
A
1673-825X(2017)02-0272-07
趙慧珍(1990-),女,山東單縣人,博士研究生,主要研究方向?yàn)閿?shù)據(jù)挖掘。E-mail:happy100zhao90@163.com。
重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)2017年2期