邵麗潔,馬福民
(南京財(cái)經(jīng)大學(xué)信息工程學(xué)院,南京 210023)
信息?;?-2]是在問(wèn)題求解空間中通過(guò)給定?;呗詫?fù)雜數(shù)據(jù)轉(zhuǎn)化為信息粒集合的構(gòu)造性過(guò)程。作為粒計(jì)算的前提和關(guān)鍵,信息?;芯窟M(jìn)一步推動(dòng)了智能信息領(lǐng)域的理論創(chuàng)新,在知識(shí)發(fā)現(xiàn)、海量數(shù)據(jù)挖掘、復(fù)雜問(wèn)題求解等領(lǐng)域具有廣泛的應(yīng)用前景[1]。為解決模糊不可分的復(fù)雜問(wèn)題,從而進(jìn)行有效的問(wèn)題分析及知識(shí)表示[3],PEDRYCZ 等人以顆粒的形式劃分模糊信息并根據(jù)現(xiàn)有依據(jù)形成“可信”粒子,提出了基于可信粒度準(zhǔn)則的兩階段信息?;蚣埽?-5]。第一階段通過(guò)無(wú)監(jiān)督學(xué)習(xí)的聚類分析方法,由原始數(shù)據(jù)形成數(shù)據(jù)集結(jié)構(gòu)的雛形;第二階段在監(jiān)督模式下基于數(shù)據(jù)類簇構(gòu)建信息顆粒,捕獲數(shù)據(jù)集的核心結(jié)構(gòu),從而構(gòu)建更綜合和全面的粒度結(jié)構(gòu),使最后所生成顆粒原型的整體性能更佳[5]。
在兩階段?;蚣苤?,聚類既是?;氖侄?,又是?;幕A(chǔ)。用于?;木垲愃惴ù篌w分為硬聚類和軟聚類兩類。C-Means硬聚類(Hard C-Means clustering,HCM)[1,5-6]算法要求所有數(shù)據(jù)對(duì)象明確劃分到確定的類簇,因此,在處理交叉類簇的重疊區(qū)域時(shí)易產(chǎn)生大量誤分樣本而影響粒子質(zhì)量。模糊C均值(Fuzzy C-Means,F(xiàn)CM)[7-8]是最常見(jiàn)的軟聚類算法,考慮到模糊隸屬函數(shù)設(shè)計(jì)的主觀因素,近年來(lái)粗糙C均值(Rough C-Means,RCM)[9]聚類算法得到快速發(fā)展。此后,將模糊集與粗糙集優(yōu)勢(shì)互補(bǔ)的模糊粗糙C 均值(Fuzzy Rough C-Means,F(xiàn)RCM)[10]聚類算法也受到廣泛關(guān)注。為提高對(duì)不確定性問(wèn)題的描述能力,文獻(xiàn)[11]將一般模糊集(稱之為一型)擴(kuò)展到二型模糊集,以主、次兩級(jí)隸屬函數(shù)共同描述模糊語(yǔ)言的“模糊程度”,但時(shí)間復(fù)雜度大幅增加。文獻(xiàn)[12-13]通過(guò)默認(rèn)次級(jí)隸屬度取常數(shù)1,將二型模糊集簡(jiǎn)化為區(qū)間二型模糊集,以降低運(yùn)算復(fù)雜度,這不僅增強(qiáng)了對(duì)不確定性信息的描述能力,而且也避免了算法的運(yùn)算量呈指數(shù)級(jí)增長(zhǎng),同時(shí)還為邊界交叉的不確定數(shù)據(jù)在兩階段信息粒化下的聚類分析提供了新思路。
信息粒化框架的第二階段基于可信粒度準(zhǔn)則構(gòu)造綜合考慮覆蓋度和獨(dú)特性的?;瘮?shù),得到形成“可信”信息顆粒的解決方案。根據(jù)?;罁?jù),通常設(shè)計(jì)與粒子樣本個(gè)數(shù)或權(quán)重呈正相關(guān)的函數(shù)來(lái)描述粒子的覆蓋度,而反映粒子語(yǔ)義的獨(dú)特性則正相反,其統(tǒng)一利用區(qū)間長(zhǎng)度相關(guān)的非遞增函數(shù)進(jìn)行度量。目前被使用較多的粒化函數(shù)有余弦函數(shù)[14]、指數(shù)函數(shù)[15-17]、基于區(qū)間比值的線性函數(shù)[18-20]、基于區(qū)間與衰減參數(shù)的積分函數(shù)[21-23]等。文獻(xiàn)[15-17]利用指數(shù)函數(shù)表述粒子的獨(dú)特性,函數(shù)在X軸正半軸區(qū)域的變化趨勢(shì)充分反映了粒子隨區(qū)間長(zhǎng)度增加語(yǔ)義不斷衰減的非遞增特性,通過(guò)指數(shù)系數(shù)α控制粒子的粒度大小,可實(shí)現(xiàn)不同層次的?;H欢?,包括指數(shù)函數(shù)在內(nèi)的上述所有函數(shù)在表述粒子獨(dú)特性時(shí),都只考慮了粒子區(qū)間大小而忽視了粒子內(nèi)部數(shù)據(jù)的空間分布和疏密程度,不能較好地描述粒子的獨(dú)特性,直接影響了所生成粒子的質(zhì)量。
為解決多類簇交叉且分布不均衡數(shù)據(jù)的信息?;瘑?wèn)題,本文提出一種結(jié)合區(qū)間二型FRCM 聚類與混合度量的兩階段信息?;惴?。在第一階段,依據(jù)可信粒度準(zhǔn)則,基于區(qū)間二型FRCM 算法對(duì)不平衡數(shù)據(jù)進(jìn)行聚類分析,在有效提升分析精度的同時(shí),獲取類簇形式的初始信息粒;在第二階段,采用混合度量方法,以數(shù)據(jù)分布的疏密程度表述粒子內(nèi)部的空間結(jié)構(gòu),以區(qū)間大小刻畫(huà)粒子的區(qū)域范圍,從而在充分描述粒子特性的同時(shí),清晰體現(xiàn)粒子結(jié)構(gòu),最終獲得客觀的劃分方案,形成合理的粒子區(qū)間。
在可信粒度準(zhǔn)則的兩階段?;蚣苤?,聚類分析不僅被視為構(gòu)建粒度原型的先決條件,而且還被作為揭示數(shù)據(jù)結(jié)構(gòu)和構(gòu)建信息顆粒的事實(shí)標(biāo)準(zhǔn)?;谀:痛植诩木垲惙治隹稍谌狈ο闰?yàn)知識(shí)的前提下對(duì)含有不確定信息的數(shù)據(jù)進(jìn)行初步分析。
1.1.1 模糊粗糙C 均值算法
文獻(xiàn)[10]融合兩種軟計(jì)算方法,引入粗糙集理論中上下近似的概念和模糊集理論中模糊隸屬度的概念,將歸屬關(guān)系模糊的數(shù)據(jù)樣本劃入類簇的邊界區(qū)域,將歸屬關(guān)系明確的數(shù)據(jù)樣本劃入類簇的下近似區(qū)域,進(jìn)而提出模糊粗糙C 均值(FRCM)算法。考慮到類簇邊界區(qū)域的不確定性,該文作者認(rèn)為每個(gè)數(shù)據(jù)樣本對(duì)類簇與類簇中心的影響程度都不同,因此,使用取值在0 到1 之間的模糊隸屬度進(jìn)行計(jì)算,如式(1)所示:
其中,C為類簇個(gè)數(shù),dij為數(shù)據(jù)樣本xj與類簇中心vi的歐式距離,m為模糊化系數(shù)。在劃分?jǐn)?shù)據(jù)樣本與類簇間的歸屬關(guān)系時(shí),若存在類簇Ck滿足|dij-dkj|<ξ,則將xj劃入類簇Ci的邊界集,否則將xj劃入類簇Ci的下近似集。模糊隸屬度的計(jì)算公式定義為:
1.1.2 區(qū)間二型模糊C 均值算法
文獻(xiàn)[11]在針對(duì)復(fù)雜不確定問(wèn)題建模時(shí),研究模糊化系數(shù)m對(duì)模糊邊界的影響,提出了區(qū)間二型模糊C均值(Interval Type-2 Fuzzy C-Means,IT2FCM)聚類算法。該算法考慮類簇規(guī)模,通過(guò)使用主、次兩級(jí)模糊隸屬函數(shù)更準(zhǔn)確地描述了不確定性問(wèn)題的模糊程度,增強(qiáng)了對(duì)高階模糊不確定問(wèn)題的描述能力[12-14]。為解決時(shí)間復(fù)雜度指數(shù)級(jí)增長(zhǎng)的問(wèn)題,默認(rèn)次級(jí)模糊隸屬度為1,將區(qū)間函數(shù)轉(zhuǎn)化為數(shù)值區(qū)間。在IT2FCM 算法中,二型區(qū)間模糊隸屬度的計(jì)算公式如下:
其中,Ni為類簇Ci的樣本規(guī)模,N為數(shù)據(jù)樣本總數(shù)。先通過(guò)式(1)計(jì)算兩個(gè)模糊化系數(shù)對(duì)應(yīng)的模糊隸屬度,再根據(jù)最值情況判斷左右區(qū)間值,如式(4)和式(5)所示:
PEDRYCZ 等人提出的可信粒度準(zhǔn)則[6,24]基于提供的實(shí)驗(yàn)證據(jù)形成有意義的信息顆粒,被作為一種有效的數(shù)據(jù)?;侄巍R罁?jù)數(shù)據(jù)本身的特性,可信粒度準(zhǔn)則兼顧了粒子形成過(guò)程中的覆蓋度與獨(dú)特性,同時(shí)包含了優(yōu)化的目標(biāo)函數(shù)。
基于可信粒度準(zhǔn)則,類簇X={x1,x2,…,xM}生成以區(qū)間[a,c,b]表示的某信息粒Ω,如圖1 所示。其中,M為各類簇劃入粒子區(qū)間參與粒化的數(shù)據(jù)樣本個(gè)數(shù),M=kN,0 圖1 模糊粒子區(qū)間Fig.1 Interval of fuzzy granule 對(duì)所有數(shù)據(jù)樣本按權(quán)重大小進(jìn)行升序排列,得到新簇X′,并將最大權(quán)重對(duì)應(yīng)的數(shù)據(jù)樣本設(shè)為粒子區(qū)間的中間值c[24]: 定義1粒子的覆蓋度[24]表示粒子的顆粒大小,其揭示了粒子具有的合理證據(jù)。在模糊劃分過(guò)程中,一定范圍內(nèi)粒子區(qū)間越大,包含的數(shù)據(jù)樣本越多,越有利于提取合理可信的粒子語(yǔ)義。描述覆蓋度的粒化函數(shù)g反映數(shù)據(jù)的遞增特性,常用權(quán)重表示: 定義2粒子的獨(dú)特性[24]與粒子語(yǔ)義有關(guān),可揭示粒子所含信息的抽象程度。在模糊劃分過(guò)程中,一定范圍內(nèi)粒子區(qū)間越小,包含的數(shù)據(jù)樣本越少,越有利于提取清晰的粒子語(yǔ)義。獨(dú)特性?;瘮?shù)f反映數(shù)據(jù)的非遞增特性,常用指數(shù)函數(shù)[15-17]表示: 定義3目標(biāo)函數(shù)反映粒子的整體質(zhì)量。由于粒子的兩大特性是相互沖突的,因此把代表粒子覆蓋度和獨(dú)特性的?;瘮?shù)組合為復(fù)合公式,并利用argmax()函數(shù)求解目標(biāo)函數(shù)的最大值,將尋找最佳粒子邊界的問(wèn)題轉(zhuǎn)化為具體的優(yōu)化問(wèn)題,一般表現(xiàn)形式為[24]: 對(duì)于類簇邊界交叉重疊的數(shù)據(jù)集,類簇間規(guī)模的不均衡性對(duì)聚類分析的結(jié)果影響較大。當(dāng)兩個(gè)類簇的規(guī)模相差較大時(shí),小規(guī)模類簇更容易受到邊界區(qū)域的影響,且聚類中心點(diǎn)更易向規(guī)模較大的類簇偏移[14]。不同于傳統(tǒng)的模糊隸屬度量,區(qū)間二型模糊集合理論的隸屬度在描述不均衡類簇邊界交叉的不確定信息時(shí)具有明顯的優(yōu)勢(shì),IT2FCM 算法也被用于不均衡類簇?cái)?shù)據(jù)的聚類分析[12-14]。IT2FCM 算法雖然一定程度上體現(xiàn)了不同區(qū)域數(shù)據(jù)樣本的分布差異,但一些明確屬于某個(gè)類簇的數(shù)據(jù)樣本仍然需要參與其他類簇的隸屬度量計(jì)算,未對(duì)具有不同歸屬程度的數(shù)據(jù)樣本進(jìn)行有區(qū)別的處理,會(huì)影響不均衡類簇?cái)?shù)據(jù)聚類分析精度的提升,同時(shí)也會(huì)增加計(jì)算復(fù)雜度。 為削弱類簇規(guī)模不均衡問(wèn)題的不利影響,本文在IT2FCM 算法的基礎(chǔ)上,引入粗糙集理論中上下近似的概念,考慮到不同區(qū)域的數(shù)據(jù)樣本對(duì)類簇聚類的貢獻(xiàn)度有明顯差異以及計(jì)算所有數(shù)據(jù)樣本模糊隸屬度的時(shí)間成本,只對(duì)邊界區(qū)域的數(shù)據(jù)樣本進(jìn)行二型區(qū)間模糊度量,而下近似區(qū)域數(shù)據(jù)樣本取固定隸屬度1,從而得到適用于多類簇交叉且分布不均衡數(shù)據(jù)的IT2FRCM 算法,將其作為?;谝浑A段的聚類分析方法。 在IT2FRCM 算法中,模糊隸屬度計(jì)算公式[14]如下: 相應(yīng)的類簇中心迭代計(jì)算公式為: IT2FRCM 算法在計(jì)算數(shù)據(jù)樣本的權(quán)重時(shí)綜合考慮了類簇的規(guī)模與空間分布信息,按規(guī)模大小自適應(yīng)獲得相對(duì)的加權(quán)系數(shù),有效削弱了邊界區(qū)域?qū)垲惖挠绊?,可避免類簇中心向邊界區(qū)域嚴(yán)重偏移。 基于IT2FRCM 聚類所形成的基礎(chǔ)信息粒,在描述粒子成粒依據(jù)時(shí),保留數(shù)據(jù)樣本與類簇歸屬關(guān)系的模糊隸屬度,以區(qū)間范圍內(nèi)數(shù)據(jù)樣本的權(quán)重和來(lái)度量粒子覆蓋度[24]。傳統(tǒng)的粒化算法對(duì)于粒子獨(dú)特性的度量多基于余弦函數(shù)[14]、指數(shù)函數(shù)[15-17]和線性函數(shù)[18-20]等衰減函數(shù),其將粒子區(qū)間大小看作是影響粒子獨(dú)特性的唯一因素。然而,由圖2 所示基礎(chǔ)信息粒的區(qū)間劃分圖可知,在以類簇形式存在的基礎(chǔ)信息粒中,數(shù)據(jù)樣本(以*表示)的分布并不均勻:越靠近類簇中心(以+表示),分布的數(shù)據(jù)樣本越密集;越靠近類簇邊界,分布的數(shù)據(jù)樣本越稀疏。當(dāng)粒子區(qū)間長(zhǎng)度(以→表示)均勻增加時(shí),劃入粒子區(qū)間內(nèi)數(shù)據(jù)樣本的個(gè)數(shù)往往會(huì)受到類簇中數(shù)據(jù)樣本分布的影響而不均勻增加,從而導(dǎo)致粒子的獨(dú)特性也發(fā)生不均衡變化。 圖2 基礎(chǔ)信息粒的區(qū)間劃分圖Fig.2 Interval partition graph of basic information granule 由此可知,粒子的獨(dú)特性不僅與區(qū)間大小有關(guān),而且還受到數(shù)據(jù)樣本空間分布的影響。雖然傳統(tǒng)描述粒子獨(dú)特性的衰減函數(shù)一定程度上滿足了隨粒子區(qū)間增大粒子獨(dú)特性減小的成粒原理,但簡(jiǎn)單的區(qū)間數(shù)值忽視了粒子內(nèi)部數(shù)據(jù)樣本的空間分布與疏密程度等因素對(duì)粒子特性的影響,不能很好地概括粒子內(nèi)部的結(jié)構(gòu)與性質(zhì)。因此,區(qū)別于參數(shù)版可信粒度準(zhǔn)則關(guān)于粒子獨(dú)特性的度量方式,本文綜合考慮區(qū)間與密度兩大因素,重新設(shè)計(jì)描述獨(dú)特性的指數(shù)函數(shù),將粒子獨(dú)特性的表達(dá)式改進(jìn)為: 其中,指數(shù)的分子表示粒子某區(qū)間范圍內(nèi)所有數(shù)據(jù)樣本到均值中心c的距離和,分母表示xj作為某邊界點(diǎn)時(shí)粒子內(nèi)部數(shù)據(jù)樣本總數(shù),分式部分為粒子內(nèi)部數(shù)據(jù)樣本與類簇中心的平均距離,反映了粒子內(nèi)部數(shù)據(jù)樣本分布的疏密程度。為兼顧粒子區(qū)間與密度兩者對(duì)?;挠绊?,避免單個(gè)因素過(guò)于片面地反映粒子的成粒情況,式(12)改進(jìn)原有的指數(shù)函數(shù),以乘積的形式結(jié)合密度與區(qū)間這兩個(gè)因素,使之共同表述粒子的獨(dú)特性。區(qū)間大小作為系數(shù),直接影響?;瘮?shù)指數(shù)部分的乘積大小,從而控制函數(shù)變化的速率。指數(shù)函數(shù)的函數(shù)結(jié)構(gòu)不僅體現(xiàn)了空間內(nèi)數(shù)據(jù)樣本的分布特點(diǎn),而且函數(shù)值的變化也符合數(shù)據(jù)樣本分布越密集則粒子結(jié)構(gòu)越緊湊的成粒原理。因此,在基于可信粒度準(zhǔn)則的?;^(guò)程中,綜合考慮區(qū)間與密度來(lái)度量粒子獨(dú)特性,可使粒子區(qū)間的劃分更合理,使生成的標(biāo)準(zhǔn)信息粒更具有代表性。 為解決分布不均衡數(shù)據(jù)的信息?;瘑?wèn)題,本文基于IT2FRCM 聚類算法,以類簇的形式表示基礎(chǔ)信息粒,并通過(guò)改進(jìn)參數(shù)版可信粒度準(zhǔn)則下描述粒子獨(dú)特性的?;瘮?shù),提出結(jié)合IT2FRCM 與混合度量的兩階段信息?;惴∕MIG-IT2FRCM,算法流程如圖3所示。 圖3 MMIG-IT2FRCM 算法流程Fig.3 Procedure of MMIG-IT2FRCM algorithm 算法的具體執(zhí)行步驟如下: 算法MMIG-IT2FRCM 輸入數(shù)據(jù)集 輸出C個(gè)信息粒子 第一階段執(zhí)行IT2FRCM 聚類算法。 步驟1設(shè)置并初始化相關(guān)參數(shù),隨機(jī)選取類簇中心,設(shè)置相對(duì)距離閾值ep、最大迭代次數(shù)Iter 和模糊化系數(shù)m、m1、m2。 步驟2根據(jù)每個(gè)數(shù)據(jù)樣本xj與類簇Ci的位置關(guān)系,將其劃分到對(duì)應(yīng)類簇的上、下近似區(qū)域。 步驟3依據(jù)式(10)計(jì)算所有邊界區(qū)域數(shù)據(jù)樣本與所屬類簇的模糊隸屬度hij。 步驟4依據(jù)式(11)更新每個(gè)類簇的中心vi。 步驟5若各類簇中心不再發(fā)生變化或已經(jīng)達(dá)到設(shè)定的最大迭代次數(shù),算法終止,否則返回步驟2重新進(jìn)行迭代計(jì)算。 第二階段基于IT2FRCM 聚類結(jié)果進(jìn)行信息?;?。 步驟1初始化?;种茀?shù)λ,將所有數(shù)據(jù)樣本按所屬類簇歸類。 步驟2將類簇中心vi作為信息粒的中心賦值給c,并根據(jù)類簇中數(shù)據(jù)樣本的最值情況判斷類簇左右邊界范圍內(nèi)可參與?;臄?shù)據(jù)樣本xj。 步驟3將每個(gè)參與?;臄?shù)據(jù)樣本xj作為潛在的粒子邊界點(diǎn),根據(jù)式(7)和式(12)計(jì)算信息粒子的CCov(Ω)和SSpe(Ω)。 步驟4依據(jù)式(9)選取粒子左邊區(qū)域、右邊區(qū)域中粒子覆蓋度和獨(dú)特性乘積最大的樣本點(diǎn),得出該維度下的粒子邊界。 步驟5確定信息粒子在各維空間下的左右邊界后,輸出信息粒子。 MMIG-IT2FRCM 算法在第一階段IT2FRCM 聚類時(shí),其時(shí)間復(fù)雜度由距離矩陣計(jì)算的時(shí)間復(fù)雜度O(NC)、隸屬度矩陣計(jì)算的時(shí)間復(fù)雜度O(NC)和簇中心更新的時(shí)間復(fù)雜度O(NC)三部分組成。由于數(shù)據(jù)樣本總數(shù)N一般遠(yuǎn)大于類簇個(gè)數(shù)C,因此算法聚類階段的時(shí)間復(fù)雜度為O(N)。第二階段信息?;臅r(shí)間復(fù)雜度則由所有數(shù)據(jù)樣本歸類的時(shí)間復(fù)雜度O(N)、粒子覆蓋度、獨(dú)特性及目標(biāo)函數(shù)計(jì)算的時(shí)間復(fù)雜度(皆為O(k2N2))、最大目標(biāo)函數(shù)值查找的時(shí)間復(fù)雜度O(kN)三部分組成。因此,粒化算法耗費(fèi)的時(shí)間復(fù)雜度為O(k2N2),其中,k為常數(shù),MMIG-IT2FRCM ?;惴ǖ恼w時(shí)間復(fù)雜度為O(N2)。 相較于傳統(tǒng)參數(shù)版可信粒度準(zhǔn)則下基于指數(shù)函數(shù)、線性函數(shù)或余弦函數(shù)?;惴ǖ臅r(shí)間復(fù)雜度O(N2),本文提出的MMIG-IT2FRCM ?;惴〞r(shí)間復(fù)雜度沒(méi)有明顯增加。 為驗(yàn)證MMIG-IT2FRCM 算法的有效性,選取人工數(shù)據(jù)集和多組UCI標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。首先對(duì)比分析IT2FRCM 和FRCM 聚類,然后對(duì)基于這兩種聚類的4個(gè)粒化算法進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證本文MMIG-IT2FRCM?;惴ǖ男阅軆?yōu)勢(shì)。實(shí)驗(yàn)環(huán)境如下:CPU 為Intel?CoreTMi5-4210H,內(nèi)存為8 GB,操作系統(tǒng)為Windows10。 為保證實(shí)驗(yàn)的公平性,使用隨機(jī)算法確定各數(shù)據(jù)集的初始聚類中心,同一數(shù)據(jù)集下所有聚類算法采用相同的初始聚類中心。相對(duì)距離閾值ep 隨不確定區(qū)域的增大而增大,以0.02 為間隔取0 到1 之間的最優(yōu)參數(shù)取值。實(shí)驗(yàn)時(shí),模糊化因子m1、m2在1.1到11之間取經(jīng)驗(yàn)最佳區(qū)間值,抑制參數(shù)λ根據(jù)經(jīng)驗(yàn)設(shè)置為0.7,控制粒度大小的參數(shù)α取常規(guī)值1。相關(guān)參數(shù)取值見(jiàn)表1。 表1 不同數(shù)據(jù)集下2 種聚類算法的參數(shù)設(shè)置Table 1 Parameters setting of two clustering algorithms on different datasets 按照正態(tài)分布隨機(jī)生成3 個(gè)分別包含25 個(gè)、31 個(gè)和20 個(gè)數(shù)據(jù)樣本的類簇作為人工數(shù)據(jù)集1(Art1),按照正態(tài)分布隨機(jī)生成3 個(gè)分別包含30 個(gè)、60 個(gè)和100 個(gè)數(shù)據(jù)樣本的類簇作為人工數(shù)據(jù)集2(Art2)。為明顯區(qū)別于人工數(shù)據(jù)集1,通過(guò)控制正態(tài)分布的參數(shù)方差,使得人工數(shù)據(jù)集2 的類簇區(qū)域重疊情況更嚴(yán)重,類簇規(guī)模不均衡的特征也更明顯。Art2 數(shù)據(jù)集下FRCM 和IT2FRCM 算法的聚類效果如圖4 所示,其中,加粗且形狀較大的幾何圖形表示對(duì)應(yīng)類簇的中心,星形表示對(duì)應(yīng)類簇誤劃分到其他類簇的數(shù)據(jù)樣本。分析圖4 中不同規(guī)模且重疊情況不同的3 個(gè)類簇的聚類結(jié)果可知,采用IT2FRCM 聚類算法得到的聚類中心更為理想。 圖4 Art2 數(shù)據(jù)集下2 種聚類算法的聚類效果Fig.4 Clustering effects of two clustering algorithms on Art2 database 對(duì)2 種聚類算法的聚類指標(biāo)進(jìn)行對(duì)比,如表2所示。其中:πOK 表示類簇下近似集中聚類正確的樣本數(shù)加上類簇邊界集中聚類正確的樣本數(shù)與重疊系數(shù)的乘積最后所得的樣本數(shù);?OK 表示類簇下近似集中聚類錯(cuò)誤的樣本數(shù);Err+表示多數(shù)類類簇被錯(cuò)誤劃分到少數(shù)類類簇下近似集樣本數(shù);Err_表示少數(shù)類類簇被錯(cuò)誤劃分到多數(shù)類類簇下近似集樣本數(shù);Acc 表示聚類精度,即聚類正確樣本數(shù)占樣本總數(shù)的比例。由表2 可知,在Art1 數(shù)據(jù)集上,根據(jù)聚類指標(biāo)值無(wú)法直接判斷2 種聚類算法的優(yōu)劣,而在類簇規(guī)模差異大且重疊情況更嚴(yán)重的Art2 數(shù)據(jù)集上,使用IT2FRCM 聚類算法取得了更好的聚類性能,這充分說(shuō)明IT2FRCM 算法對(duì)數(shù)據(jù)分布不均衡的多類簇交叉數(shù)據(jù)集具有很好的適應(yīng)性。 表2 人工數(shù)據(jù)集下2 種聚類算法的聚類指標(biāo)Table 2 Clustering indicators of two clustering algorithms on artificial datasets 在第二階段,對(duì)基于IT2FRCM 算法的聚類結(jié)果實(shí)現(xiàn)信息?;?。實(shí)驗(yàn)中,分別以線性函數(shù)(LIN)、余弦函數(shù)(COS)、指數(shù)函數(shù)(EXP)和本文所提出的混合度量函數(shù)(MMIG)作為不同的獨(dú)特性?;瘮?shù),從而形成LIN-IT2FRCM、COS-IT2FRCM、EXP-IT2FRCM 和MMIG-IT2FRCM 這4 種?;惴ㄟM(jìn)行對(duì)比實(shí)驗(yàn)。圖5 為Art2 數(shù)據(jù)集上4 種?;惴ㄋ玫降牧;Y(jié)果。其中,黑色矩形框是由粒子左、右邊界點(diǎn)形成的二維區(qū)間。黑色矩形框越大,表明粒子顆粒越大,越難提取有效的粒子語(yǔ)義,同時(shí)也表明粒子內(nèi)部的數(shù)據(jù)樣本越多,包含的證據(jù)越充分、合理。由圖5 可知,本文提出的MMIG-IT2FRCM ?;惴ㄋ纬傻牧W訁^(qū)間相較于其他3 種?;惴ǜ采w了更多的數(shù)據(jù)樣本,其形成的粒子區(qū)間包含了更為充分的實(shí)驗(yàn)證據(jù)。 圖5 Art2 數(shù)據(jù)集下4 種?;惴ǖ牧;Ч鸉ig.5 Granularity effects of four granulation algorithms on Art2 database 在規(guī)模不均衡、空間分布明顯不同的2 個(gè)人工數(shù)據(jù)集下對(duì)4 種?;惴ǖ牧;笜?biāo)進(jìn)行對(duì)比,如表3 所示,其中:Good 為歸類正確數(shù),即聚類正確的樣本個(gè)數(shù);Currency 為歸類正確率,表示粒子內(nèi)部所有數(shù)據(jù)樣本中歸類正確的數(shù)據(jù)樣本所占的比例;Conclude 為覆蓋率,表示粒子覆蓋范圍;Represent 為獨(dú)特性指標(biāo),反映粒子群的代表性;Quality 反映生成粒子的質(zhì)量,是粒子群整體質(zhì)量的最終評(píng)判標(biāo)準(zhǔn)。分析表3中各項(xiàng)?;笜?biāo)可知,MMIG-IT2FRCM ?;惴ㄔ诹W泳垲愓_數(shù)、粒子整體質(zhì)量和粒子的覆蓋度與獨(dú)特性等重要指標(biāo)上均取得了最佳值。相較于其他3 種?;惴ǎ撍惴ň哂忻黠@的性能優(yōu)勢(shì),得到的粒子群整體質(zhì)量更好。 表3 人工數(shù)據(jù)集下4 種粒化算法的?;笜?biāo)Table 3 Granulation indicators of four granulation algorithms on artificial datasets 選取4 個(gè)標(biāo)準(zhǔn)的UCI 數(shù)據(jù)集Lenses、Wine、Iris、Fertility 進(jìn)行實(shí)驗(yàn)分析。小數(shù)據(jù)集Lenses 的3 個(gè)類簇各有4 個(gè)、5 個(gè) 和15 個(gè)數(shù)據(jù)樣本。Wine 數(shù)據(jù)集的3 個(gè)類簇各有59 個(gè)、78 個(gè)、41 個(gè)數(shù)據(jù)樣本。Iris 數(shù)據(jù)集的3 個(gè)類簇各有50 個(gè)樣本。Fertility 數(shù)據(jù)集的2 個(gè)類簇各有88 個(gè)和12 個(gè)數(shù)據(jù)樣本。數(shù)據(jù)集Iris、Wine 數(shù)據(jù)樣本分布均勻,Lenses 數(shù)據(jù)樣本幾乎不交叉。3 個(gè)數(shù)據(jù)集體現(xiàn)了不同的類簇交叉重疊程度,即Iris 4 個(gè)UCI 標(biāo)準(zhǔn)數(shù)據(jù)集在2 種聚類算法下的實(shí)驗(yàn)結(jié)果如表4所示。其中:OK 為位于類簇下近似區(qū)域且聚類正確的樣本數(shù);Bd為邊界區(qū)域的樣本個(gè)數(shù);Iter為算法的迭代次數(shù);AverTime 為平均時(shí)間。從表4 可以看出,除規(guī)模一致、均勻分布的Iris數(shù)據(jù)集外,其他規(guī)模差異大且非均勻分布的數(shù)據(jù)集耗費(fèi)在IT2FRCM 聚類算法中的時(shí)間復(fù)雜度遠(yuǎn)低于FRCM 聚類算法。在對(duì)類簇規(guī)模差異大且樣本點(diǎn)分散的Fertility 數(shù)據(jù)集聚類時(shí),IT2FRCM 算法只迭代了4次就快速收斂,而FRCM 算法達(dá)到迭代次數(shù)上限后,被迫停止算法,時(shí)間復(fù)雜度很高。因此,綜合對(duì)比聚類正確數(shù)、迭代次數(shù)和平均時(shí)間等聚類指標(biāo)可知,對(duì)于多類簇交叉且數(shù)據(jù)不均衡分布的數(shù)據(jù)集,IT2FRCM 算法在迭代運(yùn)行過(guò)程中能夠?qū)崿F(xiàn)快速收斂和準(zhǔn)確分類。 表4 UCI 數(shù)據(jù)集下2 種聚類算法的聚類指標(biāo)對(duì)比Table 4 Clustering indicators of two clustering algorithms on UCI datasets 4 個(gè)UCI 標(biāo)準(zhǔn)數(shù)據(jù)集下4 種粒化算法的實(shí)驗(yàn)結(jié)果如表5 所示??梢钥闯?,MMIG-IT2FRCM ?;惴ㄔ跉w類正確數(shù)、粒子覆蓋度和獨(dú)特性指標(biāo)上均取得了最佳值。分別對(duì)比4 個(gè)UCI 數(shù)據(jù)集下4 種?;惴ǖ臍w類正確數(shù)可知,本文提出的MMIG-IT2FRCM?;惴ㄉ傻男畔⒘W觾?nèi)部聚類正確的數(shù)據(jù)樣本數(shù)更多,提取的粒子信息可用性強(qiáng)。分析粒子兩大特性可知,MMIG-IT2FRCM 粒化算法在Lenses、Wine、Iris、Fertility 數(shù)據(jù)集上覆蓋度取值明顯高于相同數(shù)據(jù)集下其他3 種?;惴ㄖ懈采w度的最佳值,可見(jiàn)MMIG-IT2FRCM ?;惴ㄉ傻男畔⒘AW訁^(qū)間更大。同時(shí),MMIG-IT2FRCM ?;惴ㄔ? 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集下獨(dú)特性取值明顯低于相同數(shù)據(jù)集下其他3 種?;惴ㄖ械淖罴阎?,反映了基于該粒化算法的粒子結(jié)構(gòu)更為緊湊,更利于提取清晰的粒子語(yǔ)義。隨著粒子區(qū)間范圍擴(kuò)大,會(huì)有更多邊界區(qū)域的誤分樣本被劃入粒子區(qū)間,因此,MMIG-IT2FRCM?;惴ㄔ赪ine、Iris、Fertility 數(shù)據(jù)集上的歸類正確率略微遜色于其他3 種?;惴?,但粒子覆蓋度和獨(dú)特性兩大特性指標(biāo)得到明顯提升,與經(jīng)典的EXPIT2FRCM ?;惴ㄏ啾?,其正確率的取值仍然控制在合理的范圍。關(guān)于粒子的整體質(zhì)量,對(duì)比4種?;惴ǖ娜≈登闆r可知,MMIG-IT2FRCM ?;惴ㄔ贚enses 和Iris 數(shù)據(jù)集下均取得了最佳值,在Wine 和Fertility 數(shù)據(jù)集下與其他3 種?;惴ǖ娜≈登闆r相近。 表5 UCI 數(shù)據(jù)集下4 種?;惴ǖ牧;笜?biāo)Table 5 Granulation indicators of four granulation algorithms on UCI datasets 綜合4 個(gè)數(shù)據(jù)集類簇的交叉情況(Lenses 考慮反映粒子本質(zhì)的核心指標(biāo),在類簇規(guī)模一致、數(shù)據(jù)分布均勻且邊界區(qū)域輕微交叉的Iris 數(shù)據(jù)集與類簇規(guī)模差別大、類簇重疊嚴(yán)重的Fertility 數(shù)據(jù)集下做進(jìn)一步對(duì)比,4 種?;惴ǖ膶?shí)驗(yàn)結(jié)果如圖6 所示。可以看出,本文提出的MMIG_IT2FRCM 粒化算法相較其他?;椒?,在反映生成粒子性質(zhì)與質(zhì)量的核心指標(biāo)上均取得理想表現(xiàn),對(duì)類簇規(guī)模不均衡且邊界區(qū)域交叉重疊的數(shù)據(jù)集具有更強(qiáng)的適用性。 綜合2 組人工數(shù)據(jù)集和4 組UCI 標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果可知,本文提出的MMIG-IT2FRCM ?;惴ㄗ罱K劃分形成的可信信息粒子具有更清晰的粒子語(yǔ)義,并最大化滿足粒度層次上實(shí)驗(yàn)證據(jù)合理的成粒原理。 針對(duì)數(shù)據(jù)分布不均衡且多類簇交叉數(shù)據(jù)集的信息?;瘑?wèn)題,本文提出一種結(jié)合區(qū)間二型FRCM 與混合度量的兩階段信息?;惴??;诳焖偈諗康腎T2FRCM 聚類算法為?;峁┗拘畔⒘#瑫r(shí)考慮密度和區(qū)間的共同作用,改進(jìn)粒子獨(dú)特性描述函數(shù)。在多組人工數(shù)據(jù)集和UCI 標(biāo)準(zhǔn)數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果表明,本文算法在粒子兩大特性的多個(gè)指標(biāo)上均取得了較為理想的結(jié)果,所得信息粒結(jié)構(gòu)緊湊并具有代表性。針對(duì)不同分布且不同規(guī)模大小的數(shù)據(jù)集,下一步將自適應(yīng)調(diào)整信息粒的粒度大小以實(shí)現(xiàn)不同層次的信息?;?,同時(shí)提高算法的適應(yīng)性。2 基于IT2FCM 與混合度量的粒化算法
2.1 考慮類簇不均衡性的IT2FCM 算法
2.2 粒子特性描述問(wèn)題
2.3 ?;惴?/h3>
2.4 算法時(shí)間復(fù)雜度分析
3 實(shí)驗(yàn)與結(jié)果分析
3.1 信息?;瘍呻A段數(shù)據(jù)初始化
3.2 人工數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
3.3 UCI 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
4 結(jié)束語(yǔ)