• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于概率模型的非均勻數(shù)據(jù)聚類算法

    2018-11-22 09:37:54楊天鵬陳黎飛
    計(jì)算機(jī)應(yīng)用 2018年10期
    關(guān)鍵詞:概率模型聚類密度

    楊天鵬,陳黎飛,2

    (1.福建師范大學(xué) 數(shù)學(xué)與信息學(xué)院,福州 350117; 2.福建師范大學(xué) 數(shù)字福建環(huán)境監(jiān)測(cè)物聯(lián)網(wǎng)實(shí)驗(yàn)室,福州 350117)(*通信作者電子郵箱clfei@fjnu.edu.cn)

    0 引言

    聚類分析作為數(shù)據(jù)挖掘的一種重要方法,目的是將給定數(shù)據(jù)劃分成多個(gè)子集(每個(gè)子集為一個(gè)簇),使得簇內(nèi)對(duì)象彼此相似,與其他簇對(duì)象不相似[1]。傳統(tǒng)的聚類算法可分為層次聚類、基于劃分聚類、基于密度和網(wǎng)格聚類,以及其他聚類算法[2-3]。目前聚類分析已廣泛應(yīng)用在Web搜索、圖像處理、模式識(shí)別、醫(yī)療數(shù)據(jù)分析等眾多領(lǐng)域。

    作為數(shù)據(jù)挖掘十大算法之一,K-means算法[4]因其簡(jiǎn)單高效的優(yōu)點(diǎn)得到廣泛的研究和應(yīng)用[5]。然而,受“均勻效應(yīng)(uniform effect)”的影響[6],K-means型算法在聚類醫(yī)療診斷等復(fù)雜數(shù)據(jù)時(shí)性能受限。這類數(shù)據(jù)的一個(gè)特點(diǎn)是同一數(shù)據(jù)集同時(shí)包含了樣本數(shù)量和樣本密度有較大差異的簇,這種數(shù)據(jù)稱為非均勻數(shù)據(jù)(non-uniform data)。與不平衡數(shù)據(jù)(主要指簇樣本量即簇大小差異較大的數(shù)據(jù))聚類[7]相比,非均勻數(shù)據(jù)聚類問(wèn)題更具普遍性。例如,在含有“正?!焙汀盎疾 眱蓚€(gè)簇的疾病診斷數(shù)據(jù)中,兩簇的大小差異明顯(通常,“正常”簇比“患病”簇的樣本數(shù)量大得多),更重要地,“患病”簇的樣本皆具特定的疾病模式,其密度比“正常”簇有顯著區(qū)別(表現(xiàn)為“正?!贝貥颖痉植嫉姆讲畲蟮枚?。

    針對(duì)該問(wèn)題研究者提出了多種方法[8-12],可大致分為三類:第一類方法基于樣本抽樣,在聚類之前首先對(duì)樣本集作欠采樣或過(guò)采樣的處理操作,文獻(xiàn)[8-9]即是在這樣預(yù)處理后的數(shù)據(jù)上進(jìn)行K-means聚類的;第二類方法在聚類模型中考慮不同簇的樣本量差異,例如,文獻(xiàn)[10]引入簇的樣本數(shù)量,給出了經(jīng)典模糊聚類算法目標(biāo)優(yōu)化函數(shù)的兩種改進(jìn)方案;第三類方法則側(cè)重簇的密度差異,借助多代表點(diǎn)等方法[11]以區(qū)分?jǐn)?shù)據(jù)集中的不同密度區(qū)域。這些方法是分別針對(duì)簇樣本數(shù)量不平衡特性或密度差異特性而提出的,未提供同時(shí)處置非均勻數(shù)據(jù)上述兩個(gè)特性的解決方案。

    從原理上說(shuō),K-means型聚類是一種基于模型的方法,它所學(xué)習(xí)的概率模型是以相關(guān)參數(shù)為常數(shù)這一假設(shè)前提下的一種簡(jiǎn)化的高斯混合模型[13],此簡(jiǎn)化模型并不能很好地刻畫(huà)非均勻數(shù)據(jù)簇類的兩個(gè)特點(diǎn)。為此,本文提出一種基于概率模型的非均勻數(shù)據(jù)聚類新算法——MCN(Model-based Clustering on Non-uniform data),以應(yīng)對(duì)傳統(tǒng)K-means型算法的“均勻效應(yīng)”問(wèn)題。本文的主要工作包括兩個(gè)方面:其一,以高斯混合模型為基礎(chǔ),建立了非均勻數(shù)據(jù)簇的概率模型,新模型可以描述同一數(shù)據(jù)集中樣本量和密度都存在差異的簇;其二,基于提出的模型推導(dǎo)了聚類目標(biāo)函數(shù),并給出優(yōu)化目標(biāo)函數(shù)的算法步驟,實(shí)現(xiàn)了非均勻數(shù)據(jù)的軟子空間聚類。在合成數(shù)據(jù)和實(shí)際數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的非均勻數(shù)據(jù)聚類算法相比,本文MCN算法有效提高了聚類精度。

    1 相關(guān)工作

    首先給出文中使用的符號(hào)及定義。令待聚類數(shù)據(jù)集為DB,含N個(gè)D維樣本,任一樣本用x=〈x1,x2,…,xj,…,xD〉表示,其第j(j=1,2,…,D)維屬性為xj。考慮硬聚類算法,它將DB劃分成K個(gè)不相交的子集的集合C={c1,c2,…,ck,…,cK}, 并稱子集ck為DB的第k(k=1,2,…,K)個(gè)簇,|ck|表示該簇包含的樣本數(shù)量。用vk=〈vk1,vk2,…,vkD〉表示ck的簇中心,V={v1,v2,…,vK}為全體簇中心的集合。

    經(jīng)典的K-means算法是一種劃分型聚類算法,其優(yōu)化目標(biāo)定義為:

    (1)

    K-means通過(guò)類期望最大化(Expectation Maximization, EM)算法[15]的學(xué)習(xí)過(guò)程求取式(1)的局部?jī)?yōu)解,過(guò)程如下:給定簇?cái)?shù)目K,首先選擇K個(gè)初始簇中心,然后計(jì)算每個(gè)樣本與各簇中心點(diǎn)的距離,將樣本劃分至距離最小的簇,再為每個(gè)新劃分生成的簇計(jì)算最優(yōu)的簇中心;算法迭代執(zhí)行上述“劃分-簇中心優(yōu)化”步驟,直到滿足停止條件算法終止,得到對(duì)應(yīng)式(1)局部?jī)?yōu)解的數(shù)據(jù)集聚類劃分。

    圖1 “均勻效應(yīng)”的例子Tab. 1 An example of “uniform effect”

    文獻(xiàn)[6]分析了K-means聚類的“均勻效應(yīng)”現(xiàn)象。以聚類圖1(a)中的非均勻數(shù)據(jù)為例。圖1(a)隱含有3個(gè)簇Cluster1、Cluster2和Cluster3,它們不但在大小(樣本數(shù))上有差異,簇密度也顯著不同,例如,Cluster1和Cluster2中樣本分布方差顯然有較大差別。該數(shù)據(jù)的K-means聚類結(jié)果如圖1(b)所示,其中樣本數(shù)較少的Cluster2會(huì)“吞掉”樣本較多的簇Cluster1的部分樣本,使得兩個(gè)簇的大小和密度趨向于相同,此即K-means型算法的“均勻效應(yīng)”。

    從統(tǒng)計(jì)學(xué)習(xí)[16]的角度,K-means可以看作是一種基于模型的統(tǒng)計(jì)聚類算法。這里,視簇ck的每個(gè)樣本x源自如下高斯分布:

    (2)

    那么,給定數(shù)據(jù)集DB,劃分聚類的目標(biāo)就是搜索最小化下面負(fù)對(duì)數(shù)似然函數(shù)的模型參數(shù)(C,V):

    (3)

    注意到式(3)的推導(dǎo)結(jié)果與K-means算法的優(yōu)化目標(biāo)是相同的,見(jiàn)式(1)。

    上面推導(dǎo)過(guò)程基于如下基本假設(shè):每個(gè)簇的樣本方差σ是一個(gè)常數(shù)。如前所述,σ體現(xiàn)了簇的密度。這從模型的角度解釋了 “均勻效應(yīng)”產(chǎn)生的一個(gè)原因:K-means型算法致力于求解密度相近的簇集合。此外,從式(3)還可以看出,K-means算法的優(yōu)化目標(biāo)也沒(méi)有體現(xiàn)不同簇中樣本數(shù)量的差異,這也是其所假設(shè)的概率模型所決定的:對(duì)應(yīng)不同簇的高斯分布分量以一種“平等”的方式進(jìn)行混合建模。因此,為提高K-means型算法在非均勻數(shù)據(jù)上的聚類性能,下面首先提出一種新的高斯混合模型,以區(qū)分簇類在樣本數(shù)量和密度上的差異;接著,以此為基礎(chǔ),推導(dǎo)出一種新型的非均勻數(shù)據(jù)聚類算法。

    2 非均勻數(shù)據(jù)聚類模型及算法

    本章首先建立用于非均勻數(shù)據(jù)聚類的高斯混合模型,然后定義基于模型的聚類目標(biāo)優(yōu)化函數(shù),最后給出聚類算法。

    2.1 非均勻數(shù)據(jù)聚類模型

    如前所述,在一個(gè)非均勻數(shù)據(jù)集中,簇的密度通常存在差異。為刻畫(huà)這種差異,引入兩組記號(hào):用σk2(k=1,2,…,K)表示簇ck的方差,其值越大,表明ck的密度越小;進(jìn)一步,引入向量wk=〈wk1,wk2,…,wkj,…,wkD〉,其各元素wkj>0,用于區(qū)分簇ck在不同屬性上的密度差異,值越大表明ck投影在相應(yīng)屬性上時(shí)數(shù)據(jù)分布的密度越小。由此,ck屬性j上數(shù)據(jù)分布的方差可用σk2/wkj來(lái)表示。將這個(gè)方差表達(dá)式代入形如式(2)的高斯密度函數(shù),得到任意樣本x∈ck投影在屬性j上的概率密度函數(shù),如下:

    (4)

    在此基礎(chǔ)上,基于數(shù)據(jù)集的D個(gè)屬性是統(tǒng)計(jì)獨(dú)立的這一“樸素”假設(shè)[17]來(lái)建立簇的模型。雖然該假設(shè)在一些實(shí)際數(shù)據(jù)上并不現(xiàn)實(shí),但它可以有效降低所構(gòu)造模型的復(fù)雜性:簡(jiǎn)單地通過(guò)一組變量邊緣分布的乘積來(lái)估計(jì)向量的概率密度。這樣,令P(x)表示ck中任一樣本的概率密度,有:

    (5)

    接下來(lái),考慮非均勻數(shù)據(jù)的另一個(gè)特性:同一數(shù)據(jù)可能包含大小各異的簇。為此,引入代表簇大小的記號(hào)αk(k=1, 2,…,K),滿足約束條件:

    (6)

    其數(shù)值大小與簇所包含的樣本數(shù)量相關(guān),可以看作是賦予每個(gè)簇的一種權(quán)重。根據(jù)這些定義,非均勻數(shù)據(jù)的加權(quán)似然函數(shù)表示為:

    (7)

    其中:Θ={(ck,σk,vk,wk)|k=1,2,…,K}為K組參數(shù)的集合。

    基于上述模型,給定數(shù)據(jù)集DB和簇?cái)?shù)K,聚類轉(zhuǎn)變成了從DB求取優(yōu)化的參數(shù)Θ以最大化加權(quán)似然的問(wèn)題:

    上式在式(7)基礎(chǔ)上使用了對(duì)數(shù)變換,受條件式(6)約束。代入式(4)和(5),并略去其中的常數(shù)項(xiàng),優(yōu)化目標(biāo)改寫(xiě)為:

    (8)

    對(duì)比式(1)可知:

    1)當(dāng)所有的αk、σk和wkj都為常數(shù),J2退化為K-means算法的優(yōu)化目標(biāo)函數(shù)J0。這意味著K-means假定了所有簇具有相同的大小和相同的方差,且各簇每個(gè)屬性上的數(shù)據(jù)分布密度也是相同的。而新的目標(biāo)函數(shù)通過(guò)σk、vk和wk等參數(shù)可以區(qū)分簇類這些各異的特性;

    2)在J2表達(dá)式中,wkj主要作用于xj與vkj間距離(實(shí)際上是二者間的平方誤差,數(shù)值上等于二者歐氏距離值的平方)的計(jì)算。從效果上看,衡量屬性密度差異的wkj(j=1,2,…,D)相當(dāng)于賦予各屬性的特征權(quán)重,其數(shù)值大小反映了各屬性對(duì)距離度量的貢獻(xiàn)程度。因此,優(yōu)化J2的過(guò)程可以看作是對(duì)非均勻數(shù)據(jù)集實(shí)施的軟子空間聚類[14]。

    2.2 軟子空間聚類算法

    根據(jù)拉格朗日乘子法,將wkj、αk的約束條件引入到目標(biāo)函數(shù)中,可得帶約束條件的聚類優(yōu)化目標(biāo)函數(shù)為:

    (9)

    其中:λk和η為拉格朗日乘子。

    上述目標(biāo)函數(shù)參數(shù)的求解是非線性函數(shù)的優(yōu)化問(wèn)題,難以求得全局最優(yōu)解。本文MCN算法基于常用的EM算法結(jié)構(gòu)求取其局部最優(yōu)解。為敘述方便,引入符號(hào)W={wkj|k=1,2,…,K;j=1,2,…,D}和Λ={α1,α2,…,αK,σ1,σ2,…,σK}。參數(shù)的求解可分為以下幾個(gè)步驟:

    1)固定W、V、Λ,求C。對(duì)任意一個(gè)樣本x根據(jù)以下公式進(jìn)行簇劃分:

    (10)

    式(10)通過(guò)比較樣本x源自各高斯分量的概率將其劃分到概率最大的簇中。

    αk=|ck|/N

    (11)

    (12)

    從式(12)可知,σk2即是第k個(gè)簇中樣本分布的加權(quán)散度,反映了非均勻數(shù)據(jù)中各簇有差異的密度信息。根據(jù)以上分析,算法的最優(yōu)解αk和σk2能刻畫(huà)非均勻數(shù)據(jù)中不同簇之間樣本數(shù)量和密度都可能存在差異的特點(diǎn)。

    (13)

    式(13)為簇中心點(diǎn)求解公式,通過(guò)該式完成簇中心點(diǎn)的更新。

    (14)

    式(14)通過(guò)求解wkj為各特征賦予不同的權(quán)重,效果上相當(dāng)于將第k個(gè)簇的樣本投影到相應(yīng)的子空間中。

    根據(jù)上述參數(shù)求解方法,可以得到基于概率模型的非均勻數(shù)據(jù)軟子空間聚類算法如下。

    輸入 數(shù)據(jù)集DB,簇?cái)?shù)目K。

    輸出 簇劃分C。

    初始化 隨機(jī)生成初始簇中心vk,并令wkj=1/D,σk=1/K,αk=1/K(k=1,2,…,K;j=1,2,…,D)。

    Repeat:

    更新C:利用式(10)更新簇劃分;

    更新vkj:根據(jù)式(13),更新vkj;

    更新αk、σk:根據(jù)式(11)、(12)更新αk、σk;

    計(jì)算wkj:先計(jì)算λk,并將求得的λk代入到式(14)中求得wkj;

    Until:滿足迭代停止條件

    根據(jù)上述算法步驟可知本文MCN算法的時(shí)間復(fù)雜度為O(PKND),其中P為算法的迭代次數(shù)。

    3 實(shí)驗(yàn)

    實(shí)驗(yàn)平臺(tái)為:Core i5-3470 3.2 GHz CPU,4 GB內(nèi)存,操作系統(tǒng)為Windows 7。算法采用Java編寫(xiě)。

    3.1 實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)選擇了GMM[16]、Verify2[19]、IFCM[10]三種算法進(jìn)行對(duì)比。GMM作為基于概率模型的典型聚類算法,將其作為對(duì)比算法用來(lái)驗(yàn)證經(jīng)典的概率模型和結(jié)合子空間技術(shù)的概率模型在非均勻數(shù)據(jù)上的表現(xiàn);Verify2為文獻(xiàn)[19]提出的一種將欠采樣和譜聚類結(jié)合對(duì)類不平衡數(shù)據(jù)進(jìn)行聚類分析的方法,其中欠采樣是非均勻數(shù)據(jù)預(yù)處理方法中的一種代表性方法;IFCM為文獻(xiàn)[10]中提出的基于樣本數(shù)量加權(quán)的模糊聚類算法。

    圖2 DS1投影到部分低維空間中的數(shù)據(jù)分布Tab. 2 Distribution of DS1 projected on some low-dimensional spaces

    因?yàn)榉蔷鶆驍?shù)據(jù)不同簇之間樣本存在較大差異,合成數(shù)據(jù)能夠從簇的數(shù)目、大小等控制數(shù)據(jù)集的簇結(jié)構(gòu),便于分析算法的性能及算法性能與簇結(jié)構(gòu)之間的關(guān)系。首先在多個(gè)合成數(shù)據(jù)上進(jìn)行測(cè)試,然后在4個(gè)真實(shí)數(shù)據(jù)上實(shí)驗(yàn)。由于各數(shù)據(jù)集已知類標(biāo)簽,選擇兩個(gè)外部評(píng)價(jià)指標(biāo)Macro-F1[13]和標(biāo)準(zhǔn)化互信息(Normalized Mutual Information, NMI)[20]來(lái)評(píng)估各種算法的聚類性能,指標(biāo)的值越大表明聚類效果越好。

    其中:F1(classk)為第k個(gè)簇的F1值;P(classk,ci)和R(classk,ci)分別表示數(shù)據(jù)集中真實(shí)的類classk與聚類結(jié)果中簇ci相比的準(zhǔn)確率和召回率;classk表示數(shù)據(jù)集中第k個(gè)真實(shí)的類;nk表示classk包含的樣本點(diǎn)數(shù)。

    NMI的計(jì)算公式如下:

    其中:nij表示真實(shí)數(shù)據(jù)集中類i與聚類結(jié)果中簇j相一致的樣本點(diǎn)數(shù)目;ni表示屬于類i的樣本點(diǎn)數(shù)目;nj表示屬于簇j的樣本點(diǎn)數(shù)目;R表示真實(shí)類別數(shù),實(shí)驗(yàn)中設(shè)定K=R。

    3.2 合成數(shù)據(jù)實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)中利用numpy中的random.multivariate_norma()函數(shù)合成三個(gè)數(shù)據(jù)集。由于二類數(shù)據(jù)可以直觀表現(xiàn)簇結(jié)構(gòu),因此,在合成數(shù)據(jù)時(shí),將簇?cái)?shù)目固定為兩類;此外,使用方差σ衡量各簇中樣本的分布散度。合成數(shù)據(jù)的主要參數(shù)如表1所示。如表1所示,三個(gè)合成數(shù)據(jù)集的樣本數(shù)量逐個(gè)遞增,以此來(lái)驗(yàn)證本文MCN算法在不同數(shù)據(jù)量下的性能表現(xiàn);同時(shí),注意到同個(gè)數(shù)據(jù)集不同簇之間樣本數(shù)量和樣本方差都有較大差異。三個(gè)合成數(shù)據(jù)集的數(shù)據(jù)維度也逐個(gè)遞增,以此測(cè)試不同數(shù)據(jù)維度下各算法的性能。

    為直觀地展現(xiàn)合成數(shù)據(jù)中樣本的分布情況,將DS1投影到部分維度所確定的低維空間中,投影結(jié)果如圖2所示。從圖2可知,DS1中的多數(shù)類(樣本數(shù)量較多的簇)的數(shù)據(jù)分布較為分散,少數(shù)類的分布則較為集中,且兩個(gè)簇存在交疊現(xiàn)象。

    表1 合成數(shù)據(jù)集參數(shù)Tab. 1 Parameters of synthetic datasets

    表2顯示不同算法在合成數(shù)據(jù)集上取得的聚類結(jié)果。如表所示,本文MCN算法的聚類精度和NMI值都優(yōu)于對(duì)比算法,表明MCN能更好地聚類此型非均勻數(shù)據(jù)。GMM算法在三個(gè)合成數(shù)據(jù)集上的NMI值均為0,這是因?yàn)镚MM算法將數(shù)據(jù)中的所有樣本都劃分到同一個(gè)簇中,側(cè)面反映了基于經(jīng)典高斯模型的方法并不能有效處理非均勻數(shù)據(jù)。在兩個(gè)指標(biāo)上,IFCM算法與GMM接近。Verify2的聚類精度最低,但與GMM和IFCM算法相比,其NMI值有一定的提升,表明基于樣本抽樣的方法對(duì)非均勻數(shù)據(jù)聚類效果的改善有限。

    表2 合成數(shù)據(jù)集不同算法聚類結(jié)果Tab. 2 Clustering results of different algorithms on synthetic datasets

    不同算法在合成數(shù)據(jù)上的運(yùn)行時(shí)間如表3所示。表3中,本文MCN算法的運(yùn)行時(shí)間低于對(duì)比算法GMM、Verify2和IFCM。Verify2的運(yùn)行時(shí)間遠(yuǎn)高于GMM和MCN算法,一個(gè)主要原因是Verify2采用了譜聚類方法,涉及到矩陣特征值計(jì)算等,當(dāng)樣本數(shù)量和數(shù)據(jù)維度較大時(shí),其算法運(yùn)行時(shí)間較長(zhǎng)。

    表3 不同算法在合成數(shù)據(jù)上的運(yùn)行時(shí)間 sTab. 3 Running time of different algorithms on synthetic datasets s

    表5 算法在實(shí)際數(shù)據(jù)集上的聚類結(jié)果Tab. 5 Clustering results of different algorithms on real-world datasets

    3.3 實(shí)際數(shù)據(jù)實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)使用的實(shí)際數(shù)據(jù)來(lái)自聚類分析常用的UCI Machine Learning Repository(http://Archive.ics.uci.edu/ml/datasets.html)。選用了四個(gè)實(shí)際數(shù)據(jù)集:Breast Cancer Wisconsin(簡(jiǎn)寫(xiě)為BCW)、Wine、 ForestType和Ionosphere,數(shù)據(jù)集主要參數(shù)如表4所示。其中,BCW為乳腺癌診斷數(shù)據(jù),包含241個(gè)惡性樣本和458個(gè)良性樣本;Wine是相關(guān)研究常用的不平衡數(shù)據(jù)集,其普通品質(zhì)酒類的樣本數(shù)較多,而品質(zhì)較好和品質(zhì)較差的樣本數(shù)量則較少;ForestType是森林遙感數(shù)據(jù),包含三種不同的森林類型和一類空地,其中Sugi forest類的樣本數(shù)量較多;Ionosphere為電離層雷達(dá)波數(shù)據(jù),其中具有某種特定結(jié)構(gòu)的樣本數(shù)量較多。這四個(gè)數(shù)據(jù)集中,不同簇類的樣本數(shù)有較大差異,且樣本分布(方差)也存在差異,是典型的非均勻數(shù)據(jù)。實(shí)驗(yàn)將基于BCW、 Wine數(shù)據(jù)集驗(yàn)證各種算法在低維數(shù)據(jù)上的性能,在ForestType、Ionosphere上對(duì)比算法在較高維度數(shù)據(jù)上的表現(xiàn)。本文MCN算法與對(duì)比算法在四個(gè)實(shí)際數(shù)據(jù)上的聚類結(jié)果如表5所示。表5顯示,MCN算法在Wine數(shù)據(jù)上的兩項(xiàng)指標(biāo)稍低于IFCM算法,但在其他數(shù)據(jù)集上的聚類精度和NMI值都明顯優(yōu)于對(duì)比算法,表明MCN算法可以有效聚類實(shí)際應(yīng)用中的非均勻數(shù)據(jù)。

    表4 實(shí)際數(shù)據(jù)集參數(shù)Tab. 4 Parameters of real-world datasets

    如前所述,本文提出的MCN算法可以實(shí)現(xiàn)非均勻數(shù)據(jù)的子空間聚類,實(shí)現(xiàn)途徑是在聚類過(guò)程中自動(dòng)地賦予每個(gè)特征以不同的權(quán)重。下面以Wine數(shù)據(jù)集為例,從MCN算法的一次聚類結(jié)果中提取特征權(quán)重信息,作進(jìn)一步分析。圖3顯示該數(shù)據(jù)集中三個(gè)簇(分別記為Cluster1、Cluster2和Cluster3)各自的13個(gè)特征(分別命名為A1,A2,…,A13)的權(quán)重分布。

    圖3 Wine數(shù)據(jù)中三個(gè)簇的特征權(quán)重分布Fig. 3 Distribution of feature weights of three clusters in dataset Wine

    如圖3所示,不同簇的特征權(quán)重分布并不相同。例如,對(duì)于Cluster3,MCN算法賦予A11(指“酒的色調(diào)”)較大的權(quán)重,這表明“色調(diào)”對(duì)識(shí)別Cluster3有重要的作用;而特征A8(一種稱為“Nonflavanoid phenols”的酚類化學(xué)物質(zhì))對(duì)Cluster2中酒的品質(zhì)有較大影響。以上結(jié)果表明,MCN算法可以有效識(shí)別特征對(duì)于不同簇類有差別的貢獻(xiàn)度,從而提高了實(shí)際應(yīng)用中非均勻數(shù)據(jù)聚類的性能。

    4 結(jié)語(yǔ)

    針對(duì)K-means型算法的“均勻效應(yīng)”問(wèn)題,本文提出了MCN算法。首先分析了經(jīng)典K-means算法隱含使用的概率模型,它是基于有關(guān)參數(shù)為常數(shù)這一假設(shè)的高斯混合模型,此簡(jiǎn)化模型并不能很好地刻畫(huà)非均勻數(shù)據(jù)簇之間樣本數(shù)量和密度都有較大差異的特點(diǎn)。接著,從概率模型角度入手,結(jié)合軟子空間聚類技術(shù)定義了一種非均勻數(shù)據(jù)簇的概率模型,并推導(dǎo)出了相應(yīng)的聚類優(yōu)化目標(biāo)函數(shù)。最后給出了MCN的算法過(guò)程。在合成數(shù)據(jù)和實(shí)際數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,與GMM、Verify2、IFCM等算法相比,MCN算法在多數(shù)情況下都可以取得較大的聚類性能提升,從而驗(yàn)證了本文所提算法的有效性。

    在大數(shù)據(jù)時(shí)代如何結(jié)合大數(shù)據(jù)處理工具分析非均勻數(shù)據(jù)是一項(xiàng)有意義的工作,因此下一步將結(jié)合分布式Spark平臺(tái)進(jìn)一步研究非均勻數(shù)據(jù)聚類新方法。

    猜你喜歡
    概率模型聚類密度
    『密度』知識(shí)鞏固
    密度在身邊 應(yīng)用隨處見(jiàn)
    在精彩交匯中,理解兩個(gè)概率模型
    “玩轉(zhuǎn)”密度
    密度應(yīng)用知多少
    基于停車服務(wù)效率的選擇概率模型及停車量仿真研究
    基于DBSACN聚類算法的XML文檔聚類
    基于改進(jìn)的遺傳算法的模糊聚類算法
    一類概率模型的探究與應(yīng)用
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    女人被躁到高潮嗷嗷叫费观| 成年美女黄网站色视频大全免费| 久久影院123| 久久天堂一区二区三区四区| 婷婷丁香在线五月| 涩涩av久久男人的天堂| 亚洲av男天堂| 国产日韩欧美亚洲二区| 久久精品久久久久久噜噜老黄| 建设人人有责人人尽责人人享有的| 日韩av不卡免费在线播放| 一级a爱视频在线免费观看| av网站免费在线观看视频| 超碰成人久久| 亚洲国产精品一区二区三区在线| 国产精品熟女久久久久浪| 亚洲一码二码三码区别大吗| 老司机深夜福利视频在线观看 | 69精品国产乱码久久久| 999精品在线视频| 欧美日韩一级在线毛片| 亚洲国产成人一精品久久久| 国产国语露脸激情在线看| av线在线观看网站| 国产麻豆69| 涩涩av久久男人的天堂| 成年女人毛片免费观看观看9 | 成人国语在线视频| 搡老岳熟女国产| 欧美中文综合在线视频| 亚洲人成网站在线观看播放| 2018国产大陆天天弄谢| 国产精品久久久人人做人人爽| av天堂久久9| 亚洲精品美女久久久久99蜜臀 | 日韩视频在线欧美| 熟女少妇亚洲综合色aaa.| 日韩视频在线欧美| 搡老乐熟女国产| 国产欧美日韩精品亚洲av| 91精品伊人久久大香线蕉| 久久中文字幕一级| 黄频高清免费视频| 亚洲精品久久久久久婷婷小说| 亚洲精品一二三| 狠狠精品人妻久久久久久综合| 99国产精品一区二区三区| netflix在线观看网站| 亚洲激情五月婷婷啪啪| 美女视频免费永久观看网站| 桃花免费在线播放| 国产淫语在线视频| 黄色怎么调成土黄色| 夫妻性生交免费视频一级片| 亚洲一区中文字幕在线| 国产黄频视频在线观看| 国产在线一区二区三区精| 丝袜脚勾引网站| 国产无遮挡羞羞视频在线观看| 国产xxxxx性猛交| 日韩熟女老妇一区二区性免费视频| 国产精品国产三级专区第一集| 成人国语在线视频| 美女福利国产在线| 黄网站色视频无遮挡免费观看| 丝袜喷水一区| 久久精品人人爽人人爽视色| 日韩av在线免费看完整版不卡| 久久久久视频综合| 亚洲 欧美一区二区三区| 精品少妇一区二区三区视频日本电影| 久久久国产欧美日韩av| 啦啦啦 在线观看视频| 天天躁夜夜躁狠狠久久av| 99久久精品国产亚洲精品| 99国产精品99久久久久| 亚洲欧美激情在线| 国产一区有黄有色的免费视频| 久久精品国产亚洲av涩爱| 国产成人精品无人区| 国产极品粉嫩免费观看在线| 黑人猛操日本美女一级片| 午夜福利视频精品| 国产日韩欧美视频二区| 午夜福利视频在线观看免费| 亚洲视频免费观看视频| a级毛片在线看网站| 熟女少妇亚洲综合色aaa.| 91九色精品人成在线观看| 另类精品久久| 久久狼人影院| 国产av精品麻豆| 汤姆久久久久久久影院中文字幕| 亚洲免费av在线视频| 久久久久久久精品精品| 精品福利观看| 女人高潮潮喷娇喘18禁视频| 欧美激情 高清一区二区三区| 男的添女的下面高潮视频| 菩萨蛮人人尽说江南好唐韦庄| 一区二区三区四区激情视频| 亚洲国产欧美在线一区| 丰满迷人的少妇在线观看| 狂野欧美激情性bbbbbb| 男人添女人高潮全过程视频| 最近中文字幕2019免费版| 久久久精品国产亚洲av高清涩受| 精品一区在线观看国产| 曰老女人黄片| 欧美97在线视频| 黄频高清免费视频| 亚洲免费av在线视频| 精品一区二区三区av网在线观看 | 高清视频免费观看一区二区| 视频在线观看一区二区三区| 久久久精品94久久精品| av国产久精品久网站免费入址| 999精品在线视频| 成年动漫av网址| 最近最新中文字幕大全免费视频 | 亚洲成人免费av在线播放| 日本黄色日本黄色录像| 青草久久国产| 国产一区亚洲一区在线观看| 人妻人人澡人人爽人人| 中文字幕亚洲精品专区| 国产欧美日韩一区二区三 | 午夜免费男女啪啪视频观看| 男女下面插进去视频免费观看| 午夜老司机福利片| 校园人妻丝袜中文字幕| 亚洲精品成人av观看孕妇| 午夜福利一区二区在线看| 精品国产一区二区三区久久久樱花| 亚洲欧美成人综合另类久久久| 亚洲欧美日韩高清在线视频 | 亚洲精品自拍成人| 久久性视频一级片| 啦啦啦在线观看免费高清www| 国产野战对白在线观看| 久久狼人影院| 90打野战视频偷拍视频| 超色免费av| 国产精品亚洲av一区麻豆| 久久影院123| 下体分泌物呈黄色| 国产精品一二三区在线看| 欧美日韩亚洲高清精品| 精品少妇黑人巨大在线播放| 久久天躁狠狠躁夜夜2o2o | 国产高清视频在线播放一区 | 一级毛片黄色毛片免费观看视频| 在线观看免费午夜福利视频| 青春草亚洲视频在线观看| 男人爽女人下面视频在线观看| 久久人人97超碰香蕉20202| 考比视频在线观看| 日韩熟女老妇一区二区性免费视频| 免费观看人在逋| 亚洲人成电影免费在线| 一边亲一边摸免费视频| 一区二区三区四区激情视频| 亚洲欧美日韩另类电影网站| 亚洲av在线观看美女高潮| 国产精品国产av在线观看| 高清视频免费观看一区二区| 看十八女毛片水多多多| 大香蕉久久成人网| 777米奇影视久久| 国产精品国产三级国产专区5o| 亚洲中文av在线| 色综合欧美亚洲国产小说| 热re99久久精品国产66热6| 久久精品人人爽人人爽视色| 黑人猛操日本美女一级片| 国产欧美日韩一区二区三区在线| 久久99一区二区三区| 亚洲国产精品一区三区| 午夜影院在线不卡| 精品熟女少妇八av免费久了| 亚洲欧美清纯卡通| 亚洲精品美女久久久久99蜜臀 | 精品人妻在线不人妻| 一区在线观看完整版| 女人爽到高潮嗷嗷叫在线视频| 考比视频在线观看| 首页视频小说图片口味搜索 | 少妇人妻久久综合中文| 国产精品一区二区精品视频观看| 国产av精品麻豆| 搡老乐熟女国产| 乱人伦中国视频| 黑丝袜美女国产一区| 欧美日韩福利视频一区二区| av一本久久久久| 老司机亚洲免费影院| 国产成人系列免费观看| 看十八女毛片水多多多| 亚洲一码二码三码区别大吗| 又粗又硬又长又爽又黄的视频| 美女国产高潮福利片在线看| 欧美97在线视频| 精品免费久久久久久久清纯 | 两个人看的免费小视频| 老司机在亚洲福利影院| 亚洲第一av免费看| 亚洲国产精品一区二区三区在线| 亚洲国产欧美在线一区| 欧美乱码精品一区二区三区| 妹子高潮喷水视频| 免费在线观看完整版高清| 电影成人av| 中文字幕色久视频| 久久精品亚洲熟妇少妇任你| 精品国产一区二区三区四区第35| 国产一卡二卡三卡精品| 亚洲久久久国产精品| 亚洲精品美女久久久久99蜜臀 | 国产视频首页在线观看| 热99国产精品久久久久久7| 女人被躁到高潮嗷嗷叫费观| 国产亚洲精品第一综合不卡| 午夜影院在线不卡| 人妻 亚洲 视频| 欧美黑人欧美精品刺激| 国产亚洲欧美在线一区二区| av网站免费在线观看视频| 亚洲av欧美aⅴ国产| 久久精品国产亚洲av涩爱| 免费黄频网站在线观看国产| 一级黄色大片毛片| 啦啦啦视频在线资源免费观看| 操美女的视频在线观看| 电影成人av| 五月开心婷婷网| 搡老岳熟女国产| 国产一级毛片在线| av不卡在线播放| 制服人妻中文乱码| 少妇人妻 视频| 国产成人精品无人区| 十八禁网站网址无遮挡| 国产淫语在线视频| 自线自在国产av| 国产精品国产三级国产专区5o| 99久久99久久久精品蜜桃| 男女边吃奶边做爰视频| bbb黄色大片| 久久天躁狠狠躁夜夜2o2o | av片东京热男人的天堂| 久久精品成人免费网站| 亚洲国产日韩一区二区| 久久久国产欧美日韩av| 丰满饥渴人妻一区二区三| 亚洲欧美清纯卡通| 我的亚洲天堂| 99热网站在线观看| 日本av免费视频播放| 伊人亚洲综合成人网| 国产高清不卡午夜福利| 亚洲久久久国产精品| 新久久久久国产一级毛片| 热re99久久精品国产66热6| 国产片特级美女逼逼视频| 亚洲中文日韩欧美视频| 9色porny在线观看| 熟女少妇亚洲综合色aaa.| 国产一区二区在线观看av| 久久九九热精品免费| 男女下面插进去视频免费观看| 人人妻人人澡人人爽人人夜夜| a级片在线免费高清观看视频| tube8黄色片| 亚洲av成人不卡在线观看播放网 | 精品高清国产在线一区| 久久人人爽av亚洲精品天堂| 大片电影免费在线观看免费| 久久这里只有精品19| 亚洲五月婷婷丁香| 伊人亚洲综合成人网| 国产伦人伦偷精品视频| 国产一区二区激情短视频 | 亚洲精品一区蜜桃| 亚洲精品成人av观看孕妇| 国产片特级美女逼逼视频| 精品国产国语对白av| 啦啦啦视频在线资源免费观看| 亚洲av电影在线观看一区二区三区| 女警被强在线播放| 欧美日韩视频精品一区| 久久天躁狠狠躁夜夜2o2o | 亚洲 欧美一区二区三区| 丰满迷人的少妇在线观看| √禁漫天堂资源中文www| 爱豆传媒免费全集在线观看| 日本wwww免费看| 国产极品粉嫩免费观看在线| 成年人黄色毛片网站| 日韩一本色道免费dvd| 在线看a的网站| 视频区欧美日本亚洲| 黄色视频不卡| 国产在线视频一区二区| 亚洲男人天堂网一区| 尾随美女入室| 国产精品久久久人人做人人爽| 日韩电影二区| 搡老岳熟女国产| 天天影视国产精品| 免费少妇av软件| 午夜影院在线不卡| 波多野结衣av一区二区av| 91成人精品电影| 极品少妇高潮喷水抽搐| 97在线人人人人妻| 国产亚洲精品第一综合不卡| 精品人妻一区二区三区麻豆| 亚洲av在线观看美女高潮| 精品亚洲乱码少妇综合久久| 18禁观看日本| 亚洲精品国产av蜜桃| 亚洲国产欧美日韩在线播放| 欧美日韩亚洲高清精品| 三上悠亚av全集在线观看| 欧美成人精品欧美一级黄| 亚洲国产成人一精品久久久| 精品久久久久久久毛片微露脸 | 成年人免费黄色播放视频| 色精品久久人妻99蜜桃| 国产精品亚洲av一区麻豆| 亚洲成人手机| 波多野结衣av一区二区av| 日韩电影二区| 尾随美女入室| 性高湖久久久久久久久免费观看| 人人妻人人澡人人爽人人夜夜| 精品国产一区二区三区久久久樱花| 免费观看人在逋| 美女大奶头黄色视频| 亚洲人成电影观看| 婷婷色综合大香蕉| 99精国产麻豆久久婷婷| 成年美女黄网站色视频大全免费| 天天操日日干夜夜撸| 久久免费观看电影| 青草久久国产| 免费一级毛片在线播放高清视频 | 99久久人妻综合| 亚洲中文av在线| 欧美日韩视频精品一区| 中文字幕av电影在线播放| 男男h啪啪无遮挡| av不卡在线播放| 日韩一区二区三区影片| 午夜视频精品福利| 男女午夜视频在线观看| 在线观看免费视频网站a站| 亚洲人成网站在线观看播放| 亚洲,欧美,日韩| 免费高清在线观看日韩| 纵有疾风起免费观看全集完整版| 十八禁人妻一区二区| 亚洲人成电影免费在线| 18禁裸乳无遮挡动漫免费视频| 高清av免费在线| 丰满迷人的少妇在线观看| 少妇猛男粗大的猛烈进出视频| 国产在视频线精品| 国产精品一区二区精品视频观看| 另类精品久久| 新久久久久国产一级毛片| 久热这里只有精品99| 亚洲av美国av| 成在线人永久免费视频| 老鸭窝网址在线观看| 婷婷色综合大香蕉| av又黄又爽大尺度在线免费看| 国产高清国产精品国产三级| 少妇猛男粗大的猛烈进出视频| 国产精品熟女久久久久浪| 建设人人有责人人尽责人人享有的| 国产欧美日韩一区二区三区在线| 欧美精品高潮呻吟av久久| 国产不卡av网站在线观看| 国产一区二区激情短视频 | 热re99久久精品国产66热6| 黄色 视频免费看| 国产老妇伦熟女老妇高清| 亚洲精品中文字幕在线视频| 无遮挡黄片免费观看| 久久毛片免费看一区二区三区| 亚洲av日韩精品久久久久久密 | 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲精品乱久久久久久| 久久ye,这里只有精品| netflix在线观看网站| 国产日韩欧美视频二区| 亚洲少妇的诱惑av| 亚洲视频免费观看视频| 色网站视频免费| 91国产中文字幕| 爱豆传媒免费全集在线观看| 天堂8中文在线网| 在现免费观看毛片| 纯流量卡能插随身wifi吗| 成年动漫av网址| 性高湖久久久久久久久免费观看| 国产精品 国内视频| 国产麻豆69| 丰满迷人的少妇在线观看| av不卡在线播放| 久久久久久久大尺度免费视频| 欧美在线黄色| 久久精品人人爽人人爽视色| 视频在线观看一区二区三区| 最新在线观看一区二区三区 | 女人爽到高潮嗷嗷叫在线视频| 韩国高清视频一区二区三区| 搡老岳熟女国产| av有码第一页| 久久精品亚洲av国产电影网| 国产一区亚洲一区在线观看| 日日爽夜夜爽网站| 一边摸一边做爽爽视频免费| 在线观看人妻少妇| 欧美激情极品国产一区二区三区| 麻豆av在线久日| 国产一区亚洲一区在线观看| 91精品国产国语对白视频| 一级黄色大片毛片| 天天影视国产精品| 国产高清不卡午夜福利| 久9热在线精品视频| 久久ye,这里只有精品| 国产国语露脸激情在线看| 午夜激情久久久久久久| 国产1区2区3区精品| 国产精品一二三区在线看| 久久精品熟女亚洲av麻豆精品| 国产男女超爽视频在线观看| 两性夫妻黄色片| 欧美少妇被猛烈插入视频| 老司机深夜福利视频在线观看 | 欧美精品啪啪一区二区三区 | 色综合欧美亚洲国产小说| 王馨瑶露胸无遮挡在线观看| 每晚都被弄得嗷嗷叫到高潮| 国产一卡二卡三卡精品| 欧美精品人与动牲交sv欧美| 中文字幕色久视频| 午夜91福利影院| 久久久久久久大尺度免费视频| 尾随美女入室| 最新的欧美精品一区二区| 99久久99久久久精品蜜桃| 十八禁网站网址无遮挡| av网站在线播放免费| 啦啦啦啦在线视频资源| 国产男女超爽视频在线观看| 午夜久久久在线观看| 亚洲国产欧美日韩在线播放| 国产伦人伦偷精品视频| 亚洲国产精品一区三区| 免费在线观看影片大全网站 | 精品免费久久久久久久清纯 | 永久免费av网站大全| 大码成人一级视频| 热99国产精品久久久久久7| 国产精品久久久av美女十八| 国产亚洲精品久久久久5区| 久久久久久亚洲精品国产蜜桃av| 午夜91福利影院| 精品亚洲成a人片在线观看| 色网站视频免费| 成人国产av品久久久| 午夜影院在线不卡| 精品熟女少妇八av免费久了| 亚洲一区中文字幕在线| 看免费成人av毛片| 中文精品一卡2卡3卡4更新| 老司机靠b影院| 99国产精品一区二区蜜桃av | 精品国产国语对白av| 波多野结衣av一区二区av| 男女下面插进去视频免费观看| 国产亚洲午夜精品一区二区久久| 一级a爱视频在线免费观看| 少妇被粗大的猛进出69影院| 丝袜人妻中文字幕| 久久国产精品人妻蜜桃| 999精品在线视频| 黄色一级大片看看| 极品人妻少妇av视频| 超碰成人久久| 日韩欧美一区视频在线观看| 亚洲av国产av综合av卡| 色视频在线一区二区三区| 亚洲精品国产av蜜桃| 久久国产精品大桥未久av| 亚洲精品乱久久久久久| 一边摸一边抽搐一进一出视频| 国产av一区二区精品久久| 最新的欧美精品一区二区| 午夜免费鲁丝| 91字幕亚洲| 免费观看av网站的网址| 欧美中文综合在线视频| 一级黄片播放器| 人妻一区二区av| 18禁黄网站禁片午夜丰满| 国语对白做爰xxxⅹ性视频网站| 日韩视频在线欧美| 欧美亚洲 丝袜 人妻 在线| 亚洲精品久久午夜乱码| 国产在线一区二区三区精| 最近最新中文字幕大全免费视频 | 纯流量卡能插随身wifi吗| 最近中文字幕2019免费版| 成人三级做爰电影| 亚洲精品第二区| 大香蕉久久网| av又黄又爽大尺度在线免费看| 久久国产精品影院| 大香蕉久久网| av又黄又爽大尺度在线免费看| 久热爱精品视频在线9| 黄色视频不卡| 久久久久国产一级毛片高清牌| 秋霞在线观看毛片| 国产精品.久久久| 成人三级做爰电影| 久久久久久免费高清国产稀缺| 精品久久久久久久毛片微露脸 | 国产欧美日韩一区二区三 | av在线老鸭窝| 视频在线观看一区二区三区| 久久 成人 亚洲| 国产一区有黄有色的免费视频| 亚洲av国产av综合av卡| 在线观看免费高清a一片| 精品国产一区二区三区四区第35| 欧美精品一区二区免费开放| 久久精品国产综合久久久| 久久亚洲精品不卡| 久久精品久久久久久噜噜老黄| www日本在线高清视频| 亚洲av美国av| 国产一区亚洲一区在线观看| 建设人人有责人人尽责人人享有的| 国产成人精品在线电影| www.熟女人妻精品国产| 天天躁夜夜躁狠狠躁躁| 99国产精品一区二区蜜桃av | 女警被强在线播放| 九色亚洲精品在线播放| 制服诱惑二区| 丝袜美足系列| 精品人妻在线不人妻| 国产成人av教育| 狂野欧美激情性bbbbbb| 夫妻性生交免费视频一级片| 国产高清videossex| 女人高潮潮喷娇喘18禁视频| 久久99精品国语久久久| 无限看片的www在线观看| 欧美黄色片欧美黄色片| 首页视频小说图片口味搜索 | 欧美日韩综合久久久久久| 青春草亚洲视频在线观看| 亚洲成人免费av在线播放| 午夜av观看不卡| 午夜激情av网站| 90打野战视频偷拍视频| 制服人妻中文乱码| 国产免费又黄又爽又色| 久久精品久久久久久噜噜老黄| 水蜜桃什么品种好| 精品国产一区二区三区久久久樱花| 9色porny在线观看| 日韩电影二区| 99久久精品国产亚洲精品| 国产视频一区二区在线看| 中文字幕另类日韩欧美亚洲嫩草| 黄色怎么调成土黄色| 考比视频在线观看| 中文字幕色久视频| 欧美+亚洲+日韩+国产| 免费高清在线观看视频在线观看| 一本大道久久a久久精品| 美女高潮到喷水免费观看| 亚洲国产精品一区三区| 成年动漫av网址| 国产精品亚洲av一区麻豆| 自线自在国产av| 男人操女人黄网站| 精品少妇一区二区三区视频日本电影| 肉色欧美久久久久久久蜜桃| 91精品伊人久久大香线蕉| 99re6热这里在线精品视频| 久久久精品94久久精品| 精品一区二区三卡| 最新在线观看一区二区三区 | 亚洲国产毛片av蜜桃av| 日本wwww免费看| 飞空精品影院首页| 在线观看免费日韩欧美大片| 777久久人妻少妇嫩草av网站| 欧美xxⅹ黑人| 热re99久久国产66热| 亚洲精品美女久久av网站| 成人影院久久| 国产午夜精品一二区理论片| 美女扒开内裤让男人捅视频| 国产精品麻豆人妻色哟哟久久| 极品人妻少妇av视频|