• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      AGNES算法在K-means算法中的應(yīng)用*

      2011-07-28 01:32:22周愛武崔丹丹
      關(guān)鍵詞:參考文獻(xiàn)準(zhǔn)確率聚類

      周愛武,潘 勇,崔丹丹,肖 云

      (安徽大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230039)

      K-means算法是基于劃分的經(jīng)典聚類算法,該算法簡單、快速,得到了廣泛應(yīng)用,但是該算法對孤立點(diǎn)是敏感的,其次該算法要求用戶必須事先給出簇數(shù)k值,該算法聚類結(jié)果受初始聚類中心隨機(jī)性選擇影響比較大,聚類中心選擇不當(dāng),容易導(dǎo)致聚類準(zhǔn)確度下降,甚至無法得到聚類結(jié)果。針對以上缺點(diǎn),國內(nèi)外許多專家和學(xué)者提出很多對K-means算法的改進(jìn),比如參考文獻(xiàn)[1]~參考文獻(xiàn)[3]是基于密度的對K-means算法進(jìn)行改進(jìn)來找到密度比較高的代表點(diǎn)作為初始聚類中心,參考文獻(xiàn)[4]是把遺傳算法應(yīng)用到K-means算法中來確定k個初始聚類中心,這種結(jié)合能夠進(jìn)行一種全局優(yōu)化,可提高算法的準(zhǔn)確率,將智能算法與K-means算法的結(jié)合也是近年來研究的熱點(diǎn)。K-means算法以及其改進(jìn)的算法已經(jīng)應(yīng)用到了各個領(lǐng)域,取得了很好的效果,比如參考文獻(xiàn)[3]是改進(jìn)的K-means算法在客戶劃分中的應(yīng)用,參考文獻(xiàn)[5]是在圖像標(biāo)注和檢索的應(yīng)用,參考文獻(xiàn)[6]是在存在異常孤立點(diǎn)大數(shù)據(jù)集中進(jìn)行聚類發(fā)現(xiàn)簇的應(yīng)用。由此可見,K-means算法的效率高、時間復(fù)雜度低,應(yīng)用前景寬廣。

      本文針對初始聚類中心隨機(jī)選擇這個缺陷,提出將凝聚層次聚類算法AGNES應(yīng)用到改進(jìn)的算法中,得到k個密度比較高的初始聚類中心,并將其應(yīng)用到K-means中去進(jìn)行聚類。實(shí)驗表明,改進(jìn)的算法運(yùn)行效率高,并能獲得比較高的準(zhǔn)確率。

      1 算法的基本思想

      1.1 K-means算法

      算法接收輸入量k,然后將n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“聚類中心對象”來進(jìn)行計算的。

      K-means算法步驟描述如下:

      輸入:n個數(shù)據(jù)對象,簇數(shù)k

      輸出:k個簇的集合。

      (1)從n個數(shù)據(jù)對象中任意選擇k個數(shù)據(jù)對象作為初始聚類中心。

      (2)根據(jù)簇中數(shù)據(jù)對象的平均值,將每個數(shù)據(jù)對象依次劃分到最近距離聚類中心標(biāo)志的簇中。

      (5)如果E值變化明顯,將返回步驟(2)。

      1.2 AGNES算法

      [7]中提到的AGNES算法是凝聚的層次聚類方法。AGNES算法最初將每個對象作為一個簇,然后這些簇根據(jù)某些準(zhǔn)則被一步步地合并。

      AGNES算法描述如下:

      輸入:包含n個數(shù)據(jù)對象的數(shù)據(jù)庫,終止條件簇的數(shù)目 c;

      輸出:c個簇,達(dá)到終止條件規(guī)定簇數(shù)目。

      (1)將每個數(shù)據(jù)對象當(dāng)成一個初始簇;

      (2)REPEAT;

      (3)根據(jù)兩個簇中最近的數(shù)據(jù)點(diǎn)找到最近的兩個簇;

      (4)合并兩個簇,生成新的簇的集合;

      (5)UNTIL達(dá)到定義的簇的數(shù)目;

      2 改進(jìn)K-means算法

      K-means算法初始聚類中心是隨機(jī)選取的,選取不當(dāng)?shù)脑?,將會無法得到正確的聚類結(jié)果。而AGNES算法將最近的數(shù)據(jù)對象聚集在一起形成簇,根據(jù)AGNES算法的這種思想,提出一種新的算法來確定k個初始聚類中心。

      2.1 相關(guān)概念

      定義1歐式距離

      定義2點(diǎn)的密度

      數(shù)據(jù)xi和距離α,以xi為圓心,α為半徑的區(qū)域內(nèi)對象的個數(shù) (包括圓心自身)記為該對象的密度,記為Density(xi)=(p 的 個 數(shù)|Distance(xi,p)≤α), 其 中 Dis tan ce(.)為歐式距離,α取所有數(shù)據(jù)對象間距離和的平均值。

      定義3平均密度

      2.2 初始聚類中心的確定算法

      Initial Clustering Center算法如下:

      輸入:n個數(shù)據(jù)對象的數(shù)據(jù)集 DataSet,聚類簇數(shù)k,參 數(shù) θ,ClusterSet、HighSet、CenterSet 3 個 集 合 開 始 均 為空。

      輸出:k個初始聚類中心數(shù)據(jù)集CenterSet。

      (1)將每個對象當(dāng)成一個初始簇;

      (2)REPEAT;

      (3)根據(jù)兩個簇中最近的的數(shù)據(jù)點(diǎn)找到最近的兩個簇;

      (4)合并兩個簇,生成新的簇的集合;

      (6)計算數(shù)據(jù)對象的平均密度Ave;

      (7)對步驟(5)中生成的c個簇將其加入到ClusterSet集合中,分別計算每個簇中數(shù)據(jù)對象的個數(shù),將個數(shù)大于Ave的簇加入到HighSet集合中;

      (8)令 i=1;

      (9)如果HighSet集合不為空,執(zhí)行步驟 (10)~步驟(13);否則執(zhí)行步驟(15)~步驟(18);

      (10)REPEAT;

      (11)取出HighSet集合中數(shù)據(jù)對象個數(shù)最多的簇cx;

      (12)計算該簇cx中數(shù)據(jù)對象的平均值做為第i個初始聚類中心,將其加入到CenterSet集合中去,并將簇cx從 HighSet和 ClusterSet中刪除,i=i+1;

      (13)UNTIL得到k個初始聚類中心;

      (14)如果步驟(10)~步驟(13)生成的初始聚類中心個數(shù)小于k,并且HighSet集合為空,即執(zhí)行步驟(15)~步驟(18);

      (15)REPEAT;

      (16)取出ClusterSet集合中數(shù)據(jù)個數(shù)最多的簇cx;

      (17)計算簇cx中數(shù)據(jù)對象的平均值做為第i個初始聚類中心,將其加入到 CenterSet集合中去,并將簇cx從ClusterSet中刪除,i=i+1;

      (18)UNTIL得到k個初始聚類中心;

      (19)算法結(jié)束。

      2.3 改進(jìn)的K-means算法

      改進(jìn)K-means算法如下:

      (1)運(yùn)行 Initial Clustering Center算法,得到 k個初始聚類中心集合CenterSet;

      (2)輸入 k值、k個初始聚類中心集合 CenterSet和數(shù)據(jù)對象集合DataSet;

      (3)運(yùn)行K-means算法,輸出K個聚類,算法結(jié)束。

      3 改進(jìn)后的實(shí)驗及分析

      表1 傳統(tǒng)K-means算法和改進(jìn)K-means算法的比較

      從表1 Iris數(shù)據(jù)集可以看出傳統(tǒng)K-means算法的迭代次數(shù)有時比改進(jìn)K-means算法要小,但是其準(zhǔn)確率卻顯得很低。這說明K-means算法受初始聚類中心的影響比較大,一旦選擇不當(dāng),準(zhǔn)確率將會很低,而優(yōu)化的初始聚類中心是比較穩(wěn)定的,符合數(shù)據(jù)對象的實(shí)際分布,同時可以盡快收斂最優(yōu)解并且準(zhǔn)確率高。從隨機(jī)數(shù)據(jù)集整體上來看,改進(jìn)的K-means算法的迭代次數(shù)減少,收斂速度比較快,準(zhǔn)確率很高。所以改進(jìn)的K-means算法收斂速度比較快,得到的初始聚類中心符合數(shù)據(jù)對象的實(shí)際分布,提高了聚類準(zhǔn)確率,達(dá)到了更好的聚類效果,同時該算法在煙草配送點(diǎn)分配問題等領(lǐng)域都得到了很好的應(yīng)用。

      本文結(jié)合層次聚類算法AGNES算法,提出一種確定初始聚類中心的算法,使得到的初始聚類中心比較穩(wěn)定,符合數(shù)據(jù)的實(shí)際分布,避免選到孤立點(diǎn),大大提高了算法的準(zhǔn)確率和效率。同時改進(jìn)的算法一個優(yōu)點(diǎn)是能進(jìn)行異常點(diǎn)的發(fā)現(xiàn),能夠?qū)W(wǎng)絡(luò)異常進(jìn)行檢測。但是改進(jìn)K-means算法的時間復(fù)雜度不如傳統(tǒng)K-means算法,所以今后的研究方向主要是針對大數(shù)據(jù)集在時間復(fù)雜度的提高上作進(jìn)一步的研究,并將改進(jìn)的算法應(yīng)用到其他實(shí)際領(lǐng)域中。

      參考文獻(xiàn)

      [1]賴玉霞,劉建平.K-means算法的初始聚類中心的優(yōu)化[J].計算機(jī)工程與應(yīng)用,2008,44(10):147-149.

      [2]劉艷麗,劉希云.一種基于密度的 K-均值算法[J].計算機(jī)工程與應(yīng)用,2007,43(32):153-154.

      [3]向堅持,劉相濱,資武成.基于密度的 K-Means算法及在客戶細(xì)分中的應(yīng)用研究 [J].計算機(jī)工程與應(yīng)用,2008,44(35):246-248.

      [4]孫秀娟,劉希玉.基于初始中心優(yōu)化的遺傳K-means聚類新算法[J].計算機(jī)工程與應(yīng)用,2008,44(23):166-168.

      [5]潘崇,朱紅斌.改進(jìn)K-means算法在圖像標(biāo)注和檢索中的應(yīng)用[J].計算機(jī)工程與應(yīng)用,2010,46(4):183-185.

      [6]ESTER M,RIEGEL H P.A density based algorithm for discovering clusters in large spatial databases with noise[C].Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining(KDD-96), Ortland,Oregon,1996.

      [7]毛國君,段立娟,王實(shí),等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2000年.

      猜你喜歡
      參考文獻(xiàn)準(zhǔn)確率聚類
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      Study on the physiological function and application of γ—aminobutyric acid and its receptors
      東方教育(2016年4期)2016-12-14 13:52:48
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      The Review of the Studies of Trilingual Education in inghai
      工布江达县| 望都县| 鸡东县| 顺昌县| 双峰县| 靖远县| 黔东| 前郭尔| 乌审旗| 恩施市| 永登县| 新营市| 新河县| 读书| 舟曲县| 蒲城县| 墨脱县| 建宁县| 松原市| 阜平县| 九龙坡区| 东莞市| 剑河县| 阳西县| 年辖:市辖区| 北安市| 株洲市| 常德市| 平顶山市| 新丰县| 蓝山县| 祁东县| 连城县| 白银市| 东城区| 新宁县| 曲靖市| 溧阳市| 富源县| 虎林市| 黑龙江省|