• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向大規(guī)模數(shù)據(jù)快速聚類K-means算法的研究

    2017-06-29 12:00:34郭占元
    關(guān)鍵詞:中心點(diǎn)聚類樣本

    郭占元 林 濤

    (河北工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院 天津 300401)

    面向大規(guī)模數(shù)據(jù)快速聚類K-means算法的研究

    郭占元 林 濤

    (河北工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院 天津 300401)

    為進(jìn)一步提高K-means算法對(duì)大規(guī)模數(shù)據(jù)聚類的效率,結(jié)合MapReduce計(jì)算模型,提出一種先利用Hash函數(shù)進(jìn)行樣本抽取,再利用Pam算法獲取初始中心的并行聚類方法。通過(guò)Hash函數(shù)抽取的樣本能充分反映數(shù)據(jù)的統(tǒng)計(jì)特性,使用Pam算法獲取初始聚類中心,改善了傳統(tǒng)聚類算法依賴初始中心的問(wèn)題。實(shí)驗(yàn)結(jié)果表明該算法有效提高了聚類質(zhì)量和執(zhí)行效率,適用于對(duì)大規(guī)模數(shù)據(jù)的聚類分析。

    大規(guī)模數(shù)據(jù) 聚類算法 MapReduce Hash樣本抽樣 Pam算法

    0 引 言

    聚類分析是數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要分支。聚類的基本思想是,同一個(gè)簇中的對(duì)象是相似的,不同簇中的對(duì)象相差較大。典型的K-means算法對(duì)初始化的k個(gè)中心依賴性很大,若初始中心選擇不當(dāng),往往會(huì)得不到全局最優(yōu)解,增加算法的迭代次數(shù)和運(yùn)算時(shí)間,降低算法的執(zhí)行效率[1]。

    快速確定優(yōu)秀的初始聚類中心,最終獲取全局最優(yōu)解,提高聚類算法的收斂速度是K-means聚類算法的重點(diǎn)研究?jī)?nèi)容。文獻(xiàn)[2]選取距離最大的兩個(gè)數(shù)據(jù)對(duì)象作為初始聚類中心,迭代分裂,直到獲取k個(gè)中心點(diǎn);文獻(xiàn)[3]利用領(lǐng)導(dǎo)者算法將數(shù)據(jù)分成不同的部分,從中選擇初始中心點(diǎn);文獻(xiàn)[4-5]選取位于高密度區(qū)域且相距較遠(yuǎn)的數(shù)據(jù)對(duì)象作為初始中心。上述研究能有效地獲取優(yōu)秀的聚類初始中心,從而提高聚類算法的質(zhì)量,但算法的時(shí)間復(fù)雜度較高,無(wú)法適應(yīng)海量數(shù)據(jù)的聚類要求[6]。

    隨著數(shù)據(jù)量的不斷增長(zhǎng),串行環(huán)境下的聚類算法在執(zhí)行效率和準(zhǔn)確程度上難以均衡兩者之間的關(guān)系,因此許多研究將傳統(tǒng)的聚類算法進(jìn)行并行實(shí)現(xiàn),從而滿足對(duì)海量數(shù)據(jù)的處理要求。MapReduce是處理大規(guī)模數(shù)據(jù)的并行編程框架,利用MapReduce框架進(jìn)行數(shù)據(jù)聚類,能有效地提高算法的執(zhí)行效率,其分布式集群提供的存儲(chǔ)與計(jì)算能力能夠解決龐大的數(shù)據(jù)規(guī)模和復(fù)雜的數(shù)據(jù)類型所帶來(lái)的問(wèn)題。因此,基于MapReduce框架面向大規(guī)模數(shù)據(jù)的并行聚類算法[7]逐漸被學(xué)者重視和提出。文獻(xiàn)[1]基于MapReduce提出一種先抽樣再用最大最小距離算法獲取初始中心的K-means并行聚類算法;文獻(xiàn)[8]結(jié)合MapReduce框架,提出了經(jīng)過(guò)多次隨機(jī)抽樣獲取優(yōu)秀初始中心的K-means并行聚類算法;文獻(xiàn)[9]對(duì)基于MapReduce的K-means并行聚類算法,從通信模式和初始中心方面,提出了改進(jìn)思路和具體實(shí)現(xiàn)。

    本文在此基礎(chǔ)上,以典型的K-means為研究對(duì)象,結(jié)合MapReduce并行編程模型,提出一種先利用Hash函數(shù)對(duì)數(shù)據(jù)進(jìn)行樣本抽樣,然后通過(guò)Pam算法獲取初始中心的K-means并行聚類方法。

    1 相關(guān)概念與描述

    1.1 基于Hash函數(shù)的取樣

    傳統(tǒng)的抽樣方法一般采用簡(jiǎn)單隨機(jī)抽樣[10],但這種方法具有不確定性,誤差方差較大,不能真正反映數(shù)據(jù)分布的統(tǒng)計(jì)特性。特別當(dāng)數(shù)據(jù)分布不均勻時(shí),樣本不具有對(duì)總體數(shù)據(jù)統(tǒng)計(jì)分布的代表性。

    基于Hash函數(shù)的取樣技術(shù)是基于傳統(tǒng)的分層抽樣提出的。利用Hash桶進(jìn)行分層,將m維立體數(shù)據(jù)按等概率進(jìn)行分桶,使得每層(即通過(guò)Hash函數(shù)構(gòu)造的Hash桶)的數(shù)據(jù)特性相近,以較小的計(jì)算代價(jià)得到分層的效果,然后進(jìn)行分層抽樣,使樣本充分反映數(shù)據(jù)的統(tǒng)計(jì)特性,同時(shí)該算法具有較好的時(shí)間復(fù)雜度O(n)。

    1.2 各類型變量的近似分布

    (1) 對(duì)于連續(xù)隨機(jī)變量x,其估計(jì)分布函數(shù)服從近似正態(tài)分布N(μ,σ2),分布函數(shù)為:

    (1)

    (2) 對(duì)于二元變量x,設(shè)其狀態(tài)為0、1。樣本中,0狀態(tài)的個(gè)數(shù)為n,1狀態(tài)的個(gè)數(shù)為m,則其估計(jì)分布函數(shù)為:

    (2)

    (3) 對(duì)于標(biāo)稱變量x,所抽樣本中各狀態(tài)出現(xiàn)的個(gè)數(shù)為n1,n2,…,nt,令pi=ni/(n1+n2+…+nt),則其估計(jì)分布函數(shù)為:

    (3)

    1.3MapReduce并行編程框架

    MapReduce編程模型是一個(gè)簡(jiǎn)化的并行計(jì)算編程模型,自動(dòng)實(shí)現(xiàn)資源調(diào)度,屏蔽了底層復(fù)雜的細(xì)節(jié)。MapReduce的核心是Map和Reduce兩個(gè)函數(shù),它們的功能是將輸入的鍵值對(duì)轉(zhuǎn)換成符合要求的。其中,Map端負(fù)責(zé)分解任務(wù),Reduce端負(fù)責(zé)合并任務(wù)。當(dāng)所有Map任務(wù)成功完成之后,具有相同key的鍵值對(duì)會(huì)被發(fā)送到同一個(gè)Reduce進(jìn)行合并。

    經(jīng)Map端處理后的,在被發(fā)送到Reduce端前,用戶可以通過(guò)實(shí)現(xiàn)Combine函數(shù)進(jìn)行本地合并,從而減少網(wǎng)絡(luò)的IO操作以及數(shù)據(jù)的傳輸量,使MapReduce更加有效。

    2 基于MapReduce的聚類優(yōu)化算法

    傳統(tǒng)的基于MapReduce框架的K-means算法從數(shù)據(jù)集中隨機(jī)選取k個(gè)對(duì)象作為初始中心,每次迭代啟動(dòng)一個(gè)job任務(wù),Map函數(shù)計(jì)算所有對(duì)象到k個(gè)中心的距離并將其分配到離它最近的簇,Reduce函數(shù)利用均值等方法更新該類的中心值。經(jīng)過(guò)多次迭代,生成穩(wěn)定的簇中心。這些算法只是將K-means算法遷移到MapReduce框架下,依然存在依賴初始化中心的問(wèn)題,同時(shí)在執(zhí)行Map/Reduce方法的過(guò)程中,也存在通信量過(guò)大、可伸縮性較差等問(wèn)題。

    因此,本文結(jié)合MapReduce對(duì)算法進(jìn)行優(yōu)化和改進(jìn),利用Hash函數(shù)抽取樣本充分反映數(shù)據(jù)的分布情況,使用Pam算法對(duì)樣本進(jìn)行聚類,采用實(shí)際樣本點(diǎn)作為新的聚類中心,避免噪聲點(diǎn)和孤立點(diǎn)的影響,從而提高了算法的聚類效果,加快了算法的處理速度。

    2.1 基于Hash函數(shù)的樣本抽樣算法過(guò)程

    (4)

    (2) 按照式(1)-式(3)對(duì)每維變量進(jìn)行近似分布估計(jì),可構(gòu)造如下Hash函數(shù):

    H(x1,x2,…,xm)=F(x1),F(x2),…,F(xm)

    (5)

    易知該Hash函數(shù)的取值范圍為[0,1],設(shè)要獲取n個(gè)樣本數(shù)據(jù),則將該區(qū)間n等分:0 =i1

    基于Hash函數(shù)的樣本抽樣算法過(guò)程如下:

    (1) 確定抽樣樣本容量n;

    (2) 按照式(1)-式(3)估計(jì)各列分布函數(shù)F(x);

    (3) 構(gòu)造Hash函數(shù)如式(5);

    (4) 將所有數(shù)據(jù)對(duì)象分配到這n個(gè)桶中;

    (5) 隨機(jī)地從每個(gè)Hash桶抽取一定比例的數(shù)據(jù),組成一個(gè)樣本數(shù)為n的樣本數(shù)據(jù)集。

    2.2 改進(jìn)算法方案設(shè)計(jì)

    針對(duì)傳統(tǒng)K-means聚類算法面對(duì)大規(guī)模數(shù)據(jù),算法時(shí)間開(kāi)銷大、執(zhí)行效率低,另外隨機(jī)選取初始中心,可能會(huì)陷入局部最優(yōu)解,導(dǎo)致聚類結(jié)果不準(zhǔn)確的問(wèn)題。本文提出以下改進(jìn)方案:

    (1) 對(duì)于K-means的聚類初始化問(wèn)題,本文采用一種結(jié)合Hash函數(shù)的樣本抽樣方法從數(shù)據(jù)集X中抽取一部分分布均勻的數(shù)據(jù)集X={x1,x2,…,xn},然后應(yīng)用Pam聚類算法獲取樣本的聚類中心,作為數(shù)據(jù)集的初始聚類中心。

    (2) 針對(duì)K-means算法在處理海量數(shù)據(jù)時(shí)效率低下的問(wèn)題,本文結(jié)合MapReduce計(jì)算模型,對(duì)K-means聚類算法進(jìn)行并行實(shí)現(xiàn)。

    (3) 針對(duì)傳統(tǒng)Pam算法采用全局順序替換策略,時(shí)間復(fù)雜度高的問(wèn)題,利用MapReduce框架并行實(shí)現(xiàn)Pam算法。

    2.3 改進(jìn)算法執(zhí)行流程

    改進(jìn)算法具體過(guò)程如下:

    1) 計(jì)算數(shù)據(jù)對(duì)象的均值、標(biāo)準(zhǔn)差。

    2) 根據(jù)式(4)確定抽樣的樣本數(shù)量n。

    3) 按照上述利用Hash函數(shù)進(jìn)行樣本抽樣的過(guò)程從數(shù)據(jù)集X中進(jìn)行樣本抽樣。

    4) 對(duì)抽取的樣本利用Pam聚類算法進(jìn)行聚類,從而獲取初始中心,過(guò)程如下:

    Repeat

    (1) 計(jì)算樣本數(shù)據(jù)集中的每個(gè)非中心點(diǎn)xi與各個(gè)中心點(diǎn)之間的距離,將其分配給距它最近的第k個(gè)中心點(diǎn),形成多個(gè)類簇;

    Repeat

    (2) 選擇樣本數(shù)據(jù)集中一個(gè)未被選擇的非中心點(diǎn)xi替換當(dāng)前簇的中心點(diǎn);

    (3) 如果存在某個(gè)非中心點(diǎn)代替當(dāng)前中心點(diǎn)的代價(jià)小于0,則用該非中心點(diǎn)替換中心點(diǎn),形成一個(gè)新的類簇;

    Until所有非中心點(diǎn)被選擇過(guò);

    Until沒(méi)有類簇進(jìn)行中心點(diǎn)重新分配;

    (4) 將穩(wěn)定的聚類中心記錄為C。

    5) 將C作為全局初始聚類中心,輸入數(shù)據(jù)集以及相關(guān)參數(shù)。

    6) 運(yùn)行并行的K-means聚類算法,直到所有類簇穩(wěn)定,或者達(dá)到最大迭代次數(shù),算法結(jié)束。

    對(duì)應(yīng)算法流程如圖1所示。

    圖1 算法流程圖

    2.4 算法時(shí)間復(fù)雜度分析

    設(shè)N為數(shù)據(jù)對(duì)象數(shù)量,k為類別個(gè)數(shù),t為迭代次數(shù),w為每個(gè)對(duì)象的維度,Map節(jié)點(diǎn)的個(gè)數(shù)為m,Reduce的個(gè)數(shù)為r,抽取的樣本容量為n,則串行條件下K-means算法的時(shí)間復(fù)雜度為O(Nktw)。

    3 實(shí)驗(yàn)及結(jié)果分析

    3.1 實(shí)驗(yàn)環(huán)境

    硬件:6臺(tái)普通PC機(jī),1臺(tái)作為主節(jié)點(diǎn),其余5臺(tái)為從節(jié)點(diǎn)。其配置均為3.20GHz的4核CPU,500GB硬盤(pán),4GB內(nèi)存。

    軟件:操作系統(tǒng)CentOS6.4,Hadoop2.20,Jdk1.7,Eclipse4.42,Hadoop集群環(huán)境采用完全分布式模式部署。

    3.2 仿真實(shí)驗(yàn)與分析

    實(shí)驗(yàn)數(shù)據(jù)為UCI機(jī)器學(xué)習(xí)庫(kù)中的Synthetic-Control數(shù)據(jù)集,每條數(shù)據(jù)的維度為60,共包含6個(gè)類別。為驗(yàn)證改進(jìn)算法處理大規(guī)模數(shù)據(jù)的能力,在此基礎(chǔ)上構(gòu)造了data1~data3三組數(shù)據(jù)集用于聚類,規(guī)模分別為600MB、1 200MB、2 000MB。每次實(shí)驗(yàn)均取10次實(shí)驗(yàn)結(jié)果的平均值為最終結(jié)果。

    3.2.1 實(shí)驗(yàn)1:驗(yàn)證改進(jìn)算法的加速比

    實(shí)驗(yàn)說(shuō)明:本實(shí)驗(yàn)在節(jié)點(diǎn)個(gè)數(shù)分別為1、2、3、4、5的Hadoop平臺(tái)上,利用本文算法對(duì)data1~data3三組數(shù)據(jù)進(jìn)行聚類,運(yùn)行時(shí)間如圖2所示。

    圖2 各數(shù)據(jù)集在不同節(jié)點(diǎn)下的運(yùn)行時(shí)間

    由圖2可得出以下結(jié)論:

    (1) 對(duì)于同一數(shù)據(jù)集,隨著集群中參與運(yùn)算的節(jié)點(diǎn)個(gè)數(shù)不斷地增多,單個(gè)節(jié)點(diǎn)處理的數(shù)據(jù)逐漸變少,從而導(dǎo)致總體的運(yùn)行時(shí)間減少。而且當(dāng)數(shù)據(jù)規(guī)模相對(duì)較大時(shí),算法運(yùn)行時(shí)間的減少幅度更加明顯,說(shuō)明集群的并行化有效提高了算法處理大規(guī)模數(shù)據(jù)的執(zhí)行效率。

    (2) 隨著節(jié)點(diǎn)個(gè)數(shù)的增加,運(yùn)行時(shí)間曲線趨于平緩,這是因?yàn)楫?dāng)各節(jié)點(diǎn)處理的數(shù)據(jù)量較少時(shí),各節(jié)點(diǎn)進(jìn)行邏輯運(yùn)算所消耗的時(shí)間占總時(shí)長(zhǎng)比例較小,而MapReduce在啟動(dòng)任務(wù)和各節(jié)點(diǎn)之間進(jìn)行數(shù)據(jù)通信消耗的時(shí)間占據(jù)了一定比例,綜合兩者導(dǎo)致總時(shí)長(zhǎng)差距不明顯。

    圖3 各數(shù)據(jù)集在不同節(jié)點(diǎn)下的加速比

    由圖3可知:隨著節(jié)點(diǎn)數(shù)目的增加,算法的加速比接近線性增長(zhǎng),說(shuō)明本文提出的改進(jìn)算法具有良好的可擴(kuò)展性,能很好地適應(yīng)于并行化。

    3.2.2 實(shí)驗(yàn)2:驗(yàn)證改進(jìn)算法的有效性

    實(shí)驗(yàn)說(shuō)明:為驗(yàn)證算法的有效性,在節(jié)點(diǎn)數(shù)為5的集群環(huán)境下,利用基于MapReduce的K-means并行聚類算法(算法1)、文獻(xiàn)[1]提出的改進(jìn)算法(算法2)、文獻(xiàn)[8]提出的改進(jìn)算法(算法3)和本文提出的改進(jìn)算法分別對(duì)data1、data2、data3數(shù)據(jù)集進(jìn)行聚類實(shí)驗(yàn)。記錄四種算法的運(yùn)行時(shí)間(單位:分鐘)如表1所示,算法執(zhí)行的迭代次數(shù)如表2所示。

    表1 各算法運(yùn)行時(shí)間對(duì)比表

    表2 各算法迭代次數(shù)對(duì)比表

    綜合表1、表2可得出以下結(jié)論:

    (1) 當(dāng)數(shù)據(jù)集為data1時(shí),數(shù)據(jù)記錄相對(duì)較少,各算法運(yùn)行時(shí)間差距不大,這是因?yàn)榻?jīng)過(guò)優(yōu)化后的算法雖然選取了優(yōu)秀的初始聚類中心,減少了算法的迭代次數(shù),但同時(shí)也消耗了時(shí)間。隨著數(shù)據(jù)規(guī)模的增大,通過(guò)樣本獲取初始中心消耗的時(shí)間占總時(shí)長(zhǎng)的比例逐漸減少,算法本身成為影響執(zhí)行時(shí)間的主要因素,算法運(yùn)行總時(shí)長(zhǎng)的差距也相應(yīng)變大。

    (2) 在運(yùn)行相同條件下,算法2所用時(shí)間最長(zhǎng),由于其獲取初始中心時(shí),采用串行實(shí)現(xiàn)的最大最小距離算法,時(shí)間復(fù)雜度較高,增加了時(shí)間的開(kāi)銷。而本文提出的改進(jìn)算法,無(wú)論是迭代次數(shù)還是執(zhí)行時(shí)間,與其他算法相比,都有所減少,說(shuō)明其能快速有效地獲取優(yōu)秀的初始聚類中心,從而縮短算法的運(yùn)行時(shí)間,提高算法的執(zhí)行效率。

    3.2.3 實(shí)驗(yàn)3:驗(yàn)證改進(jìn)算法的正確性

    實(shí)驗(yàn)說(shuō)明:為驗(yàn)證算法的正確性,利用本文提出的改進(jìn)算法分別對(duì)不同的數(shù)據(jù)集進(jìn)行聚類。實(shí)驗(yàn)數(shù)據(jù)為UCI機(jī)器學(xué)習(xí)庫(kù)中的Synthetic-Control數(shù)據(jù)集、Iris數(shù)據(jù)集和Wine數(shù)據(jù)集。其中,Iris和Wine數(shù)據(jù)集均包含3個(gè)類別,每條記錄分別由4個(gè)和13個(gè)屬性構(gòu)成。本實(shí)驗(yàn)在此基礎(chǔ)上分別將3個(gè)數(shù)據(jù)集擴(kuò)充為3百萬(wàn)條記錄,取10次實(shí)驗(yàn)結(jié)果的平均值為最終結(jié)果。實(shí)驗(yàn)結(jié)果如表3所示。

    表3 各算法準(zhǔn)確率對(duì)比表 %

    由表3可知:同一數(shù)據(jù)集下,算法2、算法3和本文算法的準(zhǔn)確率相對(duì)于算法1都有所提高,說(shuō)明通過(guò)獲取優(yōu)秀的初始聚類中心,提高了算法的聚類效果。而本文算法的聚類效果更佳,說(shuō)明利用Pam算法獲取聚類中心,有效降低了異常點(diǎn)的干擾,從而提高了算法的準(zhǔn)確率。

    3.2.4 實(shí)驗(yàn)4:驗(yàn)證改進(jìn)算法的穩(wěn)定性

    實(shí)驗(yàn)說(shuō)明:為驗(yàn)證算法的穩(wěn)定性,在節(jié)點(diǎn)數(shù)為5的集群環(huán)境下,分別利用四種算法對(duì)data3數(shù)據(jù)集進(jìn)行聚類。記錄四種算法10次聚類結(jié)果的準(zhǔn)確率如圖4所示。

    通過(guò)圖4可以得出以下結(jié)論:

    本文算法準(zhǔn)確率曲線走勢(shì)相對(duì)平穩(wěn),而其它三種算法準(zhǔn)確率曲線偏離中心線幅度較大,其中算法1偏離程度最為嚴(yán)重。由于算法2和算法3在獲取聚類初始中心時(shí),隨機(jī)取樣的不穩(wěn)定性導(dǎo)致選擇的初始聚類中心與實(shí)際的聚類中心存在一定偏差,但其通過(guò)選擇優(yōu)秀的聚類中心,改善了中心點(diǎn)對(duì)聚類結(jié)果的影響,所以兩者的準(zhǔn)確率曲線波動(dòng)范圍與算法1相比相對(duì)較小。而本文算法利用Hash函數(shù)進(jìn)行樣本抽樣,客觀地反映了數(shù)據(jù)的分布特性,獲取的初始中心與數(shù)據(jù)集的聚類中心更接近,與其他三種算法相比,表現(xiàn)出更高的穩(wěn)定性和準(zhǔn)確性。

    圖4 各算法10次實(shí)驗(yàn)結(jié)果的準(zhǔn)確率

    4 結(jié) 語(yǔ)

    本文主要通過(guò)Hadoop平臺(tái)上的MapReduce框架實(shí)現(xiàn)了針對(duì)大規(guī)模數(shù)據(jù)進(jìn)行快速聚類的優(yōu)化算法,實(shí)驗(yàn)結(jié)果表明:這種改進(jìn)的方法較快地選取了優(yōu)秀的初始聚類中心,降低了對(duì)初始聚類中心的依賴性,提高了大規(guī)模數(shù)據(jù)集下聚類算法的正確率,加速了聚類的收斂速度。并行環(huán)境下,能適應(yīng)海量數(shù)據(jù)的快速聚類。下一步工作主要對(duì)集群的參數(shù)配置進(jìn)行實(shí)驗(yàn)調(diào)優(yōu),以提高系統(tǒng)負(fù)載均衡的能力和魯棒性。同時(shí)聚類中心k值的自動(dòng)確定,是以后的研究重點(diǎn)。

    [1] 韓巖,李曉.加速大數(shù)據(jù)聚類K-means算法的改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(5):1317-1320.

    [2] 陳光平,王文鵬,黃俊.一種改進(jìn)初始聚類中心選擇的K-means算法[J].小型微型計(jì)算機(jī)系統(tǒng),2012,33(6):1320-1323.

    [3]KumarKM,ReddyARM.AfastK-meansclusteringusingprototypesforinitialclustercenterselection[C]//InternationalConferenceonIntelligentSystemsandControl,2015:1-4.

    [4] 謝娟英,王艷娥.最小方差優(yōu)化初始聚類中心的K-means算法[J].計(jì)算機(jī)工程,2014,40(8):205-211.

    [5]LinK,LiX,ZhangZ,etal.AK-meansclusteringwithoptimizedinitialcenterbasedonHadoopplatform[C]//InternationalConferenceonComputerScience&Education,2014:263-266.

    [6] 張靖,段富.優(yōu)化初始聚類中心的改進(jìn)K-means算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(5):1691-1694,1699.

    [7] Kumar A,Kiran M,Prathap B R.Verification and Validation of Map Reduce Program model for Parallel K-Means algorithm on Hadoop Cluster[C]//International Conference on Advanced Computing and Communication Systems,2014:1-8.

    [8] 王永貴,武超,戴偉.基于MapReduce的隨機(jī)抽樣K-means算法[J].計(jì)算機(jī)工程與應(yīng)用,2016(8):74-79.

    [9] 牛新征,佘堃.面向大規(guī)模數(shù)據(jù)的快速并行聚類劃分算法研究[J].計(jì)算機(jī)科學(xué),2012,39(1):134-137.

    [10] 王秀華.基于隨機(jī)抽樣的加速K-均值聚類方法[J].計(jì)算機(jī)與現(xiàn)代化,2013(12):27-29.

    RESEARCH ON FAST CLUSTERING K-MEANS ALGORITHM FOR LARGE-SCALE DATA

    Guo Zhanyuan Lin Tao

    (SchoolofComputerScienceandEngineering,HebeiUniversityofTechnology,Tianjin300401,China)

    To further enhance the efficiency of K-means clustering algorithm for large-scale data, combined with MapReduce computational model, a parallel clustering method is proposed, which uses Hash function to extract samples and then obtains initial center by Pam algorithm. The sample extracted by Hash function can fully reflect the statistical characteristics of the data, using Pam algorithm to obtain the initial clustering center, and improve the traditional clustering algorithm to rely on the initial center of the problem. It uses the Pam algorithm to obtain the initial clustering center, and improves the problem of that the traditional clustering algorithms rely on the initial center. The experimental results show that the proposed algorithm can effectively improve the clustering quality and efficiency, and is suitable for the clustering analysis of large-scale data.

    Large-scale data Clustering algorithm MapReduce Hash sampling Pam algorithm

    2016-06-16。天津市科技支持計(jì)劃科技服務(wù)重大專項(xiàng)(14ZCDZGX00818)。郭占元,碩士,主研領(lǐng)域:數(shù)據(jù)挖掘,云計(jì)算與大數(shù)據(jù)處理。林濤,教授。

    TP311

    A

    10.3969/j.issn.1000-386x.2017.05.008

    猜你喜歡
    中心點(diǎn)聚類樣本
    用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
    Scratch 3.9更新了什么?
    如何設(shè)置造型中心點(diǎn)?
    電腦報(bào)(2019年4期)2019-09-10 07:22:44
    推動(dòng)醫(yī)改的“直銷樣本”
    基于DBSACN聚類算法的XML文檔聚類
    隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
    村企共贏的樣本
    漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫(huà)應(yīng)緊奏
    基于改進(jìn)的遺傳算法的模糊聚類算法
    尋找視覺(jué)中心點(diǎn)
    大眾攝影(2015年9期)2015-09-06 17:05:41
    午夜老司机福利剧场| 国产精品成人在线| 亚洲av成人精品一区久久| 国产欧美日韩一区二区三区在线 | 亚洲欧美成人精品一区二区| 中文字幕亚洲精品专区| 亚洲婷婷狠狠爱综合网| 国产黄片视频在线免费观看| 啦啦啦在线观看免费高清www| 又大又黄又爽视频免费| 久久久亚洲精品成人影院| 插逼视频在线观看| 亚洲精品一二三| 一级爰片在线观看| 在线观看人妻少妇| 97在线人人人人妻| 欧美极品一区二区三区四区| 久久人人爽人人片av| 99久久精品国产国产毛片| 午夜免费鲁丝| 男女边吃奶边做爰视频| 亚洲国产欧美在线一区| 哪个播放器可以免费观看大片| 两个人的视频大全免费| 国产黄片美女视频| 国产伦理片在线播放av一区| 亚洲第一av免费看| 精品亚洲乱码少妇综合久久| 青春草国产在线视频| 下体分泌物呈黄色| 偷拍熟女少妇极品色| 国国产精品蜜臀av免费| 成人国产av品久久久| av在线app专区| 久久国内精品自在自线图片| 91在线精品国自产拍蜜月| 美女xxoo啪啪120秒动态图| 九九久久精品国产亚洲av麻豆| av又黄又爽大尺度在线免费看| av一本久久久久| 精品久久久久久久末码| 午夜老司机福利剧场| 国产精品女同一区二区软件| 国国产精品蜜臀av免费| 爱豆传媒免费全集在线观看| 国产伦精品一区二区三区视频9| 国产一区二区在线观看日韩| av播播在线观看一区| 欧美精品一区二区大全| 国产成人精品久久久久久| 天堂中文最新版在线下载| 欧美xxⅹ黑人| 亚洲第一区二区三区不卡| 亚洲国产高清在线一区二区三| 国产av码专区亚洲av| 久久女婷五月综合色啪小说| 波野结衣二区三区在线| 精品少妇黑人巨大在线播放| 国产欧美日韩精品一区二区| 亚洲第一av免费看| 国产 一区 欧美 日韩| 亚洲人成网站高清观看| 在线观看人妻少妇| 国产免费又黄又爽又色| av黄色大香蕉| 老师上课跳d突然被开到最大视频| 亚洲人成网站在线播| 欧美 日韩 精品 国产| 国产亚洲一区二区精品| 美女视频免费永久观看网站| 国产精品一二三区在线看| 亚洲精品第二区| 99热全是精品| 久久99热6这里只有精品| 中文乱码字字幕精品一区二区三区| 我要看黄色一级片免费的| 国产亚洲精品久久久com| 热99国产精品久久久久久7| 在现免费观看毛片| 国产人妻一区二区三区在| av不卡在线播放| 国产精品熟女久久久久浪| 热99国产精品久久久久久7| 人妻少妇偷人精品九色| 乱系列少妇在线播放| 99热全是精品| 妹子高潮喷水视频| 韩国av在线不卡| 超碰97精品在线观看| 精品99又大又爽又粗少妇毛片| 纯流量卡能插随身wifi吗| 在线免费观看不下载黄p国产| 成人无遮挡网站| 高清不卡的av网站| 久久6这里有精品| 午夜福利视频精品| 亚洲婷婷狠狠爱综合网| 亚洲婷婷狠狠爱综合网| 亚洲av免费高清在线观看| 51国产日韩欧美| 人妻系列 视频| 午夜激情福利司机影院| 日韩 亚洲 欧美在线| 女性被躁到高潮视频| 五月天丁香电影| 97精品久久久久久久久久精品| 亚洲欧美中文字幕日韩二区| 最近的中文字幕免费完整| 久久久久国产精品人妻一区二区| 亚洲精品成人av观看孕妇| 香蕉精品网在线| av在线app专区| 少妇的逼水好多| 看免费成人av毛片| 国产在线免费精品| 亚洲成人av在线免费| 亚洲电影在线观看av| 午夜福利高清视频| 午夜日本视频在线| 汤姆久久久久久久影院中文字幕| 国产爱豆传媒在线观看| 亚洲真实伦在线观看| av播播在线观看一区| 成人国产麻豆网| 久久99热这里只有精品18| 高清日韩中文字幕在线| 亚洲精品色激情综合| 欧美国产精品一级二级三级 | 久久久成人免费电影| 99热国产这里只有精品6| 少妇人妻久久综合中文| 日韩中文字幕视频在线看片 | 亚洲人成网站高清观看| 国产色爽女视频免费观看| 国产亚洲av片在线观看秒播厂| 一级爰片在线观看| 小蜜桃在线观看免费完整版高清| 午夜免费男女啪啪视频观看| 国产成人午夜福利电影在线观看| 伦精品一区二区三区| 亚洲欧美日韩东京热| 一级毛片黄色毛片免费观看视频| av网站免费在线观看视频| 蜜臀久久99精品久久宅男| 亚洲成人中文字幕在线播放| 国产欧美另类精品又又久久亚洲欧美| 18禁裸乳无遮挡动漫免费视频| 自拍欧美九色日韩亚洲蝌蚪91 | 天天躁夜夜躁狠狠久久av| 少妇裸体淫交视频免费看高清| 免费观看性生交大片5| 18禁裸乳无遮挡免费网站照片| 国产老妇伦熟女老妇高清| 免费久久久久久久精品成人欧美视频 | 青青草视频在线视频观看| 91精品国产国语对白视频| 国产老妇伦熟女老妇高清| 久久精品久久久久久久性| 中文字幕免费在线视频6| 日本欧美视频一区| 久久av网站| 夫妻性生交免费视频一级片| 肉色欧美久久久久久久蜜桃| 亚洲精品亚洲一区二区| 久久精品久久久久久噜噜老黄| 国产成人免费观看mmmm| 搡老乐熟女国产| 天美传媒精品一区二区| videossex国产| 51国产日韩欧美| 蜜桃久久精品国产亚洲av| 青春草视频在线免费观看| 久久久久国产网址| 寂寞人妻少妇视频99o| 久久国产乱子免费精品| 五月玫瑰六月丁香| 观看美女的网站| 亚洲国产精品成人久久小说| 中文字幕免费在线视频6| 国产在线男女| 你懂的网址亚洲精品在线观看| 久久99精品国语久久久| 精品一区二区免费观看| 亚洲国产欧美人成| 91精品伊人久久大香线蕉| 亚洲精品日本国产第一区| 国产淫片久久久久久久久| 晚上一个人看的免费电影| 国产成人a区在线观看| 99国产精品免费福利视频| 精品国产一区二区三区久久久樱花 | 亚洲第一区二区三区不卡| 亚洲欧美精品专区久久| 爱豆传媒免费全集在线观看| 我要看日韩黄色一级片| 国产免费一区二区三区四区乱码| 最近的中文字幕免费完整| 内地一区二区视频在线| 人妻 亚洲 视频| 久久女婷五月综合色啪小说| 久久精品人妻少妇| 国内揄拍国产精品人妻在线| 免费久久久久久久精品成人欧美视频 | 国产日韩欧美在线精品| 午夜免费男女啪啪视频观看| 国产av精品麻豆| 亚洲精品久久久久久婷婷小说| 久久久久精品久久久久真实原创| 一级二级三级毛片免费看| 18禁裸乳无遮挡免费网站照片| 三级国产精品片| 亚洲人成网站高清观看| www.av在线官网国产| 久久久亚洲精品成人影院| 久久久成人免费电影| 视频中文字幕在线观看| 久久久色成人| 在线亚洲精品国产二区图片欧美 | 亚洲国产精品专区欧美| 国产精品精品国产色婷婷| 国语对白做爰xxxⅹ性视频网站| 在线免费观看不下载黄p国产| 观看免费一级毛片| 人妻一区二区av| 国产免费福利视频在线观看| 男女下面进入的视频免费午夜| 2018国产大陆天天弄谢| 在线观看免费高清a一片| 亚洲av成人精品一二三区| 多毛熟女@视频| 男女国产视频网站| 午夜老司机福利剧场| 狂野欧美白嫩少妇大欣赏| 极品少妇高潮喷水抽搐| 伊人久久精品亚洲午夜| 亚洲激情五月婷婷啪啪| 亚洲av男天堂| 伦理电影免费视频| 夜夜骑夜夜射夜夜干| 美女视频免费永久观看网站| 国产av一区二区精品久久 | 26uuu在线亚洲综合色| 欧美另类一区| 亚洲欧美清纯卡通| 欧美极品一区二区三区四区| 亚洲国产精品999| 纵有疾风起免费观看全集完整版| 久久久久久伊人网av| 国产高清有码在线观看视频| 国产亚洲精品久久久com| 亚洲国产毛片av蜜桃av| 午夜福利网站1000一区二区三区| 少妇的逼好多水| 久久国内精品自在自线图片| 精品亚洲成a人片在线观看 | 狂野欧美激情性xxxx在线观看| 国产亚洲精品久久久com| 国产69精品久久久久777片| 久热这里只有精品99| 欧美xxⅹ黑人| 精品久久久久久电影网| 欧美日韩视频高清一区二区三区二| 简卡轻食公司| 久久精品国产鲁丝片午夜精品| 性高湖久久久久久久久免费观看| 国产精品成人在线| 日本猛色少妇xxxxx猛交久久| 夜夜骑夜夜射夜夜干| 久久精品国产亚洲av天美| 欧美激情极品国产一区二区三区 | 亚洲美女黄色视频免费看| 亚洲精品国产色婷婷电影| 中文乱码字字幕精品一区二区三区| 丝瓜视频免费看黄片| 大香蕉久久网| 亚洲精品日韩av片在线观看| 狂野欧美激情性xxxx在线观看| 水蜜桃什么品种好| 精品一区二区三卡| 免费观看在线日韩| www.色视频.com| 国产免费视频播放在线视频| 特大巨黑吊av在线直播| 日韩成人伦理影院| 亚洲av国产av综合av卡| 亚洲欧洲日产国产| 一本久久精品| 久久精品国产a三级三级三级| 国产精品99久久久久久久久| 汤姆久久久久久久影院中文字幕| 色哟哟·www| 国产黄色视频一区二区在线观看| 国产成人精品一,二区| 高清午夜精品一区二区三区| 一级毛片 在线播放| 国产片特级美女逼逼视频| 日韩视频在线欧美| 国产精品久久久久久久电影| 18禁裸乳无遮挡动漫免费视频| videossex国产| 在线观看人妻少妇| 免费观看在线日韩| 菩萨蛮人人尽说江南好唐韦庄| 精品久久久久久久末码| 中文字幕人妻熟人妻熟丝袜美| 色网站视频免费| 国产成人91sexporn| 午夜福利影视在线免费观看| 夜夜爽夜夜爽视频| 男女免费视频国产| 日本猛色少妇xxxxx猛交久久| 狂野欧美白嫩少妇大欣赏| 熟女av电影| 日本色播在线视频| av国产精品久久久久影院| 直男gayav资源| 精品国产露脸久久av麻豆| 久久久久久久久大av| 精品久久久久久久末码| 久久久a久久爽久久v久久| 欧美日韩一区二区视频在线观看视频在线| 一级毛片 在线播放| 国产精品熟女久久久久浪| 亚洲人成网站高清观看| 欧美三级亚洲精品| av又黄又爽大尺度在线免费看| 好男人视频免费观看在线| 观看免费一级毛片| 制服丝袜香蕉在线| 免费久久久久久久精品成人欧美视频 | 欧美日韩一区二区视频在线观看视频在线| 最新中文字幕久久久久| 啦啦啦视频在线资源免费观看| 亚洲人成网站在线播| 国产精品.久久久| 七月丁香在线播放| 久久久色成人| av视频免费观看在线观看| 亚洲精品日韩在线中文字幕| 成人18禁高潮啪啪吃奶动态图 | 黄色日韩在线| 国产成人免费观看mmmm| 在线 av 中文字幕| 亚洲人成网站在线观看播放| 国产亚洲5aaaaa淫片| 色视频在线一区二区三区| 国产久久久一区二区三区| 欧美日韩视频高清一区二区三区二| 日韩一区二区三区影片| 亚洲无线观看免费| 观看av在线不卡| 久久国产亚洲av麻豆专区| 又爽又黄a免费视频| 免费观看av网站的网址| 九色成人免费人妻av| 一级黄片播放器| 国产欧美亚洲国产| 亚洲精品乱久久久久久| 在线免费十八禁| 午夜视频国产福利| 国产精品成人在线| 少妇猛男粗大的猛烈进出视频| 国产精品麻豆人妻色哟哟久久| 交换朋友夫妻互换小说| 丰满迷人的少妇在线观看| 熟妇人妻不卡中文字幕| 黑丝袜美女国产一区| 国产亚洲91精品色在线| 国产69精品久久久久777片| .国产精品久久| 国产国拍精品亚洲av在线观看| 久久精品国产亚洲网站| 不卡视频在线观看欧美| 色吧在线观看| 黄色视频在线播放观看不卡| 精品少妇黑人巨大在线播放| 日日撸夜夜添| 午夜激情福利司机影院| 黄色日韩在线| 九色成人免费人妻av| 日本黄色片子视频| 欧美日韩综合久久久久久| 夫妻午夜视频| 中文字幕制服av| 男女免费视频国产| 成人18禁高潮啪啪吃奶动态图 | 亚洲av日韩在线播放| 视频中文字幕在线观看| 老女人水多毛片| 在线观看免费日韩欧美大片 | 亚洲电影在线观看av| 一级毛片电影观看| 免费黄网站久久成人精品| 熟女电影av网| 国产高清国产精品国产三级 | 国产黄频视频在线观看| 亚洲aⅴ乱码一区二区在线播放| 夜夜爽夜夜爽视频| 亚洲熟女精品中文字幕| 春色校园在线视频观看| 国产精品国产av在线观看| 成人国产麻豆网| 亚洲国产色片| 日韩,欧美,国产一区二区三区| 最近最新中文字幕免费大全7| 国产人妻一区二区三区在| 免费大片黄手机在线观看| 国产精品人妻久久久影院| 亚洲欧美一区二区三区国产| 欧美激情极品国产一区二区三区 | 欧美另类一区| 18禁动态无遮挡网站| 国产精品一区二区性色av| 日本爱情动作片www.在线观看| 伊人久久国产一区二区| 国产高潮美女av| 视频中文字幕在线观看| 在线观看人妻少妇| 午夜福利在线在线| 大片免费播放器 马上看| kizo精华| 成人国产av品久久久| 1000部很黄的大片| 我要看日韩黄色一级片| 久久精品国产a三级三级三级| 日韩欧美 国产精品| 亚洲,一卡二卡三卡| 成人综合一区亚洲| 婷婷色综合大香蕉| 日本欧美国产在线视频| 亚洲无线观看免费| 亚洲av.av天堂| 久久精品久久久久久久性| 亚洲经典国产精华液单| 亚洲av福利一区| 色视频www国产| 人人妻人人澡人人爽人人夜夜| 少妇丰满av| 久久久久网色| 久久亚洲国产成人精品v| 中文天堂在线官网| 视频中文字幕在线观看| 中文字幕免费在线视频6| 欧美日韩一区二区视频在线观看视频在线| 亚洲精品国产色婷婷电影| 亚洲熟女精品中文字幕| 国产精品99久久99久久久不卡 | 日本黄大片高清| 99九九线精品视频在线观看视频| 亚洲国产精品国产精品| av播播在线观看一区| 亚洲精品日本国产第一区| 黄色日韩在线| 欧美性感艳星| 黄色欧美视频在线观看| 亚洲av成人精品一二三区| 日韩 亚洲 欧美在线| 最近中文字幕2019免费版| 免费大片18禁| 波野结衣二区三区在线| 美女xxoo啪啪120秒动态图| 国产成人精品一,二区| 少妇人妻久久综合中文| 欧美日韩亚洲高清精品| 久久青草综合色| 亚洲国产精品国产精品| 一区在线观看完整版| 国产片特级美女逼逼视频| av福利片在线观看| 免费观看性生交大片5| h视频一区二区三区| 一区二区av电影网| 婷婷色av中文字幕| 亚洲精品亚洲一区二区| 亚洲欧美日韩卡通动漫| 少妇的逼水好多| av又黄又爽大尺度在线免费看| 亚洲精品国产av蜜桃| 午夜福利高清视频| 我要看黄色一级片免费的| 久久久久国产网址| 偷拍熟女少妇极品色| 亚洲三级黄色毛片| 久久久久久伊人网av| 亚洲精品国产av蜜桃| 午夜日本视频在线| 女性被躁到高潮视频| 亚洲国产高清在线一区二区三| 久久国产亚洲av麻豆专区| 亚洲国产日韩一区二区| 久久ye,这里只有精品| 国产成人精品一,二区| 高清日韩中文字幕在线| 精品99又大又爽又粗少妇毛片| 亚洲av中文av极速乱| 女性被躁到高潮视频| 国产av精品麻豆| 91精品伊人久久大香线蕉| 99国产精品免费福利视频| 免费久久久久久久精品成人欧美视频 | 大片电影免费在线观看免费| 熟妇人妻不卡中文字幕| 午夜日本视频在线| 国产成人aa在线观看| 免费观看av网站的网址| 亚洲国产最新在线播放| 国产黄片美女视频| 人妻一区二区av| 亚洲欧美成人综合另类久久久| 夜夜骑夜夜射夜夜干| 亚洲av二区三区四区| 啦啦啦中文免费视频观看日本| 亚洲性久久影院| 97在线视频观看| 一级毛片aaaaaa免费看小| 五月玫瑰六月丁香| 乱码一卡2卡4卡精品| 少妇人妻久久综合中文| 午夜精品国产一区二区电影| 欧美日韩在线观看h| 国产视频内射| 国产黄色免费在线视频| 熟女人妻精品中文字幕| 肉色欧美久久久久久久蜜桃| 免费观看的影片在线观看| 一级毛片黄色毛片免费观看视频| av卡一久久| 国产成人精品福利久久| 欧美zozozo另类| 国产在线免费精品| 国产综合精华液| 在线精品无人区一区二区三 | 亚洲国产精品成人久久小说| 九九在线视频观看精品| av卡一久久| 十八禁网站网址无遮挡 | 久久综合国产亚洲精品| 尾随美女入室| 亚洲av电影在线观看一区二区三区| 国产色婷婷99| 亚洲av福利一区| 美女中出高潮动态图| 777米奇影视久久| 国产精品麻豆人妻色哟哟久久| 亚洲精品乱久久久久久| 少妇精品久久久久久久| 99久久精品热视频| 亚洲欧美日韩另类电影网站 | 国产亚洲欧美精品永久| 免费少妇av软件| 亚洲国产欧美在线一区| 又爽又黄a免费视频| 成人国产av品久久久| 国产成人aa在线观看| 中文天堂在线官网| 熟女人妻精品中文字幕| 亚洲精品aⅴ在线观看| 在线免费十八禁| 亚洲精品自拍成人| 韩国高清视频一区二区三区| 免费人妻精品一区二区三区视频| 性色av一级| 国产精品成人在线| 一级av片app| 日本午夜av视频| 中文字幕制服av| 日韩精品有码人妻一区| 国产精品久久久久久久久免| 国产黄频视频在线观看| 妹子高潮喷水视频| 精品久久久久久久久亚洲| 狠狠精品人妻久久久久久综合| 欧美日韩在线观看h| 欧美成人精品欧美一级黄| 一区在线观看完整版| 欧美成人精品欧美一级黄| 国产精品av视频在线免费观看| 涩涩av久久男人的天堂| 日韩三级伦理在线观看| 成人综合一区亚洲| 亚洲精品国产色婷婷电影| 国产伦在线观看视频一区| 91在线精品国自产拍蜜月| 成人亚洲精品一区在线观看 | 99热这里只有精品一区| 日韩制服骚丝袜av| 观看免费一级毛片| 日本猛色少妇xxxxx猛交久久| 小蜜桃在线观看免费完整版高清| 国产精品精品国产色婷婷| 欧美人与善性xxx| 美女福利国产在线 | 日韩三级伦理在线观看| 成人一区二区视频在线观看| 亚洲自偷自拍三级| 欧美高清性xxxxhd video| 亚洲欧美精品专区久久| 2021少妇久久久久久久久久久| 国产在线视频一区二区| 精品午夜福利在线看| 中文字幕亚洲精品专区| 国产黄片美女视频| 一级a做视频免费观看| 精品99又大又爽又粗少妇毛片| 22中文网久久字幕| 一本久久精品| 久久鲁丝午夜福利片| 一级毛片电影观看| 国产成人午夜福利电影在线观看| 超碰av人人做人人爽久久| 三级经典国产精品| 99久国产av精品国产电影| 汤姆久久久久久久影院中文字幕| 18禁动态无遮挡网站| 亚洲精品乱久久久久久|