• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)K-means聚類算法在電力客戶價(jià)值分群的應(yīng)用

      2017-06-26 12:51:01朱州吳漾
      關(guān)鍵詞:分群標(biāo)準(zhǔn)差準(zhǔn)則

      朱州吳漾

      (貴州電網(wǎng)有限責(zé)任公司信息中心貴陽(yáng)550003)

      基于改進(jìn)K-means聚類算法在電力客戶價(jià)值分群的應(yīng)用

      朱州吳漾

      (貴州電網(wǎng)有限責(zé)任公司信息中心貴陽(yáng)550003)

      針對(duì)電力客戶特點(diǎn)實(shí)行不同的營(yíng)銷策略和提供差異化服務(wù),就需要對(duì)電力客戶做出準(zhǔn)確的分群。傳統(tǒng)K-means聚類算法對(duì)數(shù)據(jù)分布均勻的類似球形的數(shù)據(jù)集聚類效果比較好,一旦數(shù)據(jù)集分布密度不均衡,類簇大小差異明顯時(shí),傳統(tǒng)K-means算法容易使稀疏的大類簇被高密度小類簇瓜分,導(dǎo)致電力客戶分群正確率下降。論文基于電力客戶數(shù)據(jù)分布不均衡的特點(diǎn),采用了一種改進(jìn)的K-means聚類算法。改進(jìn)的K-means算法提出一個(gè)新的加權(quán)聚類準(zhǔn)則,并根據(jù)該準(zhǔn)則修改了聚類迭代過(guò)程。文章最后在對(duì)電力客戶數(shù)據(jù)的分群聚類結(jié)果表明,改進(jìn)的K-means聚類算法的分群聚類效果中各個(gè)群類的緊湊性得到有效提高,誤分情況明顯改善。

      K-means算法;新聚類準(zhǔn)則;迭代權(quán)重;正確率;標(biāo)準(zhǔn)差

      Class NumberTP391

      1 引言

      21世紀(jì)是一個(gè)信息的時(shí)代,信息對(duì)于各行各業(yè)的影響都起到了一個(gè)至關(guān)重要的作用。面對(duì)目前供電企業(yè)每天都在產(chǎn)生和更新的龐大的企業(yè)運(yùn)營(yíng)管理數(shù)據(jù),那么要怎樣去利用這些數(shù)據(jù),從眾多凌亂的數(shù)據(jù)中挖掘出潛在的客戶價(jià)值,進(jìn)而幫助電力企業(yè)改進(jìn)營(yíng)銷決策、降低運(yùn)營(yíng)成本、提高企業(yè)收益,是每個(gè)供電企業(yè)都在努力地方向[1]。數(shù)據(jù)挖掘技術(shù)作為一種可以在大量數(shù)據(jù)中發(fā)現(xiàn)潛在的信息的數(shù)據(jù)處理手段便在此脫穎而出,該技術(shù)已經(jīng)成為處理電力行業(yè)信息化的建設(shè)過(guò)程中所積累的海量歷史數(shù)據(jù)的重要手段,數(shù)據(jù)挖掘技術(shù)的應(yīng)用也將會(huì)為供電企業(yè)提供一個(gè)更為廣闊的發(fā)展空間[2]。

      K-means聚類算法作為客戶分類常用的一種數(shù)據(jù)挖掘技術(shù)手段,其本身存在著各方面的局限。首先,初始聚類中心選擇的好壞在很大程度上會(huì)影響到聚類結(jié)果的好壞;其次,聚類的類別數(shù)沒(méi)辦法直接確定;同時(shí),傳統(tǒng)K-means算法不適合密度不均衡的數(shù)據(jù)集等等。針對(duì)傳統(tǒng)K-means聚類算法的不足之處,已經(jīng)有很多學(xué)者提出了改進(jìn)的研究方案。李薈嬈[3]提出了適用于非負(fù)、類橢球形數(shù)據(jù)的基于I-divergence測(cè)度的K-means聚類算法;張永晶[4],翟東海[5]分別在確定初始聚類中心上提出了最大最小距離法和最大距離法以提高模型的聚類效果等等。

      對(duì)于本文電力客戶數(shù)據(jù)分布密度不均衡的特點(diǎn),如果直接采用傳統(tǒng)K-means聚類算法,顯然會(huì)造成高密度小群瓜分低密度大群的現(xiàn)象,于是一個(gè)符合電力客戶分布特點(diǎn)的改進(jìn)K-means算法就顯得尤其重要。本文采用的基于改進(jìn)聚類準(zhǔn)則,同時(shí)改進(jìn)聚類迭代過(guò)程的K-means聚類算法[6],應(yīng)用在電力客戶價(jià)值分群上的分群聚類結(jié)果表明,該改進(jìn)的聚類算法是適合實(shí)際運(yùn)營(yíng)數(shù)據(jù)的,并且達(dá)到了提高聚類緊湊性的效果。更加優(yōu)質(zhì)的分群聚類結(jié)果也可以保證決策高效實(shí)施,最終為供電企業(yè)帶來(lái)更高的收益。

      本文應(yīng)用的數(shù)據(jù)集來(lái)自貴陽(yáng)供電局,考慮到客戶價(jià)值的關(guān)鍵指標(biāo)為用電量和電費(fèi),不同客戶類在這兩個(gè)指標(biāo)上的數(shù)量級(jí)差異很大,直接進(jìn)行處理會(huì)造成較大的偏差,故先對(duì)該數(shù)據(jù)集人工分成了重要客戶、大客戶、重點(diǎn)關(guān)注客戶、居民客戶、其他客戶五個(gè)類數(shù)據(jù),分別對(duì)這五個(gè)類數(shù)據(jù)的建模數(shù)據(jù)指標(biāo)變量做了數(shù)據(jù)直方圖分布情況分析后,可以認(rèn)為該數(shù)據(jù)集存在密度差異明顯,分布不均勻的特點(diǎn)。以居民客戶類別為例,其建模指標(biāo)分布直方圖情況如圖1所示。

      對(duì)應(yīng)數(shù)據(jù)直方圖的各個(gè)參數(shù)取值情況如表1所示,其中,分位數(shù)可表示用于畫直方圖的數(shù)據(jù)占整個(gè)數(shù)據(jù)的百分比,范圍最小值和最大值表示畫直方圖的整個(gè)數(shù)據(jù)區(qū)間左右端點(diǎn)值,區(qū)間大小表示直方圖每個(gè)小區(qū)間內(nèi)距離。

      上面的數(shù)據(jù)分布直方圖可以看出,不管從哪個(gè)指標(biāo)變量的角度看數(shù)據(jù)分布,都呈現(xiàn)出密度明顯不均,數(shù)據(jù)分布廣的特點(diǎn)。因此,直接采用傳統(tǒng)K-means聚類算法很容易造成瓜分稀疏大族類現(xiàn)象。進(jìn)而本文針對(duì)貴陽(yáng)供電局提供的數(shù)據(jù)特點(diǎn),采用了基于改進(jìn)聚類準(zhǔn)則的K-means聚類算法,該算法可以有效地修正對(duì)于密度差異大,分布不均勻的數(shù)據(jù)集的聚類時(shí)誤分情況,使得聚類精度可以得到明顯的改善。

      圖1 各指標(biāo)變量頻數(shù)直方圖

      表1 直方圖對(duì)應(yīng)參數(shù)值

      2 K-means算法及其改進(jìn)

      2.1 傳統(tǒng)K-means聚類算法

      K-Means算法是在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。

      1)傳統(tǒng)的聚類準(zhǔn)則函數(shù)

      其中,ni代表第i個(gè)類的樣本個(gè)數(shù);xij代表第i個(gè)類中的第j個(gè)樣本;mi代表第i個(gè)類的聚類中心。

      2)算法過(guò)程

      (1)從數(shù)據(jù)集(N)中隨機(jī)選取K個(gè)對(duì)象作為初始聚類中心;

      (2)分別計(jì)算每個(gè)樣本到各個(gè)聚類中心的距離,將對(duì)象分配到距離最近的聚類中;

      (3)所有對(duì)象分配完成后,重新計(jì)算K個(gè)聚類的中心:

      (4)與前一次計(jì)算得到的K個(gè)聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)(2),否則轉(zhuǎn)(5);

      (5)當(dāng)質(zhì)心不發(fā)生變化時(shí)停止并輸出聚類結(jié)果。

      傳統(tǒng)K-means算法一般以歐式距離的大小度量數(shù)據(jù)對(duì)象的相似性,再加上其聚類準(zhǔn)則函數(shù)以各個(gè)類內(nèi)誤差平方之和最小為最優(yōu)質(zhì)結(jié)果,使得傳統(tǒng)算法更加適用于分布均勻,類似球形或超球體的數(shù)據(jù)。當(dāng)數(shù)據(jù)分布不均衡時(shí),該聚類結(jié)果的準(zhǔn)確性也就會(huì)下降。

      2.2 K-means聚類算法改進(jìn)

      2.2.1 聚類準(zhǔn)則函數(shù)的改進(jìn)

      根據(jù)電力客戶數(shù)據(jù)分布密度差異明顯的特點(diǎn),傳統(tǒng)K-means算法對(duì)數(shù)據(jù)分布的要求使其顯然已經(jīng)不能滿足供電企業(yè)對(duì)其數(shù)據(jù)進(jìn)行挖掘探索的要求。本文采用的基于改進(jìn)聚類準(zhǔn)則的K-means算法,將數(shù)據(jù)集中各個(gè)類的標(biāo)準(zhǔn)差和類中數(shù)據(jù)對(duì)象的個(gè)數(shù)作為改進(jìn)的聚類準(zhǔn)則函數(shù)的參考因素,以降低高密度小類瓜分稀疏大類的風(fēng)險(xiǎn)。改進(jìn)的聚類準(zhǔn)則函數(shù)如式(3)所示:

      其中,N代表數(shù)據(jù)集樣本總個(gè)數(shù),ni代表第i個(gè)類樣本個(gè)數(shù),σi代表第i個(gè)類的標(biāo)準(zhǔn)差[7]。

      改進(jìn)的聚類準(zhǔn)則函數(shù)ε中的類內(nèi)標(biāo)準(zhǔn)差σi可以使得類內(nèi)數(shù)據(jù)對(duì)象盡可能靠近聚類中心,其作用與傳統(tǒng)的聚類準(zhǔn)則函數(shù)中各個(gè)類的誤差平方值的總和起到的作用是類似的;權(quán)重的作用主要是增加數(shù)據(jù)對(duì)象比較多的樣本類的標(biāo)準(zhǔn)差的貢獻(xiàn)度。

      與該改進(jìn)的聚類準(zhǔn)則函數(shù)相對(duì)應(yīng)的,在聚類算法的迭代過(guò)程也做了相應(yīng)的修改,即將數(shù)據(jù)重新歸類到新的聚類中心時(shí)使用加權(quán)距離Wk·dist(Ck·x)取最小值的原則,權(quán)重為,該做法同樣是以增加權(quán)重的形式達(dá)到數(shù)據(jù)集大小密度不均時(shí)樣本也能準(zhǔn)確歸類的目的。

      2.2.2 改進(jìn)的K-means聚類算法

      K-means聚類算法改進(jìn)后,聚類迭代過(guò)程中樣本對(duì)象不再被分配到距離最近的聚類中心的那個(gè)類,而是被分配到使加權(quán)距離Wk·dist(Ck·x)取最小值的那個(gè)聚類中心所在類。改進(jìn)后的K-means聚類算法具體過(guò)程如下所示:

      輸入:數(shù)據(jù)集(包含N個(gè)樣本)和預(yù)期類的個(gè)數(shù)(K)

      輸出:聚類效果最好的K個(gè)聚類結(jié)果

      1)使用隨機(jī)抽樣的方法確定初始K個(gè)聚類中心,將N個(gè)樣本對(duì)象分別分配到距離最近的聚類中心的那個(gè)類,獲得最初的N個(gè)類。

      2)用傳統(tǒng)計(jì)算均值的方法計(jì)算出新的K個(gè)聚類的中心。

      3)分別計(jì)算每個(gè)樣本到各個(gè)新的聚類中心的加權(quán)距離Wk·dist(Ck·x),將樣本對(duì)象分配到加權(quán)距離最小的類別中。

      4)所有樣本對(duì)象重新分配完成后,再次計(jì)算K個(gè)聚類的中心,與前一次計(jì)算得到的K個(gè)聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)3),否則轉(zhuǎn)5)。

      5)當(dāng)聚類中心不發(fā)生變化時(shí)停止并輸出聚類結(jié)果。

      3 實(shí)驗(yàn)驗(yàn)證

      3.1 實(shí)驗(yàn)環(huán)境及模擬實(shí)驗(yàn)的數(shù)據(jù)

      本模擬實(shí)驗(yàn)的數(shù)據(jù)集主要采用隨機(jī)[8~9]生成的方式形成,具體步驟有:1)選取兩個(gè)或三個(gè)相鄰且大小不一樣的矩形區(qū)間;2)在區(qū)間內(nèi)隨機(jī)生成若干個(gè)點(diǎn)數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)對(duì)象的x屬性值可以用式(4)產(chǎn)生,y屬性值可以用式(5)產(chǎn)生:

      其中,rand表示在區(qū)間[a,b]上生成均勻分布的隨機(jī)數(shù),而n表示產(chǎn)生隨機(jī)數(shù)的個(gè)數(shù),a1,b1;a2,b2分別表示生成x,y的區(qū)間值。

      實(shí)驗(yàn)使用的參數(shù)值如表2所示,對(duì)應(yīng)的可視化圖形如圖2所示。

      表2 實(shí)驗(yàn)數(shù)據(jù)集

      圖2 實(shí)驗(yàn)數(shù)據(jù)集

      3.2 實(shí)驗(yàn)的結(jié)果及其分析

      根據(jù)生成的實(shí)驗(yàn)數(shù)據(jù)集1和實(shí)驗(yàn)數(shù)據(jù)集2,分別進(jìn)行傳統(tǒng)K-means算法聚類和改進(jìn)K-means算法聚類,實(shí)驗(yàn)時(shí)前后兩個(gè)算法使用的初始聚類中心是保持一致的。使用實(shí)驗(yàn)數(shù)據(jù)集1運(yùn)行傳統(tǒng)K-means算法和改進(jìn)K-means算法的聚類結(jié)果如圖3所示;實(shí)驗(yàn)數(shù)據(jù)集2運(yùn)行兩個(gè)算法的聚類結(jié)果如圖4所示。

      圖3 實(shí)驗(yàn)1

      圖4 實(shí)驗(yàn)2

      對(duì)實(shí)驗(yàn)結(jié)果的標(biāo)準(zhǔn)差進(jìn)行對(duì)比分析如表3所示。

      表3 實(shí)驗(yàn)聚類各類標(biāo)準(zhǔn)差對(duì)比

      K-means聚類算法[10~11]其目的是要讓類內(nèi)數(shù)據(jù)對(duì)象相似度比較高,而類間的數(shù)據(jù)對(duì)象相似度較低的聚類結(jié)果,也就是得到的劃分結(jié)果中每一個(gè)類都盡可能地緊湊或者集中。從表3可以看出,實(shí)驗(yàn)數(shù)據(jù)集1和實(shí)驗(yàn)數(shù)據(jù)集2的平均標(biāo)準(zhǔn)差分別減少了4.09%和7.88%,數(shù)據(jù)集1類2的標(biāo)準(zhǔn)差雖然增加了4.22%,其類1的標(biāo)準(zhǔn)差卻減少了27.01%;數(shù)據(jù)集2中類2的標(biāo)準(zhǔn)差同樣增加了6.00%,但是類1和類3卻分別減少了43.61%和3.52%,總體來(lái)看,兩個(gè)數(shù)據(jù)集中大而稀疏的類其標(biāo)準(zhǔn)差都輕微變差,但是卻換來(lái)了其他小而密集的類標(biāo)準(zhǔn)差的顯著改善,達(dá)到了提高整體類內(nèi)數(shù)據(jù)緊湊性的效果[12]。

      由此可見(jiàn),改進(jìn)K-means算法通過(guò)犧牲兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集中的原本松散的兩個(gè)類,以提高整體的聚類效果。而原本松散的類本身就是缺少一些基本特性的類,其本身有可能是較為稀疏的類,亦或者是噪聲點(diǎn)、異常值之類的數(shù)據(jù),所以將較為密集的類周邊的稀疏的數(shù)據(jù)劃分給周邊較松散的類,以達(dá)到整體聚類結(jié)果得到改進(jìn)的效果。

      4 改進(jìn)K-means聚類算法在貴陽(yáng)電力客戶價(jià)值分群的應(yīng)用

      4.1 改進(jìn)聚類準(zhǔn)則確定K值

      對(duì)電力客戶數(shù)據(jù)進(jìn)行數(shù)據(jù)探索性分析、預(yù)處理、變量標(biāo)準(zhǔn)化之后,需要先確定各類客戶的最優(yōu)聚類數(shù)K,改進(jìn)的K-means聚類算法有其對(duì)應(yīng)的新的聚類準(zhǔn)則函數(shù),考慮到聚類數(shù)目的實(shí)用性以及方便決策[13~14],這里試行K值取2~5,并且取聚類準(zhǔn)則值變化率最大的K值作為最優(yōu)聚類數(shù)。分別對(duì)五大類客戶數(shù)據(jù)進(jìn)行極差標(biāo)準(zhǔn)化后,運(yùn)行改進(jìn)的K-means聚類算法可以得到表4所示的不同情況下的聚類準(zhǔn)則值。

      表4 各個(gè)情形下聚類準(zhǔn)則值

      將以上新的聚類準(zhǔn)則值畫成連線圖,得到圖5。

      將五大類客戶數(shù)據(jù)的聚類準(zhǔn)則函數(shù)值進(jìn)行如上所示的可視化展示,不難發(fā)現(xiàn)適合這五大類客戶數(shù)據(jù)的最優(yōu)聚類數(shù),重要客戶數(shù)據(jù)得到聚類準(zhǔn)則函數(shù)值在K=3時(shí)變化率達(dá)到最大,K=4時(shí)準(zhǔn)則函數(shù)值幾乎沒(méi)什么變化,故重要客戶的最適合的分群數(shù)取3。大客戶在K=3時(shí)的聚類準(zhǔn)則值反而比K=2時(shí)的值還要大,當(dāng)K取4時(shí)聚類準(zhǔn)則值迅速收斂,即使K值繼續(xù)增大準(zhǔn)則值也只是小幅度的減少,故可以認(rèn)為大客戶的最優(yōu)聚類數(shù)K取4最適宜。同樣的方式確認(rèn)重點(diǎn)關(guān)注客戶、居民客戶、其他客戶的最適合K值,分別得到3,3,3;也就是所有客戶類別最適宜K值取值情況如表5所示。

      圖5 五大類客戶新聚類準(zhǔn)則值

      表5 各個(gè)客戶類數(shù)據(jù)的最優(yōu)K值

      4.2 分群聚類結(jié)果比較分析

      以上述分析各個(gè)類別客戶K值的取值情況為標(biāo)準(zhǔn)對(duì)數(shù)據(jù)集逐一進(jìn)行聚類[15],為了對(duì)比K-means聚類算法改進(jìn)前與改進(jìn)后在貴陽(yáng)電力客戶分群聚類上的效果,本研究同步進(jìn)行了傳統(tǒng)K-means聚類算法和改進(jìn)K-means聚類算法,對(duì)分別聚類出來(lái)的各個(gè)群標(biāo)準(zhǔn)差進(jìn)行比較分析,查看改進(jìn)后的K-means聚類算法得到的分群結(jié)果對(duì)比傳統(tǒng)K-means聚類算法是否更密集,效果是否更優(yōu)[16]。具體分群聚類效果分析如表6所示。

      從表6可以看出,改進(jìn)的K-means聚類算法使得電力客戶數(shù)據(jù)分群聚類結(jié)果的所有平均客戶群標(biāo)準(zhǔn)差都有顯著減少,5個(gè)客戶類的客戶群標(biāo)準(zhǔn)差平均減少14.50%,這說(shuō)明改進(jìn)的K-means聚類算法使得電力客戶分群聚類的各個(gè)客戶群更為緊湊。特別地,居民客戶的分群聚類結(jié)果中,所有客戶群的標(biāo)準(zhǔn)差都減少了,減少率范圍是4.88%~96.00%,明顯改善了分群聚類的效果。其他4個(gè)客戶類中雖然都會(huì)出現(xiàn)有一個(gè)客戶群的標(biāo)準(zhǔn)差變差了,但是促使了其它客戶群的標(biāo)準(zhǔn)差更顯著地改善,從而保證了整體分群效果的緊湊性。改進(jìn)的K-means聚類算法是通過(guò)犧牲原本比較松散的簇類為代價(jià),以確保整體的聚類效果的改善[17]。而且,原本比較松散的的簇類本身就是比較模棱兩可的簇類,很可能就是一個(gè)比較松散的群體,或者是噪聲點(diǎn)、異常值之類的數(shù)據(jù),故將密度大的簇類周邊比較松散的電力客戶數(shù)據(jù)對(duì)象劃分到松散的群體,可以保證整體分群聚類效果的改進(jìn)[18~19]。

      表6 傳統(tǒng)聚類與改進(jìn)聚類結(jié)果各群標(biāo)準(zhǔn)差比較

      以上分析結(jié)果表明改進(jìn)的K-means聚類算法顯然更適合電力客戶分群的實(shí)際情況。接著就可以對(duì)其聚類分群的結(jié)果進(jìn)行進(jìn)一步的解析。由于數(shù)據(jù)集在建模聚類之前使用了極差標(biāo)準(zhǔn)化的處理,這些標(biāo)準(zhǔn)化后的數(shù)據(jù)展現(xiàn)出來(lái)的聚類分群中心對(duì)觀察數(shù)據(jù)來(lái)說(shuō)是不夠直觀明了的。為了能夠清晰明朗地觀察聚類結(jié)果的情況,可以將最終的分群中心結(jié)果還原到了原始數(shù)據(jù)集量綱的狀態(tài)下,進(jìn)行分析各個(gè)客戶類的分群聚類結(jié)果。

      根據(jù)改進(jìn)K-means聚類算法對(duì)電力客戶分群聚類的結(jié)果與分析,銷售和管理人員可以可以根據(jù)該分析結(jié)果,針對(duì)不同的客戶群體實(shí)行差異化營(yíng)銷和服務(wù)策略,進(jìn)而為企業(yè)的創(chuàng)造更多的價(jià)值。

      5 結(jié)語(yǔ)

      綜上所述,本文采用的一種基于改進(jìn)K-means聚類算法在電力客戶價(jià)值分群上的聚類效果具有更高的準(zhǔn)確度。該算法根據(jù)實(shí)際情況運(yùn)用了改進(jìn)的K-means聚類的準(zhǔn)則函數(shù),函數(shù)目標(biāo)是使得加權(quán)的簇類標(biāo)準(zhǔn)差總和達(dá)到最小,而權(quán)重為各個(gè)簇類數(shù)據(jù)對(duì)象的個(gè)數(shù)占總體數(shù)據(jù)對(duì)象個(gè)數(shù)的比例,與該聚類準(zhǔn)則函數(shù)相匹配的,同時(shí)也在聚類的迭代過(guò)程中加了權(quán)重,即使用了各個(gè)簇類的標(biāo)準(zhǔn)差開(kāi)方后的倒數(shù)為距離的權(quán)重替代傳統(tǒng)K-means聚類的直接計(jì)算歐氏距離的迭代過(guò)程。經(jīng)研究驗(yàn)證,本文采用的改進(jìn)K-means聚類算法在電力客戶價(jià)值分群上聚類效果得到明顯改善。下一步,可以在K-means聚類算法的初始聚類中心上做優(yōu)化。

      [1]盧建昌,樊圍國(guó).大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)在電力企業(yè)中的應(yīng)用[J].廣東電力,2014,27(9):88-93.

      LU Jianchang,F(xiàn)AN Weiguo.Application of data mining technology in electric power enterprisses in era of big data[J].Guangdong Electric Power,2014,27(9):88-93.

      [2]李泓澤,郭森,王寶,等.基于遺傳改進(jìn)蟻群聚類算法的電力客戶價(jià)值評(píng)價(jià)[J].電網(wǎng)技術(shù),2012,36(12):256-261.

      LI Hongze,GUO Sen,WANG Bao,et al.Evaluation on power customer value based on ants colony clustering algorithm optimized by genetic algorithm[J].Power System Technology,2012,36(12):256-261.

      [3]李薈嬈.K-means聚類方法的改進(jìn)及其應(yīng)用[D].哈爾濱:東北農(nóng)業(yè)大學(xué),2014.

      LI Huirao.Improved K-means clustering method and its application[D].Harbin:Northeast Agricultural University,2014.

      [4]張永晶.初始聚類中心優(yōu)化的K-means改進(jìn)算法[D].吉林:東北師范大學(xué),2013.

      ZHANG Yongjing.Improved K-Means algorithm based on optimizing initial cluster centers[D].Jinlin:Northeast Normal University,2013.

      [5]翟東海,魚江,高飛,等.最大距離法選取初始簇中心的K-means文本聚類算法的研究[J].計(jì)算機(jī)應(yīng)用研究,2014,31(3):714-719.

      ZHAI Donghai,YU Jiang,GAO Fei,et al.K-means text clustering algorithm based on initial cluster centers selection according to maximum distance[J].Application Research of Computers,2014,31(3):714-719.

      [6]AGGARWALCC,LI Yan,WANG Jian-yong,et al.Frequent pattern mining with uncertain data[C]//Proc of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2009:29-38.

      [7]郝拉娣,于化東.標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤[J].編輯學(xué)報(bào),2005,17(2):116-118.

      HAO Lati,YU Huadong.Standard deviation and standard error[J].Acta Editologica,2005,17(2):116-118.

      [8]宋勇,陳賢富,姚海東.隨機(jī)數(shù)發(fā)生器探討及一種真隨機(jī)數(shù)發(fā)生器實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2007(5):71-73.

      SONG Yong,CHEN Xianfu,YAO Haidong.Discussion on high-quality RNG and scheme of true RNG[J].Computer Engineering,2007(5):71-73.

      [9]張宜浩,金澎,孫銳,等.基于改進(jìn)k-means算法的中文詞義歸納[J].計(jì)算機(jī)應(yīng)用,2012,32(5):1332-1334.

      ZHANG Yihao,JIN Peng,SUN Yue,et al.Chinese word sense induction based on improved k-means algorithm[J].Journal of Computer Applications,2012,32(5):1332-1334.

      [10]張世博.基于優(yōu)化初始中心點(diǎn)的K-means文本聚類算法[J].計(jì)算機(jī)與數(shù)字工程,2011,39(10):30-31.

      ZHANG Shibo.AK-means text clustering algorithm based on optimizing initial points[J].Computer&Digital Engineering,2011,39(10):30-31.

      [11]李應(yīng)安.基于MapReduce的聚類算法的并行化研究[D].廣州:中山大學(xué),2010.

      LI Yingan.Research on parallelization of clustering algorithmbasedonmapReduce[D].Guangdong:Sun Yat-sen University,SYSU,2010.

      [12]宋亞奇,周國(guó)亮,朱永利,等.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):927-935.

      SONG Yaqi,ZHOU Guoliang,ZHU Yongli,et al.Present status and challenges of big data processing in smart grid[J].Power System Technology,2013,37(4):927-935.

      [13]李智勇,吳晶瑩,吳為麟,等.基于自組織映射神經(jīng)網(wǎng)絡(luò)的電力用戶負(fù)荷曲線聚類[J].電力系統(tǒng)自動(dòng)化,2008,32(15):66-70.

      LI Zhiyong,WU Jingying,WU Weilin,et al.Power customers load profile clustering using the SOM neural network[J].Automation of Electric Power Systems,2008,32(15):66-70.

      [14]劉友波,劉俊勇,趙巖,等.基于多目標(biāo)聚類的用電集群特征屬性計(jì)算[J].電力系統(tǒng)自動(dòng)化,2009,33(19):46-51.

      LIU You,LIU Junyong,ZHAO Yan,et al.Present status and challenges of big data processing in smart grid[J]. Power System Technology,2009,33(19):46-51.

      [15]王錦,王會(huì)珍,張俐.基于維基百科類別的文本特征表示[J].中文信息學(xué)報(bào),2011,25(2):27-31.

      WANG Jin,WANG Huizhen,ZHANG Li.Text representation by the Wikipedia category[J].Journal of Chinese Information Processing,2011,25(2):27-31.

      [16]何永秀,王冰,熊威,等.基于模糊綜合評(píng)價(jià)的居民智能用電行為分析與互動(dòng)機(jī)制設(shè)計(jì)[J].電網(wǎng)技術(shù),2012,36(10):247-252.

      HE Yongxiu,WANG Bin,XIU Wei,et al.Analysis of residents'smart electricity consumption behavior based on fuzzy synthetic evaluation and the design of interactive mechanism[J].Power System Technology,2012,36(10):247-252.

      [17]索紅光,王玉偉.一種用于文本聚類的改進(jìn)k-means算法[J].山東大學(xué)學(xué)報(bào),2008,43(1):60-64.

      SUO Hongguang,WANG Yuwei.An improved k-means algorithm for document clustering[J].Journal of Shandong University,2008,43(1):60-64.

      [18]王利朋,劉東權(quán).基于粒子群算法的柔性形態(tài)學(xué)濾波器[J].計(jì)算機(jī)應(yīng)用,2010,30(10):2811-2814.

      WANG Lipeng,LIU Dongquan.Softmorphological filter based on particles warm algorithm[J].Journal of Computer Applications,2010,30(10):2811-2814.

      [19]何徑舟,王厚峰.基于特征選擇和最大熵模型的漢語(yǔ)詞義消歧[J].軟件學(xué)報(bào),2010,21(6):1287-1295.

      HE Jingzhou,WANG Houfeng.Chinese word sense disambiguation based on maximum entropy model with feature selection[J].Journal of Software,2010,21(6):1287-1295.

      Application of Improved K-means Clustering Algorithm in Clustering Based on Power Customer Value

      ZHU ZhouWU Yang
      (Information Center of Guizhou Power Grid Co.,Ltd,Guiyang550003)

      This paper uses an improved criterion based on K-means clustering algorithm applied in electric power customer clustering research.According to the characteristics of electricity customers to implement different marketing strategies and provide differentiated services,accurate grouping of power customer need to be made.Traditional K-means clustering algorithm in data distribution uniform data of similar spherical agglomeration effect is better,once the unbalanced distribution density of data sets,class cluster size have significant difference,while the traditional K-means algorithm is easy to make thin categories carved up by high density small class clusters,resulting in electricity customer segmentation correct rate.This paper uses an improved K-means clustering algorithm based on the characteristics of the unbalanced data distribution of the actual power customers.Improved K-means algorithm puts up with a new weighting criteria,and modifies the clustering iterative process based on the criteria.The electricity customer data cluster results show that the improved K-means clustering algorithm and the cluster effect of each group of compactness can be improved effectively.The classification error conditions are improved obviously.

      K-means algorithm,new clustering criterion,iterative weight,correct rate,standard deviation

      TP391

      10.3969/j.issn.1672-9722.2017.06.008

      2016年12月15日,

      2017年1月21日

      朱州,男,博士,高級(jí)工程師,研究方向:電網(wǎng)信息化建設(shè)與數(shù)據(jù)分析管理。

      猜你喜歡
      分群標(biāo)準(zhǔn)差準(zhǔn)則
      用Pro-Kin Line平衡反饋訓(xùn)練儀對(duì)早期帕金森病患者進(jìn)行治療對(duì)其動(dòng)態(tài)平衡功能的影響
      基于客戶分群的電力客戶信用等級(jí)及服務(wù)質(zhì)量敏感度研究及應(yīng)用
      具非線性中立項(xiàng)的二階延遲微分方程的Philos型準(zhǔn)則
      保育豬飼養(yǎng)管理應(yīng)做好的幾個(gè)方面
      基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
      基于客戶特征分群的銀行客戶流失探究
      基于遺傳算法的雙饋風(fēng)場(chǎng)分群無(wú)功控制策略
      一圖讀懂《中國(guó)共產(chǎn)黨廉潔自律準(zhǔn)則》
      對(duì)于平均差與標(biāo)準(zhǔn)差的數(shù)學(xué)關(guān)系和應(yīng)用價(jià)值比較研究
      混凝土強(qiáng)度準(zhǔn)則(破壞準(zhǔn)則)在水利工程中的應(yīng)用
      白城市| 治县。| 鄂托克前旗| 乌兰浩特市| 手游| 陕西省| 辛集市| 灵山县| 西贡区| 敖汉旗| 安仁县| 麻阳| 卓资县| 济源市| 白沙| 维西| 红桥区| 夏邑县| 宣威市| 板桥市| 鄂托克旗| 明溪县| 双辽市| 郎溪县| 桐柏县| 盐源县| 尉犁县| 吐鲁番市| 焉耆| 边坝县| 陇南市| 阿坝县| 贵港市| 胶南市| 法库县| 孝义市| 吐鲁番市| 修水县| 海安县| 土默特右旗| 南投市|