• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SOM-DB-PAM混合聚類算法的電力客戶細(xì)分

      2015-03-07 11:43:33胡曉雪趙嵩正
      計(jì)算機(jī)工程 2015年10期
      關(guān)鍵詞:中心點(diǎn)細(xì)分聚類

      胡曉雪,趙嵩正,吳 楠

      (西北工業(yè)大學(xué)管理學(xué)院,西安 710129)

      基于SOM-DB-PAM混合聚類算法的電力客戶細(xì)分

      胡曉雪,趙嵩正,吳 楠

      (西北工業(yè)大學(xué)管理學(xué)院,西安 710129)

      針對(duì)電力客戶具有客戶數(shù)量大、存在孤立點(diǎn)等特點(diǎn),提出一種適用于對(duì)大量電力客戶進(jìn)行快速聚類的SOM-DB-PAM混合聚類算法。該算法利用自組織映射神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸入數(shù)據(jù),以獲取代表輸入模式且數(shù)據(jù)量遠(yuǎn)小于輸入數(shù)據(jù)量的原型向量,使用圍繞中心點(diǎn)的切分(PAM)對(duì)該原型向量聚類并用Davies-Bouldin指標(biāo)判定最優(yōu)聚類個(gè)數(shù)以保證聚類效果。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)聚類算法相比,該算法具有更高的分類正確率,當(dāng)客戶數(shù)量較大時(shí),能實(shí)現(xiàn)對(duì)客戶的快速、有效聚類,并減少人為指定聚類個(gè)數(shù)的盲目性和主觀性。

      電力客戶細(xì)分;圍繞中心點(diǎn)的劃分;自組織映射;混合聚類算法;聚類分析

      DO I:10.3969/j.issn.1000-3428.2015.10.056

      1 概述

      隨著電力工業(yè)改革的深入推進(jìn)和智能電網(wǎng)建設(shè)的逐步開展,電力客戶在電力市場(chǎng)中的地位日益凸顯,這一趨勢(shì)促使供電企業(yè)將工作重點(diǎn)轉(zhuǎn)移到客戶服務(wù)上來,客戶服務(wù)質(zhì)量成為制約電力公司發(fā)展的關(guān)鍵因素??蛻艏?xì)分是產(chǎn)品差異化戰(zhàn)略的一個(gè)替代概念[1],其主要思路是找出具有相似人口統(tǒng)計(jì)學(xué)、行為、價(jià)值特征的客戶群[2]。 細(xì)分戰(zhàn)略基于以下邏輯:針對(duì)類似客戶組成的更小群體的獨(dú)特需求所采取的營銷方式,應(yīng)當(dāng)比針對(duì)不同客戶組成的大市場(chǎng)需求所采取的營銷方式更有效率[3]。對(duì)市場(chǎng)

      條件下的電力客戶進(jìn)行深度細(xì)分,有助于供電企業(yè)了解客戶用電行為,識(shí)別價(jià)值客戶,制定有針對(duì)性的服務(wù)措施和差異化營銷戰(zhàn)略,從而提升服務(wù)水平。

      我國學(xué)者主要從供電企業(yè)的視角開展基于價(jià)值的電力客戶細(xì)分研究。在細(xì)分技術(shù)方面,層次聚類和K-means聚類,因?yàn)榫哂胁僮骱唵魏褪艽蟛糠纸y(tǒng)計(jì)軟件支持的特性,被廣泛用于處理細(xì)分問題。文獻(xiàn)[4]建立了基于層次聚類的電力客戶細(xì)分模型;文獻(xiàn)[5]針對(duì)K-means初始條件隨機(jī)化、容易陷入局部最優(yōu)解的缺陷提出了一種改進(jìn)的Hopfield-K-means算法;文獻(xiàn)[6]在計(jì)算對(duì)象到聚類中心距離時(shí)考慮了指標(biāo)權(quán)重的影響,提出結(jié)合AHP加權(quán)的K-means聚類模型;大部分研究采用如下思路:建立電力客戶價(jià)值評(píng)價(jià)指標(biāo)體系;評(píng)估客戶價(jià)值;對(duì)價(jià)值評(píng)分進(jìn)行分類,此時(shí),研究重點(diǎn)由細(xì)分技術(shù)轉(zhuǎn)換為評(píng)價(jià)指標(biāo)體系的構(gòu)建和評(píng)價(jià)方法的選?。?-9]。其中,文獻(xiàn)[10-11]分別采用K-means和BP神經(jīng)網(wǎng)絡(luò)對(duì)電力客戶價(jià)值評(píng)分聚類,后者嘗試使用遺傳算法優(yōu)化BP以解決BP存在局部收斂和收斂速度慢的問題。

      然而,上述研究均未考慮客戶數(shù)量大的情形,層次聚類只適用于少量數(shù)據(jù),隨著客戶數(shù)的增加,對(duì)客戶逐個(gè)計(jì)算價(jià)值再聚類將非常耗時(shí),“噪聲”和孤立點(diǎn)數(shù)據(jù)的增多直接影響聚類效果。圍繞中心點(diǎn)的劃分(Partitioning A round Medoids,PAM)聚類算法克服了K-means對(duì)孤立點(diǎn)數(shù)據(jù)的敏感性,但只適用于對(duì)少量客戶聚類且需預(yù)先確定聚類個(gè)數(shù),以往研究大多依據(jù)專家經(jīng)驗(yàn)人為指定聚類數(shù)目,具有一定盲目性和主觀性。因此,本文針對(duì)電力客戶具有的客戶數(shù)多、數(shù)據(jù)量大、存在孤立數(shù)據(jù)等特點(diǎn),提出一種基于SOM-DB-PAM的混合聚類算法,嘗試?yán)米越M織映射(Self-Organizing Feature Maps,SOM)神經(jīng)網(wǎng)絡(luò)的原型向量表征輸入模式的特性,結(jié)合PAM對(duì)孤立點(diǎn)的容忍能力,使用SOM對(duì)大量、多維電力客戶數(shù)據(jù)進(jìn)行訓(xùn)練,并用PAM對(duì)獲得的SOM原型向量聚類,用聚類效度指標(biāo)Davies-Bouldin(DB)確定最優(yōu)的聚類個(gè)數(shù),從而克服上述研究的不足,實(shí)現(xiàn)對(duì)大量電力客戶的自動(dòng)有效細(xì)分。

      2 電力客戶細(xì)分基本思路

      遵循細(xì)分研究的5個(gè)基本主題:問題定義,研究設(shè)計(jì),數(shù)據(jù)收集,數(shù)據(jù)分析,實(shí)施和對(duì)結(jié)果的理解及每個(gè)主題涉及的關(guān)鍵問題[12],本文進(jìn)行電力客戶細(xì)分的基本思路如圖1所示。

      圖1 電力客戶細(xì)分基本思路

      在問題定義和研究設(shè)計(jì)階段,由于從企業(yè)視角開展基于客戶終身價(jià)值(Customer Lifetime Value,CLV)的電力客戶細(xì)分研究對(duì)供電企業(yè)具有重要意義,本文的研究目標(biāo)設(shè)定為:基于客戶終身價(jià)值、以識(shí)別高價(jià)值客戶為目標(biāo)的電力客戶細(xì)分。客戶終身價(jià)值包含當(dāng)前價(jià)值和潛在價(jià)值兩部分,篩選衡量電力客戶價(jià)值的指標(biāo)構(gòu)成初始細(xì)分變量,由于研究對(duì)象是大量客戶,用于分析的客戶數(shù)據(jù)主要來源于供電企業(yè)電力營銷數(shù)據(jù)庫和業(yè)務(wù)文檔中存儲(chǔ)的靜態(tài)電力客戶基本信息和動(dòng)態(tài)業(yè)務(wù)數(shù)據(jù),因此為盡量減少不確定因素對(duì)細(xì)分結(jié)果的干擾,在確定最終細(xì)分變量時(shí),要基于簡明科學(xué)性、把握主導(dǎo)因素、變量獨(dú)立和可量可測(cè)的原則[13],還要綜合考慮數(shù)據(jù)的可獲取性和數(shù)據(jù)質(zhì)量并盡量移除需要人為賦值的定性指標(biāo)。在實(shí)施細(xì)分前,需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。

      3 SOM-DB-PAM混合聚類算法

      3.1 SOM,PAM和DB算法介紹

      自組織映射神經(jīng)網(wǎng)絡(luò)SOM是一種同時(shí)具備矢量量化和矢量投影功能的無監(jiān)督神經(jīng)網(wǎng)絡(luò)。一個(gè)SOM由排列在低維空間(稱為輸出層)的m個(gè)神經(jīng)元(結(jié)點(diǎn))組成,每個(gè)神經(jīng)元用一個(gè)d維權(quán)向量Wi=(Wi1,Wi2,…,Wid)表征(d代表輸入向量的維數(shù)),該權(quán)向量被稱為原型向量。SOM利用持續(xù)迭代的無指導(dǎo)學(xué)習(xí)對(duì)輸入數(shù)據(jù)進(jìn)行訓(xùn)練,目標(biāo)是將輸入向量映射到與其相似度最高的原型向量表征的結(jié)點(diǎn)中并保持?jǐn)?shù)據(jù)的拓?fù)浣Y(jié)構(gòu)不變。SOM可識(shí)別輸入數(shù)據(jù)具有自穩(wěn)性的最顯著特征,適用于大樣本數(shù)據(jù)。其缺點(diǎn)表現(xiàn)在:處理小樣本數(shù)據(jù)時(shí),算法的學(xué)習(xí)效率依賴于樣本對(duì)象的輸入順序且受到網(wǎng)絡(luò)連接權(quán)重和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)選擇等的影響[14]。

      K-medoid聚類算法的產(chǎn)生克服了K-means聚類用類中所有對(duì)象的均值表征各類中心,均值的計(jì)算受“噪聲”或孤立點(diǎn)干擾較重的問題。PAM試圖確定N個(gè)對(duì)象的K個(gè)劃分,是最基礎(chǔ)的K-medoid算法之一。PAM用被稱為中心點(diǎn)的一組對(duì)象代表簇中心以最小化非代表對(duì)象和最接近它們的中心點(diǎn)的平均相異度。算法包括2個(gè)階段:

      (1)為每個(gè)類隨機(jī)選擇一個(gè)初始代表對(duì)象(中心點(diǎn)),將剩余對(duì)象按其與中心點(diǎn)的相異度或距離分配給離它最近的一個(gè)類,該過程稱為BUILD;

      (2)反復(fù)用非代表對(duì)象替換中心點(diǎn)以提高聚類質(zhì)量;聚類質(zhì)量由一個(gè)代價(jià)函數(shù)評(píng)估,該函數(shù)度量一個(gè)非代表對(duì)象是否是當(dāng)前中心點(diǎn)的好的代替,如果是就進(jìn)行替換,否則不替換,直至聚類質(zhì)量無法再提高,此過程稱為SWAP;詳細(xì)步驟參見文獻(xiàn)[15]。

      相比K-means,PAM具有較強(qiáng)的健壯性,對(duì)“噪聲”和孤立點(diǎn)數(shù)據(jù)不敏感,由它發(fā)現(xiàn)的簇與測(cè)試數(shù)據(jù)的輸入順序無關(guān),能夠處理不同類型的數(shù)據(jù)點(diǎn)。然而它和K-means一樣,需事先指定聚類個(gè)數(shù),其主要缺點(diǎn)還在于:當(dāng)數(shù)據(jù)量較大時(shí)算法的效率很低。

      確定聚類個(gè)數(shù)的方法之一是分別使用不同的聚類個(gè)數(shù)運(yùn)行聚類算法,使用效度指標(biāo)度量聚類結(jié)果從而判斷出類內(nèi)緊密性和類間分離度最佳的聚類數(shù)目[16],Davies-Bouldin(DB)指標(biāo)是常用的聚類效度指標(biāo),描述為:

      其中,K代表聚類個(gè)數(shù);Si描述了一個(gè)類中所有點(diǎn)到類中心點(diǎn)的距離的均值;rij代表類i和類j的距離;向量mi表示類Ci的中心點(diǎn);表示類Ci中包含的對(duì)象個(gè)數(shù),如式(2)和式(3)所示。DB越小表明類內(nèi)各對(duì)象與類中心距離越?。ňo密性)而類間距離(分離度)越大,聚類質(zhì)量越高。最小的 DB指標(biāo)所對(duì)應(yīng)的聚類個(gè)數(shù)即為最優(yōu)聚類數(shù)目。

      3.2 SOM-DB-PAM混合聚類算法

      現(xiàn)有聚類技術(shù)有各自的優(yōu)勢(shì)和局限,建立在不同技術(shù)有效組合或集成思路上的混合聚類技術(shù)能揚(yáng)長避短,是細(xì)分技術(shù)未來的發(fā)展趨勢(shì)[17]。本文針對(duì)電力客戶數(shù)目大、存在孤立點(diǎn)數(shù)據(jù)的特點(diǎn),提出SOM-DB-PAM混合聚類算法,算法包括2個(gè)階段:第1階段構(gòu)建SOM對(duì)大量輸入數(shù)據(jù)進(jìn)行訓(xùn)練,得到反映輸入數(shù)據(jù)最主要特征的原型向量;第2階段使用PAM對(duì)所獲得的原型向量再度聚類,同時(shí),使用DB指標(biāo)自動(dòng)判別最優(yōu)聚類數(shù)目以保證聚類效度,算法流程如圖2所示。該算法在集成SOM處理大樣本的優(yōu)勢(shì)和PAM健壯性的同時(shí)克服了人為指定聚類數(shù)目存在的困難和主觀性。

      圖2 SOM-DB-PAM流程

      在實(shí)際應(yīng)用中,由于SOM輸出層的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、原型向量初始化方法和學(xué)習(xí)算法會(huì)影響網(wǎng)絡(luò)的學(xué)習(xí)效率,第1階段初期需指定網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)即原型向量個(gè)數(shù)n,遵循在保留輸入數(shù)據(jù)主要信息基礎(chǔ)上盡可能減少第2階段工作量的原則,n應(yīng)遠(yuǎn)小于輸入樣本個(gè)數(shù)并盡量大于最終所需的類目數(shù)。早期研究表明:超環(huán)面和球面SOM拓?fù)浣Y(jié)構(gòu)能克服平面結(jié)構(gòu)的邊緣效應(yīng)且行列數(shù)不相等的輸入矩陣比方陣更能準(zhǔn)確表達(dá)數(shù)據(jù)特征[18],因此,SOM應(yīng)選擇超環(huán)面或球面拓?fù)浣Y(jié)構(gòu)且避免將輸入矩陣設(shè)計(jì)為方陣;批學(xué)習(xí)算法具有速度快,可產(chǎn)生更穩(wěn)定的原型向量值和具備強(qiáng)的可再現(xiàn)能力的優(yōu)點(diǎn),采用批學(xué)習(xí)算法對(duì)設(shè)計(jì)好的SOM進(jìn)行訓(xùn)練,為提高訓(xùn)練效率,使用線性初始化方法初始化原型向量。在第2階段中,以設(shè)定聚類數(shù)目的范圍[Kmin,Kmax]代替直接指定最終聚類數(shù),為使細(xì)分結(jié)果有意義,原則上 Kmin>1且Kmax<n,綜合考慮制定營銷策略時(shí)的實(shí)際需要并參考領(lǐng)域?qū)<业慕?jīng)驗(yàn)適當(dāng)縮小[Kmin,Kmax]區(qū)間可提高細(xì)分結(jié)果的可解釋性和PAM的聚類效率。

      SOM-DB-PAM混合聚類算法的主要思想是:對(duì)N個(gè)待聚類對(duì)象使用SOM先進(jìn)行“粗聚類”得到n個(gè)初步的類,再用PAM對(duì)這n個(gè)初步的類進(jìn)行正式聚類。由于PAM算法的時(shí)間復(fù)雜度為O(T2× d×K(N-K)2),其中,T2為算法收斂所需的迭代次

      數(shù);K為中心點(diǎn)數(shù)目,即聚類個(gè)數(shù),每計(jì)算一次用非中心點(diǎn)替換中心點(diǎn)的代價(jià)所需時(shí)間為d×K(NK)2,當(dāng)樣本規(guī)模N和維數(shù)d都很大時(shí),PAM的計(jì)算復(fù)雜度將非常高,而用電數(shù)據(jù)量大正是電力客戶細(xì)分面臨的主要問題,以某供電局管轄的居民客戶為例,平均每月產(chǎn)生的用電記錄數(shù) N>26000,引入SOM進(jìn)行“粗聚類”后,SOM-DB-PAM算法的復(fù)雜度為O(T1×n×d×N)+O(T2×d×K(n-K)2),其中,T1為SOM網(wǎng)絡(luò)訓(xùn)練所需的迭代次數(shù),由于使用SOM對(duì)數(shù)據(jù)進(jìn)行“粗聚類”時(shí),最終的聚類結(jié)果不依賴于神經(jīng)元的拓?fù)湮恢?,網(wǎng)絡(luò)不需要完全收斂,可設(shè)定一個(gè)較小的 T1以降低網(wǎng)絡(luò)的訓(xùn)練時(shí)間[19],此時(shí),算法的時(shí)間復(fù)雜度主要依賴于n,而n遠(yuǎn)小于待聚類對(duì)象個(gè)數(shù)N,因此,采用SOM-DB-PAM對(duì)大量電力客戶數(shù)據(jù)進(jìn)行聚類,在利用PAM健壯性的同時(shí)降低了其計(jì)算復(fù)雜度。

      3.3 SOM-DB-PAM聚類性能測(cè)試

      由于目前尚沒有針對(duì)電力客戶的可供實(shí)驗(yàn)的公開聚類測(cè)試數(shù)據(jù)集,因此為測(cè)試SOM-DB-PAM的聚類性能,本文從某電力公司下屬供電局的營銷信息系統(tǒng)中抽取了120條電力客戶用電記錄組成仿真數(shù)據(jù)集進(jìn)行聚類實(shí)驗(yàn),每條記錄由3個(gè)細(xì)分變量描述,分別為客戶當(dāng)月用電量、當(dāng)前欠費(fèi)金額和歷史同期用電增長率,依據(jù)客戶在這3個(gè)變量上的不同表現(xiàn),可將其劃分為卓越客戶、風(fēng)險(xiǎn)客戶和穩(wěn)定客戶3類,每類各包含40條記錄,數(shù)據(jù)集中不含缺失值,但包含一條噪聲記錄。在實(shí)驗(yàn)前,采用線性標(biāo)準(zhǔn)化方法分別對(duì)3個(gè)細(xì)分變量進(jìn)行了預(yù)處理。在SOM-DB-PAM和SOM-DB-Kmeans聚類的第1階段,初始化 SOM網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)為20,結(jié)點(diǎn)形狀為六邊形,按[7×3]矩陣排列,SOM圖形狀為超環(huán)面,初始鄰居距離為2;在第2階段,將最終類目數(shù)的區(qū)間范圍指定為[2,4]。在Matlab R2010a環(huán)境下編程實(shí)現(xiàn)SOM-DB-PAM并比較其與傳統(tǒng)K-means、SOM-DB-Kmeans聚類算法的性能差異。每種算法實(shí)驗(yàn)10次,實(shí)驗(yàn)結(jié)果如表1所示。表1中的DB指標(biāo)值和程序運(yùn)行時(shí)間均為10次實(shí)驗(yàn)獲得的平均值。

      表1 使用電力客戶仿真數(shù)據(jù)集的SOM-DB-PAM聚類測(cè)試結(jié)果

      從表1可知:使用SOM-DB-PAM進(jìn)行的10次實(shí)驗(yàn)中,通過DB指標(biāo)均能識(shí)別出正確的聚類數(shù)目3且樣本的分類正確率達(dá)到100%,高于傳統(tǒng)K-means和SOM-DB-Kmeans的分類正確率。而使用后2種聚類算法進(jìn)行的實(shí)驗(yàn)中,分別有2次和1次實(shí)驗(yàn)DB指標(biāo)無法準(zhǔn)確判斷最優(yōu)聚類數(shù)目(見括號(hào)),這主要是由于K-means采用隨機(jī)分配初始聚類中心的策略且聚類結(jié)果受數(shù)據(jù)輸入順序的影響,導(dǎo)致聚類結(jié)果不穩(wěn)定。由于訓(xùn)練SOM網(wǎng)絡(luò)需要時(shí)間,從表1可看出,K-means在本文實(shí)驗(yàn)的運(yùn)行時(shí)間上具有明顯優(yōu)勢(shì),為進(jìn)一步驗(yàn)證SOM-DB-PAM在大規(guī)模數(shù)據(jù)集上的時(shí)間有效性和聚類效果,考慮到為大樣本電力客戶預(yù)先設(shè)定合理的類編號(hào)存在困難,本文還使用UCI數(shù)據(jù)集中不同規(guī)模的其他行業(yè)測(cè)試數(shù)據(jù)集評(píng)估3種算法的聚類性能,測(cè)試結(jié)果如表2所示:在不同規(guī)模的測(cè)試數(shù)據(jù)集上,SOM-DB-PAM都具有更高的分類正確率且能準(zhǔn)確判別最優(yōu)聚類個(gè)數(shù);在程序運(yùn)行時(shí)間上,由于SOM-DB-PAM和SOM-DB-Kmeans需要構(gòu)建SOM網(wǎng)絡(luò)并對(duì)其進(jìn)行訓(xùn)練,處理小樣本時(shí),K-means具有更高的聚類效率;隨著樣本規(guī)模的增加,SOM-DB-Kmeans所需運(yùn)行時(shí)間最少,但比SOM-DB-PAM并沒有顯著優(yōu)勢(shì),綜合分類正確率、最優(yōu)聚類數(shù)目的判定和算法運(yùn)行效率可知,在對(duì)大規(guī)模數(shù)據(jù)進(jìn)行聚類分析時(shí),SOM-DB-PAM優(yōu)于傳統(tǒng)聚類算法。

      表2 使用UCI數(shù)據(jù)集的SOM-DB-PAM測(cè)試結(jié)果

      4 實(shí)例分析

      4.1 數(shù)據(jù)收集和數(shù)據(jù)預(yù)處理

      本文從國家電網(wǎng)陜西省電力公司某下屬供電局的營銷信息系統(tǒng)中,抽取了16 818位居民客戶的基本信息和2011年、2012年12月的用電數(shù)據(jù)進(jìn)行分析,驗(yàn)證SOM-DB-PAM在真實(shí)電力客戶細(xì)分應(yīng)用中的有效性。參照已有研究建立的電力客戶價(jià)值評(píng)價(jià)指標(biāo)體系[8,13],在考察數(shù)據(jù)可獲取性和數(shù)據(jù)質(zhì)量的基礎(chǔ)上選取11個(gè)指標(biāo)構(gòu)成細(xì)分變量,各變量的含義如表3所示。

      表3 電力客戶細(xì)分變量及其含義

      為消除數(shù)據(jù)間由于量綱不同對(duì)聚類結(jié)果產(chǎn)生的影響,根據(jù)各變量數(shù)據(jù)的分布特點(diǎn)選取合適的標(biāo)準(zhǔn)化方法[20]對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,如表 4所示。

      表4 細(xì)分變量的標(biāo)準(zhǔn)化方法

      4.2 基于SOM-DB-PAM的電力客戶細(xì)分

      使用SOM-DB-PAM混合聚類算法對(duì)經(jīng)過預(yù)處理的電力客戶數(shù)據(jù)進(jìn)行聚類,在第1階段,初始化SOM網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)為 100,結(jié)點(diǎn)形狀為六邊形,按[13×8]矩陣排列,SOM圖形狀為超環(huán)面,初始鄰居距離為2。在第2階段,綜合考慮當(dāng)前價(jià)值、潛在價(jià)值2個(gè)維度和細(xì)分結(jié)果的可解釋性將最終簇?cái)?shù)目的區(qū)間范圍指定為[4,50],為克服PAM聚類時(shí)隨機(jī)選取初始中心點(diǎn)導(dǎo)致對(duì)于同一類目數(shù),每次計(jì)算出的DB指標(biāo)存在微小差異的缺點(diǎn)[21],對(duì)每個(gè)類目數(shù),計(jì)算DB指標(biāo)30次并用均值代表最終DB值。用DB指標(biāo)獲得的最優(yōu)聚類個(gè)數(shù)為33,此時(shí)的DB指標(biāo)值為0.699 8,得到的每個(gè)類包含的客戶數(shù)和各類的中心點(diǎn)如表 5所示。其中,第 1列為各類的簇編號(hào),第2列為每個(gè)類包含的客戶數(shù),其他各列對(duì)應(yīng)各類的中心點(diǎn)在各細(xì)分變量的取值程序運(yùn)行時(shí)間為:175.122 s。

      為更好地解釋聚類結(jié)果,33個(gè)客戶簇按照當(dāng)月用電量大?。▎挝唬簁W/h)被分為4類:大型客戶,用電量大于 1 000;中型客戶,用電量區(qū)間 (500,1 000];一般客戶,用電量區(qū)間(100,500]以及用電量低于或等于100的小型客戶,圖3描述了各個(gè)類在當(dāng)月用電量指標(biāo)上的分布。其中,每個(gè)類包含的客戶數(shù)大小用圓圈大小表征。

      綜合其他細(xì)分變量,客戶又可被分為卓越客戶、優(yōu)質(zhì)客戶、穩(wěn)定客戶、存在潛在欠費(fèi)風(fēng)險(xiǎn)的客戶、存在潛在流失風(fēng)險(xiǎn)的客戶以及同時(shí)具有以上2種風(fēng)險(xiǎn)的客戶,對(duì)各類型客戶的特征描述如表6所示。其中,卓越客戶和優(yōu)質(zhì)客戶在衡量客戶價(jià)值的各指標(biāo)上表現(xiàn)優(yōu)異,歷史同期用電量增長和電費(fèi)增長幅度均超過10%,具有大的潛在價(jià)值,按時(shí)繳費(fèi),電費(fèi)回收率超過95%,是本文要識(shí)別的高價(jià)值客戶,他們僅在用電規(guī)模上存在差異,卓越客戶的當(dāng)月用電量更接近其所在用電量區(qū)間的上限。

      表5 各類包含的客戶數(shù)和類中心點(diǎn)分布

      圖3 各類按當(dāng)月用電量分布

      表6 各類型客戶的特征描述

      圖4描述了各簇在用電量和客戶類型上的交叉細(xì)分結(jié)果,高價(jià)值客戶用六邊形表示,圖形中的數(shù)字為每個(gè)簇的簇編號(hào)。識(shí)別出的高價(jià)值客戶共4 384名,占客戶總量的26.07%。

      圖4 各簇在用電量和客戶類型上的交叉細(xì)分結(jié)果

      供電企業(yè)可根據(jù)各類客戶的特征制定有針對(duì)性的服務(wù)措施。

      從識(shí)別出的4 384名高價(jià)值客戶中隨機(jī)抽取50名客戶,由該供電公司組織營銷業(yè)務(wù)專家采用表3中指標(biāo)和文獻(xiàn)[13]提供的客戶價(jià)值評(píng)價(jià)方法評(píng)價(jià)其價(jià)值,評(píng)價(jià)結(jié)果顯示:46名客戶的分類類型與使用SOM-DB-PAM得到的分類類型吻合。綜合業(yè)務(wù)專家的意見,認(rèn)為該細(xì)分結(jié)果符合業(yè)務(wù)實(shí)際需要并具有良好的解釋性和一定的實(shí)用性。

      5 結(jié)束語

      隨著我國國家電網(wǎng)公司SG186信息化工程的深入推進(jìn)和95598服務(wù)系統(tǒng)的投入運(yùn)營,電力營銷數(shù)據(jù)庫中存儲(chǔ)的電力客戶數(shù)據(jù)呈數(shù)量級(jí)增長,如何有效利用這些信息對(duì)客戶進(jìn)行快速、準(zhǔn)確的細(xì)分和定位,是供電企業(yè)制定服務(wù)對(duì)策的前提。本文提出的SOM-DB-PAM混合聚類算法為解決這一問題提供了一種思路,針對(duì)電力客戶用電行為數(shù)據(jù)量龐大的特點(diǎn),首先利用SOM對(duì)數(shù)據(jù)進(jìn)行“粗聚類”得到表征數(shù)據(jù)主要特征的原型向量以壓縮數(shù)據(jù)量,再使用PAM對(duì)所獲得的原型向量正式聚類并用DB指標(biāo)識(shí)別最優(yōu)聚類數(shù)目,PAM的健壯性使其不易受到用電行為噪聲數(shù)據(jù)的影響,同時(shí)保證了DB指標(biāo)的穩(wěn)定性,而用遠(yuǎn)小于初始樣本數(shù)的原型向量替代原始數(shù)據(jù)大大降低了PAM的計(jì)算量。分別采用仿真數(shù)據(jù)集和電力客戶真實(shí)用電數(shù)據(jù)對(duì)算法性能進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)聚類算法相比,SOM-DB-PAM混合聚類算法在不同規(guī)模的測(cè)試數(shù)據(jù)集上,均能正確判別聚類個(gè)數(shù)并得到更好的分類結(jié)果,將其應(yīng)用于電力客戶細(xì)分,能快速有效聚類并得到具有良好解釋性的細(xì)分結(jié)果,算法適用于針對(duì)大量電力客戶的深度細(xì)分。作為衡量聚類效度的指標(biāo),DB指標(biāo)主要針對(duì)數(shù)值型細(xì)分變量,當(dāng)細(xì)分變量為分類變量時(shí),使用DB判別最優(yōu)聚類數(shù)目的效果不理想,而電力客戶基本信息中包含了大量對(duì)細(xì)分有價(jià)值的分類變量,如客戶所在行業(yè)、用電類型、繳費(fèi)方式等,研究適用于混合數(shù)據(jù)類型的聚類效度指標(biāo),擴(kuò)展算法的適用范圍,是電力客戶細(xì)分研究有待進(jìn)一步解決的問題。

      [1] Smith W R.Product Differentiation and Market Segmentation as an Alternative Marketing Strategy[J]. Journal of Marketing,1956,21(1):3-8.

      [2] Floh A,Zauner A,Koller M,et al.Customer Segmentation Using Unobserved Heterogeneity in the Perceived-value-loyalty-intentions Link[J].Journal of Business Research,2014,67(5):974-982.

      [3] 威廉·G·齊克蒙德,小雷蒙德·邁克里奧德.客戶關(guān)系管理:營銷戰(zhàn)略與信息技術(shù)的整合[M].胡左浩,譯.北京:中國人民大學(xué)出版社,2005.

      [4] 郭迎春.知識(shí)型電力客戶關(guān)系管理研究[D].保定:華北電力大學(xué),2008.

      [5] López J J,Aguado J A,Martín F,et al.Hopfield-K-Means Clustering Algorithm:A Proposal for the Segmentation of Electricity Customers[J].Electric Power System s Research,2011,81(1):716-724.

      [6] 徐天池.基于數(shù)據(jù)挖掘的電網(wǎng)客戶細(xì)分系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:中山大學(xué),2013.

      [7] 王軼華.電力客戶綜合價(jià)值分析[D].上海:上海交通大學(xué),2007.

      [8] 王松濤.市場(chǎng)條件下的電力客戶價(jià)值分析體系[J].電網(wǎng)技術(shù),2010,34(2):155-158.

      [9] 李泓澤,郭 森,王 寶.基于遺傳改進(jìn)蟻群聚類算法的電力客戶價(jià)值評(píng)價(jià)[J].電網(wǎng)技術(shù),2012,36(12):256-261.

      [10] 曾 鳴,楊素萍,楊鵬舉,等.社會(huì)節(jié)能環(huán)境下電力客戶價(jià)值評(píng)估研究[J].華東電力,2008,36(6):15-18.

      [11] 王春葉.基于數(shù)據(jù)挖掘的電力客戶細(xì)分研究[D].保定:華北電力大學(xué),2009.

      [12] Wind Y.Issues and Advances in Segmentation Research[J].Journal of Marketing Research,1978,15(1):317-337.

      [13] 蔣維楊.電力客戶價(jià)值評(píng)價(jià)及信息系統(tǒng)開發(fā)研究[D].西安:西北工業(yè)大學(xué),2010.[14] Zhou Kaile,Yang Shanlin,Shen Chao.A Review of Electric Load Classification in Smart Grid Environment[J].Renewable and Sustainable Energy Reviews,2013,(24):103-110.

      [15] Laan V D,Pollard M J,Katherine S,Jennifer B.A New Partitioning Around Medoids Algorithm[J].Journal of Statistical Computation&Simulation,2003,78(8):575-675.

      [17] Hiziroglu A.Soft Computing Applications in Customer Segmentation:State-of-art Review and Critique[J].Expert Systems with Applications,2013,40(1):6491-6507.

      [18] 安 璐,張 進(jìn),李 綱.自組織映射用于數(shù)據(jù)分析的方法研究[J].情報(bào)學(xué)報(bào),2009,28(5):720-726.

      [19] Vesanto J,Alhoniemi E.Clustering of the Selforganizing Map[J].IEEE Transactions on Neural Networks,2000,11(3):586-600.

      [20] Wang J.Encyclopedia of Data Warehousing and Mining[M].Hershey,USA:Information Science Press,2006.

      [21] Rasanen T,Ruuskanen J,Kolehmainen M.Reducing Energy Consumption by Using Self-organizing Maps to Create More Personalized Electricity Use Information[J].Applied Energy,2008,85(1):830-840.

      編輯 索書志

      Power Customer Segmentation Based on SOM-DB-PAM Hybrid Clustering Algorithm

      HU Xiaoxue,ZHAO Songzheng,WU Nan
      (School of Management,Northwestern Polytechnical University,Xi’an 710129,China)

      Based on power customers which reach a very large amount and the feature of presence of outlier,and limitations of Partitioning A round Medoid(PAM)algorithm in handling large amounts of data and predefining the number of clusters,a new hybrid clustering algorithm called SOM-DB-PAM that is suitable for fast clustering of large number of electricity customers,is proposed.In the proposed algorithm,the Self-Organizing Map(SOM)neural network is used to train input data to find prototype vectors that represents patterns of the input data set but far less than the number of it,and the prototype vectors are clustered by the PAM algorithm and to ensure the validity of clustering,the Davies-Bouldin(DB)indexis calculated for SOM prototype vectors to solve optimal number of clusters.Experimental results show that,com pared with traditional clustering algorithm s,the accuracy of classification is enhanced and when the amount of electricity customers is large,the proposed algorithm can achieve a fast and effective clustering.In addition,the blindness and subjectivity of predefining the number of clusters artificially is decreased.

      power customer segmentation;Partitioning A round Medoid(PAM);Self-Organizing Map(SOM);hybrid clustering algorithm;clustering analysis

      胡曉雪,趙嵩正,吳 楠.基于SOM-DB-PAM混合聚類算法的電力客戶細(xì)分[J].計(jì)算機(jī)工程,2015,41(10):295-301,307.

      英文引用格式:Hu Xiaoxue,Zhao Songzheng,Wu Nan.Power Customer Segmentation Based on SOM-DB-PAM Hybrid Clustering Algorithm[J].Engineering Computer,2015,41(10):295-301,307.

      1000-3428(2015)10-0295-07

      A

      TP391

      國家教育部博士點(diǎn)基金資助項(xiàng)目(20116102110036)。

      胡曉雪(1986-),女,博士研究生,主研方向:數(shù)據(jù)挖掘,電力企業(yè)市場(chǎng)營銷,客戶關(guān)系管理;趙嵩正,教授、博士生導(dǎo)師;吳 楠,博士研究生。

      2014-08-28

      2014-11-12E-mail:nolanspring@163.com

      猜你喜歡
      中心點(diǎn)細(xì)分聚類
      Scratch 3.9更新了什么?
      深耕環(huán)保細(xì)分領(lǐng)域,維爾利為環(huán)保注入新動(dòng)力
      如何設(shè)置造型中心點(diǎn)?
      電腦報(bào)(2019年4期)2019-09-10 07:22:44
      基于DBSACN聚類算法的XML文檔聚類
      1~7月,我國貨車各細(xì)分市場(chǎng)均有增長
      專用汽車(2016年9期)2016-03-01 04:17:02
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
      基于改進(jìn)的遺傳算法的模糊聚類算法
      尋找視覺中心點(diǎn)
      大眾攝影(2015年9期)2015-09-06 17:05:41
      整體低迷難掩細(xì)分市場(chǎng)亮點(diǎn)
      專用汽車(2015年2期)2015-03-01 04:05:42
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      金坛市| 巴彦淖尔市| 孟州市| 高邮市| 辽阳县| 彭泽县| 揭东县| 井冈山市| 克拉玛依市| 灌阳县| 荥阳市| 泊头市| 巴里| 刚察县| 迁西县| 延庆县| 桑日县| 鹤壁市| 永嘉县| 北京市| 芒康县| 桂阳县| 宁海县| 九龙坡区| 湘潭市| 盐山县| 新余市| 台东市| 衡阳县| 应用必备| 惠来县| 姚安县| 榆树市| 武隆县| 睢宁县| 靖西县| 二手房| 莒南县| 图片| 安国市| 孙吴县|