雷景生, 余修成
(上海電力學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
基于模糊C均值聚類算法的區(qū)域用電特征分析
雷景生, 余修成
(上海電力學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
某區(qū)域內(nèi)電力用戶的用電行為往往會(huì)影響該區(qū)域電力公司的負(fù)荷調(diào)度以及分時(shí)電價(jià)等重要問題的決策.為使得這些決策更符合該區(qū)域的實(shí)際情況,必須對該區(qū)域的用電特征進(jìn)行分析.針對這一問題,提出了一種基于聚類算法的區(qū)域用電特征分析方法.采用模糊C均值算法并結(jié)合K-means算法,按照某區(qū)域的電力用戶分布情況,將數(shù)據(jù)樣本聚類為居民區(qū)電力用戶、商業(yè)區(qū)電力用戶和工業(yè)區(qū)電力用戶3個(gè)類簇,并結(jié)合該地區(qū)實(shí)際用電情況,對得到的類簇負(fù)荷曲線進(jìn)行了分析,得出了該區(qū)域不同類型電力用戶的用電特征.
模糊C均值聚類; K-means算法; 負(fù)荷曲線;用電行為; 特征分析
在發(fā)展智能電網(wǎng)的今天,諸如智能電表等智能設(shè)備已在電力領(lǐng)域得到廣泛應(yīng)用,它不僅能夠使人們在決策支持系統(tǒng)上實(shí)現(xiàn)電網(wǎng)可靠、安全、經(jīng)濟(jì)、高效的運(yùn)行,也使供電側(cè)和需求側(cè)不斷得到協(xié)調(diào)優(yōu)化[1].然而對于影響電力公司電價(jià)分時(shí)調(diào)節(jié)[2]、負(fù)荷調(diào)度[3]等更細(xì)節(jié)一點(diǎn)的因素,則必須考慮不同區(qū)域不同類型的電力用戶的用電行為,以及影響這些用電行為的時(shí)間、季節(jié)、用戶分布等因素.在眾多智能設(shè)備的支撐下,如何更加細(xì)致地分析需求側(cè)電力用戶的用電特征將是需求側(cè)管理的重點(diǎn)研究領(lǐng)域之一[4].
目前,對于區(qū)域用電特征的分析主要集中在區(qū)域負(fù)荷特性方面,常采用聚類的方法,例如K-means聚類[5]、模糊C均值(Fuzzy C-means,FCM)聚類[6-7]、層次聚類、高斯混合模型聚類(Gaussian Mixture Model,GMM)、自組織特征映射(Self-organizing feature Map,SOM)神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(Support Vector Machine,SVM),以及一些集成的綜合算法等.上述算法都有其各自的優(yōu)點(diǎn)和不足,并且不同的算法對不同的樣本數(shù)據(jù)有著特定的適用范圍.根據(jù)數(shù)據(jù)樣本的特點(diǎn)選取合適的算法,并在此算法的計(jì)算結(jié)果上通過多角度分析,進(jìn)而依據(jù)不同類型用戶的負(fù)荷變化情況進(jìn)行研究,可以更好地刻畫用戶的用電行為[8].
針對這一問題,本文首先采用FCM聚類的方法對所采集的居民區(qū)、商業(yè)區(qū)、工業(yè)區(qū)等不同電力用戶的負(fù)荷數(shù)據(jù)進(jìn)行聚類,結(jié)合該區(qū)域用戶分布的特點(diǎn)并嘗試選取聚類數(shù)C的值、綜合聚類后負(fù)荷曲線的特點(diǎn),最終將該區(qū)域的負(fù)荷數(shù)據(jù)確定為3大聚類[9-10].同時(shí),為了防止過分依賴單一聚類方法導(dǎo)致誤差過大的情況,本文同時(shí)采用K-means聚類算法并與FCM聚類算法的聚類結(jié)果進(jìn)行對比,然后結(jié)合兩種算法的聚類結(jié)果分析該區(qū)域3種類型電力用戶的用電特征[11-12].基于聚類結(jié)果,本文從不同角度進(jìn)一步分析了3種不同類型電力用戶各自的特點(diǎn)及其差異,進(jìn)而總結(jié)出該區(qū)域電力用戶的用電行為特征.
聚類屬于無監(jiān)督學(xué)習(xí)的范疇,與有類別的回歸、樸素貝葉斯、支持向量機(jī)等有類標(biāo)簽算法不同,FCM聚類算法是在預(yù)先沒有給出類標(biāo)簽的情況下,基于目標(biāo)函數(shù),通過迭代的方式將隸屬度最大的樣本歸為某一類.
與K-means聚類算法相比,FCM聚類算法引入了隸屬度矩陣U(即模糊劃分矩陣)和模糊系數(shù)m,從而將K-means算法中的硬隸屬度關(guān)系提升為軟隸屬度關(guān)系,改變了K-means算法中某一對象非此即彼的隸屬性特征.隸屬度矩陣U中所有元素表征對應(yīng)的對象隸屬于相應(yīng)類簇的隸屬程度,而如果某一對象與某一簇的隸屬度最大,就將該對象歸屬為該類簇.
1.1 FCM算法構(gòu)成
設(shè)數(shù)據(jù)集data中含有n個(gè)向量xi(i=1,2,3,…,n),欲將n個(gè)向量聚類為C類,將μij定義為向量xj隸屬于第Ci類的隸屬程度即為隸屬度,μij取0到1之間的小數(shù).由于每個(gè)向量xi對于每一類都有一個(gè)隸屬度參數(shù),因此就要求對于某一個(gè)特定的向量隸屬于每個(gè)類的隸屬度的總和等于1,即:
(1)
FCM聚類算法的目標(biāo)函數(shù)定義為:
(2)
(3)
(4)
式中:U——隸屬度矩陣; V——聚類中心向量矩陣; μij——隸屬度; m——模糊系數(shù),根據(jù)經(jīng)驗(yàn)通常取m=2; dij2——在歐式距離下元素對象xj到中心點(diǎn)Ci的距離.
因此,該目標(biāo)函數(shù)表示數(shù)據(jù)集data中所有點(diǎn)到各個(gè)類中心的加權(quán)距離之和.
當(dāng)目標(biāo)函數(shù)取最小值時(shí),通常認(rèn)為取得最優(yōu)聚類結(jié)果.最優(yōu)聚類目標(biāo)函數(shù)的表達(dá)式為:
(5)
(6)
式(6)兩邊同時(shí)對μij求偏導(dǎo),得到:
(7)
(8)
式(6)兩邊對ci求偏導(dǎo),可得:
(9)
1.2 FCM算法的具體實(shí)現(xiàn)步驟
(1) 初始化,以確定聚類數(shù)C,模糊系數(shù)m(m>1,通常取2),最大迭代次數(shù)T,收斂精度ε的取值;
(2) 隨機(jī)生成隸屬度矩陣U,并對其進(jìn)行初始化使其滿足式(1);
(3) 利用式(9)計(jì)算聚類中心ci;
(4) 計(jì)算目標(biāo)函數(shù)式(2),如果式(2)的結(jié)果小于收斂精度ε或者達(dá)到最大迭代次數(shù),則算法停止;
(5) 計(jì)算隸屬度矩陣U;
(6) 重復(fù)步驟3,步驟4,步驟5,直到算法終止.
2.1 數(shù)據(jù)的采集與預(yù)處理
對某一區(qū)域工作日內(nèi)300個(gè)不同類型電力用戶進(jìn)行24 h的負(fù)荷取樣,從00∶30時(shí)刻開始一直到次日00∶00時(shí)刻,每30 min記錄一次負(fù)荷數(shù)據(jù),共采集一天中48個(gè)時(shí)刻的負(fù)荷數(shù)據(jù),部分負(fù)荷數(shù)據(jù)樣本如表1所示.
為防止算法迭代的計(jì)算過程中因數(shù)據(jù)太大而產(chǎn)生的誤差,本文對采集的數(shù)據(jù)進(jìn)行預(yù)處理以消除不良影響,即將所有數(shù)據(jù)除以最小負(fù)荷值得到初始化后的負(fù)荷聚類數(shù)據(jù)樣本.
表1 部分時(shí)刻的部分負(fù)荷數(shù)據(jù)樣本 個(gè)
2.2 FCM聚類算法C的確定以及聚類結(jié)果
FCM算法聚類的前提條件是先確定C的取值,而通常情況下聚類數(shù)目都是人為確定的,因此本文依次嘗試聚類數(shù)目C的取值并結(jié)合該區(qū)域?qū)嶋H的用戶分布特點(diǎn)來確定C值.然后在MATLAB v8.4軟件環(huán)境下讀取采集的負(fù)荷數(shù)據(jù),利用FCM聚類算法對初始化后的300個(gè)用戶負(fù)荷數(shù)據(jù)進(jìn)行聚類.選取聚類中心點(diǎn)矩陣作為聚類結(jié)果,通過可視化操作對其進(jìn)行作圖,以便在圖中清晰地看出FCM算法的聚類結(jié)果.
2.3 FCM算法與K-means算法聚類結(jié)果對比
雖然FCM聚類算法在處理離群點(diǎn)數(shù)據(jù)以及對數(shù)據(jù)的利用上優(yōu)于K-means算法,但是為了防止FCM聚類算法在應(yīng)用于該數(shù)據(jù)對象時(shí)產(chǎn)生誤差,本文采用經(jīng)典的K-means聚類算法對相同的樣本數(shù)據(jù)進(jìn)行聚類.將兩種算法的聚類結(jié)果進(jìn)行比較,如果K-means算法也能夠得到相似的聚類結(jié)果,那么結(jié)合兩種算法的聚類結(jié)果就能更為準(zhǔn)確地分析該數(shù)據(jù)樣本中不同電力用戶類型的用電特征.
2.4 不同類型電力用戶用電特征分析
基于FCM聚類算法對所采集的數(shù)據(jù)進(jìn)行聚類分析,既可以從時(shí)間角度橫向分析所屬居民區(qū)、商業(yè)區(qū)和工業(yè)區(qū)等幾種不同類型電力用戶的用電習(xí)慣,也可以從縱向角度分析這幾種類型電力用戶用電量的差異以及用電量的增長和變化情況.
某區(qū)域工作日內(nèi)居民區(qū)、商業(yè)區(qū)、工業(yè)區(qū)等各種類型的300個(gè)電力用戶一天內(nèi)48個(gè)時(shí)刻的負(fù)荷分布情況如圖1所示.
盡管我們知道居民區(qū)電力用戶的負(fù)荷小于商業(yè)區(qū)電力用戶的負(fù)荷,商業(yè)區(qū)電力用戶的負(fù)荷小于工業(yè)區(qū)電力用戶的負(fù)荷,但在圖1中無法明顯地區(qū)分出這3類用戶的負(fù)荷曲線.
采用FCM聚類算法對采集的300個(gè)用戶數(shù)據(jù)進(jìn)行處理,可得到如圖2所示的聚類結(jié)果.
結(jié)合該區(qū)域采集數(shù)據(jù)時(shí)了解到的實(shí)際情況,得知該區(qū)域主要用戶類型為工業(yè)用戶、商業(yè)用戶、居民用戶以及少量的其他類型用戶,所以C=2顯然不符合實(shí)際的聚類結(jié)果,當(dāng)C=4,C=5以及C選取更大的數(shù)時(shí),各條曲線并沒有典型的聚類特征且區(qū)分不明顯,而當(dāng)C=3時(shí),聚類的結(jié)果具有明顯清晰的聚類特征,也更符合該區(qū)域?qū)嶋H的用戶分布情況.所以對于該區(qū)域所有類型的電力用戶數(shù)據(jù),本文將其聚類選為3個(gè)類簇,即工業(yè)區(qū)電力用戶類型、商業(yè)區(qū)電力用戶類型和居民區(qū)用戶類型.
圖1 300組電力用戶的負(fù)荷分布
圖2 FCM算法聚類結(jié)果
因此,圖2b中C=3時(shí)即為該區(qū)域電力用戶類型的聚類結(jié)果,圖中3條曲線分別代表居民區(qū)電力用戶類型、商業(yè)區(qū)電力用戶類型和工業(yè)區(qū)電力用戶類型,也反映了這3種類型用戶的用電特征.
為了保證算法對于當(dāng)前數(shù)據(jù)樣本的準(zhǔn)確性和有效性,采用經(jīng)典的K-means聚類算法對相同的數(shù)據(jù)樣本做聚類處理并比較聚類結(jié)果,若K-means聚類算法的結(jié)果與FCM聚類算法的結(jié)果相似,那么綜合兩種算法的聚類結(jié)果就能夠準(zhǔn)確有效地分析出各類型電力用戶的用電特征.
圖3為利用K-means聚類算法將相同的數(shù)據(jù)樣本聚為3類得到的聚類結(jié)果.與圖2b進(jìn)行對比可以發(fā)現(xiàn),圖3中每一類中心點(diǎn)的負(fù)荷曲線與圖2b對應(yīng)的中心點(diǎn)負(fù)荷曲線基本一致.
圖3 K-means算法聚類結(jié)果
結(jié)合該區(qū)域?qū)嶋H的用電量情況可知,3條曲線自上而下分別代表工業(yè)區(qū)電力用戶類型、商業(yè)區(qū)電力用戶類型、居民區(qū)電力用戶類型.
綜合兩種算法的聚類結(jié)果,從橫向的時(shí)間角度分析,這3種類型的電力用戶幾乎都是在凌晨4∶30左右達(dá)到負(fù)荷的最低值.這與人們的作息規(guī)律有關(guān),活動(dòng)的人口進(jìn)入休息狀態(tài),機(jī)械、電器以及照明設(shè)備等用電器都處于關(guān)停狀態(tài),因此在4∶30這個(gè)時(shí)間點(diǎn)上3類用戶的負(fù)荷都處于最低值.4∶30~7∶00這個(gè)時(shí)間段內(nèi),3類用戶負(fù)荷都呈上升趨勢,其中居民區(qū)的電力用戶負(fù)荷增長的速度最快,商業(yè)區(qū)電力用戶負(fù)荷增長速度相對最慢.7∶30~21∶00為3種電力用戶的負(fù)荷高峰期,商業(yè)區(qū)用戶負(fù)荷波動(dòng)最大,居民區(qū)用戶負(fù)荷波動(dòng)相對最為平緩.在17∶00~21∶00這個(gè)時(shí)間段內(nèi),居民區(qū)用戶負(fù)荷下降到負(fù)荷上升的過程相對于其他兩種用戶類型滯后約30 min,工業(yè)區(qū)電力用戶與商業(yè)區(qū)電力用戶幾乎都是在20∶00達(dá)到負(fù)荷峰值,居民區(qū)電力用戶在21∶00達(dá)到負(fù)荷峰值.21∶00至次日00∶00,3種類型電力用戶負(fù)荷都處于明顯下降趨勢,工業(yè)區(qū)電力用戶負(fù)荷下降有明顯的波動(dòng),居民區(qū)電力用戶負(fù)荷下降較為平緩.
從縱向的負(fù)荷角度分析,圖2b和圖3反映的3條負(fù)荷曲線整體負(fù)荷增長和下降情況大體相似,工業(yè)區(qū)電力用戶的負(fù)荷大于商業(yè)區(qū)電力用戶的負(fù)荷,且負(fù)荷約是它的1.2倍;商業(yè)區(qū)電力用戶的負(fù)荷大于居民區(qū)電力用戶的負(fù)荷,且負(fù)荷約是它的1.26倍.從負(fù)荷波動(dòng)的趨勢看,工業(yè)區(qū)電力用戶整體負(fù)荷曲線波動(dòng)最為明顯,且波動(dòng)集中在負(fù)荷高峰期的時(shí)間段內(nèi);商業(yè)區(qū)電力用戶負(fù)荷曲線波動(dòng)較小,也集中在負(fù)荷高峰期的時(shí)間段內(nèi);居民區(qū)電力用戶整體負(fù)荷曲線比較平滑,波動(dòng)很小.
采用FCM聚類算法對采集的數(shù)據(jù)樣本進(jìn)行了聚類處理,得到了某區(qū)域電力用戶的聚類結(jié)果.為防止該算法對于特定數(shù)據(jù)樣本產(chǎn)生的誤差而影響分析結(jié)果,又結(jié)合了經(jīng)典的K-means聚類算法,得到代表不同類型電力用戶負(fù)荷分布的曲線.對于不同類型電力用戶的聚類結(jié)果,分別從負(fù)荷曲線橫向的時(shí)間方向上和縱向的負(fù)荷方向上得出了該區(qū)域不同類型電力用戶的用電行為特征.通過實(shí)驗(yàn)分析表明,對用戶用電行為特征進(jìn)行分析,可以幫助電力公司對該區(qū)域的負(fù)荷調(diào)度和分時(shí)電價(jià)等情況作出更為準(zhǔn)確有效的決策,對工程實(shí)踐具有一定的指導(dǎo)意義.
[1] 王錫凡,肖云鵬,王秀麗.新形勢下電力系統(tǒng)供需互動(dòng)問題研究及分析[J].中國電機(jī)工程學(xué)報(bào),2014,34(29):5 018-5 028.
[2] 徐永豐,吳潔晶,黃海濤,等.考慮負(fù)荷率的峰谷分時(shí)電價(jià)模型[J].電力系統(tǒng)保護(hù)與控制,2015,43(23):96-103.
[3] 李慧星,高賜威,梁甜甜.華東區(qū)域智能電網(wǎng)環(huán)境下的負(fù)荷調(diào)度[J].華東電力,2012,40(1):82-86.
[4] 黃宇騰,侯芳,周勤,等.一種面向需求側(cè)管理的用戶負(fù)荷形態(tài)組合分析方法[J].電力系統(tǒng)保護(hù)與控制,2013,41(13):20-25.
[5] 楊大勇,葛琪,董永超,等.基于K 均值聚類的光伏電站運(yùn)行狀態(tài)模式識(shí)別研究[J].電力系統(tǒng)保護(hù)與控制,2016,44(14):25-30.
[6] 孟安波,盧海明,李海亮,等.縱橫交叉算法優(yōu)化FCM 在電力客戶分類中的應(yīng)用[J].電力系統(tǒng)保護(hù)與控制,2015,43(20):150-154.
[7] ZHANG D Q,CHEN S C.A comment on alternative C-means clustering algorithms [J].Pattern Recognition,2004,37(2):173-174.
[8] 尹玉芬.地區(qū)電力系統(tǒng)負(fù)荷特性分析與需求側(cè)管理研究[D].廣州:華南理工大學(xué),2010.
[9] 劉永光,孫超亮,牛貞貞,等.改進(jìn)型模糊C均值聚類算法的電力負(fù)荷特性分類技術(shù)研究[J].電測與儀表,2014,51(18):5-9.
[10] 韓玉環(huán),趙慶生,郭賀宏,等.基于FCM 的暫態(tài)電能質(zhì)量擾動(dòng)識(shí)別[J].電力系統(tǒng)保護(hù)與控制,2016,44(9):62-68.
[11] 孟建良,劉德超.一種基于Spark 和聚類分析的辨識(shí)電力系統(tǒng)不良數(shù)據(jù)新方法[J].電力系統(tǒng)保護(hù)與控制,2016,44(3):85-91.
[12] 普運(yùn)偉,金煒東,朱明,等.核模糊C均值算法的聚類有效性研究[J].計(jì)算機(jī)科學(xué),2007,34(2):207-229.
(編輯 胡小萍)
Fuzzy C-means Clustering-based Algorithm for the Analysis of Regional Electric Power Characteristics
LEI Jingsheng, YU Xiucheng
(SchoolofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai200090,China)
The behaviors of power users in some areas tend to affect the power load dispatching,time-sharing electricity price,and some other important problems on decision-making.It is necessary to analyze the regional electric-using characteristics to ensure that this decision is suitable for the local situation.To solve this problem,the analysis method of regional electric-using characteristics on clustering algorithm is put forward.The experiment adopts the fuzzy C-means algorithm and K-means algorithm,and according to the distribution of power users in certain areas,the sample data for residential electricity users,commercial power users and industrial power users are clustered.In connection with the actual electric consumption situation in the region,the load curve is analyzed.The area electricity characteristics and the results of the analysis of different kinds of power users are obtained.
fuzzy C-means clustering; K-means algorithm; load curve; electricity consumption behavior; characteristic analysis
10.3969/j.issn.1006-4729.2017.02.017
2016-09-08
余修成(1991-),男,在讀碩士,安徽六安人.主要研究方向?yàn)橹悄茈娋W(wǎng)電能供需優(yōu)化與調(diào)控.E-mail:704913424@qq.com.
國家自然科學(xué)基金(61472236);上海市科學(xué)技術(shù)委員會(huì)地方能力建設(shè)項(xiàng)目(Z2014-076).
TP181;TM714
A
1006-4729(2017)02-0196-05