王星華,許炫壕,周亞武
(廣東工業(yè)大學 自動化學院,廣州 510006)
一種基于Pearson相關(guān)系數(shù)的電力用戶負荷曲線聚類算法
王星華,許炫壕,周亞武
(廣東工業(yè)大學 自動化學院,廣州 510006)
提出一種基于Pearson相關(guān)系數(shù)作為聚類判據(jù)的負荷曲線聚類算法——Pearson相關(guān)聚類(Pearson Correlation Clustering, PCC)。首先對負荷數(shù)據(jù)進行數(shù)據(jù)清理以及去噪處理,再選擇合適的降維算法以降低數(shù)據(jù)處理的復(fù)雜性。提出利用Pearson相關(guān)系數(shù)閾值作為聚類中心選擇依據(jù)的方法解決初始聚類中心選擇的隨機性;利用電力負荷曲線數(shù)據(jù)與聚類中心之間的Pearson相關(guān)系數(shù)進行聚類,以DBI指標作為聚類效果的評價標準,分析了不同系數(shù)對聚類效果的影響。算例結(jié)果表明,該算法相比傳統(tǒng)算法運行時間短,魯棒性強,聚類效果更好。
Pearson相關(guān)系數(shù);負荷曲線分類;降維;中值濾波;聚類有效性
隨著智能電網(wǎng)的普及,電網(wǎng)運行、維護以及管理過程產(chǎn)生了大量電力數(shù)據(jù)。大數(shù)據(jù)產(chǎn)生于智能電網(wǎng)系統(tǒng)的各個環(huán)節(jié)中,其中用戶側(cè)大數(shù)據(jù)占了很大比重,因此有必要對用戶側(cè)大數(shù)據(jù)進行研究,為智能電網(wǎng)規(guī)劃和運行提供有益參考[1]。用戶側(cè)大數(shù)據(jù)中,包含了大量電力用戶的日/月負荷曲線,通過對這些電力消費信息進行專門的分析研究并獲取相應(yīng)的負荷模式,可以為電網(wǎng)公司的決策提供依據(jù)[2]。
當前國內(nèi)對電力負荷聚類分析研究已經(jīng)起步,作為輔助電力負荷聚類分析的工具,各種聚類算法及其改進算法不斷地被提出并應(yīng)用于具體工程。文獻[3]以函數(shù)型數(shù)據(jù)分析和k-means 算法結(jié)合對電力負荷進行分類分析。文獻[4]將余弦相似度和歐氏距離結(jié)合組成雙層聚類算法應(yīng)用于負荷形態(tài)組合識別。文獻[5]針對FCM聚類算法易受初始聚類中心選擇影響及極易陷入局部最小值的缺陷,提出了對初始聚類中心進行改進的FCM聚類算法。
以上研究均以歐氏距離作為聚類的相似性判據(jù)。但以歐式距離作為相似性判據(jù)易受噪聲和尖峰值影響,且歐式距離反映的是曲線間距離,而負荷曲線聚類更側(cè)重于曲線輪廓的聚類。因此,為了更加充分反映曲線相似性,綜合考慮以上文獻中聚類算法的優(yōu)缺點,本文提出一種基于Pearson相關(guān)系數(shù)的負荷曲線聚類算法——Pearson相關(guān)聚類(Pearson Correlation Clustering, PCC)。聚類過程中,首先對負荷數(shù)據(jù)進行數(shù)據(jù)清理以及去噪處理,選擇合適的降維算法進行降維,再利用Pearson相關(guān)系數(shù)作為相似性判據(jù)選取初始聚類中心,并對負荷曲線進行聚類分析。與傳統(tǒng)聚類算法進行對比的結(jié)果表明,該算法運行效率高、魯棒性強,能夠得到較好的聚類結(jié)果。
1.1 數(shù)據(jù)來源
本文研究算例數(shù)據(jù)采用兩個數(shù)據(jù)集:一是來源于某市5類用戶類別的2 340個電力客戶同一日期的24點日負荷曲線;二是某市4類用戶類別的1 023個電力客戶某年的12點月負荷曲線。兩數(shù)據(jù)源的用戶數(shù)分別如表1、2所示。
表1 數(shù)據(jù)1用戶類別
表2 數(shù)據(jù)2用戶類別
1.2 數(shù)據(jù)清理及去噪
為了避免數(shù)據(jù)采集過程中出現(xiàn)的偏差對聚類結(jié)果的影響,采用以下措施進行數(shù)據(jù)清理及去噪:
1) 錯誤數(shù)據(jù)清理。采集設(shè)備停止工作或者傳輸過程中斷,導致部分電力用戶缺失數(shù)據(jù)甚至無數(shù)據(jù),因此當某一負荷曲線數(shù)據(jù)全為0時,則剔除該數(shù)據(jù)。
2) 異常數(shù)據(jù)修復(fù)??紤]到負荷功率的暴增或者驟降情況,當負荷曲線功率相鄰點的差值相差較大時,利用文獻[6]中基于Lagrange插值的Neville算法對曲線X={x1,x2,…,xn}進行插值修復(fù)。
3) 數(shù)據(jù)去噪。針對數(shù)據(jù)中“噪聲”所導致的曲線毛刺問題,采取中值濾波方法對數(shù)據(jù)源負荷曲線進行去噪處理。中值濾波的原理為:給定一個輸入數(shù)據(jù),重新計算每一個x的輸出值y,得到新的輸出值,相當于y= new(x)。其中,new函數(shù)的操作是,從在以x為中心,長度為2l的原信號中(區(qū)間為[x-l+1,x+l]),提取出這段區(qū)間內(nèi)中間的那個值,作為y=new(x)的結(jié)果。經(jīng)實驗結(jié)果表明,l取2時效果最佳。
1.3 降維算法
隨著智能電網(wǎng)時代的到來,電力數(shù)據(jù)的數(shù)量呈海量增長,采集設(shè)備的精度提高使數(shù)據(jù)維數(shù)也越來越高。為了提高算法的效率和可行性,有必要對數(shù)據(jù)進行降維操作。假設(shè)每條負荷曲線的維數(shù)為W,經(jīng)降維后將適當縮小維數(shù)為W1,即降維的目的是用盡可能低維數(shù)的負荷曲線代替原來的負荷曲線,并保證原負荷曲線不會因降維而失真過多。
文獻[7]對Sammon映射、SOM映射、PCA以及FE降維算法進行對比分析,分析得出PCA降維算法所需時間最短,且可以最大程度地保護數(shù)據(jù)原始信息,因此本文數(shù)據(jù)降維采用PCA降維算法。
分別對兩數(shù)據(jù)源使用PCC算法進行降維聚類以及未降維聚類,所用時間對比如圖1所示。
圖1 降維前后聚類時間對比圖
對比降維前后聚類用時可知,降維處理可很大程度減少聚類算法耗時。
2.1 Pearson相關(guān)系數(shù)
在統(tǒng)計學中,考察兩個事物(數(shù)據(jù)變量)之間相關(guān)程度的系數(shù)稱為相關(guān)系數(shù)。如果有兩個變量X={x1,x2,…,xn}和Y={y1,y2,…,yn},根據(jù)最終計算出的相關(guān)系數(shù)的大小可以有以下三層含義:
1) 相關(guān)系數(shù)為0,X、Y兩變量間無關(guān)系;
2)X的值增大(減小),Y值增大(減小),兩個變量為正相關(guān),相關(guān)系數(shù)在0.00與1.00之間;
3)X的值增大(減小),Y值減小(增大),兩個變量為負相關(guān),相關(guān)系數(shù)在-1.00與0.00之間。
由上可知,相關(guān)系數(shù)的絕對值越大,相關(guān)性越強,相關(guān)系數(shù)越接近于1或-1,相關(guān)性越強,相關(guān)系數(shù)越接近于0,相關(guān)性越弱。
Pearson相關(guān)也稱為積差相關(guān),它以兩變量間的離均差積和與離均差平方和為算術(shù)基礎(chǔ)進行計算。
Pearson相關(guān)系數(shù)p的計算公式為
X的離均差平方和LXX為
Y的離均差平方和LYY為
X、Y間的離均差積和LXY為
Pearson相關(guān)系數(shù)p的判斷標準如表3所示。
表3 Pearson相關(guān)系數(shù)p的判斷標準
2.2 基于Pearson相關(guān)系數(shù)的初始聚類中心選取
為了提高算法的運行效率和聚類精確性,需要對數(shù)據(jù)源中大量數(shù)據(jù)選取合適的初始聚類中心。本文初始聚類中心的選取原理是:事先設(shè)定一個初始相關(guān)系數(shù)閾值,使得到的初始聚類中心之間的相關(guān)系數(shù)盡量小于該閾值,即各初始聚類中心之間的相關(guān)性盡可能小,可以使原本隨機生成的初始聚類中心變成有目的性的選取,提高算法精確性。
設(shè)X={x1,x2,…,xn}為待聚類數(shù)據(jù)集,設(shè)類間最大相關(guān)系數(shù)閾值為?,聚類數(shù)目為K,初始聚類中心選取步驟如下:
Step 1 計算任意兩組數(shù)據(jù)之間的Pearson相關(guān)系數(shù),并生成系數(shù)矩陣Q,將系數(shù)最大的兩個數(shù)據(jù)歸為一類,并取兩個數(shù)據(jù)的中點作為第一個聚類中心。
Step 2 根據(jù)事先設(shè)定的用于聚類中心選擇的系數(shù)閾值?,利用系數(shù)矩陣Q,檢測與第一個聚類中心的兩組數(shù)據(jù)的系數(shù)都小于?的所有數(shù)據(jù),并在其中選擇系數(shù)最高的兩個數(shù)據(jù)定為一類,且取兩個數(shù)據(jù)的中點為第二類聚類中心。
Step 3 同理,在剩下的數(shù)據(jù)中整理與已經(jīng)確定的數(shù)據(jù)的系數(shù)都小于?的數(shù)據(jù),并在這些數(shù)據(jù)中選擇系數(shù)最高的兩個數(shù)據(jù)定為一類,且取兩個數(shù)據(jù)的中點為新一類聚類中心。
Step 4 重復(fù)Step 3,直至找到K類為止。
此流程利用系數(shù)矩陣Q及系數(shù)閾值對初始聚類中心進行判斷,以數(shù)據(jù)點和已確定數(shù)據(jù)點的相關(guān)系數(shù)進行比較,避免了傳統(tǒng)方法中將聚類中心與全部數(shù)據(jù)點進行比較,大幅度減少了所需運算量,且精度比傳統(tǒng)隨機性選擇方法要高。
2.3 PCC算法流程
根據(jù)已得到的系數(shù)矩陣Q和已選定的初始聚類中心,PCC算法的原理為:假設(shè)初始聚類中心為K類,根據(jù)系數(shù)矩陣Q,分別比較某一數(shù)據(jù)點到K類聚類中心的相關(guān)系數(shù),與哪一類的相關(guān)系數(shù)最大即最相似則歸為哪一類。歸類后重新計算聚類中心,重復(fù)歸類,直至滿足聚類結(jié)束迭代條件。PCC算法具體流程如下:
Step 1 由初始聚類中心選取規(guī)則得出初始聚類中心mi={m1,m2,…,mK},K為聚類個數(shù)。
Step 2 設(shè)yj為第j個樣本,找出yj與mi所有的最大相關(guān)系數(shù)Qmax,將其歸入對應(yīng)的聚類中心所屬的類中。
Step 3 設(shè)ni是第i類已聚類樣本的個數(shù),yij為第i類中第j個樣本,由下式重新計算聚類中心mi:
Step 4 設(shè)t為迭代次數(shù),按下式計算Y中所有樣本的系數(shù)誤差偏移量J(t),并與前一次系數(shù)誤差偏移量J(t-1)比較:
式中:N為樣本數(shù)據(jù)總個數(shù);r為系數(shù)誤差偏移系數(shù);NQ≥r為樣本數(shù)據(jù)各類別中Q≥r的樣本總數(shù)。
Step 5 若J(t)-J(t-1)<ε,即J(t)趨于穩(wěn)定,則算法結(jié)束,否則轉(zhuǎn)Step 2重復(fù)迭代。
由以上PCC算法流程,結(jié)合聚類有效性指標檢驗,設(shè)最小聚類數(shù)為Lmim,最大聚類數(shù)為Lmax,有效性指標為IDBI,聚類算法總流程如圖2所示。
2.4 聚類有效性指標
圖2 PCC算法總流程
為確定最佳聚類數(shù)和最佳聚類結(jié)果,引入聚類有效性指標進行聚類效果評價。文獻[7]對SSE、CHI、DBI三種指標進行評價,驗證得DBI指標曲線的拐點更為直觀,計算公式簡單且變化范圍小,更適合作為電力用戶負荷曲線的聚類有效性指標。因此本文采用的聚類有效性指標為DBI指標,DBI計算公式如下:
式中:K為聚類數(shù)目;d(Xk)和d(Xj)為矩陣內(nèi)部距離;d(ck,cj)為向量間的距離。IDBI越小則表明聚類結(jié)果越好。
3.1 電網(wǎng)實際負荷曲線聚類結(jié)果
如上所述,本文采用兩個數(shù)據(jù)集,經(jīng)數(shù)據(jù)清理、去噪后,數(shù)據(jù)源數(shù)據(jù)分類如表4、5所示。
表4 數(shù)據(jù)源1清理后數(shù)據(jù)分類
表5數(shù)據(jù)源2清理后數(shù)據(jù)分類
Table5Dataclassificationofdatasource2aftercleaning
ABCD總計4286408142984
設(shè)定該算例初始聚類中心選取閾值?=0.7,系數(shù)誤差偏移系數(shù)r=0.7,ε=0.000 5。
以聚類有效性指標IDBI判定聚類最佳結(jié)果,如圖3所示。結(jié)果表明:對于數(shù)據(jù)源1,當聚類數(shù)為6時,IDBI最小,最佳聚類數(shù)為6;對數(shù)據(jù)源2,當聚類數(shù)為4時,IDBI最小,最佳聚類數(shù)為4。
圖3 數(shù)據(jù)源1與數(shù)據(jù)源2的IDBI曲線
經(jīng)PCC算法聚類后,兩數(shù)據(jù)源的聚類結(jié)果如圖4、5所示。
圖4 數(shù)據(jù)源1聚類結(jié)果
圖5 數(shù)據(jù)源2聚類結(jié)果
保持?=0.7不變,分別設(shè)定r=0.6和r=0.8,對數(shù)據(jù)源1進行聚類,由聚類有效性指標IDBI判定聚類最佳結(jié)果,如圖6所示。
圖6 ?=0.7時數(shù)據(jù)源1最佳聚類數(shù)對比
保持r=0.7不變,分別設(shè)定?=0.6和?=0.8,對數(shù)據(jù)源1進行聚類,由聚類有效性指標IDBI判定聚類最佳結(jié)果,如圖7所示。
圖7 r=0.7時數(shù)據(jù)源1最佳聚類數(shù)對比
3.2 結(jié)果分析及對比
由圖4可知,經(jīng)PCC算法聚類之后,數(shù)據(jù)源1分為6類,負荷類型主要為單峰型、雙峰型、平穩(wěn)型以及避峰型,具體分類數(shù)如表6所示。表6結(jié)果表明,數(shù)據(jù)源1分類結(jié)果與實際結(jié)果偏差不大,能較好地將數(shù)據(jù)進行真實分類。
表6數(shù)據(jù)源1分類數(shù)目
Table6Numberofdatasource1classificationsafterclustering
123456550332682232216264
圖6中,當?=0.7保持不變時,可知三條曲線的極值點都出現(xiàn)在聚類數(shù)為6時,且r=0.7時IDBI值最小,即r值的變化不影響最佳聚類數(shù)的變化,只影響IDBI。圖7中,當保持r=0.7不變時,三條曲線的極值點位置存在差異,IDBI最小的曲線為?=0.7,此時的最佳聚類數(shù)為6,說明?取不同值時最佳聚類數(shù)有區(qū)別,且IDBI也不盡相同。綜上所述,適合于PCC算法的最佳取值應(yīng)為?=0.7和r=0.7。
將傳統(tǒng)FCM聚類算法和k-means算法應(yīng)用于本文兩數(shù)據(jù)源中,并與PCC算法的聚類有效性指標進行比較,如圖8所示。由圖8結(jié)果可得出PCC算法在兩數(shù)據(jù)源分類中的聚類有效性指標都比傳統(tǒng)算法理想,因此可知PCC算法聚類效果較好,分類結(jié)果合理。
圖8 PCC算法與傳統(tǒng)FCM算法和k-means 算法聚類結(jié)果對比
1) 提出一種基于Pearson相關(guān)系數(shù)作為聚類判據(jù)的負荷曲線聚類算法——PCC,通過對負荷數(shù)據(jù)進行數(shù)據(jù)清理以及去噪處理,選擇合適的降維算法進行降維之后,以改進方法選取初始聚類中心,利用 Pearson 相關(guān)系數(shù)作為聚類相似性判據(jù),對電力用戶負荷曲線進行聚類分析。
2) 利用Pearson相關(guān)系數(shù)作為聚類判據(jù),比傳統(tǒng)基于歐氏距離的判據(jù)方法更能合理地反映負荷曲線相似性,同時在聚類速度上也有較大改進。
3) 本文研究角度為橫向角度聚類,即每一用戶都選定同一天負荷曲線聚類。如何從縱向角度,即從同一用戶多天的負荷曲線中,結(jié)合溫度等因素找尋典型曲線,再對不同用戶的典型曲線進行聚類是接下來需要研究的方向。
[1] 宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):927-935.
SONG Yaqi,ZHOU Guoliang, ZHU Yongli.Present status and challenges of big data processing in smart grid[J]. Power System Technology, 2013, 37(4): 927-935.
[2] 趙騰, 張焰, 張東霞. 智能配電網(wǎng)大數(shù)據(jù)應(yīng)用技術(shù)與前景分析[J].電網(wǎng)技術(shù),2014,38(12):3305-3312.
ZHAO Teng, ZHANG Yan,ZHANG Dongxia.Application technology of big data in smart distribution grid and its prospect analysis[J]. Power System Technology, 2014,38(12):3305-3312.
[3] 張欣,高衛(wèi)國,蘇運.基于函數(shù)型數(shù)據(jù)分析和k-means 算法的電力用戶分類[J].電網(wǎng)技術(shù),2015,39(11):3153-3162.
ZHANG Xin, GAO Weiguo,SU Yun. Electricity consumer archetypes study based on functional data analysis and k-means algorithm[J]. Power System Technology,2015, 39(11):3153-3162.
[4] 王星華,陳卓優(yōu),彭顯剛. 一種基于雙層聚類分析的負荷形態(tài)組合識別方法[J]. 電網(wǎng)技術(shù), 2016, 38(1):1-7.
WANG Xinghua,CHEN Zhuoyou, PENG Xiangang. A new combinational electrical load analysis method based on bilayer clustering analysis[J]. Power System Technology,2016, 38(1):1-7.
[5] 張慧哲, 王堅. 基于初始聚類中心選取的改進 FCM 聚類算法[J]. 計算機科學,2009,36(6):206-209.
ZHANG Huizhe, WANG Jian. Improved fuzzy C means clustering algorithm based on selecting initial clustering centers[J].Computer Science, 2009,36(6) : 206-209.
[6] 蔣雯倩, 李欣然, 錢軍. 改進FCM算法及其在電力負荷壞數(shù)據(jù)處理的應(yīng)用[J]. 電力系統(tǒng)及其自動化學報, 2011, 23(5): 1-5.
JIANG Wenqian, LI Xinran, QIAN Jun. Application of improved FCM algorithm in outlier processing of power load[J]. Proceedings of the CSU-EPSA, 2011, 23(5): 1-5.
[7] 張斌,莊池杰,胡軍,等.結(jié)合降維技術(shù)的電力負荷曲線集成聚類算法[J].中國電機工程學報,2015,35( 15) : 3741-3749.
ZHANG Bin, ZHUANG Chijie,HU Jun,et al. Ensemble clustering algorithm combined with dimension reduction techniques for power load profiles[J].Proceedings of the CSEE,2015, 35(15): 3741-3749.
A clustering algorithm of power userload curves based on Pearsoncorrelation coefficient
WANG Xinghua,XU Xuanhao,ZHOU Yawu
(School of Automation,Guangdong University of Technology,Guangzhou 510006,China)
A Pearson Correlation Clustering (PCC) algorithm based on Pearson correlation coefficient as a clustering criterion is proposed. Firstly, the load data is cleaned and noiseeliminationis made, thenthe appropriate dimensionality reduction algorithm is selected to reduce the complexity of data processing. The Pearson correlation coefficient threshold is proposed to be used as the method of clustering center selection to solve the stochasticity of the initial clustering center selection. Clusteringis madebyusing Pearson correlation coefficient between the power load curve data and the clustering center,and the influence of different coefficients on the clustering effect is analyzedby takingthe DBI indexas the clustering effect. The results show that compared with the traditional algorithm, the algorithm has a short run time, strong robustness and better clustering effect.
Pearson correlation coefficient; load curve classification; dimensionality reduction; median filter; clustering validity
2017-06-27。
王星華(1972—),男,副教授,研究方向為電力系統(tǒng)自動化,電力系統(tǒng)高級應(yīng)用軟件開發(fā),信息化電力系統(tǒng)等領(lǐng)域的研究和開發(fā)。
TM714
A
2095-6843(2017)05-0397-05
(編輯陳銀娥)