王剛,楊志杰,徐新宇
(國網(wǎng)新疆電力有限公司電力科學(xué)研究院,新疆 烏魯木齊 830017)
在電力繳費一體化建設(shè)中,需要利用智能電表所采集的大數(shù)據(jù)進行異常用電定位實現(xiàn)抄核收的一體化和智能化,并借助精準(zhǔn)負(fù)載預(yù)測為電力營銷的模式創(chuàng)新提供數(shù)據(jù)支持。因此有必要利用智能電表大數(shù)據(jù)進行隨機負(fù)載建模[1-3]。傳統(tǒng)基于測量的負(fù)荷建模通常僅限于變電站級別的負(fù)載測量,但是智能電表能夠提供15分鐘到一個小時的時間分辨率的單個用戶負(fù)載數(shù)據(jù),這使得開發(fā)更準(zhǔn)確的隨機負(fù)載模型成為可能[4-5]。
使用智能電表的大數(shù)據(jù)進行詳細(xì)的大規(guī)模仿真需要極大的計算成本。除了大數(shù)據(jù)問題外,高度非線性的復(fù)雜用電模式也使得隨機負(fù)載建模面臨極大挑戰(zhàn)[6-7]。為此,本文提出一種新的負(fù)載建模方法。該方法可簡化數(shù)據(jù)的復(fù)雜性,同時保持?jǐn)?shù)據(jù)分辨率,并最大程度地減少線性負(fù)載曲線的數(shù)量。最后通過試驗對該方法的有效性和優(yōu)點進行驗證。
所提出智能電表數(shù)據(jù)建模方法的主要步驟如圖1所示。
數(shù)據(jù)預(yù)處理是去除數(shù)據(jù)集中的缺失值或零值數(shù)據(jù)樣本。數(shù)據(jù)集Y由將近6 000個用戶的每隔半小時的m個用電序列記錄組成。單個用戶的用電量曲線y表示為:
y=[y0(x),y1(x),…,ym(x)]
(1)
式中:ym為在時間點xm上的用電量。設(shè)f是y及其導(dǎo)數(shù)的向量值函數(shù),則y可以由n階和m維的常微分方程組表示:
圖1 流程圖
(2)
方程組(2)的范德蒙矩陣形式為:
(3)
式(3)簡寫為:
yc=[F]=[X][A]
(4)
式中:yc為用戶。因此,數(shù)據(jù)集Y=[Fc1,Fc2,…,Fcm](其中cm為用戶m)代表每個用戶隨時間變化的用電量數(shù)據(jù),其中用電量和時間的函數(shù)關(guān)系是連續(xù)的、非線性的。
為了表征用戶群的用電模式,本文使用擴展k均值聚類算法對數(shù)據(jù)集進行處理[8-9]。對于具有m個數(shù)據(jù)實例的數(shù)據(jù)集Y,生成k個聚類,即C1、C2、…、Ck,μ(Ck)代表聚類k的聚類中心,則k均值聚類算法的誤差函數(shù)公式為[10]:
(5)
式中:i為聚類數(shù);d[x,μ(Ci)]為數(shù)據(jù)點x與聚類中心μ(Ci)之間的距離。
作為具有較好雜散能力的常用的鄰近度量之一,本文使用平方歐幾里得距離來計算聚類成員與聚類中心之間的距離[11-12]。對于兩個不同的數(shù)據(jù)點xi和xj,平方歐幾里德距離可以表示為:
(6)
擴展k均值聚類算法使用k均值將每個聚類(父聚類)以分層的方式分為兩個聚類(子聚類),直到聚類的每個節(jié)點均滿足停止條件。第一停止條件是聚類用戶數(shù)量低于閾值。低于閾值的聚類將被視為具有足夠的聚類內(nèi)模式相似性。根據(jù)經(jīng)驗評估,在智能電表數(shù)據(jù)的聚類場景和試驗中,用戶數(shù)量少于總?cè)丝诘陌俜种坏木垲悆?nèi)部模式相似度足以用于模式提取。雖然在聚類中擁有更少的用戶可以生成更緊湊的集群,但是計算成本也將大幅提高。因此,必須保持聚類數(shù)量與特性相似度之間的平衡,以在實現(xiàn)數(shù)據(jù)精簡的同時最大程度地降低對計算成本的影響。因此,根據(jù)經(jīng)驗評估將百分之一用戶作為第一停止標(biāo)準(zhǔn)。
確定重聚類過程的第二個停止條件為子聚類誤差低于父聚類誤差。選擇誤差作為停止條件的關(guān)鍵障礙是數(shù)據(jù)的易變性。在聚類結(jié)果的每個階段,都會為父群集和子群集計算平均絕對百分比誤差。聚類k的誤差計算方法為:
(7)
式中:Ek為聚類k相對于聚類中心μ(Ck)平均值的誤差;Cki為用戶i所在的聚類k;m為用戶總數(shù)。在重聚類的過程中,誤差會減小到最小,超過該誤差會飽和。
Ep≥EC
(8)
圖2 擴展k均值算法
式中:Ep為父群集的誤差;Ec為子群集的誤差。因此,如果重聚類過程不滿足停止條件1,則繼續(xù)重聚類過程直到滿足停止條件2。擴展的k均值聚類的流程如圖2所示。
擴展k均值聚類算法將整個數(shù)據(jù)集(父類)劃分為兩個聚類(子類),使得某些用戶Fc1,Fc5,Fc12,…位于一個聚類中,而其余用戶Fc2,Fc3,Fc4,…被分配給另一個聚類。重聚類過程再次將每個聚類分為兩部分,由聚類1的分支而產(chǎn)生的兩個子聚類:Fc1,Fc12,Fc15,…和Fc5,Fc13,Fc18,…。其他聚類同樣細(xì)分,直到所有聚類滿足停止條件之一。聚類公式為:
(9)
從聚類結(jié)果生成平均用電量曲線文件,以便使用單個函數(shù)表示聚類用戶的用電量數(shù)據(jù)模式。平均用電量曲線具有很大的波動,這些波動會使數(shù)據(jù)模式不清楚。因此,可以應(yīng)用多項式曲線擬合和移動平均平滑等曲線平滑技術(shù)來平滑數(shù)據(jù)。較低次數(shù)的多項式很難捕獲較高的變化,而較高次數(shù)的多項式則遭受了朗格現(xiàn)象的影響,這給曲線平滑帶來難度。在大多數(shù)情況下,平均用電量曲線會衰減用電量意外變化所導(dǎo)致的數(shù)據(jù)噪聲。為此使用移動平均平滑化來處理聚類數(shù)據(jù)。移動平均平滑是一個卷積過程,可以表示為[13]:
(10)
式中:y為變量;Ci為卷積整數(shù);j為運行索引;N為時間段數(shù)。平滑后,將用電量曲線線性化以降低數(shù)據(jù)模式的復(fù)雜性。使用泰勒級數(shù)線性化過程可以實現(xiàn)非線性函數(shù)的線性化。用電量閾值點被用作線性化的工作點。
確定閾值點后,其余數(shù)據(jù)點將被忽略以進行線性化。在三個數(shù)據(jù)點或一個半小時內(nèi)出現(xiàn)的閾值點將被忽略,以進一步減小變化。閾值點僅用作泰勒級數(shù)展開直至第一階的操作點。高階項被忽略,因為它們的影響可以忽略不計。盡管已經(jīng)實現(xiàn)了線性化,但是需要使用式(11)對丟失的數(shù)據(jù)點進行插值,以平滑用電量曲線。
(11)
式中:y為yi在時間點xi+1處的插值,其中i=0,1,2,…,n。對于用電量曲線,這會導(dǎo)致連續(xù)的線性曲線與不連續(xù)的導(dǎo)數(shù)串聯(lián)在一起。線性化的曲線可以由切線的串聯(lián)來表示,使得在工作點ai處可以形成線性曲線,如式(12)所示。
(12)
式中:f′(ai)為ai的導(dǎo)數(shù)。通過曲線的線性化減少了數(shù)據(jù)的復(fù)雜性,并將如式(3)所示的復(fù)雜非線性函數(shù)簡化為如式(12)的線性函數(shù)。這種線性化轉(zhuǎn)換簡化了用電量隨時間的變化。
試驗數(shù)據(jù)為近5 000名來自烏魯木齊地區(qū)用戶的一年的智能電表數(shù)據(jù)。數(shù)據(jù)集由6個逗號分隔值(CSV)文件組成,總大小為3 GB。使用MATLAB平臺實現(xiàn)上述方法,并在8 GB RAM的Intel Core i7筆記本電腦上進行兩個仿真實驗。
第一個試驗以周為頻率對預(yù)處理的數(shù)據(jù)進行聚類。整年52周的數(shù)據(jù)在每個單獨的星期進行聚類,從而生成52個聚類。時間分辨率為30 min的每周用電量分布圖的維數(shù)為D=(60×168)/30,即336。提取每個最終聚類的平均用電量分布圖并進行線性化以生成加權(quán)線性分布圖。
第二個試驗的聚類過程的時間窗口從一周增加到一個月。使用一年的智能電表數(shù)據(jù)每月進行一次聚類。每個月的用電量數(shù)據(jù)文件都有不同的維度,具體取決于月份中的日期。
在每個試驗中都有幾個單用戶的聚類,這些聚類數(shù)據(jù)在統(tǒng)計上被稱為離群值。由于這些數(shù)據(jù)僅占原始數(shù)據(jù)的0.31%以下,試驗首先剔除這些離群值。
由于用電模式在一周內(nèi)的可變性較大,因此試驗1中生成的聚類數(shù)量也更多,并且聚類成員的一致性很少見。如圖3所示,低誤差表明線性化過程已高精度地逼近了原始用電量曲線。圖4顯示了一個典型周的聚類及其概況??梢杂^察到,線性曲線輪廓幾乎擬合非線性曲線輪廓,同時使用電量的變化最小。
圖3 每周用電量采集的百分比誤差
在試驗2中,用電量細(xì)節(jié)變化的影響相對小于試驗1,從而導(dǎo)致聚類數(shù)量減少。聚類時間周期的延長顯示了用電模式的季節(jié)性變化。簡單的線性化用電量數(shù)據(jù)文件可用于中期用電量預(yù)測研究,特別是季節(jié)性用電量的變化。圖5顯示了四個隨機的月度聚類及其用電量曲線。
在智能電網(wǎng)中,智能電表產(chǎn)生大量的用電量數(shù)據(jù),因此對每個用戶節(jié)點的用電量進行建模以發(fā)現(xiàn)異常用電,并進行精準(zhǔn)電力營銷,需要對大量數(shù)據(jù)進行非線性處理,這樣會導(dǎo)致計算成本過高。本文提出了一種通過使用一組加權(quán)線性曲線對高非線性智能電表數(shù)據(jù)進行隨機建模的新方法。該方法采樣優(yōu)化聚類算法,對模式相似度高的數(shù)據(jù)進行聚類,以提取用電量分布圖。與普通的線性逼近方法相比,該方法對非線性用電量數(shù)據(jù)進行線性化處理,而不會影響精度。試驗證明,提取具有高度集群內(nèi)模式相似性的模式、將高度非線性的函數(shù)轉(zhuǎn)換為線性函數(shù)的級聯(lián)能夠在不降低準(zhǔn)確性的基礎(chǔ)上有效提高智能電表數(shù)據(jù)建模的效率。
圖4 試驗1結(jié)果
圖5 試驗2結(jié)果