周 宇 劉海璇 胡衛(wèi)豐 胥 崢 劉志明 袁曉玲
(1.國網(wǎng)江蘇省電力有限公司 南京 210008)(2.中國電力科學(xué)研究院 南京 210003)(3.河海大學(xué)能源與電氣學(xué)院 南京 211100)
影響用戶用電行為的因素眾多,需要從時(shí)間、空間、用戶類型等多個(gè)維度,分析自然、社會各種潛在因素與用電行為的關(guān)聯(lián)關(guān)系,并深度挖掘因素集與用戶用電行為的關(guān)聯(lián)強(qiáng)度[1]。影響用戶用電行為模式的各個(gè)因素關(guān)聯(lián)強(qiáng)度亦不相同,為此,需要利用關(guān)聯(lián)挖掘技術(shù)分析影響因素集合與相關(guān)性或因果結(jié)構(gòu)[2]。從而針對特定的用戶行為,用電行為集合之間的頻繁模式、關(guān)聯(lián)性、從眾多因素中發(fā)現(xiàn)提煉與其關(guān)聯(lián)的影響要素,建立精細(xì)化用電模式與影響因素的關(guān)聯(lián)模型,從而進(jìn)一步理解用戶用電行為[3]。
目前,隨著泛在電力物聯(lián)網(wǎng)進(jìn)程的提出和不斷推進(jìn),眾多信息系統(tǒng)和平臺在有效管理各類智能設(shè)備、促進(jìn)智能電網(wǎng)建設(shè)、提升公司電網(wǎng)運(yùn)營管理水平的同時(shí)[4],電網(wǎng)企業(yè)存儲了海量數(shù)據(jù),這些數(shù)據(jù)直觀上沒有表現(xiàn)出任何有價(jià)值的信息,但采用數(shù)據(jù)挖掘的方法,數(shù)據(jù)中隱藏的信息就會被提取出來[5~6]。文獻(xiàn)[7]考慮城市微氣象和節(jié)假日等影響因素,建立用電行為差異化模型,精細(xì)化挖掘用戶用電行為特征。文獻(xiàn)[8~9]利用數(shù)據(jù)挖掘和數(shù)理統(tǒng)計(jì)的相關(guān)技術(shù),對一個(gè)地區(qū)不同行業(yè)的用電行為進(jìn)行分析,提取出各個(gè)行業(yè)的用電特征和客戶的群體特性。文獻(xiàn)[10]以高斯濾波技術(shù)消除初始數(shù)據(jù)中的噪聲,結(jié)合k-means、SOM等聚類算法建立聚類分析模型,獲得隱藏在數(shù)據(jù)集中典型用電模式及其合適的聚類數(shù)目。文獻(xiàn)[11]和文獻(xiàn)[12]中的聚類方法對所有用戶都提取同一組特征量對用戶負(fù)荷進(jìn)行聚類研究,無法充分掌握用戶的負(fù)荷特性。文獻(xiàn)[13]提出基于差異化特征量提取的分層聚類方法實(shí)現(xiàn)用戶用電行為的分類識別。
本文利用UCI(University of California,Irvine)數(shù)據(jù)庫[14]公布的法國克拉馬地區(qū)某用戶的用電數(shù)據(jù)進(jìn)行聚類分析?;贙均值聚類算法計(jì)算時(shí)間短、速度快、聚類結(jié)果容易解釋的優(yōu)點(diǎn)[15~16],通過合理的選擇聚類初始K值來提高聚類的準(zhǔn)確度,精確挖掘出用戶的不同用電行為,為客戶用電精細(xì)化管理和提供優(yōu)質(zhì)用電服務(wù)等提供支持。
為實(shí)現(xiàn)對居民電力負(fù)荷特征的分析,首先要準(zhǔn)確提取用戶的用電特征曲線。本文的居民用戶電力負(fù)荷特征分析框架如圖1所示。首先對原始的居民用戶用電數(shù)據(jù)進(jìn)行預(yù)處理,這些預(yù)處理包括缺失數(shù)據(jù)處理、數(shù)據(jù)歸一化。然后對預(yù)處理完后的數(shù)據(jù)采用K均值算法提取的用戶負(fù)荷特征曲線,根據(jù)不同日類型下的負(fù)荷特征曲線,分析其用電行為特征。將聚類分析技術(shù)應(yīng)用到電力大數(shù)據(jù)中,有助于電力公司進(jìn)行需求側(cè)管理、用戶細(xì)分、用電優(yōu)化建議等[17~19]。
圖1 電力負(fù)荷特征分析框架
K均值聚類算法是劃分聚類分割的方法,其工作原理是:首先隨機(jī)從給定的數(shù)據(jù)集中選中K個(gè)點(diǎn),每個(gè)點(diǎn)代表每個(gè)簇的初始聚類中心,然后計(jì)算剩余各個(gè)樣本到聚類中心的歐式距離,將其歸為離它最近的那個(gè)簇,接著重新計(jì)算每一個(gè)簇的平均值,整個(gè)過程不斷重復(fù),直到平方誤差準(zhǔn)則函數(shù)最?。?0]。平方誤差準(zhǔn)則定義為
式中,k為聚類個(gè)數(shù),ti為第i類中的樣本的個(gè)數(shù),mi是第i類中樣本的均值。
K均值聚類算法是典型的基于距離的聚類算法,采用點(diǎn)與點(diǎn)之間的距離作為相似性評價(jià)指標(biāo),即認(rèn)為兩個(gè)對象的距離越近,相似度就越大。距離算法一般采用歐氏距離,如式(2)。
式中,xi是樣本X的第i個(gè)變量值;yi是樣本Y的第i個(gè)變量值。這種算法認(rèn)為簇是由距離靠近的對象組成,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。
2.2.1 數(shù)據(jù)清洗
進(jìn)行聚類分析的數(shù)據(jù)來自生產(chǎn)、生活、商業(yè)中的實(shí)際數(shù)據(jù),在現(xiàn)實(shí)世界中,由于各種內(nèi)部或外部影響,導(dǎo)致數(shù)據(jù)會出現(xiàn)缺漏或者異常數(shù)據(jù)的存在。為了提高最終結(jié)果的可信性和可解釋性,在進(jìn)行聚類之前對這些壞數(shù)據(jù)進(jìn)行剔除和修復(fù)。
針對數(shù)據(jù)集中出現(xiàn)的缺失值,利用向前向后移動平均法對缺失數(shù)據(jù)補(bǔ)齊。設(shè)缺失數(shù)據(jù)Li是某一天負(fù)荷曲線的第i個(gè)數(shù)據(jù)點(diǎn),修正后的數(shù)據(jù)Li"為
式中,Li-h和Li+g分別代表Li向前h個(gè)數(shù)據(jù)和向后g個(gè)數(shù)據(jù);h1和g1一般可取5~10。
2.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化
為了更明顯地體現(xiàn)用戶用電行為的動態(tài)變化,對用戶的原始負(fù)荷數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理:對原始數(shù)據(jù)進(jìn)行歸一化處理,使最終結(jié)果落入[0,1]區(qū)間,歸一化公式如式(4):
式中xi和x*分別表示第i個(gè)采樣時(shí)刻實(shí)際的用電負(fù)荷和標(biāo)準(zhǔn)化之后的用電負(fù)荷,xmax和xmin分別表示每一天樣本數(shù)據(jù)中的負(fù)荷最大值和最小值,n為每一天樣本中的負(fù)荷采樣點(diǎn)數(shù)。
雖然K均值算法具有簡單、效果好的優(yōu)點(diǎn),但算法中的K值是事先給定的,而K值的大小往往難以估計(jì),不同的K值對聚類結(jié)果的準(zhǔn)確性也會產(chǎn)生影響。目前常用的確定K值的方法有輪廓圖法、誤差平方和法等[21]。本文采用輪廓圖法作為初始K值的確定方法。
輪廓圖是利用輪廓系數(shù)做出的圖形。輪廓系數(shù)是聚類效果好壞的一種評價(jià)方式,最早由Peter J.Rousseeuw在1986年提出,它結(jié)合內(nèi)聚度和分離度兩種因素,用來在相同原始數(shù)據(jù)的基礎(chǔ)上評價(jià)不同算法、或者算法不同運(yùn)行方式對聚類結(jié)果所產(chǎn)生的影響[22]。輪廓圖上第i點(diǎn)的輪廓值定義為
式中,a是第i點(diǎn)與同一個(gè)簇中其他點(diǎn)的平均距離。b是向量,其元素表示第i點(diǎn)與其他不同簇中各點(diǎn)的平均距離。S(i)的取值范圍是[-1,1],S(i)的值接近于1說明點(diǎn)i更傾向于當(dāng)前的類,S(i)接近0表示點(diǎn)i傾向于在兩個(gè)類之間,S(i)接近-1表示點(diǎn)i傾向于其他某一個(gè)類。
平均輪廓值就是將所有點(diǎn)的輪廓系數(shù)求和取平均,平均輪廓值越大,表示聚類效果越好。
本文利用UCI數(shù)據(jù)庫公布的2007年某智能小區(qū)的一戶居民的用電數(shù)據(jù)集進(jìn)行分析。數(shù)據(jù)集包含該家庭每隔1分鐘一次電量消耗測量數(shù)據(jù)。
在進(jìn)行初始聚類數(shù)K值確定之前,首先對預(yù)處理后的負(fù)荷數(shù)據(jù)進(jìn)行每60分鐘求和一次,所得的數(shù)據(jù)即為日24點(diǎn)數(shù)據(jù),處理完后的數(shù)據(jù)采用輪廓圖法確定其最佳聚類類別數(shù)。圖2分別表示聚類類別為2、3、4時(shí)的輪廓圖。表1為不同K值對應(yīng)的平均輪廓值,根據(jù)2.3節(jié)輪廓圖以及平均輪廓值的定義,確定選擇此數(shù)據(jù)集類別數(shù)為2。
圖2 不同K值下的輪廓圖
表1 不同K值對應(yīng)的平均輪廓值
本文以數(shù)據(jù)集中2007年一月份的數(shù)據(jù)為例,隨機(jī)選取初始聚類中心,得到兩類居民日負(fù)荷特征曲線如圖3所示。
圖3 居民一月日負(fù)荷曲線及特征曲線
根據(jù)圖3的聚類結(jié)果,該用戶的一月的日負(fù)荷特征曲線主要有兩類。這兩類特征曲線變化趨勢有明顯的差異。
結(jié)合圖4中的空調(diào)熱水器負(fù)荷和廚房負(fù)荷可以看出:第一類負(fù)荷特征曲線在11:00~14:00出現(xiàn)一個(gè)負(fù)荷高峰,與空調(diào)熱水器負(fù)荷高峰出現(xiàn)的時(shí)間一致。第二類負(fù)荷特征曲線有兩個(gè)用電負(fù)荷高峰,分別出現(xiàn)在上午8:00~10:00和晚上的18:00~22:00,在這兩個(gè)用電高峰期間,空調(diào)熱水器負(fù)荷基本一直處于大功率運(yùn)行的狀態(tài)中,而廚房負(fù)荷運(yùn)行時(shí)間分散且功率較小,說明該用戶用電追求舒適性,空調(diào)熱水器類等對用戶用電舒適性有較強(qiáng)相關(guān)性負(fù)荷在該家庭中占有很大的比重。
圖4 負(fù)荷曲線的熱力圖
由于空調(diào)熱水器等負(fù)荷對用戶的舒適性影響很大,且廚房負(fù)荷的使用時(shí)間較為固定,考慮到洗衣房負(fù)荷對用戶舒適性影響較小且用電時(shí)間較為分散,為了緩解用電高峰時(shí)段電力系統(tǒng)的調(diào)峰壓力,將聚類一和聚類二中用電高峰時(shí)段的洗衣房負(fù)荷轉(zhuǎn)移到用電低谷期。仿真分析采用文獻(xiàn)[23]國內(nèi)實(shí)施的用電峰谷時(shí)段劃分,轉(zhuǎn)移后得到的結(jié)果如圖5所示。
圖5 負(fù)荷轉(zhuǎn)移前后聚類結(jié)果
由圖5可以看出,轉(zhuǎn)移后的負(fù)荷特征曲線的用電峰值比負(fù)荷轉(zhuǎn)移前都有所下降。第一類特征曲線在11:00~13:00出現(xiàn)的負(fù)荷高峰轉(zhuǎn)移到了夜間1:00~4:00。而第二類特征曲線19:00出現(xiàn)的負(fù)荷轉(zhuǎn)移到了凌晨負(fù)荷比較低的時(shí)段。
為了進(jìn)一步分析用戶的用電行為,本文提取節(jié)假日和不同季節(jié)典型負(fù)荷特性曲線,對用戶的用電行為特征進(jìn)一步分析。
法國的主要節(jié)假日有元旦和勞動節(jié)共6天法定節(jié)假日以及萬圣和圣誕等四個(gè)宗教節(jié)日。文中將這21天的節(jié)假日負(fù)荷數(shù)據(jù)利用K均值聚類方法提取出節(jié)假日的特征曲線,當(dāng)K取2時(shí),平均輪廓值為0.4847,大于K取其它值時(shí)的平均輪廓值,最終得到聚類結(jié)果如圖6。
圖6 節(jié)假日用電負(fù)荷曲線及特征曲線
根據(jù)圖6的聚類結(jié)果可以看出,節(jié)假日有兩類特征曲線,第一類用電負(fù)荷特征曲線有明顯的用電高峰區(qū)和用電低谷區(qū),用電高峰出現(xiàn)在晚上的19:00~21:00,凌晨1:00~6:00為用電低谷區(qū);第二類用電負(fù)荷曲線一天之內(nèi)的波動比第一類小,用電高峰出現(xiàn)在中午12:00和凌晨1:00。
為了對節(jié)假日用戶用電行為作進(jìn)一步分析,利用熱力圖將這21天的空調(diào)熱水器負(fù)荷、廚房負(fù)荷和洗衣房負(fù)荷曲線表示出來,得到結(jié)果如圖7所示。
圖7 負(fù)荷曲線的熱力圖
由圖7節(jié)假日期間空調(diào)熱水器負(fù)荷和廚房負(fù)荷可以看出,第一類用電曲線代表的節(jié)假日各類負(fù)荷的使用頻率明顯高于第二類用電曲線代表的節(jié)假日。進(jìn)一步,通過對比兩類節(jié)假日廚房用電曲線,在圣誕節(jié)(屬于第一類節(jié)假日用電特征曲線)這種重大的宗教節(jié)日期間,廚房負(fù)荷遠(yuǎn)高于第二類節(jié)假日的廚房負(fù)荷,說明用戶在這些節(jié)假日期間,用戶更可能在家里與親人朋友團(tuán)聚;第二類節(jié)假日特征曲線有多天廚房負(fù)荷為0,說明用戶在元旦(屬于第二類節(jié)假日用電特征曲線)這種比較長的假期外出游玩或外出用餐。
由于聚類二中洗衣房負(fù)荷都處于閑置的狀態(tài),只針對聚類一中的廚房負(fù)荷進(jìn)行轉(zhuǎn)移,得到的結(jié)果如圖8。
圖8 負(fù)荷轉(zhuǎn)移前后聚類結(jié)果
根據(jù)圖8,用電高峰期的洗衣房負(fù)荷轉(zhuǎn)移到凌晨時(shí)段,使得節(jié)假日第一類用電負(fù)荷曲線在白天時(shí)段的用電波動變得更加平緩。
為了分析該地區(qū)用電負(fù)荷隨氣候狀況變化的規(guī)律,本文結(jié)合該地區(qū)的氣候特征,分析用電行為與氣候之間的關(guān)系。文中采用傳統(tǒng)意義上的典型季節(jié)劃分:春季指每年的3~5月,夏季指每年的6~8月,秋季指每年的9~11月,冬季為12月和次年的1~2月。
圖9 各季節(jié)用電負(fù)荷特征曲線
當(dāng)K=2時(shí),四個(gè)季節(jié)的平均輪廓值均為最大,選取聚類結(jié)果中包含天數(shù)較多的那一類作為該季節(jié)的典型用電負(fù)荷曲線,如圖9所示。從圖中可以看出,無論哪一個(gè)季節(jié),該用戶用電負(fù)荷的日變化均具有明顯的波動特征。凌晨2:00~6:00之間用電負(fù)荷較小,日最低用電負(fù)荷值出現(xiàn)在凌晨4點(diǎn)左右。從早晨6:00開始至上午8:00負(fù)荷逐漸增大,在8:00達(dá)到了日變化的最大值。下午1:00出現(xiàn)用電負(fù)荷的一個(gè)低值區(qū),下午6:00之后,出現(xiàn)了一天中第二次用電負(fù)荷的快速增長,在夜間10:00左右達(dá)到了一天的最大值。由于該用戶位于法國克拉馬地區(qū),該地區(qū)冬季溫度較低,夏季涼爽,氣溫年差較小,所以該用戶春、夏、秋三個(gè)季節(jié)的特征曲線變化趨勢基本一致,用戶第二次負(fù)荷增長出現(xiàn)的時(shí)間以及最大值出現(xiàn)時(shí)間基本一致。由于冬季氣溫較低以及天黑時(shí)間提前,所以冬季的第二次用電負(fù)荷增長出現(xiàn)的時(shí)間提前,最高值出現(xiàn)在20:00左右。
1)本文利用K均值算法對居民用戶用電負(fù)荷數(shù)據(jù)進(jìn)行聚類分析,為了尋求最優(yōu)初始聚類數(shù)K值,采用輪廓圖和平均輪廓值確定最優(yōu)的初始聚類數(shù),該方法可以對分類的合理性進(jìn)行判斷,解決了K均值算法對初始K值敏感的問題;
2)通過K均值算法提取用戶的日負(fù)荷特征曲線、節(jié)假日特征曲線以及各季節(jié)特征曲線,結(jié)合空調(diào)熱水器、廚房負(fù)荷和洗衣房負(fù)荷熱力圖,得出居民在不同情境下的用電消費(fèi)習(xí)慣,對居民用戶的用電行為進(jìn)行分析。
3)通過將對用戶舒適性影響不大的洗衣房負(fù)荷進(jìn)行轉(zhuǎn)移,可以有效改善用戶的用電負(fù)荷曲線。
用戶用電行為特征分析結(jié)果有助于電力公司根據(jù)用戶的用電行為設(shè)計(jì)相應(yīng)的需求響應(yīng)激勵機(jī)制,提高居民用戶對需求響應(yīng)的參與度,使精細(xì)化和實(shí)時(shí)化的需求響應(yīng)工作更易實(shí)現(xiàn)。
隨著泛在電力物聯(lián)網(wǎng)技術(shù)的發(fā)展以及負(fù)荷監(jiān)測技術(shù)的不斷進(jìn)步,更細(xì)粒度的電能消耗數(shù)據(jù)將會更容易獲得,基于這些數(shù)據(jù)的數(shù)據(jù)挖掘?qū)τ秒娯?fù)荷預(yù)測、用戶的用電個(gè)性化管理以及用能診斷提供依據(jù)。