卜鴻翔
(南瑞集團(tuán)有限公司 江蘇省南京市 211106)
在電力行業(yè)中,通常對用電負(fù)荷以每15 分鐘采樣一次的頻率記錄用戶的日用電詳細(xì)情況,每日共采樣96 個負(fù)荷特征值。在大數(shù)據(jù)分析中,這96 個負(fù)荷特征值(即96 個變量)組成的高維分析源數(shù)據(jù),存在信息相似、采集異常、數(shù)據(jù)跳變等特點(diǎn),一般需要進(jìn)行數(shù)據(jù)預(yù)處理和降維處理,以便于進(jìn)一步使用。在以往研究中,為了分析方便,普遍會將所有異常信息識別為臟數(shù)據(jù)后進(jìn)行剔除,而在實(shí)際應(yīng)用中,特別是對單個用電企業(yè)日用電情況分析中,由于一些外部影響因素持續(xù)發(fā)生影響,其日負(fù)荷數(shù)據(jù)的瞬時性尖峰值數(shù)據(jù)在相鄰一段時間內(nèi)會規(guī)律性重復(fù)出現(xiàn),所以該類數(shù)據(jù)不應(yīng)該被當(dāng)成臟數(shù)據(jù)被去除,而基于保留的這些規(guī)律性瞬時尖峰數(shù)據(jù),在進(jìn)一步用PCA 方法做降維處理后,日負(fù)荷曲線會出現(xiàn)尖峰特征失真的情況,對后期分析產(chǎn)生較大影響。為了解決這一問題,本文提出一種方法,改變PCA 基于數(shù)據(jù)之間的距離進(jìn)行因子加權(quán)的做法,采用信息熵加權(quán)方法(基于數(shù)據(jù)密度進(jìn)行因子加權(quán))進(jìn)行特征提取處理,以保留分析原數(shù)據(jù)原有的特征。
本文所說的規(guī)律性瞬時尖峰數(shù)據(jù)是指在一段時間內(nèi),有規(guī)律地重復(fù)出現(xiàn)的瞬時性峰值波動數(shù)據(jù),這類數(shù)據(jù)發(fā)生所用時間不長,但尖峰時段出現(xiàn)有一定的規(guī)律,其產(chǎn)生的原因多種多樣,既可能是與季節(jié)有關(guān)的冬季取暖、夏季空調(diào),甚至可能是高鐵經(jīng)過、節(jié)假日等造成的。對用電用戶的短期用電分析來說,造成尖峰數(shù)據(jù)的成因在持續(xù)發(fā)揮作用,不能被簡單忽略,需要保留這些數(shù)據(jù)做全面分析。
圖1 為是某省級電網(wǎng) 2016年8月某用戶的負(fù)荷數(shù)據(jù),采樣頻率為15 分鐘,每日共96 負(fù)荷值,該用電用戶在19:15 左右出現(xiàn)的“釘狀”負(fù)荷波動,由于在相鄰的一段時間均發(fā)生,所以不能用常見消除“釘狀”毛刺的方法簡單剔除,因?yàn)檫@樣會導(dǎo)致相關(guān)影響因素的丟失。但基于保留的規(guī)律性瞬時尖峰數(shù)據(jù)進(jìn)行PCA 降維處理后,隨著維度的壓縮(本文壓縮時間段維度,將每日95 個時間段經(jīng)過PCA 降溫后壓縮為23:00~8:00、8:00~9:00、9:00~12:00、12:00~17:00、17:00~22:00、22:00~23:00 共6 個時間段),其降維后的日負(fù)荷特征曲線如圖2 所示。
對比圖2 和圖1 可知,圖2 與圖1 負(fù)荷特征曲線明顯不同,在圖2 中19:15 的負(fù)荷特征與8:30 左右的負(fù)荷特征相比,其“釘狀”特征并沒有圖1 明顯,存在特征權(quán)限失真情況。
進(jìn)一步分析可知,基于距離的PCA 降維方法對這類數(shù)據(jù)并不適用,主要原因在于PCA 基于方差等進(jìn)行加權(quán)處理,是對瞬時尖峰數(shù)據(jù)的平均化處理,從而導(dǎo)致了尖峰特征的失真,本文將采用一種基于密度的加權(quán)處理方法--信息熵加權(quán)方法,避免了平均化處理,以最大化保留了尖峰數(shù)據(jù)的原有特征。
信息熵是在1948年由克勞德?艾爾伍德?香農(nóng)提出,用來一種度量信息量多少的方法,其信息量多是基于各信息源提供信息的概率進(jìn)行計(jì)算,通常高信息度的信息熵則低,低信息度的信息熵則高。
使用信息熵加權(quán)方法的思想是:基于不同維度的特征在識別過程中所起的作用不同這一事實(shí),將信息熵作為權(quán)值來突出識別重要的特征或樣本,從而提高模式識別率。
基于信息熵加權(quán)進(jìn)行特征提取的計(jì)算方法如下:
設(shè)數(shù)據(jù)矩陣D 有n 維屬性集,m 個數(shù)據(jù)對象,其也可表示為由t 個子矩陣X 組成。
子矩陣X 表現(xiàn)如下:
信息熵加權(quán)特征提取的目標(biāo)是獲得保留原始矩陣重要特征的新數(shù)據(jù)矩陣D'。
步驟1:計(jì)算子矩陣Xt中第j 維屬性對應(yīng)的第i 個數(shù)據(jù)對象的特征值比重:
其中:Mij為特征值比重,xij為特征值,i=1,2,…,m;j=a,a+1,…,b;且
步驟2:計(jì)算子矩陣Xt的熵值:
其中:當(dāng)Mij=0 時,則MijlnMij=0。如果子矩陣中每個對象的特征值完全相等,那么此時Нit=Нimax=1,此時權(quán)重最大;當(dāng)數(shù)據(jù)對象的特征值相差越大時,也就是在子時間序列里信號波動越大,則Нit越小。
步驟3:對原子矩陣的均值加權(quán),以賦予子矩陣的新特征值。
圖1:含規(guī)律性瞬時尖峰的曲線
圖2:基于PCA 降維后的曲線
圖3:各時段信息熵加權(quán)系數(shù)
此時ψit是對象i 在子序列t 中的各屬性平均值。
本案例以圖1 的采集數(shù)據(jù)為樣本,基于信息熵加權(quán)方法進(jìn)行降維處理,降維仍然按照圖2 的6 個時段進(jìn)行維度的壓縮。
根據(jù)信息熵加權(quán)方法,計(jì)算每個時間段的特征值比重(對照計(jì)算公式的步驟1),并進(jìn)一步得到其信息熵(對照計(jì)算公式的步驟2),通過計(jì)算,6 個時間段對應(yīng)的值分別為0.94、0.92、0.86、0.97、0.81、0.97(如圖3),這說明該用戶在9:00-12:00 和17:00-22:00的信息熵較小,即對應(yīng)時段的負(fù)荷波動比其他時段大,尤其是在17:00-22:00 該時段可能會發(fā)生一些瞬時功率大幅度變化的事件,這與圖1 中19:15 左右出現(xiàn)的“釘狀”波動特征類似。
表1:兩種方法降維后的聚類結(jié)果對比
圖4:基于信息熵加權(quán)的特征曲線
圖5:兩種方法降維后的聚類輪廓系統(tǒng)圖
基于得到的以上的信息熵作為加權(quán)因子,計(jì)算作為每個時間段的特征值(對照計(jì)算公式的步驟3),各時段特征值分別為0.06,0.06,0.04,0.04,0.11,0.06,相對應(yīng)的降維特征曲線如圖4 所示。比較圖4 與圖2 可知,圖4 更接近圖1 的曲線特征。
本文在進(jìn)行降維處理后數(shù)據(jù),主要為聚類分析(主要算法為K-means)服務(wù)。本驗(yàn)證將選取具有規(guī)律性瞬時尖峰特征的用電用戶分別基于PCA 和信息熵加權(quán)降維處理后進(jìn)行聚類分析,以驗(yàn)證效果。
為了驗(yàn)證效果的客觀性和廣泛性,選取某省實(shí)際用電用戶的日負(fù)荷數(shù)據(jù)作為樣本,在用電行為特征上,“朝九晚五型”、“價格敏感型”、“夜間用電型”、“用電穩(wěn)定型”等用電用戶各選取100 個,共400 個樣本用戶。
評判應(yīng)用效果的標(biāo)準(zhǔn)主要來自兩個方面,一是通過輪廓系數(shù)進(jìn)行評價,它結(jié)合內(nèi)聚度和分離度兩種因素,可以在相同原始數(shù)據(jù)的基礎(chǔ)上用來評價不同數(shù)據(jù)處理方法對聚類結(jié)果所產(chǎn)生的影響。二是業(yè)務(wù)準(zhǔn)確度評價,本驗(yàn)證首先根據(jù)專家經(jīng)驗(yàn),對400 個實(shí)例進(jìn)行主觀分類,然后將聚類結(jié)果與專家分類相符的個數(shù)占總實(shí)例個數(shù)之比評估業(yè)務(wù)符合度。
經(jīng)過計(jì)算,使用基于PCA 和信息熵加權(quán)降維處理的聚類輪廓系數(shù)如圖5 所示,PCA 處理后的平均聚類輪廓系數(shù)為0.21,信息熵加權(quán)處理后的平均聚類輪廓系數(shù)為0.27。在技術(shù)指標(biāo)上,后一種進(jìn)行K—means 聚類效果更好。
兩種方法處理后進(jìn)行聚類后的業(yè)務(wù)精準(zhǔn)度對比如表1 所示,由表可知,后一種方法具有更高的準(zhǔn)確率。
綜上所述,通過本方法的優(yōu)化,不僅保留了源數(shù)據(jù)的原始特征,又很好處理了規(guī)律性瞬時尖峰數(shù)據(jù)降維帶來的特征失真問題,對處理單個用電企業(yè)的用電數(shù)據(jù)分析提供了一種新的參考方法,本方法不僅適用于電力領(lǐng)域,也適用于其他領(lǐng)域的類似特殊數(shù)據(jù)的處理。