代 慶,陳耀沖,張 霞
(南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東廣州 510520)
為了實現(xiàn)電能數(shù)據(jù)的合理利用,必須保證電能數(shù)據(jù)的質(zhì)量滿足應用要求[1],需要進行電能數(shù)據(jù)異常特征的提取[2]。
電能量數(shù)據(jù)維度較為顯著,且數(shù)據(jù)量龐大,這對電能量數(shù)據(jù)異常特征準確、高效提取存在一定影響,文獻[3]、文獻[4]分別提出了基于DBN-RF 的電網(wǎng)工控系統(tǒng)異常識別方法、基于KL 變換和KL 散度的電網(wǎng)數(shù)據(jù)特征提取與分類方法,這兩種方法對電能量數(shù)據(jù)異常特征的提取精度較高,但運算過程較為復雜,實時性得不到保證,對高維、海量的電能量數(shù)據(jù)應用的適用性較差。為此,該文提出基于數(shù)據(jù)挖掘的電能量數(shù)據(jù)異常特征提取方法,以期實現(xiàn)電能量數(shù)據(jù)異常特征的實時提取。
快速密度峰值聚類算法存在兩種假設:第一種是異常電能量數(shù)據(jù)聚類中心被密度較小的鄰居數(shù)據(jù)包圍[5];第二種是聚類中心和其他密度較小的數(shù)據(jù)點距離均十分顯著[6]。
此類情況下,針對異常電能量數(shù)據(jù)樣本點而言,必須運算兩種參數(shù):局部密度qj與距離αj。局部密度qj的運算和另一個參數(shù)階段距離ec存在密不可分的關(guān)系,電能量數(shù)據(jù)集里隨機一個樣本點yj的局部密度qj為:
其中,電能量數(shù)據(jù)樣本點yj和yi的距離是eji;β是樣本數(shù)量。qj可描述電能量數(shù)據(jù)集Y里和yj距離低于ec的異常電能量數(shù)據(jù)樣本點數(shù)目。
距離αj描述為:
其中,qi是電能量數(shù)據(jù)樣本點i局部密度;αj是描述電能量數(shù)據(jù)樣本點yj與比其密度顯著的樣本點之間距離最小值,但電能量數(shù)據(jù)集里密度最高的樣本,存在αj=maxeji,此時,此樣本點將存在最大密度與最大距離,將被看作為聚類中心,但局部密度不大、距離顯著的數(shù)據(jù)點便屬于異常電能量數(shù)據(jù)。
在獲取電能量數(shù)據(jù)集Y里全部樣本點的(qj,αj)后,制作qj與αj的二維平面圖,簡稱決策圖,在決策圖里兼具qj與αj最大值的點,此類點能夠看作數(shù)據(jù)集Y的聚類中心。從異常數(shù)據(jù)檢測的角度分析,決策圖里能夠兼具qj與αj最小、最大的點,可初步看作為異常數(shù)據(jù)。在原始電能量數(shù)據(jù)集里[7-10],運算隨機樣本yj和其他樣本之間的歐式距離e(yj,yi),并把運算結(jié)果根據(jù)升序準則排序,將第h個距離的樣本設成Mh(yj),yj的H個最近鄰是:
通過M(yj)運算yj的局部密度:
其中,H為電能量數(shù)據(jù)樣本數(shù),其局部百分比為w,且H=wM,若局部密度值較大,則隨機樣本yj的密度較大。
1.2.1 樣本屬性分類
異常電能量數(shù)據(jù)特征,可體現(xiàn)電能量數(shù)據(jù)的波動性與變異性,該文使用基于數(shù)據(jù)挖掘的異常電能量數(shù)據(jù)特征分類方法,通過數(shù)據(jù)挖掘技術(shù)中的聚類算法將異常電能量數(shù)據(jù)進行特征聚類[11-14]。設置所獲取的需要進行特征分類的異常電能量數(shù)據(jù)集合為N,N具有M個異常電能量數(shù)據(jù)樣本集合。異常電能量數(shù)據(jù)樣本權(quán)值是di(t),異常電能量數(shù)據(jù)聚類權(quán)值是對Ht個異常電能量數(shù)據(jù)樣本yi(1)設置H個聚類中心,那么異常電能量數(shù)據(jù)聚類中心為,異常電能量數(shù)據(jù)樣本相對聚類中心的模糊隸屬度為φji。假定具有m個b維異常電能量數(shù)據(jù)特征集合,描述成A=()a1,a2,…,am,那么各個特征aj相應的密度指標是:
其中,異常電能量數(shù)據(jù)特征aj的鄰域區(qū)間半徑是sa,將此區(qū)間里密度最大值設成a1,那么密度指標設 成E1。ai、aj依次 是 描 述 異 常 電能量數(shù) 據(jù)i、j的特征。如果第k次異常電能量數(shù)據(jù)聚類中心是ak,其密度指標是Ek,則式(6)變換為:
其中,異常電能量數(shù)據(jù)密度指標的鄰域區(qū)間半徑是sb。
1.2.2 特征提取優(yōu)化
將異常電能量數(shù)據(jù)集合設成N={n1,n2,…,nn},異常電能量數(shù)據(jù)特征分類的個體最優(yōu)解集合是Rj={rj1,rj2,…,rjb},全局最優(yōu)解集合是Rg={rg1,rg2,…,rgb},此時異常電能量數(shù)據(jù)特征分類的更新方案是:
求解異常電能量數(shù)據(jù)特征分布聚類的最大值,則:
求解平均粒度,則:
其中,第i個采樣點j維中的分布聚類是gji(t);異常電能量數(shù)據(jù)維度是b;總樣本N里異常電能量數(shù)據(jù)數(shù)量是n。
將高階統(tǒng)計量的異常電能量數(shù)據(jù)特征聚類度設成v,則有:
將v值進行循環(huán)迭代,便能完成異常電能量數(shù)據(jù)特征參數(shù)優(yōu)化選擇,獲取最終的異常電能量數(shù)據(jù)特征aj,實現(xiàn)電能量數(shù)據(jù)異常特征提取。
為測試該文方法對電能量數(shù)據(jù)異常特征的提取效果,在Windows10 系統(tǒng)中搭建實驗平臺,內(nèi)存為16 GB,主要使用Python3.6 實現(xiàn)。實驗中所用電能量數(shù)據(jù)集源于某電力集團2020 年的電能量數(shù)據(jù),在排除了356 條不可用數(shù)據(jù)后,以剩余的30 232 條電能量數(shù)據(jù)記錄為數(shù)據(jù)樣本,此樣本中分為正向有功總電量、反向無功總電量、四象限無功電量三種。
使用該文方法檢測該電力集團2020 年的電能量數(shù)據(jù)中正向有功總電量、反向無功總電量、四象限無功電量三種電能量數(shù)據(jù)樣本里的異常數(shù)據(jù),檢測結(jié)果如表1 所示。
根據(jù)表1 測試結(jié)果顯示,檢測結(jié)果和異常數(shù)據(jù)樣本量記錄基本一致,可有效檢測異常電能量數(shù)據(jù)。
表1 異常電能量數(shù)據(jù)檢測效果
使用該文方法、文獻[3]方法、文獻[4]方法對正向有功總電量、反向無功總電量、四象限無功電量三種數(shù)據(jù)進行異常數(shù)據(jù)檢測,檢測結(jié)果如圖1-3 所示。
圖1 正向有功總電量數(shù)據(jù)中異常電能量數(shù)據(jù)檢測結(jié)果
根據(jù)圖1-3 顯示結(jié)果可知,該文方法、文獻[3]方法、文獻[4]方法對正向有功總電量、反向無功總電量、四象限無功電量三種數(shù)據(jù)進行異常數(shù)據(jù)檢測后,該文方法的檢測率均高于0.95,且均大于文獻[3]方法、文獻[4]方法。誤報率均小于0.02,且均小于對比方法。由此可證,在同類檢測方法中,該文方法對異常電能量數(shù)據(jù)的檢測效果最佳。
圖2 反向無功總電量數(shù)據(jù)中異常電能量數(shù)據(jù)檢測結(jié)果
圖3 四象限無功電量數(shù)據(jù)中異常電能量數(shù)據(jù)檢測結(jié)果
使用該文方法檢測正向有功總電量、反向無功總電量、四象限無功電量三種電能量數(shù)據(jù)樣本里的異常數(shù)據(jù)后,檢測結(jié)果和異常數(shù)據(jù)樣本量記錄基本一致,檢測偏差值最大值為1 條,在可接受范圍之內(nèi);對正向有功總電量、反向無功總電量、四象限無功電量三種數(shù)據(jù)進行異常數(shù)據(jù)檢測后,檢測率均高于0.95,誤報率均小于0.02,對電能量數(shù)據(jù)異常特征的提取效果最好。由此可知,該文方法可提升電能量數(shù)據(jù)異常特征提取效果。