楊峰,劉勝強(qiáng)
(廣東電網(wǎng)有限責(zé)任公司佛山供電局,廣東佛山 528000)
隨著智能配電網(wǎng)信息化、自動(dòng)化的不斷發(fā)展,各行業(yè)廣泛使用先進(jìn)配用電自動(dòng)化和管理系統(tǒng),多源異構(gòu)數(shù)據(jù)也在不斷增加。有效挖掘數(shù)據(jù)并且使用能夠提高智能配電網(wǎng)運(yùn)行管理水平,此為電力企業(yè)在大數(shù)據(jù)背景下發(fā)展的需求[1]。由于存在不同的數(shù)據(jù)統(tǒng)計(jì)口徑與來源,從而使數(shù)據(jù)出現(xiàn)異常。異常數(shù)據(jù)存在異常信息,異常數(shù)據(jù)研究尤為重要,能夠提供實(shí)際使用幫助,包括用電設(shè)備故障監(jiān)測與設(shè)備監(jiān)測。傳統(tǒng)異常檢測為技術(shù)人員到現(xiàn)場排查,此方法效率低,而且物力、人力等資源較為浪費(fèi)。通過數(shù)據(jù)方法自動(dòng)鎖定異常事件,能夠提高異常事件查處命中率,降低稽核成本與電網(wǎng)企業(yè)經(jīng)濟(jì)損失[2]。以此,文中就分析改進(jìn)了檢測快速密度峰值聚類算法電力數(shù)據(jù)異常值。
基于密度峰值的空間聚類算法(CFSFDP)首先利用其他非類中心點(diǎn)到大密度且臨近數(shù)據(jù)點(diǎn)類別中歸類。類中心要滿足以下特征:自身密度比較大;對比其他大密度數(shù)據(jù)點(diǎn),距離比較大。在該模型中,CFSFDP 算法要對數(shù)據(jù)點(diǎn)局部密度ρi和高密度點(diǎn)距離δi進(jìn)行計(jì)算。
假設(shè)聚類數(shù)據(jù)集為S=(x1,x2,…,xn),指示坐標(biāo)集設(shè)置為:
數(shù)據(jù)點(diǎn)xi與xj的距離表示為:
在具備離散值數(shù)據(jù)點(diǎn)時(shí),局部密度表示為:
式中的i和j不相等,函數(shù)x(x)表示為:
在連續(xù)值為數(shù)據(jù)點(diǎn)時(shí),局部密度表示為:
公式中的橫斷距離dc>0,ρi指的是S中和數(shù)據(jù)點(diǎn)xi的距離比dc要小的數(shù)據(jù)點(diǎn)數(shù)量[3]。
和高密度點(diǎn)的距離表示為:
相應(yīng)指標(biāo)集Is為:
通過以上公式表示,在xi指的是最大局部密度的時(shí)候,Is指的是空集,δi指的是S中和xi最大距離數(shù)據(jù)點(diǎn)和xi的距離。
對各個(gè)數(shù)據(jù)點(diǎn)局部密度和距離進(jìn)行計(jì)算之后,CFSFDP 算法利用啟發(fā)式的方式對決策圖繪制,選擇類中心并實(shí)現(xiàn)類標(biāo)記的初始化。使非聚類中心根據(jù)下述規(guī)則實(shí)現(xiàn)聚類:目前數(shù)據(jù)點(diǎn)類別標(biāo)簽指的是比數(shù)據(jù)點(diǎn)密度要高的最近數(shù)據(jù)點(diǎn)類別,之后對類邊界區(qū)域進(jìn)行計(jì)算,尋找類邊界高密度值的點(diǎn),從而將噪聲點(diǎn)去除。
CFSFDP 算法直接操作數(shù)據(jù)集,沒有對數(shù)據(jù)空間分布的特性進(jìn)行考慮,選擇并且使用全局密度閾值dc。在數(shù)據(jù)密度與類間距分布出現(xiàn)不均勻或者某個(gè)類中具有多密度峰值的時(shí)候,無法對合適dc值選擇實(shí)現(xiàn)聚類,所以得到的聚類結(jié)果也不精準(zhǔn)[4]。
在信息論中使用香農(nóng)熵作為系統(tǒng)不確定性度量,熵越大,就會提高其不確定性。n個(gè)樣本點(diǎn)局部密度估計(jì)值設(shè)置為ρ1,ρ2,…,ρn,假如其中樣本點(diǎn)密度估計(jì)值是一樣的,對于底層數(shù)據(jù)分布具有較大的不確定性,并且香農(nóng)熵較大。相反,不確定性最小,香農(nóng)熵也最小。所以,使用以下密度估計(jì)熵對樣本點(diǎn)局部密度估計(jì)合理性進(jìn)行衡量,也就是:
式中,Z表示標(biāo)準(zhǔn)化因子。
在對密度估計(jì)熵性質(zhì)進(jìn)行分析的過程中0≤H≤log(n)。以此得到,全部樣本點(diǎn)局部密度估計(jì)值是近似相等的,所以密度估計(jì)熵最大[5]。
針對給定核函數(shù)的形態(tài),對密度參數(shù)dc通過0到+∞的遞增過程中密度估計(jì)熵H變化的情況:在dc→0的時(shí)候,H滿足Hmax=log(n)。在dc不斷增加的過程中,首先H減小,在某優(yōu)化dc地方為最小值。之后增大,在dc→+∞的時(shí),為最大值Hmax=log(n)。參數(shù)優(yōu)化值為最小密度估計(jì)熵dc值,對dc值進(jìn)行優(yōu)化的過程中就是單變量非線性函數(shù)最優(yōu)化的問題,也就是:
該問題中具有模擬退火法、簡單試探法等大量的標(biāo)準(zhǔn)算法,在實(shí)際使用過程中會在樣本容量不斷增加過程中,使dc值時(shí)間開銷得到降低。n越大,使用抽樣率在2.25%以下的隨機(jī)抽樣方法使算法優(yōu)化性能得到提高[6]。
利用以上對CFSFDP 算法的分析表示,該算法的基本立足點(diǎn)為:
1)聚類中心具有較大的局部密度;
2)聚類中對比其他大局部密度數(shù)據(jù)點(diǎn)的距離大。
以此表示,聚類中心局部密度和距離具有較大的值。那么本文所提出的改進(jìn)快速密度峰值聚類算法自動(dòng)選擇策略為:利用標(biāo)準(zhǔn)化局部密度與距離的乘積對聚類點(diǎn)差異度進(jìn)行評測,之后將高斯分布應(yīng)用到乘積中實(shí)現(xiàn)異常檢測,從而能夠得出異常點(diǎn)。針對需要聚類數(shù)據(jù),此異常點(diǎn)也就是聚類中心。高斯分布能夠滿足異常檢測需求,在兩端分布的小概率事件為異常點(diǎn),通過此點(diǎn)能夠得出數(shù)據(jù)集聚類中心[7]。
首先,使用簇中心權(quán)值概念對數(shù)據(jù)點(diǎn)簇中心權(quán)值γi進(jìn)行定義:
公式中的和指的是分別使用z-score的標(biāo)準(zhǔn)化結(jié)果。之后通過以下公式對γi均值和方差:
之后針對閾值ε關(guān)系對數(shù)據(jù)點(diǎn)是否為異常點(diǎn)進(jìn)行判斷,本文的閾值設(shè)置為0.005。針對交叉驗(yàn)證集使用多個(gè)閾值,并且將此閾值作為基礎(chǔ),對交叉驗(yàn)證集中的F1 值進(jìn)行計(jì)算,得到最高值進(jìn)行返回[8]。F1定義為:
在閾值為0.001~0.01的時(shí)候并不會影響到實(shí)驗(yàn)結(jié)果,但是不能夠過大或者過小。如果p(γi)<ε的時(shí)候,此數(shù)據(jù)點(diǎn)就是聚類中心。圖1 為三螺旋數(shù)據(jù)集,圖2 為高斯分布得出聚類中心。一般,閾值設(shè)置的值比較小,所以圖2 接近橫軸點(diǎn)利用五角星標(biāo)記,也就是數(shù)據(jù)集聚類中心[9]。
圖1 三螺旋數(shù)據(jù)集
圖2 高斯分布的聚類中心
聚類中心的選擇步驟為:
1)實(shí)現(xiàn)數(shù)據(jù)點(diǎn)局部密度和距離的標(biāo)準(zhǔn)化;
2)對每個(gè)點(diǎn)簇中心權(quán)值γi計(jì)算;
3)對每個(gè)點(diǎn)均值μi與方差進(jìn)行計(jì)算;
4)對點(diǎn)概率密度p(γi)計(jì)算;
5)對p(γi)和閾值大小關(guān)系進(jìn)行判斷,如果p(γi)<ε,那么此數(shù)據(jù)點(diǎn)就是簇中心,要不然就是聚類中心[10]。
為了對分析算法有效性進(jìn)行驗(yàn)證,該文進(jìn)行了仿真實(shí)驗(yàn)。案例使用某省交流10 kV 配電變壓器負(fù)荷數(shù)據(jù),設(shè)置1 h 為采集頻率,所以日負(fù)荷曲線中的數(shù)據(jù)點(diǎn)共有24 個(gè)。
圖3 為交流10 kV 配電變壓器日負(fù)荷數(shù)據(jù)的標(biāo)準(zhǔn)化曲線,該變壓器在常規(guī)運(yùn)行過程中的曲線偏離正常的運(yùn)行模式[11]。
圖3 日負(fù)荷數(shù)據(jù)標(biāo)準(zhǔn)化曲線
根據(jù)以上分析對數(shù)據(jù)集中樣本K各近鄰進(jìn)行計(jì)算,并且計(jì)算樣本局部密度與KNN 距離。圖4 為異常值檢測的決策圖,表示大部分的樣本距離都在小于0.2 區(qū)域中集中,局部密度在大于0.95 區(qū)域中集中。只有部分樣本點(diǎn)具備大距離與小局部密度,也就是異常值[12]。
圖4 異常值檢測的決策圖
對比分析表示,該文算法能夠有效監(jiān)測和正常運(yùn)行模式不同的曲線,在120 條曲線中所篩選的異常曲線共有7 條。表1 為曲線時(shí)間分布,在異常曲線中的時(shí)間是中國的信念,也就是表示該文所提算法能夠?qū)Ξ惓S秒娔J竭M(jìn)行檢測[13]。
表1 曲線時(shí)間分布
以不同的規(guī)模實(shí)現(xiàn)研究對象子集:對比傳統(tǒng)算法與改進(jìn)算法的聚類分析,分析兩種算法的內(nèi)存小號與執(zhí)行時(shí)間,兩種算法性能對比詳見表2。通過改進(jìn)前后傳統(tǒng)算法與其他算法的聚類分析,對比算法內(nèi)存消耗與執(zhí)行時(shí)間。為了保證算法執(zhí)行時(shí)間客觀性,在不同規(guī)模數(shù)據(jù)中的算法集中運(yùn)行20 次,得出此數(shù)據(jù)規(guī)模中運(yùn)行平均時(shí)間的執(zhí)行時(shí)間[14]。
表2 兩種算法的性能對比
通過表2 可知,傳統(tǒng)算法只能夠?qū)? 000 條負(fù)荷曲線進(jìn)行處理,在超過8 000 條的時(shí)會由于算法內(nèi)存消耗過大導(dǎo)致計(jì)算機(jī)內(nèi)存空間不足的情況,從而無法繼續(xù)的進(jìn)行執(zhí)行。該文所分析的算法在數(shù)據(jù)集規(guī)模達(dá)到140 000 條以上時(shí)才會導(dǎo)致內(nèi)存溢出,也就驗(yàn)證了該文設(shè)計(jì)的算法能夠降低原本算法內(nèi)存消耗[15-16]。
該文提出了基于改進(jìn)的快速密度峰值聚類算法,通過全新思想對局部密度和距離進(jìn)行定義,使傳統(tǒng)算法中的問題進(jìn)行了改善,并且對異常值判斷的規(guī)則進(jìn)行定義,基于異常值檢測角度實(shí)現(xiàn)優(yōu)化。該方法在某變壓器日負(fù)荷曲線仿真實(shí)驗(yàn)中使用具有良好的性能,在對異常值進(jìn)行檢測之后能夠結(jié)合實(shí)際業(yè)務(wù)實(shí)現(xiàn)異常用電的分析和設(shè)備的狀態(tài)監(jiān)測,還能夠以業(yè)務(wù)規(guī)則修正異常值,使數(shù)據(jù)質(zhì)量得到提高。