周綱,黃瑞,3,劉度度,張芝敏,胡軍華,高云鵬
(1.國(guó)網(wǎng)湖南省電力有限公司, 長(zhǎng)沙 410004; 2.智能電氣量測(cè)與應(yīng)用技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室, 長(zhǎng)沙 410004; 3.湖南大學(xué), 長(zhǎng)沙 410082)
隨著電網(wǎng)建設(shè)的快速發(fā)展,包含海量數(shù)據(jù)的用電信息采集系統(tǒng)不僅可直接反映配電網(wǎng)的運(yùn)行狀況,且能間接反映配電網(wǎng)的拓?fù)潢P(guān)系[1]?,F(xiàn)有配電網(wǎng)拓?fù)浣Y(jié)構(gòu)校驗(yàn)主要包括:線變關(guān)系校驗(yàn)[2-3]、饋線拓?fù)湫r?yàn)[4]、戶變關(guān)系及相位校驗(yàn)[5-6]、線戶關(guān)系校驗(yàn)[7]。正確的低壓配電網(wǎng)拓?fù)?尤其正確的戶變關(guān)系是當(dāng)前配電網(wǎng)管理精細(xì)化和降耗減損的基礎(chǔ)[8]。然而存在部分臺(tái)區(qū)線路臨時(shí)改變使戶變關(guān)系檔案更新不及時(shí)或記錄錯(cuò)誤等原因,導(dǎo)致用戶進(jìn)線端和集中器歸屬關(guān)系記錄不準(zhǔn)確,戶變關(guān)系與實(shí)際不符,造成臺(tái)區(qū)線損計(jì)算時(shí)出現(xiàn)異常情況[9]。因此,臺(tái)區(qū)戶變關(guān)系的準(zhǔn)確診斷與分析對(duì)當(dāng)前配電網(wǎng)的精益化管理具有重要意義[10]。
現(xiàn)行校驗(yàn)臺(tái)區(qū)戶變關(guān)系主要有人工專用設(shè)備現(xiàn)場(chǎng)識(shí)別和在線自動(dòng)識(shí)別兩種方式[11-12]。人工方式需安排工作人員至現(xiàn)場(chǎng)識(shí)別,識(shí)別效率低、成本高[13]。數(shù)據(jù)挖掘及人工智能技術(shù)日趨成熟[14-15],同時(shí)用電信息采集系統(tǒng)愈加完善,合理利用系統(tǒng)大數(shù)據(jù)可有效診斷臺(tái)區(qū)戶變關(guān)系異常問題[16]。據(jù)此文獻(xiàn)[17]采用基于改進(jìn)皮爾遜相關(guān)系數(shù)和KNN算法校驗(yàn)低壓配電網(wǎng)拓?fù)?文獻(xiàn)[18]構(gòu)建低壓配電網(wǎng)拓?fù)浣Y(jié)構(gòu)的知識(shí)圖譜,對(duì)低壓配電網(wǎng)信息系統(tǒng)中的戶變關(guān)系進(jìn)行辨識(shí);文獻(xiàn)[19]基于臺(tái)區(qū)歷史銷售數(shù)據(jù),通過數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化算法建立用戶-變壓器驗(yàn)證模型;文獻(xiàn)[20]提出電壓剖面分析方法,檢測(cè)變壓器鄰域內(nèi)連接錯(cuò)誤的用戶;文獻(xiàn)[21]基于電壓數(shù)據(jù)和分布相似性,分析用戶-變壓器連接關(guān)系,以上方法主要針對(duì)少用戶臺(tái)區(qū)中出現(xiàn)異常用戶情況,但無法實(shí)現(xiàn)多用戶臺(tái)區(qū)和多個(gè)異常用戶情況診斷與分析。
為準(zhǔn)確提取多個(gè)相鄰臺(tái)區(qū)異常用戶間特征,本文提出基于主成分分析(PCA)改進(jìn)K-means聚類算法降低輸入數(shù)據(jù)維度,提取電壓數(shù)據(jù)特征得到不同特征異常用戶并作為待檢測(cè)用戶,建立改進(jìn)皮爾遜相關(guān)系數(shù)算法分析待檢測(cè)用戶,診斷多個(gè)異常用戶分別所屬正確臺(tái)區(qū),據(jù)此提出基于改進(jìn)K-means聚類和改進(jìn)皮爾遜相關(guān)系數(shù)的戶變關(guān)系異常診斷方法。最后采用實(shí)際算例分析驗(yàn)證本文提出方法在識(shí)別同一臺(tái)區(qū)一個(gè)及多個(gè)異常用戶、不同臺(tái)區(qū)多個(gè)異常用戶各情況下的有效性和準(zhǔn)確性。
目前國(guó)內(nèi)低壓臺(tái)區(qū)戶變關(guān)系錯(cuò)誤主要形式為主站系統(tǒng)中記錄的用戶檔案與實(shí)際信息不相符,且通常把某個(gè)臺(tái)區(qū)用戶錯(cuò)誤掛接至相鄰臺(tái)區(qū),或把某個(gè)饋線變壓器錯(cuò)誤掛接至相鄰饋線,該情況會(huì)影響正確的戶變關(guān)系,阻礙正常線損計(jì)算。若將實(shí)際屬于臺(tái)區(qū)A的用戶1檔案信息錯(cuò)歸為臺(tái)區(qū)B所有,則線損計(jì)算時(shí)將造成臺(tái)區(qū)A線損偏小,而臺(tái)區(qū)B線損偏大結(jié)果發(fā)生。
在低壓配電網(wǎng)中,由于各處負(fù)荷的不確定性,電壓通常也隨之波動(dòng)。電氣距離較近負(fù)荷,其電壓波動(dòng)曲線較相似,而電氣距離較遠(yuǎn)負(fù)荷其電壓波動(dòng)曲線相似度較低。因此,可選取用戶電壓曲線相似性作為臺(tái)區(qū)戶變關(guān)系異常診斷的依據(jù)。某臺(tái)區(qū)其中137個(gè)用戶電表電壓值和相鄰臺(tái)區(qū)3個(gè)用戶的電壓值如圖1所示。
圖1 用戶電表電壓波動(dòng)曲線圖
由圖1可知,同一臺(tái)區(qū)用戶電表電壓數(shù)據(jù)波動(dòng)相似性較高,多個(gè)異常用戶的電壓波動(dòng)與該臺(tái)區(qū)正確用戶的電壓波動(dòng)曲線相似性較低,可作為戶變關(guān)系異常診斷的依據(jù),但僅憑電壓波動(dòng)曲線圖無法準(zhǔn)確識(shí)別出臺(tái)區(qū)中的異常用戶,故可采用電壓相似性的定量分析實(shí)現(xiàn)對(duì)戶變關(guān)系的正確識(shí)別。
通常臺(tái)區(qū)用戶電表電壓數(shù)據(jù)為一天24小時(shí),每隔1小時(shí)采集一次,對(duì)于數(shù)據(jù)維度為24維的高維數(shù)據(jù),傳統(tǒng)聚類算法將面臨高維數(shù)據(jù)包含海量冗余、不相干信息問題,直接對(duì)高維數(shù)據(jù)聚類極大降低性能,聚類算法難以實(shí)現(xiàn)高穩(wěn)定性。因此,本文采用PCA對(duì)原始數(shù)據(jù)進(jìn)行降維處理。
基于PCA將p維電壓數(shù)據(jù)特征在m維上體現(xiàn),該m維數(shù)據(jù)信息也被稱為主成分,為在原有p維電壓數(shù)據(jù)特征上構(gòu)造出m維新特征,對(duì)臺(tái)區(qū)n個(gè)用戶電表p維電壓數(shù)據(jù)有:
(1)
通過PCA得出的主成分之間互不相關(guān),故計(jì)算電壓數(shù)據(jù)相關(guān)系數(shù)為:
(2)
由式(2)可得電壓數(shù)據(jù)相關(guān)系數(shù)矩陣為:
(3)
式中rij(i,j=1,2,…,p)為臺(tái)區(qū)電壓數(shù)據(jù)xi、xj的相關(guān)系數(shù),rij=rji。
根據(jù)式(3)解特征方程,有:
|λI-R|=0
(4)
根據(jù)數(shù)值大小得特征值λ1≥λ2≥…≥λp≥0,同理可得對(duì)應(yīng)于特征值λi的特征向量ei(i=1,2,…,p)。
根據(jù)主成分貢獻(xiàn)率法(CPV)確定主成分個(gè)數(shù)m,計(jì)算各主成分的貢獻(xiàn)率CPVi與累計(jì)貢獻(xiàn)率CPVa分別為:
(5)
(6)
式中CPVi為第i個(gè)主成分的貢獻(xiàn)率;λm為第m(m≤p)個(gè)主成分所對(duì)應(yīng)的特征值;CPVa為控制限。
通過式(5)和式(6)計(jì)算包含原始電壓數(shù)據(jù)絕大部分信息的主成分個(gè)數(shù)m,用式(1)中原始電壓數(shù)據(jù)矩陣X的m個(gè)特征向量作線性組合得到主成分,則有:
(7)
式中zij(i=1,2,…,n,j=1,2,…,m)為臺(tái)區(qū)用戶電表電壓數(shù)據(jù)第i個(gè)樣本第j個(gè)主成分。
相同臺(tái)區(qū)用戶電壓數(shù)據(jù)波動(dòng)相似性使其具有相同特征,據(jù)此可根據(jù)這些特征檢測(cè)出異常用戶。K-means聚類根據(jù)迭代理論,求出最大迭代步數(shù)或使得聚類誤差函數(shù)收斂得到聚類中心,其為無監(jiān)督學(xué)習(xí)算法,適用于檢測(cè)臺(tái)區(qū)中異常用戶,但存在隨機(jī)選取其初始聚類中心問題,不合適選取會(huì)極大影響最終聚類結(jié)果。因此,本文初始聚類中心選取不是隨機(jī)選取,而是根據(jù)數(shù)據(jù)維度的最大和最小值。
基于盡可能得到相互距離遠(yuǎn)的初始聚類中心原則,選取初始聚類中心改進(jìn)K-means算法,由此避免出現(xiàn)初始聚類中心選擇錯(cuò)誤的問題。
對(duì)于降維電壓數(shù)據(jù)選取k個(gè)樣本點(diǎn)作為k個(gè)初始聚類中心有:
μr=ma(i)+(mi(i)-ma(i))+rand(),r=1,2,…,k
(8)
式中ma為每一維最大數(shù),mi為每一維最小數(shù)。
針對(duì)電壓中每個(gè)樣本數(shù)據(jù),分別計(jì)算其到已有最近聚類中心歐式距離為:
(9)
式中zij為降維后電壓數(shù)據(jù);μr為初始聚類中心。
由式(9)所求距離值越大表示該樣本被選取作為下一次聚類中心的概率越大,樣本數(shù)據(jù)被分別歸為最近聚類中心類別后得到k個(gè)簇,計(jì)算樣本被選取作為聚類中心的概率,可得:
(10)
式中D(zij)為樣本到聚類中心的距離。
聚類分析臺(tái)區(qū)用戶電表降維后電壓數(shù)據(jù),如部分?jǐn)?shù)據(jù)通過PCA得到2維數(shù)據(jù)為A(0.1,0.1),B(0.2,0.2),C(0.2,0),D(0.4,0.6),E(0.5,0.6),F(0.5,0.5),G(0.6,0.5),并在首次聚類中選擇C1(0.2,0.3),C2(0.5,0.3)兩點(diǎn)作為第1個(gè)和第2個(gè)聚類中心如圖2所示。
圖2 電壓數(shù)據(jù)聚類中心選取圖
由圖2可見,計(jì)算每一簇中其他電壓數(shù)據(jù)樣本與該簇當(dāng)前已有最近聚類中心距離D(zij),以及各簇中每個(gè)電壓數(shù)據(jù)樣本被選取作為下一個(gè)聚類中心的概率P(zij)分別如表1和表2所示。
表1 中心點(diǎn)1聚類距離與概率
表2 中心點(diǎn)2聚類距離與概率
由表1可見,對(duì)于第一簇?cái)?shù)據(jù)A點(diǎn)被選為下一個(gè)聚類中心的概率最大,對(duì)于第二簇?cái)?shù)據(jù)D點(diǎn)被選為下一個(gè)聚類中心的概率最大。由圖2可見,A,D分別為距離初始聚類中心C1和C2點(diǎn)最遠(yuǎn)兩點(diǎn)。
由式(9)求得每個(gè)樣本與當(dāng)前最近一個(gè)聚類中心的距離并選取最大值,基于相互距離盡可能遠(yuǎn)原則選取該樣本為該簇新聚類中心點(diǎn),故可計(jì)算各簇下一個(gè)聚類中心為:
μr=argmax|D(zij)|
(11)
式中μr為各簇更新的聚類中心;max|D(zij)|為每個(gè)樣本與當(dāng)前最近一個(gè)聚類中心的最大距離。
重復(fù)式(9)和(11)不斷移動(dòng)聚類中心直至聚類誤差函數(shù)收斂或達(dá)到最大迭代步數(shù),平方誤差SSE函數(shù)為:
(12)
根據(jù)式(12)直至平方誤差SSE收斂或達(dá)到最大步數(shù),選出k個(gè)聚類中心[μ1,μ2…,μk],并分別實(shí)現(xiàn)以μr為聚類中心的臺(tái)區(qū)用戶電表電壓數(shù)據(jù)聚類求得臺(tái)區(qū)內(nèi)異常用戶。
通過上述改進(jìn)K-means聚類分析臺(tái)區(qū)用戶電表電壓數(shù)據(jù)得到臺(tái)區(qū)內(nèi)異常用戶,基于GIS系統(tǒng)找出臺(tái)區(qū)相鄰臺(tái)區(qū)并獲得電壓數(shù)據(jù)。由于現(xiàn)有關(guān)于皮爾遜相關(guān)系數(shù)適用于兩個(gè)變量間的線性相關(guān)性分析,可得出用戶電表電壓數(shù)據(jù)間相關(guān)程度,故本文采用改進(jìn)皮爾遜相關(guān)系數(shù)法診斷出待檢測(cè)用戶所屬臺(tái)區(qū)。
皮爾遜相關(guān)系數(shù)用來度量?jī)蓚€(gè)電壓數(shù)據(jù)X與Y之間的相互關(guān)系,可度量?jī)蓚€(gè)變量線性相關(guān)的強(qiáng)弱,其總體相關(guān)系數(shù)為:
(13)
式中μX、μY為期望值;σX、σY為總體標(biāo)準(zhǔn)差;cov(X,Y)為協(xié)方差。
式(13)對(duì)于樣本的皮爾遜相關(guān)系數(shù)同樣可用,計(jì)算電壓樣本相關(guān)系數(shù)為:
(14)
皮爾遜相關(guān)系數(shù)因兩個(gè)變量的位置和尺度的變化并不會(huì)引起該系數(shù)的改變,即把X移動(dòng)到a+bX和把Y移動(dòng)到c+dY,其中a、b、c和d是常數(shù),對(duì)兩個(gè)變量間相關(guān)系數(shù)毫無影響,且對(duì)于總體以及樣本皮爾遜相關(guān)系數(shù)公式同時(shí)成立,由此可得出更一般的線性變換則會(huì)改變相關(guān)系數(shù)。
(15)
(16)
(17)
(18)
根據(jù)兩個(gè)電壓數(shù)據(jù)X與Y間期望變換公式為:
E[(X-E(X))(Y-E(Y))]=E(XY)-
E(X)E(Y)
(19)
可計(jì)算總體相關(guān)系數(shù)為:
(20)
式中ρX,Y為總體皮爾遜相關(guān)系數(shù);E(X)、E(Y)為電壓數(shù)據(jù)X、Y的期望值。
同理,由式(19)計(jì)算電壓數(shù)據(jù)樣本皮爾遜相關(guān)系數(shù)可得:
(21)
皮爾遜相關(guān)系數(shù)為|rx,y|≤1,rx,y大于零表示兩者為正相關(guān)方向,小于零表示為負(fù)相關(guān)方向,評(píng)價(jià)皮爾遜相關(guān)系數(shù)的標(biāo)準(zhǔn)如表3所示。
表3 皮爾遜相關(guān)系數(shù)關(guān)聯(lián)度標(biāo)準(zhǔn)
由表3可見,皮爾遜相關(guān)系數(shù)取值決定兩者相關(guān)程度,但實(shí)際應(yīng)用中無法設(shè)定參考值去判斷某用戶是否屬于某臺(tái)區(qū)。通過上述聚類算法得到某臺(tái)區(qū)中異常用戶,由于該臺(tái)區(qū)及鄰近幾個(gè)臺(tái)區(qū)用戶較多,計(jì)算待檢測(cè)用戶與各個(gè)臺(tái)區(qū)間的皮爾遜相關(guān)系數(shù)工作量巨大,故計(jì)算待檢測(cè)用戶與幾個(gè)臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù),通過選取最大相關(guān)系數(shù)改進(jìn)皮爾遜相關(guān)系數(shù)法,即相關(guān)系數(shù)最大者對(duì)應(yīng)臺(tái)區(qū)為待檢測(cè)用戶所屬正確臺(tái)區(qū)。本文所使用的改進(jìn)算法可有效避免皮爾遜相關(guān)系數(shù)參考值的選取,只需對(duì)待檢測(cè)用戶與各個(gè)臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù)進(jìn)行大小排序,相關(guān)系數(shù)最大者即為所求臺(tái)區(qū)。
本文使用數(shù)據(jù)為某個(gè)臺(tái)區(qū)其中137個(gè)用戶的每24個(gè)小時(shí)每隔1小時(shí)采集的電壓數(shù)據(jù)。先判斷出異常用戶,對(duì)于需校驗(yàn)用戶,基于GIS系統(tǒng)的實(shí)際數(shù)據(jù)和配電網(wǎng)規(guī)劃設(shè)計(jì)技術(shù)導(dǎo)則剪輯獲取相鄰臺(tái)區(qū)總表電壓數(shù)據(jù),診斷待校驗(yàn)用戶所屬正確臺(tái)區(qū),分別采用以下各種情況對(duì)本文提出算法進(jìn)行驗(yàn)證。
首先針對(duì)該臺(tái)區(qū)相鄰1個(gè)臺(tái)區(qū)中的1個(gè)用戶錯(cuò)接入該臺(tái)區(qū)的情況進(jìn)行仿真和分析,將2臺(tái)區(qū)1用戶加入1臺(tái)區(qū)中,并對(duì)該用戶進(jìn)行異常診斷,找出該用戶所屬正確臺(tái)區(qū),計(jì)算待檢測(cè)用戶與5個(gè)臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù)如圖3所示。
圖3 1臺(tái)區(qū)1用戶異常診斷
由圖3可見,該用戶與2臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù)為0.991 0,在5個(gè)臺(tái)區(qū)中為最大值,根據(jù)相關(guān)系數(shù)最大者所對(duì)應(yīng)臺(tái)區(qū)即為待檢測(cè)用戶所屬的正確臺(tái)區(qū),表明該用戶屬于2臺(tái)區(qū),與真實(shí)結(jié)果相同,由此驗(yàn)證本文算法在相鄰1個(gè)臺(tái)區(qū)中1個(gè)用戶錯(cuò)接入該臺(tái)區(qū)情況下的準(zhǔn)確性和可行性。
為驗(yàn)證本文算法在1個(gè)臺(tái)區(qū)多個(gè)用戶錯(cuò)接入其他臺(tái)區(qū)情況下的準(zhǔn)確性和可行性,針對(duì)該臺(tái)區(qū)相鄰1個(gè)臺(tái)區(qū)中的7個(gè)用戶錯(cuò)接入該臺(tái)區(qū)的情況進(jìn)行仿真和分析,將3臺(tái)區(qū)7個(gè)用戶加入1臺(tái)區(qū)中,并進(jìn)行診斷分析,計(jì)算待檢測(cè)7個(gè)用戶與5個(gè)臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù)如圖4所示。
圖4 1臺(tái)區(qū)n用戶異常診斷
計(jì)算待檢測(cè)7個(gè)用戶與5個(gè)臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù),并將皮爾遜相關(guān)系數(shù)所對(duì)應(yīng)臺(tái)區(qū)與實(shí)際臺(tái)區(qū)作比較結(jié)果如表4所示。
表4 皮爾遜相關(guān)系數(shù)測(cè)試結(jié)果
由表4可見,可直觀得出7個(gè)待檢測(cè)用戶與臺(tái)區(qū)總表間最大皮爾遜相關(guān)系數(shù)對(duì)應(yīng)的臺(tái)區(qū)均為3臺(tái)區(qū),實(shí)際對(duì)應(yīng)臺(tái)區(qū)也均屬于3臺(tái)區(qū),由此可見本文算法在相鄰1個(gè)臺(tái)區(qū)中n個(gè)用戶錯(cuò)接入該臺(tái)區(qū)情況下的具有較高的準(zhǔn)確度性。
為驗(yàn)證本文算法在多個(gè)臺(tái)區(qū)用戶錯(cuò)接入其他臺(tái)區(qū)情況下的準(zhǔn)確性和可行性,針對(duì)該臺(tái)區(qū)相鄰2個(gè)臺(tái)區(qū)中的各1個(gè)用戶錯(cuò)接入該臺(tái)區(qū)的情況進(jìn)行仿真和分析,分別將2臺(tái)區(qū)1個(gè)用戶和3臺(tái)區(qū)1個(gè)用戶加入1臺(tái)區(qū),并進(jìn)行診斷分析,計(jì)算待檢測(cè)2個(gè)用戶與5個(gè)臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù)如圖5所示。
圖5 n臺(tái)區(qū)1用戶異常診斷
由圖5可知,2個(gè)五邊形頂點(diǎn)作為待檢測(cè)1、2用戶電表電壓與5個(gè)臺(tái)區(qū)總表電壓間的皮爾遜相關(guān)系數(shù),待檢測(cè)用戶1僅與2臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù)超過0.990 0,待檢測(cè)用戶2僅與3臺(tái)區(qū)總表間的皮爾遜相關(guān)系數(shù)超過0.980 0,根據(jù)相關(guān)系數(shù)最大者所對(duì)應(yīng)的臺(tái)區(qū)即為待檢測(cè)用戶所屬的正確臺(tái)區(qū),表明2個(gè)待檢測(cè)用戶分別屬于2臺(tái)區(qū)、3臺(tái)區(qū),與真實(shí)結(jié)果相同,由此可驗(yàn)證本文提出算法在相鄰n個(gè)臺(tái)區(qū)中1個(gè)用戶錯(cuò)接入該臺(tái)區(qū)情況下的準(zhǔn)確性和有效性。
為驗(yàn)證本文算法在多個(gè)臺(tái)區(qū)多個(gè)用戶錯(cuò)接入其他臺(tái)區(qū)情況下的準(zhǔn)確性和可行性,針對(duì)該臺(tái)區(qū)相鄰2個(gè)臺(tái)區(qū)中各7個(gè)用戶錯(cuò)接入該臺(tái)區(qū)的情況進(jìn)行仿真和分析,分別將2臺(tái)區(qū)7個(gè)用戶和3臺(tái)區(qū)7個(gè)用戶加入1臺(tái)區(qū),并進(jìn)行診斷分析,計(jì)算待檢測(cè)14個(gè)用戶與5個(gè)臺(tái)區(qū)總表之間的皮爾遜相關(guān)系數(shù)如圖6所示。
圖6 n臺(tái)區(qū)n用戶異常診斷
由圖6可見,用戶1到用戶7與臺(tái)區(qū)3皮爾遜相關(guān)系數(shù)最大,用戶8、用戶10到用戶14與臺(tái)區(qū)2皮爾遜相關(guān)系數(shù)最大,用戶9與臺(tái)區(qū)1皮爾遜相關(guān)系數(shù)最大。因此,除用戶9外,1到7個(gè)待檢測(cè)用戶均屬于3臺(tái)區(qū),8到14個(gè)待檢測(cè)用戶均屬于2臺(tái)區(qū)。表明除用戶9外,其余待檢測(cè)用戶診斷結(jié)果與真實(shí)結(jié)果相同,又因聚類結(jié)果中用戶9已被識(shí)別為1臺(tái)區(qū)異常用戶,故從1臺(tái)區(qū)排除,且用戶9與臺(tái)區(qū)2總表皮爾遜相關(guān)系數(shù)大于其他臺(tái)區(qū),故綜合判斷可得出用戶9所屬正確臺(tái)區(qū)。由此可知本文算法在相鄰n個(gè)臺(tái)區(qū)中n個(gè)用戶錯(cuò)接入該臺(tái)區(qū)情況下仍有較高的準(zhǔn)確性。
為分析用戶電能表電壓數(shù)據(jù)長(zhǎng)度對(duì)識(shí)別結(jié)果的影響,本文提出異常用戶識(shí)別正確率指標(biāo),以反映臺(tái)區(qū)戶變關(guān)系識(shí)別準(zhǔn)確性,該指標(biāo)定義為診斷出異常用戶數(shù)與待診斷總用戶數(shù)比值,數(shù)值越大表明識(shí)別結(jié)果越準(zhǔn)確,電壓數(shù)據(jù)長(zhǎng)度定義為用戶電壓時(shí)間維度,選取一天中2個(gè)時(shí)刻的電壓值到24個(gè)時(shí)刻的電壓值情況下,本文算法的識(shí)別正確率如圖7所示。
圖7 數(shù)據(jù)長(zhǎng)度影響分析圖
由圖7可見,當(dāng)電壓數(shù)據(jù)長(zhǎng)度低于10維時(shí),本文提出算法識(shí)別正確率隨著電壓數(shù)據(jù)長(zhǎng)度的增加,呈現(xiàn)先急劇上升后平緩上升的趨勢(shì),并在11維逐漸收斂,穩(wěn)定在90%以上的正確率,表明電壓數(shù)據(jù)長(zhǎng)度越大,本文提出算法對(duì)戶變關(guān)系異常診斷結(jié)果越準(zhǔn)確。
為比較不同戶變關(guān)系異常診斷的方法,選取改進(jìn)灰色關(guān)聯(lián)度分析法、BP神經(jīng)網(wǎng)絡(luò)法、離群點(diǎn)檢測(cè)法LOF(local outlier factor)、結(jié)合平均密度改進(jìn)LOF異常點(diǎn)檢測(cè)法以及本文提出的改進(jìn)皮爾遜相關(guān)系數(shù)法進(jìn)行仿真比較。以多個(gè)臺(tái)區(qū)多個(gè)用戶錯(cuò)接入其他臺(tái)區(qū)為例,將該臺(tái)區(qū)相鄰2個(gè)臺(tái)區(qū)中的各7個(gè)用戶放入該臺(tái)區(qū)進(jìn)行診斷識(shí)別,其仿真對(duì)比如表5所示。
表5 與常用算法診斷結(jié)果對(duì)比
由表5可見,5種檢測(cè)方法異常診斷結(jié)果不同,其中改進(jìn)灰色關(guān)聯(lián)度分析法異常用戶診斷數(shù)為7,正確識(shí)別率為50%;BP神經(jīng)網(wǎng)絡(luò)法識(shí)別異常用戶數(shù)為9,正確識(shí)別率為64.29%;離群點(diǎn)檢測(cè)法LOF異常用戶診斷數(shù)為8,異常用戶總數(shù)為10,正確識(shí)別率為80%;結(jié)合平均密度改進(jìn)LOF異常點(diǎn)檢測(cè)法識(shí)別異常用戶數(shù)為8,異常用戶總數(shù)為9,正確識(shí)別率為88.9%,本文提出算法識(shí)別異常用戶數(shù)為13,異常用戶總數(shù)為14,正確識(shí)別率為92.86%,綜合判斷可得到另外一個(gè)異常用戶所屬正確臺(tái)區(qū)。因此,本文提出的改進(jìn)K-means聚類和皮爾遜相關(guān)系數(shù)戶變關(guān)系異常診斷算法相比常用檢測(cè)方法具有更高的診斷準(zhǔn)確率。
針對(duì)多相鄰臺(tái)區(qū)戶變關(guān)系異常用戶間特征提取困難問題,本文建立基于改進(jìn)K-means聚類和皮爾遜相關(guān)系數(shù)戶變關(guān)系異常診斷算法,實(shí)際算例分析結(jié)果表明:通過主成分分析對(duì)GIS系統(tǒng)獲取臺(tái)區(qū)總表和用戶電表電壓數(shù)據(jù)實(shí)現(xiàn)降維,高效實(shí)現(xiàn)電壓數(shù)據(jù)間的特征信息挖掘,建立改進(jìn)K-means聚類提取電壓數(shù)據(jù)特征,選取更優(yōu)聚類中心得到不同特征異常用戶并作為待檢測(cè)用戶,建立改進(jìn)皮爾遜相關(guān)系數(shù)算法有效避免皮爾遜相關(guān)系數(shù)參考值的選取,提高檢測(cè)精度;相較于傳統(tǒng)檢測(cè)方法,本文提出算法在識(shí)別同一臺(tái)區(qū)一個(gè)及多個(gè)異常用戶、不同臺(tái)區(qū)多個(gè)異常用戶情況下均能有效實(shí)現(xiàn)對(duì)異常用戶的準(zhǔn)確檢測(cè)與分析。本文提出的基于改進(jìn)K-means聚類和改進(jìn)皮爾遜相關(guān)系數(shù)的戶變關(guān)系異常診斷方法為臺(tái)區(qū)多相鄰臺(tái)區(qū)異常用戶診斷提供了一種新的解決方案。