葉保璇,張 娟,劉 恒,梁 杰,符芳輝,楊 銀,劉 軒
(1.海南電網(wǎng)有限責(zé)任公司文昌供電局,海南 文昌 571300;2.廣州市奔流電力科技有限公司,廣州 510700)
隨著生活水平的提高,用戶對(duì)用電質(zhì)量、用電可靠性和用電服務(wù)都有了更高的要求[1-2]。智能電網(wǎng)的快速建設(shè)帶來的技術(shù)進(jìn)步為電網(wǎng)公司提升供電服務(wù)質(zhì)量提供了保障。配電臺(tái)區(qū)作為直接對(duì)接用戶的重要供電網(wǎng)絡(luò),加強(qiáng)臺(tái)區(qū)的供電質(zhì)量保障十分重要。臺(tái)區(qū)用戶相序電氣連接拓?fù)鋵?duì)于分析線損治理、三相不平衡治理、故障診斷及定位都有著重要的技術(shù)支撐,當(dāng)前智能電表積累了海量的用戶數(shù)據(jù),采用大數(shù)據(jù)分析技術(shù)直接對(duì)用戶數(shù)據(jù)的電氣特性進(jìn)行挖掘分析,研究臺(tái)區(qū)用戶的物理拓?fù)潢P(guān)系已成為可能。
相序拓?fù)涫桥_(tái)區(qū)物理拓?fù)涞囊粋€(gè)分支,現(xiàn)有研究采用電表用電數(shù)據(jù)開展相序拓?fù)渥R(shí)別已有較多文獻(xiàn)成果??傮w上可分為知識(shí)驅(qū)動(dòng)和數(shù)驅(qū)動(dòng)兩種路線,知識(shí)驅(qū)動(dòng)是指對(duì)臺(tái)區(qū)各用戶節(jié)點(diǎn)的電氣量所遵循的物理規(guī)律進(jìn)行機(jī)理分析和推導(dǎo),總結(jié)同相用戶和異相用戶的不同規(guī)律,唐捷等[3]對(duì)此分析較為深入,還有一些研究人員是基于此理論依據(jù)開展其他方法應(yīng)用或進(jìn)一步方法改進(jìn)的研究[4-8]。這些方法都是分析先電壓聚類后類別相序識(shí)別的問題,張麗強(qiáng)等[9]沒有從電壓聚類角度考慮,而是直接分析每一個(gè)用戶電壓和母線ABC相的線性回歸強(qiáng)弱來進(jìn)行判斷識(shí)別,并在實(shí)例分析中也取得了很好的識(shí)別準(zhǔn)確率。
知識(shí)驅(qū)動(dòng)方法有嚴(yán)格的理論依據(jù)支撐,一般設(shè)計(jì)的算法普適性較好,效率高,但受數(shù)據(jù)質(zhì)量影響很大,其影響的機(jī)理和靈敏性很難量化分析,該方法應(yīng)用會(huì)有數(shù)據(jù)質(zhì)量瓶頸,因此有研究者將目光轉(zhuǎn)移到數(shù)據(jù)驅(qū)動(dòng)方式的相序識(shí)別研究。谷海彤等[10]提出了CNN-LSTM神經(jīng)網(wǎng)絡(luò)的臺(tái)區(qū)拓?fù)渥R(shí)別方法;蔡永智等[11]提出了隨機(jī)森林算法的臺(tái)區(qū)相序識(shí)別方法;李繼東等[12]提出了Faster-RCNN的電纜相序識(shí)別方法。
以上兩種方法的共同點(diǎn)都是受數(shù)據(jù)質(zhì)量影響很大,同時(shí)數(shù)據(jù)驅(qū)動(dòng)方法的不可解釋性也帶來了模型泛化性不好、難以改進(jìn)的問題。本文以知識(shí)驅(qū)動(dòng)為技術(shù)背景,在電壓聚類環(huán)節(jié)首先進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,采用k-medoids對(duì)處理后的電壓特征向量進(jìn)行聚類,改進(jìn)了k-means聚類受臟數(shù)據(jù)影響太大的缺點(diǎn),在實(shí)例分析中表明所提方法具有良好的應(yīng)用效果。
根據(jù)相關(guān)研究成果[3,13],臺(tái)區(qū)網(wǎng)絡(luò)中分布于同一相線上的鄰近節(jié)點(diǎn)相比于異相線節(jié)點(diǎn)的電壓在電氣時(shí)空特性上具有更大相關(guān)性。為直觀展示臺(tái)區(qū)用戶的電壓具有這種電氣關(guān)聯(lián)特征,選取了2020年11月1日海南省文昌市某臺(tái)區(qū)分布于不同相線的4個(gè)用戶1天內(nèi)的電壓數(shù)據(jù)進(jìn)行分析說明。如圖1所示。
圖1 用戶24小時(shí)電壓曲線
其中,2號(hào)測(cè)量點(diǎn)和3號(hào)測(cè)量點(diǎn)用戶屬于同一相線相鄰節(jié)點(diǎn),78號(hào)和93號(hào)測(cè)量點(diǎn)屬于不同相線且與2號(hào)測(cè)量也不屬于相同相線。根據(jù)對(duì)4個(gè)用戶的電壓曲線波動(dòng)特征的分析可得到以下幾個(gè)特點(diǎn)。
(1)趨同性。從24 h時(shí)長(zhǎng)跨度的曲線波動(dòng)變化上看,整體上都呈現(xiàn)出晚間高峰,白天分時(shí)段在小高峰和峰谷間波動(dòng)的特征,一個(gè)臺(tái)區(qū)內(nèi)不同用戶在同一時(shí)刻的電壓偏差不大,在不同時(shí)刻的電壓變化趨勢(shì)趨同。
(2)差異性。從1個(gè)采集時(shí)刻跨度的曲線波動(dòng)變化上看,一個(gè)臺(tái)區(qū)內(nèi)同相線相鄰用戶的電壓波動(dòng)相似,基本處于同增同減趨勢(shì),曲線高度重合;而不同相線用戶的電壓波動(dòng)差異較大,主要體現(xiàn)在電壓幅值和下一時(shí)刻變化方向上。
通過上文對(duì)臺(tái)區(qū)用戶電壓曲線波動(dòng)特征的分析,采用歐式距離度量?jī)捎脩綦妷呵€之間的相似性,在計(jì)算歐式距離之前首先對(duì)電壓序列進(jìn)行Z-Score標(biāo)準(zhǔn)化,ZScore標(biāo)準(zhǔn)化后原始數(shù)據(jù)變換為均值為0、標(biāo)準(zhǔn)差為1的序列,其分布特性保持不變。該方法的好處是可以放大兩條曲線之間的相似性或差異性,同時(shí)可以排除異常點(diǎn)對(duì)數(shù)據(jù)整體分布的影響,這有利于后文聚類的計(jì)算效果。Z-Score標(biāo)準(zhǔn)化如下:
式中,u*x,t為用戶x的Z-Score標(biāo)準(zhǔn)化電壓值;ux,t為用戶x的原始電壓值,t=1,2,…,T,T為電壓序列時(shí)段數(shù)。
進(jìn)一步,計(jì)算兩用戶電壓曲線的歐式距離如下:
k-means聚類算法在搜索聚類中心時(shí)是計(jì)算簇類所有樣本間的平均值,以平均值作為該簇的更新質(zhì)心,其質(zhì)心可能是簇內(nèi)不存在的虛擬點(diǎn)。這種方法受離群點(diǎn)異常數(shù)據(jù)影響很大,會(huì)因?yàn)殡x群點(diǎn)嚴(yán)重扭曲簇內(nèi)均值點(diǎn)的分布。而k-medoids聚類算法是在簇內(nèi)選出一個(gè)點(diǎn),使之與簇內(nèi)其他樣本對(duì)象之間的距離之和最小,是以簇內(nèi)某樣本對(duì)象作為質(zhì)心。這種質(zhì)心確定方法對(duì)噪聲數(shù)據(jù)的魯棒性更好,可大大降低異常數(shù)據(jù)對(duì)聚類效果的影響。因此本文采用k-medoids聚類算法開展臺(tái)區(qū)用戶電壓曲線聚類進(jìn)行相序識(shí)別。k-medoids聚類算法的目標(biāo)函數(shù)為:
式中:E為簇Ci中所有樣本y至該簇中心樣本oi的距離平方和。
最佳聚類數(shù)評(píng)價(jià)采用戴維森堡丁指數(shù)(daviesbouldin index,DBI)指標(biāo),定義如下:
式中:yu和ou分別為聚類收斂后聚類簇Cu和Cu的聚類中心的電壓特征向量;k為聚類數(shù)。
結(jié)合臺(tái)區(qū)用戶電壓特征,采用k-medoids聚類算法的相序識(shí)別方法的步驟如下:
(1)輸入臺(tái)區(qū)所有用戶電壓序列X,X=[X1,X2,…,XM]T,XM表示臺(tái)區(qū)第M個(gè)用戶的電壓序列,XM=[XM1,XM2,…,XMT];
(2)對(duì)電壓序列X進(jìn)行Z-Score標(biāo)準(zhǔn)化處理輸出Y;(3)依次設(shè)定聚類數(shù)k=3,…,c,k的初始值為1;(4)在樣本集合中隨機(jī)選取k個(gè)樣本作為簇的初始聚類中心;
(5)計(jì)算Y中各用戶電壓向量至k個(gè)聚類中心的歐式距離,將各用戶電表歸屬到與其歐式距離最小的聚類中心所對(duì)應(yīng)的簇;
(6)計(jì)算簇中所有其他樣本與聚類中心樣本的歐式距離平方和,如下:
式中:i=1,2,…,k。
(7)隨機(jī)選擇一個(gè)未被選過作為聚類中心的樣本oj,計(jì)算簇中所有其他樣本與樣本oj的歐式距離平方和,如下:
(8)若ei>ej,則令ei=ej,且使樣本oj為新的聚類中心;
(9)重復(fù)步驟(6)~(8),直至所有非聚類中心的樣本都被選過;
(10)重復(fù)步驟(4)~(8),直至k個(gè)聚類中心不再變動(dòng);
(11)計(jì)算戴維森堡丁指數(shù)λDBI,再重復(fù)步驟(3)~(11);
(12)選取λDBI值最小的聚類數(shù)k作為最佳聚類數(shù),分別計(jì)算每個(gè)聚類簇的聚類中心與配變低壓母線A、B、C相電壓特征向量之間的的歐式距離,以歐式距離最小相定為該簇的相序。
為更直觀地展示本文所提的相序識(shí)別方法,其實(shí)現(xiàn)過程的流程如圖2所示。
圖2 基于k-Medoids聚類算法的相序識(shí)別方法流程
本文選取海南省某農(nóng)村臺(tái)區(qū)實(shí)際數(shù)據(jù)作為方法驗(yàn)證的分析案例。為提高相序識(shí)別結(jié)果,選取臺(tái)區(qū)三相電壓不平衡度較大的一天數(shù)據(jù),臺(tái)區(qū)101個(gè)用戶及三相母線電壓時(shí)序曲線如圖3~4所示。從圖3中可以看出,不同用戶電壓曲線波動(dòng)有差異,但少數(shù)用戶又有很高的相似性,呈現(xiàn)明顯分類現(xiàn)象。
圖3 用戶電壓曲線
圖4 三相母線電壓曲線
對(duì)用戶電壓曲線預(yù)處理后采用k-medoids聚類,得到聚類數(shù)k與戴維森堡丁指數(shù)λDBI的對(duì)應(yīng)結(jié)果如圖5所示。由圖可知λDBI隨k增大是先減小后平穩(wěn)波動(dòng),而λDBI值越小反映簇內(nèi)越緊密簇外越疏遠(yuǎn),代表聚類效果更好。因此對(duì)于此數(shù)據(jù)樣本選聚類數(shù)為20時(shí),聚類效果最好。
圖5 不同聚類數(shù)的聚類性能評(píng)價(jià)結(jié)果
圖6 用戶的算法分析相序與實(shí)際相序分布
進(jìn)一步對(duì)20個(gè)聚類簇的中心用戶計(jì)算其與配變低壓母線A、B、C相的歐式距離,得到20個(gè)聚類簇的相序,整理每個(gè)用戶的相序結(jié)算結(jié)果,并與人工勘測(cè)的實(shí)際相序作對(duì)比,為直觀表示采用散點(diǎn)圖進(jìn)行描述,其中A相用數(shù)字1表示,B相用數(shù)字2表示,C相用數(shù)字3表示,結(jié)果如圖6所示。圖中,藍(lán)點(diǎn)表示用戶的算法分析相序分布,橙點(diǎn)表示用戶的實(shí)際相序分布,黑點(diǎn)表示用戶的算法相序與實(shí)際相序相同的分布。從以上結(jié)果看到,有6戶用戶的算法分析相序與實(shí)際相序不一致,總體相序準(zhǔn)確率達(dá)到94.1%,識(shí)別結(jié)果總體可靠性較高。此外通過多天數(shù)據(jù)的分析,相序識(shí)別準(zhǔn)確率會(huì)受三相電壓不平衡度影響,在三相電壓不平衡度更低一些的日期,相序準(zhǔn)確率會(huì)有降低。
本文針對(duì)人工勘查相序拓?fù)淅щy的問題,提出了利用智能電表蘊(yùn)藏的大數(shù)據(jù)開展相序拓?fù)浞治?,從用戶電壓電氣關(guān)聯(lián)特性出發(fā),用k-medoids聚類算法將用戶聚成多個(gè)未知相序的電表集合,基于歐式距離最小原則確定每個(gè)電表集合的相序?qū)崿F(xiàn)對(duì)每個(gè)用戶相序進(jìn)行識(shí)別。在實(shí)驗(yàn)中驗(yàn)證了同相序電壓具有很高相似度的現(xiàn)象,相序識(shí)別準(zhǔn)確率也達(dá)到了較好的效果,但還有改進(jìn)的空間,具體如下。
電壓聚類后每一類是否嚴(yán)格屬于同一類與該聚類簇用戶電表在臺(tái)區(qū)供電線路上所處的上下游位置有關(guān),通過多數(shù)據(jù)樣本實(shí)驗(yàn)發(fā)現(xiàn),靠近配電變壓器的首端用戶有將異相用戶聚為一類的現(xiàn)象,原因是首端用戶從配變低壓母線引出的電氣距離不遠(yuǎn),而母線ABC相電壓波動(dòng)特征的差異不算太大,造成首端異相用戶會(huì)聚為一類。因此,下一研究階段將圍繞首端電表聚類后簇內(nèi)電電表的拆分再校驗(yàn)方法的研究。
此外,識(shí)別效果也會(huì)受三相電壓不平衡度的影響,為提高本方法的應(yīng)用效果,分析樣本應(yīng)挑選三相電壓不平衡度大的時(shí)間進(jìn)行相序拓?fù)溆?jì)算分析。