林華城,葉泳泰,陳錦迅,賴佛強,陸建巧
(廣東電網(wǎng)有限責任公司惠州供電局,廣東 惠州 516000)
隨著網(wǎng)絡、大數(shù)據(jù)、物聯(lián)網(wǎng)、通信技術(shù)[1-2]的不斷發(fā)展,電力系統(tǒng)每時每刻都在不停地接收新信息。同時,電力公司可通過高級量測體系(advanced metering infrastructure,AMI)[3]監(jiān)控細粒度時間間隔內(nèi)的電力消耗,從而更有效地監(jiān)控電力系統(tǒng)中的異常情況。
一般情況下,電力系統(tǒng)中存在2種類型的損耗[4],分別是技術(shù)損耗和非技術(shù)損耗。技術(shù)損耗由線路、變壓器和其他設(shè)備中的電阻元件加熱引起。非技術(shù)損耗主要由竊電、電表故障或計費錯誤引起。為此,可通過采集到的大數(shù)據(jù)分析用戶的用電行為,建立異常用電行為檢測模型。這樣不僅可以減少竊電行為,還可為電能表故障檢測提供新的解決思路。
目前,AMI計量數(shù)據(jù)在竊電檢測中的應用方案主要有兩種,分別是基于數(shù)據(jù)統(tǒng)計[5-6]的方法和基于機器學習[7-8]的方法?;跀?shù)據(jù)統(tǒng)計的方法實施相對簡單,但只能判斷低壓站發(fā)生了竊電,無法準確定位非法用戶。如果要確定可疑用戶,則需要手動逐個檢查區(qū)域內(nèi)的所有用戶。這樣做效率較低,且對檢測過程中檢測人員的素質(zhì)提出了更高要求。文獻[9]提出了1種基于差分進化支持向量機(support vector machine,SVM)的識別方法。文獻[10]提出了1種基于貝葉斯優(yōu)化和改進XGBoost模型的竊電檢測方法。然而,機器學習方法也存在一定缺陷,如訓練超參數(shù)確定困難、算法易陷入局部最優(yōu)等。隨著深度學習技術(shù)的發(fā)展,部分學者將深度學習方法引入竊電檢測,從而獲得更高的準確度。然而,深度學習方法訓練復雜,且非常依賴樣本數(shù)據(jù)。同時,如果無法有效處理AMI不平衡樣本集問題,將會嚴重影響訓練效果。
為改善上述問題,本文提出了1種將無監(jiān)督學習和有監(jiān)督學習相結(jié)合的竊電檢測模型。本文首先基于Wasserstein距離、相似性約束和真實約束,訓練生成對抗網(wǎng)絡(generative adversarial network,GAN),以生成符合竊電特征的高精度測量數(shù)據(jù);然后,為了提高相似性度量的有效性,在相似性度量過程中綜合考慮了數(shù)值特征和形態(tài)特征,并采用動態(tài)時間扭曲(dynamic time warping,DTW)來度量形態(tài)特征的相似性;最后,使用SVM-K近鄰(K-nearest neighbor,KNN)進行竊電檢測。
基于計算智能的竊電檢測模型結(jié)構(gòu)如圖1所示。
圖1 基于計算智能的竊電檢測模型結(jié)構(gòu)圖
典型的低壓配電網(wǎng)由多個相互連接的單元組成。電力通過高壓線從發(fā)電廠輸送到變電站,并從變電站輸送到工業(yè)、商業(yè)和住宅區(qū)。在此過程中,通過AMI可測量、收集、存儲、分析和使用客戶數(shù)據(jù)。收集的數(shù)據(jù)包括各種大、中、小型典型變壓器用戶以及380 V、220 V低壓居民用戶的數(shù)據(jù)。收集的信息包括數(shù)據(jù)項,如電能數(shù)據(jù)、事件記錄和其他數(shù)據(jù)。通過對收集的數(shù)據(jù)及信息進行分析,可以獲取用戶的電力消費信息和消費行為信息。在低壓變電站中,能量損失是基于能量平衡失配產(chǎn)生的。假設(shè)所有電表讀數(shù)正常,而低壓站被視為1個節(jié)點,則根據(jù)基爾霍夫定律,子電表讀數(shù)與網(wǎng)損之和等于總電表讀數(shù)。因此,當網(wǎng)損過大時,可認為竊電的可能性非常高。
基于計算智能的竊電檢測模型執(zhí)行過程包含3個關(guān)鍵過程。
①確定可疑站點。竊電檢測模型基于改進的模糊C均值(improved fuzzy C-means,IFCM)聚類算法對用戶的歷史數(shù)據(jù)進行聚類,從而獲取用戶的用電特性曲線。
②基于相似性約束和真實性約束,使用GAN生成符合竊電特征的高精度測量數(shù)據(jù)。
③竊電用戶定位。綜合考慮待測曲線的數(shù)字特征、形態(tài)特征以及特征曲線,將平衡數(shù)據(jù)集代入改進的SVM-KNN模型進行訓練,從而準確識別非法竊電用戶。
本文假定AMI系統(tǒng)獲得的竊電數(shù)據(jù)涉及時間n內(nèi)的m個用戶,其數(shù)據(jù)形式可由矩陣描述。同時,本文令同一用戶在不同時期的數(shù)據(jù)為xj。不同用戶在時間n的數(shù)據(jù)向量X可描述如下。
(1)
式中:xnm為第n個用戶在第m個測量期間由智能儀表測量的值。
為消除數(shù)據(jù)多尺度影響,本文基于最大-最小歸一化函數(shù)對數(shù)據(jù)進行處理,并將數(shù)據(jù)映射為[0,1]。歸一化函數(shù)如式(2)所示。
(2)
式中:x為實際測量數(shù)據(jù);xmax為樣本數(shù)據(jù)的最大值;xmin為樣本數(shù)據(jù)的最小值;x*為歸一化后的用電量數(shù)據(jù)。
用戶的用電行為多種多樣。對于不同的用戶,通常選擇不同的特征集來分析用戶的用電行為具有不同的分析結(jié)果。然而,特征空間中包含的冗余信息導致分析結(jié)果效果不佳。因此,有必要去除重疊和冗余信息,從而提高分析性能。
本文選取的基本用戶用電行為特征包括統(tǒng)計特征、時間序列特征和關(guān)系特征。其中:統(tǒng)計特征包括日用電量數(shù)據(jù)、年用電量數(shù)據(jù)、季節(jié)用電量數(shù)據(jù)、日最大和最小負荷、平均負荷率等;時間序列特征包括高峰小時耗電率、谷功率系數(shù)等;關(guān)系特征包括房屋面積和家庭成員人數(shù)等。為去除冗余特征,本文提出了IFCM特征選擇算法。該算法具體過程如下。
①選擇特征數(shù)為1,確定特征個數(shù)為1時的最高聚類評價標準。
②選擇特征數(shù)為2,根據(jù)所選特征選擇新特征,確定具有最高聚類評估標準的特征。
③選擇特征數(shù)為i,根據(jù)所選特征選擇(i+1)個特征。其中,(i+1)特征為具有最高的聚類評價標準的特征。
④重復上述步驟,直到選擇(n+1)個特征,且具有最高聚類評估標準的特征為所選特征。
本文使用GAN[11]生成竊電數(shù)據(jù)。由于測量數(shù)據(jù)是一維時間序列,因此本文設(shè)計了基于一維卷積層的GAN結(jié)構(gòu)。同時,本文基于Wasserstein距離、相似性約束和真實約束,生成符合竊電特征的高精度測量數(shù)據(jù)。所生成的樣本與現(xiàn)有樣本相結(jié)合,可以獲得大量樣本?;贕AN的數(shù)據(jù)增強結(jié)構(gòu)總體框架如圖2所示。
模型首先選擇現(xiàn)有的少量竊電數(shù)據(jù)作為訓練集。本文令竊電數(shù)據(jù)為pd(X),數(shù)據(jù)中存在的1組隨機變量z滿足高斯分布pz(z)。GAN可從已知分布中采樣,生成滿足原始數(shù)據(jù)分布的新數(shù)據(jù)。訓練過程中,生成器G負責學習樣本分布的規(guī)律并生成新樣本。G由神經(jīng)網(wǎng)絡組成。其輸入為先驗分布pz(對應z),輸出為G(z)。需注意,生成數(shù)據(jù)的目標是生成盡可能真實的數(shù)據(jù),即生成數(shù)據(jù)的分布規(guī)律pg(z)與樣本數(shù)據(jù)pd(X)擬合。如生成器損失函數(shù)為Ez~pz{-D[G(z)]},則目標函數(shù)fD定義如下。
fD=minEz~pz{-D[G(z)]}
(3)
式中:D為鑒別器,負責確定輸入數(shù)據(jù)是否真實。
D是1個神經(jīng)網(wǎng)絡,但其輸入是實際數(shù)據(jù)或生成器生成的數(shù)據(jù)。鑒別器的主要任務是區(qū)分2種數(shù)據(jù),因此其輸出是1個介于0和1之間的標量,即屬于實際數(shù)據(jù)或生成數(shù)據(jù)的概率。D的損失函數(shù)可以定義為Ex~pd[-D(x)]+Ez~pz{-D[G(z)]}。D的目標函數(shù)fE定義為:
fE=maxEx-pd[-D(x)]+Ez~pz{-D[G(z)]}
(4)
因此,整個對抗過程的目標函數(shù)定義為:
Ez~pz{log{1-D[G(z)]}}
(5)
本文選取最小Wasserstein距離為目標訓練GAN,從而有效提高GAN訓練的穩(wěn)定性。Wasserstein距離定義如下。
(6)
式中:∏(pd,pg)為聯(lián)合分布γ的集合,pd和pg分別為鑒別器和生成器中數(shù)據(jù)的邊際分布;W(pd,pg)為γ(x,y)期望的下確界,即pg到pd的擬合需要x到y(tǒng)的距離。
由于很難直接計算任意分布之間的Wasserstein距離,因此本文采用對偶形式:
(7)
經(jīng)過訓練后,生成器可以生成大量樣本,且滿足分布要求。為了確保生成的測量數(shù)據(jù)的真實性,必須同時滿足真實性和相似性約束。真實性約束用于確保生成的數(shù)據(jù)能夠接近真實情況。真實性損失Lr為:
Lr=W[G(z;θ(G));θ(D)]
(8)
式中:G(z;θ)為生成器的生成數(shù)據(jù);W(~;θ(D))為生成數(shù)據(jù)與實際樣本之間的Wasserstein距離。
同理,生成的數(shù)據(jù)應盡可能與實際數(shù)據(jù)相似。
因此,相似性損失Ls為:
(9)
(10)
(11)
本文提出的竊電用戶定位包括2個關(guān)鍵環(huán)節(jié),分別為基于相似性度量確定可疑用戶,以及基于改進SVM初步檢測可疑用戶并輸出非法用戶。竊電用戶定位執(zhí)行流程如圖3所示。
圖3 竊電用戶定位執(zhí)行流程圖
圖3中,D1和D2為設(shè)置的閾值,且D1 時間序列的相似性包括值和形態(tài)2個方面。為了獲得特征曲線的值和形態(tài),本文分別使用歐幾里德距離、DTW度量值和形態(tài)特征相似性。為了簡單而準確地描述曲線的形態(tài)特征,例如不同時期的上升、下降和穩(wěn)定性,本文使用直線斜率表示該時期的形態(tài)特征。因此,長度為n的時間序列可縮減為形態(tài)序列(n-1)。 本文令2個獨立的時間序列分別為X=(x1,x2,…,xn-1)和Y=(y1,y2,…,ym-1)。因此,X和Y的值相似性可由距離矩陣度量。其中,矩陣中的每個元素由歐幾里德距離表示。 (12) 式中:i=1,2,…,n;j=1,2,…,m。 同理,X和Y的形態(tài)相似性可由DTW度量。然而,DTW不是隨機選擇,其需要滿足邊界條件、連續(xù)性和單調(diào)性約束。在滿足這3個約束后,可得到許多路徑。本文需要選擇1條使最終獲得的總距離最小化的路徑。為此,本文基于動態(tài)規(guī)劃方法構(gòu)造累積距離γ。累積距離γ(i,j)表示當前網(wǎng)格點的距離D(i,j)與可到達該點的最小相鄰元素的累積距離之和。 γ(i,j)=D(q,c)+min[γ(i-1,j-1) γ(i-1,j)γ(i,j-1)] (13) SVM-KNN模型執(zhí)行流程如圖4所示。 圖4 SVM-KNN模型執(zhí)行流程圖 SVM是1種典型的有監(jiān)督學習方法,主要用于分析給定數(shù)據(jù)并識別輸入值相對于輸出的模式或趨勢。傳統(tǒng)SVM為1個層次化的分類模型,其最大的問題是錯誤積累。這影響了分類的準確性。如果使用有偏二叉樹進行分類,則需要構(gòu)造一個誤差積累小、分類精度高的決策樹。為了減少誤差累積的影響,本文采用投影向量方法來度量類間的分離度,并在此基礎(chǔ)上構(gòu)造了1個有偏二項決策樹。同時,由于數(shù)據(jù)遠離超平面,SVM能夠準確地進行分類。但當距離接近超平面時,分類效果較低,在超平面附近容易發(fā)生誤分類。為提高竊電用戶分類精度,本文提出了1種改進的SVM-KNN模型。SVM-KNN模型利用界面附近樣本提供的信息來提高分類精度。 對識別樣本進行分類時,需計算樣本與分類超平面之間的距離。如果距離大于給定的閾值,則直接應用SVM分類;否則,應用KNN分類。在KNN分類中,每一類的支持向量用來計算識別樣本與每個SVM之間的距離。 仿真試驗數(shù)據(jù)使用某電力公司提供的2019年至2020年約5 000個家庭用戶和企業(yè)用戶的半小時用電報告。數(shù)據(jù)經(jīng)用戶同意,主要從用戶家或辦公室中安裝的智能電表中獲取。每個用戶數(shù)據(jù),至少都有1個包含350天的半小時用電報告信息。為了不失一般性,本文假設(shè)所有樣本都屬于誠實用戶。根據(jù)竊電的實際情況,本文建立了6種類別的竊電情況。第一類竊電是所有樣本乘以相同的隨機選擇系數(shù)。第二類竊電是1種典型的“開-關(guān)”攻擊,即在某些時間間隔內(nèi),耗電量報告為零。第三類竊電是將耗電量乘以隨時間變化的隨機系數(shù)。第四類竊電是第二類和第三類的結(jié)合。第五類竊電是在高峰時段乘以相同的隨機選擇系數(shù)。第六類竊電是1種隨機周期的“開-關(guān)”攻擊,但持續(xù)時間短且不連續(xù),因此減少了總用電量。與第二類竊電相比,由于時間段的隨機性,第六類竊電檢測顯得更加困難。 5.2.1 特征選取 本節(jié)對用戶用電行為的常用特征選取策略進行對比。表1所示為特征數(shù)量和準確率變化統(tǒng)計結(jié)果。由表1可知:隨著特征數(shù)量的增加,聚類的準確率增加;當特征數(shù)量超過4時,聚類的準確率降低。因此,研究最終確定代表電力消費行為的特征數(shù)量為4。特征指標為負荷率、谷系數(shù)、高峰小時用電率和正常時段的用電量百分比。 表1 特征數(shù)量和準確率變化統(tǒng)計結(jié)果 5.2.2 站點檢測 圖5所示為IFCM和傳統(tǒng)模糊C均值(fuzzy C-means,FCM)聚類目標函數(shù)對比結(jié)果。 圖5 IFCM和傳統(tǒng)FCM聚類目標函數(shù)對比結(jié)果 由圖5可知,IFCM迭代次數(shù)較少,且每個點到聚類中心的代數(shù)和較少。因此與FCM相比,IFCM可以有效提高算法的分類效果和迭代時間。 考慮到正常用戶和非正常用戶之間數(shù)據(jù)的不平衡,本節(jié)基于一維卷積層的GAN生成竊電數(shù)據(jù)。為了驗證所提SVM-KNN模型的性能,本節(jié)比較了合成少數(shù)類過采樣技術(shù)(synthetic minonity over-sampling technique,SMOTE)和分界線-SMOTE(borderline-SMOTE,B-SMOTE)數(shù)據(jù)增強算法的分類性能。不同數(shù)據(jù)增強算法分類性能對比結(jié)果如表2所示。 由表2可知,無論有無噪聲,SVM-KNN生成的樣本都能有效提高分類器的分類精度。 本節(jié)將SVM-KNN與傳統(tǒng)SVM、決策樹-SVM(decision tree-SVM,DT-SVM)、KNN、卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)等模型在不同噪聲數(shù)據(jù)中進行綜合對比。表3所示為不同方法綜合性能對比結(jié)果。對比指標包括識別準確率、召回率和F分數(shù)。 表3 不同方法綜合性能對比結(jié)果 由表3可知,各模型在無噪聲數(shù)據(jù)集中的指標均優(yōu)于有噪聲數(shù)據(jù)集;隨著數(shù)據(jù)集中的噪聲數(shù)據(jù)增加,各指標均有不同程度下降。綜合對比后可知,所提模型具有較高的魯棒性,在驗證干擾數(shù)據(jù)集中表現(xiàn)較為優(yōu)異。對比結(jié)果進一步驗證了所提模型對電力行業(yè)竊電行為檢測具有較高的準確性和穩(wěn)定的識別率。 本文對電力行業(yè)竊電檢測進行了研究與分析,建立了1種基于計算智能的竊電檢測模型。首先,本文基于IFCM對用戶的歷史數(shù)據(jù)進行聚類,從而獲取用戶的用電特性曲線。其次,本文基于相似性約束和真實性約束,使用GAN生成符合竊電特征的高精度測量數(shù)據(jù)。最后,本文綜合考慮待測曲線的數(shù)字特征、形態(tài)特征以及特征曲線,將平衡數(shù)據(jù)集代入改進的SVM-KNN模型進行訓練,從而準確識別非法竊電用戶。該模型為電力部門分析用戶用電行為以及竊電檢測提供了借鑒。4.1 相似性度量
4.2 改進的SVM-KNN模型
5 仿真與分析
5.1 數(shù)據(jù)集
5.2 站點檢測性能對比分析
5.3 數(shù)據(jù)生成對比分析
5.4 竊電檢測性能對比分析
6 結(jié)論