鄭貴林,謝耀
(武漢大學(xué) 電氣與自動(dòng)化學(xué)院,武漢 430072)
電力系統(tǒng)中,輸配電損失指輸配電網(wǎng)中未由電力用戶支付的電量。有兩種類型的損失:技術(shù)性損失和非技術(shù)性損失[1]。技術(shù)性損失是電力傳輸?shù)墓逃袚p耗,非技術(shù)性損失包括竊電、記錄異常和欺詐等。其中因竊電造成的非技術(shù)性損失在電網(wǎng)實(shí)際運(yùn)行中普遍存在[2],部分國(guó)家的非技術(shù)性損失約占用電總量的12.5%~25%[3]。例如,印度、巴西和墨西哥的非技術(shù)性損失分別占其全國(guó)用電量的26.2%、16.85%和15.83%[4]。我國(guó)的非技術(shù)性損失相對(duì)較低,占全國(guó)用電總量的6.42%[4],但我國(guó)電能需求總體龐大,且近年來用電量不斷攀升[5-6]。因此,竊電等異常用電模式檢測(cè)方法研究是降低輸配電損失、提高智能電網(wǎng)運(yùn)行效率的關(guān)鍵[7]。
近年來國(guó)內(nèi)外學(xué)者對(duì)于降低非技術(shù)性損失的問題,在異常用電檢測(cè)領(lǐng)域展開了廣泛的研究。文獻(xiàn)[4]使用基于C-means的模糊聚類方法尋找具有相似消費(fèi)特征的電力用戶,并利用模糊隸屬度矩陣和到聚類中心的歐氏距離進(jìn)行模糊分類。為了解決人工分類的問題,文獻(xiàn)[8]提出一種基于AMI系統(tǒng)中高頻率的負(fù)荷計(jì)量數(shù)據(jù),采用One-class SVM模型建立用戶的正常行為模式分類器。文獻(xiàn)[9]通過將反竊電評(píng)價(jià)體系與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合構(gòu)建反竊電模型。上述檢測(cè)模型的實(shí)驗(yàn)仿真結(jié)果在異常用電模式分類方面均滿足檢測(cè)要求,但在特征提取及檢測(cè)閾值選取方面缺乏理論依據(jù),且模型的檢測(cè)精度有待提高。
為更有效地從高維數(shù)據(jù)中提取數(shù)據(jù)特征從而解決特征匹配問題,文章提出一種基于小波和長(zhǎng)短期記憶混合神經(jīng)網(wǎng)絡(luò)的異常用電檢測(cè)的模型。模型主要由三部分組成:首先,提出異常用電模擬算法用于生成異常用電數(shù)據(jù)序列;然后,通過級(jí)聯(lián)長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)結(jié)構(gòu)從電力用戶用電數(shù)據(jù)中提取序列特征;最后,通過小波神經(jīng)網(wǎng)絡(luò)(Wavelet Neural Network,WNN)處理序列特征,實(shí)現(xiàn)序列特征到輸配電系統(tǒng)中電力用戶用電模式的映射。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Current Neural Network,RNN)是由輸入層、隱含層及輸出層組成的全連接神經(jīng)網(wǎng)絡(luò),圖1所示為RNN結(jié)構(gòu)展開示意圖。
圖1 RNN典型結(jié)構(gòu)
其中x為系統(tǒng)輸入;h為隱含層輸出,當(dāng)前時(shí)刻(t時(shí)刻)輸出ht由隱含層輸入經(jīng)權(quán)重矩陣和激活函數(shù)作用得到;o為系統(tǒng)輸出;L是損失估計(jì);y是訓(xùn)練集中給出的真實(shí)值;U、V、W為權(quán)重矩陣,經(jīng)后續(xù)訓(xùn)練得到。
在t時(shí)刻:
h(t)=φ(Ux(t)+Wh(t-1)+b)
(1)
式中φ(·)為激活函數(shù);b為偏置量。
t時(shí)刻的輸出:
o(t)=Vh(t)+c
(2)
式中c為偏置量,最終模型的預(yù)測(cè)輸出為y(t);σ為激活函數(shù):
y(t)=σ(o(t))
(3)
LSTM網(wǎng)絡(luò)模型是深層RNN的改進(jìn),通過在隱含層增加新的單元狀態(tài)進(jìn)行信息的傳遞,重新設(shè)計(jì)了計(jì)算節(jié)點(diǎn),實(shí)現(xiàn)對(duì)遠(yuǎn)距離信息的有效控制,可以有效避免訓(xùn)練深度網(wǎng)絡(luò)過程中的梯度值異常增長(zhǎng)問題[10]。
LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。完整的LSTM網(wǎng)絡(luò)包括存儲(chǔ)歷史信息的記憶單元、控制當(dāng)前時(shí)刻輸入信息的“輸入門”、調(diào)整歷史信息輸入權(quán)重的“遺忘門”和控制當(dāng)前時(shí)刻輸出信息的“輸出門”。
圖2 LSTM結(jié)構(gòu)
LSTM網(wǎng)絡(luò)模型在t時(shí)刻含有3個(gè)輸入:當(dāng)前時(shí)刻網(wǎng)絡(luò)的外部輸入xt;前一時(shí)刻LSTM網(wǎng)絡(luò)隱含層輸出值ht-1;前一時(shí)刻單元狀態(tài)ct-1。LSTM網(wǎng)絡(luò)在t時(shí)刻含有2個(gè)輸出:當(dāng)前時(shí)刻LSTM網(wǎng)絡(luò)輸出值ht和當(dāng)前時(shí)刻單元狀態(tài)ct。
LSTM網(wǎng)絡(luò)模型通過3個(gè)控制開關(guān)實(shí)現(xiàn)對(duì)單元狀態(tài)c的有效控制:“遺忘門”實(shí)現(xiàn)對(duì)前一時(shí)刻長(zhǎng)期狀態(tài)ct-1的控制;“輸入門”實(shí)現(xiàn)對(duì)當(dāng)前時(shí)刻輸入信息的控制;“輸出門”實(shí)現(xiàn)對(duì)當(dāng)前時(shí)刻長(zhǎng)期狀態(tài)ct的控制。根據(jù)圖2,可以得到如下各門結(jié)構(gòu)的具體計(jì)算式:
當(dāng)前時(shí)刻“遺忘門”:
ft=σf(Wf[ht-1,xt]+bf)
(4)
式中Wf為“遺忘門”權(quán)重矩陣;[ht-1,xt]表示將2個(gè)向量拼接;bf為“遺忘門”偏置項(xiàng);σf(·)為“遺忘門”激活函數(shù)。
當(dāng)前時(shí)刻“輸入門”:
it=σi(Wi[ht-1,xt]+bi)
(5)
式中Wi為“輸入門”權(quán)重矩陣;bi為“輸入門”偏置項(xiàng);σi(·)為“輸入門”激活函數(shù)。
當(dāng)前輸入的單元狀態(tài)c′由前一時(shí)刻LSTM網(wǎng)絡(luò)輸出ht-1及當(dāng)前時(shí)刻輸入xt計(jì)算,公式為:
c′t=tanh(Wc[ht-1,xt]+bc)
(6)
式中Wc為單元狀態(tài)的權(quán)重矩陣;bc為偏置項(xiàng);tanh為激活函數(shù)。
當(dāng)前時(shí)刻單元狀態(tài):
ct=ft×ct-1+it×c′t
(7)
式中符號(hào)“×”表示按元素乘。此時(shí),LSTM網(wǎng)絡(luò)將當(dāng)前記憶c′t和長(zhǎng)期記憶ct-1相結(jié)合,形成新單元狀態(tài)ct。
當(dāng)前時(shí)刻“輸出門”ot受到長(zhǎng)期記憶對(duì)當(dāng)前輸出的影響,計(jì)算式為:
ot=σo(Wo[ht-1,xt]+bo)
(8)
式中Wo為“輸出門”權(quán)重矩陣;bo為“輸出門”偏置項(xiàng);σo(·)為“輸出門”激活函數(shù)。
LSTM網(wǎng)絡(luò)最終輸出由“輸出門”和單元狀態(tài)共同確定,計(jì)算式為:
ht=ot×tanh(ct)
(9)
小波神經(jīng)網(wǎng)絡(luò)在數(shù)列數(shù)據(jù)分析領(lǐng)域應(yīng)用廣泛[11]。對(duì)一個(gè)多輸入多輸出映射f:Rm→Rq,其網(wǎng)絡(luò)方程的實(shí)現(xiàn)可表示為:
(10)
在挖掘電力用戶用電數(shù)據(jù),識(shí)別竊電等異常用電行為時(shí),模型需要將高緯度用戶用電數(shù)據(jù)處理為序列特征,并映射到具體的用電模式。因此,分析用電數(shù)據(jù)的內(nèi)在聯(lián)系,從而提取用電信息特征是實(shí)現(xiàn)異常用電檢測(cè)的前提,這些聯(lián)系和特征能有效地反映數(shù)據(jù)的特性。LSTM在保留了RNN模型提取深層次特征能力的同時(shí),解決了深層網(wǎng)絡(luò)訓(xùn)練過程中存在的梯度消失問題,在處理時(shí)間序列相關(guān)問題中具有明顯優(yōu)勢(shì)。WNN由于其容錯(cuò)性、抗干擾性和自適應(yīng)性強(qiáng)等優(yōu)點(diǎn),被廣泛應(yīng)用于模式識(shí)別和信號(hào)分類問題。據(jù)此,文章提出混合神經(jīng)網(wǎng)絡(luò)模型用于解決異常用電模式檢測(cè)中的特征提取和模式映射的問題,模型結(jié)構(gòu)如圖3所示。周用電數(shù)據(jù)經(jīng)過多層特征提取網(wǎng)絡(luò)篩選出具有高序列相關(guān)性的序列特征,然后將提取的序列特征輸入到模式映射網(wǎng)絡(luò)中,實(shí)現(xiàn)異常用電檢測(cè)。
圖3 混合神經(jīng)網(wǎng)絡(luò)模型
文中使用如圖4所示的3層LSTM網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取。為了使提取的數(shù)據(jù)具有整體性,能較為完整地反映輸入數(shù)據(jù)特性,文章使用級(jí)聯(lián)LSTM逐漸壓縮特征數(shù)據(jù)的維度并維持特征間關(guān)系。
圖4 特征提取網(wǎng)絡(luò)結(jié)構(gòu)
圖4中x=[x1,x2,…,x336]表示輸入數(shù)據(jù),共336維;h(j)t表示第j層t時(shí)刻的輸出,其中j的取值為1,2,3共三層,t的取值隨j的取值變化,即第1層:t取1,2,…,336,第2層:t取1,2,…,240,第3層:t取1,2,…,144;s=[s1,s2,…,s48]表示最后一層LSTM輸出的48維特征數(shù)據(jù)。
為了實(shí)現(xiàn)用戶用電模式的識(shí)別分類,文章使用WNN網(wǎng)絡(luò)構(gòu)建模式映射網(wǎng)絡(luò),利用特征提取網(wǎng)絡(luò)提取到的序列特征數(shù)據(jù),得到最終的結(jié)果。模式映射網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。圖中,s=[s1,s2,…,s48]表示特征提取網(wǎng)絡(luò)所得到的48維特征數(shù)據(jù);lk,n表示第k層隱含層的第n個(gè)節(jié)點(diǎn);y1,y2表示輸出層。
圖5 模式映射網(wǎng)絡(luò)結(jié)構(gòu)
文中使用交叉熵?fù)p失函數(shù)來計(jì)算當(dāng)前模型的損失偏差程度。損失函數(shù)公式如式(11)所示。
(11)
常見的異常用電模式表現(xiàn)為通過攻擊智能電表的通信接口、損壞智能電表的硬件結(jié)構(gòu)或者攻擊通信網(wǎng)絡(luò)篡改用電數(shù)據(jù)。用電數(shù)據(jù)可能被直接篡改為0或者被按照一定比例削減,也可能保持用電數(shù)據(jù)總量一定,對(duì)用電曲線進(jìn)行依峰。文章提出了如表1所示的異常用電模擬算法[13]。該算法對(duì)可能出現(xiàn)的異常用電模式給出確切的定義,共有6種模式。
在算法1中,xt代表正常用電數(shù)據(jù)在t時(shí)刻的值,x′t是異常值。考慮不同異常用電模式發(fā)生可能性,對(duì)于第1種和第5種異常用電模式,設(shè)其概率為0.1,對(duì)第2、3、4、6種異常用電模式,設(shè)其概率為0.2。
表1 異常用電模擬算法
文章提出的異常用電檢測(cè)整體模型流程圖如圖6所示。首先,根據(jù)電力用戶的不同數(shù)據(jù)集可分為家庭用電、商業(yè)用電、其他用電三個(gè)組別,每個(gè)組別均利用異常用電模擬算法生成異常用電數(shù)據(jù),訓(xùn)練集和測(cè)試集按照7:3的比例劃分。然后,建立基于WNN和LSTM的混合神經(jīng)網(wǎng)絡(luò)模型,并且初始化網(wǎng)絡(luò)參數(shù),利用Adam算法進(jìn)行優(yōu)化。最后將測(cè)試集數(shù)據(jù)作為訓(xùn)練后模型的輸入,得到分類結(jié)果,進(jìn)行效果評(píng)估。
圖6 異常用電檢測(cè)模型流程圖
文章使用CER Smart Metering Project數(shù)據(jù)集驗(yàn)證所提模型[14]。該數(shù)據(jù)集由Electric Ireland 和Sustainable Energy Authority of Ireland(SEAI)于2012年發(fā)布,包含4 225個(gè)家庭用戶、485個(gè)商業(yè)用戶和1735個(gè)其他用戶,每個(gè)用戶有535天的連續(xù)用電記錄(半小時(shí)記錄一個(gè)點(diǎn))。三種用戶的日用電量分別如圖7~圖9所示。
圖7 家庭用戶日用電量圖
圖8 商業(yè)用戶日用電量圖
圖9 其他用戶日用電分布圖
從圖7~圖9中可以看出,不同組別的用電模式有很大區(qū)別,考慮到不同組別發(fā)生竊電的概率,每組隨機(jī)取20%(P(I)=20%)的樣本作為算法1的輸入生成異常用電數(shù)據(jù)。
在生成異常用電數(shù)據(jù)時(shí),首先,選取535天時(shí)間段內(nèi)共6 445個(gè)電力用戶的歷史用電數(shù)據(jù),以周為基準(zhǔn),將用戶個(gè)體的數(shù)據(jù)分段儲(chǔ)存;然后,采用算法1對(duì)儲(chǔ)存數(shù)據(jù)逐段執(zhí)行,將所有數(shù)據(jù)匯總并隨機(jī)打亂;最后,將打亂后的整體數(shù)據(jù)按比例劃分為訓(xùn)練集和測(cè)試集用來對(duì)文章提出的異常用電檢測(cè)模型進(jìn)行訓(xùn)練和評(píng)估。
文章采用三個(gè)評(píng)價(jià)指標(biāo)。分別為誤檢率rFPR、檢出率rDR和貝葉斯檢出率rBDR,如式(12)所示。其中貝葉斯檢出率是對(duì)誤檢率和檢出率的綜合,充分考慮了異常用電發(fā)生的概率以及異常用電檢測(cè)帶來的成本。
(12)
式中NFP為預(yù)測(cè)類別為真,真實(shí)類別為假的樣本個(gè)數(shù);NFN為預(yù)測(cè)類別為假,真實(shí)類別為真的樣本個(gè)數(shù);NTP為預(yù)測(cè)類別為真,真實(shí)類別也為真的樣本個(gè)數(shù);NTN為預(yù)測(cè)類別為假,真實(shí)類別也為假的樣本個(gè)數(shù);P(I)為異常用電行為發(fā)生的概率。
首先,考慮到文章提出模型本身的影響因素,算法整體性能對(duì)特征提取網(wǎng)絡(luò)中LSTM的層數(shù)設(shè)置非常敏感,網(wǎng)絡(luò)的層數(shù)過少對(duì)數(shù)據(jù)的抽象提取能力不足,網(wǎng)絡(luò)的層數(shù)過多會(huì)造成過擬合現(xiàn)象,同時(shí)隨著網(wǎng)絡(luò)層數(shù)的增加,模型的時(shí)間復(fù)雜度呈指數(shù)增長(zhǎng),因此需要選取適當(dāng)?shù)腖STM網(wǎng)絡(luò)層數(shù)。分別取LSTM 的層數(shù)為1,2,3,4在相同數(shù)據(jù)集上實(shí)驗(yàn),算法的性能如圖10、圖11所示。增加LSTM的層數(shù),會(huì)使檢出率升高,但增加幅度會(huì)減小,同時(shí)誤檢率會(huì)降低,但是當(dāng)LSTM層數(shù)達(dá)到4層時(shí)誤檢率略微升高。實(shí)驗(yàn)結(jié)果說明,特征提取網(wǎng)絡(luò)中LSTM的層數(shù)取3層時(shí),算法性能比較好。
圖10 特征提取網(wǎng)絡(luò)層數(shù)對(duì)算法檢出率的影響
圖11 特征提取網(wǎng)絡(luò)層數(shù)對(duì)算法誤檢率的影響
為了進(jìn)行效果評(píng)估,將文章提出的基于小波和長(zhǎng)短期記憶混合神經(jīng)網(wǎng)絡(luò)的異常用電檢測(cè)模型與傳統(tǒng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn)。
(1)支持向量機(jī)[15]:根據(jù)電力用戶長(zhǎng)期用電情況,利用支持向量機(jī)作為分類器,完成不同用電模式的分類。
(2)分層神經(jīng)網(wǎng)絡(luò)[16]:采用分層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以經(jīng)過分類器處理后的數(shù)據(jù)為輸入特征,實(shí)現(xiàn)非法用電用戶篩選。
(3)極限學(xué)習(xí)機(jī)[17]:根據(jù)電力用戶實(shí)時(shí)用電負(fù)荷數(shù)據(jù),利用在線序列極限學(xué)習(xí)機(jī)作為異常識(shí)別模型,完成用戶異常用電行為監(jiān)測(cè)。該模型使用sigmoid激活函數(shù)和徑向基函數(shù)(RBF)。
(4)決策樹[18]:以月用電量為特征,選擇信息增益為序列篩選標(biāo)準(zhǔn),結(jié)合決策樹模型實(shí)現(xiàn)用戶異常用電模式分類。
(5)模糊系統(tǒng)[19]:采用改進(jìn)的模糊系統(tǒng),結(jié)合預(yù)選分類器,通過選取參數(shù),建立模糊規(guī)則實(shí)現(xiàn)非技術(shù)性損失檢測(cè)。
表2展示了上述模型在測(cè)試集上的表現(xiàn)。
表2 不同異常用電檢測(cè)模型的效果
從表2中可以看出,文章所提模型與傳統(tǒng)網(wǎng)絡(luò)模型相比,具有更高的檢出率、更低的誤檢率和更高的貝葉斯檢出率。其中,與分層神經(jīng)網(wǎng)絡(luò)模型相比有相近的檢出率,但是在貝葉斯檢出率方面具有較大的優(yōu)勢(shì),這是因?yàn)槲恼滤崮P驮谔卣魈崛》矫娉浞挚紤]了正常、異常樣本的特征,減小了過擬合問題。
為更有效地從高維數(shù)據(jù)中提取數(shù)據(jù)特征從而解決特征匹配問題,文章提出一種基于小波和長(zhǎng)短期記憶混合神經(jīng)網(wǎng)絡(luò)的異常用電檢測(cè)的模型。通過CER Smart Metering Project數(shù)據(jù)集實(shí)驗(yàn),驗(yàn)證了文章提出的檢測(cè)模型與傳統(tǒng)網(wǎng)絡(luò)模型具有更好的效果。在后續(xù)工作中,將研究如何加快深度學(xué)習(xí)模型的學(xué)習(xí)速度,縮減模型生成所需的時(shí)間。