呂篤良,劉夢(mèng)爽,桓 露,孫羽森,劉通宇,袁培森
(1.國(guó)網(wǎng)新疆電力營(yíng)銷(xiāo)服務(wù)中心,新疆烏魯木齊 830000;2.國(guó)電南瑞科技股份有限公司,江蘇南京 210000;3.南京農(nóng)業(yè)大學(xué)人工智能學(xué)院,江蘇南京 210095)
近年來(lái)隨著電力企業(yè)對(duì)竊電行為的打擊與監(jiān)察力度的加強(qiáng),采用了基于高級(jí)量測(cè)系統(tǒng)(Advanced Metering Interface,AMI)[1]智能化的電能計(jì)量裝置,為竊電行為檢測(cè)提供有力的數(shù)據(jù)支撐。然而竊電行為發(fā)生越來(lái)越隱蔽,通過(guò)計(jì)算機(jī)技術(shù)或者通信技術(shù)攻擊智能電表或者篡改電能計(jì)量數(shù)據(jù)[2]。這使得傳統(tǒng)的人工檢查手段難以滿足目前的竊電檢測(cè)要求,為電力企業(yè)打擊竊電行為帶來(lái)了挑戰(zhàn)和困難。
目前對(duì)于竊電檢測(cè),有以下幾種方法[3-4]:(1)通過(guò)專(zhuān)業(yè)人員人工排查,借助專(zhuān)業(yè)知識(shí)與經(jīng)驗(yàn)判斷,結(jié)果較準(zhǔn)確,但效率低且人力成本高;(2)使用智能計(jì)量裝置對(duì)零線電流的采集與分析,結(jié)果有效且準(zhǔn)確,但更新計(jì)量裝置會(huì)產(chǎn)生較大的成本開(kāi)銷(xiāo);(3)通過(guò)用戶(hù)產(chǎn)生的電能量數(shù)據(jù),借助機(jī)器學(xué)習(xí)等,對(duì)用戶(hù)建立模型以判斷是否存在竊電現(xiàn)象。
文獻(xiàn)[5]提出了基于支持向量機(jī)(Support Vector Machine,SVM)與智能電表數(shù)據(jù)的竊電行為檢測(cè)。文獻(xiàn)[6-7]分別提出了基于改進(jìn)循環(huán)神經(jīng)網(wǎng)絡(luò)與深度卷積神經(jīng)網(wǎng)絡(luò)的竊電行為檢測(cè)。文獻(xiàn)[8]提出了一種基于AdaBoost 集成學(xué)習(xí)的竊電檢測(cè)方法。
由于正常用戶(hù)遠(yuǎn)超過(guò)竊電用戶(hù),導(dǎo)致了用戶(hù)用電量時(shí)間序列數(shù)據(jù)集的分類(lèi)標(biāo)簽極不平衡。以2019 年11 月份國(guó)家電網(wǎng)提供的竊電檢測(cè)分析結(jié)果為例,疑似竊電用戶(hù)數(shù)量為5 367 戶(hù),而采集系統(tǒng)接入用戶(hù)數(shù)為3 094 萬(wàn)戶(hù),占比約為0.017%。直接采用不平衡數(shù)據(jù)集進(jìn)行模型的訓(xùn)練不合適,尤其是在竊電檢測(cè)這類(lèi)更關(guān)心少數(shù)類(lèi)的場(chǎng)合下,由于預(yù)測(cè)模型的結(jié)果趨向于多數(shù)集,使得模型缺乏泛化性,導(dǎo)致竊電檢測(cè)準(zhǔn)確度大幅下降[9-10]。
解決非平衡數(shù)據(jù)集訓(xùn)練的問(wèn)題,常用的處理方法包括以下2 類(lèi):(1)重采樣(Re-sampling),包括針對(duì)少數(shù)類(lèi)的過(guò)采樣(Over-sampling)[11-12]與針對(duì)多數(shù)類(lèi)的欠采樣(Under-sampling)[13],這類(lèi)方法是解決非均衡數(shù)據(jù)集最簡(jiǎn)單可行的方法,但過(guò)采樣會(huì)導(dǎo)致對(duì)少數(shù)類(lèi)特征的過(guò)擬合,而欠采樣會(huì)導(dǎo)致多數(shù)類(lèi)信息的損失,因此均會(huì)導(dǎo)致最終訓(xùn)練模型的泛化性下降;(2)重加權(quán)(Re-weighting)[14],其在學(xué)習(xí)過(guò)程中針對(duì)不同類(lèi)別分配不同權(quán)重,提高模型對(duì)少數(shù)類(lèi)的學(xué)習(xí)能力,并降低對(duì)多數(shù)類(lèi)的學(xué)習(xí)能力[15]。
用戶(hù)的用電數(shù)據(jù)是典型的時(shí)序數(shù)據(jù),時(shí)間序列分類(lèi)(Time Series Classification,TSC)是數(shù)據(jù)挖掘領(lǐng)域研究的重要問(wèn)題之一,它是通過(guò)提取時(shí)間序列數(shù)據(jù)的特征,劃分其類(lèi)別的一種技術(shù)[16]。隨著深度學(xué)習(xí)的崛起和對(duì)神經(jīng)網(wǎng)絡(luò)不斷的研究和探索,研究者提出了越來(lái)越多適用于時(shí)間序列分類(lèi)的神經(jīng)網(wǎng)絡(luò)[17]。
基于日用電量的竊電行為檢測(cè),是針對(duì)一元時(shí)間序列分類(lèi)問(wèn)題,針對(duì)一元時(shí)序數(shù)據(jù)問(wèn)題檢測(cè)的模型包括:多層感知器(Muti-Layer Perception,MLP)[18]、全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[19]及深度殘差網(wǎng)絡(luò)(Deep Residual Network,ResNet)[20]。近年來(lái),研究人員提出了適用于時(shí)間序列處理的神經(jīng)網(wǎng)絡(luò)模型,如t-LeNet[21]、長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory,LSTM)[22]等。
本文基于LSTM 模型設(shè)計(jì)了用電時(shí)間序列分類(lèi)模型,提取用戶(hù)日用電量特征并利用重加權(quán)策略解決數(shù)據(jù)集分布不平衡問(wèn)題,進(jìn)而實(shí)現(xiàn)智能竊電檢測(cè)任務(wù)。
針對(duì)數(shù)據(jù)集分布不平衡問(wèn)題,設(shè)計(jì)一種解決重加權(quán)策略減輕不平衡數(shù)據(jù)集所帶來(lái)的分類(lèi)器偏向多數(shù)類(lèi)問(wèn)題,以提高分類(lèi)器泛化性能,最終提高竊電檢測(cè)模型的準(zhǔn)確度,本文的重加權(quán)策略如圖1 所示。
圖1 重加權(quán)策略?xún)?yōu)化分類(lèi)器模型泛化性的示意圖Fig.1 Optimization diagram of re-weighting strategy to the generalization of classifier model
竊電行為檢測(cè)為二分類(lèi)問(wèn)題,本文在文獻(xiàn)[23]的基礎(chǔ)上,設(shè)計(jì)了一種基于每種類(lèi)別有效樣本數(shù)的重加權(quán)策略,以平衡分類(lèi)器訓(xùn)練時(shí)的損失函數(shù),解決訓(xùn)練集標(biāo)簽分布不均衡造成的模型泛化性降低的問(wèn)題。
首先,從某一類(lèi)別的特征空間抽樣建立一種抽象模型,以定義訓(xùn)練集“有效數(shù)量”這一概念,并將其用于表示樣本包含的有效信息,這是本文損失函數(shù)重加權(quán)策略的依據(jù)。抽象模型的有效數(shù)量概念的描述如圖2 所示。
圖2 數(shù)據(jù)集的有效數(shù)量概念示意圖Fig.2 Diagram of data sets effective number
設(shè)某類(lèi)樣本的特征空間內(nèi)所有可能數(shù)據(jù)的集合為S,其“體積”為V,從集合S中隨機(jī)抽樣,每個(gè)個(gè)體是S的子集且體積為1。集合S的“體積”V是一個(gè)抽象的概念,反映了該類(lèi)包含有效信息的量,抽樣相當(dāng)于獲取其中的部分有效信息,因此隨著樣本數(shù)量n的不斷增大,樣本包含該類(lèi)有效信息的量也會(huì)不斷增大,“體積”也會(huì)不斷增大,最終趨向V。
將“體積”定義為數(shù)據(jù)集的有效數(shù)量,記包含n個(gè)樣例的數(shù)據(jù)集的有效數(shù)量為En。若存在一個(gè)數(shù)據(jù)集覆蓋了特征空間內(nèi)所有可能數(shù)據(jù)的集合S,那么該數(shù)據(jù)集的有效數(shù)量為N;若數(shù)據(jù)集僅包含1 個(gè)樣例,則“有效數(shù)量”為1。下面給出有效數(shù)量的表達(dá)式及證明。
1)定理1。包含n個(gè)樣例的數(shù)據(jù)集,其有效數(shù)量為:
其中,β=(N-1)/N。
對(duì)式(1)采用數(shù)學(xué)歸納法證明如下:
(1)當(dāng)樣例數(shù)量n=1 時(shí),有E1=(1-β1)/(1-β)=1,式(1)成立。
(2)當(dāng)數(shù)據(jù)集已經(jīng)有n-1 個(gè)樣例,假設(shè)其有效數(shù)量為En-1且有En-1=(1-βn-1)/(1-β)成立。通過(guò)隨機(jī)采樣獲得第n個(gè)樣例,存在2 種可能情況:新采樣點(diǎn)與先前采樣點(diǎn)重合,概率為P=En-1/N,有效數(shù)量不變;新采樣點(diǎn)與先前采樣點(diǎn)重合,概率為P=1-En-1/N,有效數(shù)量+1。則有:
綜合步驟(1)和(2),說(shuō)明式(1)成立,證畢。
證明示意圖如圖3 所示。
圖3 有效數(shù)量表達(dá)式證明過(guò)程示意圖Fig.3 Proof illustration of effective number expression
2)定理2。包含n個(gè)樣例的數(shù)據(jù)集,當(dāng)n趨于無(wú)窮大時(shí),其有效數(shù)量的上界是N。
定理2 的推導(dǎo)過(guò)程如式所示:
實(shí)際上特征空間內(nèi)所有可能數(shù)據(jù)集合S的有效數(shù)量N是難以估算的,本文假設(shè)實(shí)際能夠采集到并屬于該標(biāo)簽的所有數(shù)據(jù)構(gòu)成集合S,同時(shí)假設(shè)樣例與樣例之間不重疊,即集合S的體積為V,則該集合有效數(shù)量等于集合的大小,即N=card(S)。
基于數(shù)據(jù)集有效數(shù)量的概念對(duì)損失函數(shù)進(jìn)行重加權(quán),主要思想是通過(guò)引入一個(gè)加權(quán)因子來(lái)實(shí)現(xiàn)。這個(gè)因子與樣本有效數(shù)量成反比,從而使多數(shù)類(lèi)預(yù)測(cè)產(chǎn)生的損失權(quán)重降低而少數(shù)類(lèi)預(yù)測(cè)產(chǎn)生的損失權(quán)重升高,使得分類(lèi)器訓(xùn)練時(shí)更關(guān)注少數(shù)類(lèi)的特征,進(jìn)而降低由于標(biāo)簽分布不均衡導(dǎo)致的分類(lèi)器預(yù)測(cè)結(jié)果偏向多數(shù)類(lèi)的問(wèn)題。下面說(shuō)明類(lèi)別平衡損失函數(shù)的計(jì)算方式。
竊電檢測(cè)屬二分類(lèi)問(wèn)題,設(shè)輸入樣例(x,y),其中x是特征向量,y是標(biāo)簽且y∈{0,1},其中標(biāo)簽1表示竊電樣例,0 表示非竊電樣例,設(shè)分類(lèi)器模型預(yù)測(cè)結(jié)果是特征向量預(yù)測(cè)為竊電樣例的概率,定義為=P{y=1},其中0 ≤≤1。
機(jī)器學(xué)習(xí)中對(duì)于二分類(lèi)問(wèn)題,通常使用二分類(lèi)交叉熵?fù)p失函數(shù)(Binary Cross Entropy Loss,BCE Loss)[24],記損失函數(shù)為BCE Loss(),則有:
式中:y為樣例的真實(shí)標(biāo)簽。
設(shè)訓(xùn)練集中類(lèi)別標(biāo)簽y=0 與y=1 的樣本數(shù)分別為n0與n1,則該標(biāo)簽對(duì)應(yīng)類(lèi)別數(shù)據(jù)集的有效數(shù)量為Eni=(1-βni)/(1-β),其中i=0或1。
為了平衡損失,對(duì)于2 類(lèi)樣本分別引入權(quán)重因子α0與α1,與對(duì)應(yīng)類(lèi)別的樣本有效數(shù)量成反比,即α0=1/En0與α1=1/En1,則類(lèi)別平衡損失CBLoss 為:
式中:y∈{0,1}為樣例的真實(shí)標(biāo)簽;αi,Eni,ni分別為標(biāo)簽y對(duì)應(yīng)類(lèi)別i在訓(xùn)練集的權(quán)重因子、有效數(shù)量、樣本數(shù)量。
LSTM 是一種改進(jìn)后的循環(huán)神經(jīng)網(wǎng)絡(luò),用于解決一般循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)存在的長(zhǎng)期依賴(lài)問(wèn)題[24]。RNN 的隱藏層只有一個(gè)狀態(tài)h,對(duì)短期的輸入非常敏感,LSTM 在此基礎(chǔ)上增加了一個(gè)長(zhǎng)期狀態(tài)C,使得LSTM 適合處理和預(yù)測(cè)時(shí)間序列[25]。
LSTM 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖4 所示,該示意圖展示了LSTM 的神經(jīng)元對(duì)t時(shí)刻的特征向量分量的運(yùn)算過(guò)程,其中Wf,Wi,Wc,Wo分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)、計(jì)算當(dāng)前狀態(tài)的權(quán)重矩陣;為當(dāng)前時(shí)刻的細(xì)胞狀態(tài),ot為sigmod 函數(shù)輸出,σ(·) 為sigmoid 函數(shù);tanh(·)為雙曲正切函數(shù);[·,·]為向量的連接。LSTM 通過(guò)3 個(gè)控制開(kāi)關(guān)來(lái)控制狀態(tài)C:(1)遺忘門(mén),上一時(shí)刻的狀態(tài)Ct-1有多少保留至當(dāng)前時(shí)刻Ct;(2)輸入門(mén),當(dāng)前時(shí)刻的輸入xt有多少保留至單元狀態(tài)Ct;(3)輸出門(mén),當(dāng)前單元狀態(tài)Ct有多少輸出至當(dāng)前輸出ht。
圖4 LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 LSTM recurrent neural network structure diagram
LSTM 神經(jīng)網(wǎng)絡(luò)在t時(shí)刻的前向傳播公式為:
式中:ft為遺忘門(mén)輸入;it為輸入門(mén)輸入;bf,bi,bc,bo為對(duì)應(yīng)的偏置項(xiàng);符號(hào)°為哈達(dá)馬積(Hadamard Product),即向量對(duì)應(yīng)分量相乘得到一個(gè)新向量。
LSTM 是一種循環(huán)神經(jīng)網(wǎng)絡(luò),將LSTM 的神經(jīng)元按時(shí)間維度展開(kāi),基于LSTM 進(jìn)行時(shí)間序列分類(lèi)模型如圖5 所示。
圖5 基于LSTM的時(shí)間序列分類(lèi)示意圖Fig.5 Diagram of time series classification based on LSTM
設(shè)輸入時(shí)間序列為x=(x1,x2,…,xk),其長(zhǎng)度為k。在t時(shí)刻,LSTM 神經(jīng)網(wǎng)絡(luò)的輸入有3 個(gè):(1)當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入值xt;(2)上一時(shí)刻LSTM 的輸出值ht-1;(3)上一時(shí)刻的長(zhǎng)期狀態(tài)Ct-1。循環(huán)k次后得到最后k時(shí)刻LSTM 的輸出值hk,該輸出值保留了整個(gè)時(shí)間序列的特征。最終需要通過(guò)輸入時(shí)間序列得到被預(yù)測(cè)為正例的概率,即=p{y=1},再通過(guò)一次sigmoid 函數(shù)激活得到區(qū)間在(0,1)之間的預(yù)測(cè)結(jié)果。
采用用戶(hù)日用電量竊電行為訓(xùn)練集,在訓(xùn)練過(guò)程中依據(jù)式(5)計(jì)算損失,以?xún)?yōu)化數(shù)據(jù)集標(biāo)簽部分不平衡導(dǎo)致的模型泛化性下降問(wèn)題。對(duì)于LSTM 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,使用反向傳播算法確定神經(jīng)元8 個(gè)參數(shù)(Wf,Wi,Wc,Wo,bf,bi,bc,bo)的取值。對(duì)于每一輪訓(xùn)練,其前向傳播與反向傳播的過(guò)程如下:
1)依據(jù)式(5),對(duì)輸入時(shí)間序列x=(x1,x2,…,xk),依次前向計(jì)算每一時(shí)刻t神經(jīng)元的輸出ht,最終得到時(shí)刻k的輸出結(jié)果hk,經(jīng)過(guò)sigmoid 函數(shù)激活得到預(yù)測(cè)結(jié)果。
2)依據(jù)式(5),對(duì)輸入樣例(x,y)的真實(shí)標(biāo)簽y與預(yù)測(cè)結(jié)果,計(jì)算類(lèi)別平衡損失CBLoss(,y),沿時(shí)間通過(guò)反向傳播算法,計(jì)算8 個(gè)參數(shù)相對(duì)于損失的偏導(dǎo)數(shù)。
3)通過(guò)隨機(jī)梯度下降法,優(yōu)化8 個(gè)參數(shù)使損失最小化,通過(guò)迭代更新模型參數(shù)。
使用LSTM 神經(jīng)網(wǎng)絡(luò)構(gòu)建日用電量的竊電行為分類(lèi)器,并使用訓(xùn)練集通過(guò)最小化類(lèi)別平衡損失函數(shù)進(jìn)行訓(xùn)練。針對(duì)測(cè)試集數(shù)據(jù),使用該分類(lèi)器計(jì)算得到預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果是輸入時(shí)間序列得到被預(yù)測(cè)為正例的概率p{y=1},因此最終竊電預(yù)測(cè)標(biāo)簽結(jié)果為y∈{0,1},且:
即分類(lèi)器得到的預(yù)測(cè)結(jié)果若大于等于0.5,則判定該樣例為正例,該樣例存在竊電行為;小于0.5則判定該樣例不存在竊電行為?;谥丶訖?quán)策略平衡損失與LSTM 分類(lèi)的竊電行為檢測(cè)方法如圖6所示。首先對(duì)用戶(hù)日用電量時(shí)間序列數(shù)據(jù),通過(guò)人工標(biāo)注等方法為部分?jǐn)?shù)據(jù)進(jìn)行標(biāo)簽,將帶標(biāo)簽的數(shù)據(jù)進(jìn)行必要的預(yù)處理,再進(jìn)行訓(xùn)練集與測(cè)試集的劃分。統(tǒng)計(jì)標(biāo)簽分布,得到正例與負(fù)例的數(shù)量,目的是計(jì)算類(lèi)別平衡損失函數(shù);然后使用類(lèi)別平衡損失函數(shù)訓(xùn)練LSTM 時(shí)間序列分類(lèi)模型,并使用測(cè)試集進(jìn)行模型驗(yàn)證;最后對(duì)采集得到的不帶標(biāo)簽的用戶(hù)日用電量數(shù)據(jù),進(jìn)行預(yù)處理后運(yùn)行分類(lèi)器模型并輸出竊電檢測(cè)結(jié)果。
圖6 竊電行為檢測(cè)方法框架圖Fig.6 Framework of electricity theft detection method
實(shí)驗(yàn)環(huán)境:Windows 10 系統(tǒng),8GB 內(nèi)存,Intel(R)Core(TM)i5-7200U,2.5 GHz 處理器。算法的實(shí)現(xiàn)基于Python 3.6 和PyTorch 機(jī)器學(xué)習(xí)框架。
使用準(zhǔn)確率作為基于日用電量的竊電行為檢測(cè)的評(píng)價(jià)指標(biāo),記準(zhǔn)確率為A,計(jì)算如公式所示:
式中:TP為正類(lèi)并且也被判定成正類(lèi)的樣本數(shù)量;FN為正類(lèi)但判定為負(fù)類(lèi)的樣本數(shù)量;FP為負(fù)類(lèi)但判定為正類(lèi)的樣本數(shù)量;TN為負(fù)類(lèi)并且也被判定成負(fù)類(lèi)的樣本數(shù)量。
準(zhǔn)確率越高說(shuō)明分類(lèi)器的性能越好。
本文實(shí)驗(yàn)數(shù)據(jù)集源自國(guó)家電網(wǎng)公司發(fā)布的真實(shí)用電量數(shù)據(jù)(http://www.sgcc.com.cn/),該數(shù)據(jù)集合包含了若干用戶(hù)自2014 年1 月1 日至2016 年10月31 日共計(jì)1 034 d 的日用電量時(shí)間序列數(shù)據(jù),數(shù)據(jù)包含用戶(hù)是否發(fā)生竊電行為的標(biāo)簽。數(shù)據(jù)預(yù)處理后得到共計(jì)42 372 條有效記錄。每條有效記錄包含以下字段:客戶(hù)編號(hào),是否竊電(1 竊電,0 非竊電),1 034 d 的用電量數(shù)據(jù)(單位kWh)。
非竊電樣例有38 757 條,竊電樣例有3 615條,竊電樣例占全部樣例的8.53%,可見(jiàn)數(shù)據(jù)集標(biāo)簽分布極不均衡。將數(shù)據(jù)集隨機(jī)打亂后,劃分為不相交的訓(xùn)練集與測(cè)試集,其比例為70:30。
使用訓(xùn)練集進(jìn)行LSTM 時(shí)間序列分類(lèi)模型的訓(xùn)練。訓(xùn)練過(guò)程中使用類(lèi)別平衡損失函數(shù)CBLoss,在相同實(shí)驗(yàn)條件下,將其與交叉熵?fù)p失函數(shù)BCELoss進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)參數(shù)如表1 所示,其中SGD(Stochastic Gradient Descent)表示隨機(jī)梯度下降法。
表1 實(shí)驗(yàn)訓(xùn)練相關(guān)參數(shù)Table 1 Related parameters for experiment&training
在其他實(shí)驗(yàn)條件相同情況下,觀察2 種損失函數(shù)在測(cè)試集上準(zhǔn)確率隨訓(xùn)練輪數(shù)的變化趨勢(shì),實(shí)驗(yàn)結(jié)果如圖7 所示。
圖7 兩種損失的訓(xùn)練實(shí)驗(yàn)結(jié)果Fig.7 Experiment results of two training loss functions
實(shí)驗(yàn)結(jié)果表明:相較于常規(guī)的二分類(lèi)交叉熵?fù)p失函數(shù),本文的類(lèi)別平衡損失函數(shù)在相同訓(xùn)練輪數(shù)下?lián)p失收斂更快,且在訓(xùn)練集上的準(zhǔn)確率上升更快。使用二分類(lèi)交叉熵?fù)p失函數(shù),盡管損失逐步下降且準(zhǔn)確率逐步提高,但是損失收斂速度較慢,準(zhǔn)確率提升較慢。
經(jīng)過(guò)相同的訓(xùn)練輪數(shù),使用類(lèi)別平衡損失函數(shù)與二分類(lèi)交叉熵?fù)p失函數(shù)在訓(xùn)練集上的準(zhǔn)確率分別為91.22%與63.13%,前者相較后者提升約44%,說(shuō)明類(lèi)別平衡損失函數(shù)能夠使得分類(lèi)器模型的泛化性大幅提升,提高了竊電檢測(cè)的準(zhǔn)確率。
為測(cè)試基于類(lèi)別平衡損失函數(shù)在竊電檢測(cè)方面的準(zhǔn)確性,本文選取多層感知機(jī)(Multilayer Perceptron,MLP)與RNN 時(shí)間序列分類(lèi)模型與本文的LSTM 模型進(jìn)行實(shí)驗(yàn)對(duì)比。在其他參數(shù)一致情況下,使用模型默認(rèn)參數(shù)進(jìn)行訓(xùn)練和對(duì)比。經(jīng)過(guò)40輪訓(xùn)練,實(shí)驗(yàn)結(jié)果如表2 所示。
表2 3種時(shí)間序列分類(lèi)模型的對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Comparative experimental results of 3 time series classification models
由表2 可知,在使用類(lèi)別平衡損失函數(shù)情況下,基于LSTM 的時(shí)間序列分類(lèi)在準(zhǔn)確率上效果最好,RNN 次之,前者相較于后者提升約9%;MLP 則因準(zhǔn)確率過(guò)低而不具有可行性,表明MLP 模型不適用于基于日用電量的竊電檢測(cè)任務(wù)。在模型訓(xùn)練時(shí)間方面,由于MLP 模型結(jié)構(gòu)簡(jiǎn)單從而訓(xùn)練時(shí)間最短,LSTM 與RNN 由于循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,相比MLP 模型的訓(xùn)練時(shí)間更長(zhǎng)。
本文提出了基于重加權(quán)策略平衡損失與LSTM分類(lèi)的竊電行為檢測(cè)方法,設(shè)計(jì)了基于有效數(shù)量加權(quán)策略的損失函數(shù),改善了數(shù)據(jù)集分布不均衡導(dǎo)致訓(xùn)練模型泛化性能下降的問(wèn)題?;谠摬呗裕O(shè)計(jì)了基于LSTM 的時(shí)間序列分類(lèi)模型,用于電量的竊電行為檢測(cè)。在真實(shí)數(shù)據(jù)集上的測(cè)試結(jié)果表明,基于有效數(shù)量的加權(quán)策略可有效解決數(shù)據(jù)集不平衡導(dǎo)致的模型泛化性下降問(wèn)題,對(duì)竊電行為檢測(cè)具有可行性。