• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自編碼神經(jīng)網(wǎng)絡(luò)和隨機森林的竊電識別算法

      2021-11-02 12:07:40閆西慧周敬召李巖張愛偉
      電力大數(shù)據(jù) 2021年6期
      關(guān)鍵詞:用電神經(jīng)網(wǎng)絡(luò)森林

      閆西慧,周敬召,李巖,張愛偉

      (國網(wǎng)石家莊供電公司,河北 石家莊 050000)

      我國電力公司每年的竊電損失約200億元,給電力市場經(jīng)濟秩序和電網(wǎng)安全運行帶來極大影響[1-3]。竊電類型主要為欠壓竊電和欠流竊電[4],竊電手段具有很多種,且難以人為發(fā)現(xiàn),人為排查耗時耗力且難以收集有效地竊電證據(jù)。因此,智能有效的竊電識別方法對電力行業(yè)維護電力系統(tǒng)穩(wěn)定性有重要意義。

      通過電表采集的原始電量數(shù)據(jù)提取竊電特征指標,建立竊電分類器模型以識別是否存在竊電。常見的竊電特征提取法中的自編碼神經(jīng)網(wǎng)絡(luò)(autoencoder neural network,AENN)具有強大的特征提取能力[5]。智能電網(wǎng)下量測體系的完善促進了基于數(shù)據(jù)驅(qū)動或者特征工程的竊電方法的研究?;谖锢硗負渚W(wǎng)絡(luò)啟發(fā)或數(shù)據(jù)挖掘的竊電框架具有良好的竊電識別性能[6-9]。梯度提升樹(gradient boosting decision tree,GBDT)等集成算法可應(yīng)用于竊電數(shù)據(jù)的特征工程預(yù)處理,以提高檢測性能和時間復(fù)雜度[10],或進行竊電檢測[11]。

      目前常見的竊電檢測算法為異常點檢測算法、各種架構(gòu)的神經(jīng)網(wǎng)絡(luò)、各種聚類算法(比如支持向量機)和大數(shù)據(jù)算法等[12-17]。局部離群因子、局部密度因子、核密度估計、基于相對密度的離群值檢測和基于距離的離群點檢測等算法能較好地識別竊電異常值[18-19]。神經(jīng)網(wǎng)絡(luò)算法在竊電辨識應(yīng)用中較為廣泛,通過不同優(yōu)化算法改進的神經(jīng)網(wǎng)絡(luò)用于提取或優(yōu)化竊電特征,可以準確識別竊電行為數(shù)據(jù)的不同特性[20-22]。深度神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)具有更強的特征提取能力,但基于此方法進一步識別竊電實施方式的研究較少。

      本文提出了融合AENN和隨機森林的竊電識別算法。首先基于AENN映射正常用電數(shù)據(jù)的重建值,當出現(xiàn)竊電異常時,模型實際值與重建值之間的誤差增大,從而實現(xiàn)竊電的提前預(yù)警。然后訓(xùn)練隨機森林模型實現(xiàn)對AENN檢測到的異常數(shù)據(jù)進一步推測其可能的竊電方式。最后通過算例驗證算法的有效性。

      1 用戶竊電識別模型

      本文所提出的竊電識別模型可分為三個階段,如圖1所示。首先第一階段為AENN檢測用戶異常用電行為,第二階段將實際電量曲線和定義的竊電指標作為特征量,以及其所對應(yīng)的竊電類型標簽訓(xùn)練隨機森林。為了使得隨機森林模型具有較強的泛化性能,運用隨機搜索和k-折交叉驗證算法優(yōu)化其模型參數(shù)。第三階段驗證所建立的模型檢測竊電的準確率。

      圖1 模型整體框架Fig.1 Whole framework of the model

      為降低訓(xùn)練過程中AENN重建輸入向量所需的時間開銷,將用戶的日用電曲線數(shù)據(jù)作為AENN模型的輸入。對整個已有數(shù)據(jù)集進行隨機分割,其中測試集和驗證集數(shù)據(jù)占整個數(shù)據(jù)的30%,測試集用來測試建立后模型的預(yù)測結(jié)果;模型在訓(xùn)練集上訓(xùn)練,在驗證集上驗證訓(xùn)練模型。以用戶正常用電的非竊電數(shù)據(jù)訓(xùn)練AENN模型并驗證,之后為加強隨機森林分類性能,在原有用電曲線數(shù)據(jù)上增加竊電指標,通過隨機搜索和k-折交叉驗證訓(xùn)練隨機森林并驗證以確定AENN檢測的異常用電數(shù)據(jù)。將全部訓(xùn)練完畢建立的AENN和隨機森林融合,通過測試集確定數(shù)據(jù)中的異常數(shù)據(jù)及其可能的竊電類別。AENN模型檢測出的用戶異常數(shù)據(jù)輸入至隨機森林模型中,對竊電類別預(yù)判。

      2 AENN異常檢測

      用戶竊電行為會反映在其入戶點監(jiān)測電表的電氣參數(shù)上,改變功率曲線等電氣參數(shù)的變化趨勢。本節(jié)基于AENN識別用戶用電過程中的異常用電行為。當用戶實施竊電行為時,會導(dǎo)致電表監(jiān)測信息出現(xiàn)異常,通過判斷AENN輸入與輸出數(shù)據(jù)向量差異的大小,識別可能存在竊電事件的用戶。

      本文構(gòu)建的AENN是由一系列標準的受限波爾茲曼機(restricted Boltzmann machine,RBM)連接組成,如圖2所示。RBM具有兩層結(jié)構(gòu)、對稱連接且沒有自反饋的隨機神經(jīng)網(wǎng)絡(luò)模型,層間全連接,層內(nèi)無連接。AENN的本質(zhì)是將輸入的原數(shù)據(jù)壓縮為一個低維度的向量,并解壓縮且要求解壓縮所得值與原數(shù)據(jù)接近程度高[23]。

      圖2 自編碼神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.2 Structure of AENN

      AENN由編碼器和解碼器兩部分構(gòu)成,具有單隱含層的AENN,其編碼器和解碼器如式(1)和式(2)所示。

      式中:W和b為AENN的權(quán)重和偏置;σ為非線性變換函數(shù)。

      式(1)表示的編碼器通過非線性函數(shù)將輸入向量x映射至隱含層表示為h。式(2)所示的解碼器通過與編碼器相同的變換將隱含層h映射至原始的輸入空間作為重建值。原始輸入向量x與其全變量重建z之間的差定義為如式(3)所示的重建誤差。AENN的學(xué)習(xí)過程即最小化式(3)中的重建誤差。針對一個多層AENN,其編碼器和解碼器分別表述為f?和gθ,其訓(xùn)練過程為:依據(jù)訓(xùn)練數(shù)據(jù)集重復(fù)地計算式(4)所示的重建誤差和,通過隨機梯度下降算法更新參數(shù)?和θ,直至參數(shù)滿足收斂條件。

      式中:x和z為AENN的輸入和輸出。x(i)為訓(xùn)練數(shù)據(jù)集的第i個分量,共N個分量構(gòu)成整個訓(xùn)練集;f?和gθ表示AENN的編碼器和解碼器,其中?和θ分別為編碼器和解碼器函數(shù)的參數(shù)。本文定義式(3)和式(4)中的差值為歐幾里得范數(shù),即歐式距離。

      AENN通過逐層預(yù)訓(xùn)練的方式獨立訓(xùn)練每層神經(jīng)網(wǎng)絡(luò),低層RBM輸出作為高層RBM的輸入;訓(xùn)練完成后將各層RBM組合構(gòu)成深層AENN,然后采用BP神經(jīng)網(wǎng)絡(luò)對AENN微調(diào),使網(wǎng)絡(luò)輸出向量接近其原始輸入向量[24-26]。本文選用正常用戶的日負荷曲線構(gòu)成的數(shù)據(jù)集訓(xùn)練AENN以建立竊電檢測模型。

      基于AENN的異常檢測算法以重建誤差的大小作為研究對象(比如用戶用電行為)是否存在異常的評分標準,具有較高重建誤差的數(shù)據(jù)被判定為異常數(shù)據(jù)。以無竊電數(shù)據(jù)通過上述訓(xùn)練過程所構(gòu)建的AENN,其可以很好地對正常數(shù)據(jù)進行重建;但對于竊電數(shù)據(jù),將異常竊電數(shù)據(jù)作為通過正常數(shù)據(jù)建立AENN模型的輸入所得的輸出,兩者之間的誤差比正常時增大,當大于某值時判斷用戶存在異常用電。圖3為本文AENN基于重建誤差建立用戶用電模式的異常檢測算法的結(jié)構(gòu)圖。

      圖3 自編碼神經(jīng)網(wǎng)絡(luò)異常檢測算法Fig.3 Anomaly detection algorithm of AENN

      3 隨機森林竊電識別

      為進一步確定用戶竊電的類型,提出基于隨機森林的竊電用戶識別算法。隨機森林由多個隨機數(shù)據(jù)子集所建立的分類回歸樹(classification and regression tree,CART)構(gòu)成,如圖4所示,其中每棵CART都是獨立訓(xùn)練的,其通過對每棵樹輸出結(jié)果投票確定最終的分類結(jié)果[27-29]。通過隨機采樣將原始數(shù)據(jù)集劃分為多個子數(shù)據(jù)集,并在各子數(shù)據(jù)集上訓(xùn)練各自數(shù)據(jù)集上的弱分類器,通過多個弱分類器結(jié)果的投票確定隨機森林強分類器的最終結(jié)果。

      圖4 隨機森林的結(jié)構(gòu)Fig.4 Structureof random forest

      隨機森林考慮多個特征來構(gòu)建CART結(jié)構(gòu)并進行決策分類以預(yù)測竊電標簽,在CART的節(jié)點處根據(jù)某個特征的規(guī)則分裂出下一層葉子節(jié)點。在一個含有n個樣本、m個特征變量的數(shù)據(jù)集D={(Xi,Yi)}上訓(xùn)練隨機森林,通過訓(xùn)練完成的隨機森林模型預(yù)測未知標簽的用戶竊電行為。數(shù)據(jù)集D中Xi∈Rm,Yi∈R;Yi是Xi對應(yīng)的標簽值,即用戶用電行為類別,包括正常用電和竊電行為標簽。訓(xùn)練隨機森林的目的是找到一個能準確預(yù)測標簽值Y的函數(shù)f(X),此預(yù)測函數(shù)由損失函數(shù)L(Y,f(X))的期望值最小來確定,即:

      式中:EXY表示X和Y聯(lián)合分布的期望。

      損失函數(shù)L(Y,f(x))衡量隨機森林函數(shù)f(X)和Y的接近程度,其懲罰距離真實值Y較遠的模型預(yù)測值f(X)。典型用于衡量分類的0-1損失函數(shù)(zero-one loss)為:

      通過基學(xué)習(xí)器(即CART)的集成h1(x),…,hJ(x)構(gòu)建最終的強學(xué)習(xí)器(即隨機森林)f(x),即:

      式中:標簽值Y取值空間為Γ,共有J個基學(xué)習(xí)器。

      隨機森林中第j個基學(xué)習(xí)器表示為hj(X,Θj),其中Θj表示隨機變量的集合,對于j=1,…,J不同取值的Θj之間相互獨立。隨機森林的每個基學(xué)習(xí)器是從總的數(shù)據(jù)集中有放回地隨機抽取訓(xùn)練樣本進行訓(xùn)練所得,在構(gòu)建CART的結(jié)構(gòu)時,從m個特征變量中隨機選擇m′個特征作為CART的候選分裂屬性,重復(fù)候選分裂過程,直至此CART達到所要求的分類精度。本文選用基尼系數(shù)作為不純度,即算法能否將目標標簽變量正確分為所對應(yīng)的類別。

      CART尋找最純凈的劃分包含建樹和剪枝兩部分,其中選擇預(yù)剪枝方法防止分類過擬合;CART選擇基尼系數(shù)作為分裂規(guī)則,遍歷所有特征,選取當前結(jié)點分裂前后基尼系數(shù)減小較多的分裂規(guī)則,重復(fù)分裂過程完成建樹。

      式中:Pi為類別i與樣本數(shù)據(jù)集中D′中出現(xiàn)的頻率;ni為數(shù)據(jù)集D′中類別i的個數(shù);S為數(shù)據(jù)集D′中樣本個數(shù);D′1和D′2分別為兩個子數(shù)據(jù)集,s1和s2為此兩個數(shù)據(jù)集的樣本個數(shù)。

      圖5為隨機森林進行用戶竊電識別的結(jié)構(gòu)圖,對收集的竊電數(shù)據(jù)添加具體竊電方式的標簽作為模型訓(xùn)練或測試的輸入。AENN起到竊電預(yù)警的作用,隨機森林可以對AENN所預(yù)警的竊電,進一步通過多個CART推導(dǎo)用戶可能實施的竊電手段。

      圖5 隨機森林竊電識別算法Fig.5 Identification algorithm of electricity stealing in random forest

      4 案例分析

      4.1 AENN異常檢測驗證

      本文選擇某省正常用戶用電行為的日負荷數(shù)據(jù)(篩選出370個用戶3年的監(jiān)測數(shù)據(jù),其竊電實施類型現(xiàn)場已知,不同用戶存在時間不等的數(shù)據(jù)缺失),訓(xùn)練AENN竊電識別模型。采用正常的日負荷數(shù)據(jù)訓(xùn)練完成的AENN的重建誤差較小,若用戶實施竊電行為,其入戶側(cè)電表監(jiān)測的日負荷曲線發(fā)生改變,而AENN仍然依據(jù)正常時的規(guī)則對用戶的負荷曲線進行重建,導(dǎo)致重建的用戶負荷曲線與真實的竊電曲線之間的誤差較大,通過識別異常重建誤差判斷用戶是否竊電。

      利用正常用戶訓(xùn)練的AENN所產(chǎn)生的重建誤差示例如圖6所示,其重建誤差不大于20,由于節(jié)假日、特殊天氣和季節(jié)用電等用電特性,用戶正常用電存在波動,AENN的重建誤差也具有相似的波動性。通過AENN輸入輸出之間的重建誤差雖有波動性,但其波動性不具明顯的周期性。

      圖6 正常情況下AENN的重建誤差Fig.6 Reconstruction error of AENN under normal conditions

      為了使AENN不受異常數(shù)據(jù)的影響,并能準確識別用戶異常用電行為,本文基于正常情況下重建誤差的分布并預(yù)留一定裕度,設(shè)置重建誤差閾值為23。針對某用戶連續(xù)的用電記錄,采用AENN進行異常用電檢測,如圖7所示。圖7案例1中存在3處超越重建誤差閾值的情況,可認為該用戶存在異常用電,但是此處超越閾值時間較短,而竊電行為大部分是長期行為,可認定此時間段內(nèi)是用戶負荷突增或突減造成AENN重建誤差的增大。圖7案例2中存在3處長時間超過重建誤差閾值的情況,且三處各自持續(xù)天數(shù)較長,可初步判定此用戶存在用電異常時段且可能在異常時段有竊電行為。

      圖7 竊電情況下AENN的重建誤差Fig.7 Reconstruction error of AENN in case of electricity theft

      AENN能夠精確地識別用戶的異常用電,其識別精度如表1所示。本文構(gòu)建的AENN為8層,編碼過程每層神經(jīng)元個數(shù)分別為400、200、100和50,解碼過程個數(shù)為編碼過程的逆序。深層自編碼神經(jīng)網(wǎng)絡(luò)檢測異常用電精度比淺層自編碼神經(jīng)網(wǎng)絡(luò)(共4層,編碼過程神經(jīng)元個數(shù)為200和50)提高4.34%,比普通淺層神經(jīng)網(wǎng)絡(luò)(僅含一層隱含層)提高8.52%。表明深層AENN比淺層AENN特征提取能力更強,而傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)特征提取能力不及自編碼網(wǎng)絡(luò)。深層AENN對輸入輸出之間重建規(guī)則更靈敏,與淺層AENN和淺層BP神經(jīng)網(wǎng)絡(luò)相比,用戶用電數(shù)據(jù)與其之前正常用電數(shù)據(jù)兩者之間的差異更易被深層AENN從重建誤差上將用戶異常用電偏離其常規(guī)用電的差異放大,從而被識別為異常用電。

      表1 不同算法的性能對比Tab.1 Performance comparison of different algorithms

      4.2 隨機森林竊電識別驗證

      本節(jié)對高精度的AENN用電異常檢測模型所探測的異常用戶,進一步判斷其竊電行為。除了將每時刻的日負荷數(shù)據(jù)(頻率為1h一個點)作為輸入數(shù)據(jù)外(通過隨機森林挖掘負荷數(shù)據(jù)的隱含分裂特征),增加竊電衡量指標作為直觀特征訓(xùn)練隨機森林模型。

      附加的竊電指標為電量趨勢下降指標、線損指標和告警類指標[30-31]。第i天的電量趨勢指標考慮該天前后d天的電量斜率,即:

      式中:ki表示第i天的電量趨勢,ej表示第j天的用電總量。

      某線路的線損率表征此線路的電能損失大小,對于某線路其線損為:

      式中:Ej為此線路第j天的供電總量;ek j為線路上第k個用戶在第j天的用電總量。

      與竊電相關(guān)的告警類指標主要包含為電壓缺相、電流反極性和電壓斷相等,將其作為竊電識別的特征。

      本文通過scikit-learn庫構(gòu)建隨機森林分類器算法,在訓(xùn)練過程中需要確定分類器的多個超參數(shù),訓(xùn)練流程如圖5所示。采用隨機搜索方法一次性確定隨機森林分類器的超參數(shù),此參數(shù)確定方法比網(wǎng)格搜索方法效率更高。通過在已知用戶竊電行為標簽的訓(xùn)練集上采用隨機搜索算法確定隨機森林超參數(shù),并為了使隨機森林模型具有較優(yōu)的泛化性能,采用10-折交叉驗證對模型參數(shù)調(diào)優(yōu),構(gòu)建的模型參數(shù)如表2所示。采取有放回抽樣方式建立的隨機森林模型共包含135棵決策樹,其中的決策樹的最大深度為11,建立決策樹所需最大的特征變量數(shù)目為5。

      表2 隨機森林的超參數(shù)量Tab.2 Hyperparameters of random forest

      在測試集中驗證隨機森林算法的分類性能,其分類結(jié)果如表3所示。表3中混淆矩陣的每列表示為分類器的分類實例數(shù),每行表示現(xiàn)場實際的竊電類型實例數(shù);分類I~III分別表示改變TA結(jié)構(gòu)、改變TV結(jié)構(gòu)和外接元件破壞電量記錄三類竊電方式。訓(xùn)練過程包括三種竊電標簽和正常標簽,在測試過程中選擇三種竊電數(shù)據(jù)?;煜仃嚳梢杂脕砗饬糠诸惼鞯牟煌悇e的分類性能。隨機森林對于驗證集數(shù)據(jù)雖然整體性能表現(xiàn)較好,但是依舊存在將實際中的竊電行為預(yù)測為其他竊電方式或者正常用電,需要進一步改進模型或增加竊電指標以提高算法性能。

      表3 混淆矩陣Tab.3 Confusion Matrix

      隨機森林與其他分類算法的性能對比如表4所示,隨機森林的分類精度最高。算法執(zhí)行的硬件配置為:處理器Intel(R)Core(TM)I5-6500 CPU@3.20GHz,內(nèi)存8.00GB。雖然梯度下降樹(GBDT)分類精度接近隨機森林,但是隨機森林在訓(xùn)練過程中為并行建樹比GBDT效率更高,訓(xùn)練耗時約為GBDT的1/6。隨機森林是多個決策樹的集成算法,其比單純的決策樹分類精度大幅提高。故隨機森林算法具有較快的訓(xùn)練速度和較高的準確度,但是針對更多竊電類型的識別,需要增加相關(guān)現(xiàn)場數(shù)據(jù)的訓(xùn)練。

      表4 分類器性能比較Tab.4 Performance comparison of classifiers

      5 結(jié)論

      本文基于用戶正常用電數(shù)據(jù)建立了深度自編碼神經(jīng)網(wǎng)絡(luò)竊電行為檢測模型,其相比于淺層神經(jīng)網(wǎng)絡(luò)更精確地識別用戶用電行為的異常,具有較高的竊電識別靈敏度。通過隨機搜索和k-折交叉驗證優(yōu)化了隨機森林模型的超參數(shù),建立了竊電行為分類模型。通過原始竊電數(shù)據(jù)和定義的竊電指標(即電量趨勢下降指標、線損指標和告警類指標)訓(xùn)練分類模型,基于多個決策樹學(xué)習(xí)竊電行為的分類規(guī)則。通過實際算例驗證了隨機森林比其他分類算法具有較快的訓(xùn)練速度和較高的分類精度。本文提出的竊電識別算法可為現(xiàn)場排查竊電提供技術(shù)參考,此外可繼續(xù)開展對用戶竊電行為數(shù)據(jù)獲取及高精度算法等方面的研究。

      猜你喜歡
      用電神經(jīng)網(wǎng)絡(luò)森林
      用電安全
      用煤用電用氣保障工作的通知
      安全用電知識多
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      用電安全要注意
      哈Q森林
      哈Q森林
      哈Q森林
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      哈Q森林
      防城港市| 香港| 乐平市| 九龙城区| 黄冈市| 故城县| 平顶山市| 武山县| 托克逊县| 姜堰市| 永胜县| 香河县| 泰来县| 顺昌县| 邛崃市| 蒲城县| 米林县| 鲁甸县| 陇西县| 太白县| 黄龙县| 江川县| 化州市| 梁河县| 湛江市| 呈贡县| 普安县| 宜宾县| 邹平县| 汝城县| 巴中市| 澜沧| 通江县| 维西| 赣州市| 搜索| 阿坝县| 南靖县| 凤山市| 景谷| 湖北省|