成躍宇,成國鋒
(國網(wǎng)江蘇省電力有限公司揚州供電分公司,江蘇 揚州 225009)
用戶竊電是指通過改變計量裝置以達到少計或不計電能的欺騙性行為,惡意竊電不僅會造成電網(wǎng)公司的經(jīng)濟損失,更給電網(wǎng)系統(tǒng)的穩(wěn)定運行與用電安全帶來極大隱患[1]。及時準確地檢測用戶竊電行為,對于降低電網(wǎng)運行的非技術損失,保障電網(wǎng)的安全與效益至關重要。
目前配電網(wǎng)用戶竊電檢測技術的研究主要分為3種:基于狀態(tài)估計、基于博弈論和基于機器學習[2]。近年來,隨著智能電網(wǎng)的高速發(fā)展,AMI(高級計量架構)及智能電表得到了大量部署及應用,為基于機器學習的配電網(wǎng)用戶竊電檢測技術的發(fā)展奠定了堅實的基礎。文獻[3]提出了一種DBSCAN(基于密度的有噪聲空間聚類)算法的用電量異常分析方法,通過對波動區(qū)間進行分簇,并計算異常用電的離群度,從而識別不同的用電模式。針對傳統(tǒng)聚類分析算法在竊電用戶識別時存在時間復雜度高、處理效率低的問題,文獻[4]提出了RBF-LOF(重構數(shù)據(jù)對象球樹模型局部離群因子)算法,該算法通過重構數(shù)據(jù)對象的結構、查詢及搜索方式,有效提升了算法執(zhí)行效率,重構后的用電數(shù)據(jù)通過DenseNet(密集連接卷積網(wǎng)絡)算法實現(xiàn)了竊電檢測。文獻[5]采用了RDBN(實值深度置信網(wǎng)絡)對用戶用電量數(shù)據(jù)進行抽樣特征提取,有效克服了數(shù)據(jù)處理過程中信息丟失的問題,并通過BPN(反向傳播神經(jīng)網(wǎng)絡)進行訓練分類,實現(xiàn)了用戶竊電行為檢測。文獻[6]結合主成分與非線性自編碼器的優(yōu)勢,提出了一種UAE(去相關自編碼器)用于竊電特征的提取,提高了竊電檢測模型的非線性特征提取及泛化能力。文獻[7]針對竊電樣本數(shù)量少,容易產(chǎn)生模型過擬合的現(xiàn)象,提出了三元組孿生網(wǎng)絡模型,通過學習同類樣本的相似性及異類樣本間的差異性,保證了小樣本條件下竊電識別的準確性。文獻[8]在多個弱分類器的基礎上提出了Boosting集成算法,通過依次迭代,提高了用電異常識別準確率。文獻[9]通過對電能計量數(shù)據(jù)進行分析,構建了竊電用戶狀態(tài)指標及評價體系,并采用一種基于ELM(極限學習機)與SVM(支持向量機)相結合的竊電智能識別模型,對竊電用戶的類別進行了判斷,從而保證了更全面的稽查竊電用戶。
盡管目前國內(nèi)外學者對于竊電檢測中的特征提取、模型優(yōu)化進行了大量研究,但大多都是基于一維用電數(shù)據(jù)進行特征提?。?0],很少采用二維圖像作為分類特征的研究。文獻[11]通過GASF(格拉姆角和)將一維用電數(shù)據(jù)轉(zhuǎn)換為二維圖像,并采用混合卷積神經(jīng)網(wǎng)絡提取一維用電數(shù)據(jù)、二維圖像數(shù)據(jù)特性,提升了用戶竊電檢測精度,但該文獻未考慮到不同用戶的用電性質(zhì)、用電區(qū)域、經(jīng)濟指標等帶來的用電規(guī)律的差異性,導致模型可能存在泛化能力不足的問題。針對上述問題,本文提出了一種基于混合神經(jīng)網(wǎng)絡的配電網(wǎng)用戶竊電檢測方法。首先,采用MTF(馬爾可夫變遷場)將實際用電量數(shù)據(jù)從一維用電數(shù)據(jù)變換為二維用電圖像,有效增強了一維原始數(shù)據(jù)的樣本特征,并采用人工賦值和one-hot(獨熱)編碼相結合的方法對用戶用電檔案數(shù)據(jù)進行預處理;其次,采用混合神經(jīng)網(wǎng)絡分別對預處理后的二維用電圖像、檔案數(shù)據(jù)進行特征提取、融合,以實現(xiàn)配電網(wǎng)用戶竊電檢測。最后,通過對比實驗結果表明,本方法在配電網(wǎng)用戶竊電檢測問題上相較于其他傳統(tǒng)模型具有更優(yōu)的檢測性能。
從開放的數(shù)據(jù)集中選取一個正常用戶和一個竊電用戶,以周為周期繪制典型用戶用電曲線圖,如圖1和圖2所示。
圖1 正常用戶用電量曲線圖Fig.1 Power consumption curves of normal users
如圖1所示,正常用戶每周用電量數(shù)據(jù)總體上呈現(xiàn)出以星期為周期的規(guī)律變化,即每周三的用電量數(shù)據(jù)達到最大,周四、周五用電量有所降低,周日達到最低。圖2所示的竊電用戶前兩周用電量較少,后兩周用電量普遍升高,有別于正常用戶的用電習慣,每周用電量數(shù)據(jù)周期性較小,甚至沒有規(guī)律可循[12]。因此,可通過機器學習模型捕捉用戶歷史用電數(shù)據(jù)之間的長期依懶性,學習用電量數(shù)據(jù)中潛在的用電規(guī)律并自動提取特征,從而實現(xiàn)正常用戶與竊電用戶的有效區(qū)分[13]。
用戶的用電數(shù)據(jù)在采集過程中,會存在部分數(shù)據(jù)缺失或重復的問題。為了保證輸入模型數(shù)據(jù)的可靠性,必須對采集的用電數(shù)據(jù)進行清洗和缺失值處理,以提高模型的計算效率和準確性。
數(shù)據(jù)清洗流程:對于缺失值較多的(例如:用電數(shù)據(jù)中連續(xù)缺失超過6 天)的用戶直接刪除;對于日電量不連續(xù)、各時段電量數(shù)據(jù)畸變的用戶予以剔除[14]。
缺失值處理:對存在少數(shù)缺失值的情況,為了提高建模的可靠性,采用拉格朗日插值法對缺失數(shù)據(jù)進行插補。提取缺失點前后各5個數(shù)據(jù),采用式(1)—(2)完成數(shù)據(jù)補充。
式中:r為缺失數(shù)據(jù)對應的下標;ri為缺失數(shù)據(jù)yi的下標序號;Ln(r)為補充數(shù)據(jù);li(r)為拉格朗日多項式。
為了保留用電數(shù)據(jù)的幅值相關性及時序依賴性,并增強正常、竊電用戶用電數(shù)據(jù)的特征差異性,本文采用MTF將一維用電數(shù)據(jù)構建為二維用電圖像。
MTF是通過馬爾可夫遷移概率來表達一維時域數(shù)據(jù)中保存的信息的方法。假設用戶n天內(nèi)的用電量時間序列為X={x1,x2,…,xn},其中xi(i=1,2,3,…,n)為第i個用電量數(shù)據(jù)。首先,將用電量序列X進行歸一化形成新序列?。然后根據(jù)用電量取值將數(shù)組?劃分到Q個區(qū)域中,使每個用電量數(shù)據(jù)都能映射到一個qj(j=1,2,…,Q)。然后,計算各qj之間的轉(zhuǎn)移概率,構造一個維度為Q×Q的MTF矩陣V[15]。
然后,通過將每個概率按照時間順序排列來擴展馬爾可夫轉(zhuǎn)移矩陣,從而得到n×n的MTF矩陣M。
最后,通過式(5)將數(shù)值分布在[0,1]的M矩陣中的每個元素映射到[0,255]像素值區(qū)間,使其變?yōu)槎S圖像。
式中:I(h,m)為圖像第h行、m列的像素值;int(·)為取整函數(shù)。
在發(fā)生用戶竊電的情況下,用戶用電量均呈現(xiàn)較低的狀態(tài),但不同的地理位置、經(jīng)濟狀況、用戶類別及電能表狀態(tài)等因素均會使用戶的用電規(guī)律呈現(xiàn)出較大差異性,導致難以形成普適性的技術方法。為提高竊電識別的準確性及模型的泛化性,本文引入了用戶用電相關的檔案數(shù)據(jù),首先采用人工賦值或one-hot編碼對檔案數(shù)據(jù)進行預處理,再通過模型對預處理后的數(shù)據(jù)進行特征提取與融合,從而增強模型的通用性和準確性。
本文中主要采集的用電量檔案數(shù)據(jù)詳見表1。對于表1中的檔案數(shù)據(jù),采用one-hot編碼或人工賦值的方式進行預處理。
表1 檔案數(shù)據(jù)采集Table 1 The acquired file data
這里以負荷類型為例,采用人工賦值法進行處理。電網(wǎng)企業(yè)依據(jù)用戶的用電性質(zhì)將其分為商業(yè)用電、非居民照明(機關、物業(yè)管理、其他居民服務等照明用電)、非工業(yè)用電(含醫(yī)院、幼兒園、學校等用電)以及居民生活用電。對不同負荷類型進行人工賦值,詳見表2。
表2 負荷類型人工賦值Table 2 Manual load assignment
賦值后的數(shù)據(jù),按照式(6)進行歸一化處理:
式中:D為當前負荷類型;Dmin為負荷類型中的最小賦值;Dmax為該類中的最大賦值。
對于區(qū)域數(shù)據(jù),可采用one-hot 編碼進行處理,對不同省份設置不同編碼,如表3所示。使用one-hot編碼對所處地區(qū)這一檔案信息處理時已經(jīng)包含了歸一化,無需按公式(6)再次進行歸一化處理。
表3 地區(qū)編碼Table 3 Region coding
依據(jù)上述方法,采用one-hot編碼或人工賦值法完成海拔高度、電壓等級、電表模式、運行時間以及經(jīng)濟指標等數(shù)據(jù)的預處理。
本文提出了基于混合神經(jīng)網(wǎng)絡的配電網(wǎng)用戶竊電檢測方法,分別采用CNN-LSTM(基于卷積神經(jīng)網(wǎng)絡與長短期記憶網(wǎng)絡)模型、MLP(多層感知器)模型對預處理后的二維用電圖像、檔案數(shù)據(jù)進行特征提取,并通過特征融合模塊完成特征融合,最后基于全連接層對融合后的特征進行竊電判斷。具體的竊電檢測流程如圖3所示,下面將對各檢測模塊進行詳細介紹。
圖3 配電網(wǎng)用戶竊電檢測流程Fig.3 Electricity theft detection process of distribution network users
2.1.1 CNN-LSTM
CNN(卷積神經(jīng)網(wǎng)絡)作為一類深度前饋神經(jīng)網(wǎng)絡,因其強大的特征提取能力,廣泛應用于圖像、音頻以及自然語言處理等領域[16]。考慮到用戶用電量數(shù)據(jù)的時序性,若單獨使用CNN模型進行特征提取,只能提取序列局部特征,忽略了數(shù)據(jù)間的長期依賴性[17]。因此,本文提出采用CNN與LSTM(長短期記憶網(wǎng)絡)模型相結合的方式對MTF變換后的二維用電圖像進行特征提取,具體步驟為:先將二維用電圖像輸入CNN層,提取用電圖像的局部時序特征;再將CNN層的輸出作為LSTM 層的輸入,利用LSTM 對時序特征的長期依賴性進行捕獲。CNN-LSTM的模型結構如圖4所示。
圖4 CNN-LSTM網(wǎng)絡結構Fig.4 CNN-LSTM network structure
CNN 層主要是利用權重共享和局部連接來實現(xiàn)時序數(shù)據(jù)的深層特征提?。?8],本文采用的CNN層由3層卷積層和1層池化層組成。其中,卷積層為2D 卷積,使用ReLU 作為激活函數(shù);池化層采用最大池化方法。將二維用電圖像輸入CNN 層,采用Sigmoid激活函數(shù)得到輸出HC。
數(shù)據(jù)輸入具有3 層卷積和1 層池化層的CNN層,需進行如下特征變換:
CNN層最終輸出:
式中:C3為第3 層卷積層輸出;I為經(jīng)MTF 變換后的二維用電圖像;P為池化層輸出;W3為第3個卷積核;w為權重;B為偏置向量;b1、b2、b3均為偏差;?為卷積運算。
LSTM 層具有不錯的記憶非線性時間序列數(shù)據(jù)的能力[19],是RNN(遞歸神經(jīng)網(wǎng)絡)的改進版本之一,能很好地解決RNN 存在的梯度爆炸問題。將CNN 層輸出HC的時間序列作為LSTM 層的輸入,輸出ht:
式中:ht為t時刻的輸出,則LSTM隱藏層的輸出H=[h1,h2,...ht-1,ht]。
2.1.2 MLP
MLP 作為神經(jīng)網(wǎng)絡最基礎的結構,因其具有結構簡單、非線性擬合度高、泛化能力強等特點,在模式識別、智能機械人、自動控制等領域得到廣泛應用。 將歸一化后的檔案數(shù)據(jù)G=(g1,g2,...gλ)輸入MLP 中,其中gi(i=1,2,…,λ)為λ維,分別表示省份、海拔高度、電壓等級、負荷類型、電表模式、安裝時間、經(jīng)濟指標等參量。
對于L層的MLP,包含如下一系列的特征變換:
式中:σ是激活函數(shù),這里表示ReLU函數(shù);S1為MLP 模型第一層隱含層的輸出;SL為第L層隱含層輸出;w1和wL-1為權重;e1和eL-1為偏差。
上述特征提取模型分別從用戶二維用電圖像及檔案數(shù)據(jù)中提取得到用戶用電行為的深度特征,為了讓模型同時學習這兩類特征,將兩類模型的輸出特征進行拼接,融合成新的特征Njoint。
式中:H和SL分別為通過CNN-LSTM 模型、MLP 模型獲取的特征張量;Hm和分別為H、特征張量的第m、n個元素;fjoint(·)為拼接函數(shù),即將H、SL這兩個特征張量進行維度拼接;m和n為兩個張量對應的維度。
將融合后的新特征Njoint輸入到的全連接層進行非線性特征學習,全連接層神經(jīng)元數(shù)量定義為64,最后通過Sigmoid函數(shù)計算得到竊電概率。當竊電概率大于0.5 時,判斷該用戶存在竊電行為;否則,判斷該用戶為正常用戶。
為驗證本方法的性能,以開放的數(shù)據(jù)集作為實驗數(shù)據(jù),該數(shù)據(jù)集中包含42 372位用戶1 035天的真實用電量數(shù)據(jù),其中正常用戶38 757 戶,竊電用戶3 615 戶。從數(shù)據(jù)集中選出4 000 個用戶數(shù)據(jù)作為實驗樣本,其中正常用戶2 000戶,竊電用戶2 000戶,選取樣本的70%作為訓練樣本,30%作為測試樣本。
目前用于衡量分類模型性能評估優(yōu)劣的相關評價指標有:準確率fc、查全率fp、精確率、F1-score、ROC(接受者操作特征)曲線下面積fAUC。其中fc、fp、精確率、F1-score等指標用于評估分類方法的精確性,fAUC用于評估分類方法的泛化能力。為綜合評定本方法的性能優(yōu)劣,本文選用fc、fp和fAUC作為模型的評價指標。
fc表示分類正確的樣本數(shù)占樣本總數(shù)的比例,fc越接近于1,表示模型的分類效果越好。
式中:MTP表示分類為竊電用戶,實際也為竊電用戶;MFN表示分類為正常用戶,實際為竊電用戶;MFP表示分類為竊電用戶,實際為正常用戶;MTN表示分類為正常用戶,實際也為正常用戶。
fp又稱召回率,表示分類正確的竊電用戶數(shù)占實際竊電用戶總數(shù)的比例。fp越高,表示實際正樣本被分類的準確率越高。
ROC 曲線以fp(計算公式見(13))為縱坐標,誤檢率fR為橫坐標,通過修改診斷閾值獲?。╢p,fR)數(shù)組來進行構建。fAUC是ROC 曲線的量化,該值越接近于1,則模型分類性能越佳。首先,采用雙正態(tài)擬合獲取ROC 曲線,然后由式(15)計算出fAUC估計值。
式中:?代表標準數(shù)據(jù)正態(tài)分布函數(shù);a和b是雙正態(tài)模型的兩個參數(shù),a表示竊電用戶和正常用戶試驗結果的標準化均數(shù)之差,b表示竊電用戶和正常用戶的標準差之比。
為充分驗證本文所提出算法模型的有效性和精確性,進行了兩組對比實驗。第一組即基于同一數(shù)據(jù)集(一維用電量數(shù)據(jù)集),選擇CNN、LSTM、CNN-LSTM 算法進行竊電用戶檢測,以驗證不同算法模型在時序序列上特征提取的有效性。同時,還選取了SVM、RF(隨機森林)模型作為深度學習模型、聯(lián)合學習的模型的代表進行了對比實驗,對比實驗的結果詳見表4。第二組對比了一維用電量分類模型(1D-CNN-LSTM)、MTF 變換后的二維用電圖像分類模型(MTFCNN-LSTM)、HCED-GASF(基于層次復雜事件檢測-格拉姆角和)模型[11]和本文所提出的混合神經(jīng)網(wǎng)絡分類模型(MTF-CNN-LSTM+MLF)的分類性能,對比實驗的結果詳見表5。
表4 各模型性能對比Table 4 Performance comparison of multiple models
表5 基于不同輸入形式的模型性能對比Table 5 Comparison of model performances based on different inputs
從表4可知,本文提出的CNN-LSTM模型在fc、fp和fAUC這3 個性能指標上分別為0.901、0.911和0.916,明顯均優(yōu)于其他檢測模型??梢?,CNN與LSTM相組合的特征提取方式,更有利于正常、竊電用戶的特征差異化提取。同時,對比CNN、CNN-LSTM 與LSTM、SVM、RF 3 個模型的評估結果,可見,CNN、CNN-LSTM 模型在檢測性能上均相對較優(yōu),主要考慮是因為CNN模型在時序序列上具有更優(yōu)的特征提取能力。
由表5可知,MTF-CNN-LSTM模型的性能明顯優(yōu)于1D-CNN-LSTM 模型,這是因為只采用一維數(shù)據(jù)建模,無法兼顧用電量數(shù)據(jù)的全局非線性特征和時間序列上的相關性特征,而數(shù)據(jù)的二維變換可使模型在訓練過程中,提取到更為全面的特征。通過對比不同模型的性能指標,本文所提出的模型相較于MTF-CNN-LSTM 模型、HCED-GASF 模型在fp上都有提升;考慮檔案數(shù)據(jù)的加入,可有效預測出各地區(qū)正常用電量區(qū)間,該特征的融合可進一步提升模型的分類精度。
為提高配電網(wǎng)竊電用戶檢測的準確率,本文提出了一種基于混合神經(jīng)網(wǎng)絡的配電網(wǎng)用戶竊電檢測方法。首先,通過對一維用電量數(shù)據(jù)進行MTF 圖變換,增強竊電前后的特征數(shù)據(jù)的差異性,并通過人工賦值或one-hot編碼對檔案數(shù)據(jù)進行預處理。然后,采用混合神經(jīng)網(wǎng)絡分別進行特征提取,最后,將兩類輸出特征進行融合、訓練,從而實現(xiàn)用戶竊電識別。
通過對比實驗結果表明,結果表明本文提出方法的識別fc、fp和fAUC可達0.95 左右,模型性能相較于SVM、RF、1D-CNN-LSTM、MTFCNN-LSTM 等模型,均有大幅提升,能更加準確地識別出竊電用戶。