唐偉寧,劉 穎,于 旭,董冠良
(1.國網(wǎng)吉林省電力有限公司電力科學(xué)研究院,吉林長春 130021;2.吉林財(cái)經(jīng)大學(xué)管理科學(xué)與信息工程學(xué)院,吉林 長春 130117)
竊電問題嚴(yán)重危害國家的安全和利益,對(duì)供電企業(yè)造成了巨大的困擾和利益損失。竊電行為隨意更改電路設(shè)施,不僅會(huì)損壞電路設(shè)施,造成安全隱患,也擾亂了國家和人民的正常用電秩序。因此,供電企業(yè)需要完善反竊電的技術(shù)手段,以提高對(duì)于竊電行為的打擊力度[1-2]。但目前隨著科學(xué)技術(shù)的不斷發(fā)展進(jìn)步,竊電技術(shù)手段也在不斷進(jìn)步,且更具有隱蔽性、多樣性、快速性和高科技性,反竊電技術(shù)具有局限性,很難有效地發(fā)現(xiàn)并解決竊電問題[3-4]。
傳統(tǒng)的反竊電方法主要有安裝反竊電硬件設(shè)備、定期對(duì)供電系統(tǒng)進(jìn)行巡檢、定期校驗(yàn)電表及群眾舉報(bào)[5]。這些方法難以有針對(duì)性地達(dá)到反竊電的目的,而且耗費(fèi)大量的人力、時(shí)間和經(jīng)費(fèi),效率不高。在各省市電力公司引進(jìn)具有電能量數(shù)據(jù)查詢功能和計(jì)量異常報(bào)警功能的計(jì)量系統(tǒng)后,供電企業(yè)便可以通過對(duì)稽查人員、用電檢查人員和計(jì)量工作人員的培訓(xùn)來實(shí)現(xiàn)對(duì)用戶用電情況的在線監(jiān)控工作,計(jì)量系統(tǒng)可以對(duì)異常的電量、負(fù)荷、線損信息進(jìn)行采集,并能夠進(jìn)行終端報(bào)警、主站報(bào)警,不僅能夠?qū)崟r(shí)監(jiān)測(cè)竊電情況的發(fā)生,還能及時(shí)發(fā)現(xiàn)計(jì)量裝置故障。但該系統(tǒng)也存在一定的弊端,往往反饋出的信息量很大,但無用信息也很多,且經(jīng)常發(fā)生誤報(bào),很難對(duì)竊電嫌疑用戶進(jìn)行快速精確定位[6]。
數(shù)據(jù)挖掘技術(shù)在負(fù)荷預(yù)測(cè)、電網(wǎng)規(guī)劃等方面的研究已經(jīng)比較成熟,但是很少應(yīng)用于反竊電管理。為此,該文針對(duì)傳統(tǒng)反竊電技術(shù)的不足,運(yùn)用數(shù)據(jù)挖掘技術(shù)構(gòu)建反竊電管理模型,該模型能夠更準(zhǔn)確、及時(shí)地發(fā)現(xiàn)竊電行為,對(duì)反竊電管理發(fā)揮促進(jìn)作用。
影響用電量特征的因素有很多,比如用電用戶的行業(yè)特征、地理位置以及氣候特征等,每個(gè)時(shí)間區(qū)段包含一個(gè)特定的用電模式,所以從時(shí)間尺度上對(duì)用電量進(jìn)行分段。為便于對(duì)用電數(shù)據(jù)進(jìn)行離群檢測(cè),需要先對(duì)用電數(shù)據(jù)采用聚類法進(jìn)行分類,并基于用電頻率、距離以及關(guān)聯(lián)規(guī)則對(duì)異常數(shù)據(jù)進(jìn)行離群度計(jì)算[7-8]。最后結(jié)合數(shù)據(jù)優(yōu)化來確定離群閾值,并對(duì)離群數(shù)據(jù)進(jìn)行計(jì)算來判斷是否存在竊電行為。
基于離群數(shù)據(jù)挖掘的低壓竊電行為檢測(cè)流程如圖1 所示。
圖1 低壓竊電行為檢測(cè)過程
在此基礎(chǔ)上,結(jié)合反竊電管理業(yè)務(wù)需求,基于SOA 構(gòu)建綜合信息平臺(tái),制定統(tǒng)一的數(shù)據(jù)模型、對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范[9]。同時(shí),制定一套流程標(biāo)準(zhǔn),開發(fā)出適配各應(yīng)用系統(tǒng)的基于公共語義的接口,實(shí)現(xiàn)數(shù)據(jù)挖掘、信息集成和業(yè)務(wù)整合,從而實(shí)現(xiàn)從整體抽取各個(gè)系統(tǒng)的信息資源,構(gòu)建面向?qū)ο蟮臄?shù)據(jù)應(yīng)用平臺(tái)[10-11]。
根據(jù)用戶需要,反竊電管理系統(tǒng)的分析結(jié)果能夠以餅狀圖、折線圖等樣式直觀呈現(xiàn),不僅可以直觀反饋結(jié)果,也大大提高了工作效率。此外,為方便業(yè)務(wù)人員進(jìn)行交互式查詢、統(tǒng)計(jì)與分析,支持反竊電決策過程實(shí)施,系統(tǒng)還增加了導(dǎo)入導(dǎo)出功能,以便滿足用戶復(fù)雜業(yè)務(wù)需求。
設(shè)定時(shí)間段為t,確定樣本數(shù)據(jù)序列C,樣本數(shù)列記錄公式為:
在時(shí)段t內(nèi)計(jì)算用電量,計(jì)算公式為:
其中,ei表示在t時(shí)間段內(nèi)的用電量;Cti表示末端電量;Ct(i-1)表示初始端電量。
在確定用電量后,根據(jù)用電量對(duì)用電區(qū)段劃分,通過引用量化因子β完成量化處理,量化處理計(jì)算公式為:
用電模式類型不同,量化因子β的數(shù)值也不同。
將獲得的離散用電數(shù)據(jù)加入到正常的用電量中,分析用電量的波動(dòng)情況,通過波動(dòng)分析,實(shí)現(xiàn)信息診斷。在時(shí)間段t內(nèi)分析用電的波動(dòng)量,計(jì)算公式為:
分析不同時(shí)段的用電量波動(dòng)方式,對(duì)用電區(qū)段進(jìn)行劃分[12-13]。
區(qū)段內(nèi)離群數(shù)據(jù)的計(jì)算需要的4 個(gè)參數(shù)包含每個(gè)用電區(qū)段的用電持續(xù)時(shí)間、用電源點(diǎn)位置、起始及結(jié)束用電量。但這些數(shù)據(jù)具有復(fù)雜的相關(guān)性,且具有自己的量綱屬性,所以為了便于后續(xù)基于離群算法的數(shù)據(jù)點(diǎn)分析,需要標(biāo)準(zhǔn)來指標(biāo)化處理這些參數(shù)[14-15]。離散標(biāo)準(zhǔn)化數(shù)據(jù)處理公式為:
其中,d′表示得到的標(biāo)準(zhǔn)化數(shù)據(jù);d表示竊電數(shù)據(jù);dmin表示最小數(shù)據(jù);dmax表示最大數(shù)據(jù)。
通過密度聚類離群算法檢測(cè)竊電數(shù)據(jù),分析竊電數(shù)據(jù)的兩個(gè)基本參數(shù),分別是鄰域半徑和閾值。如果選定空間內(nèi)任意一點(diǎn),其鄰域半徑內(nèi)還存在其他任意數(shù)據(jù)點(diǎn),則這兩點(diǎn)數(shù)據(jù)分別在對(duì)方的鄰域內(nèi)。同時(shí),以閾值為任一數(shù)據(jù)點(diǎn)鄰域內(nèi)的數(shù)據(jù)點(diǎn)數(shù)量作為判斷標(biāo)準(zhǔn),若數(shù)據(jù)點(diǎn)數(shù)量超過閾值,則該點(diǎn)被稱為核心數(shù)據(jù)點(diǎn),若任意兩數(shù)據(jù)點(diǎn)之間的距離小于半徑,則這兩點(diǎn)可以構(gòu)成一個(gè)聚類。核心數(shù)據(jù)點(diǎn)鄰域內(nèi)的所有數(shù)據(jù)點(diǎn)可作為邊界數(shù)據(jù)點(diǎn),也可以構(gòu)成一個(gè)聚類。其他既不屬于核心數(shù)據(jù)點(diǎn)聚類也不屬于邊界數(shù)據(jù)點(diǎn)聚類的數(shù)據(jù)點(diǎn)則為離群數(shù)據(jù)點(diǎn)[16]。
聚類的數(shù)量取決于不同的用戶區(qū)段,所以要計(jì)算出該數(shù)據(jù)點(diǎn)到核心數(shù)據(jù)點(diǎn)的距離,以便于作為指標(biāo)之一對(duì)該數(shù)據(jù)的離群度進(jìn)行計(jì)算。
通過關(guān)聯(lián)度和可信度來表示關(guān)聯(lián)規(guī)則,對(duì)兩個(gè)不相交的項(xiàng)集之間的潛在關(guān)系進(jìn)行評(píng)價(jià)計(jì)算。關(guān)聯(lián)度的計(jì)算方法如式(6)所示。
其中,X、Y表示兩個(gè)完全不相交的項(xiàng)集;N表示項(xiàng)集內(nèi)部數(shù)據(jù)數(shù)量;I(X→Y)表示關(guān)聯(lián)度。
可信度計(jì)算公式如式(7)所示。
其中,b(X→Y)表示可信度。
在計(jì)算電力負(fù)荷離群數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則時(shí),為了減少關(guān)聯(lián)規(guī)則的計(jì)算負(fù)荷,對(duì)于波動(dòng)量小于1的用電區(qū)段,不考慮在異常關(guān)聯(lián)規(guī)則內(nèi),只計(jì)算其他區(qū)段的異常關(guān)聯(lián)規(guī)則,超過關(guān)聯(lián)度閾值的項(xiàng)集為頻繁項(xiàng)集。
在關(guān)聯(lián)規(guī)格分析時(shí),考慮到非頻繁項(xiàng)集的關(guān)聯(lián),將關(guān)聯(lián)度閾值設(shè)為0,電區(qū)段之間用電量關(guān)聯(lián)越大,則關(guān)聯(lián)度也就越大,反之則越小。根據(jù)關(guān)聯(lián)規(guī)則確定用電頻率。
針對(duì)不同用戶采用的計(jì)量方式也不同,主要有高供高計(jì)、高供低計(jì)、低供低計(jì)。作為不均衡類分布問題,離群數(shù)據(jù)檢測(cè)的過程較為復(fù)雜,在對(duì)其性能進(jìn)行評(píng)測(cè)時(shí)不能運(yùn)用以算法準(zhǔn)確率為基準(zhǔn)的統(tǒng)計(jì)。所以在遵循數(shù)據(jù)挖掘算法通用評(píng)價(jià)規(guī)則的前提下,通過FPR 和TPR 來生成特征曲線,并以特征曲線構(gòu)成的面積作為判斷該算法計(jì)算的性能準(zhǔn)確與否的指標(biāo),面積越大表示算法的計(jì)算效果越好?;陔x群數(shù)據(jù)挖掘的竊電行為辨識(shí)流程如圖2 所示。
圖2 基于離群數(shù)據(jù)挖掘的竊電行為辨識(shí)流程圖
由圖2 可知,通過量化處理用電量數(shù)據(jù)分析用電頻率,以用電地址的波動(dòng)為基礎(chǔ),構(gòu)建異常關(guān)聯(lián)規(guī)則,并計(jì)算出其關(guān)聯(lián)度。根據(jù)用電量的波動(dòng)方向,劃分出不同的用電區(qū)段,并對(duì)區(qū)段內(nèi)的數(shù)據(jù)運(yùn)用低密度聚類算法分析離群數(shù)據(jù),通過分析結(jié)果確定離群距離,將分析結(jié)果統(tǒng)計(jì)在數(shù)據(jù)庫中。在數(shù)據(jù)庫內(nèi)同時(shí)提取離群距離、關(guān)聯(lián)度和用電頻率,然后構(gòu)建評(píng)價(jià)矩陣,根據(jù)矩陣的精度和召回率可以計(jì)算出離群閾值,根據(jù)離群閾值對(duì)比結(jié)果,在眾多用戶中選定出竊電用戶,確定用戶的竊電時(shí)間。
為驗(yàn)證基于離群數(shù)據(jù)挖掘的低壓竊電行為辨識(shí)方法的有效性,將其與傳統(tǒng)的基于層次聚類的低壓竊電行為辨識(shí)方法、基于K 均值的低壓竊電行為辨識(shí)方法進(jìn)行實(shí)驗(yàn)對(duì)比。設(shè)定實(shí)驗(yàn)參數(shù)如表1 所示。
表1 實(shí)驗(yàn)參數(shù)
實(shí)驗(yàn)設(shè)定7 個(gè)樣本數(shù)據(jù)量,這7 個(gè)樣本數(shù)據(jù)量中包含商用用戶和民用用戶。同時(shí)選用該文方法和兩種傳統(tǒng)方法對(duì)用戶用電的特征曲線進(jìn)行分析,確定主要參數(shù)取值,通過優(yōu)化參數(shù)算法,確定給定的量子值,通過分析特征曲線的最大面積,確定內(nèi)部的半徑值,通過研究鄰域半徑和鄰域閾值,實(shí)現(xiàn)迭代計(jì)算,根據(jù)迭代計(jì)算結(jié)果確定參數(shù)值。3 種方法的參數(shù)優(yōu)化情況如圖3 所示。
圖3 3種方法的參數(shù)優(yōu)化情況
根據(jù)圖3 可知,隨著假正率的增加,該文提出的基于離群數(shù)據(jù)挖掘的低壓竊電行為辨識(shí)方法的參數(shù)真正率明顯高于傳統(tǒng)方法。在確定參數(shù)后,選用評(píng)價(jià)矩陣分析離群閾值,根據(jù)離群閾值分析結(jié)果確定量度,得到的實(shí)驗(yàn)結(jié)果如圖4 所示。
圖4 3種方法的調(diào)和量度檢測(cè)結(jié)果
根據(jù)圖4 可知,該文提出的方法調(diào)和量度最大可以達(dá)到0.951,傳統(tǒng)的基于層次聚類的低壓竊電行為辨識(shí)方法調(diào)和量度最大值為0.842,基于K 均值的低壓竊電行為辨識(shí)方法調(diào)和量度最大值為0.739。由此可見,該文提出的辨識(shí)方法具有很好的離群數(shù)據(jù)檢測(cè)能力。
該文基于離群算法提出了一種對(duì)于竊電行為進(jìn)行有效辨識(shí)的新方法,該方法具有較強(qiáng)的計(jì)算能力,能夠在短時(shí)間內(nèi)實(shí)現(xiàn)用電數(shù)據(jù)的聚類計(jì)算,通過計(jì)算用電頻率、離群距離以及異常規(guī)則關(guān)聯(lián)度來進(jìn)行數(shù)據(jù)挖掘,并利用評(píng)價(jià)矩陣的離群閾值來監(jiān)測(cè)竊電行為的發(fā)生和竊電地點(diǎn)。實(shí)驗(yàn)結(jié)果表明,在對(duì)不同模式的用電數(shù)據(jù)進(jìn)行竊電分析時(shí),相對(duì)其他數(shù)據(jù)挖掘算法,該文方法的工作性能更強(qiáng)。