陳永健
(仰恩大學(xué) 福建泉州 362014)
在經(jīng)濟(jì)由高速向高質(zhì)量發(fā)展的今天,居民生產(chǎn)生活及制造業(yè)用電量日益激增,穩(wěn)定的電力供應(yīng)保障支撐著社會(huì)正常的經(jīng)濟(jì)秩序。但是,科技的發(fā)展也讓竊電技術(shù)更為隱蔽,竊電種類(lèi)和手段層出不窮。據(jù)現(xiàn)有數(shù)據(jù)統(tǒng)計(jì),每年全國(guó)因竊電造成的經(jīng)濟(jì)損失至少達(dá)200萬(wàn)億以上[1],不僅嚴(yán)重影響了我國(guó)電量供應(yīng)質(zhì)量和電量營(yíng)銷(xiāo)管理模式,也危及了社會(huì)經(jīng)濟(jì)秩序的正常運(yùn)行。目前,根據(jù)竊電原理分析,主要的竊電種類(lèi)包括與計(jì)量設(shè)備有關(guān)的欠電壓欠電流法、擴(kuò)差法、移相法和與計(jì)量設(shè)備無(wú)關(guān)的私自增容、改裝計(jì)量表、繞越計(jì)量表等竊電方式。與計(jì)量設(shè)備有關(guān)的竊電手段較為突出,傳統(tǒng)的基于分類(lèi)算法、決策樹(shù)算法和單純式離群點(diǎn)檢測(cè)算法很難準(zhǔn)確地鎖定竊電用戶。離群點(diǎn)數(shù)據(jù)挖掘技術(shù)原本應(yīng)用于股票等金融市場(chǎng),在防竊電領(lǐng)域的應(yīng)用已經(jīng)成為新的研究熱點(diǎn),具有廣泛的研究?jī)r(jià)值[2]。本算法的核心是利用電量波動(dòng)率進(jìn)行數(shù)據(jù)分析并采用距離算法的離群點(diǎn)挖掘技術(shù),該算法有效地解決了程超等[3]單純采用離群點(diǎn)算法存在的計(jì)算量復(fù)雜、準(zhǔn)確率不高,且只適用于欠電壓、欠電流竊電法的問(wèn)題。
距離離群點(diǎn)數(shù)據(jù)挖掘是在大量的用電量數(shù)據(jù)中剔除不符合竊電實(shí)際異常偏高的數(shù)據(jù),根據(jù)質(zhì)心的確定按一定規(guī)則自動(dòng)選取數(shù)據(jù)的過(guò)程。假定有一個(gè)N個(gè)對(duì)象的數(shù)據(jù)集或知識(shí)集X,寫(xiě)作X(N)。期望的對(duì)象離群點(diǎn)數(shù)為K,從數(shù)據(jù)集X中剔除不利數(shù)據(jù)后確定質(zhì)心N0,必能找到與質(zhì)心存在顯著不同的數(shù)據(jù)K0。算法模型歸納為兩個(gè)概念:距離離群點(diǎn)和距離離群點(diǎn)的數(shù)據(jù)挖掘方法。
定義1 在電量數(shù)據(jù)集對(duì)象X中,以質(zhì)心N0為基準(zhǔn)參照距離,存在第K個(gè)對(duì)象使得距離D(K)與D(N0)的距離最大,X(K)為距離離群點(diǎn)。
如果對(duì)電量數(shù)據(jù)集中所有對(duì)象X進(jìn)行歸一化數(shù)據(jù)變換,至少存在部分對(duì)象X(X∈[0,1])與對(duì)象Y的距離大于D,那么對(duì)象Y就是基于距離D的離群點(diǎn)。反之,必然存在有(1-X)個(gè)對(duì)象與對(duì)象Y距離小于D。
離群點(diǎn)數(shù)據(jù)挖掘方法應(yīng)用于防竊電領(lǐng)域在現(xiàn)有文獻(xiàn)資料中主要有5種:基于決策樹(shù)的數(shù)據(jù)挖掘[4],對(duì)采集的數(shù)據(jù)要進(jìn)行重復(fù)掃描、排序、處理,數(shù)據(jù)算法效率低;基于簇的數(shù)據(jù)挖掘[5],適用場(chǎng)合有限,需要定義簇平均值,對(duì)分類(lèi)屬性不適合;基于距離離群點(diǎn)數(shù)據(jù)挖掘[6],解決經(jīng)典K均值算法未考慮孤立點(diǎn)問(wèn)題,孤立點(diǎn)正是基于距離的,是在給定的數(shù)據(jù)集中自動(dòng)找出與均值距離最大的點(diǎn),但此算法數(shù)據(jù)計(jì)算量大;基于SVM向量機(jī)數(shù)據(jù)挖掘[7],多應(yīng)用于多維數(shù)據(jù)算法,比較復(fù)雜;基于K近鄰分類(lèi)數(shù)據(jù)挖掘[8],對(duì)采集樣品的容量相差較大時(shí)不適合,而且計(jì)算量很大。因此,綜合以上5種數(shù)據(jù)挖掘方法,本算法先對(duì)采集的數(shù)據(jù)進(jìn)行電量波動(dòng)率分析處理,轉(zhuǎn)化為一維數(shù)據(jù),再運(yùn)用離群點(diǎn)數(shù)據(jù)挖掘算法,讓算法更加簡(jiǎn)便高效。
對(duì)采集用戶的用電量數(shù)據(jù)一般用電量波動(dòng)模型進(jìn)行分析,通過(guò)電量波動(dòng)率找出與用戶日用電量之間的特征關(guān)系。研究用電量數(shù)據(jù)集合之間的關(guān)系即數(shù)據(jù)波動(dòng)情況,一般用方差、方均根值、標(biāo)準(zhǔn)偏差[9]等方法進(jìn)行描述。其中,標(biāo)準(zhǔn)偏差在描述數(shù)據(jù)離散程度中應(yīng)用最多。標(biāo)準(zhǔn)偏差法對(duì)于采集同一樣本的電量數(shù)據(jù),在不同時(shí)間下的波動(dòng)情況很難做出比較。此外,當(dāng)采集的樣本初值不一樣,均值不相同,這樣也無(wú)法比較它們的離散程度。因?yàn)楸舅惴ㄊ且诓煌瑫r(shí)間或日期下對(duì)采集的電量數(shù)據(jù)進(jìn)行比較,確定波動(dòng)率大小,用標(biāo)準(zhǔn)偏差法顯然無(wú)法實(shí)現(xiàn)。因此,本算法提出了一種新的電量波動(dòng)描述方法,即利用變異系數(shù)CV[10](Coefficient of Variation)對(duì)采集數(shù)據(jù)進(jìn)行變換形成界于(0,1)區(qū)間的一維簡(jiǎn)化數(shù)據(jù),并用它來(lái)描述電量波動(dòng)的離散程度,這種方法巧妙地化解了以上難題。
(1)
通過(guò)大量數(shù)據(jù)采集與現(xiàn)場(chǎng)排查比對(duì)得出:CV<20%時(shí),電量波動(dòng)處于合理區(qū)間;20%≤CV≤50%時(shí),為正常允許范圍內(nèi);50%
距離離群點(diǎn)數(shù)據(jù)挖掘算法原理是對(duì)采集的用戶電量數(shù)據(jù)首先按一定規(guī)則進(jìn)行清洗和處理,接下來(lái)對(duì)篩選下來(lái)的數(shù)據(jù)再按電量波動(dòng)模型確定離群點(diǎn)。最后,計(jì)算離群點(diǎn)兩兩之間的距離來(lái)判斷不同數(shù)據(jù)對(duì)象之間的近似程度。距離越大的,兩者相似度就低;距離越小的,兩者相似度就高。
采集用戶的日用電量數(shù)據(jù)組成數(shù)組A{y1,y2,...,yn},顯然,A是一個(gè)一維數(shù)組,判斷數(shù)組中對(duì)象之間的相似程度用距離來(lái)描述,因此,數(shù)組A所有數(shù)據(jù)間的距離用相似度矩陣來(lái)表示:
(2)
圖1 電量波動(dòng)模型距離離群點(diǎn)的檢測(cè)流程
式(2)中,Dij表示第i和j個(gè)數(shù)據(jù)之間的距離,dij=|yi-yj|≥0,且dij=dji,dji趨近于0時(shí),數(shù)據(jù)間的相似度高;dji偏離0越大,相似度就越低。同時(shí),距離矩陣以對(duì)角線為基準(zhǔn)具有對(duì)稱(chēng)性。通過(guò)對(duì)稱(chēng)矩陣確定距離離群點(diǎn)后,建立電量波動(dòng)模型,計(jì)算電量波動(dòng)率對(duì)離群點(diǎn)進(jìn)行挖掘。電量波動(dòng)模型距離離群點(diǎn)的檢測(cè)流程如圖1。
電量數(shù)據(jù)處理并不是簡(jiǎn)單地剔除不利數(shù)據(jù)或異常數(shù)據(jù),而是要進(jìn)行數(shù)據(jù)預(yù)處理和清洗,即對(duì)數(shù)據(jù)屬性不完整、異常偏高、負(fù)值等進(jìn)行剔除,然后,對(duì)電量數(shù)據(jù)進(jìn)行歸一化處理。
每天的實(shí)際用電功率計(jì)算方法:
Pi'=Pi-Pi-1
,
(3)
式(3)中,Pi'為某一天的實(shí)際用電功率,即正向有功功率。由于電表功率累積計(jì)算,當(dāng)天的用電功率為當(dāng)天的抄表數(shù)減前一天的抄表數(shù)。
可見(jiàn),對(duì)于規(guī)模化數(shù)據(jù)直接利用正向有功功率數(shù)值,不利于算法處理,為簡(jiǎn)化算法分析對(duì)所有采集處理的數(shù)據(jù)進(jìn)行歸一化處理[12-13]。
(4)
式(4)中,G(i)歸一處理后的電量數(shù)據(jù)在0~1之間,minP(n)為數(shù)據(jù)處理后的最小數(shù),max(P(n))為數(shù)據(jù)處理后的最大數(shù)。
圖2 距離離群點(diǎn)算法流程圖
定義3 比例系數(shù)K用來(lái)體現(xiàn)存在不合理數(shù)據(jù)的個(gè)數(shù)對(duì)變異系數(shù)的影響程度。K取值過(guò)大會(huì)誤剔除部分有用數(shù)據(jù)影響算法的精度,K取值過(guò)小未能全部剔除不合理數(shù)據(jù)導(dǎo)致算法誤差大,在計(jì)算質(zhì)心時(shí)K的合理取值應(yīng)為1.2,K的不同取值影響變異系數(shù)如下:
(5)
式(5)表明當(dāng)CV≥0.8時(shí),說(shuō)明電量數(shù)據(jù)波動(dòng)率遠(yuǎn)遠(yuǎn)超過(guò)允許范圍,這種情況可直接進(jìn)行現(xiàn)場(chǎng)竊電檢查。這證明了引入電量波動(dòng)率能夠更加有效地提高離群點(diǎn)檢測(cè)效率。
電量波動(dòng)率質(zhì)心確定后,下一步就是進(jìn)行距離離群點(diǎn)算法分析,圖2為距離離群點(diǎn)算法流程圖。圖2中,尋優(yōu)參數(shù)α可調(diào),即可以控制輸出結(jié)果在一定的范圍內(nèi)。假設(shè)A≤α≤B,在這個(gè)范圍內(nèi)可以設(shè)置α=A+0.01λ,λ為尋優(yōu)次數(shù),由上限值A(chǔ)和下限值B確定。本算法流程中,λ是自動(dòng)循環(huán)尋優(yōu)的次數(shù),通過(guò)循環(huán)尋優(yōu)可獲取距離離群點(diǎn)的挖掘數(shù)據(jù),竊電嫌疑對(duì)象也就是最優(yōu)挖掘?qū)ο?,即最?yōu)的α值。
t/d 圖3 某紡織公司上半年計(jì)量有功數(shù)據(jù)
為驗(yàn)證本算法在實(shí)際竊電檢測(cè)中的準(zhǔn)確性,建立MATLAB仿真。首先對(duì)電力公司用電信息采集的數(shù)據(jù)按一定規(guī)則進(jìn)行清洗處理,下面以福建晉江某紡織公司為例。該公司2018年1~6月共183 d實(shí)際用量數(shù)據(jù)如圖3所示。圖中計(jì)量功率反應(yīng)了該公司上半年用電量的真實(shí)數(shù)據(jù),計(jì)量功率隨著公司每天的用電量累計(jì)增加,當(dāng)公司處于正常的生產(chǎn)用電時(shí)曲線趨向于一條直線,斜率也基本上趨于固定。如果公司存在竊電行為,某一天或某一段時(shí)間計(jì)量功率必然減小,導(dǎo)致該時(shí)間段曲線的斜率下降。因此,僅從計(jì)量功率曲線很難準(zhǔn)確判斷公司半年內(nèi)是否存在竊電行為,或者哪一天存在竊電行為。
為準(zhǔn)確鎖定竊電數(shù)據(jù),判定竊電時(shí)間,下面運(yùn)用本算法對(duì)采集數(shù)據(jù)進(jìn)行竊電分析。首先,根據(jù)公式(3)計(jì)算每天的用量功率數(shù)據(jù)。如圖4所示,圓點(diǎn)帶黑色填充的數(shù)據(jù)就是利用電量波動(dòng)率計(jì)算歐式距離檢測(cè)出來(lái)的離群點(diǎn)??梢?jiàn),離群點(diǎn)在距離上明顯區(qū)別于大部分點(diǎn),在所有數(shù)據(jù)中只占一小部分,這與“距離離群點(diǎn)”的定義相符合,從歐式距離很明顯地被區(qū)分出來(lái)。
t/d 圖4 算法分析前的離群點(diǎn)檢測(cè)結(jié)果
t/d 圖5 算法分析后的離群點(diǎn)檢測(cè)結(jié)果
根據(jù)定義2的計(jì)算方法可得出該公司1~6月的電量波動(dòng)率:CV1=0.028,CV2=0.192,CV3=0.186,CV4=0.557,CV5=0.179,CV6=0.185??梢?jiàn)1月份的波動(dòng)率最小,2、3、5、6月波動(dòng)率都小于20%,數(shù)據(jù)都比較平穩(wěn),只有4月份波動(dòng)率超過(guò)50%。
再通過(guò)質(zhì)心計(jì)算并結(jié)合公式(5)計(jì)算可得出CVmax=0.557,K=1.2,剔除不利數(shù)據(jù)前的質(zhì)心avg1=48.955,剔除不利數(shù)據(jù)后的質(zhì)心avg2=44.886,因此,質(zhì)心avg2更能代表數(shù)據(jù)的整體水平,證明了質(zhì)心選擇的合理性。
圖4為未進(jìn)行算法分析前的離群點(diǎn)檢測(cè),因?yàn)椴⑽纯紤]竊電行為,所以會(huì)造成用電量比正常值偏低。異常高于質(zhì)心的點(diǎn)在本算法中不具有現(xiàn)實(shí)意義,干擾算法分析,在分析計(jì)算前應(yīng)先將這部分異常離群點(diǎn)剔除。圖5是進(jìn)行算法分析后的離群點(diǎn)檢測(cè),離群點(diǎn)集中于4月底,檢測(cè)結(jié)果與先前1~6月的電量波動(dòng)率計(jì)算結(jié)果相吻合。從圖5可知,離群點(diǎn)檢測(cè)結(jié)果符合竊電原理,4月的電量波動(dòng)率最大,出現(xiàn)竊電的可能性也最大。本算法檢測(cè)的竊電時(shí)間點(diǎn)正是出現(xiàn)在4月,證明了離群點(diǎn)檢測(cè)的準(zhǔn)確性??梢?jiàn),采用電量波動(dòng)模型的距離離群點(diǎn)檢測(cè)與其他竊電檢測(cè)方法相比具有簡(jiǎn)便高效的優(yōu)勢(shì)。
在仿真過(guò)程中,考慮到實(shí)際用電過(guò)程中1~2 d時(shí)間數(shù)據(jù)異常并不能確定為竊電行為,可能是某些特殊原因(如停電)等造成。因此,在算法分析過(guò)程中增加了竊電報(bào)警條件判別,可以根據(jù)需要設(shè)置第3天為連續(xù)竊電報(bào)警,這樣篩選后的離群點(diǎn)與最終的結(jié)果一致,如圖5所示。需要指出的是,仿真過(guò)程中尋優(yōu)參數(shù)α取0.866,至少存在K=0.866×183≈158個(gè)數(shù)據(jù)與離群點(diǎn)之間的距離D(K)大于D(N0)(D(N0)=8.256),符合定義1所規(guī)定,說(shuō)明檢測(cè)的離群點(diǎn)可信度比較高。
本算法的檢測(cè)結(jié)果可以為一線稽查人員提供入戶排查的理論依據(jù),根據(jù)這一結(jié)果幫助排查人員快速鎖定竊電嫌疑用戶和具體竊電時(shí)間。
如表1所示,以下是應(yīng)用本算法和常見(jiàn)的3類(lèi)防竊電算法檢測(cè)結(jié)果與實(shí)際稽查結(jié)果比較,數(shù)據(jù)結(jié)論對(duì)比證明了應(yīng)用本算法進(jìn)行竊電檢測(cè)達(dá)到的準(zhǔn)確度較為理想。為便于比較,分別采集了紡織廠、機(jī)加工廠和酒店等10家公司半年內(nèi)的數(shù)據(jù)進(jìn)行分析。結(jié)果表明,當(dāng)算法判別度大于60%或低于50%時(shí),算法分析結(jié)果與實(shí)際稽查結(jié)果一致;當(dāng)算法判別度介于50%~60%時(shí),僅出現(xiàn)一組數(shù)據(jù)與稽查結(jié)果不一致,判別準(zhǔn)確度達(dá)到90%。在表1中,同樣用這10個(gè)公司上半年的用電量數(shù)據(jù)應(yīng)用單純的離群點(diǎn)算法準(zhǔn)確度為80%,決策樹(shù)和分類(lèi)算法準(zhǔn)確度都為70%,可見(jiàn),上述3種算法的誤報(bào)率和漏報(bào)率相對(duì)偏高,證明本算法判別準(zhǔn)確度有明顯優(yōu)勢(shì),相比較至少提高了10%以上。實(shí)驗(yàn)證明,通過(guò)電量波動(dòng)率下的質(zhì)心計(jì)算方法,再增加或細(xì)化數(shù)據(jù)的采集量,比如采集一整年以上的數(shù)據(jù)或增加竊電分析對(duì)象的數(shù)量,更能精確鎖定代表大部分?jǐn)?shù)據(jù)的質(zhì)心點(diǎn)。然后,在距離離群點(diǎn)算法中增加自動(dòng)尋優(yōu)次數(shù)λ,更能準(zhǔn)確鎖定離群點(diǎn),這樣解決了算法判別度介于50%~60%時(shí)出現(xiàn)誤報(bào)的問(wèn)題,進(jìn)一步提高本算法的準(zhǔn)確度,達(dá)到更好的竊電判別效果。
表1 不同竊電算法判別與實(shí)際稽查結(jié)果對(duì)比
本文提出一種基于距離離群點(diǎn)數(shù)據(jù)挖掘技術(shù)的防竊電算法模型,該模型結(jié)合電量波動(dòng)率進(jìn)行數(shù)據(jù)分析,是針對(duì)用戶用電量信息的新的竊電判別方法。此算法提出利用變異系數(shù)來(lái)描述電量波動(dòng)率,再根據(jù)電量波動(dòng)率計(jì)算質(zhì)心點(diǎn),通過(guò)質(zhì)心與離群點(diǎn)的定義應(yīng)用歐氏距離計(jì)算篩選出距離離群點(diǎn),從大量數(shù)據(jù)中挖掘出竊電嫌疑對(duì)象。本算法把復(fù)雜的數(shù)據(jù)處理簡(jiǎn)單化,分析效率高,不同于其他僅僅依靠離群點(diǎn)定義來(lái)篩選的離群點(diǎn)算法,也不同于傳統(tǒng)依靠電壓、電流、相位等參數(shù)來(lái)判別竊電的算法。盡管本算法解決了其他竊電算法計(jì)算量復(fù)雜、效率不高、判別準(zhǔn)確度低等問(wèn)題,但該算法仍然存在缺點(diǎn),即篩選離群點(diǎn)的尋優(yōu)參數(shù)調(diào)節(jié)次數(shù)有限,對(duì)于規(guī)?;瘮?shù)據(jù)處理,尋優(yōu)參數(shù)不能達(dá)到最優(yōu),因此算法模型有待進(jìn)一步改善。