李 寧,王偉峰,蔡 慧,汪 偉,王 穎
(1.中國計(jì)量大學(xué) 機(jī)電工程學(xué)院,浙江 杭州 310018;2.國網(wǎng)浙江省電力有限公司,浙江 杭州 310007)
隨著國民經(jīng)濟(jì)和電力生產(chǎn)力的快速發(fā)展,使得電力消費(fèi)者用電需求量與日俱增,與此同時(shí),供電質(zhì)量與用電營銷管理已經(jīng)成為一個(gè)非常重要的話題[1].
然而由于高科技竊電手段層出不窮,導(dǎo)致竊電問題變得越來越突出.據(jù)不完全統(tǒng)計(jì),全國每年因竊電造成的經(jīng)濟(jì)損失達(dá)幾百億元,國家為此蒙受了巨大的經(jīng)濟(jì)損失.竊電不僅會(huì)使電力部門蒙受巨大損失,而且會(huì)嚴(yán)重危及到社會(huì)經(jīng)濟(jì)秩序的正常運(yùn)行[2-3].
目前,大多數(shù)的反竊電產(chǎn)品都屬于裝置或設(shè)備,這些設(shè)備大多數(shù)缺乏自身防護(hù)能力,無人值守時(shí)難免竊電者在反竊電產(chǎn)品本體上動(dòng)手腳.而數(shù)據(jù)挖掘在防竊電方面的研究和應(yīng)用儼然已經(jīng)成為一個(gè)熱點(diǎn),數(shù)據(jù)挖掘用于預(yù)測(cè)分析以及統(tǒng)計(jì)分析和匯總商業(yè)智能等領(lǐng)域[4-5].目前雖然也出現(xiàn)了一些諸如聚類[6]、分類、離群點(diǎn)檢測(cè)等數(shù)據(jù)挖掘算法,但這些算法都存在各自的缺陷,無法很好地完成疑似竊電判別的任務(wù).在這些算法中,離群點(diǎn)挖掘目前主要應(yīng)用于經(jīng)濟(jì)、金融、入侵檢測(cè)等方面[7-9],因此將離群點(diǎn)挖掘應(yīng)用于防竊電檢測(cè)更是具有研究的價(jià)值.目前在這個(gè)方面的研究中,文獻(xiàn)[10]應(yīng)用基于距離的離群點(diǎn)算法,針對(duì)欠壓法和欠流法提出一種新的竊電辨識(shí)方法.但是,這種方法僅僅只針對(duì)欠壓法和欠流法,應(yīng)用范圍有限.而且,對(duì)于三相電壓、三相電流等多維數(shù)據(jù),數(shù)據(jù)處理的復(fù)雜度會(huì)隨著檢測(cè)樣本數(shù)據(jù)量的增大而增大.文獻(xiàn)[11]中提出了通過對(duì)電壓、電流海量數(shù)據(jù)進(jìn)行曲線擬合,建立數(shù)學(xué)模型并引入基于正態(tài)分布的離群點(diǎn)算法,依據(jù)拉依達(dá)準(zhǔn)則對(duì)海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘找出竊電嫌疑戶.但是,實(shí)際上很難用某個(gè)分布模型描述或統(tǒng)計(jì)用戶用電量以及電壓電流值的分布情況.
針對(duì)這些方法存在的不足,本文提出基于電量波動(dòng)率和離群點(diǎn)挖掘算法結(jié)合的電量波動(dòng)模型.這不僅是一種更加新穎的疑似竊電辨識(shí)方法,而且由于分析對(duì)象是一維數(shù)據(jù),模型處理復(fù)雜度低、準(zhǔn)確度高.它通過分析用戶的歷史用電量數(shù)據(jù),挖掘出用戶用電的行為特征,從而區(qū)別異常用電數(shù)據(jù)和正常用電數(shù)據(jù),找到竊電嫌疑點(diǎn).
離群點(diǎn)挖掘就是從大量的數(shù)據(jù)中自動(dòng)或半自動(dòng)地獲得有用信息的過程,即給定一個(gè)有n個(gè)數(shù)據(jù)點(diǎn)或?qū)ο蟮臄?shù)據(jù)集和期望的離群點(diǎn)個(gè)數(shù)k,找出與數(shù)據(jù)集中其余數(shù)據(jù)顯著不同的、異常的或不一致的前k個(gè)對(duì)象.離群點(diǎn)挖掘問題可以被看作兩個(gè)子問題:
1)準(zhǔn)確定義離群點(diǎn);
2)找到離群點(diǎn)挖掘方法.
離群點(diǎn)挖掘方法主要分為基于分布(統(tǒng)計(jì))的、基于深度的、基于聚類的、基于距離的和基于密度的五類.五種離群點(diǎn)檢測(cè)方法在不同領(lǐng)域均有應(yīng)用,但都存在不足.基于分布(統(tǒng)計(jì))的方法要求數(shù)據(jù)集合服從某一種概率或分布模型,基于聚類的方法對(duì)離群點(diǎn)的挖掘效率較低且依賴于所有簇的個(gè)數(shù),基于密度的方法多應(yīng)用于在局部離群點(diǎn)檢測(cè)中,基于深度的方法對(duì)高維數(shù)據(jù)處理效率低[12-14].因此,基于距離的離群點(diǎn)檢測(cè)方法應(yīng)用于竊電的判定和算法實(shí)現(xiàn)中比較合適.而定義基于距離的離群點(diǎn)的方法主要有以下兩種[15-16].
定義1如果數(shù)據(jù)集中至少有p(p∈[0,1])部分對(duì)象與對(duì)象o的距離大于D,則對(duì)象o是一個(gè)基于距離的關(guān)于參數(shù)p和D的離群點(diǎn).反過來說,就是不多于(1-p)部分對(duì)象與對(duì)象o的距離小于等于D.
定義2數(shù)據(jù)集中到其第k個(gè)最近鄰居的距離dk最大的前n個(gè)對(duì)象就是離群點(diǎn).
本模型分析的對(duì)象是用戶的日用電量數(shù)據(jù),從電量波動(dòng)著手,找到電量波動(dòng)率與用戶異常用電特征之間的關(guān)系.以往描述數(shù)據(jù)波動(dòng)情況,大多是用方差、標(biāo)準(zhǔn)差、極差等,采用最多的是樣本標(biāo)準(zhǔn)差.但是,需要對(duì)同一樣本不同時(shí)期的波動(dòng)情況對(duì)比時(shí),缺乏可比性.當(dāng)樣本平均水平不同,用標(biāo)準(zhǔn)差是無法實(shí)現(xiàn)兩組數(shù)據(jù)離散程度大小對(duì)比的.由于在本算法的思路中,需要對(duì)一組電量數(shù)據(jù)按月(或一段時(shí)間內(nèi))分別計(jì)算波動(dòng)率再進(jìn)行比較,因此用標(biāo)準(zhǔn)差就不適合.因此,在本文電量波動(dòng)模型的研究中提出一種新的電量波動(dòng)描述,即采用變異系數(shù)(或離散系數(shù))CV來描述用電量數(shù)據(jù)的波動(dòng)和離散情況,就很好地解決了上述的問題.
定義3變異系數(shù)CV定義如下:
(1)
經(jīng)過大量的研究分析得到:0≤CV<0.2時(shí),為合理波動(dòng)范圍;0.2≤CV≤0.5時(shí),為一般波動(dòng)范圍;0.5
變異系數(shù)一般是應(yīng)用于金融、股票風(fēng)險(xiǎn)預(yù)測(cè)等方面,在電力行業(yè)幾乎很少得到應(yīng)用.本文是在大量的樣本數(shù)據(jù)分析過程中,通過計(jì)算樣本變異系數(shù)與算法竊電辨識(shí)結(jié)果進(jìn)行綜合分析設(shè)置波動(dòng)范圍,實(shí)際使用過程可以視具體情況作相應(yīng)調(diào)整.
基于距離的離群點(diǎn)算法是用距離來描述兩個(gè)數(shù)據(jù)對(duì)象之間的相似程度,即兩個(gè)數(shù)據(jù)對(duì)象的距離越大,說明兩個(gè)數(shù)據(jù)對(duì)象相似度越小;反之,兩個(gè)數(shù)據(jù)對(duì)象的距離越小,說明兩個(gè)數(shù)據(jù)對(duì)象相似度越高.
由于算法分析的對(duì)象是用戶電量,假設(shè){x1,x2,…,xn}是由用電信息采集系統(tǒng)采集的一組用電量數(shù)組.描述兩個(gè)數(shù)據(jù)對(duì)象之間的距離用歐氏距離來表示,對(duì)于兩個(gè)一維空間樣本g1(x1)和g2(x2),歐氏距離公式為
D(g1g2)=|x1-x2|.
(2)
對(duì)于n個(gè)樣本,求兩兩樣本之間的距離,可構(gòu)成相似度矩陣來描述兩兩之間的相似度關(guān)系.本算法分析的用電量是一維數(shù)據(jù),因此,本文采用的是一維歐氏距離.
描述n個(gè)樣本兩兩之間的相似度關(guān)系可以用相似度矩陣(即歐氏距離矩陣)來表示,相似度矩陣如下:
(3)
其中,Dij表示對(duì)象i和j之間的相似度,滿足正定性,即數(shù)據(jù)間的距離為非負(fù),當(dāng)且僅當(dāng)i=j時(shí),Dij=0;比較對(duì)象i和對(duì)象j,當(dāng)它們相近或者是更加“接近”時(shí),Dij→0;當(dāng)它們的差異性越大,則該數(shù)值越大;并且滿足對(duì)稱性,即Dij=Dji.所以,相似度矩陣是一個(gè)以主對(duì)角線為軸的對(duì)稱矩陣.
在完成了定義離群點(diǎn)的目標(biāo)后,接下來更為重要的是如何進(jìn)行離群點(diǎn)挖掘.以往算法中的離群點(diǎn)大多是作為負(fù)面的東西加以排除,而我們此處的離群點(diǎn)是用戶是否存在竊電的有力判據(jù),因此尋找一個(gè)有效且復(fù)雜度低的方法檢測(cè)竊電嫌疑點(diǎn)就顯得尤為重要了.本文提出的電量波動(dòng)模型通過將電量波動(dòng)率和改進(jìn)的離群點(diǎn)算法相結(jié)合,很好地滿足了上述要求.
首先,在計(jì)算和比較電量波動(dòng)率的基礎(chǔ)上,通過選取更加準(zhǔn)確的質(zhì)心來代表樣本整體水平,然后比較單個(gè)樣本與質(zhì)心的相似度,以此來篩選離群點(diǎn).基于電量波動(dòng)的離群點(diǎn)算法框圖如圖1.
數(shù)據(jù)預(yù)處理一般包括數(shù)據(jù)清洗和歸一化兩個(gè)部分.數(shù)據(jù)清洗的規(guī)則如下:
規(guī)則一 各字段任一數(shù)據(jù)缺失即定義為數(shù)據(jù)缺失.如用戶編碼、總正向有功等;
規(guī)則二 在抄表數(shù)據(jù)中,將與終端電表采集的總正向有功數(shù)據(jù)進(jìn)行清洗;
規(guī)則三 將標(biāo)注不明確的數(shù)據(jù)視為無效并剔除,如未標(biāo)明終端還是表計(jì);
規(guī)則四 將樣本數(shù)據(jù)中特別離譜的假數(shù)據(jù)(即異常偏高和值為負(fù)的數(shù)據(jù))剔除.
總之,清洗后要保證用電量數(shù)據(jù)和相應(yīng)的用電時(shí)間要一一對(duì)應(yīng).
圖1 基于電量波動(dòng)的離群點(diǎn)檢測(cè)算法流程圖Figure 1 Flow chart of outlier detection algorithm based on electricity volatility
任意一天用電量的計(jì)算方法定義為
di=pi-pi-1.
(4)
式(4)中,pi代表第i天的表計(jì)總正向有功功率,pi-1代表第i-1天的表計(jì)總正向有功功率.
當(dāng)樣本數(shù)量龐大,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,一般將所有樣本化為介于0和1之間的數(shù).一般的歸一化方法如下:
.(5)
其中,x(i)代表任意一個(gè)樣本值,min(x(n))代表樣本最小值,max(x(n))代表樣本最大值.
定義4基于電量波動(dòng)率的樣本質(zhì)心avg2定義如下:
(6)
式(6)中,avg1為原始樣本的平均值,avg2為去除所有dx>km×avg1的樣本后的平均值.這樣做的目的是排除異常偏高數(shù)據(jù)對(duì)竊電嫌疑點(diǎn)分析的影響.km為比例系數(shù),根據(jù)定義3,按照單月(或一段時(shí)間內(nèi),具體時(shí)間長(zhǎng)短可根據(jù)實(shí)際需求設(shè)定)計(jì)算CV,且將CVmin定義為所有CV≥0.2中最小的波動(dòng)率.
變異系數(shù)越大,說明樣本離散程度越大,一些不合理的數(shù)據(jù)距離合理的樣本范圍就越遠(yuǎn),為了排除不合理的數(shù)據(jù)對(duì)整體樣本的影響,需要根據(jù)定義5設(shè)置系數(shù)km.
定義5比例系數(shù)km定義如下:
(7)
需要注意的是,當(dāng)CVmin≥0.8時(shí),說明樣本波動(dòng)率過度嚴(yán)重,一般可直接進(jìn)行竊電現(xiàn)場(chǎng)排查.這就是如前文所說,基于電量波動(dòng)率可大大提高離群點(diǎn)檢測(cè)和防竊電工作的效率.
在確定質(zhì)心以后,下面就是進(jìn)行離群點(diǎn)算法檢測(cè)了,圖2是離群點(diǎn)算法流程圖.
圖2 基于距離的離群點(diǎn)算法流程圖Figure 2 Flow chart of distance-based outlier algorithm
圖2中,p參數(shù)一般會(huì)有一個(gè)可調(diào)的范圍,即能夠輸出結(jié)果的參數(shù)范圍.如可調(diào)范圍為p∈[a,b],在可調(diào)范圍內(nèi),設(shè)置p=b-0.01x,x為需要尋優(yōu)的次數(shù),利用循環(huán)實(shí)現(xiàn)尋優(yōu),觀察離群點(diǎn)挖掘結(jié)果,最優(yōu)挖掘結(jié)果對(duì)應(yīng)的p就是最優(yōu)的p.
為了驗(yàn)證該算法在實(shí)際防竊電工作的準(zhǔn)確性,選取由用電信息采集系統(tǒng)采集并經(jīng)過清洗規(guī)則進(jìn)行清洗之后的浙江省長(zhǎng)興縣某化纖公司2016年5-7月共92 d實(shí)際用電數(shù)據(jù)如圖3.該圖顯示的該公司總正向有功的真實(shí)數(shù)據(jù).總正向有功是隨著時(shí)間逐日進(jìn)行累加的,當(dāng)用戶一直都是正常用電的話,總正向有功應(yīng)該近似一條線性的直線,如果存在竊電導(dǎo)致表計(jì)功率減少,則這條近似直線的斜率會(huì)較小.顯然,從原始的正向有功功率難以準(zhǔn)確直觀地判斷出該公司在這三個(gè)月內(nèi)是否存在竊電行為,以及在哪一天開始竊電.
圖3 某化纖公司92 d的實(shí)際總正向有功數(shù)據(jù)Figure 3 The 92 days actual total positive active power data of a chemical fiber company
因此,下面運(yùn)用本算法對(duì)該組數(shù)據(jù)進(jìn)行處理和竊電分析.
首先,根據(jù)公式(4)計(jì)算出對(duì)應(yīng)的日用電量數(shù)據(jù).如圖4,圓圈內(nèi)有星狀“*”填充的數(shù)據(jù)是檢測(cè)出的離群點(diǎn),很明顯,離群點(diǎn)相對(duì)樣本總體來說是小部分?jǐn)?shù)據(jù),這也正驗(yàn)證了“離群”的定義,它們與大多數(shù)樣本的距離都很大.
圖4 未考慮竊電實(shí)際的離群點(diǎn)檢測(cè)結(jié)果Figure 4 Outlier detection results withoutconsidering the actual stealing situation
利用定義3的方法計(jì)算電量波動(dòng)率可以得到:5月的電量波動(dòng)率CV5=0.187 2,CV6=0.227 6,CV7=0.024 3說明7月電量波動(dòng)極小,數(shù)據(jù)較平穩(wěn).
再根據(jù)上文所述的定義4以及定義5,CVmin=0.227 6,avg1=33.660 3,km=1.2,avg2=31.593 9,很顯然,avg2更能代表樣本總體的整體水平,說明質(zhì)心選擇的方法是可行的.
圖4是單純的離群點(diǎn)檢測(cè),并未考慮到竊電實(shí)際情況,因?yàn)楦`電是不用電或少用電,所以用電量相較于正常情況應(yīng)該是偏低的,故應(yīng)該是將高于質(zhì)心的離群點(diǎn)去掉.
如圖5所示是考慮到竊電實(shí)際的離群點(diǎn)檢測(cè)結(jié)果.由圖可知,所檢測(cè)出的離群點(diǎn)符合了竊電原理,而且在三個(gè)月的波動(dòng)率中,6月的波動(dòng)率最大,說明該月出現(xiàn)竊電的可能性也最大,而算法檢測(cè)的竊電嫌疑點(diǎn)正是出現(xiàn)在6月,證明了算法檢測(cè)離群點(diǎn)的準(zhǔn)確性,也進(jìn)一步佐證了基于電量波動(dòng)的離群點(diǎn)檢測(cè)算法相對(duì)于以往的竊電判別方法來說有一定的優(yōu)勢(shì).
圖5 考慮竊電實(shí)際的離群點(diǎn)檢測(cè)Figure 5 Outlier detection results consideringthe actual stealing situation
在實(shí)際竊電判別中,僅僅出現(xiàn)一天或兩天異常,其實(shí)并不能代表用戶竊電,因?yàn)檫@種情況可能是由一些特殊的原因造成的.因此,此處我們?cè)O(shè)置了如果連續(xù)三天出現(xiàn)異常,第三天進(jìn)行竊電報(bào)警的條件.如圖6,第一次竊電報(bào)警的時(shí)間為“2016/06/08”,而實(shí)際查證的該用戶開始竊電的時(shí)間為“2016/06/06”,與設(shè)置的竊電報(bào)警條件相符,進(jìn)一步證明了該算法的可靠性.
圖6 設(shè)置竊電報(bào)警條件下的結(jié)果Figure 6 The results of setting stealing alarm conditions
此外,需要說明的是,本次仿真實(shí)驗(yàn)中,離群點(diǎn)參數(shù)p設(shè)置為0.804 9,說明了所檢測(cè)出的離群點(diǎn)具有很高的可信度,因?yàn)樗械碾x群點(diǎn)都滿足至少有k=0.804 9×92≈74個(gè)樣本與其本身之間的距離d>D=7.250 7.
本算法的竊電分析結(jié)果是可以為一線員工的實(shí)際現(xiàn)場(chǎng)稽查提供理論依據(jù)的.依據(jù)算法分析結(jié)果,可以幫助稽查人員更有針對(duì)性地確定嫌疑用戶的竊電時(shí)間,從而快速地實(shí)施竊電排查.
下面是利用本算法分析的一些案例結(jié)果與現(xiàn)場(chǎng)排查結(jié)果進(jìn)行比較的情況,如表1所示.這一方面說明了本算法已經(jīng)達(dá)到了比較理想的準(zhǔn)確性.
表1 算法分析與實(shí)際排查情況對(duì)比
在實(shí)際分析中,共對(duì)若干個(gè)案例進(jìn)行計(jì)算分析,這些案例包括紡織廠、絲綢廠和酒店管理有限公司在內(nèi)的采用高供高計(jì)或高供低計(jì)的大型用電用戶和一些低壓用戶.此處選取了10個(gè)案例分析結(jié)果如表1所示.結(jié)果表明,在10個(gè)分析案例中,當(dāng)算法疑似度高于60%或是低于50%時(shí),判斷是否竊電與實(shí)際稽查結(jié)果相符合,而只有一組算法疑似度在50%~60%之間時(shí),與稽查結(jié)果不符,準(zhǔn)確度達(dá)到90%.當(dāng)然,隨著分析樣本的增加,預(yù)計(jì)算法分析準(zhǔn)確度還會(huì)增高,這說明了依據(jù)本算法,可以達(dá)到很好的竊電辨識(shí)效果,從而大大提高防竊電工作的效率.
本文在深入分析竊電與防竊電現(xiàn)狀以及了解竊電原理和常見竊電手段的基礎(chǔ)上,提出了一種用于疑似竊電判別的電量波動(dòng)模型.該模型結(jié)合了電量波動(dòng)率和基于距離的離群點(diǎn)挖掘算法,是一種針對(duì)用戶用電量分析的新的竊電辨識(shí)方法.首先,提出了一種新的描述電量波動(dòng)的指標(biāo):變異系數(shù),根據(jù)電量波動(dòng)率選取樣本質(zhì)心,然后依據(jù)該質(zhì)心和離群點(diǎn)原理篩選出離群點(diǎn),并經(jīng)過處理找到竊電嫌疑點(diǎn),并設(shè)置竊電報(bào)警的條件.該算法不同于以往離群點(diǎn)算法僅僅依靠離群點(diǎn)定義來篩選離群點(diǎn),更不同于傳統(tǒng)防竊電算法僅僅依靠線損和電壓、電流異常以及計(jì)量異常情況來判斷是否竊電.應(yīng)用本文這種模型進(jìn)行疑似竊電判別,大大降低了數(shù)據(jù)處理的復(fù)雜度,提高了判別的準(zhǔn)確性,進(jìn)而提高了防竊電工作的效率.此外,將電量和電壓、電流等負(fù)荷數(shù)據(jù)判別相結(jié)合,可進(jìn)一步提高竊電判斷的準(zhǔn)確性.
當(dāng)然,本算法仍舊存在一定的缺陷,即離群點(diǎn)參數(shù)尋優(yōu)的過程是通過有限次調(diào)節(jié)p來完成的,當(dāng)數(shù)據(jù)集為大規(guī)模數(shù)據(jù)集時(shí),可能調(diào)節(jié)的p并不是最優(yōu).此外,樣本質(zhì)心除受到樣本離散程度影響外,還需要考慮樣本密度的影響,加上氣候因素對(duì)用電量的影響也沒有作充分考慮,因此模型還需要進(jìn)一步地完善.