姚誠(chéng)智,馮小峰,周東旭
(1.廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東 廣州 510006;2.廣東電網(wǎng)有限責(zé)任公司計(jì)量中心,廣東 廣州 510080)
電網(wǎng)在傳輸過(guò)程中的電量損耗可分為技術(shù)損失和非技術(shù)損失兩大類(lèi)[1-2]。技術(shù)損失主要是由電網(wǎng)中發(fā)電機(jī)、變壓器、傳輸電路等組件中的內(nèi)阻造成的功率損失;非技術(shù)損失主要是由計(jì)量裝置的故障、抄表錯(cuò)誤、用戶竊電等行為引起的,其中,用戶竊電是造成非技術(shù)損失的最主要原因之一[3-5]。由于經(jīng)濟(jì)利益驅(qū)使,竊電的行為長(zhǎng)期存在,且竊電群體規(guī)模在局部地區(qū)較大,嚴(yán)重?fù)p害了電網(wǎng)公司的利益,用戶私拉電線等竊電手段也給正常用電埋下了安全隱患。
竊電方法主要包括有表法和無(wú)表法。有表法又包括欠壓法、欠流法、擴(kuò)差法和移相法等方法。以單相低壓線路用戶的電量為例,通過(guò)減小電表計(jì)量的電壓(欠壓法)、電流(欠流法)或功率因數(shù)(移相法)的數(shù)值大小,導(dǎo)致電量計(jì)量值減小。而無(wú)表法通常的表現(xiàn)形式為用戶私拉電線等,這些行為會(huì)導(dǎo)致計(jì)量設(shè)備表碼不走。雖然有表法和無(wú)表法采用的手段不同,但是都達(dá)到了竊電的目的[6]?,F(xiàn)階段用于低壓電量計(jì)量的智能電表不僅被焊死,且表碼不能被用戶清零和倒走,還具備檢測(cè)失壓、失流、電壓電流不平衡等功能。雖然智能電表全覆蓋工作基本完成,但不法分子竊電的手法也在更新,例如攻擊計(jì)量裝置、外加信號(hào)干擾、破壞計(jì)量或供電回路等,這對(duì)現(xiàn)階段的竊電識(shí)別提出了不小的挑戰(zhàn)。
隨著大數(shù)據(jù)、人工智能[7-8]的興起,機(jī)器學(xué)習(xí)已經(jīng)應(yīng)用在各行各業(yè)中,并且取得了不錯(cuò)的效果,智能電表的數(shù)據(jù)采集,給機(jī)器學(xué)習(xí)在竊電檢測(cè)中的應(yīng)用提供了強(qiáng)有力的支撐;通過(guò)運(yùn)用機(jī)器學(xué)習(xí)技術(shù),可縮小疑似竊電用戶的范圍,降低現(xiàn)場(chǎng)竊電排查的難度和減少人力成本。在過(guò)去的20年時(shí)間,國(guó)內(nèi)外研究學(xué)者提出了眾多不同的竊電檢測(cè)方案,現(xiàn)有的方案大體可歸納為2種:樣本學(xué)習(xí)[9-10]和異常檢測(cè)[11-12]。
樣本學(xué)習(xí)以機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)為基礎(chǔ),依賴于已進(jìn)行標(biāo)記的樣本,通過(guò)對(duì)樣本的特征值分析、提取,采用模型訓(xùn)練挖掘出樣本特征隱藏的規(guī)律。決策樹(shù)(decision tree,DT)[13-14]、支持向量機(jī)(support vector machine,SVM)[15-16]、神經(jīng)網(wǎng)絡(luò)[17-18]這類(lèi)典型的機(jī)器學(xué)習(xí)模型,已經(jīng)廣泛運(yùn)用于竊電檢測(cè)識(shí)別中。文獻(xiàn)[19]提出了基于DT和SVM自上而下的方案,由DT處理的數(shù)據(jù)作為輸入提供給SVM分類(lèi)器,一定程度上降低了假陽(yáng)率;文獻(xiàn)[20]提出了XGBoost、LightGBM、CATBoost三大DT模型來(lái)比較預(yù)測(cè)竊電用戶結(jié)果,并利用決策樹(shù)加權(quán)特征重要性提取技術(shù),降低了分類(lèi)器的復(fù)雜度,提高了時(shí)效性。文獻(xiàn)[21]提出基于AdaBoost集成學(xué)習(xí)的竊電檢測(cè)法,通過(guò)對(duì)比誤差逆?zhèn)鞑?back propagation,BP)神經(jīng)網(wǎng)絡(luò)、DT、SVM和k-鄰近(k-nearest neighbors, KNN)4種算法,確定以DT作為弱分類(lèi)器進(jìn)行集成,在愛(ài)爾蘭公開(kāi)數(shù)據(jù)集上取得了96.5%的受試者工作特征曲線下面積(area under receiver operating characteristic curve, AUC)和準(zhǔn)確率(accuracy, ACC);文獻(xiàn)[22]提出一種基于對(duì)抗式生成網(wǎng)絡(luò)的生成數(shù)據(jù)方法,有效彌補(bǔ)了欠采樣和過(guò)采樣帶來(lái)的不足,并通過(guò)隨機(jī)森林(random forest,RF)、BP和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)檢驗(yàn)了算法的可行性。
與樣本學(xué)習(xí)不同,異常檢測(cè)是以機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)為基礎(chǔ),異常檢測(cè)不依賴于樣本標(biāo)簽,很符合現(xiàn)階段實(shí)際用電數(shù)據(jù)缺少竊電標(biāo)簽的情況。異常檢測(cè)從2個(gè)維度出發(fā):用戶自身用電行為與自身歷史用電的差異性以及與同一地區(qū)用戶用電習(xí)慣的差異性。文獻(xiàn)[23]提出一種基于密度的異常檢測(cè)算法,通過(guò)與K均值(k-means,KM)、高斯混合模型(Gaussian mixed model,GMM)和具有噪聲的基于密度的聚類(lèi)(density-based spatial clustering of applications with Noise,DBSCAN)3種無(wú)監(jiān)督算法進(jìn)行比較,驗(yàn)證了所提算法在各項(xiàng)指標(biāo)中的優(yōu)越性;文獻(xiàn)[24]提出自組織映射(self-organizing map,SOM)神經(jīng)網(wǎng)絡(luò)和KM算法的結(jié)合,該方法可以有效地自動(dòng)選取聚類(lèi)簇的個(gè)數(shù);文獻(xiàn)[25]提出最大互信息系數(shù)(maximum information coefficient,MIC)和基于密度峰值的快速聚類(lèi)算法(fast search and find of density peaks, FSFDP),利用愛(ài)爾蘭智能電表的公開(kāi)數(shù)據(jù)集得到了驗(yàn)證。
綜上所述,已有大量的文獻(xiàn)從樣本學(xué)習(xí)和異常檢測(cè)2個(gè)方面著手研究,挖掘用戶用電特征。目前電網(wǎng)公司的營(yíng)銷(xiāo)系統(tǒng)中的低壓竊電工單少,且低壓用戶只有每天一個(gè)點(diǎn)的電量數(shù)據(jù),因此現(xiàn)有的文獻(xiàn)成果在實(shí)際生產(chǎn)中的應(yīng)用存在一定的局限性。當(dāng)前的用電稽查工作往往依據(jù)的是現(xiàn)場(chǎng)專(zhuān)家經(jīng)驗(yàn),初步判斷用戶疑似竊電嫌疑程度。因此,本文提煉出專(zhuān)家經(jīng)驗(yàn),提出預(yù)打標(biāo)簽法,并賦予預(yù)打標(biāo)簽用戶疑似竊電嫌疑程度,在實(shí)際的現(xiàn)場(chǎng)排查中具有指導(dǎo)意義。不少反竊電研究文獻(xiàn)采用的算例是公開(kāi)的愛(ài)爾蘭數(shù)據(jù)集,竊電用戶是構(gòu)造出來(lái)的,且竊電用戶的占比可控;但考慮到國(guó)內(nèi)外計(jì)量方式不同,用戶用電習(xí)慣也不一樣,本文使用真實(shí)的廣東某臺(tái)區(qū)低壓用戶用電數(shù)據(jù)作為算例??紤]到營(yíng)銷(xiāo)系統(tǒng)中低壓竊電工單少的現(xiàn)狀,采用監(jiān)督學(xué)習(xí)的方法對(duì)樣本訓(xùn)練較為困難,而無(wú)監(jiān)督學(xué)習(xí)不依賴于標(biāo)記樣本,故本文從無(wú)監(jiān)督學(xué)習(xí)入手?,F(xiàn)有的數(shù)據(jù)包括臺(tái)區(qū)的線損電量、電表測(cè)量的低壓用戶日用電量(不含竊電標(biāo)簽),所涉及的特征并不復(fù)雜,考慮到硬聚類(lèi)算法會(huì)把樣本強(qiáng)行歸類(lèi)的弊端,本文使用軟聚類(lèi)模糊C均值(fuzzy C-means,F(xiàn)CM)聚類(lèi)算法[26]找出用戶的用電異常點(diǎn)。
相較于KM的硬聚類(lèi),F(xiàn)CM聚類(lèi)將模糊的思路融入到了聚類(lèi)之中,提供了更加靈活的聚類(lèi)結(jié)果。在大部分情況下,數(shù)據(jù)集中的對(duì)象不能劃分成為明顯分離的簇,使用硬聚類(lèi)算法強(qiáng)行將集中的對(duì)象歸類(lèi)可能會(huì)引起一定的誤差。FCM在此基礎(chǔ)上引入了概率的概念,對(duì)每個(gè)對(duì)象和每個(gè)簇賦予一個(gè)權(quán)值,也就是隸屬度,這表示了對(duì)象屬于該簇的概率,實(shí)現(xiàn)了從硬聚類(lèi)到軟聚類(lèi)的轉(zhuǎn)變。
FCM聚類(lèi)算法是目前模糊算法中應(yīng)用最為廣泛且較為成功的算法之一,其目標(biāo)函數(shù)為:
(1)
約束條件為
(2)
式(1)、(2)中:n為樣本個(gè)數(shù);k為聚類(lèi)個(gè)數(shù);xi為第i個(gè)樣本;cj為第j個(gè)類(lèi)簇中心點(diǎn);μij為第i個(gè)樣本到第j個(gè)類(lèi)的隸屬度;m為模糊化因子,是一個(gè)超參數(shù),一般在{1,2,5}中選取。該目標(biāo)函數(shù)的基本依據(jù)是“類(lèi)內(nèi)加權(quán)誤差平方和最小化”準(zhǔn)則,約束條件保證了對(duì)象到每個(gè)聚類(lèi)中心的權(quán)重在同一綱量下進(jìn)行。在實(shí)際工程中,F(xiàn)CM算法采用矩陣的形式加速運(yùn)算,包括:n×p數(shù)據(jù)矩陣X、n×k隸屬度矩陣U、k×p聚類(lèi)中心矩陣C,其中p為特征個(gè)數(shù)。FCM算法是一個(gè)不斷迭代隸屬度和簇中心的過(guò)程,迭代時(shí),不斷地更新隸屬度矩陣U和聚類(lèi)中心矩陣C,最終收斂達(dá)到局部最優(yōu)或全局最優(yōu)的狀態(tài)。求解隸屬度矩陣U和聚類(lèi)中心矩陣C中的系數(shù),可通過(guò)拉格朗日乘子法,將式(1)和式(2)的條件極值問(wèn)題轉(zhuǎn)成無(wú)條件極值問(wèn)題求解,求解的結(jié)果如下:
(3)
(4)
當(dāng)滿足迭代終止條件時(shí)停止更新,迭代終止條件為
max|μij,t+1-μij,t| ≤ε.
(5)
式中:ε為停止閾值;t為迭代次數(shù)。式(5)的含義是:當(dāng)繼續(xù)迭代下去,隸屬度的變化已經(jīng)足夠的小,即聚類(lèi)已經(jīng)達(dá)到比較優(yōu)(局部最優(yōu)或全局最優(yōu))狀態(tài),該過(guò)程收斂于目標(biāo)Jm的局部最小值或鞍點(diǎn)。
為了解決低壓用戶竊電問(wèn)題,本文借鑒文獻(xiàn)[26]的思路,提出基于專(zhuān)家經(jīng)驗(yàn)和FCM聚類(lèi)算法的竊電檢測(cè)模型,流程如圖1所示,該竊電檢測(cè)模型包括數(shù)據(jù)預(yù)處理、FCM聚類(lèi)和竊電檢測(cè)3個(gè)階段。數(shù)據(jù)預(yù)處理階段使用預(yù)打標(biāo)簽法,初步標(biāo)記竊電嫌疑用戶,通過(guò)重構(gòu)特征和歸一化為聚類(lèi)做準(zhǔn)備。FCM聚類(lèi)階段使用FCM算法進(jìn)行聚類(lèi),輸出隸屬度矩陣和聚類(lèi)中心矩陣。竊電檢測(cè)階段選取待驗(yàn)證的用戶日用電量數(shù)據(jù),按行計(jì)算待驗(yàn)證的隸屬度矩陣與訓(xùn)練集隸屬度矩陣的2范數(shù),通過(guò)嫌疑系數(shù)σ判斷待檢測(cè)用戶是否有竊電嫌疑。
圖1 基于FCM聚類(lèi)的竊電檢測(cè)模型流程
通過(guò)分析計(jì)量自動(dòng)化系統(tǒng)電量數(shù)據(jù)可知,低壓竊電會(huì)引起電量數(shù)據(jù)呈現(xiàn)用戶的日用電量數(shù)據(jù)缺失電量過(guò)多(由破壞計(jì)量設(shè)備引起)、零電量過(guò)多(由存在竊電行為引起)的特征,因此對(duì)缺失電量和零電量過(guò)多的問(wèn)題處理顯得格外重要。
在論文提出的竊電檢測(cè)模型中,設(shè)定的訓(xùn)練時(shí)間為180 d,測(cè)試時(shí)間設(shè)定為30 d。折中考慮2個(gè)方面的因素:第一,6個(gè)月時(shí)間跨度不是很大,大部分計(jì)量設(shè)備可以成功采集,選取近1個(gè)月的時(shí)間段來(lái)測(cè)試,可以直接從近6個(gè)月的采集數(shù)據(jù)中獲取。第二,6個(gè)月時(shí)間段的數(shù)據(jù)可以平滑用戶的一些異常用電行為,更合理地表示用戶近6個(gè)月的用電習(xí)慣;使用1個(gè)月時(shí)間段的測(cè)試數(shù)據(jù),用于表示用戶近1個(gè)月的用電習(xí)慣,可以降低測(cè)試時(shí)間太短所帶來(lái)的不確定性影響。
在本模型流程中,基于專(zhuān)家經(jīng)驗(yàn),先對(duì)疑似竊電用戶進(jìn)行標(biāo)記。存在用電量為負(fù)的用戶,標(biāo)記為“存在用電量為負(fù)”,這類(lèi)用戶具有強(qiáng)烈的竊電嫌疑,新型的計(jì)量設(shè)備表碼不存在倒走的現(xiàn)象,只有存在竊電行為才會(huì)導(dǎo)致負(fù)電量的產(chǎn)生;對(duì)應(yīng)時(shí)間段內(nèi)缺失電量超過(guò)50%的用戶,分別標(biāo)記為“近1周缺失電量過(guò)多”“近1個(gè)月缺失電量過(guò)多”“近3個(gè)月缺失電量過(guò)多”和“近6個(gè)月缺失電量過(guò)多”,這類(lèi)用戶的竊電嫌疑程度很高,正常使用的計(jì)量設(shè)備不會(huì)出現(xiàn)缺失電量的情況,不排除計(jì)量設(shè)備本身的故障或傳輸過(guò)程中的故障,但是大部分情況下缺失電量的產(chǎn)生是由破壞計(jì)量設(shè)備引起的;連續(xù)出現(xiàn)缺失電量的用戶,分別標(biāo)記為“近1周用電量缺失”“近1個(gè)月用電量缺失”“近3個(gè)月用電量缺失”“近6個(gè)月用電量缺失”,這類(lèi)用戶的竊電嫌疑程度極高,屬于計(jì)量設(shè)備已無(wú)法正常工作狀態(tài),需要安排相關(guān)人員進(jìn)行現(xiàn)場(chǎng)檢查;對(duì)應(yīng)時(shí)間段內(nèi)零電量超過(guò)50%的用戶,分別標(biāo)記為“近1個(gè)月零電量過(guò)多”“近3個(gè)月零電量過(guò)多”和“近6個(gè)月零電量過(guò)多”,這類(lèi)用戶有疑似竊電的嫌疑,但是不排除用戶可能長(zhǎng)期不在家居??;用電量連續(xù)為0的用戶,分別標(biāo)記為“近1周用電量為0”“近1個(gè)月用電量為0”“近3個(gè)月用電量為0”“近6個(gè)月用電量為0”,這類(lèi)用戶存在竊電的嫌疑。為了避免竊電行為被察覺(jué),一些用戶只竊取大部分電量,反映在數(shù)據(jù)上是用戶的日用電量長(zhǎng)期處于低電量。下四分位數(shù)在統(tǒng)計(jì)學(xué)上有重要的意義,即將該一組數(shù)據(jù)從小到大排列,正好排列在下 1/4 位置上的數(shù)據(jù)為下四分位數(shù)。為了找出長(zhǎng)期處于低電量用戶,基于專(zhuān)家經(jīng)驗(yàn),設(shè)置用戶近6個(gè)月的日電量的下四分位數(shù)為閾值,即將該用戶近6個(gè)月日電量從小到大排序,選取下1/4位置上的日電量作為閾值。根據(jù)現(xiàn)場(chǎng)稽查專(zhuān)家經(jīng)驗(yàn),當(dāng)用戶日電量低于1 kWh屬于低電量,因此閾值最終選取下四分位數(shù)或1 kWh。當(dāng)用戶近1周日用電量均低于下四分位數(shù)或1 kWh時(shí),標(biāo)記“近1周處于低電量”;近1個(gè)月超過(guò)90%的天數(shù)日電量低于下四分位數(shù)或1 kWh時(shí),標(biāo)記“近1個(gè)月處于低電量”;近3個(gè)月超過(guò)90%的天數(shù)日電量低于下四分位數(shù)或1 kWh時(shí),標(biāo)記“近3個(gè)月處于低電量”。除了打上“近1周缺失電量過(guò)多” “近1個(gè)月零電量過(guò)多” “近3個(gè)月零電量過(guò)多” “近6個(gè)月零電量過(guò)多” “近1周用電量為0” “近1周處于低電量” “近1個(gè)月處于低電量” “近3個(gè)月處于低電量”標(biāo)簽的用戶,其余在預(yù)處理打上標(biāo)簽的用戶,直接反饋結(jié)果。
2.2.1 相關(guān)特征重構(gòu)
原始的數(shù)據(jù)為時(shí)間序列,選取近6個(gè)月的用戶數(shù)據(jù),數(shù)據(jù)特征維度為180維,因此需要對(duì)數(shù)據(jù)進(jìn)行降維操作,將原始數(shù)據(jù)矩陣X轉(zhuǎn)成特征矩陣P=[p1p2…pp]n×p,其中n為篩選后用戶個(gè)數(shù),設(shè)計(jì)出7個(gè)具有代表性的特征來(lái)表示用戶的用電習(xí)慣,達(dá)到了降維的效果,下面介紹7個(gè)特征。
a)一次電氣特征p1——近6個(gè)月的日用電量平均值,反映6個(gè)月的時(shí)間內(nèi)用戶的平均用電量水平。
b)一次電氣特征p2——除去零電量后近6個(gè)月的日用電量平均值,表示用戶在家時(shí)候的用電習(xí)慣,反映用戶真實(shí)的用電水平。
c)一次電氣特征p3——近6個(gè)月的日用電量最大值,即峰值。
d)一次電氣特征p4——近6個(gè)月的日用電量最小值,即谷值。
e)二次電氣特征p5——近6個(gè)月的日用電量標(biāo)準(zhǔn)差,表示用電量的離散程度,公式為
(6)
f)二次電氣特征p6——近6個(gè)月的日用電量波動(dòng)程度,反映用戶用電量的波動(dòng)變化,公式為
(7)
用電量在一段時(shí)間內(nèi)變化的越劇烈,p6值越大,反之越小。當(dāng)用戶的用電量一直處于波動(dòng)狀態(tài),且波動(dòng)的幅度很大,那么用戶可能存在竊電行為。
g)二次電氣特征p7——近6個(gè)月日用電量與臺(tái)區(qū)線損之間的相關(guān)度,表示用戶使用電量情況是否與臺(tái)區(qū)線損有一定的相關(guān)性,公式為
(8)
經(jīng)過(guò)相關(guān)特征重構(gòu),特征矩陣為P(n×p),當(dāng)近6個(gè)月臺(tái)區(qū)線損率的標(biāo)準(zhǔn)差大于5%時(shí),p取7,否則取6。本文構(gòu)造的相關(guān)特征提供了不同的信息,相互補(bǔ)充,對(duì)聚類(lèi)算法均有正向作用,特征信息的構(gòu)造在竊電檢測(cè)模型中起到了至關(guān)重要的作用。
2.2.2 特征歸一化
在聚類(lèi)之前,需要對(duì)特征重構(gòu)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或者是歸一化處理,保證數(shù)據(jù)在同一綱量下進(jìn)行運(yùn)算,避免一些數(shù)據(jù)太大或者是太小影響到聚類(lèi)算法,本文對(duì)特征矩陣P采用歸一化處理,將特征數(shù)據(jù)固定在[0, 1]之中,即
(9)
a)步驟 1: 初始化隸屬度矩陣U(0)。
b)步驟 2: 在第t步,使用式(4),用隸屬度矩陣U(t)更新聚類(lèi)中心矩陣C(t)。
c)步驟 3: 使用式(3)更新隸屬度矩陣U(t+1)。
d)步驟 4: 如果滿足收斂條件式(5)則停止迭代,輸出U和C(為了表述方便,記最終輸出的U(t)為U,最終的C(t)為C),否則返回步驟 2繼續(xù)迭代。
本文提出的模型是檢測(cè)用戶近1個(gè)月是否較過(guò)去6個(gè)月的總體趨勢(shì)表現(xiàn)異常,通過(guò)FCM聚類(lèi)算法,獲取用戶的隸屬度矩陣U和聚類(lèi)中心矩陣C。選取待測(cè)用戶近1個(gè)月的用電量數(shù)據(jù),構(gòu)造與6個(gè)月特征類(lèi)似的近1個(gè)月特征:①近1個(gè)月的日用電量平均值p′1;②除去零電量后近1個(gè)月的日用電量平均值p′2;③近1個(gè)月的日用電量最大值p′3;④近1個(gè)月的日用電量最小值p′4;⑤近1個(gè)月的日用電量標(biāo)準(zhǔn)差p′5;⑥近1個(gè)月的日用電量波動(dòng)程度p′6;⑦近1個(gè)月日用電量與臺(tái)區(qū)線損之間的相關(guān)度p′7,當(dāng)特征p7存在時(shí)p′7也存在,反之不使用這個(gè)特征。
(10)
式中:u=[u1u2…up]為U中的一個(gè)行向量;u′=[u′1u′2…u′p]為U′中對(duì)應(yīng)的行向量。d(u,u′)為一常數(shù),可以得到所有待檢測(cè)用戶的竊電嫌疑程度向量d=[d1d2…dn]T。為了避免隨機(jī)性給檢測(cè)結(jié)果帶來(lái)影響,使用10次FCM聚類(lèi)算法,取竊電嫌疑程度的平均值作為最終的竊電嫌疑程度。當(dāng)竊電嫌疑程度大于嫌疑系數(shù)時(shí),記該用戶為竊電嫌疑用戶,在本模型中,嫌疑系數(shù)σ的取值為0.7,且為了進(jìn)一步區(qū)分嫌疑程度,當(dāng)0.7 a) 標(biāo)記“存在電量為負(fù)數(shù)” 的用戶的竊電嫌疑程度為2。 b) 標(biāo)記 “近1個(gè)月用電量缺失”“近3個(gè)月用電量缺失”“近6個(gè)月用電量缺失” 的用戶的竊電嫌疑程度為1.5。 c) 標(biāo)記“近1周用電量缺失”“近6個(gè)月用電量為0”“近6個(gè)月缺失電量過(guò)多” 的用戶的竊電嫌疑程度為1。 d) 標(biāo)記“近3個(gè)月用電量為0”“近3個(gè)月缺失電量過(guò)多”“近6個(gè)月零電量過(guò)多”“近3個(gè)月處于低電量” 的用戶的竊電嫌疑程度為0.9。 e) 標(biāo)記“近1個(gè)月用電量為0”“近1個(gè)月缺失電量過(guò)多”“近3個(gè)月零電量過(guò)多”“近1個(gè)月處于低電量” 的用戶的竊電嫌疑程度為0.8。 f) 標(biāo)記“近1周缺失電量過(guò)多”“近1個(gè)月零電量過(guò)多” 的用戶的竊電嫌疑程度為0.7。 g) 標(biāo)記“近1周用電量為0”“近1周處于低電量” 的用戶的竊電嫌疑程度為0.6。 對(duì)于一些預(yù)處理中打了標(biāo)簽也進(jìn)行聚類(lèi)的用戶,選擇d向量中對(duì)應(yīng)的值與標(biāo)簽竊電嫌疑程度賦予值中的較大者作為最終的疑似竊電嫌疑程度。通過(guò)對(duì)疑似竊電嫌疑程度的排序,給現(xiàn)場(chǎng)實(shí)際排查提供優(yōu)先級(jí),可達(dá)到減少工作量和提高針對(duì)性的目的。 3.1.1 數(shù)據(jù)集的來(lái)源 本實(shí)驗(yàn)的計(jì)算機(jī)的處理器為Intel(R) i7-4720HQ,運(yùn)行內(nèi)存為8.00 GB;本實(shí)驗(yàn)使用的編程語(yǔ)言為Python,數(shù)據(jù)工具庫(kù)包括Numpy、Pandas、Matplotlib。 算例數(shù)據(jù)集來(lái)自真實(shí)場(chǎng)景,選自廣東省某地區(qū)的真實(shí)低壓用戶用電數(shù)據(jù)和臺(tái)區(qū)線損電量數(shù)據(jù),用戶共5 048名,來(lái)自46個(gè)臺(tái)區(qū),共記錄709 d(2019年1月1日至2020年12月10日)的數(shù)據(jù)。 3.1.2 數(shù)據(jù)預(yù)處理 真實(shí)的低壓用戶的用電量數(shù)據(jù)存在缺失值和零電量,采用第2章提出的預(yù)打標(biāo)簽法,見(jiàn)表1,初步找出用電異常的用戶,并進(jìn)行標(biāo)記。真實(shí)的臺(tái)區(qū)線損數(shù)據(jù)中存在負(fù)的損失電量,這是由于抄表人員誤抄導(dǎo)致的,將負(fù)線損電量設(shè)置為缺失,在計(jì)算相關(guān)度時(shí)忽略負(fù)線損數(shù)據(jù)。本文使用的線損數(shù)據(jù)為線損率,線損率是線損電量與供入電量之比,供入電量是線損電量和臺(tái)區(qū)用戶用電量之和的結(jié)果,需要利用原始用戶用電量數(shù)據(jù)和臺(tái)區(qū)線損數(shù)據(jù),計(jì)算出臺(tái)區(qū)的線損率。 表1 部分初步標(biāo)記的用戶 3.2.1 基于FCM模型的結(jié)果分析 表2 臺(tái)區(qū)1用戶的聚類(lèi)中心矩陣 由表2可知,7個(gè)簇中心坐標(biāo)之間的差異較大,表明該臺(tái)區(qū)的數(shù)據(jù)可分離性較高,每個(gè)聚類(lèi)中心中的7個(gè)特征也存在一定的差異性。 選取2020年10月1日至2020年10月31日的數(shù)據(jù)作為校驗(yàn)算例,重構(gòu)近1個(gè)月用電數(shù)據(jù)的特征,采用第2章提出的竊電檢測(cè)模型進(jìn)行檢驗(yàn),當(dāng)疑似竊電嫌疑程度大于0.7時(shí)認(rèn)為該用戶有疑似竊電的嫌疑。結(jié)果顯示,臺(tái)區(qū)1共16戶用戶被打上了標(biāo)簽,其中被打上了“近1個(gè)月疑似竊電”和“近1個(gè)月高度疑似竊電”標(biāo)簽的用戶共5戶。選取一些具有代表性的疑似竊電用戶的近1個(gè)月用電量曲線與臺(tái)區(qū)線損率,如圖2所示。 從圖2中可以看出:某些缺失電量過(guò)多的用戶,如圖2(a)中顯示的用戶,其日用電量在10月1日至10月13日處于0,這類(lèi)用戶的竊電嫌疑程度很高;圖2(b)中的用戶標(biāo)記為“近3個(gè)月處于低電量”,且該月使用的電量均處于1 kWh以下,竊電嫌疑程度很大;圖2(c)中的用戶被算法標(biāo)記為疑似竊電用戶,從圖中可以看出該用戶該月的日用電量與臺(tái)區(qū)線損高度負(fù)相關(guān),判斷該用戶的竊電嫌疑程度較大;圖2(d)中的用戶被算法標(biāo)記為高度疑似竊電,從圖中可以看出該用戶的波動(dòng)程度較大,但是與臺(tái)區(qū)線損沒(méi)有很強(qiáng)的相關(guān)性。在進(jìn)一步的檢驗(yàn)中,將標(biāo)記為“近1個(gè)月疑似竊電”和“近1個(gè)月高度疑似竊電”的用戶與該臺(tái)區(qū)的線損率進(jìn)行相關(guān)度計(jì)算,結(jié)果見(jiàn)表3。 其中用戶7和用戶32分別對(duì)應(yīng)圖2中的(d)和(c),從表3可以得出,用戶32與臺(tái)區(qū)1線損率的相關(guān)度超過(guò)了-0.5,表明該用戶的日用電量與臺(tái)區(qū)線損率有高度的負(fù)相關(guān)性,與從圖3的觀察結(jié)果一致。用戶7與臺(tái)區(qū)1的相關(guān)度不大,為了更進(jìn)一步證實(shí)該用戶有竊電的嫌疑,查看該用戶近6個(gè)月來(lái)的日用電量曲線與臺(tái)區(qū)線損的關(guān)系,如圖3所示。 圖2 部分已標(biāo)記用戶的用電特征示意圖 表3 疑似竊電用戶用電量與臺(tái)區(qū)線損率的相關(guān)度 圖3 用戶7近6個(gè)月的用電特征示意圖 從圖3中可以看出,用戶7在近6個(gè)月大部分時(shí)間的日用電量小于10 kWh。通過(guò)分析發(fā)現(xiàn),該用戶在8月中旬至9月底與臺(tái)區(qū)1的線損率存在高度的負(fù)相關(guān)。在9月21日至9月23日,該用戶用電量急速下降,而該地臺(tái)區(qū)線損率則驟增,懷疑該用戶有高度竊電嫌疑;因此,基于FCM算法的竊電檢測(cè)模型判斷該用戶高度疑似竊電有合理的依據(jù)。 3.2.2 FCM模型與其他方法性能對(duì)比 為驗(yàn)證本文提出的預(yù)打標(biāo)簽法的有效性,設(shè)計(jì)了未進(jìn)行預(yù)打標(biāo)簽的對(duì)比實(shí)驗(yàn)。由于真實(shí)數(shù)據(jù)中存在180 d的用電數(shù)據(jù)全部缺失的用戶,這類(lèi)用戶沒(méi)有對(duì)聚類(lèi)算法起到任何的積極作用,因此需要剔除。FCM的超參數(shù)的選取參照第2章,竊電檢測(cè)的結(jié)果見(jiàn)表4。通過(guò)對(duì)表4的分析可知,除了用戶9、用戶25和用戶26以外,其余的5戶用戶均為實(shí)驗(yàn)組竊電檢測(cè)模型中標(biāo)記的疑似竊電用戶,且竊電標(biāo)記相同。用戶9在對(duì)比實(shí)驗(yàn)未預(yù)打標(biāo)簽?zāi)P椭袠?biāo)記為“近1個(gè)月疑似竊電”,而在預(yù)打標(biāo)簽?zāi)P椭袠?biāo)記為“正常”,這需要現(xiàn)場(chǎng)稽查驗(yàn)證。對(duì)于實(shí)驗(yàn)組中絕大部分已經(jīng)預(yù)打標(biāo)簽的用戶,未預(yù)打標(biāo)簽的模型并沒(méi)有將這類(lèi)用戶標(biāo)記為疑似竊電,可以推斷在聚類(lèi)的過(guò)程中,未預(yù)打標(biāo)簽?zāi)P蛯⒘汶娏窟^(guò)多的用戶聚類(lèi)為一個(gè)類(lèi),將這些用戶視為正常用電用戶,此模型可能會(huì)造成一定程度的漏判。 表4 2種預(yù)處理的竊電檢測(cè)結(jié)果對(duì)比 為了確定FCM軟聚類(lèi)的優(yōu)越性,使用KM硬聚類(lèi)算法進(jìn)行對(duì)比實(shí)驗(yàn)。其中,超參數(shù)的選取與本文提出的基于FCM聚類(lèi)類(lèi)似:簇個(gè)數(shù)k=7,停止條件ε=0.001,最大迭代次數(shù)T=1 000。但是KM算法不具備FCM算法的隸屬度概念,求得的結(jié)果只有聚類(lèi)中心矩陣Q(k×p)和樣本聚類(lèi)標(biāo)簽v(1×n),因此在求解2范數(shù)時(shí)需要進(jìn)行改動(dòng):計(jì)算待測(cè)樣本與所屬類(lèi)的聚類(lèi)中心之間的歐幾里得距離,大于竊電系數(shù)時(shí)標(biāo)記為竊電用戶,在測(cè)試中嫌疑系數(shù)σ設(shè)置為0.5。為了確保預(yù)打標(biāo)簽的方法不對(duì)檢測(cè)結(jié)果造成影響,在KM聚類(lèi)算法中, 基于2.4節(jié)提出的專(zhuān)家經(jīng)驗(yàn)對(duì)其疑似竊電程度賦予一定的數(shù)值,在對(duì)應(yīng)的標(biāo)簽下數(shù)值減去0.2,如標(biāo)記為“近1周用電量為0”“近1周處于低電量”的用戶,該用戶的竊電嫌疑程度為0.4,以此類(lèi)推。采用KM硬聚類(lèi)算法和FCM軟聚類(lèi)算法的檢測(cè)結(jié)果見(jiàn)表5。 表5 2種算法竊電檢測(cè)結(jié)果對(duì)比 結(jié)果顯示,使用KM聚類(lèi)的標(biāo)簽用戶共13戶,其中標(biāo)記為“近1個(gè)月疑似竊電”的用戶共2戶,分別是用戶17和用戶32,而使用FCM聚類(lèi)的標(biāo)簽用戶共16戶,其中標(biāo)記為“近1個(gè)月疑似竊電”或“近1個(gè)月高度疑似竊電”的用戶共5戶;用戶32在本文提出的竊電檢測(cè)模型中已檢測(cè)出疑似竊電,用戶17、用戶32的疑似竊電嫌疑程度分別為0.53和0.68,該竊電嫌疑程度與本文提出的基于FCM竊電檢測(cè)模型的竊電嫌疑程度略有出入,在KM算法中竊電嫌疑程度大于σ則檢測(cè)為疑似竊電。用戶17的近6個(gè)月日用電量和臺(tái)區(qū)線損率關(guān)系如圖4所示,通過(guò)分析并沒(méi)有明確的信號(hào)指向該用戶有竊電的嫌疑,與臺(tái)區(qū)線損的相關(guān)度計(jì)算結(jié)果為-0.15也指向了這一點(diǎn)。 圖4 用戶17近6個(gè)月的用電特征示意圖 為了檢測(cè)算法的準(zhǔn)確性,安排稽查人員對(duì)臺(tái)區(qū)1進(jìn)行逐戶稽查,發(fā)現(xiàn)共15戶用戶有竊電行為,見(jiàn)表6。通過(guò)結(jié)果分析可知,本文提出的基于FCM竊電檢測(cè)模型能夠很好地甄別出疑似竊電用戶,但是不可避免會(huì)有一些誤判,如用戶20和用戶22,經(jīng)過(guò)核實(shí)該用戶長(zhǎng)期不在家居住,導(dǎo)致了模型的誤判;模型還漏判用戶9,但是可以發(fā)現(xiàn)該用戶的疑似竊電嫌疑程度接近0.7。為了保證模型的泛化性,在參數(shù)閾值的選取中只取小數(shù)點(diǎn)后1位的數(shù),保證盡可能多的竊電用戶被檢測(cè)出來(lái),且避免模型過(guò)擬合。雖然未進(jìn)行預(yù)打標(biāo)簽法的實(shí)驗(yàn)結(jié)果準(zhǔn)確率達(dá)到了100%,所預(yù)測(cè)的疑似竊電用戶全部為竊電用戶,但是該模型遺漏了許多竊電用戶,查全率只有53%。KM聚類(lèi)算法的檢測(cè)結(jié)果也出現(xiàn)了較多的漏判,如漏判了用戶6、用戶7、用戶9、用戶23和用戶27,而且出現(xiàn)了錯(cuò)判用戶17的情況,雖然在運(yùn)行速度上,該算法運(yùn)行速度為0.8 s,優(yōu)于本文提出的竊電檢測(cè)模型1.03 s,但是在準(zhǔn)確率上明顯遜色于FCM竊電檢測(cè)模型,本文提出的模型在性能上更加優(yōu)秀,而且本文提出的模型從預(yù)處理到輸出竊電檢測(cè)結(jié)果,處理5 048名用戶用時(shí)12.8 s,滿足了時(shí)效性。 表6 臺(tái)區(qū)1竊電算法檢測(cè)結(jié)果和現(xiàn)場(chǎng)稽查情況 針對(duì)目前營(yíng)銷(xiāo)系統(tǒng)中低壓竊電工單少的問(wèn)題,提出基于FCM聚類(lèi)算法的竊電檢測(cè)模型,并在真實(shí)的廣東某地區(qū)低壓用戶數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),得到以下結(jié)論: a)基于FCM聚類(lèi)算法的竊電檢測(cè)模型可以不依賴于用戶竊電標(biāo)簽,并對(duì)每個(gè)用戶賦予疑似竊電嫌疑程度,按疑似竊電嫌疑程度排序,可以指導(dǎo)實(shí)際工作中的排查優(yōu)先級(jí),減輕工作量。經(jīng)現(xiàn)場(chǎng)稽查結(jié)果可知,所提出的模型可以準(zhǔn)確識(shí)別出低壓竊電用戶。 b)對(duì)不采取初步標(biāo)記處理的日用電量數(shù)據(jù)進(jìn)行聚類(lèi),會(huì)導(dǎo)致竊電檢測(cè)模型將一些竊電用戶識(shí)別為正常用戶,對(duì)于這個(gè)問(wèn)題,本文基于專(zhuān)家經(jīng)驗(yàn),提出預(yù)打標(biāo)簽法,提高了竊電檢測(cè)模型的查全率; c)基于FCM聚類(lèi)算法的竊電檢測(cè)模型效果要優(yōu)于KM竊電檢測(cè)模型,具有較高的準(zhǔn)確率,且該算法在處理大量用戶日用電量數(shù)據(jù)時(shí)也具有時(shí)效性。3 算例分析
3.1 數(shù)據(jù)的獲取與處理
3.2 實(shí)驗(yàn)結(jié)果與分析
4 結(jié)論