向黎藜,肖私宇 ,鐘愛 ,郭嬌 ,段凱,張人杰
(國(guó)網(wǎng)重慶市電力公司營(yíng)銷服務(wù)中心,重慶 400000)
隨著我國(guó)人口的不斷增加和用電量的持續(xù)攀升,電費(fèi)核算異?;虿铄e(cuò)是不可避免的。如電費(fèi)計(jì)量系統(tǒng)出現(xiàn)故障、用戶私自改裝電表等,這可能給供電企業(yè)和用戶帶來(lái)一定的經(jīng)濟(jì)財(cái)產(chǎn)損失[1]。作為電力營(yíng)銷流程中重要的一環(huán),準(zhǔn)確的電費(fèi)核算可以促進(jìn)供電企業(yè)的穩(wěn)定運(yùn)行和持續(xù)發(fā)展,從而為企業(yè)制定合理的電力營(yíng)銷策略[2]。
長(zhǎng)期以來(lái),電費(fèi)核算分析方法大多是通過(guò)人工經(jīng)驗(yàn)總結(jié)的核算規(guī)則對(duì)異常電費(fèi)數(shù)據(jù)進(jìn)行篩查,這無(wú)法覆蓋所有的異常情況,缺少有效的數(shù)據(jù)支撐[3],并且存在諸多不足。一是通過(guò)核算規(guī)則判斷異常電費(fèi),均需要進(jìn)行人工復(fù)核,人力投入成本較大,效率低下。二是電費(fèi)核算規(guī)則異常甄別精準(zhǔn)度不足,經(jīng)過(guò)人工復(fù)核,存在異?;虿铄e(cuò)的電費(fèi)數(shù)據(jù)比例并不高;另外通過(guò)規(guī)則判斷無(wú)異常而實(shí)際發(fā)生電費(fèi)差錯(cuò)的情況亦時(shí)有發(fā)生,給供電企業(yè)精準(zhǔn)制定電力資源分配方案造成了一定的困難。三是基于多數(shù)規(guī)則仍依賴人工經(jīng)驗(yàn)進(jìn)行固化,存在閾值剛性不合理、一刀切或規(guī)則不完善等問(wèn)題,無(wú)法最大程度發(fā)揮電費(fèi)核算規(guī)則對(duì)電費(fèi)差錯(cuò)的風(fēng)險(xiǎn)防控作用[4]。
在大數(shù)據(jù)技術(shù)高速發(fā)展的背景下,合理利用當(dāng)前的技術(shù)手段挖掘電費(fèi)大數(shù)據(jù)隱藏的價(jià)值和關(guān)聯(lián),從多種因素和多個(gè)維度去分析和識(shí)別異常電費(fèi)數(shù)據(jù)成為各國(guó)學(xué)者研究的熱點(diǎn)和重點(diǎn)[5]。決策樹[6]、隨機(jī)森林[7]、神經(jīng)網(wǎng)絡(luò)[8]等機(jī)器學(xué)習(xí)算法模型已被應(yīng)用于異常電費(fèi)檢測(cè)和識(shí)別中。文獻(xiàn)[9]提出了一種K-means聚類方法,用來(lái)對(duì)異常點(diǎn)進(jìn)行檢測(cè)。文獻(xiàn)[10-11]利用K-means算法對(duì)不同用戶進(jìn)行區(qū)分,但這種方法檢測(cè)結(jié)果不夠精確,無(wú)法準(zhǔn)確定位,且在大數(shù)據(jù)量下需要提高運(yùn)行效率。文獻(xiàn)[12]基于粒子群優(yōu)化的k均值算法對(duì)電力數(shù)據(jù)進(jìn)行聚類分析,相對(duì)于傳統(tǒng)的人工核查方法,能夠更快速高效篩選出異常用電的客戶。文獻(xiàn)[13]基于密度的聚類方法,對(duì)異常用電用戶進(jìn)行有效檢測(cè)并識(shí)別竊電行為,同時(shí),對(duì)比了K-means聚類、高斯混合模型(GMM)聚類和基于密度的噪聲應(yīng)用空間聚類(DBSCAN)的檢測(cè)精度,結(jié)果表明作者提出的算法具有最好的性能表現(xiàn)。文獻(xiàn)[14]結(jié)合mean-shift算法和決策樹模型,對(duì)疑似異常用電的用戶進(jìn)行二次篩選,充分利用了電網(wǎng)的數(shù)據(jù)資源,提高了電量異常核查效率,實(shí)現(xiàn)了對(duì)用戶用電行為的自動(dòng)學(xué)習(xí)和異常檢測(cè)。文獻(xiàn)[15]利用電力數(shù)據(jù)并結(jié)合外部天氣數(shù)據(jù),使用機(jī)器學(xué)習(xí)的技術(shù)對(duì)電量電費(fèi)異常用戶進(jìn)行識(shí)別,達(dá)到電費(fèi)智能核算優(yōu)化的目標(biāo)。文獻(xiàn)[16]利用特征工程、主成分分析法、網(wǎng)格處理以及局部異常點(diǎn)等方法,實(shí)現(xiàn)了利用少量的異常數(shù)據(jù)檢測(cè)大量的其他異常數(shù)據(jù),顯著提高了用電異常檢測(cè)和識(shí)別的效率。
本文分析了不同算法在檢測(cè)異常電量方面的優(yōu)缺點(diǎn),并利用重慶公司的海量電量數(shù)據(jù)并結(jié)合外部天氣數(shù)據(jù)進(jìn)行相關(guān)分析。在以往,重慶公司通過(guò)人工積累的經(jīng)驗(yàn)規(guī)則去檢測(cè)和識(shí)別異常的電費(fèi)數(shù)據(jù),主要將居民用電量突增、突減、總表電量與各子表電量之和不符等因素作為參考依據(jù),其具體的量化指標(biāo)也是通過(guò)主觀經(jīng)驗(yàn)給出的,導(dǎo)致了檢測(cè)的大量的異常數(shù)據(jù)在人工復(fù)核后被判斷為正常數(shù)據(jù),造成了人力、物力以及財(cái)力的大量浪費(fèi)。實(shí)現(xiàn)自動(dòng)、智能的異常用電數(shù)據(jù)檢測(cè)并提高電費(fèi)核算數(shù)據(jù)識(shí)別的準(zhǔn)確率具有極其重要的理論和應(yīng)用價(jià)值。本文利用機(jī)器學(xué)習(xí)算法和海量的電力數(shù)據(jù),將異常電費(fèi)核算的檢測(cè)和識(shí)別可以看作一個(gè)二分類的問(wèn)題,利用以往人工核查的異常電費(fèi)數(shù)據(jù)作為訓(xùn)練集,并利用主成分分析法對(duì)降低數(shù)據(jù)的復(fù)雜度,最后通過(guò)決策樹模型對(duì)大量的數(shù)據(jù)進(jìn)行分類識(shí)別,檢測(cè)異常電費(fèi)核算數(shù)據(jù),從而達(dá)到電費(fèi)智能核算優(yōu)化的目標(biāo)。
本文所使用的數(shù)據(jù)集是由重慶公司提供的大量電力相關(guān)數(shù)據(jù),主要包括電力營(yíng)銷、電力生產(chǎn)以及外部數(shù)據(jù)。自開展?fàn)I銷信息化建設(shè)以來(lái),重慶公司積累了豐富的電力營(yíng)銷數(shù)據(jù),包括營(yíng)銷業(yè)務(wù)數(shù)據(jù)(如電費(fèi)信息、客戶繳費(fèi)信息等)、用戶采集數(shù)據(jù)、客戶服務(wù)數(shù)據(jù)(如95598電話、支付寶等移動(dòng)電子渠道信息)等。電力生產(chǎn)數(shù)據(jù)主要包括電能的輸送、分配等相關(guān)數(shù)據(jù)。在外部數(shù)據(jù)方面,主要通過(guò)網(wǎng)絡(luò)爬蟲等技術(shù),獲取了重慶各個(gè)區(qū)域內(nèi)的歷史天氣數(shù)據(jù)以及相關(guān)政策等數(shù)據(jù)。這些數(shù)據(jù)以逐行格式存儲(chǔ),用戶每天記錄一行,為電費(fèi)異常的識(shí)別和檢測(cè)提供了強(qiáng)有力的數(shù)據(jù)支撐。
在對(duì)數(shù)據(jù)進(jìn)行處理和分析之前,對(duì)數(shù)據(jù)的清洗是必不可少的[17]。在這一章節(jié)中,我們對(duì)得到的數(shù)據(jù)進(jìn)行重新審查和校驗(yàn),去除數(shù)據(jù)集中重復(fù)的數(shù)據(jù),并將剩余數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)的可接受格式。在這個(gè)過(guò)程中,主要針對(duì)空缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和不一致數(shù)據(jù)。其中,空缺數(shù)據(jù)需根據(jù)實(shí)際情況通過(guò)手工填入,使數(shù)據(jù)完整真實(shí);錯(cuò)誤數(shù)據(jù)主要是指系統(tǒng)無(wú)法識(shí)別的數(shù)據(jù),例如數(shù)據(jù)中混入異常字符、數(shù)字“0”寫成字母“O”、日期格式錯(cuò)誤等,需糾正后方可對(duì)數(shù)據(jù)進(jìn)行處理分析;不一致數(shù)據(jù)主要是指一些相互矛盾的數(shù)據(jù),如同一用戶同一時(shí)間記錄了兩條不一致的電表用電量數(shù)據(jù),需進(jìn)一步糾正和處理。
在原始數(shù)據(jù)行的基礎(chǔ)上,對(duì)錯(cuò)誤數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)進(jìn)行一系列的清洗和處理,得到303518個(gè)可用于數(shù)據(jù)分析的有效數(shù)據(jù)行。
在本文所使用的數(shù)據(jù)集中,包含了大量的字段,僅從直觀上很難判斷出哪個(gè)因素的影響是巨大的,哪個(gè)因素的影響是微弱的。通過(guò)詳細(xì)的特征工程,包括數(shù)據(jù)歸一化處理、統(tǒng)計(jì)特征、相關(guān)系數(shù)分析、重要特征選擇等,實(shí)現(xiàn)了對(duì)現(xiàn)有的特征的選擇和擴(kuò)展組合特征[18],例如供電單位、線下營(yíng)業(yè)廳分布情況對(duì)居民的繳費(fèi)情況有著更加重要的影響、居民的當(dāng)月用電量與年平均用電量的比值更能反映用電的異常情況等。
由于電力數(shù)據(jù)中的指標(biāo)是根據(jù)實(shí)際業(yè)務(wù)確定的,雖然通過(guò)特征工程提取了相對(duì)重要的特征,但仍然面臨著影響因素過(guò)多的情況,這將導(dǎo)致問(wèn)題變得更加復(fù)雜困難,極大地增加了計(jì)算量。同時(shí),各個(gè)特征之間也存在著一定的相關(guān)性,這將造成信息的重復(fù),可能會(huì)使異常電費(fèi)數(shù)據(jù)檢測(cè)結(jié)果和實(shí)際情況相悖。因此,數(shù)據(jù)集成、變量簡(jiǎn)化就成為一項(xiàng)不可或缺的數(shù)據(jù)預(yù)處理過(guò)程[19]。
數(shù)據(jù)集成、變量簡(jiǎn)化指的是剔除各個(gè)變量之間的冗余成分,即各個(gè)變量之間的重疊信息部分,并保持原有數(shù)據(jù)的信息量和決策能力。將多個(gè)相關(guān)的影響因素簡(jiǎn)化為盡可能少的不相關(guān)的綜合特征,既減少了數(shù)據(jù)分析的計(jì)算量,也使異常電費(fèi)數(shù)據(jù)的檢測(cè)和識(shí)別結(jié)果更加科學(xué)合理[20]。
思蓉和思遠(yuǎn)走后,楚墨重新扎進(jìn)廚房。這次他要為念蓉榨一杯西瓜汁,他說(shuō)天太熱,喝杯西瓜汁去暑。念蓉不理他,去浴室洗好澡,出來(lái),楚墨已經(jīng)將兩杯西瓜汁榨好。
常用的變量簡(jiǎn)化、模型降階方法主要有主觀賦權(quán)法和客觀賦權(quán)法[21]。前者會(huì)受到主觀經(jīng)驗(yàn)的影響,往往會(huì)夸大或減弱某一因素的影響,從而導(dǎo)致不能準(zhǔn)確的檢測(cè)和識(shí)別異常用電數(shù)據(jù)。后者主要包括因子分析法、主成分分析法(PCA)[22]等。本文利用PCA法對(duì)可能影響電費(fèi)數(shù)據(jù)異常的因素賦予不同的權(quán)重,客觀地反映數(shù)據(jù)間的真實(shí)關(guān)系。
PCA法是一種常用數(shù)據(jù)分析方法,常用于高維數(shù)據(jù)的降維, 被用于提取數(shù)據(jù)的主要特征[23]。該方法在降低維度、減少變量的同時(shí),盡量減少原始信息的損失,并得到了很多研究者證實(shí)和廣泛應(yīng)用[24]。利用PCA方法大大簡(jiǎn)化了人臉識(shí)別問(wèn)題中的特征[25],在保證精度的同時(shí)極大地提高了檢測(cè)效率。瞿等人[26]利用PCA法對(duì)異常電力數(shù)據(jù)進(jìn)行檢測(cè),其結(jié)果的準(zhǔn)確率、誤報(bào)率和漏報(bào)率均優(yōu)于K-means、支持向量機(jī)等算法。本文將PCA算法應(yīng)用到電力大數(shù)據(jù)模型的簡(jiǎn)化和降維過(guò)程中,通過(guò)特征工程和以往的經(jīng)驗(yàn),將數(shù)據(jù)本身的特征組合擴(kuò)展得到新的一系列特征。顯然,這些特征之間具有一定的重疊和相關(guān)性。通過(guò)PCA算法將這些相關(guān)的一系列特征重新組合計(jì)算,得到一組相互無(wú)關(guān)的綜合性特征,同時(shí)降低了數(shù)據(jù)集中特征的階數(shù),達(dá)到了簡(jiǎn)化、降維的目的。PCA算法可歸納如下:
假設(shè)原始數(shù)據(jù)中X=(x1,x2,…,xp)T的n個(gè)樣本Xi=(xi1,xi2,…,xip)T,(i=1,2,…,n;n>p),則樣本矩陣X為:
(1)
對(duì)X進(jìn)行標(biāo)準(zhǔn)化變換,
(2)
對(duì)標(biāo)準(zhǔn)化矩陣Z求相關(guān)系數(shù)矩陣:
(3)
再解相關(guān)系數(shù)矩陣R的p個(gè)特征值:
|R-λIp|=0
(4)
(5)
(6)
根據(jù)經(jīng)過(guò)清洗和處理之后的有效數(shù)據(jù),首先利用主成分分析法(PCA)進(jìn)行變量簡(jiǎn)化。
對(duì)異常電費(fèi)數(shù)據(jù)的檢測(cè)和識(shí)別可以看作為一個(gè)二分類問(wèn)題。作為一種被廣泛應(yīng)用的分類算法——決策樹算法,具有條理清晰,定量、定性分析相結(jié)合,易于掌握,適用范圍廣等優(yōu)點(diǎn)。決策樹模型中通常包含一個(gè)根結(jié)點(diǎn),若干內(nèi)部節(jié)點(diǎn)和若干葉結(jié)點(diǎn),其中葉結(jié)點(diǎn)對(duì)應(yīng)決策分類結(jié)果。目前已有很多學(xué)者進(jìn)行了大量的基于決策樹模型的研究工作,同時(shí)開發(fā)了很多基于決策樹模型的分類系統(tǒng),包括ID3、C4.5、CART、QUEST、C5等。Tso等人對(duì)比了決策樹算法和神經(jīng)網(wǎng)絡(luò)模型在電力數(shù)據(jù)識(shí)別和預(yù)測(cè)方面的性能表現(xiàn),結(jié)果表明二者具有一定程度上的可替代性。Tehrani等人基于決策樹模型對(duì)電力數(shù)據(jù)中可能存在的竊電行為進(jìn)行檢測(cè)和識(shí)別,并取得了較好的結(jié)果。因此,本文同樣采用決策樹算法對(duì)PCA降維處理后的數(shù)據(jù)進(jìn)行分析和檢測(cè)。
決策樹是一種十分常用的分類方法,其本質(zhì)是由多個(gè)判斷節(jié)點(diǎn)組成的樹。樹的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)特征,在每個(gè)節(jié)點(diǎn)處對(duì)數(shù)據(jù)進(jìn)行分析,進(jìn)而在樹的最末枝對(duì)電力數(shù)據(jù)是否異常給出最佳判斷。在某種意義上,該算法與傳統(tǒng)的人工算法類似,在數(shù)據(jù)集中的每一個(gè)特征上尋找一個(gè)閾值,根據(jù)這些閾值對(duì)數(shù)據(jù)進(jìn)行分類,實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的檢測(cè)和識(shí)別,不同的是利用機(jī)器學(xué)習(xí)算法自動(dòng)地創(chuàng)建分類規(guī)則擺脫了主觀經(jīng)驗(yàn)的影響,檢測(cè)結(jié)果更加客觀、準(zhǔn)確。因此,決策樹很容易轉(zhuǎn)化形成更加精準(zhǔn)的分類規(guī)則,常常被應(yīng)用于專家系統(tǒng)。在本文中,應(yīng)用決策樹算法可以更直觀地理解和復(fù)核異常電費(fèi)數(shù)據(jù)。
本文采用的CART決策樹算法,其類似于自頂向下的窮舉算法。該算法基于基尼指數(shù)最小化準(zhǔn)則構(gòu)建二叉樹。每個(gè)節(jié)點(diǎn)根據(jù)選擇的結(jié)果將該節(jié)點(diǎn)分裂為兩個(gè)或多個(gè)子節(jié)點(diǎn),重復(fù)這一過(guò)程,直至達(dá)到對(duì)訓(xùn)練集準(zhǔn)確地分類或所有的特征已被選擇過(guò)。該算法具體操作步驟如下。
(1)令訓(xùn)練數(shù)據(jù)集為S,計(jì)算PCA處理后的所有特征對(duì)S的基尼指數(shù),此時(shí)對(duì)于每一個(gè)特征K,其可能取得的值為λ,根據(jù)此值將訓(xùn)練集數(shù)據(jù)劃分為兩個(gè)部分W1和W2,然后令K=λ,可得基尼指數(shù)的表達(dá)式為:
(7)
(2)接著,在所有可能的特征以及可能取得的值中,選擇令基尼指數(shù)最小的特征和切分點(diǎn)將數(shù)據(jù)集劃分為兩個(gè)部分,即該節(jié)點(diǎn)分裂為兩個(gè)節(jié)點(diǎn)。
(3)在得到了兩個(gè)節(jié)點(diǎn)中,重復(fù)上述操作,節(jié)點(diǎn)不斷分裂,直到可以準(zhǔn)確地對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行劃分或?qū)λ刑卣骶瓿蛇x取和訓(xùn)練。
(4)完成決策樹的生成,對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類,從而對(duì)異常的電費(fèi)數(shù)據(jù)進(jìn)行檢測(cè)和識(shí)別。
從提高核算準(zhǔn)確度、提升核算效率、轉(zhuǎn)變班組職能三個(gè)方面,利用信息化技術(shù)和手段,統(tǒng)籌各部門間的協(xié)調(diào)和合作,有效提升了電費(fèi)核算工作,降低核算風(fēng)險(xiǎn),推進(jìn)電費(fèi)結(jié)算的智能核算工作。
(1)提高核算準(zhǔn)確度
通過(guò)核算集約化管理,借助信息系統(tǒng)的能力提升,電費(fèi)核算部門集中管理,提高電費(fèi)核算的準(zhǔn)確度。一次性算費(fèi)準(zhǔn)確率提高到99.96%。
(2)提升核算效率
將原有的主要人工審核電費(fèi)的工作方式,改變?yōu)樾畔⑾到y(tǒng)根據(jù)審核規(guī)則智能篩選異常、精準(zhǔn)定位問(wèn)題,人工解決問(wèn)題的模式。根據(jù)2021年10月以后的數(shù)據(jù)情況來(lái)看,攔截次數(shù)減少了84398次,電費(fèi)筆數(shù)減少了51677筆,攔截有效率提升了9.82%。
(3)轉(zhuǎn)移核算重心
以信息系統(tǒng)自動(dòng)推進(jìn)替代原有的人工推進(jìn)量費(fèi)核算環(huán)節(jié),減少人工工作任務(wù),核算重心轉(zhuǎn)移到量?jī)r(jià)費(fèi)的全面監(jiān)控。
本文針對(duì)傳統(tǒng)的基于主觀經(jīng)驗(yàn)的檢測(cè)方法難以及時(shí)高效地檢測(cè)和識(shí)別用電異常數(shù)據(jù)問(wèn)題,結(jié)合了電力營(yíng)銷數(shù)據(jù)和外部數(shù)據(jù)的特征分析和數(shù)據(jù)挖掘,對(duì)各影響因素的內(nèi)在聯(lián)系做了一系列的研究,得到了影響或判斷異常用電的關(guān)鍵特征,并針對(duì)不同的類別的用戶對(duì)相關(guān)指標(biāo)進(jìn)行分別量化,例如低壓居民的用電量突增為近12個(gè)月均電量的2倍以上時(shí),才被判斷為可能的異常用電,而同樣的指標(biāo),對(duì)于低壓非居民的用電量突增3倍以上時(shí),其被判斷為用電異常的概率會(huì)提升。
基于PCA算法和決策樹模型,利用電力數(shù)據(jù)并結(jié)合外部天氣數(shù)據(jù)對(duì)電費(fèi)智能核算進(jìn)行建模,有效地提升了異常用戶識(shí)別的準(zhǔn)確率,在降低了攔截用戶的總量的同時(shí),顯著提升了有效的攔截率,錯(cuò)攔和漏攔的異常用電數(shù)據(jù)大幅減少。依靠主觀經(jīng)驗(yàn)和判斷審核電費(fèi)的工作方式,改變?yōu)槔脵C(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行自動(dòng)的、智能的篩選異常、精準(zhǔn)定位問(wèn)題,有效提升了電費(fèi)核算工作的效率,推進(jìn)了電費(fèi)結(jié)算的智能核算工作,有效降低供電企業(yè)的經(jīng)濟(jì)損失,不斷提高企業(yè)的服務(wù)水平。
在未來(lái)的工作中,將不斷地收集更多可能影響異常用電的因素和提高算法的性能,進(jìn)一步提高異常用電檢測(cè)和識(shí)別的精確性,同時(shí)實(shí)現(xiàn)對(duì)用戶異常用電的預(yù)測(cè)工作。