廣東電網(wǎng)有限責任公司 錢正浩 吳廣財
一種基于大數(shù)據(jù)挖掘的電費回收風險預測技術(shù)研究
廣東電網(wǎng)有限責任公司 錢正浩 吳廣財
電費回收是供電企業(yè)最終效益的體現(xiàn),電費回收率也是供電企業(yè)內(nèi)部考核的一項重要經(jīng)濟指標[1]。每年全國電力用戶拖欠電網(wǎng)企業(yè)電費現(xiàn)場比較嚴重,導致企業(yè)資金周轉(zhuǎn)不暢,同時也使國家資產(chǎn)蒙受巨大損失。隨著國家產(chǎn)業(yè)結(jié)構(gòu)的不斷調(diào)整,部分行業(yè)產(chǎn)能過剩,給電力企業(yè)電費回收帶來諸多風險,尤其電力大客戶(主要是企業(yè)用戶、商業(yè)用戶等)是電費回收工作的主要風險,本文通過對大客戶歷史用電數(shù)據(jù)、行業(yè)數(shù)據(jù)、企業(yè)法人征信、宏觀經(jīng)濟環(huán)境等數(shù)據(jù)的收集,基于大數(shù)據(jù)挖掘技術(shù)對電費回收風險進行預測分析,及早發(fā)現(xiàn)電費回收風險,針對性采取相應措施提高電費回收率。
電費回收;電費風險;風險預測;大數(shù)據(jù);數(shù)據(jù)挖掘
“十三五”期間,電網(wǎng)企業(yè)提出要運用“大移物云”技術(shù),推動公司管理變革和運營模式創(chuàng)新,推動電網(wǎng)創(chuàng)新發(fā)展高效運作。目前大數(shù)據(jù)技術(shù)已在互聯(lián)網(wǎng)、電商、廣告等行業(yè)取得了長足的發(fā)展,在用戶行為分析、銷售策略制定、廣告定點投放等領(lǐng)域已進入實用階段。
目前電力營銷管理系統(tǒng)主要是由人工從營銷管理系統(tǒng)導出電費明細、欠費明細等數(shù)據(jù),根據(jù)催收策略實施一級、二級、三級催收工作,浪費的人力、物力資源大,催收工作效率低下,并且只能被動的在事后進行電費催收工作[2]。運用大數(shù)據(jù)技術(shù)對大客戶電費回收風險進行分析預測,及時發(fā)現(xiàn)存在的電費回收風險點,通過營銷策略調(diào)整降低風險,有效提高電費回收率,提升電力企業(yè)經(jīng)營效益。
基于大數(shù)據(jù)存儲、計算、分析能力,結(jié)合電力大客戶的用電行為、企業(yè)發(fā)展、企業(yè)法人征信、國家政策、地區(qū)社會環(huán)境等因素,建立電費回收風險預測數(shù)據(jù)模型,提出大數(shù)據(jù)預測分析技術(shù)方案以及本技術(shù)方案應用場景。
電費回收率作為電網(wǎng)公司收益的主要的運營指標數(shù)據(jù),體現(xiàn)了電網(wǎng)公司經(jīng)營效益的成果。凡事預則立,不預則廢,在提升電費回收率、有效地降低電費回收風險方面同樣適用。深入探討電費風險產(chǎn)生的原因,對風險影響因素進行分類,主要分為內(nèi)部和外部兩大方面的因素,電費風險預測數(shù)據(jù)主要包括:內(nèi)部因素數(shù)據(jù)(用戶基礎(chǔ)信息、業(yè)擴信息、電費信息、欠費歷史信息、用電檢查信息、營銷稽查信息等)、外部因素數(shù)據(jù)(企業(yè)基本信息、企業(yè)法人個人征信、納稅證明信息、銀行貸款信息、企業(yè)經(jīng)營狀況、國家宏觀經(jīng)濟環(huán)境、區(qū)域社會環(huán)境等)。
營銷管理系統(tǒng)中的用戶類型信息包括企業(yè)客戶、個人客戶、集團客戶、事業(yè)單位客戶、社會團體、政府機關(guān)、軍事單位客戶,本文分析范圍只針對電費回收風險較大的企業(yè)客戶進行分析。個人客戶由于基數(shù)較大、個體風險影響較低,同時事業(yè)單位客戶、社會團體、政府機關(guān)等客戶因負有社會責任,受外部因素影響較低。
電費信息、業(yè)擴信息、稽查信息、用檢信息和欠費歷史信息均由營銷管理系統(tǒng)提供,企業(yè)用戶信息、業(yè)擴信息以及欠費信息均包含企業(yè)行業(yè)類別信息以及企業(yè)基本信息,通過企業(yè)信息可進行外部因素關(guān)聯(lián)分析。
企業(yè)基本信息包括企業(yè)名稱、經(jīng)營范圍、法人、注冊資本、稅號等信息,來源于工商管理局系統(tǒng),同時還需要來源于征信系統(tǒng)的企業(yè)法人征信信息,稅務局系統(tǒng)的納稅證明信息,銀行系統(tǒng)的貸款信息及還款信息,企業(yè)經(jīng)營狀況、宏觀經(jīng)濟因素(資訊、視頻、圖片等)以及特定行業(yè)影響因素(比如農(nóng)產(chǎn)品加工企業(yè),需要考慮氣候、產(chǎn)能等因素)主要從網(wǎng)絡(luò)途徑獲取,考慮外部因素的難度主要在于有效數(shù)據(jù)的獲取和篩查。
電費回收風險預測數(shù)據(jù)量大,數(shù)據(jù)類別多,不僅有結(jié)構(gòu)化的用戶、電費、征信信息,還有半結(jié)構(gòu)化和非結(jié)構(gòu)化的外部數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù),本文引入Hadoop架構(gòu)以解決海量數(shù)據(jù)存儲、數(shù)據(jù)多樣化處理的需求,同時軟硬件成本較低。Hadoop是由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),典型技術(shù)架構(gòu)主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)計算、數(shù)據(jù)分析五層模型,圖1為hadoop平臺技術(shù)架構(gòu)。
圖1 hadoop平臺技術(shù)架構(gòu)
目前電力營銷管理系統(tǒng)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲用電客戶、電費、業(yè)擴、用檢、稽查等數(shù)據(jù)。
企業(yè)基本信息、企業(yè)法人個人征信、納稅證明信息、銀行貸款信息等數(shù)據(jù)需從工商管理局、銀行、征信等專業(yè)系統(tǒng)獲取,需考慮各系統(tǒng)的數(shù)據(jù)存儲方式及獲取方式的多樣性。
企業(yè)經(jīng)營狀況、國家宏觀經(jīng)濟環(huán)境、區(qū)域社會環(huán)境等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)主要是借助網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式獲取數(shù)據(jù)。
大數(shù)據(jù)存儲是指將大量各種不同類型的存儲設(shè)備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問。數(shù)據(jù)庫存儲管理技術(shù)包括分布式存儲、NoSQL、內(nèi)存存儲技術(shù)[3]。
分布式存儲通過網(wǎng)絡(luò)將分散的存儲資源構(gòu)成一個虛擬的存儲設(shè)備,實現(xiàn)數(shù)據(jù)的分散存儲,典型的如Hadoop平臺的分布式文件存儲系統(tǒng)(HDFS),主要優(yōu)勢體現(xiàn)在硬件成本低且節(jié)點可不斷擴展、通過冗余備份實現(xiàn)高容錯性。
NoSQL數(shù)據(jù)存儲不需要固定的表結(jié)構(gòu),存取上性能優(yōu)勢明顯,但和關(guān)系型數(shù)據(jù)庫也不存在連接操作;內(nèi)存存儲技術(shù)主要應用于對數(shù)據(jù)讀取、處理響應高的場景。
電費預測分析主要是通過用戶用電數(shù)據(jù)與用戶征信、企業(yè)經(jīng)營、外部環(huán)境進行關(guān)聯(lián)分析,同時對響應要求不高,存儲技術(shù)首選分布式存儲。
大數(shù)據(jù)預處理可以對采集到的原始數(shù)據(jù)進行清洗、填補、平滑、合并、規(guī)格化以及檢查一致性等,將那些雜亂無章的數(shù)據(jù)轉(zhuǎn)化為相對單一且便于處理的構(gòu)型,為后期的數(shù)據(jù)分析奠定基礎(chǔ)。數(shù)據(jù)預處理主要包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)規(guī)約等部分。
數(shù)據(jù)清理主要工具有ETL,實現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載;數(shù)據(jù)集成工具主要有Sqoop, Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,Sqoop專為大數(shù)據(jù)批量傳輸設(shè)計,能夠分割數(shù)據(jù)集并創(chuàng)建Hadoop任務來處理每個區(qū)塊。通過數(shù)據(jù)集成工具可將網(wǎng)絡(luò)上非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式統(tǒng)一存儲。
大規(guī)模數(shù)據(jù)的并行運算主要使用MapReduce方法,支持自動將一個作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個數(shù)據(jù)塊,每個數(shù)據(jù)塊對應于一個計算任務(Task),并自動調(diào)度計算節(jié)點(Map節(jié)點或Reduce節(jié)點)來處理相應的數(shù)據(jù)塊,同時負責監(jiān)控這些節(jié)點的執(zhí)行狀態(tài),并負責Map節(jié)點執(zhí)行的同步控制。
數(shù)據(jù)挖掘預測則是通過對歷史數(shù)據(jù)的輸入值和輸出值關(guān)聯(lián)性的學習,得到預測模型,再利用該模型對未來的輸入值進行輸出值預測。
一般地,可以通過機器學習方法建立預測模型。即假定事物的輸入、輸出之間存在一種函數(shù)關(guān)系y=f(x, β),其中β是待定參數(shù),x是輸入變量,則y=f(x, β)稱為學習機器。通過數(shù)據(jù)建模,由歷史數(shù)據(jù)學習得到參數(shù)β的取值,就確定了具體表達式y(tǒng)=f(x, β),這樣就可以對新的x預測y。
典型的機器學習方法包括:決策樹方法、人工神經(jīng)網(wǎng)絡(luò)、支持向量機、正則化方法。其他常見的預測方法還有近鄰法、樸素貝葉斯等。
電力企業(yè)電費風險預測主要是通過大數(shù)據(jù)技術(shù)實現(xiàn)對用電客戶信息的收集、風險識別、風險分析、風險預警,建立電費回收風險評價—風險控制—風險后評價的閉環(huán)管理體系。
(1)風險評價:通過全面收集客戶電費風險相關(guān)數(shù)據(jù),量化風險發(fā)生的可能性,對客戶電費回收風險進行評級,進行電費風險評估。
(2)風險控制:根據(jù)用電客戶風險評價體系的評價結(jié)果,根據(jù)風險程度高低采取差異化的電費回收措施[4]。
(3)風險后評價:對風險管理效果進行科學的評價,并生成相應的報表,同時對電費風險成惡化趨勢的用電客戶按照行業(yè)、區(qū)域、用電類別進行分析和評價,對相關(guān)聯(lián)用電客戶群體進行電費風險趨勢評估,在相關(guān)聯(lián)范圍內(nèi)進行相應的風險提示。
未來的電費風險預測主要依托于大數(shù)據(jù)技術(shù)實現(xiàn),通過用戶用電行為、客戶征信、企業(yè)經(jīng)營狀況、區(qū)域及宏觀經(jīng)濟環(huán)境,挖掘潛在的電費回收風險,為電網(wǎng)經(jīng)營管理提供實時多樣化的數(shù)據(jù),為公司的精益化管理提供支撐,從而提升企業(yè)經(jīng)濟效益。
[1]董運,孟飛.供電企業(yè)電費風險防范管理[J].中國工業(yè)年鑒,2014(01).
[2]姜力維.電費風險防范與清欠[M].中國電力出版社,2012.
[3]賴征田.電力大數(shù)據(jù)-能源互聯(lián)網(wǎng)時代的電力企業(yè)轉(zhuǎn)型與價值創(chuàng)造[M].機械工業(yè)出版社,2016.
[4]余長江,張海榮.探究電費大數(shù)據(jù)分析與風險預警[J].電腦知識與技術(shù),2016,11(33):23-23.
錢正浩(1982-),男,工程師,從事電力企業(yè)信息化建設(shè)工作。
吳廣財(1985-),男,工程師,從事電力企業(yè)信息化建設(shè)工作。