王 健,宋述停,蘭俊美,劉冰旖
(1.國網(wǎng)山西省電力公司信通分公司,太原030001;2.對外經(jīng)濟貿(mào)易大學(xué)國際商學(xué)院,北京100029;3.華大天元(北京)電力科技有限公司,北京102206)
近年來,大數(shù)據(jù)的相關(guān)研究得到世界各地及相關(guān)領(lǐng)域的高度重視。隨著電力行業(yè)信息化不斷深入,電力行業(yè)采集的數(shù)據(jù)種類和數(shù)量越來越多,除了實時動態(tài)監(jiān)控數(shù)據(jù)及用電信息的采集數(shù)據(jù)外,還有大量地理信息數(shù)據(jù)、氣象監(jiān)測數(shù)據(jù)等,同時電力行業(yè)對數(shù)據(jù)的安全性要求也越來越高。因此,如何在電力現(xiàn)有數(shù)據(jù)中挖掘有效信息并進行存儲分析、如何利用分析結(jié)果指導(dǎo)電力企業(yè)更好的運營都成為目前亟待解決的問題,電力行業(yè)成為一個典型的大數(shù)據(jù)行業(yè)。電力大數(shù)據(jù)會在電力行業(yè)的生產(chǎn)、運輸、銷售、運營、服務(wù)等方面帶來突破性的推進作用,可提升電力企業(yè)的精益化管理水平,促進電力行業(yè)的可持續(xù)發(fā)展。
在“十一五”期間,國家電網(wǎng)的SG186工程構(gòu)筑了公司一體化信息集成平臺,“十二五”期間構(gòu)筑了一體化企業(yè)資源計劃系統(tǒng)(SG-ERP)[1]。隨著國家智能電網(wǎng)建設(shè)的開展及“三集五大”管理體系的實施,電力企業(yè)對數(shù)據(jù)的管理、共享、交互、采集都提出了更高要求。電力大數(shù)據(jù)主要在電力的生產(chǎn)、使用、服務(wù)的過程中產(chǎn)生,伴隨著電網(wǎng)投資規(guī)模的不斷擴大、新技術(shù)的不斷產(chǎn)生、設(shè)備的更新更替,電力信息數(shù)據(jù)的范圍日益擴大。有必要運用高效、快捷的數(shù)據(jù)挖掘技術(shù),探索適用于電力行業(yè)數(shù)據(jù)特征的科學(xué)方法,對現(xiàn)有數(shù)據(jù)進行分析處理存儲。
目前,關(guān)于大數(shù)據(jù)的研究已經(jīng)涉及到各行各業(yè)。在數(shù)據(jù)處理方面,數(shù)據(jù)挖掘技術(shù)、存儲技術(shù)也不斷地更新完善,空間數(shù)據(jù)挖掘技術(shù)、時空數(shù)據(jù)挖掘技術(shù)、統(tǒng)一存儲系統(tǒng)(HUS,也稱多協(xié)議存儲系統(tǒng))等方面都成為研究熱點[2-3]。在大數(shù)據(jù)的應(yīng)用領(lǐng)域方面,地理信息系統(tǒng)(GIS)領(lǐng)域的相關(guān)軟件研究具有較多的研究成果,如面向交通網(wǎng)絡(luò)的TransCAD、面向電力網(wǎng)絡(luò)的Small World[4]等。但是關(guān)于電力大數(shù)據(jù)的研究成果較少,尤其在關(guān)于電力需求側(cè)方面。
全新的數(shù)據(jù)源和與眾不同的數(shù)據(jù)分析類型構(gòu)成了大數(shù)據(jù)。大數(shù)據(jù)的主要特征為:數(shù)據(jù)規(guī)模龐大而且快速增長、數(shù)據(jù)結(jié)構(gòu)豐富多樣、客戶對數(shù)據(jù)分析的要求較高。EMC(美國易安信公司)對大數(shù)據(jù)規(guī)模的界定條件為:規(guī)模為10 Tb左右、源自不同數(shù)據(jù)源的多個大型數(shù)據(jù)集組合在一起形成Pb級的數(shù)據(jù)量。
電力大數(shù)據(jù)通常指在電力生產(chǎn)和使用過程中產(chǎn)生,數(shù)據(jù)主要在電力行業(yè)的發(fā)、輸、配、變、用、售電、調(diào)度的各個環(huán)節(jié)產(chǎn)生。電力大數(shù)據(jù)有大數(shù)據(jù)的所有特征[5],概括為5 V(數(shù)量龐Volume、數(shù)據(jù)類型眾多Variety、數(shù)據(jù)處理速度快Velocity、數(shù)據(jù)準確Veracity、數(shù)據(jù)有價值Value)[6]。
1)數(shù)量龐大Volume 隨著智能電網(wǎng)的普及、服務(wù)質(zhì)量的升級,電力行業(yè)中采集的數(shù)據(jù)量越來越龐大并且呈現(xiàn)快速增長的模式。
2)數(shù)據(jù)類型眾多Variety 電力行業(yè)的數(shù)據(jù)除了傳統(tǒng)的負荷數(shù)據(jù)、變電站數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,近年來地理信息數(shù)據(jù)、資產(chǎn)管理信息、需求側(cè)用電設(shè)備類型等非結(jié)構(gòu)化信息也成為電力大數(shù)據(jù)的重要組成部分,針對這部分數(shù)據(jù)的研究成為未來的發(fā)展趨勢。
3)數(shù)據(jù)處理速度快Velocity 在電力生產(chǎn)、使用和銷售各個環(huán)節(jié),電力都需要時刻保持供需平衡,因此電力數(shù)據(jù)的處理速度都是實時的。
4)數(shù)據(jù)準確Veracity 電力行業(yè)需保證運行的安全性和可靠性,為了使后期的數(shù)據(jù)統(tǒng)計和決策能夠與社會發(fā)展水平相適應(yīng),電力的大數(shù)據(jù)應(yīng)具有很高準確性,能真實反應(yīng)社會的經(jīng)濟和生產(chǎn)水平。
5)數(shù)據(jù)有價值Value 電力大數(shù)據(jù)應(yīng)能準確反映行業(yè)的運營規(guī)律,能夠起到指導(dǎo)電力行業(yè)生產(chǎn)、幫助電力企業(yè)進行經(jīng)營管理的作用,達到更好地安排生產(chǎn)、節(jié)能減排的效果。
2.2.1 數(shù)據(jù)采集
數(shù)據(jù)采集是進行數(shù)據(jù)分析研究的基礎(chǔ)性工作,而數(shù)據(jù)采集的正確性、全面性、有效性與否會直接影響數(shù)據(jù)挖掘分析的可靠性。通過數(shù)據(jù)采集,可以將雜亂的數(shù)據(jù)收集起來,再轉(zhuǎn)變表達形式,為數(shù)據(jù)更好地共享、分析和可視提供必要前提。
電力需求側(cè)的數(shù)據(jù)特點決定了數(shù)據(jù)采集技術(shù)必須具有實時性、靈活性、全面性的特點。數(shù)據(jù)采集的對象應(yīng)為所有的需求側(cè)客戶;數(shù)據(jù)采集的范圍應(yīng)包括客戶類型、用電設(shè)備類型、用電量、交費信息等;數(shù)據(jù)采集的頻率應(yīng)該提高至6次/h或者更高水平。
2.2.2 數(shù)據(jù)傳輸
Pb級數(shù)據(jù)量的傳輸不僅要求數(shù)據(jù)傳輸過程的快捷,還應(yīng)保證數(shù)據(jù)的完整性和安全性。目前,堅強智能電網(wǎng)的建設(shè)恰恰為數(shù)據(jù)的傳輸提供了可靠的平臺。
智能電網(wǎng)中主要發(fā)展的通信建設(shè)設(shè)施可以成為大數(shù)據(jù)傳輸?shù)闹饕ǖ?。電網(wǎng)的光纖信道和無線寬帶不僅能成為各種業(yè)務(wù)接入網(wǎng)的重要方式,也會成為大數(shù)據(jù)傳輸?shù)挠辛ΡU稀?/p>
2.2.3 數(shù)據(jù)存儲
越來越多的數(shù)據(jù)量和數(shù)據(jù)格式增大了企業(yè)數(shù)據(jù)管理的難度。要滿足企業(yè)利用數(shù)據(jù)和信息創(chuàng)造價值的需求,就必須要求企業(yè)能夠有合理的數(shù)據(jù)存儲方式。
傳統(tǒng)的存儲方式已經(jīng)滿足不了大數(shù)據(jù)容量的存儲要求[7-9],大量的數(shù)據(jù)需要在存儲的過程中選擇合適的處理方式,減少數(shù)據(jù)量的同時達到數(shù)據(jù)保真的效果,可采用的技術(shù)有云存儲、數(shù)據(jù)消冗技術(shù)、數(shù)據(jù)壓縮技術(shù)等。
2.2.4 數(shù)據(jù)挖掘分析
大數(shù)據(jù)挖掘分析同現(xiàn)有的數(shù)據(jù)分析工作最大的區(qū)別就是在于海量的數(shù)據(jù)當(dāng)中分析所有數(shù)據(jù)的特征,不再用樣本代表總體,而是直接對總體展開分析,提取其中隱含的、潛在的可用信息和知識。有可能在通過大量的分析后得到的可用知識量和信息量有限,但是這些少量的信息帶來的價值卻極高。
因此,開展數(shù)據(jù)挖掘工作首先要明確數(shù)據(jù)挖掘的目的,對開展的業(yè)務(wù)有深入的了解;其次要對存儲的原始數(shù)據(jù)進行組織、清理、整合、變換等過程,然后依據(jù)現(xiàn)有的數(shù)據(jù)挖掘研究成果,選用合適的數(shù)據(jù)挖掘算法、工具和模型,得出具有指導(dǎo)意義的挖掘分析結(jié)果。不論是在對結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù)的處理過程中,都要用到最基本的統(tǒng)計分析、關(guān)聯(lián)分析、聚類、機器學(xué)習(xí)、模型仿真等傳統(tǒng)分析技術(shù)。大數(shù)據(jù)時代的到來,使得需要處理的樣本數(shù)量和類型迅速增加,催生了諸如hadoop這一類的云計算處理技術(shù)[10-11]。
針對電力需求側(cè)的特征,建立大數(shù)據(jù)應(yīng)用模型如圖1所示。
1)電力需求側(cè)具有數(shù)據(jù)量大、數(shù)據(jù)種類繁多、更新速度快的特征。確定合適的數(shù)據(jù)收集對象,鎖定客戶購電量、新裝、新增及變更用電數(shù)據(jù)、用電設(shè)備及類型、95598客戶服務(wù)數(shù)據(jù)、客戶檔案資料這幾項作為數(shù)據(jù)采集的數(shù)據(jù)源,開展對電力需求側(cè)的用電分析工作,能夠全面地反應(yīng)需求側(cè)的用電類型及用電習(xí)慣,使得分析的結(jié)果更加科學(xué)合理有效。
2)通過傳統(tǒng)數(shù)據(jù)采集方法與新型數(shù)據(jù)采集方法相結(jié)合的形式,主要采集手段有智能電表、無線采集系統(tǒng)、抄表計費手段、問卷調(diào)查、檔案查詢、視頻手機等。通過這些采集手段能采集到不同需求側(cè)的用電數(shù)據(jù),為后面的數(shù)據(jù)分析提供合理的數(shù)據(jù)來源。
3)將采集到的數(shù)據(jù)和一些國家政策法規(guī)、經(jīng)濟發(fā)展形勢等外部環(huán)境影響因素結(jié)合在一起,并通過高效的傳輸手段上傳至服務(wù)端,通過數(shù)據(jù)壓縮、消除冗余、云存儲等方式得到規(guī)范化的數(shù)據(jù),并進行儲存。
4)一般情況下系統(tǒng)存儲的數(shù)據(jù)較多,首先要進行數(shù)據(jù)預(yù)處理,剔除錯誤的、對研究目的無用的數(shù)據(jù)。同時,需要把握好目前的信息系統(tǒng),在統(tǒng)一的數(shù)據(jù)收集、處理、整合框架下采取傳統(tǒng)分析技術(shù)和云計算相結(jié)合的方式,得到形式多樣、內(nèi)容豐富的分析結(jié)果,如報表、視頻、圖形、報告等。
5)得出的分析結(jié)果在存入存儲系統(tǒng)的同時還能作為模型前端的有效反饋,在電價指導(dǎo)方面、需求側(cè)用電控制、電力生產(chǎn)調(diào)度、用電服務(wù)質(zhì)量提升方面都具有很好的指導(dǎo)作用,為以后的模型應(yīng)用提供參考意見。
電力需求側(cè)大數(shù)據(jù)應(yīng)用模型的建立在數(shù)據(jù)采集過程中規(guī)范并且拓寬了數(shù)據(jù)采集的手段,在數(shù)據(jù)傳輸中充分運用智能電網(wǎng)的通信網(wǎng)絡(luò),在數(shù)據(jù)挖掘中利用先進的挖掘手段最終得出科學(xué)合理的數(shù)據(jù)分析結(jié)果。
圖1 電力需求側(cè)大數(shù)據(jù)應(yīng)用模型
1)提升電網(wǎng)企業(yè)的數(shù)據(jù)處理能力,有效應(yīng)對大數(shù)據(jù)的發(fā)展趨勢 在電力需求側(cè)大數(shù)據(jù)應(yīng)用模型中,提出了數(shù)量大、規(guī)范化的數(shù)據(jù)規(guī)范,對以后的數(shù)據(jù)收集整理工作提出了更好的規(guī)范保證。同時,結(jié)合最前沿的數(shù)據(jù)挖掘分析技術(shù),提升電網(wǎng)企業(yè)的數(shù)據(jù)處理水平。
2)順應(yīng)數(shù)據(jù)發(fā)展趨勢,提升電網(wǎng)信息價值隨著電力行業(yè)信息化的普及,越來越多的數(shù)據(jù)在電力的生產(chǎn)、輸送、配送、使用中產(chǎn)生,在模型中充分應(yīng)用智能電網(wǎng)的發(fā)展成果,提升數(shù)據(jù)通信水平以及電網(wǎng)的整體價值。
3)從用電需求側(cè)數(shù)據(jù)出發(fā),構(gòu)建電力企業(yè)的整體運維數(shù)據(jù)系統(tǒng) 應(yīng)用模型從需求側(cè)的數(shù)據(jù)采集入手,經(jīng)過數(shù)據(jù)處理后進行客戶細分,探尋客戶的用電行為、發(fā)現(xiàn)客戶的主要耗電設(shè)備。根據(jù)這些分析結(jié)果可以制定年度、月度、周度、日度的電力生產(chǎn)調(diào)度計劃;制定具有區(qū)分性、引導(dǎo)性的電價,鼓勵客戶更加科學(xué)、節(jié)能的用電習(xí)慣;還可以通過分析提供高附加值的增值服務(wù)。通過這些服務(wù)加強電網(wǎng)安全檢測與控制,實現(xiàn)電力企業(yè)的精細化運營管理和科學(xué)的需求側(cè)管理。另外,此模型還可以通過改進應(yīng)用到電力企業(yè)的電力生產(chǎn)、物聯(lián)網(wǎng)構(gòu)建、協(xié)同辦公等方面,最終構(gòu)建統(tǒng)一的、具有大數(shù)據(jù)特征的電力企業(yè)信息化系統(tǒng)。
電力需求側(cè)管理作為電力企業(yè)現(xiàn)代化管理中非常重要的一方面,加強需求側(cè)管理不僅對于建設(shè)資源節(jié)約型社會具有重要意義,同時也對提升電力企業(yè)的管理水平、保證設(shè)備的正常運行具有不可缺少的作用。
雖然大數(shù)據(jù)在電網(wǎng)的發(fā)展中仍處于發(fā)展的初級階段,但是大數(shù)據(jù)在各行各業(yè)的應(yīng)用中都已經(jīng)展示出了巨大價值。本文提出了適應(yīng)電網(wǎng)需求側(cè)大數(shù)據(jù)發(fā)展趨勢的應(yīng)用模型,有助于提高電力企業(yè)的需求側(cè)管理水平。
[1] 李皎.大數(shù)據(jù)時代到來對電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82-83.
[2] 趙彬彬,李光強,鄧敏.時空數(shù)據(jù)挖掘綜述[J].測繪科學(xué),2010,35(2):62-65.
[3] 陳捷,唐世渭,楊冬青.面向移動環(huán)境的時空數(shù)據(jù)挖掘研究現(xiàn)狀與展望[J].計算機工程與應(yīng)用,2002,38(16):1-3.
[4] 張林廣.大數(shù)據(jù)量GIS網(wǎng)絡(luò)分析算法的實現(xiàn)和優(yōu)化研究[D].中國科學(xué)院研究生院,2006.
[5] 王繼業(yè).大數(shù)據(jù)與電力企業(yè)[J].電力信息化,2012,10(8):7.
[6] 閆龍川,李雅西,李斌臣,等.電力大數(shù)據(jù)面臨的機遇與挑戰(zhàn)[J].電力信息化,2013,11(4):1-3.
[7] 邢晶,熊勁,孫凝暉,馬捷.一種支持EB級存儲的可擴展存儲空間管理方法[J].計算機研究與發(fā)展,2013,50(8):1573-1582.
[8] 彭成,王樹鵬,賈志凱.基于糾刪碼的數(shù)據(jù)消冗存儲系統(tǒng)可靠性增強研究[J].計算機研究與發(fā)展,2011,48(z1):1-6.
[9] 吳非.“云存儲”助力構(gòu)建海關(guān)報關(guān)單證電子檔案庫——基于OpenStack對象存儲技術(shù)的集群存儲系統(tǒng)的設(shè)計和實現(xiàn)[J].上海海關(guān)學(xué)院學(xué)報,2013,34(1):109-115.
[10]鄧自立.云計算中的網(wǎng)絡(luò)拓撲設(shè)計和Hadoop平臺研究[D].中國科學(xué)技術(shù)大學(xué),2009.
[11]陳康,鄭緯民.云計算:系統(tǒng)實例與研究現(xiàn)狀[J].軟件學(xué)報,2009,20(5):1337-1348.