葛磊蛟 王守相 王 堯 郭乃網(wǎng)
(1.天津大學(xué)電氣與自動化工程學(xué)院 天津 300072 2.河北工業(yè)大學(xué)電氣工程學(xué)院 天津 300055 3.國網(wǎng)上海市電力公司 上海 200122)
隨著智能電網(wǎng)建設(shè)的推進(jìn),智能配用電的快速建模、仿真等高級應(yīng)用技術(shù)[1]以及云計算、互聯(lián)網(wǎng)技術(shù)等在電力系統(tǒng)中得到了越來越多的應(yīng)用。這些新興技術(shù)的應(yīng)用需要大量基礎(chǔ)的輸入數(shù)據(jù),與傳統(tǒng)的配電網(wǎng)潮流計算、短路計算等穩(wěn)態(tài)分析相比,數(shù)據(jù)形式從一個時間斷面變成一段時間(一天、一月、一年乃至多年)的整體數(shù)據(jù)或者辦公文檔、文本、圖片、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)已無法滿足其實際運算需求。同時,智能配用電采集的數(shù)據(jù)不僅采集頻率大幅增強(qiáng),而且采集類型呈多樣化。一方面,常規(guī)的配電管理系統(tǒng)、地理信息系統(tǒng)(Geographic Information System,GIS)、配電 SCADA系統(tǒng)、用電信息采集系統(tǒng)、95598等配用電相關(guān)的系統(tǒng)采集運行配用電管理、計量計費等結(jié)構(gòu)化數(shù)據(jù),使得網(wǎng)省公司年數(shù)據(jù)量達(dá)到TB級,甚至 PB級,從存儲的經(jīng)濟(jì)性角度考慮需要應(yīng)用大數(shù)據(jù)存儲管理技術(shù);另一方面,電力客戶的文本信息、視頻數(shù)據(jù)、圖片數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù),能夠更加客觀清晰地表達(dá)用戶信息,是大數(shù)據(jù)技術(shù)分析的重要基礎(chǔ)數(shù)據(jù),如果依然按照配用電相關(guān)的各個應(yīng)用系統(tǒng)分別采集-傳輸-集中存儲的方式,將使數(shù)據(jù)冗余大、重復(fù)存儲多、系統(tǒng)資源利用率低等問題更加突出,并且主流關(guān)系型數(shù)據(jù)庫一般不支持非結(jié)構(gòu)數(shù)據(jù)的存儲。
近年來,國內(nèi)外針對非結(jié)構(gòu)化數(shù)據(jù)的管理已開展了很多研究。文獻(xiàn)[2]提出通過元數(shù)據(jù)管理、統(tǒng)一數(shù)據(jù)接口、異構(gòu)存儲以及數(shù)據(jù)的高可用性與一致性等數(shù)據(jù)標(biāo)準(zhǔn)化流程,設(shè)計一種異構(gòu)存儲設(shè)施的選擇機(jī)制,完成了非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存儲管理平臺的構(gòu)建。文獻(xiàn)[3]從非結(jié)構(gòu)化數(shù)據(jù)的特征提取方法、分布式索引方法和局部索引的分片策略三方面介紹了非結(jié)構(gòu)化數(shù)據(jù)的分布式分析和索引方法。
國內(nèi)外學(xué)者針對大數(shù)據(jù)技術(shù)以及相關(guān)算法在電力系統(tǒng)和相關(guān)行業(yè)中的應(yīng)用也開展了一些相關(guān)研究。文獻(xiàn)[4]提出一種基于云計算技術(shù)的電力大數(shù)據(jù)屬性預(yù)處理簡約方法。文獻(xiàn)[5]提出一種面向大電網(wǎng)多級調(diào)度管理一體化的融合型搜索引擎設(shè)計方法,實現(xiàn)了分布式環(huán)境下的異構(gòu)數(shù)據(jù)資源整合。文獻(xiàn)[6]在智能調(diào)度系統(tǒng)方面提出了一種基于云架構(gòu)的無損集壓縮新方法。文獻(xiàn)[7]提出利用 Hadoop云平臺的改進(jìn)方案,解決了智能電網(wǎng)海量數(shù)據(jù)存儲中節(jié)點狀態(tài)信息缺失、系統(tǒng)負(fù)載不均、存儲效率下降等諸多瓶頸問題,提升了計算機(jī)存儲性能。文獻(xiàn)[8]提出利用 Hadoop云平臺對人類的購物、醫(yī)療、日常交談和視頻分享等方面信息進(jìn)行大數(shù)據(jù)分析,并提出一種復(fù)合回話的新方法,提高了大數(shù)據(jù)分析的速度。
當(dāng)前國內(nèi)外對云計算技術(shù)[9-14]、Hadoop[15-18]以及智能電網(wǎng)的大數(shù)據(jù)應(yīng)用方面都有研究[19-27],但是對作為大數(shù)據(jù)分析基礎(chǔ)的多源異構(gòu)配用電數(shù)據(jù)的存儲處理技術(shù)方面涉及不多。本文針對智能配用電數(shù)據(jù)具有海量、結(jié)構(gòu)化與非結(jié)構(gòu)化混雜、多源異構(gòu)等特點,從資源層、存儲層和查詢層三方面闡述了基于 Hadoop技術(shù)的智能配用電數(shù)據(jù)存儲處理技術(shù)框架設(shè)計方案,為配用電大數(shù)據(jù)的應(yīng)用奠定了良好的基礎(chǔ)。
在國家實施區(qū)域能耗總量控制的背景下,智能配用電成為電力行業(yè)中實現(xiàn)電網(wǎng)資源優(yōu)化配置、電能合理利用、節(jié)能降耗和能效提升的重要手段。由于智能配用電涉及政府、企業(yè)、商業(yè)用戶與居民用戶等眾多市場參與主體,含有量大面廣的電力設(shè)備和應(yīng)用系統(tǒng),為了支撐這些設(shè)備和系統(tǒng)的正常運行,保障相關(guān)電力業(yè)務(wù)的開展,必然涉及對多途徑、多類型的輸入、輸出海量數(shù)據(jù)的處理[28-33]。
智能配用電涉及的海量數(shù)據(jù)根據(jù)其所屬用戶性質(zhì),主要分為電網(wǎng)企業(yè)、電力用戶、政府及第三方機(jī)構(gòu)三個方面分別對應(yīng)的電網(wǎng)數(shù)據(jù)、用戶數(shù)據(jù)和社會數(shù)據(jù)。這些數(shù)據(jù)一般以信息集成化平臺的方式呈現(xiàn),如圖1所示。其中,電網(wǎng)企業(yè)數(shù)據(jù)主要包括配電自動化、GIS、SCADA、用電信息采集系統(tǒng)、客戶營銷服務(wù)系統(tǒng)、用戶用能管理系統(tǒng)以及95598等各個業(yè)務(wù)部室所需的電網(wǎng)數(shù)據(jù);電力用戶數(shù)據(jù)主要包括分布式電源 EMS、微電網(wǎng) MG-EMS、家庭HEMS、樓宇BEMS、企業(yè)EMS等用戶數(shù)據(jù);政府及第三方機(jī)構(gòu)數(shù)據(jù)主要包括氣象監(jiān)測系統(tǒng)、能耗監(jiān)管系統(tǒng)、智慧城市監(jiān)控系統(tǒng)、能源公共服務(wù)平臺等社會數(shù)據(jù)。
圖1 智能配用電數(shù)據(jù)組成Fig.1 Data components of smart power distribution and utilization
智能配用電各參與主體由于所聚焦的業(yè)務(wù)重心和關(guān)注重點不完全一致而存在信息異構(gòu),不僅包括硬件異構(gòu),即國-網(wǎng)-省-市-縣多級電網(wǎng)企業(yè)分布式配置的大型服務(wù)器、單片機(jī)、普通 PC等不同層次、品牌、性能配置混雜的硬件資源;也包括軟件異構(gòu),主要有Linux、Windows等不同操作系統(tǒng),Oracle、SQL Service、MySQL等不同數(shù)據(jù)庫以及多參與主體根據(jù)業(yè)務(wù)所需所設(shè)計的應(yīng)用平臺[34,35]。智能配用電在數(shù)據(jù)異構(gòu)方面呈現(xiàn)如下特點。
(1)設(shè)計風(fēng)格異構(gòu)。作為智能配用電建設(shè)與運營的電網(wǎng)企業(yè)一般從售電、電網(wǎng)安全和經(jīng)濟(jì)等角度,重點關(guān)注電網(wǎng)的計費計量(累計有功電量、累計無功電量、功率因數(shù)等)、客戶的用能習(xí)慣分析(負(fù)荷總量、電網(wǎng)總用電量等)、配電網(wǎng)的調(diào)度管理(電壓、電流、頻率等)、電能服務(wù)質(zhì)量(用戶總量、滿意度等)等方面的數(shù)據(jù);作為電能供應(yīng)服務(wù)使用者的電力用戶從經(jīng)濟(jì)性、舒適性出發(fā),重點關(guān)心當(dāng)前的能源消耗量(日、月、年用電量等)、成本(月電費、年電費等)等數(shù)據(jù);作為監(jiān)管和服務(wù)部門的政府及第三方機(jī)構(gòu)則從全社會能耗分布、能源和氣候關(guān)系等方面,聚焦于能耗總量(總電量、總用水量、總用油量等)、節(jié)能減排(標(biāo)煤總量、CO2總排放量等)等數(shù)據(jù)。于是,不同主體根據(jù)自身業(yè)務(wù)需求出發(fā),設(shè)計了不同結(jié)構(gòu)的數(shù)據(jù)庫、表、字段。若同一數(shù)據(jù)在電力企業(yè)、電力用戶、政府及第三方機(jī)構(gòu)之間進(jìn)行數(shù)據(jù)對接,需要大量的數(shù)據(jù)轉(zhuǎn)換和解析工作。
(2)存儲方式異構(gòu)。智能配用電涉及的電網(wǎng)企業(yè)、電力用戶、政府及第三方結(jié)構(gòu)等多方主體均各自具有多個應(yīng)用系統(tǒng)。在單一主體內(nèi)部的多個應(yīng)用系統(tǒng)之間不僅所選擇的數(shù)據(jù)存儲軟、硬件平臺不同,而且數(shù)據(jù)重復(fù)采集和存儲,即使近年來數(shù)據(jù)總線技術(shù)、共享內(nèi)存技術(shù)等得到較好的應(yīng)用,但是數(shù)據(jù)的冗余依然較大;在主體與主體之間的數(shù)據(jù)存儲由于涉及數(shù)據(jù)隱私、組織管理、經(jīng)濟(jì)能力等諸多方面,所選用的存儲形式有直接附加存儲、網(wǎng)絡(luò)附加存儲、存儲域網(wǎng)絡(luò)等多種形式,存在較大的兼容性方面的實際問題。
(3)結(jié)構(gòu)化與非結(jié)構(gòu)化共存。智能配電網(wǎng)相關(guān)的傳統(tǒng)業(yè)務(wù)涉及狀態(tài)估計、潮流計算、短路計算等穩(wěn)態(tài)分析,主要由結(jié)構(gòu)化數(shù)據(jù)支撐。隨著分布式電源、微電網(wǎng)、電動汽車接入智能配電網(wǎng)以及電網(wǎng)與用戶的雙向互動化、區(qū)域負(fù)荷預(yù)測、第三方機(jī)構(gòu)的客戶在線認(rèn)證、客戶日志信息分析等高級應(yīng)用業(yè)務(wù)分析的發(fā)展,智能配用電的基礎(chǔ)分析數(shù)據(jù)包含了越來越多的文本、視頻、聲音等非結(jié)構(gòu)化數(shù)據(jù)。這形成了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)共存的情形。
智能配用電數(shù)據(jù)具有海量、數(shù)據(jù)更新速度極快、分布地域廣泛等特點。當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)管理技術(shù)、大數(shù)據(jù)存儲和分析技術(shù)均處于研究階段,數(shù)據(jù)挖掘分析技術(shù)手段還不夠完善、大數(shù)據(jù)快速分析算法還不夠成熟。而當(dāng)前硬盤、磁盤陣列等IT信息存儲物理設(shè)備在緩存容量、硬盤容量和處理器速度以及性價比、異構(gòu)兼容性等方面也正處在發(fā)展之中。因此,構(gòu)建一種快速有效的智能配用電數(shù)據(jù)存儲管理解決方案是十分必要的。
智能配用電數(shù)據(jù)一方面具有用戶種類復(fù)雜、點多面廣、類型多樣、海量、難以快速發(fā)現(xiàn)有價值信息和規(guī)律性等特點,另一方面具有很多內(nèi)在的規(guī)律,符合大數(shù)據(jù)的信息特征,具備很大的挖掘空間。如果能夠合理利用有效的大數(shù)據(jù)分析工具對用戶的日志信息(視頻、音頻、文本等)、用電習(xí)慣、用能特性進(jìn)行分析,對區(qū)域范圍內(nèi)的能源需求進(jìn)行有效預(yù)測和預(yù)判,可為未來營銷業(yè)務(wù)的拓展提供新思路和新途徑。
為此,將結(jié)構(gòu)化和非結(jié)構(gòu)化混合組成的智能配用電數(shù)據(jù)按照資源、存儲和查詢等三個層級設(shè)計對其進(jìn)行管理,如圖2所示。其中,資源層主要實現(xiàn)智能配用電大數(shù)據(jù)計算資源的虛擬化、標(biāo)準(zhǔn)化和負(fù)載均衡;存儲層實現(xiàn)大數(shù)據(jù)的快速存儲管理;查詢層實現(xiàn)海量數(shù)據(jù)的快速檢索。下面將逐一進(jìn)行詳細(xì)闡述。
圖2 智能配用電數(shù)據(jù)存儲技術(shù)架構(gòu)Fig.2 Architecture of data storage technology of smart power distribution and utilization
智能配用電數(shù)據(jù)存儲技術(shù)的資源層是技術(shù)平臺的基礎(chǔ),該層選用 Hadoop集群技術(shù),結(jié)合電力系統(tǒng)的資源特性和負(fù)載均衡優(yōu)化策略,完成存儲資源管理。其工作原理是:首先,基于分布式的主從式技術(shù)將智能配用電中的服務(wù)器、PC、移動終端和瘦終端等硬件資源虛擬化,在這些硬件平臺上構(gòu)建Master/Slave集群的邏輯結(jié)構(gòu),為Hadoop分布式平臺的搭建提供支撐;其次,通過 Hadoop技術(shù)中的HDFS(hadoop distributed file system)和 MapReduce完成智能配用電數(shù)據(jù)存儲調(diào)度和管理;最后,通過資源層的優(yōu)化調(diào)度方法,實現(xiàn)電力系統(tǒng)智能配用電的IT資源高效利用,如圖3所示。
圖3 智能配用電數(shù)據(jù)存儲資源層框架Fig.3 Research layer architecture of data storage technology of smart power distribution and utilization
Hadoop是目前百度、新浪、Amazon、Facebook、淘寶等國際國內(nèi)大型 IT企業(yè)最為廣泛應(yīng)用的開源云計算軟件平臺之一;由 Common、HDFS和MapReduc三部分構(gòu)成,支持在大量廉價異構(gòu)的IT硬件設(shè)備組成的計算機(jī)集群上運行大型數(shù)據(jù)庫應(yīng)用程序的開源分布式 Maser/Slave計算框架。其中,Common的發(fā)展經(jīng)歷了兩個階段,第一階段是Hadoop 0.20及以前版本,主要包含 HDFS、MapReduce和其他項目的所有公共內(nèi)容;第二階段是從0.21版本開始,由于 HDFS和 MapReduce全部成為獨立項目,則HDFS和MapReduce以外的所有公共內(nèi)容均為Hadoop Common。
1)HDFS
HDFS是一個針對 PB級大數(shù)據(jù)存儲和管理的分布式文件系統(tǒng),類似Google的GFS(google file system),能夠管理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),采用典型的Master/Slave結(jié)構(gòu),其 Master/Slave調(diào)度管理分別對應(yīng)NameNode/DataNodes進(jìn)程。
其工作方式為運行于Master節(jié)點的Namenode進(jìn)程對智能配用電 IT資源虛擬化后的元數(shù)據(jù)(FSImage信息和 EditLog信息)進(jìn)行管理;運行于Slave節(jié)點上的DataNodes進(jìn)程,將智能配用電的任意一個大文件按照缺省的64M 數(shù)據(jù)塊進(jìn)行分割,并存儲在分區(qū)分層的多個不同數(shù)據(jù)Slave節(jié)點上。
2)MapReduce
MapReduce是一種大規(guī)模 PB級別的典型Master/Slave數(shù)據(jù)處理計算模型,其Master/Slave分別對應(yīng) JobTracker/TaskTrackers進(jìn)程,且每一個JobTacker和TaskTrackers進(jìn)程均含有Map和Reduceh函數(shù)。
其工作原理是 Map函數(shù)負(fù)責(zé)將智能配用電數(shù)據(jù)打散,Reduce函數(shù)負(fù)責(zé)將數(shù)據(jù)合并,即由用戶定義的Map函數(shù)負(fù)責(zé)將數(shù)據(jù)打散從而形成一個
在充分利用網(wǎng)省公司現(xiàn)有的配電自動化主站、GIS主站、用電信息采集系統(tǒng)主站等數(shù)據(jù)中心軟硬件IT資源前提條件下,以現(xiàn)有的配電自動化主站平臺構(gòu)建智能配用電的大數(shù)據(jù)資源層的主節(jié)點,由于企業(yè)內(nèi)外網(wǎng)的關(guān)系,分別配置企業(yè)內(nèi)網(wǎng)Master節(jié)點和外網(wǎng)Master節(jié)點,且均配置有互為備用的冗余熱備用節(jié)點;其中,內(nèi)網(wǎng)Master節(jié)點負(fù)責(zé)內(nèi)網(wǎng)的資源調(diào)度管理,外網(wǎng)Master節(jié)點負(fù)責(zé)外網(wǎng)的資源調(diào)度管理;其他網(wǎng)省公司應(yīng)用平臺均作為從節(jié)點,并將空閑的辦公、區(qū)/市/縣配用電相關(guān)的前置子系統(tǒng)以及電網(wǎng)企業(yè)外網(wǎng)的政府與第三方機(jī)構(gòu)、電力用戶等的IT資源,也作為資源層的從節(jié)點,利用電力業(yè)務(wù)所構(gòu)建的光纖、以太網(wǎng)、無線GPRS網(wǎng)、微功率230MHz無線等網(wǎng)絡(luò)作為連接紐帶,與用戶、第三機(jī)構(gòu)進(jìn)行友好互聯(lián)互通,從而組成一個多源異構(gòu)的智能配用電大數(shù)據(jù)中心集群。
為有效提升集群的計算層每一臺設(shè)備運行性能,進(jìn)行靜態(tài)和動態(tài)相結(jié)合的負(fù)載均衡優(yōu)化調(diào)度策略,如圖4所示。電網(wǎng)企業(yè)內(nèi)網(wǎng),由內(nèi)網(wǎng)Master節(jié)點負(fù)責(zé)調(diào)度管理,采用靜態(tài)負(fù)載均衡優(yōu)化調(diào)度策略,即帶權(quán)重的輪循算法。圖4中,小圓圈內(nèi)的數(shù)字代表每一個 Slave節(jié)點所占的缺省權(quán)重系數(shù),依次循環(huán)利用內(nèi)網(wǎng)的IT資源;在電網(wǎng)企業(yè)外部網(wǎng),由外網(wǎng)Master節(jié)點負(fù)責(zé)調(diào)度管理,采用動態(tài)負(fù)載均衡優(yōu)化調(diào)度策略,即最快響應(yīng)速度算法。圖4中,小橢圓內(nèi)的數(shù)字代表每一個Slave節(jié)點所缺省的響應(yīng)時間,根據(jù)時間的長短,依次利用外網(wǎng)的IT資源。
圖4 智能配用電數(shù)據(jù)存儲資源層負(fù)載均衡優(yōu)化調(diào)度策略Fig.4 Optimization scheduling strategy for resource layer of data storage technology of smart power distribution and utilization
智能配用電數(shù)據(jù)存儲技術(shù)的存儲層是實現(xiàn)數(shù)據(jù)存儲輸入的標(biāo)準(zhǔn)化和分布式存儲,主要由數(shù)據(jù)預(yù)處理和 NoSQL兩部分構(gòu)成。其中,數(shù)據(jù)預(yù)處理主要負(fù)責(zé)將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)統(tǒng)一為標(biāo)準(zhǔn)化XML格式,為數(shù)據(jù)的存儲和檢索提供基礎(chǔ)條件;NoSQL則是對數(shù)據(jù)進(jìn)行實際的分布式存儲。
智能配用電的數(shù)據(jù)有以下幾個特點:①視頻、音頻、文本等非結(jié)構(gòu)化數(shù)據(jù)格式不同,存儲空間范圍和元數(shù)據(jù)的內(nèi)存劃分尺度不同;②相同數(shù)據(jù)格式的結(jié)構(gòu)化數(shù)據(jù),不同用戶的數(shù)據(jù)容量大小和屬性不同;③不同數(shù)據(jù)格式和不同數(shù)據(jù)屬性組成混合文件屬性。如此多樣性的數(shù)據(jù),給數(shù)據(jù)存儲、分析和檢索均帶來諸多不便,因此進(jìn)行數(shù)據(jù)預(yù)處理使所有的基礎(chǔ)數(shù)據(jù)成為標(biāo)準(zhǔn)化系統(tǒng)可識別數(shù)據(jù)是存儲設(shè)計的第一步。
多源異構(gòu)的智能配用電數(shù)據(jù)預(yù)處理策略是:結(jié)構(gòu)化數(shù)據(jù)由于異構(gòu)性相對簡單,預(yù)處理主要包括數(shù)據(jù)變換和數(shù)據(jù)歸一化兩部分;而非結(jié)構(gòu)化數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)的清洗、選樣、變換和歸一化四部分,最終實現(xiàn)將結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)以XML(extensible markup language)格式存入實際數(shù)據(jù)所在的Slave節(jié)點中,從而完成數(shù)據(jù)預(yù)處理工作。預(yù)處理過程如圖5所示,其中,XML是一種用于標(biāo)記電子文件使其具有結(jié)構(gòu)化的標(biāo)記語言,用來標(biāo)記數(shù)據(jù)、定義數(shù)據(jù)類型,提供統(tǒng)一的方法來描述和交換獨立于應(yīng)用程序或供應(yīng)商的結(jié)構(gòu)化數(shù)據(jù);XML非常適合萬維網(wǎng)傳輸,易于通過HTTP協(xié)議傳輸,并支持標(biāo)準(zhǔn)的DOM、SAX、XSLT、Xpath等 API接口[36,37]。
智能配用電數(shù)據(jù)通過數(shù)據(jù)預(yù)處理后,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)形成統(tǒng)一標(biāo)準(zhǔn) XML格式,為數(shù)據(jù)處理提供了基礎(chǔ)。然后利用基于 Hadoop平臺通過 NoSQL技術(shù)對智能配用電數(shù)據(jù)進(jìn)行實際分布式存儲。
智能配用電數(shù)據(jù)存儲技術(shù)的存儲層經(jīng)過數(shù)據(jù)預(yù)處理后,實現(xiàn)了元數(shù)據(jù)全部以 XML格式存儲于實際數(shù)據(jù)所在的Slave節(jié)點中,故其實際數(shù)據(jù)在NoSQL上分配的存儲策略為:①數(shù)據(jù)主節(jié)點依據(jù)內(nèi)外網(wǎng)原則,進(jìn)行冗余熱備用;②電網(wǎng)企業(yè)內(nèi)、外網(wǎng)的數(shù)據(jù)完全隔離存儲,即電網(wǎng)企業(yè)內(nèi)部數(shù)據(jù)僅僅存儲于電網(wǎng)內(nèi)部的IT資源,外網(wǎng)數(shù)據(jù)存儲在相應(yīng)的單位IT資源中;③將配電自動化、GIS、SCADA、用電信息采集系統(tǒng)、客戶營銷服務(wù)系統(tǒng)、用戶用能管理系統(tǒng)以及95598等內(nèi)網(wǎng)數(shù)據(jù)按照業(yè)務(wù)部室屬性進(jìn)行分類,即電網(wǎng)內(nèi)部數(shù)據(jù)分為低壓配電、用電、營銷、客服等,分別進(jìn)行數(shù)據(jù)的分類存儲,電網(wǎng)企業(yè)外部數(shù)據(jù)依據(jù)政府、第三方機(jī)構(gòu)、電力用戶等不同對象分別進(jìn)行分類存儲;④最小路徑分配存儲策略,即以 NoSQL中主節(jié)點為出發(fā)點,先從元數(shù)據(jù)中查詢所屬類別的對應(yīng) XML數(shù)據(jù)表,然后從元數(shù)據(jù)XML表中分配足夠的存儲空間給原始數(shù)據(jù),若同類元數(shù)據(jù) XML表中剩余存儲空間不足時,以相鄰最近為原則以續(xù)存方式給原始數(shù)據(jù)分配所缺額的存儲空間,最后依據(jù)XML存儲分配信息尋找距離Slave節(jié)點路徑最近的對應(yīng)空閑 IT資源進(jìn)行優(yōu)先分配存儲,如圖6所示。
圖6 數(shù)據(jù)快速存儲優(yōu)化策略Fig.6 Fast storage optimization strategy for data
智能配用電數(shù)據(jù)存儲技術(shù)的查詢層主要實現(xiàn)智能配用電數(shù)據(jù)的快速數(shù)據(jù)檢索。數(shù)據(jù)檢索是指將經(jīng)過選擇、整理和評價的數(shù)據(jù)存入某些存儲設(shè)備載體或者管理系統(tǒng)中后,根據(jù)用戶需要或者設(shè)定的關(guān)鍵字從某些數(shù)據(jù)集合中檢索所需數(shù)據(jù)的過程或技術(shù)。
含有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型的智能配用電數(shù)據(jù),其主要查詢原則是:①類型不同,采用的查詢策略不同;②針對傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),一般采用傳統(tǒng)的關(guān)鍵字、條件等檢索方法;③針對非結(jié)構(gòu)化數(shù)據(jù),按照文本、圖像、音頻和視頻等不同數(shù)據(jù)類型分別進(jìn)行檢索,如圖7所示。
圖7 智能配用電大數(shù)據(jù)檢索技術(shù)Fig.7 Data retrieval of big data for smart power distribution and utilization
數(shù)據(jù)檢索并行策略如圖8所示。智能配用電數(shù)據(jù)存儲技術(shù)的查詢層,進(jìn)行分層分區(qū)并行策略,即:①當(dāng)數(shù)據(jù)查詢時,先在Master主節(jié)點上,依據(jù)用戶的檢索需求,從節(jié)點對所有的Slave依次進(jìn)行多進(jìn)程的XML半結(jié)構(gòu)化數(shù)據(jù)并行Top-k檢索,從Slave從節(jié)點中找到所查詢數(shù)據(jù)的映射信息;②在 Slave節(jié)點上,依據(jù)用戶檢索到的XML節(jié)點存儲映射信息,先確定所檢索數(shù)據(jù)所屬的分類區(qū)域(電網(wǎng)企業(yè)內(nèi)部數(shù)據(jù)區(qū)、電網(wǎng)企業(yè)外部數(shù)據(jù)區(qū)、電網(wǎng)內(nèi)部數(shù)據(jù)的中低壓配電數(shù)據(jù)/用電/營銷/客服數(shù)據(jù)區(qū)、電網(wǎng)外部數(shù)據(jù)的政府/第三方機(jī)構(gòu)/電力用戶數(shù)據(jù)區(qū)),然后確定所查詢數(shù)據(jù)的類型;③依據(jù)所確定的分區(qū)和數(shù)據(jù)類型,在 Slave節(jié)點上運行 Top-k方法查詢數(shù)據(jù)的實際映射地址,并結(jié)合第一步從節(jié)點所檢索到的數(shù)據(jù)所屬分區(qū),快速定位原始數(shù)據(jù)的確定位置。
多源異構(gòu)的智能配用電的海量數(shù)據(jù)面臨存儲維護(hù)難的技術(shù)問題,本文在存儲處理方面,按照計算層、存儲層和查詢層的思路在一定程度上解決了海量智能配用電信息數(shù)據(jù)的存儲和管理問題。但是由于智能配用電數(shù)據(jù)關(guān)系企業(yè)的用能特點和居民用戶的生活習(xí)慣,涉及一定的個人隱私或者商業(yè)機(jī)密,如何進(jìn)行數(shù)據(jù)的安全性保護(hù)和網(wǎng)絡(luò)共享以及如何合理挖掘利用這些大數(shù)據(jù),是下一步的研究重點。同時,本設(shè)計方案從先進(jìn)理念上對智能配用電數(shù)據(jù)中心的大數(shù)據(jù)存儲進(jìn)行了前期框架設(shè)計,其效果需在其具體實施過程中進(jìn)行驗證及必要改進(jìn)。
圖8 數(shù)據(jù)檢索并行策略Fig.8 Parallel strategy for data retrieval
[1] 王守相,王成山.現(xiàn)代配電系統(tǒng)分析[M].2版.北京:高等教育出版社,2014.
[2] 何穎鵬.非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存儲平臺的設(shè)計與實現(xiàn)[D].杭州:浙江大學(xué),2013.
[3] 余斌.海量非結(jié)構(gòu)化數(shù)據(jù)分布式分析與檢索[D].杭州:浙江大學(xué),2012.
[4] 曲朝陽,陳帥,楊帆,等.基于云計算技術(shù)的電力大數(shù)據(jù)預(yù)處理屬性簡約方法[J].電力系統(tǒng)自動化,2014,38(8):67-71.
Qu Zhaoyang,Chen Shuai,Yang Fan,et al.An attribute reducing method for electric power big data preprocessing based on cloud computing technology[J].Automation of Electric Power Systems,2014,38(8):67-71.
[5] 丁杰,朱力鵬,胡斌,等.面向多級調(diào)度管理的融合型搜索引擎[J].電力系統(tǒng)自動化,2014,38(3):150-154.
Ding Jie,Zhu Lipeng,Hu Bin,et al.A fusion-type search engine for multilevel scheduling management[J].Automation of Electric Power Systems,2014,38(3):150-154.
[6] 屈志堅,郭亮,陳秋琳,等.Hadoop 云構(gòu)架的智能調(diào)度無損集群壓縮技術(shù)[J].電力系統(tǒng)自動化,2013,37(18):93-98.
Qu Zhijian,Guo Liang,Chen Qiulin,et al.Intelligent dispatching lossless cluster compression technology based on Hadoop cloud framework[J].Automation of Electric Power Systems,2013,37(18):93-98.
[7] 劉道新,胡航海,張健,等.大數(shù)據(jù)全生命周期中關(guān)鍵問題研究及應(yīng)用[J].中國電機(jī)工程學(xué)報,2015,35(1):23-28.
Liu Daoxin,Hu Hanghai,Zhang Jian,et al.Research on key issues of big data lifecycle and its application[J].Proceeding of the CSEE,2015,35(1):23-28.
[8] He G,Ren S Y,Yu D C,et al.Analysis of enterprise user behavior on hadoop[C]//6th International Conference on Intelligent Human-Machine Systems and Cybernetics,Hangzhou,2014:230-233.
[9] 屈志堅,郭亮,劉明光,等.智能配電網(wǎng)量測信息變斷面柔性壓縮新算法[J].中國電機(jī)工程學(xué)報,2013,33(19):191-199.
Qu Zhijian,Guo Liang,Liu Mingguang,et al.New variable section flexible compression algorithm for measurement information in intelligent distribution network[J].Proceeding of the CSEE,2013,33(19):191-199.
[10] 王德文.基于云計算的電力數(shù)據(jù)中心基礎(chǔ)架構(gòu)及其關(guān)鍵技術(shù)[J].電力系統(tǒng)自動化,2012,36(11):67-71,107.
Wang Dewen.Basic framework and key technology for a new generation of data center in electric power corporation based on cloud computation[J].Automation of Electric Power Systems,2012,36(11):67-71,107.
[11] 高濤.基于云計算的配電自動化系統(tǒng)設(shè)計[J].電氣技術(shù),2014,15(7):103-105.
Gao Tao.Design of distribution automation system based on cloud computing[J].Electrical Technique,2014,15(7):103-105.
[12] 王守相,張衛(wèi)濤,葛磊蛟.智能配電網(wǎng)統(tǒng)一模型云與應(yīng)用服務(wù)技術(shù)系統(tǒng)[J].電力自動化設(shè)備,2015,35(2):49-54.
Wang Shouxiang,Zhang Weitao,Ge Leijiao.Unified model cloud and application service system for smart distribution network[J].Electric Power Automation Equipment,2015,35(2):49-54.
[13] 王保義,趙碩,張少敏.基于云計算和極限學(xué)習(xí)機(jī)的分布式電力負(fù)荷預(yù)測算法[J].電網(wǎng)技術(shù),2014,38(2):526-531.
Wang Baoyi,Zhao Shuo,Zhang Shaomin.A distributed load forecasting algorithm based on cloud computing and extreme learning machine[J].Power System Technology,2014,38(2):526-531.
[14] 宋亞奇,周國亮,朱永利,等.云平臺下輸變電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理[J].中國電機(jī)工程學(xué)報,2015,35(2):255-266.
Song Yaqi,Zhou Guoliang,Zhu Yongli,et al.Storage optimization and parallel processing of condition monitoring big data of transmission and transforming equipment based on cloud platform[J].Proceedings of the CSEE,2015,35(2):255-266.
[15] 曲朝陽,朱莉,張士林.基于Hadoop的廣域測量系統(tǒng)數(shù)據(jù)處理[J].電力系統(tǒng)自動化,2013,37(4):92-97.
Qu Zhaoyang,Zhu Li,Zhang Shilin.Data processing of Hadoop based wide area measurement system[J].Automation of Electric Power Systems,2013,37(4):92-97.
[16] Anam A,Jamil A.Hadoop architecture and its issues[C]//International Conference on Computational Science and Computational Intelligence,Las Vegas,NV,2014:288-291.
[17] Sadasivam G S,Dharini S.A novel parallel hybrid PSO-GA using MapReduce to schedule jobs in Hadoop data grids[C]//Second World Congress on Nature and Biologically Inspired Computing,Fukuoka,2010:377-382.
[18] 宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):927-935.Song Yaqi,Zhou Guoliang,Zhu Yongli.Present status and challenges of big data processing in smart grid[J].Power System Technology,2013,37(4):927-935.
[19] 趙騰,張焰,張東霞.智能配電網(wǎng)大數(shù)據(jù)應(yīng)用技術(shù)與前景分析[J].電網(wǎng)技術(shù),2014,38(12):3305-3312.
Zhao Teng,Zhang Yan,Zhang Dongxia.Application technology of big data in smart distribution grid and its prospect analysis[J].Power System Technology,2014,38(12):3305-3312.
[20] 劉巍,黃曌,李鵬,等.面向智能配電網(wǎng)的大數(shù)據(jù)統(tǒng)一支持平臺體系與架構(gòu)[J].電工技術(shù)學(xué)報,2014,29(增1):486-491.
Liu Wei,Huang Zhao,Li Peng,et al.Summary about system and framework of unified supporting platform of big data for smart distribution grid[J].Transactions of China Electrotechnical Society,2014,29(S1):486-491.
[21] 周國亮,朱永利,王桂蘭,等.實時大數(shù)據(jù)處理技術(shù)在狀態(tài)監(jiān)測領(lǐng)域中的應(yīng)用[J].電工技術(shù)學(xué)報,2014,29(增1):432-437.
Zhou Guoliang,Zhu Yongli,Wang Guilan,et al.Real-time big data processing technology application in the field of state monitoring[J].Transactions of China Electrotechnical Society,2014,29(S1):432-437
[22] 韓璞,袁世通.基于大數(shù)據(jù)和雙量子粒子群算法的多變量系統(tǒng)辨識[J].中國電機(jī)工程學(xué)報,2014,34(32):5779-5787.
Han Pu,Yuan Shitong.Multivariable system identification based on double quantum particle swarm optimization and big data[J].Proceedings of the CSEE,2014,34(32):5779-5787.
[23] Labrinidis A,Jagadish H V.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment,2012,5(12):2032-2033.
[24] Kamalpreet S,Ravinder K.Hadoop:addressing challenges of big data[C]//IEEE International Advance Computing Conference,Gurgaon,2014:686-689.
[25] 劉伯穎,李志剛,黃曉勤,等.復(fù)雜系統(tǒng)的可靠性優(yōu)化分配方法及應(yīng)用[J].電工技術(shù)學(xué)報,2014,29(增1):497-501.
Liu Boying,Li Zhigang,Huang Xiaoqin,et al.Reliabiliy optimal allocation methods and application of complex systems[J].Transactions of China Electrotechnical Society,2014,29(S1):497-501.
[26] 熊小伏,陳星田,翁世杰.支持大數(shù)據(jù)分析的發(fā)電廠變電站全息錄波方法[J].電力系統(tǒng)保護(hù)與控制,2015,43(22):17-22.
Xiong Xiaofu,Chen Xingtian,Weng Shijie.A holographic record method supporting big data analysis for power plant and substation[J].Power System Protection and Control,2015,43(22):17-22.
[27] 楊永標(biāo),周立秋,丁孝華,等.智能配用電園區(qū)技術(shù)集成方案[J].電力系統(tǒng)自動化,2012,36(10):74-78.
Yang Yongbiao,Zhou Liqiu,Ding Xiaohua,et al.Technology integration scheme of smart power distribution and utilization park[J].Automation of Electric Power Systems,2012,36(10):74-78.
[28] 楊凱,余高旺,宋勇輝,等.智能變電站冗余數(shù)據(jù)處理方案的研究與應(yīng)用[J].電力系統(tǒng)保護(hù)與控制,2015,43(12):150-154.
Yang Kai,Yu Gaowang,Song Yonghui,et al.Research and application of redundant data processing scheme for smart substation[J].Power System Protection and Control,2015,43(12):150-154.
[29] 唐志軍,鄒貴彬,高厚磊,等.含分布式電源的智能配電網(wǎng)保護(hù)控制方案[J].電力系統(tǒng)保護(hù)與控制,2014,42(8):9-14.
Tang Zhijun,Zou Guibin,Gao Houlei,et al.Protection and control scheme for smart distribution grid with distribution resource[J].Power System Protection and Control,2014,42(8):9-14.
[30] Li W,Lang B.A tetrahedral data model for unstructured data management[J].Science China Information Sciences,2010,53(8):1497-1510.
[31] Amin A,Farshad K,Reza A.A preliminary study of incorporating GPUs in the Hadoop framework[C]//The 16th CSI International Symposium on Computer Architecture and Digital Systems,Shiraz,Fars,2012:178-185.
[32] Jungkyu H,Masakuni I,Hiroyuki M.A Hadoop performance model for multi-rack clusters[C]//5th International Conference on Computer Science and Information Technology,Amman,2013:265-274.
[33] Muhammad A,Muhammad A U,Samreen A,et al.Framework for analysis of power system operation in smart cities[J].Wireless Pers Commun,2014,76(3):399-408.
[34] Yu Y X,Zeng Y,Liu H,et al.Challenges and R&D opportunities of smart distribution grids in China[J].Science China:Technological Sciences,2014,57(8):1588-1593.
[35] Elias B,Claude F,Makan P,et al.Communication security for smart grid distribution networks[J].IEEE Communication Magazine,2013,51(1):42-49.
[36] Bharadwaj R S,Gerald T H.Sensitivity based pricing and optimal storage utilization in distribution systems[J].IEEE Transactions on Power Delivery,2013,28(2):1073-1082.
[37] 歐陽柳波,李學(xué)勇,楊貫中,等.基于近似匹配模型的XML元數(shù)據(jù)檢索[J].計算機(jī)應(yīng)用,2005,25(4):820-823,826.
Ouyang Liubo,Li Xueyong,Yang Guanzhong,et al.XML metadata retrieval based on approximately matching model[J].Computer Application,2005,25(4):820-823,826.