曾麒杰,符曉洪,柳羿,何寬政,張升平
(深圳供電局有限公司,廣東 深圳 518000)
電網(wǎng)公司涉及業(yè)務(wù)廣泛,因此業(yè)務(wù)生成數(shù)據(jù)面和類別也比較多,包括結(jié)構(gòu)化、地理信息以及海量時(shí)序測(cè)點(diǎn)數(shù)據(jù)等不同類型數(shù)據(jù)。基于多種類型數(shù)據(jù)共存的現(xiàn)象,需要構(gòu)建一個(gè)可以實(shí)現(xiàn)數(shù)據(jù)綜合分析利用的平臺(tái)[1]。當(dāng)前,在非結(jié)構(gòu)化或半結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)中,通常選用文件存儲(chǔ)方式,沒有實(shí)現(xiàn)關(guān)于文檔、音頻和視頻等文件的檢索功能,同時(shí),對(duì)于不同數(shù)據(jù)的混合也無法實(shí)現(xiàn)深入挖掘分析。在此情況下,需要構(gòu)建一個(gè)能夠采集、存儲(chǔ)、過濾大量低價(jià)值密度的數(shù)據(jù)對(duì)象,且可以針對(duì)數(shù)據(jù)實(shí)施分布式計(jì)算及各種算法,以此對(duì)其實(shí)施深入挖掘分析,從而提升數(shù)據(jù)利用價(jià)值,為公司管理決策提供支持[2-3]。Hadoop 下的數(shù)據(jù)存儲(chǔ)處理設(shè)計(jì)可以滿足以上需求,不但能夠滿足智能配用電數(shù)據(jù)存儲(chǔ)需求,也能夠提升數(shù)據(jù)處理效率,為數(shù)據(jù)分析應(yīng)用提供便利。
Hadoop 技術(shù)體系包含有多種技術(shù),例如全分布式架構(gòu)、在線擴(kuò)容減容等,可以實(shí)現(xiàn)對(duì)PB 級(jí)以上規(guī)模數(shù)據(jù)在線存儲(chǔ)的支撐,為智能配電網(wǎng)不斷加大的數(shù)據(jù)體量存儲(chǔ)提供重要支撐作用。在Hadoop 技術(shù)中,一項(xiàng)重要任務(wù)即為數(shù)據(jù)計(jì)算,具備有Kafka+Storm 數(shù)據(jù)流計(jì)算功能。對(duì)于時(shí)間窗口中應(yīng)用系統(tǒng)出現(xiàn)的流動(dòng)數(shù)據(jù),可以不實(shí)施持久化存儲(chǔ),在內(nèi)存中直接導(dǎo)入且實(shí)時(shí)計(jì)算,數(shù)據(jù)處理的速度平均在10 萬條/s 以上,吞吐量在100 M/s 以上。所具備的Spark 內(nèi)存迭代計(jì)算,對(duì)于計(jì)算中的磁盤I/O 具有顯著的降低作用,實(shí)時(shí)計(jì)算和交互式查詢對(duì)于配電網(wǎng)海量數(shù)據(jù)中的實(shí)時(shí)/準(zhǔn)實(shí)時(shí)處理具有顯著改善作用[4]。
海量異構(gòu)數(shù)據(jù)存儲(chǔ)和處理如圖1 所示。對(duì)于配電網(wǎng)業(yè)務(wù)中海量規(guī)模的非結(jié)構(gòu)化以及非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ),通常采用的是集中式和陣列式存儲(chǔ)方式,導(dǎo)致存在擴(kuò)容性不足、可用性不佳以及可靠性偏低等問題,影響數(shù)據(jù)存儲(chǔ)質(zhì)量[5-6]。Hadoop 技術(shù)下的分布式存儲(chǔ)技術(shù)在應(yīng)用中,可以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)存儲(chǔ)問題的有效處理,同時(shí)也能夠基于Hadoop 為數(shù)據(jù)處理提供MapReduce 統(tǒng)一并行計(jì)算框架,從而實(shí)現(xiàn)對(duì)相關(guān)數(shù)據(jù)的綜合開發(fā)應(yīng)用,以此實(shí)現(xiàn)對(duì)智能配電網(wǎng)業(yè)務(wù)中海量異構(gòu)數(shù)據(jù)共存以及計(jì)算分析問題的有效處理。
圖1 海量異構(gòu)數(shù)據(jù)存儲(chǔ)和處理
智能配電網(wǎng)數(shù)據(jù)存在的特點(diǎn)有用戶種類復(fù)雜、海量、多樣化、涉及面廣以及發(fā)現(xiàn)數(shù)據(jù)價(jià)值較難等,數(shù)據(jù)本身也具有一定的內(nèi)在規(guī)律,具有大數(shù)據(jù)信息特征,數(shù)據(jù)存儲(chǔ)以及處理中存在有較大開發(fā)空間。比如,若可以在大數(shù)據(jù)分析工具的應(yīng)用下實(shí)現(xiàn)對(duì)用戶日志信息、功能以及用電特征的有效分析,從而實(shí)現(xiàn)區(qū)域內(nèi)相應(yīng)能源需求的有效預(yù)測(cè)評(píng)估,則可以為智能配電網(wǎng)未來營銷業(yè)務(wù)拓展提供相應(yīng)發(fā)展思路[7-8]。在智能配電網(wǎng)數(shù)據(jù)存儲(chǔ)中,在結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)處理中建構(gòu)3 個(gè)層級(jí)實(shí)施管理,其中分別為資源層、存儲(chǔ)層以及查詢層,如圖2 所示。
圖2 智能配電網(wǎng)數(shù)據(jù)存儲(chǔ)技術(shù)框架
在智能配電網(wǎng)的數(shù)據(jù)存儲(chǔ)中,資源層是基礎(chǔ)部分,是在Hadoop 技術(shù)的應(yīng)用下,與配電網(wǎng)數(shù)據(jù)資源特性相結(jié)合,針對(duì)疏忽存儲(chǔ)資源實(shí)施良好的管理[9]。在配電網(wǎng)數(shù)據(jù)管理中,資源層建立在分布式主從式技術(shù)上,可有效整理、分析配電網(wǎng)中的服務(wù)器、PC 移動(dòng)終端等相關(guān)硬件資源,進(jìn)而構(gòu)建相應(yīng)邏輯結(jié)構(gòu),保障Hadoop 的順利開展。Hadoop 技術(shù)中主要包括兩個(gè)技術(shù),分別為HDFS 和MapReduce,可以為配電網(wǎng)數(shù)據(jù)存儲(chǔ)調(diào)度以及管理提供有效保障。針對(duì)配電網(wǎng)資源在資源層的應(yīng)用下實(shí)現(xiàn)調(diào)整以及優(yōu)化,有助于顯著提升配電網(wǎng)資源的可利用價(jià)值。
若要構(gòu)建配電網(wǎng)數(shù)據(jù)的大數(shù)據(jù)資源,則需要實(shí)現(xiàn)對(duì)當(dāng)前配電自動(dòng)化主站、用電信息采集系統(tǒng)主站以及GIS 主站等數(shù)據(jù)軟硬件IT 資源的應(yīng)用,基于當(dāng)前配電自動(dòng)化主站平臺(tái),實(shí)現(xiàn)大數(shù)據(jù)資源層主節(jié)點(diǎn)的構(gòu)建。電力企業(yè)中存在有內(nèi)外網(wǎng),針對(duì)這一需求,需要構(gòu)建相應(yīng)的內(nèi)網(wǎng)Master 節(jié)點(diǎn)以及企業(yè)外網(wǎng)Master 節(jié)點(diǎn),但是也需要注意防范冗余熱備節(jié)點(diǎn)[10];其他網(wǎng)省公司應(yīng)用平臺(tái)均可以作為從節(jié)點(diǎn),例如配電網(wǎng)相關(guān)系統(tǒng)、其他資源系統(tǒng)等,可以借助于電力系統(tǒng)光纖實(shí)現(xiàn)以太網(wǎng)以及無線GPRS 網(wǎng)絡(luò)的連接,從而構(gòu)建成一個(gè)網(wǎng)絡(luò)紐帶,同時(shí)在用戶和第二結(jié)構(gòu)聯(lián)系中完成智能配電網(wǎng)數(shù)據(jù)中心群的構(gòu)建。
存儲(chǔ)層能夠?qū)崿F(xiàn)配電網(wǎng)數(shù)據(jù)存儲(chǔ)的標(biāo)準(zhǔn)和分布,主要包括有兩部分,分別為數(shù)據(jù)預(yù)處理以及NoSQL。在數(shù)據(jù)預(yù)處理中,針對(duì)獲取的不同結(jié)構(gòu)化數(shù)據(jù)模型格式實(shí)施統(tǒng)一規(guī)劃,將其轉(zhuǎn)變?yōu)閄LM 格式,在對(duì)數(shù)據(jù)格式統(tǒng)一后進(jìn)一步提升了數(shù)據(jù)存儲(chǔ)以及檢索的便利性;NoSQL 能夠有效實(shí)現(xiàn)數(shù)據(jù)的分布式存儲(chǔ)[11-12]。
針對(duì)不同結(jié)構(gòu)化配電網(wǎng)數(shù)據(jù)預(yù)處理,所采用的方法也存在差異。結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)相對(duì)比較簡(jiǎn)單,通常在預(yù)處理中,主要為數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)統(tǒng)一;在非結(jié)構(gòu)化數(shù)據(jù)預(yù)處理過程中,先要對(duì)數(shù)據(jù)實(shí)施詳細(xì)歸屬,主要為4 個(gè)步驟,分別為數(shù)據(jù)清洗、調(diào)樣、轉(zhuǎn)換以及統(tǒng)一,以此有效實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)屬性的統(tǒng)一,且將其在Slave 節(jié)點(diǎn)中存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)預(yù)處理過程的規(guī)范化。針對(duì)已經(jīng)預(yù)處理后的智能配電網(wǎng)數(shù)據(jù),將其統(tǒng)一轉(zhuǎn)化為XML 格式,為數(shù)據(jù)的處理分析提供便利[13]。在NoSQL 技術(shù)的應(yīng)用下,則可以實(shí)現(xiàn)配電網(wǎng)數(shù)據(jù)的分布式存儲(chǔ),從而有效提升配電網(wǎng)數(shù)據(jù)的存儲(chǔ)標(biāo)準(zhǔn)化,也能夠確保實(shí)現(xiàn)分布式存儲(chǔ)。
查詢層在智能配電網(wǎng)數(shù)據(jù)存儲(chǔ)處理中具有重要作用,能夠?qū)崿F(xiàn)數(shù)據(jù)的快速檢索[14]。該層針對(duì)配電網(wǎng)中的海量數(shù)據(jù)實(shí)施選擇、整理以及分析,之后將其在存儲(chǔ)載體或管理系統(tǒng)中進(jìn)行存儲(chǔ)。如果需要應(yīng)用數(shù)據(jù),則可以通過關(guān)鍵字進(jìn)行提取。查詢層在運(yùn)行過程中,采用的是分層分區(qū)同時(shí)工作的方式,在對(duì)數(shù)據(jù)實(shí)施查詢時(shí),可以在Master 中明確數(shù)據(jù)要求,之后針對(duì)所有數(shù)據(jù)化數(shù)據(jù)實(shí)施并行檢索,以此獲取數(shù)據(jù)查詢中的詳細(xì)信息;明確存儲(chǔ)詳細(xì)信息后,基于Slave 進(jìn)一步明確數(shù)據(jù)所屬類型;依照區(qū)位以及數(shù)據(jù)類型,可在Top-k 技術(shù)下映射出過去數(shù)據(jù)的實(shí)際地址方位,與第一步中獲取的數(shù)據(jù)分區(qū)相結(jié)合,可以實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的快速定位[15]。在查詢層分層分區(qū)并行技術(shù)的應(yīng)用下,有助于顯著提升數(shù)據(jù)檢索效率,從而進(jìn)一步實(shí)現(xiàn)智能配電網(wǎng)的數(shù)據(jù)存儲(chǔ)。
密碼技術(shù)以及加固技術(shù)是云安全的重點(diǎn),針對(duì)智能配電網(wǎng)中的數(shù)據(jù)完整性以及保密性,可以在密碼技術(shù)的應(yīng)用下實(shí)施保障。當(dāng)前的數(shù)據(jù)加密算法主要分為對(duì)稱解密算法以及非對(duì)稱加密算法兩種。其中,對(duì)稱加密算法具有加密速度快的優(yōu)點(diǎn),但是在相同密鑰實(shí)施加/解密中,無法為安全性提供保障,也無法實(shí)現(xiàn)對(duì)密鑰的有效管理;在非對(duì)稱密鑰體系的應(yīng)用中,雖然不需和密鑰協(xié)商,但必須構(gòu)建相應(yīng)的公鑰管理方案,同時(shí),這一方法在應(yīng)用中的加密速度偏慢,效率不高,只是單純對(duì)于少量數(shù)據(jù)加密具有適用性。在智能配電網(wǎng)中,數(shù)據(jù)源較多,存在海量數(shù)據(jù),同時(shí)對(duì)于時(shí)間效率也具有較高要求。在加密算法應(yīng)用中,不但需要具備較高的加密速度,而且需要具備較高的效率[16]。所以,在配電網(wǎng)數(shù)據(jù)安全管理中,可以采用對(duì)稱加密算法實(shí)施加密處理,非對(duì)稱加密算法則可以在元數(shù)據(jù)過密鑰加密中應(yīng)用。文中針對(duì)系統(tǒng)數(shù)據(jù)安全存儲(chǔ)構(gòu)建了相應(yīng)的管理方案,如圖3 所示。摘要信息是在數(shù)據(jù)消息簽名中所獲取的數(shù)據(jù);密文是數(shù)據(jù)加密后所獲取的數(shù)據(jù);密鑰信息是在針對(duì)數(shù)據(jù)加密中采用的密鑰實(shí)施信息隱藏后獲取的數(shù)據(jù)。
圖3 數(shù)據(jù)存儲(chǔ)方案設(shè)計(jì)
智能配電網(wǎng)中的存儲(chǔ)數(shù)據(jù)為加密數(shù)據(jù),若缺乏密鑰信息,則其他人無法獲取相應(yīng)的信息。關(guān)于數(shù)據(jù)的完整性,可以針對(duì)所存儲(chǔ)的數(shù)據(jù)預(yù)先生成摘要信息,基于此,在數(shù)據(jù)讀取過程中,就可以實(shí)現(xiàn)對(duì)數(shù)據(jù)完整性的驗(yàn)證。另外,若要提升密鑰信息操作便利性,針對(duì)密文和密鑰信息存儲(chǔ)可以實(shí)現(xiàn)解耦,以保障在密鑰信息操作過程中,不會(huì)影響到密文。數(shù)據(jù)存儲(chǔ)的步驟如下:第一步,生成摘要。先在摘要信息算法的應(yīng)用下,針對(duì)存儲(chǔ)數(shù)據(jù)生成數(shù)數(shù)字摘要。第二步,加密數(shù)據(jù)。在密鑰的應(yīng)用下建構(gòu)函數(shù)生成隨機(jī)密鑰,在其應(yīng)用下實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)的加密處理,獲取密文。第三步,隨機(jī)密鑰隱藏。針對(duì)第一步獲取的隨機(jī)密鑰,需要信息隱藏。第四步,存儲(chǔ)密文,在云中實(shí)現(xiàn)對(duì)密文的存儲(chǔ)。第五步,保存相關(guān)信息。實(shí)現(xiàn)密文成功存儲(chǔ)后,獲取密鑰信息和數(shù)字摘要信息,并共同存儲(chǔ)在HBase 中。
為實(shí)現(xiàn)對(duì)數(shù)據(jù)存儲(chǔ)處理方案有效性的實(shí)施分析,構(gòu)建了基于Hadoop 集群的原型系統(tǒng)。在Hadoop集群中共包括有3 臺(tái)機(jī)器,節(jié)點(diǎn)配置也保持一致,各個(gè)機(jī)器的內(nèi)存為2 GB,操作系統(tǒng)為Window10,硬盤空間為160 GB。在機(jī)器上安裝Cygwin,以完成虛擬Linux 環(huán)境的建構(gòu)。集群中的3 臺(tái)機(jī)器全部完成hadoop-0.20.2、jdk-6u26-windows-i586 以及Cygwin安裝。存儲(chǔ)數(shù)據(jù)的加密算法選用的是AES(高級(jí)數(shù)據(jù)加密標(biāo)準(zhǔn))算法,密鑰長(zhǎng)度為256 位。智能配電網(wǎng)海量數(shù)據(jù)存在大小差異較大以及時(shí)間要求高等特點(diǎn),因此將系統(tǒng)衡量中的存儲(chǔ)耗時(shí)作為一個(gè)標(biāo)準(zhǔn),在加權(quán)平均方法的應(yīng)用下對(duì)系統(tǒng)性能實(shí)施檢測(cè)。
為實(shí)現(xiàn)對(duì)方案總體性能的了解,需要針對(duì)不同大小數(shù)據(jù)文件實(shí)施測(cè)試。針對(duì)智能配電網(wǎng)中存在數(shù)據(jù)大小差異大的問題下,此次檢測(cè)選用的數(shù)據(jù)文件大小分別為1 MB、5 MB、10 MB、50 MB、200 MB、500 MB、800 MB。該次實(shí)驗(yàn)結(jié)果如表1 所示。
表1 不同大小數(shù)據(jù)文件的存儲(chǔ)耗時(shí)
文中通過研究得出了以下結(jié)論:
第一,基于Hadoop 的智能配電網(wǎng)數(shù)據(jù)存儲(chǔ)處理,依照計(jì)算層、存儲(chǔ)層以及查詢層建構(gòu)了三層體系結(jié)構(gòu),實(shí)現(xiàn)了對(duì)智能配電網(wǎng)信息數(shù)據(jù)存儲(chǔ)以及管理的有效處理;
第二,針對(duì)智能配電網(wǎng)信息數(shù)據(jù)存儲(chǔ),基于Hadoop 構(gòu)建原型系統(tǒng),通過對(duì)其優(yōu)點(diǎn)和性能的檢測(cè)分析發(fā)現(xiàn),這一方法具有有效性和可用性,可為智能配電網(wǎng)數(shù)據(jù)存儲(chǔ)安全性提供有效保障。