李輝 帥強(qiáng) 李偉
摘? 要:隨著企業(yè)信息化、智能化的深入和新信息技術(shù)的廣泛應(yīng)用,集團(tuán)化的企業(yè)級(jí)業(yè)務(wù)管理系統(tǒng)產(chǎn)生的海量數(shù)據(jù)不斷涌向數(shù)據(jù)中心,實(shí)時(shí)運(yùn)行的計(jì)量自動(dòng)化系統(tǒng)設(shè)備數(shù)據(jù)對(duì)數(shù)據(jù)中心的存儲(chǔ)和應(yīng)用支撐面臨諸多問題。本文介紹基于云南電網(wǎng)大數(shù)據(jù)中心的計(jì)量自動(dòng)化系統(tǒng)數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析應(yīng)用場(chǎng)景支撐關(guān)鍵設(shè)計(jì),對(duì)大數(shù)據(jù)中心廣泛的海量的數(shù)據(jù)存儲(chǔ)和應(yīng)用提供設(shè)計(jì)思路。
關(guān)鍵詞:大數(shù)據(jù)中心;計(jì)量自動(dòng)化系統(tǒng);數(shù)據(jù)存儲(chǔ)
中圖分類號(hào):TM762? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):1671-2064(2019)24-0000-00
0 引言
隨著信息云計(jì)算、大數(shù)據(jù)及物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,利用云計(jì)算平臺(tái)的分布式存儲(chǔ)架構(gòu)和分布式處理系統(tǒng)實(shí)現(xiàn)智能電網(wǎng)海量數(shù)據(jù)的大規(guī)模存儲(chǔ),為數(shù)據(jù)挖掘與輔助決策等高級(jí)應(yīng)用提供高性能的分布式計(jì)算環(huán)境,利于實(shí)現(xiàn)不同區(qū)域之間的資源與信息共享[1]。云南電網(wǎng)大數(shù)據(jù)中心是實(shí)現(xiàn)全省包括營(yíng)銷、調(diào)度、財(cái)務(wù)、資產(chǎn)等核心業(yè)務(wù)域的集中存儲(chǔ)和大數(shù)據(jù)應(yīng)用場(chǎng)景分析支撐。
省級(jí)計(jì)量自動(dòng)化系統(tǒng)是對(duì)電網(wǎng)網(wǎng)架結(jié)構(gòu)設(shè)備運(yùn)行數(shù)據(jù)的統(tǒng)一“采集、存儲(chǔ)、應(yīng)用”,是全面服務(wù)企業(yè)生產(chǎn)、營(yíng)銷、規(guī)劃、建設(shè)等業(yè)務(wù)應(yīng)用的核心基礎(chǔ)系統(tǒng)平臺(tái)。計(jì)量自動(dòng)化系統(tǒng)采集的原始數(shù)據(jù)可通過CDMA/GPRS等網(wǎng)絡(luò)獲取,每天采集的數(shù)據(jù)量大多以TB為單位進(jìn)行存儲(chǔ),每次采集間隔的時(shí)間大約為15分鐘[2]。目前按照云南電網(wǎng)公司大數(shù)據(jù)平臺(tái)的數(shù)據(jù)分析應(yīng)用需求,開展省級(jí)計(jì)量自動(dòng)化系統(tǒng)包括計(jì)量運(yùn)行、設(shè)備終端運(yùn)行及檢測(cè)類的采集和事件數(shù)據(jù),以及計(jì)量資產(chǎn)、終端管理和相關(guān)的統(tǒng)計(jì)類數(shù)據(jù)。
1 大數(shù)據(jù)平臺(tái)架構(gòu)
云存儲(chǔ)是一種網(wǎng)絡(luò)在線存儲(chǔ)模式,其核心技術(shù)之一是存儲(chǔ)虛擬化,核心是運(yùn)用分布式存儲(chǔ)技術(shù),對(duì)不同形式的異構(gòu)存儲(chǔ)設(shè)備通過虛擬化計(jì)算進(jìn)行整合,實(shí)現(xiàn)云存儲(chǔ)中多個(gè)存儲(chǔ)設(shè)備之間的協(xié)同工作,共同為用戶提供數(shù)據(jù)存儲(chǔ)服務(wù)[3]。云南電網(wǎng)大數(shù)據(jù)平臺(tái)采用云存儲(chǔ)的方式,其邏輯架構(gòu)如圖1所示。
大數(shù)據(jù)平臺(tái)邏輯架構(gòu)各業(yè)務(wù)系統(tǒng)通過數(shù)據(jù)同步(CDP或OGG等方式)進(jìn)入貼源層(ODS),需經(jīng)過的數(shù)據(jù)整合、加工、聚合和挖掘,形成數(shù)據(jù)倉(cāng)庫(kù)層(DW)和數(shù)據(jù)集市層(DM)數(shù)據(jù),為各類綜合性的查詢統(tǒng)計(jì)輔助分析決策應(yīng)用系統(tǒng)提供業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)貼源層(ODS層)核心數(shù)業(yè)務(wù)系統(tǒng)同步進(jìn)來的原始數(shù)據(jù),經(jīng)過一系列的數(shù)據(jù)整合處理(清洗、轉(zhuǎn)換、映射等)復(fù)雜操作將數(shù)據(jù)傳輸至數(shù)倉(cāng)層(DW層),可以有效避免或減少對(duì)業(yè)務(wù)源系統(tǒng)的影響。數(shù)據(jù)倉(cāng)庫(kù)層(DW層)長(zhǎng)期(或永久)存儲(chǔ)規(guī)范的、全局邏輯關(guān)聯(lián)一致的業(yè)務(wù)明細(xì)數(shù)據(jù),經(jīng)過規(guī)范化整合處理、寬表加工或數(shù)據(jù)加工聚合,形成對(duì)象化的業(yè)務(wù)明細(xì)數(shù)據(jù)或者是各種層級(jí)各種口徑的統(tǒng)計(jì)匯總數(shù)據(jù),數(shù)倉(cāng)層可直接向集市層(DM)或分析型應(yīng)用系統(tǒng)提供數(shù)據(jù)。數(shù)據(jù)集市層(DM層)面向應(yīng)用分析主題構(gòu)建、存儲(chǔ)根據(jù)業(yè)務(wù)分析需求將數(shù)據(jù)經(jīng)數(shù)據(jù)挖掘、數(shù)據(jù)分析、復(fù)雜計(jì)算等加工處理后的數(shù)據(jù)集合,包括指標(biāo)型數(shù)據(jù)、高度匯總型數(shù)據(jù)或算法挖掘后的明細(xì)數(shù)據(jù)。
2 計(jì)量數(shù)據(jù)存儲(chǔ)設(shè)計(jì)
2.1 大數(shù)據(jù)平臺(tái)數(shù)據(jù)存儲(chǔ)基本原則
在大數(shù)據(jù)平臺(tái)中對(duì)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)量、類型及實(shí)際業(yè)務(wù)需求的表在大數(shù)據(jù)平臺(tái)的的存儲(chǔ)也有一定差異,基本數(shù)據(jù)存儲(chǔ)原則如:(1)主數(shù)據(jù)表存儲(chǔ)方式:以日期為分區(qū),每天增加一個(gè)分區(qū)存儲(chǔ)一份最新的主數(shù)據(jù),每個(gè)分區(qū)的生命周期通常以天為固定周期,也就是一張表最多有固定周期天的個(gè)分區(qū)。(2)小業(yè)務(wù)表存儲(chǔ)方式:以日期為分區(qū),每天把增量數(shù)據(jù)合并到昨天的全量分區(qū),以此疊加。(3)采集量測(cè)數(shù)據(jù)存儲(chǔ)方式:由于采集量測(cè)數(shù)據(jù)數(shù)據(jù)量極大,如果以日期分區(qū)進(jìn)行儲(chǔ)存,每天存儲(chǔ)一份,會(huì)占用太多的存儲(chǔ)空間,且數(shù)據(jù)量大,使用時(shí)會(huì)造成過多的平臺(tái)資源被占用以及數(shù)據(jù)查詢效率很低,嚴(yán)重影響數(shù)據(jù)的正常使用。所以存儲(chǔ)方式改為以單位(如地市)和年月為分區(qū)的二級(jí)分區(qū)表,生命周期為永久,只保留一份數(shù)據(jù)。例如:某個(gè)地市某個(gè)月的數(shù)據(jù),就存儲(chǔ)在這個(gè)地市和這個(gè)月的分區(qū),如:dsbm=.../sjny=yyyymm。這樣數(shù)據(jù)占用內(nèi)存將大大減少,用戶查詢數(shù)據(jù)只要條件命中地市和年月就大大提高數(shù)據(jù)的查詢效率。
2.2 計(jì)量自動(dòng)化系統(tǒng)數(shù)據(jù)存儲(chǔ)
按照大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì),計(jì)量自動(dòng)化系統(tǒng)在大數(shù)據(jù)平臺(tái)中ODS層、DW層及DM層所存儲(chǔ)的邏輯如圖2所示。
計(jì)量自動(dòng)化數(shù)據(jù)存儲(chǔ)邏輯設(shè)計(jì)中:(1)從計(jì)量業(yè)務(wù)系統(tǒng)中依據(jù)CDP數(shù)據(jù)全量方式進(jìn)行同步抽取,并在ODS層安裝一天一個(gè)分區(qū)進(jìn)行數(shù)據(jù)存儲(chǔ),主要針對(duì)數(shù)據(jù)量小于500M的主數(shù)據(jù)設(shè)備臺(tái)帳及其他統(tǒng)計(jì)數(shù)據(jù),DW層存儲(chǔ)同理。(2)從計(jì)量業(yè)務(wù)系統(tǒng)中依據(jù)CDP數(shù)據(jù)增量方式進(jìn)行同步抽取,ODS僅按照分區(qū)存儲(chǔ)每天的增量數(shù)據(jù)(目前按照4天分區(qū)存儲(chǔ)),最后通過對(duì)DW的歷史地市+年月分區(qū)數(shù)據(jù)4天的數(shù)據(jù)進(jìn)行刪除后再插入最近4天數(shù)據(jù),主要包括采集量測(cè)數(shù)據(jù)。(3)從計(jì)量業(yè)務(wù)系統(tǒng)中依據(jù)OGG數(shù)據(jù)增量方式進(jìn)行同步抽取,ODS層存儲(chǔ)歷史全量數(shù)據(jù)表、增量數(shù)據(jù)表,并進(jìn)行兩張表合并到新全量表分區(qū)中,增量分區(qū)表數(shù)據(jù)與原歷史數(shù)據(jù)合并同步到數(shù)倉(cāng)存儲(chǔ),主要針對(duì)大于500M的設(shè)備臺(tái)帳數(shù)據(jù)、業(yè)務(wù)應(yīng)用數(shù)據(jù)(電量計(jì)算、采集率、抄表率)、采集量測(cè)數(shù)據(jù)等。(4)依據(jù)分析庫(kù)按照域數(shù)據(jù)進(jìn)行分類存儲(chǔ),計(jì)量自動(dòng)化數(shù)據(jù)中的DW層數(shù)據(jù)最終同步至DM層市場(chǎng)域(主要包括營(yíng)銷管理系統(tǒng)和計(jì)量自動(dòng)化系統(tǒng)數(shù)據(jù))中進(jìn)行存儲(chǔ)。
2.3 支撐數(shù)據(jù)應(yīng)用清洗轉(zhuǎn)換
針對(duì)業(yè)務(wù)系統(tǒng)同步過來的原業(yè)務(wù)系統(tǒng)數(shù)據(jù),對(duì)某些應(yīng)用的分析需要進(jìn)行處理操作,如計(jì)量設(shè)備某個(gè)點(diǎn)數(shù)據(jù)未采到,則需要通過處理進(jìn)行補(bǔ)全的清洗轉(zhuǎn)換操作,通常針對(duì)操作簡(jiǎn)單、易修改直接通過大數(shù)據(jù)平臺(tái)ODPS的SQL進(jìn)行數(shù)據(jù)清洗轉(zhuǎn)換,難的需要進(jìn)行邏輯腳本或程序進(jìn)行處理;通過MapReduce進(jìn)行數(shù)據(jù)清洗轉(zhuǎn)換,ODPS提供了MapReduce編程接口,用戶可以使用MapReduce提供的接口(Java API)編寫MapReduce程序處理ODPS的中的數(shù)據(jù);最后可使用Python中的Pyodps第三方庫(kù),能有效支持odps讀寫等操作,但會(huì)存在數(shù)據(jù)量處理較小、處理速度較慢等方面的影響,在通常情況下數(shù)據(jù)清洗轉(zhuǎn)換有以下幾種規(guī)則:
(1)數(shù)據(jù)類型轉(zhuǎn)換:如datetime和String相互轉(zhuǎn)換,根據(jù)應(yīng)用需求進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。(2)數(shù)據(jù)過濾:針對(duì)臟數(shù)據(jù)、空數(shù)據(jù)、無用數(shù)據(jù)進(jìn)行數(shù)據(jù)過濾,讓數(shù)據(jù)更加具有實(shí)用性。(3)數(shù)據(jù)填充修改:針對(duì)空數(shù)據(jù)、臟數(shù)據(jù)等相關(guān)數(shù)據(jù),與數(shù)據(jù)關(guān)口部門協(xié)商,進(jìn)行缺值填充和更改臟數(shù)據(jù)。(4)表合并:將主表和字表以一定的業(yè)務(wù)邏輯合并成一張大表,方便應(yīng)用需求取數(shù)、減少取數(shù)代碼和邏輯。(5)枚舉轉(zhuǎn)換:將各業(yè)務(wù)系統(tǒng)獨(dú)有的枚舉,通過業(yè)務(wù)邏輯編制一套各系統(tǒng)統(tǒng)一共用的枚舉代碼,將原系統(tǒng)枚舉替換為新的枚舉代碼,加強(qiáng)數(shù)據(jù)整合性。
3 結(jié)語(yǔ)
本文對(duì)大數(shù)據(jù)中心計(jì)量自動(dòng)化系統(tǒng)數(shù)據(jù)存儲(chǔ)及應(yīng)用支撐設(shè)計(jì)進(jìn)行技術(shù)研究,通過對(duì)大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)的設(shè)計(jì)介紹,依據(jù)平臺(tái)架構(gòu)對(duì)各種業(yè)務(wù)系統(tǒng)的數(shù)據(jù)同步至云數(shù)據(jù)中心后的存儲(chǔ)方式進(jìn)行設(shè)計(jì)和技術(shù)研究,有效解決各業(yè)務(wù)系統(tǒng)不同增量和數(shù)據(jù)量在大數(shù)據(jù)平臺(tái)中存儲(chǔ)的問題,以計(jì)量自動(dòng)化系統(tǒng)按照CDP全量、CDP增量和OGG增量數(shù)據(jù)同步上云后,依據(jù)云南電網(wǎng)大數(shù)據(jù)平臺(tái)的分層架構(gòu),對(duì)ODS貼源層、DW數(shù)倉(cāng)層進(jìn)行進(jìn)行數(shù)據(jù)同步后的按日分區(qū)存儲(chǔ)、增量數(shù)據(jù)與歷史數(shù)據(jù)表合存儲(chǔ)等設(shè)計(jì)思路,對(duì)企業(yè)級(jí)業(yè)務(wù)系統(tǒng)在大數(shù)據(jù)平臺(tái)中的存儲(chǔ)方式具有可移植性和廣泛的應(yīng)用性。
參考文獻(xiàn)
[1] 戚偉強(qiáng),蔣鴻城,裴旭斌,等.基于云平臺(tái)的電力數(shù)據(jù)中心自動(dòng)運(yùn)維體系研究[J].電力信息與通信技術(shù),2016(7):97-101.
[2] 徐振中.電網(wǎng)計(jì)量自動(dòng)化系統(tǒng)的建設(shè)與應(yīng)用[J].電子世界,2016(17):157+159.
[3] 鄧維,劉方明,金海,李丹.云計(jì)算數(shù)據(jù)中心的新能源應(yīng)用:研究現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)學(xué)報(bào),2013(3):582-598.
收稿日期:2019-11-04
作者簡(jiǎn)介:李輝(1991—),男,云南玉溪人,研究生,研究方向:應(yīng)用技術(shù)、數(shù)據(jù)的挖掘與分析、數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)。