段瑞永
(湖南大唐先一科技有限公司 北京100033)
對(duì)于當(dāng)前很多企業(yè)大量數(shù)據(jù)分散在不同信息系統(tǒng)中且缺乏標(biāo)準(zhǔn)化,“數(shù)據(jù)煙囪”林立的現(xiàn)狀[1-2],本文總結(jié)提煉了中國(guó)大唐集團(tuán)有限公司(以下簡(jiǎn)稱公司)基于《數(shù)據(jù)管理能力成熟度評(píng)估模型》(GB/T 36073-2018,簡(jiǎn)稱DCMM)國(guó)家標(biāo)準(zhǔn),系統(tǒng)梳理和全面分析數(shù)據(jù)現(xiàn)狀、制定數(shù)據(jù)標(biāo)準(zhǔn),統(tǒng)一“數(shù)據(jù)方言”,打通數(shù)據(jù)孤島,實(shí)現(xiàn)集團(tuán)級(jí)全域數(shù)據(jù)匯聚、雙向?qū)崟r(shí)交換等提升企業(yè)數(shù)據(jù)管理能力的主要做法;提出了建設(shè)數(shù)據(jù)匯聚共享交換平臺(tái)的總體架構(gòu)、技術(shù)架構(gòu),分析研究了在對(duì)不同數(shù)據(jù)源進(jìn)行聯(lián)合查詢時(shí)采用統(tǒng)一SQL路由引擎屏蔽多種引擎SQL方言、實(shí)現(xiàn)統(tǒng)一SQL語(yǔ)法和統(tǒng)一入口技術(shù),為提高接入數(shù)據(jù)質(zhì)量、采用的基于邊界閾值的數(shù)據(jù)校驗(yàn)技術(shù),以及以促進(jìn)用戶擴(kuò)大數(shù)據(jù)共享范圍的數(shù)據(jù)分析技術(shù)等關(guān)鍵技術(shù)。
DCMM是針對(duì)一個(gè)組織數(shù)據(jù)管理、應(yīng)用能力的評(píng)估框架,通過(guò)數(shù)據(jù)能力成熟度模型,組織可以清楚地知道自身所處的發(fā)展階段以及未來(lái)的發(fā)展方向。DCMM定義了數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)生存周期8個(gè)核心能力域及數(shù)據(jù)戰(zhàn)略規(guī)劃、數(shù)據(jù)戰(zhàn)略實(shí)施、數(shù)據(jù)戰(zhàn)略評(píng)估等28個(gè)能力項(xiàng),并以組織、制度、流程和技術(shù)作為8個(gè)核心域的評(píng)價(jià)維度。DCMM評(píng)價(jià)維度及能力域如圖1所示,DCMM所包含的8個(gè)能力域及28個(gè)能力項(xiàng)如表1所示。
表1 DCMM的8個(gè)能力域及28個(gè)能力項(xiàng)Tab.1 8 capability domains and 28 capability items for DCMM
DCMM將數(shù)據(jù)管理能力成熟度劃分為5個(gè)等級(jí),自低向高依次為初始級(jí)、受管理級(jí)、穩(wěn)健級(jí)、量化管理級(jí)和優(yōu)化級(jí),不同等級(jí)代表企業(yè)數(shù)據(jù)管理和應(yīng)用的成熟度水平不同。DCMM5個(gè)等級(jí)劃分及主要特征如圖2所示。
圖2 DCMM等級(jí)劃分及主要特征Fig.2 Classification and key features of DCMM
通過(guò)對(duì)業(yè)務(wù)部門、相關(guān)系統(tǒng)承建商等的調(diào)研訪談,調(diào)研問(wèn)卷、資料研讀等手段,歸納總結(jié)公司在數(shù)據(jù)管理,尤其是在數(shù)據(jù)匯聚共享交換方面存在的問(wèn)題。根據(jù)DCMM數(shù)據(jù)管理能力域的具體要求,對(duì)公司規(guī)劃、工程、生產(chǎn)、經(jīng)營(yíng)、海外、資本運(yùn)營(yíng)等業(yè)務(wù)領(lǐng)域和黨建、決策、風(fēng)險(xiǎn)管控、法律、綜合辦公等管理事項(xiàng)進(jìn)行詳細(xì)梳理分析,并以此為基礎(chǔ),制定印發(fā)了數(shù)據(jù)共享管理規(guī)定、大數(shù)據(jù)指標(biāo)手冊(cè)(發(fā)電主要指標(biāo))、數(shù)據(jù)資產(chǎn)管理辦法、數(shù)據(jù)安全管理辦法等制度、標(biāo)準(zhǔn)。
主要的做法如下:
(1)明確基礎(chǔ)數(shù)據(jù)來(lái)源,對(duì)于組織機(jī)構(gòu)與人員、投資項(xiàng)目代碼與名稱、投產(chǎn)前后機(jī)組基礎(chǔ)信息、生產(chǎn)運(yùn)營(yíng)等基礎(chǔ)數(shù)據(jù)明確了唯一系統(tǒng)來(lái)源,其他系統(tǒng)逐步引用。
(2)建立數(shù)據(jù)管理責(zé)任制,理順數(shù)據(jù)責(zé)任部門、使用部門、歸口管理部門職責(zé)界面。數(shù)據(jù)責(zé)任部門指數(shù)據(jù)開(kāi)發(fā)、提供、維護(hù)部門,對(duì)數(shù)據(jù)質(zhì)量負(fù)主體責(zé)任;數(shù)據(jù)使用部門是根據(jù)授權(quán)使用數(shù)據(jù)的部門,對(duì)數(shù)據(jù)使用的合法合規(guī)及使用所造成的影響負(fù)責(zé);數(shù)據(jù)歸口管理部門為信息化部門,負(fù)責(zé)數(shù)據(jù)統(tǒng)一管理工作。
(3)建立數(shù)據(jù)質(zhì)量缺陷報(bào)警機(jī)制,數(shù)據(jù)匯聚共享交換平臺(tái)將用戶發(fā)現(xiàn)或系統(tǒng)分析所得到的數(shù)據(jù)質(zhì)量缺陷推送至各業(yè)務(wù)系統(tǒng),由數(shù)據(jù)責(zé)任部門組織整改,建立數(shù)據(jù)質(zhì)量管理常態(tài)化機(jī)制,提高數(shù)據(jù)的完整性、準(zhǔn)確性、及時(shí)性。
(4)建立數(shù)據(jù)共享開(kāi)發(fā)機(jī)制,數(shù)據(jù)使用部門可將新增共享數(shù)據(jù)需求報(bào)送至數(shù)據(jù)匯聚共享交換平臺(tái),數(shù)據(jù)責(zé)任部門確認(rèn)后,由業(yè)務(wù)系統(tǒng)、數(shù)據(jù)匯聚共享交換平臺(tái)技術(shù)人員進(jìn)行數(shù)據(jù)配置或開(kāi)發(fā),上線后由數(shù)據(jù)使用部門確認(rèn)是否滿足需求。
平臺(tái)的整體架構(gòu)由數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層和平臺(tái)展示4部分組成[3-8]。如圖3所示。
圖3 數(shù)據(jù)匯聚共享交換平臺(tái)總體架構(gòu)Fig.3 Overall architecture of data aggregation shared switching platform
(1)數(shù)據(jù)采集層。實(shí)現(xiàn)對(duì)各類數(shù)據(jù)的采集,同時(shí)對(duì)各類數(shù)據(jù)進(jìn)行預(yù)處理。采集業(yè)務(wù)系統(tǒng)的各類監(jiān)測(cè)數(shù)據(jù),例如配置數(shù)據(jù)、性能數(shù)據(jù)、告警數(shù)據(jù)、日志數(shù)據(jù),實(shí)現(xiàn)個(gè)性化數(shù)據(jù)采集設(shè)置,并且將收集到的監(jiān)控?cái)?shù)據(jù)儲(chǔ)存在數(shù)據(jù)庫(kù)中。
(2)數(shù)據(jù)存儲(chǔ)層。提供數(shù)據(jù)集中處理中心,包括告警數(shù)據(jù)處理,性能數(shù)據(jù)處理,配置數(shù)據(jù)處理,日志數(shù)據(jù)處理,實(shí)現(xiàn)對(duì)不同格式的數(shù)據(jù)存儲(chǔ)。
(3)數(shù)據(jù)分析層。實(shí)現(xiàn)對(duì)當(dāng)前數(shù)據(jù)的實(shí)時(shí)關(guān)聯(lián)分析和歷史數(shù)據(jù)的統(tǒng)計(jì)分析,并建立相關(guān)分析模型。
(4)平臺(tái)展示層。對(duì)實(shí)時(shí)指標(biāo)數(shù)據(jù)通過(guò)各種圖形進(jìn)行可視化展示,同時(shí)與外部第三方應(yīng)用進(jìn)行信息集成與共享。
系統(tǒng)采用大數(shù)據(jù)核心技術(shù)進(jìn)行組建。外部數(shù)據(jù)通過(guò)采集代理,按照平臺(tái)序列化規(guī)范,接入并存儲(chǔ)到kafka中。Kafka中的數(shù)據(jù)通過(guò)數(shù)據(jù)加載引擎,存儲(chǔ)到指定的數(shù)據(jù)存儲(chǔ)中。系統(tǒng)支持關(guān)系型數(shù)據(jù)庫(kù)、分布式檢索引擎和分布式文件系統(tǒng)。同時(shí),kafka中的數(shù)據(jù)可以對(duì)接Spark Streaming實(shí)時(shí)計(jì)算引擎,進(jìn)行實(shí)時(shí)處理和分析。
系統(tǒng)具備統(tǒng)一資源管理,支持多種計(jì)算框架。對(duì)于存儲(chǔ)后的數(shù)據(jù),系統(tǒng)提供MapReduce和Spark兩種計(jì)算框架,進(jìn)行數(shù)據(jù)處理和分析。系統(tǒng)通過(guò)分布式檢索引擎,對(duì)外提供結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)檢索;通過(guò)Presto、Hive、SparkSQL對(duì)外提供結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)統(tǒng)計(jì)、關(guān)聯(lián)等OLAP操作;通過(guò)Spark計(jì)算框架,提供機(jī)器學(xué)習(xí)等復(fù)雜數(shù)據(jù)分析算法[9-11]。平臺(tái)的技術(shù)架構(gòu)如圖4所示。
圖4 數(shù)據(jù)匯聚共享交換平臺(tái)技術(shù)架構(gòu)Fig.4 Technology architecture of data aggregation sharing exchange platform
2.3.1 統(tǒng)一SQL路由多引擎技術(shù)
當(dāng)前,存儲(chǔ)與管理數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)種類繁多,包括關(guān)系型數(shù)據(jù)庫(kù)、NoSQL 數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)、key-value數(shù)據(jù)庫(kù)、對(duì)象存儲(chǔ)系統(tǒng)等,這些數(shù)據(jù)管理系統(tǒng)基于ANSI SQL逐漸發(fā)展成具有自身特點(diǎn)的SQL方言,并且差異愈加明顯,因此,在對(duì)不同數(shù)據(jù)源進(jìn)行聯(lián)合查詢時(shí),就需要使用不同的客戶端去連接不同的數(shù)據(jù)源,整個(gè)分析過(guò)程復(fù)雜、編程入口多、系統(tǒng)集成困難,對(duì)于涉及海量數(shù)據(jù)的數(shù)據(jù)分析將會(huì)異常困難。數(shù)據(jù)匯聚共享交換平臺(tái)通過(guò)采用SQL多引擎路由技術(shù)實(shí)現(xiàn)了統(tǒng)一SQL語(yǔ)法和統(tǒng)一入口,屏蔽了多種引擎SQL方言切換,根據(jù)各引擎集群空閑負(fù)載情況、SQL復(fù)雜度及開(kāi)銷成本等路由到合適的引擎執(zhí)行,為元數(shù)據(jù)管理,動(dòng)態(tài)字段級(jí)血緣關(guān)系的數(shù)據(jù)地圖提供了基礎(chǔ)支撐[12-14]。SQL路由方案設(shè)計(jì)如圖5所示。
圖5 智能引擎:SQL路由方案設(shè)計(jì)架構(gòu)Fig.5 Smart engine: design architecture of SQL routing scheme
統(tǒng)一SQL路由多引擎方案可通過(guò)改寫Presto的詞法文件、訪問(wèn)器模式、函數(shù)適配等完成。
(1)改寫Presto詞法文件
Presto語(yǔ)法是在標(biāo)準(zhǔn)SQL基礎(chǔ)上實(shí)現(xiàn)的,通過(guò)對(duì)Presto詞法文件源碼語(yǔ)法進(jìn)行改寫使其滿足HQL語(yǔ)法,作為統(tǒng)一SQL引擎的HQL詞法文件。改寫內(nèi)容包括改寫刪除語(yǔ)法、添加clusterBy語(yǔ)法規(guī)則、添加Hive語(yǔ)法中TABLESAMPLE關(guān)鍵字取樣的相關(guān)語(yǔ)法規(guī)則、添加lateral:LATERAL VIEW語(yǔ)法規(guī)則等方面內(nèi)容。此處以添加clusterBy語(yǔ)法規(guī)則以滿足完整的HQL語(yǔ)法的部分源碼為示例,其SQL語(yǔ)句如下:
querySpecification
:SELECT setQuantifier selectItem (',' selectItem)*
(FROM relation (',' relation)*)
(WHERE where=booleanExpression)
(GROUP BY groupBy)
(HAVING having=booleanExpression)
(ORDER BY sortItem (',' sortItem)*)
(clusterBy)
(LIMIT limit=INTEGER_VALUE );
clusterBy語(yǔ)法規(guī)則:
clusterBy
:((CLUSTER BY expression (',' expression)*)| ((DISTRIBUTE BY expression (',' expression)*) (SORT BY sortItem (',' sortItem)*)) );
(2)實(shí)現(xiàn)訪問(wèn)器模式
先根據(jù)不同引擎語(yǔ)法實(shí)現(xiàn)不同的監(jiān)聽(tīng)器邏輯或訪問(wèn)器邏輯多種語(yǔ)法翻譯功能,從而實(shí)現(xiàn)統(tǒng)一SQL多引擎執(zhí)行的支持。以Hive引擎為例,繼承Hive Sql Base Base Visitor
(3)函數(shù)適配
通過(guò)預(yù)寫映射模版,調(diào)換參數(shù)順序,轉(zhuǎn)換參數(shù)的數(shù)據(jù)類型,填充默認(rèn)的參數(shù),轉(zhuǎn)換返回的數(shù)據(jù)類型來(lái)滿足統(tǒng)一SQL引擎實(shí)現(xiàn)時(shí)解決的函數(shù)適配的問(wèn)題。函數(shù)適配配置主要SQL語(yǔ)句如下:
//presto函數(shù)適配配置
multiFunc.put("date_add",Arrays.asList("date_add('day',p4,cast(p2 as date))"));
multiFunc.put("date_sub",Arrays.asList("date_add('day',-p4,cast(p2 as date))"));
multiFunc.put("add_months",Arrays.asList("date_add('month',p4,cast(p2 as date))"));
2.3.2 大數(shù)據(jù)控制集群技術(shù)
控制集群在設(shè)計(jì)上包含三大主要模塊,分別是請(qǐng)求處理器(Worker)、調(diào)度器(Scheduler)和作業(yè)執(zhí)行管理器(Executor),它們分別實(shí)現(xiàn)不同的邏輯[15]。
Worker處理所有的RESTful請(qǐng)求,它可以本地處理一些作業(yè),如對(duì)用戶空間、表、資源、作業(yè)等的管理;而對(duì)于需要執(zhí)行分布式計(jì)算的作業(yè),Worker會(huì)進(jìn)一步把它提交給Scheduler處理。
Scheduler負(fù)責(zé)Instance的調(diào)度,它會(huì)維護(hù)一個(gè)Instance列表,并把Instance分解成各個(gè)Task,生成這些Task的工作流——DAG圖(Directed Acyclic Graph,有向無(wú)環(huán)圖),把可以運(yùn)行的Task放到TaskPool中。此外,Scheduler還可以查詢計(jì)算集群的資源狀況。
Executor根據(jù)自身資源情況,如果資源滿足,則會(huì)主動(dòng)輪詢Scheduler的TaskPool請(qǐng)求獲取下一個(gè)Task,TaskPool會(huì)根據(jù)Task的優(yōu)先級(jí)和計(jì)算集群的資源情況,把相應(yīng)Task提交給Executor,Executor獲取到Task后,生成計(jì)算層的分布式作業(yè)描述文件,提交給計(jì)算層,監(jiān)控這些任務(wù)的運(yùn)行狀態(tài),并定時(shí)把狀態(tài)匯報(bào)給Scheduler。
簡(jiǎn)單地說(shuō),當(dāng)用戶提交一個(gè)作業(yè)請(qǐng)求時(shí),接入層先進(jìn)行用戶認(rèn)證,然后發(fā)送給控制層的Worker,Worker判斷是否為同步請(qǐng)求,如果為同步請(qǐng)求,則本地執(zhí)行并返回。如果是異步請(qǐng)求,Worker會(huì)先做些檢查,生成InstanceID,把請(qǐng)求進(jìn)一步發(fā)送給Scheduler,并返回給客戶端。Scheduler把作業(yè)分解成各個(gè)Task,Executor主動(dòng)輪詢Scheduler,獲取相應(yīng)Task,提交給計(jì)算層執(zhí)行,并定時(shí)將自己持有的Task的狀態(tài)匯報(bào)給Scheduler。大數(shù)據(jù)計(jì)算任務(wù)調(diào)度過(guò)程如圖6所示。
圖6 大數(shù)據(jù)計(jì)算任務(wù)調(diào)度Fig.6 Big data computing task scheduling
2.3.3 跨集群數(shù)據(jù)復(fù)制技術(shù)
跨集群數(shù)據(jù)復(fù)制技術(shù)克服了數(shù)據(jù)的準(zhǔn)實(shí)時(shí)跨集群復(fù)制、動(dòng)態(tài)配置作業(yè)對(duì)跨集群數(shù)據(jù)的依賴,根據(jù)任務(wù)的優(yōu)先級(jí)等合理管理和分配資源,為未來(lái)數(shù)據(jù)業(yè)務(wù)長(zhǎng)期發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。跨集群數(shù)據(jù)復(fù)制主要具有以下優(yōu)點(diǎn)。
(1)突破了單集群的數(shù)據(jù)存儲(chǔ)上限。由于目前主流分布式系統(tǒng)Master/Slave的結(jié)構(gòu),單集群受限于Master的內(nèi)存和處理能力上限,而現(xiàn)在數(shù)據(jù)可以存儲(chǔ)在多個(gè)集群上,不再受單集群的限制。
(2)可以實(shí)現(xiàn)多機(jī)房數(shù)據(jù)容災(zāi),將來(lái)可以動(dòng)態(tài)的跨機(jī)房備份重要數(shù)據(jù)。
(3)實(shí)現(xiàn)跨數(shù)據(jù)中心動(dòng)態(tài)負(fù)載均衡,將熱點(diǎn)集群上的數(shù)據(jù)和作業(yè)動(dòng)態(tài)遷移到空閑集群,緩解熱點(diǎn)集群的壓力,提高空閑集群的使用率。
(4)對(duì)于響應(yīng)速度要求比較高的請(qǐng)求,可以在多個(gè)集群同時(shí)調(diào)度這個(gè)作業(yè),將響應(yīng)最快的請(qǐng)求返回給用戶。
2.3.4 基于邊界閾值的數(shù)據(jù)校驗(yàn)技術(shù)
數(shù)據(jù)匯聚共享交換平臺(tái)將眾多相關(guān)業(yè)務(wù)系統(tǒng)數(shù)據(jù)統(tǒng)一匯聚進(jìn)行共享管理,以便提供全方位、全生命周期的數(shù)據(jù)共享。只是在當(dāng)前,由于復(fù)雜的數(shù)據(jù)來(lái)源和系統(tǒng)間采用的統(tǒng)計(jì)口徑不一,以及數(shù)據(jù)匯聚過(guò)程中可能存在的數(shù)據(jù)轉(zhuǎn)換與處理問(wèn)題,所以需要對(duì)接入數(shù)據(jù)進(jìn)行適當(dāng)?shù)男r?yàn),以保證數(shù)據(jù)的可靠性和準(zhǔn)確性。結(jié)合電力數(shù)據(jù)專業(yè)特性,并考慮海量數(shù)據(jù)的校驗(yàn)效率,提出通過(guò)閾值校驗(yàn)實(shí)現(xiàn)多種數(shù)據(jù)的有效匯聚[16-20]。
電力數(shù)據(jù)的特性使得相關(guān)數(shù)據(jù)通常具有合理有效的邊界范圍,比如電站的發(fā)電出力具有非負(fù)性,且一般小于裝機(jī)容量,部分特殊情形會(huì)超出裝機(jī),但幅度不會(huì)太大;再如機(jī)組的發(fā)電流量應(yīng)該小于等于其最大過(guò)流能力;針對(duì)這類數(shù)據(jù),可以預(yù)先定義合理的邊界范圍閾值進(jìn)行校驗(yàn),并對(duì)超限數(shù)據(jù)進(jìn)行異常預(yù)警和相應(yīng)的處理。具體的校驗(yàn)公式如下。
(1)
2.3.5 以促進(jìn)用戶擴(kuò)大數(shù)據(jù)共享范圍的數(shù)據(jù)分析
技術(shù)
數(shù)據(jù)匯聚共享交換平臺(tái)建設(shè)初期,根據(jù)需求,梳理匯總了近萬(wàn)個(gè)數(shù)據(jù)指標(biāo),并由多個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)匯聚至數(shù)據(jù)共享交換平臺(tái),出于各種理由,在平臺(tái)上線應(yīng)用時(shí),僅開(kāi)放共享不到5000個(gè)指標(biāo),一些相對(duì)重要的生產(chǎn)經(jīng)營(yíng)指標(biāo)也沒(méi)有實(shí)現(xiàn)完全共享交換,個(gè)別部門“本位主義”思想嚴(yán)重影響了數(shù)據(jù)的深度應(yīng)用,致使數(shù)據(jù)匯聚后再次成為另一種形式的數(shù)據(jù)煙囪。為了解決這個(gè)問(wèn)題,公司從管理上出臺(tái)了相關(guān)管理規(guī)定,從技術(shù)上基于貝葉斯平均法計(jì)算熱門搜索指標(biāo)Top10(每周)并以詞云圖的形式展現(xiàn)給所有用戶,并以數(shù)據(jù)質(zhì)量周報(bào)的形式呈公司領(lǐng)導(dǎo)、各部門閱。管理手段的約束以及技術(shù)手段的倒逼,讓這些部門認(rèn)識(shí)并感受到數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)應(yīng)用的重要性,并逐步同意共享了原先不同意共享的數(shù)據(jù)指標(biāo),擴(kuò)大了數(shù)據(jù)共享指標(biāo)的范圍。貝葉斯平均法如公式(2)所示。
(2)
公式(2)中BA(score)表示指標(biāo)的點(diǎn)擊搜索熱度,值越大,表明熱度越高。a表示指標(biāo)點(diǎn)擊量,m表示指標(biāo)點(diǎn)擊用戶數(shù),r表示指標(biāo)平均點(diǎn)擊量,n表示歷史點(diǎn)擊平均用戶數(shù)。
通過(guò)點(diǎn)擊率、正樣本頻次等算法對(duì)大量的用戶行為進(jìn)行偏好類統(tǒng)計(jì),進(jìn)行用戶精準(zhǔn)畫像設(shè)計(jì)。點(diǎn)擊率算法如公式(3)所示。
(3)
公式(3)中,m和C是平滑系數(shù)。通過(guò)用戶精準(zhǔn)畫像設(shè)計(jì),使用戶體驗(yàn)度大幅提升,更加促進(jìn)了各部門數(shù)據(jù)匯聚共享交換的積極性,進(jìn)一步擴(kuò)大了數(shù)據(jù)共享的范圍[21-24]。
數(shù)據(jù)匯聚共享交換平臺(tái)實(shí)施過(guò)程當(dāng)中,除了平臺(tái)前后端的分離部署配置,達(dá)到數(shù)據(jù)字段級(jí)別的權(quán)限配置等實(shí)施工作以外。平臺(tái)的實(shí)施工作著重在與多個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)集成上展開(kāi)[25]。
從采集的數(shù)據(jù)量、數(shù)據(jù)頻率要求、安全穩(wěn)定性等多種因素考慮,確定了從OA系統(tǒng)接入數(shù)據(jù)采用webservice方式,從財(cái)務(wù)、物資、項(xiàng)目、燃料等業(yè)務(wù)系統(tǒng)接入數(shù)據(jù)采用JDBC方式;向數(shù)字化作戰(zhàn)室、生產(chǎn)調(diào)度中心等系統(tǒng)輸出數(shù)據(jù)采用webAPI方式;與國(guó)資委數(shù)據(jù)交互按照要求采用雙向SM2方式加密上傳下達(dá)db文件至央企前置機(jī)。平臺(tái)對(duì)所有接口任務(wù)開(kāi)發(fā)了可視化的界面并內(nèi)含異常告警配置,實(shí)時(shí)掌握數(shù)據(jù)動(dòng)態(tài)[26-28]。
平臺(tái)在數(shù)據(jù)存儲(chǔ)與管理方面采用了Click House+MySQL模式。ClickHouse是基于列存儲(chǔ)的數(shù)據(jù)庫(kù),比傳統(tǒng)行式存儲(chǔ)數(shù)據(jù)庫(kù)速度更快,性能更好,長(zhǎng)于實(shí)時(shí)數(shù)據(jù)分析,用于海量業(yè)務(wù)數(shù)據(jù)的存儲(chǔ)分析。MySQL是傳統(tǒng)的基于行存儲(chǔ)的數(shù)據(jù)庫(kù),系統(tǒng)運(yùn)維操作相對(duì)簡(jiǎn)單,人機(jī)交互體驗(yàn)更加友好,用于流程、權(quán)限配置等系統(tǒng)本身數(shù)據(jù)的存儲(chǔ)管理。Click House+MySQL模式兼顧了系統(tǒng)性能及系統(tǒng)運(yùn)維兩個(gè)方面,提高了普通用戶和系統(tǒng)運(yùn)維人員的使用體驗(yàn)。
目前,數(shù)據(jù)匯聚共享交換平臺(tái)已在公司總部及下屬100余家企業(yè)上線應(yīng)用,應(yīng)用效果良好。截至目前平臺(tái)已匯聚近4000萬(wàn)條數(shù)據(jù),滿足了公司總部各部門及下屬企業(yè)的數(shù)據(jù)共享需求,并與數(shù)字化作戰(zhàn)室、生產(chǎn)調(diào)度中心等十幾個(gè)應(yīng)用系統(tǒng)實(shí)現(xiàn)實(shí)時(shí)雙向交互。大額資金、三重一大、第三方服務(wù)機(jī)構(gòu)數(shù)據(jù)通過(guò)平臺(tái)與國(guó)資委統(tǒng)一數(shù)據(jù)采集平臺(tái)進(jìn)行對(duì)接。9000多件專利、4000多項(xiàng)成果論文、400多項(xiàng)國(guó)行標(biāo)供系統(tǒng)企業(yè)查看學(xué)習(xí)。
當(dāng)前,數(shù)據(jù)是企業(yè)的核心資產(chǎn)已是共識(shí),積極推動(dòng)數(shù)據(jù)的匯聚共享交換、加強(qiáng)基于大數(shù)據(jù)的分析應(yīng)用已是各大企業(yè)正在實(shí)施或計(jì)劃實(shí)施的重要工作。本文所提出的集團(tuán)級(jí)全域數(shù)據(jù)管理的相關(guān)做法、數(shù)據(jù)匯聚共享交換平臺(tái)關(guān)鍵技術(shù)的研究與應(yīng)用,對(duì)于大型企業(yè)集團(tuán)數(shù)據(jù)管理、數(shù)據(jù)匯聚共享交換、數(shù)據(jù)中臺(tái)的建設(shè),具有較大的借鑒參考價(jià)值。