陳霄逸,宋琳莉,石發(fā)太,李文友
(1.中國電建集團(tuán)成都勘測設(shè)計(jì)研究院有限公司,四川 成都 610072;2.雅礱江流域水電開發(fā)有限公司,四川 成都 610051)
隨著全球新一輪科技革命和產(chǎn)業(yè)變革的興起,信息技術(shù)、互聯(lián)網(wǎng)理念與能源產(chǎn)業(yè)深度融合,能源電力新技術(shù)不斷涌現(xiàn)新模式和新業(yè)態(tài)。著力推進(jìn)互聯(lián)網(wǎng)技術(shù)、大數(shù)據(jù)技術(shù)、人工智能在清潔能源高效開發(fā)利用中的應(yīng)用,是流域梯級水電站智能化建設(shè)的關(guān)鍵。
目前,國內(nèi)幾大流域水電開發(fā)公司建設(shè)流域梯級水電站集控中心,采集匯聚流域內(nèi)各水電站的計(jì)算機(jī)監(jiān)控系統(tǒng)、繼電保護(hù)信息管理系統(tǒng)、故障錄波信息管理系統(tǒng)、主設(shè)備狀態(tài)監(jiān)測系統(tǒng)、水調(diào)自動化系統(tǒng)、工業(yè)電視系統(tǒng)、水工建筑物安全監(jiān)測系統(tǒng)等綜合自動化信息系統(tǒng)數(shù)據(jù),實(shí)現(xiàn)了對流域內(nèi)各水電站的集中監(jiān)控、聯(lián)合優(yōu)化調(diào)度和生產(chǎn)過程集中展示。但是,上述各業(yè)務(wù)系統(tǒng)采用煙囪式架構(gòu)搭建,數(shù)據(jù)之間相互獨(dú)立,缺乏統(tǒng)一數(shù)據(jù)庫模型和數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn),系統(tǒng)間數(shù)據(jù)共享和智能運(yùn)用異常困難。特別是隨著泛在物聯(lián)網(wǎng)技術(shù)、5G技術(shù)廣泛運(yùn)用,水電站電力生產(chǎn)數(shù)據(jù)呈現(xiàn)出種類多、規(guī)模大、增長快、關(guān)聯(lián)性強(qiáng)等特點(diǎn)[1]。傳統(tǒng)的水電集控中心數(shù)據(jù)庫管理方法,已難以適應(yīng)可靠采集、安全存儲、規(guī)范化的需要,更難進(jìn)行數(shù)據(jù)深度挖掘和智能高級應(yīng)用。為此,運(yùn)用互聯(lián)網(wǎng)新技術(shù),建設(shè)流域梯級水電站電力生產(chǎn)數(shù)據(jù)中心,是流域水電站智能集控的核心,具有十分重要的工程應(yīng)用價值。
近年來,關(guān)于流域梯級水電站電力生產(chǎn)數(shù)據(jù)中心的規(guī)劃設(shè)計(jì)案例相對較少,相關(guān)體系架構(gòu)的研究更是十分欠缺。但是,國家電網(wǎng)公司對智能電網(wǎng)及能源互聯(lián)網(wǎng)建設(shè)的大力推進(jìn),其技術(shù)方法和路線,為流域梯級水電站電力生產(chǎn)數(shù)據(jù)中心建設(shè)指明了方向。文獻(xiàn)[2-5]重點(diǎn)討論了電力生產(chǎn)數(shù)據(jù)的機(jī)遇和挑戰(zhàn),并針對智能電網(wǎng)中數(shù)據(jù)分析應(yīng)用的共性需求與電力大數(shù)據(jù)的典型特征,提出了將大數(shù)據(jù)技術(shù)應(yīng)用于電力系統(tǒng)建設(shè);文獻(xiàn)[6-10]分析了云計(jì)算在海量電力大數(shù)據(jù)分析上的優(yōu)勢,提出了基于云技術(shù)架構(gòu)的國網(wǎng)調(diào)控中心“調(diào)控云”的整體架構(gòu)設(shè)計(jì);文獻(xiàn)[11-15]分析了國內(nèi)外智能電網(wǎng)調(diào)度控制技術(shù)相關(guān)標(biāo)準(zhǔn),在此基礎(chǔ)上提出在各級調(diào)度機(jī)構(gòu)、電力企業(yè)及智能電網(wǎng)多個層面建立公共信息模型統(tǒng)一、接口規(guī)范和信息對象編碼標(biāo)準(zhǔn)的信息標(biāo)準(zhǔn)化思路,為調(diào)度中心之間及調(diào)度中心內(nèi)部各專業(yè)之間的模型信息共享問題提供解決方案。
綜上,基于新形勢下流域梯級水電站電力生產(chǎn)數(shù)據(jù)特點(diǎn),結(jié)合智能水電站建設(shè)的需要,本文提出基于Hadoop+MPP架構(gòu)構(gòu)建流域梯級水電站電力生產(chǎn)數(shù)據(jù)中心,對電力生產(chǎn)數(shù)據(jù)中心的硬件平臺、大數(shù)據(jù)平臺、業(yè)務(wù)應(yīng)用平臺3個方面的規(guī)劃設(shè)計(jì)進(jìn)行運(yùn)用探討。
按照水電站業(yè)務(wù)系統(tǒng)分類,流域梯級水電站電力生產(chǎn)數(shù)據(jù)如下:
(1)計(jì)算機(jī)監(jiān)控系統(tǒng)(SCADA)。該系統(tǒng)數(shù)據(jù)主要包括:電流、電壓等電氣模擬量,溫度、壓力、流量、水位等非電氣模擬量,開關(guān)量、SOE量、電度表脈沖量等。該類數(shù)據(jù)在水電站內(nèi)通常按照采樣周期1 s進(jìn)行計(jì)算,10 000個遙測點(diǎn)每年將產(chǎn)生3.4 TB數(shù)據(jù)(12B/幀×1 幀/s×86 400 s/d×365 d×10 000遙測點(diǎn))。
(2)繼電保護(hù)、故障錄波信息管理系統(tǒng)。該系統(tǒng)數(shù)據(jù)包括水輪發(fā)電機(jī)、主變、線路等繼電保護(hù)繼電保護(hù)裝置的保護(hù)定值、輸出壓板狀態(tài)、設(shè)備歷史故障信息以及裝置啟動時刻前后段時區(qū)內(nèi)所采集的電氣量(非電量)信息、開關(guān)位置信息等,故障錄波裝置啟動時段的電氣量錄波數(shù)據(jù)文件。該類數(shù)據(jù)通常以文檔、日志文件等格式存儲。
(3)主設(shè)備狀態(tài)監(jiān)測系統(tǒng)。該系統(tǒng)數(shù)據(jù)主要包括機(jī)組振擺裝置、機(jī)組測溫系統(tǒng)、開關(guān)柜測溫巡檢系統(tǒng)、主變狀態(tài)檢測、GIS狀態(tài)檢測等裝置采集的振動、擺度、溫度、壓力、微水等歷時數(shù)據(jù)和越復(fù)限告警數(shù)據(jù)等。該類數(shù)據(jù)通常以文檔、日志文件等格式存儲。
(4)水調(diào)自動化系統(tǒng)。該系統(tǒng)數(shù)據(jù)主要包括雨量站、水位站、水文站等遙測站信息,水庫、機(jī)組、閘門等靜態(tài)曲線及參數(shù)衛(wèi)星云圖,降雨量、水位、流量等水文水情類數(shù)據(jù),以及水務(wù)計(jì)算數(shù)據(jù)、氣象信息等。該類數(shù)據(jù)通常以文檔、日志文件等格式存儲。
(5)工業(yè)電視系統(tǒng)。該類系統(tǒng)主要包括了水電站重要部位的現(xiàn)場音頻、視頻及自動告警截圖、AI辨識成果表等數(shù)據(jù),該類數(shù)據(jù)通常以音視頻文檔、圖形文件、電子表格等格式存儲。
(6)生產(chǎn)信息管理系統(tǒng)。該類系統(tǒng)主要包括工作票、OA辦公自動化、合同計(jì)劃、項(xiàng)目管理等數(shù)據(jù),該類數(shù)據(jù)通常以文檔、電子表格等格式存儲。
流域梯級水電站綜合自動化信息系統(tǒng)覆蓋面廣,數(shù)據(jù)類型繁雜,各類業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)相互獨(dú)立,呈現(xiàn)出不同的數(shù)據(jù)結(jié)構(gòu)特性,可分為4類:結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化,以及采集量測類。
(1)結(jié)構(gòu)化數(shù)據(jù)。由數(shù)據(jù)元素匯集而成的每個記錄的結(jié)構(gòu)是一致的并且可以使用關(guān)系模型予以有效描述,包括設(shè)備名稱、資源標(biāo)識、機(jī)組運(yùn)行工況、發(fā)電量、水情實(shí)時數(shù)據(jù)等各類結(jié)構(gòu)化信息。
(2)非結(jié)構(gòu)化數(shù)據(jù)。在未定義結(jié)構(gòu)的情況下或并不按照預(yù)定義的結(jié)構(gòu)要求捕獲、存儲、計(jì)算和管理的數(shù)據(jù),如視頻、音頻、圖片、日志文件、報(bào)表等,繼承于文檔且與設(shè)備有關(guān)的信息。
(3)半結(jié)構(gòu)化數(shù)據(jù)。為介于完全結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù),如日志、郵件等。
(4)采集量測類數(shù)據(jù)。通過采集裝置短時間內(nèi)被創(chuàng)建、處理、存儲、分析并顯示的數(shù)據(jù)。該數(shù)據(jù)主要為設(shè)備的相關(guān)測點(diǎn)信息和描述設(shè)備運(yùn)行狀態(tài)的曲線,如量測點(diǎn)、電量曲線等。從數(shù)據(jù)特性來看,該類數(shù)據(jù)可定義為結(jié)構(gòu)化數(shù)據(jù),鑒于水電站包含大量的測點(diǎn)類數(shù)據(jù),故單獨(dú)定義。
將以上4類數(shù)據(jù)資源有效分類、管理和挖掘,可最大限度地獲取數(shù)據(jù)價值,制定較為完善的決策管理策略,從而助力于提升企業(yè)經(jīng)營管理水平,提高生產(chǎn)力。
Hadoop是分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,并且充分利用服務(wù)器集群進(jìn)行全面的數(shù)據(jù)存儲和處理。
(1)分布式文件系統(tǒng)(HDFS)。HDFS是一個高可靠、可擴(kuò)展,以及可提供高吞吐量的數(shù)據(jù)訪問能力的分布式文件數(shù)據(jù)庫。在數(shù)據(jù)的讀寫時,HDFS能保證文件在該時刻只被一個調(diào)用者執(zhí)行寫操作,同時能被多個調(diào)用者執(zhí)行讀操作。
(2)分布式開源數(shù)據(jù)庫(Hbase)。Hbase是一個高可靠、高性能、面向列、可伸縮的分布式存儲數(shù)據(jù)庫,適合存儲海量非結(jié)構(gòu)化、半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù),利用Hbase技術(shù)可通過依靠橫向擴(kuò)展,不斷增加X86商用服務(wù)器,來增加計(jì)算和存儲能力。
(3)分布式批處理框架(MapReduce)。MapReduce是Hadoop的核心,可用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。基于Map和Reduce函數(shù),寫出的應(yīng)用可在多臺服務(wù)器集群運(yùn)行,起到將大事務(wù)分散到不同設(shè)備處理的能力,以一種可靠的容錯方式并行處理數(shù)據(jù),實(shí)現(xiàn)了對大數(shù)據(jù)的處理。
除上述核心組件以外,Hadoop還應(yīng)包括數(shù)據(jù)接入和共享工具(Flume、Sqoop和ETL)、資源調(diào)度管理系統(tǒng)(YARN)、數(shù)據(jù)倉庫工具(Hive)、大規(guī)模并行SQL分析處理引擎(HAWQ)、分布式搜索引擎(Solr)、分布式內(nèi)存計(jì)算引擎(Spark)等。Hadoop平臺架構(gòu)如圖1所示。采用Hadoop平臺實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理,提供流式計(jì)算、離線計(jì)算、實(shí)時計(jì)算與全文檢索服務(wù),形成統(tǒng)一的數(shù)據(jù)湖。
圖1 Hadoop系統(tǒng)平臺架構(gòu)
MPP系統(tǒng)平臺可通過大數(shù)據(jù)高比例壓縮降低I/O開銷、大規(guī)模并行計(jì)算支撐高性能的大數(shù)據(jù)分析和處理能力、靈活的大規(guī)模集群擴(kuò)展能力、高可用性等功能。MPP系統(tǒng)平臺架構(gòu)如圖2所示。
圖2 MPP系統(tǒng)平臺架構(gòu)
MPP數(shù)據(jù)庫由數(shù)據(jù)庫核心引擎、物理存儲層、接口訪問層以及管理控制臺等組成部分。其中,MPP數(shù)據(jù)核心引擎提供的無共享MPP架構(gòu),為MPP提供了大規(guī)模橫向線型擴(kuò)展能力和高可用性,以可靠地支持深度分析需求能力。
物理存儲層為MPP的存儲引擎提供不同的存儲位置,既可以是節(jié)點(diǎn)內(nèi)本地磁盤文件系統(tǒng)和內(nèi)存的融合存儲,也可是HDFS等遠(yuǎn)程自定義存儲。此外,MPP數(shù)據(jù)庫接口訪問提供了基于ODBC、JDBC、ADO.NET接口規(guī)范的標(biāo)準(zhǔn)SQL訪問,以支持與ETL工具、報(bào)表和分析挖掘工具的無縫集成,實(shí)現(xiàn)數(shù)據(jù)裝載、查詢和分析挖掘功能。
相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,MPP系統(tǒng)在數(shù)據(jù)處理方面具有以下特點(diǎn):
(1)采用分布式架構(gòu)。傳統(tǒng)的數(shù)據(jù)庫采用集中管理模式,易造成數(shù)據(jù)大量堆積,且需要大量的存儲介質(zhì),易導(dǎo)致服務(wù)器的回應(yīng)下降乃至于崩潰。MPP數(shù)據(jù)庫采用分布式架構(gòu),由許多松耦合處理單元組成,每個單元內(nèi)CPU都有各自獨(dú)立資源,如總線、內(nèi)存、硬盤等,每個單元內(nèi)都有操作系統(tǒng)、管理數(shù)據(jù)庫的實(shí)例復(fù)本。
(2)處理數(shù)據(jù)量大。傳統(tǒng)的數(shù)據(jù)庫部署不能處理TB級數(shù)據(jù)。MPP數(shù)據(jù)庫能處理PB級數(shù)據(jù)。
(3)I/O處理能力強(qiáng)。傳統(tǒng)的數(shù)據(jù)庫采用集中式存儲,數(shù)據(jù)庫的性能問題均歸咎于I/O。而MPP采用無共享的并行處理架構(gòu),避免了集群中各節(jié)點(diǎn)在并行處理過程中的CPU、I/O、內(nèi)存、網(wǎng)絡(luò)等資源的爭奪,不會造成計(jì)算及存儲資源瓶頸。
(4)采用列存儲??蓪⒎植际綌?shù)據(jù)處理系統(tǒng)中以記錄為單位的存儲結(jié)構(gòu)變成以列為單位的存儲結(jié)構(gòu),進(jìn)而減少磁盤訪問數(shù)據(jù),提高查詢處理能力。
為此,本文提出了融合Hadoop和MPP的技術(shù)架構(gòu),來構(gòu)建流域梯級水電站電力生產(chǎn)數(shù)據(jù)中心。
電力數(shù)據(jù)中心的系統(tǒng)架構(gòu)設(shè)計(jì)不僅需要考慮數(shù)據(jù)應(yīng)用業(yè)務(wù)層面的需求,同時也要滿足系統(tǒng)數(shù)據(jù)的完整性、一致性,系統(tǒng)性能的穩(wěn)定性、可擴(kuò)展性等方面要求。按照分級、分層的設(shè)計(jì)理念,水電站電力數(shù)據(jù)中心由三大平臺構(gòu)成,分別為硬件平臺、大數(shù)據(jù)平臺、業(yè)務(wù)應(yīng)用平臺。硬件平臺是電力生產(chǎn)數(shù)據(jù)中心的基礎(chǔ),為大數(shù)據(jù)平臺、智能應(yīng)用平臺提供計(jì)算、存儲、網(wǎng)絡(luò)等硬件網(wǎng)絡(luò)支撐。大數(shù)據(jù)平臺則是電力生產(chǎn)數(shù)據(jù)中心的核心,為數(shù)據(jù)中心提供數(shù)據(jù)采集、存儲計(jì)算、分析處理等所需的核心組件,并提供電力生產(chǎn)數(shù)據(jù)中心的最基本的服務(wù)應(yīng)用。業(yè)務(wù)應(yīng)用平臺則對企業(yè)電力生產(chǎn)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)、模型進(jìn)行深入挖掘、分析,為公司的電力生產(chǎn)提供重要的服務(wù)保障,為公司的智能運(yùn)維管理決策工作提供有力支撐。系統(tǒng)架構(gòu)如圖3所示。
圖3 電力生產(chǎn)數(shù)據(jù)中心系統(tǒng)平臺架構(gòu)
3.2.1 數(shù)據(jù)采集
對于大數(shù)據(jù)平臺而言,數(shù)據(jù)采集是指從各業(yè)務(wù)或跨平臺的信息系統(tǒng)中獲取規(guī)范的生產(chǎn)、運(yùn)行、管理數(shù)據(jù),供分析系統(tǒng)使用。
數(shù)據(jù)采集途徑分為信息內(nèi)網(wǎng)數(shù)據(jù)獲取或信息外網(wǎng)數(shù)據(jù)獲取。數(shù)據(jù)獲取/轉(zhuǎn)換裝置部署在信息內(nèi)網(wǎng),處于信息外網(wǎng)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)需通過安全隔離裝置獲取。數(shù)據(jù)獲取的整體思路是基于企業(yè)服務(wù)總線,采集數(shù)據(jù)接口、數(shù)據(jù)中心共享、網(wǎng)絡(luò)隔離下的安全文件傳輸?shù)确绞?,通過配置相關(guān)策略,定義相關(guān)接口、周期、調(diào)用頻率和對象等參數(shù),自動從業(yè)務(wù)系統(tǒng)中抽取數(shù)據(jù),解決跨平臺數(shù)據(jù)庫訪問、跨平臺大數(shù)據(jù)文件高速并發(fā)讀取、跨平臺數(shù)據(jù)安全傳輸與同步等關(guān)鍵問題。數(shù)據(jù)獲取系統(tǒng)主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),可實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化接入、傳輸、監(jiān)控和管理等。
3.2.2 數(shù)據(jù)存儲計(jì)算
電力生產(chǎn)數(shù)據(jù),除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)以外,還包括海量規(guī)模的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)。面向非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)存儲,傳統(tǒng)的集中式、陣列式存儲模式由于存在擴(kuò)容不方便、可靠性不高、可用性不佳等問題已然無法應(yīng)對多重化的電力生產(chǎn)數(shù)據(jù)類型、數(shù)據(jù)規(guī)模以及異構(gòu)性方面帶來的挑戰(zhàn)。故而,本文構(gòu)建關(guān)系型數(shù)據(jù)庫、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫的混合式數(shù)據(jù)庫架構(gòu),來實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量電力生產(chǎn)數(shù)據(jù)的集中存儲與統(tǒng)一管理,以滿足大量、多樣化數(shù)據(jù)的低成本、高性能存儲需求。混合存儲架構(gòu)設(shè)計(jì)如圖4所示。
圖4 混合存儲架構(gòu)設(shè)計(jì)
電力生產(chǎn)數(shù)據(jù)中心在業(yè)務(wù)應(yīng)用設(shè)計(jì)可從大數(shù)據(jù)平臺的基礎(chǔ)應(yīng)用和基于數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)深度挖掘的智能應(yīng)用兩個方面考慮。
3.3.1 基礎(chǔ)應(yīng)用
(1)數(shù)據(jù)服務(wù)功能。支持可視化配置Restful API、E文件、Kafaka等方式獲取數(shù)據(jù),用戶可簡單、快速、低成本、低風(fēng)險(xiǎn)地實(shí)現(xiàn)微服務(wù)聚合、前后端分離等服務(wù)。
(2)權(quán)限服務(wù)功能?;谟脩簟①Y源、角色三位一體的設(shè)計(jì)思想,為系統(tǒng)提供統(tǒng)一的用戶管理、受控資源管理、角色管理、授權(quán)管理和安全控制管理。權(quán)限管理機(jī)制一方面可以在宏觀上控制用戶對功能頁面的訪問權(quán)限;另一方面可以在微觀上定制用戶的微觀操作權(quán)限。
(3)文件服務(wù)功能??蔀槠脚_內(nèi)的各級應(yīng)用提供統(tǒng)一的文件及目錄共享存儲管理功能,包括創(chuàng)建文件、讀取文件、刪除文件、版本管理、創(chuàng)建目錄、羅列目錄、刪除目錄、重命名等功能。此外,還可提供橫向跨安全區(qū)、縱向跨調(diào)度系統(tǒng)的文件同步功能。
(4)智能報(bào)表功能。可為各類業(yè)務(wù)提供報(bào)表編制、管理、查詢、分析與導(dǎo)出服務(wù),實(shí)現(xiàn)所見即所得的各類報(bào)表的制作、調(diào)用、打印等功能。
(5)智能搜索功能??商峁┮环N面向電力生產(chǎn)全業(yè)務(wù)海量數(shù)據(jù)的,智能、高效、準(zhǔn)確、全面的信息獲取、發(fā)現(xiàn)、推送手段。
(6)可視化展示功能。通過對流域梯級電站基礎(chǔ)運(yùn)行數(shù)據(jù)、分析數(shù)據(jù)、GIS地理信息等運(yùn)行狀態(tài)信息、告警監(jiān)測信息等大量事物數(shù)據(jù)的圖形化,將抽象的數(shù)據(jù)整理成直觀易懂的信息,從而用戶可從復(fù)雜海量數(shù)據(jù)中發(fā)現(xiàn)問題。另外,根據(jù)已有的數(shù)據(jù)和規(guī)則建模,應(yīng)用可視化技術(shù)進(jìn)行情景模擬,預(yù)測未來的情況。
3.3.2 智能應(yīng)用
電力生產(chǎn)數(shù)據(jù)中心的規(guī)劃建設(shè)旨在為流域梯級電站的智能調(diào)度、智能決策、智能發(fā)電運(yùn)行、智能設(shè)備維護(hù)等智能化應(yīng)用提供數(shù)據(jù)支撐。在智能應(yīng)用模塊,可考慮結(jié)合水電站智能化、信息化技術(shù)的發(fā)展,以及流域發(fā)電公司的智能化建設(shè)發(fā)展戰(zhàn)略規(guī)劃,從電力設(shè)備運(yùn)行狀態(tài)分析、流域梯級電站優(yōu)化調(diào)度策略研究、電力市場營銷策略研究等方面進(jìn)行規(guī)劃設(shè)計(jì),從而完善電力生產(chǎn)數(shù)據(jù)中心的高級智能應(yīng)用功能建設(shè)。
電力生產(chǎn)數(shù)據(jù)中心硬件平臺是承載系統(tǒng)軟件平臺的基礎(chǔ),通常采用x86物理服務(wù)器。同時,根據(jù)數(shù)據(jù)接入量和數(shù)據(jù)存儲處理量,對服務(wù)器性能和數(shù)量進(jìn)行詳細(xì)配置。以某流域公司電力生產(chǎn)數(shù)據(jù)中心建設(shè)為例,據(jù)該項(xiàng)目接入電力生產(chǎn)數(shù)據(jù)中心的各業(yè)務(wù)系統(tǒng)數(shù)據(jù)量如表1所示。
表1 某流域公司電力生產(chǎn)數(shù)據(jù)中心各業(yè)務(wù)系統(tǒng)數(shù)據(jù)量
從表1可知,電力生產(chǎn)數(shù)據(jù)中心需要接入現(xiàn)有業(yè)務(wù)數(shù)據(jù)量約為20 TB,每年以8 TB的增量考慮,同時預(yù)留30%空間用于存儲臨時數(shù)據(jù)。按照性能滿足未來3年的發(fā)展需求,保證平臺穩(wěn)定、可靠、高效運(yùn)行,另外上述各業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照模型數(shù)據(jù)、運(yùn)行數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、統(tǒng)計(jì)分析數(shù)據(jù)進(jìn)行分類,可分為MPP架構(gòu)存儲結(jié)構(gòu)化數(shù)據(jù),Hadoop架構(gòu)存儲歷史數(shù)據(jù),HDFS存放歷史備份數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù),如文件、圖片、視頻等。
考慮Hadoop架構(gòu)和MPP架構(gòu)分別按照三副本和雙副本進(jìn)行數(shù)據(jù)存儲。Hadoop節(jié)點(diǎn)單節(jié)點(diǎn)采用配置為,2個X86架構(gòu)CPU,18核,主頻2.6 GHz,512 GB內(nèi)存;2塊600GB 10K SAS硬盤、12塊4TB 7.2K SATA硬盤。MPP節(jié)點(diǎn)單節(jié)點(diǎn)采用配置為,2個X86架構(gòu)CPU,18核,主頻2.6 GHz,512 GB內(nèi)存;2塊600GB 10K SAS硬盤、24塊1.2TB 10K SATA硬盤。故本項(xiàng)目規(guī)劃配置MPP數(shù)據(jù)庫集群計(jì)算節(jié)點(diǎn)數(shù)為4臺,Hadoop集群計(jì)算節(jié)點(diǎn)數(shù)為8臺。此外,該項(xiàng)目還需配置4臺數(shù)據(jù)采集及應(yīng)用服務(wù)器,通過虛擬化來部署采集調(diào)度器程序、采集執(zhí)行器程序、服務(wù)總線、日志服務(wù)程序等應(yīng)用等數(shù)據(jù)接入工作以及大數(shù)據(jù)平臺的基礎(chǔ)業(yè)務(wù)應(yīng)用服務(wù)等工作。電力生產(chǎn)數(shù)據(jù)中心的硬件組網(wǎng)架構(gòu)如圖5所示。
圖5 電力生產(chǎn)數(shù)據(jù)中心硬件組網(wǎng)架構(gòu)設(shè)計(jì)
本文提出了基于Hadoop和MPP融合技術(shù)架構(gòu)的流域梯級水電站電力生產(chǎn)數(shù)據(jù)中心建設(shè)方案,通過構(gòu)建混合數(shù)據(jù)庫,對結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)等多類型的電力生產(chǎn)數(shù)據(jù)的存儲、計(jì)算、分析等處理,具有低延時、高并發(fā)的查詢和分析能力。同時,從流域梯級水電站實(shí)際運(yùn)管業(yè)務(wù)出發(fā),設(shè)計(jì)流域水電站電力生產(chǎn)數(shù)據(jù)中心的業(yè)務(wù)功能應(yīng)用模塊,為智能水電站、智能集控的發(fā)展提出了新思路,助力流域水電公司打造信息化、智能化清潔能源基地建設(shè)具有重要意義。
為確保水電站電力生產(chǎn)數(shù)據(jù)模型及數(shù)據(jù)編碼一致性、規(guī)范性,后續(xù)還需針對流域梯級水電站電力生產(chǎn)數(shù)據(jù)中心的數(shù)據(jù)信息模型編碼規(guī)范進(jìn)行深入研究。