國能大渡河大崗山發(fā)電有限公司 楊娟 楊軍 何亞東
為了滿足水電站等能源產(chǎn)業(yè)向智慧型發(fā)展的需要,一些電站開始引入信息化技術(shù),使其融入到電力生產(chǎn)的各個環(huán)節(jié)中,數(shù)據(jù)中心作為電站信息系統(tǒng)運行的核心組件,其承擔(dān)著對關(guān)鍵業(yè)務(wù)的計算、運營業(yè)務(wù)的承載以及數(shù)據(jù)存儲和備份的重要任務(wù),隨著數(shù)據(jù)量日益增大,數(shù)據(jù)項越來越龐雜,電站對數(shù)據(jù)中心的依賴性越來越大,信息化系統(tǒng)最大的價值就是數(shù)據(jù),保護好數(shù)據(jù)尤為重要,這些數(shù)據(jù)影響著電站運行的方方面面,因此需要對數(shù)據(jù)的傳輸和存儲加強管理,以確保水電站數(shù)據(jù)的安全。近幾年一些銀行和航空企業(yè)的數(shù)據(jù)系統(tǒng)故障帶來的社會影響,讓我們不得不引起重視,一旦發(fā)生意外,有可能直接造成核心業(yè)務(wù)癱瘓,帶來嚴(yán)重的后果。
通過梳理電站數(shù)據(jù)中心業(yè)務(wù)現(xiàn)狀,影響數(shù)據(jù)安全的主要有以下幾點問題:
(1)缺乏整體規(guī)劃。電站數(shù)據(jù)機房集成了多個業(yè)務(wù)系統(tǒng),涉及軟硬件眾多,新系統(tǒng)缺乏長遠規(guī)劃,導(dǎo)致數(shù)據(jù)中心管理混亂,系統(tǒng)架構(gòu)臃腫無序,計算、存儲的需求在各個服務(wù)器之間不均衡,大量的軟硬件資源被浪費。
(2)硬件故障隱患。數(shù)據(jù)中心前期搭建過程中,數(shù)據(jù)量及相應(yīng)的訪問量并沒有達到過多,所以采用單服務(wù)器的模式運行,且數(shù)據(jù)存放于外置存儲,發(fā)生故障將導(dǎo)致數(shù)據(jù)不可用,業(yè)務(wù)宕機。同時業(yè)務(wù)軟件和硬件緊耦合,追加容量一般只追加磁盤,隨著容量變多后存儲性能容易成為瓶頸,無法實現(xiàn)容量和性能的線性平滑擴容。
(3)數(shù)據(jù)存儲隱患。隨著越來越多的業(yè)務(wù)系統(tǒng)上線,隨之而來的是相應(yīng)的業(yè)務(wù)操作不熟練問題對數(shù)據(jù)產(chǎn)生巨大風(fēng)險,因不規(guī)范的使用方法將會造成業(yè)務(wù)數(shù)據(jù)被誤操作、誤刪除,海量數(shù)據(jù)丟失的風(fēng)險直線上升,且系統(tǒng)缺乏專門的數(shù)據(jù)管理制度和存儲備份恢復(fù)保護機制,一旦發(fā)生故障導(dǎo)致數(shù)據(jù)丟失無法恢復(fù),將導(dǎo)致電站業(yè)務(wù)平臺癱瘓,造成重大經(jīng)濟損失。
數(shù)據(jù)容災(zāi)系統(tǒng)(如圖1 所示)采用軟件虛擬化技術(shù)對電站業(yè)務(wù)系統(tǒng)進行虛擬化,將計算、存儲、網(wǎng)絡(luò)、安全等資源虛擬融合到一臺服務(wù)器中,構(gòu)建水電站超融合統(tǒng)一平臺架構(gòu),采用UXDB 作為數(shù)據(jù)庫支撐軟件,實現(xiàn)對數(shù)據(jù)操作和數(shù)據(jù)存儲方式的分離管理,結(jié)合電站業(yè)務(wù)實際,研究并制定可靠的數(shù)據(jù)備份策略,設(shè)計可視化數(shù)據(jù)庫管理界面,實現(xiàn)數(shù)據(jù)備份進度、數(shù)據(jù)備份質(zhì)量、數(shù)據(jù)同步風(fēng)險等信息展示,進一步提高運維效率和質(zhì)量。
圖1 數(shù)據(jù)容災(zāi)系統(tǒng)總體設(shè)計架構(gòu)Fig.1 Overall design architecture of data disaster recovery system
超融合服務(wù)器作為數(shù)據(jù)存儲備份的硬件支撐,將傳統(tǒng)業(yè)務(wù)系統(tǒng)使用虛擬化技術(shù)進行支持,通過虛擬化網(wǎng)絡(luò)組件進行連接和網(wǎng)絡(luò)邏輯隔離,虛擬化存儲組件構(gòu)建統(tǒng)一的虛擬存儲池,具備良好的擴容性,滿足業(yè)務(wù)系統(tǒng)對數(shù)據(jù)存儲量的要求和高速I/O 的讀寫需求,實現(xiàn)業(yè)務(wù)數(shù)據(jù)的增長和平臺橫向擴展性。超融合結(jié)構(gòu)將整個系統(tǒng)的計算節(jié)點和存儲節(jié)點部署在同一位置,在提供存儲能力的同時具備計算能力,提高資源利用率[1]。
系統(tǒng)采用UXDB 作為數(shù)據(jù)庫支撐軟件,包括國產(chǎn)DB 數(shù)據(jù)處理引擎、國產(chǎn)DBDFS 分布式存儲、國產(chǎn)DB可選組件的部署,如圖2 所示。
圖2 數(shù)據(jù)庫系統(tǒng)架構(gòu)Fig.2 Database system architecture
2.3.1 國產(chǎn)DB 數(shù)據(jù)處理引擎
數(shù)據(jù)庫引擎是用于存儲、處理和保護數(shù)據(jù)的核心服務(wù)。當(dāng)訪問數(shù)據(jù)庫時,不是直接讀寫數(shù)據(jù)庫文件,而是通過數(shù)據(jù)庫引擎去訪問數(shù)據(jù)庫文件。當(dāng)SQL 語句給數(shù)據(jù)庫引擎時,數(shù)據(jù)庫引擎會解釋SQL 語句,提取數(shù)據(jù)給調(diào)用者。對于國產(chǎn)DB 數(shù)據(jù)處理引擎是保證水電站數(shù)據(jù)容災(zāi)機性能的核心部件。
數(shù)據(jù)庫引擎提供容災(zāi)備份相關(guān)任務(wù)如下:
(1)創(chuàng)建電站多業(yè)務(wù)數(shù)據(jù)庫以保存系統(tǒng)所需的關(guān)系或XML 文檔。
(2)創(chuàng)建能夠滿足電站業(yè)務(wù)需要的數(shù)據(jù)庫,優(yōu)化設(shè)計、創(chuàng)建和維護各個組件,確保數(shù)據(jù)庫的性能處于最佳狀態(tài)。
(3)提供有關(guān)如何有助于確保業(yè)務(wù)數(shù)據(jù)和日志文件安全的信息能力。
(4)提供日常數(shù)據(jù)備份管理支持,優(yōu)化數(shù)據(jù)庫存儲、查詢性能。
(5)提供業(yè)務(wù)數(shù)據(jù)備份系統(tǒng),數(shù)據(jù)存儲,查詢故障排除能力[2]。
2.3.2 國產(chǎn)DBDFS 分布式存儲
在分布式集群中增加數(shù)據(jù)服務(wù)的結(jié)點就可以無限的增加數(shù)據(jù)存儲的量,突破了本地磁盤和盤陣的容量存在存儲上限的瓶頸;分布式存儲將數(shù)據(jù)分散存儲在多臺獨立的設(shè)備上,突破了傳統(tǒng)的存儲系統(tǒng)因集中存放所有數(shù)據(jù)系統(tǒng)性能受限的瓶頸。
(1)分布式存儲打破數(shù)據(jù)庫數(shù)據(jù)的上限。傳統(tǒng)數(shù)據(jù)庫均采用本地文件系統(tǒng)或者磁盤陣列的方式進行數(shù)據(jù)存儲,理論上,這種存儲方式是有上限的,其上限取決于本地磁盤系統(tǒng)的容量或者磁盤陣列服務(wù)器的容量。而分布式存儲是沒有上限的,只要在分布式集群中增加數(shù)據(jù)服務(wù)的結(jié)點就可以無限的增加數(shù)據(jù)存儲的量。
(2)分布式存儲提升數(shù)據(jù)訪問性能。磁盤的I/O 一直是數(shù)據(jù)庫產(chǎn)品的軟肋,尤其當(dāng)數(shù)據(jù)增加到TB 甚至PB級別之后,這種I/O 的延遲將變得更為明顯。采用分布式存儲就是為了解決數(shù)據(jù)增加到TB 甚至PB 級別之后的I/O 瓶頸問題。眾所周知,相對于網(wǎng)絡(luò)技術(shù)的發(fā)展,磁盤I/O 的發(fā)展要遠遠滯后,分布式系統(tǒng)將數(shù)據(jù)訪問分散在不同的數(shù)據(jù)服務(wù)節(jié)點上,其效果是多個硬盤的同時讀寫操作(并發(fā)處理),該方式將傳統(tǒng)數(shù)據(jù)庫的磁盤I/O 的壓力轉(zhuǎn)化為網(wǎng)絡(luò)I/O,從而提升整體性能。
(3)分布式存儲集群和容錯。UXDB 是將數(shù)據(jù)處理(數(shù)據(jù)庫引擎)和數(shù)據(jù)存儲(分布式存儲)分離的數(shù)據(jù)庫系統(tǒng)。當(dāng)數(shù)據(jù)處理和數(shù)據(jù)存儲分離之后,數(shù)據(jù)庫引擎將不再參與數(shù)據(jù)的復(fù)制,該工作將由分布式存儲接管,UXDB 的分布式存儲系統(tǒng)支持:無復(fù)制、讀復(fù)制和讀寫復(fù)制。當(dāng)啟動了復(fù)制功能后,同一份數(shù)據(jù)會分別存儲在不同的數(shù)據(jù)內(nèi)容服務(wù)節(jié)點上,當(dāng)集群中任何一臺數(shù)據(jù)內(nèi)容服務(wù)結(jié)點失敗時,分布式存儲都將能夠提供完整的數(shù)據(jù),這將不會影響數(shù)據(jù)庫引擎的正常工作。此外,分布式存儲還包括DIR-目錄服務(wù)器、元數(shù)據(jù)和復(fù)制服務(wù)器,這兩種服務(wù)器均支持Hot-Standby 的集群。
(4)數(shù)據(jù)庫引擎的Hot-Standby 集群。數(shù)據(jù)庫引擎支持Hot-Standby 集群方式,該方式是通過以流方式實時復(fù)制WAL(Write、Headlog)實現(xiàn)的。流復(fù)制傳遞日志的方式有兩種,一種是異步方式;另一種是同步方式。異步方式是事務(wù)提交后不必等日志傳遞到Standby 即可返回,所以Standby 數(shù)據(jù)庫通常比Primary 數(shù)據(jù)庫落后很少;同步方式在Primary 數(shù)據(jù)庫提交事務(wù)時,一定會等到WAL 日志傳遞到Standby 后才會返回,這樣當(dāng)主備庫切換時可以做到零數(shù)據(jù)丟失。
根據(jù)電站需要,制定符合本電站生產(chǎn)及管理需要的數(shù)據(jù)容災(zāi)機制。系統(tǒng)結(jié)合全量備份和增量備份,初建進行人工的全量備份,將歷史數(shù)據(jù)加工清洗,分類存儲到對應(yīng)的備份倉中,實現(xiàn)數(shù)據(jù)操作和存儲的分離管理。針對各業(yè)務(wù)的實時數(shù)據(jù)采集的秒、小時、日、周、月級的需求,自主備份采用增量方式實現(xiàn)了實時備份,最小備份1周至最大30 日的備份間隔策略。系統(tǒng)備份數(shù)據(jù)范圍包括數(shù)據(jù)庫數(shù)據(jù)、生產(chǎn)PLC 程序、工作文件,除自主備份外的數(shù)據(jù)集合外,建成圖形化文件管理的即時操作功能。
系統(tǒng)提供可視化的數(shù)據(jù)中心備份管理、國產(chǎn)化數(shù)據(jù)庫可視化管理功能(如圖3 所示)。
圖3 可視化界面Fig.3 Visualization interface
設(shè)計可視化數(shù)據(jù)庫管理界面,實現(xiàn)數(shù)據(jù)備份進度、質(zhì)量、同步風(fēng)險等信息展示。
當(dāng)業(yè)務(wù)發(fā)生故障,可通過超融合平臺故障檢測工具,快速定位網(wǎng)絡(luò)故障的節(jié)點。同時可以清晰展示虛擬機、虛擬網(wǎng)絡(luò)間流量,實時獲取數(shù)據(jù)中心業(yè)務(wù)狀態(tài)[3]。
通過搭建電站超融合數(shù)據(jù)中心,建立了數(shù)據(jù)容災(zāi)備份系統(tǒng),應(yīng)用國產(chǎn)數(shù)據(jù)庫實現(xiàn)了電站關(guān)鍵系統(tǒng)的數(shù)據(jù)容災(zāi)備份,并應(yīng)用數(shù)據(jù)圖形化管理工具,實現(xiàn)電站重要數(shù)據(jù)如PLC 程序、設(shè)備資料等數(shù)據(jù)的統(tǒng)一存儲管理。基于國產(chǎn)化數(shù)據(jù)庫應(yīng)用的超融合水電站數(shù)據(jù)容災(zāi)機制研究及應(yīng)用,可有效降低電站數(shù)據(jù)風(fēng)險,保障站內(nèi)設(shè)備安全穩(wěn)定運行。按每年減少1 次數(shù)據(jù)事故預(yù)估,可減少故障處理工期10天,節(jié)約故障處理直接損失約80 萬元,減少數(shù)據(jù)維護成本50 萬/年。
當(dāng)前國際態(tài)勢下,做好我國能源和數(shù)據(jù)安全的自主可控研究是個迫切的課題。關(guān)鍵發(fā)電企業(yè)的容災(zāi)備份系統(tǒng)建設(shè)及研究有利于增加能源安全性,數(shù)據(jù)可靠性。本文對水電站國產(chǎn)數(shù)據(jù)庫容災(zāi)備份體系做了多方面研究,結(jié)合實際問題和需求,做了容災(zāi)體系建設(shè)標(biāo)準(zhǔn)探索及系統(tǒng)應(yīng)用嘗試,形成了國產(chǎn)自主的電站數(shù)據(jù)庫雙向備份架構(gòu)體系,并利用超融合架構(gòu)與國產(chǎn)數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)容災(zāi)備份的一體化管理。
引用
[1] 馬曉明,張新博.面向達夢數(shù)據(jù)庫的應(yīng)用系統(tǒng)移植研究與實現(xiàn)[J].電腦編程技巧與維護,2021(4):82-84.
[2] 周亞潔.數(shù)據(jù)庫國產(chǎn)化替代面臨的問題及對策研究[J].信息安全研究,2018,4(1):24-30.
[3] 張歡.某企業(yè)數(shù)據(jù)中心容災(zāi)系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院),2015.