謝智勇
(廣東電網(wǎng)有限責(zé)任公司韶關(guān)供電局,廣東 韶關(guān)512026)
隨著電網(wǎng)公司信息化建設(shè)的不斷深入,信息系統(tǒng)建設(shè)模式也隨之發(fā)生了很大的變化,從之前粗放式分散建設(shè)逐漸向大集中方式轉(zhuǎn)變。在這種發(fā)展趨勢下,各種風(fēng)險因素對信息系統(tǒng)造成的影響范圍和程度進一步加大。如何保證重要業(yè)務(wù)數(shù)據(jù)的安全、提高信息系統(tǒng)可靠性和可用性,促進電網(wǎng)企業(yè)經(jīng)營和管理水平更上新臺階,成為公司信息化工作急待解決的問題。
建設(shè)災(zāi)備中心是應(yīng)對應(yīng)用大集中后信息系統(tǒng)高風(fēng)險的必要手段。目前營銷等核心系統(tǒng)已開始初步的容災(zāi)系統(tǒng)建設(shè)工作,其他非核心的業(yè)務(wù)系統(tǒng)主要提供業(yè)務(wù)輔助支撐類功能,考慮到業(yè)務(wù)關(guān)聯(lián)性和聯(lián)動性,一旦出現(xiàn)異常很可能影響關(guān)聯(lián)的核心業(yè)務(wù)系統(tǒng)無法正常使用,影響客戶體驗,因此需要擴展容災(zāi)覆蓋范圍,進一步提升信息系統(tǒng)的業(yè)務(wù)連續(xù)性保障能力。
另一方面,當(dāng)前建設(shè)完成的容災(zāi)中心為數(shù)據(jù)準(zhǔn)雙活級別,僅能保證主備兩端的數(shù)據(jù)一致。為實現(xiàn)RTO、RPO目標(biāo),需要對所有基礎(chǔ)支撐類系統(tǒng)采用異地雙生產(chǎn)中心、異地數(shù)據(jù)級災(zāi)備補充方式進行容災(zāi),即兩個生產(chǎn)中心雙活的運行環(huán)境配置同時提供應(yīng)用訪問。
同城災(zāi)備系統(tǒng)建設(shè)方案簡要設(shè)計如圖1所示。
圖1 災(zāi)備系統(tǒng)邏輯架構(gòu)圖
(1)接入層:通過F5負(fù)載均衡和智能DNS域名解析服務(wù)器實現(xiàn)對用戶訪問路徑的解析及判斷。對用戶的訪問可通過以上結(jié)合方式,實現(xiàn)用戶無感知訪問業(yè)務(wù)。
(2)應(yīng)用層:應(yīng)用級災(zāi)備中心對各系統(tǒng)應(yīng)用服務(wù)器集中部署,同時需保證兩端業(yè)務(wù)系統(tǒng)的版本一致性。應(yīng)用程序版本可通過應(yīng)用系統(tǒng)版本統(tǒng)一發(fā)布平臺實現(xiàn)兩中心之間業(yè)務(wù)系統(tǒng)版本的統(tǒng)一發(fā)布,同時在線服務(wù),故障時采用重連的方式恢復(fù)用戶業(yè)務(wù)。
(3)數(shù)據(jù)層:分為結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。
a.結(jié)構(gòu)化數(shù)據(jù):采用基于數(shù)據(jù)庫的Oracle Ex-tended RAC方式進行數(shù)據(jù)復(fù)制,通過IP網(wǎng)絡(luò)進行數(shù)據(jù)庫數(shù)據(jù)復(fù)制,該方式搭建四節(jié)點的rac,asm卷管理采用鏡像的方式,并增加第三方仲裁盤,既不改變數(shù)據(jù)文件的管理方式,也不改變數(shù)據(jù)庫原有結(jié)構(gòu)。
b.非結(jié)構(gòu)化數(shù)據(jù):采用基于NAS災(zāi)備文件系統(tǒng),對兩端非結(jié)構(gòu)化數(shù)據(jù)進行實時同步。
災(zāi)備建設(shè)以雙生產(chǎn)中心為目標(biāo),避免切換帶來的不確定結(jié)果,一般災(zāi)備中心機房距離控制在50 km以內(nèi),RTO、RPO時間均可實現(xiàn)5分鐘的目標(biāo)。
結(jié)構(gòu)化數(shù)據(jù)的復(fù)制技術(shù)相對成熟,業(yè)界目前一般普遍采用 EMC Vplex結(jié)合 Oracle Extended RAC的成熟解決方案。通過EMC Vplex或其他類似存儲同步技術(shù)實現(xiàn)跨IDC機房的存儲共享和數(shù)據(jù)復(fù)制,借助Oracle Extended RAC數(shù)據(jù)庫雙活技術(shù)實現(xiàn)跨節(jié)點的遠(yuǎn)程并行訪問能力,同時Oracle ASM磁盤管理技術(shù)優(yōu)先訪問本地IDC磁盤,極大減少了跨IDC機房的數(shù)據(jù)交換需求,降低了磁盤I/O和網(wǎng)絡(luò)帶寬壓力;另外不同IDC機房的數(shù)據(jù)庫節(jié)點,通過自身的Oracle ASM存儲進行管理,通過SAN存儲網(wǎng)絡(luò)實現(xiàn)數(shù)據(jù)的雙向?qū)崟r復(fù)制,避免存儲復(fù)制集成使用帶來的潛在的兼容性、實時性問題,極大減少了數(shù)據(jù)復(fù)制節(jié)點帶來的多節(jié)點維護難度和運維風(fēng)險。
Oracle ADG復(fù)制方式是對于oracle數(shù)據(jù)庫雙活容災(zāi)方案的一個補充,目的是基于遠(yuǎn)距離的數(shù)據(jù)保護以及應(yīng)對部分?jǐn)?shù)據(jù)邏輯錯誤,采用Oracle ADG技術(shù),這個模式采用從主庫向備庫網(wǎng)絡(luò)傳輸redo日志方式,備庫恢復(fù)數(shù)據(jù)過程可以用只讀方式打開進行查詢操作,在主節(jié)點故障后可以將備節(jié)點切為生產(chǎn),以及恢復(fù)部分因為人為誤操作帶來的錯誤或者缺漏數(shù)據(jù)。兩種方式都比較成熟,各有優(yōu)劣,可按照自身實際情況選擇。
對于非結(jié)構(gòu)化數(shù)據(jù)的復(fù)制,由于目前大部分業(yè)務(wù)系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)所使用的磁盤為SAN存儲,對比非結(jié)構(gòu)化存儲的方式如下:
(1)由于非結(jié)構(gòu)化數(shù)據(jù)的特殊性(文件不統(tǒng)一、零散),非結(jié)構(gòu)化數(shù)據(jù)在NAS文件存儲上處理效率比在SAN存儲上要較高。
(2)通過SAN存儲,非結(jié)構(gòu)化的應(yīng)用系統(tǒng)需要重新搭建,因此建議將其改造為NAS存儲。采用NAS雙活文件存儲系統(tǒng)實現(xiàn)雙活,數(shù)據(jù)在同一時間是真實寫在雙邊存儲,保證數(shù)據(jù)的完全一致。
在應(yīng)用節(jié)點方面,采用集群配置,動態(tài)擴展。選型時一般建議第二生產(chǎn)中心加域并單獨建域,若不采用在原域加節(jié)點的方法;采用12c Dynamic-cluster集群部署,在生產(chǎn)中心出現(xiàn)問題時,第二生產(chǎn)中心可以動態(tài)擴展?jié)M足要求。
災(zāi)備網(wǎng)絡(luò)作為整個容災(zāi)環(huán)境基礎(chǔ)中的基礎(chǔ),對于第一生產(chǎn)中心與第二生產(chǎn)中心的網(wǎng)絡(luò)切換及應(yīng)用層面的切換采用F5加智能DNS域名解析方式實現(xiàn)切換。第二生產(chǎn)中心系統(tǒng)接入綜合數(shù)據(jù)網(wǎng)與第一生產(chǎn)數(shù)據(jù)中心交互,第一生產(chǎn)中心與第二生產(chǎn)中心采用不同的綜合數(shù)據(jù)網(wǎng)接入點,機房需按照安全要求配置防火墻等安全設(shè)備。
災(zāi)備中心調(diào)度規(guī)章流程制度,災(zāi)備中心的建設(shè),需具備運維組織架構(gòu)、管理制度體系建設(shè)、運維體系演進。
(1)運維組織架構(gòu)
人員和架構(gòu):針對多數(shù)據(jù)中心的建設(shè)特點,原則上第二生產(chǎn)中心的運維組織架構(gòu)設(shè)計需要嚴(yán)格參照主生產(chǎn)中心的運維模式成立,一方面是從組織架構(gòu)和崗位職責(zé)方面提供可靠的組織能力保障,為數(shù)據(jù)中心的日常基礎(chǔ)運營、后勤支撐等提供支撐服務(wù)。另一方面確保了多個數(shù)據(jù)中心具備統(tǒng)一指揮、統(tǒng)一調(diào)度、各司其職、協(xié)同運維的能力,有利于確保IDC運維的規(guī)范性和一致性,從而確保多數(shù)據(jù)中心的安全穩(wěn)定運營。
(2)管理制度體系建設(shè)
運維管理體系:借鑒國內(nèi)ITSS信息技術(shù)服務(wù)標(biāo)準(zhǔn),針對核心生產(chǎn)業(yè)務(wù)制定針對性的運維管理、災(zāi)難恢復(fù)演練、應(yīng)急切換和回退等管理制度,保障跨多生產(chǎn)中心運營的各項企業(yè)核心業(yè)務(wù)安全、穩(wěn)定、高效運行。
運維技術(shù)支撐體系:多生產(chǎn)中心運營涉及的技術(shù)架構(gòu)復(fù)雜、技術(shù)多樣,除了需要專業(yè)人員組織保障,也離不開多種專業(yè)運維支撐工具和平臺,例如多維監(jiān)控告警系統(tǒng)、自動化運維平臺、統(tǒng)一服務(wù)管理門戶等。
安全管理體系:安全管理在運維管理中無處不在,從網(wǎng)絡(luò)安全到數(shù)據(jù)安全等面面俱到,通盤考慮安全服務(wù)配置及安全管理工作,提升信息安全自主可控能力。
(3)運維
伴隨著雙活災(zāi)備技術(shù)的不斷發(fā)展和進步,多個數(shù)據(jù)中心承載的關(guān)鍵業(yè)務(wù)也在進一步演變,包括災(zāi)備應(yīng)急恢復(fù)、數(shù)據(jù)恢復(fù)演練、業(yè)務(wù)切換和回退、災(zāi)備應(yīng)急演練也需要與時俱進不斷發(fā)展,結(jié)合企業(yè)實際情況和業(yè)界先進的ITSS信息技術(shù)服務(wù)標(biāo)準(zhǔn),從管理模式、人員組織、管理流程、工具平臺、制度規(guī)范、安全管理等方面不斷優(yōu)化運維體系,從人員、流程、工具、技術(shù)和資源等各個方面為多數(shù)據(jù)中心生產(chǎn)業(yè)務(wù)的長期穩(wěn)定運行提供有力保障。
本文著眼于災(zāi)備系統(tǒng)的建設(shè),從多階段、多層面針對各類型重要信息系統(tǒng)進行數(shù)據(jù)的安全、系統(tǒng)可靠性和可用性方面的提升。在災(zāi)難發(fā)生時,通過預(yù)先定義好的流程和方法,協(xié)調(diào)各方面資源,抵御信息系統(tǒng)所面臨的各種風(fēng)險,有效縮短信息系統(tǒng)的服務(wù)停止時間和數(shù)據(jù)丟失時間,降低災(zāi)難發(fā)生時給企業(yè)帶來的損失。