闕凌燕,陳利躍,黃 斌
(浙江電力調(diào)度通信中心,杭州 310007)
浙江電力調(diào)度管理信息系統(tǒng)采用先進(jìn)、成熟的信息技術(shù),以數(shù)據(jù)為中心,以實(shí)時(shí)和準(zhǔn)實(shí)時(shí)系統(tǒng)為主框架,根據(jù)具體技術(shù)業(yè)務(wù)需求,完成了6大專業(yè)、62個(gè)專業(yè)模塊、56個(gè)工作流的開發(fā),涵蓋了調(diào)度生產(chǎn)和行政管理的絕大部分業(yè)務(wù)。經(jīng)過多年的應(yīng)用和不斷完善發(fā)展,調(diào)度管理信息系統(tǒng)已經(jīng)成為浙江省電力調(diào)度中心不可或缺的應(yīng)用平臺(tái)。如何提高系統(tǒng)數(shù)據(jù)安全性、可靠性、可用性也顯得越來越重要。
因此,需設(shè)計(jì)構(gòu)建一套合理的數(shù)據(jù)保護(hù)方案,以保障系統(tǒng)在災(zāi)難或突發(fā)事件時(shí)仍能穩(wěn)定運(yùn)行和正常應(yīng)用。即使出現(xiàn)數(shù)據(jù)庫故障或崩潰,也不必中斷業(yè)務(wù)應(yīng)用即能迅速恢復(fù)系統(tǒng)和數(shù)據(jù),保證系統(tǒng)業(yè)務(wù)的連續(xù)性。
系統(tǒng)原有數(shù)據(jù)保護(hù)采用傳統(tǒng)備份陣列加磁帶庫方式,數(shù)據(jù)庫服務(wù)器直接通過光纖通道卡和SAN交換機(jī)將數(shù)據(jù)以LAN-Free方式備份到磁帶庫。當(dāng)系統(tǒng)故障時(shí),備份系統(tǒng)找出最后完整備份的磁帶,恢復(fù)系統(tǒng)和數(shù)據(jù)。這種備份模式存在以下缺陷:
(1)系統(tǒng)備份和恢復(fù)的時(shí)間長,無法做到對(duì)數(shù)據(jù)進(jìn)行高頻率的備份。
(2)由于備份代理會(huì)影響主機(jī)的性能,備份過程影響生產(chǎn)系統(tǒng)的運(yùn)行,因此備份時(shí)間都必須安排在半夜業(yè)務(wù)量少的時(shí)間段進(jìn)行。
(3)傳統(tǒng)備份方式無法驗(yàn)證日常的備份數(shù)據(jù)在突發(fā)故障時(shí)能否恢復(fù)成功。當(dāng)發(fā)生災(zāi)難時(shí),不能保證用戶數(shù)據(jù)快速恢復(fù),影響用戶應(yīng)用的連續(xù)性和數(shù)據(jù)完整性。
一旦出現(xiàn)故障,長時(shí)間的系統(tǒng)應(yīng)用中斷將極大地影響工作正常進(jìn)行,對(duì)此尋求了新一代連續(xù)數(shù)據(jù)保護(hù)技術(shù) CDP (continuous data protection)。CDP技術(shù)可以捕捉到一切文件級(jí)或數(shù)據(jù)塊級(jí)別的數(shù)據(jù)改動(dòng),可以對(duì)備份對(duì)象進(jìn)行更加細(xì)化的保護(hù)與恢復(fù)。當(dāng)出現(xiàn)數(shù)據(jù)丟失、損壞或安全問題時(shí),數(shù)據(jù)庫系統(tǒng)可以迅速恢復(fù)到指定時(shí)間點(diǎn),特別是恢復(fù)到最新時(shí)刻的數(shù)據(jù)一致狀態(tài),可以連續(xù)捕獲數(shù)據(jù)變化并進(jìn)行準(zhǔn)實(shí)時(shí)備份。
新一代CDP數(shù)據(jù)保護(hù)技術(shù)建立了一個(gè)近似虛擬存儲(chǔ)系統(tǒng),應(yīng)用系統(tǒng)可以在不同的存儲(chǔ)設(shè)備上透明切換,采用CDP技術(shù)的優(yōu)勢在于:
(1)所有業(yè)務(wù)和應(yīng)用數(shù)據(jù)實(shí)時(shí)鏡像,基于塊級(jí)的實(shí)時(shí)系統(tǒng)克隆,為所有業(yè)務(wù)系統(tǒng)提供保障。
(2)對(duì)系統(tǒng)的保護(hù)均不改變?nèi)魏蜗到y(tǒng)現(xiàn)狀,不影響主機(jī)性能,輕松實(shí)現(xiàn)災(zāi)難防御體系。
(3)系統(tǒng)出現(xiàn)任何故障時(shí),都可以利用CDP技術(shù)實(shí)現(xiàn)快速恢復(fù)。
(4)自動(dòng)產(chǎn)生數(shù)據(jù)快照。CDP技術(shù)對(duì)每一個(gè)應(yīng)用都可以產(chǎn)生多達(dá)256個(gè)數(shù)據(jù)快照,可以在幾秒鐘內(nèi)將龐大的系統(tǒng)歷史版本展現(xiàn)出來。
(5)數(shù)據(jù)保護(hù)精細(xì)化。CDP技術(shù)保存和恢復(fù)的數(shù)據(jù),其間隔和粒度改變了傳統(tǒng)的粗放型 (如傳統(tǒng)的一天一備份),走向了精細(xì)化。
系統(tǒng)采用3臺(tái)HP UNIX服務(wù)器,圖1中所示數(shù)據(jù)庫服務(wù)器(1,2)為生產(chǎn)數(shù)據(jù)庫服務(wù)器,數(shù)據(jù)庫服務(wù)器(3)為備用數(shù)據(jù)庫服務(wù)器。2臺(tái)互為集群的生產(chǎn)數(shù)據(jù)庫服務(wù)器為前端客戶提供在線訪問,保證系統(tǒng)的高可用性,通過CDP管理平臺(tái)將數(shù)據(jù)連續(xù)復(fù)制到EMC CX500存儲(chǔ)系統(tǒng)。備用數(shù)據(jù)庫服務(wù)器通過CDP技術(shù)保持當(dāng)前數(shù)據(jù)為最新狀態(tài)。正常情況2臺(tái)服務(wù)器會(huì)進(jìn)行狀態(tài)均衡,各自承擔(dān)業(yè)務(wù)。一旦1臺(tái)出現(xiàn)問題,所有業(yè)務(wù)都會(huì)自動(dòng)切換到另外1臺(tái)服務(wù)器上。如果2臺(tái)生產(chǎn)數(shù)據(jù)庫服務(wù)器都出現(xiàn)異常,即可將應(yīng)用服務(wù)器切換到備用數(shù)據(jù)庫服務(wù)器,保障業(yè)務(wù)正常進(jìn)行,避免故障造成業(yè)務(wù)停頓。然后對(duì)生產(chǎn)服務(wù)器進(jìn)行恢復(fù),恢復(fù)正常后再將應(yīng)用服務(wù)器從備用庫切回。
圖1 系統(tǒng)結(jié)構(gòu)圖
在CDP服務(wù)器上運(yùn)行時(shí)間點(diǎn)標(biāo)記Time-mark(時(shí)間戳)選項(xiàng),可進(jìn)行在線數(shù)據(jù)多個(gè)版本的保存。利用Time-mark與快照代理,通過設(shè)置合理的數(shù)據(jù)快照策略,管理員可以在任何時(shí)刻創(chuàng)建一個(gè)Time-mark,按照事先設(shè)定的時(shí)間間隔,將指定時(shí)刻點(diǎn)的數(shù)據(jù)視圖保存下來??煺沾泶_保數(shù)據(jù)完整性,Time-mark功能則使應(yīng)用主機(jī)能在瞬間加載過去任意時(shí)刻的數(shù)據(jù)版本,避免漫長的數(shù)據(jù)庫修復(fù)和一致性檢查,從而實(shí)現(xiàn)數(shù)據(jù)恢復(fù)時(shí)間最小化。因誤操作、病毒侵襲等導(dǎo)致的生產(chǎn)站點(diǎn)數(shù)據(jù)錯(cuò)誤,可通過CDP服務(wù)器的內(nèi)置時(shí)間標(biāo)記回溯并快速恢復(fù)到此前某一數(shù)據(jù)良好的狀態(tài)點(diǎn),該過程只需在圖形化管理界面上輕點(diǎn)鼠標(biāo)即可實(shí)現(xiàn)。
根據(jù)調(diào)度管理系統(tǒng)的業(yè)務(wù)特點(diǎn),設(shè)置為5 min保留1個(gè)狀態(tài)點(diǎn),共保留576個(gè)狀態(tài)點(diǎn),即2天的業(yè)務(wù)備份。當(dāng)系統(tǒng)發(fā)生故障,丟失數(shù)據(jù)最長時(shí)間是5 min,可以通過程序補(bǔ)齊丟失數(shù)據(jù)。同時(shí)將備用數(shù)據(jù)庫狀態(tài)自動(dòng)同步到最近一個(gè)狀態(tài)點(diǎn)。
當(dāng)系統(tǒng)運(yùn)行過程中出現(xiàn)數(shù)據(jù)庫故障導(dǎo)致數(shù)據(jù)庫系統(tǒng)崩潰時(shí),采用如下步驟即可啟動(dòng)備用數(shù)據(jù)庫:
(1)通過CDP的客戶端,取消分配給主數(shù)據(jù)庫的磁盤。
(2)通過備份數(shù)據(jù)庫服務(wù)器測試磁盤最近的Time-mark點(diǎn)的數(shù)據(jù)庫可用性。
(3)通過CDP的客戶端,檢測磁盤是否在最新的Time-mark,不是則回滾到最新的Time-mark。
(4)將回滾后的磁盤分配給備用數(shù)據(jù)庫,啟動(dòng)備用數(shù)據(jù)庫。
啟用備用數(shù)據(jù)庫后,調(diào)度管理系統(tǒng)業(yè)務(wù)恢復(fù),即可對(duì)生產(chǎn)系統(tǒng)主數(shù)據(jù)庫進(jìn)行故障修復(fù)。修復(fù)后,將存儲(chǔ)和CDP磁盤建立的鏡像指向主數(shù)據(jù)庫,將業(yè)務(wù)切換回主數(shù)據(jù)庫,恢復(fù)過程完成。
采用CDP技術(shù)后,進(jìn)一步提升了調(diào)度管理信息系統(tǒng)的數(shù)據(jù)安全性,優(yōu)化了系統(tǒng)功能。
(1)在生產(chǎn)端建立一套完整的定時(shí)自動(dòng)備份,自動(dòng)完成數(shù)據(jù)在線同步,避免了因發(fā)生災(zāi)難及人為誤操作后的數(shù)據(jù)丟失。
(2)簡化了系統(tǒng)備份管理,能夠?qū)?shù)據(jù)備份系統(tǒng)進(jìn)行靈活的集中管理。
(3)提供了良好的操作使用界面及事件告警等,簡化了復(fù)雜的數(shù)據(jù)保護(hù)工作,降低了維護(hù)工作量。
(4)具有強(qiáng)大的擴(kuò)充能力,數(shù)據(jù)保護(hù)系統(tǒng)具備良好的服務(wù)器主機(jī)節(jié)點(diǎn)及存儲(chǔ)容量按需增加的擴(kuò)充能力,可隨著數(shù)據(jù)的增多對(duì)調(diào)度管理信息系統(tǒng)擴(kuò)充構(gòu)建。
(5)方便構(gòu)建數(shù)據(jù)測試環(huán)境。生產(chǎn)數(shù)據(jù)庫數(shù)據(jù)同步到備用數(shù)據(jù)庫后,對(duì)于影響生產(chǎn)系統(tǒng)的測試,可在備用數(shù)據(jù)庫提取狀態(tài)點(diǎn)進(jìn)行,還可以方便地對(duì)生產(chǎn)系統(tǒng)進(jìn)行二次開發(fā)測試。
數(shù)據(jù)保護(hù)方案實(shí)施后,對(duì)可能出現(xiàn)的故障進(jìn)行了測試,進(jìn)行了生產(chǎn)系統(tǒng)故障模擬并順利地將調(diào)度管理信息系統(tǒng)切換到了備用數(shù)據(jù)庫。上述操作對(duì)最終用戶完全透明,用戶端不需更改任何設(shè)置,即可訪問恢復(fù)后的調(diào)度管理信息系統(tǒng)。即使故障發(fā)生后切換到備用數(shù)據(jù)庫服務(wù)器,或生產(chǎn)數(shù)據(jù)庫服務(wù)器恢復(fù)后重新接管,對(duì)用戶訪問沒有任何影響。系統(tǒng)運(yùn)行穩(wěn)定、性能可靠,為建設(shè)高性能、高可用性的信息平臺(tái)奠定了良好基礎(chǔ)。
[1] 安劍,胡勇,李振華.北方聯(lián)合電力ERP系統(tǒng)異地容災(zāi)保護(hù)方案[J].電力信息化,2008,6(7)∶119-23.
[2] 王彥龍,李戰(zhàn)懷,徐娟.基于塊的數(shù)據(jù)庫系統(tǒng)連續(xù)數(shù)據(jù)保護(hù)[J].計(jì)算機(jī)研究與發(fā)展,2006(3)∶168-173.
[3] ALAIN AZAGURY, MICHAEL E FACTOR, JULIAN SATRAN.Point-in-time copy∶yesterday, today and tomorrow[C].College Park,USA∶the 19thIEEE Symposium on Mass Storage systems,2002:259-270.