歐陽志成
(廣東順暢科技有限公司,江門 529100)
容災(zāi)的基礎(chǔ)是數(shù)據(jù)備份。數(shù)據(jù)備份是為預(yù)防業(yè)務(wù)系統(tǒng)在出現(xiàn)人為操作失誤或系統(tǒng)設(shè)備故障導(dǎo)而致數(shù)據(jù)丟失,而將業(yè)務(wù)系統(tǒng)的所有或者按照重要程度選擇其中一部分數(shù)據(jù)從服務(wù)器的內(nèi)置存儲或外掛存儲設(shè)備中復(fù)制到其他的存儲介質(zhì)的操作。隨著時代發(fā)展,企業(yè)信息化程度的提升,業(yè)務(wù)數(shù)據(jù)成幾何級的增加,很多企業(yè)開始采用新的備份方法üü網(wǎng)絡(luò)備份。網(wǎng)絡(luò)備份是為通過數(shù)據(jù)存儲管理軟件結(jié)合配套的服務(wù)器設(shè)備、網(wǎng)絡(luò)設(shè)備以及存儲設(shè)備來實現(xiàn)數(shù)據(jù)的復(fù)制備份[1]。數(shù)據(jù)備份的目的,是保護數(shù)據(jù)免受人為誤操作或蓄意破壞。其實現(xiàn)方式簡單,在系統(tǒng)中配置自動磁帶庫設(shè)備和自動備份管理軟件,由管理員根據(jù)情況,制定好備份策略,系統(tǒng)就會根據(jù)策略定時、自動地備份數(shù)據(jù)。
在電力企業(yè)中,公司業(yè)務(wù)數(shù)據(jù)、財政數(shù)據(jù)以及需要備份的重要歷史文件等,都是需要需進行保護的數(shù)據(jù),一般來說,信息系統(tǒng)將保存到數(shù)據(jù)庫中,因此數(shù)據(jù)庫文件為重點保護數(shù)據(jù)。不單要將這些數(shù)據(jù)庫文件保存在性能良好、可靠性高的存儲設(shè)備上外,數(shù)據(jù)庫應(yīng)用也要采取數(shù)據(jù)保護措施[2]。最重要的是,這些關(guān)鍵數(shù)據(jù)庫文件應(yīng)該在本地與異地容災(zāi)中心之間維持相同狀態(tài),當災(zāi)難發(fā)生后,業(yè)務(wù)系統(tǒng)可以盡快從異地容災(zāi)中心上恢復(fù)數(shù)據(jù),恢復(fù)業(yè)務(wù)運轉(zhuǎn)。實現(xiàn)數(shù)據(jù)的異地容災(zāi)復(fù)制備份的要求,可通過軟件、硬件兩種方式。軟件方式是通過數(shù)據(jù)復(fù)制代理軟件來實現(xiàn),需要在業(yè)務(wù)系統(tǒng)以及數(shù)據(jù)備份系統(tǒng)上,同時部署專門的數(shù)據(jù)備份同步代理軟件,這種方式不需要投入硬件設(shè)備,一般情況下成本較容易控制。硬件方式需要進行數(shù)據(jù)同步的系統(tǒng)之間使用硬件進行數(shù)據(jù)復(fù)制備份,需保護的數(shù)據(jù)傳輸在存儲設(shè)備之間,并不需要主機的參與及管理。在實際的數(shù)據(jù)同步系統(tǒng)中,由于系統(tǒng)的環(huán)境不同,安全性要求不同及采用的軟硬件產(chǎn)品不同,數(shù)據(jù)復(fù)制過程的工作機制也不盡相同。概括地講,數(shù)據(jù)復(fù)制的工作機制主要包括同步和異步兩種。同步復(fù)制是安全級別最高的工作方式,當主系統(tǒng)主機數(shù)據(jù)發(fā)生變化的時候,同步把變化傳送到數(shù)據(jù)同步系統(tǒng)的數(shù)據(jù)中,這一機制確保在兩個存儲設(shè)備中的數(shù)據(jù)在數(shù)據(jù)塊級別的高度一致。異步復(fù)制的工作機制是主系統(tǒng)內(nèi)主機的數(shù)據(jù)復(fù)制到數(shù)據(jù)同步數(shù)據(jù)中并不是實時的,也就是說,當主系統(tǒng)數(shù)據(jù)發(fā)生一定量的變化后才把數(shù)據(jù)輸入到數(shù)據(jù)同步數(shù)據(jù)中。但是這樣兩個系統(tǒng)中的數(shù)據(jù)就可能存在不一致,這也就是采用異步復(fù)制機制的代價[3]。
為了妥善應(yīng)對和處置廣東電網(wǎng)某市供電局營銷系統(tǒng)突發(fā)事件,建立健全某市供電局營銷系統(tǒng)安全應(yīng)急保障和恢復(fù)工作機制,提高應(yīng)對突發(fā)事件的組織指揮能力和應(yīng)急處置能力,保證應(yīng)急指揮調(diào)度工作迅速、高效、有序地進行,滿足突發(fā)事件下某市供電局營銷系統(tǒng)及其承載的數(shù)據(jù)業(yè)務(wù)保障和恢復(fù)工作的需要,確保關(guān)鍵業(yè)務(wù)、關(guān)鍵時段、關(guān)鍵部門的相關(guān)應(yīng)用系統(tǒng)的正常運行,并且結(jié)合某市供電局已經(jīng)建立完成的數(shù)據(jù)同步中心,開展數(shù)據(jù)同步系統(tǒng)應(yīng)急營銷系統(tǒng)演練。
在數(shù)據(jù)復(fù)制平臺方面,某市供電局采用軟件方式來實現(xiàn)。在數(shù)據(jù)復(fù)制的實時性方面,考慮到營銷數(shù)據(jù)的重要性,某市供電局采用數(shù)據(jù)庫的是同步復(fù)制方式,保證主系統(tǒng)和數(shù)據(jù)同步系統(tǒng)數(shù)據(jù)的一致性。某市供電局經(jīng)過多年的信息化建設(shè),目前已經(jīng)完成包括運行于城網(wǎng)平臺的營銷系統(tǒng)、生產(chǎn)管理系統(tǒng)、綜合管理等業(yè)務(wù)系統(tǒng),其中主要的核心系統(tǒng)均采用了Oracle數(shù)據(jù)庫基礎(chǔ)平臺,重要的數(shù)據(jù)和信息都集中存儲在Oracle架構(gòu)的數(shù)據(jù)庫磁盤陣列上。在這種情況下,某市供電局信心中心的生產(chǎn)數(shù)據(jù)庫承擔(dān)著所有全市范圍內(nèi)電力服務(wù)業(yè)務(wù)正常運行的重要責(zé)任。此時,由于信息和處理的集中,以及不可預(yù)見的故障和災(zāi)難,導(dǎo)致生產(chǎn)系統(tǒng)中存在很多受災(zāi)難性破壞的故障隱患。由此可推斷,在集中的業(yè)務(wù)系統(tǒng)內(nèi)與外部環(huán)境下,不管是哪一個重要的環(huán)節(jié)出現(xiàn)不可恢復(fù)的災(zāi)難,所有的業(yè)務(wù)工作將遭受到不可挽回的損失,對全市電力業(yè)務(wù)體系的正常運作將造成嚴重影響。因此,災(zāi)難防范和容災(zāi)系統(tǒng)建設(shè)是非常重要的。
數(shù)據(jù)同步中心的建設(shè),最大化地保證某市供電局用電營銷系統(tǒng)數(shù)據(jù)的安全,避免一些不可預(yù)見的事故發(fā)生對數(shù)據(jù)造成損失。建立重要數(shù)據(jù)的定期數(shù)據(jù)備份機制,每天進行一次完整的數(shù)據(jù)增量備份。應(yīng)對關(guān)鍵數(shù)據(jù)進行同城和異地的實時備份,保證業(yè)務(wù)應(yīng)用能夠?qū)崿F(xiàn)實時切換。制定災(zāi)難恢復(fù)計劃并定期進行測試,確保各個恢復(fù)程序的正確性和計劃整體的有效性。
根據(jù)某市供電局網(wǎng)絡(luò)現(xiàn)狀,結(jié)合現(xiàn)有生產(chǎn)中心業(yè)務(wù)運行情況,對整套容災(zāi)方案進行規(guī)劃。在本方案中,整套容災(zāi)系統(tǒng)由生產(chǎn)中心、同城容災(zāi)中心兩個中心組成,構(gòu)成兩地的容災(zāi)體系[18]。生產(chǎn)中心和同城容災(zāi)中心配置完整的接入平臺、應(yīng)用處理平臺和存儲平臺。整體容災(zāi)架構(gòu)圖設(shè)計如圖1所示。
容災(zāi)中心系統(tǒng)架構(gòu)設(shè)計從城域網(wǎng)網(wǎng)絡(luò)設(shè)計、光纖存儲設(shè)計、數(shù)據(jù)復(fù)制鏈路設(shè)計、主機系統(tǒng)設(shè)計、數(shù)據(jù)庫系統(tǒng)設(shè)計、備份系統(tǒng)設(shè)計、系統(tǒng)平臺性能優(yōu)化、設(shè)備遷移和網(wǎng)絡(luò)系統(tǒng)設(shè)計等模塊進行詳細的闡述。在某局容災(zāi)項目的建設(shè)過程中,保持生產(chǎn)中心平臺架構(gòu)不變的情況下,建立一套業(yè)界成熟的、基于SAN存儲系統(tǒng)、虛擬化服務(wù)器架構(gòu)、負載均衡設(shè)備、域名解析系統(tǒng)、Oracle數(shù)據(jù)庫同步復(fù)制的容災(zāi)系統(tǒng)。本容災(zāi)系統(tǒng)不僅在生產(chǎn)中心正常運行的情況下,可以可靠和穩(wěn)定運行,還可以為生產(chǎn)中心提供實時數(shù)據(jù)備份的功能,保證生產(chǎn)中心數(shù)據(jù)不會丟失。而當災(zāi)難發(fā)生時,容災(zāi)中心又能夠快速恢復(fù)數(shù)據(jù)和應(yīng)用系統(tǒng),降低災(zāi)難發(fā)生后的數(shù)據(jù)損失情況。在本方案設(shè)計中還考慮到容災(zāi)業(yè)務(wù)的可擴展性問題,隨著生產(chǎn)中心業(yè)務(wù)的不斷增加,勢必容災(zāi)系統(tǒng)也需要不斷擴張,而容災(zāi)中心的擴展模式也是相當靈活的,只需要對網(wǎng)絡(luò)帶寬、服務(wù)器性能和存儲空間進行增加就可以滿足需求,避免了容災(zāi)架構(gòu)的調(diào)整所帶來的設(shè)備更換支出,提供了最經(jīng)濟、最有效的全方位容災(zāi)體系。由于當時方案討論的時候并不要求零停機時間、零切換時間的要求,同時也考慮到可能由于電腦的誤判斷,造成自動切到換容災(zāi)系統(tǒng)而導(dǎo)致的數(shù)據(jù)不一致問題,所以還是使用了更可靠的人手切換容災(zāi)流程。這也是本容災(zāi)系統(tǒng)區(qū)別于其他雙活節(jié)點容災(zāi)體系的特點。
圖1 某市供電局信息系統(tǒng)容災(zāi)總體架構(gòu)圖
在實際的生產(chǎn)中心往容災(zāi)中心業(yè)務(wù)切換過程中,除了在設(shè)備、數(shù)據(jù)同步技術(shù)上保證數(shù)據(jù)切換的可靠性之外,還針對切換過程中所涉及到的設(shè)備、人員、時間節(jié)點,結(jié)合用戶的實際業(yè)務(wù),組織完整的切換流程和完善的通知流程,為實際的業(yè)務(wù)用戶提供了透明的業(yè)務(wù)訪問切換過程。
通過參與本次容災(zāi)項目的設(shè)計與實施,對容災(zāi)系統(tǒng)的前中后期規(guī)劃有了更加清晰的了解,對 小型機+SAN存儲+Oracle數(shù)據(jù)庫 平臺的建設(shè)技術(shù)有了充足的認識。虛擬服務(wù)器應(yīng)該是以后IDC機房發(fā)展的主要方向,然后慢慢轉(zhuǎn)向云計算的模式,讓用戶的業(yè)務(wù)系統(tǒng)更加穩(wěn)定可靠的運行。容災(zāi)系統(tǒng)也會隨著技術(shù)的發(fā)展和終端用戶的需求變得更加完善、簡單、智能和一體化。
[1] 劉錦,劉曉潔,李濤等.一種異地容災(zāi)系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機應(yīng)用研究,2007,24(8):294-296.
[2] 王彥龍,李戰(zhàn)懷,鄭然.多平臺數(shù)據(jù)容災(zāi)系統(tǒng)的研究與設(shè)計[J].計算機應(yīng)用研究,2007,24(2):215-218.
[3] 王樹鵬,云曉春,余翔湛等.一種容災(zāi)中間件的設(shè)計與實現(xiàn)[J].通信學(xué)報,2005,26(7):68-75.