楊 波
(廣西柳工機(jī)械股份有限公司信息技術(shù)部,廣西柳州 545007)
工程機(jī)械企業(yè)IT災(zāi)備系統(tǒng)建設(shè)
——記廣西柳工機(jī)械股份有限公司本地災(zāi)備系統(tǒng)建設(shè)
楊 波
(廣西柳工機(jī)械股份有限公司信息技術(shù)部,廣西柳州 545007)
簡(jiǎn)要闡述了中國(guó)工程機(jī)械行業(yè)中IT基礎(chǔ)系統(tǒng)建設(shè)的共性,從企業(yè)特點(diǎn)與災(zāi)備系統(tǒng)建設(shè)的相關(guān)性方面,分析了容災(zāi)備份能力關(guān)鍵指標(biāo)RPO和RTO與IT核心系統(tǒng)的關(guān)系,以廣西柳工機(jī)械股份有限公司的災(zāi)備系統(tǒng)建設(shè)為例進(jìn)行分析與闡述,提出了一條企業(yè)IT災(zāi)備系統(tǒng)的建設(shè)思路。
容災(zāi)備份;存儲(chǔ)區(qū)域網(wǎng)絡(luò);連續(xù)數(shù)據(jù)保護(hù);數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo);數(shù)據(jù)恢復(fù)時(shí)間目標(biāo);總體擁有成本
如今,信息已成為企業(yè)生存發(fā)展的必不可少的元素。隨著越來(lái)越多的企業(yè)認(rèn)識(shí)到IT系統(tǒng)在信息處理過(guò)程中的迅捷和高效,ERP(企業(yè)資源計(jì)劃)、PLM(產(chǎn)品生命周期管理)等各種類型的IT系統(tǒng)相繼在多個(gè)企業(yè)中得到運(yùn)用。IT系統(tǒng)在加速企業(yè)信息處理流程的同時(shí),也產(chǎn)生了更多的數(shù)據(jù)。各類主數(shù)據(jù)、交易數(shù)據(jù)、電子文檔、報(bào)表是IT系統(tǒng)最重要的數(shù)據(jù),這些數(shù)據(jù)對(duì)絕大部分規(guī)模以上企業(yè)來(lái)說(shuō),是支撐企業(yè)存在和發(fā)展的信息化基石。對(duì)這些數(shù)據(jù)的保護(hù)重要性不言而喻。信息技術(shù)的應(yīng)用程度越高,數(shù)據(jù)的備份就越顯得重要。在很多關(guān)鍵業(yè)務(wù)系統(tǒng)中,存放在機(jī)器上的數(shù)據(jù)往往比機(jī)器本身還要昂貴,因此對(duì)系統(tǒng)和業(yè)務(wù)數(shù)據(jù)的備份就成為非常重要的工作。備份的目的是在系統(tǒng)出現(xiàn)故障或?yàn)?zāi)難時(shí)能夠快速地恢復(fù)系統(tǒng)或數(shù)據(jù)。要能夠做到快速災(zāi)難恢復(fù),就必須設(shè)計(jì)好災(zāi)難恢復(fù)方案,選擇一個(gè)可行的備份策略[1]。
順應(yīng)數(shù)據(jù)大集中的趨勢(shì),很多企業(yè)均已建設(shè)或在建設(shè)自己的數(shù)據(jù)中心。企業(yè)絕大部分信息系統(tǒng)都在數(shù)據(jù)中心內(nèi)運(yùn)行,IT系統(tǒng)承載著公司的各項(xiàng)業(yè)務(wù),進(jìn)一步促進(jìn)信息系統(tǒng)的集成和整合。將分散的數(shù)據(jù)集中到了一起,零星數(shù)據(jù)變成了海量數(shù)據(jù),數(shù)據(jù)量從原來(lái)的幾GB到幾十GB,變?yōu)榱藥装貵B到幾TB,甚至幾十TB,大數(shù)據(jù)的概念也由此而來(lái)。數(shù)據(jù)量的劇增也給備份和管理帶來(lái)了機(jī)遇和挑戰(zhàn)。首先數(shù)據(jù)的集中存放,使集中備份成為可能。然而,要實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的集中存儲(chǔ)備份和統(tǒng)一管理,采用原有的傳統(tǒng)磁帶機(jī)、磁帶庫(kù)等備份設(shè)備的備份方案很難達(dá)到備份目標(biāo)。磁帶或CD備份是一種最便宜的方法,也是較為有效的方法,但是它的恢復(fù)卻是最慢的。而磁盤熱備份與全系統(tǒng)熱備份的成本就比較高,但它的恢復(fù)速度是非??斓模?]。因此,連續(xù)數(shù)據(jù)保護(hù)、虛擬帶庫(kù)、重復(fù)數(shù)據(jù)刪除等先進(jìn)備份技術(shù)應(yīng)運(yùn)而生,這些技術(shù)的出現(xiàn),對(duì)于構(gòu)建新型高效的災(zāi)備方案,保證業(yè)務(wù)數(shù)據(jù)的高效及安全,提供了強(qiáng)有力的技術(shù)支持。
對(duì)國(guó)內(nèi)一些主要工程機(jī)械企業(yè)的研究表明,這些企業(yè)在IT系統(tǒng)建設(shè)上都有很多共性:(1)用于業(yè)務(wù)支持的IT系統(tǒng)很多,核心的ERP系統(tǒng)采用國(guó)際上較為完善和通行的大型應(yīng)用軟件,如SAP或ORACLE系統(tǒng),對(duì)IT系統(tǒng)的支持和保障要求很高。(2)園區(qū)內(nèi)都有兩個(gè)或兩個(gè)以上的機(jī)房或數(shù)據(jù)中心。(3)核心IT系統(tǒng)都采用高端存儲(chǔ)設(shè)備,使用光纖SAN鏈路,有一定的數(shù)據(jù)容災(zāi)能力,但是沒(méi)有完整的應(yīng)用容災(zāi)系統(tǒng)。(4)大型IT項(xiàng)目建設(shè)的時(shí)間跨度很大,在IT建設(shè)的各個(gè)階段逐步引入多種技術(shù)方案,各個(gè)方案的建設(shè)需要保持平緩過(guò)渡,有利舊要求,以實(shí)現(xiàn)對(duì)原有投資的保護(hù),降低IT的建設(shè)成本。
工程機(jī)械企業(yè)園區(qū)占地面積較大,有條件在幾百米甚至上千米外的同一園區(qū)內(nèi)建設(shè)自己的另一數(shù)據(jù)機(jī)房,如另一棟樓、另一片廠區(qū)等,使得本地災(zāi)備系統(tǒng)可以建立在本園區(qū)內(nèi)的另一機(jī)房。雖然不能避免地震、洪水等自然災(zāi)害,但是通過(guò)合理地設(shè)計(jì)和配置,已經(jīng)可以在很大程度上避免火災(zāi)和停電等外部因素的影響。通過(guò)在園區(qū)機(jī)房間內(nèi)建立FCSAN網(wǎng)絡(luò),使得備份可以得到較高的效率和較好的成本控制,免去了租用高成本的光纖鏈路與額外的人力資源管理成本。
對(duì)于核心應(yīng)用系統(tǒng)的保護(hù),最基本的是要避免系統(tǒng)的單點(diǎn)故障。主機(jī)端使用雙機(jī)熱備技術(shù),網(wǎng)絡(luò)端使用雙核心的架構(gòu),存儲(chǔ)端使用鏡像或連續(xù)數(shù)據(jù)保護(hù)系統(tǒng),通過(guò)以上對(duì)應(yīng)用系統(tǒng)的規(guī)劃設(shè)計(jì),基本上可以避免主機(jī)、網(wǎng)絡(luò)、存儲(chǔ)端的單點(diǎn)故障。通過(guò)連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)還可以降低邏輯錯(cuò)誤、誤操作等風(fēng)險(xiǎn)。
制造業(yè)對(duì)IT投入的成本較為敏感,在滿足企業(yè)對(duì)IT系統(tǒng)數(shù)據(jù)備份要求的同時(shí),希望降低IT總體擁有成本(TCO)。通常情況下,由于SAP、ORACLE等大型ERP系統(tǒng)使用高端的小型機(jī)服務(wù)器,出于成本方面的考慮,園區(qū)內(nèi)的主機(jī)房通常用于存放一套核心和主要業(yè)務(wù)系統(tǒng),并對(duì)核心數(shù)據(jù)進(jìn)行保護(hù)。園區(qū)內(nèi)的備份機(jī)房主要用于存放備份設(shè)備及部分其他應(yīng)用。而工程機(jī)械行業(yè)的離散制造的特征,決定了企業(yè)對(duì)IT的投入需要按實(shí)際情況分階段進(jìn)行投入,并且各階段的IT建設(shè)需要保持連續(xù)性,以保護(hù)原有投資,避免重復(fù)投資和浪費(fèi)。企業(yè)的災(zāi)備系統(tǒng)建設(shè)只有適應(yīng)該特征,才能在滿足需求的基礎(chǔ)上制定出性價(jià)比最優(yōu)的方案。
數(shù)據(jù)備份系統(tǒng)通常會(huì)通過(guò)兩個(gè)最重要的指標(biāo)來(lái)進(jìn)行評(píng)估:RPO和 RTO。RPO(Recovery Point Objective),即數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo)。主要用于評(píng)估業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量,在同步數(shù)據(jù)復(fù)制方式下,RPO等于數(shù)據(jù)傳輸時(shí)延的時(shí)間;在異步數(shù)據(jù)復(fù)制方式下,RPO為異步傳輸數(shù)據(jù)排隊(duì)的時(shí)間,對(duì)于時(shí)間間隔較大的數(shù)據(jù)備份而言,RPO等于連續(xù)兩次成功備份的時(shí)間之差。RTO(Recovery Time Objective),即恢復(fù)時(shí)間目標(biāo)。主要用于評(píng)估所能容忍的業(yè)務(wù)停止服務(wù)最長(zhǎng)時(shí)間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間。RTO描述了應(yīng)用恢復(fù)過(guò)程需要花費(fèi)的時(shí)間,即從恢復(fù)過(guò)程開(kāi)始到恢復(fù)過(guò)程成功完成所經(jīng)歷的時(shí)間。RTO值越小,代表災(zāi)備系統(tǒng)的恢復(fù)能力越強(qiáng)。RPO和RTO的關(guān)系如圖1所示。
圖1 RTO和RPO示意圖
RPO針對(duì)的是數(shù)據(jù)丟失量,而RTO針對(duì)的是業(yè)務(wù)連續(xù)性中斷時(shí)間,二者沒(méi)有必然的關(guān)聯(lián)性,但都是判斷企業(yè)災(zāi)備能力的關(guān)鍵指標(biāo)。RTO和RPO的確定不僅僅是IT部門的事情,而是需要在對(duì)企業(yè)業(yè)務(wù)系統(tǒng)和IT狀況進(jìn)行風(fēng)險(xiǎn)分析和業(yè)務(wù)影響分析后,才能根據(jù)不同的業(yè)務(wù)需求確定合適的值。對(duì)于不同企業(yè)的同一種業(yè)務(wù),RTO和RPO的需求也會(huì)有所不同。通常情況下RPO與RTO越小,系統(tǒng)的可用性就越高,用戶需要的投資也越大。
在工程機(jī)械行業(yè)中,核心系統(tǒng)通常為ERP系統(tǒng)和PLM系統(tǒng)。對(duì)ERP系統(tǒng)來(lái)說(shuō),絕大部分?jǐn)?shù)據(jù)的錄入都需要有原始單據(jù),原始單據(jù)會(huì)有相當(dāng)長(zhǎng)的保留期,因此對(duì)于發(fā)生短時(shí)的系統(tǒng)不可用或數(shù)據(jù)丟失的情況,可以在后續(xù)進(jìn)行單據(jù)補(bǔ)錄,RPO和RTO越大,后續(xù)的系統(tǒng)補(bǔ)錄工作就越大,對(duì)EPR周邊系統(tǒng)影響越大,同時(shí)各系統(tǒng)間的數(shù)據(jù)一致性就越難保證,因此ERP系統(tǒng)對(duì)于RPO和RTO的要求較高。而對(duì)于PLM系統(tǒng)來(lái)說(shuō),數(shù)據(jù)都是在系統(tǒng)上進(jìn)行實(shí)時(shí)錄入的,數(shù)據(jù)丟失就意味著很多設(shè)計(jì)圖紙丟失了,對(duì)RPO的要求相對(duì)ERP就更高。由于現(xiàn)在企業(yè)中的IT系統(tǒng)眾多,從十幾個(gè)到幾十個(gè),甚至上百個(gè),相互間通過(guò)中間件或接口進(jìn)行連接,數(shù)據(jù)流非常復(fù)雜,保證數(shù)據(jù)一致性也是必須要考慮的重要因素。因此在進(jìn)行RPO和RTO定義時(shí),IT部門需要與業(yè)務(wù)部門進(jìn)行充分溝通,考慮各系統(tǒng)的特點(diǎn),規(guī)劃和平衡其影響程度、范圍、成本的關(guān)系,才有可能得出相對(duì)合適的指標(biāo)。
工程機(jī)械行業(yè)中這些大型企業(yè),均采用了大型的FC-SAN為承載核心業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)鏈路。大型FC-SAN被稱為“FC+LAN”雙網(wǎng)結(jié)構(gòu),這是指該系統(tǒng)由FC光纖通道網(wǎng)絡(luò)和LAN以太網(wǎng)絡(luò)共同構(gòu)成,其中以太網(wǎng)絡(luò)負(fù)責(zé)工作站與服務(wù)器及工作站之間的元數(shù)據(jù)信息傳輸和交換,F(xiàn)C光纖通道網(wǎng)絡(luò)只負(fù)責(zé)實(shí)際數(shù)據(jù)的高帶寬傳輸。這種網(wǎng)絡(luò)結(jié)構(gòu)可充分利用兩種網(wǎng)絡(luò)的特點(diǎn),發(fā)揮出這兩個(gè)網(wǎng)絡(luò)的最大效率[2]。后續(xù)災(zāi)備方案也將基于這種網(wǎng)絡(luò)進(jìn)行設(shè)計(jì)。
企業(yè)IT災(zāi)備系統(tǒng)的建設(shè)通常從備份開(kāi)始做起。而離散制造業(yè)IT系統(tǒng)有自身的特點(diǎn),與金融證券業(yè)以及業(yè)務(wù)連續(xù)性要求較高的汽車制造業(yè)相比,其RPO和RTO要求相對(duì)較低,因此其對(duì)備份的要求也隨之降低。針對(duì)柳工的備份需求,根據(jù)業(yè)務(wù)的特點(diǎn)和業(yè)務(wù)系統(tǒng)的數(shù)據(jù)規(guī)模,柳工數(shù)據(jù)災(zāi)備項(xiàng)目分為三期進(jìn)行。
廣西柳工機(jī)械股份有限公司(以下簡(jiǎn)稱柳工)的災(zāi)備系統(tǒng)建設(shè)目前已進(jìn)行了三期。
第一期為企業(yè)磁帶庫(kù)建設(shè),目的是實(shí)現(xiàn)基本保護(hù),項(xiàng)目一期跟隨公司SAP項(xiàng)目同時(shí)啟動(dòng),企業(yè)的數(shù)據(jù)量備份需求由100G級(jí)上升到1 000G級(jí),通過(guò)部署企業(yè)磁帶庫(kù)和網(wǎng)絡(luò)版?zhèn)浞蒈浖?,使用IP架構(gòu)進(jìn)行備份,將一些主要的應(yīng)用系統(tǒng)數(shù)據(jù)和文件備份到企業(yè)磁帶庫(kù)。
第二期為連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)建設(shè),目的是對(duì)核心系統(tǒng)實(shí)現(xiàn)重點(diǎn)保護(hù)。由于當(dāng)時(shí)企業(yè)核心系統(tǒng)數(shù)據(jù)量已超過(guò)5TB,系統(tǒng)的備份窗口超過(guò)24h,恢復(fù)窗口超過(guò)48h,傳統(tǒng)備份已經(jīng)無(wú)法滿足進(jìn)行快速備份和恢復(fù)的要求。同時(shí),由于核心系統(tǒng)業(yè)務(wù)的復(fù)雜性,產(chǎn)生了對(duì)邏輯錯(cuò)誤進(jìn)行保護(hù)的需求,因此企業(yè)部署了連續(xù)數(shù)據(jù)保護(hù)系統(tǒng),使用SAN架構(gòu)進(jìn)行數(shù)據(jù)同步,達(dá)到基于時(shí)間點(diǎn)的數(shù)據(jù)保護(hù),核心應(yīng)用系統(tǒng)的RPO指標(biāo)數(shù)量級(jí)由一天級(jí)提升到分鐘級(jí),RTO指標(biāo)達(dá)到4h以下。通過(guò)對(duì)日志卷的回滾,具備快速恢復(fù)到保護(hù)期內(nèi)多個(gè)時(shí)間點(diǎn)的能力,當(dāng)恢復(fù)到一個(gè)時(shí)間點(diǎn)后,發(fā)現(xiàn)不是最佳恢復(fù)點(diǎn)還可以選擇恢復(fù)到另一時(shí)間點(diǎn),這在實(shí)際使用中非常實(shí)用,并且能夠?qū)崿F(xiàn)在不影響生產(chǎn)環(huán)境的前提下,快速搭建與生產(chǎn)環(huán)境一致的測(cè)試環(huán)境。連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)可以對(duì)邏輯錯(cuò)誤進(jìn)行防護(hù),因而具有一定的本地容災(zāi)能力,通過(guò)采用HACMP的雙機(jī)熱備系統(tǒng)實(shí)現(xiàn)對(duì)主機(jī)端的保護(hù),通過(guò)連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)實(shí)現(xiàn)對(duì)存儲(chǔ)端的保護(hù),使得在主存儲(chǔ)系統(tǒng)出現(xiàn)邏輯錯(cuò)誤時(shí)可以進(jìn)行快速數(shù)據(jù)回滾,而在主存儲(chǔ)出現(xiàn)物理故障時(shí)可以快速切換到備份存儲(chǔ),并且可以選擇時(shí)間點(diǎn)恢復(fù)數(shù)據(jù),實(shí)現(xiàn)分鐘級(jí)的RPO。值得強(qiáng)調(diào)的是,本方案支持的主備存儲(chǔ)為異構(gòu)系統(tǒng),即不同品牌、不同型號(hào)。這為企業(yè)在技術(shù)方案設(shè)計(jì)和設(shè)備選型上提供了很大的靈活性,有利于對(duì)企業(yè)原有IT基礎(chǔ)設(shè)施進(jìn)行利舊。將原有中端存儲(chǔ)降級(jí)為備存儲(chǔ),新引入高端存儲(chǔ)作為主存儲(chǔ),既提高了整體性能和可靠性,也讓原有IT基礎(chǔ)設(shè)施得以繼續(xù)沿用,降低了項(xiàng)目成本。
第三期為對(duì)大數(shù)據(jù)的全面保護(hù)。隨著企業(yè)業(yè)務(wù)的發(fā)展,項(xiàng)目開(kāi)始時(shí)IT系統(tǒng)的數(shù)據(jù)總量已經(jīng)超過(guò)20TB,傳統(tǒng)的數(shù)據(jù)備份設(shè)備很難達(dá)成RTO和RPO備份目標(biāo)。為此,采用了帶重復(fù)數(shù)據(jù)刪除功能的虛擬帶庫(kù)備份解決方案。以帶消重功能虛擬帶庫(kù)為前端,提高并發(fā)備份作業(yè)數(shù)并縮短備份窗口,以速度相對(duì)較慢的物理帶庫(kù)為后端,以降低備份成本。在備份鏈路上采用以太網(wǎng)絡(luò)和光纖SAN網(wǎng)絡(luò)組合的方式進(jìn)行搭建。對(duì)于數(shù)據(jù)量大且重要程度高的業(yè)務(wù)系統(tǒng)采用高效的SAN網(wǎng)絡(luò)進(jìn)行備份,對(duì)于數(shù)據(jù)量小的業(yè)務(wù)系統(tǒng)和海量的文件存儲(chǔ)采用經(jīng)濟(jì)的千兆以太網(wǎng)絡(luò)進(jìn)行備份。最終的拓?fù)涫疽鈭D如圖2所示。
圖2 備份拓?fù)涫疽鈭D
通過(guò)三個(gè)階段的IT備份系統(tǒng)建設(shè),柳工在復(fù)雜環(huán)境下成功部署了整套本方案,連續(xù)數(shù)據(jù)保護(hù)與虛擬帶庫(kù)、物理磁帶庫(kù)結(jié)合使用,形成高中低搭配,分層次的備份體系,能夠滿足不同系統(tǒng)和數(shù)據(jù)的備份需求,公司形成了一套較為完備的本地備份容災(zāi)方案,并且可靈活擴(kuò)充到同城或異地備份容災(zāi),為柳工后續(xù)異地備份容災(zāi)的規(guī)劃實(shí)施做好了準(zhǔn)備。
企業(yè)業(yè)務(wù)的擴(kuò)張導(dǎo)致企業(yè)IT系統(tǒng)的擴(kuò)張,與此對(duì)應(yīng)的是海量的數(shù)據(jù)和對(duì)數(shù)據(jù)備份容災(zāi)的要求越來(lái)越高。由于工程機(jī)械制造企業(yè)的行業(yè)特點(diǎn)和對(duì)成本控制的敏感程度,使得企業(yè)在進(jìn)行災(zāi)備系統(tǒng)建設(shè)時(shí),需結(jié)合企業(yè)自身的特點(diǎn),依據(jù)從粗到細(xì)、由簡(jiǎn)入繁的原則,達(dá)成從無(wú)到有并逐步完善的目標(biāo)。通過(guò)統(tǒng)一規(guī)劃、分步實(shí)施,充分利用現(xiàn)有先進(jìn)的備份技術(shù)構(gòu)建適合本企業(yè)的備份容災(zāi)方案,才能設(shè)計(jì)和實(shí)施最優(yōu)TCO方案。
[1]于寧斌.IBM UNIX&Linux -AIX 5L系統(tǒng)管理技術(shù)[M].1版.北京:電子工業(yè)出版社,2003:496.
[2]王改性,師鳴若.數(shù)據(jù)存儲(chǔ)備份與災(zāi)難恢復(fù)[M].1版.北京:電子工業(yè)出版社,2009:52.
IT Backup Disaster Recovery System Construction in Engineering Machinery Enterprise
YANG Bo
(Guangxi Liugong Machinery Co.,Ltd,Guangxi Liuzhou,545007,China)
Taking the application of backup disaster recovery system in Guangxi Liugong Machinery Co.,Ltd as an example,it briefly describes the common IT infrastructure construction in the domestic construction machinery industry,analyzes the enterprise features and the construction of disaster recovery system,builds the relationship between the backup disaster recovery capability key indicators RPO and RTO and IT core system.It puts forward the idea of the construction of an enterprise IT backup disaster recovery system.
Backup and Disaster Recovery;Storage Area Network;Continuous Data Protection;Recovery Point Objective;Recovery Time Objective;Total Cost of Ownership
TP315
A
2095-509X(2013)05-0071-04
10.3969/j.issn.2095 -509X.2013.05.018
2013-03-06
楊波(1974—),男,廣西柳州人,廣西柳工機(jī)械股份有限公司工程師,主要從事IT大型應(yīng)用系統(tǒng)集成、運(yùn)維管理、系統(tǒng)架構(gòu)分析方面的工作。