洪蕾
數(shù)據(jù)大集中之后,企業(yè)經(jīng)營活動越來越依賴于數(shù)據(jù)中心與網(wǎng)絡(luò)等IT基礎(chǔ)設(shè)施,IT的7×24全天業(yè)務(wù)連續(xù)運營成為大型企業(yè)IT建設(shè)運營與企業(yè)經(jīng)營追求的目標(biāo)。如何實現(xiàn)減少甚至消除正常和非正常的停機對業(yè)務(wù)可用性造成的影響,不僅是IT建設(shè)與運維團隊的目標(biāo),更成為企業(yè)決策層關(guān)注的核心。
出于災(zāi)備目的,企業(yè)一般都會建設(shè)兩個或多個數(shù)據(jù)中心。如國內(nèi)外銀行等高端用戶多采用“兩地三中心”(即生產(chǎn)數(shù)據(jù)中心、同城災(zāi)備中心、異地災(zāi)備中心)的建設(shè)方案。這種模式下,多個數(shù)據(jù)中心是主備關(guān)系,即存在主次,業(yè)務(wù)部署優(yōu)先級存在差別,針對災(zāi)難的響應(yīng)與切換周期非常長,RTO與RPO目標(biāo)無法實現(xiàn)業(yè)務(wù)零中斷,資源利用率低下,投資回報無法達(dá)到預(yù)期。因而,目前以銀行為代表的、包括政府、公共交通、能源電力等諸多行業(yè)用戶,開始將關(guān)注點轉(zhuǎn)向“分布式多活數(shù)據(jù)中心”,體現(xiàn)出企業(yè)級用戶在建設(shè)與使用數(shù)據(jù)中心時對資源調(diào)度利用和業(yè)務(wù)部署靈活性的新思路。
“雙活”與云不謀而合
光大銀行成立于1992年8月,是中國光大集團下屬子公司之一。截至2012年12月31日,光大銀行資產(chǎn)總額2.28萬億元,負(fù)債總額2.16萬億元,全年實現(xiàn)營業(yè)收入599.16 億元,凈利潤236.2億元。在英國《銀行家》雜志2012年發(fā)布的按總資產(chǎn)排名的“世界1000家大銀行”中,中國光大銀行位列第80位。
多項業(yè)務(wù)框架齊頭快速發(fā)展背后離不開一套行之有效具有前瞻性的IT戰(zhàn)略做后盾。光大銀行信息處處長丁永健表示光大銀行之所以快速發(fā)展取得了良好經(jīng)營業(yè)績,與IT戰(zhàn)略快速部署、迭代、創(chuàng)新有著密不可分的關(guān)系。
在國內(nèi)的商業(yè)銀行當(dāng)中,部署雙活數(shù)據(jù)中心的銀行為數(shù)甚少,而光大銀行是最早開始這方面探索的銀行之一。光大銀行災(zāi)備體系是典型的“兩地三中心”模式,目前在北京有兩個規(guī)模相當(dāng)?shù)碾p活中心,在武漢有一個異地災(zāi)備中心。
光大雙活數(shù)據(jù)中心始建于2002年?!爱?dāng)時還沒有云的概念。” 光大銀行信息科技部副總經(jīng)理史晨陽表示,“但‘雙活的思路和今天云計算的思路不謀而合。”據(jù)其介紹,所謂“雙活”數(shù)據(jù)中心,是指兩個數(shù)據(jù)中心都處于運行當(dāng)中,且互為備份;而一個數(shù)據(jù)中心、一個災(zāi)備中心的模式是指一個數(shù)據(jù)中心投入運行,另一個處在不工作狀態(tài),只有當(dāng)災(zāi)難發(fā)生時,生產(chǎn)數(shù)據(jù)中心癱瘓,災(zāi)備中心才啟動。
“通過DWDM(密集波分復(fù)用)設(shè)備與傳統(tǒng)網(wǎng)絡(luò)設(shè)備(如路由器、交換機)混合組網(wǎng),我們實現(xiàn)了同城雙中心網(wǎng)絡(luò)二層整合。從邏輯層面來說兩個中心可看做同一個局域網(wǎng),兩個中心共用相同的IP地址空間,在網(wǎng)絡(luò)設(shè)計上支持具備集群功能的多臺服務(wù)器分別部署在兩個數(shù)據(jù)中心,實現(xiàn)了真正的‘雙活?!?史晨陽介紹說,傳統(tǒng)的災(zāi)備中心模式采用備份模式,兩個數(shù)據(jù)中心的地址是一樣的,或者利用域名進行切換,切換影響較大,一般需要停機窗口,通常是必須生產(chǎn)中心倒掉,災(zāi)備中心才能起來,兩個中心同時起來會有沖突。而雙活數(shù)據(jù)中心能規(guī)避這個問題。
銀行系統(tǒng)中很多資源都是彈性需求,故銀行系統(tǒng)容量規(guī)劃時是充分考慮交易峰值的,但這樣也會帶來非峰值時期的的資源浪費。這時雙活數(shù)據(jù)中心的優(yōu)勢就得以發(fā)揮,可通過靈活快速的資源調(diào)度能力,基于云計算技術(shù),隨時調(diào)度多臺機器提高服務(wù)能力,保證交易的突發(fā)需求,以及各種突發(fā)因素造成的交易量猛增。
傳統(tǒng)網(wǎng)絡(luò)架構(gòu)面臨挑戰(zhàn)
“雙活”數(shù)據(jù)中心的最大優(yōu)勢是有效利用資源。隨著數(shù)據(jù)中心規(guī)模的擴大和新技術(shù)的不斷涌現(xiàn),光大雙活數(shù)據(jù)中心基于“生成樹”協(xié)議構(gòu)建的傳統(tǒng)二層網(wǎng)絡(luò)架構(gòu)遭遇一系列挑戰(zhàn)。
據(jù)史晨陽介紹,傳統(tǒng)網(wǎng)絡(luò)架構(gòu)面臨三方面瓶頸。一是“生成樹”協(xié)議無法支撐大型二層網(wǎng)絡(luò)的缺陷越來越明顯。由于“生成樹”協(xié)議對網(wǎng)絡(luò)半徑要求較為嚴(yán)格,而同城雙中心的網(wǎng)絡(luò)規(guī)模本身較大,在數(shù)據(jù)中心擴容、網(wǎng)絡(luò)設(shè)備不斷增加時將面臨較為明顯的技術(shù)擴展瓶頸。此外,由于網(wǎng)絡(luò)規(guī)模大,“生成樹”協(xié)議的故障收斂時間較長,難以滿足銀行對IT系統(tǒng)可用性的要求。
二是隨著萬兆以太網(wǎng)、服務(wù)器虛擬化和大數(shù)據(jù)等多項新技術(shù)在金融行業(yè)的應(yīng)用,對網(wǎng)絡(luò)設(shè)備的高密度萬兆端口接入能力、虛擬化支持能力以及快速部署能力有了更高要求。
三是在傳統(tǒng)網(wǎng)絡(luò)架構(gòu)中,網(wǎng)絡(luò)區(qū)域同城采用“核心交換機+接入交換機”的模式,其中接入交換機采用大量高密度端口的設(shè)備,一個機房內(nèi)同一網(wǎng)絡(luò)區(qū)域的服務(wù)器共用兩臺或兩臺以上的接入交換機。在該模式下,服務(wù)器采用跨機柜逐級跳線的方式連接到接入交換機上,需要提前在機柜之間進行大量的預(yù)布線,并要求根據(jù)服務(wù)器的實際布局情況進行預(yù)布線的擴容。由于服務(wù)器跳線和機柜之間預(yù)布線都需要經(jīng)過機架頂端的布線架,對于布線密集的機柜和區(qū)域,綜合布線的調(diào)整難度很大,成本投入較高。
為解決這些問題,光大銀行于2010年啟動了同城雙活數(shù)據(jù)中心網(wǎng)絡(luò)新架構(gòu)研究和建設(shè)工作。經(jīng)過詳盡的方案論證和產(chǎn)品測試,于2012年初完成了同城雙活數(shù)據(jù)中心新一代網(wǎng)絡(luò)架構(gòu)規(guī)劃。
“為消除‘生成樹協(xié)議擴展性差、故障恢復(fù)時間長的缺陷,我們通過廣泛調(diào)研和深入測試,最終選擇了二層多路徑技術(shù)用于替代‘生成樹協(xié)議?!?史晨陽表示:“該技術(shù)能夠?qū)崿F(xiàn)同城雙活數(shù)據(jù)中心互聯(lián)的多臺核心層交換機之間以及單個數(shù)據(jù)中心內(nèi)部的匯聚交換機和接入交換機之間的所有鏈路同時承擔(dān)數(shù)據(jù)傳輸功能,保證網(wǎng)絡(luò)整體無環(huán)路。在應(yīng)用二層多路徑技術(shù)后,單個數(shù)據(jù)中心即使到萬平米級別,網(wǎng)絡(luò)依然能夠較好地支撐,擴展性有了質(zhì)的提升。不僅如此,網(wǎng)絡(luò)設(shè)備互聯(lián)的可用帶寬也提高了4倍。此外,網(wǎng)絡(luò)故障恢復(fù)時間由原來的秒級(最長幾十秒)縮短到毫秒級(最長幾百毫秒),大大提升了IT系統(tǒng)整體的穩(wěn)定性。”
為實現(xiàn)同城雙活數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的平滑升級,光大銀行采用分步驟、分階段實施方式完成網(wǎng)絡(luò)架構(gòu)改造。首先完成新架構(gòu)相關(guān)設(shè)備的網(wǎng)絡(luò)搭建工作,并根據(jù)其板卡延伸技術(shù)的特點進行了綜合布線系統(tǒng)的改造;之后將新架構(gòu)與原有網(wǎng)絡(luò)進行對接,逐步將連接在老架構(gòu)中的服務(wù)器遷移至新架構(gòu);最后使用新架構(gòu)完全取代老架構(gòu)?!鞍凑沾朔绞?,我們在改造過程中僅使用了不到半個小時的停機窗口,將網(wǎng)絡(luò)架構(gòu)全面改造對業(yè)務(wù)運行的影響降到最低?!笔烦筷柋硎?。
除上述工作,為盡量發(fā)揮板卡延伸技術(shù)的優(yōu)勢,光大銀行信息技術(shù)部人員還對服務(wù)器的物理擺放位置進行了優(yōu)化,一排機柜僅部署2~3個安全區(qū)域的服務(wù)器,進一步降低網(wǎng)絡(luò)設(shè)備數(shù)量以及布線成本。自動化是“雙活”必要前提
雙活數(shù)據(jù)中心也需要依靠自動化手段幫助系統(tǒng)維護人員實現(xiàn)自動化的資源調(diào)配。比如,通過虛擬化技術(shù)虛擬出了上萬臺虛擬機器,白天需要50臺機器給網(wǎng)銀系統(tǒng)提供Web服務(wù),晚上網(wǎng)銀交易少了,貴金屬交易多了,這50臺機器要調(diào)配到另一個系統(tǒng)上。這五十臺不可能一個人一臺臺調(diào)配,那可能配一晚上都配不完,就需要自動化的軟件來自動調(diào)整資源分配。
在光大銀行的“同城雙活”工作模式下,據(jù)光大銀行信息科技部系統(tǒng)運維處高級經(jīng)理牟健君介紹:“假如這個數(shù)據(jù)中心有5臺機器工作,另外一個數(shù)據(jù)中心有5臺機器處于空閑狀態(tài),我想做一個操作:讓這邊的5臺機器停下來做日常的運維、審檢,讓另外一邊的5臺投入生產(chǎn)。有自動化工具以后,我點一下鼠標(biāo),這5臺機器上的應(yīng)用就可以立即切換到那5臺空閑的資源上去,整個業(yè)務(wù)不間斷,調(diào)度靈活。如果沒有自動化手段,過去的切換過程需要至少半個小時?!币虼?,自動化是云計算、“雙活”數(shù)據(jù)中心應(yīng)用必不可少的前提條件。