王海霞,黃植勤
(中國電信股份有限公司廣東研究院,廣東 廣州 510630)
IT云服務(wù)能力平臺業(yè)務(wù)連續(xù)性策略研究
王海霞,黃植勤
(中國電信股份有限公司廣東研究院,廣東 廣州 510630)
IT云服務(wù)能力平臺承載全網(wǎng)集中系統(tǒng)業(yè)務(wù),存在著系統(tǒng)故障點(diǎn)集中、風(fēng)險(xiǎn)集中的風(fēng)險(xiǎn),一旦出現(xiàn)故障容易導(dǎo)致服務(wù)中斷,影響電信業(yè)務(wù)的受理。為了規(guī)避業(yè)務(wù)中斷的風(fēng)險(xiǎn),通過分析IT云服務(wù)能力平臺的三層服務(wù)框架,從基礎(chǔ)設(shè)施的高可用、服務(wù)器的高可用、應(yīng)用層的高可用三個方面探討了本地高可用的主要技術(shù),并提出了IT云服務(wù)能力平臺兩地三中心的容災(zāi)部署方案以及IT云服務(wù)能力平臺通過LVS+keepalived實(shí)現(xiàn)負(fù)載均衡的詳細(xì)方法。
IT云服務(wù)能力平臺 業(yè)務(wù)連續(xù)性 高可用 負(fù)載均衡
日益激烈的市場競爭和不斷提高的客戶服務(wù)質(zhì)量要求需要中國電信提供不間斷的服務(wù),尤其是發(fā)生災(zāi)難時也要提供一些關(guān)鍵業(yè)務(wù)的客戶服務(wù),避免企業(yè)的財(cái)務(wù)損失,保障企業(yè)信譽(yù)不受影響,增強(qiáng)企業(yè)核心競爭力,這對業(yè)務(wù)支撐系統(tǒng)提出了更高的數(shù)據(jù)保護(hù)和穩(wěn)定運(yùn)行要求。
自2004年以來,中國電信各省的業(yè)務(wù)支撐系統(tǒng)逐步從省集中建設(shè)轉(zhuǎn)變?yōu)榧瘓F(tuán)集中的模式,在市場拓展、客戶服務(wù)等工作中發(fā)揮著越來越重要的作用;與此同時,集團(tuán)級業(yè)務(wù)支撐系統(tǒng)集中化帶來了業(yè)務(wù)快速響應(yīng)等優(yōu)勢,但同時也存在系統(tǒng)故障點(diǎn)集中、風(fēng)險(xiǎn)集中的危險(xiǎn),如人為誤操作、系統(tǒng)故障等一般風(fēng)險(xiǎn)以及大面積停電、水災(zāi)、地震等重大災(zāi)難。
IT云服務(wù)能力平臺作為新一代IT架構(gòu)核心,需具備基礎(chǔ)能力,以平臺為核心逐步實(shí)施BSS(Business Support System,業(yè)務(wù)支撐系統(tǒng))全國集中系統(tǒng)部署上線,提升IT對4G等新業(yè)務(wù)的集約化運(yùn)營支撐能力。全網(wǎng)集中對云平臺的處理能力、穩(wěn)定性、彈性部署、業(yè)務(wù)連續(xù)性等提出了更高的要求。鑒于此,本文將對IT云服務(wù)能力平臺的業(yè)務(wù)連續(xù)性策略和關(guān)鍵技術(shù)進(jìn)行分析研究。
IT云服務(wù)能力平臺總體框架圖如圖1所示。IT云服務(wù)能力平臺采用分布式框架,分別由Web層、服務(wù)層和數(shù)據(jù)層組成,每層都是由一組主機(jī)組成,采用集群部署模式,分別為Web服務(wù)器集群、應(yīng)用服務(wù)器集群和數(shù)據(jù)庫集群。集群可以看作是一個整體,集群的節(jié)點(diǎn)可以單獨(dú)提供服務(wù),各節(jié)點(diǎn)之間通過負(fù)載均衡實(shí)現(xiàn)高可用和故障隔離。
圖1 IT云服務(wù)能力平臺總體框架圖
圖2 IT云服務(wù)能力平臺公共框架概要圖
IT云服務(wù)能力平臺公共框架概要圖如圖2所示。
平臺公共框架是直接提供給BSS應(yīng)用系統(tǒng)調(diào)用的開發(fā)框架,是BSS應(yīng)用系統(tǒng)和各專題模塊、第三方包之間的一個中心樞帶。平臺公共框架構(gòu)建于Ketty和aLogic中間件之上。
Web層框架主要封裝Web的相關(guān)框架,包括Session會話共享模塊、Struts2相關(guān)基礎(chǔ)模塊、Filter、Servlet、分頁工具以及調(diào)用服務(wù)層的接口封裝等。該Web層應(yīng)盡量依賴較少的第三方j(luò)ar包,為Web層提供相關(guān)BaseAction基類和基礎(chǔ)框架。
由于在分布式應(yīng)用中,服務(wù)層和Web層是分開部署,Web層調(diào)用服務(wù)層的方法是通過遠(yuǎn)程restful服務(wù)。因此,框架對restful服務(wù)的調(diào)用進(jìn)行了封裝,使對Web層的調(diào)用是透明的。
服務(wù)層框架包主要封裝后臺服務(wù)的相關(guān)框架,包括業(yè)務(wù)邏輯基礎(chǔ)類、全局序列、相關(guān)服務(wù)組裝、restful開發(fā)封裝等,處于Web層和數(shù)據(jù)層的中間。
服務(wù)層框架包為應(yīng)用系統(tǒng)的后臺服務(wù)層提供相關(guān)基類和基礎(chǔ)框架。
數(shù)據(jù)層框架主要封裝底層數(shù)據(jù)訪問相關(guān)框架,包括抽象數(shù)據(jù)增刪改查訪問、mybatis封裝、dao封裝、全局序列生成等,并提供BaseDao和BaseEntity等基礎(chǔ)類。
從技術(shù)角度而言,可用性是指IT系統(tǒng)持續(xù)正常運(yùn)行時間的百分比。它由兩方面來確定:一方面是系統(tǒng)的可靠性,通常用MTTF(Mean Time To Failure,平均無故障時間)來衡量;另一方面是系統(tǒng)的可維護(hù)性,通常用MTTR(Mean Time To Restoration,故障平均維修時間)來衡量。那么,MTTF/(MTTF+MTTR)×100%表示為系統(tǒng)的可用性。因此,為提高系統(tǒng)的高可用,往往使用相關(guān)的高可用技術(shù)來提供保障,還可以從迅速地發(fā)現(xiàn)和解決故障,恢復(fù)系統(tǒng)正常運(yùn)行這方面著手。
IT云服務(wù)能力平臺主要采用以下高可用技術(shù):
(1)服務(wù)器的高可用技術(shù)
服務(wù)器的高可用性有兩個層次,通常情況下,開放平臺應(yīng)用服務(wù)器的高可用是通過結(jié)構(gòu)冗余來實(shí)現(xiàn),另外還可以提高服務(wù)器硬件的可靠性。結(jié)構(gòu)冗余的方式主要包括雙機(jī)熱備、服務(wù)器N+1備份和負(fù)載均衡等模式,具體如下:
◆雙機(jī)熱備模式通常對生產(chǎn)系統(tǒng)采用1+1的冗余配置,硬件和軟件完全一致,一旦生產(chǎn)服務(wù)器發(fā)生故障,系統(tǒng)軟件也可發(fā)現(xiàn)故障,然后將應(yīng)用自動切換到備用服務(wù)器,實(shí)現(xiàn)應(yīng)用的快速恢復(fù)。
◆服務(wù)器N+1備份一般是采用1臺備機(jī)對N臺服務(wù)器進(jìn)行備份,當(dāng)任何一臺生產(chǎn)服務(wù)器發(fā)生故障時,備用服務(wù)器則接管這臺生產(chǎn)服務(wù)器繼續(xù)服務(wù)。
◆負(fù)載均衡模式通常在群組中配置一些冗余服務(wù)器,當(dāng)其中任何一臺服務(wù)器出現(xiàn)異常時,路由將服務(wù)請求轉(zhuǎn)到集群中的其他服務(wù)器,這樣就能實(shí)現(xiàn)群組整體對外能力的可靠性。
總體來說,服務(wù)器N+1備份可維護(hù)性好,資源利用率較高,但恢復(fù)時效性稍差;而雙機(jī)熱備和負(fù)載均衡的恢復(fù)時間目標(biāo)的性能較好,但維護(hù)起來相對復(fù)雜,并且存在資源冗余度大的問題。
在服務(wù)器硬件層面,目前服務(wù)器廠商采用了多項(xiàng)高可用技術(shù)如群集管理、提供遠(yuǎn)程鏡像支持、軟硬件監(jiān)控等方式提供高可用的平臺,還可以采用部件冗余等來保障服務(wù)器硬件的正常運(yùn)行。
此外,隨著虛擬化技術(shù)的快速發(fā)展,有效屏蔽了硬件之間的差異,服務(wù)器的可用性得到有效提升,從而實(shí)現(xiàn)了硬件資源的按需分配、服務(wù)器的在線遷移,即使發(fā)生服務(wù)器故障,系統(tǒng)也可以做到自動隔離故障部件,并且完成快速切換。
(2)基礎(chǔ)設(shè)施的高可用技術(shù)
基礎(chǔ)設(shè)施主要是指存儲、網(wǎng)絡(luò)和電源設(shè)備等,這些設(shè)備的可用性目前主要是采用冗余技術(shù)來實(shí)現(xiàn)。存儲設(shè)施的高可用技術(shù)有以下兩種方式:
◆存儲設(shè)備內(nèi)部的磁盤冗余:主要依靠RAID(Redundant Arrays of Independent Disks,磁盤陣列)技術(shù)實(shí)現(xiàn),可以分為鏡像冗余和校驗(yàn)冗余。
◆存儲設(shè)備之間復(fù)制技術(shù):具體是通過磁盤陣列自身的數(shù)據(jù)塊復(fù)制技術(shù)手段來實(shí)現(xiàn)。
復(fù)制方式既可以采用同步方式,也可以采用異步方式。目前,同步方式主要應(yīng)用于服務(wù)器I/O性能好、網(wǎng)絡(luò)帶寬充足和對J恢復(fù)點(diǎn)目標(biāo)(RPO)要求高的應(yīng)用環(huán)境,主要包括EMC SRDF/S(Symmetrix Remote Data Facility/Syncronous,同步遠(yuǎn)程數(shù)據(jù)復(fù)制拓?fù)洌DS TrueCopy等;異步方式主要適用于對磁盤性能和網(wǎng)絡(luò)帶寬要求低的應(yīng)用環(huán)境,主要包括EMC SRDF/A(Symmetrix Remote Data Facility/Asyncronous,異步遠(yuǎn)程數(shù)據(jù)復(fù)制拓?fù)洌?、HDS HUR(遠(yuǎn)程異步容災(zāi)軟件)等技術(shù)。
網(wǎng)絡(luò)高可用技術(shù)通常包括網(wǎng)絡(luò)接口冗余、網(wǎng)絡(luò)負(fù)載均衡技術(shù)、多個備用的交換機(jī)和路由器、多網(wǎng)卡聚合等。電源的高可用性既可以通過UPS(Uninterruptible Power System,不間斷電源)來保障,也可以配置冗余的電源來提供保障。
(3)應(yīng)用層的高可用技術(shù)
該層使用的技術(shù)主要包括以下兩方面:
一方面是提高應(yīng)用的可靠性,如在業(yè)務(wù)處理的時候采用負(fù)載均衡模式,在應(yīng)用接入方面采用多點(diǎn)接入架構(gòu),在應(yīng)用數(shù)據(jù)庫方面采用高可用技術(shù);
另一方面是提高應(yīng)用可維護(hù)性,如故障監(jiān)控、故障報(bào)警和系統(tǒng)恢復(fù)等工具。
負(fù)載均衡模式具體實(shí)現(xiàn)方式是將多個節(jié)點(diǎn)部署在應(yīng)用層,這些節(jié)點(diǎn)承擔(dān)同樣的業(yè)務(wù),如果一個節(jié)點(diǎn)發(fā)生故障,服務(wù)訪問請求能夠被系統(tǒng)自動轉(zhuǎn)到其他節(jié)點(diǎn)處理,并且其他節(jié)點(diǎn)均不受影響。
多點(diǎn)接入架構(gòu)主要采用的方式是同時部署多個訪問接入點(diǎn),并且在不同地點(diǎn)提供多套彼此獨(dú)立的冗余應(yīng)用系統(tǒng),如果任何一地或者多地的應(yīng)用系統(tǒng)出現(xiàn)故障,其他地點(diǎn)的應(yīng)用系統(tǒng)能自動接管。多點(diǎn)接入架構(gòu)大多適用于網(wǎng)上銀行、電話銀行等渠道交易處理類型的應(yīng)用系統(tǒng)。
數(shù)據(jù)庫的高可用往往通過冗余的方式實(shí)現(xiàn),包括結(jié)構(gòu)和數(shù)據(jù)的冗余,具體如下:
◆實(shí)現(xiàn)結(jié)構(gòu)冗余的有Standby技術(shù)和集群技術(shù),Standby技術(shù)適用于故障時的主、備用數(shù)據(jù)庫快速切換,一般是采用事務(wù)日志同步方式來實(shí)現(xiàn),如Oracle的DataGuard等,數(shù)據(jù)庫的集群架構(gòu)技術(shù)可通過多節(jié)點(diǎn)負(fù)載均衡提供故障容錯和無縫切換,如Oracle的Real Application Cluster。
◆數(shù)據(jù)冗余一般通過數(shù)據(jù)備份和磁盤復(fù)制來完成,如為了將生產(chǎn)系統(tǒng)的數(shù)據(jù)備份到磁帶介質(zhì)離線保存,可使用集中備份軟件(如NetBackup),還可以通過Oracle軟件工具EXP、RMAN進(jìn)行數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)出備份。
此外,在信息系統(tǒng)的運(yùn)行維護(hù)中還廣泛使用了一些應(yīng)用工具,如監(jiān)控報(bào)警、系統(tǒng)恢復(fù)和故障診斷等,使用這些應(yīng)用工具可以盡快發(fā)現(xiàn)服務(wù)器、網(wǎng)絡(luò)、電源和應(yīng)用等的故障,并能在短時間內(nèi)完成診斷和修復(fù)應(yīng)用組件,大大減少了應(yīng)用系統(tǒng)的平均維修時間,從而有效提高可用性。
IT云服務(wù)能力平臺兩地三中心部署示意圖如圖3所示。
圖3 IT云服務(wù)能力平臺兩地三中心部署示意圖
“兩地三中心”中的兩地是指同城和異地;三中心是指除了生產(chǎn)中心外,還包括兩個容災(zāi)中心,分別是同城容災(zāi)中心和異地容災(zāi)中心。由于近幾年國內(nèi)外曾發(fā)生過大范圍的自然災(zāi)害,“兩地三中心”即同城雙中心加異地災(zāi)備中心的災(zāi)備模式應(yīng)運(yùn)而生,這種災(zāi)備模式的優(yōu)勢是既有高可用性,又具備災(zāi)難備份的處理能力。
同城雙中心的具體實(shí)現(xiàn)方式是建立兩個數(shù)據(jù)中心,分別位于同城或鄰近城市,這兩個數(shù)據(jù)中心相互獨(dú)立,并具備基本等同的業(yè)務(wù)處理能力來承擔(dān)關(guān)鍵業(yè)務(wù)運(yùn)營,兩個數(shù)據(jù)中心之間是通過高速鏈路實(shí)現(xiàn)數(shù)據(jù)的實(shí)時同步。正常情況下,雙中心是同時運(yùn)行的,互相之間可切換運(yùn)行,并同時分擔(dān)業(yè)務(wù);災(zāi)難情況下,雙中心可進(jìn)行災(zāi)備應(yīng)急切換,保障業(yè)務(wù)連續(xù)性,并且可做到基本不丟失數(shù)據(jù)。與異地災(zāi)備方式比較而言,同城雙中心建設(shè)快、投資低,并且可靠性高、運(yùn)維管理比較簡單等。
異地災(zāi)備中心通常遠(yuǎn)離生產(chǎn)中心的所在城市,在其他城市建立一個災(zāi)備中心,對生產(chǎn)數(shù)據(jù)進(jìn)行備份,當(dāng)生產(chǎn)中心出現(xiàn)故障時,就可以啟用異地災(zāi)備中心的備份數(shù)據(jù),實(shí)現(xiàn)業(yè)務(wù)的恢復(fù)。
總體而言,兩地三中心的災(zāi)難恢復(fù)方案可以保障不同災(zāi)難場景下的業(yè)務(wù)連續(xù)性要求。
由于本地機(jī)房與生產(chǎn)中心位于同一個機(jī)房,它們之間是通過局域網(wǎng)進(jìn)行連接的,因此比較容易實(shí)現(xiàn)生產(chǎn)與災(zāi)備服務(wù)器之間應(yīng)用切換和數(shù)據(jù)的實(shí)時復(fù)制,本地機(jī)房的容災(zāi)主要是用于防范生產(chǎn)服務(wù)器的故障。
由于異地災(zāi)備中心與生產(chǎn)中心不在同一個機(jī)房,受限于生產(chǎn)端與災(zāi)備端連接的網(wǎng)絡(luò)線路帶寬和質(zhì)量,因此應(yīng)用系統(tǒng)的切換需要一些時間,異地災(zāi)備中心完全可以在業(yè)務(wù)限定的時間內(nèi)進(jìn)行恢復(fù)和實(shí)現(xiàn)在可容忍丟失范圍內(nèi)的數(shù)據(jù)恢復(fù)。異地災(zāi)備中心主要用于防范大規(guī)模區(qū)域性災(zāi)難。
IT云服務(wù)能力平臺上的承載業(yè)務(wù)按照重要性分為三級:一級業(yè)務(wù)是支撐生產(chǎn)的關(guān)鍵業(yè)務(wù);二級業(yè)務(wù)是實(shí)時性不高的查詢;三級業(yè)務(wù)是指統(tǒng)計(jì)業(yè)務(wù)等。為了保障業(yè)務(wù)的連續(xù)性,具體實(shí)現(xiàn)方案如下:
(1)三中心同時在線
同城兩IDC(Internet Data Center,互聯(lián)網(wǎng)數(shù)據(jù)中心)各承接49.5%的一級、二級業(yè)務(wù)訪問流量。異地備IDC承接1%的一級、二級業(yè)務(wù)隨機(jī)熱度流量,確保所有應(yīng)用版本和數(shù)據(jù)的正確性。異地備IDC同時承接三級業(yè)務(wù)流量,如實(shí)時性不高的統(tǒng)計(jì)報(bào)表業(yè)務(wù)、各省數(shù)據(jù)準(zhǔn)實(shí)時同步以及一些臨時取數(shù)操作等。同一中心內(nèi)的應(yīng)用和數(shù)據(jù)原則上部署在同一個機(jī)房內(nèi)。
(2)三中心應(yīng)用軟件版本一致
各IDC中心部署全套應(yīng)用軟件,各IDC中心應(yīng)用軟件版本統(tǒng)一一致(除灰度發(fā)布狀態(tài))。應(yīng)用依據(jù)請求類型,動態(tài)加載租戶個性化插件。
(3)三中心業(yè)務(wù)部署
各IDC中心分別都存儲一套全量業(yè)務(wù)數(shù)據(jù),主數(shù)據(jù)庫集群和備數(shù)據(jù)庫集群結(jié)構(gòu)一致。二級業(yè)務(wù)訪問同城備數(shù)據(jù)庫,三級業(yè)務(wù)數(shù)據(jù)僅僅在異地備數(shù)據(jù)集群存儲(三級業(yè)務(wù)數(shù)據(jù)可通過一級業(yè)務(wù)數(shù)據(jù)重新計(jì)算生成)。各IDC數(shù)據(jù)集群,數(shù)據(jù)庫采用一主一從。
(4)訪問分類
一級業(yè)務(wù)數(shù)據(jù)操作:所有IDC應(yīng)用都連到主IDC數(shù)據(jù)集群;
二級業(yè)務(wù)數(shù)據(jù)訪問:所有IDC應(yīng)用都連到同城備IDC數(shù)據(jù)集群;
三級業(yè)務(wù)數(shù)據(jù)操作:連到異地備IDC數(shù)據(jù)集群。
(5)IDC間數(shù)據(jù)同步
主備IDC中心通過異步方式進(jìn)行數(shù)據(jù)備份。主IDC到同城備IDC 99.9%的數(shù)據(jù)同步時延5分鐘內(nèi),同城備IDC向異地備IDC 99.9%的數(shù)據(jù)同步時延30分鐘內(nèi)。外系統(tǒng)數(shù)據(jù)同步給主IDC數(shù)據(jù)集群,單次數(shù)據(jù)量不大于5千條,可通過實(shí)時接口發(fā)送;單次數(shù)據(jù)量大于5千條,可通過數(shù)據(jù)同步,10萬條最大時延在10分鐘。異地備IDC同步到各省99.9%的數(shù)據(jù)同步時延30分鐘內(nèi)。
(6)數(shù)據(jù)準(zhǔn)確性保障
記錄全部數(shù)據(jù)的變更日志,對日志及主數(shù)據(jù)進(jìn)行核對,確保數(shù)據(jù)準(zhǔn)確。記錄關(guān)鍵數(shù)據(jù)變更日志,對日志和備份數(shù)據(jù)進(jìn)行核對,保障備份數(shù)據(jù)準(zhǔn)確一致。
集群一般是由一組計(jì)算機(jī)構(gòu)成,每個節(jié)點(diǎn)可以是不同硬件構(gòu)成的計(jì)算機(jī),也可以是部署不同操作系統(tǒng)的計(jì)算機(jī),從外部看起來又是一個整體。如提供Web服務(wù)的集群,集群的每個節(jié)點(diǎn)可以單獨(dú)提供服務(wù),對外界而言可看作是一個大Web服務(wù)器。
常見的應(yīng)用服務(wù)器集群、Web服務(wù)器集群和數(shù)據(jù)庫集群屬于負(fù)載均衡系統(tǒng)。負(fù)載均衡系統(tǒng)是指集群內(nèi)所有的節(jié)點(diǎn)同時分擔(dān)系統(tǒng)的工作負(fù)載,它們都處于活動狀態(tài)。負(fù)載均衡集群一般適用于相應(yīng)網(wǎng)絡(luò)請求的網(wǎng)頁服務(wù)器和數(shù)據(jù)庫服務(wù)器。負(fù)載均衡集群可以在接到請求時檢查到接受請求較少、不繁忙的服務(wù)器,并把請求轉(zhuǎn)移到這些服務(wù)器上。從檢查服務(wù)器狀態(tài)這一點(diǎn)來看,負(fù)載均衡和容錯集群比較接近,不同之處在于負(fù)載均衡集群的數(shù)量更多。
集群系統(tǒng)主要解決以下問題:
(1)負(fù)載均衡:集群中的計(jì)算機(jī)共同承擔(dān)負(fù)載壓力,這樣主服務(wù)器的負(fù)載得到緩解,主服務(wù)器的硬件和軟件要求也隨之降低。
(2)高可靠性(HA):通過集群管理軟件提供不間斷服務(wù)。
(3)高性能計(jì)算(HPC):通常適用于科學(xué)計(jì)算領(lǐng)域,并行處理復(fù)雜運(yùn)算。
負(fù)載均衡比較常用DNS(Domain Name System,域名系統(tǒng))負(fù)載均衡,還包括反向代理負(fù)載均衡和IP負(fù)載均衡等,即在集群中有服務(wù)器A、B、C,它們之間互不相干,當(dāng)其中任何一臺的機(jī)器宕機(jī)了,都不會影響其他機(jī)器的運(yùn)行。用戶發(fā)來一個請求時,通過負(fù)載均衡器的算法來決定由哪臺機(jī)器處理,如使用round算法,分別有用戶a、b、c,則分別由服務(wù)器A、B、C來處理。
(1)基于DNS的負(fù)載均衡
在DNS服務(wù)器中,不同IP地址的服務(wù)器可以配置相同的名稱,查詢服務(wù)器根據(jù)名稱解析得到一個IP地址。因此,不同的查詢服務(wù)器可以訪問不同IP地址上的Web服務(wù)器,實(shí)現(xiàn)負(fù)載均衡的目標(biāo)。
(2)基于NAT(Network Address Translation,網(wǎng)絡(luò)地址轉(zhuǎn)換)的負(fù)載均衡
負(fù)載均衡的方式具體是通過地址轉(zhuǎn)換網(wǎng)關(guān)實(shí)現(xiàn),配置內(nèi)部IP地址的計(jì)算機(jī)通過轉(zhuǎn)換網(wǎng)關(guān)可以訪問外網(wǎng)。而且地址轉(zhuǎn)換網(wǎng)關(guān)能將每個外部訪問連接均勻轉(zhuǎn)換為不同的內(nèi)部IP地址,則外網(wǎng)中的服務(wù)器就能各自與自己轉(zhuǎn)換得到的地址上的計(jì)算機(jī)進(jìn)行通信。
(3)反向代理負(fù)載均衡
通過代理服務(wù)器實(shí)現(xiàn)負(fù)載均衡,客戶通過代理訪問內(nèi)部Web服務(wù)器,代理服務(wù)器可以將請求均勻地轉(zhuǎn)發(fā)給多臺內(nèi)部Web服務(wù)器上。
IT云服務(wù)能力平臺整體采用分布式架構(gòu),Web層和服務(wù)層都采用集群部署模式,通過負(fù)載均衡實(shí)現(xiàn)訪問調(diào)度,實(shí)現(xiàn)服務(wù)器集群高可用和故障隔離,具體采用LVS+keepalived的方式,其中LVS(Linux Virtual Server,Linux虛擬服務(wù)器)實(shí)現(xiàn)負(fù)載均衡,keepalived承擔(dān)健康檢查和故障轉(zhuǎn)移,提升系統(tǒng)的可用性。采用這種架構(gòu)對現(xiàn)有系統(tǒng)的擴(kuò)展非常容易實(shí)現(xiàn),只需更改LVS的配置文件,并在后端添加或者減少realserver,就能實(shí)現(xiàn)無縫配置變更。
LVS是一個開源的軟件,可以實(shí)現(xiàn)Linux平臺下的簡單負(fù)載均衡;keepalived是運(yùn)行在LVS之上,其主要功能是實(shí)現(xiàn)真實(shí)機(jī)的故障隔離及負(fù)載均衡器間的失敗切換,提高系統(tǒng)的可用性。
keepalived的主要作用是檢測服務(wù)器的狀態(tài),并能將有故障的服務(wù)器從集群中去除,當(dāng)服務(wù)器修復(fù)后,keepalived可以把恢復(fù)正常的服務(wù)器重新加入到服務(wù)器集群中。
LVS+keepalived切換過程如下:
(1)主從機(jī)完成keepalived的安裝,并且把vip指定到一臺機(jī)器上。
(2)把主機(jī)斷網(wǎng)或者是數(shù)據(jù)庫stop,vip飄走。
(3)查看從機(jī)的ip,得到vip。
本文結(jié)合IT云服務(wù)能力平臺的框架,分別從本地高可用策略和容災(zāi)策略兩個方面探討了業(yè)務(wù)連續(xù)性的主要策略,并提出了IT云服務(wù)能力平臺兩地三中心的具體實(shí)現(xiàn)方案。同時,重點(diǎn)分析業(yè)務(wù)連續(xù)性主要實(shí)現(xiàn)的技術(shù),包括集群和負(fù)載均衡技術(shù),以及IT云服務(wù)能力平臺通過LVS+keepalived實(shí)現(xiàn)負(fù)載均衡的具體方法。目前,虛擬化技術(shù)成為重要的發(fā)展方向,運(yùn)用該技術(shù)能夠顯著提高計(jì)算機(jī)的工作效率。按應(yīng)用領(lǐng)域的維度,虛擬化技術(shù)可以劃分為服務(wù)器虛擬化、存儲虛擬化、網(wǎng)絡(luò)虛擬化等;按實(shí)現(xiàn)層次的維度,虛擬化技術(shù)又可以劃分為硬件虛擬化、操作系統(tǒng)虛擬化、應(yīng)用程序虛擬化等。下一步,虛擬化技術(shù)將成為IT云服務(wù)能力平臺重點(diǎn)研究領(lǐng)域。
[1]劉振棟,羅群. 基于云平臺的業(yè)務(wù)與數(shù)據(jù)遷移技術(shù)分析與研究[J]. 信息與電腦: 理論版, 2015(17): 32-33.
[2]高勇. 業(yè)務(wù)連續(xù)性管理與災(zāi)難管理——從IT連續(xù)到業(yè)務(wù)連續(xù)[J]. 中國信息安全, 2014(12): 114.
[3]楊鈞,黃傳俊. 云架構(gòu)下支撐系統(tǒng)業(yè)務(wù)連續(xù)性提升方案研究[J]. 江蘇通信, 2016(6): 43-45.
[4]梁曉歡. 數(shù)據(jù)庫安全、虛擬化和云計(jì)算——現(xiàn)代IT領(lǐng)域數(shù)據(jù)保護(hù)所面臨的三大關(guān)鍵技術(shù)挑戰(zhàn)[J]. 電腦與電信,2011(4): 5-8.
[5]王霜,修保新,肖衛(wèi)東. Web服務(wù)器集群的負(fù)載均衡算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2004,40(25): 78-80.
[6]李雙慶,古平,程代杰. Web集群系統(tǒng)負(fù)載均衡策略分析與研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2002,38(19): 40-42.
[7]李坤,王百杰. 服務(wù)器集群負(fù)載均衡技術(shù)研究及算法比較[J]. 計(jì)算機(jī)與現(xiàn)代化, 2009(8): 7-10.
[8]蓋九宇,張忠能,肖鶴. 分布式數(shù)據(jù)庫數(shù)據(jù)復(fù)制技術(shù)的分析與應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用與軟件,2005,22(7): 36-38.
[9]孫海燕,王曉東,肖儂,等. 數(shù)據(jù)網(wǎng)格中的數(shù)據(jù)復(fù)制技術(shù)研究[J]. 計(jì)算機(jī)科學(xué), 2005,32(7): 13-16.
[10]張秋余,王璐. 分布式系統(tǒng)中數(shù)據(jù)復(fù)制的研究與應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2005,26(5): 1185-1186.
[11]劉威. 信息系統(tǒng)的高可用性建設(shè)探討[J]. 中國金融電腦, 2012(6): 44-48.
[12]劉威. 商業(yè)銀行的業(yè)務(wù)連續(xù)性管理探討[J]. 中國金融電腦, 2012(10): 58-61.
Research on Service Continuity Strategy of IT Cloud Service Capability Platform
WANG Haixia, HUANG Zhiqin
(Guangdong Research Institute of China Telecom Co., Ltd., Guangzhou 510630, China)
As IT cloud service capacity platform bears the centralized system services of the entire network, there are disadvantages of intensive system fault point and centralized risk. Once fault happens, the service would be interrupted and the telecommunication service reception would be affected. In order to avoid the risk of service interruption, three-level service architecture of IT cloud service capacity platform was addressed. From three aspects including the high availability of infrastructure, server and application layer, main techniques of local high availability were discussed. In addition, the deployment scheme of remote disaster recovery in three centers of two places for IT cloud service capacity platform was put forward. Finally, the detailed method to implement load balancing by means of LVS+keepalived for IT cloud service capacity platform was elaborated.
IT cloud service capability platform service continuity high availability load balancing
10.3969/j.issn.1006-1010.2017.20.005
TP393.0
A
1006-1010(2017)20-0027-06
王海霞,黃植勤. IT云服務(wù)能力平臺業(yè)務(wù)連續(xù)性策略研究[J]. 移動通信, 2017,41(20): 27-32.
2017-05-19
責(zé)任編輯:袁婷 yuanting@mbcom.cn
王海霞:高級工程師,碩士畢業(yè)于武漢大學(xué),現(xiàn)任職于中國電信股份有限公司廣東研究院,主要研究方向?yàn)镮T系統(tǒng)架構(gòu)設(shè)計(jì)、需求分析等。
黃植勤:高級工程師,學(xué)士畢業(yè)于大連理工大學(xué),現(xiàn)任職于中國電信股份有限公司廣東研究院,主要研究方向?yàn)镮T系統(tǒng)架構(gòu)設(shè)計(jì)、需求分析、應(yīng)用性能管理、IT系統(tǒng)軟硬件評測等。