中國核電工程有限公司鄭州分公司 蘆 杉
針對云計(jì)算數(shù)據(jù)中心結(jié)構(gòu)復(fù)雜,構(gòu)成要素繁多,指標(biāo)量化困難等問題,提出蒙特卡洛仿真方法對其可用度進(jìn)行分析研究。首先分析確定可用度指標(biāo),然后應(yīng)用可靠性框圖結(jié)合蒙特卡洛模擬對中心可用度進(jìn)行實(shí)例仿真分析,最后提出提高可用度的建議。該方法能夠有效完成云計(jì)算數(shù)據(jù)中心可用度的仿真分析,為提升中心運(yùn)行可靠性提供支持。
數(shù)據(jù)中心是信息化的核心,承擔(dān)著各單位的關(guān)鍵性業(yè)務(wù)。隨著云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,數(shù)據(jù)中心由傳統(tǒng)的IDC機(jī)房轉(zhuǎn)變?yōu)樵朴?jì)算數(shù)據(jù)中心。云計(jì)算數(shù)據(jù)中心的特點(diǎn)是虛擬化、共享性,一旦數(shù)據(jù)中心出現(xiàn)故障,將給單位帶來不可預(yù)測的損失,其可用度是運(yùn)維人員關(guān)注的核心問題。然而,云計(jì)算數(shù)據(jù)中心的構(gòu)成要素較多,各指標(biāo)的量化方法不統(tǒng)一,導(dǎo)致無法采用傳統(tǒng)的計(jì)算方法衡量數(shù)據(jù)中心的可用度。因此,構(gòu)建云計(jì)算數(shù)據(jù)中心的可用度評估指標(biāo)體系,探索可用度的仿真方法勢在必行。
云計(jì)算服務(wù)類型包括三種,分別為IaaS、PaaS、SaaS。這里主要研究云計(jì)算數(shù)據(jù)中心IaaS的可用度。典型的云計(jì)算數(shù)據(jù)中心主要由虛擬化平臺架構(gòu)、網(wǎng)絡(luò)通信系統(tǒng)、運(yùn)維監(jiān)控系統(tǒng)、供電系統(tǒng)、業(yè)務(wù)服務(wù)系統(tǒng)五個(gè)模塊組成,如圖1所示。
圖1 云計(jì)算數(shù)據(jù)中心結(jié)構(gòu)
(1)可用度的相關(guān)概念
MTTR:系統(tǒng)由故障狀態(tài)轉(zhuǎn)為正常工作狀態(tài)時(shí)修復(fù)時(shí)間的平均值。MTTR越短,易修復(fù)性越好。
MTBF:對于可修復(fù)的系統(tǒng),每次故障后又投入使用,平均故障間隔時(shí)間。
可用度:用來表示系統(tǒng)性能好壞的指標(biāo)之一,用A表示。即:
(2)可靠性方框圖
可靠性方框圖(RBD-Reliability Block Diagrams)是一種圖解方法,定義了復(fù)雜系統(tǒng)內(nèi)部子系統(tǒng)的邏輯關(guān)系(串聯(lián)、并聯(lián)、串并混合)。
(3)蒙特卡洛模擬法
蒙特卡洛模擬法是一種基于隨機(jī)抽樣、概率分析的模擬方法,包括隨機(jī)抽樣、構(gòu)造概率模型、隨機(jī)數(shù)產(chǎn)生、系統(tǒng)仿真計(jì)算、結(jié)果統(tǒng)計(jì)擬合等過程。云計(jì)算數(shù)據(jù)中心具有結(jié)構(gòu)復(fù)雜、設(shè)備種類繁多、數(shù)量大、故障模式多種多樣等特點(diǎn),可利用可靠性框圖完成結(jié)構(gòu)建模,再采用蒙特卡洛模擬仿真完成可用度計(jì)算。
蒙特卡洛模擬仿真的基本分析步驟如下:
(1)通過分析云計(jì)算數(shù)據(jù)中心的構(gòu)成和功能層次等,建立功能結(jié)構(gòu)圖,確定故障判別標(biāo)準(zhǔn),建立可靠性框圖模型。
(2)輸入系統(tǒng)中單個(gè)部件的故障函數(shù)、MTBF等參數(shù),使用蒙特卡洛法對基本部件壽命隨機(jī)抽樣,取得n個(gè)基礎(chǔ)樣本,分別將這n個(gè)基本部件至于失效,找出系統(tǒng)的失效時(shí)間。進(jìn)行N次仿真后,可統(tǒng)計(jì)出系統(tǒng)N次失效時(shí)間。
(3)用區(qū)間統(tǒng)計(jì)方法進(jìn)行系統(tǒng)失效數(shù)的分布統(tǒng)計(jì),得出系統(tǒng)失效時(shí)間在每個(gè)區(qū)間內(nèi)的失效數(shù)。
(4)通過蒙特卡洛仿真,可以計(jì)算出平均故障間隔時(shí)間MTBF和平均修復(fù)時(shí)間MTTR,從而可以得出系統(tǒng)的可用度。
使用同樣的方法,可以推導(dǎo)計(jì)算出MTTR,最后利用公式可以計(jì)算出系統(tǒng)可用度A。
結(jié)合圖1所示的云計(jì)算數(shù)據(jù)中心結(jié)構(gòu),某云計(jì)算數(shù)據(jù)中心組成見表1所示。該中心能夠提供虛擬機(jī)服務(wù)、存儲管理、業(yè)務(wù)訪問、業(yè)務(wù)監(jiān)控等功能,無法實(shí)現(xiàn)上述任一項(xiàng)功能視為系統(tǒng)故障。
圖2 虛擬化架構(gòu)子系統(tǒng)可靠性框圖模型
表1 某云計(jì)算數(shù)據(jù)中心的結(jié)構(gòu)
應(yīng)用仿真平臺軟件建立RBD分析模型。
(1)建立云計(jì)算數(shù)據(jù)中心總可靠性框圖,由五個(gè)子系統(tǒng)串聯(lián)組成。
(2)建立各子系統(tǒng)可靠性框圖
深入分析搭建各子系統(tǒng)可靠性框圖模型,部分子系統(tǒng)的可靠性框圖如圖2所示,其他子系統(tǒng)的可靠性框圖構(gòu)建方法類似。
表2 輸入?yún)?shù)表
表3 數(shù)據(jù)中心各子系統(tǒng)得仿真結(jié)果
結(jié)合云計(jì)算數(shù)據(jù)中心設(shè)備型號,通過調(diào)研生產(chǎn)單位及用戶應(yīng)用情況,得到10種設(shè)備的可靠性輸入?yún)?shù),具體如表2所示。
(1)模擬仿真
依據(jù)設(shè)備更新時(shí)間間隔和用戶對該數(shù)據(jù)中心的運(yùn)行要求,設(shè)置數(shù)據(jù)中心仿真運(yùn)行壽命為15年,系統(tǒng)仿真次數(shù)為100次。人員調(diào)集延誤時(shí)間1h,維修間隔期為720h,備品備件到達(dá)延遲時(shí)間為0.5h。
對數(shù)據(jù)中心壽命周期可用度仿真分析,結(jié)果如表3所示。
(2)結(jié)果分析
在系統(tǒng)運(yùn)行的15年間,云計(jì)算數(shù)據(jù)中心共計(jì)停工239次、923.8h,平均故障間隔時(shí)間為733.1h(約30.55天、1個(gè)月)。服務(wù)子系統(tǒng)的故障率最高,主要是由于該子系統(tǒng)組成數(shù)量較多,且離用戶最近,操作次數(shù)較多。在虛擬化架構(gòu)、網(wǎng)絡(luò)通信系統(tǒng)、監(jiān)控及解析、供電子系統(tǒng)中,主要節(jié)點(diǎn)例如服務(wù)器、出口、供電均采取了冗余備份方式,且市電、通信線路本身故障率較低,故該四個(gè)子系統(tǒng)的故障率較低。
網(wǎng)絡(luò)通信子系統(tǒng)故障引起的修復(fù)時(shí)間最長,主要是由于光纖通信線路的中斷,需要找故障點(diǎn),并進(jìn)行光纖熔接,這樣導(dǎo)致修復(fù)時(shí)間較長。由于虛擬化主機(jī)、存儲等均設(shè)有備品備件,因此修復(fù)時(shí)間最短。
基于上述的實(shí)驗(yàn)仿真方法以及計(jì)算結(jié)果,可從以下四個(gè)方面提升云計(jì)算數(shù)據(jù)中心的可用度:
(1)重視機(jī)房巡檢工作,加強(qiáng)機(jī)房溫度、濕度等環(huán)境的監(jiān)控,為設(shè)備的運(yùn)行提供良好的環(huán)境,從而減低設(shè)備故障的風(fēng)險(xiǎn);
(2)強(qiáng)化對機(jī)房設(shè)備的管理以及操作系統(tǒng)的維護(hù)。確保每天查看設(shè)備的硬件情況,保障設(shè)備硬件無故障,以月份為單位對數(shù)據(jù)中心的操作系統(tǒng)和應(yīng)用軟件進(jìn)行檢查,升級版本,提高軟件的可用率。
(3)提升設(shè)備的質(zhì)量,對于關(guān)鍵設(shè)備優(yōu)選可靠性高、壽命時(shí)間長的硬件設(shè)備,如服務(wù)器、存儲等;針對數(shù)據(jù)中心的核心設(shè)備采取必要的冗余熱備份措施,實(shí)現(xiàn)自動(dòng)切換功能。
(4)規(guī)范備件管理。對于核心設(shè)備,采購配置足量的備品、備件以及零部件等,同時(shí)建設(shè)一套完備的備品備件管理系統(tǒng),當(dāng)有故障發(fā)生時(shí),能夠快速更換有效的備品備件。
結(jié)束語:通過深入分析云計(jì)算數(shù)據(jù)中心的構(gòu)成要素以及功能結(jié)構(gòu),確定了中心的典型結(jié)構(gòu),利用可靠性框圖分析與蒙特卡洛模擬相結(jié)合的方法仿真分析中心的可用度,完成了某中心的實(shí)例仿真應(yīng)用,提出了改進(jìn)措施建議。實(shí)踐表明,該方法能夠?yàn)樵朴?jì)算數(shù)據(jù)中心的運(yùn)維決策提供理論參考,為提高云計(jì)算數(shù)據(jù)中心的可用度提供依據(jù)。