趙淦森, 湯 庸, 王維棟, 虞 海, 周尚勤
(1.華南師范大學計算機學院,廣東廣州 510631;2.廣東省服務計算工程技術研究開發(fā)中心,廣東廣州 510631;3.廣州市云計算安全與測評技術重點實驗室,廣東廣州 510631;4.網(wǎng)易公司,廣東廣州 510665)
云計算中的信息系統(tǒng)生存性量化分析研究
趙淦森1,2,3*, 湯 庸1,2,3*, 王維棟4, 虞 海4, 周尚勤3
(1.華南師范大學計算機學院,廣東廣州 510631;2.廣東省服務計算工程技術研究開發(fā)中心,廣東廣州 510631;3.廣州市云計算安全與測評技術重點實驗室,廣東廣州 510631;4.網(wǎng)易公司,廣東廣州 510665)
關注于分布式信息系統(tǒng)的生存性的評估和優(yōu)化,提出了一種部署于IaaS云環(huán)境的分布式信息系統(tǒng)的生存性量化分析框架:提出了一種量化評估部署于IaaS云環(huán)境的分布式信息系統(tǒng)的生存性的框架;在該框架下,提供了分析計算近似最優(yōu)生存性的部署方案的方法;應用多種算法進行了實驗,驗證了生存性量化分析框架的有效性和應用到實際場景中的效果.
生存性; 分布式信息系統(tǒng); IaaS云環(huán)境; 量化分析; 部署方案
云計算是一種新型的計算模式,提供對計算力、網(wǎng)絡、存儲、應用和服務等計算資源的統(tǒng)一彈性的調(diào)度管理和方便快捷的按需訪問;這些資源可以通過極小的管理或交互代價被迅速地提供和釋放[1].概括地說,云既包括通過網(wǎng)絡發(fā)布的各種應用和服務,也包括這些應用和服務所依托的基礎設施[2].本文主要關注服務模式為基礎設施即服務(Infrastructure as a Service,IaaS)的云,以下簡稱IaaS云[3].
生存性是信息系統(tǒng)的一個屬性,傳統(tǒng)環(huán)境中的生存性研究已經(jīng)取得了很多成果并在實際場景中發(fā)揮作用[4-5],生存性是指系統(tǒng)在遭受攻擊、出現(xiàn)故障或意外事故后,即使部分組件或服務失效、系統(tǒng)不再完整,仍然能夠及時完成其任務或提供關鍵服務的能力[6].這種能力意味著系統(tǒng)可以在出現(xiàn)異常、遭受入侵并部分受損的情況下,保證所執(zhí)行的關鍵任務或服務順利完成.這種情況下,雖然系統(tǒng)的安全策略失敗了,但是其生存策略卻是成功的[7].因此,生存性是一個實際應用中非常重要的系統(tǒng)性能參數(shù),可以作為系統(tǒng)在具有發(fā)生異常或被攻擊的風險的環(huán)境中運行并完成關鍵任務的評估標準,也可作為在遭受攻擊或出現(xiàn)軟硬件故障等意外事故后對系統(tǒng)運行穩(wěn)定性能的優(yōu)劣進行評價和判定的重要指標[8].傳統(tǒng)的研究思路是,系統(tǒng)設計者依據(jù)系統(tǒng)生存能力的評判給出針對該系統(tǒng)的改進建議,使之能夠在有限的資源下盡可能提升系統(tǒng)的生存性,順利完成用戶的關鍵任務[9].
目前國內(nèi)外已有關于生存性的研究成果,對生存性的研究思路較多.
文獻[10]針對信息安全和生存性的攻擊進行了建模.該文獻通過識別和記錄攻擊,建立了一種ACME攻擊樹[11],然后圍繞該攻擊樹進行了攻擊模式化和模式重用、攻擊樹的提升與篩選等研究.這些研究成果對于攻擊識別很有意義,但未涉及其他的生存性策略.
文獻[12]提出了一種預測模型,對集群在監(jiān)控在健康狀態(tài)、失效狀態(tài)和恢復狀態(tài)的轉換進行了預測和控制,研究了一種基于冷備份的生存性模型.應用Markov和Semi-Markov方法[13]進行節(jié)點穩(wěn)定狀態(tài)分析的思路值得借鑒.該文獻只考慮了物理節(jié)點的穩(wěn)定狀態(tài),未對集群的邏輯組件對整個集群的影響進行分析和研究.
文獻[14]專注于建立關鍵服務的恢復模型來提升系統(tǒng)生存性.該模型保護系統(tǒng)并通過重新設置受損資源到可用資源的方式來從損壞狀態(tài)中恢復關鍵服務.這一思路在云環(huán)境中將比在常規(guī)環(huán)境中更易實現(xiàn)且更加高效.
文獻[15]使用邏輯計算機結構語言(CSL)描述了生存性,系統(tǒng)的所有操作都用帶標記的連續(xù)時間Markov鏈(CTMC)[16]進行了建模.文獻研究的生存性仍然是以災難后的恢復性能為主,是一種被動的提升生存性的方案.
文獻[17]的研究重點在于保證異常事件發(fā)生后,在系統(tǒng)恢復到穩(wěn)定狀態(tài)之前的時間內(nèi),能夠保證系統(tǒng)運行在一個可接受的性能級別上,以提供關鍵的服務.
文獻[18]提出了一種能夠廣泛應用于系統(tǒng)架構、軟件、失效和恢復行為等的生存性度量方法.主要關注點在于生存性措施,分別對生存性進行了定性和定量的定義.該文獻也使用了Markov模型來進行性能評估,對系統(tǒng)出現(xiàn)故障前后的性能進行了分析.
文獻[19]在大規(guī)模多網(wǎng)絡系統(tǒng)中進行了保障關鍵服務在遭受攻擊時能夠以最小的網(wǎng)絡傳輸代價得到最佳的網(wǎng)絡資源應用效果的研究.文中在部分鏈接受攻擊而損壞的情況下利用剩下的鏈接盡可能得到最佳網(wǎng)絡資源應用效果的思路對信息系統(tǒng)的生存性的研究也很有意義.
文獻[20]描述了一種緊急事件算法.該算法要求系統(tǒng)的每個組件都只能跟自己的直接鄰居交互,并嚴格地保證各個組件間沒有依賴關系.事實上,這樣的構想只能在有限的一類系統(tǒng)中使用.
文獻[21]提出了一種管理網(wǎng)絡信息系統(tǒng)生存性的仿真模型.通過對事件過程、系統(tǒng)和系統(tǒng)生存性的逐層建模,逐步得到了能夠描述和優(yōu)化網(wǎng)絡信息系統(tǒng)生存性的仿真模型.對事件過程的建模將該過程視為一個被標記的,有一定隨機性的點過程,方便進一步的預測.對系統(tǒng)的建模則考慮了在系統(tǒng)架構中加入防御策略,并制定了可能發(fā)生的系統(tǒng)狀態(tài)集合.對系統(tǒng)生存性的建模則提出了一個具有參考意義的生存性衡量標準:事件發(fā)生后的生存性=新狀態(tài)的性能級別/正常狀態(tài)的性能級別.該論文有著典型的研究生存性的主流思路:改進系統(tǒng)架構,加入對風險進行預測、識別、防御的機制來提升系統(tǒng)的生存性.
總體來說,傳統(tǒng)的信息系統(tǒng)研究主要關注于對可能危害信息系統(tǒng)的威脅的預測、識別、防御以及對受損組件的恢復上,這些策略效果很好,但也會產(chǎn)生額外的開銷,尤其是在應用這些策略優(yōu)化生存性時通常需要修改信息系統(tǒng)的架構,這會使得信息系統(tǒng)的架構復雜化、增加開銷和維護難度,并在一定程度上影響性能.
一些基于Markov鏈的生存性研究對本文的研究工作也有一定的啟發(fā),Markov鏈中每種狀態(tài)值都取決于之前的有限個狀態(tài)的思路可以作為以過往經(jīng)驗和統(tǒng)計方法進行生存性分析的參考.
文獻[22]中對生存性的描述:“事件發(fā)生后的生存性=新狀態(tài)的性能級別/正常狀態(tài)的性能級別”具有一定的參考價值,但該文獻的主要關注點是各個狀態(tài)間的轉移和轉移過程的事件分析,沒有在這一思路上做進一步的工作.
在越來越多的信息系統(tǒng)被遷移到IaaS云平臺上的背景下,針對這些系統(tǒng)的生存性研究需要考慮到IaaS云平臺有別于遷移前的環(huán)境的特性.本文旨在對部署于IaaS云平臺上的信息系統(tǒng)的生存性進行量化分析,量化分析的結果能夠更直觀、準確地展示該信息系統(tǒng)在IaaS云環(huán)境下的生存性指標,方便之后的進一步分析統(tǒng)計和進行生存性改善.完成上述的生存性量化分析的理論研究后,本文提出了將理論應用于實際應用場景的方法.通過實現(xiàn)一個運維模塊優(yōu)化部署于實際IaaS云環(huán)境中的信息系統(tǒng)的生存性.該模塊會周期性地或應激性地對用戶指定的信息系統(tǒng)的部署環(huán)境進行生存性量化分析,生成生存性最優(yōu)的部署方案,并予以實施,以此在可能的范圍內(nèi)提升該信息系統(tǒng)的生存性.
本文的研究工作建立在背景項目——桌面云智能自動優(yōu)化管理實踐科技項目的基礎上,滿足生存性需求,切合實地場景,應對實際問題.主要工作包括以下幾點:(1)分析遷移到IaaS云后的信息系統(tǒng)的生存性的變化,識別背景項目中的實際的生存性需求;(2)建立生存性量化分析框架,分析部署在IaaS云平臺上的應用的生存性;(3)依據(jù)生存性量化分析框架計算已知環(huán)境中可能達到的近似最優(yōu)生存性,并生成達到該生存性的部署方案.
1.1 應用場景
本文提出的量化分析框架應用于一個有限的環(huán)境內(nèi),這個環(huán)境包括了分布式信息系統(tǒng)的組件、組件間的關系、組件的優(yōu)先級別、組件與虛擬機的關系、部署信息系統(tǒng)的物理設備、虛擬機與物理設備的映射關系等.
在IaaS云中,一個有限的環(huán)境包括了組成一個分布式信息系統(tǒng)的所有虛擬機和部署這些虛擬機的所有物理機.由于各個組件所部屬的虛擬機以及虛擬機實際所處的物理機的不同,不同組件面臨的風險也不盡相同,這些風險大致包括:物理硬件損壞、虛擬化平臺故障、系統(tǒng)服務失效、網(wǎng)絡不連通和惡意入侵等.
分布式信息系統(tǒng)通常都存在一些關鍵的組件,它們對其他組件的運行提供支持,可能是調(diào)度或存儲中心,或組件本身提供較為重要的服務或業(yè)務.這些組件的失效可能導致系統(tǒng)的核心業(yè)務無法完成,即系統(tǒng)不能存活.相對于其他即使失效了也對系統(tǒng)影響較小的組件,這些關鍵組件能否穩(wěn)定運行的需求顯然更高.若相對關鍵的組件所處的環(huán)境具有相對較小的風險,則整個分布式信息系統(tǒng)的生存性就較高.
本文所使用的符號如表1所示.
表1 符號表Table 1 Symbol table
1.2 框架概述
本文提出的基于IaaS云的信息系統(tǒng)的生存性量化分析框架的主要關注點是在有限的范圍內(nèi)對部署于IaaS云上的分布式信息系統(tǒng)的生存性進行計算和優(yōu)化.基于IaaS云的信息系統(tǒng)的生存性量化分析框架的組成示意圖見圖1.
圖1 分析框架架構圖
分布式信息系統(tǒng)V的理論性能表述為
(1)
分布式信息系統(tǒng)V在風險下的性能,也就是實際性能表述為
(2)
定義分布式信息系統(tǒng)V的生存性為
(3)
2.1 虛擬機的關聯(lián)
2.1.2 依賴關系衰退函數(shù) 依賴關系的定義中提到,依賴關系具有傳遞性,即當r(vx,vy)和r(vy,vz)同時存在時,r(vx,vz)存在.這種傳遞性在現(xiàn)實場景中體現(xiàn)在:當組件vx依賴組件vy時,若vy失效,則vx無法提供服務或無法提供部分服務,vy依賴于vz.同理,當vz失效時,vy失效或部分失效,必然會影響到vx的正常工作.因此,可以認為r(vx,vy)擁有衰減
圖2 虛擬機依賴關系圖
因子,其值隨著依賴關系的傳遞而不斷衰減.
節(jié)點的直接依賴關系表示為
(4)
以dxy表示vx到vy的距離,φ(dxy)是vx和vy的依賴關系的衰退函數(shù),則有:
(5)
令φ(dxy)=ωdxy,代入式(5)得到
(6)
2.1.3 貢獻值 虛擬機的貢獻值描述了在分布式系統(tǒng)中虛擬機的性能產(chǎn)出,其中為系統(tǒng)內(nèi)的其他組件提供服務和支持的部分是不對外的,只存在于系統(tǒng)內(nèi)部.但是這些產(chǎn)出維持了分布式系統(tǒng)內(nèi)部的運作,使系統(tǒng)本身能夠順利地提供對外業(yè)務.
(7)
2.2 信息系統(tǒng)生存性量化計算
2.2.1 虛擬機與物理機的映射關系 在有限范圍A內(nèi),虛擬機與物理機的映射關系滿足以下約束:
1)多臺虛擬機可以運行在同一臺物理機上,有∑Rvi(vionpj)≤Rpj;
2)在當前環(huán)境里,不允許一臺虛擬機存在于多個物理機上;
3)某物理機pj在邏輯范圍A內(nèi)的總資源量不一定等于該物理機所能提供的最大資源量.
αp=∑ωXY*rsmf(vpXY,cXY,[aXYbXY]),
(8)
其中,rsmf()為評分函數(shù),對各個因素指標進行統(tǒng)一的量化評分.
顯然,分布式信息系統(tǒng)V的理論性能表示為
(9)
分布式信息系統(tǒng)V在風險下的性能,也就是實際性能可以表示為
(10)
定義分布式信息系統(tǒng)V的生存性為
(11)
(12)
D*是能夠使SURVV(D*)取得最大值的xvipj的集合,也就是式(12)的最優(yōu)解.式(12)滿足以下約束條件:
(13)
(14)
xvipj=1 or 0.
(15)
約束條件解釋如下:
1)表示任何物理機上的虛擬機的資源用量之和不能超過該物理機的資源總量;
2)表示對于vi有且僅有一個pj滿足xvipj=1,即任何一臺虛擬機都應部署在某臺物理機上,1臺虛擬機不可以被同時部署在2臺物理機上;
3)xvipj=1表示vi在pj上,xvipj=0表示vi不在pj上,不存在第3種情況.
依據(jù)本文的理論研究,在背景項目中實現(xiàn)了生存性調(diào)度模塊,通過接受監(jiān)控模塊的接口提供的數(shù)據(jù)和用戶的配置,生存性調(diào)度模塊可以計算用戶指定的分布式信息系統(tǒng)在IaaS云的有限環(huán)境內(nèi)可能達到的最高生存性,生成對應的部署方案并應用.以下數(shù)據(jù)均由該生存性調(diào)度模塊生成.
實驗為一分布式計算集群V需要部署在某IaaS云上,V包括15臺虛擬機,類型、配置及其價值如表2所示.
表2 分布式計算集群虛擬機列表Table 2 Virtual machines of distributed computing cluster
依賴關系描述如下:所有計算節(jié)點依賴于調(diào)度主機;所有計算節(jié)點依賴于2臺數(shù)據(jù)同步機;所有調(diào)度主機、數(shù)據(jù)同步機及計算節(jié)點依賴于監(jiān)控主機;數(shù)據(jù)同步機互相依賴.
實際環(huán)境中的部署方案如圖3所示.
圖3 實際環(huán)境中的部署方案
計算可得,在實際環(huán)境中的部署方案下,生存性為SURVactual=0.847 188 976 285.
應用最優(yōu)的部署方案(圖4)后,可以得到本例中最優(yōu)的生存性為SURVmaximize=0.885 047 898 397.最優(yōu)的生存性較原部署方案下的生存性提升了δ=(SURVmaximize-SURVactual)/SURVactual=4.468 8%.
圖4 最優(yōu)的部署方案
本文同時利用計算機仿真的方式,對提出的相關理論進行了驗證性的實驗.隨機數(shù)據(jù)實驗中,制定以下規(guī)則:
1)資源主要以CPU核數(shù)和內(nèi)存容量來表現(xiàn).網(wǎng)絡帶寬因環(huán)境而異、標準不一,故不作考慮.現(xiàn)在的IaaS云常常使用集中存儲或其他存儲方式,物理機本機存儲的使用量不具有參考價值,也不作考慮;
2)隨機數(shù)據(jù)時,虛擬機CPU核數(shù)從集合{1,2,3,4}中選取,內(nèi)存容量(單位:MB)從集合{0.25,0.5,1,2,4}中選??;物理機VCPU核數(shù)從集合{8,16,32}中選取,內(nèi)存容量(單位:GB)從集合{10,16,24,32}中選取,此處的物理機的VCPU核數(shù)并非真實的物理機CPU核數(shù),而是物理機能提供的虛擬核數(shù);
3)虛擬機價值分級中,s=1,e=20,a=1,即L={1,2,3,…,20};
4)物理機穩(wěn)定性評估中,為盡量切合實際情況,在進行各個因素指標評分時,以85%的概率在取值范圍的后15%即[a+(b-a)*0.85,b]取值,以15%的概率在取值范圍的前85%即[a,b-(b-a)*0.85]內(nèi)取值.實際生產(chǎn)環(huán)境中存在的各種穩(wěn)定性因素指標在85%~100%取值的物理機占大多數(shù).該規(guī)則會顯著影響實驗結果;
5)設定虛擬機依賴關系圖中,邊與定點的比值edge_times=1.25,衰退因子ω為0.5,最小依賴關系rmin為0.001,即認為低于該閾值的依賴關系對評估結果影響較小,可忽略.
圖5 PM400VM2000算法效果比較
由圖5可知,在400臺物理及其2 000臺虛擬機器的模擬環(huán)境中,實驗過程中使用的4個不同的算法均能夠保持系統(tǒng)的存活率高于88%.其中有2個算法能夠穩(wěn)定地把系統(tǒng)的存活率維持在95%的水平.
圖6 算法時間的橫向比較
圖6展示了數(shù)據(jù)集PM2VM5~PM400VM2000中,各個算法的運行時長比較.各算法均隨著系統(tǒng)規(guī)模的增長而運行時間有所提升.可以看出,隨機匹配算法的變化趨勢不明顯,而首次匹配、K1和K2的運行時長隨著數(shù)據(jù)規(guī)模的擴大有較明顯的增長.實驗過程中,直到400臺物理及其2 000臺虛擬機器的規(guī)模,所有算法的運行時長都小于0.1 s,現(xiàn)實實驗過程中所實驗的算法在實際應用中完全可行.
實驗驗證了本文中提出的生存性量化評估框架的可行性和比較了各種算法的表現(xiàn).通過數(shù)據(jù)分析,得出了一些規(guī)律和結論.然后實施實際數(shù)據(jù)實驗,引入了實際環(huán)境中的需求和數(shù)據(jù),驗證了生存性量化評估框架在實際場景中的效果.
研究了部署于IaaS云環(huán)境的分布式信息系統(tǒng)的生存性問題,提出了該場景下的生存性量化分析框架.該框架包括4個主要部分:物理機穩(wěn)定性評估、虛擬機性能計算、系統(tǒng)生存性計算、近似最優(yōu)生存性計算.該框架可以依據(jù)配置、用戶輸入和實際運行數(shù)據(jù),分析得到平臺內(nèi)虛擬機的性能和部署環(huán)境中物理機的穩(wěn)定性,然后通過對部署方案的分解和調(diào)優(yōu),分析和優(yōu)化部署于IaaS云平臺的分布式信息系統(tǒng)的生存性.
文中提供了能夠根據(jù)生存性量化分析框架得出的數(shù)據(jù)計算限定環(huán)境下分布式信息系統(tǒng)能夠達到的最優(yōu)生存性的方法,并給出了該生存性對應的部署方案.在實際的IaaS云環(huán)境中,應用該部署方案即可在有限的環(huán)境內(nèi)優(yōu)化部署在云環(huán)境中的分布式信息系統(tǒng)的生存性,使得分布式信息系統(tǒng)能夠更好地應對異常、攻擊等風險,在有風險的環(huán)境內(nèi)擁有最大可能性來完成關鍵業(yè)務.
本文的研究仍有一些不足之處.最優(yōu)生存性的求解是NP問題,搜索算法復雜度太高,文中應用的近似算法效果雖然較好,但仍有很大的優(yōu)化空間,以進一步趨近最優(yōu)解,并應對一些非常規(guī)的情況.所做研究主要針對分布式信息系統(tǒng)的部署方案對生存性的影響進行,故研究成果可以和傳統(tǒng)的對風險的識別、抵御和受損組件恢復的生存性策略結合,具體的細節(jié)和契合點仍需研究.
[1] MELL P, GRANCE T.The NIST definition of cloud computing[J/OL]. National Institute of Standards and Technology. (2010-07-09) [2013-09-08].http:∥csrc.nist.gov/groups/SNS/cloud-computing/.
[2] ARMBRUST M, FOX A, GRIFFITH R, et al. A view of cloud computing[J]. Commun ACM, 2010, 53(4): 50-57.
[3] BHARDWAJ S, JAIN L, JAIN S.Cloud computing: A study of infrastructure as a service (IAAS)[J]. IJEIT, 2010,2(1):60-63.
[4] WESTMARK V R. A definition for information system survivability[C]∥Proceedings of the 37th IEEE annual Hawaii international conference on system sciences. Hawaii, USA, 2004.
[5] PARK J S, AUNG K M M. Transient time analysis of network security survivability using DEVS[M]∥KIM T G. Artificial intelligence and simulation. Lecture notes in computer science. Berlin, Germany: Springer-Verlag, 2005, 3397:607-616.
[6] NEUMANN P G, HOLLWAY A, BARNES A. Survivable computer-communication systems: The problem and working group recommendations[R]. Technical report VAL-CE-TR-92-22. New Mexico:Army Research Laboratory, 1993.
[7] ELLISON R J, FISHER D A, LINGER R C, et al.Survivable network system: An emerging discipline[R]. Report CMU/SEI-97-TR-013. Pittsburgh: Carnegie Mellon University, 1997.
[8] JHA S, WING J. Survivability analysis of networked systems[C]∥Proceedings of the 23rd IEEE international conference on software engineering. Washington, DC, 2001:872-874.
[9] 鮑鳴,戴躍偉,孔建壽,等.冗余系統(tǒng)的生存能力分析與評估[J].控制與決策,2009,24(12):1873-1876.
[10] MOORE A P, ELLISON R J, LINGER R C, et al. Attack modeling for information security and survivability[R]. Technical report CMU/SEI-2001-TN-001. Pittsburgh: Carnegie Mellon University,2001.
[11] GARLAN D, MONROE R, WILE D. Acme: An architecture description interchange language[C]∥Proceedings of 10th international conference of advanced studies research. Riverton, JN, 2010: 159-173.
[12] AUNG K M M, PARK K, PARK J S. A survivability model for cluster system[M]∥HOBBS M, GOSCINSKI A, ZHOU W. Distributed and parallel computing. Lecture note in computer science. Berlin, Germany: Springer-Verlag, 2005, 3719: 73-82.
[13] GILKS W R, RICHARDSON S, SPIEGELHALTER D J. Markov chain Monte Carlo in practice[M]. London: Chapman & Hall/CRC, 1996.
[14] IRVING P, AZWEEN A. Survivable system by critical service recovery model: Single service analysis[J]. International Arab Journal of Information Technology, 2009, 6(4): 412-417.
[15] CLOTH L, HAVERKORT B R. Model checking for survivability![C]∥Proceeding of 2nd IEEE international conference on quantitative evaluation of systems. Torino, Italy, 2005: 145-154.
[16] KATOEN J P, KWIATKOWSKA M, NORMAN G, et al. Faster and symbolic CTMC model checking[C]∥Proceedings of the Joint international workshop on process algebra and probabilistic methods, performance modeling and verification. London: Springer-Verlag, 2001.
[17] HEEGAARD P E, TRIVEDI K S. Network survivability modeling[J]. Computer Networks, 2009, 53(8): 1215-1234.
[18] LIU Y, TRIVEDI K S. Survivability quantification: The analytical modeling approach[J]. International Journal of Performability Engineering, 2006, 2(1): 29.
[19] MEDHI D, TIPPER D. Multi-layered network survivability-models, analysis, architecture, framework and implementation: An overview[C]∥Proceeding of DARPA information survivability conference and exposition. South Carolina, USA, 2000: 173-186.
[20] FISHER D A, LIPSON H F. Emergent algorithms:A new method for enhancing survivability in unbounded systems[C]∥Proceedings of the 32nd IEEE annual Hawaii international conference on system sciences. Maui, HI, USA, 1999.
[21] MOITRA S D, KONDA S L. A simulation model for managing survivability of networked information systems[R]. Technical Report CMU/SEI-2000-TR-021. Pittsburgh: Carnegie Mellon University, 2000.
[22] KHAJEH-HOSSEINI A, GREENWOOD D, SOMMERVILLE I. Cloud migration: A case study of migrating an enterprise IT system to IaaS[C]∥IEEE 3rd international conference on cloud computing. Miami, FL, USA, 2010:450-457.
Keywords: survivability; distributed information systems; IaaS cloud environment; quantitative analysis; deployment plan
QuantitativeAnalysisResearchonSurvivabilityofInformationSystemsinCloud
ZHAO Gansen1,2,3*, TANG Yong1,2,3*, WANG Weidong4, YU Hai4, ZHOU Shangqin3
(1.School of Computer Science, South China Normal University, Guangzhou 510631,China;2. Guangdong Engineering & Technology Research Center for Services Computing, Guangzhou 510631, China;3.Key Laboratory of Cloud Computing Security and Evaluation Technology, Guangzhou 510631, China;4.Netease Company, Guangzhou 510665, China)
Survivability is one of important indicators of an information system, which describes the ability that a system can complete its task timely even after attacks, failures or accidents occurred. A quantitative analysis framework on survivability of distributed information systems which are deployed in IaaS cloud environment is proposed. The major research direction is to evaluate the robustness of physical devices, calculate the priority of different components, and then analyze the survivability of a distributed information system in a limited scope of several physical devices and virtual machines with a deployment plan. Afterwards, the framework can draw a better deployment plan for the distributed information system to archive quasi-optimal survivability in limited environment. Finally, the deployment plan will be converted to maintenance commands and executed by IaaS cloud platform.The main contributions of the paper include: a quantitative analysis framework on survivability of distributed information systems deployed in IaaS cloud environment, method to calculate a better deployment plan to archive quasi-optimal survivability for a distributed information system in limited environment, apply several algorithms to experiment the availability of the framework, and test the effect of the frame in actual scene.
2013-09-01
國家科技支撐計劃項目(2012BAH27F05);教育部-中國移動科研基金項目(MCM20121051);廣東省自然科學基金項目(S2012030006242);廣東省省院合作產(chǎn)學研重大專項項目(2011A090100003);廣東省戰(zhàn)略新興產(chǎn)業(yè)核心技術攻關項目(2011A010801007);廣州市科研條件建設項目(2012224-12);廣州珠江科技新星項目(2011J2200089)
*通訊作者:趙淦森,教授,Email: zhaogansen@gmail.com; 湯庸,教授,Email: ytang4@qq.com.
1000-5463(2013)06-0034-08
TP393
A
10.6054/j.jscnun.2013.09.005
【中文責編:莊曉瓊 英文責編:肖菁】