He Jin,Wu Shengbo,Ding Ding(.Beijing Telecom Planning&Designing Institute Co.,Ltd.,Beijing 00048,China;.Beijing University of Posts and Telecommunications,Beijing 00876,China)
隨著科技的日新月異,電子終端及互聯(lián)網(wǎng)已成為人們生活、工作、娛樂不可或缺的工具,但同時終端的差異性、復雜性、安全性、可用性也給企業(yè)管理帶來了巨大挑戰(zhàn)。
對于運營商而言,目前在用終端以管理知識型與生產(chǎn)任務型2類為主。其中管理知識型終端以辦公、代維終端為主,擁有個性化桌面環(huán)境,應用豐富,有外網(wǎng)訪問需求。目前這類終端已實現(xiàn)入域管理,支持統(tǒng)一安全防護、統(tǒng)一補丁升級、統(tǒng)一訪問權限,滿足可管可控的要求,硬件配置普遍能滿足個性化桌面要求。但對于應用單一、專業(yè)性強,無個性化應用需求,以營業(yè)廳、客服中心為代表的生產(chǎn)任務型終端的管理則面臨很大的挑戰(zhàn)。管理方面:終端管理不可達,無法監(jiān)控各終端運行狀態(tài),無法形成完整的終端資產(chǎn)管理;安全方面:終端存在各種安全隱患,包括信息泄露、病毒及惡意軟件攻擊;運維方面:終端維護復雜、成本高,需逐一進行設備、系統(tǒng)及應用的安裝、調(diào)試,軟硬件頻繁升級;能耗環(huán)保方面:終端能耗大、噪聲大,無法滿足節(jié)能減排、綠色環(huán)保要求。
桌面云解決方案正是為解決運營商終端管理的種種困擾而產(chǎn)生的。桌面云實際上為一種云計算IaaS,它將數(shù)據(jù)中心的計算能力以虛擬桌面的形式交付給用戶,即將傳統(tǒng)模式下用戶側(cè)的操作系統(tǒng)、應用程序和用戶數(shù)據(jù)解耦后轉(zhuǎn)移到數(shù)據(jù)中心進行運行和保存。用戶側(cè)終端僅需保留基本的通信與圖像處理能力,用戶鑒權認證后即可通過優(yōu)化的網(wǎng)絡協(xié)議訪問數(shù)據(jù)中心云端服務器和應用程序以獲得與傳統(tǒng)模式無差異的服務體驗。方案整體架構如圖1所示。
桌面云是一種以服務器為中心的計算模式,借鑒了傳統(tǒng)的瘦客戶機管理方法,主要提供2項服務:一是在數(shù)據(jù)中心對用戶的所有桌面環(huán)境或部分應用進行統(tǒng)一管理;二是當用戶使用虛擬桌面及應用時,與使用正常的PC終端沒有任何體驗上的缺失。有效兼顧了對用戶桌面的“控制”和“自由”。桌面云是對個人電腦的虛擬化,而不是簡單的主機時代的回歸。
通過桌面云的引入,可有效“分離”企業(yè)IT系統(tǒng)用戶的物理終端和邏輯桌面 (含應用程序和用戶數(shù)據(jù)),便于集中部署與工作相關的邏輯桌面環(huán)境,達到統(tǒng)一管控、安全可靠、綠色環(huán)保、降低TCO、改善使用與維護體驗等目的。
對于營業(yè)廳類的生產(chǎn)任務型場景,桌面云引入之后,業(yè)務的受理模式發(fā)生了根本的改變。傳統(tǒng)模式下,業(yè)務的受理為用戶終端與后臺CRM等業(yè)務系統(tǒng)的交互過程。桌面云化之后,用戶終端與后臺業(yè)務系統(tǒng)之間增加一個桌面云層。所有用戶請求均需通過桌面云平臺方能到達后臺業(yè)務系統(tǒng)。
傳統(tǒng)模式下,終端管理者并不關注用戶終端的高可靠性,營業(yè)廳中單終端故障并不會中斷整個業(yè)務受理過程。此模式下,業(yè)務連續(xù)性主要取決于后臺業(yè)務系統(tǒng)的可靠性,只有后臺業(yè)務系統(tǒng)發(fā)生故障宕機才會造成大范圍業(yè)務癱瘓。但在桌面云模式下,用戶操作系統(tǒng)、應用程序、數(shù)據(jù)均已移到數(shù)據(jù)中心,相應終端的故障責任同步集中。從用戶體驗看,傳統(tǒng)模式下終端故障責任歸屬于終端所有者。云化后,桌面是作為一種服務提供給用戶,受傳統(tǒng)觀念影響,用戶自然地認為服務中斷責任應歸屬于服務提供者。同時,對于一種應用服務,用戶很難接受它與傳統(tǒng)終端同一級別的故障率。更重要的是,在新的架構中,桌面云平臺是用戶訪問后臺業(yè)務系統(tǒng)的必經(jīng)路徑。一旦桌面云平臺因故障宕機,相當于切斷了用戶與后臺業(yè)務系統(tǒng)間的交互通道,這等同于后臺業(yè)務系統(tǒng)宕機,同樣會造成大規(guī)模業(yè)務中斷。因此,不能將桌面云當做簡單的應用系統(tǒng),它的可靠性級別甚至應等同于后臺業(yè)務系統(tǒng),但同時桌面云采用了虛擬化、云計算等創(chuàng)新技術,傳統(tǒng)業(yè)務系統(tǒng)可靠性保障策略并不足以支撐相應新增需求,本文正是在這種背景下,試圖建立一套適用于保障應用了虛擬化等云技術的創(chuàng)新類系統(tǒng)業(yè)務連續(xù)性的高可靠性策略。
桌面云的可靠性是指在虛擬資源管理和調(diào)度的過程中,資源執(zhí)行任務的能力所表現(xiàn)出來的持久性和穩(wěn)定性,主要包括資源的可用性、資源完成任務的時限性、資源的連續(xù)穩(wěn)定性。對于桌面云主要考慮從數(shù)據(jù)、系統(tǒng)、業(yè)務3個方面提高它的可靠性。
數(shù)據(jù)的高可用包括業(yè)務數(shù)據(jù)及系統(tǒng)數(shù)據(jù) (系統(tǒng)軟件、應用軟件、配置等)。數(shù)據(jù)保存在共享存儲上,它的高可用策略相對比較成熟。不同數(shù)據(jù)的可用性需求存在差異,因此將桌面云涉及到的數(shù)據(jù)劃分為3個級別,即相關配置數(shù)據(jù),操作系統(tǒng)、應用程序的鏡像文件與用戶個性化profile數(shù)據(jù),用戶個人數(shù)據(jù),針對不同級別數(shù)據(jù)采用不同級別的RAID技術。
圖1 桌面云整體架構
系統(tǒng)的高可用指沒有直接影響整體架構問題的單點故障,包括虛機層面和物理機層面。平臺門戶等管理服務器負責桌面云用戶的接入與虛擬資源的調(diào)度,是整個系統(tǒng)的核心,因此它的可靠性要求最高,采用Cluster結構,即2臺或多臺主機共用同一部分資源,當1臺主機發(fā)生故障,另外幾臺或1臺主機接替該主機的工作,這部分資源對用戶是透明的。對于桌面資源采用虛擬桌面資源池的方式提升它們的可用性。根據(jù)虛擬化基礎架構服務器的硬件資源配置計算虛擬桌面支撐能力,按照N+n配置,實現(xiàn)冗余,一旦某一臺在線宿主服務器發(fā)生故障或需離線維護,則將其上承載的虛擬桌面遷移至其他節(jié)點上。同時在虛擬機層面,系統(tǒng)自動將虛擬機的元數(shù)據(jù)備份至共享存儲,并通過domain 0實時監(jiān)控虛擬機運轉(zhuǎn)情況,一旦確定某個虛擬機發(fā)生故障,可將虛擬機的活動內(nèi)存和精確的執(zhí)行狀態(tài)通過高速網(wǎng)絡迅速傳輸至集群內(nèi)另一節(jié)點并新建虛擬機以恢復用戶服務狀態(tài)。系統(tǒng)的高可用方案和數(shù)據(jù)高可用方案密切相關,數(shù)據(jù)的高可用是它的基礎。圖2示出的是虛擬機動態(tài)遷移。
圖2 虛擬機動態(tài)遷移
業(yè)務的高可用主要目標是保證業(yè)務的連續(xù)性,它是一種預防性機制,以數(shù)據(jù)中心為關注核心,確保相關關鍵職能在任何環(huán)境下都能持續(xù)發(fā)揮作用。因桌面云數(shù)據(jù)中心接近后臺業(yè)務系統(tǒng)可靠性的定位,需通過容災備份提升其可靠性。采用雙中心對關鍵業(yè)務進行容災,在每個數(shù)據(jù)中心按40%關鍵業(yè)務容量配置,對于營業(yè)廳桌面采用主備用+負荷的方式,分別部署在數(shù)據(jù)中心1和數(shù)據(jù)中心2,即每個數(shù)據(jù)中心既包括關鍵業(yè)務的主用桌面,又包括備用桌面,當用戶桌面一個數(shù)據(jù)中心故障時,另外一個數(shù)據(jù)中心的備用桌面將承載失效業(yè)務。統(tǒng)一的管理節(jié)點負責數(shù)據(jù)中心的選擇,從而使得用戶可以接入到不同數(shù)據(jù)中心桌面;管理節(jié)點將根據(jù)數(shù)據(jù)中心的運行狀態(tài)以及用戶所在的地址位置執(zhí)行選擇策略,從而實現(xiàn)用戶接入桌面的自動負載均衡和容災切換。具體過程如下:用戶接入終端上設定默認的桌面業(yè)務入口域名地址,管理節(jié)點負責該地址的域名解析,正常情況下該地址將被解析至該用戶主用數(shù)據(jù)中心入口地址,使得用戶訪問請求路由至其主用桌面;當檢測到主用站點故障后,對于用戶的后續(xù)DNS請求,將被解析為用戶備用桌面所在的入口地址,用戶即可以使用備用數(shù)據(jù)中心桌面繼續(xù)承載業(yè)務;在故障恢復后管理節(jié)點重新將DNS請求解析為主用站點地址,從而恢復用戶對于原主用桌面的使用。
上述優(yōu)化策略目標為盡可能提升桌面云服務的可靠性,但可靠性提升的代價是更高的資源耗費,實際應用中更多的是尋找可靠性與資源耗費的一個平衡點。因此,本文建立了一個資源可靠性評價模型,試圖借助此模型實現(xiàn)基于可靠性的資源分級,以便為不同需求用戶提供差異化服務。
資源包含靜態(tài)與動態(tài)兩大類屬性。其中靜態(tài)屬性指資源池每個計算節(jié)點固有的計算能力、存儲能力、通信能力等。動態(tài)屬性指資源在調(diào)度過程中的動態(tài)特征,主要指資源的固有能力在調(diào)度過程中展現(xiàn)出來的波動變化規(guī)律。按照屬性性質(zhì),將其分為剛性參數(shù)與彈性參數(shù)兩類。剛性參數(shù)是用戶明確要求必須滿足的需求,在桌面云中主要包含數(shù)據(jù)可靠性級別、系統(tǒng)可靠性級別、業(yè)務可靠性級別3個參數(shù)。彈性參數(shù)主要指優(yōu)化調(diào)度、提升用戶體驗等相關的參數(shù),在桌面云中主要包括操作響應時限與衡量計算節(jié)點本身的故障歷史情況兩個參數(shù)。
資源可靠性模型由五元組Availability表示,Availability=(D、S、B、T、H)。其中 D 表示數(shù)據(jù)可靠性級別,在營業(yè)廳場景中,包含普通營業(yè)員、VIP營業(yè)員、營業(yè)廳廳長3類用戶角色,其中廳長的數(shù)據(jù)可靠性要求最高,普通營業(yè)員相對較低,因此D的取值包括0、1、2,分別對應 RAID0、RAID1、RAID2 3 個級別;S 表示系統(tǒng)可靠性級別,按資源池的冗余程度劃分為3個級別,即分別對應N+1、N+2、N+3;B表示業(yè)務可靠性,按是否提供容災服務劃分為2個級別。以上3個參數(shù)為剛性參數(shù),即資源調(diào)度時分配給用戶虛擬資源的參數(shù)必須與用戶的需求相匹配。同一資源池中這3個參數(shù)相同。
T表示用戶操作響應時限,忙時Ts1≤15 s,非忙時Ts0≤3 s。T的取值由當前節(jié)點響應時延與標準時延差值確定。針對一個資源池內(nèi)各個計算節(jié)點的操作響應時限 Ti=(T1,T2,···,Tn,Ts1,Ts0), 可以取到的最大值為Ti,max,最小值為 Ti,min,當前值為 Ti,cur,則歸一化可表示為
則用戶操作響應時限為
H表示計算節(jié)點本身故障的歷史情況,由當前計算節(jié)點的故障次數(shù)決定。但顯然歷史故障與計算節(jié)點自身可靠性情況相關程度越來越差,同時計算節(jié)點可靠程度與故障性質(zhì)密切相關。因此Hm取值由故障Fi、故障發(fā)生時間TFi、故障性質(zhì)共同決定。
其中μ表示不同故障性質(zhì)對應的權值,按故障影響范圍進行賦值,即故障僅影響單個用戶時,μ=1;故障影響一個計算資源池內(nèi)大部分用戶時,μ=4;故障影響一個數(shù)據(jù)中心接入的大部分用戶時,μ=10。針對一個資源池內(nèi)各個計算節(jié)點的故障歷史情況Hm=(H1,H2,···,Hn)取值,則歸一化可表示為
資源可靠性評價模型由剛性參數(shù)組成的三元組A=(D、S、B)與由彈性參數(shù)組成的向量 B=(TN,HN)構成。
資源調(diào)度的目的是將合適的資源交付給用戶,是一個根據(jù)用戶需求將資源池中相匹配的虛擬資源分配給用戶的過程。在桌面云體系下,根據(jù)用戶角色定義不同可靠性需求,即根據(jù)用戶身份對三元組A=(D、S、B)與向量 B=(TN,HN)進行賦值。
整個資源調(diào)度過程由資源請求、資源探測、資源調(diào)用3個步驟構成。用戶注冊到管理節(jié)點,即將自己的角色及資源可靠性需求交付給管理節(jié)點,完成資源請求過程。管理節(jié)點接收到用戶請求之后,對現(xiàn)有資源進行探測,根據(jù)上文的資源可靠性評價模型得到各個計算節(jié)點資源可靠性標識,完成資源探測。之后進入資源調(diào)用階段:首先根據(jù)用戶的剛性需求,為用戶定位資源池范圍,即根據(jù)三元組A=(D、S、B)的值找到匹配用戶需求的資源池。之后根據(jù)用戶的彈性需求,定位用戶需求的最佳適配資源,并交付給用戶。上文中分別用向量Bres與向量Buser來代表用戶需求與資源可靠性,即分別成為它們的特征向量。如果兩者的特征向量相似,則資源可靠性與用戶需求相匹配,通過余弦定理找到與用戶需求特征向量夾角最小的資源特征向量,即余弦值越大,兩特征向量夾角越小,即資源匹配程度越好。
桌面云是桌面計算環(huán)境的一次深度變革,尤其對運營商這種終端規(guī)模龐大的企業(yè)而言意義重大。通過桌面云實現(xiàn)對終端的集中統(tǒng)一管理,有效提升對營業(yè)廳等生產(chǎn)任務類需強管控終端的管理水平,但隨著終端的集中,終端可靠性要求同步增加。本文提出一種針對桌面虛擬資源可靠性的評價模型,并基于此模型實現(xiàn)了一種面向最優(yōu)可靠性適配的資源調(diào)度算法,有效提升了虛擬桌面服務的可靠性,促進傳統(tǒng)終端加速向桌面云過渡。
[1]孟江濤,盧顯良.虛擬機監(jiān)控器Xen的可靠性優(yōu)化 [J].計算機應用,2010(9).
[2]歐攀.基于資源可靠性的網(wǎng)格資源調(diào)度研究[D].重慶:西南大學,2007.
[3]蘭雨晴,申騫,劉銘.云計算環(huán)境中在線遷移技術研究[J].電信科學,2010,26(9).
[4]肖斐.虛擬化云計算中資源管理的研究與實現(xiàn)[D].西安:西安電子科技大學,2010.
[5]董耀祖.基于x86架構的系統(tǒng)虛擬機技術與應用[D].上海:上海交通大學,2006.