李永超 周麗麗 張悅
大連市氣象信息中心 遼寧 大連 116001
隨著互聯(lián)網(wǎng)等技術的不斷進步和云計算產(chǎn)業(yè)的高速發(fā)展,各個行業(yè)的信息化建設和數(shù)據(jù)中心規(guī)模發(fā)展迅速,以云計算發(fā)展為突出代表。氣象部門的私有云建設不僅參與了信息化技術應用,同時也推動了云計算行業(yè)的發(fā)展,近年來全國各級氣象部門都在廣泛開展云計算、虛擬化等嘗試,最終完成傳統(tǒng)信息技術到虛擬化應用的轉(zhuǎn)變,并將虛擬化技術的優(yōu)勢逐漸體現(xiàn)出來[2]。隨著大連氣象系統(tǒng)信息化建設初具規(guī)模,已經(jīng)建設了覆蓋全市的高速業(yè)務專用網(wǎng)絡和高可用、高性能的數(shù)據(jù)中心。近些年來,隨著業(yè)務的不斷發(fā)展,各種氣象軟件和氣象資源不斷增加,業(yè)務環(huán)境中桌面終端的維護成本日益增長。2015年大連市氣象局服務器虛擬化平臺建設初步建成,分別由一套華為刀箱服務器集群和6臺利舊服務器集群搭建完成,由一套VCenter進行集中管理。后經(jīng)多次升級擴容,增加了7臺高性能服務器組建了第三套虛擬化集群,存儲和內(nèi)存等資源都得到了提升。作為虛擬化平臺管理人員,在為全局業(yè)務用戶提供便利的同時也帶來一些管理方面的困惑和技術瓶頸,有待于進一步解決。
自2015年起,大連市氣象局基于服務器虛擬化技術實現(xiàn)了私有云以來,目前已完成3套服務器虛擬化集群和管理平臺,資源池主要包括物理服務器20臺、CPU 736核、內(nèi)存1920G、存儲容量100T。運行的虛擬機130余臺,承載了氣象臺、服務中心、信息中心等多個重要業(yè)務系統(tǒng)[1]。
當前私有云運維管理自動化程度不高,主要體現(xiàn)在兩個方面:一是資源池規(guī)模越來越大、虛擬機系統(tǒng)資源故障隱患點不易排查(比如內(nèi)存、CPU、存儲空間不足,物理機宕機等),僅依靠管理員人工監(jiān)控往往出現(xiàn)故障或隱患發(fā)現(xiàn)不及時、資源動態(tài)分配失衡等問題,導致集群HA性能下降、虛擬機業(yè)務系統(tǒng)運行不穩(wěn)定。二是用戶虛擬機管理采用紙質(zhì)化的申請流程不但效率低,而且檔案不易長久保存。開發(fā)智能化的運維監(jiān)控管理平臺實現(xiàn)對集群中虛擬機、物理機和存儲等資源的自動化監(jiān)控,提升用戶虛擬機管理水平。
搭建的B/S架構(gòu)虛擬化管理平臺,其中主要開發(fā)模塊包括以下5個方面的內(nèi)容:基于VMware接口服務,開發(fā)信息處理程序并設置計劃任務定時獲取資源池宿主服務器、通信網(wǎng)絡和存儲的負載信息;獲取虛擬機的運行狀態(tài)信息,如告警、CPU、網(wǎng)絡等50余項;開發(fā)資源池實時狀態(tài)和風險告警顯示模塊;開發(fā)資源池容量和余量信息報表導出模塊;開發(fā)虛擬機網(wǎng)上管理流程模塊,實現(xiàn)虛擬機審批自動化。
圖1 虛擬機審批流程
圖2 虛擬化管理平臺
平臺搭建的技術難點和關鍵問題如下:利用接口程序獲取虛擬化集群設備和虛擬機的狀態(tài)信息并入庫;根據(jù)重要程度分級顯示狀態(tài)故障和隱患;故障出現(xiàn)時及時告警通知管理員進行處理。平臺技術方案包括以下6個部分:①梳理平臺監(jiān)控內(nèi)容,整理監(jiān)控列表,分別從通訊狀態(tài)、宿主物理機、虛擬機、存儲層面選擇監(jiān)控選項;②虛擬機審批流程設計。根據(jù)業(yè)務需要,用戶角色設計應包括系統(tǒng)管理員、虛擬機管理員、虛擬機用戶、部門領導、主管領導等。③采用PHP等技術開發(fā)B/S版虛擬化管理平臺,主要包括虛擬化重要資源監(jiān)控模塊、虛擬機申請流程模塊和報表生成模塊。④創(chuàng)建后臺sql server數(shù)據(jù)庫并根據(jù)需要設計表結(jié)構(gòu),包括用戶角色、集群、主機、CPU核數(shù)、CPU使用率、總內(nèi)存、內(nèi)存使用率、開機時間、統(tǒng)計時間等。⑤通過RVTools工具,開發(fā)后臺處理程序并設置定時處理任務獲取VMware VCenter的集群狀態(tài)信息,寫入平臺數(shù)據(jù)庫中。通過輸入VCenter的連接方式,連接上RVTools后,可以找到虛擬機、主機、集群、交換機、端口組以健康狀態(tài)等十幾個視圖。這些視圖的每一行都包含了非常詳細的信息。⑥平臺讀取后臺數(shù)據(jù)并顯示于前臺界面相應位置,管理員設置相關告警閾值,顯示各資源運行狀態(tài),超出閾值則發(fā)出告警通知值班員。虛擬機審批流程如圖1所示,虛擬化管理平臺設計如圖2所示[3]。
根據(jù)功能需求和設計完成了平臺的搭建、功能測試和穩(wěn)定性測試,其中功能模塊實現(xiàn)了對云數(shù)據(jù)中心資源的狀態(tài)采集和資源狀態(tài)統(tǒng)計,并在此基礎上完成了異常告警模塊和多樣化數(shù)據(jù)展示;虛擬機資源審批模塊完成了各流程的轉(zhuǎn)發(fā)審批和資源配置要求不恰當?shù)纫蛩卦斐蓪徟赐ㄟ^的情況下重新申請的流轉(zhuǎn),最終實現(xiàn)無紙化審批、集中監(jiān)控、動態(tài)優(yōu)化、節(jié)能低耗等功能。虛擬機資源狀態(tài)告警功能通過將超閾值信息在平臺上紅色顯示以及推送到本地集中告警平臺數(shù)據(jù)庫中,并通過阿里云郵件系統(tǒng)和短信通知管理員和值班員,起到雙重告警的作用。該平臺與VCerter相比較,其優(yōu)點在于異常告警提醒和狀態(tài)信息多樣化展示,這也是開發(fā)本平臺的首要任務。平臺四個功能模塊:用戶虛擬機申請、部門虛擬機操作系統(tǒng)分配信息、集群資源池統(tǒng)計信息、全局各部門虛擬機數(shù)量統(tǒng)計信息[4-6]。如圖3(a)--3(d):
圖3 (a) 用戶虛擬機申請
圖3 (b) 部門虛擬機操作系統(tǒng)分配信息
圖3 (c) 集群資源池統(tǒng)計信息
圖3 (d) 全局各部門虛擬機數(shù)量統(tǒng)計信息
虛擬化管理平臺經(jīng)過測試和試運行階段,時長為20個工作日。在測試階段完成了用戶虛擬機審批流程中用戶填表格選項煩瑣的問題,開發(fā)修訂后操作方式得到簡化;在測試運行階段主管領導提出對資源池狀態(tài)統(tǒng)計表的修改意見,包括需要統(tǒng)計虛擬機資源使用狀態(tài)等。開發(fā)者對相應問題進行整理、總結(jié)和重新調(diào)整代碼,平臺功能得到進一步完善和豐富[7]。
虛擬化運維管理平臺在其管理員經(jīng)驗積累和深入技術研究的基礎上完成了對本單位私有云集中運維管理。平臺根據(jù)用戶角色和權限分配實現(xiàn)了部門用戶對虛擬機網(wǎng)上審批流程,包括用戶、部門領導、主管領導及管理員之間的自動流轉(zhuǎn)功能;私有云資源管理模塊利用RVTools工具通過VMWare VCerter接口讀取資源池狀態(tài)信息,并實現(xiàn)入庫和顯示,其中顯示部分根據(jù)業(yè)務需要進行分類統(tǒng)計和整理,并呈現(xiàn)多種顯示方式,如柱狀圖等。由于推廣應用時間較短、用戶意見征集較少,平臺存在一定不足之處,如管理平臺包括申請、評估和終止環(huán)節(jié)各個周期的要求,促進硬件資源、系統(tǒng)軟件合理配置等功能有待完善。