◆李旭東
操作系統(tǒng)、網(wǎng)絡(luò)體系與服務(wù)器技術(shù)
信息化基礎(chǔ)設(shè)施融合運(yùn)維管理初步探討
◆李旭東
(河北遠(yuǎn)東通信系統(tǒng)工程有限公司 河北 050000)
近年來,信息化基礎(chǔ)設(shè)施發(fā)展非常迅速,對運(yùn)維管理提出了更高的要求。本文結(jié)合實(shí)際情況,就信息化基礎(chǔ)設(shè)施融合運(yùn)維管理進(jìn)行了探討,希望為信息化基礎(chǔ)設(shè)施運(yùn)維提供借鑒。
數(shù)據(jù)中心;運(yùn)維管理;信息化基礎(chǔ)設(shè)施
未來隨著應(yīng)急管理業(yè)務(wù)系統(tǒng)在新技術(shù)背景下的快速增長和加速重構(gòu),數(shù)據(jù)中心內(nèi)將部署數(shù)量眾多的網(wǎng)絡(luò)、安全、服務(wù)器、存儲、系統(tǒng)專用軟硬件等設(shè)備,形成多廠家設(shè)備共存、物理和虛擬設(shè)備并存、跨異構(gòu)網(wǎng)系設(shè)備共用的復(fù)雜局面,對數(shù)據(jù)中心傳統(tǒng)運(yùn)維方式帶來了極大的挑戰(zhàn)。
應(yīng)急管理云數(shù)據(jù)中心是由應(yīng)急管理部主導(dǎo)建設(shè)的,為應(yīng)急管理信息化業(yè)務(wù)體系正常運(yùn)轉(zhuǎn)提供基礎(chǔ)支撐的數(shù)字底座。隨著應(yīng)急管理業(yè)務(wù)應(yīng)用的加速重構(gòu)和逐步豐富,云數(shù)據(jù)中心規(guī)模將日益增長,大量不同類型、配置各異的設(shè)備將在云數(shù)據(jù)中心集中部署,造成數(shù)據(jù)中心運(yùn)維管理工作量迅速增加,而傳統(tǒng)的運(yùn)維管理系統(tǒng)采用分工式運(yùn)維方式,即網(wǎng)絡(luò)、安全、服務(wù)器、存儲等分別具有獨(dú)立的運(yùn)維管理系統(tǒng),各系統(tǒng)之間不僅存在重復(fù)建設(shè)、功能沖突等情況,更重要的是缺乏有效的故障預(yù)警、發(fā)現(xiàn)診斷等聯(lián)動機(jī)制,導(dǎo)致設(shè)備故障難以定位,業(yè)務(wù)系統(tǒng)中斷時(shí)間長的情況頻繁出現(xiàn)。
隨著用戶對業(yè)務(wù)應(yīng)用體驗(yàn)敏感度的日益提高,傳統(tǒng)運(yùn)維管理采用的集中監(jiān)控系統(tǒng)無法從業(yè)務(wù)應(yīng)用和用戶視角反映系統(tǒng)運(yùn)行情況,對于業(yè)務(wù)應(yīng)用系統(tǒng)運(yùn)行過程中出現(xiàn)的故障問題,難以在對應(yīng)的IT基礎(chǔ)設(shè)施環(huán)境中準(zhǔn)確、快速定位故障原因,反之,對于IT基礎(chǔ)設(shè)備發(fā)生故障后,難以準(zhǔn)確評估受影響的業(yè)務(wù)范圍和影響程度。業(yè)務(wù)應(yīng)用和IT基礎(chǔ)設(shè)施在運(yùn)維管理過程中存在的關(guān)系脫節(jié)情況,對應(yīng)急管理業(yè)務(wù)穩(wěn)定運(yùn)行產(chǎn)生了不利影響,極易引發(fā)業(yè)務(wù)中斷、用戶投訴、監(jiān)管問責(zé)等一系列問題,不能滿足用戶對業(yè)務(wù)系統(tǒng)可靠、可用的根本需求。
隨著大數(shù)據(jù)、中臺、微服務(wù)等新興技術(shù)的不斷應(yīng)用,應(yīng)急管理業(yè)務(wù)體系將迎來深度重構(gòu)和快速增長,以監(jiān)督管理、社會動員為代表的,具有大量移動并發(fā)訪問場景的業(yè)務(wù)應(yīng)用,將采用分布式架構(gòu)進(jìn)行系統(tǒng)重構(gòu),實(shí)現(xiàn)業(yè)務(wù)邏輯與基礎(chǔ)系統(tǒng)的進(jìn)一步解耦。由此對數(shù)據(jù)中心傳統(tǒng)運(yùn)維方式將產(chǎn)生顛覆性影響,原有“煙囪式”分隔獨(dú)立的運(yùn)維管理系統(tǒng)在業(yè)務(wù)快速調(diào)整情況下,難以準(zhǔn)確高效調(diào)整IT基礎(chǔ)設(shè)施,無法及時(shí)響應(yīng)業(yè)務(wù)系統(tǒng)彈性擴(kuò)容需要,不能根據(jù)業(yè)務(wù)系統(tǒng)運(yùn)行數(shù)據(jù)綜合預(yù)判IT基礎(chǔ)設(shè)施未來調(diào)整需求。隨著業(yè)務(wù)應(yīng)用系統(tǒng)快速調(diào)整逐步常態(tài)化,將導(dǎo)致IT基礎(chǔ)設(shè)施運(yùn)維管理難度急劇躍升,傳統(tǒng)運(yùn)維管理結(jié)合人工智能等新興技術(shù)進(jìn)行轉(zhuǎn)型升級迫在眉睫。
為滿足應(yīng)急管理業(yè)務(wù)應(yīng)用重構(gòu)所產(chǎn)生的大量異構(gòu)設(shè)備集中部署、不同系統(tǒng)故障預(yù)警信息關(guān)聯(lián)整合、不同系統(tǒng)聯(lián)動診斷調(diào)整,建立業(yè)務(wù)應(yīng)用系統(tǒng)和IT基礎(chǔ)設(shè)施運(yùn)維的緊密聯(lián)動等需求,數(shù)據(jù)中心運(yùn)維管理系統(tǒng)未來應(yīng)采用面向服務(wù)的模塊化架構(gòu),具備對環(huán)境基礎(chǔ)設(shè)施(供電、空調(diào)、微模塊機(jī)房等)、網(wǎng)絡(luò)設(shè)備(路由器、交換機(jī)等)、安全設(shè)備(防火墻、入侵防御等)、服務(wù)器設(shè)備、存儲設(shè)備以及虛擬資源、操作系統(tǒng)、應(yīng)用系統(tǒng)等的融合管理能力,實(shí)現(xiàn)自動發(fā)現(xiàn)、集中配置、集中監(jiān)控、故障預(yù)警、集中告警、可視化管理、業(yè)務(wù)視角故障定位、統(tǒng)一報(bào)表等運(yùn)維管理功能。
IT設(shè)備在數(shù)據(jù)中心部署后,融合運(yùn)維管理系統(tǒng)應(yīng)能通過多種自動發(fā)現(xiàn)手段實(shí)時(shí)感知設(shè)備部署情況,并對完成部署的設(shè)備進(jìn)行集中統(tǒng)一管理,包括網(wǎng)絡(luò)管理、服務(wù)器管理、存儲管理、虛擬資源管理、專用設(shè)備管理等基本功能模塊。其中,網(wǎng)絡(luò)管理模塊應(yīng)能夠自動生成網(wǎng)絡(luò)拓?fù)鋱D,并對網(wǎng)絡(luò)組建設(shè)備、網(wǎng)絡(luò)質(zhì)量、網(wǎng)絡(luò)流量等進(jìn)行管理、監(jiān)控和分析;服務(wù)器管理模塊應(yīng)具備對CPU、內(nèi)存、硬盤、風(fēng)扇、電源等關(guān)鍵部件以及對服務(wù)器整機(jī)在線狀態(tài)、健康狀態(tài)等信息的監(jiān)控能力;存儲管理模塊應(yīng)能自動發(fā)現(xiàn)并實(shí)時(shí)監(jiān)控存儲網(wǎng)絡(luò)資源,統(tǒng)計(jì)存儲網(wǎng)絡(luò)容量使用情況并作出容量預(yù)測;虛擬資源管理模塊應(yīng)能對計(jì)算虛擬設(shè)施,如集群、虛擬機(jī)等提供虛擬資源和物理設(shè)備的映射關(guān)系拓?fù)鋱D,并實(shí)時(shí)更新各部件的性能數(shù)據(jù);專用設(shè)備管理模塊主要用于對融合通信、視頻會商、安防監(jiān)控等專用設(shè)備進(jìn)行監(jiān)測管理,提供語音質(zhì)量診斷、視頻流跟蹤、數(shù)據(jù)分析等功能。融合運(yùn)維管理系統(tǒng)通過持續(xù)監(jiān)測IT設(shè)備基本信息和運(yùn)行狀態(tài),對設(shè)備資源使用情況、設(shè)備運(yùn)行情況等信息數(shù)據(jù)進(jìn)行收集和匯總,為設(shè)備故障預(yù)判、精確定位、智能診斷等后續(xù)環(huán)節(jié)打下堅(jiān)實(shí)的基礎(chǔ)。
融合運(yùn)維管理系統(tǒng)應(yīng)具有多類型設(shè)備集中配置、批量下發(fā)的功能,通過預(yù)制主流廠商網(wǎng)絡(luò)、安全、服務(wù)器、存儲和虛擬化等設(shè)備的配置表單模板,實(shí)現(xiàn)對數(shù)據(jù)中心不同類型設(shè)備的批量配置和快速下發(fā),包括:網(wǎng)絡(luò)設(shè)備的接口配置、VLAN配置、ACL配置、流量配置、QoS配置等;服務(wù)器設(shè)備的啟動順序、硬盤RAID、SAN Boot、BIOS、HBA、操作系統(tǒng)安裝等;存儲設(shè)備的LUN創(chuàng)建和劃分、存儲池創(chuàng)建、主機(jī)映射創(chuàng)建等,同時(shí)需預(yù)留設(shè)備配置模板的增刪接口,滿足個(gè)性化設(shè)備的集中配置需求,助力應(yīng)急管理業(yè)務(wù)快速上線開通。
融合運(yùn)維管理系統(tǒng)應(yīng)具備設(shè)備拓?fù)洹⑾到y(tǒng)告警和業(yè)務(wù)視圖的集中監(jiān)控功能,通過對數(shù)據(jù)中心基礎(chǔ)設(shè)施和不同類型IT設(shè)備CPU、硬盤、風(fēng)扇狀態(tài)的統(tǒng)一監(jiān)控,實(shí)時(shí)反饋數(shù)據(jù)中心基礎(chǔ)環(huán)境和IT設(shè)備硬件的工作狀態(tài);通過對IT物理設(shè)備和虛擬設(shè)備CPU利用率、內(nèi)存使用率、接口流量、鏈路流量等性能指標(biāo)進(jìn)行集中監(jiān)測,實(shí)時(shí)顯示IT基礎(chǔ)資源的性能使用狀況;通過對中間件和業(yè)務(wù)應(yīng)用系統(tǒng)進(jìn)行服務(wù)性能指標(biāo)的持續(xù)監(jiān)控,快速了解業(yè)務(wù)服務(wù)可用性和響應(yīng)時(shí)間等關(guān)鍵指標(biāo)。融合運(yùn)維管理系統(tǒng)對基礎(chǔ)設(shè)施和IT設(shè)備的集中監(jiān)控,簡化了傳統(tǒng)的運(yùn)行維護(hù)管理流程,解決了運(yùn)維管理人員在不同系統(tǒng)之間來回切換,運(yùn)維工作績效不佳的問題,有效地協(xié)助運(yùn)維人員全方位掌控?cái)?shù)據(jù)中心IT基礎(chǔ)設(shè)備運(yùn)行狀態(tài),及時(shí)獲取關(guān)鍵指標(biāo)異常變化,提升運(yùn)維管理效率,降低成本。
融合運(yùn)維管理系統(tǒng)應(yīng)具備故障預(yù)警、集中告警的功能。通過對數(shù)據(jù)中心基礎(chǔ)設(shè)施和IT設(shè)備的集中監(jiān)控,采集環(huán)境基礎(chǔ)設(shè)施和IT設(shè)備的運(yùn)行數(shù)據(jù),對系統(tǒng)工作狀態(tài)和可能出現(xiàn)的故障進(jìn)行分析預(yù)判,并根據(jù)實(shí)際情況按需進(jìn)行故障預(yù)警,提前采取有針對性的故障預(yù)防措施。當(dāng)故障發(fā)生后,融合運(yùn)維管理系統(tǒng)應(yīng)采用集中告警方式,將不同類型設(shè)備的告警信息根據(jù)其關(guān)聯(lián)關(guān)系進(jìn)行歸并整合,屏蔽冗余告警,進(jìn)行故障原因分析,并以界面顯示、聲音、E-Mail、短消息服務(wù)、小程序等多種告警方式通知相關(guān)人員,確保運(yùn)維管理人員能夠隨時(shí)隨地了解故障信息,有效降低業(yè)務(wù)中斷風(fēng)險(xiǎn)。
融合運(yùn)維管理系統(tǒng)應(yīng)具備對數(shù)據(jù)中心基礎(chǔ)設(shè)施和IT設(shè)備的可視化管理能力,能夠根據(jù)運(yùn)維管理設(shè)備類型和應(yīng)用場景靈活定制顯示內(nèi)容。融合運(yùn)維管理系統(tǒng)利用大屏幕等顯示設(shè)備,采用儀表盤、信息圖表等方式,集中展現(xiàn)業(yè)務(wù)應(yīng)用和IT設(shè)備的關(guān)聯(lián)關(guān)系,并對關(guān)鍵業(yè)務(wù)服務(wù)狀態(tài)進(jìn)行可視化、數(shù)據(jù)化展現(xiàn),以便持續(xù)監(jiān)控關(guān)鍵業(yè)務(wù)使用量、響應(yīng)時(shí)間、服務(wù)狀態(tài)等性能指標(biāo),確保IT系統(tǒng)關(guān)鍵指標(biāo)出現(xiàn)異?;蛟O(shè)備故障發(fā)生后,能夠全面、直觀地展示受影響的業(yè)務(wù)范圍和影響程度,形成數(shù)據(jù)中心運(yùn)行維護(hù)管理“一圖統(tǒng)攬”的業(yè)務(wù)形態(tài),簡化業(yè)務(wù)部門和IT運(yùn)維部門信息溝通過程,提高故障快速響應(yīng)處理能力。
融合運(yùn)維管理系統(tǒng)應(yīng)具備基于業(yè)務(wù)視角的故障定位能力。通過從業(yè)務(wù)角度監(jiān)控?cái)?shù)據(jù)中心IT基礎(chǔ)設(shè)備的運(yùn)行指標(biāo),建立業(yè)務(wù)系統(tǒng)和IT基礎(chǔ)設(shè)備之間的邏輯聯(lián)系,當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)異常后,能夠準(zhǔn)確定位業(yè)務(wù)異常原因,快速恢復(fù)業(yè)務(wù)正常運(yùn)行,反之,基于業(yè)務(wù)系統(tǒng)和IT基礎(chǔ)設(shè)備之間的關(guān)聯(lián)關(guān)系,能夠?qū)崿F(xiàn)根據(jù)IT設(shè)備故障預(yù)判情況,確定受影響的業(yè)務(wù)范圍和影響程度,提前規(guī)劃并做好防范措施,確保應(yīng)急管理業(yè)務(wù)持續(xù)穩(wěn)定運(yùn)行。
融合運(yùn)維管理系統(tǒng)應(yīng)具有統(tǒng)一報(bào)表功能,通過對數(shù)據(jù)中心環(huán)境基礎(chǔ)設(shè)施和不同IT基礎(chǔ)設(shè)備的統(tǒng)一監(jiān)控管理,獲取數(shù)據(jù)中心環(huán)境數(shù)據(jù)和IT基礎(chǔ)設(shè)備運(yùn)行數(shù)據(jù),實(shí)現(xiàn)不同設(shè)備數(shù)據(jù)信息的集中分析處理和統(tǒng)一呈現(xiàn)。利用統(tǒng)一報(bào)表功能,融合運(yùn)維管理系統(tǒng)能深度挖掘運(yùn)行數(shù)據(jù)潛能,構(gòu)建資源跟蹤、容量預(yù)測、歷史性能統(tǒng)計(jì)等核心運(yùn)管能力,滿足用戶跟蹤資源使用情況,掌握IT系統(tǒng)容量利用率,及時(shí)發(fā)現(xiàn)關(guān)鍵業(yè)務(wù)性能瓶頸,預(yù)測IT系統(tǒng)資源使用趨勢,指導(dǎo)IT資源配置優(yōu)化,避免IT資源不足或過剩情況出現(xiàn)。統(tǒng)一報(bào)表功能還應(yīng)實(shí)現(xiàn)將業(yè)務(wù)運(yùn)行狀態(tài)指標(biāo)化并呈現(xiàn)給運(yùn)維管理人員,使運(yùn)維管理人員能夠從業(yè)務(wù)角度監(jiān)控IT基礎(chǔ)設(shè)備的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)業(yè)務(wù)異常指標(biāo),快速識別問題設(shè)備并采取積極干預(yù)措施,確保應(yīng)急管理業(yè)務(wù)快速恢復(fù)、可靠運(yùn)行。
未來,在運(yùn)維管理資源有限的情況下,隨著應(yīng)急管理業(yè)務(wù)云化、微服務(wù)化的逐步深入,業(yè)務(wù)應(yīng)用對快速上線、靈活伸縮和服務(wù)等級的要求顯著提高,傳統(tǒng)的人工運(yùn)維方式在面對海量IT設(shè)備運(yùn)維管理、業(yè)務(wù)交叉調(diào)用關(guān)系極度復(fù)雜的數(shù)據(jù)中心環(huán)境時(shí),難以保證高質(zhì)量的IT服務(wù)水平。因此,傳統(tǒng)人工運(yùn)維向新型智能運(yùn)維轉(zhuǎn)變的需求日益迫切,而融合運(yùn)維管理系統(tǒng)是智能運(yùn)維演進(jìn)過程中不可缺少的重要環(huán)節(jié),通過構(gòu)建融合運(yùn)維管理系統(tǒng)將實(shí)現(xiàn)數(shù)據(jù)中心環(huán)境基礎(chǔ)設(shè)施和IT基礎(chǔ)設(shè)施的全生命周期自動化管理和性能容量智能運(yùn)營,提升數(shù)據(jù)中心基礎(chǔ)設(shè)施故障預(yù)防、發(fā)現(xiàn)和自愈能力。
[1]董凱.論云計(jì)算數(shù)據(jù)中心運(yùn)行維護(hù)探索[J].中國新通信,2020,22(09):40.
[2]黃堅(jiān).數(shù)據(jù)中心事件管理的關(guān)鍵控制點(diǎn)[J].計(jì)算機(jī)產(chǎn)品與流通,2020(03):269.
[3]徐景日.大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)維管理[J].信息與電腦(理論版),2020,32(02):113-115.