文 |數(shù)字浙江技術(shù)運(yùn)營(yíng)有限公司大運(yùn)維業(yè)務(wù)負(fù)責(zé)人 王森
隨著數(shù)字化進(jìn)程向縱深推進(jìn),以“綜合集成、多跨協(xié)同、多方參與”為特征的“大平臺(tái)”“大應(yīng)用”形態(tài)不斷涌現(xiàn),復(fù)雜巨系統(tǒng)內(nèi)系統(tǒng)模塊相互引用,運(yùn)行環(huán)境相互依賴造成的系統(tǒng)脆弱性愈加凸顯。傳統(tǒng)分散、割裂的運(yùn)維服務(wù)已無(wú)法滿足新時(shí)代數(shù)字化轉(zhuǎn)型的需要,亟待解決三大類(lèi)問(wèn)題:一是運(yùn)維組織管理不在線。各系統(tǒng)開(kāi)發(fā)商散落在不同建設(shè)單位且不在線,需將跨廠商、跨系統(tǒng)、跨業(yè)務(wù)的運(yùn)維工作連成網(wǎng),首先需實(shí)現(xiàn)組織在線;二是規(guī)劃階段運(yùn)維空缺。面臨復(fù)雜多樣的部署架構(gòu)、技術(shù)棧選型,運(yùn)維需從規(guī)劃階段就介入,從而實(shí)現(xiàn)覆蓋規(guī)劃、建設(shè)、運(yùn)營(yíng)運(yùn)維的全周期運(yùn)維管理;三是數(shù)字化運(yùn)維工具欠缺。目前各運(yùn)維工具和運(yùn)維要素分散在各建設(shè)方,當(dāng)系統(tǒng)出現(xiàn)不可用情形時(shí)無(wú)法實(shí)現(xiàn)運(yùn)維要素“一張圖”匯聚、運(yùn)行態(tài)勢(shì)即時(shí)感知,需依托數(shù)字化運(yùn)維工具建設(shè),提升事前預(yù)警與應(yīng)急處置預(yù)案能力,實(shí)現(xiàn)運(yùn)維工作的全方位、自動(dòng)化、智能化。
所謂“大運(yùn)維”,是指基于“數(shù)字孿生、未雨綢繆、態(tài)勢(shì)感知、全鏈快響”理念,構(gòu)建多跨協(xié)同的大運(yùn)維體系,實(shí)現(xiàn)運(yùn)維工作“整體、健康、智治”。
“數(shù)字浙江”建設(shè)經(jīng)歷了“最多跑一次”改革、政府?dāng)?shù)字化轉(zhuǎn)型以及數(shù)字化改革等多個(gè)階段。初期運(yùn)維工作較為獨(dú)立、離散,部分系統(tǒng)應(yīng)用采用自主更新維護(hù)方式或委托第三方公司施行運(yùn)維,各自系統(tǒng)運(yùn)維體系相對(duì)獨(dú)立,包括架構(gòu)、組織、技術(shù)、指標(biāo)與標(biāo)準(zhǔn)等,一般而言只需基本滿足單系統(tǒng)應(yīng)用運(yùn)維需求即可。自2018年以來(lái),為有效推動(dòng)黨建統(tǒng)領(lǐng)、經(jīng)濟(jì)發(fā)展、便民惠企、市場(chǎng)監(jiān)管、應(yīng)急管理等領(lǐng)域治理能力提升,重大應(yīng)用綜合集成程度大大提升,多方參與、場(chǎng)景多跨的平臺(tái)與應(yīng)用涌現(xiàn),眾多系統(tǒng)之間相互嵌套,風(fēng)險(xiǎn)觸發(fā)因素愈發(fā)復(fù)雜,建設(shè)一套整體運(yùn)維體系的意識(shí)逐步形成,因此適應(yīng)新階段、滿足新要求的大運(yùn)維體系應(yīng)運(yùn)而生。
大運(yùn)維主要包含三個(gè)特點(diǎn):一是整體,將人員構(gòu)成復(fù)雜的運(yùn)維團(tuán)隊(duì)打造成一支整體隊(duì)伍,執(zhí)行統(tǒng)一的運(yùn)維標(biāo)準(zhǔn)規(guī)范,運(yùn)維目標(biāo)一致,效能評(píng)價(jià)標(biāo)準(zhǔn)統(tǒng)一;二是健康,通過(guò)定義健康指標(biāo)體系,“運(yùn)維體檢”預(yù)測(cè)并整改風(fēng)險(xiǎn),建立檢查清單、監(jiān)測(cè)工具,實(shí)現(xiàn)對(duì)效率、效能等運(yùn)維態(tài)勢(shì)的全局監(jiān)測(cè),及時(shí)發(fā)現(xiàn)并處置故障,保障業(yè)務(wù)安全穩(wěn)定;三是智治,基于本體建模和知識(shí)建模,對(duì)各類(lèi)運(yùn)維主體進(jìn)行數(shù)字孿生,通過(guò)智能規(guī)則配置、風(fēng)險(xiǎn)識(shí)別、任務(wù)流轉(zhuǎn)、考核評(píng)價(jià)等服務(wù),掌握當(dāng)下?tīng)顟B(tài),知曉未來(lái)趨勢(shì)。
“大運(yùn)維”建設(shè)總體思路要做好“三段三責(zé)”。首先,從架構(gòu)、設(shè)計(jì)、開(kāi)發(fā)階段就要圍繞穩(wěn)定性、安全性做好明確的轉(zhuǎn)維規(guī)范清單,不能讓?xiě)?yīng)用、系統(tǒng)帶“病”進(jìn)場(chǎng);其次,測(cè)試階段從性能、功能以及漏洞掃描等方面要把“病”檢查出來(lái),推動(dòng)整改,消除風(fēng)險(xiǎn);再次,生產(chǎn)階段則要對(duì)所有的生產(chǎn)環(huán)境、資產(chǎn)、人員、行為等各類(lèi)對(duì)象情況清晰掌握,一旦“流血”則快速“止血”。三段主體都要推動(dòng)對(duì)事件、風(fēng)險(xiǎn)的舉一反三,從制度、技術(shù)、能力上進(jìn)行全面整改,才能全鏈路確保穩(wěn)定、安全。
大運(yùn)維體系按照“組織、制度、流程、評(píng)價(jià)、工具”一體化建設(shè)理念,以“一屏、一倉(cāng)、N工具”為總體架構(gòu),建設(shè)運(yùn)維大腦(DMS),統(tǒng)籌環(huán)境管理,融合運(yùn)維要素,集成專(zhuān)家知識(shí),強(qiáng)化態(tài)勢(shì)研判,精準(zhǔn)問(wèn)題定因,為運(yùn)維人員提供全方位、智能化的運(yùn)維管理工具,實(shí)現(xiàn)“數(shù)字孿生、未雨綢繆、態(tài)勢(shì)感知、全鏈快響”。
依據(jù)大運(yùn)維的業(yè)務(wù)屬性,下面按照平時(shí)和戰(zhàn)時(shí)兩條業(yè)務(wù)主線展開(kāi)介紹(見(jiàn)圖1)。
圖1 大運(yùn)維一體化建設(shè)理念
大運(yùn)維平時(shí)業(yè)務(wù)的核心在于做好健康管理,強(qiáng)化上線前的規(guī)定動(dòng)作,避免系統(tǒng)帶“病”上線;做好上線系統(tǒng)的“體檢”,保障業(yè)務(wù)健康穩(wěn)定。健康管理涉及流程標(biāo)準(zhǔn)、組織保障、制度規(guī)范、綜合評(píng)價(jià)、生態(tài)管理五個(gè)關(guān)鍵環(huán)節(jié)。
1、建立覆蓋重要場(chǎng)景的接入流程:明確大運(yùn)維、小運(yùn)維、系統(tǒng)建設(shè)、業(yè)務(wù)單位等4類(lèi)主體7個(gè)角色在運(yùn)維初始化、系統(tǒng)轉(zhuǎn)維、日常運(yùn)維、戰(zhàn)時(shí)處置等階段的工作要求,提升運(yùn)維工作規(guī)范程度和整體水平。
環(huán)境、權(quán)限初始化。通過(guò)環(huán)境管理中心規(guī)范應(yīng)用發(fā)布與變更流程,實(shí)現(xiàn)對(duì)開(kāi)發(fā)、測(cè)試、預(yù)發(fā)、生產(chǎn)環(huán)境的準(zhǔn)入管理。
資產(chǎn)、日志接入。建設(shè)運(yùn)維對(duì)象管理中心,按照統(tǒng)一規(guī)范接入應(yīng)用、服務(wù)、組件、數(shù)據(jù)、云資產(chǎn)等對(duì)象要素,建立對(duì)象之間的關(guān)系,構(gòu)建動(dòng)態(tài)本體數(shù)據(jù)倉(cāng)(見(jiàn)圖2)。
圖2 運(yùn)維對(duì)象管理
監(jiān)控配置。建設(shè)監(jiān)控管理中心,依據(jù)預(yù)警告警規(guī)則,采用主動(dòng)探測(cè)、日志監(jiān)控等技術(shù)手段,通過(guò)消息訂閱,將預(yù)警告警結(jié)果精準(zhǔn)通知相應(yīng)負(fù)責(zé)人,推動(dòng)快速響應(yīng)及閉環(huán)處置(見(jiàn)圖3)。
圖3 運(yùn)維監(jiān)控告警
預(yù)案配置。統(tǒng)籌各類(lèi)預(yù)警告警規(guī)則和應(yīng)急預(yù)案,通過(guò)規(guī)則預(yù)案管理中心對(duì)運(yùn)維知識(shí)進(jìn)行集中管理,為各類(lèi)風(fēng)險(xiǎn)提供處置方案,支持監(jiān)控配置關(guān)聯(lián)預(yù)案,指導(dǎo)運(yùn)維工作高效有序進(jìn)行,助力應(yīng)用系統(tǒng)報(bào)警項(xiàng)的快速處置。
運(yùn)維數(shù)據(jù)分析研判。建設(shè)分析研判中心,對(duì)應(yīng)用健康度、預(yù)警告警質(zhì)量、預(yù)案執(zhí)行時(shí)效、故障處置效率等多維度進(jìn)行數(shù)據(jù)分析,判斷運(yùn)維工作整體效果。
2、建立矩陣式組織保障:以主管單位及大運(yùn)維管理團(tuán)隊(duì),共同撬動(dòng)各地各部門(mén)和開(kāi)發(fā)商組成“一支隊(duì)伍”,并在組織中建立“1+6”的矩陣式管理結(jié)構(gòu)?!?”是大應(yīng)用的應(yīng)用運(yùn)維負(fù)責(zé)人,“6”是平臺(tái)各領(lǐng)域的運(yùn)維技術(shù)專(zhuān)家,包括云平臺(tái)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、系統(tǒng)架構(gòu)、性能、安全六大類(lèi)。由“1+6”聯(lián)合各應(yīng)用開(kāi)發(fā)單位運(yùn)維人員,共同形成長(zhǎng)期保障團(tuán)隊(duì)(見(jiàn)圖4)。
圖4 大運(yùn)維組織保障
3、建立標(biāo)準(zhǔn)的運(yùn)維制度規(guī)范:圍繞工作體系、指標(biāo)體系、政策體系、評(píng)價(jià)體系要求,制定運(yùn)維管理制度規(guī)范,形成統(tǒng)一的運(yùn)維準(zhǔn)則,從系統(tǒng)轉(zhuǎn)維、人員管理、變更管理、故障管理、考核管理等方面進(jìn)行規(guī)范管控與閉環(huán)管理。
4、建立綜合評(píng)價(jià)機(jī)制:建設(shè)考核指標(biāo)體系,通過(guò)考核評(píng)價(jià)中心對(duì)已轉(zhuǎn)維的應(yīng)用進(jìn)行評(píng)價(jià),從監(jiān)控報(bào)警覆蓋度、準(zhǔn)確率、響應(yīng)度、系統(tǒng)服務(wù)可用度、安全修復(fù)及時(shí)性及人員技術(shù)能力等多維度進(jìn)行運(yùn)維服務(wù)質(zhì)量的綜合評(píng)價(jià),定期對(duì)運(yùn)維服務(wù)能力、質(zhì)量進(jìn)行考核晾曬,及時(shí)發(fā)現(xiàn)短板并整改,提升整體運(yùn)維服務(wù)質(zhì)量(見(jiàn)圖5)。
圖5 大運(yùn)維評(píng)價(jià)體系
5、建立可持續(xù)發(fā)展的生態(tài)管理機(jī)制:通過(guò)開(kāi)發(fā)商管理中心對(duì)所有應(yīng)用系統(tǒng)的開(kāi)發(fā)商進(jìn)行編目,并對(duì)相關(guān)人員進(jìn)行動(dòng)態(tài)管理,實(shí)現(xiàn)開(kāi)發(fā)商單位、人員與應(yīng)用系統(tǒng)的關(guān)聯(lián),確保風(fēng)險(xiǎn)處理時(shí)的組織環(huán)節(jié)無(wú)缺口。對(duì)開(kāi)發(fā)商開(kāi)展培訓(xùn),針對(duì)運(yùn)維工作的開(kāi)展思路、方法路徑、工具使用等進(jìn)行全方位指導(dǎo),為開(kāi)發(fā)商提供專(zhuān)業(yè)的賦能支撐和工具保障。
大運(yùn)維戰(zhàn)時(shí)業(yè)務(wù)的核心在于做好風(fēng)險(xiǎn)應(yīng)急,為應(yīng)急協(xié)同開(kāi)展、故障有效處置提供數(shù)字化保障,提高應(yīng)急處置效率,為業(yè)務(wù)系統(tǒng)的可用性恢復(fù)提供有力支撐。
建立一屏統(tǒng)覽的指揮調(diào)度中心:通過(guò)“數(shù)字孿生、態(tài)勢(shì)感知、全鏈快響、資源優(yōu)化、綜合評(píng)價(jià)”五大板塊,一屏統(tǒng)覽整體服務(wù)實(shí)時(shí)運(yùn)行狀態(tài),為運(yùn)維單位、建設(shè)單位、開(kāi)發(fā)單位的各級(jí)指揮員提供統(tǒng)籌管理、分析決策、指揮調(diào)度的能力。
數(shù)字孿生:對(duì)基礎(chǔ)設(shè)施、數(shù)據(jù)、組件、應(yīng)用、端運(yùn)行進(jìn)行數(shù)字孿生,詳盡掌握各類(lèi)資產(chǎn)運(yùn)行狀態(tài),清晰展現(xiàn)故障原因及影響范圍(見(jiàn)圖6)。
圖6 指揮調(diào)度大屏數(shù)字孿生模塊
態(tài)勢(shì)感知:建立動(dòng)態(tài)拓?fù)潢P(guān)系,生成應(yīng)用圖譜,展示應(yīng)用間相互調(diào)用關(guān)系和應(yīng)用內(nèi)部各層級(jí)資源調(diào)用狀態(tài),統(tǒng)計(jì)當(dāng)前應(yīng)用范圍的運(yùn)維質(zhì)量,實(shí)現(xiàn)服務(wù)預(yù)警告警態(tài)勢(shì)實(shí)時(shí)感知(見(jiàn)圖7)。
全鏈快響:支持對(duì)各類(lèi)異常風(fēng)險(xiǎn)狀態(tài)的處置,并在風(fēng)險(xiǎn)發(fā)現(xiàn)時(shí)快速調(diào)度各方主體,第一時(shí)間通知責(zé)任單位及責(zé)任人,并明確責(zé)任分工。同時(shí),對(duì)風(fēng)險(xiǎn)進(jìn)行全視角跟蹤,支撐指揮員掌控處置進(jìn)度,響應(yīng)處置復(fù)盤(pán)情況實(shí)現(xiàn)全程留痕(見(jiàn)圖8)。
圖8 指揮調(diào)度大屏全鏈快響模塊
資源優(yōu)化:聚焦CPU、內(nèi)存、存儲(chǔ)等要素負(fù)載情況,提出相應(yīng)策略實(shí)現(xiàn)資源成本優(yōu)化(見(jiàn)圖9)。
圖9 指揮調(diào)度大屏資源優(yōu)化模塊
綜合評(píng)價(jià):制定多維度運(yùn)維服務(wù)核心指標(biāo),對(duì)各類(lèi)主體進(jìn)行綜合評(píng)價(jià)排行,對(duì)運(yùn)維工作成效開(kāi)展晾曬(見(jiàn)圖10)。
圖10 指揮調(diào)度大屏綜合評(píng)價(jià)模塊
2、建立“五快”風(fēng)險(xiǎn)處置中心:針對(duì)預(yù)警、告警、故障三種風(fēng)險(xiǎn)狀況形成任務(wù)清單,按照通知與處置雙線流程執(zhí)行風(fēng)險(xiǎn)處置任務(wù)并跟蹤整改進(jìn)展。在故障發(fā)生時(shí),依據(jù)以“故障響應(yīng)快、應(yīng)急止血快、原因定位快、故障恢復(fù)快、故障復(fù)盤(pán)快”為核心的“五快”閉環(huán)處置模型,明確各環(huán)節(jié)負(fù)責(zé)人及責(zé)任邊界,高效處置故障并形成故障報(bào)告(見(jiàn)圖11)。
圖11 大運(yùn)維風(fēng)險(xiǎn)處置流程
業(yè)務(wù)變革引領(lǐng)技術(shù)創(chuàng)新,技術(shù)創(chuàng)新驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新。大運(yùn)維體系實(shí)現(xiàn)了三大技術(shù)創(chuàng)新,有效解決了傳統(tǒng)運(yùn)維工作中風(fēng)險(xiǎn)閾值預(yù)估不精準(zhǔn)、故障范圍判斷不全面、故障定因分析不高效等典型問(wèn)題。
一是基于業(yè)務(wù)變化自動(dòng)、動(dòng)態(tài)調(diào)整各類(lèi)風(fēng)險(xiǎn)閾值。如浙江省某考試報(bào)名期間,“浙里辦”日訪問(wèn)量時(shí)刻可能激增、告警處置數(shù)據(jù)持續(xù)變動(dòng),原先的運(yùn)維風(fēng)險(xiǎn)閾值、主動(dòng)探測(cè)、日志監(jiān)控等配置都需要及時(shí)調(diào)整與管理,針對(duì)傳統(tǒng)運(yùn)維方式的這些痛難點(diǎn)、風(fēng)險(xiǎn)點(diǎn),現(xiàn)在可通過(guò)運(yùn)維大腦(DMS)取代人工手動(dòng)變更,實(shí)現(xiàn)自動(dòng)化、智能化閾值變更。
二是基于動(dòng)態(tài)協(xié)同關(guān)系,智能化判斷故障影響范圍。在復(fù)雜巨系統(tǒng)內(nèi)部互相嵌套、調(diào)用關(guān)系復(fù)雜的情形下,如需判定因法人單點(diǎn)登錄服務(wù)不可用而影響的系統(tǒng)、應(yīng)用數(shù)量及嚴(yán)重程度,可通過(guò)運(yùn)維大腦(DMS)數(shù)據(jù)可視化手段,將應(yīng)用內(nèi)部的各層級(jí)資源和調(diào)用關(guān)系以數(shù)字孿生的形式展現(xiàn),一目了然,清晰明確(見(jiàn)圖12)。
圖12 影響范圍判斷示意圖
三是基于時(shí)間序列提供快速定因分析服務(wù)。發(fā)生全局性故障時(shí),在大量壓迫性告警中快速找到有價(jià)值的線索非常重要。運(yùn)維大腦(DMS)有效整合碎片化的開(kāi)發(fā)商和運(yùn)維信息,將故障引發(fā)的眾多預(yù)警信息按模塊聚合、按時(shí)間排序,找到因果關(guān)系從而定位出最先引起問(wèn)題的“第一片雪花”(見(jiàn)圖13)。
圖13 告警時(shí)間序列示意圖
安全是開(kāi)展一切技術(shù)運(yùn)營(yíng)工作的基礎(chǔ),是一項(xiàng)貫穿數(shù)字化全生命周期的專(zhuān)業(yè)服務(wù),要堅(jiān)持業(yè)務(wù)與安全并重發(fā)展,在業(yè)務(wù)規(guī)劃階段,就審慎考慮系統(tǒng)上線后的可靠性,各個(gè)階段圍繞統(tǒng)一思想,落實(shí)各自使命職責(zé)。通過(guò)運(yùn)維工作浙江實(shí)踐,大運(yùn)維體系可對(duì)海量運(yùn)維數(shù)據(jù)進(jìn)行融合建模與智能分析,實(shí)現(xiàn)要素多維接入、知識(shí)動(dòng)態(tài)管理、預(yù)警全面覆蓋、問(wèn)題精準(zhǔn)定位、評(píng)價(jià)客觀真實(shí)、故障舉一反三,有效保障大平臺(tái)、大應(yīng)用安全健康運(yùn)行。本文總結(jié)的大運(yùn)維體系建設(shè)方法及浙江實(shí)踐,積極踐行落實(shí)了“三融五跨”系統(tǒng)健康運(yùn)行的要求,可為數(shù)字化運(yùn)維管理者提供參考借鑒。