魯瑞,王曉穎
(中國移動通信集團(tuán)山西有限公司,山西 太原 030032)
隨著IT 行業(yè)的快速發(fā)展,IT 系統(tǒng)運(yùn)維面對著前所未有的復(fù)雜環(huán)境,首先由于國外產(chǎn)品技術(shù)的限制和國內(nèi)信創(chuàng)技術(shù)的不斷研發(fā),讓運(yùn)維的技術(shù)壁壘逐步加大,其次,客戶對通信業(yè)服務(wù)要求越來越高,讓運(yùn)維的精細(xì)化程度需要不斷的細(xì)化,這兩方面原因的疊加,導(dǎo)致原有的IT 運(yùn)維模式弊端被放大:(1)傳統(tǒng)的網(wǎng)管式的運(yùn)維自動化系統(tǒng)僅僅基于指標(biāo)與基線進(jìn)行告警,告警量大質(zhì)差,無法閉環(huán),不利于精細(xì)化管理;(2)基于單一指標(biāo)的故障分析問題不準(zhǔn)確,不利于深化運(yùn)維;(3)隨著業(yè)務(wù)應(yīng)用的不斷深化,數(shù)據(jù)量劇增,傳統(tǒng)運(yùn)維抓問題輕優(yōu)化,性能優(yōu)化工作嚴(yán)重不足,無法滿足客戶更快更好的服務(wù)要求;(4)云平臺建設(shè)、中臺戰(zhàn)略的實(shí)施推進(jìn),需要管理的IT 設(shè)備尤其信創(chuàng)系統(tǒng)規(guī)模激增,導(dǎo)致技術(shù)人員及專家匱乏,人力似乎也成了一個(gè)黑洞,無論投入多少人進(jìn)去,都很快被這個(gè)黑洞吸收掉。
要打破IT 運(yùn)維面臨的技術(shù)壁壘,實(shí)現(xiàn)減員增效和精準(zhǔn)運(yùn)維要求,就必須放棄傳統(tǒng)的網(wǎng)管式運(yùn)維,充分利用智能化手段,通過智能化手段實(shí)現(xiàn)對IT 基礎(chǔ)設(shè)施的自動化運(yùn)維。
本文提出一種“IT 健康運(yùn)維”工作法,通過對核心的IT 基礎(chǔ)設(shè)施進(jìn)行結(jié)構(gòu)分析,提取運(yùn)維要素,標(biāo)準(zhǔn)化指標(biāo)體系,構(gòu)建健康模型,打造基于AIOPS的基礎(chǔ)設(shè)施生態(tài)健康管理工具;實(shí)現(xiàn)了對中間件、數(shù)據(jù)庫、國產(chǎn)存儲設(shè)備的覆蓋,運(yùn)維工作實(shí)現(xiàn)了自動化,有利的保障了日常運(yùn)維、常態(tài)化優(yōu)化等工作,實(shí)現(xiàn)了運(yùn)維工作的減員增效。
Smart 生態(tài)運(yùn)維體系的核心是構(gòu)建一個(gè)標(biāo)準(zhǔn)的運(yùn)維生態(tài);形成一套體系、一套標(biāo)準(zhǔn)、一套方法,通過不斷的迭代,完善而滿足IT 運(yùn)維發(fā)展的要求。
建立一個(gè)良好的運(yùn)維生態(tài)體系,首先是要滿足四個(gè)基本要求,既包括“對象”“標(biāo)準(zhǔn)”“工具”和“人員”四大部分,如圖1所示。
圖1 智能運(yùn)維體系
對象:即運(yùn)維對象,不但包括企業(yè)IT 信息系統(tǒng)所使用的各種軟硬件平臺基礎(chǔ)設(shè)施,還包括各種應(yīng)用系統(tǒng),運(yùn)維對象的范圍要全面、精確,能夠覆蓋全部的業(yè)務(wù)環(huán)節(jié)。
標(biāo)準(zhǔn):即運(yùn)維標(biāo)準(zhǔn),針對不同的對象要制定出合理、精確的運(yùn)維標(biāo)準(zhǔn),建立標(biāo)準(zhǔn)的數(shù)據(jù)指標(biāo)體系、通用的數(shù)據(jù)分析模型以及智能化的分析方法;
工具:即,自動化運(yùn)維工具,在有了統(tǒng)一的運(yùn)維標(biāo)準(zhǔn)后,要借助智能化工具或者機(jī)器人來實(shí)現(xiàn)自動運(yùn)維,智能機(jī)器人不是簡單的軟件化工具,是知識化的工具鏈;
人員:包括IT 系統(tǒng)建設(shè)維護(hù)中的各環(huán)節(jié)人員,運(yùn)維生態(tài)中的參與人員是整個(gè)生態(tài)中最為重要的部分,包括了一線監(jiān)控、運(yùn)維人員,運(yùn)維專家,數(shù)據(jù)分析人員、開發(fā)人員等運(yùn)維不同階段的人員
在有了這四個(gè)核心的內(nèi)容后,Smart 運(yùn)維管理的生態(tài)已經(jīng)具備了基礎(chǔ)條件,可以不斷的利用這個(gè)生態(tài)來服務(wù)于運(yùn)維管理、系統(tǒng)優(yōu)化、設(shè)備維保、設(shè)備狀態(tài)評估等IT 運(yùn)維工作;形成一個(gè)閉環(huán)的IT 運(yùn)維工作流程。
智能運(yùn)維生態(tài)體系的各要素完善后,第二個(gè)關(guān)鍵要素是標(biāo)準(zhǔn)化模型的建設(shè)。本文提出的健康運(yùn)維模型包括狀態(tài)模型、負(fù)載模型、性能模型、故障模型和容量模型。
狀態(tài)模型:反映系統(tǒng)總體健康狀態(tài)的模型,通過各維度的多個(gè)指標(biāo)構(gòu)建,當(dāng)狀態(tài)模型出現(xiàn)加大的下降的時(shí)候,就預(yù)示著運(yùn)維對象可能存在較大的風(fēng)險(xiǎn)。可以通過智能預(yù)測算法對系統(tǒng)的健康狀態(tài)進(jìn)行預(yù)測,為運(yùn)維預(yù)警提供更長的預(yù)警時(shí)間;
負(fù)載模型:通過多維度的指標(biāo)的綜合評估,用一個(gè)百分制的分?jǐn)?shù)反映出運(yùn)維對象的負(fù)載狀態(tài),對于超高負(fù)載的運(yùn)維對象,可以提出預(yù)警;
性能模型:體現(xiàn)運(yùn)維對象性能狀態(tài)的模型,采用多指標(biāo)多維度的分析,用一個(gè)百分制的分?jǐn)?shù)反映出運(yùn)維對象當(dāng)前的運(yùn)行性能。
故障模型:通過故障模型來實(shí)現(xiàn)更為精準(zhǔn)的預(yù)警,提前發(fā)現(xiàn)可能導(dǎo)致運(yùn)維風(fēng)險(xiǎn)的故障,并通過運(yùn)維知識庫對每個(gè)故障發(fā)生場景提供智能化的診斷路徑推薦,協(xié)助運(yùn)維人員自動完成故障溯源;
容量模型:對運(yùn)維對象的容量進(jìn)行分析,并對其容量風(fēng)險(xiǎn)提出提前預(yù)警,可以使運(yùn)維人員更加直觀的掌握系統(tǒng)的容量變化情況,為系統(tǒng)擴(kuò)容,自動容量管理提供直觀的數(shù)據(jù)及分析結(jié)果。
各類健康模型最終通過儀表盤化的展示方式,直觀顯示系統(tǒng)的健康、性能、負(fù)載、容量等運(yùn)行情況。
在Smart 健康運(yùn)維體系方法論的基礎(chǔ)上,根據(jù)5 大運(yùn)維模型的要求,使用大數(shù)據(jù)與人工智能技術(shù),開發(fā)設(shè)計(jì)了IT自動運(yùn)維工作臺DSmart,通過微應(yīng)用、微服務(wù)的方式提供一系列的自動化和智能化運(yùn)維工具,實(shí)現(xiàn)了“知識自動化”的手段,如圖2所示。
圖2 IT 軟件智能運(yùn)維工作臺
Dsmart 運(yùn)維工作臺能夠承載多種類型數(shù)據(jù)庫、中間件和存儲軟件等IT 基礎(chǔ)設(shè)施的監(jiān)控及運(yùn)維管理,主要有:
(1)數(shù)據(jù)庫:可以支持多種類型數(shù)據(jù)庫,包括oracle,musql,postgrepsql 等常用的數(shù)據(jù)庫類型,及redis,mongodb等開源數(shù)據(jù)庫,也包括達(dá)夢、高斯100 等國產(chǎn)數(shù)據(jù)庫類型。
(2)中間件:目前系統(tǒng)支持Weblogic,tomcat、bes 中間件的監(jiān)控;
(3)存儲軟件:支持nfs,gfs,sclio 等存儲軟件的監(jiān)控
在運(yùn)維功能方面,SMART 運(yùn)維工作臺包括了健康預(yù)警、自動化巡檢、智能化分析工具、一鍵體檢、容量分析,全鏈路監(jiān)控等多種功能,并能通過系統(tǒng)視圖的方式提供系統(tǒng)的全鏈路健康狀態(tài)視圖,便于運(yùn)維人員從系統(tǒng)的角度了解各個(gè)運(yùn)維對象的運(yùn)行情況和系統(tǒng)級的運(yùn)行總體情況。
健康預(yù)警是對所監(jiān)控系統(tǒng)根據(jù)不同的維度實(shí)現(xiàn)預(yù)警功能,通過組成健康模型的各個(gè)維度和指標(biāo)進(jìn)行關(guān)聯(lián)分析,運(yùn)用機(jī)器學(xué)習(xí),結(jié)合健康模型構(gòu)建智預(yù)測模型,進(jìn)行健康狀態(tài)預(yù)測;
健康預(yù)警主要包括基線預(yù)警、健康模型預(yù)警、運(yùn)維經(jīng)驗(yàn)告警三部分,其中基線是其核心,通過基線功能給各數(shù)據(jù)庫提供運(yùn)行指標(biāo)標(biāo)準(zhǔn),運(yùn)維人員可以實(shí)現(xiàn)自上而下的運(yùn)維工作,為后續(xù)運(yùn)維及調(diào)整提供良好的數(shù)據(jù)依據(jù),同時(shí)為智能分析提供基礎(chǔ)。
在傳統(tǒng)的運(yùn)維模式下,系統(tǒng)優(yōu)化分析工作只能依賴于人,無法實(shí)現(xiàn)自動化,Dsmart 平臺將運(yùn)維平臺采集到的的數(shù)據(jù)進(jìn)行綜合分析,同時(shí)與知識庫中的運(yùn)維知識經(jīng)驗(yàn)進(jìn)行匹配,最后中心的智能機(jī)器人進(jìn)行自動計(jì)算與分析通優(yōu)化方案編制,并將優(yōu)化、消缺方案反饋給現(xiàn)場運(yùn)維團(tuán)隊(duì)
目前已經(jīng)具備了包括日志深度分析、運(yùn)維經(jīng)驗(yàn)診斷、自動化巡檢和SQL 優(yōu)化四部分。
其中日志深度分析改變了以往日志只是用來實(shí)現(xiàn)報(bào)警的功能,而是通過專家設(shè)計(jì)的診斷路徑對日志進(jìn)行分析,發(fā)現(xiàn)其深層次的原因,并提供相應(yīng)的優(yōu)化建議;運(yùn)維經(jīng)驗(yàn)診斷自動或者半自動診斷出現(xiàn)的告警,實(shí)現(xiàn)問題溯源,并獲得相關(guān)的優(yōu)化方案;自動化巡檢功能將日常優(yōu)化指標(biāo)和方法嵌入到巡檢模型中,提供日檢,月檢和狀態(tài)巡檢等功能,將日常巡檢人工巡檢工作進(jìn)行自動化,做到巡檢更加專業(yè),優(yōu)化更加簡單,覆蓋更加全面,展示更加人性化;SQL 優(yōu)化,可以結(jié)合歷史的執(zhí)行結(jié)果和數(shù)據(jù),自動化的輸出sql 優(yōu)化方案。
做好生態(tài)運(yùn)維的一個(gè)重要因素是知識收集及使用,為了實(shí)現(xiàn)知識管理,dsmart 實(shí)現(xiàn)了智能知識庫,該功能包括診斷分析知識點(diǎn)、日志分析知識點(diǎn)和知識點(diǎn)管理三部分。診斷分析知識點(diǎn)是專家多年運(yùn)維經(jīng)驗(yàn)的積累,可覆蓋絕大多數(shù)分析場景,并進(jìn)行定期升級,運(yùn)維人員也可以自行積累相關(guān)知識點(diǎn)。日志分析知識點(diǎn)是系統(tǒng)日常運(yùn)維經(jīng)驗(yàn)積累,可覆蓋企業(yè)常見日志報(bào)錯(cuò),并可根據(jù)系統(tǒng)的常見日志報(bào)錯(cuò)進(jìn)行定制升級。
運(yùn)維管理功能主要包括運(yùn)行周報(bào)和合規(guī)性檢查兩部分。
運(yùn)行周報(bào)是指自動的生成報(bào)告的功能,通過報(bào)告可以全面的了解系統(tǒng)運(yùn)行情況。系統(tǒng)每周自動生成系統(tǒng)運(yùn)行周報(bào)、分析本周系統(tǒng)運(yùn)行狀態(tài)、總結(jié)系統(tǒng)健康告警問題、總結(jié)主要日志告警、提交TOP SQL 報(bào)告供開發(fā)優(yōu)化。
合規(guī)性檢查是指在系統(tǒng)建設(shè)到投產(chǎn)環(huán)節(jié)的核查,Dsmart平臺通過建轉(zhuǎn)運(yùn)標(biāo)準(zhǔn)指標(biāo)庫對系統(tǒng)試運(yùn)行階段性能基線采集,生成建轉(zhuǎn)運(yùn)合規(guī)性檢查報(bào)告,解決了傳統(tǒng)模式下,系統(tǒng)上線前無法全面自動化檢查的缺陷。
容量管理由于其變化快,與業(yè)務(wù)緊耦合等特點(diǎn),一直是目前IT 生產(chǎn)系統(tǒng)的一個(gè)難點(diǎn),Dsamrt 運(yùn)維平臺通過底層信息的收集,結(jié)合多種因素,從磁盤組、表空間、用戶對象增長量等多個(gè)維度生成了可靠的容量管理模型,如圖3所示。
圖3 DSMART 容量管理功能
基于智能預(yù)測分析的容量管理中,充分融入了業(yè)務(wù)系統(tǒng)的規(guī)律和業(yè)務(wù)指標(biāo)特性,可以同時(shí)完成對業(yè)務(wù)增長和容量增長的智能預(yù)測分析,預(yù)測更加的精確,為系統(tǒng)容量管理提供依據(jù),充分的適應(yīng)了生產(chǎn)系統(tǒng)的特點(diǎn)。
Smart 生態(tài)運(yùn)維平臺通過大數(shù)據(jù),人工智能等方法的運(yùn)維,打造了獨(dú)具特色的Dsmart 運(yùn)維工具集,與傳統(tǒng)運(yùn)維工具相比,具體如下的特點(diǎn)。
依托智能化算法實(shí)現(xiàn)“知識自動化”,使運(yùn)維工作從自動化升級為智能化。智能化手段有效的解決了以往基于基線告警的運(yùn)維工具告警數(shù)量過多,告警準(zhǔn)確率低,無法實(shí)現(xiàn)閉環(huán)管理的不足,利用智能化的故障模型與狀態(tài)模型,可以實(shí)現(xiàn)較為精準(zhǔn)的預(yù)警,并可以發(fā)現(xiàn)大量以往無法發(fā)現(xiàn)的深度運(yùn)維隱患,真正做到防患于未然。
Dsmart 不是一個(gè)只支持單一運(yùn)維對象的運(yùn)維自動化工具,它可以對企業(yè)信息系統(tǒng)中的各種IT 基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一的建模,實(shí)現(xiàn)智能化分析。并在此基礎(chǔ)設(shè)構(gòu)建信息系統(tǒng)的全鏈路的健康模型。通過運(yùn)維對象的上下游關(guān)系之間的關(guān)聯(lián)分析,可以發(fā)現(xiàn)系統(tǒng)中更為深入的問題。比如我們可以從數(shù)據(jù)庫的IO 延時(shí)變化與存儲系統(tǒng)的負(fù)載數(shù)據(jù)進(jìn)行聯(lián)動分析,從而發(fā)現(xiàn)存儲系統(tǒng)可能存在的負(fù)載容量風(fēng)險(xiǎn)。
“IT 健康運(yùn)維“不僅僅是一個(gè)工作方法,更是一個(gè)合作生態(tài),通過Smart 運(yùn)維體系,可以構(gòu)建企業(yè)完整的智能化運(yùn)維生態(tài),可以以企業(yè)運(yùn)維數(shù)據(jù)中臺、企業(yè)人工智能平臺為基礎(chǔ),為數(shù)字孿生、流程自動化、故障自愈、多活數(shù)據(jù)中心等提供底層技術(shù)支撐。同時(shí)企業(yè)中的各個(gè)專業(yè)的專家可以遠(yuǎn)程加入“虛擬專家團(tuán)隊(duì)”,依托該體系構(gòu)建一二三線運(yùn)維團(tuán)隊(duì),依托運(yùn)維工具實(shí)現(xiàn)與第三方服務(wù)團(tuán)隊(duì)之間的高效協(xié)同。
生態(tài)化的運(yùn)維模式可以通過一套體系為整個(gè)IT 運(yùn)維服務(wù),大大提高了效率。
通過“知識自動化”實(shí)現(xiàn)企業(yè)IT 運(yùn)維管理知識的積累,以往企業(yè)的運(yùn)維經(jīng)驗(yàn)很難得到沉淀與積累,當(dāng)運(yùn)維人員崗位變化時(shí),以往的運(yùn)維知識與運(yùn)維能力就會發(fā)生變化。而通過smart 運(yùn)維體系中的“運(yùn)維知識庫”的不斷豐富,可以把專家腦子里的經(jīng)驗(yàn)變成本系統(tǒng)中可自動之行的知識庫,不斷地積累下來。讓運(yùn)維經(jīng)驗(yàn)與運(yùn)維知識成為企業(yè)真正地核心價(jià)值。
信創(chuàng)是IT 建設(shè)維護(hù)的核心工作之一,是提升自主能力,實(shí)現(xiàn)自主運(yùn)維的關(guān)鍵。而Smart 運(yùn)維體系可以支持大量的信創(chuàng)IT 基礎(chǔ)設(shè)施的運(yùn)維工作,支持的國產(chǎn)基礎(chǔ)設(shè)施包括服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫、中間件、存儲系統(tǒng)、網(wǎng)絡(luò)設(shè)備、云平臺、大數(shù)據(jù)平臺等。通過自動化手段對信創(chuàng)產(chǎn)品進(jìn)行狀態(tài)分析與監(jiān)控,從而解決信創(chuàng)運(yùn)維人員與運(yùn)維能力不足的問題,可以有力的推動核心信創(chuàng)新技術(shù)的落地與實(shí)施。
智能運(yùn)維、Aiops 是云時(shí)代IT 運(yùn)維的主要發(fā)展方向,以Smart 生態(tài)運(yùn)維體系和Dsmart 工具集為基礎(chǔ)的運(yùn)維生態(tài)管理體系建設(shè)探索了一套完整的運(yùn)維方法,在IT 基礎(chǔ)設(shè)施運(yùn)維上形成了良好的效果:
(1)降成本:通過智能生態(tài)運(yùn)維,在數(shù)據(jù)庫運(yùn)維上每年可以減少60 W 以上的維護(hù)費(fèi);
(2)增效率:通過狀態(tài)模型與故障模型的建設(shè),大大提高了告警的準(zhǔn)確性。與傳統(tǒng)的基線告警相比,智能化告警減少了95%以上的模糊報(bào)警,實(shí)現(xiàn)了報(bào)警的精準(zhǔn)化,系統(tǒng)故障預(yù)警率可達(dá)到80%以上;智能巡檢,使一套數(shù)據(jù)庫的巡檢工作從以前的1.5 人天減少為0.5 人時(shí)。巡檢工作的人工工作量減少了99%以上,通過智能化分析工具,使故障溯源率從以前的不到50%提高到80%以上,溯源準(zhǔn)確率從以前的70%提高到90%以上。如圖4、圖5所示。
圖4 告警準(zhǔn)確率(%)
圖5 巡檢工作量(小時(shí)/日)
(3)提能力:通過智能運(yùn)維,運(yùn)維人員能力得到了明顯的提升,具備了對系統(tǒng)告警進(jìn)行閉環(huán)管理的能力,能夠自主完成每一個(gè)關(guān)鍵告警實(shí)現(xiàn)溯源分析。
隨著企業(yè)數(shù)字化轉(zhuǎn)型和信創(chuàng)工作的開展,智能化機(jī)器人替代人工運(yùn)維是必然的發(fā)展方向。Smart 運(yùn)維生態(tài)化運(yùn)維體系的建立,不但降低了運(yùn)維的投入,又提升了運(yùn)維的效率,同時(shí)該方案具有通用性,具有極高的推廣價(jià)值。