李兆康
本文從運(yùn)維痛點(diǎn)和需求入手,提出建設(shè)運(yùn)維監(jiān)控、日志分析、應(yīng)用性能及RPA自動巡檢與處置等,全面實(shí)現(xiàn)自動化運(yùn)維的經(jīng)驗(yàn)分享。
隨著公司信息化建設(shè)和數(shù)字化轉(zhuǎn)型不斷深化,數(shù)字科技的投入逐年增加,IT系統(tǒng)架構(gòu)轉(zhuǎn)型為云化、容器化、微服務(wù)化,動態(tài)伸縮,關(guān)系復(fù)雜。當(dāng)故障出現(xiàn)后,運(yùn)維團(tuán)隊(duì)花費(fèi)大量精力聯(lián)合分析處理,不能快速和準(zhǔn)確定位問題根源,無法有效診斷和預(yù)防故障,需要從網(wǎng)絡(luò)流量、主機(jī)性能、應(yīng)用性能、日志報(bào)文等層面進(jìn)行精細(xì)化的監(jiān)控預(yù)警。
當(dāng)今世界,科技創(chuàng)新已經(jīng)成為產(chǎn)業(yè)變革的重要?jiǎng)恿?,在“新基建”政策和?shù)字化轉(zhuǎn)型浪潮的推動下,云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、人工智能等新一代信息技術(shù)的快速發(fā)展,敏捷開發(fā)與運(yùn)維一體化時(shí)代到來,產(chǎn)業(yè)應(yīng)用場景日趨多樣,企業(yè)的業(yè)務(wù)架構(gòu)和網(wǎng)絡(luò)環(huán)境也隨之發(fā)生了重大的變化,業(yè)務(wù)系統(tǒng)的邏輯結(jié)構(gòu)正變得越來越復(fù)雜,這給企業(yè)的運(yùn)維管理帶來了新的挑戰(zhàn)。
(一)設(shè)備種類繁多
隨著公司業(yè)務(wù)發(fā)展,業(yè)務(wù)系統(tǒng)越來越多,配套支撐的網(wǎng)絡(luò)、服務(wù)器、存儲、主機(jī)、中間件、數(shù)據(jù)庫、虛擬化、云平臺等基礎(chǔ)軟硬件規(guī)模呈指數(shù)增長,IT環(huán)境異構(gòu),軟硬件種類繁多,日常運(yùn)維工作量巨大,運(yùn)維監(jiān)控不全面,無法持續(xù)實(shí)時(shí)監(jiān)控IT系統(tǒng)。當(dāng)系統(tǒng)出現(xiàn)故障后,運(yùn)維團(tuán)隊(duì)花費(fèi)大量精力排查和解決,不能快速、準(zhǔn)確定位問題根源,無法有效預(yù)防故障,造成故障處理效率偏低。
(二)日志分析量大
現(xiàn)代信息技術(shù)帶來了IT系統(tǒng)日志數(shù)據(jù)的爆發(fā)式增長,數(shù)據(jù)量大、多樣化、快速化給日志的分析挖掘帶來了很大的挑戰(zhàn),實(shí)時(shí)性要求也對計(jì)算性能提出了很高要求:當(dāng)前各系統(tǒng)產(chǎn)生大量的運(yùn)行和業(yè)務(wù)日志,無法跨系統(tǒng)共享,實(shí)際問題處理聯(lián)合分析耗費(fèi)人力較多、時(shí)間長,缺少聯(lián)動分析預(yù)警能力。
(三)系統(tǒng)復(fù)雜度高
業(yè)務(wù)系統(tǒng)之間的關(guān)聯(lián)性逐漸增加,IT系統(tǒng)的規(guī)模及架構(gòu)也會隨之變得越來越復(fù)雜。導(dǎo)致運(yùn)維團(tuán)隊(duì)對于系統(tǒng)維護(hù)難度增加,往往需要投入更多的人力,來保障整個(gè) IT系統(tǒng)的穩(wěn)定運(yùn)行,從而避免對業(yè)務(wù)產(chǎn)生影響。然而更多的人力投入,不但增加了運(yùn)維的成本,而且對運(yùn)維管理工作造成影響的風(fēng)險(xiǎn)也隨之增加。
(四)新技術(shù)管理難
隨著敏捷開發(fā)與運(yùn)維一體化時(shí)代的發(fā)展,越來越多的企業(yè)采用容器化部署,龐大的應(yīng)用分布式服務(wù)集群包含了成百上千個(gè)實(shí)例,且這些實(shí)例都是隨時(shí)進(jìn)行彈性伸縮,云化和微服務(wù)化的高速發(fā)展、以及網(wǎng)絡(luò)接入方式的多樣化等趨勢,使得運(yùn)維在面對逐漸流行的容器化或其他高復(fù)雜度服務(wù)架構(gòu)等監(jiān)控時(shí),成為各大企業(yè)運(yùn)營人員關(guān)心的問題。
(一)基礎(chǔ)軟硬件監(jiān)控。
實(shí)現(xiàn)IT系統(tǒng)的基礎(chǔ)軟硬件性能監(jiān)控、網(wǎng)絡(luò)監(jiān)控、故障分析及定位、資產(chǎn)及配置文件的管理等功能,保障了日常運(yùn)維工作的順利開展,提升了運(yùn)維團(tuán)隊(duì)的管控水平。通過SNMP、IPMI、SMI-S等協(xié)議添加網(wǎng)絡(luò)安全、服務(wù)器及存儲等硬件設(shè)備節(jié)點(diǎn),通過WMI、SSH、Telnet添加主機(jī)、中間件、數(shù)據(jù)庫等軟件資源節(jié)點(diǎn),通過Ping、Port、URL等協(xié)議添加應(yīng)用服務(wù),形成數(shù)據(jù)中心統(tǒng)一拓?fù)鋱D,展示節(jié)點(diǎn)及鏈路狀態(tài),以及形成業(yè)務(wù)管理視圖,展示業(yè)務(wù)系統(tǒng)的運(yùn)行狀態(tài)、響應(yīng)速度、網(wǎng)絡(luò)、計(jì)算、數(shù)據(jù)庫、存儲容量及整體健康度等。資源監(jiān)控指標(biāo)需要重點(diǎn)關(guān)注,針對業(yè)務(wù)和資源情況進(jìn)行個(gè)性化梳理、設(shè)置,確保監(jiān)控的準(zhǔn)確性及實(shí)用性。例如:專線監(jiān)控應(yīng)考慮專線帶寬大小、本端業(yè)務(wù)節(jié)點(diǎn)到對端業(yè)務(wù)節(jié)點(diǎn)的連通性情況;數(shù)據(jù)庫監(jiān)控應(yīng)考慮業(yè)務(wù)占用表空間大小的情況。告警管理至關(guān)重要,告警閾值設(shè)置高了,容易遺漏系統(tǒng)運(yùn)行故障;告警閾值設(shè)置低了,又會帶來大量的無效告警,影響運(yùn)維團(tuán)隊(duì)的工作效率。同樣,告警檢查的周期設(shè)置長短也存在類似的問題。往往運(yùn)維團(tuán)隊(duì)為了不遺漏告警,而提升告警的靈敏度,導(dǎo)致告警重復(fù)率很高。傳統(tǒng)告警提醒方式為郵件、短信,目前主流產(chǎn)品已經(jīng)支持與企業(yè)微信、釘釘?shù)燃?,通過團(tuán)隊(duì)協(xié)作的方式快速處理問題,極大地提升故障的處理效率。一般系統(tǒng)還支持設(shè)備配置備份及巡檢功能,針對不同廠商的設(shè)備型號,分類批量設(shè)置備份或巡檢腳本,實(shí)現(xiàn)常規(guī)任務(wù)自動化處理。
(二)日志分析監(jiān)控。
實(shí)現(xiàn)日志跨系統(tǒng)集中存儲、索引、分析與歸檔,可視化展示及全庫檢索,實(shí)時(shí)監(jiān)控、深度分析,加速故障分析、追蹤和定位。同時(shí)建立指標(biāo)歷史基線,分析變化趨勢,及時(shí)預(yù)警。通過文件、數(shù)據(jù)庫、執(zhí)行腳本讀取等采集方法將日志統(tǒng)一收集到系統(tǒng)集中管理,對日志進(jìn)行切分、識別時(shí)間戳及實(shí)時(shí)索引和存儲,使用解析功能將日志中的字段提取出來,使用SPL對日志進(jìn)行更多地聚合和關(guān)聯(lián)分析。搜索分析是日志價(jià)值探索的核心能力,搜索模塊由搜索欄、時(shí)間范圍、操作選項(xiàng)組成,在搜索框輸入搜索分析語句、選擇時(shí)間范圍和操作過濾出對應(yīng)數(shù)據(jù),或者通過劃詞過濾搜索結(jié)果。可視化可以有效且更好地進(jìn)行分析,以圖表形式展示多維度的日志信息,揭示日志模式和趨勢,幫助我們更好更容易地理解日志或提取日志信息,提高效率。告警提供從規(guī)則配置、事件觸發(fā)、發(fā)送通知、事件分析的一站式管理。系統(tǒng)還可作為日志服務(wù)器供應(yīng)用運(yùn)維團(tuán)隊(duì)使用,不再需要登錄應(yīng)用生產(chǎn)節(jié)點(diǎn)獲取日志,還提供將采集到的原始日志進(jìn)行加密以及對敏感日志脫敏;日志保存時(shí)間需要滿足至少存儲180天的要求。
(三)應(yīng)用性能監(jiān)控。
實(shí)現(xiàn)對應(yīng)用系統(tǒng)代碼執(zhí)行效率等逐層進(jìn)行深入分析,對業(yè)務(wù)調(diào)用的全面感知,加速故障分析、追蹤、定位和修復(fù),開發(fā)測試階段及時(shí)預(yù)警,優(yōu)化迭代,對系統(tǒng)進(jìn)行量化、可視化和精細(xì)化管理。通過探針對應(yīng)用或進(jìn)程進(jìn)行監(jiān)控,以業(yè)務(wù)透視IT系統(tǒng)架構(gòu),對用戶事務(wù)請求進(jìn)行完整地堆棧追蹤,對用戶級代碼進(jìn)行分析,呈現(xiàn)每一個(gè)業(yè)務(wù)調(diào)用、每一個(gè)類、每一個(gè)方法的執(zhí)行效率,展示業(yè)務(wù)在各個(gè)環(huán)節(jié)的性能表現(xiàn),透析各個(gè)節(jié)點(diǎn)的調(diào)用拓?fù)?,全維度展現(xiàn)業(yè)務(wù)調(diào)用流程。用戶的每一次請求到達(dá)服務(wù)端時(shí),標(biāo)記特定ID,實(shí)現(xiàn)服務(wù)端調(diào)用全鏈路的級級透傳,實(shí)現(xiàn)全鏈路調(diào)用追蹤,便于故障的快速定位。以機(jī)器學(xué)習(xí)知識為基礎(chǔ),結(jié)合歷史數(shù)據(jù)集,使用異常檢測算法,對實(shí)時(shí)數(shù)據(jù)進(jìn)行高密度分類匹配,檢測事件異常。
(四)RPA自動巡檢處置。
RPA(Robotic Process Automation)是指使用軟件自動化來實(shí)現(xiàn)原本由用戶計(jì)算機(jī)完成的操作,這些軟件機(jī)器人自動處理大量重復(fù)的、基于規(guī)則的工作流程任務(wù),準(zhǔn)確快速地完成,減少人為錯(cuò)誤,提高效率,大大降低運(yùn)營成本。通過RPA技術(shù)與運(yùn)維管理工作結(jié)合,巡檢機(jī)器人實(shí)時(shí)采集巡檢目標(biāo)的運(yùn)行信息,判斷運(yùn)行狀態(tài)、是否報(bào)錯(cuò)、是否需要進(jìn)行相應(yīng)處理,并發(fā)送至管理中心,進(jìn)而能夠?qū)崟r(shí)監(jiān)測巡檢目標(biāo)狀況,提高巡檢的效率與質(zhì)量。機(jī)器人每天實(shí)時(shí)模擬運(yùn)維團(tuán)隊(duì)對業(yè)務(wù)系統(tǒng)及管理節(jié)點(diǎn)進(jìn)行信息采集,對自動任務(wù)等進(jìn)行實(shí)時(shí)性及關(guān)鍵字進(jìn)行判斷,一旦匹配設(shè)置的規(guī)則,則會通知運(yùn)維團(tuán)隊(duì),并觸發(fā)預(yù)置的處置方案,快速恢復(fù)系統(tǒng)業(yè)務(wù);還可以實(shí)現(xiàn)系統(tǒng)更新后的功能模塊及業(yè)務(wù)驗(yàn)證。
通過自動化運(yùn)維應(yīng)用實(shí)踐實(shí)現(xiàn)了對業(yè)務(wù)流程的有效梳理,全局掌握IT資源和資產(chǎn)的詳細(xì)信息,提高了運(yùn)維工作效率,有利于故障的快速恢復(fù)。近年來,在自動化運(yùn)維的基礎(chǔ)上,提出了AIOps(智能運(yùn)維),將AI應(yīng)用于運(yùn)維領(lǐng)域,基于已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),加上基于機(jī)器學(xué)習(xí)的大腦,做出分析決策,并執(zhí)行自動化腳本,從而達(dá)到運(yùn)維管理的整體目標(biāo)。AIOps是運(yùn)維的發(fā)展趨勢,是自動化運(yùn)維的下一個(gè)發(fā)展階段。同時(shí)匹配相應(yīng)的制度流程、組織人員以及資金保障,全面提升運(yùn)維能力,助力公司高質(zhì)量發(fā)展。
作者單位:中國建材集團(tuán)財(cái)務(wù)有限公司