諶力
伴隨金融機構(gòu)數(shù)字化轉(zhuǎn)型的加速,IT運維正在向智能運維全面邁進。作為率先實現(xiàn)智能運維工程化的全棧IT運維服務(wù)商,云智慧(北京)科技有限公司總裁劉洪濤先生向《新金融世界》分享了智能運維對于金融數(shù)字化和FinTech的意義,以及智能運維在金融機構(gòu)落地過程中的注意要點。
金融數(shù)字化的運維變革
數(shù)字化時代,IT對金融業(yè)務(wù)的重要程度與日俱增,是推動機構(gòu)進行智能運維變革的關(guān)鍵。
在幾年前,很多金融機構(gòu)會在半夜12點-1點暫停交易進行系統(tǒng)維護,而如今的金融交易必須達到24小時不間斷的秒級響應(yīng)要求。這就意味著,IT對金融而言已經(jīng)由業(yè)務(wù)支撐系統(tǒng)變?yōu)闃I(yè)務(wù)本身。
劉洪濤表示:“我們在跟金融行業(yè)用戶交流的時候,大家談的都是業(yè)務(wù)。過去,運維關(guān)注的是底層設(shè)備的高可用和穩(wěn)定性。而現(xiàn)在,一切聚焦到業(yè)務(wù)層面,衡量指標(biāo)從SLA變成了MTTR(平均故障修復(fù)時間)。這就需要覆蓋所有業(yè)務(wù)鏈的全局監(jiān)控、管理和分析,把監(jiān)控的點和面都做完整,還要與業(yè)務(wù)指標(biāo)進行關(guān)聯(lián)。所以現(xiàn)在的運維比傳統(tǒng)運維復(fù)雜度高很多。”劉洪濤說。
當(dāng)前金融運維的另外一個挑戰(zhàn)來自于數(shù)字化轉(zhuǎn)型的推進。FinTech新技術(shù)的應(yīng)用,導(dǎo)致IT規(guī)模和復(fù)雜度呈指數(shù)增長,單純依靠人力的故障修復(fù)方法顯然是不可取的。不僅如此,IT系統(tǒng)每時每刻要產(chǎn)生海量數(shù)據(jù),依靠人工設(shè)定告警閾值、分析處理海量告警信息同樣不現(xiàn)實。所以,通過AI對歷史數(shù)據(jù)進行學(xué)習(xí),設(shè)置更加有效的動態(tài)告警閾值,利用根因分析追蹤導(dǎo)致事件發(fā)生的根本原因,實現(xiàn)告警事件的及時處置,有效降低MTTR。
智能運維的認(rèn)知和核心技術(shù)
到目前為止,業(yè)界針對AIOps的認(rèn)知尚未統(tǒng)一,有人說AIOps是算法,有的則認(rèn)為是自動化運維。劉洪濤表示:“其實AIOps并不是像APM那樣的產(chǎn)品,而是一種理念。用AI技術(shù)去提升金融機構(gòu)的運維能力,讓它具有智能化,更高效解決金融業(yè)務(wù)運行中遇到的問題。同時,AI是一種可以工程化的實用科技,AIOps就是AI在IT運維領(lǐng)域的落地。”
談到AIOps的核心技術(shù),劉洪濤認(rèn)為“:目前,算法不是關(guān)鍵,因為很多算法已經(jīng)非常成熟且開源了。但是,客戶的應(yīng)用場景千差萬別,需求也各不相同,到底哪種算法用什么模式匹配到客戶場景中,這才是核心。這是個‘AIOps工程化的過程,對于智能運維提供商來說,既要有算法能力,又要理解客戶的應(yīng)用場景,還要有工程化落地的能力?!?img src="https://cimg.fx361.com/images/2022/02/13/qkimagesxjrsxjrs201904xjrs20190408-1-l.jpg"/>
此外,AIOps需要完整的歷史數(shù)據(jù)、日志數(shù)據(jù)和實時監(jiān)測數(shù)據(jù)。因此,要實現(xiàn)AIOps落地,數(shù)據(jù)采集能力同樣必不可少,只有這樣才能通過AI得到有價值的結(jié)果。
金融行業(yè)智能運維落地的理念和建議
針對AIOps在金融行業(yè)的落地,云智慧秉承的理念是: “以數(shù)據(jù)為基礎(chǔ),算法為支撐,場景為導(dǎo)向”。
部署智能運維首先要理解傳統(tǒng)運維管理與智能運維的邏輯差異:傳統(tǒng)運維依賴流程,靠工單系統(tǒng)把事件串起來。智能運維是基于數(shù)據(jù)和智能化分析結(jié)果進行運維管理,與傳統(tǒng)運維的邏輯完全不一樣。
與過去依靠ITSM平臺管理所有IT問題不同,智能運維注重場景化,解決的是某一類問題。當(dāng)然,智慧運維的基礎(chǔ)仍然是數(shù)據(jù),在數(shù)據(jù)之上構(gòu)建AI分析能力,在AI之上是事件管理等產(chǎn)品模塊。這些模塊以松耦合的方式,根據(jù)用戶需求的不同任意組合,最后通過可視化運維監(jiān)控中心,把IT價值直觀呈現(xiàn)出來,讓管理者和業(yè)務(wù)運營負(fù)責(zé)人都能看懂IT。
劉洪濤建議:“智能運維不要上來就做大而全的,我們的建議是‘小步快跑,階梯式前進。具體來說,先從某個運維問題總結(jié)出來的場景入手,而落地時要充分考慮未來幾個、甚至幾十個場景的整體需求。這種做法的好處在于效率最高,IT團隊在逐步積累AIOps經(jīng)驗的同時,讓業(yè)務(wù)部門快速看到AIOps成效,自然更愿意配合IT變革,推進業(yè)務(wù)與IT的融合。所以,我們的建議是做好規(guī)劃,階段式實現(xiàn)AIOps落地?!?/p>
金融行業(yè)智能運維的四大典型場景
云智慧總結(jié)了現(xiàn)階段金融機構(gòu)推進AIOps智能運維落地的四個典型場景。
一、統(tǒng)一監(jiān)控。這是幾乎所有用戶在完成系統(tǒng)構(gòu)建之后都要用到的。統(tǒng)一監(jiān)控服務(wù)是于業(yè)務(wù)的。過去的監(jiān)控系統(tǒng)主要監(jiān)控底層硬件設(shè)備和豎井式IT系統(tǒng),但對金融機構(gòu)來說,這些分散的監(jiān)控系統(tǒng)無法有效支撐業(yè)務(wù)運轉(zhuǎn)。因此,必須有一個開放的統(tǒng)一監(jiān)控平臺,把一個個業(yè)務(wù)和孤立的監(jiān)控系統(tǒng)整合起來,同時依托這個平臺獲得完整的IT數(shù)據(jù)。
二、根因分析。系統(tǒng)產(chǎn)生的大量告警信息怎么判斷?依靠人工處理和工程師的經(jīng)驗判斷故障變得越來越困難。利用智能算法對異?;蛘吖收系母蜻M行分析,給出故障的根因推薦以及深入分析結(jié)果,讓事件得到迅速處理。
三、動態(tài)基線。由于業(yè)務(wù)指標(biāo)受時間、季節(jié)、事件等因素影響不斷波動,這就導(dǎo)致IT指標(biāo)的變化同樣是動態(tài)的?;跉v史數(shù)據(jù),利用智能算法深度學(xué)習(xí),對未來一段時間內(nèi)每個時間點的數(shù)值進行精準(zhǔn)預(yù)測,將預(yù)測值作為基線來監(jiān)控和告警,提高運維的事件響應(yīng)和處理效率。
四、故障預(yù)測。很多問題的發(fā)生都是有征兆的,故障預(yù)測基于歷史告警消息的相關(guān)性,對當(dāng)前處于故障狀態(tài)的警報可能造成的影響進行預(yù)測判斷,從而實現(xiàn)故障的提前預(yù)警。