孫杰賢
“7X24”,“3個9或5個9”,這是IT運維管理的一些基本要求,尤其是在電信、航空、金融等運營性和服務性領域。相對應,有著IT消防員之稱的IT運維管理人員的工作狀態(tài)是這樣的:疲于奔命、加班熬夜、壓力山大、出力不討好?!袄鬯览刍钜粋€月下來,雖然忙得手腳不著地,可挨領導的批評也更多了,因為雖然問題是解決了,卻收到了更多的投訴:找不到人、反應速度太慢、相似的問題總出現(xiàn)、沒有預防措施......”
運維之困
當企業(yè)乃至整個社會對IT的依賴不斷提高,企業(yè)IT系統(tǒng)在變得日趨重要的同時也變得龐大而復雜。由此導致系統(tǒng)警報和故障的發(fā)現(xiàn)、排除和管理變得更加困難。在縱橫交錯的IT系統(tǒng)中、在浩瀚無邊的數(shù)據(jù)流里發(fā)現(xiàn)故障所在無異于大海撈針,更不要說發(fā)現(xiàn)潛在的問題。如果完全依靠人海戰(zhàn)術,既不現(xiàn)實也不是長久之計。以前,十幾名IT運維管理人員可以維護管理幾百個節(jié)點;現(xiàn)在,節(jié)點的數(shù)量猛增到幾萬個,顯然,IT運維管理人員數(shù)量不可能相應進行上百倍的增加,即使增加,也不一定能夠解決問題。
怎么辦?答案便在人工智能和機器學習,將這兩項技術引入IT運維管理從而真正實現(xiàn)自動化和智能化運維,解放IT管理員們。據(jù)Gartner預測,到2020年,近50%的企業(yè)將在他們的業(yè)務和IT運維方面采用人工智能和機器學習技術,遠高于2017年的5%。
隨著“互聯(lián)網(wǎng)+”的普及和“軟件定義”的興起,應用性能管理APM已經(jīng)成為IT運維管理最重要也是最主要的環(huán)節(jié)之一。APM通過監(jiān)測和診斷復雜應用程序的性能問題,來保證軟件應用程序的運行性能和可用性從而確保用戶體驗。
安吉星,一家企業(yè),一款產(chǎn)品,一套應用——涉及碰撞自動求助、緊急救援、安全保障、車況檢測以及車輛被盜協(xié)尋等多種服務?!鞍布堑脑妇笆峭ㄟ^創(chuàng)新科技建構‘人-車-生活的智能互聯(lián),導航和安全控制只是安吉星的應用服務之一。在C端,安吉星還可以提供車主生活助理服務,比如酒店、餐廳、代駕等預約服務以及智能家居服務;在B端,安吉星提供車隊管理以及金融等服務?!?安吉星應用監(jiān)控項目負責人茅燁雋在接受本刊采訪時表示,“安吉星即應用、即服務,因此確保應用的性能和可用性從而提高服務水平和消費體驗是安吉星的根本訴求。這也是為什么安吉星中國在成立之初便引入Dynatrace的APM系統(tǒng),讓被動的維護變成主動的管理?!?/p>
突破與改變
茅燁雋提到的Dynatrace公司連續(xù)八年入圍Gartner應用性能監(jiān)測套件(APM)魔力象限領導者象限,是該領域絕對的領軍者。在第五屆Dynatrace Perform 2018大中華區(qū)用戶大會上,該公司推出了一款面向企業(yè)云環(huán)境的人工智能全棧式監(jiān)控運維平臺,目的只有一個,那就是實現(xiàn)企業(yè)IT的智能化運維管理,從而讓DevOps理念真正落地。對于該平臺的發(fā)布,Dynatrace全球銷售高級副總裁Stephen Pace 如此表示:“六年前,我們便預測到,云計算、物聯(lián)網(wǎng)、微服務等引發(fā)的變革將對應用和基礎設施市場產(chǎn)生巨大的影響,于是我們決定重塑監(jiān)控,打造一個以人工智能技術為核心的性能管理平臺?,F(xiàn)在,這一平臺將真正幫助用戶利用領先的AI技術實現(xiàn)更高效、智能的性能管理,在迅猛發(fā)展的云市場中搶占業(yè)務先機。同時,該平臺的發(fā)布也正式宣告Dynatrace全面轉型為一家軟件智能公司?!?/p>
我們來簡單看一下該平臺的技術突破和價值。技術突破有四點,主要集中在全棧式、自動化和智能化這幾大特征上:人工智能和機器學習技術的深度應用,直接提供給企業(yè)可解決性能問題的答案,而不只是性能數(shù)據(jù)報表;以單一代理方式,涵蓋全棧式應用,并提供實時依賴關系模型;面向整個生態(tài)系統(tǒng)的應用編程接口,可推動和激發(fā)企業(yè)自動化IT管理 ;通過真實用戶體驗與回放技術,讓用戶可以洞察并掌控全程。應用價值如下:更快實現(xiàn)性能管理、更少的管理工具、更少的資源占用、更少的修復時間以及彈性的智能監(jiān)控。
可見,人工智能帶給IT運維管理的改變是巨大的,它可以填補我們人類跟浩瀚的系統(tǒng)數(shù)據(jù)之間的空白,提供給IT運維管理人員必要的操作智能和速度,大大減輕了人工故障排除和實時決策的負擔??梢韵胂笠幌拢憾嗌倌暌院?,IT運維管理領域出現(xiàn)了更高級的人工智能服務,這個新的人工智能服務完全可以自動檢查IT設備和系統(tǒng)的故障并自主進行故障排除和系統(tǒng)恢復,于是,幾乎大大小小的企業(yè)和組織全部都在使用這樣的機器服務,以至于世界上所有的IT運維工程師們都面臨轉型的挑戰(zhàn)。