冷迪,陳瑞,李英,王旭勇
(深圳供電局有限公司,廣東 深圳 518000)
5G、AI、大數(shù)據(jù)等新技術(shù)的發(fā)展與疊加,讓聯(lián)接變得無處不在,網(wǎng)絡(luò)中的新設(shè)備數(shù)量雨中淚也不斷增加,大大增加了網(wǎng)絡(luò)的復(fù)雜性。飛速發(fā)展的科學(xué)技術(shù)推動(dòng)投資消費(fèi)的快速增長(zhǎng),也驅(qū)動(dòng)各行各業(yè)的數(shù)字化轉(zhuǎn)型升級(jí),隨之而來的是網(wǎng)絡(luò)與業(yè)務(wù)的高復(fù)雜化與高質(zhì)量的挑戰(zhàn)。擺脫傳統(tǒng)信息中心的運(yùn)維模式,實(shí)現(xiàn)運(yùn)營(yíng)智能化備受關(guān)注,AIOps不斷趨于成熟為這一實(shí)現(xiàn)提供了方便[1]。
AIOps源自2016年著名IT研究機(jī)構(gòu)Gartner詞庫中的Algorithmic IT Operations,即基于算法的運(yùn)維方式?,F(xiàn)在國(guó)內(nèi)對(duì)AIOps的理解一般遵照清華大學(xué)裴丹教授的解釋,AIOps即Artificial Intelligence for IT Operations將人工智能應(yīng)用于運(yùn)維領(lǐng)域,基于已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過機(jī)器學(xué)習(xí)的方式來進(jìn)一步解決自動(dòng)化運(yùn)維沒辦法解決的問題。AIOps 不依賴于人為指定規(guī)則,主張由機(jī)器學(xué)習(xí)算法自動(dòng)地從海量運(yùn)維數(shù)據(jù)中不斷地學(xué)習(xí),不斷地提煉并總結(jié)規(guī)則。再通俗一些來說,AIOps就是AI+OPS,也就是人工智能運(yùn)維或者智慧運(yùn)維或者智能運(yùn)維。AIOps本身實(shí)際上也是一種多層技術(shù)平臺(tái),它通過數(shù)據(jù)分析和機(jī)器學(xué)習(xí)方法從形式多樣的IT運(yùn)營(yíng)工具和設(shè)備中收集的大數(shù)據(jù)中進(jìn)行學(xué)習(xí),自動(dòng)實(shí)時(shí)確定并反應(yīng)處理問題,實(shí)現(xiàn)IT運(yùn)營(yíng)的智能化,解放運(yùn)維人員的雙手。
AIOps的一切是為了通過模仿人類思維,但超過人類思維速度,去解決大規(guī)模的數(shù)據(jù)分析問題,它的關(guān)鍵在于其算法的智慧程度,一個(gè)AIOps工具或者部署是否優(yōu)秀取決于其在用的人工智能算法是否先進(jìn)。當(dāng)然如果算法不夠好,不能達(dá)到真正的人腦智慧程度,由于計(jì)算機(jī)的運(yùn)算速度與效率遠(yuǎn)遠(yuǎn)超過人腦正常的辨識(shí)反應(yīng)速度,AIOps也能夠很好地實(shí)現(xiàn)其目的,可以將原本借助人工處理系統(tǒng)運(yùn)維所要消耗的時(shí)長(zhǎng)極大地減少。很多早期的AIOps采用監(jiān)督式學(xué)習(xí)來輔助運(yùn)維人員節(jié)省時(shí)間提高工作效率,把運(yùn)維人員從紛繁復(fù)雜的告警和噪音中解脫出來,這實(shí)際上并沒有達(dá)到預(yù)期的效果。
通常AIOps由數(shù)據(jù)源、大數(shù)據(jù)平臺(tái)、計(jì)算(運(yùn)算)和分析、算法、無人監(jiān)督的機(jī)器學(xué)習(xí)、可視化、自動(dòng)化組成[2]。數(shù)據(jù)源一般來自企業(yè)現(xiàn)場(chǎng)的實(shí)時(shí)收集或者其他系統(tǒng)的數(shù)據(jù)匯聚。大數(shù)據(jù)平臺(tái)用于將各種各樣的數(shù)據(jù)進(jìn)行標(biāo)簽化存儲(chǔ)并進(jìn)行歷史數(shù)據(jù)分析和實(shí)時(shí)數(shù)據(jù)響應(yīng)。計(jì)算(運(yùn)算)和分析則是根據(jù)已有數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析生成新的數(shù)據(jù),或者根據(jù)特殊需要進(jìn)行數(shù)據(jù)處理完成特定的生成目標(biāo)。算法用來提高計(jì)算(運(yùn)算)和分析的效率,充分發(fā)揮機(jī)器的運(yùn)算能力,減少運(yùn)作時(shí)間。無人監(jiān)督的機(jī)器學(xué)習(xí)則是最核心的,通過動(dòng)態(tài)調(diào)整帶有參數(shù)的算法,不斷優(yōu)化系統(tǒng)計(jì)算(運(yùn)算)和分析效能。可視化則與常規(guī)的運(yùn)維相似,為運(yùn)維管理人員提供可視化信息,幫助其理解信息輔助決策。自動(dòng)化則是解放運(yùn)維人員的雙手與大腦,自動(dòng)生成解決問題的辦法或者改進(jìn)已有的解決方案。
在企業(yè)信息系統(tǒng)運(yùn)維過程中,常常會(huì)面對(duì)一些低級(jí)問題帶來的麻煩,這一方面是由于信息處理過程繁瑣,另一方面是問題發(fā)現(xiàn)能力跟不上需求,通常可以把企業(yè)信息系統(tǒng)運(yùn)維常見問題歸納為四類:故障點(diǎn)定位消耗時(shí)間長(zhǎng)、維護(hù)人員壓力大、專業(yè)維護(hù)人員招聘困難、信息監(jiān)控工具能力弱。
就目前來講,很多大型生產(chǎn)型企業(yè)又配備了大量的監(jiān)控系統(tǒng),這些監(jiān)控系統(tǒng)一般都能夠發(fā)現(xiàn)系統(tǒng)出現(xiàn)了故障,然而這些故障具體發(fā)生在什么位置,如何才能快速解決故障,避免對(duì)用戶產(chǎn)生使用影響,要求更高一些,讓用戶在無感知的情況下消除故障讓系統(tǒng)恢復(fù)正常,是十分嚴(yán)峻的問題。通常是需要依賴于專家,憑借專家的豐富經(jīng)驗(yàn)進(jìn)行逐點(diǎn)排查,這就會(huì)導(dǎo)致故障點(diǎn)定位消耗大量的時(shí)間,再加上故障修復(fù)時(shí)間,整個(gè)問題的解決時(shí)間會(huì)更長(zhǎng)。
也正是由于故障發(fā)現(xiàn)解決周期會(huì)很長(zhǎng),在一些對(duì)即時(shí)性要求較高的企業(yè),維護(hù)人員的工作壓力非常大,一是故障發(fā)生隨機(jī)性太大,無法知曉何時(shí)會(huì)發(fā)生故障,另外一方面,為了能夠更快地發(fā)現(xiàn)故障解決問題,一些企業(yè)建設(shè)了一些非常復(fù)雜的信息監(jiān)測(cè)監(jiān)控系統(tǒng),由于行業(yè)的獨(dú)特性與復(fù)雜性,這些系統(tǒng)大部分都需要維護(hù)人員手動(dòng)設(shè)置閾值,這就使得所有的壓力中心又返回到維護(hù)人員身上。這對(duì)維護(hù)人員的要求一方面要熟悉業(yè)務(wù),能夠?qū)ιa(chǎn)線信息很敏感的感知并動(dòng)態(tài)地調(diào)整告警發(fā)現(xiàn)規(guī)則,又要求維護(hù)人員具備很強(qiáng)的計(jì)算機(jī)操作能力、圖形圖像辨知能力,這自然而然地給企業(yè)帶來新型維護(hù)人員招聘難的難題[3]。
對(duì)于現(xiàn)階段的電力企業(yè)來講,信息機(jī)房數(shù)據(jù)中心具有很大的作為空間,打破傳統(tǒng)的以人為主的運(yùn)維模式,升級(jí)監(jiān)控方式方法可以從故障探測(cè)與智能預(yù)警、信息系統(tǒng)健康畫像、智能擴(kuò)縮容、智能預(yù)案推薦幾個(gè)方面入手,實(shí)現(xiàn)數(shù)據(jù)中心告警故障自愈,從而達(dá)到智能化運(yùn)營(yíng)的目的。
在故障探測(cè)與智能預(yù)警方面,通過歷史數(shù)據(jù)的時(shí)間序列分析和大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)進(jìn)行故障探測(cè),并通過數(shù)據(jù)擬合的方式進(jìn)行業(yè)務(wù)健康狀態(tài)預(yù)測(cè)。并配合監(jiān)控系統(tǒng)實(shí)現(xiàn)智能預(yù)警,以郵件、微信、短信等方式實(shí)時(shí)告知運(yùn)維人員系統(tǒng)的健康狀態(tài),防患于未然。
在信息系統(tǒng)健康畫像方面,通過對(duì)現(xiàn)實(shí)業(yè)務(wù)進(jìn)行標(biāo)準(zhǔn)化整合,建立業(yè)務(wù)健康數(shù)據(jù)指標(biāo)。該信息系統(tǒng)健康指標(biāo)需要滿足對(duì)機(jī)房?jī)?nèi)平臺(tái),主機(jī)、服務(wù)器、應(yīng)用的健康狀態(tài)評(píng)估的準(zhǔn)確性。利用智能化的健康指標(biāo)KPI,研究能夠描述業(yè)務(wù)健康狀況的信息系統(tǒng)健康畫像模型[4]?;诖髷?shù)據(jù)平臺(tái),可以快速創(chuàng)建儀表板實(shí)時(shí)顯示健康度整體動(dòng)態(tài)。
在智能擴(kuò)縮容方面,一是要建立業(yè)務(wù)系統(tǒng)的負(fù)載走勢(shì)算法模型,業(yè)務(wù)負(fù)載走勢(shì)算法模型及智能預(yù)測(cè),依托于業(yè)務(wù)的負(fù)載趨勢(shì)數(shù)據(jù),包含平臺(tái)、系統(tǒng)、應(yīng)用的負(fù)載數(shù)據(jù)等,通過對(duì)這些數(shù)據(jù)的收集、OLAP、存儲(chǔ)及初步分析處理形成有價(jià)值的模型訓(xùn)練數(shù)據(jù),通過線性回歸、移動(dòng)平均算法等趨勢(shì)預(yù)測(cè)算法訓(xùn)練出智能預(yù)測(cè)業(yè)務(wù)負(fù)載走勢(shì)算法模型,該模型需要滿足業(yè)務(wù)負(fù)載及預(yù)測(cè)的準(zhǔn)確性、實(shí)時(shí)性等需求。二是要實(shí)現(xiàn)服務(wù)器承載能力智能評(píng)估,服務(wù)器承載能力智能評(píng)估過程除了考慮不同機(jī)型對(duì)應(yīng)的表現(xiàn)有區(qū)別外,不同應(yīng)用相差差異也比較大,而且,不同業(yè)務(wù)的各類限制的指標(biāo)也各不相同,有cpu決定的,有IO決定的等等。服務(wù)器承載能力智能評(píng)估需要滿足不同業(yè)務(wù)類型在不同機(jī)型上面的承載能力的準(zhǔn)確判斷。三是要基于業(yè)務(wù)系統(tǒng)的負(fù)載走勢(shì)算法模型及智能預(yù)測(cè),以及服務(wù)器承載能力智能評(píng)估,通過AI智能決策,自動(dòng)調(diào)度作業(yè)平臺(tái)擴(kuò)縮容任務(wù),實(shí)現(xiàn)自動(dòng)擴(kuò)縮容。擴(kuò)縮容調(diào)度任務(wù)需要滿足,操作一致性,操作原子性等功能及業(yè)務(wù)需求。
在智能預(yù)案推薦方面,一是要實(shí)現(xiàn)故障處理預(yù)案數(shù)據(jù)收集、OLAP,及存儲(chǔ)管理,通過理解業(yè)務(wù),收集告警數(shù)據(jù)、告警處理歷史數(shù)據(jù)告警收斂和防御、系統(tǒng)預(yù)定收斂和防御規(guī)則,通過FTA、健康診斷數(shù)據(jù)等,進(jìn)行OLAP及數(shù)據(jù)存儲(chǔ)。針對(duì)常見故障,建議故障處理預(yù)案(套餐),并錄入到系統(tǒng)中。(非常見故障,如一年發(fā)生1-2次的,由于數(shù)據(jù)量少無法達(dá)到數(shù)據(jù)收集和分析的最低要求,不列入研究目標(biāo)。)二是要建立故障處理計(jì)算模型,基于流式計(jì)算框架,根據(jù)故障處理預(yù)案數(shù)據(jù),并通過機(jī)器學(xué)習(xí)相關(guān)算法,對(duì)故障進(jìn)行聚類收斂,例如利用LSTM算法主要解決普通回環(huán)神經(jīng)網(wǎng)絡(luò)的權(quán)重小的問題,輸入不同尋常數(shù)據(jù)并利用LSTM來訓(xùn)練神經(jīng)網(wǎng)絡(luò)收斂算法,最終到大規(guī)模場(chǎng)景下的神經(jīng)網(wǎng)絡(luò),再將模型應(yīng)用于生產(chǎn)系統(tǒng),以實(shí)現(xiàn)對(duì)故障決策的智能判斷。對(duì)于故障的AI智能判斷需要滿足非常高的準(zhǔn)確性判斷[5]。
綜上所述,基于Aiops的信息機(jī)房數(shù)據(jù)中心的智能化運(yùn)營(yíng),最終要實(shí)現(xiàn)常見故障的自愈修復(fù)。常見故障需滿足兩點(diǎn)要求:出現(xiàn)次數(shù)需符合數(shù)據(jù)分析對(duì)故障量的要求,且能夠通過專家人工進(jìn)行步驟編排實(shí)現(xiàn)解決,舉例如:數(shù)據(jù)庫故障(歸檔空間不足、集群服務(wù)異常、服務(wù)異常等)、操作系統(tǒng)故障(磁盤空間不足,CPU內(nèi)存性能不足)。
工業(yè)化與信息化時(shí)代,大數(shù)據(jù)與人工智能技術(shù)飛速發(fā)展,在許多行業(yè)已經(jīng)普遍應(yīng)用且頗為成熟,這也助推著智能運(yùn)維AIOps技術(shù)的不斷發(fā)展。對(duì)于一些實(shí)時(shí)數(shù)據(jù)量大、生產(chǎn)運(yùn)營(yíng)框架復(fù)雜不利于故障排查、用戶即時(shí)性體驗(yàn)要求高的企業(yè)中,利用AIOps技術(shù)平臺(tái)紅利實(shí)現(xiàn)信息機(jī)房數(shù)據(jù)中心的智能化運(yùn)營(yíng),前景廣闊。