李志剛,劉自強,張 輝
(中國電子科技集團公司第五十二研究所,浙江 杭州 311100)
隨著國內(nèi)信息化領(lǐng)域自主化和國產(chǎn)化戰(zhàn)略的穩(wěn)步推進(jìn),在各行業(yè)信息系統(tǒng)中已大力推動國產(chǎn)平臺部署使用。在此情況下,國產(chǎn)平臺直接關(guān)系到國內(nèi)信息系統(tǒng)自主化進(jìn)展,其可靠穩(wěn)定運行至關(guān)重要。目前國產(chǎn)平臺系統(tǒng)規(guī)模及復(fù)雜度越來越高,國產(chǎn)平臺的可靠運行面臨著越來越大的挑戰(zhàn)。在國產(chǎn)平臺使用過程中,故障快速定位排查是保障平臺可靠運行的有效手段。
該文設(shè)計了一種集日志分析、智能診斷和可視化監(jiān)測等多種技術(shù)的可視化分析診斷系統(tǒng),可有效提高國產(chǎn)平臺的故障排查速度和可靠運行水平。
在國產(chǎn)平臺的運行維護和故障診斷排查中,存在以下挑戰(zhàn)和問題[1]:
(1)系統(tǒng)日志和應(yīng)用日志等記錄著系統(tǒng)和業(yè)務(wù)應(yīng)用運行期間的詳細(xì)運行時信息,可被用作系統(tǒng)異常檢測的主要數(shù)據(jù)源。對日志進(jìn)行分析,不僅可以了解到國產(chǎn)平臺中軟硬件的運行狀況,還可了解報錯日志的源頭,判斷錯誤是由應(yīng)用引起的還是系統(tǒng)引起的,從而及時進(jìn)行故障恢復(fù),減少停機時間。
但系統(tǒng)中的日志存放分散、數(shù)據(jù)量巨大,且日志的格式和含義往往不明,管理人員往往難以快速從大量日志噪聲數(shù)據(jù)中手動識別關(guān)鍵信息以進(jìn)行異常檢測。
(2)目前國產(chǎn)平臺日趨復(fù)雜,多個應(yīng)用軟件間及數(shù)據(jù)間的關(guān)系更加緊密,影響其穩(wěn)定可靠運行的因素眾多。硬件因素上涉及到計算、存儲、交換、電源以及其他專用硬件等;軟件因素上涉及到操作系統(tǒng)、驅(qū)動、系統(tǒng)軟件、中間件、數(shù)據(jù)庫、應(yīng)用軟件等;同時由于硬件對環(huán)境依賴、軟硬件間依賴、應(yīng)用系統(tǒng)間依賴以及數(shù)據(jù)間依賴等關(guān)聯(lián)依賴,使問題更加錯綜復(fù)雜。
在此情況下,當(dāng)國產(chǎn)平臺系統(tǒng)出現(xiàn)故障時,故障從何查起、需要查看哪些因素,以及如何快速診斷及排查故障變得愈加困難。
(3)國產(chǎn)平臺中可監(jiān)測數(shù)據(jù)眾多,包括傳感數(shù)據(jù)(電壓/電流/溫度等)、系統(tǒng)靜態(tài)信息(CPU/內(nèi)存/存儲/網(wǎng)絡(luò)配置信息等)、系統(tǒng)動態(tài)信息(CPU占用率/內(nèi)存占用率/網(wǎng)絡(luò)流量等)、告警信息、故障信息、日志信息和應(yīng)用信息等,并且所有監(jiān)測的各種類型的數(shù)據(jù)都有其相應(yīng)的意義和作用,不可或缺。
在此情況下,如何一目了然地以用戶易理解的方式可視化展現(xiàn)眾多監(jiān)測數(shù)據(jù),如何提高用戶對數(shù)據(jù)理解和處理效率變得非常重要[2]。
針對以上所述問題,該文設(shè)計構(gòu)建可視化分析診斷系統(tǒng),通過日志分析、智能診斷和可視化監(jiān)測技術(shù)來解決上述3個問題及挑戰(zhàn)。以下將從系統(tǒng)架構(gòu)、日志分析、智能診斷和可視化監(jiān)測等方面對該系統(tǒng)進(jìn)行論述。
基于國產(chǎn)平臺的可視化分析診斷系統(tǒng)以監(jiān)測數(shù)據(jù)為中心,對監(jiān)測數(shù)據(jù)進(jìn)行全生命周期管理分析,包括數(shù)據(jù)監(jiān)控采集、數(shù)據(jù)存儲管理及數(shù)據(jù)分析和可視化應(yīng)用等,結(jié)合國產(chǎn)平臺硬件及分層設(shè)計思想,可視化分析診斷系統(tǒng)架構(gòu)設(shè)計[3]如圖1所示。
圖1 可視化分析診斷系統(tǒng)架構(gòu)示意圖
由圖1可知,可視化分析診斷系統(tǒng)采用分層架構(gòu)設(shè)計,其中監(jiān)控層實現(xiàn)監(jiān)測數(shù)據(jù)的監(jiān)控采集;數(shù)據(jù)層實現(xiàn)監(jiān)測數(shù)據(jù)的存儲管理;應(yīng)用層實現(xiàn)對監(jiān)測數(shù)據(jù)的分析及可視化,各層間分工明確,相互獨立。
(1)硬件層基于國產(chǎn)基礎(chǔ)軟硬件構(gòu)建,主要包括計算模塊、交換模塊和存儲模塊等。其中計算模塊采用國產(chǎn)飛騰FT1500A/16處理器和銀河麒麟操作系統(tǒng),為系統(tǒng)業(yè)務(wù)應(yīng)用提供軟硬件運行環(huán)境;交換模塊采用國產(chǎn)盛科交換芯片,實現(xiàn)以太網(wǎng)數(shù)據(jù)的交換轉(zhuǎn)發(fā);存儲模塊采用國產(chǎn)M.2電子盤組合提供TB級大容量存儲。
(2)監(jiān)控層主要實現(xiàn)對平臺系統(tǒng)、應(yīng)用、日志、事件/告警等進(jìn)行監(jiān)控。包括對各模塊資源使用率、系統(tǒng)負(fù)載、進(jìn)程運行情況等進(jìn)行監(jiān)控以及對應(yīng)用進(jìn)程的資源占用情況進(jìn)行跟蹤監(jiān)控;日志管理實現(xiàn)系統(tǒng)日志、服務(wù)日志、應(yīng)用日志等內(nèi)容的搜集。事件/告警管理則是在以上監(jiān)控行為發(fā)生時按規(guī)則觸發(fā)事件/告警等事項。
(3)數(shù)據(jù)層主要是存儲并管理通過監(jiān)控層采集匯總的狀態(tài)數(shù)據(jù)、事件數(shù)據(jù)、日志數(shù)據(jù)、告警/故障數(shù)據(jù)等。
(4)應(yīng)用層實現(xiàn)對數(shù)據(jù)的分析利用及可視化應(yīng)用,主要實現(xiàn)日志分析、智能診斷和可視化監(jiān)測功能。
近年來,隨著大數(shù)據(jù)、機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的興起,科研技術(shù)人員逐步將此類技術(shù)應(yīng)用于日志分析中,如李飛飛等人[4]的系統(tǒng)事件日志解析,Wang Mengying[5]、Amey Agrawal[6]、Liu Xiaojian[7]、Rakesh Bahadur Yadav[8]等基于日志進(jìn)行的分析及異常檢測研究等,基于日志進(jìn)行系統(tǒng)問題分析的工作取得了較大進(jìn)展。
日志分析主要包括日志解析、特征提取和異常檢測三個主要步驟。
(1)日志解析:日志是非結(jié)構(gòu)化的自由形式的文本,通過日志解析,每個日志消息都可以被解析成帶有一些特定參數(shù)(可變部分)的事件模板(恒定部分)。
(2)特征提取:在日志解析成單獨的事件后,進(jìn)一步將其編碼為數(shù)字特征向量,以便應(yīng)用機器學(xué)習(xí)模型。首先使用窗口技術(shù)將原始日志分割成一組日志序列,然后,對于每個日志序列,生成一個事件計數(shù)向量,表示每個事件的發(fā)生次數(shù)。
(3)異常檢測:可將特征提取階段生成的一個個事件計數(shù)向量饋送給機器學(xué)習(xí)模型進(jìn)行訓(xùn)練,從而生成異常檢測模型,所構(gòu)建的模型可用于識別新進(jìn)入日志序列是否異常。
日志是由固定部分和可變部分組成的純文本,開發(fā)人員在源代碼中預(yù)先定義了常量部分,變量部分通常是動態(tài)生成的。日志解析的目的是將常量部分與變量部分分開,并形成一個日志事件,如下示例的“StopRecordProc ullChannel is <*>,ulChannelNum is <*>”。
如圖2所示,日志分析的第一步就是將無結(jié)構(gòu)的日志文本轉(zhuǎn)化成有結(jié)構(gòu)的數(shù)據(jù)。每個日志信息通過時間戳、日志級別和日志內(nèi)容等記錄一個具體的系統(tǒng)行為。日志內(nèi)容是由不變的字符串和可變的值構(gòu)成的。不變的部分是需提取的日志模板,可變的部分代表著動態(tài)的運行信息。通過日志數(shù)據(jù)結(jié)構(gòu)化可把每一個日志信息轉(zhuǎn)化成具體的模板和參數(shù),<*>就代表著每一個參數(shù)的位置,如圖2中EVENT TEMPLATE所示。
圖2 日志數(shù)據(jù)結(jié)構(gòu)化示意圖
該步驟的主要目的是從日志事件中提取有價值的特征,這些特征可以被輸入異常檢測模型。特征提取的輸入是日志數(shù)據(jù)以及日志解析中生成的日志事件,輸出是事件計數(shù)向量。
為了提取特征,首先將日志數(shù)據(jù)分成不同的組,其中每個組代表一個日志序列。可采用窗口技術(shù)將日志數(shù)據(jù)集劃分成有限塊,同一窗口中發(fā)生的日志被視為日志序列[8]。
目前常用的窗口技術(shù)有固定窗口、滑動窗口和會話窗口,考慮到通用性及異常檢測的準(zhǔn)確性,選擇基于滑動窗口的方式對日志數(shù)據(jù)集進(jìn)行劃分,生成多組日志序列。
在利用窗口技術(shù)構(gòu)建日志序列之后,對每個日志序列,可計算每個日志事件發(fā)生次數(shù),形成事件計數(shù)向量。例如事件計數(shù)向量[0,1,3,0,0,1,0],這意味著在這個日志序列中,事件2發(fā)生了1次,事件3發(fā)生了3次,事件6發(fā)生了1次。
由上可知,日志序列通過特征提取生成事件計數(shù)向量,其可作為聚類模型的輸入。聚類模型選擇K-Means算法來設(shè)計實現(xiàn),其基本思想是先從樣本集中隨機選取K個樣本作為簇中心,并計算所有樣本與這K個簇中心的距離,對于每一個樣本,將其劃分到與其距離最近的簇中心所在的類別中,對于新的簇計算各個簇的新的簇中心。
在系統(tǒng)運行期間,日志數(shù)據(jù)不斷產(chǎn)生,通過日志解析和特征提取生成的事件計數(shù)向量被一個接一個地添加到異常檢測聚類模型中。對于新日志序列的狀態(tài),可根據(jù)其所生成的事件計數(shù)向量,計算它和現(xiàn)有代表向量之間的距離。如果最小距離大于閾值,則日志序列被報告為異常。
近年來隨著信息系統(tǒng)的日益復(fù)雜,故障定位及診斷難度進(jìn)一步加大。在此情況下,國內(nèi)外技術(shù)人員在故障快速定位和有效診斷方面投入了較多的研究。如PHM技術(shù)研究[9-10]、時序診斷技術(shù)研究[11]、故障預(yù)測技術(shù)研究[12]、貝葉斯網(wǎng)絡(luò)系統(tǒng)[13]和專家系統(tǒng)研究[14-15]等。
文中智能診斷采用基于規(guī)則的故障診斷專家系統(tǒng)模式,主要由知識庫管理模塊、推理診斷模塊、數(shù)據(jù)庫和人機交互模塊等組成,如圖3所示。
圖3 智能診斷系統(tǒng)各模塊交互圖
其中:
(1)數(shù)據(jù)庫主要用于記錄存儲和管理系統(tǒng)實時監(jiān)控數(shù)據(jù)、用戶配置閾值信息、系統(tǒng)告警/故障信息、設(shè)備診斷專業(yè)知識信息以及推理過程中的中間信息與診斷結(jié)果等數(shù)據(jù)。
(2)知識庫管理模塊主要用于通過外部獲取設(shè)備診斷專業(yè)知識,處理后形成規(guī)則,根據(jù)不同設(shè)備類型、不同知識類型存入數(shù)據(jù)庫表中,同時具備知識檢索、修改、增加、刪除等管理功能。
(3)推理診斷模塊作為診斷過程中的核心部分,根據(jù)設(shè)備觸發(fā)各告警/故障信息,通過關(guān)鍵詞表提取后,選擇相關(guān)聯(lián)的數(shù)據(jù)庫表提取規(guī)則進(jìn)行匹配推理,并得出診斷結(jié)果。
(4)人機交互模塊主要用于執(zhí)行用戶下發(fā)的診斷指令、返回診斷結(jié)果并進(jìn)行可視化展示,還可通過人機交互模塊進(jìn)行知識錄入、修改、刪除、查詢等。
系統(tǒng)首先通過可視化的人機交互模塊展示出各模塊當(dāng)前運行狀態(tài)趨勢,并實時獲取告警系統(tǒng)觸發(fā)的告警/故障信息列表。用戶選擇指定告警/故障信息進(jìn)行診斷分析時,人機交互模塊將告警/故障事件發(fā)送給推理診斷模塊進(jìn)行推理診斷。
推理診斷模塊接收到診斷請求后,根據(jù)關(guān)鍵詞表對告警/故障信息進(jìn)行關(guān)鍵詞提取,然后采用樹狀結(jié)構(gòu)將知識庫中的規(guī)則構(gòu)建成規(guī)則集,并與告警/故障信息關(guān)鍵詞進(jìn)行匹配,得出初步診斷結(jié)論,再將得出的結(jié)論緩存到內(nèi)存中,再次進(jìn)行規(guī)則的搜索與匹配,直到緩存的數(shù)據(jù)不再發(fā)生變化為止,得到最終的推理結(jié)論,并進(jìn)行驗證,得出診斷結(jié)果。
最后推理診斷模塊將推理診斷結(jié)果推送給人機交互模塊進(jìn)行展示,以便用戶或系統(tǒng)管理人員進(jìn)行維護處理。
系統(tǒng)中存儲的數(shù)據(jù)類型分為綜合數(shù)據(jù)庫和知識庫兩類。其中綜合數(shù)據(jù)庫主要存儲用于監(jiān)控數(shù)據(jù)、閾值信息、告警/故障信息等,數(shù)據(jù)按照不同類型進(jìn)行分表,主要存儲信息如表1所示。
表1 綜合數(shù)據(jù)庫信息列表
知識庫主要存儲用于推理診斷的規(guī)則信息,其組織結(jié)構(gòu)對推理效率有很大的影響,該系統(tǒng)采用高效分層模式對知識庫進(jìn)行管理分類。根據(jù)設(shè)備類型分為通用服務(wù)器知識庫、通信設(shè)備知識庫、專用設(shè)備知識庫等若干個子庫,再根據(jù)監(jiān)控屬性對子知識庫進(jìn)行分表,從而形成具有樹狀層次結(jié)構(gòu)的知識庫。
知識作為故障診斷的理論依據(jù),是智能診斷系統(tǒng)的核心要素之一。知識庫中的規(guī)則集決定了診斷系統(tǒng)推理的正確性與全面性。知識庫的管理主要包括知識獲取、知識表達(dá)與規(guī)則管理三個方面。
(1)知識獲取:操作人員采用與領(lǐng)域技術(shù)專家溝通交流或從文獻(xiàn)資料中提取的方式獲取相關(guān)知識,形成規(guī)則后編入知識庫,并根據(jù)系統(tǒng)實際部署和運行狀況進(jìn)行擴充或修正;同時,還可以根據(jù)歷史診斷結(jié)論的驗證結(jié)果對知識庫進(jìn)行修正。
(2)知識表達(dá):采用基于確定性規(guī)則知識的產(chǎn)生式表示法將知識形成規(guī)則,即當(dāng)某一條規(guī)則的條件被滿足時,觸發(fā)規(guī)則,然后執(zhí)行下一步的推理直到給出最終結(jié)論[15]。例如,系統(tǒng)負(fù)載過高會導(dǎo)致板卡溫度異常升高的知識,通過規(guī)則表達(dá)如下:
IF板卡溫度過高;
AND風(fēng)扇轉(zhuǎn)速正常;
AND板卡散熱正常;
AND系統(tǒng)CPU占用;
THEN觸發(fā)板卡溫度異常的原因為系統(tǒng)負(fù)載過高。
通過上述規(guī)則得出導(dǎo)致板卡溫度異常的原因為系統(tǒng)負(fù)載過高后,再根據(jù)由系統(tǒng)負(fù)載相關(guān)知識形成的規(guī)則進(jìn)一步推理,最終得出導(dǎo)致板卡溫度異常的原因。
(3)規(guī)則管理:采用基于故障樹的結(jié)構(gòu)對規(guī)則進(jìn)行組織管理[15],如圖4所示。
圖4 規(guī)則推理樹結(jié)構(gòu)示例圖
當(dāng)推理診斷模塊進(jìn)行故障診斷時,首先從知識庫中查找匹配故障現(xiàn)象的數(shù)據(jù)庫表,然后將表中的規(guī)則集加載到內(nèi)存中,組織形成故障樹,并以根節(jié)點為故障樹的當(dāng)前節(jié)點,根據(jù)故障現(xiàn)象逐步判斷故障是否滿足各子節(jié)點規(guī)則,并根據(jù)各規(guī)則的關(guān)聯(lián)關(guān)系,逐層遞進(jìn),最終得出診斷結(jié)論。
推理診斷模塊是智能診斷系統(tǒng)中實施問題求解的核心執(zhí)行模塊。其主要任務(wù)是通過輸入流從人機交互模塊中獲取告警信息,根據(jù)預(yù)先保存在配置文件中的關(guān)鍵詞表提取關(guān)鍵字后,選擇相關(guān)聯(lián)的知識庫,并將規(guī)則加載到內(nèi)存,按照程序既定的步驟進(jìn)行推理診斷,步驟如圖5所示。
圖5 推理診斷模塊診斷流程
可視化監(jiān)測基于數(shù)據(jù)可視化技術(shù),借助圖形化的手段,可以將各種監(jiān)控數(shù)據(jù)清晰高效地傳達(dá)給用戶或系統(tǒng)管理人員,以便于用戶對設(shè)備狀態(tài)進(jìn)行管理維護。
數(shù)據(jù)可視化技術(shù)采用圖元對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行表示,數(shù)據(jù)項中的每個屬性以多維數(shù)據(jù)的形式存儲在圖元中,然后整合成圖像,如柱形圖、條形圖、餅圖、環(huán)形圖、線圖、散點圖、面積圖、雷達(dá)圖、K線圖、地圖等圖表[16],通過可視化界面進(jìn)行展示,可實現(xiàn)監(jiān)測數(shù)據(jù)多維度分析,提高數(shù)據(jù)分析效率及直觀性。
在可視化監(jiān)測界面設(shè)計時主要遵循以下設(shè)計原則[17]:
(1)注重用戶體驗。
無論是風(fēng)格、元素、配色、文字、交互上還是細(xì)節(jié)上,可視化界面在設(shè)計時需注重用戶的視覺體驗,讓用戶一目了然。
(2)親密性分組。
在可視化設(shè)計時,要表達(dá)的內(nèi)容不能是無序呈現(xiàn),這樣會給用戶造成理解上的混亂。
可視化界面應(yīng)遵循多數(shù)用戶所能理解的思維邏輯,將內(nèi)容分成幾部分按順序一步一步地表達(dá)出來。相同部分的內(nèi)容,彼此相關(guān),應(yīng)當(dāng)靠近,放在一起。不同部分的內(nèi)容,應(yīng)當(dāng)明顯地隔開。
(3)對齊。
在版式布局上,任何元素的擺放都可能會影響甚至主導(dǎo)用戶的視覺流程。因此,任何元素都不能隨意擺放,否則會造成混亂,而混亂會令人不適。
對齊使每個元素都與其他元素建立起某種視覺聯(lián)系,也可使可視化界面更加清晰、精巧、清爽。
(4)重復(fù)/統(tǒng)一。
在可視化界面中反復(fù)使用一些視覺要素,建立上下文之間的聯(lián)系,增加條理性,保持視覺上的統(tǒng)一。任何視覺元素都可以在同一系統(tǒng)中重復(fù)使用,例如顏色、形狀、材質(zhì)、空間關(guān)系、線寬、字體、大小和圖片等等。
(5)對比/強調(diào)。
在做可視化設(shè)計時,初衷是以圖文的形式把所要表達(dá)的信息清晰地傳遞給用戶,讓用戶一目了然,盡量不需要太多思考和理解。為了達(dá)到這個目的,需強調(diào)重點,弱化次要,避免系統(tǒng)中所有的元素看起來重要程度都一樣。
(6)表達(dá)力求準(zhǔn)確且簡潔易懂。
當(dāng)用戶看到可視化界面時,需保證所表達(dá)的信息能被用戶正確理解。除使用上面幾個原則外,還要附加一些輔助信息,例如文字、箭頭等。文字的表達(dá),要準(zhǔn)確、到位、簡潔、易懂,要能引導(dǎo)用戶正確地理解圖表的意思,不引起任何歧義。
基于以上設(shè)計原則,在整個可視化分析診斷系統(tǒng)設(shè)計時,可視化監(jiān)測界面采用扁平化設(shè)計風(fēng)格,界面背景選用深色調(diào),數(shù)據(jù)部分則采用亮色系,使內(nèi)容與背景有足夠的對比,從而起到弱化背景,聚焦內(nèi)容的作用。整個界面以極簡的線面為主,大量使用色彩飽和度較高的可視化數(shù)據(jù)圖表,實現(xiàn)系統(tǒng)拓?fù)湔故尽⑾到y(tǒng)狀態(tài)及告警展示和日志分析可視化展示等功能。
其中系統(tǒng)拓?fù)湔故窘缑嬉詫嶋H的硬件架構(gòu)為原型,結(jié)合對應(yīng)的CAD圖紙,通過三維立體模型展示各模塊位置及拓?fù)溥B接關(guān)系,場景真實直觀,便于用戶對整個系統(tǒng)進(jìn)行監(jiān)控和管理。同時實現(xiàn)對各個模塊的基本信息分別展示。當(dāng)用戶關(guān)注點聚焦于單個模塊時,界面會將整個系統(tǒng)進(jìn)行重構(gòu),將其他模塊虛化展示,突顯當(dāng)前模塊的狀態(tài)結(jié)構(gòu),實現(xiàn)可視化動態(tài)展示該模塊負(fù)載、網(wǎng)絡(luò)流量及環(huán)境傳感等信息。
系統(tǒng)狀態(tài)及告警展示采用可視化數(shù)據(jù)大屏形式,通過不同的圖元模型對系統(tǒng)監(jiān)管要素進(jìn)行多維實時展示,先進(jìn)行核心數(shù)據(jù)(如系統(tǒng)負(fù)載、故障、告警、統(tǒng)計等信息)展示,再逐級瀏覽二三級內(nèi)容,并隱藏部分細(xì)節(jié)數(shù)據(jù),確保用戶聚焦關(guān)鍵數(shù)據(jù)。當(dāng)系統(tǒng)監(jiān)測到設(shè)備發(fā)生告警或模塊的某一指標(biāo)偏離正常值時,系統(tǒng)會自動將展示界面切換到該模塊的最佳查看視角,并自動彈出該模塊當(dāng)前運行參數(shù)的概要信息,以便于用戶或管理人員進(jìn)行故障排查。
日志分析可視化則通過圖表形式對日志查詢及日志聚類分析的結(jié)果進(jìn)行綜合展現(xiàn)。針對海量的日志查詢結(jié)果,界面通過高亮顯示標(biāo)記出關(guān)鍵詞組,可以方便用戶快速識別關(guān)鍵信息并定位分析。針對日志聚類分析結(jié)果,界面支持通過多種圖表形式對分析結(jié)果進(jìn)行不同維度的統(tǒng)計展示。
針對國產(chǎn)平臺系統(tǒng)規(guī)模及復(fù)雜度高、故障排查診斷困難、系統(tǒng)可靠運行要求高的情況,提出一種集日志分析、智能診斷和可視化監(jiān)測等多種技術(shù)相融合的可視化分析診斷系統(tǒng)。該系統(tǒng)基于日志分析可從大量零散、非結(jié)構(gòu)化日志文本中自動識別關(guān)鍵信息并進(jìn)行異常檢測;通過知識管理、數(shù)據(jù)庫構(gòu)建以及推理診斷,可實現(xiàn)在錯綜復(fù)雜環(huán)境中故障的快速診斷及排查,通過基于數(shù)據(jù)可視化技術(shù)的多維度監(jiān)測,以用戶易懂的方式可視化展現(xiàn)眾多監(jiān)測數(shù)據(jù),可提高用戶對系統(tǒng)整體運行狀態(tài)的理解和把控。
該系統(tǒng)在傳統(tǒng)監(jiān)控的基礎(chǔ)上,融入日志聚類異常檢測技術(shù)、專家推理診斷技術(shù)和數(shù)據(jù)可視化技術(shù),可有效提高國產(chǎn)平臺的故障排查速度和可靠運行水平。