張明 尹廣彬 周輝
針對復雜網(wǎng)絡和多樣化業(yè)務對故障管理提出的高要求,首先總結了運維發(fā)展歷程,從人工運維、半自動化運維、自動化運維和智能化運維(Artificial Intelligence for IT Operations)幾個階段,闡述了智能運維的核心和關鍵點,對比了國內(nèi)外標準化組織的運維發(fā)展特色和貢獻;在此基礎上梳理分析了網(wǎng)絡故障方面的標準化組織對故障管理研究的特色和貢獻,最后,進行了故障數(shù)據(jù)采集提取方式分類,故障定義分類研究。
隨著網(wǎng)絡規(guī)模擴大、復雜性增高、業(yè)務多樣化,對網(wǎng)絡運維管理的要求越來越高,而故障管理是運維管理中非常重要的功能之一,如何在故障發(fā)生時,快速準確定位迅速解決故障恢復正常一直是運維管理追求的目標,同時大數(shù)據(jù)人工智能技術的發(fā)展,對運維管理的智能性也提出了更高的要求,尤其對告警管理提出了前瞻性預測的需求,因此研究故障診斷技術是一項非常有意義的工作。
智能運維發(fā)展歷程
人工運維、半自動化運維、自動化運維和智能化運維是傳統(tǒng)網(wǎng)絡運維經(jīng)歷的發(fā)展過程和階段,其中,智能化運維最早由Gartner定義為采用AI和機器學習等人工智能算法,通過人工智能算法解決已知的和潛在的運維問題。
智能運維與傳統(tǒng)運維最大的區(qū)別在于,構建以機器學習算法為基礎的智能化運維管控平臺,將數(shù)據(jù)、算法和模型應用于網(wǎng)絡運維任務和流程中,進行自主分析和決策,實現(xiàn)從“基于專家經(jīng)驗”到“基于機器學習”的轉變,在動態(tài)變化的復雜場景條件下,基于智能化運維平臺自適應觸發(fā)高效準確的決策判斷。尤其體現(xiàn)在海量告警數(shù)據(jù)聚合、動態(tài)異常流量監(jiān)測、故障預警、故障預測等基于海量運維數(shù)據(jù)做出分析判斷等應用場景下的自主決策和分析。
故障管理國內(nèi)外研究現(xiàn)狀
為了降低運維成本,提高網(wǎng)絡的可靠度和健壯性,國內(nèi)外標準化組織和科研機構均針對網(wǎng)絡智能化運維開展了系列標準化和研究工作,具體分析如下:
國內(nèi)外在網(wǎng)絡故障運維方面的標準化組織包括中國通信標準化協(xié)會(CCSA)、ITU-T和3GPP等。其中CCSA的網(wǎng)絡管理與運營支撐技術工作委員會(TC7)的研究領域包括:運維管理、電信運營OSS/BSS相關領域的研究及標準制定。負責ITU-T SG4研究領域的研究工作。CCSA TC7面向無線接入網(wǎng)(2G,3G,4G)、SDN/NFV網(wǎng)絡、SDH/OTN/PTN等不同的網(wǎng)絡均提出了對應的網(wǎng)絡運維和管理技術要求,形成了一系列標準報批稿。面向網(wǎng)絡的智能運維,CCSA于2018年立項了通信網(wǎng)智能維護技術要求“基本原則”和“通信網(wǎng)敏捷運營管理框架”等三項行標,并在此前開展的第1、2部分研究基礎上,討論通過了“通信網(wǎng)智能維護技術要求第3部分:智能運維支撐系統(tǒng)”和“通信網(wǎng)智能維護技術要求第4部分:智能運維信息模型”兩項行標立項建議,并在2020年1月獲批。
著名組織針對故障管理研究
傳統(tǒng)的通信網(wǎng)絡運維管理主要依靠人工參與,管控流程過度依賴人工判斷,缺乏自動化操作,智能化程度低,管理規(guī)則大部分基于主觀形成,缺乏科學性和客觀性,嚴重影響運維自動化智能化和管控效率。隨著融合物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)技術的智能可穿戴技術的實用化,以及人機交互能力的友好性不斷提升,基于智能可穿戴技術的運維已經(jīng)應用于大型裝備領域,并在通信網(wǎng)絡智能管理方面進行了典型應用。在上述應用的基礎上,與ITU-T同步進行的“通信網(wǎng)智能維護技術要求”相關研究,提出了涵蓋功能、性能、接口、信息模型、網(wǎng)絡功能編排等具體技術標準,從而為業(yè)界應用提供相關指導和規(guī)范作用。
國際電信聯(lián)盟電信標準分局(ITU-T),它是國際電信聯(lián)盟管理下的分支機構,負責制定電信標準。其中工作組SG2和SG12和網(wǎng)絡運維相關。SG2,負責業(yè)務提供和電信管理的運營問題,SG12負責性能、QoS和QoE的相關標準化。在這些標準化工作組的帶領下,ITU-T的M系列標準描述了通信管理、網(wǎng)絡運維相關的標準需求,包括電信管理網(wǎng)TMN,增強運營圖(eTOM)等。為引入網(wǎng)絡智能,2019年12月ITU-T會議上針對5G網(wǎng)絡人工智能的應用提出了對應的標準化建議。ITU-T的E系列標準則引入了整體的網(wǎng)絡運營的概念,并在近期提出了智能網(wǎng)絡分析和診斷的指南標準草稿ITU-TE.475
3GPP成立于1998年12月,多個電信標準組織伙伴共同簽署了《第三代伙伴計劃協(xié)議》。3GPP最初的工作范圍是為第三代移動通信系統(tǒng)制定全球適用的技術規(guī)范和技術報告。第三代移動通信系統(tǒng)基于的是發(fā)展的GSM核心網(wǎng)絡和它們所支持的無線接入技術,主要是UMTS。隨后3GPP的工作范圍得到了改進,增加了對UTRA長期演進系統(tǒng)的研究和標準制定。目前有歐洲的ETSI、美國的ATIS、日本的TTC、ARIB、韓國的TTA、印度的TSDSI以及我國的CCSA作為3GPP的7個組織伙伴(OP)。目前獨立成員超過550多個,此外,3GPP還有TD-SCDMA產(chǎn)業(yè)聯(lián)盟(TDIA)、TD-SCDMA論壇、CDMA發(fā)展組織(CDG)等13個市場伙伴(MRP)。
SA WG5主要規(guī)范網(wǎng)絡(RAN,CN,IMS)及其服務的配置和管理,體系結構和解決方案。工作組將根據(jù)相關工作組制定的相關收費要求及解決方案,指定網(wǎng)絡及其服務計費的體系結構和協(xié)議。
工作組將確保其工作也適用于融合網(wǎng)絡的管理和計費,并可能適用于固定網(wǎng)絡。該工作組將與其他3GPP工作組和所有相關的SDO進行協(xié)調(diào),以實現(xiàn)與網(wǎng)絡及其服務提供,收費和管理有關的規(guī)范工作。
3GPP的規(guī)范中,編號為32系列的是網(wǎng)絡管理與運營相關的技術規(guī)范。為了降低人工運維的成本,提出了自組織網(wǎng)絡的系列規(guī)劃,支持3G,4G以及未來5G網(wǎng)絡自配置、自優(yōu)化、自修復等功能,是網(wǎng)絡智能化運維的基礎系列標準。
基于以上分析可知,智能化的配置、性能、故障等管理已經(jīng)得到了國內(nèi)外各大標準化組織的關注,并已列入相關的標準化進程。然而目前的標準僅僅是指導性文件,對網(wǎng)絡智能方法的具體部署和實現(xiàn)方法,以及在專用網(wǎng)絡中的適應性,還需要進一步的分析。
故障數(shù)據(jù)來源及分類
通過梳理國內(nèi)外重要標準化組織在運維管理和故障管理中的重大貢獻,總結出故障數(shù)據(jù)的提取和分類是故障管理中最重要和基礎的研究內(nèi)容。
告警數(shù)據(jù)的采集可以通過多種方式和渠道??梢酝ㄟ^SNMP協(xié)議中的TRAP主動上報獲取,也可以通過定時輪詢重要參數(shù),并設定閾值對比進行越限告警;還可以通過操作日志獲取,通過SYSLOG接口作為網(wǎng)管系統(tǒng)接收設備系統(tǒng)日志的接口,用于網(wǎng)元日志管理功能。大規(guī)模準確的告警數(shù)據(jù)的獲取是進行精準告警的重要前提和基礎,設備使用日志、設備錯誤日志以及用戶活動日志均是告警數(shù)據(jù)的來源,大量訓練數(shù)據(jù)的采集存儲是進行可靠神經(jīng)網(wǎng)絡建模的前提和基礎,建模數(shù)據(jù)要求準確、完整和海量。
通過告警管理可以監(jiān)控、管理系統(tǒng)自身或管理對象上報的告警、異?;蚴录?,提供了豐富的監(jiān)控和處理規(guī)則,以滿足各種監(jiān)控和處理場景需要,幫助高效監(jiān)控、快速定位和處理網(wǎng)絡故障。
告警上報、告警訂閱、活躍告警同步、告警確認、告警清除、告警查詢、告警過濾、告警統(tǒng)計、活躍告警、歷史告警、告警同步、靜態(tài)告警信息查詢、告警經(jīng)驗庫、性能越限事件告警。告警處理能力和網(wǎng)絡中的告警數(shù)量、服務器的處理性能、內(nèi)存大小等有關系,在發(fā)生告警風暴時,告警處理能力很容易達到極限。
常見的告警類型或方式為:
①通信告警:被管網(wǎng)元內(nèi)部、網(wǎng)元之間、網(wǎng)元與管理系統(tǒng)之間、管理系統(tǒng)之間的通信失敗,如設備通信中斷告警;
②業(yè)務質(zhì)量告警:業(yè)務質(zhì)量退化問題而引起的告警,如設備擁塞告警;
③處理錯誤告警:軟件或處理過程錯誤而引起的告警;版本不匹配告警;
④設備告警:物理資源故障而引起的告警,如單板故障告警;
⑤環(huán)境告警:設備所在地相關的問題而引起的告警,如設備機房有煙霧而產(chǎn)生的煙霧告警;
⑥完整性告警:請求的操作不能正常提供,如篡改用戶信息;
⑦操作告警:所需服務因不可用、故障或錯誤調(diào)用等問題無法正常運行,如服務拒絕、服務退出、程序性錯誤等;
⑧物理資源告警:物理資源受到破壞;
⑨安全告警:安全服務或機制檢測到有關安全方面的問題發(fā)生;
⑩時間域告警:某事在不應該發(fā)生的時間內(nèi)發(fā)生;
⑾屬性值改變:管理對象的屬性值發(fā)生改變。
上述所列告警類型是故障管理的精細化分類,均可作為網(wǎng)絡故障劃分的依據(jù)和參考。
故障管理是網(wǎng)絡運維管理五大功能之一,是網(wǎng)絡健康度評估的重要因素,是網(wǎng)絡運行狀態(tài)的晴雨表,最初網(wǎng)絡故障都是人工手動發(fā)現(xiàn)、手動排除的,通常都會影響在網(wǎng)運行業(yè)務的正常運行,是以業(yè)務中斷為代價的;隨著大數(shù)據(jù)人工智能新技術的產(chǎn)生和迅猛發(fā)展,故障管理逐漸向主動上報、自動診斷、故障預測等智能性和前瞻性方向演進。