• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于時序數(shù)據(jù)的云網(wǎng)協(xié)同平臺人工智能運維體系

      2022-12-08 07:45:28程瑞營張攀肖雨喬宇杰張安奕
      電信科學(xué) 2022年11期
      關(guān)鍵詞:云網(wǎng)日志運維

      程瑞營,張攀,肖雨,喬宇杰,張安奕

      基于時序數(shù)據(jù)的云網(wǎng)協(xié)同平臺人工智能運維體系

      程瑞營1,張攀1,肖雨1,喬宇杰1,張安奕2

      (1.國家電網(wǎng)有限公司信息通信分公司,北京 100761;2.北京郵電大學(xué),北京 100876)

      云計算在企業(yè)應(yīng)用中的拓展不但表現(xiàn)為平臺規(guī)模的拓展,也表現(xiàn)為平臺應(yīng)用的延伸?!霸凭W(wǎng)協(xié)同”和“微服務(wù)化”是當(dāng)前企業(yè)云平臺演進(jìn)的重要趨勢。隨著企業(yè)信息化建設(shè)重要性的持續(xù)提升,微服務(wù)化云網(wǎng)協(xié)同平臺的運行維護(hù)面臨極大挑戰(zhàn)。首先分析了平臺運維面臨的挑戰(zhàn),梳理了平臺人工智能運維需求,提出了基于時序數(shù)據(jù)分析的平臺人工智能運維技術(shù)體系,并給出了云網(wǎng)協(xié)同平臺人工智能運維子系統(tǒng)參考設(shè)計。所提技術(shù)體系和系統(tǒng)設(shè)計具有實用性和推廣性,可以作為企業(yè)云平臺建設(shè)和優(yōu)化的技術(shù)途徑參考。

      云平臺;云網(wǎng)協(xié)同;微服務(wù);時序數(shù)據(jù);人工智能運維

      0 引言

      隨著云計算技術(shù)的發(fā)展和應(yīng)用,云計算在企業(yè)中的應(yīng)用中不但表現(xiàn)為平臺規(guī)模的拓展,也表現(xiàn)為平臺應(yīng)用的延伸。其中,“云平臺規(guī)模的拓展”不但指云平臺所涉及的服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備數(shù)量的增加,而且涉及平臺部署環(huán)境日益復(fù)雜,從最初的幾個機(jī)架,到機(jī)房,再到專業(yè)的數(shù)據(jù)中心,甚至可能涉及跨數(shù)據(jù)中心的部署[1]?!霸破脚_應(yīng)用的延伸”向下指的是云平臺需要與網(wǎng)絡(luò)以及網(wǎng)絡(luò)邊緣的邊緣設(shè)備和終端協(xié)同提供應(yīng)用,演進(jìn)為“云網(wǎng)協(xié)同”平臺;向上指的是云平臺承載的應(yīng)用的進(jìn)一步解構(gòu)?!拔⒎?wù)”(micro-service)是實現(xiàn)云平臺應(yīng)用解構(gòu)的重點技術(shù)。通過將傳統(tǒng)的單體應(yīng)用分解為一系列的微服務(wù)組件,可以實現(xiàn)各個組件的獨立升級和改造,降低應(yīng)用升級成本;可以通過對現(xiàn)有組件的不同組合提供更多應(yīng)用,降低應(yīng)用開發(fā)成本[2-3]。

      而隨著企業(yè)數(shù)字化進(jìn)程的持續(xù)推進(jìn),信息化應(yīng)用對企業(yè)的重要性日益提升。云平臺作為企業(yè)信息化的底座,保障云平臺的穩(wěn)定高效運行格外重要,這就對云平臺的運行維護(hù)提出了更高的要求。人工智能運維技術(shù)將基于大數(shù)據(jù)和人工智能技術(shù)的數(shù)據(jù)分析能力與系統(tǒng)運行維護(hù)需求相結(jié)合,通過分析系統(tǒng)運行時產(chǎn)生的各類時序數(shù)據(jù),如各類運行指標(biāo)和日志可以幫助甚至代替運維人員完成各類運維操作,從而可以極大地降低運維的復(fù)雜度和工作量。本文首先分析了現(xiàn)階段云平臺運行維護(hù)面臨的各項挑戰(zhàn)和人工智能運維需求,并提出了云網(wǎng)協(xié)同平臺人工智能運維體系,對體系中涉及的各項技術(shù)和相關(guān)研究進(jìn)展進(jìn)行了分析,并進(jìn)一步給出了云網(wǎng)協(xié)同平臺人工智能運維子系統(tǒng)的參考設(shè)計。

      1 云網(wǎng)協(xié)同平臺運行維護(hù)面臨的挑戰(zhàn)

      “云網(wǎng)協(xié)同”和“微服務(wù)化”是當(dāng)前企業(yè)信息基礎(chǔ)設(shè)施演進(jìn)的重要趨勢。隨著企業(yè)信息化建設(shè)重要性的持續(xù)提升,微服務(wù)化云網(wǎng)協(xié)同平臺的運行維護(hù)需要面對如下挑戰(zhàn)。

      (1)運行感知的全域化

      具體表現(xiàn)為運行狀態(tài)感知對象的多源異質(zhì)特征?!岸嘣础敝傅氖菫榱藢崿F(xiàn)高效的平臺運維,不僅要感知平臺應(yīng)用、中間件、微服務(wù)組件,乃至平臺基礎(chǔ)設(shè)施(服務(wù)器、存儲設(shè)備等)的狀態(tài),還要關(guān)注網(wǎng)絡(luò)側(cè)的網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)連接的狀態(tài)。“異質(zhì)”不僅指平臺中各組件的狀態(tài)數(shù)據(jù)(既包括key-value類型的指標(biāo)數(shù)據(jù),也包括更接近自然語言的運行日志),而且不同來源的運行狀態(tài)數(shù)據(jù)質(zhì)量,在時間粒度、取值精確度、準(zhǔn)確度等方面也有差異。

      (2)狀態(tài)判定的復(fù)雜化

      在傳統(tǒng)的系統(tǒng)運維體系中,基于閾值的異常檢測是發(fā)現(xiàn)系統(tǒng)異常的最常用手段[4]。然而隨著系統(tǒng)架構(gòu)由云平臺演進(jìn)為云網(wǎng)協(xié)同平臺,由單體化應(yīng)用架構(gòu)演進(jìn)為微服務(wù)化應(yīng)用架構(gòu),這使得系統(tǒng)運行狀態(tài)判定變得非常復(fù)雜,很多異常難以采用閾值的方式進(jìn)行檢測。具體表現(xiàn)為:在不同場景下閾值的取值有較大差異或任何一個單獨的參數(shù)都沒有超過閾值,但在出現(xiàn)特定參數(shù)取值的組合時,系統(tǒng)狀態(tài)異常。

      (3)運維應(yīng)用的豐富化

      傳統(tǒng)的系統(tǒng)運維重點關(guān)注的是將系統(tǒng)運行的各項指標(biāo)以直觀的方式呈現(xiàn)給運維人員,后繼對于系統(tǒng)運行狀態(tài)的評估、故障處置等主要由運維人員自主完成。人工智能運維能力的引入使得系統(tǒng)運維應(yīng)用更全面地覆蓋系統(tǒng)狀態(tài)管理的前中后期,包括前期的異常預(yù)測、中期的異常檢測和根因分析,以及后期的異常預(yù)防等。其中,前期的異常預(yù)測,主要指通過對系統(tǒng)狀態(tài)演化過程的監(jiān)測實現(xiàn)對系統(tǒng)未來狀態(tài)的預(yù)測,發(fā)現(xiàn)潛在異常和風(fēng)險,以避免故障發(fā)生或為處理故障爭取時間;中期的異常檢測和根因分析,主要指及時準(zhǔn)確地發(fā)現(xiàn)異常以及定位導(dǎo)致異常的根因,實現(xiàn)更及時、更有效的故障處置(故障排除、故障緩解、故障隔離等);后期的異常預(yù)防,主要指通過對異常根因的分析以定位系統(tǒng)的薄弱環(huán)節(jié),并主動對薄弱環(huán)節(jié)進(jìn)行修補(bǔ)和增強(qiáng),從根本上提升系統(tǒng)的可用性。

      近年來,基于時序數(shù)據(jù)的人工智能運維技術(shù)和應(yīng)用得到了長足的發(fā)展[5-7]。在云網(wǎng)協(xié)同平臺中集成人工智能運維能力將成為解決前述挑戰(zhàn)的重要途徑。

      2 云網(wǎng)協(xié)同平臺人工智能運維需求分析

      實現(xiàn)云網(wǎng)協(xié)同平臺的人工智能運維應(yīng)重點滿足如下關(guān)鍵需求。

      (1)全方位數(shù)據(jù)采集

      云網(wǎng)協(xié)同平臺的運行狀態(tài)感知所涉及的數(shù)據(jù)層次復(fù)雜(多源),數(shù)據(jù)類型多樣(多模態(tài)),因此需要在云網(wǎng)協(xié)同平臺的人工智能運維子系統(tǒng)中提供針對多源多模態(tài)的數(shù)據(jù)采集能力。這里的數(shù)據(jù)采集能力不是簡單的數(shù)據(jù)獲取,還包括對原始數(shù)據(jù)的清洗、多源數(shù)據(jù)的時序?qū)R/歸并以及數(shù)據(jù)聚合等操作。其中“數(shù)據(jù)聚合”主要指將來自分布式組件的時序數(shù)據(jù)聚合在統(tǒng)一的數(shù)據(jù)處理平臺中,作為后繼分析的數(shù)據(jù)基礎(chǔ)。

      (2)立體化業(yè)務(wù)建模

      立體化多層級建模的基礎(chǔ)是多源多模態(tài)數(shù)據(jù)融合,并基于融合后的數(shù)據(jù)提取業(yè)務(wù)對象的水平鏈接關(guān)系(微服務(wù)與微服務(wù)間的調(diào)用關(guān)系)和垂直鏈接關(guān)系(業(yè)務(wù)對象與微服務(wù)間的調(diào)用關(guān)系、微服務(wù)與基礎(chǔ)設(shè)施的部署關(guān)系),從而構(gòu)建立體的業(yè)務(wù)拓?fù)淠P?。云網(wǎng)協(xié)同平臺業(yè)務(wù)建模涉及業(yè)務(wù)的淺層指標(biāo)和深層指標(biāo),淺層指標(biāo)指的是可以直接通過運行監(jiān)控系統(tǒng)采集到的系統(tǒng)性能指標(biāo),含義更明確,但對復(fù)雜業(yè)務(wù)狀態(tài)的呈現(xiàn)能力不足;而深層指標(biāo)指的是基于機(jī)器學(xué)習(xí)等技術(shù)得出的對業(yè)務(wù)運行狀態(tài)的評估指標(biāo),能更全面地反映業(yè)務(wù)狀態(tài),但可解釋性相對較差。

      (3)異常檢測/預(yù)測

      基于機(jī)器學(xué)習(xí)的異常檢測/預(yù)測能力是人工智能運維技術(shù)的核心優(yōu)勢,主要表現(xiàn)在基于機(jī)器學(xué)習(xí)的方法可以更好地滿足技術(shù)架構(gòu)復(fù)雜和組件關(guān)聯(lián)關(guān)系復(fù)雜的應(yīng)用場景中的運維需求。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的異常檢測模型效能與參與訓(xùn)練的異常樣本數(shù)量和質(zhì)量有很大關(guān)系,然而IT系統(tǒng)中存在系統(tǒng)狀態(tài)(穩(wěn)態(tài))持續(xù)變化導(dǎo)致難以獲取和積累大量異常樣本的問題。因此,這需要在人工智能運維系統(tǒng)中引入有較強(qiáng)適應(yīng)能力的算法和模型,可以隨著系統(tǒng)運行持續(xù)更新和演進(jìn),不斷優(yōu)化運維應(yīng)用效果。

      3 云網(wǎng)協(xié)同平臺人工智能運維技術(shù)體系

      針對上述需求,云網(wǎng)協(xié)同平臺人工智能運維技術(shù)體系主要涉及:面向日志的特征向量生成技術(shù)、微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣<夹g(shù)、業(yè)務(wù)對象建模技術(shù)、系統(tǒng)狀態(tài)管理技術(shù)4個方面,云網(wǎng)協(xié)同平臺人工智能運維技術(shù)體系如圖1所示。

      在圖1中,來自云網(wǎng)協(xié)同平臺各層級組件的時序運行狀態(tài)數(shù)據(jù),主要有兩種類型:性能指標(biāo)和運行日志。由于運行日志更接近自然語言,無法直接與指標(biāo)類數(shù)據(jù)融合分析,因此需要先采用“面向日志的特征向量生成技術(shù)”生成特征向量,進(jìn)而可以與性能指標(biāo)數(shù)據(jù)進(jìn)行融合分析;微服務(wù)化是云網(wǎng)協(xié)同平臺的一個重要技術(shù)特征,平臺業(yè)務(wù)架構(gòu)從單點變?yōu)橛梢幌盗形⒎?wù)構(gòu)建的拓?fù)浠軜?gòu),需要基于性能指標(biāo)和運行日志(生成的特征向量)完成“微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣!?;之后需要結(jié)合運行日志的特征向量、微服務(wù)業(yè)務(wù)拓?fù)浜托阅苤笜?biāo)數(shù)據(jù)完成“業(yè)務(wù)對象建?!保M(jìn)而基于業(yè)務(wù)對象模型完成“系統(tǒng)狀態(tài)自適應(yīng)管理”,具體包括系統(tǒng)狀態(tài)評估、異常檢測/預(yù)測等。本節(jié)將對云網(wǎng)協(xié)同平臺人工智能運維技術(shù)體系涉及的各部分技術(shù)內(nèi)容分別加以介紹,并分析這些技術(shù)的研究進(jìn)展,從而為相關(guān)技術(shù)選型提供指導(dǎo)。

      圖1 云網(wǎng)協(xié)同平臺人工智能運維技術(shù)體系

      3.1 面向日志的特征向量生成技術(shù)

      面向日志的特征向量生成主要涉及日志模板提取和面向語境的數(shù)據(jù)特征提取。日志模板提取主要指從包含多種變量的、非結(jié)構(gòu)化的日志數(shù)據(jù)中提取能最大限度地保留原始語義的日志模板,過濾無關(guān)參數(shù),準(zhǔn)確傳遞日志信息。目前,此領(lǐng)域已經(jīng)有了一系列研究成果。Drain[8]采用了固定深度的解析樹,以長度為依據(jù)進(jìn)行模板提??;頻繁模板樹(frequent template tree,F(xiàn)T-Tree)[9]利用擴(kuò)展的前綴樹結(jié)構(gòu),通過獲得頻繁出現(xiàn)單詞的最長組合來完成模板提取。本文建議采用擴(kuò)展的前綴樹結(jié)構(gòu)完成日志模板提取,并結(jié)合日志相似度分析進(jìn)一步提升模板提取的泛度和信度,主要優(yōu)勢在于考慮日志的語境信息,同時注重日志模板的準(zhǔn)確性。面向語境的數(shù)據(jù)特征提取主要指集合日志的語境信息,將字符串形式的日志模板進(jìn)行編碼,轉(zhuǎn)化為可用于異常檢測模型的數(shù)字特征向量,實現(xiàn)挖掘日志的深層特征信息。云網(wǎng)協(xié)同平臺人工智能運維場景中主要涉及業(yè)務(wù)拓?fù)淠P蜕珊蜆I(yè)務(wù)對象模型生成等兩個語境,需要分別生成對應(yīng)的特征向量。目前常用的特征提取方法主要有基于文本詞頻統(tǒng)計分析的TF-IDF(term frequency inverse document frequency)[10]和基于Skip-gram模型或詞袋模型(bag-of-words)的Word2Vec[11]。其中,TF-IDF的準(zhǔn)確度不夠高,并且缺乏對單詞位置信息的記錄;Word2vec 雖然通用性強(qiáng),但是無法針對特定任務(wù)做動態(tài)優(yōu)化。針對上述問題,考慮將日志文本看作特征詞條組成的多維空間,將日志文本特征提取問題轉(zhuǎn)化為日志文本空間的尋優(yōu)問題,遺傳算法作為通用性的優(yōu)化搜索算法,可以通過不斷進(jìn)化得到日志的最優(yōu)特征向量。因此,本文建議采用語境方面優(yōu)化的遺傳算法完成面向語境的數(shù)據(jù)特征提取,其主要優(yōu)勢在于關(guān)注日志的上下文語境信息,提取日志模板的深層特征。

      3.2 微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣<夹g(shù)

      微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣V饕婕按怪蓖負(fù)浣?、水平拓?fù)浣:突趦烧叩牧Ⅲw拓?fù)浣#酵負(fù)?垂直拓?fù)淙鐖D2所示。垂直拓?fù)浣V饕傅氖轻槍ξ⒎?wù)架構(gòu)下業(yè)務(wù)層、微服務(wù)層以及基礎(chǔ)設(shè)施層中各實體部署關(guān)系的拓?fù)浣?。水平拓?fù)浣V饕傅氖轻槍Ψ植际讲渴鸬奈⒎?wù)間調(diào)用關(guān)系的拓?fù)浣?。立體拓?fù)浣V饕傅氖腔诖怪蓖負(fù)浣:退酵負(fù)浣?,實現(xiàn)微服務(wù)架構(gòu)下云業(yè)務(wù)拓?fù)涞娜轿涣Ⅲw化感知。

      微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣R鉀Q的關(guān)鍵問題是如何采集微服務(wù)調(diào)用信息。Google提出了分布式調(diào)用鏈追蹤跟蹤系統(tǒng)Dapper[12],采用侵入式的微服務(wù)拓?fù)涓兄夹g(shù),被其他設(shè)計調(diào)用鏈系統(tǒng)的公司廣泛使用;Twitter基于Dapper開發(fā)了開源的分布式實時數(shù)據(jù)追蹤系統(tǒng)Zipkin[13];Istio是由Google、IBM 與 Lyft 共同開發(fā)的開源服務(wù)網(wǎng)格(service mesh)項目,其可以采用非侵入的方式獲取微服務(wù)調(diào)用信息[14]。Linkerd[15]是由Buoyant推出的開源服務(wù)網(wǎng)格項目,也支持非侵入方式的微服務(wù)調(diào)用信息采集。其中,侵入式的微服務(wù)拓?fù)涓兄夹g(shù)可以直接獲得高可信度的狀態(tài)數(shù)據(jù),但實施難度大;相比之下,采取非侵入式獲取微服務(wù)調(diào)用信息成為本文針對微服務(wù)架構(gòu)業(yè)務(wù)拓?fù)浣8扑]的方法。

      3.3 業(yè)務(wù)對象建模技術(shù)

      云網(wǎng)協(xié)同平臺業(yè)務(wù)對象建模的難點主要在于業(yè)務(wù)對象運行狀態(tài)的多源異質(zhì)特征,既包括微服務(wù)層中各個微服務(wù)的調(diào)用時延、處理時延、調(diào)用成功率等的狀態(tài)信息,也包括基礎(chǔ)設(shè)施層中各實體的多維度資源(如CPU、內(nèi)存、硬盤I/O、網(wǎng)絡(luò)I/O等)狀態(tài)信息。高質(zhì)量地實現(xiàn)多源異質(zhì)數(shù)據(jù)融合、完成業(yè)務(wù)對象建模是后繼各運維應(yīng)用的基礎(chǔ)。業(yè)務(wù)對象建模主要涉及多源數(shù)據(jù)共有/私有信息特征提取、一致性驗證以及數(shù)據(jù)融合等環(huán)節(jié)。

      圖2 水平拓?fù)?垂直拓?fù)?/p>

      多源數(shù)據(jù)共有/私有信息特征提取一方面要完成對來自多個數(shù)據(jù)源的共有信息的提取和歸并,以避免多源數(shù)據(jù)中共有特征的相互強(qiáng)化對后繼數(shù)據(jù)分析造成的不良影響,另一方面要完成對各個數(shù)據(jù)源的私有特征的提取,保證各數(shù)據(jù)源的私有特征不會在本環(huán)節(jié)丟失。文獻(xiàn)[16]將獨立子空間分析(independent subspace analysis,ISA)和多維獨立成分分析(multidimensional ICA,MICA)擴(kuò)展到多源數(shù)據(jù)場景,在保持特征子空間獨立性的同時,捕獲高階統(tǒng)計相關(guān)性,實現(xiàn)處理不同維度的數(shù)據(jù)。文獻(xiàn)[17]提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)(one-dimensional convolution neural network,1D-CNN)聯(lián)合特征提取的設(shè)備健康監(jiān)測與故障診斷方法,通過將原始信號并行輸入1D-CNN中提取代表型特征域,并結(jié)合特征域耦合模型完成故障的模式識別,在保證后繼故障檢測準(zhǔn)確度的同時,降低了處理時延。上述方法在一定程度上實現(xiàn)了多源數(shù)據(jù)共用/私有信息特征的提取,但是無法處理含有多個隨機(jī)變量的數(shù)據(jù),且在發(fā)現(xiàn)多源多模態(tài)數(shù)據(jù)的互補(bǔ)性、兼顧數(shù)據(jù)的共有特征和私有特征方面有所不足。在此背景下,本文建議采用嵌入多視圖學(xué)習(xí)的多標(biāo)簽學(xué)習(xí)方法解決多源數(shù)據(jù)共有/私有信息特征提取,文獻(xiàn)[18]提出了一種多視圖協(xié)同訓(xùn)練的多標(biāo)簽算法(MLCT),該算法通過在視圖中選擇并傳遞可靠的標(biāo)簽樣本給其他圖實現(xiàn)分類性能的提升。

      一致性驗證主要完成對多源數(shù)據(jù)特征中“不一致”的特征的沖突檢測和消解和“一致”的特征的合并和增強(qiáng)。本環(huán)節(jié)中一致特征是指多個信息源表現(xiàn)出的相似或相關(guān)特征。針對這種情況則需要強(qiáng)化相關(guān)特征的影響。文獻(xiàn)[19]提出針對關(guān)聯(lián)數(shù)據(jù)的一致性特征發(fā)現(xiàn)問題進(jìn)行研究,設(shè)計了一種基于條件包含依賴(conditional inclusion dependencies,CIND)和內(nèi)容相關(guān)條件函數(shù)依賴(content-related conditional functional dependencies,CCFD)的異構(gòu)關(guān)聯(lián)數(shù)據(jù)一致性特征發(fā)現(xiàn)方法;文獻(xiàn)[20]提出基于組回歸算法舍棄重要性較低的數(shù)據(jù)特征,合并相似度較高的特征。本文建議采用基于組回歸的多源數(shù)據(jù)特征一致性驗證方法,針對冗余特征進(jìn)行合并,針對沖突特征進(jìn)行修剪,在保證多源數(shù)據(jù)特征提取的全面性的同時,實現(xiàn)特征空間的精簡。

      數(shù)據(jù)融合主要完成對多源數(shù)據(jù)中信息的關(guān)聯(lián)、重新定位、完善以及篩選等過程。當(dāng)前數(shù)據(jù)融合方法主要可以分為基于神經(jīng)網(wǎng)絡(luò)的方法和基于邏輯推理的方法。其中,基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合方法對參與模型訓(xùn)練的數(shù)據(jù)集要求較高,且建模的可解釋性較低。因此,針對數(shù)據(jù)融合本文建議采用基于邏輯推理的方法。在邏輯推理方法中,Dempster-Shafer(D-S)證據(jù)推理是用于對不確實信息做智能處理的典型方法。近年來,針對D-S理論出現(xiàn)了多種改進(jìn)方法,文獻(xiàn)[21]提出了一種新的對D-S理論的信度差異測度,通過考慮質(zhì)量函數(shù)的信度測度和似然測度來反映不同類型子集之間的相關(guān)性,利用可信度權(quán)重、信息容量權(quán)重確定信息的綜合權(quán)重,實現(xiàn)多源數(shù)據(jù)融合。文獻(xiàn)[22]將非負(fù)稀疏約束深度神經(jīng)網(wǎng)絡(luò)(non-negative sparse constrained deep neural network,NSCDNN)和D-S理論結(jié)合,通過非負(fù)約束和稀疏約束對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將改進(jìn)的動態(tài)分級算法與NSCDNN模型的分類置信度和準(zhǔn)確率相結(jié)合,可以有效地處理來自不同傳感器的信息的不確定性,提高故障檢測準(zhǔn)確性。

      3.4 系統(tǒng)狀態(tài)管理技術(shù)

      系統(tǒng)狀態(tài)管理技術(shù)主要用于支撐各種平臺運維應(yīng)用,涉及針對平臺組件、系統(tǒng)和業(yè)務(wù)的狀態(tài)評估和異常檢測/預(yù)測等。

      (組件/系統(tǒng)/業(yè)務(wù))狀態(tài)評估主要指的是通過直觀的、更容易理解的方式向系統(tǒng)運維人員展示相關(guān)對象的整體運行狀態(tài),幫助運維人員高效地了解當(dāng)前系統(tǒng)整體狀態(tài)。狀態(tài)評估方法主要有兩個類別:一是基于已知規(guī)則的狀態(tài)評估,二是非基于已知規(guī)則的狀態(tài)評估?;谝阎?guī)則的狀態(tài)評估方法主要包括基于系統(tǒng)結(jié)構(gòu)建模分析的層次分析(analytic hierarchy process,AHP)法、基于系統(tǒng)內(nèi)部指標(biāo)的頻譜分析法,或基于專家系統(tǒng)、通過提取狀態(tài)特征并建立規(guī)則集來評估系統(tǒng)狀態(tài)的方法。這種方法主要存在構(gòu)建描述規(guī)則集成本高和規(guī)則集難以準(zhǔn)確描述狀態(tài)的問題。因此非基于已知規(guī)則的狀態(tài)評估方法在近年來得到了廣泛關(guān)注和應(yīng)用,也是本文針對狀態(tài)評估建議采用的方法。文獻(xiàn)[23]指出了主成分分析(principal component analysis,PCA)法在系統(tǒng)狀態(tài)評估應(yīng)用中的有效性。文獻(xiàn)[24]將圖模型與最鄰近分類(-nearest neighbor,NN)算法分類相結(jié)合,實現(xiàn)了無監(jiān)督分析。

      (組件/系統(tǒng)/業(yè)務(wù))異常檢測/預(yù)測是指通過對組件/系統(tǒng)/業(yè)務(wù)的運行狀態(tài)中不匹配預(yù)期模式的觀測值、觀測值序列、事件的識別發(fā)現(xiàn)(對應(yīng)告警)或提前發(fā)現(xiàn)(對應(yīng)預(yù)警)組件/系統(tǒng)/業(yè)務(wù)的異常,并給出針對導(dǎo)致異常的根源的判定。異常檢測是人工智能運維領(lǐng)域的研究和應(yīng)用熱點,主要可以分為如下幾個類別。

      ·基于距離的異常檢測:主要是根據(jù)計算的距離判定是否存在異常點。相關(guān)算法有NN[25]、對于數(shù)據(jù)流使用滑動窗口優(yōu)化的算法[26]和根據(jù)本地信息降低參數(shù)敏感度的異常檢測算法[27]。

      ·基于密度的異常檢測算法:主要是指通過尋找所有數(shù)據(jù)點中密度較低的區(qū)域識別異常點,這是最早的異常檢測方法。其中最經(jīng)典的方法為局部異常因子(local outlier factor,LOF)算法[28]。

      ·基于聚類的異常檢測:主要是將全部數(shù)據(jù)聚類,尋找偏離任何一類的點作為異常點。文獻(xiàn)[29]提供了一種基于聚類模型的方法,通過半自動化的方法組合具有相同根因的告警形成集群,從而消除通用告警影響,對其余告警進(jìn)行更準(zhǔn)確的分析。文獻(xiàn)[30]提出了一個基于集群間依賴關(guān)系圖的聚類分解方法,降低了異常檢測的復(fù)雜性并且縮短了計算時間。

      ·基于深度學(xué)習(xí)的異常檢測:這種方式要求用于分析的數(shù)據(jù)為大量的、有標(biāo)簽的數(shù)據(jù)。文獻(xiàn)[31]提出了一種基于對系統(tǒng)正常行為的學(xué)習(xí)進(jìn)行系統(tǒng)異常行為檢測的方法,實現(xiàn)了對受復(fù)雜非線性參數(shù)影響的生產(chǎn)過程的質(zhì)量檢測。文獻(xiàn)[32]提出了一種基于重構(gòu)特征表示的變分長短期記憶(variational LSTM,VLSTM)學(xué)習(xí)模型,實現(xiàn)了工業(yè)應(yīng)用的高維異常檢測。以上方法對數(shù)據(jù)量有較高要求。針對數(shù)據(jù)量較少的情況,文獻(xiàn)[33]提出了一種基于小樣本的異常檢測方法,通過對已知故障類型的樣本進(jìn)行分類,對未知故障類型的樣本進(jìn)行聚類,實現(xiàn)了在線自適應(yīng)異常檢測,此方法屬于有監(jiān)督學(xué)習(xí),需要有標(biāo)簽的數(shù)據(jù)集作為訓(xùn)練集。在實際應(yīng)用中,異常檢測需要提前發(fā)現(xiàn)潛在的異常風(fēng)險,并且IT系統(tǒng)中異常數(shù)據(jù)在整個數(shù)據(jù)中占少數(shù),而且有標(biāo)簽數(shù)據(jù)集的獲取通常需要投入大量的人力成本,因此,本文建議采用基于小樣本的無監(jiān)督異常檢測方法。

      4 云網(wǎng)協(xié)同平臺人工智能運維系統(tǒng)參考設(shè)計

      近年來,隨著企業(yè)對其IT設(shè)施的依賴和重視程度的日益提升。面向企業(yè)IT設(shè)施的運維應(yīng)用和系統(tǒng)框架得到了長足的發(fā)展。

      Zenoss[34]是一款開源的企業(yè)級網(wǎng)絡(luò)監(jiān)控應(yīng)用,允許IT管理員通過Web控制臺監(jiān)控網(wǎng)絡(luò)架構(gòu)的狀態(tài)和健康度,主要對服務(wù)器性能、網(wǎng)絡(luò)及應(yīng)用級別完成監(jiān)控。Zabbix[35]是一個開源的分布式監(jiān)控應(yīng)用,主要對各種網(wǎng)絡(luò)參數(shù)和本地服務(wù)器健康性和完整性進(jìn)行監(jiān)控。與Zenoss、Zabbix等相似的IT系統(tǒng)監(jiān)控和運維應(yīng)用很多,這些應(yīng)用往往都可以提供運行狀態(tài)監(jiān)測、分析、可視化和告警等功能,但這些應(yīng)用可運維管控的對象往往非常受限,前面列出的Zenoss和Zabbix在服務(wù)器和網(wǎng)絡(luò)設(shè)備運維管控方面功能較為完備,但無法滿足多樣化的IT系統(tǒng)環(huán)境,如對虛擬化環(huán)境的管理等。

      ELK(Elasticsearch,Logstash,Kibana)[36]是當(dāng)前在很多企業(yè)中得到廣泛應(yīng)用的運維應(yīng)用框架。ELK是3種開源工具的組合,其中Elasticsearch提供了強(qiáng)大的日志和運行狀態(tài)數(shù)據(jù)查詢功能,Logstash可以與多種日志和運行狀態(tài)數(shù)據(jù)采集軟件配合完成系統(tǒng)運行狀態(tài)監(jiān)測,Kibana則提供了易用友好的數(shù)據(jù)可視化能力。組合應(yīng)用這3款開源工具可以非??旖?、低成本地搭建一套較為完備IT系統(tǒng)運維應(yīng)用。但ELK提供的運行狀態(tài)數(shù)據(jù)分析能力非常受限,往往需要基于ELK進(jìn)行定制開發(fā)和功能擴(kuò)展才能具體應(yīng)用于系統(tǒng)運維中。

      綜上所述,現(xiàn)有面向企業(yè)的IT運維系統(tǒng)難以滿足上述云網(wǎng)協(xié)同平臺人工智能運維需求,因此本節(jié)提出了云網(wǎng)協(xié)同平臺人工智能運維系統(tǒng)參考設(shè)計。該設(shè)計在國家電網(wǎng)有限公司信息通信分公司科技項目中得以應(yīng)用,并通過應(yīng)用進(jìn)一步驗證了相關(guān)設(shè)計的可行性。同時該設(shè)計可以作為其他分布式IT系統(tǒng)運維架構(gòu)設(shè)計的參考。

      云網(wǎng)協(xié)同平臺人工智能運維系統(tǒng)(以下簡稱“人工智能運維系統(tǒng)”)可以被認(rèn)為是針對運維應(yīng)用場景的大數(shù)據(jù)應(yīng)用平臺的垂直領(lǐng)域應(yīng)用,需要具備數(shù)據(jù)采集、聚合、存儲、分析和應(yīng)用等功能。其中“應(yīng)用”部分不但需要向運維人員提供數(shù)據(jù)查詢和告知的能力,還要提供針對云網(wǎng)協(xié)同平臺的調(diào)控能力,完成(或輔助運維人員完成)運維所需的故障和故障預(yù)防處置,從而構(gòu)建針對運維的“感知—分析—控制”閉環(huán)。云網(wǎng)協(xié)同平臺人工智能運維系統(tǒng)參考設(shè)計如圖3所示。

      圖3 云網(wǎng)協(xié)同平臺人工智能運維系統(tǒng)參考設(shè)計

      人工智能運維系統(tǒng)一方面接入“云網(wǎng)協(xié)同平臺”,從運行監(jiān)控系統(tǒng)和各層級(業(yè)務(wù)層、基礎(chǔ)設(shè)施層等)子系統(tǒng)處獲取所需的時序運行狀態(tài)數(shù)據(jù)(包括性能指標(biāo)和運行日志),另一方面為各人工智能運維算法、模型、模塊等提供運行環(huán)境,基于這些算法、模型、模塊完成人工智能運維應(yīng)用所需的數(shù)據(jù)分析,將應(yīng)用分析結(jié)果呈現(xiàn)給運維人員,實現(xiàn)(或輔助實現(xiàn))對云網(wǎng)協(xié)同平臺的高效監(jiān)控和調(diào)控。

      4.1 數(shù)據(jù)接入子系統(tǒng)

      數(shù)據(jù)接入子系統(tǒng)主要用于完成從各層級的數(shù)據(jù)源中獲取數(shù)據(jù),主要由兩部分構(gòu)成,一部分是數(shù)據(jù)采集/接收/導(dǎo)入組件,另一部分是數(shù)據(jù)總線。

      (1)數(shù)據(jù)采集/接收/導(dǎo)入組件

      此組件提供3種類型的數(shù)據(jù)接入能力?!皵?shù)據(jù)采集”指的是由此組件主動訪問數(shù)據(jù)源獲取所需數(shù)據(jù);“數(shù)據(jù)接收”指的是由此組件被動接收來自數(shù)據(jù)源的數(shù)據(jù);“數(shù)據(jù)導(dǎo)入”指的是數(shù)據(jù)管理員以文件或數(shù)據(jù)庫導(dǎo)入的方式將獲得的數(shù)據(jù)導(dǎo)入系統(tǒng)之中。在實際部署中需要根據(jù)數(shù)據(jù)源情況部署多個數(shù)據(jù)采集/接收/導(dǎo)入節(jié)點以支持不同類型數(shù)據(jù)(數(shù)據(jù)接入方式(采集/接收/導(dǎo)入)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)到達(dá)速率和并發(fā)性等不同)的接入。

      (2)數(shù)據(jù)總線

      數(shù)據(jù)總線一方面作為對采集到的消息的高速緩存,另一方面向數(shù)據(jù)存儲和各數(shù)據(jù)分析模塊進(jìn)行數(shù)據(jù)分發(fā)。在數(shù)據(jù)總線中保存的數(shù)據(jù)一般被稱為“在線數(shù)據(jù)”。當(dāng)前基于Kafka實現(xiàn)數(shù)據(jù)總線是業(yè)界較為常用的技術(shù)路線。Kafka是由Apache軟件基金會(Apache Software Foundation,ASF)開發(fā)的支持高吞吐量的分布式發(fā)布/訂閱消息中間件。

      4.2 數(shù)據(jù)存儲子系統(tǒng)

      數(shù)據(jù)存儲子系統(tǒng)主要用于完成對數(shù)據(jù)的持久化存儲。在數(shù)據(jù)存儲子系統(tǒng)中保存的數(shù)據(jù)一般被稱為“離線數(shù)據(jù)”。人工智能運維系統(tǒng)中需要提供3種數(shù)據(jù)存儲方式:面向運行狀態(tài)數(shù)據(jù)/日志采集的時序數(shù)據(jù)存儲、面向數(shù)據(jù)分析結(jié)果存儲的結(jié)構(gòu)化數(shù)據(jù)存儲和面向累積型數(shù)據(jù)存儲的分布式數(shù)據(jù)存儲。運行狀態(tài)數(shù)據(jù)/日志屬于典型的時序數(shù)據(jù)。為了提升運維系統(tǒng)的感知能力,運維系統(tǒng)往往需要“盡可能多”“盡可能細(xì)致”地采集各個被監(jiān)測系統(tǒng)的運行狀態(tài)數(shù)據(jù)/日志。這就對相關(guān)數(shù)據(jù)存儲的寫入性能提出了極高的要求。近年來,時序數(shù)據(jù)庫(如IoTDB、TDEngine等)得到了長足的發(fā)展,其高寫入性能在工程實踐中得到了廣泛的認(rèn)可。因此,本文提出了可以根據(jù)運行狀態(tài)數(shù)據(jù)/日志采集需求選擇使用時序數(shù)據(jù)庫。而當(dāng)相關(guān)系統(tǒng)需要保存的歷史數(shù)據(jù)量較大時,則可以考慮使用Hive作為累積型數(shù)據(jù)存儲。MySQL作為最經(jīng)典的結(jié)構(gòu)化數(shù)據(jù)庫,往往被用于存儲配置信息、數(shù)據(jù)分析結(jié)果等。因為需要針對不同應(yīng)用場景采用不同數(shù)據(jù)存儲方案,所以在本文設(shè)計中提出為各種類型的數(shù)據(jù)存儲實現(xiàn)相應(yīng)的數(shù)據(jù)總線接口適配。

      數(shù)據(jù)存儲子系統(tǒng)同時也被用于實現(xiàn)數(shù)據(jù)分析邏輯與數(shù)據(jù)應(yīng)用的解耦,基于數(shù)據(jù)存儲實現(xiàn)數(shù)據(jù)分析邏輯與數(shù)據(jù)應(yīng)用的解耦如圖4所示。數(shù)據(jù)分析子系統(tǒng)一方面從數(shù)據(jù)接入子系統(tǒng)的數(shù)據(jù)總線中獲取數(shù)據(jù),另一方面從數(shù)據(jù)存儲子系統(tǒng)中獲取離線數(shù)據(jù),而后基于這些數(shù)據(jù)完成數(shù)據(jù)分析,并將數(shù)據(jù)分析結(jié)果寫入數(shù)據(jù)存儲子系統(tǒng)之中。而數(shù)據(jù)應(yīng)用子系統(tǒng)將主要從數(shù)據(jù)存儲子系統(tǒng)中讀取數(shù)據(jù)分析的結(jié)果并給予呈現(xiàn)。在某些應(yīng)用場景中,數(shù)據(jù)應(yīng)用子系統(tǒng)也需要直接接入數(shù)據(jù)分析子系統(tǒng)以獲取數(shù)據(jù)分析過程數(shù)據(jù)(未持久化或無須持久化的過程數(shù)據(jù))。

      圖4 基于數(shù)據(jù)存儲實現(xiàn)數(shù)據(jù)分析邏輯與數(shù)據(jù)應(yīng)用的解耦

      4.3 數(shù)據(jù)分析子系統(tǒng)

      數(shù)據(jù)分析子系統(tǒng)將基于來自數(shù)據(jù)接入子系統(tǒng)的在線數(shù)據(jù)和來自數(shù)據(jù)存儲子系統(tǒng)的離線數(shù)據(jù),根據(jù)本地維護(hù)的各種數(shù)據(jù)分析算法和模型完成數(shù)據(jù)分析,其主要由兩部分構(gòu)成:數(shù)據(jù)分析基礎(chǔ)框架和各類數(shù)據(jù)分析算法/模型。

      (1)數(shù)據(jù)分析基礎(chǔ)框架

      目前業(yè)界中較為常用的數(shù)據(jù)分析基礎(chǔ)框架主要有Flink和Spark。Flink主要適用于流式數(shù)據(jù)分析;Spark則在批量式的數(shù)據(jù)分析場景中有一些優(yōu)勢。

      (2)數(shù)據(jù)分析算法/模型

      本文涉及日志特征向量生成、微服務(wù)業(yè)務(wù)拓?fù)浣?、業(yè)務(wù)對象建模以及系統(tǒng)狀態(tài)管理4個領(lǐng)域的算法和模型。隨著系統(tǒng)應(yīng)用的持續(xù)進(jìn)行,相關(guān)數(shù)據(jù)分析算法/模型將不斷優(yōu)化和演進(jìn),甚至針對同一種數(shù)據(jù)分析算法/模型可能有多個不同版本。

      4.4 數(shù)據(jù)應(yīng)用子系統(tǒng)

      數(shù)據(jù)應(yīng)用子系統(tǒng)中提供了一系列人工智能運維應(yīng)用,主要如下。

      (1)平臺總體運行狀態(tài)(健康度)評估

      從基礎(chǔ)設(shè)施(主要涉及平臺中的各服務(wù)器和存儲設(shè)備)和服務(wù)(針對平臺運行依賴的各項(微)服務(wù))兩個維度對平臺的總體運行狀態(tài)進(jìn)行打分,滿分為100,85~100為狀態(tài)良好,70~85為狀態(tài)不佳,70以下為狀態(tài)異常。此部分除了給出平臺健康度評分外,還會同時給出導(dǎo)致評分下降的最主要的5個指標(biāo)。

      (2)基于規(guī)則的平臺(基礎(chǔ)設(shè)施/服務(wù))運行狀態(tài)異常檢測及告警

      這個部分支持基于規(guī)則的異常檢測,并在異常檢測規(guī)則被觸發(fā)時發(fā)出告警,并在告警中包含被觸發(fā)的規(guī)則和相關(guān)日志(指標(biāo))。

      (3)基于模型的平臺(基礎(chǔ)設(shè)施/服務(wù))運行狀態(tài)異常檢測及告警

      這個部分支持模型的異常檢測,并在異常檢測模型輸出值超過閾值時發(fā)出告警,并根據(jù)告警根因分析模型的輸出給出根因列表及相關(guān)貢獻(xiàn)度。這里需要特別指出的是,針對基礎(chǔ)設(shè)施、不同的平臺服務(wù)和不同的平臺應(yīng)用需要建立不同的異常檢測模型和根因分析模型。

      (4)基于預(yù)測的(基礎(chǔ)設(shè)施/服務(wù))運行狀態(tài)異常預(yù)警

      這個部分支持基于模型的運行指標(biāo)預(yù)測,并針對預(yù)測值進(jìn)行基于規(guī)則和基于模型的異常檢測模型和根因分析,從而實現(xiàn)異常預(yù)警。

      4.5 容器管理環(huán)境

      由于相比虛擬機(jī),容器技術(shù)有更高的基礎(chǔ)設(shè)施資源利用率和更高的資源調(diào)度靈活性,所以在本文提出的云網(wǎng)協(xié)同平臺人工智能運維系統(tǒng)參考設(shè)計中推薦采用容器環(huán)境作為人工智能運維系統(tǒng)的運行環(huán)境,運維應(yīng)用子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)以及數(shù)據(jù)接入子系統(tǒng)均可以考慮采用容器化部署。而數(shù)據(jù)總線以及數(shù)據(jù)存儲子系統(tǒng),則可以根據(jù)平臺規(guī)模確定是否選用容器化部署。一般來說,當(dāng)平臺規(guī)模不大時可以優(yōu)先考慮采用容器化部署。為了提升容器化部署和調(diào)度的便捷性,需要相應(yīng)引入容器管理環(huán)境。

      5 結(jié)束語

      本文首先分析了企業(yè)云平臺向微服務(wù)化云網(wǎng)協(xié)同平臺演進(jìn)的趨勢,對比了很多現(xiàn)有的針對云平臺的運維在國內(nèi)外的解決方法,而后進(jìn)一步剖析了云網(wǎng)協(xié)同平臺運行維護(hù)面臨的挑戰(zhàn)和需求;進(jìn)而提出了云網(wǎng)協(xié)同平臺人工智能運維技術(shù)體系,涉及面向日志的特征向量生成技術(shù)、微服務(wù)業(yè)務(wù)拓?fù)浣<夹g(shù)、業(yè)務(wù)對象建模技術(shù)以及系統(tǒng)狀態(tài)管理技術(shù)4個方面,并對各部分技術(shù)及其研究進(jìn)展分別加以說明,另外針對每個方面分別給出了較推薦的方案;最后給出了云網(wǎng)協(xié)同平臺人工智能運維系統(tǒng)參考設(shè)計。本文的研究成果在國家電網(wǎng)有限公司信息通信分公司科技項目中得以應(yīng)用,其中平臺計算資源(CPU、內(nèi)存)占用狀態(tài)的異常檢測/預(yù)測模型、存儲資源(如機(jī)械式硬盤)性能異常檢測/預(yù)測模型以及平臺服務(wù)(如組件注冊服務(wù)、資源調(diào)度服務(wù)、系統(tǒng)運行狀態(tài)監(jiān)測服務(wù)等)響應(yīng)時延異常檢測/預(yù)測模型在應(yīng)用中取得了良好的應(yīng)用效果,進(jìn)一步驗證了本文成果的可行性和實用價值。隨著越來越多的各種類型的企業(yè)越來越關(guān)注信息化建設(shè),信息系統(tǒng)在日趨復(fù)雜化的同時,其運維的重要性也越來越高。本文的研究成果對相關(guān)企業(yè)開展運維系統(tǒng)技術(shù)選型和設(shè)計提供了有益的參考。

      [1] 史凡. 云網(wǎng)絡(luò):云網(wǎng)融合的新型網(wǎng)絡(luò)發(fā)展趨勢[J]. 中興通訊技術(shù), 2022, 28(1): 8-10.

      SHI F. Cloud network: new network development trend of cloud network convergence[J]. ZTE Technology Journal, 2022, 28(1): 8-10.

      [2] 宋志剛, 林杰, 王金超. 基于容器云為云網(wǎng)融合提供全面運維服務(wù)的“云網(wǎng)管+”平臺[J]. 信息技術(shù)與信息化, 2021(2): 118-121.

      SONG Z G, LIN J, WANG J C. “Cloud network management+” platform based on container cloud to provide comprehensive operation and maintenance services for cloud network convergence[J]. Information Technology and Informatization, 2021(2): 118-121.

      [3] 官東亮. 基于微服務(wù)的業(yè)務(wù)平臺架構(gòu)重構(gòu)[J]. 電信科學(xué), 2020, 36(9): 75-83.

      GUAN D L. Service platform architecture reconstruction based on microservices[J]. Telecommunications Science, 2020, 36(9): 75-83.

      [4] 董娜, 劉偉娜, 侯波濤. 基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法[J]. 電力信息與通信技術(shù), 2018, 16(1): 6-10.

      DONG N, LIU W N, HOU B T. Modeling method of network abnormal behavior based on big data[J]. Electric Power Information and Communication Technology, 2018, 16(1): 6-10.

      [5] 任毅華, 萬志遠(yuǎn), 呂東. 人工智能技術(shù)的變電運維軟件設(shè)計與研究[J]. 電子世界, 2022(1): 29-30.

      REN Y H, WAN Z Y, LYU D. Design and research of substation operation and maintenance software with artificial intelligence technology[J]. Electronics World, 2022(1): 29-30.

      [6] 陳真, 王雅志. 基于人工智能的運維系統(tǒng)建設(shè)研究與應(yīng)用[J]. 常州工學(xué)院學(xué)報, 2021, 34(3): 35-40. CHEN Z, WANG Y Z. Research and application of the construction of operation and maintenance system based on artificial intelligence[J]. Journal of Changzhou Institute of Technology, 2021, 34(3): 35-40.

      [7] 李朝霞, 劉金春, 邢鑫. 人工智能在網(wǎng)絡(luò)運維中的應(yīng)用[J]. 電子技術(shù)與軟件工程, 2021(10): 5-6.

      LI Z X, LIU J C, XING X. Artificial intelligence in network operations and maintenance[J]. Electronic Technology & Software Engineering, 2021(10): 5-6.

      [8] HE P J, ZHU J M, ZHENG Z B, et al. Drain: an online log parsing approach with fixed depth tree[C]//Proceedings of 2017 IEEE International Conference on Web Services. Piscataway: IEEE Press, 2017: 33-40.

      [9] ZHANG S L, MENG W B, BU J H, et al. Syslog processing for switch failure diagnosis and prediction in datacenter networks[C]//Proceedings of 2017 IEEE/ACM 25th International Symposium on Quality of Service (IWQoS). Piscataway: IEEE Press, 2017: 1-10.

      [10] RAMOS J. Using TF-IDF to determine word relevance in document queries[C]//Proceedings of the 1st Instructional Conference on Machine Learning. [S.l.:s.n.], 2003: 29-48.

      [11] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint, 2013, arXiv: 1301.3781.

      [12] SIGELMANB H , BARROSO L A , BURROWS M , et al. Dapper, a large-scale distributed systems tracing infrastructure[EB]. 2010.

      [13] Zipkin, from Twitter a distributed tracing system [EB]. 2022.

      [14] 嚴(yán)麗云, 楊新章, 何震葦, 等. 基于運營商視角的服務(wù)網(wǎng)格技術(shù)評測與集成方案[J]. 電信科學(xué), 2020, 36(6): 144-153.

      YAN L Y, YANG X Z, HE Z W, et al. Service mesh technology evaluation and integration scheme based on telecom operator perspective[J]. Telecommunications Science, 2020, 36(6): 144-153.

      [15] Buoyant. Linkerd[EB]. 2016.

      [16] SILVA R F, PLIS S M, ADALI T, et al. Multidataset independent subspace analysis extends independent vector analysis[C]//Proceedings of 2014 IEEE International Conference on Image Processing (ICIP). Piscataway: IEEE Press, 2014: 2864-2868.

      [17] 劉立, 朱健成, 韓光潔, 等. 基于1D-CNN聯(lián)合特征提取的軸承健康監(jiān)測與故障診斷[J]. 軟件學(xué)報, 2021, 32(8): 2379-2390. LIU L, ZHU J C, HAN G J, et al. Bearing health monitoring and fault diagnosis based on joint feature extraction in 1D-CNN[J]. Journal of Software, 2021, 32(8): 2379-2390.

      [18] XING Y Y, YU G X, DOMENICONI C, et al. Multi-label co-training[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Amsterdam: Elsevier, 2018: 2882-2888.

      [19] 杜岳峰, 李曉光, 宋寶燕. 異構(gòu)模式中關(guān)聯(lián)數(shù)據(jù)的一致性規(guī)則發(fā)現(xiàn)方法[J]. 計算機(jī)研究與發(fā)展, 2020, 57(9): 1939-1948.

      DU Y F, LI X G, SONG B Y. Discovering consistency constraints for associated data on heterogeneous schemas[J]. Journal of Computer Research and Development, 2020, 57(9): 1939-1948.

      [20] DINH V, HO L S T. Consistent feature selection for neural networks via Adaptive Group Lasso[EB]. 2020.

      [21] WANG H F, DENG X Y, JIANG W, et al. A new belief divergence measure for Dempster–Shafer theory based on belief and plausibility function and its application in multi-source data fusion[J]. Engineering Applications of Artificial Intelligence, 2021(97): 104030.

      [22] ZHANG Z, JIANG W, GENG J, et al. Fault diagnosis based on non-negative sparse constrained deep neural networks and dempster-shafer theory[J]. IEEE Access, 2020(8): 18182-18195.

      [23] WANG X, HE Y L, XU Y, et al. Comprehensive evaluation modeling and analysis based on ELM integrated AHP and PCA: application to food safety[C]//Proceedings of 2019 Chinese Automation Congress (CAC). Piscataway: IEEE Press, 2019: 4092-4097.

      [24] ZHANG G C, CHEN L, LIANG K K. Fault detection and diagnosis for aerostat sensors based on PCA and contribution graph[C]//Proceedings of 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference. Piscataway: IEEE Press, 2019: 224-228.

      [25] 李泰, 韓強(qiáng), 黃銀龍, 等. 基于kNN算法的紅外測溫圖譜的溫度數(shù)字識別研究[J]. 電力信息與通信技術(shù), 2019, 17(6): 14-19.

      LI T, HAN Q, HUANG Y L, et al. Research on digital recognition of infrared temperature map based on kNN algorithm[J]. Electric Power Information and Communication Technology, 2019, 17(6): 14-19.

      [26] ANGIULLI F, FASSETTI F. Distance-based outlier queries in data streams: the novel task and algorithms[J]. Data Mining and Knowledge Discovery, 2010, 20(2): 290-324.

      [27] LIU J, DENG H F. Outlier detection on uncertain data based on local information[J]. Knowledge-Based Systems, 2013(51): 60-71.

      [28] 姜紅紅, 張濤, 趙新建, 等. 基于大數(shù)據(jù)的電力信息網(wǎng)絡(luò)流量異常檢測機(jī)制[J]. 電信科學(xué), 2017, 33(3): 134-141.

      JIANG H H, ZHANG T, ZHAO X J, et al. A big data based flow anomaly detection mechanism of electric power information network[J]. Telecommunications Science, 2017, 33(3): 134-141.

      [29] JULISCH K. Clustering intrusion detection alarms to support root cause analysis[J]. ACM Transactions on Information and System Security, 2003, 6(4): 443-471.

      [30] BENNACER L, CIAVAGLIA L, GHAMRI-Doudane S, et al. Scalable and fast root cause analysis using inter cluster inference[C]//Proceedings of 2013 IEEE International Conference on Communications (ICC). Piscataway: IEEE Press, 2013: 3563-3568.

      [31] STOJANOVIC L, DINIC M, STOJANOVIC N, et al. Big-data-driven anomaly detection in industry (4.0): An approach and a case study[C]//Proceedings of 2016 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE Press, 2016: 1647-1652.

      [32] ZHOU X K, HU Y Y, LIANG W, et al. Variational LSTM enhanced anomaly detection for industrial big data[J]. IEEE Transactions on Industrial Informatics, 2021, 17(5): 3469-3477.

      [33] DONG L, LIU S L, ZHANG H L. A method of anomaly detection and fault diagnosis with online adaptive learning under small training samples[J]. Pattern Recognition, 2017(64): 374-385.

      [34] Cloud developer center launched by Zenoss[EB]. Telecomworldwire, 2022.

      [35] 李晨, 解思江, 郝穎, 等. 信息系統(tǒng)安全運行自動化手段在電力公司的探索[J]. 電信科學(xué), 2017, 33(S1): 123-128.

      LI C, XIE S J, HAO Y, et al. Study on the automatic maintenance for information system security in power company[J]. Telecommunications Science, 2017, 33(S1): 123-128.

      [36] 唐穎淳. 利用Kafka實現(xiàn)大話務(wù)并發(fā)數(shù)據(jù)流的吞吐系統(tǒng)[J]. 電信科學(xué), 2018, 34(S2): 134-139.

      TANG Y C. Using Kafka to implement the throughput system of large traffic and concurrent data flow[J]. Telecommunications Science, 2018, 34(S2): 134-139.

      Time series data based AI operation and maintenance system of cloud network collaboration platform

      CHENG Ruiying1, ZHANG Pan1, XIAO Yu1, QIAO Yujie1, ZHANG Anyi2

      1.State Grid Corporation of China State Grid Information & Telecommunication Branch, Beijing 100761, China 2. Beijing University of Posts and Telecommunications, Beijing 100876, China

      The expansion of cloud computing in enterprise applications is not only the expansion of platform scale, but also the extension of platform applications. “Cloud-network collaboration” and “micro-service” are important trends in the evolution of enterprise cloud platforms. As the importance of enterprise information construction continues to rise, the operation and maintenance of the microservice-oriented cloud-network collaboration platform faces great challenges. The challenges faced by the operation and maintenance were analyzed, the requirements for artificial intelligence operation and maintenance of the platform were sorted out, a technical system for artificial intelligence operation and maintenance of the platform based on time-series data analysis was proposed, and an artificial intelligence operation and maintenance subsystem for the cloud network collaborative platform was designed. The proposed technical system and system design are practical and generalizable, and can be used as a reference for the technical approach of enterprise cloud platform construction and optimization.

      cloud platform, cloud network collaboration, micro-service, time series data, artificial intelligence operation and maintenance

      TP393

      A

      10.11959/j.issn.1000-0801.2022290

      2022-04-19;

      2022-11-10

      國家電網(wǎng)有限公司信息通信分公司科技項目(No.52993920002P)

      Science and Technology Project from State Grid Information and Telecommunication Branch of China (No.52993920002P)

      程瑞營(1995-),女,國家電網(wǎng)有限公司信息通信分公司助理工程師,主要從事與信息系統(tǒng)運維、人工智能等相關(guān)的工作。

      張攀(1989-),男,博士,國家電網(wǎng)有限公司信息通信分公司高級工程師,主要從事與信息系統(tǒng)運維、人工智能等相關(guān)的工作。

      肖雨(1997-),女,國家電網(wǎng)有限公司信息通信分公司助理工程師,主要從事與信息系統(tǒng)運維、人工智能等相關(guān)的工作。

      喬宇杰(1995-),女,國家電網(wǎng)有限公司信息通信分公司助理工程師,主要從事與信息系統(tǒng)運維、人工智能等相關(guān)的工作。

      張安奕(1998-),女,北京郵電大學(xué)博士生,主要研究方向為人工智能等。

      猜你喜歡
      云網(wǎng)日志運維
      下期要目
      新型云網(wǎng)融合編排與調(diào)度系統(tǒng)架構(gòu)與分析
      一名老黨員的工作日志
      華人時刊(2021年13期)2021-11-27 09:19:02
      基于ONAP開源架構(gòu)的云網(wǎng)操作系統(tǒng)研究
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      航天云網(wǎng)科技發(fā)展有限責(zé)任公司
      運維技術(shù)研發(fā)決策中ITSS運維成熟度模型應(yīng)用初探
      風(fēng)電運維困局
      能源(2018年8期)2018-09-21 07:57:24
      雜亂無章的光伏運維 百億市場如何成長
      能源(2017年11期)2017-12-13 08:12:25
      游學(xué)日志
      白水县| 扶沟县| 绥江县| 洱源县| 南昌县| 大理市| 盱眙县| 丰顺县| 田东县| 洪湖市| 岐山县| 东方市| 水富县| 合肥市| 克东县| 大港区| 绥江县| 金坛市| 志丹县| 营山县| 治多县| 昆山市| 华亭县| 眉山市| 彭州市| 水城县| 凤城市| 岫岩| 偏关县| 怀化市| 筠连县| 梁平县| 黄石市| 通渭县| 东乡族自治县| 平谷区| 碌曲县| 鸡西市| 五原县| 霍山县| 周宁县|