• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智能運(yùn)維技術(shù)在電信大視頻業(yè)務(wù)中的應(yīng)用研究

      2018-05-03 10:01:31劉麗霞
      信息通信技術(shù) 2018年1期
      關(guān)鍵詞:根因硬盤運(yùn)維

      吉 鋒 劉麗霞 文 韜 張 晗

      中興通訊股份有限公司南京210012

      引言

      傳統(tǒng)IT系統(tǒng)運(yùn)維過程中,故障預(yù)警、故障排查等是非常重要但費(fèi)時(shí)費(fèi)力的工作,以往的運(yùn)維方式通常部署一套監(jiān)控系統(tǒng),通過設(shè)置簡(jiǎn)單閾值、告警規(guī)則觸發(fā)故障預(yù)警,同時(shí),故障發(fā)生后往往需要大量的人工進(jìn)行排查定位。考慮到如今業(yè)務(wù)系統(tǒng)越來越復(fù)雜、數(shù)據(jù)量越來越龐大、數(shù)據(jù)特性越來越多樣化等諸多因素,運(yùn)維中純粹依靠手工排查故障的方式已不再適用。

      因此,在大數(shù)據(jù)場(chǎng)景下,運(yùn)維向智能化發(fā)展是一個(gè)重要趨勢(shì):基于對(duì)業(yè)務(wù)運(yùn)維系統(tǒng)的理解,對(duì)積累的大量日志數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的算法建模,實(shí)現(xiàn)自動(dòng)發(fā)現(xiàn)問題、分析問題、提前預(yù)判問題等多種功能,起到輔助運(yùn)維人員,最終降低系統(tǒng)成本、提升運(yùn)維效率的效果。針對(duì)人工智能技術(shù)與IT運(yùn)維相結(jié)合,Gartner率先提出了AIOps(Algorithmic IT Operations,基于算法的IT運(yùn)維)的智能運(yùn)維理念[1]。Gartner的報(bào)告宣稱,到2020年將近50%的企業(yè)將會(huì)在他們的業(yè)務(wù)和IT運(yùn)維方面采用AIOps,遠(yuǎn)遠(yuǎn)高于今天的10%。

      1 電信大視頻智能運(yùn)維系統(tǒng)架構(gòu)

      智能運(yùn)維是云計(jì)算、大數(shù)據(jù)、人工智能技術(shù)在運(yùn)維領(lǐng)域的綜合性應(yīng)用,即云計(jì)算為各種日志大數(shù)據(jù)提供了采集、存貯與計(jì)算能力,人工智能技術(shù)提供了結(jié)合行業(yè)知識(shí)將運(yùn)維問題轉(zhuǎn)化為大數(shù)據(jù)分析建模的能力。結(jié)合電信行業(yè)的一些行業(yè)特性及運(yùn)維需求,我們構(gòu)建了電信行業(yè)智能運(yùn)維系統(tǒng)的技術(shù)體系與目標(biāo):結(jié)合電信業(yè)務(wù)領(lǐng)域知識(shí),利用統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等人工智能技術(shù),對(duì)多源的日志數(shù)據(jù)進(jìn)行處理、分析、挖掘甚至推理,形成專有的運(yùn)維知識(shí)庫,如組件依賴關(guān)系、事件關(guān)聯(lián)關(guān)系、故障傳播路徑、異常事件模式、故障樹等異常及故障模型,從而能夠提供在線甚至準(zhǔn)實(shí)時(shí)的異常發(fā)現(xiàn)、故障定位、根因分析、故障預(yù)測(cè)等日常運(yùn)維服務(wù);另外,還包括在滿足日常運(yùn)維服務(wù)的基礎(chǔ)上實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的整體配置優(yōu)化、容量分析、智能調(diào)度、存儲(chǔ)優(yōu)化等高級(jí)運(yùn)維服務(wù)。圖1是從大數(shù)據(jù)分析流程視角對(duì)智能運(yùn)維系統(tǒng)進(jìn)行技術(shù)、邏輯模塊及應(yīng)用功能的一種綜合展示,其中數(shù)據(jù)處理與建模分析、算法知識(shí)庫和運(yùn)維服務(wù)是3個(gè)重要的邏輯模塊。

      圖1 智能運(yùn)維系統(tǒng)邏輯架構(gòu)圖

      1)大數(shù)據(jù)存儲(chǔ)與計(jì)算平臺(tái)。該平臺(tái)同時(shí)提供各種類型日志大數(shù)據(jù)存貯及數(shù)據(jù)計(jì)算。數(shù)據(jù)存儲(chǔ)提供對(duì)各種來源、各種數(shù)據(jù)類型的日志原始數(shù)據(jù)、預(yù)處理后的數(shù)據(jù)、分析挖掘的中間結(jié)果及最終結(jié)果、算法知識(shí)庫的存儲(chǔ)。數(shù)據(jù)計(jì)算按照業(yè)務(wù)需求的不同提供實(shí)時(shí)、批量及離線混合計(jì)算模式。

      2)數(shù)據(jù)源。其支持各種常見系統(tǒng)和設(shè)備的日志數(shù)據(jù)的采集,包括硬件如網(wǎng)絡(luò)設(shè)備、終端設(shè)備和軟件如操作系統(tǒng)、文件系統(tǒng)、數(shù)據(jù)庫、業(yè)務(wù)系統(tǒng)等。

      3)數(shù)據(jù)處理及建模分析。提供對(duì)多種數(shù)據(jù)源的數(shù)據(jù)處理、事件分析、分析挖掘。智能運(yùn)維的數(shù)據(jù)處理既包含典型數(shù)據(jù)倉庫所需要的數(shù)據(jù)ETL,也包含數(shù)據(jù)分析挖掘建模前的數(shù)據(jù)預(yù)處理,如數(shù)據(jù)采集(支持常用Kafka/Flume/Sqoop/Logstash等大數(shù)據(jù)采集工具)、數(shù)據(jù)解析(針對(duì)日志數(shù)據(jù)主要為事件解析)、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等;事件分析重點(diǎn)包含事件提取、事件標(biāo)注、事件聚合、事件分類、事件關(guān)聯(lián)等關(guān)鍵步驟;分析挖掘結(jié)合運(yùn)維服務(wù)的具體需求,進(jìn)行數(shù)據(jù)準(zhǔn)備、特征工程、建模與評(píng)估,形成運(yùn)維知識(shí)庫。

      4)算法知識(shí)庫。具體分為算法庫及知識(shí)庫兩種。算法庫提供特征工程、統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)甚至遷移學(xué)習(xí)的基礎(chǔ)通用算法;知識(shí)庫一方面是業(yè)務(wù)領(lǐng)域?qū)<业慕?jīng)驗(yàn)知識(shí),另一方面是前述建模分析挖掘的輸出模型,形成業(yè)務(wù)運(yùn)維特有的依賴關(guān)系、關(guān)聯(lián)關(guān)系、傳播路徑、異常模式、匹配原則、故障樹等知識(shí)庫。

      5)智能運(yùn)維的應(yīng)用。分為常見的運(yùn)維服務(wù)及高級(jí)運(yùn)維服務(wù)。常見運(yùn)維服務(wù)包含異常發(fā)現(xiàn)、故障定位、根因分析、故障預(yù)測(cè);高級(jí)運(yùn)維服務(wù)包含配置優(yōu)化、容量分析、智能調(diào)度、存儲(chǔ)優(yōu)化等。下面分別針對(duì)異常發(fā)現(xiàn)、故障定位、根因分析、故障預(yù)測(cè)四種常用運(yùn)維場(chǎng)景對(duì)智能運(yùn)維進(jìn)行介紹。

      ①異常發(fā)現(xiàn)。也稱為異常檢測(cè),異常一般表現(xiàn)為三種形式[2]:點(diǎn)異常、序列異常、集合異常;常用的技術(shù)涵蓋分類、聚類、最近鄰、密度、統(tǒng)計(jì)、信息理論、光譜分解、可視化、信號(hào)處理等。異常發(fā)現(xiàn)目前有兩種建模方式[3]:一種是基于正常樣本建模并把不遵從此模型的樣本認(rèn)為是異常,常用的有統(tǒng)計(jì)方法、基于分類的方法、基于聚類的方法,這同時(shí)也是業(yè)界普遍采用的方式;另一種是通過建模直接隔離異常樣本,這種方式典型的代表有iForest[3]、LOF[4]。

      ②故障定位。也稱為故障定界,是故障范圍的初步判定,特別是在大型、復(fù)雜系統(tǒng)中,故障本源和故障表象之間往往呈現(xiàn)一對(duì)多、多對(duì)一、甚至多對(duì)多的復(fù)雜關(guān)系,有時(shí)無法快速確定故障的根本根因,先對(duì)故障的范圍進(jìn)行大致界定。故障定位的方法有很多,一般結(jié)合領(lǐng)域知識(shí)、專家經(jīng)驗(yàn),基于統(tǒng)計(jì)分析就可以初步實(shí)現(xiàn),如對(duì)于指標(biāo)型故障,單指標(biāo)單維度的同比分析、類比分析、方差分析,多指標(biāo)多維度的組合分析、關(guān)聯(lián)分析、排除分析、假設(shè)檢驗(yàn)等,故障定位簡(jiǎn)單高效,甚至有時(shí)能直接能判定根本原因。但是對(duì)于復(fù)雜的混合系統(tǒng),日志數(shù)據(jù)量大、組件之間的關(guān)系復(fù)雜多樣,特別是具有依賴性、并發(fā)性、傳播性的事件傳遞模式,故障定位就比較復(fù)雜,往往需要同時(shí)借助統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)中的相關(guān)技術(shù)綜合實(shí)現(xiàn)。

      ③根因分析。也稱為根本原因分析,用于識(shí)別故障或問題的根本原因。根因分析是在故障定位的技術(shù)上對(duì)故障發(fā)生的根本原因或者源頭進(jìn)行準(zhǔn)確判定,不但有利于在故障發(fā)生時(shí)進(jìn)行故障的快速修復(fù),也可以將根因分析的結(jié)果形成知識(shí)庫(如故障樹、故障傳播關(guān)系圖)對(duì)后續(xù)類似故障可能引發(fā)的連鎖反應(yīng)進(jìn)行提前預(yù)警,起到故障規(guī)避的作用。根因分析在實(shí)際應(yīng)用中會(huì)進(jìn)一步分解為故障事件之間的關(guān)聯(lián)關(guān)系分析、故障事件之間的傳播關(guān)系分析、故障事件之間的依賴關(guān)系分析等。

      ④故障預(yù)測(cè)。是將傳統(tǒng)被動(dòng)的故障處理轉(zhuǎn)為基于智能預(yù)測(cè)的主動(dòng)式故障處理。簡(jiǎn)言之,除了事后或事中的異常檢測(cè)、故障定位及根因分析外,通過對(duì)歷史數(shù)據(jù)的分析建模,預(yù)判未來一段時(shí)間可能會(huì)出現(xiàn)的故障。這也是智能運(yùn)維區(qū)別于傳統(tǒng)運(yùn)維的一個(gè)關(guān)鍵點(diǎn):提前的預(yù)知、洞察甚至決策能力。故障預(yù)測(cè)主要分為四類[5]:基于時(shí)間預(yù)測(cè)、基于早期微小故障檢測(cè)、基于定性分析以及其他類型的方法,具體方法包含隱馬爾科夫模型、支持向量機(jī)、貝葉斯方法、隨機(jī)森林、循環(huán)神經(jīng)網(wǎng)絡(luò)及基于專家知識(shí)的方法。

      基于前述圖1智能運(yùn)維系統(tǒng)的邏輯架構(gòu),針對(duì)電信IPTV/OTT大視頻業(yè)務(wù)特點(diǎn),中興通訊對(duì)大視頻業(yè)務(wù)系統(tǒng)產(chǎn)生的各類信息進(jìn)行匯聚、分析、統(tǒng)計(jì)、預(yù)測(cè)等,形成了智能化的大視頻運(yùn)維系統(tǒng)[6],其架構(gòu)如圖2所示。

      圖2 電信IPTV/OTT大視頻智能運(yùn)維系統(tǒng)架構(gòu)圖

      電信大視頻智能運(yùn)維系統(tǒng)與前述智能運(yùn)維系統(tǒng)的定制化差異體現(xiàn)在兩個(gè)方面:數(shù)據(jù)源包括來自各種播放終端的播放記錄、關(guān)鍵績(jī)效指標(biāo)(KPI)、CDN(Content Delivery Network,內(nèi)容分發(fā)網(wǎng)絡(luò))網(wǎng)絡(luò)性能參數(shù)、IPTV/OTT業(yè)務(wù)系統(tǒng)監(jiān)控參數(shù)等多種數(shù)據(jù);業(yè)務(wù)應(yīng)用層主要提供智能業(yè)務(wù)監(jiān)測(cè)控制、端到端故障定界定位、用戶體驗(yàn)感知、統(tǒng)計(jì)分析與報(bào)表等典型業(yè)務(wù)應(yīng)用場(chǎng)景。接下來將結(jié)合兩個(gè)實(shí)際的應(yīng)用場(chǎng)景,闡述人工智能技術(shù)如何在大視頻運(yùn)維系統(tǒng)中解決產(chǎn)品實(shí)際問題,同時(shí)提升系統(tǒng)的運(yùn)維效率。

      2 機(jī)器學(xué)習(xí)技術(shù)在電信大視頻運(yùn)維中的應(yīng)用

      當(dāng)前,視頻業(yè)務(wù)發(fā)展已進(jìn)入“大內(nèi)容”、“大網(wǎng)絡(luò)”、“大數(shù)據(jù)”、“大生態(tài)”的大視頻時(shí)代。同時(shí),視頻業(yè)務(wù)以廣泛的受眾、高頻次的使用、較高的付費(fèi)意愿,已經(jīng)具備成為“殺手應(yīng)用” 的潛質(zhì),越來越多的電信運(yùn)營商將視頻業(yè)務(wù)如交互式網(wǎng)絡(luò)電視(IPTV)、基于互聯(lián)網(wǎng)電視(OTT TV)應(yīng)用服務(wù)視為發(fā)展的新機(jī)遇。如何在大視頻背景下保證最終用戶的體驗(yàn)質(zhì)量,特別是如何快速界定視頻業(yè)務(wù)系統(tǒng)故障和網(wǎng)絡(luò)故障、如何提前發(fā)現(xiàn)網(wǎng)絡(luò)隱患、如何發(fā)掘視頻業(yè)務(wù)運(yùn)營和利潤(rùn)的增長(zhǎng)點(diǎn),已成為運(yùn)營商對(duì)大視頻業(yè)務(wù)運(yùn)維的關(guān)注重點(diǎn)。

      2.1 基于機(jī)器學(xué)習(xí)的視頻質(zhì)差根因分析

      對(duì)于當(dāng)前大視頻業(yè)務(wù)來講,一個(gè)重要運(yùn)維場(chǎng)景就是由于某些網(wǎng)元故障引起終端用戶視頻體驗(yàn)質(zhì)量差(簡(jiǎn)稱為質(zhì)差,如圖3所示)并導(dǎo)致報(bào)障。此時(shí),需要在蜂擁而至的客戶端質(zhì)差報(bào)障和大量服務(wù)端KPI告警中快速定位出問題的根因,以便快速修復(fù)故障。

      圖3 視頻質(zhì)差根因分析的業(yè)務(wù)場(chǎng)景圖

      傳統(tǒng)的解決方案需要產(chǎn)品研發(fā)或運(yùn)維人員從系統(tǒng)各個(gè)模型的運(yùn)行日志中人為分析故障定位原因,不僅耗時(shí)也耗力。我們通過機(jī)器學(xué)習(xí)從歷史的故障樣本中自動(dòng)挖掘并構(gòu)建了故障定位的決策樹,從而達(dá)到快速定位質(zhì)差故障根因的目的。目前,在大視頻運(yùn)維系統(tǒng)中對(duì)機(jī)頂盒質(zhì)差根因分析,采用如圖4所示的技術(shù)路線。

      整體包括3個(gè)子系統(tǒng),即探針系統(tǒng)、數(shù)據(jù)規(guī)范系統(tǒng)、故障模式挖掘系統(tǒng);以上子系統(tǒng)分別在知識(shí)發(fā)現(xiàn)(離線建模)和故障判斷(在線推理)兩個(gè)過程中發(fā)揮作用。其中,知識(shí)發(fā)現(xiàn)過程由探針系統(tǒng)、數(shù)據(jù)規(guī)范系統(tǒng)和故障模式挖掘系統(tǒng)協(xié)作完成,故障判斷過程由探針系統(tǒng)、數(shù)據(jù)規(guī)范系統(tǒng)和故障判斷模型協(xié)作完成。

      1)探針系統(tǒng)。大視頻系統(tǒng)非常復(fù)雜、龐大,從用戶獲取節(jié)目列表到收看到視頻內(nèi)容,涉及到多個(gè)網(wǎng)元之間的協(xié)作通訊、內(nèi)容傳輸。如果用戶終端不能正常提供服務(wù),則故障可能出現(xiàn)在播放環(huán)節(jié)上的任何網(wǎng)元,因此,需要從各個(gè)網(wǎng)元持續(xù)采集運(yùn)行數(shù)據(jù)作為分析基礎(chǔ)。這套采集各個(gè)網(wǎng)元的系統(tǒng)就是探針系統(tǒng)。包括但不限于客戶端探針(采集客戶端碼率、卡頓情況、吞吐量、丟包率等等)、服務(wù)端探針(采集用戶連接數(shù)、服務(wù)器負(fù)載、內(nèi)存使用情況等等)、文件系統(tǒng)探針(采集IO負(fù)載和吞吐量、統(tǒng)計(jì)底層文件操作狀態(tài)等等)。此外,還有外部信息系統(tǒng)接口,能夠及時(shí)獲取無線、承載核心網(wǎng)的狀態(tài)以及運(yùn)營方對(duì)大視頻系統(tǒng)的維護(hù)變更記錄。

      2)數(shù)據(jù)規(guī)范系統(tǒng)。運(yùn)行數(shù)據(jù)是質(zhì)差分析的基礎(chǔ),由探針系統(tǒng)提取出來,但不能立即投入使用,因?yàn)楦鱾€(gè)網(wǎng)元的運(yùn)行數(shù)據(jù)格式不統(tǒng)一,且上報(bào)的間隔不一致。此時(shí),需要利用數(shù)據(jù)規(guī)范系統(tǒng)對(duì)其做出整合,合并故障發(fā)生時(shí)間附近的探針數(shù)據(jù)、形成告警事件(例如“最近30分鐘內(nèi)XX節(jié)點(diǎn)服務(wù)器CPU利用率高于同期各節(jié)點(diǎn)均值25%”,可以提取成“CPU利用率過高”事件;“最近5分鐘機(jī)頂盒卡頓次數(shù)超過5次”,可以提取成“機(jī)頂盒卡頓”事件)供后續(xù)分析挖掘。數(shù)據(jù)規(guī)范系統(tǒng)包括:客戶端事件提取、服務(wù)端事件提取、文件系統(tǒng)事件提取、外部系統(tǒng)事件提取等等。

      3)故障模式挖掘系統(tǒng)。在“知識(shí)發(fā)現(xiàn)過程”中,通過數(shù)據(jù)規(guī)范系統(tǒng)匯聚的事件數(shù)據(jù)在故障模式挖掘系統(tǒng)進(jìn)行知識(shí)發(fā)現(xiàn),生成“故障決策森林”模型。在“故障判斷過程”中,該模型將在未來新故障到來時(shí)給出故障根因判斷。具體的,“故障決策森林”模型由多顆“故障決策樹”組合,最后根因判斷結(jié)論由多顆“故障決策樹”(其結(jié)構(gòu)類似圖5)投票給出結(jié)論。故障決策樹的訓(xùn)練過程大致分為兩個(gè)步驟:①通過關(guān)聯(lián)規(guī)則挖掘方法(諸如Apriori[7]、FP-Tree[8]算法等),找出相同故障區(qū)域、故障類型條件的故障事件集合中的頻繁項(xiàng)集L,根據(jù)L中頻繁項(xiàng)集對(duì)應(yīng)事件E之間的時(shí)間順序以及最小置信度Minconf,確定是否為有效故障判定規(guī)則,將全部有效的故障判定規(guī)則合并為集合Rule;②將訓(xùn)練集中的每條故障事件遍歷,只保留存在于Rule中前導(dǎo)項(xiàng)的事件,加上故障區(qū)域?yàn)樽宰兞?,以故障類型為因變量,采用CART[9]算法,生成故障決策樹。

      圖4 大視頻質(zhì)差根因分析流程圖

      圖5 大視頻質(zhì)差故障決策樹示例圖

      以上通過關(guān)聯(lián)規(guī)則和時(shí)間約束剔除了大量無關(guān)事件對(duì)故障判斷的干擾,通過機(jī)器學(xué)習(xí)中的決策樹方法進(jìn)行非線性關(guān)系的捕捉能夠達(dá)到較高解釋性,最后通過機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)方法提高了泛化能力。在我司現(xiàn)網(wǎng)實(shí)際的運(yùn)行中,基于歷史積累的高質(zhì)量數(shù)據(jù),上述大視頻質(zhì)差根因分析解決方案可以大大減少運(yùn)維人員的工作量、提高了排查故障的準(zhǔn)確率和時(shí)效性,將之前長(zhǎng)達(dá)數(shù)小時(shí)的人工根因分析降低到數(shù)分鐘的自動(dòng)化根因分析,恢復(fù)時(shí)間縮短了75%。

      2.2 基于機(jī)器學(xué)習(xí)的CDN硬盤故障預(yù)判

      如圖3所示,在支撐大視頻業(yè)務(wù)的CDN運(yùn)行過程中,由于CDN存儲(chǔ)硬盤的使用率高引發(fā)硬盤故障,最終會(huì)導(dǎo)致用戶視頻體驗(yàn)質(zhì)差,現(xiàn)網(wǎng)超過一半以上的故障來源于此。針對(duì)CDN硬盤質(zhì)量監(jiān)控,如果能提前進(jìn)行故障預(yù)判并做好數(shù)據(jù)遷移和高危盤及時(shí)替換,對(duì)提升大視頻全網(wǎng)業(yè)務(wù)質(zhì)量具有重要的意義。

      當(dāng)前,自我監(jiān)測(cè)分析和報(bào)告技術(shù)(SMART)[10]已經(jīng)成為工業(yè)領(lǐng)域中硬盤驅(qū)動(dòng)狀態(tài)監(jiān)測(cè)和故障預(yù)警技術(shù)的事實(shí)標(biāo)準(zhǔn)。硬盤的一些屬性值如溫度、讀取錯(cuò)誤率等和硬盤是否發(fā)生故障有一定的關(guān)系。如果被檢測(cè)的屬性值超過預(yù)先設(shè)定的一個(gè)閾值,則會(huì)發(fā)出警報(bào)。然而,這種基于閾值的算法只能取得3%~10%的故障預(yù)測(cè)準(zhǔn)確率和低預(yù)警率[11]。學(xué)術(shù)界和工業(yè)界在采用機(jī)器學(xué)習(xí)方法提升SMART硬盤故障預(yù)測(cè)精度方面的工作由來已久,最新的研究工作更多是基于一些開源的SMART數(shù)據(jù)集進(jìn)行研究[12]。中興通訊基于現(xiàn)網(wǎng)多個(gè)IPTV/OTT局點(diǎn)硬盤SMART巡檢數(shù)據(jù),采用機(jī)器學(xué)習(xí)方式進(jìn)行故障建模與預(yù)測(cè),如圖6所示。

      1)數(shù)據(jù)清洗與標(biāo)注。硬盤SMART數(shù)據(jù)現(xiàn)網(wǎng)采集頻度為每天一次,SMART建模預(yù)測(cè)并不以某一天的瞬時(shí)值作為評(píng)判標(biāo)準(zhǔn),而是利用一段時(shí)間內(nèi)該硬盤掃描值的歷史波動(dòng)模式來判斷其異常的概率,因此,數(shù)據(jù)清洗主要將Agent采集的硬盤SMART日志進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換并按照每天掃描記錄按序排列,供后續(xù)建模或預(yù)測(cè)階段使用。

      2)基于機(jī)器學(xué)習(xí)的分析建模核心在于特征工程和模型訓(xùn)練。特征工程是決定預(yù)測(cè)效果的關(guān)鍵步驟。不但需要考慮觀測(cè)點(diǎn)當(dāng)時(shí)的SMART取值,也需要考慮該SMART取值的歷史變化趨勢(shì)、震蕩幅度、跳變頻率等因素。①高價(jià)值屬性獲取,采用“數(shù)據(jù)驅(qū)動(dòng)和領(lǐng)域知識(shí)相結(jié)合”的策略,一方面和硬盤硬件專家交流,另一方面,從數(shù)據(jù)驅(qū)動(dòng)的角度尋找對(duì)故障預(yù)測(cè)有幫助的SMART屬性,從故障硬盤的歷史SMART記錄集出發(fā),找出“故障硬盤和健康硬盤在該屬性上統(tǒng)計(jì)性質(zhì)存在不一致”的SMART屬性,最終選取18個(gè)原始SMART特征。②衍生時(shí)序特征生成,在找出具有提示性效果的高價(jià)值SMART屬性后,對(duì)其時(shí)序特征做進(jìn)一步衍生,包括基于窗口的分段均值、方差、變化率、香農(nóng)熵、排列熵等;經(jīng)過反復(fù)調(diào)整與驗(yàn)證,當(dāng)前的窗口設(shè)置分別是7/15/30天(如圖7所示)。③高價(jià)值特征選擇。通過前述的高價(jià)值屬性和衍生時(shí)序特征過程生成了多達(dá)1152個(gè)特征,這些特征并不都適合用在預(yù)測(cè)模型中。不合適的特征引入建模會(huì)帶來模型預(yù)測(cè)效果的降低,引發(fā)維度災(zāi)難。而通過網(wǎng)格搜索進(jìn)行窮舉特征組合,根本沒有可行性,同時(shí)需要針對(duì)當(dāng)前正負(fù)樣本嚴(yán)重不平衡的具體情況,優(yōu)化改進(jìn)特征選擇算法,使得系統(tǒng)可以在能夠承受的時(shí)間資源內(nèi),找到足夠好的特征組合。在此背景下,我們研發(fā)了改進(jìn)的隨機(jī)森林特征選擇算法,從該方法的輸出中探索可能有價(jià)值的組合模式,最后挑選出82個(gè)衍生特征。

      圖6 基于機(jī)器學(xué)習(xí)的硬盤SMART數(shù)據(jù)建模與故障預(yù)判

      模型訓(xùn)練:由于基于SMART記錄集做硬盤預(yù)測(cè)是一個(gè)高維分類問題,同時(shí)正負(fù)數(shù)據(jù)嚴(yán)重不平衡,采用線性分類模型往往沒有很好的結(jié)果,本文考慮采用構(gòu)造非線性模型來解決問題。在傳統(tǒng)隨機(jī)森林模型的基礎(chǔ)上進(jìn)行了改進(jìn),訓(xùn)練生成上百個(gè)決策樹的隨機(jī)森林模型。

      3)前述生成的預(yù)測(cè)模型上線部署預(yù)測(cè)并持續(xù)迭代更新。

      4)在線的準(zhǔn)實(shí)時(shí)預(yù)測(cè)。每天采集的SMART數(shù)據(jù)先按照步驟2進(jìn)行特征工程,然后輸入前述的預(yù)測(cè)模型中,計(jì)算目標(biāo)硬盤的故障概率并輸出。

      實(shí)際的預(yù)測(cè)效果如下:基于中國聯(lián)通某省的IPTV現(xiàn)網(wǎng)CDN硬盤連續(xù)3個(gè)月(2017年6~8月)的SMART數(shù)據(jù)建模(提前45天的故障預(yù)判),進(jìn)行連續(xù)3個(gè)月的預(yù)判測(cè)試,最終模型平均的準(zhǔn)確率為78%、召回率86%。與原先運(yùn)維系統(tǒng)中基于簡(jiǎn)單規(guī)則(人為選取幾個(gè)SMART屬性值大于某個(gè)閾值的組合規(guī)則)相比(準(zhǔn)確率15%左右)有顯著的提升效果。當(dāng)前的研究與試驗(yàn)表明基于機(jī)器學(xué)習(xí)的硬盤故障預(yù)判帶來明顯的技術(shù)優(yōu)勢(shì),后續(xù)將在我司全網(wǎng)多個(gè)IPTV/OTT局點(diǎn)進(jìn)行規(guī)模商用,同時(shí)積累更多的SMART運(yùn)行數(shù)據(jù)進(jìn)一步迭代提升模型的準(zhǔn)確性。

      圖7 SMART衍生時(shí)序特征的構(gòu)造方式

      3 結(jié)語

      ICT時(shí)代,無論對(duì)于運(yùn)營商網(wǎng)絡(luò)還是業(yè)務(wù)系統(tǒng)的運(yùn)維支撐,都需要加速與人工智能技術(shù)的結(jié)合落地,提供高度自動(dòng)化和智能化的運(yùn)維解決方案。智能運(yùn)維的未來將會(huì)是AIOps,但離完全基于人工智能的“全自動(dòng)化運(yùn)維”還有一定的距離。當(dāng)前,主要以基于機(jī)器學(xué)習(xí)建模的監(jiān)控、預(yù)測(cè)分析方法與基于人工規(guī)則相結(jié)合的“自動(dòng)化運(yùn)維”方式為主,可挖掘提升的空間還很大。特別的,對(duì)于大視頻運(yùn)維,未來除了實(shí)現(xiàn)更加智能化、精準(zhǔn)的故障預(yù)測(cè)和排查、主動(dòng)發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)中的故障或薄弱環(huán)節(jié)并加以自動(dòng)修復(fù)或提供輔助決策建議外,通過對(duì)視頻業(yè)務(wù)使用者的行為分析、家庭及用戶畫像等一系列的建模分析,充分挖掘海量數(shù)據(jù)的價(jià)值,衍生出新的業(yè)務(wù)形態(tài)、實(shí)現(xiàn)智能化的運(yùn)營系統(tǒng),為運(yùn)營商創(chuàng)造新的商機(jī),也將是大視頻智能運(yùn)維另一個(gè)重要發(fā)展方向。

      [1]Gartner.Market Guide for AIOps Platforms[EB/OL].(2017-08-03)[2018-01-30].https://www.gartner.com/doc/reprints?id=1-4CKWZWO&ct=170905

      [2]Gupta M,Gao J,Aggarwal C,et al.Outlier Detection for Temporal Data[M].Morgan & Claypool,2014

      [3]Liu F T,Kai M T,Zhou Z H.Isolation Forest[C]//2008 Eighth IEEE International Conference on Data Mining,2008:413-422

      [4]Breunig M M.LOF: identifying density-based local outliers[C]//ACM SIGMOD International Conference on Management of Data.ACM,2000:93-104

      [5]趙珍,王福利,賈明興,等.緩變故障的概率故障預(yù)測(cè)方法研究[J].控制與決策,2010,25(4):572-576

      [6]屠要峰,吉鋒,文韜.機(jī)器學(xué)習(xí)在大視頻運(yùn)維中的應(yīng)用[J].中興通訊技術(shù),2017,23(4):2-8

      [7]Han J,Pei J,Yin Y,et al.Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach[J].Data Mining & Knowledge Discovery,2004,8(1):53-87

      [8]Agrawal R,Imieli ski T,Swami A.Mining association rules between sets ofitems in large databases[C]// ACM SIGMOD International Conference on Management of Data.ACM,1993:207-216

      [9]Lewis R J.An Introduction to Classification and Regression Tree (CART) Analysis[C]//Annual Meeting of the Society for Academic Emergency Medicine,2000

      [10]Wikipedia.SMART(Self-Monitoring,Analysis and Reporting Technology) [EB/OL].(2018-01-16)[2018-01-30].https://en.wikipedia.org/wiki/S.M.A.R.T

      [11]Eckart B,Chen X,He X,et al.Failure Prediction Models for Proactive Fault Tolerance within Storage Systems[C]//IEEE International Symposium on Modeling,Analysis and Simulation of Computers and Telecommunication Systems.IEEE,2009:1-8

      [12]Botezatu M M,Giurgiu I,Bogojeska J,et al.Predicting Disk Replacement towards Reliable Data Centers[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2016:39-48

      猜你喜歡
      根因硬盤運(yùn)維
      根因分析法提高藥品不良反應(yīng)報(bào)告合格率
      HiFi級(jí)4K硬盤播放機(jī) 億格瑞A15
      Egreat(億格瑞)A10二代 4K硬盤播放機(jī)
      運(yùn)維技術(shù)研發(fā)決策中ITSS運(yùn)維成熟度模型應(yīng)用初探
      風(fēng)電運(yùn)維困局
      能源(2018年8期)2018-09-21 07:57:24
      基于矩陣編碼的自動(dòng)路測(cè)根因定位方法
      雜亂無章的光伏運(yùn)維 百億市場(chǎng)如何成長(zhǎng)
      能源(2017年11期)2017-12-13 08:12:25
      根因分析法在提高科室備用藥品質(zhì)量管理中的應(yīng)用
      基于ITIL的運(yùn)維管理創(chuàng)新實(shí)踐淺析
      高齡PICC導(dǎo)管堵塞的根因分析及護(hù)理對(duì)策
      临颍县| 湘西| 台北市| 北安市| 哈尔滨市| 定南县| 盐源县| 额济纳旗| 浦东新区| 无为县| 习水县| 富平县| 合作市| 海南省| 茂名市| 富源县| 凤庆县| 富民县| 文昌市| 潜江市| 增城市| 嘉鱼县| 富阳市| 盐山县| 正镶白旗| 新源县| 丹江口市| 定南县| 波密县| 左贡县| 大足县| 乐清市| 孟连| 财经| 页游| 南开区| 旬邑县| 永年县| 聂荣县| 霍邱县| 韶关市|