侯俊亮
(中國(guó)鐵路信息科技集團(tuán)有限公司 北京市 100844)
經(jīng)過(guò)40 多年的持續(xù)迭代,國(guó)鐵集團(tuán)及其所屬運(yùn)輸企業(yè)已經(jīng)建立了數(shù)以千計(jì)的信息系統(tǒng),信息系統(tǒng)已深入到鐵路生產(chǎn)與運(yùn)輸?shù)母鱾€(gè)環(huán)節(jié),生產(chǎn)作業(yè)對(duì)信息系統(tǒng)的依賴程度日益提升。信息系統(tǒng)投產(chǎn)運(yùn)行以后,確保其安全穩(wěn)定也是一項(xiàng)長(zhǎng)期而艱巨的任務(wù),一旦信息系統(tǒng)發(fā)生故障,可能會(huì)嚴(yán)重影響鐵路的正常生產(chǎn)經(jīng)營(yíng)活動(dòng),并有可能造成重大社會(huì)影響或經(jīng)濟(jì)損失。
目前,以ITIL 體系架構(gòu)為核心,鐵路運(yùn)營(yíng)維護(hù)服務(wù)已基本建立起標(biāo)準(zhǔn)化、流程化的運(yùn)行維護(hù)管理體系,以確保鐵路業(yè)務(wù)安全、穩(wěn)定和可用[1-2]。但是,與國(guó)內(nèi)外先進(jìn)行業(yè)相比,鐵路信息系統(tǒng)的運(yùn)行維護(hù)存在一定差距,主要表現(xiàn)在:一是運(yùn)維流程尚未實(shí)現(xiàn)業(yè)務(wù)全覆蓋,部分工作流程不規(guī)范;二是技術(shù)支持手段分散獨(dú)立,端到端可視化程度不高,自動(dòng)化水平較低;三是故障分析、故障自愈、態(tài)勢(shì)感知等智能化運(yùn)維手段尚未投入使用,部分運(yùn)維工作呈現(xiàn)被動(dòng)、滅火狀態(tài)。
隨著鐵路主數(shù)據(jù)中心的建成投產(chǎn),鐵路局級(jí)信息系統(tǒng)逐步上移,另外,云計(jì)算、大數(shù)據(jù)等新技術(shù)、新業(yè)態(tài)也日趨成熟,業(yè)務(wù)部門對(duì)鐵路運(yùn)行維護(hù)的要求日趨增高,鐵路分級(jí)分層運(yùn)營(yíng)維護(hù)的局限性也日益凸顯[3]。因此,改善鐵路信息系統(tǒng)運(yùn)維現(xiàn)狀,構(gòu)建一套統(tǒng)一、集中、高效、完善的運(yùn)行維護(hù)體系,保障鐵路信息系統(tǒng)長(zhǎng)期安全穩(wěn)定運(yùn)行顯得尤為迫切。主要包括三個(gè)方面:
(1)在客戶服務(wù)方面,要通過(guò)客戶服務(wù)部門向內(nèi)部用戶提供統(tǒng)一的技術(shù)支援;
(2)在運(yùn)維調(diào)度方面,要實(shí)現(xiàn)日常運(yùn)行維護(hù)流程的自動(dòng)化、智能化;
(3)在應(yīng)急指揮方面,要基于應(yīng)急平臺(tái)集中開展應(yīng)急指揮與救援組織。
通過(guò)對(duì)鐵路運(yùn)維調(diào)度和應(yīng)急指揮平臺(tái)的客戶服務(wù)、運(yùn)維調(diào)度以及應(yīng)急指揮等關(guān)鍵技術(shù)的研究,充分運(yùn)用云計(jì)算、智能化、大數(shù)據(jù)等先進(jìn)技術(shù),建立集中統(tǒng)一的運(yùn)維調(diào)度和應(yīng)急指揮中心,集中受理全路信息系統(tǒng)客戶服務(wù)需求,統(tǒng)一調(diào)度運(yùn)維資源,統(tǒng)一指揮故障應(yīng)急處置,以支撐鐵路業(yè)務(wù)的迅速發(fā)展。
1956年,泛美航空首次提出客戶服務(wù),即通過(guò)電話進(jìn)行客戶服務(wù)、營(yíng)銷等商業(yè)活動(dòng),主要用于訂購(gòu)機(jī)票,此后,這種服務(wù)形式逐漸被各行各業(yè)所青睞[4]。經(jīng)過(guò)60 余年的發(fā)展,客戶服務(wù)已從最初的人工客服熱線發(fā)展成以互聯(lián)網(wǎng)為基礎(chǔ)的多媒體服務(wù)。
基于主流的客服體系架構(gòu),結(jié)合鐵路業(yè)務(wù)自身特點(diǎn),提出鐵路智能客服規(guī)范體系:利用90800 熱線,在國(guó)鐵集團(tuán)本級(jí)集中接入全路服務(wù)電話,首先由智能機(jī)器人應(yīng)答常見問題,如需轉(zhuǎn)接人工咨詢,則根據(jù)設(shè)定的路由規(guī)則,將來(lái)電自動(dòng)分派至所屬鐵路局客服坐席,進(jìn)行人工應(yīng)答。在會(huì)話過(guò)程中,利用智能語(yǔ)音識(shí)別技術(shù),針對(duì)用戶咨詢的問題,實(shí)時(shí)為人工坐席提供智能的參考解決方案,同時(shí),平臺(tái)全程對(duì)客戶服務(wù)進(jìn)行語(yǔ)音質(zhì)檢。智能服務(wù)平臺(tái)業(yè)務(wù)全景如圖1所示。
圖1:智能客服平臺(tái)業(yè)務(wù)全景
智能客服平臺(tái)架構(gòu)分為數(shù)據(jù)層、引擎層、服務(wù)層和業(yè)務(wù)層。基于數(shù)據(jù)層收集平臺(tái)日志、各項(xiàng)知識(shí)庫(kù)等相關(guān)業(yè)務(wù)數(shù)據(jù),通過(guò)引擎層提供對(duì)外語(yǔ)音、語(yǔ)義引擎,為服務(wù)層的智能語(yǔ)音應(yīng)答、智能質(zhì)檢和在線咨詢機(jī)器人提供支撐,最終為應(yīng)答、報(bào)障、咨詢、調(diào)研、自助接線等實(shí)際業(yè)務(wù)提供服務(wù),另一方面,針對(duì)具體的業(yè)務(wù)需求,通過(guò)接口網(wǎng)關(guān)與其他系統(tǒng)進(jìn)行信息交換。智能客服平臺(tái)架構(gòu)如圖2所示。
圖2:智能客服平臺(tái)總體架構(gòu)
智能語(yǔ)音導(dǎo)航基于智能引擎,錄入專業(yè)知識(shí),并對(duì)日常數(shù)據(jù)進(jìn)行學(xué)習(xí)、訓(xùn)練、修正,包含語(yǔ)音識(shí)別、自然語(yǔ)言理解、服務(wù)推薦等智能服務(wù)組件,實(shí)現(xiàn)智能語(yǔ)音導(dǎo)航、智能知識(shí)匹配與協(xié)助和智能咨詢回復(fù)[5]。
智能語(yǔ)音導(dǎo)航為客戶提供7*24 小時(shí)熱線服務(wù),可精準(zhǔn)識(shí)別客戶意圖,并根據(jù)客戶意圖自動(dòng)匹配自助服務(wù)或快速轉(zhuǎn)接人工坐席,以說(shuō)代按,避免傳統(tǒng)繁瑣的IVR 按鍵。在智能語(yǔ)音導(dǎo)航中,客戶只需口述問題,即可獲取所需服務(wù),另一方面,智能機(jī)器人也可自動(dòng)應(yīng)答、解決咨詢和投訴、情緒安撫、轉(zhuǎn)接人工坐席??商峁┑姆?wù)主要包括關(guān)鍵詞識(shí)別與響應(yīng)、情緒安撫響應(yīng)、FAQ 應(yīng)答、人工客服轉(zhuǎn)接、靜音識(shí)別、兜底話術(shù)等。
(1)關(guān)鍵詞識(shí)別與響應(yīng)。主要用于敏感詞和緊急新增業(yè)務(wù)場(chǎng)景,包括系統(tǒng)關(guān)鍵詞(如整治、宗教、迷信等,當(dāng)用戶咨詢包含這些關(guān)鍵詞時(shí),平臺(tái)自動(dòng)優(yōu)先攔截應(yīng)答,以避免整治風(fēng)險(xiǎn))和自定義關(guān)鍵詞(客服人員為提高工作效率自定義的一套關(guān)鍵詞)。
(2)情緒安撫應(yīng)答。安撫用戶在咨詢、投訴過(guò)程中所產(chǎn)生的負(fù)面情緒,平臺(tái)將語(yǔ)音情緒模型與語(yǔ)義情緒模型結(jié)合,多維度識(shí)別用戶負(fù)面情感、情感濃度,根據(jù)實(shí)際場(chǎng)景對(duì)用戶進(jìn)行適當(dāng)?shù)陌矒峄虬葱柁D(zhuǎn)接人工坐席。
(3)FAQ 應(yīng)答?;赒(Question,用戶問法)和A(Answer機(jī)器人答案),實(shí)現(xiàn)應(yīng)答機(jī)器人自動(dòng)應(yīng)答,適用于簡(jiǎn)單的一問一答以及大部分知識(shí)檢索,常見模式包括FAQ、詞匹配、句匹配[6]。
(4)人工客服轉(zhuǎn)接。對(duì)于應(yīng)答機(jī)器人回答不了的特殊問題或復(fù)雜問題,應(yīng)答機(jī)器人通過(guò)語(yǔ)音指令自動(dòng)識(shí)別,快速轉(zhuǎn)接到人工坐席,實(shí)現(xiàn)人工與機(jī)器系統(tǒng)高效協(xié)作、無(wú)縫銜接。
(5)靜音識(shí)別。當(dāng)用戶不說(shuō)話時(shí),機(jī)器人自動(dòng)識(shí)別場(chǎng)景,并默認(rèn)重復(fù)播報(bào)三次后掛斷,以提示、引導(dǎo)用戶進(jìn)行交流,讓客服過(guò)程更加智能化,極大地提高服務(wù)效率。
(6)兜底話術(shù)。當(dāng)用戶咨詢的問題超出應(yīng)答機(jī)器人知識(shí)范圍時(shí),應(yīng)答機(jī)器人統(tǒng)一容錯(cuò)反饋,確保服務(wù)能夠在底線范圍內(nèi)。
基于語(yǔ)音識(shí)別、自然語(yǔ)言理解和多位情感分析等技術(shù),平臺(tái)對(duì)服務(wù)過(guò)程中的錄音進(jìn)行處理,再利用數(shù)據(jù)分析構(gòu)建數(shù)據(jù)分析模型,分析熱點(diǎn)問題,以便統(tǒng)計(jì)用戶咨詢問題的趨勢(shì)變化以及問題分布[7]。
3.4.1 熱詞分析
自動(dòng)統(tǒng)計(jì)自定義時(shí)間范圍內(nèi)除水詞外的轉(zhuǎn)義文本,利用數(shù)據(jù)分析,計(jì)算出高頻詞語(yǔ)和短語(yǔ),分析、統(tǒng)計(jì)潛在客戶關(guān)注的熱點(diǎn)問題,以便提高客戶服務(wù)質(zhì)量。熱詞分析如圖3所示。
圖3:熱詞分析
3.4.2 聚類分析
搜集客戶服務(wù)過(guò)程中的原始會(huì)話日志,再利用機(jī)器學(xué)習(xí)進(jìn)行聚類分析,自動(dòng)識(shí)別原始會(huì)話日志的結(jié)構(gòu)模式,讓質(zhì)檢和管理人員全方位了解來(lái)電詳情,以便了解客戶喜好。
3.4.3 關(guān)聯(lián)性分析
針對(duì)會(huì)話中的關(guān)鍵詞,利用統(tǒng)計(jì)方法分析并展示上下文可能的關(guān)聯(lián)性詞匯,確定實(shí)體之間的關(guān)系,選擇標(biāo)簽?zāi)P瓦M(jìn)行交互分析,更有利于質(zhì)檢人員全方位分析各種屬性與行為之間的相關(guān)性,從而發(fā)現(xiàn)當(dāng)前存在的業(yè)務(wù)問題,其應(yīng)用場(chǎng)景包括呼叫情緒、侮辱性詞語(yǔ)及其他特定語(yǔ)音的識(shí)別。
梳理不同流程之間的關(guān)系,完善多部門、多單位間的流程聯(lián)動(dòng),提高運(yùn)維工作效率,能夠快速應(yīng)對(duì)運(yùn)維工作面臨的各項(xiàng)挑戰(zhàn)[8]。隨著鐵路內(nèi)部組織機(jī)構(gòu)、職責(zé)分工、應(yīng)用系統(tǒng)架構(gòu)等的升級(jí)調(diào)整,運(yùn)維調(diào)度管理流程也需隨之優(yōu)化改進(jìn),以滿足運(yùn)維需求。
運(yùn)維調(diào)度管理流程主要涉及運(yùn)維計(jì)劃、變更管理等,運(yùn)維工作需遵循既定的流程開展。
(1)運(yùn)維計(jì)劃。根據(jù)實(shí)際工作制定全路一體化運(yùn)維計(jì)劃,優(yōu)化運(yùn)維作業(yè)組織,提升運(yùn)維作業(yè)質(zhì)量,提高運(yùn)維工作效率。主要包括計(jì)劃制定,計(jì)劃審批、計(jì)劃執(zhí)行、計(jì)劃跟蹤、計(jì)劃監(jiān)督。具體來(lái)說(shuō),首先由全路各級(jí)運(yùn)維單位制定年度運(yùn)維計(jì)劃,經(jīng)過(guò)國(guó)鐵集團(tuán)運(yùn)維管理部門審批后,再按月制定月度運(yùn)維計(jì)劃,經(jīng)過(guò)本級(jí)運(yùn)維管理部門審批后,按計(jì)劃開展各項(xiàng)運(yùn)行維護(hù)工作,對(duì)運(yùn)維作業(yè)期間發(fā)現(xiàn)的問題執(zhí)行閉環(huán)管理,運(yùn)維管理部門負(fù)責(zé)對(duì)運(yùn)維計(jì)劃的執(zhí)行進(jìn)行監(jiān)督、檢查。信息系統(tǒng)運(yùn)維計(jì)劃流程如圖4所示。
圖4:信息系統(tǒng)運(yùn)維計(jì)劃流程
(2)變更管理。變更管理主要是確保信息系統(tǒng)中的變更得到合理評(píng)估、批準(zhǔn),再以監(jiān)督和受控的方式實(shí)施,且變更可追溯,從而最大限度地降低變更風(fēng)險(xiǎn)。變更流程主要包括變更準(zhǔn)備、變更申請(qǐng)、變更審批、變更實(shí)施、變更總結(jié)。具體如下:一是變更準(zhǔn)備,申請(qǐng)單位提出變更需求,依據(jù)需求編制變更實(shí)施方案,并進(jìn)行方案驗(yàn)證。二是變更申請(qǐng),根據(jù)變更的影響范圍、時(shí)間、程度等因素確定變更級(jí)別,將實(shí)施方案提交至運(yùn)維管理部門。三是變更審批。運(yùn)維管理部門評(píng)估方案是否可行,研究變更風(fēng)險(xiǎn),完成變更方案審批,審批通過(guò)后,即可納入下一階段的施工計(jì)劃,并進(jìn)行統(tǒng)一管理。四是變更實(shí)施。申請(qǐng)單位按期開展變更施工,運(yùn)維管理部門負(fù)責(zé)施工監(jiān)督,避免施工超期、超限。五是變更總結(jié)。申請(qǐng)單位施工完成后,及時(shí)分析總結(jié)變更經(jīng)驗(yàn),同時(shí)更新配置庫(kù)。變更流程如圖5所示。
圖5:變更流程
日常運(yùn)維工作均需以運(yùn)維工單形式開展,以保證運(yùn)維工作規(guī)范、可控和可追溯,并由運(yùn)維管理部門統(tǒng)一進(jìn)行監(jiān)督、考評(píng),實(shí)現(xiàn)閉環(huán)管理。
(1)工單生成。根據(jù)業(yè)務(wù)需求,通過(guò)運(yùn)維計(jì)劃、施工計(jì)劃自動(dòng)創(chuàng)建工單,或由客服平臺(tái)、一鍵報(bào)障手動(dòng)創(chuàng)建工單。
(2)工單流轉(zhuǎn)受理。根據(jù)運(yùn)維計(jì)劃、施工計(jì)劃,審核運(yùn)維工單的歸屬、性質(zhì)、負(fù)責(zé)人、實(shí)施時(shí)間、實(shí)施內(nèi)容等,再流轉(zhuǎn)至承辦人進(jìn)行受理。
(3)工單執(zhí)行。承辦人可查看待辦、關(guān)注、參與的工單,對(duì)派發(fā)的工單填報(bào)處理詳細(xì)信息并提交反饋。
(4)工單督辦。根據(jù)工單辦理時(shí)效,采用郵件、APP、智能外呼、站內(nèi)信等方式,將工單催辦提醒消息發(fā)送至承辦人。
(5)工單關(guān)閉。處理完畢并經(jīng)審核通過(guò)后,關(guān)閉已處理工單。
(6)工單管理。按用戶角色、工單類型、工單狀態(tài)、流轉(zhuǎn)狀態(tài)、今日新增數(shù)、本周待處理、本周逾期數(shù)、工單解決率、待處理工單優(yōu)先級(jí)等條件進(jìn)行查詢與統(tǒng)計(jì)。
應(yīng)急指揮機(jī)制是鐵路系統(tǒng)應(yīng)急管理工作的基礎(chǔ),一個(gè)統(tǒng)一、高效、協(xié)調(diào)的應(yīng)急管理機(jī)制,在應(yīng)對(duì)突發(fā)的自然災(zāi)害、緊急事件中起關(guān)鍵作用,可最大限度的降低社會(huì)影響和經(jīng)濟(jì)損失[9]。
為應(yīng)對(duì)鐵路信息系統(tǒng)架構(gòu)日趨復(fù)雜、運(yùn)行效率需求日益提高、運(yùn)維單位穩(wěn)步增加等現(xiàn)狀,聯(lián)合鐵路內(nèi)各級(jí)運(yùn)維單位技術(shù)資源和路外相關(guān)廠家力量開展綜合應(yīng)急處置很有必要。開展統(tǒng)一規(guī)范的智能化應(yīng)急指揮機(jī)制研究,匯聚信息系統(tǒng)全量運(yùn)維數(shù)據(jù),綜合運(yùn)用AI、云計(jì)算和大數(shù)據(jù)等技術(shù),對(duì)各類安全事件的響應(yīng)和處置指揮進(jìn)行統(tǒng)一調(diào)度,實(shí)現(xiàn)事件等級(jí)判定智能化,突發(fā)事件處置自動(dòng)化記錄和評(píng)估。智能化應(yīng)急指揮機(jī)制主要包括以下環(huán)節(jié):
(1)指揮調(diào)度。依托基礎(chǔ)數(shù)據(jù)庫(kù)和基礎(chǔ)系統(tǒng),綜合利用電話、網(wǎng)絡(luò)、視頻會(huì)議、遠(yuǎn)程會(huì)商等手段,對(duì)相關(guān)運(yùn)維單位的人員、物資等進(jìn)行統(tǒng)一指揮調(diào)度,確保突發(fā)事件處理的及時(shí)、有效。
(2)預(yù)案管理。針對(duì)重要的應(yīng)急場(chǎng)景,全方位模擬各種應(yīng)急場(chǎng)景,對(duì)場(chǎng)景進(jìn)行分析,提出針對(duì)性的解決方案,并進(jìn)行多次場(chǎng)景模擬演練,在規(guī)定時(shí)間內(nèi)恢復(fù)業(yè)務(wù),通過(guò)每次的演練結(jié)果,不斷迭代優(yōu)化解決方案,以便提高應(yīng)急效率。
(3)應(yīng)急方案。利用大數(shù)據(jù)分析構(gòu)建處置模型,并對(duì)預(yù)案進(jìn)行信息化、流程化處理,當(dāng)事件發(fā)生時(shí),根據(jù)處置模型實(shí)時(shí)生成處置預(yù)案,輔助人工完成監(jiān)測(cè)監(jiān)控、綜合研判、制定方案、指揮調(diào)度、事件預(yù)測(cè)等工作。
(4)應(yīng)急處置??焖俜治鐾话l(fā)事件的影響范圍,判定事件等級(jí),以恢復(fù)業(yè)務(wù)為第一要?jiǎng)?wù),優(yōu)先采用系統(tǒng)切換方式進(jìn)行應(yīng)急處置,同時(shí)對(duì)事件進(jìn)行分析診斷,達(dá)到預(yù)定條件提升事件等級(jí),啟動(dòng)應(yīng)急預(yù)案,業(yè)務(wù)恢復(fù)后關(guān)閉事件。參與人員包括一線值班人員、二線技術(shù)專家、三線服務(wù)商、應(yīng)急指揮小組和應(yīng)急決策小組。
(5)應(yīng)急資源。建立應(yīng)急資料庫(kù),收錄各級(jí)、各類類應(yīng)急預(yù)案及相關(guān)法律、法規(guī)、文件、典型案例等資料,為應(yīng)急指揮調(diào)度提供知識(shí)保障;建立應(yīng)急資源庫(kù),收錄專家資源、物資儲(chǔ)備分布、裝備管理、通信保障等資源,并進(jìn)行動(dòng)態(tài)管理,為應(yīng)急指揮調(diào)度提供物質(zhì)保障。
根據(jù)事件現(xiàn)象、應(yīng)急預(yù)案、知識(shí)庫(kù)、CMDB,運(yùn)用預(yù)測(cè)預(yù)警模型對(duì)各類突發(fā)事件的發(fā)展情況、影響范圍、影響方式、持續(xù)時(shí)間和危害程度等進(jìn)行智能分析、綜合研判和預(yù)警分級(jí)。
海恩法則表明,事件的出現(xiàn)通常是一個(gè)循序漸進(jìn)的過(guò)程,如網(wǎng)絡(luò)事件,在網(wǎng)絡(luò)不可用之前,往往會(huì)有經(jīng)常丟包的現(xiàn)象。事件預(yù)測(cè)主要通過(guò)特性數(shù)據(jù)對(duì)預(yù)測(cè)算法進(jìn)行訓(xùn)練學(xué)習(xí),提前預(yù)測(cè)相關(guān)指標(biāo)劣化趨勢(shì),避免服務(wù)受損,常見的有磁盤故障預(yù)測(cè)、內(nèi)存泄露預(yù)測(cè)、網(wǎng)絡(luò)故障預(yù)測(cè)等,故障預(yù)測(cè)算法和指標(biāo)異常檢測(cè)算法較為類似,可采用Holt-Winters、ARIMA、指數(shù)平滑、LSTM 等算法。
5.2.1 事件的分類
信息系統(tǒng)事件可以定義為指標(biāo)事件和系統(tǒng)事件。指標(biāo)事件指某個(gè)設(shè)備、操作系統(tǒng)或軟件的某個(gè)監(jiān)控指標(biāo)異常;系統(tǒng)事件指因?yàn)橐粋€(gè)或者多個(gè)指標(biāo)事件、以及在不確定是否與指標(biāo)事件是否有關(guān)系的情況下,某個(gè)業(yè)務(wù)系統(tǒng)出現(xiàn)的事件。
5.2.2 事件的變量
事件定級(jí)要考慮的變量包括事件的影響群體、影響范圍、影響程度和影響時(shí)段等。影響群體指業(yè)務(wù)分類,可分為一類、二類、三類業(yè)務(wù)等;影響范圍定義系統(tǒng)用戶范圍,可劃分為全路、某些鐵路局、國(guó)鐵級(jí)、局內(nèi)部分區(qū)域等;影響程度表示受損的功能或性能,包括核心功能、輔助功能、性能下降等;影響時(shí)段表示事件持續(xù)的時(shí)長(zhǎng),如:0min-30min、30min-60min、60min-180min、180min 及以上。
5.2.3 事件的定級(jí)
綜合分析上述影響群體、影響范圍、影響程度和影響時(shí)段四個(gè)事件變量,即可對(duì)事件進(jìn)行評(píng)級(jí)。事件的定級(jí)如圖6所示。
圖6:事件的定級(jí)
5.2.4 事件的智能分析預(yù)測(cè)
針對(duì)指標(biāo)事件,可對(duì)歷史事件內(nèi)容進(jìn)行自學(xué)習(xí),具體如下:首先,將該事件轉(zhuǎn)化為多KPI 異常檢測(cè)問題,收集某一監(jiān)控實(shí)體(如機(jī)器)的各類監(jiān)控指標(biāo),然后利用變分自編碼算法VAE對(duì)多KPI進(jìn)行建模,描繪機(jī)器的正常行為,精確識(shí)別出該機(jī)器正常作業(yè)下KPI 的聯(lián)動(dòng)模式,最后檢測(cè)未來(lái)多KPI 違反歷史規(guī)律的行為,在出現(xiàn)突發(fā)事件時(shí)進(jìn)行準(zhǔn)確預(yù)警[10]。
多KPI 異常檢測(cè)算法可分為三個(gè)步驟:二維數(shù)據(jù)構(gòu)造、VAE訓(xùn)練正常模式、判斷數(shù)據(jù)和正常的偏差。多KPI 異常檢測(cè)算法如圖7所示。
圖7:多KPI 異常檢測(cè)算法
(1)將多個(gè)KPI 窗口構(gòu)建為二維數(shù)組,作為VAE 的輸入,數(shù)學(xué)表達(dá)式如圖8所示。
圖8:二維數(shù)組構(gòu)造
(2)在VAE 算法中采用卷積和反卷積網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過(guò)訓(xùn)練得到多KPI 數(shù)據(jù)的正常模式。
(3)檢測(cè)數(shù)據(jù)中和正常模式偏離較大的部分視為異常。
其核心算法是變分自編碼算法VAE,VAE 算法使用了變分推理方法的深度貝葉斯網(wǎng)絡(luò),同時(shí)又符合自動(dòng)編碼器的基本結(jié)構(gòu)[11]。如圖9所示,以VAE 算法在單維數(shù)據(jù)輸入上的表現(xiàn)效果為例,能夠很好地過(guò)濾掉異常行為,保留正常行為。通過(guò)降維強(qiáng)迫多條KPI曲線將關(guān)聯(lián)特性編碼在低維z 空間內(nèi),非常適用于挖掘多KPI 之間的聯(lián)動(dòng)關(guān)系,從而進(jìn)行多KPI 的反常行為檢測(cè),用于早期識(shí)別機(jī)器故障識(shí)別。
圖9:VAE 算法在單維數(shù)據(jù)輸入上的表現(xiàn)效果
5.2.5 事件的主動(dòng)分析和跟蹤技術(shù)
如果事件的級(jí)別較低且一直未解決,或者事件級(jí)別不斷升高,則進(jìn)入自動(dòng)監(jiān)控模式,督促運(yùn)維人員進(jìn)行處置。
5.2.6 事件影響拓?fù)鋱D
當(dāng)出現(xiàn)應(yīng)急事件時(shí),系統(tǒng)基于關(guān)系推導(dǎo)、集群高可用分析、故障等級(jí)自動(dòng)判別等進(jìn)行多維度分析,并根據(jù)應(yīng)用拓?fù)?,以圖形化的方式直觀的展示事件的業(yè)務(wù)和基礎(chǔ)設(shè)施資源影響范圍,運(yùn)維人員則根據(jù)事件影響的可視化拓?fù)鋱D,準(zhǔn)確判斷當(dāng)前事件的緊急程度和嚴(yán)重性,以正確、及時(shí)應(yīng)對(duì)故障事件。
將應(yīng)急處置相關(guān)知識(shí)采集入知識(shí)庫(kù),一方面可實(shí)現(xiàn)應(yīng)急處置知識(shí)的積累沉淀和共享輸出,另一方面通過(guò)智能挖掘?qū)W習(xí)知識(shí)內(nèi)容,為后續(xù)事件處置提供引導(dǎo)式服務(wù),智能推薦解決方案,能夠縮短故障解決時(shí)間。
要實(shí)現(xiàn)智能發(fā)布和服務(wù)推送,需要從應(yīng)急指揮、事件推演的源頭場(chǎng)景出發(fā),同時(shí)考慮場(chǎng)景、用戶和內(nèi)容的特殊性,從信息交互層、任務(wù)執(zhí)行層、信息挖掘?qū)尤龑訕?gòu)建智能發(fā)布服務(wù)和推送模型。具體如下:
(1)信息交互層。用戶或系統(tǒng)以語(yǔ)音、文字等方式將信息輸送給服務(wù),并將其作為數(shù)據(jù)源,提交到任務(wù)執(zhí)行層。
(2)任務(wù)執(zhí)行層。實(shí)現(xiàn)針對(duì)信息交互層提交數(shù)據(jù)的各類動(dòng)作,包括垂直搜索、開放式聊天、綜合搜索等,其內(nèi)容來(lái)自信息挖掘?qū)印?/p>
(3)信息挖掘?qū)印X?fù)責(zé)信息、知識(shí)的抽取、組織和查詢,并根據(jù)用戶喜好對(duì)知識(shí)庫(kù)進(jìn)行個(gè)性化整理。
本文首先分析了鐵路信息系統(tǒng)運(yùn)維調(diào)度與應(yīng)急管理的現(xiàn)狀,提出了運(yùn)維調(diào)度與應(yīng)急指揮平臺(tái)的建設(shè)目標(biāo),然后從智能客戶服務(wù)平臺(tái)、運(yùn)維調(diào)度管理優(yōu)化和應(yīng)急指揮機(jī)制及事件智能化推薦三個(gè)方面對(duì)運(yùn)維調(diào)度與應(yīng)急指揮平臺(tái)關(guān)鍵技術(shù)進(jìn)行了分析研究,并簡(jiǎn)要闡述了關(guān)鍵技術(shù)的應(yīng)用場(chǎng)景,為運(yùn)維調(diào)度與應(yīng)急指揮平臺(tái)的建設(shè)提供了技術(shù)思路。