何璐璐 杜智超 嵇 聰 章 勇 劉 璐
1 中國(guó)移動(dòng)通信集團(tuán)云南有限公司 昆明 650228
2 中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司重慶分公司 重慶 401121
在運(yùn)營(yíng)商傳統(tǒng)網(wǎng)絡(luò)運(yùn)維中,因智慧維護(hù)演進(jìn)路線及自智分級(jí)評(píng)估不明確,較難對(duì)無線網(wǎng)絡(luò)運(yùn)維域中各項(xiàng)核心能力、子場(chǎng)景進(jìn)行有效評(píng)價(jià),導(dǎo)致出現(xiàn)實(shí)際工作目標(biāo)不清晰、資源投放精準(zhǔn)性不高等問題,嚴(yán)重影響網(wǎng)絡(luò)運(yùn)維的效率和成本。針對(duì)現(xiàn)有維護(hù)域的工作模式,在TM Forum自動(dòng)駕駛網(wǎng)絡(luò)分級(jí)框架的指導(dǎo)原則下,依據(jù)集團(tuán)自智能力分級(jí)細(xì)則,并結(jié)合省內(nèi)智慧網(wǎng)絡(luò)運(yùn)維管理的實(shí)際需求出發(fā),亟需構(gòu)建智慧維護(hù)平臺(tái),由被動(dòng)處理問題改為積極預(yù)防問題,從而提高整體資源的利用率和維護(hù)效率,實(shí)現(xiàn)2025年L4的整體智能水平。
TM Forum自動(dòng)駕駛網(wǎng)絡(luò)旨在面向消費(fèi)者和垂直行業(yè)客戶提供全自動(dòng)、零等待、零接觸、零故障的創(chuàng)新網(wǎng)絡(luò)服務(wù)與ICT業(yè)務(wù),打造自服務(wù)、自修復(fù)、自優(yōu)化的通信網(wǎng)絡(luò),為通信網(wǎng)絡(luò)運(yùn)維數(shù)智化轉(zhuǎn)型明晰了目標(biāo)架構(gòu)和實(shí)現(xiàn)路徑[1]。自智網(wǎng)絡(luò)目標(biāo)框架如圖1所示。
圖1 自智網(wǎng)絡(luò)目標(biāo)框架
結(jié)合自動(dòng)化基礎(chǔ)理論和通信網(wǎng)絡(luò)特征,完成分級(jí)方法標(biāo)準(zhǔn)制定,基本形成產(chǎn)業(yè)共識(shí),并在網(wǎng)絡(luò)運(yùn)維層面,已進(jìn)一步細(xì)化形成相對(duì)完善的分級(jí)評(píng)估體系,開展規(guī)模評(píng)估驗(yàn)證,如圖2所示。分級(jí)評(píng)估體系的制定過程包括以下四個(gè)方面:1)流程抽象:基于自動(dòng)化/智能化基礎(chǔ)理論,抽象出網(wǎng)絡(luò)管控通用工作流程;2)確定原則:以“系統(tǒng)”替代“人工”完成工作流程的自主程度作為智能化水平評(píng)判基本原則;3)制定方法:根據(jù)各流程的需求優(yōu)先級(jí)和產(chǎn)業(yè)成熟度,制定其在分級(jí)方法中的演進(jìn)順序、代際特征;4)評(píng)估量化:對(duì)單點(diǎn)應(yīng)用/任務(wù)流程分別評(píng)估確定級(jí)別,對(duì)評(píng)估范圍整體進(jìn)行綜合量化統(tǒng)計(jì)。
圖2 自智網(wǎng)絡(luò)分級(jí)方法和代際特征
其中圖2中自智網(wǎng)絡(luò)等級(jí)L0-L5具體內(nèi)容如下。
L0:全流程人工完成。
L1:輔助人工,在執(zhí)行和感知環(huán)節(jié)實(shí)現(xiàn)線上采集(記錄),提高工作效率。
L2:自主執(zhí)行,依賴人工預(yù)定義的固化規(guī)則輔助感知和分析過程。
L3:自主感知,根據(jù)人工配置/編排的規(guī)則(規(guī)則解耦),輔助分析/決策。
L4:自主分析/決策,根據(jù)用戶意圖需求自動(dòng)生成規(guī)則/策略(規(guī)則注智)。
L5:全流程智能化,具備完全意圖管理能力,實(shí)現(xiàn)自動(dòng)演進(jìn)。
以某省為例,2021年底省內(nèi)運(yùn)維域中共涉及6個(gè)自智網(wǎng)絡(luò)核心能力,共有42個(gè)子場(chǎng)景,其中絕大部分處于L2水平,即基于固定規(guī)則的輔助分析階段,整體評(píng)級(jí)約為2.2,如圖3所示,與L3(網(wǎng)絡(luò)自主感知)近期目標(biāo)及L4(網(wǎng)絡(luò)自主分析/決策)中遠(yuǎn)期目標(biāo)仍有較大差距,亟需通過建設(shè)智慧維護(hù)平臺(tái)滿足目前集團(tuán)現(xiàn)有自智網(wǎng)絡(luò)維護(hù)域演進(jìn)需求,以及契合省內(nèi)實(shí)際生產(chǎn)維護(hù)“降本增效”的發(fā)展需要。
圖3 自智網(wǎng)絡(luò)能力評(píng)估結(jié)果
為實(shí)現(xiàn)提升智慧維護(hù)網(wǎng)絡(luò)的自智水平目標(biāo),通過智慧維護(hù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn),在故障識(shí)別、隱患識(shí)別、定界定位、處理方案關(guān)聯(lián)、故障處理、指令巡檢等六大核心能力方面進(jìn)行重點(diǎn)研究。智慧維護(hù)平臺(tái)技術(shù)架構(gòu)主要包括原始數(shù)據(jù)采集、數(shù)據(jù)ETL(Extract-Transform-Load)、數(shù)據(jù)存儲(chǔ)和后臺(tái)業(yè)務(wù)處理、業(yè)務(wù)處理控制、業(yè)務(wù)展現(xiàn)層5個(gè)部分,如圖4所示。
圖4 端到端運(yùn)維軟件架構(gòu)
其中原始數(shù)據(jù)可通過北向平臺(tái)、EOMS工單系統(tǒng)、代維資產(chǎn)管理系統(tǒng)、動(dòng)環(huán)檢測(cè)系統(tǒng)及外部相關(guān)API接口數(shù)據(jù)(地理天氣數(shù)據(jù)信息)進(jìn)行采集。按照通用數(shù)據(jù)ETL處理方式,將數(shù)據(jù)從來源端經(jīng)過抽取(Extract)、交互轉(zhuǎn)換(Transform)、加載(Load)至目的端,從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終依據(jù)預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)并存儲(chǔ)至Hadoop集群中,通過AI平臺(tái)算法及功能(聚類算法、常規(guī)分類算法、異常檢測(cè)算法、深度置信網(wǎng)絡(luò)、堆疊自動(dòng)編碼器、循環(huán)神經(jīng)網(wǎng)絡(luò)等[2-3])結(jié)合專家知識(shí)庫(kù)進(jìn)行智能任務(wù)調(diào)度及后臺(tái)業(yè)務(wù)處理。業(yè)務(wù)處理控制主要細(xì)化各模塊功能,通過相關(guān)業(yè)務(wù)邏輯中間件實(shí)現(xiàn)模塊功能。業(yè)務(wù)展現(xiàn)層基于前端公共模塊相關(guān)技術(shù)對(duì)站點(diǎn)畫像、區(qū)域畫像、隱患管理、地理化分析等進(jìn)行界面化呈現(xiàn)。
智慧維護(hù)平臺(tái)功能架構(gòu)主要由兩大部分組成:網(wǎng)絡(luò)運(yùn)營(yíng)中心NOC(Network Operation Center)和現(xiàn)場(chǎng)外線,如圖5所示。
圖5 智慧維護(hù)平臺(tái)功能架構(gòu)
NOC是實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)監(jiān)控服務(wù)運(yùn)營(yíng)和檢測(cè)設(shè)備狀況的網(wǎng)絡(luò)化中心,主要涉及運(yùn)維設(shè)計(jì)、運(yùn)維監(jiān)控、故障分析、診斷測(cè)試等幾大功能模塊,可結(jié)合運(yùn)營(yíng)商EOMS(Electric Operation Maintenance System)電子運(yùn)維系統(tǒng)進(jìn)行任務(wù)工單派發(fā),將NOC嵌入現(xiàn)有運(yùn)維流程可提高相關(guān)技術(shù)、流程、組織及管理效率,進(jìn)而提升網(wǎng)絡(luò)與服務(wù)的穩(wěn)定性與可預(yù)見性。其中運(yùn)維監(jiān)控、故障分析、診斷測(cè)試等模塊主要提升維護(hù)域中故障識(shí)別、隱患識(shí)別、定界定位、處理方案關(guān)聯(lián)等自智網(wǎng)絡(luò)核心能力。
現(xiàn)場(chǎng)外線主要是承載、處理、閉環(huán)EMOS電子運(yùn)維系統(tǒng)所派發(fā)任務(wù)工單,包括現(xiàn)場(chǎng)維護(hù)人員的任務(wù)調(diào)度、資源調(diào)度及部分指令巡檢無法解決的,需要最終現(xiàn)場(chǎng)進(jìn)行排障巡檢。
3.1.1 運(yùn)維設(shè)計(jì)功能
運(yùn)維設(shè)計(jì)功能主要包括兩部分功能設(shè)計(jì):運(yùn)維規(guī)則設(shè)計(jì)與AI輔助規(guī)則設(shè)計(jì),主要應(yīng)對(duì)自智網(wǎng)絡(luò)L3評(píng)級(jí)標(biāo)準(zhǔn)要求,即將經(jīng)驗(yàn)規(guī)則從系統(tǒng)中解耦,系統(tǒng)支持圖形化界面自主配置故障識(shí)別特征和識(shí)別模板,系統(tǒng)基于規(guī)則自動(dòng)關(guān)聯(lián)跨域故障、隱患,識(shí)別網(wǎng)絡(luò)故障事件或隱患事件,并按照解耦的規(guī)則自動(dòng)定界定位故障原因,生成結(jié)構(gòu)化處理方案,當(dāng)規(guī)則需要調(diào)整時(shí),只需二次配置。
其中運(yùn)維規(guī)則設(shè)計(jì)主要來源于運(yùn)營(yíng)商長(zhǎng)期積累的相關(guān)運(yùn)維經(jīng)驗(yàn),制定分析規(guī)則、診斷規(guī)則、派發(fā)規(guī)則、調(diào)度規(guī)則、激活規(guī)則等,將上述規(guī)則應(yīng)用于可視化設(shè)計(jì)分析中,為自動(dòng)化運(yùn)維提供快速設(shè)計(jì)能力[4]。
AI輔助規(guī)則設(shè)計(jì)則是由傳統(tǒng)技術(shù)專家進(jìn)行專業(yè)設(shè)計(jì)轉(zhuǎn)變?yōu)橥ㄟ^AI技術(shù)輔助進(jìn)行根因規(guī)則設(shè)計(jì)。將相關(guān)網(wǎng)元類型、告警類型、告警信息、告警碼、位置信息等作為輸入項(xiàng),通過神經(jīng)網(wǎng)絡(luò)相關(guān)算法最終輸出AI輔助規(guī)則[5-6]。
3.1.2 運(yùn)維監(jiān)控功能
通過對(duì)數(shù)據(jù)源、數(shù)據(jù)表等分析進(jìn)行場(chǎng)景監(jiān)控設(shè)計(jì),可視化呈現(xiàn)多系統(tǒng)、多界面的監(jiān)控。
場(chǎng)景運(yùn)維監(jiān)控可對(duì)網(wǎng)絡(luò)全景監(jiān)控,也可選擇性針對(duì)主題監(jiān)控,定制適合實(shí)際需求的個(gè)性化監(jiān)控功能。將之前被動(dòng)運(yùn)維、基本無故障預(yù)測(cè)轉(zhuǎn)變?yōu)殡[患故障可預(yù)測(cè)及規(guī)避。
3.1.3 故障分析功能
通過部署RCA(Root Cause Analysis)根因分析規(guī)則挖掘工具,根據(jù)算法學(xué)習(xí)出固有規(guī)律,形成規(guī)則放入RCA中進(jìn)行告警根因查看和告警抑制壓減。
再結(jié)合性能指標(biāo)、參數(shù)配置、相關(guān)變更情況、問題日志等進(jìn)行多源關(guān)聯(lián)分析,從而對(duì)故障進(jìn)一步確認(rèn),提高故障分析的準(zhǔn)確性及效率性。
3.1.4 診斷測(cè)試功能
診斷測(cè)試功能主要包含人工診斷指令及自動(dòng)診斷腳本兩部分。
首先通過人工診斷指令下發(fā)至網(wǎng)元管理系統(tǒng)(Element Management System,EMS),再由EMS反饋診斷結(jié)果至人工診斷指令部分;自動(dòng)診斷腳本可批量生成指令,再由EMS反饋上報(bào)相關(guān)診斷報(bào)告,將診斷結(jié)果或診斷報(bào)告中異常問題自動(dòng)創(chuàng)建維護(hù)工單并指派現(xiàn)場(chǎng)處理,交由現(xiàn)場(chǎng)工單管理,進(jìn)行后續(xù)流程處理。
3.1.5 工單派發(fā)功能
工單關(guān)聯(lián)RCA的關(guān)聯(lián)規(guī)則,進(jìn)行根故障派單、子故障合并派單,綜合考慮網(wǎng)絡(luò)拓?fù)?、運(yùn)維經(jīng)驗(yàn)等信息,例如同一基站下所有小區(qū)退服,則合并為一個(gè)業(yè)務(wù)工單,從源頭減少派單量,提高故障解決效率,如圖6所示。
圖6 工單派發(fā)功能
T1為告警消除最大量時(shí)間點(diǎn),T2為關(guān)聯(lián)指派時(shí)間點(diǎn),T3為告警派發(fā)最長(zhǎng)時(shí)限,通過分析歷史告警,給出最佳關(guān)聯(lián)時(shí)間點(diǎn)閾值,減少消除告警的無效派單量,通過關(guān)聯(lián)減少派單總量,提升運(yùn)維效率,通過動(dòng)態(tài)設(shè)置派單時(shí)間閾值,追加合并派單,減少無效派單、重復(fù)派單。
3.2.1 故障單處理
集中故障告警平臺(tái)針對(duì)告警監(jiān)控進(jìn)行結(jié)果輸出,在創(chuàng)建TT(Trouble Ticket)工單之前,需要等待一定告警清除時(shí)間,避免相關(guān)工單追回。當(dāng)系統(tǒng)收到TT的告警清除消息后,可以自動(dòng)關(guān)閉TT單和相對(duì)應(yīng)的WO(Work Order)單,如圖7所示。
圖7 故障單處理
通過運(yùn)維經(jīng)驗(yàn)和對(duì)歷史工單進(jìn)行機(jī)器學(xué)習(xí)、挖掘工單相關(guān)性規(guī)則,啟動(dòng)策略歸并重復(fù)工單,去除無效工單。
3.2.2 任務(wù)及資源調(diào)度
對(duì)于外部系統(tǒng)派發(fā)的TT單,在某些應(yīng)用場(chǎng)景下,不需要相關(guān)分析處理,可以直接派發(fā)至外場(chǎng)工程師處進(jìn)行解決。對(duì)于這種應(yīng)用場(chǎng)景,系統(tǒng)提供TT單自動(dòng)受理并派發(fā)子單的功能。當(dāng)系統(tǒng)接收到TT單時(shí),自動(dòng)以系統(tǒng)超級(jí)用戶來受理TT單,然后進(jìn)行處理,在處理該步驟時(shí)可自動(dòng)選擇生成WO單,并生成子單。智能調(diào)度主要是將任務(wù)通過AI調(diào)度引擎進(jìn)行工單計(jì)劃制訂、位置及路線規(guī)劃、員工能力及工具需求分析,把任務(wù)與資源相結(jié)合達(dá)到最佳匹配效果。通過人員調(diào)度、資源調(diào)度、路徑規(guī)劃等可實(shí)現(xiàn)工單“零”時(shí)間指派、合理安排人員工作任務(wù)量,提升派單準(zhǔn)確率、提升平均工單響應(yīng)時(shí)長(zhǎng)及資源使用效率。
3.2.3 自動(dòng)巡檢管理
自動(dòng)巡檢管理主要涉及巡檢配置管理、巡檢規(guī)則管理、巡檢任務(wù)列表、指令適配/執(zhí)行及自動(dòng)輸出巡檢報(bào)告功能,如圖8、圖9所示。
圖9 自動(dòng)巡檢流程
巡檢配置管理包括基礎(chǔ)數(shù)據(jù)配置管理、設(shè)備網(wǎng)元配置管理、任務(wù)/方案管理及門限/通知管理。
巡檢規(guī)則管理的功能是制定相關(guān)巡檢規(guī)則(專業(yè)網(wǎng)信息、作業(yè)計(jì)劃等)以及配置解析規(guī)則。
巡檢任務(wù)列表可對(duì)巡檢計(jì)劃定義接口、巡檢定時(shí)任務(wù),以及查看巡檢任務(wù)列表。
指令適配及執(zhí)行由自動(dòng)巡檢功能發(fā)現(xiàn)維護(hù)類問題,通過模板初始化規(guī)則及指令創(chuàng)建規(guī)則生成巡檢測(cè)試工單,再與指令模板進(jìn)行匹配映射創(chuàng)建巡檢任務(wù),指令執(zhí)行后將指令結(jié)果反饋閉環(huán)輸出巡檢報(bào)告。
系統(tǒng)可將相關(guān)維護(hù)要求結(jié)合站點(diǎn)資產(chǎn)信息進(jìn)行綜合呈現(xiàn);歷史數(shù)據(jù)包含告警次數(shù)、故障處理次數(shù)、站點(diǎn)話務(wù)量、數(shù)據(jù)量等信息;地理位置、區(qū)域、地形特征(高山、平原、河岸、洼地等)、耐候性;氣象機(jī)構(gòu)輸出的相關(guān)天氣數(shù)據(jù),共同制定動(dòng)態(tài)巡檢計(jì)劃,聚焦故障高發(fā)站點(diǎn),主動(dòng)預(yù)防歷史故障重發(fā),減少維護(hù)資源的浪費(fèi)。
3.2.4 隱患管理
隱患管理主要針對(duì)異常項(xiàng)目生成智能巡檢告警,自動(dòng)完成對(duì)告警信息的分析,自動(dòng)生成維護(hù)作業(yè)計(jì)劃告警工單,維護(hù)人員根據(jù)隱患工單來處理隱患問題[7]。
在巡檢設(shè)備上(鐵塔、基站等),放置NFC(Near Field Communication)標(biāo)簽,通過近距離無線通訊技術(shù),巡檢人員按照路線的設(shè)置,依次到每個(gè)地點(diǎn)進(jìn)行巡檢并自動(dòng)顯示巡檢內(nèi)容。
4.1.1 站點(diǎn)健康度評(píng)估
基于站點(diǎn)設(shè)備種類、性能情況,結(jié)合站點(diǎn)環(huán)境、停電情況、備電時(shí)長(zhǎng)、站點(diǎn)歷史故障等信息建立站點(diǎn)健康度評(píng)估指標(biāo)體系,并設(shè)定告警閾值自動(dòng)觸發(fā)維護(hù)工單有效預(yù)警,降低站點(diǎn)告警故障。
4.1.2 區(qū)域可視化
采用多種代維指標(biāo)和站點(diǎn)客觀運(yùn)行指標(biāo),可以實(shí)現(xiàn)區(qū)域綜合可視化,以區(qū)域?yàn)閷?duì)象,提供整體指標(biāo)統(tǒng)計(jì)分析,主要提升運(yùn)維質(zhì)量監(jiān)控能力。
4.1.3 站點(diǎn)維護(hù)成本分析
通過對(duì)歷史故障維護(hù)數(shù)據(jù)包括維護(hù)人員、車輛、油機(jī)、故障發(fā)生頻率等信息提供站點(diǎn)維護(hù)成本數(shù)據(jù),為過程成本量化、站點(diǎn)維護(hù)預(yù)算及后續(xù)投標(biāo)成本核算提供數(shù)據(jù)支撐。
4.1.4 制定站點(diǎn)維護(hù)計(jì)劃
基于站點(diǎn)重要級(jí)別、歷史故障信息、天氣狀況等制定維護(hù)計(jì)劃,對(duì)維護(hù)備件提供預(yù)測(cè)管理并減少站點(diǎn)故障率,降低單站維護(hù)成本。
4.2.1 GIS資產(chǎn)全景圖
以維護(hù)網(wǎng)格為基礎(chǔ)單元,對(duì)資源信息(人員、車輛、站點(diǎn)、油機(jī))進(jìn)行實(shí)時(shí)位置展示,工單關(guān)聯(lián)、軌跡回放,實(shí)時(shí)了解資源狀況,方便調(diào)度管理。
4.2.2 板卡板件全量監(jiān)控
通過對(duì)現(xiàn)網(wǎng)板卡板件的入網(wǎng)時(shí)長(zhǎng)、現(xiàn)網(wǎng)設(shè)備的返修總數(shù)/比例統(tǒng)計(jì),按省市縣的地理維度、廠家維度、板卡板件的類型維度進(jìn)行全量監(jiān)控,對(duì)存在硬件隱患、頻繁老化返修等問題設(shè)備構(gòu)建“機(jī)歷卡”“病例庫(kù)”,監(jiān)控中心可全面掌握板卡板件的資源使用及健康度情況。
4.2.3 人員效率指標(biāo)分析
對(duì)人員工單效率指標(biāo)進(jìn)行統(tǒng)計(jì)分析,包括上站任務(wù)詳細(xì)信息及工作時(shí)長(zhǎng)信息,對(duì)車輛效率指標(biāo)分析,包括上站里程、規(guī)劃里程分析,發(fā)現(xiàn)人員運(yùn)維效率短板進(jìn)行改進(jìn),提升效率,如表1所示。
表1 效率指標(biāo)總體統(tǒng)計(jì)數(shù)據(jù)
智慧維護(hù)平臺(tái)在提升自智網(wǎng)絡(luò)水平評(píng)級(jí)方面,由L2.2提升至L3.0,有效提高了維護(hù)域內(nèi)各項(xiàng)工作的管理能力,以及主動(dòng)預(yù)防性運(yùn)維及快速應(yīng)急處理能力。隨著實(shí)際應(yīng)用的進(jìn)一步深入,將繼續(xù)完善智慧維護(hù)系統(tǒng)的技術(shù)架構(gòu)演進(jìn),并將核心能力應(yīng)用深度嵌入問題識(shí)別、問題分析、問題處理、問題質(zhì)檢等實(shí)際生產(chǎn)環(huán)節(jié),達(dá)到助力網(wǎng)絡(luò)運(yùn)營(yíng)降本增效的目的。