季海峰 姚 程
1.中國移動通信集團江蘇有限公司;2.中國移動通信集團江蘇有限公司南京分公司
TM Forum自動駕駛網(wǎng)絡(luò)旨在面向消費者和垂直行業(yè)客戶提供全自動、零等待、零接觸、零故障的創(chuàng)新網(wǎng)絡(luò)服務(wù)與ICT業(yè)務(wù),打造自服務(wù)、自修復(fù)、自優(yōu)化的通信網(wǎng)絡(luò),為通信網(wǎng)絡(luò)運維數(shù)智化轉(zhuǎn)型明晰了目標(biāo)架構(gòu)和實現(xiàn)路徑。自動駕駛網(wǎng)絡(luò)分級框架將網(wǎng)絡(luò)自治化能力劃分為“L0人工運營維護、L1輔助運營維護、L2部分自動駕駛網(wǎng)絡(luò)、L3有條件自動駕駛網(wǎng)絡(luò)、L4高級自動駕駛網(wǎng)絡(luò)、L5完全自動駕駛網(wǎng)絡(luò)”六個級別。參考TM自動駕駛網(wǎng)絡(luò)理念,規(guī)劃網(wǎng)絡(luò)運維數(shù)智化轉(zhuǎn)型,加大自動化、智能化能力建設(shè),以期實現(xiàn)2025年網(wǎng)絡(luò)運維自治水平達(dá)到L4的整體目標(biāo)。
參考TM Forum自動駕駛網(wǎng)絡(luò)層次化架構(gòu),結(jié)合生產(chǎn)實踐,中國移動提出“四層三閉環(huán)”的內(nèi)部實踐目標(biāo)框架,如圖1所示。通過分層次構(gòu)建體系化能力,實現(xiàn)全場景網(wǎng)絡(luò)自治。
圖1 自動駕駛網(wǎng)絡(luò)目標(biāo)框架
根據(jù)客戶規(guī)模、業(yè)務(wù)類型、運維流程、合作伙伴等方面的多重差異,中國移動建立統(tǒng)一的能力評估體系,以評促建,全面開展自治能力量化評估。如圖2所示,分三步驅(qū)動能力水平從當(dāng)前狀態(tài)到目標(biāo)級別進行迭代提升。
圖2 自動駕駛網(wǎng)絡(luò)迭代閉環(huán)
面對在2025年力爭達(dá)到自動駕駛網(wǎng)絡(luò)L4的整體目標(biāo),中國移動對網(wǎng)絡(luò)自治能力建設(shè)進行了全方位的思考、適用性探索與初步應(yīng)用實踐。在傳輸網(wǎng)專業(yè)分別根據(jù)不同的技術(shù)領(lǐng)域定義各自的能力等級?;赥M Forum自動駕駛網(wǎng)絡(luò)分級框架的指導(dǎo)原則,結(jié)合網(wǎng)絡(luò)運維管理評估實際需求,從指導(dǎo)IT系統(tǒng)實現(xiàn)角度,定義如下分級代際特征:(1)級別0:線下人工實現(xiàn);(2)級別1:人工實現(xiàn),線上記錄;(3)級別2:自動實現(xiàn),程序固化專家規(guī)則;(4)級別3:自動實現(xiàn),規(guī)則與功能解耦,可按需靈活配置;(5)級別4:自動實現(xiàn),規(guī)則結(jié)合AI,可持續(xù)學(xué)習(xí)、快速迭代;(6)級別5:自動實現(xiàn),規(guī)則順應(yīng)變化自動迭代。
將分級代際特征應(yīng)用于核心能力集,細(xì)化得到每個核心能力集的場景化自治能力分級細(xì)則,提出基于“封頂就高”“加權(quán)平均”等聚合原則的量化評估模型,從最細(xì)粒度的核心能力量化評估結(jié)果,可按需聚合得到各場景、各專業(yè)、各業(yè)務(wù)自動化水平的綜合量化得分的層次化分級評估體系,為全面評估當(dāng)前能力、多維度綜合分析水平差異、精準(zhǔn)識別共性能力短板,提供有力支撐。
按照中國移動自動駕駛網(wǎng)絡(luò)框架3D模型的重點運維場景所明確的內(nèi)容,傳輸網(wǎng)基于“6-11-37”場景的能力定義能力等級。6個一級場景域,包括:規(guī)劃、建設(shè)、維護、優(yōu)化、運營、資源管理;11個二級核心場景,包括:網(wǎng)絡(luò)規(guī)劃、設(shè)計部署、監(jiān)控排障、巡檢、測試、網(wǎng)絡(luò)分析、網(wǎng)絡(luò)優(yōu)化、業(yè)務(wù)開通、網(wǎng)絡(luò)投訴、資源變更管理、資源數(shù)據(jù)管理;結(jié)合傳輸網(wǎng)絡(luò)專業(yè)和業(yè)務(wù)類別的特點,將二級運維場景進一步分解為37項運維核心能力集,作為場景化評估對象。
根據(jù)當(dāng)前摸底的能力現(xiàn)狀和傳輸網(wǎng)各層次的評級目標(biāo)需要滿足如下要求。
(1)需求預(yù)測
L2:SNMP采集、Netconf配置。
L3:Telemetry海量數(shù)據(jù)上報、采集和分析。
(2)規(guī)劃與仿真
L2:Netconf設(shè)備自動配置,IGP/BGP協(xié)議(鄰居、協(xié)議狀態(tài)、路由),SNMP采集接口/隧道/業(yè)務(wù)流量,BGP-LS采集網(wǎng)絡(luò)拓?fù)洹?/p>
L3:采集SR-TP隧道逐跳數(shù)據(jù),支持500K隧道逐跳數(shù)據(jù)采集;What-if網(wǎng)絡(luò)故障仿真,支持5大場景的自動規(guī)劃,界面可以自動生成報表;容量預(yù)測、容量規(guī)劃能力。
(1)網(wǎng)絡(luò)設(shè)計
L1:提供網(wǎng)絡(luò)設(shè)計管理功能,人工在該管理界面可對網(wǎng)絡(luò)進行規(guī)劃,并支持輸出網(wǎng)絡(luò)規(guī)劃結(jié)果。
L2:提供網(wǎng)絡(luò)設(shè)計模板管理功能,基于人工設(shè)計的網(wǎng)絡(luò)案例建立歷史項目案例庫,并將歷史案例轉(zhuǎn)換為設(shè)計模板供下次網(wǎng)絡(luò)設(shè)計選擇使用。
L3:提供網(wǎng)絡(luò)設(shè)計模板聯(lián)想功能,能夠根據(jù)輸入?yún)?shù)自動聯(lián)想案例庫中最優(yōu)方案、最優(yōu)參數(shù),輔助進行網(wǎng)絡(luò)設(shè)計工作。
L4:提供網(wǎng)絡(luò)設(shè)計結(jié)果自動導(dǎo)入部署系統(tǒng)功能,網(wǎng)絡(luò)規(guī)劃結(jié)果輸出后,通過標(biāo)準(zhǔn)接口導(dǎo)入給部署系統(tǒng),完成設(shè)計到部署的過程。
(2)集成部署
L2:Netconf設(shè)備自動配置,SNMP管理。
L3:網(wǎng)元自動發(fā)現(xiàn),免下站開通調(diào)測。
L4:系統(tǒng)對接,自動獲取設(shè)計結(jié)果,自動部署。
(3)開局配置
L2:基于SSH/Telnet/Netconf配置接口、IGP、BGP、QOS等配置。
L3:基于L2能力提供相關(guān)調(diào)測功能。
L4:運營商可編程的模式生成配置,遠(yuǎn)程配置自動化,系統(tǒng)自動根據(jù)設(shè)計結(jié)果遠(yuǎn)程對空配置設(shè)備執(zhí)行配置下發(fā)。
(4)網(wǎng)絡(luò)與業(yè)務(wù)測試:見“運維-測試”。
3.3.1 監(jiān)控排障
(1)故障與隱患識別
L2:SNMP性能采集(接口統(tǒng)計、隧道統(tǒng)計、CPU、內(nèi)存和光模塊硬件狀態(tài))、BGP-LS拓?fù)涫占退淼罓顟B(tài)上報。
L3:支持設(shè)備異常KPI分析上報;日志異常識別能力;In-band OAM隨流檢測,基于L2VPN/L3VPN業(yè)務(wù)流量,預(yù)測未來的流量,識別隱患。
L4:全量KPI異常分析,多模態(tài)數(shù)據(jù)關(guān)聯(lián)分析能力;對系統(tǒng)資源的智能預(yù)測;配置異常識別與分析。
(2)定位與影響分析
L1:人工部署和升級,人工手工添加網(wǎng)元納管。
L2:Netconf設(shè)備自動配置,SNMP管理。
L3:網(wǎng)元自動發(fā)現(xiàn),免下站開通調(diào)測。
L4:系統(tǒng)對接,自動獲取設(shè)計結(jié)果,自動部署。
(3)開局配置
L2:TWAMP、Ping、Tracert。
L3:In-band OAM逐跳上報和自動故障聚類;海量KPI數(shù)據(jù)采集,用于故障根因分析。
L4:網(wǎng)絡(luò)故障模型AI自學(xué)習(xí);關(guān)鍵業(yè)務(wù)保障分析,檢測到業(yè)務(wù)質(zhì)差,系統(tǒng)對網(wǎng)絡(luò)進行調(diào)優(yōu),快速恢復(fù)業(yè)務(wù)。
(4)故障處理
L2:應(yīng)急路由調(diào)整,人工通過系統(tǒng)修改路由配置。
L3:IGP、BGP、FRR做路由收斂和業(yè)務(wù)切換,SR-TP做業(yè)務(wù)路徑調(diào)優(yōu);設(shè)備支持表項回刷、芯片復(fù)位、單板復(fù)位等自愈恢復(fù)能力;OMC支持系統(tǒng)自動調(diào)整業(yè)務(wù)路由(通斷和質(zhì)差),亞秒級收斂。
(5)場景化監(jiān)控
L2:SNMP流量采集能力、告警和日志上報能力;TWAMP鏈路時延檢測能力;OMC支持基于模板的監(jiān)控,流量采集和監(jiān)控能力。
L3:In-band OAM隨流檢測能力,OMC dashboard實時數(shù)據(jù)可視和GIS聯(lián)動。
3.3.2 巡檢
(1)故障與隱患識別
L2:設(shè)備支持巡檢工具通過SSH/Telnet的方式采集設(shè)備信息,并通過規(guī)則對采集信息進行判斷,識別設(shè)備硬件、配置存在的故障或隱患。
L3:支持設(shè)備異常KPI分析上報;OMC支持?jǐn)?shù)據(jù)可視。
L4:全量KPI異常分析,多模態(tài)數(shù)據(jù)關(guān)聯(lián)分析能力;對系統(tǒng)資源的智能預(yù)測。
(2)現(xiàn)場巡檢
L2:SNMP采集,Ping/Trace連通性檢測。包含電源、風(fēng)扇、溫度信息上報,OMC描繪設(shè)備面板圖。
L3:設(shè)備支持巡檢工具通過SSH/Telnet的方式采集線路相關(guān)信息,包括線路光功率、誤碼等。OMC支持報表查看。
3.3.3 測試
(1)網(wǎng)絡(luò)測試和業(yè)務(wù)測試
L1:Ping/Trace能力檢測鏈路丟包、時延,SNMP采集接口流量、協(xié)議狀態(tài)、設(shè)備異常告警等。
L2:設(shè)備告警上報,Ping/Trace能力檢測業(yè)務(wù)地址的丟包、時延、路徑。
L3:支持設(shè)備異常KPI分析上報;In-band OAM隨流檢測能力。
L4:全量KPI異常分析,多模態(tài)數(shù)據(jù)關(guān)聯(lián)分析能力。
3.3.4 網(wǎng)絡(luò)分析
(1)數(shù)據(jù)采集
L1:支持工具通過SSH/Telnet登錄設(shè)備,執(zhí)行數(shù)據(jù)采集命令。
L2:支持SNMP采集接口流量。
L3:Telemetry上報和采集。
(2)數(shù)據(jù)處理
L2:網(wǎng)絡(luò)側(cè)多維報表,分析網(wǎng)絡(luò)采集數(shù)據(jù),生成多維度報表。
L3:網(wǎng)絡(luò)實時可視化,對網(wǎng)絡(luò)狀態(tài)實時感知和呈現(xiàn),網(wǎng)絡(luò)流量可視化,網(wǎng)絡(luò)異常/故障可視化。
(3)數(shù)據(jù)分析
L2:性能采集閾值告警,基于制定規(guī)則的性能閾值,15分鐘級感知;TWAMP業(yè)務(wù)質(zhì)量監(jiān)控。
L3:In-band OAM業(yè)務(wù)質(zhì)量監(jiān)控;性能多維分析;對網(wǎng)絡(luò)狀態(tài)實時感知和呈現(xiàn),網(wǎng)絡(luò)流量可視化,網(wǎng)絡(luò)異常/故障可視化。
3.3.5 網(wǎng)絡(luò)優(yōu)化
(1)方案制定
L2:通過系統(tǒng)自動配置SR-TP重路由策略,手工調(diào)整網(wǎng)絡(luò)流量。
L3:SR-TP隧道基于質(zhì)量流量自動重優(yōu)化調(diào)優(yōu),通過系統(tǒng)自動重優(yōu)化調(diào)優(yōu),包含時延和帶寬。
(2)仿真驗證
L2:人工通過工具調(diào)路由。
L3:基于SR-TP流量分析,進行網(wǎng)絡(luò)SR-TP自動重優(yōu)化調(diào)優(yōu)通過協(xié)議級下發(fā);SR-TP、MTN交叉時延/帶寬約束算路。
L4:SR-TP動態(tài)調(diào)整網(wǎng)絡(luò),下發(fā)前可在線仿真。
(3)資源變更:見“資源變更管理”。
(4)數(shù)據(jù)分析
L2:支持對于優(yōu)化后的網(wǎng)絡(luò)質(zhì)量信息匯總展示,包括流量、時延、丟包、告警等信息。
L3:提供網(wǎng)絡(luò)路徑調(diào)優(yōu)前后對比。
3.3.6 業(yè)務(wù)開通
(1)開通流程調(diào)度:見“資源變更管理-資源調(diào)度流程”。
(2)資源勘查
L2:基于SNMP、LAD或Telemetry進行數(shù)據(jù)采集。
L3:基于BGP LS、PCEP協(xié)議,實時對帶寬/時延可視,三層路由拓?fù)淇梢暎趲捄蜁r延因子預(yù)評估選路。
L4:基于預(yù)評估結(jié)果,對網(wǎng)絡(luò)資源池化分配,并進行預(yù)占用,包含網(wǎng)絡(luò)鏈路帶寬、時延。
(3)資源變更
L2:業(yè)務(wù)自動開通,通過OMC北向接口與OB域打通業(yè)務(wù)自動開通,復(fù)雜接口,需要感知網(wǎng)絡(luò)細(xì)節(jié)(網(wǎng)絡(luò)視角)。
L3:業(yè)務(wù)自動開通,通過簡化接口,無需要感知網(wǎng)絡(luò)細(xì)節(jié)(業(yè)務(wù)視角);在線自動調(diào)速(BOD/BC、Qos)。
L4:開放可編程,運營商具備在線可編程定義業(yè)務(wù)發(fā)放能力。
(4)業(yè)務(wù)測試:見“測試-網(wǎng)絡(luò)測試和業(yè)務(wù)測試”。
3.3.7 網(wǎng)絡(luò)投訴
(1)投訴預(yù)警預(yù)測
L2:配置查詢和分析。
L3:實時Topo,網(wǎng)絡(luò)建模。
L4:基于AI模型在線訓(xùn)練,自動更新,自動識別和分析。
(2)投訴定位
L2:連通性檢測,Trace定界。
L3:業(yè)務(wù)檢測,In-band OAM隨流逐跳檢測。
L4:基于AI的故障定位定界。
(3)故障處理:見“運維-故障處理”。
3.4.1 資源變更管理
(1)資源調(diào)度流程
L2:OMC北向接口,根據(jù)上層規(guī)則下發(fā)配置。
(2)變更設(shè)計
L2:網(wǎng)絡(luò)基礎(chǔ)狀態(tài)收集。
L3:實時狀態(tài)收集。
(3)硬件操作流程
L2:遠(yuǎn)程配置界面,板位圖可視化。
(4)軟件升級
L2:設(shè)備軟件升級工具,用戶逐臺升級。
L3:設(shè)備軟件自動升級,批量升級。
(5)網(wǎng)絡(luò)數(shù)據(jù)配置
L2:FTP大包加載,Netconf配置收集,命令行采集設(shè)備流量、鄰居、路由等信息用于升級前后結(jié)果比對;支持Ping/Trace檢查對比升級前后網(wǎng)絡(luò)狀態(tài)。
(6)網(wǎng)絡(luò)測試:見“測試-網(wǎng)絡(luò)測試和業(yè)務(wù)測試”。
3.4.2 資源數(shù)據(jù)管理
(1)資源數(shù)據(jù)同步程
L2:SNMP北向上報。
L3:REST北向接口采集資源,實時變更通知。
(2)數(shù)據(jù)核查
L3:北向接口采集資源,實時變更通知;與資管系統(tǒng)在線分配資源。
L4:資源預(yù)分配,實時資管。
(3)資源拓?fù)?/p>
L3:北向接口采集資源,實時變更通知。
對于傳輸網(wǎng)來說,2022年網(wǎng)絡(luò)自動駕駛已達(dá)到L2級,2025年網(wǎng)絡(luò)自動駕駛需演進到L4級,在此目標(biāo)的牽引下,本文結(jié)合業(yè)務(wù)場景,展望了傳輸網(wǎng)的發(fā)展方向,識別和分析了傳輸網(wǎng)的差距,明確了傳輸網(wǎng)各層次的演進目標(biāo)。針對后續(xù)提升各層次的自動駕駛網(wǎng)絡(luò)水平,本文提供了具體的可落地的措施與目標(biāo),希望在后續(xù)的推進過程中,逐漸明晰網(wǎng)絡(luò)自動駕駛水平L4級別的能力要求,與其他專業(yè)取長補短,不斷更新傳輸網(wǎng)的能力要求。