冉崇書
(中國(guó)電信股份有限公司廣東公司,廣東 廣州 510080)
為了適應(yīng)業(yè)務(wù)發(fā)展需要,運(yùn)營(yíng)商需要新建新型城域網(wǎng),在原有的電信城域網(wǎng)絡(luò)結(jié)構(gòu)上,通過(guò)引入Fabric網(wǎng)絡(luò)架構(gòu)和華為CU分離系統(tǒng),對(duì)現(xiàn)網(wǎng)傳統(tǒng)MSE業(yè)務(wù)進(jìn)行城域網(wǎng)絡(luò)重構(gòu)和業(yè)務(wù)部署,端到端進(jìn)行了網(wǎng)絡(luò)的劃分,為后續(xù)網(wǎng)絡(luò)網(wǎng)業(yè)分離提供了驗(yàn)證支撐。但新的網(wǎng)絡(luò)注入新的硬件設(shè)備,引入了CU分離NFV網(wǎng)絡(luò)架構(gòu),以及EVPN/SRV6等新協(xié)議,對(duì)運(yùn)維能力有了新的需求。運(yùn)維人員要積極面對(duì)新的運(yùn)維挑戰(zhàn),及時(shí)制定新的運(yùn)維方案,保證網(wǎng)絡(luò)具備可維性、易維性、高容錯(cuò)、高效率的維護(hù)能力。
新型城域網(wǎng)以打造融合、敏捷、簡(jiǎn)潔、云化、智能、安全的網(wǎng)絡(luò)為目標(biāo),以云為核心組網(wǎng),采用“積木式”模塊化架構(gòu),實(shí)現(xiàn)架構(gòu)彈性擴(kuò)展、云網(wǎng)標(biāo)準(zhǔn)化對(duì)接、用戶集中式處理,滿足固移融合、云網(wǎng)融合發(fā)展需求。新型城域網(wǎng)模塊化組件包括城域POD、云網(wǎng)POP、出口功能區(qū)[1]。
圖1 新型城域網(wǎng)拓?fù)淇傆[
(1)城域POD:區(qū)域內(nèi)全業(yè)務(wù)融合承載,采用Spine-Leaf架構(gòu)組網(wǎng),實(shí)現(xiàn)流量快速疏導(dǎo)與橫向彈性擴(kuò)展。A-Leaf提供固定/移動(dòng)用戶、邊緣云等全業(yè)務(wù)的就近接入;Spine實(shí)現(xiàn)Leaf匯聚與流量轉(zhuǎn)發(fā)。Leaf-Leaf之間通過(guò)SRv6+EVPN實(shí)現(xiàn)入云、云間等流量快速轉(zhuǎn)發(fā)。
(2)云網(wǎng)POP:部署DC-Leaf/S-Leaf實(shí)現(xiàn)網(wǎng)絡(luò)與云資源池標(biāo)準(zhǔn)化對(duì)接,接入Spine設(shè)備。
(3)出口功能區(qū):由Spine和Super-Spine/B-leaf組成,與骨干網(wǎng)、業(yè)務(wù)平臺(tái)/核心網(wǎng)等對(duì)接,實(shí)現(xiàn)業(yè)務(wù)差異化服務(wù)。出口功能區(qū)目標(biāo)實(shí)現(xiàn)國(guó)內(nèi)互聯(lián)網(wǎng)流量通過(guò)Spine直連骨干,Super-Spine轉(zhuǎn)發(fā)多POD間互聯(lián)流量。考慮演進(jìn)復(fù)雜度,初期可通過(guò)Super-Spine匯聚Spine統(tǒng)一直連骨干。
(4)轉(zhuǎn)控分離vBRAS池:由云化控制面(vBRASCP)、池化轉(zhuǎn)發(fā)面(vBRAS-UP)組成,實(shí)現(xiàn)光寬帶等固網(wǎng)業(yè)務(wù);vBRAS-CP按城域網(wǎng)部署,vBRAS-UP按POD集中部署。
(1)網(wǎng)絡(luò)復(fù)雜,全新引入了CU分離的網(wǎng)絡(luò)架構(gòu),顛覆了原城域網(wǎng)的MSER-CR的網(wǎng)絡(luò)架構(gòu),整個(gè)新型城域網(wǎng)包括數(shù)百臺(tái)數(shù)通設(shè)備,缺乏有深度的全局網(wǎng)絡(luò)數(shù)據(jù)視圖,出現(xiàn)故障無(wú)法快速定界定位。
(2)協(xié)議復(fù)雜,在原有ISIS、BGP等協(xié)議基礎(chǔ)上新增了EVPN、SRV6、網(wǎng)絡(luò)切片等新協(xié)議及特性。
(3)配置復(fù)雜,上萬(wàn)條配置運(yùn)維命令,網(wǎng)絡(luò)涉及多個(gè)廠商設(shè)備對(duì)接,特性、配置均存在差異。
(4)故障來(lái)源復(fù)雜,包括配置錯(cuò)誤、軟件故障、鏈路故障、硬件問(wèn)題、協(xié)議問(wèn)題等。設(shè)備之間聯(lián)系緊密,存在故障擴(kuò)散現(xiàn)象。
(5)無(wú)明確業(yè)務(wù)指標(biāo),網(wǎng)絡(luò)只承載業(yè)務(wù),但業(yè)務(wù)故障無(wú)法第一時(shí)間發(fā)現(xiàn),故障處理被動(dòng),經(jīng)常依賴業(yè)務(wù)側(cè)現(xiàn)象支撐。
(6)海量告警日志信息,無(wú)法快速?gòu)母婢罩局蝎@取有用信息。
如何保障新網(wǎng)絡(luò)穩(wěn)定可靠是運(yùn)維轉(zhuǎn)型的核心問(wèn)題。
對(duì)網(wǎng)絡(luò)健康度實(shí)時(shí)評(píng)估和異常檢測(cè),快速發(fā)現(xiàn)網(wǎng)絡(luò)隱患。
(1)推動(dòng)網(wǎng)管優(yōu)化,網(wǎng)絡(luò)具備多維可視,快速發(fā)現(xiàn)網(wǎng)絡(luò)瓶頸及隱患。一是通過(guò)報(bào)表呈現(xiàn)網(wǎng)絡(luò)TOPN,快速發(fā)現(xiàn)網(wǎng)絡(luò)瓶頸;二是網(wǎng)管設(shè)備性能拓?fù)洌|(zhì)量劣化清晰可見(jiàn);三是網(wǎng)管呈現(xiàn)區(qū)域流量/質(zhì)量地圖,逐層下鉆分析;四是網(wǎng)管通過(guò)環(huán)比、對(duì)比、同比分析,提前發(fā)現(xiàn)網(wǎng)絡(luò)隱患。
(2)網(wǎng)管實(shí)現(xiàn)網(wǎng)絡(luò)健康度實(shí)時(shí)評(píng)估和異常檢測(cè)。一是轉(zhuǎn)發(fā)類:監(jiān)控設(shè)備端口/NP/TM等,輸出端口流量/NP丟包等指標(biāo);二是協(xié)議類:監(jiān)控設(shè)備OSPF/ISIS/BGP等,輸出Peer數(shù)/路由數(shù)變化等指標(biāo);三是系統(tǒng)類:監(jiān)控設(shè)備CPU/內(nèi)存/消息隊(duì)列等,輸出CPU/內(nèi)存利用率等指標(biāo);四是管理類:監(jiān)控設(shè)備SSH/NetConf等,輸出狀態(tài)/登陸數(shù)等指標(biāo);五是業(yè)務(wù)類:監(jiān)控設(shè)備L3VPN/L2VPN等,輸出狀態(tài)/流量等指標(biāo);六是安全類:監(jiān)控設(shè)備黑名單/白名單等,輸出非法訪問(wèn)數(shù)等指標(biāo);七是用戶類:監(jiān)控設(shè)備在線用戶等,輸出用戶在線數(shù)等指標(biāo);八是資源類:監(jiān)控設(shè)備標(biāo)簽、license等,輸出設(shè)備剩余資源等指標(biāo)。
圖2 運(yùn)維方案的核心問(wèn)題及應(yīng)對(duì)方法
在現(xiàn)網(wǎng)網(wǎng)絡(luò)中,由于網(wǎng)絡(luò)設(shè)備量大,每天網(wǎng)絡(luò)會(huì)產(chǎn)生海量的告警日志信息,無(wú)法快速?gòu)母婢罩局蝎@取有用信息。為了避免此問(wèn)題,需要在網(wǎng)管上進(jìn)行告警分類和聚合,減少日志告警數(shù)量。
(1)基本原則。一是文本挖掘分類;二是類別可事先制訂,分配不同權(quán)重。
(2)方法。一是對(duì)于一條日志告警,對(duì)日志告警文本進(jìn)行分詞獲取其詞匯集合;二是對(duì)照垃圾詞匯字典,去除垃圾詞匯,獲取有用詞匯;三是排序形成日志向量,對(duì)日志告警進(jìn)行分類。
(3)日志告警分類頻度表。一條具體日志告警,會(huì)歸屬到具體類別;將單位時(shí)間內(nèi)不同類別的告警日志出現(xiàn)數(shù)量,構(gòu)成一個(gè)頻度表。
(4)聚合級(jí)別。一是設(shè)備級(jí)別和網(wǎng)絡(luò)級(jí)別日志告警頻度表;二是網(wǎng)絡(luò)級(jí)別分類頻度表變化超過(guò)智能閾值,可以懷疑網(wǎng)絡(luò)有故障發(fā)生,根據(jù)告警日志分類信息可以得知大致故障類型;三是分析設(shè)備級(jí)別頻度表對(duì)網(wǎng)絡(luò)級(jí)別頻度表變化的貢獻(xiàn)程度,排名TOP3 之內(nèi)的設(shè)備,故障可能性最大。
網(wǎng)管實(shí)現(xiàn)業(yè)務(wù)分析保障,實(shí)現(xiàn)專線SLA可視,實(shí)現(xiàn)故障主動(dòng)發(fā)現(xiàn),實(shí)現(xiàn)自動(dòng)定界。
3.3.1 當(dāng)前痛點(diǎn)
(1)在網(wǎng)路規(guī)模巨大的場(chǎng)景下,業(yè)務(wù)經(jīng)過(guò)的網(wǎng)絡(luò)設(shè)備網(wǎng)元數(shù)量多,路徑長(zhǎng),逐段排查,流程冗長(zhǎng)。
(2)在故障發(fā)生后,可能涉及接入設(shè)備、傳輸設(shè)備、及其他網(wǎng)絡(luò)設(shè)備,定界手段不足,無(wú)法快速定界。
(3)故障經(jīng)常投訴驅(qū)動(dòng),定界定位時(shí)間長(zhǎng),客戶感知差。
3.3.2 解決方案
解決方案為網(wǎng)絡(luò)使用網(wǎng)管控制器部署隨流檢測(cè)功。通過(guò)業(yè)務(wù)數(shù)據(jù)報(bào)文染色,融合檢測(cè)信息,使問(wèn)題檢測(cè)率>90%時(shí),對(duì)故障逐跳診斷,精準(zhǔn)定位網(wǎng)絡(luò)故障點(diǎn);結(jié)合SRV6 POLICY自動(dòng)調(diào)優(yōu)能力,出現(xiàn)故障快速調(diào)整業(yè)務(wù)路徑,快速恢復(fù)業(yè)務(wù)。
圖3 隨流檢測(cè)功能示意圖
3.3.3 方案優(yōu)點(diǎn)
(1)基于真實(shí)業(yè)務(wù)流檢測(cè)。
(2)高靈敏度:每包統(tǒng)計(jì)檢測(cè)。
(3)中間/尾節(jié)點(diǎn)一次部署,頭節(jié)點(diǎn)按需使能進(jìn)行E2E/逐跳檢測(cè)。
(4)兼容現(xiàn)網(wǎng),中間節(jié)點(diǎn)不支持,默認(rèn)透?jìng)鬓D(zhuǎn)發(fā)。
在網(wǎng)絡(luò)故障中,由于人為配置導(dǎo)致網(wǎng)絡(luò)故障,影響業(yè)務(wù)的事情時(shí)有發(fā)生,聯(lián)合網(wǎng)管服務(wù)器,提前做好業(yè)務(wù)下發(fā)規(guī)范腳本編排,通過(guò)網(wǎng)管進(jìn)行業(yè)務(wù)自動(dòng)下發(fā),提升業(yè)務(wù)開通效率,保證配置規(guī)范性,減低操作引起網(wǎng)絡(luò)故障的風(fēng)險(xiǎn)。
整體部署方案:一是為新型城域網(wǎng)部署城域控制器,實(shí)現(xiàn)設(shè)備管理及業(yè)務(wù)配置下發(fā);二是將控制器北向與編排器進(jìn)行對(duì)接,使編排器對(duì)接OSS服開系統(tǒng)及CRM系統(tǒng),在客服前端完成業(yè)務(wù)受理后,編排器形成工單相關(guān)信息,返回城域控制器,城域控制器將其翻譯為廠家設(shè)備配置后,自動(dòng)下發(fā)配置到相關(guān)設(shè)備,完成業(yè)務(wù)自動(dòng)下發(fā)。
圖4 廣東電信新型城域網(wǎng)專線業(yè)務(wù)開通流程圖
在網(wǎng)絡(luò)出現(xiàn)重大故障的時(shí)候,完善且有效的應(yīng)急預(yù)案的應(yīng)急預(yù)案可以顯著縮短故障定位及恢復(fù)的時(shí)長(zhǎng),新型城域網(wǎng)的應(yīng)急預(yù)案旨在當(dāng)網(wǎng)絡(luò)出現(xiàn)用戶無(wú)法上網(wǎng)、業(yè)務(wù)受損時(shí),用戶維護(hù)工程師能快速進(jìn)行故障定位和業(yè)務(wù)緊急恢復(fù)。由于新型城域網(wǎng)網(wǎng)絡(luò)剛完成建設(shè),本章節(jié)將對(duì)應(yīng)急預(yù)案的場(chǎng)景進(jìn)行簡(jiǎn)單分析。
故障的處理要以盡快恢復(fù)業(yè)務(wù)為主,應(yīng)本著先搶通后搶修的原則,優(yōu)先搶通業(yè)務(wù),最大限度地降低對(duì)用戶感知的負(fù)面影響。當(dāng)發(fā)生重大故障時(shí),首先應(yīng)按已批準(zhǔn)的應(yīng)急措施和方法盡快恢復(fù)通信,在影響業(yè)務(wù)的情況下不得以查找故障原因?yàn)橛裳娱L(zhǎng)故障歷時(shí)。
3.5.1 應(yīng)急措施總則及快速定界方法
當(dāng)網(wǎng)絡(luò)發(fā)生重大事故時(shí),采用及時(shí)通報(bào)、快速定位以及快速恢復(fù)的原則。及時(shí)通報(bào),即嚴(yán)格遵照公司的通報(bào)流程;快速定位,即快速?gòu)臉I(yè)務(wù)、網(wǎng)絡(luò)層面的故障申告,快速確定承載網(wǎng)絡(luò)故障的位置;快速恢復(fù),即通過(guò)調(diào)整網(wǎng)絡(luò)配置參數(shù)、割接業(yè)務(wù)、復(fù)位單板、更換故障單板等方式,快速恢復(fù)業(yè)務(wù)。
3.5.1.1 快速定位應(yīng)急措施
根據(jù)故障現(xiàn)象快速定位方法。
(1)在CU側(cè)確認(rèn)故障現(xiàn)象,以利于承載網(wǎng)準(zhǔn)確配合。由CU側(cè)根據(jù)提供的故障用戶信息確認(rèn)故障現(xiàn)象是用戶上線失敗、異常下線還是用戶在線但上網(wǎng)異常等,同時(shí)根據(jù)提供的故障用戶確認(rèn)故障范圍和接口,之后對(duì)承載網(wǎng)有針對(duì)性的在對(duì)應(yīng)的接口、VLAN進(jìn)行排查定位,確保完全匹配,避免出現(xiàn)故障定位方向跑偏情況。
(2)故障定界方法。一旦確定故障現(xiàn)象后,若故障為用戶上線失敗或異常下線,根據(jù)上線失敗原因或下線原因確認(rèn)是二層鏈路故障還是服務(wù)器故障;若故障現(xiàn)象為用戶在線但上網(wǎng)異常,則可以通過(guò)ping測(cè)試、流量統(tǒng)計(jì)、鏡像抓包完成故障定界。
3.5.1.2 根據(jù)告警快速定界方法
當(dāng)從網(wǎng)管系統(tǒng)、監(jiān)控平臺(tái)等處收集到異常告警時(shí),應(yīng)優(yōu)先處理緊急和重要的告警,根據(jù)告警處理步驟,盡快恢復(fù)告警。針對(duì)每條告警,系統(tǒng)定義了默認(rèn)的告警級(jí)別,網(wǎng)管接收到設(shè)備上報(bào)的告警信息后,可以設(shè)置過(guò)濾條件選擇只查看某一級(jí)別的告警,以方便過(guò)濾篩選。告警級(jí)別定義如下:
(1)Critical:緊急級(jí)別。指已經(jīng)出現(xiàn)了影響業(yè)務(wù)的情況并且需要立即采取修復(fù)措施。
(2)Major:重要級(jí)別。指正在形成影響業(yè)務(wù)的故障并且需要盡快采取修復(fù)措施。
(3)Minor:次要級(jí)別。指存在一個(gè)非業(yè)務(wù)影響的故障,為避免更為嚴(yán)重(影響業(yè)務(wù))的故障,應(yīng)該采取修復(fù)措施。
(4)Warning:警告級(jí)別。指在感知到任何明顯因素之前,檢測(cè)到潛在的或即將發(fā)生的一個(gè)影響業(yè)務(wù)的故障。
通過(guò)告警定界故障點(diǎn)的操作如下:收集網(wǎng)絡(luò)設(shè)備中的告警信息登錄網(wǎng)絡(luò)設(shè)備,使用命令查看設(shè)備告警,如CP和UP可使用命令display alarm active來(lái)查看設(shè)備當(dāng)前告警。請(qǐng)根據(jù)告警信息內(nèi)容來(lái)定界故障,優(yōu)先定界緊急、嚴(yán)重級(jí)別的告警。根據(jù)告警信息中的具體信息來(lái)進(jìn)一步定界故障,根據(jù)不同的告警類型分別處理。
3.5.1.3 應(yīng)急處理思路
(1)通過(guò)監(jiān)控設(shè)備異常告警,快速發(fā)現(xiàn)可能的故障點(diǎn),并按照應(yīng)急預(yù)案進(jìn)行業(yè)務(wù)恢復(fù)。
(2)明確故障現(xiàn)象。在CP上查詢上、下線原因統(tǒng)計(jì),明確故障現(xiàn)象和范圍。
(3)檢測(cè)鏈路連通性和路由發(fā)布情況。
隨著數(shù)字化全聯(lián)接時(shí)代的逐步到來(lái),連接日趨廣泛,用戶體驗(yàn)需求也開始逐步轉(zhuǎn)變并進(jìn)行互聯(lián)網(wǎng)化重塑,用戶體驗(yàn)成為未來(lái)的新方向,運(yùn)營(yíng)商業(yè)務(wù)從傳統(tǒng)通信業(yè)務(wù)向內(nèi)容業(yè)務(wù)、數(shù)字業(yè)務(wù)及物聯(lián)網(wǎng)等新業(yè)務(wù)演變。新的業(yè)務(wù)和網(wǎng)絡(luò)需要運(yùn)維模式從以網(wǎng)元為中心的手工模式走向以業(yè)務(wù)為中心的自適應(yīng)的ICT運(yùn)維新模式。本文對(duì)新型城域網(wǎng)的一些運(yùn)維模式做了部分探討,隨著網(wǎng)絡(luò)和業(yè)務(wù)的發(fā)展,運(yùn)維方案也要與時(shí)俱進(jìn),從以網(wǎng)元為中心的手工模式走向以業(yè)務(wù)為中心的自適應(yīng)模式,保證網(wǎng)絡(luò)具備可維護(hù)、易維護(hù),高容錯(cuò)、高效率的運(yùn)維能力。