文帥川 周波 秦海燕
【摘? 要】2019年運營商提出移動及光網(wǎng)業(yè)務(wù)的“雙提升”專項行動要求,圍繞高質(zhì)量發(fā)展主線,貫徹落實“事先化、主動化、自動化”工作要求,持續(xù)提升移動網(wǎng)質(zhì)量和端到端運營能力。采用機(jī)器學(xué)習(xí)中二叉決策樹的方法,根據(jù)5G承載網(wǎng)的層級關(guān)系,自動建立鏈路、收集告警,梳理告警關(guān)系建立決策樹模型,按不同的告警設(shè)計了對應(yīng)的推理樹,并以此開發(fā)推理機(jī),最終實現(xiàn)對故障的快速診斷定位與歸并,并在湖北現(xiàn)場予以了正式使用,應(yīng)用效果良好。
【關(guān)鍵詞】機(jī)器學(xué)習(xí);二叉決策樹;承載網(wǎng);故障診斷
doi:10.3969/j.issn.1006-1010.2020.10.005? ? ? ? 中圖分類號:TN913.23
文獻(xiàn)標(biāo)志碼:A? ? ? ? 文章編號:1006-1010(2020)10-0025-09
引用格式:文帥川,周波,秦海燕. 基于二叉樹算法的5G承載網(wǎng)故障定位方法及實踐[J]. 移動通信, 2020,44(10): 25-33.
0? ?引言
當(dāng)前IPRAN(IP Radio Access Network,無線接入網(wǎng)IP化)作為中國電信、中國聯(lián)通承載3G/4G/5G、政企專線、云專線等核心業(yè)務(wù)的承載網(wǎng)絡(luò),在運營商的移動業(yè)務(wù)、政企業(yè)務(wù)中處于核心業(yè)務(wù)環(huán)節(jié),當(dāng)承載網(wǎng)絡(luò)出現(xiàn)故障或網(wǎng)絡(luò)劣化時,會極大地影響到承載在上面的各類業(yè)務(wù),造成嚴(yán)重的通信事故。現(xiàn)有信息網(wǎng)絡(luò)面臨著巨大的挑戰(zhàn),為進(jìn)一步滿足將來數(shù)據(jù)流量的高速增長、萬物互聯(lián)以及不斷涌現(xiàn)的新業(yè)務(wù)和新需求,5G移動通信系統(tǒng)應(yīng)運而生[1]。5G無線網(wǎng)對承載網(wǎng)提出更高要求。一個低時延的承載網(wǎng)絡(luò)實現(xiàn)關(guān)鍵依賴于超大的傳輸帶寬、極低的設(shè)備處理時延,以及最短的光信號傳輸距離[2]。IPRAN承載網(wǎng)絡(luò)本身就是一張綜合承載精品網(wǎng),國外主流運營商在5G承載網(wǎng)方案時也是優(yōu)先選擇IPRAN技術(shù)[3]。
雖然IPRAN網(wǎng)絡(luò)通過環(huán)狀組網(wǎng)、100%成環(huán)的方式,可以避免單點故障對網(wǎng)絡(luò)業(yè)務(wù)的影響,但從網(wǎng)絡(luò)維護(hù)部門的角度來看,當(dāng)出現(xiàn)單點故障導(dǎo)致不成環(huán)時會造成網(wǎng)絡(luò)風(fēng)險急劇加大,同時環(huán)路變?yōu)閱温芬矔?dǎo)致網(wǎng)絡(luò)帶寬利用率激增,加大網(wǎng)絡(luò)擁塞概率,因此當(dāng)承載網(wǎng)絡(luò)出現(xiàn)告警時需要盡快定位出故障點并予以解決。目前IPRAN承載大量的LTE基站業(yè)務(wù),但缺乏端到端質(zhì)量監(jiān)控、評估及診斷手段,維護(hù)成本高[4]。
由于IPRAN網(wǎng)絡(luò)的環(huán)狀組網(wǎng),以及網(wǎng)絡(luò)分層規(guī)劃的特點(從上到下分為核心、匯聚、接入多級環(huán)網(wǎng)),因此當(dāng)出現(xiàn)一個故障點時,往往會伴隨多個網(wǎng)元、多種類型的衍生性告警。例如,鏈路故障Link Down、設(shè)備故障Node Down是最常見的,而由于關(guān)鍵設(shè)備的Node Down告警造成周邊其它設(shè)備產(chǎn)生很多衍生性告警,大量的告警又導(dǎo)致后端維護(hù)人員需要花費一定的時間周期予以分析確認(rèn)后才能精準(zhǔn)定位出最核心的故障點,從而影響到告警修復(fù)的及時性。
5G是面向移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的,各大運營商從業(yè)務(wù)需求及體驗感出發(fā),在異構(gòu)網(wǎng)絡(luò)中向用戶提供更好的體驗和感知,融合多層次覆蓋、多接入技術(shù)、多業(yè)務(wù)系統(tǒng)等5G重要特征[5]。隨著5G網(wǎng)絡(luò)在國內(nèi)三大運營商的落地試用,以及中國5G網(wǎng)絡(luò)技術(shù)、建設(shè)、運營整體領(lǐng)先于全球,國內(nèi)運營商已經(jīng)開始對其客戶服務(wù)支撐層面的相關(guān)系統(tǒng)進(jìn)行智能化改造,如5G承載網(wǎng)絡(luò)的故障精準(zhǔn)定位,也需要引入AI(Artificial Intelligence,人工智能)的方法。
為此,我們通過現(xiàn)網(wǎng)海量告警數(shù)據(jù)的積累分析,梳理了現(xiàn)場各類告警的修復(fù)案例并建立知識庫,通過機(jī)器學(xué)習(xí)中的二叉決策樹方法來設(shè)計故障推理樹和推理機(jī),最終建立起故障精準(zhǔn)定位的算法模型,并開發(fā)相應(yīng)的診斷功能予以實現(xiàn)。
1? ?機(jī)器學(xué)習(xí):二叉決策樹方法簡介
5G承載網(wǎng)絡(luò)故障智能診斷能力要求做到,當(dāng)系統(tǒng)自動采集到5G承載網(wǎng)絡(luò)告警后,可以在30 s內(nèi)完成智能的問題診斷,不管是2G業(yè)務(wù)、3G業(yè)務(wù)、4G業(yè)務(wù)、5G業(yè)務(wù),都可以給出提示性的診斷結(jié)論和解決建議。
故障智能診斷能力是基于AI技術(shù)中的一個分支——BDT(Binary Decision Tree,二叉決策樹)技術(shù)來實現(xiàn)的。
人工智能是一個很龐大的體系,包括有很多種方法,如分類(包括決策樹、貝葉斯模型Bayesian Mode等)、回歸(包括線性回歸Linear Regression、最小二乘法OrdinaryLeast Square等)、聚類(包括K-Means聚類、期望最大化算法Expectation Maximization等)、降維(包括主成份分析PrincipleComponent Analysis等)、人工神經(jīng)網(wǎng)絡(luò)(包括感知器神經(jīng)網(wǎng)絡(luò)PerceptronNeural Network)和深度學(xué)習(xí)(包括受限波爾茲曼機(jī)RestrictedBoltzmann Machine、卷積網(wǎng)絡(luò)Convolutional Network等)。
決策樹與人工智能的關(guān)系是:人工智能->機(jī)器學(xué)習(xí)->監(jiān)督學(xué)習(xí)->決策樹。
而在進(jìn)行5G承載網(wǎng)絡(luò)故障精準(zhǔn)定位時,有很多的歷史故障處理案例可以參考,并且決策樹具備易于理解和實現(xiàn)、可通過專家知識庫模型進(jìn)行構(gòu)建、可通過靜態(tài)測試來對模型進(jìn)行評測等優(yōu)點,因此,引入二叉決策樹方法來設(shè)計推理機(jī),從而實現(xiàn)故障精準(zhǔn)定位。
決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。決策樹是一種監(jiān)管學(xué)習(xí),所謂監(jiān)管學(xué)習(xí)就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那么通過學(xué)習(xí)得到一個分類器,這個分類器能夠?qū)π鲁霈F(xiàn)的對象給出正確的分類。這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。
引入決策樹進(jìn)行故障定位時,可以根本歷史樣本、通過故障處理案例和專家意見,確定出樣本的一組屬性和一個類別,從而得到一個推理樹(二叉決策樹),對于新出現(xiàn)的告警樣本就可以通過推理機(jī)的實現(xiàn)、依據(jù)這個二叉決策樹實現(xiàn)正確的分類。
2? ?基于二叉決策樹的5G承載網(wǎng)故障精準(zhǔn)定位方法詳述
圖1是基于二叉決策樹的5G承載網(wǎng)故障精準(zhǔn)定位方法,詳細(xì)說明如下:
網(wǎng)絡(luò)結(jié)構(gòu):最下方為5G網(wǎng)絡(luò)示意圖,5G網(wǎng)絡(luò)分為無線網(wǎng)、承載網(wǎng)、核心網(wǎng)三部分。根據(jù)站點覆蓋模擬推算,未來5G網(wǎng)絡(luò)宏基站、室內(nèi)和微站加起來的接入點部署密度將達(dá)到現(xiàn)有部署密度的10倍以上[6]。由于承載網(wǎng)的層級最多、結(jié)構(gòu)最復(fù)雜,采用全環(huán)網(wǎng)方式組網(wǎng),因此承載網(wǎng)的故障精準(zhǔn)定位的要求最高。
網(wǎng)絡(luò)控制及數(shù)據(jù)采集:該模塊是系統(tǒng)的采集服務(wù),通過SNMP、Netconf、SSH等接口方式,從網(wǎng)絡(luò)側(cè)輪詢采集相關(guān)的資源、告警、性能數(shù)據(jù),也可以通過原子能力方式實時去網(wǎng)絡(luò)設(shè)備上采集當(dāng)前時刻的數(shù)據(jù)。
網(wǎng)絡(luò)能力與數(shù)據(jù)交互模塊:該模型是系統(tǒng)的數(shù)據(jù)庫服務(wù),將統(tǒng)一存儲與故障精準(zhǔn)定位相關(guān)的資源、告警、性能閾值告警、性能KPI、拓?fù)潢P(guān)系等數(shù)據(jù)。
故障精準(zhǔn)定位方法:目前的方法步驟包括“網(wǎng)絡(luò)自動建鏈→告警自動收集→告警歸一化→梳理告警關(guān)系,建立推理樹→設(shè)計推理機(jī)→自動告警歸并”,下文中予以詳細(xì)說明。
2.1? 網(wǎng)絡(luò)自動建鏈
5G承載網(wǎng)絡(luò)層級,從高到低分為以下幾類設(shè)備:5GC CE-省級ER-城域ER-B設(shè)備-A設(shè)備。其中,5GC CE與5G核心網(wǎng)相連,而A設(shè)備則下掛5G基站設(shè)備?,F(xiàn)有IPRAN對接入光纜網(wǎng)的消耗非常大,所以主要采用無源DWDM技術(shù)。無源DWDM主要是將原有波分系統(tǒng)中的波長轉(zhuǎn)換模塊安裝在DU-AAU的對端,而波分系統(tǒng)中僅保留的D/W合分波板完成WDM功能[7]。由于承載網(wǎng)設(shè)備是環(huán)狀組網(wǎng),并且設(shè)備數(shù)量眾多(一般一個省的設(shè)備數(shù)量在3萬臺以上),因此需要采用自動的拓?fù)浒l(fā)現(xiàn)和關(guān)系識別方法。我們采用LLDP算法來實現(xiàn)。
LLDP(Link Layer Discovery Protocol,鏈路層發(fā)現(xiàn)協(xié)議)是一個廠商無關(guān)的二層協(xié)議,它允許網(wǎng)絡(luò)設(shè)備在本地子網(wǎng)中通告自己的設(shè)備標(biāo)識和性能。因此,在IPRAN網(wǎng)絡(luò)結(jié)構(gòu)中,基于LLDP協(xié)議的方法,可以準(zhǔn)確、實時、自動地得到網(wǎng)絡(luò)設(shè)備的資源拓?fù)浣Y(jié)構(gòu)樹。
LLDP數(shù)據(jù)分析方法如圖2所示。
每臺設(shè)備上采集到的LLDP信息包括:本端主機(jī)名、本端設(shè)備MAC、本端設(shè)備IP、本端端口、鄰居主機(jī)名、鄰居設(shè)備MAC、鄰居設(shè)備IP、鄰居端口。如圖3所示,多臺設(shè)備的這些數(shù)據(jù)結(jié)合在一起,通過本端與鄰居端信息之間的匹配連接,可以得到全網(wǎng)各設(shè)備之間的鏈路連接關(guān)系,通過這種對應(yīng)關(guān)系,可以自動生成實時拓?fù)滟Y源樹。
2.2? 告警自動收集
網(wǎng)管系統(tǒng)采集網(wǎng)元告警的方法有多種,包括:
SNMP Trap:由網(wǎng)元實時上報,因此告警及時性高,一般在5 s內(nèi)完成告警的收集和處理。
SNMP Get:由網(wǎng)管系統(tǒng)定時輪詢設(shè)備狀態(tài),因此告警時延取決于輪詢周期的設(shè)置,考慮到SNMP Get操作太頻繁會對網(wǎng)元設(shè)備的負(fù)荷造成影響,因此輪詢周期一般設(shè)置為5分鐘。
閾值告警:由性能指標(biāo)超過一定閾值后產(chǎn)生的告警,如CPU利用率告警、光功率異常告警等,由于需要對性能指標(biāo)進(jìn)行一定時間的觀察,因此告警延時一般在5分鐘左右。
隱性測量告警:前面三類告警一般都可以及時采集到,還有一些網(wǎng)元問題是需要通過測量來實現(xiàn)隱性告警采集的,如網(wǎng)絡(luò)的端到端Ping測、基于RFC2544的性能測量、Y.1731測量等。
系統(tǒng)會根據(jù)上述方法,采集IPRAN網(wǎng)絡(luò)的大量告警數(shù)據(jù)和其它數(shù)據(jù),包括:
◆設(shè)備、板卡、端口的資源數(shù)據(jù);
◆網(wǎng)絡(luò)鏈路關(guān)系;
◆設(shè)備告警,如設(shè)備掉電、單板異常、溫度異常等;
◆鏈路告警,如收發(fā)光功率、CRC誤碼、R_LOS、流量突降等;
◆協(xié)議告警,如OSPF狀態(tài)、LDP狀態(tài)、ISIS鄰居狀態(tài)、BGP狀態(tài)等;
◆其它告警,如光模塊異常、接口環(huán)回等。
系統(tǒng)的采集服務(wù)獲取到上述告警數(shù)據(jù)后,入庫進(jìn)行統(tǒng)一的告警歸一化。
2.3? 告警歸一化
網(wǎng)管系統(tǒng)將按照統(tǒng)一的告警模型,對采集到的告警數(shù)據(jù)進(jìn)行歸一化,歸一化的告警格式表如表1所示。告警歸一化后,將便于系統(tǒng)提取關(guān)鍵特征并設(shè)計推理樹(即二叉決策樹)。
2.4? 梳理告警關(guān)系,建立推理樹(二叉決策樹)
(1)5G承載網(wǎng)告警信息特點
5G承載網(wǎng)絡(luò)的分層結(jié)構(gòu)特點,決定了其產(chǎn)生的告警信息有以下特點:
1)告警信息分層次
告警信息從大到小,可以分為以下幾個層次:
①第一層是設(shè)備在網(wǎng)絡(luò)中的角色層級,如核心設(shè)備ER、匯聚設(shè)備B、接入設(shè)備A等;
②第二層是設(shè)備級別,如設(shè)備Node Down等;
③第三層是板卡級別,如設(shè)備主控板CPU利用率等;
④第四層是端口級別,如端口鏈路狀態(tài)DOWN等。
2)每一層次告警都可以分為原生告警和衍生告警
原生告警是指由該層次設(shè)備的故障產(chǎn)生的告警,而衍生告警是指由本設(shè)備或其它設(shè)備的原生告警引起的告警。如設(shè)備甲的斷電引起的Node Down告警即為原生告警,而與該設(shè)備甲直接相連的對端設(shè)備乙的端口鏈路狀態(tài)DOWN即為衍生告警,當(dāng)設(shè)備甲的斷電故障修復(fù)后,設(shè)備乙的端口告警就會直接恢復(fù)。
針對5G承載網(wǎng)的告警特點,我們梳理了需要推理樹建模的所有告警,如表2所示:
3.3? 故障準(zhǔn)確性分析
在推理機(jī)精準(zhǔn)分析第10步中,網(wǎng)管通過解析設(shè)備產(chǎn)生的OSPF鄰居狀態(tài)改變的SNMP Trap告警,得出主B與備B產(chǎn)生的時間分別為2020-01-06 00:12:49(圖7)、2020-01-06 00:12:48(圖8),產(chǎn)生相差1 s,并由此最終分析出本次故障為接入環(huán)存在同路由風(fēng)險。
主B設(shè)備原始OSPF告警信息如圖9所示。
備B設(shè)備原始OSPF告警信息如圖10所示。
除針對常見問題、典型問題取樣分析外,還根據(jù)以上的模型和算法對現(xiàn)網(wǎng)數(shù)據(jù)進(jìn)行全面分析,對現(xiàn)網(wǎng)的故障和隱患問題診斷定位,從2019年9月至今診斷出接入環(huán)整體脫網(wǎng)、部分脫網(wǎng)等嚴(yán)重故障十余次,A設(shè)備脫網(wǎng)、光模塊故障、鏈路故障等一般故障上百次,準(zhǔn)確率達(dá)90%以上。
3.4? 后續(xù)網(wǎng)優(yōu)工作
在推理機(jī)得出該接入環(huán)為疑似同路由接入后,一線工作人員在現(xiàn)場核查光纖線路的連接,發(fā)現(xiàn)該接入環(huán)確實存在同路由安全隱患。
同路由安全隱患是指:環(huán)狀組網(wǎng)的接入環(huán)是為了避免單點故障,當(dāng)某臺設(shè)備或鏈路故障時不影響業(yè)務(wù)運行,但如果設(shè)備上聯(lián)的2條光路為同路由光路,即同屬于一條光纜時,如果該條光纜故障就會直接導(dǎo)致業(yè)務(wù)中斷。
為此,在此之后針對該接入環(huán)上的4臺A設(shè)備進(jìn)行網(wǎng)絡(luò)割接,確保A設(shè)備上聯(lián)的2條光纖是分屬于不同光纜的,從而提高了網(wǎng)絡(luò)的穩(wěn)定性及業(yè)務(wù)可用性。
從這個現(xiàn)網(wǎng)故障實例可以看到,基于二叉決策樹算法,可以自動、精準(zhǔn)地把5G承載網(wǎng)的故障進(jìn)行智能歸并、診斷定位,通過運營商的電子運維派單系統(tǒng)快速派工單給一線處理人員,從而極大地提高網(wǎng)絡(luò)運維的智能化程度,提升故障處理效率,確保5G網(wǎng)絡(luò)的整體質(zhì)量和用戶體驗。
4? ?結(jié)束語
根據(jù)以上的模型和算法自動進(jìn)行告警采集、告警診斷定位,可以精準(zhǔn)快速地診斷出承載網(wǎng)的故障和隱患問題,然后通過短信、郵件等方式通知相關(guān)人員,這將有利于5G承載網(wǎng)業(yè)務(wù)的大力拓展,也符合運營商“能遠(yuǎn)程不現(xiàn)場、能自動不人工”的集約化工作思路。但同時也存在一定的不足,由于現(xiàn)在數(shù)據(jù)取樣有限,針對模型和算法的準(zhǔn)確性校驗可能沒辦法全面覆蓋到所有的業(yè)務(wù)場景和問題,會存在一些,例如上行疑似同路由、離線設(shè)備所屬機(jī)房同時掉電、光衰惡化等實際維護(hù)中容易被忽視或者發(fā)生概率較小的問題,以及部分問題的故障原因只能是疑似、部分診斷條件的閾值取值是否真的合理等當(dāng)前模型存在不完善的地方。因此下階段的工作重點是進(jìn)一步校驗和完善目前的模型和算法,以大量的數(shù)據(jù)來驗證,進(jìn)一步提升準(zhǔn)確性和完善程度。
參考文獻(xiàn):
[1]? ? ?李章明. 5G移動通信技術(shù)及發(fā)展趨勢的分析與探討[J]. 廣東通信技術(shù), 2015(4): 44-46.
[2]? ?葉胤,劉興華. 低時延傳輸網(wǎng)絡(luò)設(shè)計[J]. 電信技術(shù), 2013(11): 92-94.
[3]? ? 尹遠(yuǎn)陽,李玉娟,楊旭如,等. 5G通信IPRAN綜合承載網(wǎng)絡(luò)方案[J]. 移動通信, 2018(7): 45-49.
[4]? ? 奉媛. IP RAN智能化運營的探索和實踐[J]. 電信技術(shù), 2019(10): 71-75.
[5]? ? 李信,蔣雷敏. 5G挑戰(zhàn)及技術(shù)趨勢[J]. 通信觀察, 2014(1): 12-13.
[6]? ? ? C S Z, Q F, H B. User-centric ultra-dense networks(UUDN)for 5G:challenges,methodologies and directions[J]. IEEE Wireless Communications Magazine, 2016,23(2): 78-85.
[7]? ? 王昌延,韓冬梅. C-RAN傳輸解決的新思路[J]. 通信世界, 2015(6): 161-165.
[8]? ? 黃春輝. 低時延高可靠性的5G承載網(wǎng)絡(luò)挑戰(zhàn)和實現(xiàn)[J]. 移動通信, 2018(3): 85-88.