萬(wàn)宏謀 劉 兵 蔡林峰 王 榮
1中國(guó)電信股份有限公司江西分公司云網(wǎng)運(yùn)營(yíng)部 南昌市 330029
2中國(guó)電信股份有限公司江西分公司云網(wǎng)發(fā)展部 南昌市 330029
3中國(guó)電信股份有限公司江西分公司云網(wǎng)支撐事業(yè)部 南昌市 330029
本文探討研究的主要內(nèi)容是:應(yīng)用AI和大數(shù)據(jù)技術(shù),對(duì)網(wǎng)絡(luò)告警、性能、故障等網(wǎng)絡(luò)運(yùn)營(yíng)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,實(shí)現(xiàn)網(wǎng)絡(luò)群障及片障的智能攔截。針對(duì)寬帶的無(wú)源接入段的故障定位和用戶(hù)申告攔截,基于AI的網(wǎng)絡(luò)故障處理工單的自動(dòng)識(shí)別、校驗(yàn)、轉(zhuǎn)派以及故障自動(dòng)預(yù)處理,減少網(wǎng)絡(luò)工單的人工處理量;針對(duì)光纜纖芯中斷、重要網(wǎng)絡(luò)中繼故障,研究實(shí)現(xiàn)自動(dòng)生成應(yīng)急調(diào)度光纜路由,推送給現(xiàn)場(chǎng)維護(hù)人員,加快重大網(wǎng)絡(luò)故障的處理,縮短故障時(shí)長(zhǎng)。主要技術(shù)研究?jī)?nèi)容:
(1)基于RNN多層遞歸神經(jīng)網(wǎng)絡(luò)算法,實(shí)現(xiàn)網(wǎng)絡(luò)故障源定位和關(guān)聯(lián)分析;研究并實(shí)現(xiàn)了寬帶無(wú)源接入網(wǎng)絡(luò)的故障判斷和定位,解決了無(wú)源設(shè)備在無(wú)告警、無(wú)性能檢測(cè)條件下的故障定位及故障診斷問(wèn)題。
(2)基于DNN深度神經(jīng)網(wǎng)絡(luò)框架算法對(duì)網(wǎng)絡(luò)故障單處理進(jìn)行學(xué)習(xí)和訓(xùn)練,實(shí)現(xiàn)網(wǎng)絡(luò)故障工單的智能質(zhì)檢、轉(zhuǎn)派,減少人工處理工單。
(3)基于DNN深度神經(jīng)網(wǎng)絡(luò),對(duì)歷史流量進(jìn)行訓(xùn)練學(xué)習(xí)、刷新模型,實(shí)現(xiàn)網(wǎng)絡(luò)流量、性能、告警、故障的AI預(yù)測(cè)、研判及異常分析,提升網(wǎng)絡(luò)運(yùn)營(yíng)維護(hù)的智能性和主動(dòng)性。
(4)基于RRT路徑規(guī)劃算法,自動(dòng)生成應(yīng)急調(diào)度光纜路由方案,推送給現(xiàn)場(chǎng)人員,加快光纜故障的處理速度,縮短故障處理時(shí)長(zhǎng)。
關(guān)于寬帶的無(wú)源故障定位,武漢郵科院提出了一種部署OBD以下的光分支檢測(cè)信號(hào),進(jìn)行物理檢測(cè)的方法,其專(zhuān)利《一種無(wú)源光接入網(wǎng)絡(luò)中支路故障定位的裝置和方法》2018年—CN105577458A,通過(guò)部署物理探針,變無(wú)源為有源,硬件成本高;華為提出一種終端設(shè)備掉電或者正常關(guān)電時(shí),檢測(cè)設(shè)備下電、光功率信息,判斷PON網(wǎng)絡(luò)是設(shè)備故障還是線路故障的方法,其專(zhuān)利《一種無(wú)源光網(wǎng)絡(luò)的故障定位方法及系統(tǒng)》2011 年CN101345581A,可實(shí)現(xiàn)PON 口級(jí)別的寬帶故障定位,不能進(jìn)行PON口以下的二級(jí)OBD級(jí)別無(wú)源故障定位,精確度是32個(gè)用戶(hù)顆粒。
本文所研究的方法是,通過(guò)實(shí)時(shí)分析PON網(wǎng)管中掉線ONU,解析用戶(hù)投訴、申告的號(hào)碼,采用大數(shù)據(jù)技術(shù)實(shí)時(shí)計(jì)算單一寬帶賬號(hào)是否聚類(lèi)到了同一PON 口和OBD,再結(jié)合資源準(zhǔn)確率,依據(jù)二項(xiàng)分布模型,計(jì)算出概率大于90%的故障點(diǎn),實(shí)現(xiàn)主動(dòng)發(fā)現(xiàn)片障,攔截的精度達(dá)到了3個(gè)用戶(hù)顆粒,大幅提升了故障主動(dòng)發(fā)現(xiàn)率,監(jiān)控?cái)?shù)據(jù)如圖1所示。顯著減少了客服10000號(hào)的寬帶、ITV用戶(hù)申告和投訴次數(shù)(由每月23.5萬(wàn)次減少為12.3萬(wàn)次,下降50%),如圖1所示。該算法已申報(bào)發(fā)明專(zhuān)利《用于寬帶網(wǎng)絡(luò)的無(wú)源接入設(shè)備的故障定位的方法和裝置》2021年CN114640576A,已公開(kāi)。
圖1 無(wú)源智能片障監(jiān)控效果統(tǒng)計(jì)圖
AI實(shí)現(xiàn)網(wǎng)絡(luò)流量的預(yù)警、預(yù)測(cè),是通信領(lǐng)域的研究熱點(diǎn)。本文提出了一種基于網(wǎng)絡(luò)流量歷史數(shù)據(jù)機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)流量周期性變化特征參數(shù)進(jìn)行疊加分析的混合神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法,實(shí)現(xiàn)5分鐘周期的網(wǎng)絡(luò)流量預(yù)測(cè)平均準(zhǔn)確率95%,如圖2所示。該算法申報(bào)發(fā)明專(zhuān)利《通信網(wǎng)絡(luò)的流量預(yù)測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)》2021年,CN113660176A已授權(quán)。
圖2 網(wǎng)絡(luò)流量預(yù)警監(jiān)控視圖
論文《基于AI告警分析系統(tǒng)的IPRAN網(wǎng)絡(luò)智能運(yùn)維和應(yīng)用》(通信世界2019 年05 期)主要針對(duì)傳輸、IPRAN的網(wǎng)絡(luò)故障。
中國(guó)臺(tái)灣地區(qū)運(yùn)營(yíng)商“中華電信”Chunghwa Telecom 2020 年提出并實(shí)現(xiàn)了《基于機(jī)器學(xué)習(xí)的移動(dòng)網(wǎng)絡(luò)基站故障預(yù)測(cè)》(https://ieeexplore.ieee.org/document/8802836),針對(duì)的是無(wú)線基站故障預(yù)測(cè)。
故障調(diào)度模塊根據(jù)IP、IP RAN網(wǎng)絡(luò)拓?fù)鋱D,如何實(shí)現(xiàn)中繼應(yīng)急預(yù)案的生成,本文基于GIS地圖呈現(xiàn)機(jī)房光纜連接及光纜承載業(yè)務(wù)信息、人員調(diào)度定位處理人員位置,進(jìn)行透明化故障調(diào)度的實(shí)現(xiàn)方式。如圖3所示。
圖3 故障處理人員定位調(diào)度
針對(duì)PON設(shè)備的無(wú)源接入故障,研究實(shí)現(xiàn)了故障定位的精度達(dá)到3個(gè)用戶(hù)的精度。
實(shí)現(xiàn)步驟:
(1)按實(shí)時(shí)監(jiān)控PON 網(wǎng)管中所有ONU 離線告警,排除網(wǎng)絡(luò)割、PON口告警的情形(主光路中斷)。
(2)如存在同一個(gè)二級(jí)分光器內(nèi),有3個(gè)ONU同時(shí)斷線,則查詢(xún)這些ONU的離線原因代碼,如果都是斷纖(收無(wú)光:關(guān)鍵字LOS),則確認(rèn)為是該二級(jí)分光器光纖斷;生成“二級(jí)分光斷”告警,并關(guān)聯(lián)資源系統(tǒng)該二級(jí)分光OBDid,進(jìn)行定位,派故障單給電子運(yùn)維系統(tǒng)進(jìn)行故障處理。如圖4所示。
圖4 寬帶PON無(wú)源故障定位的實(shí)現(xiàn)流程
實(shí)現(xiàn)依據(jù):在隨機(jī)事例中,有一類(lèi)現(xiàn)象,只產(chǎn)生兩種互斥的結(jié)果,如對(duì)病人治療結(jié)果的有效與無(wú)效,某種化驗(yàn)結(jié)果的陽(yáng)性與陰性等。這種隨機(jī)事件是只具有兩種互斥結(jié)果的離散型隨機(jī)事件,它的發(fā)生概率,可以由二項(xiàng)分布(binomial distribution)對(duì)這類(lèi)隨機(jī)事件的規(guī)律性進(jìn)行描述。
寬帶接入網(wǎng)的二級(jí)無(wú)源分光器、ONU也只有兩種隨機(jī)狀態(tài),要么是中斷,要么不中斷。扣除割接、電源故障引起的中斷情況,線路中斷、分光器老化等故障因素的影響后,滿(mǎn)足二項(xiàng)分布。概率分布函數(shù)為:
計(jì)算結(jié)果:如OBD上用戶(hù)占用的準(zhǔn)確性為60%,那么1個(gè)用戶(hù)發(fā)生故障定位到OBD的準(zhǔn)確率為60%。經(jīng)過(guò)計(jì)算,2個(gè)用戶(hù)準(zhǔn)確率83.5%,3個(gè)用戶(hù)的準(zhǔn)確率93.5%;即根據(jù)目前OBD資源與客戶(hù)關(guān)聯(lián)60%準(zhǔn)確率,無(wú)源片障精確到3個(gè)用戶(hù)的屬于同一故障的準(zhǔn)確率為93.5%。
應(yīng)用“人工智能-機(jī)器學(xué)習(xí)模型”來(lái)進(jìn)行故障定位,提升網(wǎng)絡(luò)故障定位的智能性和準(zhǔn)確性。系統(tǒng)可針對(duì)目前已經(jīng)持有的障礙分析及歸并規(guī)則進(jìn)行分析結(jié)果的發(fā)布,依托目前的障礙處理流程以及數(shù)據(jù),針對(duì)規(guī)則的命中概率、障礙影響面的攔截效果,對(duì)故障關(guān)聯(lián)信息的一致性進(jìn)行模型匹配。通過(guò)對(duì)于分析規(guī)則的成效驗(yàn)證以及發(fā)布,輔助故障處理人員以及網(wǎng)絡(luò)資深運(yùn)維專(zhuān)家進(jìn)行故障處理規(guī)則的修正,對(duì)于處理成效較低的規(guī)則修正后進(jìn)行再次發(fā)布并跟蹤,建立網(wǎng)絡(luò)故障機(jī)器學(xué)習(xí)的監(jiān)督模型。如圖5所示。
圖5 故障隨機(jī)森林診斷算法
基于開(kāi)源深度學(xué)習(xí)框架BERT模型對(duì)現(xiàn)場(chǎng)的故障處理回單內(nèi)容進(jìn)行NLP分類(lèi)學(xué)習(xí)建模,識(shí)別回單是否符合規(guī)范。
如圖6所示,為了進(jìn)一步提升模型的準(zhǔn)確率,通過(guò)回譯和同近義詞替換的方式對(duì)正樣本進(jìn)行擴(kuò)充,平衡了正負(fù)樣本量,通過(guò)數(shù)據(jù)增強(qiáng)的方式使得模型準(zhǔn)確率提升了5個(gè)百分點(diǎn),最后通過(guò)K折交叉驗(yàn)證和Voting的方式進(jìn)行模型融合,訓(xùn)練集上的準(zhǔn)確率達(dá)到了98%,實(shí)際上線后應(yīng)用的準(zhǔn)確率約為93%。
圖6 工單內(nèi)容識(shí)別模型的準(zhǔn)確率
◎訓(xùn)練情況:通過(guò)爬蟲(chóng)獲取工單回單反饋數(shù)據(jù)70多萬(wàn)條,由于轉(zhuǎn)派、退單等數(shù)據(jù)量和銷(xiāo)障的數(shù)據(jù)量嚴(yán)重不均衡,銷(xiāo)障的量占比99%以上,不能用來(lái)全部進(jìn)行學(xué)習(xí)訓(xùn)練,最終選取了5515張銷(xiāo)障數(shù)據(jù)、全部轉(zhuǎn)派數(shù)據(jù)5249張、全部退單數(shù)據(jù)268張,進(jìn)行訓(xùn)練,細(xì)分場(chǎng)景還是存在不均衡,通過(guò)上采樣擴(kuò)充較少的數(shù)據(jù)樣本。
◎應(yīng)用效果:月度覆蓋工單3萬(wàn)余張,判斷耗時(shí)十幾秒左右。對(duì)于識(shí)別出的處理場(chǎng)景,結(jié)合后續(xù)的自動(dòng)處理動(dòng)作,實(shí)現(xiàn)工單的自動(dòng)結(jié)單、智能轉(zhuǎn)派或自動(dòng)退單等自動(dòng)流轉(zhuǎn)調(diào)度。
傳統(tǒng)的網(wǎng)絡(luò)流量監(jiān)控采用告警基線為固定閾值,這種方式效率低,漏報(bào)誤告率高,無(wú)法為維護(hù)人員提供可靠的流量信息。
基于AI的流量基線分析利用每五分鐘建立的流量基線,將網(wǎng)絡(luò)流量與相同時(shí)段的基線值進(jìn)行分析與比較,便可篩選出網(wǎng)絡(luò)中的異常流量。
如圖7所示,采用DNN深度神經(jīng)網(wǎng)絡(luò),針對(duì)流量類(lèi)的輸入訓(xùn)練與測(cè)試,經(jīng)過(guò)超參數(shù)訓(xùn)練時(shí)間評(píng)估以及準(zhǔn)確率平衡考慮,網(wǎng)絡(luò)采用17層神經(jīng)網(wǎng)絡(luò)(包含全連接層、隨機(jī)丟棄層、激活層),實(shí)現(xiàn)數(shù)據(jù)快速訓(xùn)練和高速預(yù)測(cè)。
圖7 網(wǎng)絡(luò)流量的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)訓(xùn)練
以IP流量最近3個(gè)月每5分鐘歷史流量進(jìn)行訓(xùn)練為例,通過(guò)EarlyStopping設(shè)置,經(jīng)過(guò)30次訓(xùn)練,在安裝有英偉達(dá)2060Ti單GPU卡工作站上即可在10分鐘內(nèi)完成訓(xùn)練,達(dá)到準(zhǔn)確度超過(guò)95%的良好效果。
根據(jù)以上訓(xùn)練模型,可以通過(guò)選擇電路開(kāi)始和截止時(shí)間,即可對(duì)流量等數(shù)據(jù)進(jìn)行預(yù)測(cè)。該算法實(shí)現(xiàn)了新數(shù)據(jù)的及時(shí)在線后臺(tái)訓(xùn)練更新模型以提高準(zhǔn)確率,同時(shí)實(shí)現(xiàn)流量波形差異大于指定閾值進(jìn)行預(yù)警。在相同工作站上,可以實(shí)現(xiàn)10秒以?xún)?nèi)的高速流量類(lèi)數(shù)據(jù)的預(yù)測(cè)。
基于AI的網(wǎng)絡(luò)流量智能預(yù)警,降低了漏報(bào)率和誤報(bào)率,提高了網(wǎng)絡(luò)流量監(jiān)控的有效性、敏銳度和智能性,能有效評(píng)估網(wǎng)絡(luò)運(yùn)行質(zhì)量,使流量運(yùn)行維護(hù)由被動(dòng)型向預(yù)防型轉(zhuǎn)變。
基于GIS和監(jiān)控的故障光纜調(diào)度。
針對(duì)設(shè)備節(jié)點(diǎn)之間的光纜路由,分兩種方式實(shí)現(xiàn)自動(dòng)調(diào)度:①對(duì)于有應(yīng)急纖芯調(diào)度方案的,按方案制定備用光纜路由,提供調(diào)度方案,并推送給維護(hù)人員;②沒(méi)有預(yù)制定光纜備用路由的,系統(tǒng)根據(jù)起始點(diǎn)機(jī)房位置,通過(guò)資源的自動(dòng)搜索,生成調(diào)度路由?;贕IS和光纜資源數(shù)據(jù),搜索最短距離或最少跳接數(shù)路由,推送給維護(hù)人員,如圖8所示。
圖8 端到端光路調(diào)度
基于AI的通信網(wǎng)絡(luò)智能監(jiān)控研究與應(yīng)用,主要效果有:
(1)基于RNN多層遞歸神經(jīng)網(wǎng)絡(luò)的群障故障源定位和關(guān)聯(lián)算法,實(shí)現(xiàn)無(wú)源寬帶故障定位達(dá)到3個(gè)用戶(hù)的精度,解決了寬帶無(wú)源接入故障的定位問(wèn)題。
(2)應(yīng)用AI技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)故障工單的智能分析、轉(zhuǎn)派,減少了人工故障處理的工作量,縮短了故障處理時(shí)間,提升了網(wǎng)絡(luò)維護(hù)效率。
(3)應(yīng)用AI技術(shù),對(duì)歷史流量進(jìn)行訓(xùn)練學(xué)習(xí),實(shí)現(xiàn)了網(wǎng)絡(luò)流量的預(yù)測(cè),并應(yīng)用于網(wǎng)絡(luò)性能、告警、故障的預(yù)測(cè)及異常分析,提升了網(wǎng)絡(luò)維護(hù)的主動(dòng)性。
(4)對(duì)重大云網(wǎng)絡(luò)節(jié)點(diǎn)故障,研究實(shí)現(xiàn)自動(dòng)生成應(yīng)急調(diào)度光纜路由和設(shè)備割接方案,推送給現(xiàn)場(chǎng)維護(hù)人員,加快重大網(wǎng)絡(luò)故障的處理,縮短故障處理時(shí)間。
隨著通信網(wǎng)絡(luò)由傳統(tǒng)設(shè)備組網(wǎng)向虛擬化的SDN、NFV演進(jìn),網(wǎng)絡(luò)本身的智能化、自動(dòng)化程度進(jìn)一步提升,對(duì)網(wǎng)絡(luò)故障調(diào)度提出更為敏捷、靈活的調(diào)度要求。同時(shí),隨著AI大模型的迅速發(fā)展,AI技術(shù)將進(jìn)一步提升云網(wǎng)智能化運(yùn)營(yíng)水平。