韓賽,張冬月,王澤林,王光全,李?yuàn)W,方遒鏗,馬紅兵
跨專業(yè)承載網(wǎng)絡(luò)智能運(yùn)維研究與應(yīng)用
韓賽1,張冬月1,王澤林1,王光全1,李?yuàn)W1,方遒鏗2,馬紅兵3
(1.中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司研究院,北京 100048;2.中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司廣東省分公司,廣東 廣州 510660;3.中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,北京 100032)
隨著人工智能技術(shù)和網(wǎng)絡(luò)日趨緊密地融合,未來網(wǎng)絡(luò)的運(yùn)營(yíng)和生產(chǎn)應(yīng)該是全面數(shù)字化、自動(dòng)化和智能化的。目前跨專業(yè)網(wǎng)絡(luò)故障定位主要依賴各專業(yè)運(yùn)維人員分別進(jìn)行分析和派單,導(dǎo)致排障時(shí)間長(zhǎng)、重復(fù)派單等問題。為了節(jié)省人力工作,借助自動(dòng)化和人工智能技術(shù),研發(fā)了一套應(yīng)用于實(shí)際現(xiàn)網(wǎng)的跨專業(yè)網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)。該系統(tǒng)可對(duì)IPRAN和OTN關(guān)聯(lián)的拓?fù)湫畔⒁约皩?shí)時(shí)的IPRAN和OTN告警數(shù)據(jù)進(jìn)行綜合分析,精準(zhǔn)定位根因告警,確定故障位置,實(shí)現(xiàn)自動(dòng)派單。該系統(tǒng)構(gòu)建了跨專業(yè)的故障自動(dòng)診斷能力,將故障定位時(shí)間由傳統(tǒng)的2 min縮短為幾十毫秒,極大減少故障處理時(shí)間和人工工作,可覆蓋現(xiàn)網(wǎng)大部分故障種類。
跨專業(yè)網(wǎng)絡(luò);故障定位;智能運(yùn)維
隨著技術(shù)的發(fā)展和社會(huì)的進(jìn)步,新技術(shù)尤其是人工智能(artificial intelligence,AI)、區(qū)塊鏈、數(shù)字孿生等與網(wǎng)絡(luò)的結(jié)合日趨緊密,有力地推動(dòng)了網(wǎng)絡(luò)的演進(jìn)。5G在全球范圍的規(guī)模商用已有效地促進(jìn)了垂直行業(yè)的數(shù)字化轉(zhuǎn)型。數(shù)字化轉(zhuǎn)型促進(jìn)各行業(yè)智能化水平提升、生產(chǎn)效率提高并節(jié)省了人力投入[1-3]。通信運(yùn)營(yíng)商也身在其中,運(yùn)營(yíng)商正從單純網(wǎng)絡(luò)向云網(wǎng)/數(shù)字服務(wù)提供商轉(zhuǎn)型,邊界已經(jīng)從通信技術(shù)(communication technology,CT)轉(zhuǎn)向信息通信技術(shù)(information communication technology,ICT),同時(shí)也是網(wǎng)絡(luò)基礎(chǔ)設(shè)施提供商、ICT基礎(chǔ)設(shè)施服務(wù)提供商以及綜合數(shù)字服務(wù)提供商[4]。
數(shù)字化轉(zhuǎn)型的顯著特征之一就是通過數(shù)字化應(yīng)用提升運(yùn)營(yíng)效率。隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大以及5G應(yīng)用的爆發(fā)式增長(zhǎng),網(wǎng)絡(luò)運(yùn)營(yíng)也迎來新的需求和挑戰(zhàn)[5]。運(yùn)營(yíng)的方式?jīng)Q定了網(wǎng)絡(luò)使用的效率和網(wǎng)絡(luò)服務(wù)的品質(zhì)。傳統(tǒng)的運(yùn)維方式,被稱為被動(dòng)運(yùn)維時(shí)代,從客戶投訴出發(fā),以人工操作為主,跨專業(yè)解決問題能力較弱,業(yè)務(wù)開通周期長(zhǎng),網(wǎng)絡(luò)資源利用率低,故障定位難,客戶管理水平低。
為了解決這些問題,在傳統(tǒng)運(yùn)維系統(tǒng)中引入專家經(jīng)驗(yàn)?zāi)P筒⒃黾訑?shù)據(jù)提取分析等能力,實(shí)現(xiàn)部分故障的自動(dòng)定位,但仍需要部分人工進(jìn)行問題處理與網(wǎng)絡(luò)修復(fù),這些運(yùn)維方式的改變一定程度上提升了運(yùn)維效率,將運(yùn)維方式帶入半自動(dòng)化時(shí)代[6]。
在數(shù)字化轉(zhuǎn)型的趨勢(shì)下,未來的運(yùn)營(yíng)和生產(chǎn)應(yīng)該是全面數(shù)字化、自動(dòng)化的。新網(wǎng)絡(luò)、新服務(wù)的爆發(fā)式增長(zhǎng)亟須進(jìn)一步提升網(wǎng)絡(luò)運(yùn)營(yíng)水平,減少傳統(tǒng)低效、重復(fù)性的工作,從依賴運(yùn)維人員在流程中轉(zhuǎn)化為運(yùn)維人員在流程之上,從數(shù)據(jù)采集、分析、故障定位、修復(fù)到優(yōu)化,形成自動(dòng)化閉環(huán)。這是真正意義的數(shù)字化,利用新一代信息技術(shù),構(gòu)建數(shù)據(jù)的采集、傳輸、存儲(chǔ)、處理和反饋的閉環(huán)。在數(shù)字化運(yùn)營(yíng)的支撐下,可實(shí)現(xiàn)客戶運(yùn)維自助、運(yùn)維作業(yè)與運(yùn)維開發(fā)協(xié)同、運(yùn)營(yíng)工作可視可控可評(píng)等能力。此外,通過引入AI等技術(shù)進(jìn)行預(yù)測(cè),可靈活應(yīng)對(duì)故障風(fēng)險(xiǎn),網(wǎng)絡(luò)運(yùn)營(yíng)全面進(jìn)入自動(dòng)化、智能化的主動(dòng)運(yùn)維時(shí)代[7-8]。
相比于數(shù)據(jù)中心網(wǎng)絡(luò),運(yùn)營(yíng)商網(wǎng)絡(luò)具有規(guī)模大、層次多、專業(yè)多、節(jié)點(diǎn)分散和業(yè)務(wù)方案復(fù)雜等特點(diǎn),這對(duì)利用自動(dòng)化、數(shù)字化、智能化能力提升網(wǎng)絡(luò)運(yùn)維效率帶來極大的障礙。未來的6G網(wǎng)絡(luò)架構(gòu)具備智慧內(nèi)生、安全內(nèi)生、多域融合、算網(wǎng)一體四大特征[9]。其中AI技術(shù)是智慧內(nèi)生的基礎(chǔ),對(duì)內(nèi)可提升網(wǎng)絡(luò)運(yùn)營(yíng)效率[10]、服務(wù)質(zhì)量,對(duì)外為千行萬業(yè)用戶提供AI和網(wǎng)絡(luò)結(jié)合的計(jì)算和服務(wù)能力。近年來雖然有一些AI賦能運(yùn)維的案例[11-13],但整體運(yùn)維能力提升效果并不明顯。
在網(wǎng)絡(luò)故障自動(dòng)診斷領(lǐng)域,運(yùn)營(yíng)商網(wǎng)絡(luò)分層分專業(yè)架構(gòu)如圖1所示,運(yùn)營(yíng)商網(wǎng)絡(luò)分層分專業(yè),具有多層承載關(guān)系,底層故障具有向上層傳遞的可能,僅通過專業(yè)網(wǎng)絡(luò)內(nèi)的自動(dòng)診斷能力,難以直接定位到最根本的故障原因。比如光傳送網(wǎng)絡(luò)(optical transport network,OTN)故障導(dǎo)致大片互聯(lián)協(xié)議無線電接入網(wǎng)絡(luò)(Internet protocol radio access network,IPRAN)網(wǎng)元故障,IPRAN的故障導(dǎo)致基站大面積斷站。目前跨專業(yè)網(wǎng)絡(luò)故障定位主要依賴各專業(yè)運(yùn)維人員分別進(jìn)行分析定位,并分別派發(fā)故障工單,導(dǎo)致故障工單重復(fù)而龐雜,增加網(wǎng)絡(luò)維護(hù)人力成本。故障處理時(shí)間長(zhǎng)、效率低,是當(dāng)前網(wǎng)絡(luò)運(yùn)維工作的主要痛點(diǎn)之一[14]。
圖1 運(yùn)營(yíng)商網(wǎng)絡(luò)分層分專業(yè)架構(gòu)
本文嘗試打破已有專業(yè)壁壘,構(gòu)建跨專業(yè)的故障自動(dòng)診斷能力,系統(tǒng)性地提升運(yùn)營(yíng)商故障自動(dòng)診斷定位能力。IPRAN作為中國(guó)聯(lián)通移動(dòng)網(wǎng)絡(luò)的承載網(wǎng),接入4G、5G基站,提供了移動(dòng)業(yè)務(wù)回傳能力,同時(shí)由于組網(wǎng)安全性等要求,IPRAN設(shè)備間的重要連接往往承載在OTN之上,當(dāng)OTN或IPRAN出現(xiàn)故障或網(wǎng)絡(luò)劣化時(shí),會(huì)極大地影響承載在上面的移動(dòng)業(yè)務(wù)。因此,本文選取IPRAN和OTN作為關(guān)聯(lián)性強(qiáng)、故障頻發(fā)的跨專業(yè)網(wǎng)絡(luò)場(chǎng)景,研發(fā)了一套基于現(xiàn)網(wǎng)的跨專業(yè)承載網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)。該系統(tǒng)可提升IPRAN和OTN跨專業(yè)快速故障定位能力,提升運(yùn)維效率。
為解決IPRAN和OTN跨專業(yè)故障定位問題,本文采用自動(dòng)化和智能化技術(shù),研發(fā)了一套跨專業(yè)網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)。下面對(duì)技術(shù)方案進(jìn)行詳細(xì)闡述。
跨專業(yè)網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)架構(gòu)如圖2所示,主要包括數(shù)據(jù)采集模塊及IPRAN和OTN故障定位模塊。
數(shù)據(jù)采集模塊進(jìn)行故障定位功能相關(guān)數(shù)據(jù)的采集。其中,告警數(shù)據(jù)經(jīng)運(yùn)營(yíng)商企業(yè)服務(wù)總線(enterprise service bus,ESB)獲得,其采集各廠商網(wǎng)絡(luò)設(shè)備IPRAN網(wǎng)元和OTN網(wǎng)元的告警數(shù)據(jù)。拓?fù)湫畔⒖赏ㄟ^運(yùn)營(yíng)商資源系統(tǒng)獲得。告警數(shù)據(jù)和拓?fù)湫畔⑼ㄟ^Kafka接口采集,存儲(chǔ)到數(shù)據(jù)采集模塊并創(chuàng)建索引、搜索、關(guān)聯(lián)以供IPRAN和OTN故障定位模塊調(diào)用,從而實(shí)現(xiàn)單專業(yè)以及IPRAN和OTN跨專業(yè)網(wǎng)絡(luò)故障定位。
圖2 跨專業(yè)網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)架構(gòu)
對(duì)IPRAN和OTN關(guān)聯(lián)的拓?fù)湫畔⒁约皩?shí)時(shí)IPRAN和OTN告警數(shù)據(jù)進(jìn)行綜合分析,根據(jù)專家經(jīng)驗(yàn)和關(guān)聯(lián)規(guī)則挖掘算法,可精準(zhǔn)定位根因告警,確定故障位置,實(shí)現(xiàn)自動(dòng)派單。告警數(shù)據(jù)一般包括告警名稱、定位信息、最近發(fā)生時(shí)間、附加信息等。IPRAN和OTN跨專業(yè)網(wǎng)絡(luò)故障自動(dòng)定位流程如圖3所示。
(1)采集實(shí)時(shí)告警數(shù)據(jù)
通過采集接口實(shí)時(shí)接收IPRAN和OTN專業(yè)的告警數(shù)據(jù)。
(2)根源告警篩選
根據(jù)專家經(jīng)驗(yàn)規(guī)則庫篩選出IPRAN和OTN專業(yè)的根源告警,具體如下。
?IPRAN:挑選出告警名稱為“物理端口down”的告警。
?OTN:過濾除5種板卡(OAU/LSC/ U402/DAPXF/LTX)以外的告警,過濾相關(guān)衍生告警。
(3)頻發(fā)告警清洗
對(duì)篩選后的IPRAN和OTN的告警數(shù)據(jù)進(jìn)行頻發(fā)告警清洗,按照下述規(guī)則剔除相同告警(同一告警名稱、同一網(wǎng)元、同一端口),只保留第一條告警信息。
圖3 IPRAN和OTN跨專業(yè)網(wǎng)絡(luò)故障自動(dòng)定位流程
?相同告警出現(xiàn)后存在時(shí)間小于1 min并且5 min之內(nèi)只出現(xiàn)1次。
?同一端口1 min之內(nèi)相同告警。
(4)時(shí)間關(guān)聯(lián)分析
當(dāng)讀取到IPRAN根源告警(告警名稱為“物理端口down”)時(shí),需要等待一段時(shí)間,直到產(chǎn)生3條以上非IPRAN根源告警(即告警名稱為除“物理端口down”以外的告警),并且告警發(fā)生時(shí)間比本組最早的根源告警的發(fā)生時(shí)間晚90 s為止,此時(shí)已采集到本組全部IPRAN根源告警。如果IPRAN告警數(shù)量為1,則直接判斷為IPRAN內(nèi)部告警。如果IPRAN告警數(shù)量大于1,設(shè)當(dāng)前IPRAN告警組最早的告警發(fā)生時(shí)間為,找到發(fā)生時(shí)間為(?16)s及(+100)s的OTN告警組,分析OTN故障。如果存在對(duì)應(yīng)的OTN告警(Y),則進(jìn)行下述步驟(5);如果不存在(N)則不派單。
(5)原因分析
本方案將根據(jù)OTN告警,結(jié)合網(wǎng)絡(luò)拓?fù)浞治龀鼍唧w故障類型和故障位置。當(dāng)前網(wǎng)絡(luò)故障主要是光纜故障,主要包括以下4種情況:如果出現(xiàn)1個(gè)網(wǎng)元DAPXF告警,則無法判斷故障位置;當(dāng)出現(xiàn)2個(gè)網(wǎng)元DAPXF告警時(shí),可直接判斷2個(gè)網(wǎng)元之間出現(xiàn)光纜中斷;當(dāng)出現(xiàn)多個(gè)網(wǎng)元DAPXF告警時(shí),則關(guān)聯(lián)網(wǎng)元位置關(guān)系,確定各個(gè)網(wǎng)元之間的連接關(guān)系,判定存在連接關(guān)系的網(wǎng)元之間出現(xiàn)光纜中斷的故障;當(dāng)出現(xiàn)OAU告警時(shí),如果是超過1個(gè)網(wǎng)元的OAU出現(xiàn)告警,則對(duì)關(guān)聯(lián)網(wǎng)元位置關(guān)系進(jìn)行分析,其余故障比如板卡故障判斷方法在本文不詳細(xì)描述。本文的故障判斷方法主要將專家經(jīng)驗(yàn)數(shù)字化為計(jì)算機(jī)可識(shí)別的規(guī)則,結(jié)合專家規(guī)則和網(wǎng)絡(luò)拓?fù)浞治鯫TN故障原因,自動(dòng)定位故障網(wǎng)元。
(6)故障派單
故障定位的結(jié)果以微信的形式向相關(guān)運(yùn)維人員推送并進(jìn)行派單。
在對(duì)實(shí)時(shí)告警進(jìn)行故障定位之前,需要用歷史告警數(shù)據(jù)進(jìn)行驗(yàn)證,通過告警分組方法分析歷史告警數(shù)據(jù)中故障的數(shù)量,告警分組的組數(shù)結(jié)果即故障數(shù)量。下面將詳細(xì)介紹告警分組的流程。
具體流程如下。
(1)斷電告警預(yù)處理
對(duì)于斷電告警,比如告警名稱為POWER_FAIL的告警,單獨(dú)劃分為一組。因此,告警名稱為POWER_FAIL的告警數(shù)據(jù)不參與預(yù)分組的過程,例如,若總共需要分為18組,即CLUSTERS18,但出現(xiàn)一條POWER_FAIL,那么其他數(shù)據(jù)應(yīng)分為CLUSTERS1組。
(2)預(yù)分組
將所有告警按照最近發(fā)生時(shí)間排序,并進(jìn)行初步預(yù)分組,給定一個(gè)預(yù)分組時(shí)間(210 s/220 s為建議值,參數(shù)可調(diào)整),在預(yù)分組時(shí)間間隔以內(nèi)的告警為同一組。預(yù)分組需要考慮如下兩點(diǎn)。
?預(yù)分組的時(shí)間間隔選擇必須滿足預(yù)分組后形成的組數(shù)大于或等于CLUSTERS。
?最佳預(yù)分組的時(shí)間間隔的選取是10~450 s,每秒執(zhí)行一次,根據(jù)最終的聚類效果進(jìn)行選擇。
如果兩個(gè)告警數(shù)組滿足如下條件,則進(jìn)行預(yù)分組合并。
?告警數(shù)據(jù)組只有一條告警且告警源名稱與上一條告警(即上一組的最后一條告警)一致。
?告警數(shù)據(jù)組只有一條告警且告警源名稱與下一條告警(即下一組的第一條告警)一致。
(3)告警數(shù)據(jù)組的特征向量
1)網(wǎng)元占比向量
2)最早發(fā)生時(shí)間
告警數(shù)據(jù)組的最早發(fā)生時(shí)間為這一組內(nèi)第一條告警數(shù)據(jù)的發(fā)生時(shí)間。此外,為了對(duì)最早發(fā)生時(shí)間進(jìn)行數(shù)值化處理,將其轉(zhuǎn)化為與所有告警的最早發(fā)生時(shí)間的差值(單位為s)。
(4)標(biāo)準(zhǔn)化處理
由于告警數(shù)據(jù)組對(duì)應(yīng)的特征向量中前維位于0~1,而第+1維的數(shù)值基本都超過1且達(dá)到萬數(shù)量級(jí),不同維度之間的數(shù)值差距過大,為了不影響聚類的效果,需采用歸一化處理,對(duì)第+1維數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,按比例縮放,使之落入[0,1]。本文采用極值正規(guī)化min-max normalization方法進(jìn)行標(biāo)準(zhǔn)化,如式(1)所示。
(5)距離度量
在聚類中,對(duì)于每個(gè)待聚類的元素,都擁有一個(gè)特征向量作為自身所在位置的度量。聚類算法的核心是根據(jù)不同元素之間的距離進(jìn)行類別劃分的。常用的距離度量方法有以下2種。
1)歐氏距離(Euclidean distance)
歐氏距離是最易于理解的一種距離計(jì)算方法,源自歐氏空間中兩點(diǎn)間的距離公式。適用于求解兩點(diǎn)之間直線的距離,以及各個(gè)向量標(biāo)準(zhǔn)統(tǒng)一的情況,其計(jì)算式如下。
2)曼哈頓距離(Manhattan distance)
由于歐氏距離計(jì)算比較復(fù)雜,在一些場(chǎng)景可以使用簡(jiǎn)化的曼哈頓距離,即:
由于告警源的聚類數(shù)據(jù)量和向量維度都不大,首要目標(biāo)是要保證更高的精確度,不存在曼哈頓距離所要解決的算力不足問題,因此本文采用更加精準(zhǔn)的歐氏距離。
在現(xiàn)網(wǎng)實(shí)際場(chǎng)景中,不在同一天的告警數(shù)據(jù)組肯定不在同一類,因此本文采用權(quán)重修正的方式,使得算法在執(zhí)行過程中盡量不將不在同一天的數(shù)據(jù)組劃分為一類。
否則:
(6)聚類算法執(zhí)行
在聚類算法輸出的標(biāo)簽中,算法認(rèn)定的同一類會(huì)被標(biāo)記為相同的數(shù)字Label。本文選取-means- random[15]和-means++[16]兩種經(jīng)典的聚類算法[17]對(duì)告警數(shù)據(jù)組進(jìn)行分類。下面將分別進(jìn)行描述。
算法1-means-random的聚類中心選擇規(guī)則
步驟1 隨機(jī)地從輸入數(shù)據(jù)中選擇一定數(shù)量(CLUSTERS)的點(diǎn)作為聚類中心。
步驟2 對(duì)于每個(gè)樣本,計(jì)算和各個(gè)聚類中心之間的距離,選取最近的聚類中心,加入該類。
步驟3 重新計(jì)算每一個(gè)類的聚類中心(根據(jù)計(jì)算質(zhì)心的方法)。
步驟4 根據(jù)每個(gè)樣本所屬的不同聚類,標(biāo)記其Label為1,2,…,CLUSTERS,所屬同一聚類中心的樣本的Label一致。
算法2-means++的聚類中心選擇規(guī)則
步驟1 根據(jù)均勻分布隨機(jī)從輸入數(shù)據(jù)中選出第一個(gè)聚類中心。
步驟2 根據(jù)式(6)依次計(jì)算每個(gè)點(diǎn)成為聚類中心的概率。
步驟3 根據(jù)概率p選擇下一個(gè)聚類中心。
步驟4 重復(fù)步驟2和步驟3,直到選擇到足夠數(shù)量的聚類中心。
(7)聚類標(biāo)簽重整理
1)第一輪
2)第二輪
例如,聚類算法原輸出為1 3 2 3 3 4 5,經(jīng)過第一輪標(biāo)簽重整理后變?yōu)? 2 3 2 2 4 5,經(jīng)過第二輪標(biāo)簽重整理后變?yōu)? 2 3 4 4 5 6。
(8)聚類結(jié)果
針對(duì)3個(gè)不同的歷史告警數(shù)據(jù)文件,以人工定位結(jié)果作為參考,告警分組結(jié)果見表1。從結(jié)果可以看出,文件1采用210 s/220 s作為預(yù)分組參數(shù),結(jié)合-means-random算法和聚類標(biāo)簽重整理方法準(zhǔn)確率可以達(dá)到100%。文件2和文件3采用120 s作為預(yù)分組參數(shù),結(jié)合-means++和聚類標(biāo)簽重整理方法準(zhǔn)確率可以達(dá)到100%。
IPRAN和OTN跨專業(yè)網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)目前部署在廣東聯(lián)通支撐云平臺(tái)上,跨專業(yè)承載網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)在廣東聯(lián)通支撐云平臺(tái)的部署架構(gòu)如圖4所示,通過ESB網(wǎng)管和資源系統(tǒng)分別獲取告警數(shù)據(jù)和資源數(shù)據(jù)。
表1 告警分組結(jié)果
圖4 跨專業(yè)承載網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)在廣東聯(lián)通支撐云平臺(tái)的部署架構(gòu)
IPRAN和OTN跨專業(yè)故障定位展示界面如圖5所示。故障定位由傳統(tǒng)的依賴于運(yùn)維人員進(jìn)行關(guān)聯(lián)判斷的方式,提升為由系統(tǒng)自動(dòng)進(jìn)行關(guān)聯(lián)判斷,故障處理效率大幅提高,單個(gè)故障處理平均耗時(shí)43 ms。在實(shí)現(xiàn)自動(dòng)關(guān)聯(lián)定位和智能派單之前,維護(hù)人員在收到IPRAN單專業(yè)故障派單后,需要通過電話咨詢相應(yīng)OTN是否出現(xiàn)異常,雙方查詢核對(duì)相應(yīng)臺(tái)賬和網(wǎng)管,定位是否IPRAN專業(yè)內(nèi)問題導(dǎo)致故障派單,這一步驟耗費(fèi)時(shí)長(zhǎng)就達(dá)到2~10 min。在多系統(tǒng)故障并發(fā)時(shí)甚至需要更長(zhǎng)時(shí)間,并可能出現(xiàn)人為定位錯(cuò)誤的現(xiàn)象。在實(shí)現(xiàn)自動(dòng)關(guān)聯(lián)和智能派單之后,可以毫秒級(jí)快速精準(zhǔn)關(guān)聯(lián)定位,極大提升上述步驟的實(shí)施效率和準(zhǔn)確度,縮短故障處理時(shí)間,減少很多人工工作。
圖5 IPRAN和OTN跨專業(yè)故障定位展示界面
運(yùn)維人員可接收微信機(jī)器人推送的工單信息,標(biāo)明故障的起止點(diǎn)以及故障原因,并用符號(hào)“---”連接,IPRAN和OTN故障定位提醒信息如圖6所示。
本文首創(chuàng)研發(fā)了一套跨專業(yè)網(wǎng)絡(luò)智能運(yùn)維系統(tǒng),包括數(shù)據(jù)采集、跨專業(yè)網(wǎng)絡(luò)故障定位等功能模塊。該系統(tǒng)定期自動(dòng)采集IPRAN、OTN資源信息,實(shí)時(shí)接收全省IPRAN、OTN告警數(shù)據(jù),基于跨專業(yè)聯(lián)合拓?fù)洌瑢?shí)現(xiàn)IPRAN和OTN跨專業(yè)快速故障定位,并將診斷結(jié)果通過微信等形式推送給相關(guān)運(yùn)維人員,大大提升跨層故障定位能力,減少人工排障時(shí)間,提升運(yùn)維效率。目前運(yùn)營(yíng)商
圖6 IPRAN和OTN故障定位提醒信息
IPRAN和智能城域網(wǎng)匯聚層故障大部分發(fā)生在跨機(jī)房連接的鏈路上,主要故障原因包括線路故障、OTN故障、IPRAN板卡故障。不管最終定位是哪一類故障,在故障定位的過程中都需要進(jìn)行關(guān)聯(lián)判斷從而完成故障原因的定界。因此,本文提出的方法可覆蓋大部分故障種類。
本文提出的跨專業(yè)網(wǎng)絡(luò)智能運(yùn)維系統(tǒng)通過實(shí)時(shí)采集現(xiàn)網(wǎng)告警數(shù)據(jù),結(jié)合自動(dòng)化和人工智能技術(shù),可對(duì)跨專業(yè)網(wǎng)絡(luò)拓?fù)溥M(jìn)行自動(dòng)繪制,跨專業(yè)網(wǎng)絡(luò)故障進(jìn)行自動(dòng)定位,大大提升了運(yùn)維人員的工作效率。該方案在廣東聯(lián)通現(xiàn)網(wǎng)環(huán)境得到了實(shí)際應(yīng)用,并在中國(guó)聯(lián)通內(nèi)部處于領(lǐng)先地位,填補(bǔ)了在跨專業(yè)網(wǎng)絡(luò)智能運(yùn)維上的研發(fā)空白,將傳統(tǒng)依賴運(yùn)維人員在流程中轉(zhuǎn)化為運(yùn)維人員在流程之上。本方案具有完全的可復(fù)制性,可方便復(fù)制到其他省份、集團(tuán)公司,并可進(jìn)一步推廣到其他IP網(wǎng)絡(luò)承載于OTN上的場(chǎng)景。綜上,本文在實(shí)際現(xiàn)網(wǎng)中具有良好的應(yīng)用推廣價(jià)值。
跨專業(yè)的故障自動(dòng)診斷能力,打破了運(yùn)營(yíng)商網(wǎng)絡(luò)專業(yè)壁壘,突破了單專業(yè)故障診斷的能力瓶頸,系統(tǒng)性地提升運(yùn)營(yíng)商網(wǎng)絡(luò)故障自動(dòng)診斷定位能力,避免重復(fù)工單,減輕人工工作,提升運(yùn)維效率,為后續(xù)端到端故障分析和定位奠定了良好的基礎(chǔ),并為運(yùn)營(yíng)商網(wǎng)絡(luò)運(yùn)營(yíng)從低效的煙囪式專業(yè)維護(hù)架構(gòu)轉(zhuǎn)向高效的基礎(chǔ)設(shè)施+AI能力架構(gòu)做出了有益的探索。實(shí)現(xiàn)運(yùn)維的自動(dòng)化和智能化是運(yùn)營(yíng)商數(shù)字化轉(zhuǎn)型的重要舉措,本方案為運(yùn)營(yíng)商的創(chuàng)新型轉(zhuǎn)型提供了技術(shù)支撐,也為通信領(lǐng)域自智網(wǎng)絡(luò)的培育和發(fā)展做出積極貢獻(xiàn)。未來可將本文提出的自動(dòng)化故障定位方案和自動(dòng)故障處理相結(jié)合,形成聯(lián)動(dòng)機(jī)制,減少人工干預(yù),助力運(yùn)營(yíng)商向高層次自智網(wǎng)絡(luò)演進(jìn)。
[1] 祝智庭, 胡姣. 教育數(shù)字化轉(zhuǎn)型的實(shí)踐邏輯與發(fā)展機(jī)遇[J]. 電化教育研究, 2022, 43(1): 5-15.
ZHU Z T, HU J. The logic of practice and opportunities for digital transformation in education[J]. e-Education research, 2022, 43(1): 5-15.
[2] 張一林, 郁蕓君, 陳珠明. 人工智能、中小企業(yè)融資與銀行數(shù)字化轉(zhuǎn)型[J]. 中國(guó)工業(yè)經(jīng)濟(jì), 2021(12): 69-87.
ZHANG Y L, YU Y J, CHEN Z M. Artificial intelligence, SME financing and bank digitalization[J]. China Industrial Economics, 2021(12): 69-87.
[3] HAN S, MA H, CHEN D, et al. Streaming video optimization in mobile communications[C]//Proceedings of IEEE/CIC International Conference on Communications in China (ICCC), Beijing, China. 2018: 738-742.
[4] 裴培, 王爽, 劉一平, 等. 數(shù)字化轉(zhuǎn)型時(shí)代下運(yùn)營(yíng)商IT架構(gòu)進(jìn)階之路[J]. 信息通信技術(shù), 2021, 15(6): 66-71.
PEI P, WANG S, LIU Y P, et al. The advanced path of telecom operators’ IT architecture in the era of digital transformation[J]. Information and Communications Technologies, 2021, 15(6): 66-71.
[5] 韓冰, 譚敏. 人工智能在網(wǎng)絡(luò)運(yùn)維中的應(yīng)用研究[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2019, 32(7): 83-87.
HAN B, TAN M. Research of artificial intelligence in network operation and maintenance[J]. Telecom Engineering Technics and Standardization, 2019, 32(7): 83-87.
[6] 杜永生. 智能運(yùn)維, 基于自學(xué)習(xí)的自動(dòng)化運(yùn)維[J]. 信息通信技術(shù), 2018, 12(1): 8-13, 21.
DU Y S. Intelligent operation and maintenance, an automatic operation and maintenance system based on self-learning[J]. Information and Communications Technologies, 2018, 12(1): 8-13, 21.
[7] 周晶, 王德政, 洪科. 5G網(wǎng)絡(luò)智能運(yùn)維AI應(yīng)用研究[J]. 郵電設(shè)計(jì)技術(shù), 2021(11): 83-87.
ZHOU J, WANG D Z, HONG K. Research on AI application in 5G network intelligent operation and maintenance[J]. Designing Techniques of Posts and Telecommunications, 2021(11): 83-87.
[8] HAN S, MA H, ZHANG P, et al. Zhang, T. Improved MPEG-4 high-efficiency AAC with variable-length soft-decision decoding of the quantized spectral coefficients[J]. China Communications, 2020, 16(10):65-82.
[9] IMT-2030(6G)推進(jìn)組. 6G網(wǎng)絡(luò)架構(gòu)愿景與關(guān)鍵技術(shù)展望白皮書[R]. 2021.
IMT-2030(6G) Promotion Group. White paper on architecture vision and key technology prospect of 6G network[R]. 2021.
[10] 張平, 牛凱, 田輝, 等. 6G移動(dòng)通信技術(shù)展望[J]. 通信學(xué)報(bào), 2019, 40(1): 141-148.
ZHANG P, NIU K, TIAN H, et al. Technology prospect of 6G mobile communications[J]. Journal on Communications, 2019, 40(1): 141-148.
[11] 伏玉筍, 楊根科. 人工智能在移動(dòng)通信中的應(yīng)用:挑戰(zhàn)與實(shí)踐[J]. 通信學(xué)報(bào), 2020, 41(9): 190-201.
FU Y S, YANG G K. Application of artificial intelligence in mobile communication: challenge and practice[J]. Journal on Communications, 2020, 41(9): 190-201.
[12] 蘭巨龍, 于倡和, 胡宇翔, 等. 基于深度增強(qiáng)學(xué)習(xí)的軟件定義網(wǎng)絡(luò)路由優(yōu)化機(jī)制[J]. 電子與信息學(xué)報(bào), 2019, 41(11): 2669-2674.
LAN J L, YU C H, HU Y X, et al. A SDN routing optimization mechanism based on deep reinforcement learning[J]. Journal of Electronics & Information Technology, 2019, 41(11): 2669-2674.
[13] BOUTABA R, SALAHUDDIN M A, LIMAM N, et al. A comprehensive survey on machine learning for networking: evolution, applications and research opportunities[J]. Journal of Internet Services and Applications, 2018(9): 16.
[14] 曹毅寧, 王俊華, 羅青松. 基于軟件定義的“IP+光”協(xié)同控制研究[J]. 光通信技術(shù), 2018, 42(4): 21-24.
CAO Y N, WANG J H, LUO Q S. Study of “IP+optical” integration control based on software defined[J]. Optical Communication Technology, 2018, 42(4): 21-24.
[15] BOUTSIDIS C, ZOUZIAS A, DRINEAS P. Random projections for-means clustering[J]. Advances in Neural Information Processing Systems, 2010(23): 298-306.
[16] ARTHUR D, VASSILVITSKII S.-means++: the advantages of careful seeding[C]//Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms. [S.l.:s.n.], 2007.
[17] MACQUEEN J B. Some methods for classification and analysis of multivariate observations[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. [S.l.:s.n.], 1967.
Research and applications on intelligent operations of cross-professional carrying network
HAN Sai1, ZHANG Dongyue1, WANG Zelin1, WANG Guangquan1, LI Ao1, FANG Qiukeng2, MA Hongbing3
1.Research Institute of China United Network Communications Co., Ltd., Beijing 100048, China 2.China United Network Communications Company Limited Guangdong Branch, Guangzhou 510660, China 3.China United Network Communications Group Co., Ltd., Beijing 100032, China
With the increasingly close integration of artificial intelligence technology and networks, the operation and production of networks in the future should be fully digitalized, automated and intelligent. At present, fault locating of cross-professional network mainly relies on operation and maintenance staff of each professional network to analyze and dispatch orders, resulting in long trouble clearing time and repeated orders. In order to save manual work, with the help of automation and artificial intelligent technologies, a cross-professional network intelligent operation and maintenance system was developed and applied in real network. The associated topology information of IPRAN and OTN, along with the real-time IPRAN and OTN alarm data were analyzed, the root cause alarm was located accurately, the fault location was determined, and dispatch order was achieved automatically. A automatic cross-professional fault diagnosis capability was built by the system, which reduced the fault locating time from traditional two minutes to tens of milliseconds, therefore, the manual work was reduced by more than 90%, and 95% fault types of the existing network could be covered.
cross-professional network, fault location, intelligent operation
TP393
A
10.11959/j.issn.1000?0801.2022269
2022?03?23;
2022?10?08
韓賽(1988? ),女,博士,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司研究院高級(jí)工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)智能、自智網(wǎng)絡(luò)等。
張冬月(1995? ),女,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司研究院助理工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)智能等。
王澤林(1983? ),男,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司研究院高級(jí)工程師,主要研究方向?yàn)镮P、云網(wǎng)、白盒、SDN 技術(shù)等。
王光全(1968? ),男,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司研究院教授級(jí)高級(jí)工程師,主要研究方向?yàn)橥ㄐ啪W(wǎng)絡(luò)的規(guī)劃、新技術(shù)演進(jìn)、標(biāo)準(zhǔn)制定等。
李?yuàn)W(1994? ),女,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司研究院助理工程師,主要研究方向?yàn)榫W(wǎng)絡(luò)智能等。
方遒鏗(1980? ),男,中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司廣東省分公司工程師,主要研究方向?yàn)楣饩W(wǎng)絡(luò)、IP承載等。
馬紅兵(1967? ),男,中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司科技創(chuàng)新部總經(jīng)理、正高級(jí)工程師,主要研究方向?yàn)闊o線通信領(lǐng)域新技術(shù)研究、標(biāo)準(zhǔn)制定、技術(shù)試驗(yàn)等。