韋強(qiáng)申,宋 勇,李紅霞,王希棟,葉曉舟,歐陽(yáng)曄
(亞信科技(中國(guó))有限公司 通信人工智能創(chuàng)新實(shí)驗(yàn)室,北京 100193)
5G 核心網(wǎng)承擔(dān)著5G 網(wǎng)絡(luò)全局資源的調(diào)度和管理,需要承載5G 多樣化業(yè)務(wù)需求,是5G 網(wǎng)絡(luò)發(fā)展的核心引擎。2021 年以來(lái),國(guó)外主流運(yùn)營(yíng)商多次遭遇5G 核心網(wǎng)故障導(dǎo)致的重大通信事故,這無(wú)疑給我國(guó)在5G 核心網(wǎng)的運(yùn)維問(wèn)題上敲響了警鐘。如何保障核心網(wǎng)高效、高可靠、低成本的運(yùn)維,實(shí)現(xiàn)故障的快速發(fā)現(xiàn)與修復(fù),是各大運(yùn)營(yíng)商5G 系統(tǒng)運(yùn)維管理的關(guān)注焦點(diǎn)。
目前對(duì)于業(yè)務(wù)系統(tǒng)故障,以事后分析處理為主,但故障的產(chǎn)生往往會(huì)有前兆信息,如性能指標(biāo)的劣化,而人工或其他傳統(tǒng)的分析方法很難基于復(fù)雜的系統(tǒng)結(jié)構(gòu)和超大的信息量進(jìn)行預(yù)判。采用人工智能(Artificial Intelligence,AI)將系統(tǒng)歷史告警數(shù)據(jù)和對(duì)應(yīng)時(shí)間內(nèi)的關(guān)鍵績(jī)效指標(biāo)(Key Performance Indicator,KPI)性能指標(biāo)異動(dòng)情況進(jìn)行關(guān)聯(lián)挖掘,可以自動(dòng)發(fā)現(xiàn)故障和指標(biāo)劣化之間的相關(guān)性。當(dāng)預(yù)測(cè)性能指標(biāo)出現(xiàn)劣化點(diǎn)時(shí),及時(shí)對(duì)業(yè)務(wù)故障進(jìn)行提前預(yù)警,是智能化運(yùn)維的發(fā)展方向。
現(xiàn)有的5G 網(wǎng)絡(luò)故障分析方法,主要針對(duì)5G網(wǎng)絡(luò)故障發(fā)生后的場(chǎng)景,進(jìn)行精準(zhǔn)定位、智能決策、自動(dòng)恢復(fù)。文獻(xiàn)[1]提出了5G 網(wǎng)絡(luò)環(huán)境下基于網(wǎng)絡(luò)拓?fù)涞母婢P(guān)聯(lián)挖掘算法,提升了故障跟蹤與故障定位的能力。文獻(xiàn)[2]針對(duì)多節(jié)點(diǎn)故障精準(zhǔn)定位的問(wèn)題,提出了一種基于神經(jīng)網(wǎng)絡(luò)的5G 無(wú)線網(wǎng)絡(luò)多故障高效混合定位的方法,提高了故障快速定位、網(wǎng)絡(luò)快速恢復(fù)的能力。文獻(xiàn)[3]提出了一種智能5G無(wú)線網(wǎng)絡(luò)的安全容錯(cuò)分布式管理方法,設(shè)計(jì)了靈活的認(rèn)知故障管理功能的新方法,即根據(jù)實(shí)際的網(wǎng)絡(luò)需求和當(dāng)前的負(fù)載動(dòng)態(tài)調(diào)整。文獻(xiàn)[4]提出了基于深度學(xué)習(xí)的5G 無(wú)線網(wǎng)絡(luò)節(jié)點(diǎn)規(guī)劃與控制邏輯優(yōu)化分析,提升了5G 網(wǎng)絡(luò)的容錯(cuò)能力,減少故障的發(fā)生。
提前預(yù)測(cè)故障發(fā)生的概率,可以避免故障的發(fā)生。故障預(yù)警方法是根據(jù)歷史故障發(fā)生前數(shù)據(jù)的變化規(guī)律來(lái)構(gòu)建分析模型,然后依據(jù)實(shí)時(shí)數(shù)據(jù)分布預(yù)測(cè)故障發(fā)生的可能性。在電力、機(jī)械等方向故障預(yù)警研究的課題較多,文獻(xiàn)[5]提出了一種基于5G 和人工智能的輸電線路故障智能預(yù)警方法,結(jié)合無(wú)線網(wǎng)絡(luò)技術(shù)與人工智能技術(shù)預(yù)警故障發(fā)生的概率,避免故障發(fā)生。另外,文獻(xiàn)[6]、文獻(xiàn)[7]提出了基于深度學(xué)習(xí)方法在機(jī)械自動(dòng)化中的故障預(yù)警方法。在5G 網(wǎng)絡(luò)應(yīng)用方面,文獻(xiàn)[8]提出了一種基于線性預(yù)測(cè)的方法實(shí)現(xiàn)移動(dòng)通信網(wǎng)絡(luò)故障預(yù)警。
5G 網(wǎng)絡(luò)故障預(yù)警方法是降低故障對(duì)5G 業(yè)務(wù)影響的關(guān)鍵方向。本文在現(xiàn)有工作研究基礎(chǔ)上,結(jié)合業(yè)務(wù)經(jīng)驗(yàn)與數(shù)據(jù)分析結(jié)果,構(gòu)建有監(jiān)督學(xué)習(xí)模型預(yù)測(cè)5G 網(wǎng)元故障發(fā)生的可能性。對(duì)比已有的監(jiān)督學(xué)習(xí)方法,采用時(shí)序特征構(gòu)建、時(shí)序異常檢測(cè)、時(shí)序關(guān)聯(lián)分析、告警特征編碼等多個(gè)維度構(gòu)建特征,實(shí)現(xiàn)基于多維特征融合結(jié)果的監(jiān)督學(xué)習(xí)模型。該模型在5G 核心網(wǎng)6 類網(wǎng)元的多個(gè)指標(biāo)上面均有不同程度的提升,驗(yàn)證了該方法的有效性。
現(xiàn)有5G 核心網(wǎng)預(yù)警,主要依據(jù)網(wǎng)元KPI 數(shù)據(jù)時(shí)序分布,采用配置靜態(tài)閾值的方法,提取告警信息,然后依據(jù)告警級(jí)別,觸發(fā)預(yù)警機(jī)制。同時(shí),依據(jù)KPI 時(shí)序結(jié)合歷史故障數(shù)據(jù),構(gòu)建時(shí)序與故障關(guān)系模型,算法選型有統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法XGBoost 和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)學(xué)習(xí)算法。
時(shí)序異常檢測(cè)是基于KPI 時(shí)序數(shù)據(jù)分布,采用統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法等計(jì)算實(shí)時(shí)數(shù)據(jù)分布的動(dòng)態(tài)閾值,用于檢測(cè)時(shí)序數(shù)據(jù)是否異常。文獻(xiàn)[9]提出了一種時(shí)序特征分析方法,依據(jù)時(shí)序窗口數(shù)據(jù)分布,提取均值、方差、標(biāo)準(zhǔn)差等特征,用于時(shí)序數(shù)據(jù)的異常檢測(cè)。文獻(xiàn)[10]針對(duì)海量時(shí)序數(shù)據(jù),提出了一種通用可擴(kuò)展的檢測(cè)框架,該框架適用于多種時(shí)序的異常檢測(cè),提升了異常檢測(cè)的性能。在實(shí)際應(yīng)用中,網(wǎng)絡(luò)故障受設(shè)備的性能指標(biāo)和網(wǎng)絡(luò)負(fù)載等影響,設(shè)備的性能指標(biāo)可以擴(kuò)展更多的維度。針對(duì)海量時(shí)序數(shù)據(jù)的異常檢測(cè)方法,文獻(xiàn)[11]提出了針對(duì)海量KPI的快速部署異常檢測(cè)模型,用于解決網(wǎng)絡(luò)指標(biāo)時(shí)序異常檢測(cè)問(wèn)題。文獻(xiàn)[12]提出了針對(duì)KPI 突變的參數(shù)自適應(yīng)無(wú)監(jiān)督在線異常檢測(cè),用于提升異常檢測(cè)結(jié)果的準(zhǔn)確率。文獻(xiàn)[13]綜合了多種時(shí)序異常檢測(cè)算法,提出了時(shí)序特征的構(gòu)建方法,包括偏度、峰度、差分均值等多種特征維度,并介紹了基于統(tǒng)計(jì)方法的異常檢測(cè)和基于深度學(xué)習(xí)方法的異常檢測(cè)。
故障預(yù)警是依據(jù)對(duì)KPI 時(shí)序數(shù)據(jù)和告警數(shù)據(jù)進(jìn)行分析,提前預(yù)測(cè)故障發(fā)生概率,從而避免故障發(fā)生。目前故障預(yù)警與處理的技術(shù)多采用統(tǒng)計(jì)分析方法、業(yè)務(wù)分析方法,以下內(nèi)容介紹了4 種故障預(yù)警與處理實(shí)現(xiàn)方案。文獻(xiàn)[14]提出了一種基于機(jī)器學(xué)習(xí)的網(wǎng)元故障診斷及預(yù)警技術(shù)實(shí)現(xiàn)方法,通過(guò)聚類的數(shù)據(jù)分布,劃分故障數(shù)據(jù)與正常數(shù)據(jù)。距離計(jì)算方法與聚類方法類似,目的是計(jì)算正常數(shù)據(jù)與故障數(shù)據(jù)的距離差異,從而識(shí)別故障數(shù)據(jù)。概率分布與密度估計(jì)方法是通過(guò)提取數(shù)據(jù)特征來(lái)計(jì)算特征分布的概率值,然后根據(jù)概率值區(qū)分故障數(shù)據(jù)與正常數(shù)據(jù)。統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,通過(guò)構(gòu)建時(shí)序特征,結(jié)合歷史故障數(shù)據(jù),分析特征與故障數(shù)據(jù)分布情況。此外,一般采用決策樹(shù)、邏輯回歸、隨機(jī)森林、梯度提升樹(shù)等算法來(lái)構(gòu)建模型,然后通過(guò)模型預(yù)測(cè)后續(xù)故障發(fā)生的概率。文獻(xiàn)[15]、文獻(xiàn)[16]研究了5G網(wǎng)絡(luò)切片下動(dòng)態(tài)網(wǎng)絡(luò)故障、業(yè)務(wù)故障的分布,提出了故障分析與診斷的方法。文獻(xiàn)[17]、文獻(xiàn)[18]研究了網(wǎng)絡(luò)虛擬化環(huán)境下的故障分析方法,提出了一種多層故障診斷方法(Multi-Layer Fault Diagnosis Method,MFDM),并采用分層策略解決了網(wǎng)絡(luò)虛擬化環(huán)境中的多層故障問(wèn)題。
深度學(xué)習(xí)方法可以減少人工定義特征造成的誤差,直接對(duì)時(shí)序數(shù)據(jù)進(jìn)行處理,然后搭建網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練時(shí)序特征,得到預(yù)警模型。該模式下,時(shí)序特征的構(gòu)建多采用傅里葉變換、小波變換等方式,將時(shí)域信息轉(zhuǎn)化為時(shí)域和頻域信息,再通過(guò)深度學(xué)習(xí)生成更復(fù)雜的特征,從而構(gòu)建模型,提高預(yù)測(cè)的準(zhǔn)確率,常用網(wǎng)絡(luò)結(jié)構(gòu)有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)等。文獻(xiàn)[19]、文獻(xiàn)[20]提出了一種基于深度信任網(wǎng)絡(luò)的故障分析(Deep Belief Network-Fault Location,DBN-FL)模型,用于定位5G 網(wǎng)絡(luò)故障。這種模型根據(jù)歷史的故障數(shù)據(jù),綜合數(shù)據(jù)分析結(jié)果與專家經(jīng)驗(yàn),設(shè)置了一系列故障規(guī)則識(shí)別模板,在故障識(shí)別過(guò)程中,通過(guò)實(shí)時(shí)數(shù)據(jù)分布與故障規(guī)則的匹配情況,得到故障發(fā)生的概率。
為了構(gòu)建5G 網(wǎng)元故障預(yù)警方案,本文提取了5G 核心網(wǎng)中不同網(wǎng)元的各個(gè)指標(biāo),以及歷史的告警信息。多維特征矩陣的構(gòu)建過(guò)程中,首先進(jìn)行時(shí)序告警關(guān)聯(lián),其次提取時(shí)序特征、時(shí)序異常檢測(cè)、時(shí)序關(guān)聯(lián)分析、告警特征這4 個(gè)特征,最后分析多維特征下,預(yù)警模型的性能提升情況。本方法的故障預(yù)警方案設(shè)計(jì)如圖1 所示,實(shí)現(xiàn)過(guò)程中,先構(gòu)建KPI 時(shí)序數(shù)據(jù)特征和多維特征,再分別對(duì)兩種特征構(gòu)建方式,采用XGBoost算法與DNN算法來(lái)訓(xùn)練模型,最后基于同一驗(yàn)證集對(duì)比模型效果。
圖1 故障預(yù)警方案設(shè)計(jì)
為了提取時(shí)序特征,根據(jù)時(shí)序數(shù)據(jù)分布情況,構(gòu)建時(shí)序窗口特征,并結(jié)合業(yè)務(wù)經(jīng)驗(yàn),設(shè)置時(shí)間窗口為N,提取時(shí)間窗口的時(shí)序的特征包括均值、標(biāo)準(zhǔn)差、最大值、最小值、峰度、偏度以及趨勢(shì)等。另外,還要提取指標(biāo)周期變化特征,包括當(dāng)前點(diǎn)較上一周期的增幅,連續(xù)3 個(gè)周期的趨勢(shì)等。時(shí)序數(shù)據(jù)為x=(x1,…,xi,…,xT)。xi表示時(shí)刻i對(duì)應(yīng)的數(shù)值,xT表示T時(shí)刻的KPI 對(duì)應(yīng)的指標(biāo)值。
KPI 集合由多個(gè)x組成,KPI集合為D={x j|1 基于統(tǒng)計(jì)方法對(duì)KPI 時(shí)序指標(biāo)進(jìn)行異常檢測(cè),標(biāo)記檢測(cè)出的異常點(diǎn),并提取5G 核心網(wǎng)的性能指標(biāo),逐個(gè)進(jìn)行異常檢測(cè),最后提取指標(biāo)中異常點(diǎn)的時(shí)間及異常值。異常檢測(cè)實(shí)現(xiàn)流程:首先分析時(shí)序波動(dòng)類型,如周期型、階梯型、波動(dòng)型等;其次根據(jù)不同類型的波形,采用不同的檢測(cè)算法。 異常點(diǎn)檢測(cè)算法包含四分位距(Interquartile Range,IQR)和3-sigma 準(zhǔn)則運(yùn)算,分別為: Quantile為分位值函數(shù);Q3表示3/4 位值,Q1表示1/4 位值,分別為IQR 公式計(jì)算的最大值、最小值代表的含義。 如果是周期型數(shù)據(jù),則提取數(shù)據(jù)的趨勢(shì)項(xiàng)、周期項(xiàng)、殘差項(xiàng),設(shè)置滑動(dòng)窗口與滑動(dòng)步長(zhǎng),識(shí)別異常點(diǎn)。 基于上述異常檢測(cè)方法,計(jì)算得到對(duì)應(yīng)時(shí)刻的異常點(diǎn): 式中:Llower為i時(shí)刻的動(dòng)態(tài)下限;Lupper為i時(shí)刻的動(dòng)態(tài)上限。 時(shí)序x在時(shí)序上檢測(cè)結(jié)果表示為[0,1],編碼的向量為Fa=(a1,…,ai,…,aT),1 通過(guò)局部數(shù)據(jù)的相關(guān)系數(shù),判斷告警時(shí)刻,觀察KPI 指標(biāo)的關(guān)聯(lián)關(guān)系是否有明顯的變化,窗口內(nèi)的相關(guān)系數(shù)表示兩個(gè)KPI 之間的短時(shí)相關(guān)性。構(gòu)建KPI 間相關(guān)性特征,形成指標(biāo)相關(guān)時(shí)序向量。KPI指標(biāo)相似度的計(jì)算方法為: 網(wǎng)元對(duì)應(yīng)的n個(gè)KPI,則同一時(shí)刻KPI 關(guān)聯(lián)關(guān)系的組合有Cn2 種,每個(gè)時(shí)刻對(duì)應(yīng)的KPI 間的關(guān)聯(lián)系數(shù)可生成對(duì)應(yīng)的向量Ci=(Ci(x1,x2),Ci(x1,x3),…,Ci(x j,xk)),1 2,其中n表示KPI 數(shù)量,L為時(shí)刻i關(guān)聯(lián)系數(shù)向量的長(zhǎng)度。關(guān)聯(lián)系數(shù)在時(shí)序上的特征向量為FC=(C1,…,Ci,…,CT),1 結(jié)合告警數(shù)據(jù)與時(shí)序數(shù)據(jù)的分析結(jié)果可知,告警有一定的關(guān)聯(lián)性,某類或某幾類持續(xù)的告警,會(huì)引發(fā)更高級(jí)別的告警,因此本方案考慮整合鄰近窗口內(nèi)的告警信息,對(duì)告警信息采用向量表示,得到每個(gè)時(shí)刻對(duì)應(yīng)的向量列表。告警集合為Dalarm={alarm|1 設(shè)定時(shí)間窗口為w,告警數(shù)據(jù)生成的ONEHOT 編碼為Ai=(a1,…,aj,…,am),aj∈{0,1},1 本方案分別采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)兩種方式與現(xiàn)有方法進(jìn)行對(duì)比,來(lái)觀察加入特征融合的效果提升情況。采用有監(jiān)督的方法訓(xùn)練模型,并驗(yàn)證模型效果。特征空間F為多維特征的拼接矩陣,,F(xiàn)為T×(8+1+L+m)的矩陣,矩陣的行索引為時(shí)刻i,共計(jì)T行;列索引為特征類型,時(shí)序特征8 列,異常檢測(cè)標(biāo)記1列,時(shí)序相關(guān)性特征L列,告警特征m列,共計(jì)8+1+L+m列。 選取時(shí)序索引時(shí)刻i,向后鄰域窗口t時(shí)刻告警標(biāo)志作為監(jiān)督標(biāo)簽y。 時(shí)序上監(jiān)督標(biāo)簽為Y=(y1,…,yi,…,yT),1 本文實(shí)驗(yàn)過(guò)程,選取實(shí)際應(yīng)用場(chǎng)景中,5G 核心網(wǎng)不同網(wǎng)元的KPI 數(shù)據(jù)以及歷史告警數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),采用有監(jiān)督的方法訓(xùn)練模型,然后在測(cè)試集上預(yù)測(cè)告警發(fā)生的概率。為保障實(shí)驗(yàn)效果的對(duì)比具有參考意義,實(shí)驗(yàn)選取了魯棒性較好的XGBoost算法和深度神經(jīng)網(wǎng)絡(luò)算法,分別對(duì)未融合多維特征的數(shù)據(jù)和融合多維特征后的數(shù)據(jù)進(jìn)行建模與評(píng)估對(duì)比。 實(shí)驗(yàn)選取5G 核心網(wǎng)中會(huì)話管理功能(Session Management Function,SMF)、接入和移動(dòng)性管理功 能(Access and Mobility Management Function,AMF)、用戶平面功能(User Plane Function,UPF)、統(tǒng)一數(shù)據(jù)管理(Unified Data Management,UDM)、網(wǎng)絡(luò)存儲(chǔ)功能(Network Repository Function,NRF)、策略控制功能(Policy Control Function,PCF)6 大類網(wǎng)元,共計(jì)121 個(gè)子網(wǎng)元在2020 年12 月1 日—2021 年2 月26 日3 個(gè)月內(nèi)的KPI 數(shù)據(jù)。數(shù)值的采集粒度為15 分鐘。告警數(shù)據(jù)選取對(duì)應(yīng)時(shí)間段內(nèi)網(wǎng)元的告警數(shù)據(jù),告警類型包括軟件系統(tǒng)、通信系統(tǒng)、網(wǎng)管內(nèi)部、電源系統(tǒng)、硬件系統(tǒng)、環(huán)境系統(tǒng)、業(yè)務(wù)質(zhì)量、信令系統(tǒng)等12 大類故障類型,告警包括無(wú)線接入網(wǎng)(NG Radio Access Network,NG-RAN)鏈路故障、容災(zāi)業(yè)務(wù)自動(dòng)探測(cè)異常、資源單元故障等359 類告警信息。網(wǎng)元性能指標(biāo)名稱如表1 所示。 表1 網(wǎng)元性能指標(biāo) 實(shí)驗(yàn)對(duì)所有KPI 數(shù)據(jù)進(jìn)行時(shí)序異常檢測(cè),樣本數(shù)據(jù)的時(shí)間范圍為2020 年12 月1 日—2021 年2 月26 日,數(shù)據(jù)粒度為15 分鐘,由于部分KPI 數(shù)據(jù)有缺失,采樣點(diǎn)個(gè)數(shù)平均為1 693 個(gè)。 實(shí)驗(yàn)選取周期型和波動(dòng)型兩種時(shí)序類型數(shù)據(jù)的部分時(shí)段異常檢測(cè)結(jié)果,如圖2 所示。圖2(a)展示了周期型異常檢測(cè)結(jié)果。圖3(b)展示了波動(dòng)型KPI 異常檢測(cè)結(jié)果。實(shí)驗(yàn)選取指標(biāo)間的關(guān)聯(lián)關(guān)系作為判斷故障發(fā)生的重要特征。 圖2 時(shí)序異常檢測(cè) 針對(duì)同類網(wǎng)元的KPI 數(shù)據(jù)計(jì)算時(shí)序間的關(guān)系,圖3 展示了統(tǒng)一數(shù)據(jù)網(wǎng)元(Unified Data Management,UDM)HTTP2 請(qǐng)求消息總數(shù)與響應(yīng)消息總數(shù)的關(guān)聯(lián)關(guān)系。 圖3 指標(biāo)關(guān)聯(lián)分析 依據(jù)網(wǎng)元信息,實(shí)驗(yàn)對(duì)指標(biāo)和告警信息進(jìn)行關(guān)聯(lián),繪出告警時(shí)刻指標(biāo)的變化情況,如圖4 所示。當(dāng)出現(xiàn)告警時(shí),KPI 指標(biāo)的波動(dòng)有明顯的變化,在大量的告警發(fā)生前,指標(biāo)會(huì)有一些劣化的表現(xiàn),并且有一些零散的告警發(fā)生。 圖4 時(shí)序與告警關(guān)聯(lián)分析 實(shí)驗(yàn)對(duì)所有的網(wǎng)元與告警類型,采用不同的特征組合方式構(gòu)建預(yù)警模型,選取80%的數(shù)據(jù)作為模型的訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。實(shí)驗(yàn)數(shù)據(jù)內(nèi)容描述如表2 所示,表中展示了6 大網(wǎng)元類型中每類網(wǎng)元包含的KPI 總數(shù)、KPI的數(shù)據(jù)量、告警的類型與告警次數(shù)等統(tǒng)計(jì)信息。 表2 數(shù)據(jù)描述 本實(shí)驗(yàn)對(duì)比在融合多維特征(Feature Combination,F(xiàn)C)前后,不同算法的預(yù)警模型準(zhǔn)確率與召回率,來(lái)驗(yàn)證多維特征構(gòu)建方法可以提升預(yù)警模型的效果。其中多維特征包含時(shí)序異常檢測(cè)結(jié)果、KPI 指標(biāo)關(guān)聯(lián)結(jié)果和歷史告警信息ONE-HOT 編碼。多維特征融合后,訓(xùn)練集中最大的特征列數(shù)共214 列。計(jì)算結(jié)果合并同一類型網(wǎng)元的準(zhǔn)確率與召回率,取同一類型網(wǎng)元的均值,得到如表3 所示的評(píng)估結(jié)果。由圖4 可知,從時(shí)序波形與告警數(shù)據(jù)的分布情況來(lái)看,告警發(fā)生前,時(shí)序數(shù)據(jù)會(huì)有一定的波動(dòng),并且時(shí)序的相關(guān)性會(huì)發(fā)生一些變化。另外在批量告警發(fā)生前,在時(shí)間軸上會(huì)有一些零散的告警點(diǎn)。通過(guò)大量的KPI 指標(biāo)和告警數(shù)據(jù)分析建模,驗(yàn)證了故障預(yù)警方法的可行性。根據(jù)網(wǎng)元預(yù)警結(jié)果的評(píng)估指標(biāo)來(lái)看,受告警數(shù)據(jù)分布的影響,不同類型的網(wǎng)元預(yù)警模型的性能指標(biāo)差異較大。 表3 不同網(wǎng)元類型的評(píng)估結(jié)果 UDM 與SMF 網(wǎng)元的效果較好,不同類型的算法驗(yàn)證效果的準(zhǔn)確率和召回率都可以達(dá)到70%以上。UDM 與SMF 網(wǎng)元對(duì)應(yīng)的KPI 數(shù)據(jù)質(zhì)量較好,KPI的異常點(diǎn)與故障點(diǎn)分布基本一致,故障時(shí)刻KPI 間的關(guān)聯(lián)差異較大,SMF 網(wǎng)元故障預(yù)警綜合評(píng)估F1 值可達(dá)88.0%。圖5 比較了不同網(wǎng)元下,算法驗(yàn)證效果對(duì)比圖。UDP、AMF、PCF、NRF 4 類網(wǎng)元的KPI 數(shù)據(jù)質(zhì)量較差,采集的指標(biāo)較少,時(shí)序數(shù)據(jù)的噪聲較高,數(shù)據(jù)的波動(dòng)比較隨機(jī),依據(jù)數(shù)據(jù)分布很難準(zhǔn)確定位到異常點(diǎn)。時(shí)序的關(guān)聯(lián)分布與故障的關(guān)系不明顯,故障識(shí)別的效果較差。 圖5 網(wǎng)元驗(yàn)證對(duì)比 整體來(lái)看,采用多維時(shí)序特征融合的方法,構(gòu)建KPI的特征矩陣,可以達(dá)到故障預(yù)警的目的,與已有的直接采用KPI 時(shí)序數(shù)據(jù)作為訓(xùn)練特征的方法相比,本文提出的方法加入了異常檢測(cè)、告警特征、時(shí)序關(guān)聯(lián)特征,實(shí)驗(yàn)結(jié)果表明針對(duì)所有網(wǎng)元F1 值有明顯的提升,平均提升18%。 本文針對(duì)5G 核心網(wǎng)故障預(yù)警這一課題展開(kāi)了分析與研究??偨Y(jié)了現(xiàn)有故障定位、故障預(yù)警、KPI 時(shí)序分析、KPI 時(shí)序異常檢測(cè)、時(shí)序關(guān)聯(lián)分析等方法。為提升故障預(yù)警的準(zhǔn)確率,提出了采用多維特征融合的機(jī)器學(xué)習(xí)方法進(jìn)行告警預(yù)測(cè)。通過(guò)數(shù)據(jù)分析與實(shí)驗(yàn),驗(yàn)證了該方法的可行性,并且所提出的采用多特征融合的方法構(gòu)建的預(yù)警模型較現(xiàn)有方法的提升效果比較明顯。 然而,本文實(shí)驗(yàn)選取的部分網(wǎng)元數(shù)據(jù)質(zhì)量一般,故障識(shí)別的效果不夠理想,研究時(shí)序數(shù)據(jù)如何去噪,以及噪聲如何構(gòu)建多維特征是后續(xù)的一個(gè)研究方向。另外,本文的特征構(gòu)建方法是結(jié)合業(yè)務(wù)經(jīng)驗(yàn)設(shè)計(jì)的,可以探索新的特征構(gòu)建方法或采用深度學(xué)習(xí)的方法優(yōu)化效果,提升告警預(yù)測(cè)的效果。2.2 時(shí)序異常檢測(cè)
2.3 時(shí)序關(guān)聯(lián)分析
2.4 告警特征提取
2.5 模型設(shè)計(jì)
3 實(shí) 驗(yàn)
3.1 數(shù)據(jù)準(zhǔn)備
3.2 效果評(píng)估
4 結(jié)語(yǔ)