霍龍浩,李堯輝,彭友斌
(中國移動通信集團廣東有限公司,廣州 510623)
一種移動通信網(wǎng)絡的工單風暴控制方法
霍龍浩,李堯輝,彭友斌
(中國移動通信集團廣東有限公司,廣州 510623)
本文提出一種基于動態(tài)調(diào)整工單流向的工單風暴控制方法,該方法能根據(jù)設(shè)定的閾值自動攔截告警風暴,在形成工單風暴前以告警形式提醒監(jiān)控人員、以及動態(tài)改變風暴涉及告警的派單流向,從而有效控制工單風暴。數(shù)據(jù)分析表明,該方法能有效實現(xiàn)工單風暴的智能化控制。
告警風暴;工單風暴檢測;工單風暴控制;閾值
近年來,通信網(wǎng)絡發(fā)展迅猛,網(wǎng)絡規(guī)模日益擴大及復雜化,尤其是4G快速建網(wǎng)進一步增加了全網(wǎng)的復雜性、異構(gòu)性、扁平性[1],一個故障或某一未知原因可能引發(fā)大量告警短時間內(nèi)集中涌現(xiàn),形成告警風暴,進而造成網(wǎng)管系統(tǒng)性能快速下降甚至系統(tǒng)崩潰等嚴重影響。此外,隨著電信行業(yè)網(wǎng)絡管理的智能化、集中化[2,3],網(wǎng)管系統(tǒng)從設(shè)備采集告警后,大部分告警經(jīng)過智能預處理自動透傳到一線故障處理人員,由故障處理人員通過專用設(shè)備或?qū)S檬謾C軟件獲取工單信息再進行故障處理。在這種情況下,告警風暴會導致短時間內(nèi)大量工單被透傳到一線故障處理人員,形成工單風暴。按每張工單大小約100 kB計算,現(xiàn)場故障處理人員接收工單的設(shè)備處理能力在4G網(wǎng)絡下最大帶寬為20 Mbit/s,工單量超過204張/秒就可能會出現(xiàn)卡死情況,導致工單丟失而無法獲知故障信息。因此,通過有效的方法對工單風暴進行控制、使故障處理人員能夠快速準確地定位、處理故障,對于保障通信網(wǎng)絡穩(wěn)定運行、提供安全優(yōu)質(zhì)的通信服務至關(guān)重要。
本文提出一種基于動態(tài)調(diào)整工單流向的工單風暴控制方法,該方法根據(jù)歷史統(tǒng)計數(shù)據(jù)自動計算出當前的閾值,綜合監(jiān)控平臺則根據(jù)設(shè)定的閾值對采集的告警進行工單風暴檢測,根據(jù)檢測結(jié)果通知監(jiān)控人員并動態(tài)改變工單流向,從而能夠在工單風暴發(fā)生之前智能、及時、有效地控制工單的流向,避免大量工單直接透傳到一線故障處理人員,提高故障處理效率。
告警風暴防控能在一定程度上減少派單量。文獻[4~9]中提出通過對告警進行相關(guān)性分析來快速定位告警根源,從而實現(xiàn)告警風暴的抑制。文獻[10]提出利用計數(shù)方法來判斷是否產(chǎn)生告警風暴,并提出一種改進的告警相關(guān)性分析算法用于預防告警風暴,而在告警風暴發(fā)生時則采用匹配規(guī)則和一系列的規(guī)則處理機制來確保網(wǎng)管系統(tǒng)處理告警風暴的效率。文獻[11]中則提出一種告警分層過濾模型來達到快速發(fā)現(xiàn)、定位故障的目的,進而有效防止告警風暴。文獻[12]的思想是通過對網(wǎng)絡告警系統(tǒng)的軟硬件架構(gòu)各方面進行優(yōu)化升級來提高網(wǎng)管系統(tǒng)應對告警風暴的能力。總體而言,這些方法都是通過網(wǎng)管層面的策略來對告警風暴進行控制,避免網(wǎng)管系統(tǒng)性能快速下降甚至崩潰,同時也可能一定程度減少工單量。但告警風暴控制方法不能完全避免工單風暴的產(chǎn)生,例如優(yōu)化告警系統(tǒng)雖然能夠提高故障定位、分析、處理的速度,但是當短時間內(nèi)大量告警產(chǎn)生時,還是有可能會有大量工單被派給故障處理人員,此時還是會產(chǎn)生工單風暴。因此,工單風暴也無法簡單套用告警風暴的控制方法進行控制。
現(xiàn)階段主要是通過派單前手動抑制或者派單后在工單系統(tǒng)手動刪單進行工單風暴的控制。派單前手動抑制由于是人工操作,難以短時間內(nèi)抑制大量工單的自動派發(fā);派單后在后臺手動刪單,除了人工操作具有的不便性外,批量刪除工單還難以保證每個故障均有工單跟進,而且派單后如果工單已經(jīng)下達給一線故障處理人員并且已經(jīng)影響其正常處理故障,那么這時再進行手工刪單也是為時已晚。因此,通過系統(tǒng)自動執(zhí)行工單風暴智能檢測,在工單風暴發(fā)生之前對監(jiān)控人員進行告警通知并采取相應的應對措施,能更好有效抑制工單風暴。
下:第一,對采集后的告警進行工單風暴檢測。第二,若檢測判斷沒有工單風暴則按原流程派單、閉環(huán)處理;若檢測到工單風暴則立即上報工單風暴告警通知監(jiān)控人員,工單風暴告警主要包括下列信息:告警標題、省份、地區(qū)名稱、設(shè)備廠家、網(wǎng)絡分類、產(chǎn)生時間、工單風暴檢測時段、工單風暴下預計派單量、當前閾值等。同時將原來派往一線故障處理人員的工單動態(tài)改變流向到預處理人員。第三,若檢測到工單風暴,工單派到預處理人員,預處理人員可對工單進行人工仲裁、人工預處理后派單給故障處理人員處理故障進而閉環(huán)處理。若人工仲裁判定工單有集中性,且核查出由同一個故障或原因造成的批量工單派發(fā),可以派一張單到一線故障處理人員處理該故障或解決該問題,其他工單等到故障或問題處理后直接申請報結(jié)閉環(huán)處理;若人工仲裁判定攔截的工單沒有集中性(即工單風暴為誤告),或者核查不出原因,可以將該部分工單全部派往一線故障處理人員,一線故障處理人員處理好工單故障或問題后可以申請報結(jié)閉環(huán)處理。具體的流程如圖1所示。
實現(xiàn)工單風暴控制的重點是如何在觸發(fā)工單風暴前及時的發(fā)現(xiàn)、響應,并以告警形式提醒監(jiān)控人員,從而有效的攔截工單風暴。
基于動態(tài)調(diào)整工單流向的工單風暴控制方法的主要步驟如
圖1 工單風暴控制流程
其中,工單風暴檢測的具體流程如圖2所示。
圖2 工單風暴檢測流程
(1)采集告警。
(2)匹配派單規(guī)則:將采集到的告警與派單規(guī)則進行匹配,是否符合派單規(guī)則以是否生成一張單作為標準。對于壓縮衍生規(guī)則,衍生告警會產(chǎn)生一張新的單,因此包含在統(tǒng)計范圍內(nèi);符合追加規(guī)則的告警、衍生告警的子告警由于會追加到已有工單,則不會產(chǎn)生新的單,因此不納入統(tǒng)計范圍內(nèi)。派單規(guī)則改變時,系統(tǒng)應能自動識別更新,按新的派單規(guī)則實現(xiàn)上述檢測。
(3)統(tǒng)計預計派單量:對符合派單規(guī)則的告警按預計派單時間歸入相應的三元組維度(地區(qū)名稱-設(shè)備廠家-網(wǎng)絡分類)的相應時間段,按檢測時間間隔t1進行檢測時段t2內(nèi)預計派單量的統(tǒng)計,從而統(tǒng)計出各維度各時間段的預計派單量。
(4)判斷是否存在工單風暴:根據(jù)歷史工單數(shù)據(jù)的規(guī)律,將每個維度一天的時間進行分段,不同的時間段設(shè)置不同的閾值,這些設(shè)定好的閾值會周期性的進行更新(一般一個月更新一次)。對于各維度各時間段的預計派單量,如果超過預先設(shè)定的閾值,則認為該時間段該維度內(nèi)即將存在工單風暴;否則,認為沒有工單風暴。
對于本文所提出基于動態(tài)調(diào)整工單流向的工單風暴控制方法,本文主要從實際運行成效和閾值的有效性來對其性能進行分析。
4.1 工單風暴控制的現(xiàn)有成效
將該方法運用于實際生產(chǎn)的各種網(wǎng)絡類型中,能有效攔截工單風暴。比如,在201X年T月24日T+1 h 30 min攔截了某地1-某品牌-LTE無線、某地2-某品牌-LTE無線、某地3-某品牌-LTE無線三個維度的工單風暴告警,分別攔截了2 917、2 117、774張工單;將攔截的工單派到預處理人員后,預處理人員對工單進行人工仲裁、人工預處理判定告警是由某個網(wǎng)元補丁加載工程引起的,于是在廠家網(wǎng)管告警消除時對工單進行了批量報結(jié)。工單風暴控制有效阻止工單直接在短時間內(nèi)集中派往一線故障處理人員,防止故障處理設(shè)備崩潰、影響故障處理進程。
以T-T+1月的觸發(fā)情況進行分析,各網(wǎng)絡類型的觸發(fā)情況如圖3所示。
從圖3可見,工單風暴控制在網(wǎng)絡架構(gòu)扁平化的LTE無線中效果最為突出,LTE無線工單風暴涉及單量約為GSM無線的4倍。
圖3 各網(wǎng)絡類型T-T+1月工單風暴觸發(fā)情況分析
攔截的工單中,有7成的工單風暴是由于故障原因、工程原因、網(wǎng)管原因?qū)е碌?,這幾類原因造成的批量工單通常可以只派一張單描述清楚問題,待處理好后,告警已消除的工單會由系統(tǒng)自動申請報結(jié),其余告警仍未消除的少量工單則由監(jiān)控人員手動升級移交至對應的維護單位。停電退服、天氣等原因?qū)е碌墓瘟恐徽剂?成,這部分工單需要直接升級移交至對應的維護單位進行處理??梢?,工單風暴控制所攔截的大部分工單(工程原因、網(wǎng)管原因、故障原因?qū)е碌模┚梢耘繄蠼Y(jié)而不用直接全部派給一線代維人員。
4.2 閾值的有效性分析
由上文的分析可知,工單風暴的檢測是基于閾值的。如果閾值選取不合理,則工單風暴的檢測對于防止工單風暴并不能起到很好的作用。如果閾值選取過大,會容易發(fā)生漏告,不能及時檢測到風暴告警;如果閾值過小,可能會導致頻繁觸發(fā)工單風暴告警。因此,閾值的合理選取直接關(guān)系到工單風暴控制的效果。
首先分析劃分閾值生效時段的合理性,即為何要對每個維度一天的時間劃分不同的閾值生效時段。下面以“某地-某品牌-GSM無線”這一個維度為例進行分析。根據(jù)T月份的報表數(shù)據(jù)畫出“某地-某品牌-GSM無線”這一個維度在有效派單時間(6:00~23:00)內(nèi)每個小時的預計派單量統(tǒng)計圖。其中每個小時都分別對派單量按0~10,11~20,21~30,31~40,40以上這5個區(qū)域分段,統(tǒng)計每個分段的頻數(shù),并計算各個分段的頻數(shù)占每小時總頻數(shù)的百分比。
從圖4中的數(shù)據(jù)分布情況可以看到,每個小時內(nèi),預計派單量在0~10內(nèi)的占比都是最高的,占到95%以上;而根據(jù)工單風暴的檢測流程我們知道發(fā)生工單風暴告警主要是在預計派單量超過閾值時,所以0~10內(nèi)的派單量的占比情況可以忽略,實際中更多的是考慮預計派單量在30以上的情況。因此在劃分“某地-某品牌-GSM無線”的閾值生效時段時,可將一天劃分為6:00~8:00(不含8點整),8:00~9:00(不含9點整),9:00~23:00(不含23點整)。
其次要分析的是閾值的計算方法的有效性,通過M、M+1月的歷史報表數(shù)據(jù)計算出各維度的閾值,將其應用于M+2月份和M+3月份的工單風暴檢測。例如,對201X年M+2月和M+3月的工單風暴觸發(fā)記錄從誤告率和直接報結(jié)率兩個方面進行分析。其中,誤告率是指不具有集中性的工單數(shù)量與攔截的總工單數(shù)量的比值;而直接報結(jié)率則是指經(jīng)人工仲裁判定可以直接申請批量報結(jié)的工單數(shù)量與攔截的總的工單數(shù)量的比值。顯然,誤告率越低,則說明工單風暴控制的成效越好;同樣,直接報結(jié)率越高,也說明工單風暴控制的成效越好。
從圖5可見,8月和9月的總體直接報結(jié)率為81.67%,大部分工單能直接報結(jié)。其中,直放站、本地骨干、本地匯聚直接報結(jié)率較高達100%,LTE無線直接報結(jié)率也高達97.94%,這得益于LTE網(wǎng)絡結(jié)構(gòu)的扁平化,一個問題引起大量底層設(shè)備工單的概率較大,因此大部分情況只要解決該問題即可直接報結(jié)而無需下派大量工單。
從總體直接報結(jié)率看,提出的工單風暴控制在實際應用中可以有效避免大量工單直接派發(fā)至一線故障處理人員,達到工單風暴控制的目的。
圖4 某地-某品牌-GSM無線每天每小時的預計派單量分段統(tǒng)計圖
圖5 工單風暴控制的工單直接報結(jié)率
本文針對現(xiàn)有的工單風暴控制方法智能性差、效率低、時延大等缺陷,提出一種基于動態(tài)調(diào)整工單流向的工單風暴控制方法,該方法可以實現(xiàn)基于閾值的智能工單風暴檢測,在檢測的基礎(chǔ)上進一步通過動態(tài)調(diào)整工單流向預處理人員,對由同一個故障或原因造成的批量工單派發(fā),選擇只派一張單到一線故障處理人員,而其余工單只需等故障或問題處理后直接申請報結(jié)即可,這樣既不會因為短時間內(nèi)聚集大量工單而造成一線故障處理人員的工單處理終端崩潰,又可保證故障得到及時有效的解決,從而有效控制工單風暴的形成。通過對運行數(shù)據(jù)分析表明,能有效攔截故障、工程、網(wǎng)管等原因造成的工單風暴,誤告率低、直接報結(jié)率高,能對工單風暴實現(xiàn)及時、智能、有效控制。
[1] 汪丁鼎, 龔追飛. TD-SCDMA的長期演進——TDLTE[J]. 移動通信, 2008(32):33-38.
[2] 王洋. 集中監(jiān)控模式下的信息通信網(wǎng)絡故障管理探索與實踐[J]. 電信科學, 2015(31):164-170.
[3] 溫國權(quán). 廣東電信集中告警管理系統(tǒng)規(guī)劃與設(shè)計[D].廣州:華南理工大學, 2014.
[4] 梅玉潔. 通信網(wǎng)網(wǎng)管告警過濾機制的研究與應用[D].南昌:南昌大學, 2006.
[5] 胡奇. 通信管理網(wǎng)告警控制機制的研究應用[D]. 吉林:吉林大學, 2007.
[6] 楊一兵. 移動通信網(wǎng)絡告警及其關(guān)聯(lián)性分析[D]. 哈爾濱:哈爾濱工程大學, 2008.
[7] 石永革, 梅玉潔, 石峰. 通信網(wǎng)網(wǎng)管告警過濾機制的研究與應用[J]. 計算機工程與設(shè)計, 2008(29):2169-2171.
[8] 石永革, 石峰. 通信網(wǎng)告警影響性分析機制的研究與應用[J].微計算機信息, 2008(24):76-78.
[9] 李海青. 綜合網(wǎng)管系統(tǒng)中告警風暴的抑制[J]. 科技傳播,2011, (16).
[10] 劉遠超. 通信網(wǎng)告警相關(guān)性應用的研究[D]. 天津:天津理工大學,2012.
[11] 徐潤萍, 李淑靜. 電力通信網(wǎng)告警分層過濾機制的設(shè)計[J].國外電子元器件, 2008:47-48.
[12] 甘雯, 文鋒, 宮大鵬, 等. 應對告警風暴告警的系統(tǒng)優(yōu)化策略[J]. 電信科學, 2015(5).
A scheme of work orders storm control on mobile communication network
HUO Long-hao, LI Yao-hui, PENG You-bin
(China Mobile Communications Group Guangdong Co., Ltd., Guangzhou 510623, China)
This paper presents a new work orders storm control method based on dynamic adjustment of work orders' flow direction.The method can automatically intercept the warning storm based on the preset threshold. Italerts the monitoring personnel and dynamically changesinvolved work orders'flow direction. In this way,the work orders storm can be effectively controlled. Data analysis shows that the method can effectively realize the intelligent control of the work orders storm. Keywords warning storm; the work orders storm detection; the work orders storm control; threshold
TN929.5
A
1008-5599(2016)09-0071-05
2016-06-07