張艷瓊
【摘要】本文主要介紹以維護(hù)工作中的監(jiān)控場景及信息展示需求為核心,整合日常監(jiān)控、重大節(jié)假日監(jiān)控等場景下的各種信息及相關(guān)手段,實(shí)現(xiàn)對網(wǎng)絡(luò)、客戶、業(yè)務(wù)發(fā)生的事件和異常快速的發(fā)現(xiàn)、準(zhǔn)確的定位、及時的響應(yīng)。
【關(guān)鍵詞】告警故障性能
綜合監(jiān)控工作是指在通信企業(yè)第一時間掌握網(wǎng)絡(luò)整體狀況的基礎(chǔ)上,進(jìn)行快速響應(yīng)和資源調(diào)度,以期用最短時間減少業(yè)務(wù)影響的綜合性工作。綜合監(jiān)控系統(tǒng)是滿足綜合監(jiān)控工作的支撐系統(tǒng)之一,是以維護(hù)工作的監(jiān)控及部分集中展示場景為核心,整合日常監(jiān)控、通信保障等場景下的各種信息及相關(guān)手段,實(shí)現(xiàn)對網(wǎng)絡(luò)、客戶、業(yè)務(wù)發(fā)生的事件和異常進(jìn)行快速的發(fā)現(xiàn)、準(zhǔn)確的定位、及時的響應(yīng)。
綜合監(jiān)控的重點(diǎn)在于,根據(jù)日常監(jiān)控場景的需要,將各類網(wǎng)元作為監(jiān)控對象以及參考來自于其他系統(tǒng)的信息,以網(wǎng)元粒度、地區(qū)粒度、省級粒度進(jìn)行監(jiān)控。
一、綜合監(jiān)控的管理范圍
1.當(dāng)前告警信息。各專業(yè)、各級別告警的數(shù)量:各專業(yè)的告警量(話音、數(shù)據(jù)、傳輸、動環(huán)等);各級別的告警量(一級告警,二級告警,三級告警)。
2.當(dāng)前性能指標(biāo)信息。網(wǎng)絡(luò)性能指標(biāo)是當(dāng)前網(wǎng)絡(luò)情況下網(wǎng)元的性能指標(biāo)的直觀呈現(xiàn),包括:信道可用率、接通率、掉話率、擁塞率、系統(tǒng)接通率、位置更新成功率、系統(tǒng)尋呼成功率、PDP激活成功率、短信全程接通率(%)、短信MO接通率(%)、短信MT接通率(%)、WAP總接通率、MMS網(wǎng)絡(luò)接通率等。通過對這些性能指標(biāo)進(jìn)行監(jiān)控,能夠更好的發(fā)現(xiàn)網(wǎng)絡(luò)隱患。
3.網(wǎng)絡(luò)KPI動態(tài)展示。值班長需要能夠管控到準(zhǔn)實(shí)時的業(yè)務(wù)動態(tài)指標(biāo)的情況,能夠做到簡單的指標(biāo)判斷和分析的工作,這些動態(tài)指標(biāo)主要指小時粒度以上的指標(biāo),如話務(wù)量、短信量、彩信量、數(shù)據(jù)業(yè)務(wù)流量、登記用戶數(shù)、系統(tǒng)接通率等,在進(jìn)行準(zhǔn)實(shí)時趨勢展現(xiàn)時,一般需要具備日常對比或者歷史同期對比功能。
4.當(dāng)前投訴數(shù)量信息。呈現(xiàn)各地區(qū)、各類投訴數(shù)量信息,投訴分類與EOMS保持一致。
5.當(dāng)前故障工單數(shù)量信息。呈現(xiàn)各地區(qū)、各專業(yè)故障工單數(shù)量信息,各種狀態(tài)的工單數(shù)量如“已派發(fā)工單”,“等待受理工單”,“正在處理工單”“已處理工單”,“超時工單”,“將要超時工單”,“長時間未受理”等狀態(tài)的工單數(shù)量;各專業(yè)工單量,如話音,數(shù)據(jù),傳輸,動環(huán)等專業(yè)。
6.工程調(diào)整信息。包括工程割接、調(diào)整計劃以及對網(wǎng)絡(luò)可能產(chǎn)生的影響。
7.外圍事件信息。包括可能對通信網(wǎng)絡(luò)造成影響的天氣、社會重大事件、社會安全事件及相關(guān)新聞進(jìn)行監(jiān)控。
8.應(yīng)急調(diào)度管理。當(dāng)日常監(jiān)控場景期間發(fā)生異常事件時,具備對網(wǎng)絡(luò)異常事件的快速處理能力,具備對網(wǎng)絡(luò)設(shè)備故障的快速恢復(fù)、容災(zāi)切換能力,具備應(yīng)急預(yù)案的快速執(zhí)行能力。
9.信息發(fā)布。日常監(jiān)控場景下,當(dāng)發(fā)生重大故障時,需要向相關(guān)專業(yè)負(fù)責(zé)人、各級領(lǐng)導(dǎo)發(fā)布故障相關(guān)信息,信息發(fā)布內(nèi)容主要涵蓋以下幾個方面:故障網(wǎng)元、故障發(fā)生時間、故障影響范圍、故障處理情況、故障結(jié)束時間、故障歷時、故障原因。
二、綜合監(jiān)控的系統(tǒng)建設(shè)方案
需要建設(shè)綜合監(jiān)控系統(tǒng)來滿足通信企業(yè)對綜合監(jiān)控工作的要求,綜合監(jiān)控系統(tǒng)應(yīng)是一個7*24小時不間斷運(yùn)行的、高可靠性、高處理能力、可擴(kuò)展性強(qiáng)的環(huán)境下的業(yè)務(wù)支撐系統(tǒng)。根據(jù)CMOSS2.0規(guī)劃以及省級綜合監(jiān)控系統(tǒng)的規(guī)劃,重點(diǎn)實(shí)現(xiàn)全專業(yè)、跨專業(yè)告警關(guān)聯(lián)監(jiān)控、集客監(jiān)控、拓?fù)浔O(jiān)控、概況監(jiān)控、集中性能監(jiān)控的規(guī)劃落地,構(gòu)建一個面向全專業(yè)的、穩(wěn)定的、開放的、靈活的、可擴(kuò)展的系統(tǒng)架構(gòu),如圖1所示。
1、系統(tǒng)網(wǎng)絡(luò)架構(gòu)
數(shù)據(jù)庫/采集服務(wù)器部署在Unix主機(jī)上,兩臺主機(jī)通過兩臺光纖交換機(jī)與光纖陣列交叉相連,組成高可靠的集群系統(tǒng),互為備份。其上運(yùn)行數(shù)據(jù)庫系統(tǒng)、內(nèi)存數(shù)據(jù)庫系統(tǒng)、接口適配器及部分基于Unix的應(yīng)用軟件。
Web服務(wù)器部署在PC服務(wù)器上,安裝基于Windows操作系統(tǒng)的IIS作為web發(fā)布平臺及相關(guān)web應(yīng)用軟件。
GIS服務(wù)器(可利舊)負(fù)責(zé)給綜合監(jiān)控系統(tǒng)提供GIS平臺服務(wù)。
告警中層處理服務(wù)器提供告警分發(fā)等告警中層處理服務(wù)。
鑒權(quán)服務(wù)器提供系統(tǒng)整體的鑒權(quán)服務(wù),并作為其它PC服務(wù)器的冷備份機(jī),如圖2所示。
2、系統(tǒng)接口
綜合監(jiān)控系統(tǒng)第一階段不考慮和ESB平臺、統(tǒng)一采集平臺、業(yè)務(wù)質(zhì)量監(jiān)測系統(tǒng)的接口,所有數(shù)據(jù)都來自于專業(yè)網(wǎng)管、綜合資源,綜合監(jiān)控外部接口如圖3所示:
3、系統(tǒng)總體要求
(1)告警數(shù)量準(zhǔn)確。
來自網(wǎng)元或OMC等的告警在采集中數(shù)量準(zhǔn)確一致,告警完整率在99.9%以上。
(2)告警數(shù)據(jù)內(nèi)容完整。來自網(wǎng)元或OMC等的告警內(nèi)容在采集中告警內(nèi)容準(zhǔn)確一致。
4、公共技術(shù)要求
(1)支持Windows、Solaris、AIX、HP-UX、Linux等主流操作系統(tǒng),支持主流數(shù)據(jù)庫。(2)支持GBK、GB2312、BIG5、UTF8等字符集編碼。(3)非實(shí)時類應(yīng)用客戶端盡量采用B/S技術(shù),支持主流瀏覽器。(4)總部系統(tǒng)支持多語言、多時區(qū),語言至少包括簡體中文、英文;時區(qū)至少包括北京時間、巴基斯坦時間。用戶第一次登錄時,系統(tǒng)自動獲取客戶端的語言設(shè)置、時區(qū)設(shè)置;之后,用戶可自行設(shè)置語言和時區(qū),系統(tǒng)根據(jù)用戶設(shè)置進(jìn)行顯示。(5)所有的刪除操作和重要操作必須提示用戶,經(jīng)用戶確認(rèn)才能完成。(6)確保不會因用戶誤操作而導(dǎo)致掉線、應(yīng)用混亂或系統(tǒng)崩潰。(7)具備在線升級能力。(8)為保護(hù)已有投資和延續(xù)維護(hù)習(xí)慣,建議數(shù)據(jù)庫選用ORACLE,消息中間件選用IBM MQ,拓?fù)渲虚g件選用Twaver。同時內(nèi)存數(shù)據(jù)庫選用主流的商用軟件產(chǎn)品。
5、主要功能
(2)跨專業(yè)告警監(jiān)控
全專業(yè)告警監(jiān)控適用于監(jiān)控現(xiàn)場管理人員及一線監(jiān)控人員實(shí)時掌握全網(wǎng)運(yùn)行情況,是告警標(biāo)準(zhǔn)化工作的進(jìn)一步延伸,可對核心網(wǎng)、無線網(wǎng)、數(shù)據(jù)網(wǎng)、傳輸網(wǎng)、動環(huán)、撥測、巡檢、業(yè)務(wù)質(zhì)量等全專業(yè)多業(yè)務(wù)的告警按照告警標(biāo)準(zhǔn)化字段要求進(jìn)行呈現(xiàn),快速實(shí)現(xiàn)通信網(wǎng)絡(luò)端到端的管理、面向業(yè)務(wù)和面向客戶的全業(yè)務(wù)集中監(jiān)控、統(tǒng)一管理。系統(tǒng)架構(gòu)圖如圖4所示:全專業(yè)告警監(jiān)控模塊采用層次的設(shè)計思路,將服務(wù)與應(yīng)用分離,主要包括:告警標(biāo)準(zhǔn)化呈現(xiàn)、工程告警標(biāo)注、告警關(guān)聯(lián)、告警派單、告警查詢、告警統(tǒng)計、告警處理等功能。
(3)概況監(jiān)控
概況監(jiān)控場景用于呈現(xiàn)全網(wǎng)設(shè)備運(yùn)行情況,基于地圖呈現(xiàn)資源信息、告警信息、性能信息、工單信息、工程信息、業(yè)務(wù)質(zhì)量監(jiān)控信息等。基于定制的窗口掌握全網(wǎng)總體情況。概況監(jiān)控場景下,通過GIS圖層和窗口可以實(shí)現(xiàn)資源信息可視、故障信息可視。
三、難點(diǎn)總結(jié)
由于綜合監(jiān)控從各專業(yè)網(wǎng)管采集告警、性能數(shù)據(jù),專業(yè)內(nèi)告警標(biāo)準(zhǔn)化、專業(yè)內(nèi)告警關(guān)聯(lián)都已經(jīng)在專業(yè)網(wǎng)管實(shí)現(xiàn),所以綜合監(jiān)控比專業(yè)網(wǎng)管的監(jiān)控功能突出的一個強(qiáng)項,就是跨專業(yè)的關(guān)聯(lián)能力,包括跨專業(yè)的告警關(guān)聯(lián)、告警與資源數(shù)據(jù)的關(guān)聯(lián)、告警與集客業(yè)務(wù)的關(guān)聯(lián)、告警與集客客戶的關(guān)聯(lián)等。而這些關(guān)聯(lián)能力的實(shí)現(xiàn),都強(qiáng)烈依賴于綜合監(jiān)控采集到的各專業(yè)資源數(shù)據(jù)的完整性與準(zhǔn)確性。