任 帥
(中國移動通信集團(tuán)有限公司,北京 100033)
中國移動現(xiàn)有45+4個數(shù)據(jù)中心、近千棟核心機(jī)樓以及逾50萬個存量基站。面對如此龐大的動環(huán)基礎(chǔ)設(shè)施,急需構(gòu)建業(yè)內(nèi)領(lǐng)先的動環(huán)設(shè)施支撐手段能力,實現(xiàn)全網(wǎng)動環(huán)設(shè)施資源及能力的集中化、精細(xì)化、智能化的可視、可管、可控。
現(xiàn)網(wǎng)動環(huán)管理能力較弱,各省僅靠OMC系統(tǒng)進(jìn)行基本管理,只能實現(xiàn)告警監(jiān)控、負(fù)載率統(tǒng)計、資產(chǎn)管理等簡單功能。從現(xiàn)網(wǎng)調(diào)研分析和統(tǒng)計結(jié)果看,當(dāng)前動環(huán)設(shè)施運維管理面臨諸多挑戰(zhàn),主要包括以下3個方面。
(1)缺少集中化監(jiān)控管理平臺。日常維護(hù)管理工作及指標(biāo)考核數(shù)據(jù)收集大部分依賴郵件及EOMS系統(tǒng)。
(2)監(jiān)控覆蓋面不足,監(jiān)控與管理不夠緊密?;A(chǔ)設(shè)施監(jiān)控較弱,對能效、資產(chǎn)、容量管理缺失抓手,對運維與運營等管理維度指標(biāo)缺少關(guān)注。
(3)智能化程度不高。目前,監(jiān)控主要是實現(xiàn)動環(huán)的基礎(chǔ)數(shù)據(jù)采集,在歷史數(shù)據(jù)分析、故障根因分析等方面智能化程度不高。
針對上述挑戰(zhàn),深層次分析其中原因主要包括以下4個方面。
(1)不同廠家FSU和SC互聯(lián)互通問題。中國移動現(xiàn)網(wǎng)已建成的動環(huán)監(jiān)控涉及的廠家眾多,新建設(shè)備和老系統(tǒng)接口協(xié)議不一致,對接存在困難。
(2)各省動環(huán)監(jiān)控系統(tǒng)組網(wǎng)架構(gòu)不統(tǒng)一。現(xiàn)網(wǎng)動環(huán)監(jiān)控架構(gòu)從2~4層不等,組網(wǎng)復(fù)雜,亟需推動省級SC架構(gòu)標(biāo)準(zhǔn)化建設(shè),實現(xiàn)省級架構(gòu)的扁平化和集中化。
(3)精細(xì)化運維管理手段不足。機(jī)樓基礎(chǔ)運維不到位、動環(huán)設(shè)施超負(fù)荷運行、帶病入網(wǎng)、性能劣化等問題,缺乏管理規(guī)范、預(yù)案和管控手段。
(4)系統(tǒng)接入困難、耦合性高。傳統(tǒng)動環(huán)廠家在系統(tǒng)對接設(shè)置壁壘,導(dǎo)致數(shù)據(jù)接入、云端協(xié)同、系統(tǒng)建設(shè)難以有效執(zhí)行。
所以,為補(bǔ)齊短板,實現(xiàn)業(yè)界領(lǐng)先的動環(huán)運維能力,參照行業(yè)標(biāo)桿經(jīng)驗,打造總部一級動環(huán)設(shè)施運維管理平臺,實現(xiàn)對全網(wǎng)動環(huán)設(shè)施運行情況管控,如圖1所示。
圖1 動環(huán)基礎(chǔ)設(shè)施DIKW模型分析圖
動環(huán)集中運維管理平臺建設(shè)需要圍繞易用性、可擴(kuò)展性、接口開放性、可維護(hù)性、穩(wěn)定性、先進(jìn)性等原則進(jìn)行建設(shè)。
1.2.1 易部署原則
充分利用現(xiàn)有資源進(jìn)行建設(shè),既可與機(jī)房主設(shè)備同步建設(shè),也可對已有機(jī)房進(jìn)行補(bǔ)充建設(shè)。可根據(jù)現(xiàn)場的傳輸資源進(jìn)行組網(wǎng),包括IP資源、無線、物聯(lián)網(wǎng)等。
1.2.2 可擴(kuò)展原則
平臺接入規(guī)模與系統(tǒng)處理能力滿足項目需求,支持平滑升級與彈性擴(kuò)容能力,以滿足業(yè)務(wù)和管理發(fā)展需要。
1.2.3 接口開放原則
提供多種標(biāo)準(zhǔn)的數(shù)據(jù)接口,如B接口、C接口、D接口等。也可提供定制化數(shù)據(jù)接口,以實現(xiàn)與第三方監(jiān)控系統(tǒng)或其他管理系統(tǒng)的對接。
1.2.4 可維護(hù)性原則
平臺架構(gòu)需考慮運維體系變化對業(yè)務(wù)的影響,可快速適應(yīng)運維體系變化的要求,最大限度減少運維人員運維工作量。
1.2.5 穩(wěn)定性原則
平臺系統(tǒng)架構(gòu)具有良好的穩(wěn)定性,單一節(jié)點或者設(shè)備故障不影響系統(tǒng)運行,具有高可用性、穩(wěn)定性特點。
1.2.6 先進(jìn)性原則
平臺應(yīng)能滿足公司發(fā)布的關(guān)于動環(huán)系統(tǒng)的所有技術(shù)規(guī)范和要求,系統(tǒng)架構(gòu)和技術(shù)在業(yè)界具有領(lǐng)先水平,滿足系統(tǒng)長期建設(shè)、演進(jìn)和發(fā)展的需要,以最大限度的保護(hù)用戶投資。
根據(jù)需求調(diào)研、場景類型分析、建設(shè)原則,可歸納出動環(huán)集中運維管理平臺的基本設(shè)計要求。
(1)系統(tǒng)架構(gòu)需采用業(yè)界靈活、先進(jìn)的架構(gòu),具備可擴(kuò)展性和高可用性特點;
(2)數(shù)據(jù)接入支持南北向接口(如標(biāo)準(zhǔn)B接口、標(biāo)準(zhǔn)C接口、能耗接口、故障接口等),可實現(xiàn)邊云協(xié)同、無障礙互聯(lián)互通;
(3)圍繞“監(jiān)”“管”“控”目標(biāo),實現(xiàn)動環(huán)基礎(chǔ)設(shè)施全網(wǎng)集中監(jiān)控及運營,實現(xiàn)統(tǒng)一監(jiān)控、統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一視圖;
(4)系統(tǒng)從5大域(設(shè)施、人員、管理、手段、流程)、8個方面(可視化、運維管理、資源管理、安全保障、系統(tǒng)管理、系統(tǒng)接入、深度應(yīng)用、支撐工具)構(gòu)建需求能力。
本文提出的動環(huán)集中運維管理平臺采用Spring Cloud微服務(wù)架構(gòu),支持Docker容器化部署,具備滾動升級、彈性擴(kuò)容、高可用特性。按照數(shù)據(jù)流向維度可將平臺分為接入層、存儲層、能力層、業(yè)務(wù)層和展示層??傮w架構(gòu)如圖2所示。
(1)接入層:負(fù)責(zé)設(shè)備接入(動力設(shè)備、環(huán)境設(shè)備、門禁設(shè)備、視頻設(shè)備等)及第三方系統(tǒng)接入(冷源系統(tǒng)、通風(fēng)系統(tǒng)、空調(diào)系統(tǒng)、安防系統(tǒng)等);
(2)存儲層:負(fù)責(zé)系統(tǒng)數(shù)據(jù)緩存、存儲及相關(guān)中間件功能;
(3)能力層:負(fù)責(zé)數(shù)據(jù)的清洗、應(yīng)用使能,為業(yè)務(wù)層提供相應(yīng)的能力;
(4)業(yè)務(wù)層:負(fù)責(zé)不同業(yè)務(wù)的邏輯處理,為展示層提供相應(yīng)的接口服務(wù);
(5)展示層:負(fù)責(zé)提供平臺門戶,多渠道、多方式展示系統(tǒng)業(yè)務(wù)。
動環(huán)集中運維管理平臺主要針對核心機(jī)樓、數(shù)據(jù)中心(含八大區(qū)數(shù)據(jù)中心)、匯聚機(jī)房、基站等動環(huán)設(shè)施納入集中管理,圍繞5大管理域(設(shè)施、人員、管理、手段、流程)構(gòu)建“邊-管-云”,從系統(tǒng)接入、支撐工具、系統(tǒng)管理、運維管理、資源管理、安全保障、深度應(yīng)用、可視化、方面出發(fā),實現(xiàn)“物聯(lián)、數(shù)聯(lián)、智聯(lián)”三位一體的新型動環(huán)智慧運維新模式,推動全網(wǎng)集中動環(huán)運維管理能力建設(shè),全面提升全網(wǎng)動環(huán)運維能力。平臺主要功能架構(gòu)如圖3所示。
圖2 動環(huán)集中運維管理平臺系統(tǒng)架構(gòu)圖
圖3 動環(huán)集中運維管理平臺功能架構(gòu)圖
動環(huán)集中運維管理平臺經(jīng)過前期的需求調(diào)研與設(shè)計研發(fā),經(jīng)系統(tǒng)測試后正式上線運行,已構(gòu)建集中化動環(huán)設(shè)備及業(yè)務(wù)容量管理、能耗管理、資源管理、供電拓?fù)涞目梢暬尸F(xiàn)等功能。
該功能模塊從供電、空間、制冷、承重等多維度出發(fā),通過持續(xù)記錄容量消耗量和分析增長模式,使動環(huán)集中運維管理人員能夠更加快速準(zhǔn)確地掌控各機(jī)樓電源、空調(diào)設(shè)備的負(fù)載率情況,更高效管理各項關(guān)鍵資源,同時針對各機(jī)樓容量預(yù)警,實現(xiàn)工單督辦、掛牌通報等功能[1]。
(1)電力容量。實現(xiàn)核心機(jī)房變壓器、發(fā)電機(jī)組、開關(guān)電源系統(tǒng)、UPS系統(tǒng)、空調(diào)系統(tǒng)、蓄電池的負(fù)載率分析,容量負(fù)荷預(yù)警;支持各省預(yù)警方案的自定義設(shè)置,能夠以設(shè)備為維度和以預(yù)警級別為維度進(jìn)行容量預(yù)警數(shù)量和占比分析,可按照月、季、年提供容量預(yù)警趨勢分析圖;提供設(shè)備性能預(yù)警的統(tǒng)計匯總、明細(xì)報表功能。
(2)空間容量。實現(xiàn)機(jī)房空間、配套空間、管線空間、機(jī)柜空間管理和U位管理(占用、剩余、最佳位置推薦)。
(3)制冷容量。根據(jù)機(jī)房不同區(qū)域制冷容量和現(xiàn)有帶載負(fù)荷情況,得出不同機(jī)柜、不同機(jī)房還可新增負(fù)荷量的情況。
(4)承重容量。根據(jù)地板承重和機(jī)柜電力配置,確定機(jī)柜擺放位置。機(jī)柜和設(shè)備的總重量不能超過地板總體承重要求,避免超重設(shè)備集中在某一區(qū)域。
通過容量管理,可支持從園區(qū)到機(jī)房的不同層級容量視圖,全面了解容量使用現(xiàn)狀;實時查看各機(jī)柜容量使用情況,快速查找設(shè)備上架的最佳機(jī)位,通過“UPS等重要設(shè)備的負(fù)載率紅色預(yù)警”等關(guān)鍵信息實時監(jiān)控,基于事前分析的預(yù)測性運維,實現(xiàn)全網(wǎng)機(jī)樓運行風(fēng)險的有效把控,如圖4所示。
該功能支持以2D、2.5D及3D可視化方式顯示空間拓?fù)洹⒃O(shè)備拓?fù)洹⒐╇娡負(fù)涔δ?。聚焦豐富的KPI指標(biāo),包括資源、告警、性能、容量、能效、巡檢、溫度云圖等多種類型,實現(xiàn)運維狀態(tài)多維數(shù)據(jù)的全局可視化,如圖5所示[2]。
(1)空間拓?fù)?。可根?jù)布局圖,實現(xiàn)按照園區(qū)、機(jī)樓、樓層、機(jī)房、設(shè)備、機(jī)架等環(huán)境的可視化仿真,支持在拓?fù)鋱D上按空間資源分層定位設(shè)備以及查詢、顯示設(shè)備資源屬性。
(2)設(shè)備拓?fù)?。提供重要設(shè)備拓?fù)洌瑘D形化呈現(xiàn)設(shè)備關(guān)鍵運行參數(shù)指標(biāo),支持快速查詢、顯示設(shè)備資源屬性和設(shè)備當(dāng)前運行狀態(tài)。
(3)供電拓?fù)洹9╇娡負(fù)浞譃?層——高壓配電層、低壓配電層、不間斷電源層、機(jī)房業(yè)務(wù)層;直觀呈現(xiàn)設(shè)備的路由關(guān)系(包括上游設(shè)備和下游設(shè)備),支持按照樓層、房間的端到端拓?fù)涑尸F(xiàn),具備從高低壓配電系統(tǒng)、交直流配電系統(tǒng)到列頭柜的端到端供電拓?fù)淝闆r,實現(xiàn)全網(wǎng)核心機(jī)樓、數(shù)據(jù)中心的供電拓?fù)洹I(yè)務(wù)關(guān)系管理。
圖4 動環(huán)集中運維管理平臺容量負(fù)載率分析圖
動環(huán)設(shè)備及業(yè)務(wù)資源管理,通過掌控設(shè)備在網(wǎng)情況、設(shè)備與業(yè)務(wù)系統(tǒng)關(guān)聯(lián)關(guān)系,基于設(shè)備和業(yè)務(wù)信息將應(yīng)急預(yù)案固化在管理系統(tǒng),指導(dǎo)故障應(yīng)急處置。針對超期服役設(shè)備、老化劣化設(shè)備建立病歷表,全生命周期管控各類設(shè)備的在網(wǎng)狀態(tài),并關(guān)聯(lián)日常運維 信息。
圖5 動環(huán)集中運維管理平臺供電拓?fù)鋱D
3.3.1 動環(huán)設(shè)備資源管理
提供FSU管理、不間斷電源系統(tǒng)管理、蓄電池管理、空調(diào)管理以及發(fā)電機(jī)管理,提供供電與業(yè)務(wù)關(guān)系管理,提供全網(wǎng)動環(huán)設(shè)備資源統(tǒng)計分析功能。動環(huán)資源統(tǒng)計包括機(jī)樓、區(qū)域、設(shè)備類型、設(shè)備子類、設(shè)備品牌以及設(shè)備數(shù)量等,可從多個維度進(jìn)行統(tǒng)計分析,并可查看設(shè)備詳細(xì)詳情。
3.3.2 設(shè)備超期服役管理
提供動環(huán)設(shè)備超期服役統(tǒng)計分析功能。支持按照省份維度和設(shè)備類型維度進(jìn)行統(tǒng)計分析,顯示設(shè)備超期服役數(shù)據(jù)、超期服役日期。老化劣化設(shè)備建立機(jī)歷卡,為采購后評估和預(yù)算決策提供科學(xué)依據(jù)。
3.3.3 健康度管理
支持核心機(jī)樓、站點機(jī)房健康度管理,包括直流不間斷系統(tǒng)、交流不間斷系統(tǒng)、溫控系統(tǒng)、市電可用度、系統(tǒng)監(jiān)控可用度,判斷機(jī)樓、站點機(jī)房的健康狀態(tài),結(jié)合設(shè)備生命周期管理和健康度模型,設(shè)置相應(yīng)的巡檢維護(hù)計劃及預(yù)警功能。
該功能通過對各用電設(shè)備的分項用電量、總用電量進(jìn)行實時監(jiān)測獲取能耗數(shù)據(jù),通過精細(xì)化統(tǒng)計和分析以及智能化管控,實現(xiàn)動環(huán)體系整體能耗水平的測評,便于運營者準(zhǔn)確和快速地掌握整體能耗狀況,如圖6所示。通過比較不同行業(yè)的能效水平,制定科學(xué)的衡量標(biāo)準(zhǔn),提供能耗指標(biāo)閾值管理和預(yù)警生成功能,同時實現(xiàn)節(jié)能減排。
圖6 動環(huán)集中運維管理平臺能耗分析圖
(1)提供動環(huán)體系各個節(jié)點的能耗總量視圖,直觀清晰了解機(jī)房/站點重要能耗指標(biāo),幫助用戶梳理機(jī)房能耗數(shù)據(jù)。
(2)提供按時間段、按用電類型、按站點查詢用電量和總計,用柱狀圖、餅圖等方式展示能耗數(shù)據(jù)。
(3)提供區(qū)域、機(jī)樓、機(jī)房能耗趨勢曲線,通過趨勢曲線、環(huán)比、同比、PUE等指標(biāo),幫助管理者找出用電差異并調(diào)整用電方式。
(4)通過對能耗數(shù)據(jù)的分析和運算,得出用電方式調(diào)整建議,對實際設(shè)備進(jìn)行智能控制操作,實現(xiàn)節(jié)能目的,并以表格、柱狀圖形式呈現(xiàn)節(jié)能措施前后機(jī)房用電量,評估節(jié)能效果。
將現(xiàn)網(wǎng)電源、空調(diào)告警接入總部平臺,提供重要動環(huán)告警的統(tǒng)計結(jié)果呈現(xiàn),可以查看告警清單,定時刷新。實現(xiàn)告警分類統(tǒng)計(分廠家、設(shè)備、級別、故障原因等維度),實現(xiàn)異常告警分析,提供超頻、超短、超長告警的統(tǒng)計報表??梢园词》?、IDC園區(qū)、設(shè)備類型、告警類型等維度,進(jìn)行一定時間周期的趨勢分析、對比分析、排名分析。
建立關(guān)鍵告警知識庫,對各種類型站點設(shè)備告警。制定告警關(guān)聯(lián)規(guī)則或其他相應(yīng)手段,通過關(guān)聯(lián)規(guī)則標(biāo)識主次告警和衍生告警,對主告警進(jìn)行準(zhǔn)確的故障定位,提升故障處理效率。
本文提出的“動環(huán)集中運維管理平臺”實現(xiàn)了全網(wǎng)動環(huán)設(shè)施容量和運行情況的集中監(jiān)控,集中收集全部集團(tuán)要求根據(jù)采集的全網(wǎng)動環(huán)數(shù)據(jù),實時采集解析多維呈現(xiàn),并能提供能耗數(shù)據(jù)的統(tǒng)一對比分析。根據(jù)上下層業(yè)務(wù)的資源關(guān)聯(lián)關(guān)系,輔助統(tǒng)一應(yīng)急指揮調(diào)度和關(guān)鍵問題的督辦等,對全面提升全網(wǎng)動環(huán)運維能力,有效支撐節(jié)能減排、降本增效,具有重大的價值與廣泛的應(yīng)用前景。