汪超洋
中南財(cái)經(jīng)政法大學(xué) 湖北 武漢 430073
近年在機(jī)房的管理方面,我校已經(jīng)構(gòu)建多套機(jī)房運(yùn)維監(jiān)測(cè)系統(tǒng),針對(duì)各類型機(jī)房、設(shè)備間及配電間等環(huán)境,在主動(dòng)監(jiān)控方面,起到了一定的積極作用。然而在機(jī)房大規(guī)模使用監(jiān)測(cè)解決方案后,出現(xiàn)運(yùn)維工作量大、對(duì)網(wǎng)絡(luò)條件依賴大、運(yùn)維人力投入大等情況。主要表現(xiàn)在以下3個(gè)方面[1]:
動(dòng)環(huán)監(jiān)測(cè)在機(jī)房的應(yīng)用,使得各類設(shè)備的故障情況快速反應(yīng)到管理端,運(yùn)維工作人員需要快速反應(yīng),尤其是網(wǎng)絡(luò)故障,通過(guò)網(wǎng)絡(luò)無(wú)法在線處理,需要到現(xiàn)場(chǎng)處理,對(duì)工作量的增加帶來(lái)巨大的壓力。
由于動(dòng)環(huán)監(jiān)測(cè)所有傳感器數(shù)據(jù)傳輸、網(wǎng)絡(luò)設(shè)備調(diào)試均需要在網(wǎng)絡(luò)暢通的情況下進(jìn)行在線運(yùn)維,視頻畫面還需要高帶寬的保障,一旦機(jī)房斷網(wǎng),在線運(yùn)維立即失效,所有運(yùn)維工作只能線下進(jìn)行。
機(jī)房監(jiān)測(cè)涵蓋了對(duì)機(jī)房攝像頭、機(jī)房環(huán)境狀態(tài)、機(jī)房設(shè)備狀態(tài)、機(jī)房用電狀態(tài)等多內(nèi)容的監(jiān)測(cè),在傳統(tǒng)方案中每種類型的監(jiān)測(cè)都建立一套獨(dú)立的平臺(tái),無(wú)法在一個(gè)統(tǒng)一的平臺(tái)上對(duì)機(jī)房的各類數(shù)據(jù)進(jìn)行管理與監(jiān)控,從而降低運(yùn)維效率。
本文提出的高校機(jī)房綜合治理平臺(tái)基于“安全、可靠、完整、準(zhǔn)確”的基本原則,在zabbix和grafana開(kāi)源平臺(tái)的基礎(chǔ)上,通過(guò)5G CPE將校園網(wǎng)與5G融合,構(gòu)建健壯的網(wǎng)絡(luò)通路,實(shí)現(xiàn)大數(shù)據(jù)量的測(cè)點(diǎn)數(shù)據(jù)實(shí)時(shí)監(jiān)控,同時(shí)具備較強(qiáng)的維護(hù)升級(jí)能力及可擴(kuò)展能力。
企業(yè)級(jí)分布式監(jiān)控系統(tǒng)Zabbix,是一個(gè)開(kāi)箱即用的成熟解決方案,具備完備的功能,屬于一個(gè)大而全、功能豐富且定制非常靈活的產(chǎn)品,支持多種采集數(shù)據(jù)方式和采集客戶端,支持多個(gè)數(shù)據(jù)庫(kù),對(duì)硬件、行業(yè)、基礎(chǔ)設(shè)施均沒(méi)有依賴。Zabbix目前已升級(jí)到6.0版本,自帶HA功能,其主要構(gòu)成包括zabbixserver,zabbix-proxy,zabbix-agent三部分,zabbix-agent負(fù)責(zé)采集數(shù)據(jù),zabbix-proxy負(fù)責(zé)轉(zhuǎn)發(fā)數(shù)據(jù),zabbix-server負(fù)責(zé)接收并處理數(shù)據(jù)。
Grafana是一套將時(shí)序數(shù)據(jù)庫(kù)中的數(shù)據(jù)可視化的開(kāi)源應(yīng)用,可完美匹配zabbix,將zabbix中收集的數(shù)據(jù)較好的展現(xiàn)出來(lái)。
本平臺(tái)實(shí)現(xiàn)的主要功能如下表:
表1 平臺(tái)主要功能
本平臺(tái)具體有如下特點(diǎn)[2]:
①先進(jìn)性:結(jié)合項(xiàng)目實(shí)際需求,應(yīng)用業(yè)界成熟的產(chǎn)品和技術(shù)+5G的方式,突出5G對(duì)成熟產(chǎn)品和技術(shù)的能力提升;②可靠性:通過(guò)5G網(wǎng)絡(luò)加強(qiáng)機(jī)房的網(wǎng)絡(luò)保障,網(wǎng)絡(luò)不再成為在線運(yùn)維的瓶頸;③準(zhǔn)確性:利用5G的高速傳輸能力,讓監(jiān)控信息快速響應(yīng)能力,實(shí)現(xiàn)及時(shí)告警及準(zhǔn)確定位;④安全性:具備多等級(jí)、多維度的權(quán)限及日志管理,保障系統(tǒng)運(yùn)行安全性;⑤智能性:具備數(shù)據(jù)及告警分析處理功能,實(shí)現(xiàn)數(shù)據(jù)中心的智能化管理;⑥系統(tǒng)性:采用頂層設(shè)計(jì)思想,對(duì)接高度集成的一體化監(jiān)控管理系統(tǒng)平臺(tái);⑦維護(hù)性:融合5G網(wǎng)絡(luò),采用多鏈路運(yùn)維網(wǎng)絡(luò),模塊化設(shè)計(jì)架構(gòu),具備組態(tài)工具,方便系統(tǒng)的組建、維護(hù)及擴(kuò)充;⑧開(kāi)放性:采用開(kāi)源工具ZABBIX搭建靈活平臺(tái),內(nèi)置業(yè)內(nèi)各種標(biāo)準(zhǔn)化協(xié)議及接口,便于系統(tǒng)間的互聯(lián)互通及數(shù)據(jù)傳遞,同時(shí)隨業(yè)務(wù)增長(zhǎng)在線彈性擴(kuò)展系統(tǒng)性能。
整個(gè)系統(tǒng)主要由以下三部分組成:區(qū)域監(jiān)控層、集中監(jiān)控層、中心瀏覽層。各部分的主要作用如下:
區(qū)域監(jiān)控層:在校區(qū)各樓棟?rùn)C(jī)房部署傳感器采集設(shè)備,采集智能電量?jī)x、煙感、浸水、交換機(jī)、路由器的數(shù)據(jù)信息。現(xiàn)場(chǎng)采集設(shè)備采用工業(yè)級(jí)硬件設(shè)計(jì),具備多層防護(hù)功能;高度集成化,內(nèi)置絕大多數(shù)通用采集協(xié)議如SNMP、MQTT、MODBUS,可隨時(shí)根據(jù)需求進(jìn)行協(xié)議擴(kuò)展。例如通過(guò)modbus協(xié)議在zabbix中接入配電房ups數(shù)據(jù),只需在zabbix平臺(tái)監(jiān)控項(xiàng)中填寫不同的鍵值內(nèi)容,來(lái)采集modbus從機(jī)對(duì)應(yīng)寄存器的數(shù)據(jù)。
現(xiàn)場(chǎng)采集設(shè)備采用分布式部署方案,任一設(shè)備故障不會(huì)影響其他設(shè)備的正常工作。現(xiàn)場(chǎng)采集層將數(shù)據(jù)信息上傳至zabbix集中監(jiān)控系統(tǒng)平臺(tái),同時(shí)接受集中監(jiān)控系統(tǒng)平臺(tái)的管控。單個(gè)機(jī)柜內(nèi)部署5G CPE,上行與環(huán)控主機(jī)(串口服務(wù)器)連接,并接受集中監(jiān)控系統(tǒng)平臺(tái)管控,通過(guò)5G CPE可訪問(wèn)機(jī)柜內(nèi)的每一臺(tái)設(shè)備,執(zhí)行運(yùn)維、調(diào)試操作[3]。
集中監(jiān)控層:部署集中監(jiān)控系統(tǒng)平臺(tái),負(fù)責(zé)將下層設(shè)備上傳的各種信息進(jìn)行處理、分析、存儲(chǔ)、展示及上傳,處理所有的告警信息,記錄告警事件,并發(fā)送告警通知。同時(shí)負(fù)責(zé)將控制命令發(fā)送至下層設(shè)備,實(shí)現(xiàn)對(duì)現(xiàn)場(chǎng)設(shè)備的遠(yuǎn)程控制。平臺(tái)具有強(qiáng)大的數(shù)據(jù)處理能力,實(shí)現(xiàn)各種數(shù)據(jù)分析、數(shù)據(jù)管理、告警管理、報(bào)表管理、權(quán)限管理、日志管理和組態(tài)配置等功能。
中心瀏覽層:系統(tǒng)支持多種告警通知方式(包括但不限于:5G網(wǎng)、現(xiàn)場(chǎng)語(yǔ)音、短信、電話、郵件、App、微信等),在告警產(chǎn)生和恢復(fù)時(shí),可及時(shí)有效的通知運(yùn)維人員。并且具備Web瀏覽器及移動(dòng)終端訪問(wèn)方式,便于運(yùn)維人員隨時(shí)隨地了解機(jī)房的工作狀況。同時(shí),匹配相應(yīng)的權(quán)限可以進(jìn)行設(shè)備控制及系統(tǒng)配置修改等操作。
圖1 產(chǎn)生告警推送
圖2 告警恢復(fù)推送
基于5G的機(jī)房綜合治理平臺(tái)是融合5G網(wǎng)絡(luò)對(duì)現(xiàn)有機(jī)房管理的綜合治理水平提升,在當(dāng)前機(jī)房數(shù)量眾多、運(yùn)營(yíng)壓力重負(fù)的情況下,協(xié)助管理單位快速接入運(yùn)維現(xiàn)場(chǎng),高效完成技術(shù)力量的介入以解決現(xiàn)場(chǎng)問(wèn)題。其工作方法有以下幾種方式:
在網(wǎng)絡(luò)故障期:校園網(wǎng)故障時(shí),在校內(nèi)無(wú)法通過(guò)校園網(wǎng)快速進(jìn)入葉機(jī)房,通過(guò)5G高速專網(wǎng)能夠進(jìn)入指定機(jī)房,了解現(xiàn)場(chǎng)環(huán)境,快速定位故障點(diǎn),并執(zhí)行有效策略。
在校外技術(shù)介入支持期:機(jī)房需要外部技術(shù)支撐時(shí),可通過(guò)5G網(wǎng)開(kāi)通校園網(wǎng)入網(wǎng)許可,通過(guò)外部運(yùn)營(yíng)商5G網(wǎng)絡(luò)接入葉機(jī)房,開(kāi)展技術(shù)支持。
機(jī)房設(shè)備調(diào)試期:機(jī)房嚴(yán)格管理規(guī)范要求下,非運(yùn)維人員無(wú)法進(jìn)入葉機(jī)房時(shí),可由運(yùn)維人員進(jìn)行設(shè)備安裝,接入葉機(jī)房網(wǎng)絡(luò)后,非運(yùn)維人員的調(diào)試配置可由多種方式進(jìn)行接入開(kāi)展。
本平臺(tái)主要針對(duì)智慧校園、智慧園區(qū)的葉機(jī)房治理設(shè)計(jì),特別在智慧校園建設(shè)場(chǎng)景中,由于地域差異、管理模式差異、資金投入差異等不統(tǒng)一的情況,5G融合網(wǎng)絡(luò)機(jī)房綜合治理平臺(tái)基于靈活的軟件架構(gòu)和5G網(wǎng)絡(luò)的整體設(shè)計(jì),有效應(yīng)對(duì)差異需求和建設(shè)。在硬件設(shè)備選擇上更靈活,推進(jìn)眾多設(shè)備制造商在產(chǎn)品設(shè)計(jì)上加快標(biāo)準(zhǔn)化,符合國(guó)家通用標(biāo)準(zhǔn),以能夠加入高校葉機(jī)房治理改造工程中的設(shè)備選型中,同時(shí)對(duì)高質(zhì)量、高精度的設(shè)備,能夠推動(dòng)其市場(chǎng)價(jià)值提升。同時(shí),在大規(guī)模推廣應(yīng)用中,促進(jìn)5G網(wǎng)絡(luò)及設(shè)備在低延時(shí)、高帶寬的場(chǎng)景的技術(shù)演進(jìn),豐富更多融合5G的產(chǎn)品模態(tài)。
在新基建的推動(dòng)下,在新興技術(shù)的加持下,具有前端采集能力和平臺(tái)運(yùn)維能力的一體化機(jī)房治理平臺(tái)正在逐漸成為市場(chǎng)主流。且隨著各行各業(yè)的交叉融合,平臺(tái)模式將不斷優(yōu)化創(chuàng)新和拓展,衍生出更多的使用場(chǎng)景,如交通、樓宇等,為各行各業(yè)動(dòng)力設(shè)備的安全運(yùn)行提供保護(hù),當(dāng)設(shè)備故障時(shí)及時(shí)通知工作人員,大大提高了對(duì)故障的快速反應(yīng)能力,減低了日常運(yùn)維的成本,提高了運(yùn)維效率。