蔡幸波, ??煞f
(浙江德塔森特數(shù)據(jù)技術有限公司,寧波 315000)
隨著數(shù)字新基建的啟動,以及5G和邊緣云技術的普及,智能微型數(shù)據(jù)機房建設數(shù)量日益增長,大量數(shù)據(jù)機房處于二十四小時不間斷運行狀態(tài)。通過對智能微型數(shù)據(jù)機房需求的調查,筆者發(fā)現(xiàn),數(shù)據(jù)機房建設地理位置較為分散,有些分散建設在城市各棟大樓中,還有些建設在海島、高山等偏遠地帶,存在數(shù)量大、規(guī)模小、地遠分散、人員管理不便等情況,造成機房運維人力成本高、管理困難、安全性低等問題。智能微型數(shù)據(jù)機房邊緣云綜合監(jiān)控系統(tǒng)能夠提高機房的管理效率,減少運維費用,使機房運行更安全高效。因此,構建一套完整的智能微型數(shù)據(jù)機房邊緣云綜合監(jiān)控系統(tǒng)(以下簡稱“綜合監(jiān)控系統(tǒng)”)是十分有意義的。
綜合監(jiān)控系統(tǒng)設計是計算機技術、通信技術、自動化技術、人工智能技術的融合。管理人員可遠程對機房設備進行監(jiān)測、控制和管理,實現(xiàn)對機房高效便捷的運維。綜合監(jiān)控系統(tǒng)自身具備高可靠性和智能處置能力,遇到機房故障自主采取及時有效地處理,方便機房管理人員留有充足時間趕到現(xiàn)場更換設備進行維護。2020年國家標準GB/T 51409-2020 《數(shù)據(jù)中心綜合監(jiān)控系統(tǒng)工程技術標準》發(fā)布,因此綜合監(jiān)控系統(tǒng)的設計在遵循國家相關標準的基礎上,更注重突出智能微型數(shù)據(jù)機房分布式、無人值守、邊緣云運維的需求特性。
綜合監(jiān)控系統(tǒng)采用模塊化設計,實現(xiàn)了模塊的獨立性,達到了快速部署、降低運維成本的目的。系統(tǒng)各模塊設計雙活互備同時具備健康監(jiān)控功能,實現(xiàn)了系統(tǒng)的高可靠性,能夠在降低成本的同時,實時保障監(jiān)控系統(tǒng)穩(wěn)定高效地運行。通過遙測、遙信、遙控、遙調和實時報警管理,實現(xiàn)對機房供配電模塊、冷量模塊、安防模塊等基礎設施運行狀態(tài)的實時監(jiān)控并記錄歷史數(shù)據(jù),通過IT設備的SNMP協(xié)議和IPMI接口,實現(xiàn)機房IT設備的參數(shù)查看、工作性能跟蹤和日志分析等功能。通過遠程集中監(jiān)控技術,結合智能聯(lián)動參數(shù)配置,使設備智能化,遇到設備故障,系統(tǒng)能夠在第一時間做出基本判斷并處理,減少故障損失。
綜合監(jiān)控系統(tǒng)由機房監(jiān)控系統(tǒng)和邊緣云平臺兩大系統(tǒng)構成,前者由數(shù)據(jù)采集模塊和智能管控模塊兩部分組成,后者由數(shù)據(jù)傳輸模塊、動環(huán)監(jiān)控模塊、IT設備監(jiān)控模塊、3D可視化監(jiān)控模塊和數(shù)字化運維模塊五部分組成。綜合監(jiān)控系統(tǒng)由多個單點機房監(jiān)控系統(tǒng)構成并分布式部署,圖1所示為系統(tǒng)組成示意圖。
圖1 邊緣云平臺綜合監(jiān)控系統(tǒng)示意圖
整體系統(tǒng)具備如下特點。
(1)部署方便,運維成本低:系統(tǒng)整體采用模塊化設計,降低了系統(tǒng)的復雜程度,每個設備可作為單獨的模塊,系統(tǒng)整體可上機架安裝,僅需占用機柜1U高的空間,可簡化系統(tǒng)調試,方便設備實施安裝及維護拆卸,從而減少人工費用,降低了運維成本。
(2)安全可靠性高:系統(tǒng)軟硬件采用模塊雙活互備實現(xiàn)了高可靠性,當任一模塊的服務停止時,由另一模塊接管,以保證機房監(jiān)控服務的正常運行。系統(tǒng)對機房設備運行異常實時檢測,遇到故障迅速告警且對基礎故障進行智能判斷處置,確保機房健康穩(wěn)定高效運行。
(3)管理高效率:系統(tǒng)通過遠程集中監(jiān)控、3D可視化管理和數(shù)字化運維,實現(xiàn)邊緣云平臺智能集中管控,實時監(jiān)測整個數(shù)據(jù)中心機房的運行狀況、智能事件記錄和聲光語音報警,簡化機房管理人員的維護工作。
智能微型數(shù)據(jù)機房數(shù)量眾多且區(qū)域分散,設計要求機房監(jiān)控系統(tǒng)安裝維護方便,系統(tǒng)可靠性高,具有機房異常智能聯(lián)動處置能力,滿足機房無人值守需求。
機房監(jiān)控系統(tǒng)硬件采用一體化控制板設計,數(shù)據(jù)采集模塊和智能管控模塊的硬件設備設計在一塊PCB板上,以簡化配件安裝,減少連接線,提高硬件設備的可靠性。硬件系統(tǒng)的CPU選用工業(yè)級ARM處理器,操作系統(tǒng)選用成熟的開源操作系統(tǒng)或符合國家安全認可的操作系統(tǒng),如烏班圖系統(tǒng)或麒麟系統(tǒng)。系統(tǒng)具有雙電源輸入,控制板設計雙網(wǎng)口,內置短信電話報警裝置。具體模塊設計如下。
(1)數(shù)據(jù)采集模塊設計
數(shù)據(jù)采集模塊的軟硬件設計都需考慮冗余特效,以保證系統(tǒng)的可靠性。在硬件端口設計時,可采用多個RS232、RS485以及DI信號采集端口,2個標準以太網(wǎng)口,考慮工程接線通用性,端口全部采用標準RJ45接口。在軟件功能設計時,數(shù)據(jù)采集模塊設計支持Modbus、SNMP、Web Service、BAC net、IPMI、OPC等多種標準化協(xié)議和接口。
通過Modbus和SNMP協(xié)議采集機房基礎設施的空調、配電、UPS、智能PDU、溫濕度、煙感、水浸等設備,同時可對空調、配電、UPS、智能PDU等設備進行參數(shù)配置。通過SNMP協(xié)議和IPMI接口采集并管理服務器、交換機、存儲等IT設備。
采用Modbus RTU協(xié)議的多個采集設備可以設計成Bus總線方式與數(shù)據(jù)采集模塊連接在一起,以提高系統(tǒng)可靠性,也支持設計成環(huán)網(wǎng)方式與數(shù)據(jù)采集模塊連接。
(2)智能管控模塊設計
智能微型數(shù)據(jù)機房的智能化不僅僅體現(xiàn)在可通過Web端與手機App來控制設備,即軟件與設備之間的聯(lián)動,還可以在邊緣云集中監(jiān)控平臺設置告警聯(lián)動,實現(xiàn)設備與設備之間的智能聯(lián)動。具體實現(xiàn)方式如下。
1)“軟件-設備”聯(lián)動:在保證軟件和設備已經(jīng)成功建立通訊的情況下,通過Web端或手機App上相應的提示操作發(fā)送控制指令,系統(tǒng)軟件做出安全分析判斷后將獲取到的命令信息傳給設備做出相應動作。如當冬夏季環(huán)境溫度變化,管理人員可以遠程根據(jù)需要設置和關閉空調制冷。此外,在智能化安防方面,當有人在門口呼叫時,可以通過系統(tǒng)遠程控制球機的轉動,以調整監(jiān)控視角,確認人員后可在系統(tǒng)上遠程控制門禁設備開門。
2)“設備-設備”聯(lián)動:系統(tǒng)實時采集機房設備和環(huán)境的數(shù)據(jù),當一項或多項監(jiān)控數(shù)據(jù)達到預設的聯(lián)動閥值時,系統(tǒng)可以觸發(fā)反向控制命令,通過SNMP或Modbus協(xié)議經(jīng)數(shù)據(jù)采集連接線或專用設備控制接口,向機房設備傳遞一個命令。如當遇到雷電等異常天氣,可觸發(fā)系統(tǒng)上防雷設置的告警閾值,系統(tǒng)通過聯(lián)動設置關閉受雷電影響的設備;當空調異常時,可觸發(fā)聯(lián)動設置中的告警閾值,打開應急風扇并關閉相關基礎設施和IT設備。
智能管控模塊設計的“軟件-設備”及“設備-設備”的智能聯(lián)動,實現(xiàn)了智能微型數(shù)據(jù)機房在無人值守的情況下,能夠第一時間處理機房的異常情況,減少機房的意外損失,極大地提高了機房的可靠性。
為進一步提高監(jiān)控系統(tǒng)自身的可靠性,機房監(jiān)控系統(tǒng)采用雙活設計,支持熱備方式部署,其設備連接網(wǎng)絡拓撲圖如圖2所示。
圖2 智能微型數(shù)據(jù)機房監(jiān)控拓撲圖
考慮Modbus等采集協(xié)議在同一時間點只支持一臺上位機采集數(shù)據(jù),設計兩臺互備的機房監(jiān)控系統(tǒng)做心跳檢測和工作時序控制,確保數(shù)據(jù)采集不會單點重入,當單點出現(xiàn)故障時,也不會遺漏任何時序的采集點數(shù)據(jù)。
納入邊緣云平臺集中監(jiān)控的機房節(jié)點數(shù)量較多,要求邊緣云平臺具備高可靠性、高可用性、高安全性。邊緣云平臺各功能模塊采用分布式多點冗余熱備設計(圖3),在達到數(shù)據(jù)中心監(jiān)控系統(tǒng)雙活設計目標的同時具備負載均衡功能,以滿足邊緣云平臺幾十萬機房監(jiān)控節(jié)點的高并發(fā)接入需求。
圖3 邊緣云平臺模塊分布式冗余結構
邊緣云平臺需具備開放性、易維護和可擴展性,平臺設計采用微服務架構,各模塊間信息傳輸采用消息中間件。具體模塊設計如下。
(1)數(shù)據(jù)傳輸模塊和存儲設計
智能微型數(shù)據(jù)機房分布區(qū)域廣,網(wǎng)絡連接條件受限,存在部分機房節(jié)點短時間斷網(wǎng)的可能性,設計數(shù)據(jù)傳輸模塊有數(shù)據(jù)傳輸斷點補全功能??紤]智能微型數(shù)據(jù)機房在實際建設中往往在不同時間段分批次投入應用,設計數(shù)據(jù)傳輸模塊能快捷規(guī)范對接機房節(jié)點,后續(xù)機房節(jié)點加入平臺對系統(tǒng)整體集中監(jiān)控不產生影響。
設備監(jiān)控數(shù)據(jù)實時采集處理后不再需要修改,設計采用時序數(shù)據(jù)庫存儲監(jiān)控數(shù)據(jù)。系統(tǒng)平臺信息需要增/刪/改維護及高安全性,設計采用關系數(shù)據(jù)庫存儲平臺信息數(shù)據(jù)。
(2)動力環(huán)境監(jiān)控平臺設計
動力環(huán)境監(jiān)控平臺會將UPS、供配電、精密空調、智能PDU、電磁閥、漏水、溫濕度、消防、門禁、視頻、防盜報警、蓄電池、新風等子系統(tǒng)集成在一個動力環(huán)境監(jiān)控平臺上進行節(jié)能優(yōu)化、集中控制管理。不僅包括對智能微型數(shù)據(jù)機房的能耗數(shù)據(jù)監(jiān)測、統(tǒng)計和能效優(yōu)化建議,還提供優(yōu)化調節(jié)控制系統(tǒng),進行有效的智能節(jié)能優(yōu)化控制。展示界面能清晰地展示當前數(shù)據(jù)機房整體能耗狀況、PUE等關鍵能效指標,可實時顯示關鍵子系統(tǒng)的能效分布狀況,查詢任意時段的能效歷史曲線。
監(jiān)控平臺設計3D仿真監(jiān)控功能,具備機房3D建模、設備和數(shù)據(jù)3D展示、在3D界面故障定位和自動巡檢,支持在同一個瀏覽器窗口中查看機房、微模塊、機柜的3D視圖,可以真實展示UPS、空調等基礎設施設備安裝位置。
(3)IT設備監(jiān)控平臺設計
IT設備監(jiān)控平臺設計包括服務器設備系統(tǒng)、存儲設備系統(tǒng)、網(wǎng)絡拓撲系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、中間件系統(tǒng)等進行實時監(jiān)控管理。以上各子系統(tǒng)集成在一個IT設備監(jiān)控平臺上進行集中控制管理,滿足“集中監(jiān)控、集中維護、集中管理”,為用戶直接提供與應用相關的集中監(jiān)測的能力、手段和工具。
IT設備監(jiān)控平臺實現(xiàn)對在各個機房運行的服務器、存儲設備、網(wǎng)絡系統(tǒng)、設備以及安全系統(tǒng)等的監(jiān)測和管理:可以對IT運維系統(tǒng)網(wǎng)絡節(jié)點進行遠程配置,并能實時監(jiān)控各節(jié)點的性能狀態(tài),一旦出現(xiàn)故障便能自動及時報警;能夠進行高度的自動化管理,盡量減少人為干預,避免由于人員操作不當引起的系統(tǒng)故障;幫助IT運維系統(tǒng)管理人員采集、統(tǒng)計和分析來自網(wǎng)絡各方面的報警信息和故障信息,準確預警、定位網(wǎng)絡中的故障,出現(xiàn)網(wǎng)絡故障時可以快速響應,同時為系統(tǒng)的長期規(guī)劃提供統(tǒng)計依據(jù)。
(4)數(shù)字化運維模塊設計
邊緣云平臺提供數(shù)字化運維功能,對智能數(shù)據(jù)機房日常運維活動進行智能化管理,設計功能包含:資產管理、電子巡檢、運維知識庫等。
資產管理設計支持各類基礎設施及IT設備,包括機架、服務器、存儲、網(wǎng)絡設備、UPS、PDU、空調等設備,并呈現(xiàn)一個資產統(tǒng)一視圖。系統(tǒng)支持全局的設備查找定位,可根據(jù)模糊條件進行設備檢索。查詢條件支持基于設備名稱、設備型號、位置、序列號、條形碼、安裝日期等設備屬性。
電子巡檢設計支持移動App巡檢功能,可在手機等移動終端上處理機房巡檢等事項;支持機房巡檢計劃制定與路線規(guī)劃;支持用戶設置巡檢任務;支持生成機房巡檢類報表,并發(fā)送給相關人員。
運維知識庫包括基礎設施和IT設備運維知識庫,大多數(shù)常見問題及其解決方案都可以從知識庫中簡單、方便獲取,提升工作效率,降低設施設備維護成本。系統(tǒng)關聯(lián)資產管理模塊中的設備分類,支持自定義設置各類設備標準操作內容、操作步驟和安全注意事項。