孫紅花
(銀清科技有限公司上海分公司,上海 201210)
傳統(tǒng)運(yùn)維管理方式下,各站點(diǎn)需要留人值守,但難于實(shí)時(shí)掌握數(shù)據(jù)中心機(jī)房設(shè)備運(yùn)行狀態(tài)和機(jī)房環(huán)境狀況,對(duì)管理資產(chǎn)、容量資源的統(tǒng)計(jì),耗時(shí)、易出錯(cuò)、造成浪費(fèi)嚴(yán)重現(xiàn)象,機(jī)柜空間碎片化、制冷功能是否足夠、PDU過(guò)載等煩惱也已無(wú)法匹配大型數(shù)據(jù)中心自動(dòng)化管理的需要,給運(yùn)維人員增加很大難度,所以數(shù)據(jù)中心對(duì)智能監(jiān)測(cè)設(shè)備的需求就顯得尤為迫切。
隨著云時(shí)代技術(shù)不斷進(jìn)步,隨之產(chǎn)生的集中監(jiān)測(cè)數(shù)據(jù)中心機(jī)房系統(tǒng)及機(jī)房輔助系統(tǒng)(UPS蓄電池、高壓配電、精密空調(diào)等)的動(dòng)環(huán)監(jiān)控平臺(tái)成為了運(yùn)維管理的核心內(nèi)容,它能實(shí)時(shí)檢查動(dòng)力參數(shù)和環(huán)境狀況,故障報(bào)警、事件記錄,對(duì)碎片化機(jī)柜空間進(jìn)行集中管理,還能預(yù)測(cè)各機(jī)房環(huán)境的潛在風(fēng)險(xiǎn),為運(yùn)維管理提供了一種高可靠性、安全性的技術(shù)支持。
常規(guī)建設(shè)中,針對(duì)規(guī)模較大的數(shù)據(jù)中心機(jī)房,動(dòng)環(huán)系統(tǒng)一般部署三級(jí)監(jiān)控。
根據(jù)現(xiàn)行的國(guó)家標(biāo)準(zhǔn)及行業(yè)標(biāo)準(zhǔn)規(guī)范要求,如圖1所示,動(dòng)環(huán)系統(tǒng)主要由三部分的基本結(jié)構(gòu)組成:現(xiàn)場(chǎng)采集層、集中監(jiān)控層、遠(yuǎn)程瀏覽層。傳統(tǒng)的動(dòng)環(huán)系統(tǒng),雙機(jī)處于冷備狀態(tài),若主機(jī)出現(xiàn)宕機(jī),可啟用備機(jī)開(kāi)機(jī),如圖一左邊部分。
圖1 動(dòng)環(huán)系統(tǒng)結(jié)構(gòu)
(1)現(xiàn)場(chǎng)采集層:采用串口服務(wù)器+集成服務(wù)器架構(gòu),被監(jiān)控設(shè)備通過(guò)數(shù)據(jù)中心專(zhuān)用網(wǎng)絡(luò)的形式接入串口服務(wù)器,串口服務(wù)器將數(shù)據(jù)協(xié)議轉(zhuǎn)換為SNMP轉(zhuǎn)發(fā)至集成服務(wù)器。
(2)集中監(jiān)控層:一主一備服務(wù)器為雙機(jī)冷備狀態(tài),通過(guò)三臺(tái)(電力監(jiān)控、環(huán)境監(jiān)控、機(jī)房監(jiān)控)服務(wù)器采集數(shù)據(jù),負(fù)責(zé)將現(xiàn)場(chǎng)采集層集成服務(wù)器傳來(lái)的各種信息進(jìn)行存儲(chǔ)、處理、分析和展示。
(3)遠(yuǎn)程瀏覽層:通過(guò)電視大屏展示給運(yùn)維值守人員,系統(tǒng)支持多種告警通知方式,在告警產(chǎn)生時(shí),可及時(shí)有效的通知運(yùn)維人員。同時(shí),匹配相應(yīng)的權(quán)限可以進(jìn)行系統(tǒng)配置修改等操作。
隨著智能化設(shè)備不斷的改進(jìn),為保障整個(gè)系統(tǒng)容災(zāi)性能,在不影響設(shè)備斷電的情況下自動(dòng)啟用備機(jī),且數(shù)據(jù)中心設(shè)備的不斷擴(kuò)容,勢(shì)必會(huì)增加動(dòng)環(huán)系統(tǒng)負(fù)重,就升級(jí)了現(xiàn)有的雙機(jī)熱備功能的服務(wù)器,當(dāng)主機(jī)宕機(jī)故障時(shí),系統(tǒng)監(jiān)測(cè)到信號(hào)中斷將自動(dòng)啟用備機(jī),如圖一右邊部分,同時(shí)還可以實(shí)現(xiàn)機(jī)房總管的全量數(shù)據(jù)轉(zhuǎn)移。
(1)現(xiàn)場(chǎng)采集層:采用基于Linux的IP型一體化嵌入式服務(wù)器。服務(wù)器本身具備串口服務(wù)器功能,具備多種物理接口(包括但不限于RS232、RS485、DI、DO、AI等),無(wú)需串口服務(wù)器即實(shí)現(xiàn)各類(lèi)數(shù)據(jù)的采集,且具備數(shù)據(jù)處理、數(shù)據(jù)過(guò)濾及數(shù)據(jù)緩存,斷點(diǎn)續(xù)傳等功能。
(2)監(jiān)控處理層:監(jiān)控平臺(tái)為兩臺(tái)硬件服務(wù)器,雙機(jī)熱備,通過(guò)N臺(tái)嵌入式采集服務(wù)器采集監(jiān)控每棟?rùn)C(jī)房及相關(guān)聯(lián)設(shè)備的數(shù)據(jù),是機(jī)房衛(wèi)士服務(wù)器的升級(jí)版,可實(shí)現(xiàn)全量數(shù)據(jù)監(jiān)控,3D視圖的展示效果,在界面美觀(guān)性、軟件易用性及系統(tǒng)可監(jiān)控容量方面均有所提高。
(3)遠(yuǎn)程瀏覽層:系統(tǒng)支持多媒體語(yǔ)音、本地聲光等多種告警通知方式,在告警產(chǎn)生時(shí),可及時(shí)有效地遠(yuǎn)程通知機(jī)房運(yùn)維人員,及時(shí)采取相應(yīng)措施確保各機(jī)房及相關(guān)聯(lián)設(shè)備的可靠運(yùn)行。同時(shí),匹配相應(yīng)的權(quán)限可以進(jìn)行設(shè)備控制及系統(tǒng)配置修改、畫(huà)面修改等操作。
數(shù)據(jù)中心機(jī)房IT負(fù)載運(yùn)行較為復(fù)雜,設(shè)備在運(yùn)行的過(guò)程中消耗大量電力能源,電力資源耗用過(guò)多就會(huì)產(chǎn)生熱能,使機(jī)房環(huán)境溫度升高,然后耗費(fèi)很多電力的冷卻系統(tǒng)能源進(jìn)行環(huán)境降溫。在整個(gè)循環(huán)過(guò)程中,運(yùn)維人員對(duì)繁雜的能耗資源統(tǒng)計(jì),耗時(shí)、易出錯(cuò)、不及時(shí)等現(xiàn)象,所以機(jī)房的電力和散熱情況就需要實(shí)時(shí)監(jiān)測(cè),并反饋真實(shí)數(shù)據(jù)。動(dòng)環(huán)監(jiān)控系統(tǒng)就能很好的應(yīng)用于IT負(fù)載設(shè)備的動(dòng)態(tài)監(jiān)測(cè),如圖2所示。
圖2 數(shù)據(jù)中心機(jī)房應(yīng)用圖
(1)智能監(jiān)控可視化:資源3D可視化,能快速定位可用資源、能耗管理、容量管理、溫度云圖。
(2)封閉通道:電動(dòng)平移門(mén),人臉識(shí)別,根據(jù)設(shè)置權(quán)限識(shí)別運(yùn)維人員進(jìn)出機(jī)房信息,改善機(jī)房進(jìn)出管理規(guī)范。
(3)一體化UPS/精密配電柜/智能小母線(xiàn):UPS智能錄波、支路監(jiān)測(cè)、溫度檢測(cè)。
(4)U位管理:通過(guò)U位標(biāo)簽與設(shè)備資產(chǎn)進(jìn)行綁定,全程跟蹤設(shè)備資產(chǎn)的生命周期狀態(tài);自動(dòng)識(shí)別機(jī)柜對(duì)應(yīng)U位的IT設(shè)備,系統(tǒng)對(duì)機(jī)柜每1U的U位進(jìn)行自動(dòng)的精細(xì)化管理,當(dāng)設(shè)備資產(chǎn)位置或狀態(tài)發(fā)生變化時(shí),系統(tǒng)自動(dòng)識(shí)別更新資產(chǎn)設(shè)備信息,實(shí)現(xiàn)資產(chǎn)自動(dòng)盤(pán)點(diǎn),同時(shí)避免事后維護(hù)登記,降低運(yùn)維成本減少遺漏幾率。
為落實(shí)節(jié)能減排政策要求,智能動(dòng)力環(huán)境監(jiān)控的平滑能耗曲線(xiàn)效果,如圖3所示,去除了人為操作頻率低下所產(chǎn)生的數(shù)據(jù)鋸齒,提高對(duì)負(fù)載率上架率等變更的相應(yīng)操作率,持續(xù)優(yōu)化場(chǎng)景化SCP標(biāo)準(zhǔn)步驟,通過(guò)優(yōu)化動(dòng)環(huán)系統(tǒng)設(shè)計(jì),可實(shí)現(xiàn)以下目標(biāo)。
圖3 輸出曲線(xiàn)圖
(1)多通道采集:支持多個(gè)進(jìn)程進(jìn)行數(shù)據(jù)采集,相當(dāng)于在系統(tǒng)與采集端口間修建了多條高速公路,減少了“塞車(chē)”的風(fēng)險(xiǎn)。同時(shí)多線(xiàn)程機(jī)制可讓數(shù)據(jù)采集獲得更大的內(nèi)存空間,發(fā)揮系統(tǒng)的快速運(yùn)轉(zhuǎn)性能,提高數(shù)據(jù)采集效率。
(2)信號(hào)狀態(tài)關(guān)聯(lián):設(shè)備自身主要信號(hào)狀態(tài)與次級(jí)信號(hào)狀態(tài)關(guān)聯(lián),避免了主信號(hào)出現(xiàn)故障時(shí),大量的支路信號(hào)告警信息掩蓋主要告警。
(3)數(shù)據(jù)信號(hào)規(guī)整:不同廠(chǎng)家、不同型號(hào)、不同協(xié)議的設(shè)備進(jìn)行信號(hào)規(guī)整,并按照用戶(hù)提供的字典表或協(xié)議規(guī)約要求進(jìn)行封裝,實(shí)現(xiàn)多專(zhuān)業(yè)多個(gè)子系統(tǒng)的統(tǒng)一整合,快速的實(shí)現(xiàn)與上層平臺(tái)對(duì)接,使同類(lèi)型設(shè)備的數(shù)據(jù)易于對(duì)比分析。
(4)告警信息標(biāo)準(zhǔn)化:通過(guò)規(guī)則引擎將功能與規(guī)則分離,采用配置加載的機(jī)制將解析后的告警信息轉(zhuǎn)化為統(tǒng)一的、滿(mǎn)足一定格式的標(biāo)準(zhǔn)數(shù)據(jù)。
(5)AI節(jié)能:前饋控制加溫度自適用技術(shù),優(yōu)化能源使用效率,從而達(dá)到節(jié)能降耗,如圖4 所示(PUE < 2)。
圖4 對(duì)應(yīng)的各樓層位置展示圖
供配電與制冷系統(tǒng)采用了采集技術(shù)、計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù),通過(guò)電量?jī)x、空調(diào)通訊主板及傳感器等設(shè)備實(shí)時(shí)采集電流、電壓、通斷情況以及溫濕度等動(dòng)力指標(biāo)和環(huán)境指標(biāo)信息,這些數(shù)據(jù)大多以秒級(jí)時(shí)間間隔來(lái)采集,數(shù)據(jù)量很大,系統(tǒng)將采集到的實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)進(jìn)行解析、存儲(chǔ)于數(shù)據(jù)庫(kù)中,可減輕程序運(yùn)行的壓力,所以結(jié)構(gòu)化、格式化程度較高,基于遠(yuǎn)程應(yīng)用程序開(kāi)發(fā),使用多層次界面展示各個(gè)子模塊系統(tǒng)的運(yùn)行情況,用戶(hù)通過(guò)監(jiān)控平臺(tái)查詢(xún)各個(gè)供配電、制冷等設(shè)施設(shè)備的運(yùn)行狀態(tài)和參數(shù)。
通過(guò)動(dòng)環(huán)系統(tǒng)在基礎(chǔ)設(shè)施設(shè)備的采集與分析得知,全球數(shù)據(jù)中心每年電力消耗200太瓦時(shí),占總用電量的7%,是200個(gè)三峽大壩的發(fā)電量才能滿(mǎn)足。在基礎(chǔ)設(shè)施能耗中,制冷系統(tǒng)占比26%,相當(dāng)于供配電系統(tǒng)的3倍以上,IT負(fù)載占比最高,達(dá)63%,如圖5所示。
圖5 數(shù)據(jù)占比圖
數(shù)據(jù)中心實(shí)行7×24 h巡檢運(yùn)維,人員輪班制,動(dòng)環(huán)系統(tǒng)投入使用后克服人工疲勞、枯燥情緒困擾,可解決人力資源有限的問(wèn)題;數(shù)據(jù)100%真實(shí)還原,無(wú)人為因素干擾,增強(qiáng)數(shù)據(jù)中心監(jiān)測(cè)質(zhì)量,工作延續(xù)性強(qiáng);還能解決運(yùn)維人員無(wú)法出入危險(xiǎn)區(qū)域(高壓觸電、有害氣體、疫情場(chǎng)景等)條件下第一視角監(jiān)管現(xiàn)場(chǎng)運(yùn)維的難點(diǎn)。
傳統(tǒng)的UPS蓄電池放電試驗(yàn)需要多名運(yùn)維人員在現(xiàn)場(chǎng)值守,每隔一段時(shí)間記錄一次電池放電狀態(tài)、電池內(nèi)阻及電壓的變化情況。一個(gè)電池機(jī)房一般有幾千節(jié)電池,這無(wú)疑給運(yùn)維人員增加很大的工作量;UPS蓄電池基本是鉛酸電池,如果有電池漏液,很容易引起爆炸和火災(zāi),給運(yùn)維人員的生命安全構(gòu)成較大威脅。而動(dòng)環(huán)監(jiān)控系統(tǒng)可以在值班室,遠(yuǎn)程觀(guān)察UPS蓄電池的運(yùn)行狀態(tài)和參數(shù)變化情況,有效減輕了運(yùn)維人員的工作量,也降低了運(yùn)維人員的風(fēng)險(xiǎn)。
(1)過(guò)程記錄,第一視角本地記錄日常巡檢全流程;(2)遠(yuǎn)程富媒體交互,通過(guò)第一視角的智能眼鏡,遠(yuǎn)端可以遠(yuǎn)程連接應(yīng)急或設(shè)備維修現(xiàn)場(chǎng),指導(dǎo)前方工作人員解決問(wèn)題,通過(guò)實(shí)時(shí)視頻、文字、圖片、AR標(biāo)記等多種方式,提升溝通效率;(3)智能識(shí)別,通過(guò)智能眼鏡融合圖像識(shí)別、人臉識(shí)別、車(chē)牌識(shí)別、二維碼/條碼識(shí)別技術(shù),運(yùn)用基于深度學(xué)習(xí)的算法,對(duì)設(shè)備進(jìn)行智能化識(shí)別與分析,幫助運(yùn)維人員提升工作能力。從而進(jìn)一步提高能效統(tǒng)計(jì)管理效率,節(jié)省時(shí)間及人力成本,通過(guò)便捷的人機(jī)交互功能,為數(shù)據(jù)分析與挖掘奠定數(shù)據(jù)基礎(chǔ)。
科技時(shí)代迅速發(fā)展的今天,5G網(wǎng)絡(luò)時(shí)代也已到來(lái),相較于5G網(wǎng)絡(luò)其他領(lǐng)域的應(yīng)用,智能手機(jī)已經(jīng)成為生活中不可或缺的一部分,是使用最為廣泛的基本工具。在未來(lái),5G技術(shù)的普及,動(dòng)環(huán)系統(tǒng)將智能手機(jī)作為常用巡檢工具,最大可能的發(fā)揮智能手機(jī)在動(dòng)環(huán)系統(tǒng)的應(yīng)用,不僅可以接收系統(tǒng)發(fā)送的短信及故障報(bào)警提示,還能語(yǔ)音、視頻及其他功能的操作,從而實(shí)現(xiàn)兩種功能之間的雙向傳遞,快速做出更好的操作決定,為用戶(hù)帶來(lái)更便捷的使用體驗(yàn)。最后,在智能工作解決的同時(shí),還需考慮網(wǎng)絡(luò)安全問(wèn)題,數(shù)據(jù)中心健康檢測(cè),防止網(wǎng)絡(luò)信息外露等,數(shù)據(jù)安全就是數(shù)據(jù)中心的安全。