吳旭光,蔡俊彬,吳 楠
(1.中國(guó)移動(dòng)通信集團(tuán)廣東有限公司汕頭分公司,廣東 汕頭 515041;2.廣東技術(shù)師范大學(xué)財(cái)經(jīng)學(xué)院,廣東 廣州 510400)
隨著數(shù)據(jù)中心在網(wǎng)絡(luò)中的核心地位凸現(xiàn),運(yùn)營(yíng)商對(duì)數(shù)據(jù)中的運(yùn)維要求越來越高,現(xiàn)場(chǎng)運(yùn)維人員的行為需要管理、運(yùn)維表格的填寫越來越多。在這種壓力下,現(xiàn)場(chǎng)人員的技能、運(yùn)營(yíng)質(zhì)量無法保證,質(zhì)量、成本、效率上的平衡也越來越難。按照目前的運(yùn)維管理手段,難以符合業(yè)務(wù)迅猛發(fā)展的要求。
目前,數(shù)據(jù)中心的各類種運(yùn)維數(shù)據(jù)分散于各個(gè)系統(tǒng),而按照能源分析的策略,是需要結(jié)合多方數(shù)據(jù),包括動(dòng)力環(huán)境、溫濕度、設(shè)備功率情況、日常使用峰谷等內(nèi)容。現(xiàn)實(shí)情況是綜合數(shù)據(jù)分析只能依靠人工結(jié)合,無法利用AI 等方式實(shí)現(xiàn)智能分析調(diào)節(jié),缺乏數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)中心基礎(chǔ)設(shè)施綜合管理平臺(tái),以“一中心、一個(gè)平臺(tái)、三大模塊”為整體架構(gòu),分別是以數(shù)據(jù)分析中心DCDB 為根基,將數(shù)據(jù)中心所有運(yùn)維數(shù)據(jù)和設(shè)備運(yùn)維數(shù)據(jù)統(tǒng)一存儲(chǔ)和管理,圍繞基礎(chǔ)設(shè)施管理平臺(tái)DCIM 為核心,將數(shù)據(jù)中心風(fēng)火水電等基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一管理和展示,在此之上根據(jù)日常運(yùn)維管理、資源管理及服務(wù)管理需要,構(gòu)建運(yùn)維管理模塊(DCOM)、資源管理模塊(DCRM)、服務(wù)管理模塊(DCSM),突破以往粗放式管理手段,形成數(shù)據(jù)中心的信息化、智能化、精細(xì)化的管理新平臺(tái),為AI 智能決策打造綠色數(shù)據(jù)中心、降低PUE 提供基礎(chǔ),如圖1 所示。
該平臺(tái)具備如下5 個(gè)特點(diǎn)。
(1)整體智能規(guī)劃:統(tǒng)一數(shù)據(jù)資料,標(biāo)準(zhǔn)化數(shù)據(jù)格式,對(duì)節(jié)能運(yùn)維智能決策提供數(shù)據(jù)基礎(chǔ)。
(2)統(tǒng)一管控管理:以基礎(chǔ)設(shè)施管理DCIM為基礎(chǔ),在實(shí)現(xiàn)基礎(chǔ)設(shè)施統(tǒng)一管理之上構(gòu)建服務(wù)管理、運(yùn)維管理及資源管理,減輕維護(hù)壓力,實(shí)現(xiàn)人員精細(xì)化管理、統(tǒng)一化管控,提升整體運(yùn)維水平。
(3)資源可視化:降低運(yùn)維難度,實(shí)現(xiàn)售前資源分配智能化、故障定位精準(zhǔn)化、設(shè)備維護(hù)高效化的目的。
(4)服務(wù)多渠道:提供對(duì)外服務(wù)官網(wǎng)、微信公眾號(hào)、語(yǔ)音通道等接入渠道,提升客戶服務(wù)感知,做強(qiáng)云計(jì)算品牌。
(5)智能輔助節(jié)能調(diào)控:結(jié)合動(dòng)環(huán)數(shù)據(jù)和運(yùn)維數(shù)據(jù),利用人工智能進(jìn)行分析,由平臺(tái)給出節(jié)能運(yùn)維建議,前期實(shí)現(xiàn)人工調(diào)整,最終將節(jié)能運(yùn)維操作反向推給DCIM,接入BA 系統(tǒng),實(shí)現(xiàn)自動(dòng)化調(diào)整機(jī)房溫濕度,降低整體PUE 值,達(dá)到節(jié)能減排的目的。
2.2.1 資產(chǎn)條精細(xì)化管理機(jī)架資源
本系統(tǒng)在機(jī)架上增加智能U 位條,通過采集器將機(jī)柜內(nèi)的設(shè)備資產(chǎn)、U 位占用情況、濕度、溫度等信息采集并傳送到服務(wù)器,實(shí)現(xiàn)圖形化界面維護(hù)資產(chǎn)信息,通過資產(chǎn)監(jiān)測(cè)條對(duì)機(jī)房?jī)?nèi)機(jī)架設(shè)備及其所有U 位進(jìn)行自動(dòng)管理。對(duì)未經(jīng)授權(quán)的資產(chǎn)遷移,系統(tǒng)可產(chǎn)生報(bào)警,不用擔(dān)心服務(wù)器亂擺亂放。圖2 為U 位連接管理原理圖。
2.2.2 AI 算法實(shí)現(xiàn)PUE 調(diào)控
圖1 各平臺(tái)間數(shù)據(jù)交互情況
在運(yùn)維達(dá)到一定的成熟度后,人力或者專家的經(jīng)驗(yàn)已經(jīng)無法滿足能耗進(jìn)一步降低的要求。例如,冷通道溫度的較小提升都會(huì)導(dǎo)致制冷系統(tǒng)的很多變化:冷機(jī)、冷卻塔、換熱器、水泵等的功耗都將增減不定,且非線性變化,其結(jié)果很可能是冷通道溫度提升而總功耗增加。制冷和電氣系統(tǒng)之間的相互作用和各種復(fù)雜反饋回路,造成使用傳統(tǒng)的工程公式難以準(zhǔn)確推導(dǎo)數(shù)據(jù)中心的效率。
為進(jìn)一步優(yōu)化系統(tǒng)工作狀態(tài)與能耗的關(guān)系,需實(shí)現(xiàn)兩個(gè)優(yōu)化,一個(gè)是設(shè)備工作狀態(tài)與能耗的優(yōu)化,另一個(gè)是設(shè)備組成的系統(tǒng)間的優(yōu)化,進(jìn)而才能實(shí)現(xiàn)AI 算法進(jìn)行節(jié)能調(diào)控(見圖3)。該算法基于5 大類數(shù)據(jù)、500+參數(shù)輸入進(jìn)行AI 計(jì)算優(yōu)化,通過收集風(fēng)火水電、IT 負(fù)載等多維數(shù)據(jù),利用DNN 建模,精確預(yù)測(cè)PUE采用深度強(qiáng)化學(xué)習(xí)訓(xùn)練,對(duì)接控制系統(tǒng),形成閉環(huán),自動(dòng)求解最優(yōu)PUE下的參數(shù)調(diào)節(jié),調(diào)節(jié)時(shí)長(zhǎng)短,精度高。相關(guān)原理如圖4 所示。
目前,廣東移動(dòng)所研發(fā)的基于AI 技術(shù)的新一代DCIM 管理系統(tǒng)已經(jīng)在中國(guó)移動(dòng)(廣東、汕頭)數(shù)據(jù)中心部署并應(yīng)用,通過半年的試運(yùn)行,預(yù)計(jì)可降低PUE1%~3%,年節(jié)約電費(fèi)約120 萬(wàn)元。
2.3.1 3D 可視化監(jiān)控
3D 可視化監(jiān)控對(duì)機(jī)房進(jìn)行全方位建模,實(shí)現(xiàn)機(jī)房、配電、空調(diào)、機(jī)柜的建模,并對(duì)機(jī)柜內(nèi)部服務(wù)器設(shè)備建模,可進(jìn)行可視化監(jiān)控管理。各模塊均是組態(tài)配置,可根據(jù)用戶需要進(jìn)行個(gè)性化定制,也可以隨著數(shù)據(jù)中心的改造和擴(kuò)容而不斷更新,保證監(jiān)控系統(tǒng)與數(shù)據(jù)中心實(shí)際機(jī)房場(chǎng)景管理緊密結(jié)合,支持分域分權(quán),展示中國(guó)移動(dòng)通信集團(tuán)數(shù)據(jù)中心運(yùn)營(yíng)管理的軟實(shí)力。圖5為3D 可視化監(jiān)控截圖。
2.3.2 容量管理
容量管理實(shí)現(xiàn)對(duì)數(shù)據(jù)中心的基礎(chǔ)設(shè)施的容量進(jìn)行實(shí)時(shí)監(jiān)測(cè)、容量規(guī)劃和容量分析等子功能,主要監(jiān)控容量四要素(空間、電力、制冷、網(wǎng)絡(luò))。針對(duì)動(dòng)力部分,通過監(jiān)控衡量機(jī)架的功耗峰值,壓榨機(jī)架能耗空間,使其盡可能上架更多設(shè)備,滿足自身業(yè)務(wù)發(fā)展的需求。圖6 為容量管理截圖。
2.3.3 監(jiān)控管理
監(jiān)控管理包括了綜合視圖、動(dòng)環(huán)、暖通、網(wǎng)絡(luò)監(jiān)控告警,視頻的檢測(cè)監(jiān)控,實(shí)現(xiàn)對(duì)數(shù)據(jù)中心的全范圍監(jiān)控管理,并支持閾值設(shè)置和告警收斂,實(shí)現(xiàn)統(tǒng)一監(jiān)控的功能。圖7 為監(jiān)控管理截圖。
圖2 U 位連接管理原理圖
圖3 AI 技術(shù)在節(jié)能管理的應(yīng)用
2.3.4 U 位條自動(dòng)管理
本系統(tǒng)通過在機(jī)架上增加智能U 位條+資產(chǎn)檢測(cè)條方式實(shí)現(xiàn)對(duì)機(jī)房?jī)?nèi)機(jī)架設(shè)備及其所有U 位進(jìn)行自動(dòng)管理,使運(yùn)維人員對(duì)數(shù)據(jù)中心U 位占用情況一目了然。圖8 為上下架及U 位管理?xiàng)l管理截圖。
2.3.5 風(fēng)險(xiǎn)管理
圖4 系統(tǒng)降低PUE 值
圖5 3D 可視化監(jiān)控截圖
圖6 容量管理截圖
本系統(tǒng)通過對(duì)設(shè)備全生命周期管理,將所有運(yùn)維操作的風(fēng)險(xiǎn)進(jìn)行分級(jí)管理,并通過運(yùn)維經(jīng)驗(yàn)庫(kù)的更新管理,不斷更新優(yōu)化每個(gè)風(fēng)險(xiǎn)對(duì)應(yīng)的應(yīng)急解決方案,使得運(yùn)維的風(fēng)險(xiǎn)級(jí)別越來越低,提升運(yùn)維的質(zhì)量。圖10 為風(fēng)險(xiǎn)管理截圖。
2.3.6 能效管理
本系統(tǒng)構(gòu)建了用于預(yù)測(cè)數(shù)據(jù)中心PUE 的神經(jīng)網(wǎng)絡(luò)。系統(tǒng)通過海量歷史數(shù)據(jù)對(duì)PUE 預(yù)測(cè)模型進(jìn)行訓(xùn)練,使其具有精準(zhǔn)的PUE 預(yù)測(cè)能力?;谠撃芰?,智維平臺(tái)一方面使數(shù)據(jù)中心運(yùn)營(yíng)人員可以洞察各個(gè)運(yùn)行參數(shù)與PUE 的關(guān)系,進(jìn)而有能力評(píng)估運(yùn)行參數(shù)變化對(duì)PUE 的影響;另一方面,系統(tǒng)基于該預(yù)測(cè)模型,可以進(jìn)行智能分析,自動(dòng)尋找系統(tǒng)最優(yōu)運(yùn)行參數(shù)方案,提供節(jié)能優(yōu)化策略。圖10 為能效管理截圖。
2.3.7 巡檢管理
巡檢管理通過NFC 標(biāo)簽,實(shí)現(xiàn)人員定點(diǎn)定位進(jìn)行巡檢作業(yè),巡檢內(nèi)容可通過自定義方式定義異常范圍,方便生成對(duì)應(yīng)的事件故障情況,規(guī)劃巡檢路線,更好完成日常巡檢作業(yè)內(nèi)容,防范于未然。圖11 為巡檢管理截圖。
工作臺(tái)功能打造集中化工作管理新模式,集監(jiān)控、告警處置、演練處置、事件處理、服務(wù)受理于一體,支持派發(fā)到下層節(jié)點(diǎn)進(jìn)行工單處理,實(shí)現(xiàn)ITIL 標(biāo)準(zhǔn)化多層事件的閉環(huán)管理,支持多方面統(tǒng)計(jì)考核,有效提升故障監(jiān)控處理效率。
U 位條自動(dòng)管理功能實(shí)現(xiàn)對(duì)機(jī)房?jī)?nèi)機(jī)架設(shè)備及其所有U 位進(jìn)行自動(dòng)管理。對(duì)未經(jīng)授權(quán)的資產(chǎn)遷移,系統(tǒng)可產(chǎn)生報(bào)警,不用擔(dān)心服務(wù)器亂擺亂放。系統(tǒng)實(shí)現(xiàn)對(duì)資產(chǎn)的全生命周期進(jìn)行管理,包括出入庫(kù)、上下架、維修、位置變動(dòng)、報(bào)廢回庫(kù)等。
監(jiān)控管理功能實(shí)現(xiàn)對(duì)基礎(chǔ)設(shè)施、網(wǎng)絡(luò)服務(wù)、資源容量信息等多層次多方面的監(jiān)控,部分實(shí)現(xiàn)了告警智能收斂規(guī)則管理,有效在突發(fā)故障或?qū)⒁收锨斑M(jìn)行告警并提醒處置,主動(dòng)出擊,將故障扼殺在萌芽階段。
整體平臺(tái)構(gòu)建了智能巡檢、智能排班、電子化演練、維護(hù)管理、上電管理等全數(shù)字化運(yùn)維功能,結(jié)合實(shí)時(shí)監(jiān)控、風(fēng)險(xiǎn)管理,實(shí)現(xiàn)全數(shù)據(jù)中心運(yùn)維數(shù)字化、智能化,縮減人力,提升運(yùn)維效率和整體運(yùn)維質(zhì)量。
圖7 監(jiān)控管理截圖
圖8 上下架及U 位管理?xiàng)l管理截圖
客戶管理功能對(duì)租戶所租用的資源使用情況進(jìn)行分析,基于客戶的使用機(jī)架、帶寬流量、設(shè)備用電量等,形成價(jià)值客戶象限圖,將客戶價(jià)值量化,實(shí)現(xiàn)客戶價(jià)值分析,助力業(yè)務(wù)發(fā)展;電力成本核算功能結(jié)合當(dāng)前電價(jià)計(jì)費(fèi)策略,核算出相應(yīng)客戶的單機(jī)架用電成本,并按月生成對(duì)應(yīng)客戶逇能耗成本核算報(bào)告,為數(shù)據(jù)中心的建設(shè)及銷售營(yíng)銷拓展提供經(jīng)營(yíng)決策的數(shù)據(jù)支撐手段。
本系統(tǒng)通過日常巡檢、維保、告警等相關(guān)事件,對(duì)數(shù)據(jù)中心的風(fēng)險(xiǎn)項(xiàng)沉淀積累,實(shí)現(xiàn)風(fēng)險(xiǎn)分級(jí)管理,通過審核-處置-確認(rèn)-入庫(kù)的閉環(huán)管理模式,實(shí)現(xiàn)風(fēng)險(xiǎn)預(yù)防。
本系統(tǒng)通過人工智能算法構(gòu)建了用于預(yù)測(cè)數(shù)據(jù)中心PUE 的神經(jīng)網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)使數(shù)據(jù)中心的PUE 得到不斷降低,達(dá)到節(jié)能的最大效果。
4.1.1 防控風(fēng)險(xiǎn)
2018 年底,粵東數(shù)據(jù)中心風(fēng)險(xiǎn)問題處置項(xiàng)共計(jì)21項(xiàng),涉及動(dòng)力、暖通、IT、消防等內(nèi)容。通過平臺(tái)巡檢后將問題沉淀積累,截止2019 年,共計(jì)發(fā)現(xiàn)問題記錄共計(jì)65 項(xiàng),跟進(jìn)閉環(huán)管理65 項(xiàng),其中解決56 項(xiàng),因現(xiàn)場(chǎng)原因掛起9 項(xiàng),配備應(yīng)急管理措施和臨時(shí)解決方案,中高風(fēng)險(xiǎn)0 項(xiàng),對(duì)數(shù)據(jù)中心整體風(fēng)險(xiǎn)隱患問題處置達(dá)到100%閉環(huán)跟進(jìn),確保數(shù)據(jù)中心的穩(wěn)定運(yùn)行。
圖9 風(fēng)險(xiǎn)管理截圖
圖10 能效管理截圖
4.1.2 提升機(jī)架利用率
截止2018 年底,粵東IDC 共計(jì)機(jī)架數(shù)N 個(gè),已上架機(jī)架數(shù)N 個(gè)。通過U 位精細(xì)化管控和機(jī)架推薦,在散熱允許的情況下,降低了U 位的碎片化情況,使原本人工分配機(jī)架位置通過機(jī)器分配建議來輔助分配決策,釋放將近200 個(gè)機(jī)架資源,在自有配套項(xiàng)目和客戶業(yè)務(wù)增加3 倍的情況下,提升了機(jī)架利用率約20.12%,提供出更多的機(jī)架資源滿足業(yè)務(wù)拓展的需要。
4.1.3 節(jié)約人力
2018 年,駐點(diǎn)運(yùn)維人員為30(動(dòng)力維護(hù)人員)+23(IT 維護(hù)人員),月度運(yùn)維人力成本約為60.09 萬(wàn)元。通過DCIM 平臺(tái),將專業(yè)經(jīng)驗(yàn)固化為數(shù)據(jù)沉淀,通過定位演練、實(shí)地巡檢,減少了抄表、對(duì)照等繁雜耗時(shí)操作,讓人力投入到實(shí)際關(guān)注的容易出現(xiàn)風(fēng)險(xiǎn)的巡檢點(diǎn)上。至2019 年底,運(yùn)維人員縮減為15(動(dòng)力維護(hù)人員)+20(IT維護(hù)人員),月度運(yùn)維人力成本約為37.83 萬(wàn)元,縮減成本22.26 萬(wàn),減少人數(shù)18 人,減少人力成本約37%。
4.1.4 降低PUE
粵東數(shù)據(jù)中心未上線系統(tǒng)前,投產(chǎn)共計(jì)N個(gè)機(jī)架,估計(jì)PUE 為1.8,即總能耗/IT 設(shè)備能耗為1.8,按照2018 年月用電量為165.46 萬(wàn)度,共計(jì)月電費(fèi)175.91 萬(wàn)元。通過使用該系統(tǒng)降低PUE 達(dá)2%以上,即PUE 達(dá)到1.76,2019 年客戶業(yè)務(wù)量是去年的1.56 倍,月均用電量為238.96 萬(wàn)度,月均電費(fèi)為213.59 萬(wàn)元,以類比情況下,平均約減少了7.42%用電量,降低了機(jī)柜成本,提升利潤(rùn)空間。
4.2.1 精細(xì)管理,各個(gè)環(huán)節(jié)質(zhì)量可控
通過RFID 標(biāo)簽,利用工單系統(tǒng),將巡檢、故障、維護(hù)等處理進(jìn)行全流程記錄,掌控每個(gè)環(huán)節(jié)的時(shí)間,縮小一些懈怠人員的可乘之機(jī),避免取證的麻煩,做到每個(gè)環(huán)節(jié)可監(jiān)控,細(xì)化管理,提升整體人員的工作水平。
4.2.2 閉環(huán)服務(wù),提升處理效率和服務(wù)水平
所有面向客戶的工作,均面向客戶進(jìn)行滿意度調(diào)查,形成閉環(huán)管控,客戶對(duì)自己發(fā)起的任務(wù)均有跡可查,有效提升客戶感知。同時(shí)滿意度落到每個(gè)人的考核內(nèi),促進(jìn)人員提升自己的工作效率和服務(wù)水平,預(yù)計(jì)提升客戶滿意度2~3 個(gè)百分點(diǎn)。
4.2.3 防控風(fēng)險(xiǎn),保障業(yè)務(wù)平穩(wěn)高速發(fā)展
網(wǎng)絡(luò)配置通過流程式的管理,和定期差異比對(duì)反饋,從源頭防控業(yè)務(wù)偷開的風(fēng)險(xiǎn),對(duì)應(yīng)信息通過RFID標(biāo)簽直觀展現(xiàn),精準(zhǔn)定位問題,做到可控可防制,滿足相關(guān)法規(guī)對(duì)業(yè)務(wù)規(guī)范上的管理要求。將業(yè)務(wù)風(fēng)險(xiǎn)控制到最低。
4.2.4 節(jié)約人力,擁抱智能運(yùn)維
利用機(jī)器完成力所能及的作業(yè),如報(bào)告統(tǒng)計(jì)生成,自動(dòng)測(cè)試等,替代較機(jī)械性工作,預(yù)計(jì)每個(gè)數(shù)據(jù)中心可釋放人力2~3 人,更好投入到其他運(yùn)維工作中。
4.2.5 AI 決策,助力云計(jì)算業(yè)務(wù)拓展
融入人工智能和機(jī)器學(xué)習(xí)的方式,在推薦機(jī)架布局時(shí)利用特定算法,綜合各類型數(shù)據(jù)進(jìn)行分析,提供最佳決策,輔助售前支撐的條件評(píng)估;同時(shí)結(jié)合維護(hù)作業(yè),分析相關(guān)設(shè)備維護(hù)度,提供維護(hù)建議,做到主動(dòng)發(fā)現(xiàn),主動(dòng)監(jiān)控,主動(dòng)處理,防范于未然。
圖11 巡檢管理截圖
計(jì)劃于2020 年起,在中國(guó)移動(dòng)“4+45”數(shù)據(jù)中心園區(qū)中試點(diǎn)應(yīng)用。通過試點(diǎn)后,在集團(tuán)范圍內(nèi)或向第三方推廣。預(yù)期將會(huì)節(jié)省5~7 個(gè)人力/數(shù)據(jù)中心,降低PUE1~3%,降低年均用電費(fèi)4~5%。
本文介紹的“基于AI 技術(shù)的新一代DCIM 管理系統(tǒng)”是2019 年中國(guó)移動(dòng)通信集團(tuán)廣東公司在汕頭部署的創(chuàng)新項(xiàng)目,項(xiàng)目通過在中國(guó)移動(dòng)通信集團(tuán)(廣東、汕頭)數(shù)據(jù)中心部署云存儲(chǔ)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)廣東移動(dòng)多個(gè)數(shù)據(jù)中心風(fēng)、火、水、電、網(wǎng)的集中監(jiān)控,解決目前運(yùn)維管理上存在煙囪運(yùn)維模式的困局,后續(xù)將通過該系統(tǒng)實(shí)現(xiàn)整個(gè)廣東移動(dòng)所有數(shù)據(jù)中心的集中監(jiān)控。