莊坤 王圣榮
國家管網(wǎng)集團東部儲運公司信息中心,積極為國家管網(wǎng)集團高質(zhì)量發(fā)展插好數(shù)智翅膀。
基礎環(huán)境服務可靠度100%,連續(xù)5年零宕機、零停服,B級數(shù)據(jù)中心運行指標達到A級,打造國家管網(wǎng)集團主數(shù)據(jù)中心品牌與能力……
承擔國家管網(wǎng)集團主數(shù)據(jù)中心——徐州數(shù)據(jù)中心的運維工作以來,國家管網(wǎng)集團東部儲運公司信息中心持續(xù)以鐵軍文化建設為引領,以制程標桿示范為標尺,以隊伍建設為核心,以安全運行為根本,為國家管網(wǎng)集團大步伐推進數(shù)字化智能化、搶占創(chuàng)新發(fā)展先機、發(fā)展新質(zhì)生產(chǎn)力做出了貢獻。
強技能 建體系
徐州數(shù)據(jù)中心坐落于東部儲運公司徐州基地南廠區(qū)。3500平方米的機房里,標準機柜上各種信息設備的各色指示燈不停閃爍,不分晝夜地演奏著數(shù)字化轉(zhuǎn)型之曲。
作為國家管網(wǎng)集團主數(shù)據(jù)中心和目前唯一的私有數(shù)據(jù)中心,徐州數(shù)據(jù)中心是國家管網(wǎng)集團華東分控中心的核心機房,也是國家管網(wǎng)集團全部生產(chǎn)類統(tǒng)建系統(tǒng)及各地區(qū)公司自建系統(tǒng)的算力底座,承載了國家管網(wǎng)集團私有云平臺等80余個集團統(tǒng)建系統(tǒng)和企業(yè)應用。
承擔徐州數(shù)據(jù)中心的運維工作,東部儲運公司信息中心深知責任重大。
為保障徐州數(shù)據(jù)中心安全可靠性、節(jié)能與智能化水平達到行業(yè)主流標準前列,東部儲運公司信息中心從人員培養(yǎng)、運維管理體系搭建等方面,打造國家管網(wǎng)集團主數(shù)據(jù)中心團隊品牌與能力。
運維團隊以學促干強本領、凝心聚力提質(zhì)效,不斷加大新設備、新技術培訓力度。白天運維工作任務重,他們就持續(xù)利用夜間時間開展帶班培訓。
保障高壓直流電源正常運行,是運維團隊非常重要的一項工作。在高壓直流電源安裝階段,團隊青年骨干孫亞一全程跟蹤,學安裝學調(diào)試。在初步掌握運維技巧后,他主動要求赴廠家培訓,帶著問題深入學習?;貋砗?,他及時整理編寫了第一版高壓直流電源運維手冊,對運維人員進行二次培訓。
運維團隊組織技術人員完善機房管理規(guī)定,制作機房巡檢路線圖和逃生圖,共編制各類設備操作手冊6套;對數(shù)據(jù)中心設備設施實行預檢預修,嚴格落實春檢和日常維護計劃;推進機房標準化改造,編制完成機房標準化指引;探索建立了涉及設備運維要求、安全管理規(guī)定等適合國家管網(wǎng)集團工作特性的自有數(shù)據(jù)中心運維體系……
多措并舉之下,運維團隊不斷提高標準化、規(guī)范化、專業(yè)化管理水平,為確保徐州數(shù)據(jù)中心100%安全可靠運行奠定了良好基礎。
守網(wǎng)安 強支撐
數(shù)字化背景下,數(shù)據(jù)中心對企業(yè)的生產(chǎn)調(diào)控、辦公系統(tǒng)等至關重要。任何故障都可能讓企業(yè)失去“戰(zhàn)場”控制權(quán),看不到“戰(zhàn)況”。
徐州云平臺是徐州數(shù)據(jù)中心實現(xiàn)零宕機、零停服的重要支撐。云平臺發(fā)生故障,會造成服務中斷,后果不堪設想。堅決落實屬地管理責任,運維團隊做實徐州云平臺合規(guī)部署監(jiān)管,認真審查云平臺各項作業(yè)方案,強化數(shù)據(jù)中心進出入管控。
在國家管網(wǎng)集團各類統(tǒng)建系統(tǒng)的安裝調(diào)試過程中,確?;A環(huán)境安全是運維團隊的重點職責之一。他們做好實施人員進機房前的網(wǎng)絡安全檢查和教育,對使用的相關設備進行篩查,全程旁站監(jiān)督相關操作;在數(shù)據(jù)中心出入口處增加安檢機、安檢門和密碼儲物柜,并由保安人員對所有進出人員進行例行安檢;按照數(shù)據(jù)中心功能區(qū)域劃分和各運維組實際工作執(zhí)行情況,對門禁卡實行權(quán)限分級分類管理……運維團隊全力夯實國家管網(wǎng)集團數(shù)字化戰(zhàn)略的算力基石。
網(wǎng)絡安全是實現(xiàn)數(shù)據(jù)中心可靠度100%的安全屏障。為提高網(wǎng)絡攻擊防御能力,運維團隊中的3人考取了取證率僅30%的網(wǎng)絡安全注冊工程師證書,為筑牢企業(yè)信息安全生命線提供了人才保障。
他們在24小時監(jiān)控值班的同時,模擬服務器宕機、系統(tǒng)被攻擊等事件,開展說崗、崗位練兵等形式的內(nèi)部交流,并積極參與各類網(wǎng)絡攻防演習。
在2023年國家級網(wǎng)絡攻防實戰(zhàn)演習中,運維團隊成功抵御各類攻擊百萬次,實時發(fā)現(xiàn)并阻斷各類攻擊9萬余次。他們做到了在每日超5000次的網(wǎng)絡安全報警中,快速識別出真正攻擊,以分鐘為單位,迅速做出處置。他們以優(yōu)異的表現(xiàn),獲得了國家管網(wǎng)集團的嘉獎。
攻擴容 拓算力
隨著國家管網(wǎng)集團大步伐推進數(shù)字化智能化轉(zhuǎn)型,徐州數(shù)據(jù)中心的規(guī)模持續(xù)擴大。2022年,運維團隊迎來了一項重要任務——配合項目部做好徐州數(shù)據(jù)中心第一期擴容項目施工管理工作。
“這是我參加工作以來的最大挑戰(zhàn)!”東部儲運公司信息中心網(wǎng)絡維護中心主任兼黨支部書記蔡成林回憶說。
項目選用的新型制冷系統(tǒng),相關設備為微模塊,密度小,發(fā)熱量大。如何實現(xiàn)數(shù)據(jù)中心能耗運行指標PUE小于1.3,即服務器每耗電1千瓦時,其他輔助設備耗電量不超過0.3千瓦時,成為擺在運維團隊面前必須攻克的難題。
行業(yè)可借鑒的經(jīng)驗較少。運維團隊通過聯(lián)系廠商實地考察、網(wǎng)上查找資料、參觀行業(yè)內(nèi)其他單位等,最終用時兩個月給出了最佳比選建議并通過了專家評審,使擴容部分每年節(jié)省制冷能耗520余萬千瓦時。
施工過程中,既要保證原有數(shù)據(jù)中心平穩(wěn)運行,又得保證供電系統(tǒng)割接不能發(fā)生一秒中斷。這是運維團隊面對的又一道難關。
他們從項目進場就著手做方案,審視每一個細節(jié),做好風險評估和應急預案。為使項目實施風險最小化,蔡成林利用周末時間,帶領骨干進行了200多個小時的聯(lián)調(diào)聯(lián)試,保證了最后32小時正式供電割接的順利完成。
項目最后的難關是2022年底疫情管控放開后,70人左右的工作團隊中有50多人相繼發(fā)燒病倒。一時間,項目面臨停滯。
為保證項目進度,運維團隊成員癥狀稍減輕就立馬回到施工現(xiàn)場,組織協(xié)調(diào)、倒排工期,以日計劃保證周計劃、周計劃對照總工期,保障進度壓緊可控。與此同時,他們幫助施工方搶時間。最終,落下的進度被一點點搶出來,項目按期投入了運行。
今年,運維團隊將繼續(xù)攻堅徐州數(shù)據(jù)中心第二期擴容項目,助力徐州數(shù)據(jù)中心早日由B級升級為A級。
責任編輯:陸曉如
znluxiaoru@163.com