李程貴,王 瑊,張建雪
(中國移動通信集團內(nèi)蒙古有限公司,內(nèi)蒙古 呼和浩特 010000)
隨著互聯(lián)網(wǎng)+和云計算業(yè)務(wù)需求的飛速增長,數(shù)據(jù)中心的建設(shè)逐漸呈現(xiàn)向超大規(guī)模、高度集中以及綠色節(jié)能的方向發(fā)展。目前,數(shù)據(jù)中心機電工程設(shè)計和土建工程設(shè)計已經(jīng)有了國家標準《數(shù)據(jù)中心設(shè)計規(guī)范》(GB50174—2017)和Uptime Tier國際標準?!稊?shù)據(jù)中心設(shè)計規(guī)范》(GB50174—2017)將機房劃分為A、B、C共3級,級別依次降低。Uptime Tier國際標準將機房劃分為TierⅣ、TierⅢ、TierⅡ、TierⅠ共4級,級別依次降低。一般來說,A級相當于TierⅣ-或TierⅢ+,B級相當于TierⅢ-或TierⅡ+,C級相當于TierⅡ-或TierⅠ+[1-2]。國家標準《數(shù)據(jù)中心設(shè)計規(guī)范》和Uptime Tier國際標準給出了數(shù)據(jù)中心機房的建設(shè)要求,明確要有智能化控制系統(tǒng),但是對數(shù)據(jù)中心智能化控制系統(tǒng)的建設(shè)標準和系統(tǒng)架構(gòu)沒有明確的指導(dǎo),導(dǎo)致機電工程硬件已經(jīng)到達了較高級別,但智能化監(jiān)控系統(tǒng)的建設(shè)卻級別較低,數(shù)據(jù)中心的冷源BA控制系統(tǒng)問題尤為突出。
目前,中國移動(呼和浩特)數(shù)據(jù)中心已經(jīng)建成3棟機房,均為國標A級。圖1是中國移動(呼和浩特)數(shù)據(jù)中心冷源系統(tǒng)示意圖。
從圖1可以看出,數(shù)據(jù)中心的冷源系統(tǒng)裝配了大量配套設(shè)施,包括管路、閥門、冷卻塔、風機、冷水機組、板式換熱器、分集水器、蓄冷罐、冷卻水泵、冷凍水泵、蓄冷泵、水源熱泵、電伴熱、補水泵、排污泵、集水坑及相關(guān)各類傳感器與執(zhí)行機構(gòu)等,組成了3套冷機系統(tǒng)。這些設(shè)施的有效運行和故障監(jiān)控全部依賴數(shù)據(jù)中心的冷源BA控制系統(tǒng)。
BA控制系統(tǒng)作為數(shù)據(jù)中心集中式水冷系統(tǒng)的控制大腦,重要性不言而喻。單套系統(tǒng)承擔著超過1 000個機柜、超過15 000臺服務(wù)器的制冷要求[3]。數(shù)據(jù)中心冷源BA控制系統(tǒng)結(jié)構(gòu)如圖2所示。
本控制系統(tǒng)采用4層網(wǎng)絡(luò)通信結(jié)構(gòu)[4]:第一層為現(xiàn)場采集層,由冷源系統(tǒng)的各硬件組成部分組成,提供監(jiān)測控制點,包括送排風系統(tǒng)、污水坑系統(tǒng)、集成冷水機組、集成蓄冷罐以及集成水源熱泵機組等;第二層為系統(tǒng)接入層,采用DDC(Direct Data Controller)控制器及I/O模塊或網(wǎng)關(guān)連接底層設(shè)備;第三層為系統(tǒng)控制層,控制設(shè)備NAE(Enhanced Network Communication Equipment) 互 聯(lián), 采 用BACNET通信協(xié)議,用于連接控制設(shè)備(DDC及I/O模塊或網(wǎng)關(guān)),并進行邏輯運算和下發(fā)決策控制命令,NAE設(shè)備則通過TCP/IP協(xié)議接入BA智能化監(jiān)控服務(wù)器;第四層為系統(tǒng)顯示層,使用TCP/IP協(xié)議,用于連接系統(tǒng)服務(wù)器、工作站及第三方系統(tǒng)。
圖1 中國移動(呼和浩特)數(shù)據(jù)中心冷源系統(tǒng)示意圖
圖2 數(shù)據(jù)中心冷源BA控制系統(tǒng)結(jié)構(gòu)示意圖
中國移動(呼和浩特)數(shù)據(jù)中心一期工程的DDC、NAE和BA服務(wù)器組網(wǎng)結(jié)構(gòu),如圖3所示。
從圖3可以看出,一棟機房樓包括制冷站的30個DDC控制器串聯(lián)在一條總線上,一旦其中某個DDC設(shè)備接線端子故障或者DDC之間的連接線故障,將導(dǎo)致下端相連的DDC均無法正常工作,進而引發(fā)DDC下端設(shè)備的失控。
圖3 數(shù)據(jù)中心冷源BA控制系統(tǒng)組網(wǎng)示意圖
同時,單體機房樓和制冷站僅配置1臺NAE設(shè)備。當單臺NAE軟件故障、硬件故障或者NAE到上游交換機的鏈路故障或者到DCC方向的總線故障,冷源BA控制系統(tǒng)將無法正常使用,甚至造成制冷系統(tǒng)失控或中斷,存在較大的安全風險。即使此時的冷機系統(tǒng)是2+1保護,供電系統(tǒng)是1+1保護,若BA智能化控制系統(tǒng)處于失控狀態(tài),將無法控制現(xiàn)場制冷站內(nèi)的多臺高壓冷水機組、水源熱泵機組、循環(huán)水泵、冷卻塔以及管路閥門等一系類設(shè)備,即機電配置的A級因智能化監(jiān)控的低等級而無法發(fā)揮設(shè)計時應(yīng)用的保護作用。
數(shù)據(jù)中心冷源自控系統(tǒng)來源于傳統(tǒng)的樓宇自控系統(tǒng)(Building Automation System),針對數(shù)據(jù)中心運行特點,對系統(tǒng)架構(gòu)和控制邏輯進行了深度的定制化。經(jīng)調(diào)研多個數(shù)據(jù)中心發(fā)現(xiàn),冷源系統(tǒng)機電硬件建設(shè)是A級或者TierⅢ+,而智能化監(jiān)控智能層級僅僅是B級或者TierⅡ甚至更低,導(dǎo)致監(jiān)控故障頻發(fā)。而大型數(shù)據(jù)中心通常采用集中制冷系統(tǒng),一旦集中制冷系統(tǒng)出現(xiàn)問題沒有被及時發(fā)現(xiàn)和及時處理,將造成整個數(shù)據(jù)中心高溫宕機。數(shù)據(jù)中心的冷源BA控制系統(tǒng)管理的大量制冷設(shè)備啟停、閥門切換、模式切換以及故障應(yīng)急切換等,一旦BA控制系統(tǒng)故障或者癱瘓,將不能有效、及時地發(fā)現(xiàn)現(xiàn)有機電硬件的各類故障,從而可能導(dǎo)致大故障發(fā)生。
分析近年數(shù)據(jù)中心故障情況,智能化BA控制系統(tǒng)的層級不匹配對數(shù)據(jù)中心的穩(wěn)定運行構(gòu)成了隱患,存在的主要問題可概括為以下3個方面。
用SPSS 20.0統(tǒng)計學軟件分析研究數(shù)據(jù),t用于檢驗計量資料,即(±s),x2用于檢驗計數(shù)資料,即[n(%)],P<0.05差異有統(tǒng)計學意義。
目前,A級數(shù)據(jù)中心的冷源系統(tǒng)從市電配置、變配電配置、冷機、循環(huán)水泵以及管路等配置方面均要求有備份保護[5],但為其建設(shè)的冷源BA控制系統(tǒng)沒有要求,所以目前的建設(shè)方案中存在大量的單點隱患問題,如單串行總線、單控制器以及電閥門單DO(Direct Output)控制等。當一棟機房的串行監(jiān)控總線有一點故障時,將導(dǎo)致大量制冷設(shè)備失控;當BA系統(tǒng)單控制器故障時,群控系統(tǒng)同樣會失控。
BA控制系統(tǒng)測點到DDC控制器、NAE或者網(wǎng)關(guān)到服務(wù)器,往往是單條鏈路。當鏈路中的網(wǎng)線、交換機、路由器、尾纖以及光纖有任何一處故障,甚至電磁干擾大、光纖衰耗大等,都會造成智能化監(jiān)控系統(tǒng)斷鏈。據(jù)不完全統(tǒng)計,一套監(jiān)控系統(tǒng)有上千個故障點或者場景能夠?qū)е轮悄芑O(jiān)控系統(tǒng)斷鏈退服。
數(shù)據(jù)中心機電配置規(guī)范基本形成,明確了各類機電設(shè)備的保護要求和方案。但是,冷源BA控制系統(tǒng)目前沒有有效的、明確的方案,僅能發(fā)現(xiàn)一處故障及時處理一處來盡可能減少故障時長。但是,有些故障定位難度大、故障時間長,有些故障需要更換備件,而備件采購周期長,造成了一段時間的監(jiān)控盲點。
綜上,迫切需要一種大型數(shù)據(jù)中心高可靠性冷源BA控制系統(tǒng)架構(gòu)指導(dǎo)數(shù)據(jù)中心BA控制系統(tǒng)的建設(shè)。本文以A級數(shù)據(jù)中心為研究對象,提出一種大型數(shù)據(jù)中心高可靠性冷源BA控制系統(tǒng)優(yōu)化方法,建議數(shù)據(jù)中心進行機電設(shè)計時同步設(shè)計與機電保護級別一致的高可靠性冷源BA控制系統(tǒng),包括高可靠性冷源BA控制系統(tǒng)架構(gòu)、BA控制系統(tǒng)設(shè)備供電可靠性優(yōu)化和BA控制系統(tǒng)網(wǎng)絡(luò)保護優(yōu)化。國標A級大型數(shù)據(jù)中心機電設(shè)施按容錯系統(tǒng)配置,同樣A級數(shù)據(jù)中心的冷源BA控制系統(tǒng)也應(yīng)該按照容錯系統(tǒng)配置,以保證冷源系統(tǒng)在運行期間不因單次設(shè)備故障、外電源中斷、維護和檢修導(dǎo)致電子信息系統(tǒng)運行中斷,從而為國標A級大型數(shù)據(jù)中心冷源BA控制系統(tǒng)設(shè)計或者改造提供參考。
以中國移動(呼和浩特)數(shù)據(jù)中心一期工程為例,高可靠性冷源BA控制系統(tǒng)優(yōu)化方法的具體實現(xiàn)過程包括以下3個方面。
以中國移動(呼和浩特)數(shù)據(jù)中心的集中制冷系統(tǒng)為例,每棟機房配置了N+M(B01/B02/B03機房是2+1)保護的冷機系統(tǒng)。每套冷機系統(tǒng)保護高壓冷水機組、循環(huán)冷卻水泵、循環(huán)冷凍水泵、冷卻塔、板式換熱器和管路閥門等一系類設(shè)備。這些設(shè)備必須都正??煽兀@套制冷系統(tǒng)才能協(xié)調(diào)一致地正常工作。若這些設(shè)備分散由不同的NAE控制,或者一臺NAE控制多套冷機系統(tǒng)組件,那么一臺NAE故障時,多套冷機系統(tǒng)不能運行。同樣,一臺NAE控制3套制冷系統(tǒng)的不同部件時,一旦該NAE設(shè)備故障,則3套制冷系統(tǒng)均無法正常工作,從而導(dǎo)致制冷站冷源中斷,機房高溫宕機。因此,每套系統(tǒng)的各個組件都應(yīng)該由一臺NAE控制,N+M套制冷系統(tǒng)應(yīng)配置N+M臺NAE控制設(shè)備。中國移動(呼和浩特)數(shù)據(jù)中心每個樓的2+1保護的冷機系統(tǒng)需要配置3臺NAE,同時將原來的1條總線結(jié)構(gòu)變更為4條總線結(jié)構(gòu),第4條是機房的各類消防排風機和新風風機等。任意某臺NAE故障時機房的制冷系統(tǒng)還有2套可用,能夠保障數(shù)據(jù)中心的穩(wěn)定運行。優(yōu)化后的數(shù)據(jù)中心高可靠性系統(tǒng)示意圖,如圖4所示。
從圖4可以看出,高可靠性BA智能化監(jiān)控系統(tǒng)把制冷站和機房的各個DDC進行分類,將控制同一套系統(tǒng)的一組DDC串接在一條總線上由一臺NAE控制,以保障監(jiān)控的保護級別和機電配置的保護級別一致。
控制系統(tǒng)服務(wù)器通常只有一路UPS保障供電,存在單點隱患,可靠性不足。如遇供電中斷,將導(dǎo)致整個制冷系統(tǒng)癱瘓。設(shè)備DDC沒有UPS保障供電,如遇市電停電,管路閥門及控制系統(tǒng)均無法正常工作,也無法對下端設(shè)備發(fā)出任何指令。停電后管路閥門停止,再次來電時閥門需要先關(guān)閉再打開。如果DDC掉電而管路閥門有電時,管路閥門將直接關(guān)閉,導(dǎo)致冷凍水或者冷卻水水流中斷,存在較大隱患。
所以,冷源系統(tǒng)的冷水機組控制電源、電動閥門、DDC以及NAE等重要設(shè)備負荷均需要接入UPS,防止控制電源在市電供電一旦中斷,冷機啟動所需時間延長,制冷系統(tǒng)停止運行,造成機房高溫。圖5為數(shù)據(jù)中心BA系統(tǒng)DDC供電示意圖。
本文提出將現(xiàn)有冷源系統(tǒng)的冷水機組控制電源、電動閥門、DDC以及NAE等重要設(shè)備負荷均接入UPS不間斷電源,將單電源設(shè)備接入由2臺UPS組成的“1+1”UPS并機系統(tǒng),將雙電源設(shè)備接入由2臺UPS形成2N甚至3N的UPS保護系統(tǒng),以提高冷源系統(tǒng)相關(guān)控制組件的供電可靠性,如圖6所示。
通常,冷源BA控制系統(tǒng)現(xiàn)網(wǎng)中DDC控制器-NAE控制設(shè)備的網(wǎng)絡(luò)連接,NAE控制設(shè)備-BA控制系統(tǒng)服務(wù)器的網(wǎng)絡(luò)連接,BA控制系統(tǒng)服務(wù)器-監(jiān)控中心網(wǎng)絡(luò)物理單鏈路連接,同時BA服務(wù)器到數(shù)據(jù)中心綜合管理平臺也是物理單鏈路連接,網(wǎng)絡(luò)安全存在巨大隱患。即使上述穩(wěn)定性提高了,但是冷源BA控制系統(tǒng)網(wǎng)絡(luò)如果存在隱患,整套冷源BA控制系統(tǒng)的可靠性還是難以保障,為此本提案提出了對冷源BA控制系統(tǒng)網(wǎng)絡(luò)保護優(yōu)化。
現(xiàn)網(wǎng)中采用單個10GE端口對接,存在安全性低和帶寬不足問題。本提案提出采用鏈路聚合、設(shè)備主備冗余或者設(shè)備負載分擔等方式,在兩個匯聚或者核心的設(shè)備之間加強鏈路的健壯性。鏈路聚合、設(shè)備主備冗余或者設(shè)備負載分擔的物理鏈路要求是物理不同路由,即不同的敷設(shè)方式、不同光纜以及不同波分系統(tǒng)等,避免存在單點隱患。
一種大型數(shù)據(jù)中心高可靠性冷源BA控制系統(tǒng)優(yōu)化方法,在中國移動(呼和浩特)數(shù)據(jù)中心應(yīng)用后,對現(xiàn)有冷源BA控制系統(tǒng)架構(gòu)進行了優(yōu)化改造,實現(xiàn)流程如圖7所示。
圖4 數(shù)據(jù)中心高可靠性BA智能化監(jiān)控系統(tǒng)示意圖
圖5 數(shù)據(jù)中心BA系統(tǒng)DDC供電示意圖
圖6 數(shù)據(jù)中心高可靠性BA系統(tǒng)DDC供電示意圖
圖7 數(shù)據(jù)中心冷源BA控制系統(tǒng)優(yōu)化流程圖
優(yōu)化改造后進行全量驗證。模擬某制冷組故障,系統(tǒng)是否自動切換至下一組,直至切換到可用的制冷組。制造NAE故障、DDC故障、單鏈路網(wǎng)絡(luò)故障以及雙路市電斷電場景,驗證群控系統(tǒng)是否正常,釋冷泵是否正常啟動。制造冷機群控系統(tǒng)斷電場景,驗證系統(tǒng)閥門管路是否能夠狀態(tài)保持。結(jié)果表明,冷源系統(tǒng)穩(wěn)定性大大提高,方案滿足預(yù)期要求。
本文提出了高可靠性的智能化監(jiān)控架構(gòu)理念,數(shù)據(jù)中心進行機電設(shè)計時要同步設(shè)計與機電保護級別一致的高可靠性冷源BA控制系統(tǒng),提升網(wǎng)絡(luò)安全性。為從規(guī)劃設(shè)計源頭打造低成本、高效率的數(shù)據(jù)中心,數(shù)據(jù)中心將該方案的要點及時提交集團設(shè)計院,經(jīng)評審多個要點由集團設(shè)計院寫入《中國移動數(shù)據(jù)中心機電工程建設(shè)指導(dǎo)意見V3.0》,用于指導(dǎo)數(shù)據(jù)中心存量機房機電工程的擴容、新建,同時為同行業(yè)國標A級大型數(shù)據(jù)中心冷源BA控制系統(tǒng)設(shè)計或者改造提供參考,具有一定的指導(dǎo)作用和實踐推廣價值。