中國(guó)農(nóng)業(yè)銀行數(shù)據(jù)中心 秦冰月 鄭匡慶 閆 濤 楊 欣 楊 帆 潘蘭娜 原洪濤 程戈亮
保持計(jì)算機(jī)設(shè)備安全穩(wěn)定運(yùn)行對(duì)數(shù)據(jù)中心至關(guān)重要,美國(guó)數(shù)據(jù)中心電力中斷調(diào)研報(bào)告顯示,在所有引起服務(wù)器宕機(jī)的原因中,由于冷卻系統(tǒng)失效造成的宕機(jī)占33%,并且有逐年增長(zhǎng)的趨勢(shì)[1]。
造成數(shù)據(jù)中心冷卻系統(tǒng)失效的一個(gè)主要原因是無(wú)計(jì)劃停電[2]。停電后機(jī)房計(jì)算機(jī)設(shè)備由不間斷電源UPS供電而保持運(yùn)行,計(jì)算機(jī)設(shè)備持續(xù)發(fā)熱;而空調(diào)系統(tǒng)雖然有柴油發(fā)電機(jī)作為后備電源,但柴油發(fā)電機(jī)啟動(dòng)需要時(shí)間,因此停電后空調(diào)系統(tǒng)會(huì)失效一段時(shí)間。此時(shí)機(jī)房溫度驟然升高,直至計(jì)算機(jī)設(shè)備達(dá)到極限溫度發(fā)生宕機(jī)。因此研究空調(diào)系統(tǒng)失效時(shí)機(jī)房溫度的變化及計(jì)算機(jī)設(shè)備的宕機(jī)時(shí)間(這個(gè)時(shí)間直接關(guān)系到空調(diào)系統(tǒng)可用性和連續(xù)性冷卻問(wèn)題,涉及柴油發(fā)電機(jī)啟動(dòng)時(shí)間及電源后備時(shí)間長(zhǎng)短等問(wèn)題),對(duì)數(shù)據(jù)中心系統(tǒng)設(shè)計(jì)及后期運(yùn)維應(yīng)急工作具有非常重要的意義。
造成冷卻系統(tǒng)失效的另一個(gè)原因是多臺(tái)空調(diào)同時(shí)故障導(dǎo)致機(jī)房冷量不足。目前數(shù)據(jù)中心大多采用多臺(tái)空調(diào)冗余配置、備機(jī)輪巡的運(yùn)行方案。單臺(tái)冷卻失效時(shí),備用空調(diào)會(huì)開(kāi)啟用以保證計(jì)算機(jī)設(shè)備的冷量需求。若某一機(jī)房發(fā)生多臺(tái)空調(diào)同時(shí)失效,空調(diào)系統(tǒng)將無(wú)法滿足所有設(shè)備負(fù)載,這種情況發(fā)生的概率極小,但也屬于空調(diào)系統(tǒng)失效的研究范疇。了解此工況下計(jì)算機(jī)設(shè)備的宕機(jī)時(shí)間,對(duì)于數(shù)據(jù)中心運(yùn)維人員制定冷卻失效應(yīng)對(duì)方案至關(guān)重要。
傅烈虎通過(guò)研究數(shù)據(jù)中心冷卻失效引起溫升的速率與機(jī)柜功率密度的關(guān)系得出:功率密度小于10 kW/機(jī)柜時(shí),數(shù)據(jù)中心冷卻失效后,溫升速率與功率密度基本呈線性關(guān)系;機(jī)柜功率密度大于10 kW/機(jī)柜時(shí),溫升速率與功率密度呈二次多項(xiàng)式關(guān)系[2]。在不同的功率密度下,服務(wù)器機(jī)柜平均進(jìn)風(fēng)溫度的溫升速度不同;功率密度越大,服務(wù)器機(jī)柜平均進(jìn)風(fēng)溫度升高得越快[3]。
機(jī)房溫升與很多因素有關(guān),拋開(kāi)機(jī)房本身建筑結(jié)構(gòu)與機(jī)房功率密度外,還包括機(jī)柜通道是否封閉、空調(diào)冷卻失效臺(tái)數(shù)、空調(diào)設(shè)定溫度、空調(diào)冷卻失效部件(壓縮機(jī)、風(fēng)機(jī))等多因素,本文根據(jù)上述因素劃定多種冷卻失效場(chǎng)景,利用CFD模擬各類場(chǎng)景冷卻系統(tǒng)失效后機(jī)房溫升情況。
本文采用6sigmaRoom仿真模擬軟件進(jìn)行CFD仿真,它是由Future Facilities公司開(kāi)發(fā)的專用于數(shù)據(jù)中心CFD仿真分析的軟件。在建模方面,它具有各類數(shù)據(jù)中心專用模型庫(kù),空調(diào)、機(jī)柜、計(jì)算機(jī)設(shè)備等模型庫(kù)完備。仿真時(shí)只需從設(shè)備庫(kù)中挑選所需設(shè)備拖入計(jì)算域內(nèi),即可完成該模型的建立。大大降低了建模難度,縮短了計(jì)算周期。在劃分網(wǎng)格方面,6sigmaRoom按照設(shè)備類型,對(duì)計(jì)算域內(nèi)的網(wǎng)格進(jìn)行智能劃分,節(jié)省大量的網(wǎng)格劃分時(shí)間,劃分后的網(wǎng)格質(zhì)量較高,滿足計(jì)算要求。
計(jì)算機(jī)設(shè)備極限溫度是指設(shè)備能維持正常工作狀態(tài)的最高環(huán)境溫度,超過(guò)該溫度計(jì)算機(jī)設(shè)備CPU性能將下降甚至出現(xiàn)宕機(jī)的危險(xiǎn)。ASHRAE中A3、A4類設(shè)備環(huán)境溫度要求分別為5~40 ℃和5~45 ℃。數(shù)據(jù)中心的服務(wù)器、存儲(chǔ)器品牌型號(hào)眾多,工作溫度范圍也各不相同,表1給出了數(shù)據(jù)中心某品牌不同型號(hào)設(shè)備的工作溫度范圍。
表1 數(shù)據(jù)中心某品牌計(jì)算機(jī)設(shè)備工作溫度 ℃
雖然不同計(jì)算機(jī)設(shè)備的極限溫度存在差異,但主要集中在40~45 ℃,再結(jié)合ASHRAE TC9.9[4]中規(guī)定設(shè)備進(jìn)口最大允許溫度為32 ℃,因此本文在模擬冷卻失效場(chǎng)景時(shí)取32、40、45 ℃進(jìn)行不同場(chǎng)景的橫向?qū)Ρ?,記錄機(jī)房冷卻失效時(shí)計(jì)算機(jī)設(shè)備進(jìn)風(fēng)溫度達(dá)到32、40、45 ℃的時(shí)間。
本文研究模擬7種常見(jiàn)冷卻失效場(chǎng)景,如表2所示;模擬取室外極端溫度40 ℃的夏季工況,場(chǎng)景1、2、4~6模擬因數(shù)據(jù)中心電力中斷導(dǎo)致某一機(jī)房精密空調(diào)19臺(tái)全部失效的場(chǎng)景;場(chǎng)景3模擬因室外機(jī)局部溫度過(guò)高觸發(fā)空調(diào)壓縮機(jī)停機(jī)失效、室內(nèi)風(fēng)機(jī)仍運(yùn)行的冷卻失效場(chǎng)景;場(chǎng)景7模擬多臺(tái)空調(diào)同時(shí)失效(10臺(tái)空調(diào)故障)場(chǎng)景。冷卻失效模擬計(jì)算包括2個(gè)步驟:首先是失效前對(duì)機(jī)房熱環(huán)境進(jìn)行仿真,這是一個(gè)穩(wěn)態(tài)計(jì)算結(jié)果,機(jī)房環(huán)境各點(diǎn)溫度不會(huì)隨時(shí)間發(fā)生改變。然后在此結(jié)果基礎(chǔ)上進(jìn)行不同場(chǎng)景冷卻失效計(jì)算,這是一個(gè)瞬態(tài)計(jì)算過(guò)程,機(jī)房?jī)?nèi)各點(diǎn)溫度將隨時(shí)間發(fā)生改變,設(shè)定每10 s監(jiān)測(cè)1次數(shù)據(jù),當(dāng)計(jì)算機(jī)設(shè)備的最高進(jìn)風(fēng)溫度達(dá)到45 ℃時(shí)計(jì)算終止。通過(guò)比較計(jì)算機(jī)設(shè)備達(dá)到極限溫度的時(shí)間,評(píng)估不同場(chǎng)景應(yīng)對(duì)冷卻失效風(fēng)險(xiǎn)的能力。
場(chǎng)景1、場(chǎng)景2與場(chǎng)景6研究機(jī)柜開(kāi)放通道、機(jī)柜封閉冷通道與機(jī)柜封閉熱通道的機(jī)房冷卻失效影響對(duì)比。
場(chǎng)景2與場(chǎng)景3均為機(jī)柜冷通道封閉,區(qū)別是冷卻失效時(shí),場(chǎng)景2空調(diào)壓縮機(jī)、風(fēng)機(jī)均失效,場(chǎng)景3空調(diào)壓縮機(jī)失效,風(fēng)機(jī)仍運(yùn)行。空調(diào)實(shí)際運(yùn)行時(shí)會(huì)出現(xiàn)此類狀況,即當(dāng)夏季極端高溫天氣或空調(diào)室外機(jī)布局較密集時(shí),室外機(jī)局部溫度過(guò)高,觸發(fā)壓縮機(jī)跳機(jī)、停機(jī)從而導(dǎo)致機(jī)房冷卻系統(tǒng)失效,而此時(shí)空調(diào)室內(nèi)風(fēng)機(jī)仍保持運(yùn)轉(zhuǎn),維持送風(fēng)狀態(tài)。
場(chǎng)景2、場(chǎng)景4、場(chǎng)景5比較不同空調(diào)回風(fēng)溫度設(shè)定值對(duì)冷卻失效的影響。
場(chǎng)景7研究多臺(tái)空調(diào)同時(shí)故障,制冷系統(tǒng)無(wú)法滿足機(jī)房制冷、冷卻失效時(shí)機(jī)房溫升情況。
選取某機(jī)房為研究對(duì)象,建立基準(zhǔn)模型。機(jī)房有11排機(jī)柜,每2排機(jī)柜構(gòu)成一個(gè)通道單元,機(jī)柜間面對(duì)面一側(cè)形成冷通道,背對(duì)背一側(cè)形成熱通道,平均功率密度為3 kW/機(jī)柜。采用高架地板送風(fēng)方式,地板高度0.9 m。機(jī)房共布置19臺(tái)房間級(jí)精密空調(diào),其中北側(cè)空調(diào)間布置11臺(tái),機(jī)房?jī)?nèi)南側(cè)布置8臺(tái),采用14臺(tái)+5臺(tái)運(yùn)行模式,回風(fēng)溫度控制。按照上述7種失效場(chǎng)景分別建立失效前基準(zhǔn)模型,計(jì)算采用K-ε湍流模型,選用軟件默認(rèn)設(shè)置的殘差來(lái)控制求解方程的收斂精度。在基準(zhǔn)模型達(dá)到機(jī)房穩(wěn)態(tài)基礎(chǔ)上,設(shè)定相應(yīng)冷卻失效場(chǎng)景,進(jìn)一步模擬冷卻失效時(shí)機(jī)房溫升情況。數(shù)據(jù)中心機(jī)房CFD模型見(jiàn)圖1。
圖1 數(shù)據(jù)中心機(jī)房CFD模型
通過(guò)在機(jī)房中選取若干點(diǎn)進(jìn)行溫度實(shí)測(cè),并將實(shí)測(cè)結(jié)果與模擬結(jié)果對(duì)比分析,從而驗(yàn)證模擬結(jié)果的真實(shí)可靠性。采用溫度自記儀,測(cè)量精度為±0.5 ℃,記錄不同位置的氣流溫度。在機(jī)房冷通道設(shè)備進(jìn)風(fēng)側(cè)布置12個(gè)測(cè)量點(diǎn)。為更加準(zhǔn)確地驗(yàn)證模擬結(jié)果的可靠性,分別在距離地板0.5、1.0、1.5 m高度進(jìn)行測(cè)量,機(jī)房設(shè)備布局及測(cè)量點(diǎn)位置如圖2所示。位置點(diǎn)的送風(fēng)溫度模擬結(jié)果與實(shí)測(cè)結(jié)果對(duì)比如圖3所示。
圖2 機(jī)房設(shè)備布局圖及溫度測(cè)點(diǎn)位置
圖3 仿真與實(shí)測(cè)對(duì)比
由圖3可知,模擬結(jié)果與實(shí)測(cè)結(jié)果的溫度偏差為1 ℃左右,誤差保持在6%以內(nèi)。鑒于模擬結(jié)果與實(shí)際測(cè)量數(shù)值的變化趨勢(shì)始終保持一致,且誤差在實(shí)驗(yàn)測(cè)量允許范圍之內(nèi),認(rèn)為模型仿真結(jié)果與實(shí)驗(yàn)測(cè)試結(jié)果基本一致,基準(zhǔn)模型采用的模擬設(shè)置正確,此次仿真結(jié)果具有較高的可信度,對(duì)后續(xù)基于此基準(zhǔn)模型的冷卻失效模擬研究及模型參數(shù)的設(shè)置都具有指導(dǎo)意義。
表3顯示了7種不同失效場(chǎng)景的模擬結(jié)果。在冷卻失效場(chǎng)景下,計(jì)算機(jī)設(shè)備進(jìn)口溫度達(dá)到其極限溫度的時(shí)間主要取決于穩(wěn)態(tài)時(shí)計(jì)算機(jī)設(shè)備最高進(jìn)口溫度,并且受不同場(chǎng)景下機(jī)房熱環(huán)境和氣流組織的綜合影響。
表3 7種冷卻失效場(chǎng)景模擬結(jié)果對(duì)比分析 s
場(chǎng)景1、場(chǎng)景2、場(chǎng)景6模擬結(jié)果顯示,計(jì)算機(jī)設(shè)備進(jìn)口溫度達(dá)到45 ℃的時(shí)間:封閉熱通道(740 s)>不封閉通道(600 s)>封閉冷通道(540 s),說(shuō)明在抵抗冷卻失效風(fēng)險(xiǎn)能力方面,依次為封閉機(jī)柜熱通道、不封閉通道、封閉機(jī)柜冷通道。原因是封閉熱通道的機(jī)房回風(fēng)熱氣流更集中,控制相同回風(fēng)溫度時(shí),送風(fēng)溫度偏低(即計(jì)算機(jī)設(shè)備初始進(jìn)口溫度偏低),而不封閉通道機(jī)房存在冷熱氣流混合現(xiàn)象,同樣的回風(fēng)溫度設(shè)定值,其送風(fēng)溫度稍高,而封閉冷通道的機(jī)房由于冷量更集中,同樣負(fù)荷同樣回風(fēng)溫度設(shè)定值下,送風(fēng)溫度三者最高,因此計(jì)算機(jī)設(shè)備達(dá)到極限溫度的時(shí)間最短。用冷池也可解釋此結(jié)果,冷通道封閉的機(jī)房,其冷池區(qū)域?yàn)榈匕逑滤惋L(fēng)靜壓箱和冷通道,冷池面積為三者中最??;熱通道封閉的冷池為除熱通道以外的機(jī)房全部區(qū)域,冷池面積為三者中最大;不封閉通道沒(méi)有明顯的冷池區(qū)域,其冷池面積介于兩者之間。圖4顯示了封閉熱通道、不封閉通道、封閉冷通道的溫升對(duì)比。
圖4 封閉熱通道、不封閉通道、封閉冷通道溫升對(duì)比
場(chǎng)景2與場(chǎng)景3對(duì)比:同樣是封閉機(jī)柜冷通道,在壓縮機(jī)失效而風(fēng)機(jī)運(yùn)行場(chǎng)景下,計(jì)算機(jī)設(shè)備達(dá)到極限溫度45 ℃的時(shí)長(zhǎng)(1 300 s)遠(yuǎn)大于在壓縮機(jī)風(fēng)機(jī)均失效場(chǎng)景下的時(shí)長(zhǎng)(540 s),風(fēng)機(jī)運(yùn)行相較于風(fēng)機(jī)失效可多抵御冷卻失效風(fēng)險(xiǎn)近13 min??照{(diào)系統(tǒng)雖壓縮機(jī)失效無(wú)法制冷,但風(fēng)機(jī)連續(xù)運(yùn)行,計(jì)算機(jī)設(shè)備能夠充分利用地板下的剩余冷風(fēng)進(jìn)行散熱,而壓縮機(jī)、風(fēng)機(jī)均失效的場(chǎng)景,計(jì)算機(jī)設(shè)備利用的地板下剩余冷風(fēng)有限,因此前者抵抗失效風(fēng)險(xiǎn)能力強(qiáng),后者溫升較快。僅壓縮機(jī)失效與壓縮機(jī)、風(fēng)機(jī)均失效時(shí)的溫升對(duì)比如圖5所示。
圖5 僅壓縮機(jī)失效與壓縮機(jī)、風(fēng)機(jī)均失效時(shí)的溫升對(duì)比
在機(jī)房滿負(fù)載運(yùn)行時(shí),冷通道封閉且精密空調(diào)壓縮機(jī)、風(fēng)機(jī)均失效的極端情況下,機(jī)柜進(jìn)風(fēng)溫度分布如圖6所示。
圖6 失效后機(jī)柜進(jìn)風(fēng)溫度分布(場(chǎng)景2)
場(chǎng)景2、場(chǎng)景4、場(chǎng)景5對(duì)比:如圖7所示,3種空調(diào)回風(fēng)溫度設(shè)定值下計(jì)算機(jī)設(shè)備溫升趨勢(shì)相同,溫升速率與回風(fēng)溫度設(shè)定值基本無(wú)關(guān),但由于回風(fēng)溫度設(shè)定值為25 ℃時(shí),機(jī)房初始進(jìn)口溫度更低,當(dāng)冷卻系統(tǒng)失效后計(jì)算機(jī)設(shè)備達(dá)到極限溫度的速度更緩慢。因此,回風(fēng)溫度設(shè)定值越低,抵御冷卻失效風(fēng)險(xiǎn)的能力越強(qiáng)。
圖7 空調(diào)在不同回風(fēng)溫度設(shè)定值下失效機(jī)房溫升對(duì)比
場(chǎng)景7中機(jī)房達(dá)到計(jì)算機(jī)極限溫度45 ℃的時(shí)間為820 s(約13 min),如果是由于空調(diào)壓縮機(jī)故障、室內(nèi)風(fēng)機(jī)故障亦或動(dòng)力配電柜故障等重大故障引起的多臺(tái)空調(diào)冷卻失效,在實(shí)際運(yùn)維中13 min內(nèi)無(wú)法徹底解決多臺(tái)空調(diào)故障、恢復(fù)空調(diào)運(yùn)行,因此在實(shí)際運(yùn)維中,需及時(shí)處理單點(diǎn)故障,盡量避免多臺(tái)空調(diào)冷卻失效情況,并認(rèn)真做好空調(diào)系統(tǒng)的定期檢查工作,采用定期備機(jī)輪巡機(jī)制而避免固定幾臺(tái)空調(diào)經(jīng)常使用和固定幾臺(tái)空調(diào)長(zhǎng)期處于備機(jī)狀態(tài)。
1) 對(duì)于中低密度機(jī)房來(lái)說(shuō),在承擔(dān)冷卻失效風(fēng)險(xiǎn)的能力方面:
① 熱通道封閉機(jī)房強(qiáng)于不封閉冷通道機(jī)房,冷通道封閉機(jī)房最差。對(duì)于本文模擬的某機(jī)房,在冷卻系統(tǒng)失效后,設(shè)備達(dá)到極限溫度的時(shí)間三者差距都在3 min以內(nèi)。采用封閉熱通道方式不僅節(jié)能,而且有較好的抵御空調(diào)失效的風(fēng)險(xiǎn),但它對(duì)機(jī)房的空間要求高,改造難度大;采用封閉冷通道方式改造方便且節(jié)能,但抵御空調(diào)失效能力弱;開(kāi)放式通道抵御空調(diào)失效的能力介于兩者之間,但不利于節(jié)能。因此應(yīng)充分考慮節(jié)能、運(yùn)維風(fēng)險(xiǎn)、施工難度等因素選取通道封閉方式。
② 空調(diào)僅壓縮機(jī)失效強(qiáng)于空調(diào)壓縮機(jī)、風(fēng)機(jī)均失效,風(fēng)機(jī)運(yùn)行相較于風(fēng)機(jī)失效而言,計(jì)算機(jī)設(shè)備能夠充分利用地板下的剩余冷風(fēng)進(jìn)行散熱,前者較后者可多抵御冷卻失效風(fēng)險(xiǎn)近13 min。
③ 回風(fēng)溫度設(shè)定值的升高雖然有利于節(jié)能,但一旦空調(diào)系統(tǒng)失效,會(huì)承擔(dān)更高的風(fēng)險(xiǎn)。因此應(yīng)對(duì)機(jī)房節(jié)能及運(yùn)維風(fēng)險(xiǎn)進(jìn)行綜合考慮,根據(jù)機(jī)房設(shè)備布局、空調(diào)系統(tǒng)制冷能力等情況,因地制宜設(shè)定合理的回風(fēng)溫度。
2) 本文研究的7種場(chǎng)景達(dá)到設(shè)備極限溫度的時(shí)間都長(zhǎng)于6 min,在這個(gè)時(shí)間段內(nèi)數(shù)據(jù)中心的柴油發(fā)電機(jī)系統(tǒng)及其后級(jí)負(fù)載設(shè)備可以全部啟動(dòng),但多臺(tái)空調(diào)故障無(wú)法全部處理,因此對(duì)于無(wú)計(jì)劃停電的冷卻失效風(fēng)險(xiǎn)在安全可控范圍;而對(duì)于因多臺(tái)空調(diào)同時(shí)故障導(dǎo)致空調(diào)系統(tǒng)失效仍存在風(fēng)險(xiǎn),需定期做好空調(diào)檢查,及時(shí)處理單點(diǎn)故障,配置空調(diào)冗余運(yùn)行及定期輪巡工作機(jī)制,保障空調(diào)系統(tǒng)良好運(yùn)行狀態(tài)。