錢聲攀 邱奔 李哲 王少鵬
(1. 中國(guó)電力科學(xué)研究院有限公司信息通信研究所,北京 100192;2.中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所,北京 100191)
近年來(lái),通信、互聯(lián)網(wǎng)、金融及一些傳統(tǒng)工業(yè)企業(yè)都開(kāi)始加入到數(shù)據(jù)中心投資建設(shè)的浪潮中,數(shù)據(jù)中心建設(shè)總體規(guī)模較之前有明顯提升。盡管數(shù)據(jù)中心較好地支撐了信息產(chǎn)業(yè)的發(fā)展,但是數(shù)據(jù)中心的能耗問(wèn)題也日益凸顯,據(jù)國(guó)際環(huán)保組織綠色和平與華北電力大學(xué)聯(lián)合發(fā)布的數(shù)據(jù)顯示,2018年我國(guó)數(shù)據(jù)中心用電總量達(dá)到1608.89 億千瓦時(shí),占我國(guó)社會(huì)總用電量的2.35%,到2023年,該數(shù)值可能會(huì)達(dá)到2667.92 億千瓦時(shí)[1]。
數(shù)據(jù)中心的高能耗問(wèn)題引起了各國(guó)政府、業(yè)內(nèi)機(jī)構(gòu)及專家的廣泛關(guān)注。多國(guó)政府出臺(tái)了數(shù)據(jù)中心能效管理政策及法規(guī),并對(duì)數(shù)據(jù)中心能效提出了更高的要求。在我國(guó),2019年工業(yè)和信息化部發(fā)布了《關(guān)于加強(qiáng)綠色數(shù)據(jù)中心建設(shè)的指導(dǎo)意見(jiàn)》,明確提出,到2022年我國(guó)新建數(shù)據(jù)中心PUE應(yīng)低于1.4。同時(shí),為應(yīng)對(duì)數(shù)據(jù)中心高能耗問(wèn)題,行業(yè)組織和專家也開(kāi)展了大量的工作,通過(guò)制定數(shù)據(jù)中心能效評(píng)價(jià)指標(biāo)對(duì)數(shù)據(jù)中心能效狀況進(jìn)行分析和評(píng)估,從而指導(dǎo)數(shù)據(jù)中心能效優(yōu)化。
可持續(xù)發(fā)展觀念的普及,以及我國(guó)政府碳達(dá)峰、碳中和工作目標(biāo)的確立使得數(shù)據(jù)中心能效優(yōu)化策略的研究變得十分重要,綠色數(shù)據(jù)中心、零碳數(shù)據(jù)中心是數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展的必然趨勢(shì)。良好的能效優(yōu)化策略能夠有效降低數(shù)據(jù)中心能耗,推動(dòng)數(shù)據(jù)中心綠色發(fā)展。
數(shù)據(jù)中心能耗主要由兩部分構(gòu)成,分別是IT設(shè)備和基礎(chǔ)設(shè)施(見(jiàn)圖1)。其中,IT設(shè)備可以被認(rèn)為是數(shù)據(jù)中心的獲利之源,數(shù)據(jù)中心主要是通過(guò)IT設(shè)備為企業(yè)及用戶提供IaaS、PaaS及SaaS等多種類型的基礎(chǔ)服務(wù),并通過(guò)這些服務(wù)獲得收益,IT設(shè)備主要由服務(wù)器、存儲(chǔ)及網(wǎng)絡(luò)設(shè)備構(gòu)成?;A(chǔ)設(shè)施主要由供配電、制冷、
圖1 數(shù)據(jù)中心能耗來(lái)源分解
照明、辦公、消防、安保等系統(tǒng)構(gòu)成,基礎(chǔ)設(shè)施是確保IT設(shè)備能夠正常運(yùn)行的重要保障。在上述能耗設(shè)備中,供配電系統(tǒng)、制冷系統(tǒng)及IT設(shè)備能耗占比較高,通常情況下,IT設(shè)備能耗占比最大,其次是制冷系統(tǒng)[2]。
制定合理的能效評(píng)價(jià)指標(biāo)是開(kāi)展數(shù)據(jù)中心能效評(píng)估及能效優(yōu)化的先決條件,不少行業(yè)組織針對(duì)數(shù)據(jù)中心能效制定了相應(yīng)的評(píng)價(jià)指標(biāo)。例如,美國(guó)綠色網(wǎng)格聯(lián)盟(The Green Grid,TGG)定義了PUE、DCiE、CLF/RLF、CUE、WUE、ITTC、ITTR等能效指標(biāo),我國(guó)云計(jì)算發(fā)展與政策論壇(China Cloud Computing Promotion and Policy Forum ,3CPP)發(fā)布的《數(shù)據(jù)中心能效測(cè)評(píng)指南》進(jìn)一步引入了pPUE指標(biāo),該指標(biāo)主要對(duì)數(shù)據(jù)中心部分設(shè)備或區(qū)域能效狀況進(jìn)行評(píng)估。在服務(wù)器能效指標(biāo)方面,開(kāi)放數(shù)據(jù)中心委員會(huì)(Open Data Center Committee,ODCC)發(fā)布的《服務(wù)器能效測(cè)試白皮書(shū)》對(duì)服務(wù)器整數(shù)運(yùn)算、浮點(diǎn)運(yùn)算、讀寫速度、Web性能等活動(dòng)的能效比進(jìn)行了定義。在基礎(chǔ)設(shè)施方面,制冷行業(yè)普遍采用COP對(duì)制冷設(shè)備能效狀況進(jìn)行評(píng)估,供配電系統(tǒng)則可以利用電源轉(zhuǎn)換效率EFF和電源功率因數(shù)PF指標(biāo)進(jìn)行評(píng)估。
在眾多能效評(píng)估指標(biāo)中,PUE是當(dāng)前最受產(chǎn)業(yè)界認(rèn)可的數(shù)據(jù)中心能效評(píng)估指標(biāo)之一。PUE在數(shù)值上等于數(shù)據(jù)中心總能耗與IT設(shè)備能耗之比,PUE能夠反映出數(shù)據(jù)中心總供電中有多少電能被IT設(shè)備使用,PUE值越小表明數(shù)據(jù)中心IT設(shè)備能耗占比越高,數(shù)據(jù)中心電能得到了更加有效的利用。
數(shù)據(jù)中心能效指標(biāo)為數(shù)據(jù)中心能效優(yōu)化提供了方向。以PUE為優(yōu)化目標(biāo),從數(shù)據(jù)中心整體層面上來(lái)看,數(shù)據(jù)中心能效優(yōu)化的基本目標(biāo)是對(duì)PUE進(jìn)行優(yōu)化,PUE優(yōu)化的基本思路是在不影響數(shù)據(jù)中心業(yè)務(wù)處理能力的基礎(chǔ)上,盡量降低供配電系統(tǒng)及制冷系統(tǒng)的電能損耗,使更多電能被IT設(shè)備利用。在系統(tǒng)及設(shè)備層面上,服務(wù)器能效比、COP、EEF和PF等能效指標(biāo)從本質(zhì)上來(lái)看都反映了系統(tǒng)輸入與輸出的比值,因此在對(duì)系統(tǒng)或設(shè)備進(jìn)行能效優(yōu)化時(shí),其基本思路是減少電能損耗,擴(kuò)大有效輸出。
數(shù)據(jù)中心能耗主要由供配電系統(tǒng)、制冷系統(tǒng)及IT設(shè)備能耗構(gòu)成,因此在分析數(shù)據(jù)中心能效影響因素時(shí),可以重點(diǎn)從這三個(gè)方面進(jìn)行分析。
數(shù)據(jù)中心供配電系統(tǒng)將為數(shù)據(jù)中心制冷設(shè)備、IT設(shè)備、照明設(shè)備及其他設(shè)備提供電能支持,電流在流入數(shù)據(jù)中心的過(guò)程中將會(huì)依次經(jīng)過(guò)傳入、傳輸、使用和備份這4個(gè)環(huán)節(jié)[4]。如圖2所示,傳入環(huán)節(jié)的電能損耗主要由變壓器產(chǎn)生,傳輸環(huán)節(jié)的電能損耗由線路和各類配電設(shè)備產(chǎn)生,使用環(huán)節(jié)的電能損耗由服務(wù)器開(kāi)關(guān)電源產(chǎn)生,備份環(huán)節(jié)的電能由蓄電池存儲(chǔ)。
圖2 數(shù)據(jù)中心供配電系統(tǒng)的構(gòu)成
在傳統(tǒng)數(shù)據(jù)中心機(jī)房中,傳輸環(huán)節(jié)中的UPS配電設(shè)備電能損耗占比較高,因此針對(duì)UPS電源的能效優(yōu)化策略研究相對(duì)較多。UPS電源電能轉(zhuǎn)換效率是負(fù)載率的函數(shù),負(fù)載率為40%~80%時(shí),效率曲線剛性較強(qiáng)[5]。在通常情況下,UPS負(fù)載率不宜超過(guò)80%,長(zhǎng)期高負(fù)荷運(yùn)行可能會(huì)縮短UPS使用壽命。
UPS供電環(huán)節(jié)的電能損耗與其本身的供電特性及負(fù)載變化有關(guān)。從UPS供電特性角度來(lái)看,UPS能夠?qū)⒔涣麟娹D(zhuǎn)變?yōu)橹绷麟姡娏髟诹鬟^(guò)UPS和服務(wù)器電源時(shí)將會(huì)經(jīng)過(guò)AC(220 V、50 Hz)—DC(400 V)、DC(400 V)—DC(12 V)這兩個(gè)過(guò)程,UPS在電能轉(zhuǎn)換過(guò)程中產(chǎn)生的電能損耗往往難以避免。從負(fù)載變化角度來(lái)看,不少數(shù)據(jù)中心在進(jìn)行供配電系統(tǒng)設(shè)計(jì)時(shí),往往會(huì)按照IT設(shè)備最高負(fù)載下的電力需求進(jìn)行冗余設(shè)計(jì),而實(shí)際上數(shù)據(jù)中心大多時(shí)候運(yùn)行負(fù)載并非處于高負(fù)載運(yùn)行狀態(tài),低負(fù)載狀態(tài)下UPS電能轉(zhuǎn)換效率低,這使得數(shù)據(jù)中心UPS能效無(wú)法得到進(jìn)一步的提升。
數(shù)據(jù)中心熱量的集聚將會(huì)對(duì)數(shù)據(jù)中心IT設(shè)備造成巨大的損害,在嚴(yán)重情況下,甚至?xí)斐稍O(shè)備宕機(jī)。數(shù)據(jù)中心制冷系統(tǒng)主要由末端精密空調(diào)、AHU(組合式空調(diào)箱)、風(fēng)機(jī)、冷水機(jī)組、冷卻塔等設(shè)備構(gòu)成。
數(shù)據(jù)中心制冷系統(tǒng)能耗與制冷系統(tǒng)能效比、外部可用自然冷源及機(jī)房?jī)?nèi)局部熱點(diǎn)等因素有關(guān)。制冷系統(tǒng)能效比是指制冷系統(tǒng)消耗單位電能產(chǎn)生的制冷量,在數(shù)據(jù)中心發(fā)展早期,制冷系統(tǒng)末端以風(fēng)冷直膨式家用空調(diào)為主,制冷系統(tǒng)能效比較低。隨著水冷系統(tǒng)、新型精密空調(diào)末端及液冷技術(shù)的發(fā)展,數(shù)據(jù)中心制冷系統(tǒng)能效比不斷提升,制冷能力不斷增強(qiáng),例如風(fēng)冷直膨式精密空調(diào)的COP通常低于3.0,冷水機(jī)組的COP可以達(dá)到3.0~6.0[6]。在制冷設(shè)施不斷發(fā)展的同時(shí),數(shù)據(jù)中心制冷設(shè)施布局也在發(fā)生變化,數(shù)據(jù)中心制冷末端正在不斷向熱源靠近,逐漸從早期的房間級(jí)制冷向著行級(jí)、機(jī)柜級(jí)和服務(wù)器級(jí)方向演進(jìn)。制冷末端越靠近熱源,制冷效率越高,但是前期投入也會(huì)相對(duì)較高,同時(shí)靠近熱源的制冷系統(tǒng)容易產(chǎn)生單點(diǎn)故障,運(yùn)維難度較高[7]。液冷技術(shù)就是一種典型的服務(wù)器級(jí)制冷技術(shù),近年來(lái),液冷技術(shù)正在逐漸興起,液冷技術(shù)依靠液體傳熱媒介對(duì)機(jī)柜或IT部件進(jìn)行換熱制冷,液體比熱容遠(yuǎn)高于氣體,制冷效率更高,節(jié)能效果更好[8]。
從外部可用自然冷源角度來(lái)看,外部自然冷源越充分時(shí),數(shù)據(jù)中心制冷系統(tǒng)機(jī)械制冷的時(shí)間可以進(jìn)一步縮短,制冷系統(tǒng)能耗越低。根據(jù)采用自然冷源的類型不同,可以將自然冷源制冷技術(shù)分為風(fēng)冷自然冷和水冷自然冷,兩種自然冷技術(shù)各有利弊,水冷自然冷設(shè)施部署相對(duì)復(fù)雜,但是節(jié)能效果顯著,在我國(guó)數(shù)據(jù)中心項(xiàng)目設(shè)計(jì)中受到廣泛認(rèn)可;風(fēng)冷自然冷設(shè)計(jì)簡(jiǎn)單,但是會(huì)受到外界空氣質(zhì)量制約,低質(zhì)量的空氣在進(jìn)入到數(shù)據(jù)中心后會(huì)對(duì)IT電子元器件造成侵蝕,間接風(fēng)冷雖然能夠通過(guò)間接換熱避免新風(fēng)進(jìn)入數(shù)據(jù)中心,但是該技術(shù)設(shè)備體積過(guò)大,難以大規(guī)模推廣。
局部熱點(diǎn)是機(jī)房?jī)?nèi)溫度場(chǎng)不均勻分布引起的局部過(guò)熱現(xiàn)象,局部熱點(diǎn)的產(chǎn)生會(huì)使IT設(shè)備運(yùn)行環(huán)境惡化;同時(shí),制冷設(shè)備需要提供更大的制冷量才能平衡局部熱點(diǎn),這會(huì)增加制冷能耗[9]。在高密度部署的數(shù)據(jù)中心機(jī)房?jī)?nèi),業(yè)務(wù)負(fù)載在分配過(guò)程中可能會(huì)集中到局部區(qū)域設(shè)備,使局部區(qū)域設(shè)備產(chǎn)生較高熱量,形成局部熱點(diǎn)。此外,還有些機(jī)房存在制冷設(shè)備冷量分配不合理、氣流組織紊亂等問(wèn)題,例如在風(fēng)冷直流制冷系統(tǒng)中,熱風(fēng)回流現(xiàn)象會(huì)導(dǎo)致數(shù)據(jù)中心機(jī)房溫度分布不均,造成局部熱點(diǎn),并使制冷系統(tǒng)效率降低[10]。
IT設(shè)備是數(shù)據(jù)中心各項(xiàng)業(yè)務(wù)活動(dòng)的主要承擔(dān)者,IT設(shè)備能耗主要與虛擬化技術(shù)應(yīng)用程度、IT設(shè)備自身能效比及IT設(shè)備利用率等因素有關(guān)。
在虛擬化技術(shù)支持下,數(shù)據(jù)中心內(nèi)的計(jì)算、存儲(chǔ)及網(wǎng)絡(luò)資源將會(huì)以資源池的形式呈現(xiàn),底層硬件的差異性將被屏蔽,數(shù)據(jù)中心能夠根據(jù)用戶需求為其提供相應(yīng)的資源,實(shí)現(xiàn)資源的動(dòng)態(tài)調(diào)度和按需分配,數(shù)據(jù)中心資源調(diào)度效率得到明顯提升,這也意味著在相同能耗條件下數(shù)據(jù)中心能夠?qū)ν馓峁└喾?wù)。
IT設(shè)備能效比是指IT設(shè)備單位功耗可以處理、存儲(chǔ)及傳輸?shù)臄?shù)據(jù)量,IT設(shè)備能效比越高表明數(shù)據(jù)中心設(shè)備節(jié)能效果更高。IT設(shè)備能效比與IT設(shè)備在設(shè)計(jì)過(guò)程中的硬件配置及制造技術(shù)有關(guān)。
IT設(shè)備利用率是指IT設(shè)備為了處理某項(xiàng)業(yè)務(wù)而利用的各類資源占資源總量的比值,業(yè)務(wù)負(fù)載量的增加會(huì)導(dǎo)致IT設(shè)備資源利用率的增加,IT設(shè)備使用資源量越多時(shí),維持這些資源運(yùn)行所消耗的電能也就越多。在IT設(shè)備中,服務(wù)器能耗占比較高,因此IT設(shè)備資源利用率的研究通常針對(duì)服務(wù)器來(lái)展開(kāi),服務(wù)器資源利用率可以通過(guò)構(gòu)建加性模型或基于CPU使用率的能耗模型來(lái)進(jìn)行描述,加性模型將服務(wù)器能耗描述成各部件,如CPU、內(nèi)存、磁盤、I/O設(shè)備和網(wǎng)卡等部件的能耗之和,但是現(xiàn)有監(jiān)測(cè)平臺(tái)在服務(wù)器子系統(tǒng)能耗測(cè)量方面較為困難,這使得該模型難以應(yīng)用于工程實(shí)踐??紤]到CPU能耗在服務(wù)器總能耗中所占比例較高,因此服務(wù)器能耗通常被描述為CPU利用率的線性或非線性函數(shù)。
常見(jiàn)的線性表示方式為[11]:P=(Pmax-Pmin)u+Pmin。其中,Pmax和Pmin分別是服務(wù)器滿載及空閑時(shí)的功率,u為CPU利用率。
CPU能耗不僅與利用率有關(guān),同時(shí)還與其時(shí)鐘頻率存在以下關(guān)系[12]:P≈ACV2f。其中,A為轉(zhuǎn)換系數(shù),C為常數(shù),V為電壓,f為時(shí)鐘頻率。CPU運(yùn)行頻率越高,其能耗越高,同時(shí)CPU業(yè)務(wù)處理速度也會(huì)相應(yīng)提升。
在供配電系統(tǒng)中,UPS能效優(yōu)化策略主要有兩種,一是根據(jù)數(shù)據(jù)中心負(fù)載動(dòng)態(tài)變化來(lái)動(dòng)態(tài)調(diào)控UPS電源,具有休眠節(jié)能功能的UPS系統(tǒng)能夠?qū)崟r(shí)監(jiān)測(cè)系統(tǒng)負(fù)載率大小,當(dāng)負(fù)載率低于設(shè)定值時(shí),UPS進(jìn)入休眠狀態(tài),負(fù)載率超過(guò)設(shè)定值時(shí),休眠的UPS啟動(dòng)并投入到并聯(lián)系統(tǒng)中[5];二是在同一時(shí)間將高負(fù)載和低負(fù)載任務(wù)放置在同一級(jí)電力設(shè)施中,這將有效提升數(shù)據(jù)中心UPS電源的電能轉(zhuǎn)換效率,降低UPS電能損耗[13]。
傳統(tǒng)UPS供電產(chǎn)業(yè)鏈成熟,但是其轉(zhuǎn)換率難以進(jìn)一步提升,高壓直流(HDVC)具備可靠性高、成本低的特點(diǎn),逐漸在數(shù)據(jù)中心供電系統(tǒng)中嶄露頭角,“HDVC+市電直供”模式供電效率可以達(dá)到94%~95%,HDVC離線模式供電效率則可以進(jìn)一步達(dá)到97%以上。目前,BAT等大型互聯(lián)網(wǎng)公司廣泛采用HDVC進(jìn)行數(shù)據(jù)中心供電,HDVC將成為數(shù)據(jù)中心供電系統(tǒng)節(jié)能的重要技術(shù)方向。
數(shù)據(jù)中心的制冷量與數(shù)據(jù)中心機(jī)房?jī)?nèi)的總熱量呈現(xiàn)出正相關(guān)性,數(shù)據(jù)中心機(jī)房制冷既要考慮全局冷量供應(yīng),同時(shí)還需要確保這些冷量分配到局部IT負(fù)載。數(shù)據(jù)中心制冷系統(tǒng)能效優(yōu)化可以從以下幾個(gè)方面來(lái)考慮。
3.2.1 根據(jù)實(shí)際情況選用適合的制冷技術(shù)
數(shù)據(jù)中心需要根據(jù)機(jī)房功率密度、運(yùn)維能力及資金等情況靈活選用適合的制冷技術(shù),在條件允許的情況下,盡量選用能效比較高的制冷設(shè)施。冷水機(jī)組能效比高于風(fēng)冷直膨式空調(diào),在運(yùn)行數(shù)據(jù)中心應(yīng)該逐步淘汰能效比較低的制冷設(shè)備,引入風(fēng)冷、水冷冷水機(jī)組等新型制冷設(shè)備。機(jī)柜功率密度低的數(shù)據(jù)中心可以直接采用房間級(jí)制冷方案,功率密度高的數(shù)據(jù)中心則可以綜合采用液冷和非液冷制冷方案,由液冷承擔(dān)主要熱負(fù)荷,非液冷提供機(jī)房全局制冷。
3.2.2 提升IT設(shè)備的耐熱性能
IT設(shè)備耐熱性能提升后,數(shù)據(jù)中心制冷系統(tǒng)制冷量也會(huì)相應(yīng)減少,制冷系統(tǒng)能耗自然降低。對(duì)于新建數(shù)據(jù)中心,承建方可以在考慮節(jié)能及成本的基礎(chǔ)上為數(shù)據(jù)中心部署能效比較高的制冷設(shè)備及耐熱性能更好的IT設(shè)備。在耐高溫服務(wù)器設(shè)計(jì)方面,國(guó)內(nèi)外有不少企業(yè)已經(jīng)開(kāi)始進(jìn)行耐高溫設(shè)備的設(shè)計(jì)開(kāi)發(fā),華為公司通過(guò)服務(wù)器主板布局設(shè)計(jì)和散熱設(shè)計(jì)打造耐高溫服務(wù)器,其開(kāi)發(fā)的RH機(jī)架全系列服務(wù)器、E9000刀片服務(wù)器皆可支持40℃高溫環(huán)境。耐高溫IT設(shè)備的出現(xiàn)將會(huì)有效緩解數(shù)據(jù)中心制冷壓力,同時(shí)也會(huì)在很大程度上提升IT設(shè)備運(yùn)行安全性。
3.2.3 充分利用自然冷源,減少制冷系統(tǒng)能耗
該策略不僅要考慮引入新型制冷系統(tǒng),同時(shí)還需要外部環(huán)境的支持。在一些自然冷源相對(duì)充裕的地區(qū),數(shù)據(jù)中心可以充分利用風(fēng)冷自然冷或水冷自然冷技術(shù)交換室內(nèi)外空氣熱量。當(dāng)前,有不少大型互聯(lián)網(wǎng)公司,如阿里巴巴、優(yōu)刻得和快手等,都紛紛選擇在內(nèi)蒙古烏蘭察布地區(qū)建設(shè)數(shù)據(jù)中心,這與烏蘭察布市全年平均氣溫較低有著密不可分的關(guān)系,烏蘭察布市全年平均氣溫為5℃~7℃,建設(shè)在烏蘭察布的數(shù)據(jù)中心每年可以享受到近10個(gè)月的自然冷源,這將有效降低數(shù)據(jù)中心制冷系統(tǒng)能耗。在我國(guó),冷源比較充沛的地區(qū),其地理位置通常較為偏遠(yuǎn),如云南、貴州和內(nèi)蒙古等地,而從數(shù)據(jù)中心算力需求角度來(lái)看,我國(guó)東部地區(qū)用戶對(duì)算力需求明顯高于中西部,在偏遠(yuǎn)地區(qū)建設(shè)數(shù)據(jù)中心可能需要面對(duì)數(shù)據(jù)中心遠(yuǎn)距離傳輸造成的服務(wù)質(zhì)量問(wèn)題。因此,數(shù)據(jù)中心在選址時(shí)應(yīng)該在服務(wù)質(zhì)量和節(jié)能之間尋求平衡點(diǎn)。
3.2.4 消除機(jī)房局部熱點(diǎn)
機(jī)房局部熱點(diǎn)的消除可以從溫度控制和負(fù)載控制兩個(gè)角度著手,從溫度控制出發(fā),可以通過(guò)CFD仿真模擬數(shù)據(jù)中心機(jī)房?jī)?nèi)的氣流組織情況,提出氣流優(yōu)化方案,改善機(jī)房熱風(fēng)回流、氣流不暢等問(wèn)題,有效提升機(jī)房制冷效果[14];從負(fù)載控制出發(fā),可以通過(guò)建立負(fù)載分配分散度函數(shù)模型,改善負(fù)載分配,防止負(fù)載集中到局部區(qū)域,形成局部熱點(diǎn)。
在IT設(shè)備中,服務(wù)器能耗占比較高,服務(wù)器能耗優(yōu)化策略主要分為兩大類,一類是基于硬件性能的能效優(yōu)化,另一類是基于負(fù)載調(diào)度的能效優(yōu)化?;谟布阅艿哪苄?yōu)化主要是指通過(guò)研發(fā)低能耗電子元件或采用動(dòng)態(tài)調(diào)壓調(diào)頻(Dynamic Voltage and Frequency Scaling,DVFS)技術(shù)來(lái)降低服務(wù)器能耗。DVFS通過(guò)調(diào)整CPU電壓和頻率方式來(lái)調(diào)節(jié)處理器用電量,DVFS會(huì)在一定程度上降低系統(tǒng)的實(shí)時(shí)性。DVFS可以和批處理技術(shù)相結(jié)合,在負(fù)載較低時(shí),將網(wǎng)絡(luò)請(qǐng)求緩存起來(lái),利用DVFS技術(shù)降低處理器能耗,此時(shí)請(qǐng)求響應(yīng)時(shí)間的下降對(duì)系統(tǒng)負(fù)載處理性能的影響較小。隨著數(shù)據(jù)中心業(yè)務(wù)負(fù)載量的增加及業(yè)務(wù)實(shí)時(shí)性要求的提升,單純以DVFS技術(shù)降低服務(wù)器能耗變得困難。
虛擬化技術(shù)的快速發(fā)展使得負(fù)載調(diào)度變得更加簡(jiǎn)單,在虛擬化技術(shù)支持下,服務(wù)器可以通過(guò)負(fù)載調(diào)度將負(fù)載均衡分配到少量服務(wù)器上,并使暫時(shí)閑置的服務(wù)器處于休眠或關(guān)閉狀態(tài)。常見(jiàn)的服務(wù)器負(fù)載均衡調(diào)度算法包括靜態(tài)負(fù)載均衡算法、動(dòng)態(tài)負(fù)載均衡算法和仿生物負(fù)載均衡算法等,其中靜態(tài)負(fù)載均衡算法不考慮當(dāng)前時(shí)刻服務(wù)器設(shè)備的運(yùn)行狀況,只是按照預(yù)先設(shè)定的方案對(duì)用戶請(qǐng)求進(jìn)行分配,動(dòng)態(tài)負(fù)載均衡則根據(jù)系統(tǒng)運(yùn)行時(shí)的負(fù)載狀況來(lái)動(dòng)態(tài)分配負(fù)載。
常見(jiàn)的靜態(tài)負(fù)載調(diào)度均衡算法包括輪詢調(diào)度算法、加權(quán)輪詢調(diào)度算法、隨機(jī)調(diào)度算法、加權(quán)隨機(jī)調(diào)度算法、目標(biāo)地址散列調(diào)度算法、源地址散列調(diào)度算法。
常見(jiàn)的動(dòng)態(tài)負(fù)載均衡算法包括最小連接調(diào)度算法、加權(quán)最小連接調(diào)度算法、基于局部性的最小連接調(diào)度算法、帶復(fù)制的基于局部性的最小連接調(diào)度算法。
靜態(tài)負(fù)載均衡算法和動(dòng)態(tài)負(fù)載均衡算法在進(jìn)行負(fù)載調(diào)度的過(guò)程中很容易造成局部最優(yōu)解,并且在負(fù)載調(diào)度后難以根據(jù)負(fù)載在服務(wù)器上的執(zhí)行情況對(duì)虛擬機(jī)進(jìn)行遷移,仿生物智能算法在提升數(shù)據(jù)中心負(fù)載均衡度,實(shí)現(xiàn)服務(wù)器虛擬機(jī)動(dòng)態(tài)遷移方面具有更好的表現(xiàn)。常見(jiàn)的仿生物智能算法包括遺傳算法、蟻群算法、粒子群算法和人工蜂群算法等。
當(dāng)前不少數(shù)據(jù)中心在規(guī)劃階段會(huì)根據(jù)IT最高負(fù)載對(duì)基礎(chǔ)設(shè)施進(jìn)行冗余設(shè)計(jì),這給供配電系統(tǒng)及制冷系統(tǒng)帶來(lái)了極大的能耗??紤]到IT設(shè)備能耗對(duì)基礎(chǔ)設(shè)施能耗的影響,有研究提出了隨負(fù)載動(dòng)態(tài)變化的數(shù)據(jù)中心全局能效優(yōu)化策略[15],該能效優(yōu)化策略通過(guò)設(shè)計(jì)一套隨負(fù)載及機(jī)房熱分布動(dòng)態(tài)變化的基礎(chǔ)設(shè)施控制系統(tǒng),實(shí)現(xiàn)了制冷設(shè)備及供配電系統(tǒng)的節(jié)能調(diào)度。為了更好地實(shí)現(xiàn)供配電系統(tǒng)及制冷系統(tǒng)隨著業(yè)務(wù)負(fù)載的動(dòng)態(tài)調(diào)度,艾默生公司通過(guò)開(kāi)發(fā)IPS和PEX空調(diào)群控功能實(shí)現(xiàn)這一動(dòng)態(tài)調(diào)度需求[16]。
虛擬化技術(shù)及云計(jì)算管理框架的快速發(fā)展使得數(shù)據(jù)中心能夠?qū)⒏黝愘Y源,如IT資源及基礎(chǔ)設(shè)施資源,以資源池的方式呈現(xiàn)給運(yùn)維人員及終端用戶,用戶不需要特別關(guān)注底層硬件差異,而是能夠以統(tǒng)一的接口調(diào)用各類資源,獲取相關(guān)服務(wù),實(shí)現(xiàn)資源按需獲取和按需擴(kuò)容。更進(jìn)一步,數(shù)據(jù)中心還提供傳感器和控件,用戶能夠?qū)τ?jì)算環(huán)境進(jìn)行監(jiān)督和優(yōu)化,實(shí)現(xiàn)對(duì)數(shù)據(jù)中心軟硬件資源的集約化管理,這就形成了數(shù)據(jù)中心即服務(wù)(Data Center as a Service,DCaaS)的運(yùn)維管理理念。
在DCaaS運(yùn)維管理的理念下,數(shù)據(jù)中心能效優(yōu)化過(guò)程中將會(huì)更加關(guān)注能耗與性能的匹配性問(wèn)題,在保證服務(wù)品質(zhì)協(xié)議的基礎(chǔ)上提升數(shù)據(jù)中心整體能效。數(shù)據(jù)中心基礎(chǔ)設(shè)施主要是為IT設(shè)備服務(wù),因此IT設(shè)備節(jié)能在數(shù)據(jù)中心整體能效優(yōu)化中居于核心地位,IT設(shè)備能耗與其處理負(fù)載量呈正相關(guān),構(gòu)建一套隨IT負(fù)載變化的數(shù)據(jù)中心全局能效優(yōu)化方案對(duì)于提升數(shù)據(jù)中心整體能效具有重要意義。圖3為數(shù)據(jù)中心全局能效優(yōu)化流程圖。
IT設(shè)備節(jié)能通??梢圆捎肈VFS技術(shù)和負(fù)載調(diào)度算法來(lái)實(shí)現(xiàn),DVFS適用于低負(fù)載且時(shí)延要求較低的情形,負(fù)載調(diào)度算法的節(jié)能原理主要體現(xiàn)在兩個(gè)方面,一是均衡各主機(jī)負(fù)載,將高負(fù)載主機(jī)上的虛擬機(jī)遷移至負(fù)載較低的主機(jī),防止部分主機(jī)因?yàn)樨?fù)載率較高而影響業(yè)務(wù)處理質(zhì)量并產(chǎn)生局部熱點(diǎn),二是將低負(fù)載主機(jī)上的虛擬機(jī)集中到一起,使部分主機(jī)處于休眠或關(guān)機(jī)狀態(tài)從而降低能耗。本文通過(guò)設(shè)置三重閾值T1、T2和T3將主機(jī)分為4種類型,負(fù)載率低于T1時(shí),為低載主機(jī),負(fù)載率在T1和T2之間時(shí),為輕載主機(jī),負(fù)載率在T2和T3之間時(shí),為適度負(fù)載主機(jī),負(fù)載率大于T3時(shí),為重載主機(jī),其中0≤T1 圖3 數(shù)據(jù)中心全局能效優(yōu)化流程圖 在負(fù)載調(diào)度算法執(zhí)行過(guò)程中,閾值的確定至關(guān)重要,在數(shù)據(jù)中心運(yùn)行不同時(shí)段,數(shù)據(jù)中心負(fù)載率將會(huì)有所不同,并呈現(xiàn)出周期性波動(dòng)特征,這與數(shù)據(jù)中心本身的功能特性及其用戶使用習(xí)慣有關(guān)[17]。在開(kāi)展負(fù)載調(diào)度算法之前,可以采用隨機(jī)負(fù)載分配方式分配負(fù)載,并采用機(jī)器學(xué)習(xí)方式模擬和預(yù)測(cè)負(fù)載率變化趨勢(shì),數(shù)據(jù)中心整體負(fù)載率及單個(gè)物理機(jī)的負(fù)載率可以用資源利用率來(lái)表示。 在計(jì)算資源利用率之前,首先進(jìn)行數(shù)學(xué)建模,用ai(1≤i≤n)表示物理機(jī),bj(1≤j≤m)表示虛擬機(jī),n為物理機(jī)總數(shù),m為虛擬機(jī)總數(shù),每個(gè)物理機(jī)i能夠提供的資源集合用集合A表示,A={ai1,ai2,…,aik},aik表示物理機(jī)i能提供的第k種不同類型資源容量,k種不同類型資源包括CPU、內(nèi)存、存儲(chǔ)及帶寬等,每個(gè)虛擬機(jī)j需要的物理資源用集合B表示,B={bj1,bj2,…,bjk},bjk表示虛擬機(jī)j需要的第k種資源容量。 (1)物理機(jī)i上第x類資源的利用率 (1) (2)物理機(jī)i上各類資源平均利用率 (2) (3)數(shù)據(jù)中心整體資源利用率 (3) 利用上述公式模擬并預(yù)測(cè)數(shù)據(jù)中心整體資源利用率隨時(shí)間變化趨勢(shì)后,可以進(jìn)一步確定該調(diào)度算法的閾值,以整體利用率為中值,采用四分位定值方式確定閾值T1、T2和T3,其中,T1=U/2,T2=U,T3=(1+U)/2。 在確定閾值后,即可按照相應(yīng)的閾值條件進(jìn)行虛擬機(jī)調(diào)度,對(duì)于重載主機(jī),可以優(yōu)先調(diào)度內(nèi)存或CPU占用較少的虛擬機(jī),內(nèi)存或CPU占用較少的虛擬機(jī)遷移時(shí)間更短,這將有效防止因虛擬機(jī)遷移造成的SLA違例。 上述虛擬機(jī)調(diào)度策略能夠在確保數(shù)據(jù)中心業(yè)務(wù)處理性能的基礎(chǔ)上降低IT設(shè)備能耗,為了提升數(shù)據(jù)中心整體能效水平,還需要進(jìn)一步建立供配電系統(tǒng)及制冷設(shè)備調(diào)度算法,在供配電設(shè)備方面,UPS虛擬運(yùn)行技術(shù)能夠使UPS組隨IT負(fù)載變化動(dòng)態(tài)調(diào)度,當(dāng)IT負(fù)載降低時(shí),維持少數(shù)UPS給負(fù)載供電,UPS虛擬運(yùn)行技術(shù)可以通過(guò)機(jī)組休眠或模塊休眠來(lái)實(shí)現(xiàn)[18]。在制冷設(shè)備方面,則可以根據(jù)機(jī)房溫濕度動(dòng)態(tài)調(diào)節(jié)空調(diào)溫度。 數(shù)據(jù)中心能耗主要由供配電系統(tǒng)、制冷系統(tǒng)及IT設(shè)備產(chǎn)生,其用能狀況將會(huì)在很大程度上對(duì)數(shù)據(jù)中心能效產(chǎn)生影響,因此數(shù)據(jù)中心能效優(yōu)化也可以針對(duì)這三者來(lái)展開(kāi)。在IT設(shè)備能效優(yōu)化方面,可以采用DVFS技術(shù)或負(fù)載均衡調(diào)度策略;在供配電系統(tǒng)能效優(yōu)化方面,可以根據(jù)負(fù)載動(dòng)態(tài)變化來(lái)動(dòng)態(tài)控制UPS電源或?qū)⒏叩拓?fù)載遷徙到同一級(jí)電力系統(tǒng);在制冷系統(tǒng)能效優(yōu)化方面,可以通過(guò)選用適合的制冷技術(shù)、提升IT設(shè)備耐熱性能、充分利用自然冷源和消除機(jī)房局部熱點(diǎn)的方式實(shí)現(xiàn)。考慮到IT設(shè)備業(yè)務(wù)負(fù)載對(duì)基礎(chǔ)設(shè)施的能耗影響,因此也可以構(gòu)建基于IT業(yè)務(wù)負(fù)載的全局能效優(yōu)化策略,本文利用三重閾值對(duì)服務(wù)器進(jìn)行分類,并通過(guò)負(fù)載率模擬和預(yù)測(cè)技術(shù)確定閾值,實(shí)現(xiàn)重載和低載主機(jī)上虛擬機(jī)的調(diào)度。在供配電及制冷系統(tǒng)能效優(yōu)化方面,可以采用UPS虛擬化技術(shù)及空調(diào)群控技術(shù)實(shí)現(xiàn)對(duì)供電及制冷系統(tǒng)的動(dòng)態(tài)調(diào)度。5 結(jié)束語(yǔ)