◆田輝 田峻超 穆釗
中小型數(shù)據(jù)中心PUE值與可用性平衡方法的研究
◆田輝 田峻超 穆釗
(中國石油集團(tuán)東方地球物理勘探有限責(zé)任公司信息技術(shù)中心 北京 100007)
數(shù)據(jù)中心的PUE值與可用性是一對矛盾體,由于計算復(fù)雜、難以量化等原因,其平衡方法相關(guān)的研究工作一直未能深入展開,但該項研究對數(shù)據(jù)中心運行的穩(wěn)定性和節(jié)能方面都具有重要的意義。本文以多個企業(yè)中小型數(shù)據(jù)中心的測試數(shù)據(jù)為基礎(chǔ),深入探討了PUE值與可用性之間的關(guān)系,以及維持PUE值與可用性平衡的主要計算方法,并在中小型數(shù)據(jù)中心進(jìn)行了實際驗證,驗證了方法的有效性,為該項研究的繼續(xù)展開提供了一定的依據(jù)。
數(shù)據(jù)中心;節(jié)能;PUE;可用性
隨著我國信息化進(jìn)程的高速推進(jìn),各種不同級別的數(shù)據(jù)中心被陸續(xù)建立起來并投入到使用中,特別是一些企事業(yè)單位的中小型數(shù)據(jù)中心,其數(shù)量占據(jù)到數(shù)據(jù)中心總量的70%-80%,能耗體量巨大。而這些中小型數(shù)據(jù)中心往往受到成本或其他條件約束,并非完全按照國家規(guī)定的標(biāo)準(zhǔn)來建設(shè),因此中小型數(shù)據(jù)中心在能源效率和可用性維持上并不盡如人意。面對這樣的問題,能否從數(shù)據(jù)中心PUE值與可用性相互關(guān)系上入手來尋找某種節(jié)能方法,即:保持一定可用性的前提下,盡可能降低數(shù)據(jù)中心PUE值,從而達(dá)到中小型數(shù)據(jù)中心節(jié)能的目標(biāo)。
數(shù)據(jù)中心PUE(Power Usage Effectiveness)是目前衡量數(shù)據(jù)中心或機(jī)房能源效率的通用指標(biāo),其計算公式為:
在數(shù)據(jù)中心能耗結(jié)構(gòu)中,制冷設(shè)備能耗是除IT設(shè)備能耗以外最大的能耗,相對于供配電系統(tǒng)與輔助系統(tǒng)的運行能耗來說,制冷設(shè)備運行能耗變化范圍最大。一些較為著名的綠色數(shù)據(jù)中心PUE值可達(dá)到1.2左右,其制冷設(shè)備、供配電系統(tǒng)以及輔助系統(tǒng)的能耗合計只占數(shù)據(jù)中心的總能耗的20%左右,但此類綠色數(shù)據(jù)中心在制冷設(shè)備、供配電系統(tǒng)、輔助系統(tǒng)、場地建設(shè)、動環(huán)控制系統(tǒng)的成本投入遠(yuǎn)高于普通數(shù)據(jù)中心,對為數(shù)眾多的中心型數(shù)據(jù)中心和機(jī)房來說,根本無法達(dá)到,因此許多機(jī)房節(jié)能方法的研究重點集中在如何降低制冷設(shè)備能耗的方面,如:采用精密制冷設(shè)備、改善氣流組織、機(jī)房保溫措施等。
數(shù)據(jù)中心的可用性構(gòu)成比較復(fù)雜,由于數(shù)據(jù)中心是多種不同系統(tǒng)的綜合體,其可用性是:網(wǎng)絡(luò)可用性、IT設(shè)備可用性、制冷設(shè)備可用性、供配電以及其他輔助設(shè)備可用性共同組成,內(nèi)部既有冗余子系統(tǒng)的并行,也有不同子系統(tǒng)的串行。就基礎(chǔ)設(shè)備可用性而言可通過平均無故障時間MTBF(Mean Time Between Failures)與平均修復(fù)時間MTTR(Mean Time to Repair)等指標(biāo)計算完成,具體公式為:
從公式可以看出:數(shù)據(jù)中心基礎(chǔ)設(shè)備可用性的提高方法在于提高平均無故障時間MTBF或降低平均修復(fù)時間MTTR,降低MTTR與人員、技術(shù)、管理等因素的相關(guān)度較高,而延長MTBF與設(shè)備自身的可靠性和運行環(huán)境的相關(guān)度較高。
通過研究發(fā)現(xiàn),在一定條件下數(shù)據(jù)中心PUE值與可用性存在一定的相關(guān)性,數(shù)據(jù)中心的服務(wù)器、網(wǎng)絡(luò)、UPS、監(jiān)控等基礎(chǔ)設(shè)備的可用性受到溫濕度環(huán)境因素影響較大,而制冷設(shè)備的工作狀態(tài)又直接影響了數(shù)據(jù)中心的PUE值,當(dāng)維持較低的環(huán)境溫度時,制冷設(shè)備能耗的提升則導(dǎo)致PUE值的升高,反之亦然。據(jù)統(tǒng)計:環(huán)境溫度每高于器件工作溫度10攝氏度,設(shè)備元器件壽命就會縮短30%-50%,可靠性MTBF下降25%左右。已知一個線路輸出30kW企業(yè)級小型數(shù)據(jù)中心,在其能耗結(jié)構(gòu)中IT設(shè)備耗電占44%、制冷設(shè)備占38%、供配電設(shè)備占15%、其他輔助設(shè)備占3%,PUE值為2.27,可用性為99.99%,工作全年最多允許中斷(1-99.99%)*365天*24小時=0.876小時。當(dāng)制冷設(shè)備溫度上調(diào)10攝氏度時,該數(shù)據(jù)中心基礎(chǔ)設(shè)備可靠性MTBF下降25%,假定平均修復(fù)時間MTTR取最大允許停機(jī)時長0.876小時,則根據(jù)公式2可推算出:數(shù)據(jù)中心當(dāng)前可用性下降為99.96%,溫度上調(diào)后,制冷設(shè)備功耗降低為原來的50%-60%,根據(jù)公式1可計算出該數(shù)據(jù)中心PUE值為1.84,比原可用性狀態(tài)下的PUE值下降了18.9%。通過對多個中小型數(shù)據(jù)中心的PUE值與可用性數(shù)據(jù)分析發(fā)現(xiàn):數(shù)據(jù)中心基礎(chǔ)設(shè)備的可用性與PUE值在一定范圍內(nèi)呈現(xiàn)正比關(guān)系,每個數(shù)據(jù)中心可用性與PUE對應(yīng)關(guān)系并非完全一樣,但在關(guān)系曲線的某一段取值范圍內(nèi)呈現(xiàn)局部線性關(guān)系,正好可以利用這種線性關(guān)系,通過調(diào)整數(shù)據(jù)中心基礎(chǔ)設(shè)備的可用性來降低數(shù)據(jù)中心的PUE值,從而達(dá)到節(jié)能的目標(biāo)。如圖1所示:在A點與C點之間的區(qū)域內(nèi),可用性與PUE值關(guān)系曲線為局部線性遞增關(guān)系,A點的可用性為0.9,PUE為1.4,C點的可用性為0.999,PUE為2.2,對中小型數(shù)據(jù)中心來說可用性分布在0.9-0.999之間較為合理,PUE值可在1.4-2.2范圍之內(nèi)調(diào)節(jié),因此A點與C點之間的區(qū)域為平衡區(qū)域。平衡區(qū)域的實際物理意義在于,數(shù)據(jù)中心基礎(chǔ)設(shè)備的可用性過低或過高都是不可取的,特別對于中小型數(shù)據(jù)中心來說,維持0.999以上的可用性極大地增加了數(shù)據(jù)中心制冷設(shè)備能耗,而單純?yōu)樽非笾评湓O(shè)備極低功耗,把可用性下降到0.9以下,將引發(fā)數(shù)據(jù)中心嚴(yán)重的熱島效應(yīng),可能造成大面積的設(shè)備損壞。依照國際數(shù)據(jù)中心等級標(biāo)準(zhǔn)所規(guī)定的Tier 1的可用性為99.67%,恰好位于A點與C點PUE的均值點B附近,因此,B點為能耗與可用性平衡的最優(yōu)位置。
圖1 中小型數(shù)據(jù)中心可用性與PUE值關(guān)系曲線
為維持?jǐn)?shù)據(jù)中心PUE值與可用性的平衡關(guān)系,需要分別計算當(dāng)前PUE與可用性的具體數(shù)值,數(shù)據(jù)中心PUE值可以通過監(jiān)控系統(tǒng)的數(shù)值直接計算,而可用性的計算相對來說較為復(fù)雜,公式2所給出的只是針對單個系統(tǒng)或單一設(shè)備的計算公式,整體計算需要考慮到不同子系統(tǒng)之間的耦合關(guān)系,通常使用RBD(Reliability Block Diagram)模型和Markov模型進(jìn)行計算,這里不做贅述,本文的重點是論證可用性與能耗之間的關(guān)系,為簡化可用性的計算方法,可采用如下方法:(1)把中小型數(shù)據(jù)中心看作一個單一的基礎(chǔ)設(shè)備來計算其可用性;(2)采用黑盒測試的方法,采集環(huán)境溫濕度、制冷設(shè)備能耗等作為輸入數(shù)據(jù),采集數(shù)據(jù)中心基礎(chǔ)設(shè)備平均無故障運行時間MTBF和平均修復(fù)時間MTTR作為輸出數(shù)據(jù),模擬可靠性與制冷設(shè)備能耗、溫濕度關(guān)系曲線;(3)確定最佳平衡點,即可靠性在0.99附近對應(yīng)的環(huán)境溫度與制冷設(shè)備能耗的數(shù)值,即是制冷設(shè)備所調(diào)控的目標(biāo)。需要說明的是:可靠性與制冷設(shè)備能耗之間并完全非線性關(guān)系,可通過建立二次或三次多項式進(jìn)行擬合,并采用最小二乘法求解最優(yōu)參數(shù)值:
Y=AX2+BX+C
這里Y為基礎(chǔ)設(shè)備可用性,X為制冷設(shè)備即時能耗,A、B、C為求解參數(shù)。除了多項式的擬合方法外,其他基于機(jī)器學(xué)習(xí)的方法也可以使用,如神經(jīng)網(wǎng)絡(luò)、遺傳算法等模型方法,如果數(shù)據(jù)中心有完整的日志數(shù)據(jù)與測試數(shù)據(jù),則對數(shù)據(jù)模型的訓(xùn)練更有幫助。
本文對國內(nèi)某企業(yè)的中小型數(shù)據(jù)中心進(jìn)行長期測試實驗和日志數(shù)據(jù)的收集與整理,并利用文中所介紹的方法建立了基礎(chǔ)設(shè)備可靠性與制冷設(shè)備功耗的關(guān)系曲線,進(jìn)而求解出PUE與可用性的平衡點,并以此來控制制冷設(shè)備的工作狀態(tài),使得數(shù)據(jù)中心在保持0.99可用性的前提下,PUE值得到明顯改善。當(dāng)然每個數(shù)據(jù)中心的情況也不盡相同,并非都存在相同的關(guān)系曲線與平衡點,文中的方法是否具有普適性,還需進(jìn)一步的研究與探討。
[1]黃赟. 數(shù)據(jù)中心合規(guī)設(shè)計中PUE值范圍選擇與分析[J]. 電信技術(shù),2016(12):56-59.
[2]戴新強(qiáng). 數(shù)據(jù)中心空調(diào)系統(tǒng)能耗與節(jié)能應(yīng)用研究[J].中國設(shè)備工程,2020(2):12-13.
[3]沈海華.基于馬爾可夫過程模型的服務(wù)器集群數(shù)據(jù)可用性分析[J].小型微型計算機(jī)系統(tǒng),2006,27(7):1276-1278.
[4]黃守鵬.國內(nèi)外高端服務(wù)器可用性測試方法研究[J].網(wǎng)絡(luò)安全與技術(shù)應(yīng)用,2011(3):54-57.
[5]劉元展. 數(shù)據(jù)中心供配電系統(tǒng)可用性設(shè)計[D]. 哈爾濱工業(yè)大學(xué),2015,6.
[6]吳亞奇. 數(shù)據(jù)中心機(jī)房節(jié)能方法研究[D]. 蘇州科技大學(xué),2015,6.