黃家明,李冠廣,侯青軍,趙坤
(1.高效能服務(wù)器和存儲技術(shù)國家重點實驗室,山東 濟南 250101;2.中國聯(lián)通濟南軟件研究院,山東 濟南 250101)
云計算是互聯(lián)網(wǎng)時代信息基礎(chǔ)設(shè)施的重要形態(tài),它融合互聯(lián)網(wǎng)上的各種計算、存儲、網(wǎng)絡(luò)、安全、平臺、應(yīng)用等資源[1],基于網(wǎng)絡(luò)支持異構(gòu)設(shè)施和資源流轉(zhuǎn)的供給模型以提供高性能、低成本、寬領(lǐng)域的計算與數(shù)據(jù)服務(wù),支撐各類信息化應(yīng)用,是網(wǎng)絡(luò)化信息技術(shù)發(fā)展的重要模式[2]。云計算數(shù)據(jù)中心業(yè)務(wù)持續(xù)增長,對計算能力、存儲性能和密度要求越來越高[3],面臨高密度設(shè)計、高效能設(shè)計、高資源利用率和能耗控制等諸多問題和挑戰(zhàn)[4]。與此同時,云計算數(shù)據(jù)中心突破了計算、存儲、網(wǎng)絡(luò)資源池化技術(shù),通過計算資源池構(gòu)建技術(shù),實現(xiàn)通用處理器、圖像處理器(graphics processing unit,GPU)、可重構(gòu)加速器等計算資源池化;通過存儲資源池構(gòu)建技術(shù),實現(xiàn)非易失性存儲器(non-volatile memory express,NVMe)、固態(tài)驅(qū)動器(solid state disk,SSD)、磁盤等存儲資源的資源池化[5]。形成支持通用處理、加速處理、異構(gòu)計算、混合存儲和網(wǎng)絡(luò)融合的新一代數(shù)據(jù)中心體系結(jié)構(gòu)[6]。因此,深入研究云計算數(shù)據(jù)中心的總體擁有成本(total cost of ownership,TCO)模型具有非常重要的意義。本文針對云計算數(shù)據(jù)中心具有大規(guī)模、多樣性的特點,提出了一種試圖從數(shù)據(jù)中心建設(shè)成本、數(shù)據(jù)中心運營成本、IT設(shè)備采購成本和能耗成本進行TCO模型構(gòu)造的方法。
云計算數(shù)據(jù)中心體系結(jié)構(gòu)具有大規(guī)模、多樣性的特點,一方面,服務(wù)器的各項配置不斷縱向提升,使其單節(jié)點的計算性能得以提高[7];另一方面,數(shù)據(jù)中心服務(wù)器的裝機容量呈現(xiàn)橫向擴張態(tài)勢,大規(guī)模服務(wù)器集群不斷涌現(xiàn)需要指數(shù)級增長的計算處理能力[8]。與此同時,云計算數(shù)據(jù)中心采用X86-64、Power、Sparc、ARM(advanced risc machine,ARM)等多種通用計算架構(gòu)[9]和加速處理器(accelerated processing unit,APU)、張量處理器(tensor processing unit,TPU)等專用計算架構(gòu)[10],硬件規(guī)模和硬件種類急劇膨脹,計算云計算數(shù)據(jù)中心整體擁有成本模型非常復(fù)雜[11],如圖1所示。
圖1 云數(shù)據(jù)中心體系結(jié)構(gòu)Fig.1 Cloud data center architecture
云計算數(shù)據(jù)中心的整體擁有成本包括初期資本投入(capital expenditure,CapEx)和后期運營費用(operating expenditure,OpEx)[12],初期資本投入成本主要包括:云計算數(shù)據(jù)中心建設(shè)成本、云計算數(shù)據(jù)中心供電和制冷設(shè)備購置和安裝成本、云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)設(shè)備購置成本以及云計算數(shù)據(jù)中心IT設(shè)備購成本;后期運營費用成本主要包括:云計算數(shù)據(jù)中心維護成本(供電設(shè)備和制冷設(shè)備維護成本、核心網(wǎng)絡(luò)設(shè)備維護成本以及互聯(lián)網(wǎng)技術(shù)(internet technology,IT)設(shè)備維護成本)和云計算數(shù)據(jù)中心能耗成本。綜上所述,影響云計算數(shù)據(jù)中心的TCO成本的4個主要因素[13]:
1)云計算數(shù)據(jù)中心均攤成本。主要包括云計算數(shù)據(jù)中心建設(shè)成本、配套的供電和制冷設(shè)備購置和安裝成本,以及云計算數(shù)據(jù)中心后期維護成本;
2)云計算數(shù)據(jù)中心IT設(shè)備購成本。主要包括計算、存儲和網(wǎng)絡(luò)服務(wù)器購置成本、服務(wù)器機柜購置成本和服務(wù)器機柜網(wǎng)絡(luò)設(shè)備購置成本以及上述設(shè)備的后期維護成本;
3)云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)設(shè)備成本。主要包括云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)設(shè)備和線纜采購和部署成本以及后期維護成本;
4)云計算數(shù)據(jù)中心能耗成本。主要包括云計算數(shù)據(jù)中心計算資源、存儲資源、網(wǎng)絡(luò)設(shè)備和數(shù)據(jù)中心供電和制冷設(shè)備的能耗成本。
如圖2所示,本文提出的面向云計算業(yè)務(wù)數(shù)據(jù)中心整體擁有成本模型成本由3部分成本組成:針對云計算業(yè)務(wù)的數(shù)據(jù)中心均攤成本(Cinfrastructure)、滿足該計算業(yè)務(wù)的云計算數(shù)據(jù)中心IT設(shè)備購置成本(Cserver)、云計算數(shù)據(jù)中心能耗成本(Cpower)。具體過程為:
圖2 TCO模型框架Fig.2 TCO model framework
1)通過云計算數(shù)據(jù)中心業(yè)務(wù),確定所需IT設(shè)備的數(shù)量,結(jié)合IT設(shè)備備份策略,確定最終采購IT設(shè)備的數(shù)量Ntotalserver;根據(jù)IT設(shè)備的數(shù)量,云計算數(shù)據(jù)中心單臺服務(wù)器機柜最大供電量能力,IT設(shè)備運行云計算業(yè)務(wù)的最大功耗,確定滿足該業(yè)務(wù)所需采購的服務(wù)器機柜數(shù)量;根據(jù)采購IT設(shè)備的數(shù)量Nserver與單臺IT設(shè)備采購價格,確定IT設(shè)備采購成本。根據(jù)采購的服務(wù)器機柜數(shù)量與單臺服務(wù)器機柜采購價格確定服務(wù)器機柜采購成本,進而確定采購云計算數(shù)據(jù)中心IT設(shè)備購置成本;
2)提出云計算數(shù)據(jù)中心成本因子概念Cfactor,將云計算數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)成本Cbuilding,云計算數(shù)據(jù)中心配套的供電和制冷設(shè)備購置成本Ccoolingpower,云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)和線纜購置和安裝成本,云計算數(shù)據(jù)中心運維人員工資成本,云計算數(shù)據(jù)中心日常維護成本,云計算數(shù)據(jù)中心最大服務(wù)整機柜的設(shè)計數(shù)量,計算出計算數(shù)據(jù)中心成本因子既單臺服務(wù)器機柜均攤成本。結(jié)合所需采購的服務(wù)器機柜數(shù)量計算該業(yè)務(wù)所需云計算數(shù)據(jù)中心的基礎(chǔ)架構(gòu)均攤成本;
3)根據(jù)單臺IT設(shè)備功耗、IT設(shè)備數(shù)量,所需網(wǎng)絡(luò)設(shè)備數(shù)量和網(wǎng)絡(luò)設(shè)備功耗,計算IT設(shè)備與網(wǎng)絡(luò)設(shè)備總功耗,結(jié)合云計算數(shù)據(jù)中心電源使用效率(power usage effectiveness,PUE)、的電費成本計算該業(yè)務(wù)所需能耗成本。
針對云計算數(shù)據(jù)中心業(yè)務(wù)需要多種不同類型的IT設(shè)備的特點,多種不同類型的IT設(shè)備配置的云計算數(shù)據(jù)中心總TCO 成本CTCO為:
(1)
式中:Cinfrastructure,k表示第k種IT設(shè)備云計算數(shù)據(jù)中心的基礎(chǔ)架構(gòu)均攤成本;Cserver,k表示第k種IT設(shè)備購置成本;Cpower,k表示第k種IT設(shè)備所需能耗成本。
在不丟失普遍性的條件下,TCO模型的計算過程中將TCO成本換算成為每年的TCO成本,將多種IT設(shè)備換算成為一種IT設(shè)備進行計算。
如果業(yè)務(wù)需要運行N年,該業(yè)務(wù)運行的總TCO成本CTCOperyear,k為:
(2)
式中CTCOperyear,k為第k年業(yè)務(wù)運行的TCO。
針對特定業(yè)務(wù)的云計算數(shù)據(jù)中心進行TCO模型的估算,假定特定業(yè)務(wù)的業(yè)務(wù)量為Btotal,該業(yè)務(wù)需要k種不同類型的IT設(shè)備,每種IT設(shè)備完成的業(yè)務(wù)量為Bk。第k種類型IT設(shè)備的業(yè)務(wù)量為Bserver,k,為完成該業(yè)務(wù)量所需IT設(shè)備采購數(shù)量Nserver為:
(3)
式中Nserver為上取整。
第k種類型IT設(shè)備,機柜所支持的最大節(jié)點數(shù)量Nsperrack,k為:
(4)
式中:V為云計算數(shù)據(jù)中心的為機柜提供的輸出電壓;Imax為計算數(shù)據(jù)中心的為機柜的額定輸出電流;Pservermax,k為第k種類型IT設(shè)備運行該業(yè)務(wù)時的最大功耗;Pnetworkmax,k為網(wǎng)絡(luò)設(shè)備運行該業(yè)務(wù)時的最大功耗。計算結(jié)果采取下取整。
為完成該云計算業(yè)務(wù)量所需服務(wù)器機柜數(shù)量和服務(wù)器機柜網(wǎng)絡(luò)設(shè)備數(shù)量為:
(5)
云計算數(shù)據(jù)中心成本因子(Cfactor)既每臺機柜每年在云計算數(shù)據(jù)中心的成本均攤。云計算數(shù)據(jù)中心成本主要由云計算數(shù)據(jù)中心建設(shè)成本、云計算數(shù)據(jù)中心供電、制冷設(shè)備采購成本、云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)與線纜的采購成本和云計算數(shù)據(jù)中心維護成本構(gòu)成。云計算數(shù)據(jù)中心成本因子為:
Cfactor=Cinperrack+Ccoolingperrack+CIDCmantenanceperrack+
Cpowerperrack+Cnetperrack
(6)
每臺機柜每年的云計算數(shù)據(jù)中心建設(shè)的均攤成本Cinperrack為:
(7)
每臺機柜每年的云計算數(shù)據(jù)中心供電均攤成本Cpowerperrack為:
(8)
每臺機柜每年的云計算數(shù)據(jù)中心制冷設(shè)備均攤成本Ccoolingperrack為:
(9)
每臺機柜每年的云計算數(shù)據(jù)中心維護均攤成本CIDCmantenanceperrack為:
(10)
每臺機柜每年的云計算數(shù)據(jù)核心網(wǎng)絡(luò)和線纜購置均攤成本Cnetperrack為:
(11)
式中:Nmaxracks是云計算數(shù)據(jù)中心最大支持的服務(wù)器機柜數(shù)量;Cbuilding是云計算數(shù)據(jù)中心建設(shè)成本;Ccooling是云計算數(shù)據(jù)中心配套的制冷設(shè)備購置成本;Cpower是云計算數(shù)據(jù)中心配套的供電設(shè)備購置成本;Dbuilding是云計算數(shù)據(jù)中心折舊年限,a;Dcooling是云計算數(shù)據(jù)中心配套的供電和制冷設(shè)備折舊年限,a;Dpower是云計算數(shù)據(jù)中心配套的供電設(shè)備折舊年限,a;N是云計算數(shù)據(jù)中心維護人員數(shù)量;Csalaryperyear是云計算數(shù)據(jù)中心維護人員每年的平均工資;Coperate是云計算數(shù)據(jù)中心日常運維成本;Cnetcore為云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)設(shè)備采購成本;Ccable為云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)設(shè)備線纜采購成本;Dnetcore為云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)設(shè)備折舊年限;Dcable為云計算數(shù)據(jù)中心核心網(wǎng)絡(luò)設(shè)備線纜折舊年限,上述參數(shù)為云計算數(shù)據(jù)中心基本參數(shù)信息,可以從數(shù)據(jù)中心獲取相關(guān)數(shù)據(jù)信息。
云計算數(shù)據(jù)中心建設(shè)成本Cbuilding、云計算數(shù)據(jù)中心配套的制冷設(shè)備購置成本Ccooling和云計算數(shù)據(jù)中心配套的供電設(shè)備購置成本Cpower可以根據(jù)云計算數(shù)據(jù)中心實際成本進行精確計算,也可以根據(jù)下述公式進行估算:
其中云計算數(shù)據(jù)中心建設(shè)成本Cbuilding的估算公式為:
Cbuilding=AperrackNmaxracksKbuildingCbuildingpersqm
(12)
式中:Aperrack是一個機架的占地面積;Nmaxracks是云計算數(shù)據(jù)中心最大支持的機柜數(shù)量;Kbuilding是因云數(shù)據(jù)中心制冷和配電設(shè)備、辦公場所等占用更多空間的一個因子;Cbuildingpersqm是每平方米云計算數(shù)據(jù)中心的建筑成本。
云計算數(shù)據(jù)中心配套的制冷設(shè)備購置成本Ccooling為:
Ccooling=CcoolingperW(Ptotalserverpower+Ptotalnetworkpower)
(13)
式中:CcoolingperW是每瓦制冷設(shè)備基礎(chǔ)設(shè)施的采購和建設(shè)成本;Ptotalserverpower為云計算數(shù)據(jù)中心服務(wù)器設(shè)備規(guī)劃總功耗;Ptotalnetworkpower為云計算數(shù)據(jù)中心網(wǎng)絡(luò)互連設(shè)備規(guī)劃總功耗。
云計算數(shù)據(jù)中心配套的供電設(shè)備購置成本Cpower為:
Cpower=CpowerperW(Ptotalserverpower+Ptotalnetworkpower)
(14)
式中:CcoolingperW是每瓦制冷設(shè)備基礎(chǔ)設(shè)施的采購和建設(shè)成本;CpowerperW是每瓦供電設(shè)備基礎(chǔ)設(shè)施的采購和建設(shè)成本;Ptotalserverpower為云計算數(shù)據(jù)中心服務(wù)器設(shè)備規(guī)劃總功耗;Ptotalnetworkpower為云計算數(shù)據(jù)中心網(wǎng)絡(luò)互連設(shè)備規(guī)劃總功耗。
因此,由云計算數(shù)據(jù)中心成本因子Cfactor可知,該業(yè)務(wù)每年的云計算數(shù)據(jù)中心均攤成本為:
Cinfrastructure=CfactorNrack
(15)
式中:Nrack為滿足該云計算業(yè)務(wù)所需要的機柜數(shù)量;Cfactor為云計算數(shù)據(jù)中心成本因子既每臺機柜每年在云計算數(shù)據(jù)中心的成本均攤。
該業(yè)務(wù)需要n種不同類型的IT設(shè)備,IT設(shè)備采購成本主要包括:服務(wù)器設(shè)備購置成本、機柜購置成本、網(wǎng)絡(luò)設(shè)備和線纜購置成本和維護成本。每年的云計算數(shù)據(jù)中心IT設(shè)備采購折舊成本CIT為:
Cnetworkyear+CITmantenanceyear
(16)
式中:Cperserver,k為k種類型服務(wù)器的采購成本;Nserver,k為k種類型服務(wù)器的采購數(shù)量;Dserver,k為k種類型服務(wù)器的折舊年限,a。
Crackperyear為每年該業(yè)務(wù)服務(wù)器機柜的均攤成本:
(17)
式中:Cperrack為每一臺服務(wù)器機架采購成本;Nrack為服務(wù)器機架采購數(shù)量;Drack為服務(wù)器機架折舊年限,a。
Cnetworkyear為該業(yè)務(wù)每年的云計算數(shù)據(jù)中心服務(wù)器機架網(wǎng)絡(luò)設(shè)備和線纜的均攤成本:
(18)
式中:Cnetrack為該業(yè)務(wù)云計算數(shù)據(jù)中心服務(wù)器機架網(wǎng)絡(luò)設(shè)備采購成本;Ccablerack為該業(yè)務(wù)云計算數(shù)據(jù)中心服務(wù)器機架線纜的采購成本;Dnetrack云計算數(shù)據(jù)中心服務(wù)器機架網(wǎng)絡(luò)設(shè)備的折舊年限;Dcablerack云計算數(shù)據(jù)中心服務(wù)器機架線纜的折舊年限。
CITmantenanceyear為每年的云計算數(shù)據(jù)中心IT設(shè)備維護成本:
NrackCnetworkmainperyear
(19)
式中:Csmperyear,k是云計算數(shù)據(jù)中心第k種類型服務(wù)器每年的維護成本;Cnetworkmainperyear每臺服務(wù)器機架網(wǎng)絡(luò)設(shè)備和線纜的維護成本。
上述參數(shù)數(shù)據(jù)為IT設(shè)備基本數(shù)據(jù)信息,可以通過IT設(shè)備采購獲取相關(guān)參數(shù)信息。
該業(yè)務(wù)每年云計算數(shù)據(jù)中心能耗成本為:
(20)
式中:VPUE是評價數(shù)據(jù)中心能耗效率的指標,是數(shù)據(jù)中心消耗的所有能耗與IT設(shè)備使用的能耗之比,該數(shù)據(jù)可以通過云計算數(shù)據(jù)中心獲??;CelecperKWH為云計算數(shù)據(jù)中心是每千瓦時的電費成本;Ptotal_server為所有服務(wù)器的總功耗;Ptotal_network為所有網(wǎng)絡(luò)設(shè)備的總功耗。
(21)
式中:Pserver表示在云計算數(shù)據(jù)中心典型業(yè)務(wù)應(yīng)用的條件下IT設(shè)備的功耗,假設(shè)該種云計算業(yè)務(wù)典型應(yīng)用,IT設(shè)備跑在空載模式、最大負載模式、負載均衡模式3種模式的時間分別為Tidle、Tperformance、Tbalance,在上述3種模式下IT設(shè)備的功耗分別是Pidle、Pperformance、Pbalance,則在Ptotal_server的計算公式為:
Pserver=(PidleTidle+PperformanceTperformance+PbalanceTbalance)/
(Tidle+Tperformance+Tbalance)
實驗使用2種不同的類型服務(wù)器配置進行TCO成本的估算和對比,以低功耗ARM 處理器為基礎(chǔ)代表低功耗高密度服務(wù)器配置和以英特爾至強處理器E5 2620代表的高性能服務(wù)器配置。2種服務(wù)器配置以節(jié)點的形式安裝在浪潮Smart rack整機柜服務(wù)器上。云計算業(yè)務(wù)量以標準性能評估組織(standard performance evaluation corporation,SPEC)CINT2006 Benchmarks進行模擬,假定云計算業(yè)務(wù)量為SPEC CINT2006測試值得100 000。英特爾至強處理器E5 2620每顆處理器為6核心12線程2 GHz主頻,ARM平臺每顆處理器為48核心48線程2.5 GHz主頻.
使用浪潮小型數(shù)據(jù)中心作為云計算數(shù)據(jù)中心平臺。使用48U標準機柜,機柜額定供電電流為40 A,使用浪潮小型數(shù)據(jù)中心,云計算數(shù)據(jù)中心成本因子為4 800元。
在本文中云計算業(yè)務(wù)量以SPEC CINT2006 Benchmarks進行模擬,基于SPEC CINT2006 Benchmarks和基于電能質(zhì)量分析儀PW3198對ARM服務(wù)器和英特爾至強處理器E5 2620服務(wù)器進行了性能測試和功耗測試。在SPEC最大服務(wù)器負載條件下,E5 2620服務(wù)器性能數(shù)據(jù)為261,ARM服務(wù)器性能數(shù)據(jù)為414,按照云計算業(yè)務(wù)量為SPEC CINT2006測試值得100 000進行計算,分別需要服務(wù)器節(jié)點數(shù)量為3 832和2 416臺,服務(wù)器折舊年限統(tǒng)一按照5 a進行計算,數(shù)據(jù)信息如表1所示。
表1 節(jié)點性能功耗信息Table 1 Node performance power information
按照上述試驗方法進行試驗部署ARM 處理器和英特爾至強處理器E5 2620,分別通過式(4)、(5)計算每臺柜服務(wù)器機架ARM服務(wù)器和英特爾至強處理器E5 2620服務(wù)器節(jié)點數(shù)量和ARM服務(wù)器和英特爾至強處理器E5 2620服務(wù)器需要采購機柜數(shù)量,計算結(jié)果如表2所示:
表2 IT采購數(shù)量Table 2 IT purchase quantity
因此,針對該業(yè)務(wù)量ARM服務(wù)器和英特爾至強處理器E5 2620服務(wù)器數(shù)據(jù)中心相關(guān)成本對比如表3所示。
表3 TCO數(shù)據(jù)對比Table 3 TCO data contrast information 萬元
對E5 2620服務(wù)器和ARM服務(wù)器分別使用SPEC進行業(yè)務(wù)模擬,運行該業(yè)務(wù)服務(wù)器跑到最大性能,能耗成本用峰值電費成本進行歸一化。IT設(shè)備采購成本云計算數(shù)據(jù)中心TCO中最重要的部分,每種服務(wù)器的采購成本分別為65%和64%,其次是能耗成本(18% E5 2620和18% ARM)。最后是數(shù)據(jù)中心均攤成本(17% E5 2620和18% ARM)。
通過2種服務(wù)器的TCO成本對比,針對等量的云計算業(yè)務(wù)的狀況下,ARM服務(wù)器具有較好的性能功耗比,完成等量的云計算業(yè)務(wù)量IT設(shè)備的總功耗較低,所以具有較低的能耗成本;ARM服務(wù)器具有較好的性能價格比,完成等量的云計算業(yè)務(wù)量IT設(shè)備的采購成本較低,所以具有較低的能耗成本;ARM服務(wù)器具有較高的性能密度比,完成等量的云計算業(yè)務(wù)量占用較少的云計算數(shù)據(jù)中心機架位置,所以具有較低的數(shù)據(jù)中心均攤成本。在同等條件下ARM服務(wù)器與英特爾至強處理器E5 2620服務(wù)器相比TCO成本節(jié)省了589萬元,TCO成本降低了25%。
1)IT設(shè)備采購成本是TCO成本的最重要組成部分,占云計算數(shù)據(jù)中心TCO成本60%以上,尋找高性價比的IT設(shè)備是優(yōu)化云計算數(shù)據(jù)中心的最重要方法。
2)云計算數(shù)據(jù)中心能耗成本占數(shù)據(jù)中心TCO成本的15%以上,降低IT設(shè)備的性能功耗比,可以很好的優(yōu)化能耗成本。
3)云計算數(shù)據(jù)中心成本占數(shù)據(jù)中心TCO成本的15%以上,如何根據(jù)云計算數(shù)據(jù)中心的相關(guān)特性尋找最優(yōu)的IT設(shè)備是優(yōu)化TCO成本的一個重要手段。
在未來的工作中,將針對不同業(yè)務(wù)場景業(yè)務(wù)量的模擬方法,針對大數(shù)據(jù)、分布式存儲和數(shù)據(jù)庫等不同業(yè)務(wù)模型,提出不同的性能測評方法;研究服務(wù)器故障率對服務(wù)器采購、數(shù)據(jù)中心運維帶來的影響,將服務(wù)器故障率加入到模型中;研究不同類型的生態(tài)對TCO模型的影響,設(shè)計更加精準的TCO模型。