周 清,張諝晟,沈子鈺,李 云
(1.南京郵電大學(xué)計算機(jī)學(xué)院,南京210023;2.江蘇省大數(shù)據(jù)安全與智能處理重點實驗室,南京210023)
數(shù)據(jù)中心是基于網(wǎng)絡(luò)的為用戶提供計算和存儲服務(wù)的大型基礎(chǔ)設(shè)施,它由服務(wù)器、存儲器和網(wǎng)絡(luò)交換機(jī)組等IT設(shè)備構(gòu)成,同時還配備了制冷設(shè)備保持機(jī)房恒溫恒濕。數(shù)據(jù)中心內(nèi)各項設(shè)備的全天候運行造成了巨大的能耗[1],但提供計算服務(wù)的服務(wù)器群中約15%的服務(wù)器卻處于空閑狀態(tài),而處于忙碌狀態(tài)的服務(wù)器中約75%其CPU使用率不足20%[2]。為了構(gòu)建綠色節(jié)能的數(shù)據(jù)中心,高能耗低能效問題正受到廣泛的關(guān)注與研究。現(xiàn)有的研究工作大多從提高能效的角度出發(fā),設(shè)計服務(wù)器群的任務(wù)流調(diào)度算法[3-4],對運行在服務(wù)器群上的用戶任務(wù)做負(fù)載均衡,從而充分利用每臺服務(wù)器的計算資源。
服務(wù)器能耗數(shù)據(jù)的獲取有兩種途徑:(1)獲得云數(shù)據(jù)中心服務(wù)提供商的授權(quán),通過該途徑可以獲取真實場景下的服務(wù)器各項性能指標(biāo)和能耗數(shù)據(jù),但研究人員很難獲得相關(guān)授權(quán)且研究成果中也不能泄漏數(shù)據(jù)集的詳細(xì)信息。(2)搭建仿真環(huán)境模擬數(shù)據(jù)中心內(nèi)服務(wù)器的運行狀態(tài),宋杰等[5]在單機(jī)環(huán)境中采集了與CPU相關(guān)的指標(biāo)和能耗數(shù)據(jù),并建立了CPU與服務(wù)器能耗之間的計算關(guān)系,但單機(jī)環(huán)境并不能體現(xiàn)客戶端與數(shù)據(jù)中心內(nèi)服務(wù)器的交互關(guān)系,而且CPU也不能反映網(wǎng)絡(luò)、內(nèi)存和磁盤等其他類型指標(biāo)對能耗的影響;Li等[6]搭建了仿真環(huán)境,采集數(shù)據(jù)后使用自動編碼器對服務(wù)器能耗建立了預(yù)測模型,但搭建仿真環(huán)境的細(xì)節(jié)并沒有表述清楚,并且只選用了World Cup 98[7]和Clark net[8]網(wǎng)絡(luò)請求日志模擬網(wǎng)絡(luò)I/O密集型任務(wù),而沒有考慮對CPU密集型任務(wù)的模擬。
特征選擇是機(jī)器學(xué)習(xí)中至關(guān)重要的預(yù)處理步驟,用于剔除不相關(guān)特征以降低數(shù)據(jù)維度和建模復(fù)雜度。傳統(tǒng)的特征選擇有[9]:過濾式(Filter)、包裹式(Wrapper)和嵌入式(Embedding)。由于過濾式不依賴于特定模型并且處理速度較快,因此在實際問題中更為常用。為獲得具有可解釋性的特征分析,基于因果關(guān)系的特征選擇受到了越來越多的關(guān)注。因果特征選擇以因果馬爾科夫假設(shè)為基礎(chǔ),將原始特征空間構(gòu)建成貝葉斯網(wǎng)絡(luò),在該網(wǎng)絡(luò)中借助條件獨立性測試尋找目標(biāo)變量的馬爾可夫邊界,以此剔除冗余特征、構(gòu)建因果特征子集[10]。因果特征選擇常用于肺癌[11]等疾病的診斷與分析,為醫(yī)療人員溯源病因提供幫助。現(xiàn)有的很多研究工作針對服務(wù)器能耗進(jìn)行了特征分析,Meisner等[12]認(rèn)為能耗由CPU主導(dǎo);Economou等[13]進(jìn)一步考慮到內(nèi)存和網(wǎng)絡(luò)對能耗的影響;Davis等[14]總結(jié)前人的研究工作后提出了一套通用的能耗特征集合,并驗證了該集合的有效性。但這些靜態(tài)的特征分析無法反映用戶任務(wù)的動態(tài)變化,也不能捕捉到用戶任務(wù)的特點。
隨著機(jī)器學(xué)習(xí)的興起,時序預(yù)測領(lǐng)域內(nèi)的最新研究工作都借助機(jī)器學(xué)習(xí)模型對多元時間序列進(jìn)行建模預(yù)測。Galicia等[15-16]基于Spark框架和決策樹(Decision tree,DT)提出了一種針對多元時間序列的建模流程。Bai等[17]深入對比了卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)在序列建模任務(wù)上的性能,并提出了能捕捉更長歷史模式的時序卷積網(wǎng)絡(luò)(Temporal convolution network,TCN)。
目前服務(wù)器能耗數(shù)據(jù)領(lǐng)域仍存在以下3個問題:
(1)為了提高數(shù)據(jù)中心能效的同時保證用戶任務(wù)的完成,任務(wù)流調(diào)度算法的設(shè)計依賴于用戶任務(wù)的特征分析與服務(wù)器未來能耗的預(yù)測結(jié)果,因此若能捕捉到用戶任務(wù)的特點并提供準(zhǔn)確的能耗預(yù)測結(jié)果將有助于提高任務(wù)流調(diào)度算法的優(yōu)越性。
(2)由于涉及公司商業(yè)機(jī)密與用戶個人隱私,國內(nèi)外的云數(shù)據(jù)中心服務(wù)提供商不會公開服務(wù)器的各項性能指標(biāo)和能耗數(shù)據(jù),相對應(yīng)的用戶任務(wù)也不會透露,因此沒有公開的服務(wù)器能耗數(shù)據(jù)集供研究人員使用。
(3)不同類型的用戶任務(wù)會使不同的服務(wù)器性能指標(biāo)成為關(guān)鍵特征,例如CPU密集型任務(wù)和網(wǎng)絡(luò)I/O密集型任務(wù)的關(guān)鍵特征就有很大不同。但現(xiàn)有的過濾式特征選擇構(gòu)建的特征子集內(nèi)會存在冗余特征,這些冗余特征無法反映用戶任務(wù)的特點,會對運維人員判斷用戶任務(wù)類型產(chǎn)生誤導(dǎo),因此過濾式特征選擇不能滿足運維人員的需求。
針對上述問題,本文首先提出了一套模擬數(shù)據(jù)中心內(nèi)服務(wù)器運行情況的仿真環(huán)境架構(gòu);隨后基于該架構(gòu),本文以FFmpeg和World Cup 98兩種Benchmark為例,分別模擬CPU密集型和網(wǎng)絡(luò)I/O密集型任務(wù)采集服務(wù)器能耗數(shù)據(jù)集;最后本文將基于因果關(guān)系的特征選擇應(yīng)用到能耗數(shù)據(jù)的特征分析中,并與過濾式特征選擇進(jìn)行了對比實驗,這是因果特征選擇首次應(yīng)用于能耗數(shù)據(jù)的特征分析中。實驗結(jié)果表明,因果特征在75%的情況下取得了最優(yōu)的預(yù)測精度,同時其特征子集大小約為過濾式特征子集大小的1/3到1/6。結(jié)合具體的用戶任務(wù)來看,因果特征子集排除了冗余特征,只保留了最能體現(xiàn)用戶任務(wù)特點的特征,為運維人員設(shè)計服務(wù)器群的任務(wù)流調(diào)度算法提供了具有可解釋性的依據(jù)和指導(dǎo)。
過濾式特征選擇將特征與目標(biāo)變量間的關(guān)系分為強(qiáng)相關(guān)、弱相關(guān)和不相關(guān),并旨在挑選強(qiáng)相關(guān)特征[18],衡量特征間相關(guān)性的統(tǒng)計指標(biāo)一般選用皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)或斯皮爾曼等級相關(guān)系數(shù)(Spearman’s rank correlation coefficient),它們的取值范圍在[-1,1]內(nèi),其中“-1”表示X和Y完全負(fù)相關(guān),“0”表示X和Y完全不相關(guān),“1”表示X和Y完全正相關(guān)。皮爾遜相關(guān)系數(shù)用于衡量變量間的線性關(guān)系,其數(shù)學(xué)描述如下
式中:Cov(X,Y)為X和Y的協(xié)方差,σX和σY分別為X和Y的標(biāo)準(zhǔn)差。斯皮爾曼等級相關(guān)系數(shù)衡量地是變量間的單調(diào)關(guān)系,其數(shù)學(xué)描述如下
盡管過濾式構(gòu)建的特征子集與目標(biāo)變量間具有強(qiáng)相關(guān)性,但特征子集內(nèi)會存在冗余性,即多個特征組合后會蘊(yùn)含其他特征的信息從而使得其他特征成為冗余特征。冗余特征的存在會在一定程度上誤導(dǎo)運維人員對當(dāng)前用戶任務(wù)類型的判斷。而基于因果關(guān)系的特征選擇旨在構(gòu)建與目標(biāo)變量強(qiáng)相關(guān)且非冗余的特征子集,它以因果馬爾可夫假設(shè)為理論基礎(chǔ),借助于條件獨立性測試,搜索目標(biāo)變量在貝葉斯網(wǎng)中的馬爾可夫邊界,從而構(gòu)建出具有可解釋性的特征子集[19]。根據(jù)因果關(guān)系可以將特征進(jìn)一步細(xì)分為4種類型:強(qiáng)相關(guān)特征、非冗余特征、冗余特征和不相關(guān)特征,圖1展示了這4類特征間的關(guān)系。
圖1 特征類型及其關(guān)系Fig.1 Feature types and their relationship
Hiton-PC:尋找目標(biāo)變量的直接父子結(jié)點。
輸入:訓(xùn)練數(shù)據(jù)集、目標(biāo)變量。
輸出:目標(biāo)變量的直接父子結(jié)點集合。
(1)初始化目標(biāo)變量的直接父子結(jié)點集合為空集;
(2)重復(fù)步驟(3,4)直至特征空間內(nèi)沒有與目標(biāo)變量相關(guān)的特征;
(3)將特征空間中與目標(biāo)變量相關(guān)性最高的特征加入直接父子結(jié)點集合,并從特征空間內(nèi)移除該特征;
(4)檢驗直接父子結(jié)點集合內(nèi)是否存在冗余特征,若存在則移除冗余特征;
(5)返回目標(biāo)變量的直接父子結(jié)點集合。
根據(jù)因果馬爾科夫假設(shè),將能耗數(shù)據(jù)集的特征空間構(gòu)建成貝葉斯網(wǎng)絡(luò)后,對服務(wù)器能耗有決定性作用的特征在網(wǎng)絡(luò)中表現(xiàn)為能耗的直接父結(jié)點與直接子結(jié)點,直接父結(jié)點是直接導(dǎo)致能耗變化的特征,而直接子結(jié)點是因能耗變化而立即變化的特征。因此本文應(yīng)用了因果特征選擇算法Hiton[20]的一部分,即Hiton-PC算法,過程如前文所示。本文利用Hiton-PC算法尋找服務(wù)器能耗的直接父子結(jié)點,從而構(gòu)建出具有可解釋性的因果特征子集。
本文提出的仿真環(huán)境中,硬件設(shè)備包括3臺服務(wù)器、1臺路由器和1件電源分配單元(Power distribution unit,PDU)。3臺服務(wù)器分別作為服務(wù)端、客戶端和監(jiān)控端,詳細(xì)配置如表1所示。服務(wù)端模擬數(shù)據(jù)中心內(nèi)提供計算資源的服務(wù)器,客戶端模擬向數(shù)據(jù)中心請求服務(wù)的用戶電腦,監(jiān)控端模擬數(shù)據(jù)中心內(nèi)負(fù)責(zé)監(jiān)控并存儲數(shù)據(jù)的服務(wù)器。路由器負(fù)責(zé)構(gòu)建服務(wù)器之間的通信網(wǎng)絡(luò),PDU負(fù)責(zé)給服務(wù)端供電。軟件配置方面,所有服務(wù)器的操作系統(tǒng)均為CentOS,服務(wù)端配置了collectd,監(jiān)控端配置了OpenTSDB。collectd是Unix守護(hù)程序,用于收集并傳輸服務(wù)器的性能指標(biāo),通過內(nèi)置的不同探針可以采集到CPU、內(nèi)存、磁盤等類型的指標(biāo)。OpenTSDB是基于Hbase實現(xiàn)的分布式時序數(shù)據(jù)庫,與關(guān)系型數(shù)據(jù)庫不同,OpenTSDB根據(jù)時間戳存儲數(shù)據(jù)。
表1 服務(wù)器配置信息Table 1 Server configuration information
數(shù)據(jù)中心內(nèi)服務(wù)器通過網(wǎng)絡(luò)與用戶進(jìn)行交互并向用戶提供計算服務(wù)和存儲資源,因此本文選擇FFmpeg和World Cup 98兩種Benchmark分別模擬CPU密集型和網(wǎng)絡(luò)I/O密集型任務(wù),以此模擬數(shù)據(jù)中心內(nèi)服務(wù)器的運行狀態(tài)。FFmpeg是用于處理音視頻的程序,它對CPU的占用率較高,本文在服務(wù)端持續(xù)運行該程序來模擬CPU密集型任務(wù)。World Cup 98是1998年世界杯官網(wǎng)的Web請求日志,根據(jù)該日志,本文通過客戶端向服務(wù)端發(fā)送Web請求,服務(wù)端解析并處理請求后將結(jié)果返回給客戶端來模擬網(wǎng)絡(luò)I/O密集型任務(wù)。
本文提出的仿真環(huán)境架構(gòu)如圖2所示,3臺服務(wù)器通過以太網(wǎng)線直連到路由器上,服務(wù)端的電源線連接到PDU上,由PDU給服務(wù)端供電,PDU通過串行線連接到監(jiān)控端。具體的數(shù)據(jù)采集流程如下所述:
圖2 仿真環(huán)境架構(gòu)Fig.2 Architecture of simulation environment
(1)客戶端發(fā)起Web請求,請求服務(wù)端運行FFmpeg或World Cup 98以模擬CPU密集型或網(wǎng)絡(luò)I/O密集型任務(wù)。
(2)路由器將用戶請求轉(zhuǎn)發(fā)到服務(wù)端。
(3)服務(wù)端接收到用戶請求后,執(zhí)行用戶任務(wù)。在服務(wù)端運行期間,collectd采集服務(wù)端的各項性能指標(biāo),如CPU空閑時間、網(wǎng)絡(luò)傳輸報文總數(shù)、系統(tǒng)已使用的物理RAM量等,并將這些數(shù)據(jù)定期發(fā)送給路由器。
(4)路由器收到collectd采集的數(shù)據(jù)后轉(zhuǎn)發(fā)給監(jiān)控端內(nèi)的OpenTSDB進(jìn)行存儲。
(5)PDU給服務(wù)端供電,監(jiān)控端內(nèi)的自定義能耗采集腳本通過串行線定期讀取PDU的能耗數(shù)據(jù),并存儲在OpenTSDB中。
由于數(shù)據(jù)中心內(nèi)服務(wù)器的主要職責(zé)是提供計算存儲資源和網(wǎng)絡(luò)通信,因此本文選定CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)和進(jìn)程這5種類型的服務(wù)器指標(biāo)作為特征,這些特征的命名方式及物理意義如表2所示,其他各類型中斷處理的指標(biāo)由于比較瑣碎,因此沒有在表2中記錄。
表2 特征命名及物理意義Table 2 Feature naming and physical meaning
基于本文提出的仿真環(huán)境架構(gòu)和數(shù)據(jù)采集流程,本文設(shè)置collectd和自定義能耗采集腳本的采集頻率均為1 s,根據(jù)表2列出的指標(biāo)和其他瑣碎指標(biāo)構(gòu)建了共159個特征,得到的原始數(shù)據(jù)集統(tǒng)計信息如表3所示,其中ffmpeg是使用FFmepg模擬CPU密集型任務(wù)得到的數(shù)據(jù)集,wc98-44和wc98-67分別是使用World Cup 98第7周和第10周日志模擬網(wǎng)絡(luò)I/O密集型任務(wù)得到的數(shù)據(jù)集。
表3 原始數(shù)據(jù)集統(tǒng)計信息Table 3 Statistics of raw dataset
由于數(shù)據(jù)采集過程中存在白噪聲并且預(yù)測下一秒的能耗值不能提供充足的信息給運維人員,因此本文對原始數(shù)據(jù)集進(jìn)行了窗口大小為60 s的不重疊平均平滑操作,處理后的數(shù)據(jù)集統(tǒng)計信息如表4所示。本文將對處理后的數(shù)據(jù)集進(jìn)行特征分析與對比實驗。
表4 處理后的數(shù)據(jù)集統(tǒng)計信息Table 4 Statistics of processed dataset
由于數(shù)據(jù)中心內(nèi)服務(wù)器的各項性能指標(biāo)與能耗數(shù)據(jù)是按時間順序采集,因此能耗預(yù)測歸屬于多元時間序列預(yù)測問題。結(jié)合時序預(yù)測問題的定義[21],本文給出能耗預(yù)測問題的數(shù)學(xué)描述:以zt∈RN表示t時刻采集到的服務(wù)器N項指標(biāo)(包括能耗值),zt[i]∈R表示t時刻采集到的服務(wù)器第i項指標(biāo),給定長度為P的歷史數(shù)據(jù)序列X={zt1,zt2,…,ztP},目標(biāo)是預(yù)測下一時間戳的能耗值Y={ztP+1[power]}。
實驗有兩個目的:(1)結(jié)合具體用戶任務(wù),與過濾式特征子集進(jìn)行對比,驗證因果特征子集的合理性;(2)結(jié)合具體時序預(yù)測模型,分別使用過濾式和基于因果關(guān)系的特征子集進(jìn)行訓(xùn)練和測試,驗證因果特征子集的有效性。
特征選擇方面:首先,由于數(shù)據(jù)集和時序相關(guān),因此訓(xùn)練集和測試集是由處理后的數(shù)據(jù)集按時間順序以8∶2的比例劃分而來。其次,根據(jù)訓(xùn)練集剔除訓(xùn)練集和測試集中方差為0的常量特征。最后,使用皮爾遜相關(guān)系數(shù)、斯皮爾曼等級相關(guān)系數(shù)和Hiton-PC算法進(jìn)行特征選擇,本文設(shè)定閾值為0.8,若某特征和能耗間的皮爾遜相關(guān)系數(shù)或斯皮爾曼等級相關(guān)系數(shù)的絕對值大于等于該閾值,則該特征與能耗是強(qiáng)相關(guān)的,Hiton-PC算法中用于搜索冗余特征的條件特征子集大小設(shè)置為3。
時序預(yù)測方面:結(jié)合本文3.1節(jié)對于能耗預(yù)測問題的定義,本文設(shè)定時序預(yù)測的目標(biāo)是根據(jù)前10 min的歷史數(shù)據(jù)預(yù)測后1 min的能耗,即給定長度為10的歷史數(shù)據(jù)序列X={ztλ+1,ztλ+2,…,ztλ+10},目標(biāo)是預(yù)測下一時間戳的能耗值Y={ztλ+11[power]},其中λ是任意起始時間戳。
機(jī)器學(xué)習(xí)模型方面:本文選用DT、隨機(jī)森林(Random forest,RF)、長短期記憶網(wǎng)絡(luò)(Long shortterm memory network,LSTM)和時序卷積網(wǎng)絡(luò)(Temporal convolution network,TCN)這4個常用于序列建模 任務(wù)的模型,其中DT和RF使用Sklearn[22]實現(xiàn),LSTM和TCN使用Pytorch[23]實現(xiàn),LSTM和TCN以學(xué)習(xí)率0.01訓(xùn)練300次。為保證可復(fù)現(xiàn)性,所有模型的隨機(jī)數(shù)種子設(shè)置為7。
評價指標(biāo)方面:本文選用平均絕對誤差(Mean absolute error,MAE)和歸一化均方根誤差(Normalized root mean squared error,nRMSE)衡量模型的預(yù)測精度,以yi表示第i個樣本的能耗值,y?i表示預(yù)測的能耗值,n表示樣本數(shù),σy表示y的標(biāo)準(zhǔn)差,那么MAE和nRMSE的數(shù)學(xué)描述為
表5 展示了不同特征選擇算法在3個數(shù)據(jù)集上構(gòu)建的特征子集大小,其中特征子集Chaos是根據(jù)Davis等[14]提出的通用能耗特征集合構(gòu)建。由表5可知,Hiton-PC算法構(gòu)建的因果特征子集最小,約為過濾式特征子集大小的1/3~1/6。由于條件特征子集大小為3,因此Hiton-PC算法的平均時間復(fù)雜度為Ο(|N|?|PC|3),N為原始特征數(shù),PC為因果特征子集大小。
表5 特征子集大小Table 5 Size of feature subset
以CPU密集型任務(wù)為例,表6列舉了Hiton-PC算法在ffmpeg數(shù)據(jù)集上構(gòu)建的因果特征子集,其中cpu-0-idle、cpu-2-idle和cpu-3-idle分別表示第0/2/3核CPU的空閑時間,第i核CPU的運行總時間記為cpu-i-time,而CPU的空閑時間與CPU的使用率緊密相關(guān),由于
表6 ffmpeg的因果特征子集Table 6 Causal feature subset of ffmpeg data set
數(shù)據(jù)集ffmpeg的因果特征子集說明有3核CPU參與執(zhí)行了該項用戶任務(wù),反映出該項任務(wù)對于CPU的占用率較高,并且ps-state_stopped反映了處于停止?fàn)顟B(tài)的進(jìn)程產(chǎn)生了很多能耗。結(jié)合先驗知識,由于數(shù)據(jù)集ffmpeg是在服務(wù)端持續(xù)運行FFmpeg模擬CPU密集型任務(wù)采集得到,顯然CPU會產(chǎn)生大量能耗;此外,由于FFmpeg的不間斷運行會導(dǎo)致系統(tǒng)內(nèi)其他任務(wù)的掛起,服務(wù)端為了記錄這些掛起任務(wù)的必要信息也會耗費大量能源,因此Hiton-PC算法構(gòu)建的因果特征子集是合理的,并且充分反映出用戶任務(wù)的特點。而過濾式特征子集內(nèi)除了上述5個特征外,還包含了諸如cpu-0-nice、cpu-0-user和cpu-2-nice等20多個冗余特征;通用的能耗特征集合Chaos是以服務(wù)器為最小單位構(gòu)建的,無法區(qū)分不同的用戶任務(wù),因此同樣存在冗余特征。
表7 記錄了4個模型在3個數(shù)據(jù)集上分別使用5個特征子集訓(xùn)練后在測試集上的預(yù)測精度??傮w來看,使用因果特征子集訓(xùn)練的模型在75%的情況下取得了最優(yōu)預(yù)測精度,在另外25%的情況下其預(yù)測精度也在可接受的范圍內(nèi)。結(jié)合表5分析,盡管因果特征子集大小遠(yuǎn)小于過濾式特征子集大小,但預(yù)測精度不減反增,這表明因果特征子集是有效的,不僅大大縮減了特征子集規(guī)模,而且盡可能保留了有效信息。
表7 模型預(yù)測結(jié)果Table 7 Model forecast results
結(jié)合wc98-67數(shù)據(jù)集具體分析,圖3~7是使用不同特征子集訓(xùn)練LSTM的擬合曲線。在能耗曲線前半段,5個特征子集的擬合效果相似。在能耗曲線后半段,能耗開始陡然攀升時,只有因果特征子集較為貼切地跟隨真實曲線變化,而其他特征子集則完全脫離了真實曲線的攀升路徑。這是因為冗余特征在一定程度上干擾了模型,特別是在能耗發(fā)生突變時,這些干擾就會導(dǎo)致預(yù)測結(jié)果的不穩(wěn)定。圖8是對應(yīng)的損失曲線,可以發(fā)現(xiàn)因果特征子集很快收斂,這也得益于因果特征子集剔除了較多的冗余特征。
圖3 基于所有特征的擬合曲線Fig.3 Fitting curves based on all features
圖8 LSTM在wc98-67數(shù)據(jù)集上的損失曲線Fig.8 Loss curves of LSTM on wc98-67 data set
圖4 基于皮爾遜系數(shù)特征的擬合曲線Fig.4 Fitting curves based on Pearson features
圖5 基于斯皮爾曼系數(shù)特征的擬合曲線Fig.5 Fitting curves based on Spearman features
圖6 基于Chaos特征的擬合曲線Fig.6 Fitting curves based on Chaos features
圖7 基于Hiton-PC特征的擬合曲線Fig.7 Fitting curves based on Hiton-PC features
數(shù)據(jù)中心的高能耗低能效問題亟待解決,為了給運維人員設(shè)計任務(wù)流調(diào)度算法提供幫助,本文提出了一套模擬數(shù)據(jù)中心內(nèi)服務(wù)器運行狀態(tài)的仿真環(huán)境架構(gòu),并將因果特征選擇應(yīng)用到特征分析中,最后通過對比實驗論證了因果特征選擇有更穩(wěn)定的效果。
在用戶任務(wù)固定的靜態(tài)場景下,因果特征選擇能很好地捕捉到用戶任務(wù)的特點,但為了經(jīng)濟(jì)效益最大化,云數(shù)據(jù)中心服務(wù)提供商會將同一臺服務(wù)器出售給多個用戶分時使用,如何在特征漂移的動態(tài)數(shù)據(jù)流場景下進(jìn)行因果特征選擇是本文未來的研究方向。