方凱彬,李 珺,柯培超,2,程立勛*
(1. 深圳海關(guān)信息中心,廣東 深圳 518000;2. 福州大學(xué)電子信息工程學(xué)院,福建 福州 350000)
為滿足實驗研究任務(wù)所建設(shè)的網(wǎng)絡(luò)服務(wù)器托管場地,建立實驗室數(shù)據(jù)中心機房,隨著機房業(yè)務(wù)量持續(xù)增多,總體能源消耗數(shù)量也在不斷提高,限制了機房業(yè)務(wù)的可持續(xù)性發(fā)展[1]。構(gòu)建綠色、節(jié)能、低碳的數(shù)據(jù)中心機房是實驗室建設(shè)的重要研究內(nèi)容,有效衡量實驗室是否滿足節(jié)能減排指標[2],是網(wǎng)絡(luò)能耗實時監(jiān)測的關(guān)鍵性指標。
針對網(wǎng)絡(luò)能耗監(jiān)測問題,羅鈞[3]等人利用點集原理初始化種群,創(chuàng)建非線性動態(tài)調(diào)整因子,構(gòu)建擁有時間可靠性約束的功耗模型,通過改進鳥群算法完成能耗監(jiān)測與管理。但該方法沒有考慮能耗周期性特征,無法精準描述能耗數(shù)據(jù)變化規(guī)律,導(dǎo)致監(jiān)測結(jié)果準確度不高。傅啟明[4]等人使用隱含層結(jié)構(gòu)模型提取能耗有用數(shù)據(jù),采用堆疊去噪自動編碼器計算能耗深層特征,融合強化學(xué)習(xí)Q-Learning算法創(chuàng)建能耗分析模型。但方法在提取能耗數(shù)據(jù)時,計算過程復(fù)雜,降低了算法整體時效性。
綜合上述問題,本文提出一種基于GM-BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)能耗監(jiān)測方法,利用遺傳-支持向量機算法采集網(wǎng)絡(luò)能耗實時數(shù)據(jù),剔除不重要的能耗元素,融合灰色理論與反向傳播神經(jīng)網(wǎng)絡(luò),完成實驗室數(shù)據(jù)中心機房網(wǎng)絡(luò)能耗快速精準監(jiān)測。
為全方面分析數(shù)據(jù)中心機房網(wǎng)絡(luò)能耗情況,提高能耗監(jiān)測準確性,依照網(wǎng)絡(luò)節(jié)點數(shù)據(jù)的時域特點,立足實驗室機房高耗電設(shè)備、不合理機房布局、空調(diào)系統(tǒng)等能耗層面[5],使用基于遺傳-支持向量機的數(shù)據(jù)采集方法來分類問題。針對線性可分問題,支持向量機使用優(yōu)化計算完成最大化分類間隔;針對非線性問題,可采用恰當(dāng)?shù)暮撕瘮?shù)把輸入空間映射至高維空間,完成高維空間線性可分,把非線性問題轉(zhuǎn)變成線性問題,在所屬空間內(nèi)使用二次尋優(yōu)方法計算最佳線性分類,完成不同網(wǎng)絡(luò)能耗數(shù)據(jù)的屬性分類。
將若干網(wǎng)絡(luò)能耗數(shù)據(jù)樣本組成的集合表示成{xi,yi},搜尋該數(shù)據(jù)集的最大間隔超平面g(x),分類全部訓(xùn)練樣本,且保證分類偏差最低,將此尋優(yōu)過程記作:
(1)
式中,Φ(xi)代表非線性映射方程式,C為懲罰系數(shù),即對分類錯誤的懲罰水平,ξ為松弛因子。
L(ω)是一個二次型函數(shù),具有唯一極小點,使用拉格朗日算法把最佳分類面問題變換成對偶模式:
(2)
其中,αi表示拉格朗日乘子,K(xi,xj)是核函數(shù)。
懲罰系數(shù)、核函數(shù)參數(shù)等均為影響支持向量機性能優(yōu)劣的關(guān)鍵元素,需要按照具體情況挑選最優(yōu)參變量[6],保證支持向量機數(shù)據(jù)分類精度。在此基礎(chǔ)上,引入遺傳算法搜尋支持向量機的最優(yōu)參數(shù),構(gòu)建遺傳-支持向量機下數(shù)據(jù)采集模型。
在節(jié)能實驗室數(shù)據(jù)中心機房系統(tǒng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)節(jié)點會對監(jiān)測目標實施數(shù)據(jù)感知,同時把采集的數(shù)據(jù)傳輸至簇頭節(jié)點,利用簇頭節(jié)點把數(shù)據(jù)轉(zhuǎn)發(fā)到基站。把數(shù)據(jù)中心機房系統(tǒng)運行初始階段某時段收集的m個感知信息(e1,q1),(e2,q2),…,(em,qm)看作初始訓(xùn)練樣本,ei、qi依次是采樣時間與真實采樣值,訓(xùn)練兩個采樣參數(shù),獲得網(wǎng)絡(luò)能耗數(shù)據(jù)采集模型,使用基站與簇頭節(jié)點[7]保障模型采集可靠性,將數(shù)據(jù)采集模型表示成圖1。
圖1 網(wǎng)絡(luò)能耗數(shù)據(jù)采集模型示意圖
基站與簇頭節(jié)點將上個時段的歷史信息當(dāng)作訓(xùn)練數(shù)據(jù)集,將數(shù)據(jù)集引入模型內(nèi)完成學(xué)習(xí)訓(xùn)練,獲取下個時段的目標函數(shù)f(x),按照目標函數(shù)估計下個時段的感知信息并保存。簇頭節(jié)點中,對比估計數(shù)據(jù)與真實采樣值,如果差值處于事先設(shè)置的臨界值內(nèi),認定數(shù)據(jù)采集準確率較高,無需把真實數(shù)據(jù)傳送給基站,基站直接把采集數(shù)據(jù)作為真實數(shù)據(jù)進行能耗分析;反之利用簇頭節(jié)點把真實值傳遞給基站。更新數(shù)據(jù)集,把全新的實測信息代入模型樣本數(shù)據(jù)內(nèi),剔除最先收集的數(shù)據(jù),將樣本大小控制在合理范圍?;緫{借新的網(wǎng)絡(luò)能耗樣本調(diào)整模型參變量,把更新后的模型參數(shù)回傳到簇頭節(jié)點。反復(fù)執(zhí)行以上步驟,即可實現(xiàn)高質(zhì)量網(wǎng)絡(luò)能耗數(shù)據(jù)采集任務(wù)。
因無法確定每個輸入?yún)?shù)對輸出能耗監(jiān)測結(jié)果的影響水準[8],在參數(shù)較多狀態(tài)下實施網(wǎng)絡(luò)能耗監(jiān)測,影響較少的參數(shù)會讓計算過程更為繁雜[9],大幅減少能耗實時監(jiān)測效率。本文使用恰當(dāng)?shù)念A(yù)處理算法挑選關(guān)鍵參數(shù)變量,得到對能耗輸出影響較高的參數(shù)作為后續(xù)監(jiān)測方法的輸入值。
如果初始訓(xùn)練集內(nèi)包含若干個樣本,各樣本涵蓋n各屬性,將樣本集合與輸出變量分別描述成
P={P1,P2,…,Pn}
(3)
Y={Y1,Y2,…,Ym}
(4)
本文采用影響均值法[10]實現(xiàn)參數(shù)選擇,詳細計算過程為:
第三,計算全部的輸出差值IVj并求取均值,獲得第j個輸入?yún)?shù)的影響均值MIVj。因本文輸出結(jié)果僅涵蓋能耗值,因此IVj=MIVj;
第四,降序排列MIVj的絕對值,如果排序之后的前k個影響均值MIV的絕對值累計貢獻率符合式(5)的約束條件,則將前k個能耗參數(shù)作為接下來能耗監(jiān)測方法的輸入值。
(5)
其中,ηk為累計貢獻率,η0的值設(shè)定為90%。
得到干凈完整的網(wǎng)絡(luò)能耗數(shù)據(jù)后,因數(shù)據(jù)中心機房擁有周期性特征,僅采用單一方法很難獲得良好的能耗監(jiān)測結(jié)果。為完成高精度能耗實時觀測任務(wù),融合灰色理論GM(1,1)模型的小樣本數(shù)據(jù)優(yōu)勢與反向傳播(Back Propagation)神經(jīng)網(wǎng)絡(luò)方法高可靠性、擬合能力強的優(yōu)點,創(chuàng)建組合式網(wǎng)絡(luò)能耗監(jiān)測模型。所建模型無需考慮影響能耗大小的諸多要素,僅具備能耗過往信息就能完成能耗監(jiān)測任務(wù),計算過程更加方便快捷。
灰色理論是探究數(shù)據(jù)不確定性因素的一種推導(dǎo)概念,GM(1,1)是灰色理論中的基礎(chǔ)模型[11],核心思想是轉(zhuǎn)換無規(guī)則數(shù)據(jù)序列,獲得較為規(guī)律的數(shù)據(jù)序列,凸顯出數(shù)據(jù)序列全局發(fā)展趨勢。建模過程如下:
假設(shè)初始數(shù)列X(0)=(X(0)(o))是一個等時間間隔的數(shù)據(jù)序列,通過o個時間點信息預(yù)測第o+1時段數(shù)列的數(shù)據(jù),變換初始數(shù)列[12,13],增強數(shù)據(jù)自身規(guī)律性。累加計算初始數(shù)列,得到
(6)
式中,i表示累加生成系數(shù)。
初始數(shù)據(jù)累加數(shù)量越多,數(shù)列隨機性越差,規(guī)律性愈加顯著,以此就能構(gòu)建一次累加數(shù)列X(1)的微分方程[14]。同理,將GM(1,1)的白化型微分方程表示成
(7)
式中,a代表發(fā)展指數(shù),b是微分方程參數(shù)。
為獲得變量a、b的準確數(shù)值,推算數(shù)據(jù)矢量Yn并構(gòu)建數(shù)據(jù)矩陣B
Yn={X(0)(2),X(0)(3),…,X(0)(n)}
(8)
(9)
BP神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,在數(shù)據(jù)監(jiān)測方面具備極好的實用性與可靠性高,網(wǎng)絡(luò)包含三層架構(gòu):輸入層、隱含層與輸出層。BP神經(jīng)網(wǎng)絡(luò)的目標函數(shù)使用誤差平方和進行計算,假設(shè)目標輸出值是eh,Jh(t)是第h組輸入值的目標函數(shù),則BP神經(jīng)網(wǎng)絡(luò)的目標函數(shù)解析式為
(10)
其中,yqh(t)為第h組樣本輸入時,通過t次權(quán)重調(diào)節(jié)后的網(wǎng)絡(luò)輸出結(jié)果。
利用梯度下降法逆向逐層校準目標函數(shù)J權(quán)重,校準過程為
(11)
其中,u表示步長,即學(xué)習(xí)算子。
GM-BP模型的推算過程如下所示:一次累加初始網(wǎng)絡(luò)能耗數(shù)據(jù),累加序列弱化了初始數(shù)據(jù)隨機性,展現(xiàn)出能耗的總體起伏特點。把輸入與輸出數(shù)據(jù)同時采取歸一化處理[15],歸一區(qū)間是[-1,1]
(12)
其中,x表示初始數(shù)據(jù),xmax、xmin分別為最大值與最小值,y是歸一化輸出結(jié)果。
初始化網(wǎng)絡(luò)權(quán)重w和臨界值g,網(wǎng)絡(luò)訓(xùn)練使用等維灰數(shù)遞補策略,把歸一化后的網(wǎng)絡(luò)能耗數(shù)據(jù)序列劃分成若干l+1個具備長度重合的數(shù)據(jù)段,各數(shù)據(jù)段均為一個訓(xùn)練集合。在網(wǎng)絡(luò)中輸入前l(fā)個時段的能耗值,并進行反向傳播運算。儲存訓(xùn)練模型,在式(12)基礎(chǔ)上采取逆向歸一化處理,得到網(wǎng)絡(luò)能耗監(jiān)測的最終表達式
(13)
以某地區(qū)節(jié)能實驗室數(shù)據(jù)中心機房為例,現(xiàn)有面積為700m2,機架211架,已用153架。該地屬于夏熱冬暖區(qū)域,受高耗電設(shè)備的影響較多,設(shè)備月網(wǎng)絡(luò)能耗展現(xiàn)出一定的季節(jié)性特點。將實驗室2020年的機房設(shè)備月網(wǎng)絡(luò)能耗數(shù)據(jù)作為實驗樣本,如表1所示。
表1 2020年度機房設(shè)備網(wǎng)絡(luò)能耗數(shù)據(jù)
因?qū)嶒炇覕?shù)據(jù)中心機房的季節(jié)周期特征,如果實驗數(shù)據(jù)時間序列長度較大,會模糊數(shù)據(jù)中心機房月能耗自身特征,影響監(jiān)測準確率;如果實驗時間序列較小,就不能為算法提供可靠的輸入數(shù)據(jù),大幅降低檢測結(jié)果的穩(wěn)定性。為明確恰當(dāng)?shù)膶嶒灅颖緯r間序列長度,依照過往經(jīng)驗,設(shè)定實驗周期為6時,能耗監(jiān)測結(jié)果比較理想。因此將前5個月的數(shù)據(jù)序列看作輸入值,第6個月的能耗為輸出值,構(gòu)建相應(yīng)的實驗數(shù)據(jù)集完成仿真分析。為證明本文方法可靠性,在MATLAB 2020b為仿真平臺,將其與文獻[3]提出的基于改進鳥群算法的能耗監(jiān)測方法、文獻[4]提出的基于強化學(xué)習(xí)法的的能耗監(jiān)測方法進行對比實驗。
三種方法機房網(wǎng)絡(luò)能耗監(jiān)測值與真實值的對比如圖2所示,可知,三種方法均能展現(xiàn)出能耗值隨月份的改變情況,但某些月份監(jiān)測值相差很多。綜合來看,本文方法監(jiān)測曲線與真實值曲線最為接近,沒有出現(xiàn)過多偏差,監(jiān)測結(jié)果更精準。這是因為本文方法采用影響均值法選擇能耗參數(shù),消除了影響較小的參數(shù)對監(jiān)測精度的不良影響,很好地提升了能耗監(jiān)測輸出結(jié)果真實性。
圖2 不同方法網(wǎng)絡(luò)能耗監(jiān)測結(jié)果對比
為從全局評估三種能耗監(jiān)測方法性能穩(wěn)定性,使用平均相對誤差與均方根誤差兩個指標進行性能評估,計算公式分別為
(14)
(15)
圖3為三種方法能耗監(jiān)測誤差評估指標對比。
圖3 不同方法網(wǎng)絡(luò)能耗監(jiān)測誤差指標對比
觀察兩個誤差指標仿真結(jié)果看出,本文方法在誤差控制方面具備最優(yōu)操作性能,強化學(xué)習(xí)法下的能耗監(jiān)測誤差雖然和本文方法差距較小,但在監(jiān)測過程中的波動幅度較高,極易受到周邊環(huán)境干擾;改進鳥群算法構(gòu)建功耗模型時,沒有充分考慮網(wǎng)絡(luò)能耗影響因素,導(dǎo)致輸出結(jié)果不具代表性,誤差值也隨之提高。
對比三種方法網(wǎng)絡(luò)能耗監(jiān)測效率,旨在判斷哪種方法在最短時間內(nèi)獲得監(jiān)測輸出值,并將其顯示在計算機屏幕,仿真結(jié)果如圖4所示。
圖4 三種方法網(wǎng)絡(luò)能耗監(jiān)測收斂速率對比
實驗結(jié)果表明,相同實驗環(huán)境條件下,本文方法監(jiān)測訓(xùn)練速率最快,改進鳥群算法與強化學(xué)習(xí)法計算量較多,不可避免地陷入局部最優(yōu),消耗大量的監(jiān)測時間,無法滿足實驗室數(shù)據(jù)中心機房能耗監(jiān)測的實時性需求。
針對節(jié)能實驗室數(shù)據(jù)中心機房網(wǎng)絡(luò)能耗監(jiān)測效率緩慢、精度不高等現(xiàn)實問題,提出一種基于GM-BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)能耗監(jiān)測方法。所提方法計算簡便易懂,得到關(guān)鍵能耗元素的同時,可快速輸出能耗監(jiān)測結(jié)果。并在仿真中進一步表明方法可靠性,可滿足多數(shù)情況下的實驗室機房網(wǎng)絡(luò)能耗分析任務(wù)。