徐達宇,楊善林,羅 賀
(1.浙江農(nóng)林大學(xué)浙江省林業(yè)智能監(jiān)測與信息技術(shù)研究重點實驗室,浙江 杭州 311300;2.合肥工業(yè)大學(xué)過程優(yōu)化與智能決策教育部重點實驗室,安徽 合肥 230009)
?
基于廣義模糊軟集理論的云計算資源需求組合預(yù)測研究
徐達宇1,2,楊善林2,羅 賀2
(1.浙江農(nóng)林大學(xué)浙江省林業(yè)智能監(jiān)測與信息技術(shù)研究重點實驗室,浙江 杭州 311300;2.合肥工業(yè)大學(xué)過程優(yōu)化與智能決策教育部重點實驗室,安徽 合肥 230009)
論述了云計算資源需求預(yù)測的作用,提出了新的基于夾角余弦的廣義模糊軟集相似性度量方法,將相似性度量結(jié)果與預(yù)測精度相結(jié)合來獲得各單項預(yù)測模型的權(quán)重,并針對云計算環(huán)境中資源需求所表現(xiàn)出的短期動態(tài)性和長期周期性特征,選用自適應(yīng)神經(jīng)模糊推理系統(tǒng)ANFIS和季節(jié)性ARIMA模型SARIMA作為單項預(yù)測模型,以此構(gòu)建基于廣義模糊軟集理論的組合預(yù)測模型GFSS-ANFIS/SARIMA。最后將該模型用于云計算環(huán)境下的資源需求預(yù)測應(yīng)用中去。實驗結(jié)果表明,與其它預(yù)測模型相比,該模型能有效提高預(yù)測精度,具有良好的預(yù)測性能。本文所提方法能為云計算資源的高效調(diào)度和分配提供決策支持。
云計算;廣義模糊軟集;相似性度量;組合預(yù)測;自適應(yīng)神經(jīng)模糊推理系統(tǒng)
云計算以承諾向用戶提供具有高可擴展性、靈活性和成本效益的計算、存儲及其它各類應(yīng)用服務(wù)而受到業(yè)界的廣泛關(guān)注。為了實現(xiàn)這些承諾,云計算服務(wù)提供商不僅需要通過構(gòu)建完善的基礎(chǔ)設(shè)施、采取迅速有效的管理機制對資源進行規(guī)劃以提供高質(zhì)量服務(wù)來滿足用戶需求,同時還需要控制成本、提高利潤來謀求自身的長期發(fā)展,而云計算數(shù)據(jù)中心能源消耗所產(chǎn)生的費用是運營成本中一個主要的構(gòu)成部分。Bianchini[1]指出一臺功率為300瓦特的服務(wù)器,一年內(nèi)將用去338美元電費并釋放1300千克二氧化碳。相關(guān)統(tǒng)計還顯示,在2006年,美國全部的數(shù)據(jù)中心消耗了590億千瓦時電量,占全社會電力消費的2%,價值共計約41億美元,截止到2011年這一數(shù)據(jù)已翻倍,數(shù)據(jù)中心如此巨大的電力消耗不僅增加了運營商的運營成本,而且還會因高功率運行產(chǎn)生的大量熱量導(dǎo)致系統(tǒng)可靠性的降低和設(shè)備壽命的減短,繼而再次增加運營商固定資本的投入。另一方面,與高電力消耗形成鮮明對比的是數(shù)據(jù)中心資源的低利用率,研究顯示云計算數(shù)據(jù)中心各類資源(CPU,內(nèi)存,網(wǎng)絡(luò)及存儲等)的平均利用率在10%至50%之間,超過60%的服務(wù)器處于閑置狀態(tài)[2], 即這些珍貴的資源在大部分時間里未得到充分利用。因而,如何運用相關(guān)理論與方法來實現(xiàn)云計算資源的合理使用,建設(shè)具有能源意識數(shù)據(jù)中心,減小其對環(huán)境的負面影響,實現(xiàn)綠色計算成為近年來學(xué)界的研究熱點[3-4]。
云計算環(huán)境下的資源需求預(yù)測是實現(xiàn)云計算海量異構(gòu)資源有效管理以應(yīng)對動態(tài)且不確定的多元化用戶需求,保證及時、可靠地將各種資源提供給使用者的同時降低運營商、服務(wù)提供商自身的成本,以及減少數(shù)據(jù)中心能源消耗過程中重要的一步。利用歷史數(shù)據(jù)對未來一段時間內(nèi)資源需求負荷進行準確的預(yù)測,就可以運用服務(wù)器運行機制和虛擬化技術(shù)來實現(xiàn)整個云計算數(shù)據(jù)中心資源的合理分配,并為云計算運營商提供有力的決策支持。在先前的云計算資源需求預(yù)測研究中,相關(guān)學(xué)者使用了如自回歸模型(AR)[5]、模式匹配[6]、神經(jīng)網(wǎng)絡(luò)[7-8]等單項方法。然而,云計算資源需求負荷是受多種因素影響的復(fù)雜非線性系統(tǒng),在多因素影響的疊加下,單一模型難以準確描述其復(fù)雜的內(nèi)部變化規(guī)律,不能及時反映外部環(huán)境因素發(fā)生的變化,是預(yù)測精度具有非精確性的模糊系統(tǒng),而組合預(yù)測方法能有效結(jié)合各種單項預(yù)測模型的優(yōu)點,并能確保其預(yù)測誤差的方差不大于任何一個單項預(yù)測模型[9], 是在現(xiàn)有單項預(yù)測模型的基礎(chǔ)上再次提高預(yù)測精度的理想選擇。
Bates和Granger[10]于1969年首次提出組合預(yù)測的思想,它綜合利用各單項預(yù)測方法提供的信息,集成不同信息來源的預(yù)測結(jié)果, 從而提高預(yù)測精度,而組合預(yù)測的難點是最優(yōu)模型組合權(quán)重的分配。國內(nèi)學(xué)者提出了一些組合預(yù)測模型的權(quán)重確定方法,如陳華友等[11]以預(yù)測精度作為誘導(dǎo)變量值進行有序加權(quán)幾何集成,通過預(yù)測值對數(shù)序列與實際值的對數(shù)序列之間的相關(guān)程度作為目標函數(shù),提出一種基于相關(guān)系數(shù)的IWOGA算子最優(yōu)組合預(yù)測模型。孫李紅等[12]提出了基于相關(guān)系數(shù)加權(quán)集合平均來確定權(quán)重的組合預(yù)測方法。李美娟等[13]提出相容方法集和互補模型集,然后在對不同單一預(yù)測模型的漂移性和互補性研究的基礎(chǔ)上求各種模型權(quán)重,構(gòu)建了基于漂移度的組合預(yù)測模型,為組合預(yù)測模型研究提供一種新的思路。
然而,如Xiao Zhi等[14]所述,組合預(yù)測模型中由各單項模型獲得的預(yù)測值是對實際值的一個模糊描述,因此基于精確概念的傳統(tǒng)數(shù)學(xué)方法在處理此類問題時就有其不足之處。Molodtsov[15]于1999年提出了模糊軟集合(FSS, Fuzzy Soft Sets)理論用于處理嵌入在各類系統(tǒng)中的具有不確定性和非精確性問題,并在系統(tǒng)地定義了其相關(guān)法則的基礎(chǔ)上列舉了一些簡單應(yīng)用。自此,模糊軟集合理論有了快速的發(fā)展,如Maji等人[16]將該理論運用于解決決策問題,孫智勇和劉星[17]提出了基于模糊軟集合理論的稅收收入的組合預(yù)測模型。在這些研究的基礎(chǔ)上,Majumdar和Samanta[18]拓展了模糊軟集合理論并提出了廣義模糊軟集合(GFSS, Generalized Fuzzy Soft Sets)這一概念及其基本性質(zhì),給出了廣義模糊軟集合的相似性度量方法,并用一個醫(yī)學(xué)決策實例驗證了該方法的有效性。可以說,廣義模糊軟集合是模糊軟集合的進一步推廣,可以更好地處理不確定性問題[19]。
本文介紹了廣義模糊軟集合的基本概念及其性質(zhì),把廣義模糊軟集合理論引入到組合預(yù)測模型的構(gòu)建當中去,提出了新的基于夾角余弦的廣義模糊軟集合相似性度量方法,將相似性度量與單項預(yù)測模型的預(yù)測精度結(jié)合,獲得組合預(yù)測模型的權(quán)重系數(shù),從而構(gòu)建基于廣義模糊軟集合的組合預(yù)測模型,并將該方法用于預(yù)測云計算環(huán)境下的動態(tài)資源需求。在實驗中將該組合預(yù)測模型與其它預(yù)測模型在預(yù)測性能上進行了全面的比較,結(jié)果顯示了該組合預(yù)測模型的有效性和可靠性。
在本節(jié)中,首先簡單介紹模糊軟集合理論,隨后給出廣義模糊軟集合的基本概念。
2.1 模糊軟集合理論
定義2.1[15]:設(shè)U是初始論域,E是參數(shù)集,P(U)是集合U上的冪集,稱(F,E)是U上的一個軟集合,當且僅當F是E到U的所有子集的一個映射,即F:E→P(U)。
定義2.2[20]:設(shè)U是初始論域,E是參數(shù)集,設(shè)IU為U的所有模糊子集。令A(yù)?E,則稱(F,E)是U上的一個模糊軟集合,當且僅當F滿足映射關(guān)系:F:A→IU。
2.2 廣義模糊軟集合
在了解了模糊軟集合的基本定義后,下面進一步論述廣義模糊軟集合的定義。
定義2.3[18]:設(shè)U={x1,x2,…,xn}為初始論域,E={e1,e2,…em}為對應(yīng)的參數(shù)集,則(U,E)稱為軟論域。令F為映射F:E→IU,μ為E的一個模糊子集且滿足μ:E→I=[0,1],其中IU為U的所有模糊子集集合。再令映射Fμ:E→IU×I,函數(shù)Fμ具有以下定義:Fμ(e)=(F(e),μ(e)),其中F(e)∈IU。那么,Fμ就成為軟論域(U,E)上的一個廣義模糊軟集合。
在此,對于任意一個給定的參數(shù)ei,Fμ(ei)=(F(ei),μ(ei))不僅用F(ei)給出了U中每一個所考慮對象在某一特定屬性下的模糊隸屬程度,而且還用μ(ei)指出了這種隸屬程度的整體可能性大小。在Majumdar等[18]研究中還給出了兩個GFSS之間的交、并和補等運算,在此不加詳述。
2.3 基于夾角余弦的GFSS相似性度量
相似性度量是一個用于確定兩個對象間相似程度的重要工具。本文在以往研究的基礎(chǔ)上,針對GFSS自身特點,提出基于夾角余弦的GFSS相似性度量算法。由第二節(jié)的討論,可得Fμ的一般矩陣表達形式:
(2.1)
(2.2)
其中λit為矩陣Fμ中的元素,且0≤λit≤1,i,j=1,2,…,n,t=1,2,…m。同樣地,可知SG(F(ei),F(ej))滿足如下性質(zhì):
(1)0≤SG(F(ei),F(ej))≤1;
(2)SG(F(ei),F(ej))=SG(F(ej),F(ei));
(3)SG(F(ei),F(ej))=μ(ei)·μ(ej)成立,當且僅當F(ei)=F(ej)成立。
以上性質(zhì)的證明可由(2.2)式推導(dǎo)可得??梢?,本文提出的基于夾角余弦的GFSS相似性度量方法充分考慮了GFSS中的所有有效信息,滿足相似性度量的基本原理和性質(zhì),在組合模型最優(yōu)權(quán)系數(shù)的確定過程中具有重要意義。
3.1 基于GFSS組合預(yù)測模型構(gòu)建
為了解決組合預(yù)測模型權(quán)重的確定問題,本文將GFSS引入到組合模型的構(gòu)建當中,然后利用GFSS相似性度量方法和單項預(yù)測模型預(yù)測精度求解組合預(yù)測模型的權(quán)重系數(shù),獲得最優(yōu)組合預(yù)測模型。而由各單項模型轉(zhuǎn)化到其GFSS形式的關(guān)鍵是如何準確地表達預(yù)測值與實際值之間的關(guān)系,從而準確反映出單項預(yù)測模型的預(yù)測性能,即如何通過單項預(yù)測值求得GFSS中的λ和μ值。其中λ值用于獲得每個預(yù)測點的優(yōu)劣,而μ則需要利用某個單項模型的所有預(yù)測值提供的信息對該模型整體的預(yù)測效果做出定量評估,本文給出以下定義。
定義3.1:令λit和μi分別為廣義模糊軟集合(F,X)中的元素,定義:
(3.1)
(3.2)
其中,λit即為第i個預(yù)測模型在t時刻的預(yù)測精度,而由基于距離概念定義的μi構(gòu)成的隸屬度向量(μ1,μ2,…,μn)用于評估第i個預(yù)測模型的總體預(yù)測性能。
由定義3.1所求得的λ和μ值能準確反映單項模型的預(yù)測性能,又能將其合理的轉(zhuǎn)化到GFSS形式,從而可以建立個單項模型關(guān)于時間序列點的廣義模糊軟集合Fμ:
其一般的表達形式如表1所示。
由表1,利用公式(2.2)計算以上每一個Fμ(xi)與Fμ(yt)之間的相似度SG(xi,yt),在此基礎(chǔ)上可得每個單項預(yù)測模型在組合模型中的權(quán)重ωi:
(3.3)表1 本文構(gòu)建的GFSS表格形式
基于以上論述,給出基于廣義模糊軟集合的組合預(yù)測算法流程:
步驟2:利用公式(3.1)和(3.2)計算λit及μi,構(gòu)建廣義模糊軟集合(F,X);
步驟3:利用GFSS相似性度量公式(2.2)計算每個單項模型預(yù)測值與實際時間序列值的GFSS相似度SG(Fμ(xi),Fμ(yt));
步驟4:利用公式(3.3)獲得每個單項模型的權(quán)重ωi;
3.2 單項預(yù)測模型選擇及模型構(gòu)建
在云計算環(huán)境下,業(yè)務(wù)需求呈現(xiàn)多元化,海量數(shù)據(jù)存儲與分析、科學(xué)工程計算、互聯(lián)網(wǎng)及無線移動終端應(yīng)用等都將是其服務(wù)的內(nèi)容。用戶把與各自業(yè)務(wù)相關(guān)的應(yīng)用程序放置在運營商的服務(wù)器上,每個應(yīng)用程序又由多個組件構(gòu)成,各個組件又分別運行在不同的虛擬機上,這些因素導(dǎo)使云計算資源需求具有很強的非線性性和動態(tài)性,從而給預(yù)測本身以及單項預(yù)測模型的合理選擇帶來了困難,因此,需要對云計算資源負荷特征有清晰的了解才能做到合理、準確預(yù)測。
Benson等[22]和Tan Jian等[23]對目前云計算平臺上運行的各類應(yīng)用作了了分類,并對工作流特性進行了統(tǒng)計分析,揭示了多租戶環(huán)境下CPU和內(nèi)存等虛擬化資源的需求特征。從分析可得,云計算的資源負荷時間序列具有一定的模式,主要表現(xiàn)出以下幾個特性:(1)周期性。主要表現(xiàn)在負荷曲線會依據(jù)人類生產(chǎn)、生活規(guī)律,總體上會表現(xiàn)出相應(yīng)的周期性特點,如日和周的循環(huán)時間效應(yīng)。(2)應(yīng)用相關(guān)性。即云計算負荷會隨著運行在該平臺上應(yīng)用的不同而在一定時間范圍內(nèi)展現(xiàn)出特定的需求趨勢,如計算密集型應(yīng)用會對CPU資源產(chǎn)生大量需求導(dǎo)致其負荷上升,數(shù)據(jù)密集型應(yīng)用(如MapReduce,搜索等)會占用大量I/O及存儲資源從而導(dǎo)致兩者需求的增加,而在線游戲、視頻等服務(wù)同時會對CPU和內(nèi)存提出大批資源請求,這些應(yīng)用會明顯地影響其負荷。(3)隨機性。目前云計算提供的計價服務(wù)主要包括兩種形式:預(yù)定(Reservation)和按需供應(yīng)(On-Demand)[24],而資源需求的隨機性不僅來自于按需供應(yīng)這一塊,預(yù)定資源同樣也會產(chǎn)生隨機性需求,當預(yù)定的資源不足時,增加的資源需求便要按需供應(yīng),這樣就更加突顯了云計算資源需求的復(fù)雜性和不確定性?;谝陨戏治隹芍?,選擇合適的單項模型對于預(yù)測性能的提升有著重要作用。
首先,針對云計算資源需求過程中出現(xiàn)的強非線性,高不確定性和時變特性,本文選用自適應(yīng)神經(jīng)模糊推理系統(tǒng)(Adaptive Neuro-Fuzzy Inference System,ANFIS)對資源需求進行預(yù)測。ANFIS是一種多層前饋神經(jīng)網(wǎng)絡(luò),利用神經(jīng)網(wǎng)絡(luò)學(xué)習算法和模糊推理規(guī)則將輸入空間映射到輸出空間。由于其能將模糊推理系統(tǒng)的語言處理能力有效地結(jié)合到自適應(yīng)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的數(shù)值處理能力中,并允許從數(shù)值數(shù)據(jù)或?qū)<抑R的模糊性中提取規(guī)則,自適應(yīng)地構(gòu)造一個規(guī)則庫,使得ANFIS具有良好的學(xué)習、模型構(gòu)建和數(shù)據(jù)分類能力。下面將介紹本文基于ANFIS模型的預(yù)測步驟, 表2給出下文中要用到的主要標示, 圖1給出了本文所建的ANFIS模型示意圖。
步驟1:需求負荷時間序列聚類。在多用戶環(huán)境下不可避免的會產(chǎn)生需求的動態(tài)變化,這種不確定性給預(yù)測帶來諸多困難,該步驟的主要目的是從大量的歷史數(shù)據(jù)集中辨識出需求負荷時間序列中隱含的主要云計算應(yīng)用類型,反映出系統(tǒng)運行的實際情況。因此在預(yù)測前,本文用C-means算法[24]將待預(yù)測的數(shù)據(jù)集進行聚類分析,使同一子類中包含同類型的數(shù)據(jù)。對于時間序列Y(t)={y1,y2,…,yt},定義其動態(tài)情況表達值ΔY(t)為:
ΔY(t)={yt-yt-1,yt-1-yt-2,…,y2-y1},
(3.4)表2 符號及標示
圖1 ANFIS預(yù)測模型
根據(jù)動態(tài)情況表達式Δyt的值,C-means算法依據(jù)yt在某一聚類j中的隸屬度μj將其劃撥到特定的類中,該算法的目標函數(shù)為:
(3.5)
其中νj為第j個聚類的中心,J為聚類總個數(shù)。
步驟2:聚類間狀態(tài)轉(zhuǎn)移。對云計算資源需求時間序列進行聚類后,需要計算各個聚類間的狀態(tài)轉(zhuǎn)移概率,這一步驟的目的是為了接下來在用ANFIS獲得各個聚類的預(yù)測值后,能合理地分配各預(yù)測值的比率,最終得到理想的預(yù)測結(jié)果。在此,我們用貝葉斯推理來獲得所需的聚類間狀態(tài)轉(zhuǎn)移概率,即:
ξj,j′(t)=P(yt∈Cj|yt-1∈Cj′)
=P(yt-1∈Cj′|yt∈Cj)×P(yt∈Cj)
(3.6)
其中先驗概率:
(3.7)
Nt,j為t時刻時間序列中在聚類Cj中的數(shù)據(jù)個數(shù),N為時間序列數(shù)據(jù)總數(shù)。條件概率P(yt-1∈Cj′|yt∈Cj)的值可由LaplaceCorrection法進行估計:
(3.8)
Nt-1,j′為t-1時刻聚類Cj′中的數(shù)據(jù)個數(shù)。
步驟3:ANFIS預(yù)測。為了在保證預(yù)測準確性的同時降低計算復(fù)雜度,本文構(gòu)建的基于ANFIS的云計算資源預(yù)測模型是具有四個輸入{yj(t-3),yj(t-2),yj(t-1),yj(t)}的五層結(jié)構(gòu)(當輸入超過4個時,產(chǎn)生的規(guī)則數(shù)目過多,將大大增加訓(xùn)練和預(yù)測時間并降低預(yù)測性能),產(chǎn)生RULE(24),即16條推理規(guī)則。在輸入層,根據(jù)Takagi-Sugeno模糊推理法可得:
THEN
(3.9)
在L2層,利用上一層獲得的隸屬度值,用下式計算獲得該層的輸出值:
(3.10)
在L3層,計算每個節(jié)點的激勵強度占所有節(jié)點總激勵強度的比率:
(3.11)
在L4層,將L3層每個節(jié)點的標準化激勵強度值與輸入層由Takagi-Sugeno模糊推理法得到的初始輸入值進行線性組合,得到第j個聚類的ANFIS預(yù)測值,公式如下:
(3.12)
在L5層,將獲得的每個聚類的預(yù)測值用于計算全局預(yù)測值,以此來得到下一時刻的云計算資源需求值,利用由公式(3.6)求得的聚類間狀態(tài)轉(zhuǎn)移概率,以及每個聚類在t-1時刻的狀態(tài)先驗概率P(St-1=j′)以獲得t時刻每個聚類在t時刻的狀態(tài)先驗概率:
(3.13)
最后獲得整個數(shù)據(jù)集的ANFIS預(yù)測值:
(3.14)
接下來,針對云計算資源需求過程中體現(xiàn)出的周期性和趨勢性特點,本文利用季節(jié)性ARIMA模型SARIMA來進行預(yù)測,它對于循環(huán)周期性時間序列數(shù)據(jù)具有優(yōu)良的預(yù)測性能。如Tseng等[25]中所述,季節(jié)性ARIMA模型ARIMA(p,d,q)(P,D,Q)s的表達式為:
θp(B)Θp(BS)(1-B)d(1-BS)Dyt=wq(B)WQ(BS)at
(3.15)
其中:
wq(B)=1-ψ1B-ψ2B2-…-ψqBq
(3.16)
θp(B)=1-θ1B-θ2B2-…-θpBp
(3.17)
Θp(BS)=1-Θ1BS-Θ2B2S-…-ΘPBPS
(3.18)
WQ(BS)=1-W1BS-W2B2S-…-WQBQS
(3.19)
最后,在獲得了由單項模型ANFIS及SARIMA預(yù)測出的未來一段時間內(nèi)云計算資源需求值之后,需要計算出基于GFSS理論單項預(yù)測模型權(quán)重wANFIS和wSARIMA,構(gòu)建云計算環(huán)境下的資源需求組合預(yù)測模型GFSS-ANFIS/SARIMA,流程如圖2所示。
圖2 基于GFSS-ANFIS/SARIMA的云計算資源需求組合預(yù)測流程圖
本文所用實驗數(shù)據(jù)來自NASA和Clarknet[26],該數(shù)據(jù)詳細記錄了每秒鐘兩個數(shù)據(jù)中心接收到的服務(wù)請求內(nèi)容,在許多研究[8,27,28]中已被多次用于云計算需求預(yù)測及性能分析研究。為了綜合驗證本文所建組合預(yù)測模型的性能,本文在數(shù)據(jù)預(yù)處理階段將所抽取的實驗數(shù)據(jù)以10秒和60秒兩個不同的粒度進行聚合,以此來生成四組數(shù)據(jù)集:NASA-10、NASA-60、Clarknet-10和Clarknet-60,每組5000個訓(xùn)練數(shù)據(jù),并預(yù)測接下來的300個數(shù)據(jù)點,目的是檢驗GFSS-ANFIS/SARIMA組合模型在處理短期的波動性時間序列數(shù)據(jù)(NASA-10和Clarknet-10),以及長期周期性時間序列數(shù)據(jù)(NASA-60和Clarknet-60)時,是否都表現(xiàn)出穩(wěn)定的預(yù)測性能和準確的預(yù)測結(jié)果。本文選擇以平均絕對百分比誤差(MAPE)和均方根誤差(RMSE)兩個指標作為衡量預(yù)測性能是否優(yōu)良的評價指標:
(1)MAPE:
(2)RMSE:
為了驗證GFSS-ANFIS/SARIMA組合預(yù)測模型有效性,本文選取自回歸移動平均(ARMA)、BP神經(jīng)網(wǎng)絡(luò)及指數(shù)平滑三個模型作為對比,其中ARMA模型的自回歸項數(shù)p和模型的移動平均項數(shù)q分別設(shè)為p=2和q=1,BP神經(jīng)網(wǎng)絡(luò)的隱含層個數(shù)設(shè)置為20,指數(shù)平滑采用二次平滑,選取前300個點的平均值作為平滑初值,平滑參數(shù)α經(jīng)過計算機自動識別,確定為α=0.36,此時方差最小。圖3為本文所建組合預(yù)測模型GFSS-ANFIS/SARIMA的預(yù)測結(jié)果示意圖,圖4給出了該模型與各單項模型的預(yù)測精度比較結(jié)果。
圖3(a) NASA-10預(yù)測結(jié)果
圖3(b) Clarknet-10預(yù)測結(jié)果
圖3(c) NASA -60預(yù)測結(jié)果
圖3(d) Clarknet-60預(yù)測結(jié)果
圖4 與單項模型預(yù)測結(jié)果相對誤差的比較示意圖
從圖4可以看出,本文構(gòu)建的組合模型相對于以上幾個單項模型,在預(yù)測性能上有顯著地提升。同時也注意到,利用Clarknet數(shù)據(jù)獲得的預(yù)測精度要優(yōu)于NASA,原因可能是Clarknet數(shù)據(jù)比NASA數(shù)據(jù)更有規(guī)律性,相對較平穩(wěn),也易于模型把握其總體趨勢和特征,從而表現(xiàn)出更小的預(yù)測誤差。在與傳統(tǒng)的時間序列單項模型比較的基礎(chǔ)上,再用本文所用的三個單項模型,構(gòu)建陳華友[11]研究中的基于IOWGA算子的組合預(yù)測模型,以及XiaoZhi等[14]研究中所提的基于模糊軟集合理論(FSS)的組合預(yù)測模型與本文建立的組合預(yù)測模型在預(yù)測效果上進行比較。
圖5 與組合模型預(yù)測相對誤差的比較示意圖
圖5為本文構(gòu)建的模型與以上兩個組合預(yù)測模型的預(yù)測結(jié)果比較示意圖,表3給出了總的數(shù)值比較結(jié)果。
從預(yù)測結(jié)果比較中可以看到,本文所提的組合預(yù)測模型預(yù)測值與實際值在整體上最為貼近,不僅從直觀上反映出該模型良好的預(yù)測性能,而且在各評價指標上也體現(xiàn)出較大的優(yōu)勢。與傳統(tǒng)的單項時間序列預(yù)測模型相比,在預(yù)測精度和效果上都有明顯的提高,而在組合預(yù)測算法時間復(fù)雜度上,本文為O[n·(m+1)],相比于XiaoZhi等[14]研究中的O[n·m],只用了較小的代價獲就得預(yù)測精度的有效提升,而相比于陳華友[11]的時間復(fù)雜度O[n·m2],不管在預(yù)測精度上還是時間復(fù)雜度上,本文算法都優(yōu)于陳華友[11]。綜上所述,本文所構(gòu)建的組合預(yù)測模型在實際運用過程中能準確析取云計算負荷數(shù)據(jù)中所蘊含的信息內(nèi)容,并將對數(shù)據(jù)信息內(nèi)容的理解融入到模型構(gòu)建及預(yù)測的過程中去,在提升預(yù)測精度的同時具有良好的非線性及動態(tài)時間序列預(yù)測性能。
本文首先介紹了云計算資源需求預(yù)測在實現(xiàn)云計算資源高效管理中的作用,闡述廣義模糊軟集合理論相關(guān)概念,將該理論引入到組合預(yù)測模型的構(gòu)建當中,提出了廣義模糊軟集合的相似性度量公式,并將相似性度量結(jié)果與單項模型的預(yù)測精度結(jié)合獲得組合預(yù)測模型中各單項模型的最優(yōu)權(quán)值,構(gòu)建了基于廣義模糊軟集合理論、自適應(yīng)神經(jīng)模糊推理系統(tǒng)ANFIS及季節(jié)性ARIMA模型SARIMA的優(yōu)化組合預(yù)測模型GFSS-ANFIS/SARIMA,并將該組合預(yù)測模型用于云計算環(huán)境下的資源需求預(yù)測,實驗結(jié)果表明了該組合模型的有效性和合理性。
表3 各模型預(yù)測精度比較
[1] Bianchini R, Rajamony R. Power and energy management for server systems[J]. Computer, 2004, 37(11):68-74.
[2] Guenter B, Jain N, Williams C. Managing cost, performance, and reliability tradeoffs for energy-aware server provisioning[C].Proceedings of the 30th IEEE International Conference on Computer Communications,Shanghai,China,April 10-15,2011.
[3] Baliga J, Ayre R W A, Hinton K,et al.Green cloud computing: Balancing energy in processing, storage, and transport[J]. Proc. IEEE, 2011, 99(1):149 -167.
[4] Garg S K, Yeo C S, Anandasivam A,et al. Environment-conscious scheduling of HPC applications on distributed cloud-oriented data centers[J]. Journal of Parallel and Pistributed Computing, 2011, 71(6): 732-749.
[5] Mark C C T,Niyato D,Che-khong T. Evolutionary optimal virtual machine placement and demand forecaster for cloud computing[C].Proceedings of the 25th International Conference on Advanced Information Networking and Applications, Biopolis,Singapore,March 22-25,2011.
[6] Caron E, Desprez F, Muresan A. Forecasting for grid and cloud computing on-demand resources based on pattern matching[C]. Proceedings of the 2nd IEEE International Conference on Cloud Computing Technology and Science,Indianapolis,November 30-December 3,2010.
[7] Islam S, Keung J, Lee K, et al. Empirical prediction models for adaptive resource provisioning in the cloud[J]. Future Generation Computer Systems, 2011,28(1): 155-162.
[8] Duy T V T, Sato Y, Inoguchi, Y. Performance evaluation of a green scheduling algorithm for energy savings in cloud computing[C].Proceeding of International Symposium on Parallel Distributed Processing Workshops and Phd Forum IPDPSW,Atlanta,GA,April 19-23,2010.
[9] Dickinson J P. Some comments on the combination of forecasts[J]. Operational Research Quarterly, 1975,26(1):205-210.
[10] Bates J M, Granger C W J. The combination of forecasts[J]. Operations Research Quarterly, 1969, 20(4): 415-468.
[11] 陳華友,盛昭瀚.一類基于IOWGA算子的組合預(yù)測新方法[J].管理工程學(xué)報,2005,19(4):36-39.
[12] 孫李紅,沈繼紅.基于相關(guān)系數(shù)的加權(quán)幾何平均組合預(yù)測模型的性質(zhì)[J].系統(tǒng)工程理論與實踐,2009,(9): 84-91.
[13] 李美娟,陳國宏,林志炳.基于漂移度的組合預(yù)測方法研究[J].中國管理科學(xué),2011,19(3):111-117.
[14] Xiao Zhi, Gong Ke, Zou Yan. A combined forecasting approach based on fuzzy soft sets[J]. Journal of computational and Applied Mathematics, 2009,228(1): 326-333.
[15] Molodtsov D. Soft set theory-first results[J]. Computers & Mathematics with Application, 1999,37(4):19-31.
[16] Maji P K, Roy A R, Biswas R. An application of soft sets in a decision making problem[J]. Computers & Mathematics with Application, 2002,44(8):1077-083.
[17] 孫智勇,劉星.模糊軟集合理論在稅收組合預(yù)測中的應(yīng)用[J].系統(tǒng)工程理論與實踐,2011,31(5): 936-943.
[18] Majumdar P, Samanta S K. Generalized fuzzy soft sets[J]. Computers & Mathematics with Application, 2010, 59 (4): 1425-1432.
[19] Xiao Zhi, Yang Xianglei,Niu Qing,et al. A new evaluation method based on D-S generalized fuzzy soft sets and its application in medical diagnosis problem[J]. Applied Mathematical Modelling,2012, 36(10): 4592-4604.
[20] Maji P K, Biswas R, Poy A R.Intuitionistic fuzzy solf sets[J]. Journal of Fuzzy Mathematics,2001, 9(3): 677-692.
[21] Bustince H, Barrenechea E, Pagola M. Image thresholding using restricted equivalence functions and maximizing the measures of similarity[J]. Fuzzy Sets and Systems, 2007, 158(5): 496-516.
[22] Benson T, Akella A, Maltz D A. Network traffic characteristics of data centers in the wild[C].Proceedings of the 10th ACM SIGCOMM conference on Internet measurement,Melbourne,Australia,November 1-3,201 1-3,2010.
[23] Tan Jian, Dube P, Meng Xiaoqiao, et al. Exploiting resource usage patterns for better utilization prediction[C].Proceedings of the 31st International Conference on Distributed Computing Systems Workshops (ICDCSW’11), Minneapolis,Minnesota,USA,June 20-24,2011.
[24] Bezdek J, Pal S. Fuzzy models for pattern recognition[M].New Jersey,USA: IEEE Press, 1992.
[25] Tseng F M, Tzeng G H. A fuzzy seasonal ARIMA model for forecasting[J]. Fuzzy Sets and Systems, 2002, 126(3): 367-376.
[26] Traces in the Internet traffic archive[DB/OL]. http://ita.ee.lbl.gov/html/traces.html.
[27] Mehta A, Menaria M,Dangi S,et al. Envergy conservation in cloud infrastructures[C]. Prceedings of 5th Annual IEEE International Systems Conference, Montreal,Canada,April, 4-11,2011.
[28] Prevost J J, Nagothu K M,Kelley B,et al. Prediction of cloud data center networks loads using stochastic and neural models[C].Proceeding of 6th International Conference on System of Systems Engineering, Albuquerque,USA,dune 27-30,2011.
Research on Generalized Fuzzy Soft Sets Theory based Combined Model for Demanded Cloud Computing Resource Prediction
XU Da-yu1,2, YANG Shan-lin2, LUO He2
(1.Zhejiang A&F University,Zhejiang Provincial Key Laboratory of Forestry Intelligent Monitoring and Information Technology Research,Hangzhou 311300,China;2.HeFei University of Technology, Key Laboratory of Process Optimization and Intelligent Decision-making,Ministry of Education, HeFei 230009, China)
In order to realize high scalability, flexibility and cost-effectiveness, cloud computing platforms need to be able to quickly plan and provision resources. To this end, it calls for mechanisms to predict demanded resource effectively. Therefore, resource prediction is a crucial issue for efficient resource utilization in dynamic cloud computing environment. In this paper, the basic concept of generalized fuzzy soft sets is introduced, and a novel angle cosine is proposed based similarity measurement of generalized fuzzy soft sets. Then the similarity measurement result and the prediction accuracy from Adaptive Neuro-Fuzzy Inference System and Seasonal ARIMA model are adopted to obtain the weights of combined prediction model. On this basis,the generalized fuzzy soft sets theory based on the combination of forecasting model GFSS-ANFIS/SARIMA is constrncted. Finally, this model is explorted to predict the demanded resource in cloud computing. The experimental results show that the proposed model can significantly improve the prediction accuracy with high prediction performance. Efficient decision support for resource scheduling and allocation in cloud computing can be provided by the proposed method.
cloud computing; generalized fuzzy soft sets; combined prediction; similarity measurement; adaptive neuro-fuzzy inference system
1003-207(2015)05-0056-09
10.16381/j.cnki.issn1003-207x.2015.05.008
2012-11-20;
2013-06-17
國家自然科學(xué)基金資助項目(71131002, 71071045);浙江農(nóng)林大學(xué)??蒲邪l(fā)展基金人才啟動項目(2014FR082)
徐達宇(1985-),男(漢族),浙江杭州人,浙江農(nóng)林大學(xué)信息工程學(xué)院講師,研究方向:預(yù)測理論與方法、云計算.
TP391
A