鄒 威,費(fèi)金龍,祝躍飛,韓 冬
(1.數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室,鄭州450000;2.信息工程大學(xué),鄭州450000)
基于提升小波變換的網(wǎng)絡(luò)流量混合預(yù)測(cè)模型
鄒 威1,費(fèi)金龍1,祝躍飛1,韓 冬2
(1.數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室,鄭州450000;2.信息工程大學(xué),鄭州450000)
當(dāng)前流量預(yù)測(cè)模型難以準(zhǔn)確刻畫(huà)互聯(lián)網(wǎng)流量的多重特性,并且存在構(gòu)建時(shí)間長(zhǎng)、預(yù)測(cè)精度低的問(wèn)題。為此,設(shè)計(jì)基于提升小波分解的網(wǎng)絡(luò)流量混合預(yù)測(cè)模型(WLGC)。該模型利用提升小波將流量時(shí)間序列快速分解為分別具有低頻和高頻特性的近似時(shí)間序列和細(xì)節(jié)時(shí)間序列,近似時(shí)間序列利用最小二乘支持向量機(jī)(LSSVM)預(yù)測(cè)并通過(guò)廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)進(jìn)行誤差校準(zhǔn),細(xì)節(jié)時(shí)間序列在半軟閾值降噪后利用自適應(yīng)混沌預(yù)測(cè)方法對(duì)其預(yù)測(cè),最后使用提升小波重構(gòu)得到時(shí)間序列的預(yù)測(cè)值。仿真實(shí)驗(yàn)結(jié)果表明,該模型可有效提高預(yù)測(cè)精度。
流量預(yù)測(cè);提升小波;最小二乘支持向量機(jī);廣義回歸神經(jīng)網(wǎng)絡(luò);閾值降噪;混沌預(yù)測(cè)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)規(guī)模日益擴(kuò)大,網(wǎng)絡(luò)應(yīng)用日益多樣化,形成了一個(gè)高度復(fù)雜的非線性非平穩(wěn)系統(tǒng)。網(wǎng)絡(luò)資源的優(yōu)化配置、網(wǎng)絡(luò)的安全性和可靠性如何保證為人們提出了新的挑戰(zhàn)。對(duì)網(wǎng)絡(luò)流量的準(zhǔn)確分析以及精確高效預(yù)測(cè)是解決上述問(wèn)題的有效手段。
網(wǎng)絡(luò)流量具有多重特性,如非平穩(wěn)、非線性、自相似性、長(zhǎng)相關(guān)性、短相關(guān)性、多分形性、周期性、突發(fā)性、混沌性等。傳統(tǒng)的流量預(yù)測(cè)模型難以準(zhǔn)確刻畫(huà)當(dāng)前的網(wǎng)絡(luò)流量特性,因此,越來(lái)越多的研究轉(zhuǎn)向了非線性預(yù)測(cè)方法,如神經(jīng)網(wǎng)絡(luò)[1]、小波變換[2]、支持向量機(jī)[3]、混沌模型[4]等。神經(jīng)網(wǎng)絡(luò)具有優(yōu)良的非線性處理能力,能夠逼近任意的非線性網(wǎng)絡(luò),并且具備較強(qiáng)的自學(xué)習(xí)能力。但神經(jīng)網(wǎng)絡(luò)基于的是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,可能會(huì)導(dǎo)致過(guò)度擬合的現(xiàn)象,使得網(wǎng)絡(luò)的泛化能力下降。為了避免出現(xiàn)過(guò)度擬合的現(xiàn)象,提高模型的泛化能力,Vapnic提出了結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的支持向量機(jī)回歸模型廣泛應(yīng)用于網(wǎng)絡(luò)流量預(yù)測(cè)中[5]。最小二乘支持向量機(jī)[6](Least Squares Support Vector Machine, LSSVM)的出現(xiàn)避免了二次規(guī)劃的求解問(wèn)題,在節(jié)約計(jì)算資源的同時(shí)提高了求解速度。然而,由于網(wǎng)絡(luò)流量時(shí)間序列中存在著突變和持續(xù)的強(qiáng)烈波動(dòng), LSSVM模型的預(yù)測(cè)誤差仍有待進(jìn)一步縮小。此外, LSSVM模型的參數(shù)往往根據(jù)經(jīng)驗(yàn)確定,預(yù)測(cè)效果受到一定影響。另外,LSSVM模型無(wú)法準(zhǔn)確刻畫(huà)網(wǎng)絡(luò)流量的混沌特性,因此,文獻(xiàn)[7]提出了LSSVM模型和混沌預(yù)測(cè)模型相結(jié)合的方法,提高了預(yù)測(cè)精度。但該方法沒(méi)有考慮流量高低頻率的不同特性,并不能充分發(fā)揮LSSVM和混沌預(yù)測(cè)模型的預(yù)測(cè)能力,無(wú)法達(dá)到更高的預(yù)測(cè)精度。為此,基于具有多分辨率分析能力的傳統(tǒng)小波變換將高度復(fù)雜相關(guān)的流量時(shí)間序列分解為彼此不相關(guān)的高頻和低頻2個(gè)部分,分別利用LSSVM模型和混沌模型預(yù)測(cè)的方法應(yīng)運(yùn)而生[8]。但是,傳統(tǒng)小波基于傅里葉變換,分解和重構(gòu)的計(jì)算量大、時(shí)空復(fù)雜度高,影響預(yù)測(cè)效率。而高頻細(xì)節(jié)時(shí)間序列具有很強(qiáng)的混沌特性,信號(hào)中夾雜著的噪聲噪聲會(huì)破壞混沌吸引子的結(jié)構(gòu),導(dǎo)致預(yù)測(cè)不夠準(zhǔn)確。另外,文獻(xiàn)[9]中,在小波分解成n層后,為盡量提高預(yù)測(cè)精度,對(duì)n+1個(gè)分量分別建模并預(yù)測(cè)。但在最終將預(yù)測(cè)值合成時(shí),每一組的誤差也被合成,可能會(huì)導(dǎo)致誤差放大,影響預(yù)測(cè)精度。
針對(duì)上述問(wèn)題,本文采用運(yùn)算速度較快的提升小波變換算法[10]將原始時(shí)間序列分解為低頻近似時(shí)間序列和高頻細(xì)節(jié)時(shí)間序列。針對(duì)具有較強(qiáng)非線性特性的低頻近似時(shí)間序列采用LSSVM模型預(yù)測(cè),并利用速度快、非線性逼近能力強(qiáng)的廣義回歸神經(jīng)網(wǎng)絡(luò)[11](General Regression Neural Network,GRNN)對(duì)近似時(shí)間序列的預(yù)測(cè)誤差進(jìn)行預(yù)測(cè),校準(zhǔn)LSSVM模型的預(yù)測(cè)結(jié)果。針對(duì)高頻細(xì)節(jié)時(shí)間序列,在單位根檢驗(yàn)[12]后,將高頻分量合成后,利用半軟閾值降噪[13]的方法進(jìn)行降噪,隨后利用具有自學(xué)習(xí)能力的Volterra級(jí)數(shù)自適應(yīng)混沌預(yù)測(cè)[14]算法進(jìn)行預(yù)測(cè)。最后,對(duì)高頻和低頻序列的預(yù)測(cè)結(jié)果進(jìn)行提升小波重構(gòu),得到最終的預(yù)測(cè)結(jié)果。
2.1 構(gòu)建原理
本文提出了一種基于提升小波分解的網(wǎng)絡(luò)流量混合預(yù)測(cè)模型。模型的輸入為原始流量時(shí)間序列Xt,輸出為針對(duì)原始流量時(shí)間序列的預(yù)測(cè)值(PAt+Et′)⊕PDt。具體的混合預(yù)測(cè)模型框圖如圖1所示。
圖1 混合預(yù)測(cè)模型
該模型首先根據(jù)“分而治之”的思想,利用提升小波分解,較快地將原始流量時(shí)間序列Xt分解為低頻分量和高頻分量。低頻分量是一個(gè)比原始流量時(shí)間序列更加平滑的近似時(shí)間序列An(n為小波分解的層數(shù)),保留了原始流量時(shí)間序列中的基本特征分量,描述了網(wǎng)絡(luò)流量長(zhǎng)期演化趨勢(shì)、周期性等較為確定的性質(zhì)。高頻分量為n個(gè)細(xì)節(jié)時(shí)間序列D1,D2,…,Dn,即為原始流量時(shí)間序列中蘊(yùn)含的混沌信號(hào)以及噪聲信號(hào),顯示的是網(wǎng)絡(luò)流量的細(xì)節(jié)特征,描述了信號(hào)突變、瞬時(shí)的特性。
針對(duì)近似時(shí)間序列An,利用最小二乘支持向量機(jī)回歸模型對(duì)其預(yù)測(cè)。LSSVM模型中涉及到的參數(shù)為懲罰因子γ以及徑向基核函數(shù)的寬度σ。通過(guò)簡(jiǎn)單快速的粒子群優(yōu)化算法[15]同時(shí)尋找最優(yōu)的參數(shù)組合(γ,σ)以充分發(fā)揮LSSVM模型的逼近能力和泛化能力,得到預(yù)測(cè)值的序列PAt。隨后,利用廣義回歸神經(jīng)網(wǎng)絡(luò)對(duì)LSSVM的預(yù)測(cè)誤差序列Et進(jìn)行預(yù)測(cè)(GRNN網(wǎng)絡(luò)的光滑因子δ通過(guò)PSO優(yōu)化算法確定),得到相應(yīng)的預(yù)測(cè)值Et′,用來(lái)校準(zhǔn)PAt,即最終預(yù)測(cè)值為PAt+Et′。
針對(duì)細(xì)節(jié)時(shí)間序列D1,D2,…,Dn,若對(duì)每個(gè)Di(i=1,2,…,n)分別建模并預(yù)測(cè)會(huì)消耗大量的時(shí)間,并且將每組預(yù)測(cè)結(jié)果合成的同時(shí)對(duì)誤差也進(jìn)行了合成,會(huì)導(dǎo)致誤差的放大,影響預(yù)測(cè)精度。故考慮將Di進(jìn)行合并后再進(jìn)行建模預(yù)測(cè)。首先對(duì)Di進(jìn)行單位根檢驗(yàn),經(jīng)檢驗(yàn)發(fā)現(xiàn),高頻序列基本都是平穩(wěn)的。由于對(duì)平穩(wěn)序列做代數(shù)運(yùn)算不會(huì)改變其平穩(wěn)性,因此對(duì)這些頻譜相近的高頻細(xì)節(jié)時(shí)間序列進(jìn)行合并,以達(dá)到減少子序列的目的,同時(shí)避免了對(duì)每組分量分別建模預(yù)測(cè)帶來(lái)的誤差放大問(wèn)題。對(duì)合并后的含噪細(xì)節(jié)時(shí)間序列Dt進(jìn)行半軟閾值降噪得到了Dt′,保留了Dt的特征,并且信號(hào)較為平滑,降噪效果好。隨后用C-C方法同時(shí)確定相空間的嵌入維數(shù)m和延遲時(shí)間τ以便進(jìn)行相空間重構(gòu)[16],基于重構(gòu)的相空間,采用Volterra級(jí)數(shù)自適應(yīng)混沌預(yù)測(cè)方法對(duì)其預(yù)測(cè),得到預(yù)測(cè)值PDt。
最后,將PAt+Et′和PDt進(jìn)行提升小波重構(gòu),得到原始時(shí)間序列Xt的預(yù)測(cè)值(PAt+Et′)⊕PDt。
2.2 模型參數(shù)確定
為使上述模型的預(yù)測(cè)效果達(dá)到最佳,其相關(guān)參數(shù)的確定至關(guān)重要。提升小波分解中小波函數(shù)的選取和分解層數(shù)的確定,LSSVM模型中懲罰因子γ和徑向基核函數(shù)寬度σ的確定,以及GRNN網(wǎng)絡(luò)中光滑因子δ的確定,均為混合預(yù)測(cè)模型中需解決的關(guān)鍵問(wèn)題。
(1)小波函數(shù)的選取
針對(duì)以下4種常用的小波函數(shù)進(jìn)行比較分析(Haar,db3,coifl,sym3),選取一個(gè)最佳的小波函數(shù)。關(guān)鍵是分析判斷該小波函數(shù)是否能刻畫(huà)出原始流量的統(tǒng)計(jì)特征,結(jié)合網(wǎng)絡(luò)流量的特性,主要是長(zhǎng)相關(guān)性和多分形性。而Haar小波函數(shù)在刻畫(huà)流量的長(zhǎng)相關(guān)性和多分形性上比其他3個(gè)小波函數(shù)的性能要好。
(2)分解層數(shù)的確定
分解層數(shù)越大,所能觀察到的網(wǎng)絡(luò)流量細(xì)節(jié)特征就越多;反之,所能觀察到的細(xì)節(jié)特征就越少。但當(dāng)分解層數(shù)過(guò)大時(shí),分解的計(jì)算量也會(huì)迅速加大,不便于預(yù)測(cè)。因此,小波分解的層數(shù)不宜過(guò)大,也不宜過(guò)小。一般地,小波分解10層之后,預(yù)測(cè)誤差會(huì)趨于穩(wěn)定。另外,分解層數(shù)為3的時(shí)候,預(yù)測(cè)誤差基本可達(dá)到預(yù)期目的。因此本文將利用Haar小波函數(shù)對(duì)原始流量時(shí)間序列Xt進(jìn)行3層提升小波分解,分解為一個(gè)近似時(shí)間序列A3和3個(gè)細(xì)節(jié)時(shí)間序列D1,D2,D3。
(3)懲罰因子和徑向基核函數(shù)寬度(γ,σ)的尋優(yōu)
在LSSVM模型中,懲罰因子γ和徑向基核函數(shù)的寬度σ對(duì)模型的預(yù)測(cè)精度和泛化能力起著關(guān)鍵作用。γ能夠在訓(xùn)練誤差和模型復(fù)雜度之間取折中值,使函數(shù)具有較好的泛化能力。γ過(guò)小,訓(xùn)練誤差變大,模型復(fù)雜度降低;γ過(guò)大,訓(xùn)練誤差減小,模型復(fù)雜度提高,泛化能力變差。σ反映了支持向量之間的相關(guān)程度。σ過(guò)小,支持向量之間的相關(guān)性較差,回歸模型相對(duì)復(fù)雜,泛化能力得不到保證;σ過(guò)大,支持向量之間的相關(guān)性過(guò)大,回歸模型難以達(dá)到預(yù)期的精度。由此可見(jiàn),LSSVM模型的預(yù)測(cè)精度和泛化能力取決于γ和σ,特別是它們之間的相互影響。因此,在參數(shù)選擇時(shí)應(yīng)該綜合考慮這兩個(gè)參數(shù)形成的參數(shù)對(duì)(γ,σ)。
參數(shù)選擇的本質(zhì)是一個(gè)優(yōu)化搜索過(guò)程,因此,本文采用概念簡(jiǎn)單、效率高、容易實(shí)現(xiàn)的粒子群優(yōu)化算法對(duì)參數(shù)對(duì)(γ,σ)尋優(yōu),具體的尋優(yōu)過(guò)程如圖2所示。
圖2 基于PSO的LSSVM參數(shù)尋優(yōu)過(guò)程
PSO優(yōu)化LSSVM模型參數(shù)對(duì)(γ,σ)的具體步驟如下[15]:
Setp 1確定參數(shù)對(duì)(γ,σ)的搜索范圍,對(duì)PSO的參數(shù)進(jìn)行設(shè)置,隨機(jī)初始化每一個(gè)粒子的速度和位置。
Setp 2計(jì)算所有粒子的適應(yīng)度值,適應(yīng)度函數(shù)選為能直接反應(yīng)模型回歸性能的均方百分比誤差:
Setp 3 對(duì)每個(gè)粒子,將其適應(yīng)度值與個(gè)體極值pbest進(jìn)行比較,若小于pbest,則更新pbest。
Setp 4 對(duì)每個(gè)粒子,將其個(gè)體極值pbest與全局極值gbest進(jìn)行比較,若小于pbest,則更新pbest。
Setp 5 根據(jù)速度和位置的更新公式,對(duì)粒子的速度和位置進(jìn)行更新。
Setp 6 若未達(dá)到終止條件,則轉(zhuǎn)Step2;否則,輸出最佳參數(shù)對(duì)(γ?,σ?)。
(4)光滑因子δ的尋優(yōu)
在GRNN網(wǎng)絡(luò)中光滑因子δ的值對(duì)網(wǎng)絡(luò)性能影響很大,若δ非常大,預(yù)測(cè)值則近似于所有樣本因變量的平均值;若δ趨近于0,則預(yù)測(cè)值與訓(xùn)練樣本的值非常接近,當(dāng)需要預(yù)測(cè)的點(diǎn)在訓(xùn)練樣本中時(shí),預(yù)測(cè)值與樣本中的期望輸出非常接近。但一旦接收一個(gè)新的輸入,預(yù)測(cè)效果就會(huì)急劇變差,網(wǎng)絡(luò)失去泛化能力,即出現(xiàn)了過(guò)學(xué)習(xí)現(xiàn)象。因此,采用PSO算法尋找一個(gè)合適的光滑因子值,確保網(wǎng)絡(luò)的預(yù)測(cè)精度以及泛化能力,適應(yīng)度函數(shù)選為均方百分比誤差:
根據(jù)上節(jié)提出的混合預(yù)測(cè)模型,本文提出了一種混合預(yù)測(cè)算法。表1中給出了該算法以及各子算法的功能描述。
表1 算法及各子算法的功能描述
整個(gè)混合預(yù)測(cè)算法的偽代碼描述如下:
算法Program HybridPredict
輸入O_Time_S是原始網(wǎng)絡(luò)流量時(shí)間序列
輸出H_Predict_R是O_Time_S的最終預(yù)測(cè)結(jié)果
上述混合預(yù)測(cè)算法HybridPredict共調(diào)用4個(gè)子算法,分別是LSSVR,GRNNP,P_Respective_Chaos和P_Compose_Chaos,完成了對(duì)原始網(wǎng)絡(luò)流量時(shí)間序列的預(yù)測(cè)。
具體來(lái)說(shuō),整個(gè)算法的第2行對(duì)輸入的流量時(shí)間序列O_Time_S進(jìn)行3層提升小波分解,分解速度快、存儲(chǔ)單元利用少、時(shí)空復(fù)雜度低,很好地解決了基于傅里葉變換的傳統(tǒng)小波分解效率不高的問(wèn)題。第3行調(diào)用LSSVR子算法,利用最小二乘支持向量機(jī)回歸模型對(duì)近似時(shí)間序列A_Time_S進(jìn)行預(yù)測(cè),得到預(yù)測(cè)結(jié)果以及均方誤差,避免了標(biāo)準(zhǔn)支持向量機(jī)復(fù)雜的求解二次規(guī)劃問(wèn)題。第 4行調(diào)用GRNNP子算法,對(duì)近似時(shí)間序列的誤差序列進(jìn)行預(yù)測(cè),用于第5行的誤差校準(zhǔn),可進(jìn)一步解決流量時(shí)間序列中存在的突變和持續(xù)強(qiáng)烈波動(dòng)帶來(lái)的預(yù)測(cè)精度下降的問(wèn)題。由于GRNN網(wǎng)絡(luò)不需要訓(xùn)練,因此利用該網(wǎng)絡(luò)進(jìn)行誤差校準(zhǔn)不會(huì)導(dǎo)致預(yù)測(cè)時(shí)間成本大幅上升。第6行~第8行對(duì)3個(gè)細(xì)節(jié)時(shí)間序列D1,D2和D3進(jìn)行單位根檢驗(yàn)。第9行~第17行首先判斷3個(gè)細(xì)節(jié)時(shí)間序列是否都為平穩(wěn)時(shí)間序列,如果不都是平穩(wěn)的,則調(diào)用P_Respective_Chaos子算法對(duì)3個(gè)序列利用自適應(yīng)混沌模型分別預(yù)測(cè)。利用提升小波重構(gòu)算法得到最終的預(yù)測(cè)結(jié)果H_Predict_R;如果都是平穩(wěn)的,則將3個(gè)細(xì)節(jié)時(shí)間序列合并后,調(diào)用P_ Compose_Chaos子算法利用自適應(yīng)混沌模型進(jìn)行預(yù)測(cè),利用提升小波重構(gòu)算法得到最終預(yù)測(cè)結(jié)果H_ Predict_R,減少了預(yù)測(cè)序列的個(gè)數(shù),進(jìn)而降低了針對(duì)多個(gè)子序列分別建模預(yù)測(cè)的時(shí)空代價(jià),同時(shí)避免了對(duì)各子序列預(yù)測(cè)結(jié)果合并帶來(lái)的誤差放大的問(wèn)題。
預(yù)測(cè)實(shí)例所采用的網(wǎng)絡(luò)流量數(shù)據(jù)來(lái)自于新西蘭某ISP[17],公開(kāi)了2009年1月6日16:00:00—1月16日10:00:00的數(shù)據(jù),統(tǒng)計(jì)間隔時(shí)間為30 min,共采集到470個(gè)實(shí)驗(yàn)數(shù)據(jù),形成了一個(gè)原始網(wǎng)絡(luò)流量時(shí)間序列,如圖3所示。
圖3 原始網(wǎng)絡(luò)流量時(shí)間序列
4.1 仿真實(shí)驗(yàn)過(guò)程
實(shí)驗(yàn)選取前430個(gè)數(shù)據(jù)作為訓(xùn)練集,后40個(gè)數(shù)據(jù)作為測(cè)試集。整個(gè)仿真過(guò)程通過(guò)Matlab軟件完成。首先利用Haar小波對(duì)原始流量時(shí)間序列進(jìn)行3層提升小波分解,分解后得到近似時(shí)間序列A3與細(xì)節(jié)時(shí)間序列D1~D3,如圖4所示。
圖4 原始流量時(shí)間序列的提升小波分解
由圖4可以看出,第3層近似時(shí)間序列相對(duì)原始流量時(shí)間序列更加平滑,很好地保留原始時(shí)間序列的整體趨勢(shì)。針對(duì)該近似時(shí)間序列,采用最小二乘支持向量機(jī)回歸模型進(jìn)行預(yù)測(cè),得到預(yù)測(cè)結(jié)果以及均方誤差。模型中涉及到的懲罰因子γ和徑向基核函數(shù)的寬度σ由PSO算法確定,其中,PSO算法的初始參數(shù)設(shè)置如下:加速度常數(shù)C1=1.5,C2=1.7,慣性權(quán)重w=2,γ∈(0.01,1 000),σ∈(0.1,100),種群個(gè)數(shù)為20,最大迭代次數(shù)為200。適應(yīng)度函數(shù)選為能直接反應(yīng)模型回歸性能的均方百分比誤差:
對(duì)于3個(gè)細(xì)節(jié)時(shí)間序列,Di(i=1,2,3),經(jīng)過(guò)單位根檢驗(yàn),發(fā)現(xiàn)均為平穩(wěn)序列,故將其合并為Dt高頻信號(hào)中主要是混沌信號(hào)和與其部分重疊的噪聲信號(hào),由于噪聲信號(hào)會(huì)破壞混沌吸引子的結(jié)構(gòu),影響利用混沌模型進(jìn)行預(yù)測(cè)的預(yù)測(cè)精度。由于半軟閾值降噪方法兼顧了硬閾值和軟閾值的優(yōu)點(diǎn),在階躍跳變處和光滑處的降噪效果都比較理想,故采用半軟閾值量化的方法對(duì)Dt進(jìn)行降噪處理。圖5給出了降噪前的Dt和降噪后的Dt′。
圖5 合并的細(xì)節(jié)信號(hào)去噪
隨后,根據(jù)C-C方法得到相空間的嵌入維數(shù)m和延遲時(shí)間τ分別為6和4,基于重構(gòu)的相空間采用自適應(yīng)混沌預(yù)測(cè)法對(duì)降噪后的Dt′進(jìn)行預(yù)測(cè)。
最后,對(duì)近似時(shí)間信號(hào)的最終預(yù)測(cè)值和降噪后的細(xì)節(jié)信號(hào)Dt′的預(yù)測(cè)值,利用提升小波逆變換進(jìn)行提升小波重構(gòu),得到最終的預(yù)測(cè)值。
4.2 仿真實(shí)驗(yàn)結(jié)果及分析
圖6給出了本文提出的預(yù)測(cè)方法與常用方法(混沌預(yù)測(cè)法[18]、LSSVM 法[6]和混沌 LSSVM法[7])之間的預(yù)測(cè)值對(duì)比曲線。文獻(xiàn)[18]將網(wǎng)絡(luò)流量時(shí)間序列看作是混沌時(shí)間序列,故采用混沌模型進(jìn)行預(yù)測(cè)。從圖6中可看出,單一利用混沌模型對(duì)流量時(shí)間序列進(jìn)行預(yù)測(cè)的預(yù)測(cè)效果并不理想,原因是混沌系統(tǒng)具有初值敏感性,不具備長(zhǎng)期可預(yù)測(cè)性,故后面的時(shí)刻預(yù)測(cè)效果尤為不佳。圖6中亦可看出只通過(guò)最小二乘支持向量機(jī)模型進(jìn)行流量數(shù)據(jù)的預(yù)測(cè),整體的預(yù)測(cè)效果較好,但無(wú)法準(zhǔn)確預(yù)測(cè)真實(shí)流量的突變和持續(xù)的強(qiáng)烈波動(dòng)。文獻(xiàn)[7]基于重構(gòu)的相空間,利用最小二乘支持向量機(jī)進(jìn)行預(yù)測(cè)。由于相空間重構(gòu)將原始流量時(shí)間序列的維數(shù)擴(kuò)展到更高的維度,把時(shí)間序列中蘊(yùn)藏的信息充分顯露出來(lái),為預(yù)測(cè)提供了更多的信息,因此,圖6可見(jiàn)其預(yù)測(cè)精度高于前兩種方法。但由于該方法沒(méi)有分別針對(duì)高頻和低頻信號(hào)進(jìn)行預(yù)測(cè),針對(duì)性不強(qiáng),預(yù)測(cè)精度仍有待進(jìn)一步提高。顯然,較上述3種常用方法,本文提出的預(yù)測(cè)方法可以得到與真實(shí)的網(wǎng)絡(luò)流量數(shù)據(jù)最為接近的預(yù)測(cè)值,預(yù)測(cè)效果最佳。
圖6 不同模型的預(yù)測(cè)曲線對(duì)比
本文采用均方百分比誤差(MSPE)作為評(píng)價(jià)模型整體預(yù)測(cè)效果的指標(biāo):
表2給出了上述幾種預(yù)測(cè)方法的預(yù)測(cè)誤差對(duì)比數(shù)據(jù)??梢?jiàn)本文提出的預(yù)測(cè)方法具有最低的預(yù)測(cè)誤差,因此,同樣可以看出該方法的預(yù)測(cè)精度最高。
表2 預(yù)測(cè)誤差比較
上述實(shí)驗(yàn)通過(guò)預(yù)測(cè)曲線以及預(yù)測(cè)誤差對(duì)比,初步、直觀地驗(yàn)證了WLGC模型的有效性。下面采用殘差序列白噪聲檢驗(yàn)法[19],從理論上驗(yàn)證該模型的有效性。
由于序列值之間的變異性是絕對(duì)的,而相關(guān)性是偶然的,因此給出如下假設(shè)條件。
原假設(shè):延遲期數(shù)小于或等于m期的序列值之間相互獨(dú)立(m為指定延遲期數(shù))。
備擇假設(shè):延遲期數(shù)小于或等于m期的序列值之間有相關(guān)性。
該假設(shè)條件用數(shù)學(xué)語(yǔ)言描述即為:
其中,ρ為自相關(guān)系數(shù)。
由于本例對(duì)40個(gè)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行殘差檢驗(yàn),屬于小樣本情況,因此采用LB統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。表3為殘差序列20期樣本的自相關(guān)系數(shù)。
表3 殘差序列20期樣本的自相關(guān)系數(shù)
根據(jù)上述數(shù)據(jù),很容易得到表4的結(jié)果,可以看出,P值顯著大于顯著性水平α(α=0.05)(P表示原假設(shè)成立的可能性即概率)。所以該序列不能拒絕原假設(shè)。換言之,可以認(rèn)為該序列的波動(dòng)沒(méi)有任何統(tǒng)計(jì)規(guī)律可循,即已經(jīng)沒(méi)有可以識(shí)別的信息。因此,該殘差序列可以認(rèn)為是白噪聲序列,表明WLGC模型達(dá)到了較高的預(yù)測(cè)精度,驗(yàn)證了該模型的有效性。
表4 LB統(tǒng)計(jì)量檢驗(yàn)結(jié)果
本文提出了一種基于提升小波分解的混合預(yù)測(cè)模型WLGC。利用基于傅里葉變換的提升小波變換快速地將原始網(wǎng)絡(luò)流量時(shí)間序列分解為低頻的近似時(shí)間序列和高頻的細(xì)節(jié)時(shí)間序列。對(duì)低頻信號(hào),利用LSSVM回歸模型對(duì)其預(yù)測(cè),進(jìn)一步采用GRNN網(wǎng)絡(luò)校準(zhǔn)誤差。對(duì)高頻信號(hào),利用具有自學(xué)習(xí)能力的自適應(yīng)混沌預(yù)測(cè)方法對(duì)其預(yù)測(cè),通過(guò)提升小波重構(gòu)算法得到最終預(yù)測(cè)值。仿真結(jié)果表明,與單一利用LSSVM、混沌模型或LSSVM-Chaos模型相比,本文模型的數(shù)據(jù)擬合效果和模型預(yù)測(cè)精度更好。
[1] Hodge V,Krishnan R,Jackson T,et al.Short-term Traffic Prediction Using a Binary Neural Network[C]// Proceedings of the 43rd Annual UTSG Conference. Milton Keynes,UK:Open University,2011.
[2] Wei Yongtao,Wang Jinkuan,Wang Cuirong.Network Traffic Prediction Based on Wavelet Transform and Season ARIMA Model[C]//Proceedings of ISNN’11. Berlin,Germany:Springer-Verlag,2011:152-159.
[3] Li Lingli,Xia Hongxia,Li Lin,et al.Traffic Prediction Based on SVM Training Sample Divided by Time[J]. TELKOMNIKA Indonesian Journal of Electrical Engineering,2013,11(12):7446-7452.
[4] Fu Yinping,WeiWei.ResearchontheShort-term Traffic Flow Forecasting Method Based on Chaos Theory[C]//Proceedings of ICTE’13.Chengdu,China, [s.n.],2013:2637-2642.
[5] Cortes C,Vapnik V.Support-vector Networks[J]. Machine Learning,1995,20(3):273-297.
[6] Suykens J A K,Vandewalle J.Least Squares Support Vector Machine Classifiers[J].NeuralProcessing Letters,1999,9(3):293-300.
[7] Liang Ximing,Yan Gang,Li Shanchun,et al.Nonlinear Predictive Control Based on Least Squares Support Vector Machines and Chaos Optimization[J].Information and Control,2010,39(2):129-135.
[8] Feng Xiangrong.Traffic Prediction Scheme Based on Chaotic Models in Wireless Networks[J].Journal of Networks,2013,8(9):2101-2106.
[9] 麻書(shū)欽,范海峰.基于小波變換和時(shí)間序列的網(wǎng)絡(luò)流量預(yù)測(cè)模型[J].河南理工大學(xué)學(xué)報(bào):自然科學(xué)版, 2013,32(2):188-192.
[10] 張 軍,成禮智,楊海濱,等.基于紋理的自適應(yīng)提升小波變換圖像壓縮[J].計(jì)算機(jī)學(xué)報(bào),2010,33(1):184-192.
[11] Luo Wei,Fu Zhuo.Application of Generalized Regression Neural Network to the Agricultural Machinery Demand Forecasting[J].Applied Mechanics and Materials,2013, 278-280:2177-2182.
[12] 靳庭良.DF單位根檢驗(yàn)的勢(shì)及檢驗(yàn)式的選擇[J].統(tǒng)計(jì)與決策,2005,(5X):13-17.
[13] Chen Feng,Zhang Wenwen,Chen Qian,etal. Application ofWaveletSemi-softThreshold Filter Algorithm in EMCCD’s Image Processing[C]// Proceedings of OIT’13.Beijing,China:International Society for Optics and Photonics,2013.
[14] 張玉梅,馬 骕.交通流序列的 Volterra自適應(yīng)預(yù)測(cè)[J].計(jì)算機(jī)工程,2011,37(16):185-187.
[15] Trelea I C.The Particle Swarm Optimization Algorithm: Convergence Analysis and Parameter Selection[J]. Information Processing Letters,2003,85(6):317-325.
[16] 王海燕,盛昭瀚.混沌時(shí)間序列相空間重構(gòu)參數(shù)的選取方法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2000,30(5): 113-117.
[17] WAND Network Research Group.Waikato Internet Traffic Storage[EB/OL].[2014-01-10].http://wand.net.nz/ wits/ispdsl/1/.
[18] Yin A,Zhang S,Qi J.The Research on Network Traffic Modeling Based on Chaotic Time Series[J].Journal of Computational Information Systems,2012,8(8):3323-3330.
[19] Woodward W A,Gray H L,Elliot A C.Applied Time Series Analysis[M].[S.l.]:CRC Press:2011.
編輯 金胡考
Hybrid Prediction Model of Network Traffic Based on Lifting Wavelet Transform
ZOU Wei1,FEI Jinlong1,ZHU Yuefei1,HAN Dong2
(1.State Key Laboratory of Mathematical Engineering and Advanced Computing,Zhengzhou 450000,China; 2.Information Engineering University,Zhengzhou 450000,China)
Current traffic prediction models can not accurately depict the multi-properties of network traffic.Apart from this,model construction is time-consuming and prediction accuracy is low.To address the problem,a lifting-wavelet-based hybrid prediction model for network traffic called WLGC is proposed.In WLGC model,a lifting wavelet is adopted to quickly decompose traffic time series into low-frequency approximate time series and high-frequency detailed time series. Least Squares Support Vector Machine(LSSVM)is leveraged to predict the approximate time series and General Regression Neural Network(GRNN)is leveraged to calibrate the prediction error.The adaptive chaotic prediction method is used to predict the detailed time series after the semi-soft threshold denoising.Finally,the inverse lifting wavelet transform is performed to get the predicted values of the original time series.Simulation results verify the validity of the proposed method and the prediction accuracy is increased compared with current prediction methods.
traffic prediction;lifting wavelet;Least Squares Support Vector Machine(LSSVM);General Regression Neural Network(GRNN);threshold denoising;chaotic prediction
1000-3428(2015)01-0024-07
A
TP18
10.3969/j.issn.1000-3428.2015.01.005
國(guó)家自然科學(xué)基金資助項(xiàng)目(61309007);鄭州市科技創(chuàng)新團(tuán)隊(duì)基金資助項(xiàng)目(10CXTD150)。
鄒 威(1988-),男,碩士研究生,主研方向:信息安全;費(fèi)金龍,講師;祝躍飛,教授、博士生導(dǎo)師;韓 冬,講師。
2014-02-20
2014-03-20 E-mail:zouwei1214@126.com
中文引用格式:鄒 威,費(fèi)金龍,祝躍飛,等.基于提升小波變換的網(wǎng)絡(luò)流量混合預(yù)測(cè)模型[J].計(jì)算機(jī)工程,2015, 41(1):24-30.
英文引用格式:Zou Wei,Fei Jinlong,Zhu Yuefei,et al.Hybrid Prediction Model of Network Traffic Based on Lifting Wavelet Transform[J].Computer Engineering,2015,41(1):24-30.