于 瓊,田 憲
(1.西北工業(yè)大學(xué)保密處,陜西 西安 710072;2.西安電子科技大學(xué)物理與光電工程學(xué)院,陜西 西安 710071)
時(shí)間序列預(yù)測作為一種重要的手段對揭示事物發(fā)展變化具有重要意義,如在國民經(jīng)濟(jì)和生活中有廣泛應(yīng)用的證券市場預(yù)測、智能交通預(yù)測和氣候氣象狀態(tài)預(yù)測等[1-3]?,F(xiàn)實(shí)中復(fù)雜系統(tǒng)隱含的時(shí)間序列多為在特征上能夠既包含確定成分又表現(xiàn)出隨機(jī)性的非平穩(wěn)性和非線性的時(shí)間序列[4]。傳統(tǒng)非線性時(shí)間序列預(yù)測模型的研究工作主要集中在依靠回歸技術(shù)進(jìn)行參數(shù)建模[5 - 8],由于需要基于先驗(yàn)知識假設(shè)構(gòu)造相對應(yīng)的預(yù)測模型,訓(xùn)練模型時(shí)對原始序列信息的挖掘不充分導(dǎo)致預(yù)測精度并不理想。近年來,基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建的模型克服了經(jīng)典統(tǒng)計(jì)學(xué)方法中假設(shè)過于嚴(yán)格的缺點(diǎn),被大量運(yùn)用到非線性時(shí)間序列預(yù)測領(lǐng)域。如在處理大數(shù)據(jù)量的復(fù)雜系統(tǒng)中求解迅速的最小二乘支持向量機(jī)LS-SVM(Least Squares Support Vector Machine)[9]與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)相比,具有可求全局最優(yōu)解的優(yōu)勢并具備良好的泛化能力,且衍生出了不同形式的組合模型。文獻(xiàn)[10]構(gòu)建了蜂群算法與支持向量回歸算法相結(jié)合的組合預(yù)測模型,并驗(yàn)證了該模型在滑坡位移預(yù)測中有更高的精度。然而,在面對高復(fù)雜系統(tǒng)的時(shí)間序列特征提取時(shí),SVM方法由于對信息挖掘不到位仍然難以充分提取原始序列所蘊(yùn)含的波動模式。
為解決上述問題,本文首先利用經(jīng)驗(yàn)?zāi)B(tài)分解EMD(Empirical Model Decomposition)算法對原始序列進(jìn)行降噪分解,該算法在處理和分辨非線性非平穩(wěn)時(shí)序時(shí)比小波分解方法有更強(qiáng)的局部表現(xiàn)能力[11]。在應(yīng)用EMD對非線性時(shí)間序列進(jìn)行處理方面,文獻(xiàn)[12]選取分解后的T個本征模態(tài)函數(shù)IMF(Intrinsic Mode Function)作為快速震蕩部分,將剩余的N-T個IMF和余量(Residue)合并作為趨勢部分,然后使用小波神經(jīng)網(wǎng)絡(luò)分別對T個震蕩部分和合并后的趨勢部分建模,建模前雖然對代表趨勢的N-T個IMF進(jìn)行了合并,但對T的選取是憑借經(jīng)驗(yàn)而未給出具體的方法,其中N表示IMF個數(shù)。文獻(xiàn)[13]也對經(jīng)過EMD分解后的IMF進(jìn)行分類,將所有IMF歸為一類選用支持向量回歸算法建模,余量rn單獨(dú)歸為一類使用自回歸模型建模,由于對所有的IMF均使用了支持向量回歸建模,預(yù)測結(jié)果有待進(jìn)一步優(yōu)化。
由上述分析可知,在使用EMD對時(shí)間序列分解后,會生成多個IMF,若直接對每個IMF進(jìn)行建模,最終整個模型會很龐大,導(dǎo)致算法復(fù)雜度高且效率明顯下降。因此,本文嘗試引入赫斯特指數(shù)H(Hurst exponent)對時(shí)間序列的偏移程度進(jìn)行有效度量,提出了基于H重構(gòu)的組合模型的非線性時(shí)間預(yù)測算法。對重構(gòu)后的分量構(gòu)建最小二乘支持向量回歸與自回歸積分滑動平均組合模型進(jìn)行預(yù)測。優(yōu)化的組合模型通過對IMF的重構(gòu),減少了預(yù)測所需要的模型數(shù)目,建模的效率得到了大幅提升。
直接訓(xùn)練預(yù)測模型,不能充分利用原始序列的隱含信息??紤]到復(fù)雜系統(tǒng)時(shí)間序列非線性、非平穩(wěn)且蘊(yùn)含確定性成分,故選用經(jīng)驗(yàn)?zāi)B(tài)分解EMD自適應(yīng)數(shù)據(jù)驅(qū)動分析算法對原始序列進(jìn)行處理。EMD算法依據(jù)信號的局部時(shí)變特征將其分解為一組具有不同特征的子序列,即本征模態(tài)函數(shù)IMF。IMF必須滿足2個條件:在子序列中極值點(diǎn)與過零點(diǎn)的數(shù)目必須相等或差值為1;在子序列中局部極小值包絡(luò)線與局部極大值包絡(luò)線需關(guān)于時(shí)間軸對稱,即均值為0。這2個條件使IMF能夠代表信號不同頻率的波動或趨勢,相對于其他時(shí)頻分析方法,可以防止由于依賴基函數(shù)帶來的先驗(yàn)假設(shè)誤差,效果有待驗(yàn)證。
原始序列通過圖1所示流程,在EMD算法的逐步迭代循環(huán)求解過程中得到了平穩(wěn)化處理,初始IMF的頻率比較高,隨著不斷分解,后續(xù)IMF的頻率逐漸被削弱,最終提取到原始時(shí)間序列特定局部特征且相互之間不存在信息耦合,圖1中ci(t)為分解后的第i個IMF,rn(t)為分解n次以后的余量。
Figure 1 Empirical mode decomposition process of original sequence圖1 原始序列經(jīng)驗(yàn)?zāi)B(tài)分解流程
為了減少模型輸入量,在進(jìn)行子序列預(yù)測之前,需要對提取到的原始序列特征加以處理。綜合考慮后,本文選用重標(biāo)極差分析法R/S Analysis(Rescale Range Analysis)來降低模型復(fù)雜度。R/S分析法是一種非參數(shù)分析方法,不要求提前假設(shè)分布形態(tài),利用其基本原理容易得出自然系統(tǒng)有偏的隨機(jī)游走的波動規(guī)律[14],能夠較好地克服聚類等算法的固有缺陷,在解決區(qū)分時(shí)間序列的游走程度方面優(yōu)勢明顯。為此,以時(shí)間序列的標(biāo)準(zhǔn)差除極差定義了非參數(shù)統(tǒng)計(jì)量赫斯特指數(shù)H,算法步驟如下所示:
設(shè)一時(shí)間序列為X={x1,x2,…,xn},將序列X劃為A個長度為k的等長子區(qū)間Ai(i=1,2,…,A),n=A·k。
(1)對每個長度為k的子區(qū)間Ai={xi1,xi2,…,xik}求其算術(shù)平均值,如式(1)所示:
xim=(xi1+xi2+…+xik)/k
(1)
進(jìn)一步得到子區(qū)間Ai標(biāo)準(zhǔn)差如式(2)所示:
(2)
(2)對子區(qū)間Ai,記第j個元素的累積離差序列Xr,A={x1,A,x2,A,…,xk,A},如式(3)所示:
(3)
其中,j=1,2,…,k,得到區(qū)間內(nèi)極差如式(4)所示:
Rk=max(Xr,A)-min(Xr,A)
(4)
(3)計(jì)算A個區(qū)間的重標(biāo)極差平均值Rn/Sn,如式(5)所示:
(5)
其中,n為序列總長度,不同分段方法對應(yīng)的Rn/Sn不同。
(4)根據(jù)研究,Hurst建立的關(guān)系如式(6)所示:
Rn/Sn=c×nH
(6)
其中,H為定義的赫斯特指數(shù),c為常數(shù)。通過對式(6)取對數(shù),用最小二乘法作回歸,得到赫斯特指數(shù)的估計(jì)值,即為擬合直線的斜率。
引入未來增量與過去增量的長程相關(guān)函數(shù)如式(7)所示:
22H-1-1
(7)
其中,E{[X(0)-X(-t)][X(t)-X(0)]}表示0時(shí)刻,在過去增量分布中含有未來增量的概率。
根據(jù)式(7)可分析得出,當(dāng)H的值越接近1/2時(shí),函數(shù)表達(dá)式的值越接近0,表明時(shí)間序列過去波動與未來越不相關(guān),若H=1/2,則說明序列過去和未來不存在相關(guān)性,即該時(shí)序是一個隨機(jī)時(shí)間序列,可將其舍棄;而當(dāng)H越接近于1,函數(shù)表達(dá)式的值也就越接近于1,表明時(shí)間序列過去波動與未來越相關(guān)。進(jìn)而,取值在0~1的時(shí)間序列赫斯特指數(shù)以1/2為界可分為2個特征區(qū)間,當(dāng)0 由EMD算法可知,所有IMF都必須符合代表傳統(tǒng)的窄帶信號特征和序列內(nèi)在振動方式局部尺度的2個條件[16],進(jìn)而提取出原序列的特定波動的模式,得到不同的IMF。為了在充分利用這些原始時(shí)間序列特征的基礎(chǔ)上優(yōu)化預(yù)測效率,模型引入赫斯特指數(shù)對IMF進(jìn)行重構(gòu),整合后的IMF按其特征能夠分為非線性和線性部分,為后續(xù)選擇恰當(dāng)?shù)乃惴?gòu)建組合預(yù)測模型帶來了極大的便利。 最小二乘支持向量回歸LS-SVR(Least Squares Support Vector Regression)將LS-SVM的思想引入回歸函數(shù)估計(jì)中來解決回歸問題。與LS-SVM類似,LS-SVR用誤差平方和取代了SVM中的不敏感損失函數(shù)且將原始序列在低維空間進(jìn)行的非線性回歸轉(zhuǎn)化為在高維特征空間進(jìn)行的線性回歸,降低了運(yùn)算難度。文獻(xiàn)[17]中的實(shí)驗(yàn)說明,當(dāng)樣本數(shù)量較少時(shí),采用LS-SVR建模仍然能保持很高的精度。本文利用LS-SVR在解決非線性時(shí)間序列復(fù)雜度方面能夠很好地逼近任意高、中頻時(shí)序分量的優(yōu)勢,對重構(gòu)得到的高頻和中頻部分構(gòu)建LS-SVR模型進(jìn)行預(yù)測。在建模過程中,LS-SVR的參數(shù)可以通過交叉實(shí)驗(yàn)優(yōu)化搜索得出,相比于其他基于核學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)方法,克服了預(yù)測結(jié)果趨近于局部極小值或過擬合的問題,能夠?qū)崿F(xiàn)高、中頻分量全局最優(yōu)。 而差分自回歸移動平均ARIMA(AutoRegressive Integrated Moving Average)模型[18]通過“混合”自回歸與滑動平均,能夠很好地逼近任意低頻趨勢分量,針對低頻非平穩(wěn)部分建模,能夠?qū)崿F(xiàn)較好的擬合。本文構(gòu)建的組合預(yù)測模型綜合以上算法優(yōu)點(diǎn),建模過程如圖2所示,本文算法流程如下: (1)提取序列特征。使用EMD將原始時(shí)間序列X(t)分解為n個IMF和1個rn。 (2)求解赫斯特指數(shù)。按照R/S分析法分別計(jì)算n個IMF和rn的赫斯特指數(shù)。 (3)重構(gòu)各IMF。根據(jù)赫斯特指數(shù)的含義,忽略H取值為0.5的分量,對其他分量進(jìn)行重構(gòu),若H小于0.5,表明序列存在較強(qiáng)的震蕩突變型,則重構(gòu)為高頻分量;若H大于0.5且小于0.9,表明序列存在較強(qiáng)的趨勢性,則重構(gòu)為中頻分量;剩余H大于0.9的分量由于具有較高的平滑度,則重構(gòu)為低頻分量。 (4)構(gòu)建模型。使用LS-SVR對高、中頻非線性分量建模,用ARIMA對低頻非平穩(wěn)分量建模,確定各模型的參數(shù)然后分別進(jìn)行預(yù)測。 The trajectory parameter equation in the XOY system is in the following (5)組合預(yù)測結(jié)果。采用加權(quán)均值形式將各分量的單項(xiàng)預(yù)測結(jié)果進(jìn)行融合,本文采用差分進(jìn)化DE(Differential Evolution)算法從整體解空間中搜索最優(yōu)的組合權(quán)重與各模型的解集成,最終得到預(yù)測結(jié)果X(t+p)。 Figure 2 Modeling process of combined model based on HURST-EMD圖2 基于HURST-EMD的組合模型建模流程 實(shí)驗(yàn)選取1990年12月20日~2016年3月28日的上證指數(shù)每日開盤數(shù)據(jù),共計(jì)6 180條樣本作為研究對象。其中,前5 580條數(shù)據(jù)作為訓(xùn)練集,后600條數(shù)據(jù)作為測試集。股票市場具有較強(qiáng)的波動性,對股票價(jià)格預(yù)測的研究在時(shí)間序列預(yù)測中具有代表性。同時(shí)為證明算法的有效性,本文選取阿里云提供的2016年9月19日~2016年10月17日的某路段交通流數(shù)據(jù)進(jìn)行驗(yàn)證,交通流的采集周期為20 min,共計(jì)2 084條。前3周1 580條數(shù)據(jù)用來訓(xùn)練,最后1周504條數(shù)據(jù)用來測試。 使用Matlab R2015A對數(shù)據(jù)進(jìn)行處理,上證指數(shù)開盤數(shù)據(jù)及交通流數(shù)據(jù)原始序列如圖3所示。 Figure 3 Original time series of Shanghai index opening price and traffic flow圖3 上證指數(shù)開盤價(jià)和交通流原始時(shí)間序列 由圖3明顯可以看出,2個時(shí)間序列整體上雖具有一定的趨勢性,但沒有明顯的規(guī)律可循,且在短期時(shí)間段內(nèi)又呈現(xiàn)出較大的振蕩和波動,即序列是非線性、非平穩(wěn)的。此外,交通流時(shí)間序列還表現(xiàn)出明顯的周期性。 采用EMD算法分別對上述2個數(shù)據(jù)集進(jìn)行分解,分解后的結(jié)果如圖4所示。 Figure 4 Decomposition results of Shanghai index opening price and traffic flow by EMD圖4 上證指數(shù)開盤價(jià)和交通流的EMD分解結(jié)果 圖4中上證指數(shù)被分解為10個本征模態(tài)函數(shù)和1個余量,交通流序列被分解為9個本征模態(tài)函數(shù)和1個余量。經(jīng)過經(jīng)驗(yàn)?zāi)B(tài)分解后,數(shù)據(jù)波動具有直觀性,各分量最大程度地反映了原始時(shí)間序列的特征,且相互之間不同信息的耦合減弱了。 使用赫斯特指數(shù)對分解后的IMF進(jìn)行重構(gòu)是構(gòu)造本文改進(jìn)的HURST-EMD模型的關(guān)鍵環(huán)節(jié),依次計(jì)算各個IMF和rn的赫斯特指數(shù),求得的結(jié)果如圖5所示,其中橫軸表示分解出的各個IMF及1個余量。 Figure 5 Hurst exponent of IMF and residue圖5 上證指數(shù)及交通流各IMF及余量的赫斯特指數(shù) Figure 6 Reconstruction of Shanghai index opening price and traffic flow圖6 上證指數(shù)及交通流的重構(gòu) 引入赫斯特指數(shù)重構(gòu)后,上證指數(shù)及交通流時(shí)間序列中具有相似波動模式的IMF分別被整合為3組分量,即劇烈震蕩的高頻部分,有一定震蕩但頻率較小的中頻部分以及趨勢相對平滑的低頻部分,減少了預(yù)測需要建立的模型數(shù)量,提高了預(yù)測效率,降低了整個預(yù)測過程所需要的時(shí)間。 采用LIBSVM工具包里的默認(rèn)LS-SVR模型對高頻分量和中頻分量進(jìn)行預(yù)測,使用Matlab自帶工具箱econ中ARIMA模型對低頻分量進(jìn)行預(yù)測,最終預(yù)測結(jié)果為3個分量的集成。作為對比,本文分別實(shí)現(xiàn)了未經(jīng)過EMD分解的LS-SVR模型和文獻(xiàn)[13]中的傳統(tǒng)EMD預(yù)測模型,在傳統(tǒng)EMD預(yù)測模型中將所有IMF作為震蕩部分采用LS-SVR進(jìn)行預(yù)測,而余量作為趨勢部分采用ARIMA進(jìn)行預(yù)測。各模型預(yù)測值與實(shí)際值的對比如圖7~圖9所示。 Figure 7 Prediction results of Shanghai index opening price and traffic flow by HURST-EMD model圖7 HURST-EMD模型對上證指數(shù)及交通流預(yù)測結(jié)果 Figure 8 Prediction results of Shanghai index opening price and traffic flow by EMD model圖8 EMD模型對上證指數(shù)及交通流預(yù)測結(jié)果 Figure 9 Prediction results of Shanghai index opening price and traffic flow by LS-SVR model圖9 LS-SVR模型對上證指數(shù)及交通流預(yù)測結(jié)果 為對預(yù)測效果進(jìn)行量化評估,本文選用均等系數(shù)EC、平均絕對誤差MAE和均方根誤差RMSE3種評價(jià)指標(biāo)對結(jié)果進(jìn)行評價(jià)。其中,EC用來表示預(yù)測值與實(shí)際值的擬合度,值越大說明擬合度越高;MAE主要衡量預(yù)測誤差的離散程度,值越小說明預(yù)測結(jié)果越好;RMSE主要衡量預(yù)測值與真實(shí)值之間的偏差,值越小說明偏差越小。其定義分別如式(8)~式(10)所示: (8) (9) (10) 3種預(yù)測模型在2個數(shù)據(jù)集上預(yù)測性能的比較如表1所示。 Table 1 Prediction performance comparison of three models on two datasets 為了進(jìn)一步說明模型的穩(wěn)定性及有效性,本文在2004年意大利某市公路氧化鎢含量的前5 500條數(shù)據(jù)及1848年~2015年的2 000條月平均太陽黑子數(shù)2個公共數(shù)據(jù)集上分別采用上述3種模型預(yù)測,基于組合模型的HURST-EMD預(yù)測的結(jié)果如圖10所示,3種模型預(yù)測性能的比較如表2所示。 觀察圖7可以看出,HURST-EMD模型除在上證指數(shù)數(shù)據(jù)集上具有較高的預(yù)測精度外,也能夠應(yīng)用于交通流數(shù)據(jù)等周期性波動的非線性時(shí)間序列預(yù)測,并且預(yù)測結(jié)果的穩(wěn)定性和擬合度都比較好,說明本文提出的HURST-EMD模型在更多非線性時(shí)間序列預(yù)測方面有一定的有效性和適用性。 對比圖7a、圖8a和圖9a中各模型的預(yù)測結(jié)果可以看出,在對上證指數(shù)的預(yù)測中,HURST-EMD模型和傳統(tǒng)EMD模型的大部分預(yù)測值與實(shí)際值擬合度較好,而在震蕩劇烈的部分,LS-SVR模型預(yù)值測有較明顯的誤差,表現(xiàn)稍遜于經(jīng)驗(yàn)?zāi)B(tài)分解處理后的組合預(yù)測方法。該結(jié)論在周期性變化的交通數(shù)據(jù)流預(yù)測上表現(xiàn)得更加明顯。比對圖7b、圖8a和圖9b可以看出,在每個周期的劇烈波動部分,LS-SVR模型預(yù)測的預(yù)測值與真實(shí)值有更加顯著的偏差。此外,通過預(yù)測結(jié)果圖的對比還能夠看出,在對交通流的預(yù)測上,HURST-EMD模型的預(yù)測略微優(yōu)于傳統(tǒng)EMD模型的。 對比表1中各量化指標(biāo)的評估結(jié)果,在上證指數(shù)數(shù)據(jù)集上,各預(yù)測模型的EC值均高于98%,說明3種模型均具有較高擬合度,但比較平均絕對誤差和均方根誤差的數(shù)值,HURST-EMD模型相對其他2種模型均有所降低,說明采用HURST-EMD模型預(yù)測時(shí)離散程度低且偏差小,預(yù)測效果最好。對比各模型在真實(shí)交通流數(shù)據(jù)集上的預(yù)測量化指標(biāo),LS-SVR和EMD各指標(biāo)相近且略遜于HURST-EMD模型,更加說明了HURST-EMD模型在非線性時(shí)間序列預(yù)測上具有更好的準(zhǔn)確性和穩(wěn)定性。 由圖10呈現(xiàn)出的真實(shí)值與預(yù)測值的對比及表2的各項(xiàng)指標(biāo)比較結(jié)果可以看出,優(yōu)化的HURST-EMD模型在幾個數(shù)據(jù)集上的預(yù)測精度都較高,并且具有較好的穩(wěn)定性和擬合度。 進(jìn)一步對各模型在上證指數(shù)集上的預(yù)測結(jié)果進(jìn)行殘差分析,結(jié)果如圖11所示。很明顯地可以看出,在400~500 d的數(shù)據(jù)點(diǎn)上,LS-SVR模型的殘差最大,而HURST-EMD模型的殘差較小,更加表明了該模型優(yōu)異的預(yù)測效果。 Figure 11 Residual analysis of three prediction models on Shanghai index opening price圖11 3種預(yù)測模型在上證指數(shù)集上預(yù)測結(jié)果的殘差分析 本文運(yùn)用經(jīng)驗(yàn)?zāi)B(tài)分解理論對非線性時(shí)間序列進(jìn)行分解,提出了以赫斯特指數(shù)為依據(jù)將各個本征模態(tài)函數(shù)進(jìn)行重構(gòu)的方法。結(jié)合重構(gòu)后各分量表現(xiàn)出的特性和不同算法的優(yōu)勢,挑選出對應(yīng)的非線性和線性預(yù)測模型進(jìn)行建模,最后組合各模型得到最終的預(yù)測結(jié)果。主要的創(chuàng)新和成果體現(xiàn)在:(1)采用2組樣本進(jìn)行實(shí)驗(yàn),通過比較預(yù)測值與真實(shí)值,驗(yàn)證了優(yōu)化的HURST-EMD組合模型的有效性和適用性。(2)引入赫斯特指數(shù)對分解得到的各個IMF進(jìn)行整合和重構(gòu),縮短了建立模型的時(shí)間,提高了利用EMD進(jìn)行非線性時(shí)間序列預(yù)測的效率。(3)將優(yōu)化的HURST-EMD組合模型與傳統(tǒng)的EMD模型及LS-SVR模型進(jìn)行實(shí)驗(yàn)對比,結(jié)果表明該模型比其他2個模型預(yù)測效果更好,能夠獲得更高的預(yù)測精度。此外,模型對非線性時(shí)間序列的高、中頻分量波動性和非線性特征充分刻畫的同時(shí)能夠更好地逼近任意非平穩(wěn)低頻趨勢分量,由于重構(gòu)各分量之間區(qū)分度高,克服了其他模型由于過擬合導(dǎo)致預(yù)測結(jié)果失真等問題,表現(xiàn)出優(yōu)異的穩(wěn)定性和準(zhǔn)確性,為進(jìn)一步研究非線性時(shí)間序列預(yù)測問題提供了參考依據(jù)。2.3 構(gòu)建組合預(yù)測模型
3 實(shí)驗(yàn)及結(jié)果分析
3.1 樣本數(shù)據(jù)說明
3.2 輸入模型的訓(xùn)練
3.3 評價(jià)指標(biāo)
3.4 其他公共數(shù)據(jù)集上的測試結(jié)果
3.5 結(jié)果分析
4 結(jié)束語