王金策,楊寧
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
時(shí)間序列趨勢(shì)預(yù)測(cè)
王金策,楊寧
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
隨著時(shí)間序列應(yīng)用日益增多,時(shí)間序列預(yù)測(cè),尤其是在未來(lái)的趨勢(shì)預(yù)測(cè),獲得越來(lái)越多的關(guān)注。實(shí)現(xiàn)趨勢(shì)預(yù)測(cè)的挑戰(zhàn)在于實(shí)時(shí)提取時(shí)間序列的趨勢(shì)特征與合理的預(yù)測(cè)模型?,F(xiàn)有時(shí)間序列特征提取方法均是離線分析,而時(shí)間序列的預(yù)測(cè)通常為單一數(shù)值序列的多步預(yù)測(cè)。針對(duì)此問(wèn)題,設(shè)計(jì)一種在線分段方法并用向量自回歸(VAR)模型預(yù)測(cè)時(shí)間序列的趨勢(shì),VAR充分考慮到序列分段的長(zhǎng)度和斜率之間的動(dòng)態(tài)聯(lián)系,因此比常規(guī)單變量的回歸預(yù)測(cè)算法更加合理、有效。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證該預(yù)測(cè)算法的有效性。
時(shí)間序列預(yù)測(cè);時(shí)間序列趨勢(shì)預(yù)測(cè);VAR模型
作為時(shí)間序列分析的一項(xiàng)重要任務(wù),時(shí)間序列預(yù)測(cè)已經(jīng)得到了廣泛的研究[1,4,5]?,F(xiàn)有預(yù)測(cè)算法主要通過(guò)時(shí)間序列數(shù)值回歸分析,實(shí)現(xiàn)時(shí)間序列的多步預(yù)測(cè)。而時(shí)間序列趨勢(shì)預(yù)測(cè),對(duì)于金融投資等領(lǐng)域中的應(yīng)用具有重要意義,例如針對(duì)某只股票,投資者需要判斷未來(lái)一段時(shí)間內(nèi)其價(jià)格的走勢(shì),依此做出增持或賣(mài)出決策。
本文對(duì)時(shí)間序列的趨勢(shì)預(yù)測(cè)進(jìn)行了研究。我們的主要思路是,通過(guò)提取有效的時(shí)間序列的趨勢(shì)特征,建立向量自回歸(VAR)預(yù)測(cè)模型。基于這一思路,本文具體做了如下工作:
(1)在線識(shí)別并提取時(shí)間序列的每一個(gè)線性分段,每一段用長(zhǎng)度(length)和斜率(slope)作為本段的特征。
(2)應(yīng)用向量自回歸模型(VAR)對(duì)時(shí)間序列進(jìn)行趨勢(shì)預(yù)測(cè)。序列的每個(gè)分段由向量(length,slope)T標(biāo)記,VAR模型可以準(zhǔn)確描述前后向量序列之間的關(guān)系和length與slope之間的相互影響,因此能夠?qū)r(shí)間序列的趨勢(shì)做出較為準(zhǔn)確的預(yù)測(cè)。
(3)在真實(shí)數(shù)據(jù)集上驗(yàn)證了本文提出的分段算法和預(yù)測(cè)模型的有效性。
1.1 預(yù)處理
一條時(shí)間序列可以根據(jù)趨勢(shì)的變化劃分為一系列的線段,這些線段是構(gòu)成時(shí)間序列特征樹(shù)的基本元素。由于時(shí)間序列充滿(mǎn)噪聲,為了降噪,在劃分線段之前,首先應(yīng)用指數(shù)平滑技術(shù)EMA(Exponential Moving Average)對(duì)原始序列進(jìn)行濾波[2,3],進(jìn)一步將其轉(zhuǎn)化為DIF(Differential value)[5]序列,時(shí)間點(diǎn)t的DIF定義:
其中,N1,N2是求滑動(dòng)平均的數(shù)據(jù)窗口大小,一般N1取12,N2取26[3]。
1.2 時(shí)間序列分段
針對(duì)DIF序列,在大小預(yù)先設(shè)置的滑動(dòng)窗口內(nèi),應(yīng)用最小二乘法擬合一條線段,并根據(jù)各個(gè)窗口內(nèi)線段斜率的正負(fù)變化,判斷序列中的極值點(diǎn),即斜率變號(hào)當(dāng)前時(shí)刻的前一時(shí)刻為極值點(diǎn),兩個(gè)相鄰極值點(diǎn)之間的連線即為一個(gè)分段。為了防止序列在窗口內(nèi)的微小波動(dòng)影響分段效果,在分段過(guò)程中設(shè)置Threshold,其大小根據(jù)擬合斜率的分布(在歷史數(shù)據(jù)中統(tǒng)計(jì)得出)設(shè)置,如圖1所示。本文實(shí)驗(yàn)數(shù)據(jù)集上的擬合斜率服從高斯分布,且均值為0,設(shè)置Threshold為此分布的51%的分位數(shù)μ0.51,在區(qū)間[-μ0.51,μ0.51]內(nèi)的擬合斜率視為無(wú)效斜率,不具有趨勢(shì)特征。
圖1 擬合斜率的概率分布
2.1 VAR模型
VAR模型將一維自回歸模型拓展為多維變量自回歸,其考慮了多個(gè)變量的動(dòng)態(tài)交互作用,在本文中多維變量為包含length與slope的向量?;貧w過(guò)程中VAR體現(xiàn)了length和slope之間的相互影響,因此用VAR模型預(yù)測(cè)更為準(zhǔn)確。VAR模型表示為:
2.2 預(yù)測(cè)
模型訓(xùn)練本文根據(jù)AIC準(zhǔn)則確定p,參數(shù)估計(jì)采用最小二乘法,目標(biāo)函數(shù)如下:
其中,n為向量序列的個(gè)數(shù)。通過(guò)訓(xùn)練得到使f最小的c,Ai,μt,得到模型(3)。
預(yù)測(cè)輸入yt-1,…,yt-p到模型(3),如下:
本文隨機(jī)選取滬深市場(chǎng)某支股票行在2001/1/1至2015/7/8時(shí)間段內(nèi)的收盤(pán)價(jià)作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)一,驗(yàn)證分段的在線分段的準(zhǔn)確性;實(shí)驗(yàn)二,預(yù)測(cè)的有效性。
3.1 驗(yàn)證分段算法
為驗(yàn)證算法1的有效性,實(shí)驗(yàn)比較了原始時(shí)間序列與由算法1得出的極值點(diǎn)序列對(duì)應(yīng)時(shí)間段的趨勢(shì)。
圖2表示一條原始時(shí)間序列,將其作為輸入數(shù)據(jù)執(zhí)行算法1得到極值點(diǎn)序列,如圖3所示。原始時(shí)間序列1-7下降趨勢(shì),7-9上升趨勢(shì),9-14下降趨勢(shì),14-29是上升趨勢(shì),與圖3中極值點(diǎn)之間線段的趨勢(shì)相同,驗(yàn)證了算法1對(duì)極值點(diǎn)判斷的準(zhǔn)確性。
圖2 原始時(shí)間序列
圖3 極值點(diǎn)序列
3.2 驗(yàn)證VAR有效性
本次實(shí)驗(yàn)為本文所用多變量自回歸VAR模型與單變量的ARMA模型的對(duì)比,ARMA模型分別對(duì)length序列與slope序列進(jìn)行回歸預(yù)測(cè)。兩種模型同時(shí)預(yù)測(cè)未來(lái)10個(gè)分段的q,實(shí)驗(yàn)結(jié)果如圖4所示,圖中曲線表示,隨著時(shí)間t的變化模型,模型預(yù)測(cè)出的每個(gè)分段得出的error,VAR模型預(yù)測(cè)其中9個(gè)分段的誤差小于ARMA模型,驗(yàn)證了VAR模型的有效性。
本文設(shè)計(jì)基于滑動(dòng)窗口的在線分段算法,并應(yīng)用VAR模型對(duì)時(shí)間序列的趨勢(shì)做出了預(yù)測(cè)。VAR模型可以準(zhǔn)確描述前后向量序列之間的關(guān)系和length與slope之間的相互影響,因此能夠?qū)r(shí)間序列的趨勢(shì)做出較為準(zhǔn)確的預(yù)測(cè)。在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)驗(yàn)證了分段及VAR模型的有效性。
圖4 error序列
[1]Wang Peng,Wang Haixun,Wang Wei.Finding Semantics in Time Series[C].Proceedings of the 2011 ACM IGMOD International Conference on Management of Data.ACM,2011:385-396.
[2]Creamer G,Freund Y.Automated Trading With Boosting and Expert We-ighting[J].Quantitative Finance,2009,10(4):401-420.
[3]Huang Kai,Qi Zheng-wei,Liu Bo.Network Anomaly Detection Based on Statistical Approach and Time Series Analysis[C].Advanced Information Networking and Applications Workshops,2009.WAINA'09.International Conference on.IEEE,2009:205-211.
[4]Cai Yong-jie,Tong Hang-hang,Wei Fan.Fast Comprehensive Mining of Coevolving High-order Time Series[C].Proc of the 21th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.Sydney,NSW:ACM,2015:79-88.
[5]Morchen F.Time Series Feature Extraction for Data Mining Using DWT and DFT[C].Technical Report No.33,2003.
Time Series Trend Prediction
WANG Jin-ce,YANG Ning
(College of Computer Science,Sichuan University,Chengdu 610065)
The challenge of achieving trend prediction is to extract the trend features of time series and the reasonable prediction model in real time. The existing time series feature extraction methods are offline analysis,and the method of realization of the trend prediction is based on the multi-step prediction of a single numerical sequence.In view of this problem,proposes an online segment method and applies the vector auto regressive(VAR)model to forecast its trend.Experiments on real data sets show the effectiveness of the proposed algorithm.
Time Series Prediction;Time Series Trend Prediction;VAR Model
國(guó)家自然科學(xué)基金(No.61173099)、四川省應(yīng)用基礎(chǔ)計(jì)劃項(xiàng)目(No.2014JY0220)
1007-1423(2017)02-0003-03
10.3969/j.issn.1007-1423.2017.02.001
王金策(1990-),男,河北衡水人,碩士研究生,研究方向?yàn)闀r(shí)間序列挖掘
楊寧(1974-),男,四川成都人,回族,博士,講師,碩士研究生導(dǎo)師,CCF會(huì)員,研究方向?yàn)闀r(shí)態(tài)序列數(shù)據(jù)挖掘、異構(gòu)信息網(wǎng)絡(luò)分析
2016-11-29
2017-01-05