王金策 鄧越萍 史明 周云飛
摘 要:針對股票、基金等大量時間序列數(shù)據(jù)的趨勢預(yù)測問題,提出一種基于新穎特征模型的多時間尺度時間序列趨勢預(yù)測算法。首先,在原始時間序列中提取帶有多時間尺度特征的特征樹,其刻畫了時間序列,不僅帶有序列在各個層次的特征,同時表示了層次之間的關(guān)系。然后,利用聚類挖掘特征序列中的隱含狀態(tài)。最后,應(yīng)用隱馬爾可夫模型(HMM)設(shè)計一個多時間尺度趨勢預(yù)測算法(MTSTPA),同時對不同尺度下的趨勢以及趨勢的長度作出預(yù)測。在真實股票數(shù)據(jù)集上的實驗中,在各個尺度上的預(yù)測準(zhǔn)確率均在60%以上,與未使用特征樹對比,使用特征樹的模型預(yù)測效率更高,在某一尺度上準(zhǔn)確率高出10個百分點以上。同時,與經(jīng)典自回歸滑動平均模型(ARMA)模型和PHMM(Pattern-based HMM)對比,MTSTPA表現(xiàn)更優(yōu),驗證了其有效性。
關(guān)鍵詞:?特征樹;時間序列預(yù)測;多時間尺度趨勢預(yù)測;隱馬爾可夫模型
中圖分類號:?TP181
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-9081(2019)04-1046-07
Abstract: A time series trend prediction algorithm at multiple time scales based on novel feature model was proposed to solve the trend prediction problem of stock and fund time series data. Firstly, a feature tree with multiple time scales of features was extracted from original time series, which described time series with the characteristics of the series in each level and relationship between levels. Then, the hidden states in feature sequences were extracted by clustering. Finally, a Multiple Time Scaled Trend Prediction Algorithm (MTSTPA) was designed by using Hidden Markov Model (HMM) to simultaneously predict the trend and length of the trends at different scales. In the experiments on real stock datasets, the prediction accuracy at every scale are more than 60%. Compared with the algorithm without using feature tree, the model using the feature tree is more efficient, and the accuracy is up to 10 percentage points higher at a certain scale. At the same time, compared with the classical Auto-Regressive Moving Average (ARMA) model and pattern-based Hidden Markov Model (PHMM), MTSTPA performs better, verifying the validity of MTSTPA.
Key words: feature tree; time series prediction; trend prediction at multiple time scales; Hidden Markov Model (HMM)
0?引言
伴隨著金融行業(yè)的快速發(fā)展,產(chǎn)生了大量垂類數(shù)據(jù),如股票價格序列、期貨價格序列以及各類基金價格序列等時間序列數(shù)據(jù)[1],因此,金融時間序列預(yù)測已經(jīng)得到了廣泛的研究[2]?,F(xiàn)有預(yù)測算法主要通過時間序列回歸分析,實現(xiàn)單一時間尺度上的點預(yù)測,忽略了多時間尺度的趨勢預(yù)測。多時間尺度趨勢預(yù)測對于金融投資等領(lǐng)域中的應(yīng)用具有重要意義。投資者往往需要預(yù)測金融產(chǎn)品在未來以日、周、月和季度為周期等不同時間尺度下的價格走勢,從而設(shè)計最優(yōu)的投資策略。時間序列的多時間尺度趨勢預(yù)測,不僅強調(diào)時間尺度的層次性(即大時間周期由若干小時間周期組成),還強調(diào)對特定時間尺度上的某個趨勢的開始和結(jié)束時間進(jìn)行預(yù)測。
實現(xiàn)股票時間序列的多時間尺度趨勢預(yù)測的挑戰(zhàn)在于如何準(zhǔn)確、全面地提取時間序列中的多時間尺度特征。本文對此進(jìn)行了研究,主要思路是,通過提取有效的時間序列多時間尺度的層次特征,建立基于特征樹的隱馬爾可夫預(yù)測模型?;谶@一思路,本文主要做了如下工作:1)提出了一種有效的時間序列多時間尺度特征模型──特征樹。特征樹的每一層對應(yīng)一個時間尺度,越接近根結(jié)點,時間尺度越大。特征樹中的每個結(jié)點代表一個特定時間尺度下的時間序列分段。特征樹刻畫了原始時間序列數(shù)據(jù)在多時間尺度上的層次性以及層次之間的聯(lián)系。
2)提出了基于特征樹的多時間尺度趨勢預(yù)測算法MTSTPA(Multiple Time Scaled Trend Prediction Algorithm)。MTSTPA能同時對不同尺度下的趨勢以及趨勢的長度作出預(yù)測。MTSTPA將特征樹的每個層次的特征子樹序列視為該層時間尺度下的觀測序列,從中學(xué)習(xí)得到該時間尺度下的隱馬爾可夫模型(Hidden Markov Model, HMM),從而實現(xiàn)該層時間尺度下的趨勢預(yù)測。此外,為了提高預(yù)測精度,MTSTPA在作出預(yù)測之前,首先對噪聲進(jìn)行了過濾。
3)在真實數(shù)據(jù)集上驗證了本文提出的模型和算法的有效性。
1?相關(guān)工作
本文的相關(guān)工作包括時間序列特征提取、狀態(tài)挖掘和時間序列預(yù)測。
1)特征提取:文獻(xiàn)[3-4]提取時間序列的形態(tài)特征,文獻(xiàn)[5-6]提取時間序列的頻率特征,文獻(xiàn)[7]獲取序列自相關(guān)系數(shù),文獻(xiàn)[8]提取序列的頻繁模式等。
提取形態(tài)特征一般做法是對時間序列單層次分段,并用長度、斜率、點到線段的距離等作為每個分段的特征。提取頻率特征主要途徑是在單一時間尺度內(nèi)將時間序列分解為一組正交的頻域基函數(shù)的線性組合(如傅里葉變換),將分解得到的各項系數(shù)作為頻率成分。使用時間序列的自相關(guān)系數(shù)、偏相關(guān)系數(shù)等特征,可以確定影響當(dāng)前數(shù)值的歷史數(shù)據(jù)的個數(shù)。時間序列符號化會在一定程度上造成數(shù)據(jù)損失,而提取頻繁模式同樣是屬于時間序列單一尺度上的特征。上述特征提取方法的不足之處是沒有考慮時間序列的多時間尺度特征,因此有必要提出新的特征模型。
2)狀態(tài)挖掘。文獻(xiàn)[9]提出了基于時間序列形態(tài)的隱藏狀態(tài)轉(zhuǎn)移模型,其缺點是只針對序列的單一時間尺度的狀態(tài)。文獻(xiàn)[10]提出了一種基于概率的全局狀態(tài)轉(zhuǎn)換模型,對時間序列進(jìn)行多層次分段,但是不能實現(xiàn)單一時間序列在多時間尺度上的狀態(tài)發(fā)現(xiàn)。
3)時間序列預(yù)測。常見的時間序列預(yù)測模型包括滑動平均模型、利用指數(shù)平滑預(yù)測模型[11]、自回歸滑動平均模型(Auto-Regressive Moving Average Model, ARMA)、基于特征變換的神經(jīng)網(wǎng)絡(luò)預(yù)測模型[12-13]、基于拓?fù)浣Y(jié)構(gòu)的TPM(Topology Preserving Map)模型[14-15]和貝葉斯網(wǎng)絡(luò)模型,以上預(yù)測模型均根據(jù)序列的部分歷史數(shù)據(jù),預(yù)測下一個時間點或時間段的具體數(shù)值。
文獻(xiàn)[9]在隱馬爾可夫模型的基礎(chǔ)上得到PHMM(Pattern-based HMM),僅僅對單一時間尺度趨勢預(yù)測作出了研究,沒有實現(xiàn)對金融時間序列多時間尺度趨勢的預(yù)測。
2?特征樹模型
2.1?時間序列分段
一條時間序列可以根據(jù)趨勢的變化劃分為一系列的線段,這些線段是構(gòu)成時間序列特征樹的基本元素。由于時間序列充滿噪聲,為了降噪,在劃分線段之前,本文首先應(yīng)用文獻(xiàn)[11]中差離值(DIFferential value, DIF)對原始序列進(jìn)行濾波,在此基礎(chǔ)上,在大小預(yù)先設(shè)置的滑動窗口內(nèi),應(yīng)用最小二乘法擬合一條線段,并根據(jù)各個窗口內(nèi)線段斜率的變化,判斷序列中的極值點,兩個相鄰極值點之間的連線即為一個分段。分段過程如算法1所示。
算法1?時間序列分段。
算法1中:第3)行DIF()將v轉(zhuǎn)換為DIF; time表示當(dāng)前時刻的索引; flag表示當(dāng)前段是否結(jié)束;tsh衡量擬合斜率是否有效;第5)行CurrentSlope表示OLS()應(yīng)用最小二乘法獲取當(dāng)前滑動窗口內(nèi)數(shù)據(jù)的擬合斜率;第7)行判斷是否產(chǎn)生一個極值點(LastSlope表示上一個窗口內(nèi)數(shù)據(jù)的擬合斜率,初始值為1)。
設(shè)置tsh是為了防止序列在窗口內(nèi)的微小波動影響分段效果,其大小根據(jù)擬合斜率的分布(在歷史數(shù)據(jù)中統(tǒng)計得出)設(shè)置,如圖1所示(斜率的概率分布圖)。本文實驗數(shù)據(jù)集上的擬合斜率服從高斯分布,且均值為0,設(shè)置tsh為此分布的51%的分位數(shù)μ0.51,在區(qū)間[-μ0.51, μ0.51]內(nèi)的擬合斜率視為無效斜率,不具有趨勢特征。
2.2?特征樹定義
設(shè)時間序列F有H種時間尺度的分段,即有H個不同層次的表示。原始序列的相鄰極值點之間的連線代表其最小尺度分段,第一個極值點與末尾極值點之間的連線代表最大尺度分段。記時間序列在h層上的分段序列為:F(h)=(f(h)1, f(h)2,…, f(h)n),1 ≤ h ≤ H,1 ≤ n ≤ 2h-1,F(xiàn)(h)表示時間序列的第h層, f(h)i(1 ≤ i ≤n) 表示h層第i個分段。
圖2(橫坐標(biāo)為極值點對應(yīng)的時間)展示了一個時間序列三層分段示例:
第一層只有一根線段,代表最大的時間尺度;第三層為代表最小時間尺度的分段序列,包含4個分段,每個分段通過連接原始序列相鄰極值點得到。
圖3給出了圖2所示時間序列對應(yīng)的特征樹。每棵特征樹都帶有表示層次之間聯(lián)系的特征,根結(jié)點代表最大尺度,區(qū)間長度為29,其趨勢由兩棵子樹確定,左右代表時間的先后同時左右子樹分別由各自的子樹構(gòu)成。因此,特征樹完整刻畫了時間序列在各個層次上的趨勢表現(xiàn),同時也表示了每個層次之間的聯(lián)系。
2.3?特征樹生成
特征樹生成是將時間序列壓縮為一棵樹的過程。生成過程為動態(tài)增長:時間序列的每一段作為底層葉結(jié)點,每兩段組合為一段,生成父結(jié)點,計算其斜率和區(qū)間并記錄,新的一層繼續(xù)向上增長,直至最高層結(jié)點數(shù)為1。
由于特征樹生成過程中底層結(jié)點的個數(shù)不一定為2n,例如,m層結(jié)點個數(shù)為奇數(shù),則說明此時在尺度m+1下沒有新的分段。因此,當(dāng)某層結(jié)點個數(shù)為奇數(shù)時停止生長,等到本層有新結(jié)點加入繼續(xù)向上更新。本文算法每層用一個鏈表輔助特征樹的生成。構(gòu)造特征樹的具體過程如算法2~3所述。
算法2?特征樹生成。
算法3中:Mcount表示T的m層的結(jié)點個數(shù);Node表示T的一個新結(jié)點;NewList表示T新一層的鏈表;T(m)MCount表示時間序列在尺度m下的特征子樹鏈表中的第MCount個結(jié)點;T的每個結(jié)點保存著對應(yīng)尺度下每個分段的斜率,長度和左右子樹,其層數(shù)是時間序列特征樹的層數(shù),同時T的每一層構(gòu)成某一尺度下的特征子樹鏈表。
3?預(yù)測模型
文獻(xiàn)[9-10]為應(yīng)用隱馬爾可夫模型預(yù)測時間序列狀態(tài)提供了思路。時間序列在某個尺度下的一個分段,作為本尺度特征子樹的根結(jié)點,本研究基于時間序列的各個時間尺度下的特征子樹序列,分別訓(xùn)練一個相應(yīng)時間尺度下的隱馬爾可夫模型(HMM),不同的時間尺度的特征子樹序列分別對應(yīng)HMM,基于HMM的解碼功能即可實現(xiàn)原始時間序列的多時間尺度預(yù)測。
3.1?觀測序列
本文將時間序列中各時間尺度下的特征子樹序列視為觀測序列。h尺度下的觀測序列表現(xiàn)為以特征樹的第h層結(jié)點為根結(jié)點的特征子樹的序列,T(h)=(T(h)1,T(h)2,…,T(h)n),n表示h層有n棵特征子樹。
3.2?狀態(tài)發(fā)現(xiàn)
首先,文獻(xiàn)[9]中證明,時間序列中存在不同分布,由此通過聚類分析確定一個特征子樹序列中隱藏的狀態(tài)。
1)相似性度量。
圖4所示特征樹的第二層有兩棵特征子樹,每棵特征子樹由三個結(jié)點(1個根結(jié)點和2個子結(jié)點)構(gòu)成,這兩棵特征子樹構(gòu)成一個特征子樹序列,表示了時間序列在尺度2下的觀測特征。
現(xiàn)在的任務(wù)是對特征子樹序列T(h)中的子樹聚類。首先將每個結(jié)點的兩個屬性值用離差標(biāo)準(zhǔn)化方法(min-max normalization)歸一化,如式(1)所示:NorV=value-MinVMaxV-MinV(1)
其中:value為待歸一化數(shù)據(jù)值;MinV和MaxV分別為相同位置上最小值和最大值。
特征樹中的結(jié)點對時間序列趨勢的影響按照層次由低到高依次減小,故給特征樹的每層分配權(quán)重1/H,每層結(jié)點則均分1/H的權(quán)重。以圖4表示的特征樹為例,每層平均占有1/3的權(quán)重,第二層的每個結(jié)點占有(1/3)/2,第三層四個結(jié)點則每個結(jié)點占有(1/3)/4。每個結(jié)點的權(quán)重函數(shù)定義如下:weight(h)=1H×2h-1(2)
其中:h為特征樹第h層。兩棵子樹的相似性度量函數(shù)定義如下:
其中:count(s)統(tǒng)計狀態(tài)序列Q(h)中出現(xiàn)子序列s的次數(shù)。
尺度h下特征子樹根結(jié)點的長度是該尺度的體現(xiàn),為了探究時間序列在尺度h,狀態(tài)i下趨勢的規(guī)律,需要計算觀測序列根結(jié)點的發(fā)射概率,即每棵特征子樹根結(jié)點的生成概率。本文將T(h)中的子樹按狀態(tài)分組,狀態(tài)相同的子樹在同一組,同時,假設(shè)結(jié)點的斜率和長度的概率分布相互獨立,于是,屬于狀態(tài)i的子樹的根結(jié)點r的生成概率為:
為驗證以上的假設(shè),本文對實驗所用序列數(shù)據(jù)進(jìn)行了調(diào)查,設(shè)置K值為3,結(jié)果如圖5~圖7所示,三幅圖分別展示了斜率和長度的條件概率分布。在每個狀態(tài)下的每棵特征子樹中根結(jié)點r的斜率和長度均服從高斯分布,表明了聚類的有效性和假設(shè)的合理性。
3.4?模型優(yōu)化
實驗結(jié)果表明,時間序列中存在噪聲片段,這些片段會降低聚類效果,增大SSE(Sum of Squared Errors),如圖8所示(橫坐標(biāo)為滑動步數(shù)d),隨著噪聲片段按照一定步長向前滑動,SSE隨著d增長逐漸減小后有上升趨勢。
為解決這一問題,本研究通過預(yù)先對原始時間序列數(shù)據(jù)去噪實現(xiàn)對模型的優(yōu)化。假設(shè)現(xiàn)有時間序列,N個數(shù)據(jù)點。用4個時間點start、 p、q、end將其分為三段L1(start: p),L2(p: q),L3(q: end)。設(shè)置初始值p=0,q= p+U,設(shè)置一個長度為U的噪聲窗口,即L2。合并L1與L3兩段數(shù)據(jù),利用算法1分段,再用K-means聚類,得出SSE。完成一次SSE計算后, p與q向右滑動step個數(shù)據(jù),即p= p+step,q=q+step,循環(huán)計算SSE,直到窗口滑動至末尾。
SEE越小聚類效果越好,根據(jù)上述執(zhí)行結(jié)果,確定使SSE最小的窗口位置為最佳噪聲片段位置,即p值。具體過程如算法4所示。
算法4中:GetSSE()是得到聚類結(jié)果的SSE;SL為分段結(jié)果鏈表。
4?預(yù)測模型MTSTPA
由于每個時間尺度下的特征子樹根結(jié)點表示該尺度下一個分段的斜率和長度,本文算法MTSTPA通過該特征子樹序列的HMM序列預(yù)測下一棵子樹根結(jié)點。
由3.3節(jié)得出,時間序列在尺度h下對應(yīng)狀態(tài)轉(zhuǎn)移矩陣A(h),根據(jù)A(h)得到下一個出現(xiàn)概率最大的狀態(tài)i。根據(jù)3.3節(jié)得出,在處于相同狀態(tài)的特征子樹集合中,特征子樹根結(jié)點的斜率和長度相互獨立,且分別服從高斯分布,又根據(jù)式(7)得出,在某個狀態(tài)i下,當(dāng)根結(jié)點的slope與length全部取均值時概率最大。因此,狀態(tài)i對應(yīng)聚簇的簇中心為最優(yōu)預(yù)測值。由此本文提出一個多時間尺度預(yù)測算法MTSTPA。MTSTPA在極值點處作出預(yù)測,如果當(dāng)前點不能確定為極值點,則根據(jù)時間序列的上一個極值點,預(yù)測序列當(dāng)前所處的趨勢。MTSTPA對時間序列在尺度h下的趨勢的預(yù)測過程如算法5所示。
算法5?MTSTPA。
其中: MinV與MaxV分別是對應(yīng)原數(shù)據(jù)的最小值與最大值。
5?實驗
在2001年01月01日至2015年07月08日時間段內(nèi),深交所和上交所的每支股票每日收盤價數(shù)據(jù)都會構(gòu)成3600個數(shù)據(jù)點的時間序列,本研究取所有股票的時間序列作為實驗數(shù)據(jù)集。每條時間序列的前70%作為訓(xùn)練數(shù)據(jù),后30%作為測試數(shù)據(jù)。本文使用下式定義的預(yù)測精度作為評價指標(biāo):
為了驗證本文提出的特征樹模型、預(yù)測模型和預(yù)測算法MTSTPA的有效性,本文設(shè)計了五組實驗:第一組,驗證分段算法;第二組,確定預(yù)測模型參數(shù),即隱馬爾可夫模型狀態(tài)數(shù)K與優(yōu)化模型噪聲窗口大小U;第三組,特征樹模型有效性驗證;第四組,模型優(yōu)化驗證;第五組,與傳統(tǒng)預(yù)測模型多時間尺度預(yù)測精度對比。每組預(yù)測實驗進(jìn)行三次,取三次預(yù)測精度的平均值。每次實驗在數(shù)據(jù)集中隨機選取20條序列作為實驗數(shù)據(jù)。
5.1?驗證分段算法
為驗證算法1的有效性,實驗比較了原始時間序列與由算法1得出的極值點序列對應(yīng)時間段的趨勢。圖9表示一條原始時間序列,將其作為輸入數(shù)據(jù)執(zhí)行算法1得到極值點序列,如圖10所示。
原始時間序列1~7下降趨勢,7~9上升趨勢,9~14下降趨勢,14~29是上升趨勢,與圖10中極值點之間線段的趨勢相同,驗證了算法1對極值點判斷的準(zhǔn)確性。
5.2?參數(shù)的選擇
通過實驗確定隱藏狀態(tài)的個數(shù)K(K-means聚類的聚簇個數(shù))。
根據(jù)MTSTPA預(yù)測時間序列在多個時間尺度內(nèi)的趨勢。K分別取2、3、4,尺度n=3開始預(yù)測(特征樹第三層開始有四棵子樹),預(yù)測結(jié)果如圖11所示,在實驗所用數(shù)據(jù)集上,K=3時各個時間尺度上的預(yù)測精度均大于55%,最高可達(dá)到75%以上,因此K取值為3。
通過實驗確定U/N。設(shè)計實驗:分別取U/N×100%值為15%、25%、35%、45%、55%,統(tǒng)計每個值對應(yīng)實驗的預(yù)測精度,對比得出最優(yōu)U/N。
圖12顯示,在實驗所用數(shù)據(jù)集上,噪聲窗口占總數(shù)據(jù)35%時各個時間尺度的預(yù)測精度均在65%以上。因此優(yōu)化模型將長度占總數(shù)據(jù)35%的數(shù)據(jù)片段視為噪聲片段,應(yīng)用算法2找出片段最佳位置,將其濾除。
5.3?特征樹有效性
實驗用兩個策略進(jìn)行對比驗證:策略1,未使用特征子樹,用樹的單層結(jié)點序列(對應(yīng)時間尺度的分段序列)作為本時間尺度的觀測序列;策略2,使用特征子樹,用該時間尺度下的特征子樹序列作為觀測序列(本文所用策略)。實驗設(shè)置K=3,U/N=35%。如圖13所示,策略2在各個時間尺度下的預(yù)測精度均優(yōu)于策略1,其中尺度4和尺度5高出10個百分點以上,驗證了策略2的有效性。
圖13顯示,預(yù)測精度隨著時間尺度的減小由增加到下降,分析得出模型的預(yù)測精度與兩個因素相關(guān):1)每個時間尺度下的特征子樹的棵數(shù);2)每棵特征子樹所攜帶的層次信息的多少。在本組實驗中,尺度3到尺度5,時間尺度依次減小,特征子樹個數(shù)依次增多,故通過式(6)統(tǒng)計得到的A(3)、A(4)與A(5)準(zhǔn)確度依次增高,預(yù)測精度逐漸達(dá)到最高79%;尺度5到尺度9下的特征子樹攜帶的層次信息逐漸減少,預(yù)測精度下降,但是最低預(yù)測精度仍在55%以上。
5.4?模型優(yōu)化驗證
為了驗證優(yōu)化模型的有效性,現(xiàn)進(jìn)行優(yōu)化前后預(yù)測精度對比實驗。實驗設(shè)置K=3,U/N=35%。圖14顯示了優(yōu)化前后的預(yù)測效果。優(yōu)化模型預(yù)測精度總體上優(yōu)于優(yōu)化前模型,驗證了優(yōu)化算法的有效性。
5.5?MTSTPA有效性
本組實驗對比MTSTPA、ARMA與PHMM三種時間序列預(yù)測模型的預(yù)測精度。PHMM同樣應(yīng)用隱馬爾可夫模型,采用單純分段特征,預(yù)測單一時間尺度下序列走勢。實驗設(shè)置MTSTPA參數(shù)K=3,U/N=35%。針對多時間尺度預(yù)測,為使實驗結(jié)果具有說服力,在給定時刻t,預(yù)測t+Δt時刻的趨勢,其中,Δt代表不同的時間尺度。實驗中選取Δt=5,10,20,40,80,160。
圖15顯示了三種模型的預(yù)測精度。MTSTPA在每個預(yù)測步長的表現(xiàn)都優(yōu)于其他兩種模型。ARMA作為經(jīng)典的時間序列預(yù)測模型可以預(yù)測短時期的數(shù)據(jù),但是難以捕捉時間序列在不同時間尺度下的特征。PHMM每段特征屬性只包含slope與length,沒有包含層次特征。ARMA和PHMM的多步預(yù)測方法是根據(jù)之前的預(yù)測值對后續(xù)值進(jìn)行預(yù)測,而MTSTPA是根據(jù)特征樹捕捉到的各時間尺度下的特征在所有時間尺度上的預(yù)測。因此,在多時間尺度趨勢預(yù)測方面,MTSTPA優(yōu)于其他兩種模型。
6?結(jié)語
本文提出了一種新的特征模型──特征樹。特征樹刻畫了原始時間序列數(shù)據(jù)在多時間尺度上的層次結(jié)構(gòu)以及各層次之間的聯(lián)系。在此基礎(chǔ)上,本文提出了基于特征樹的多時間尺度趨勢預(yù)測算法MTSTPA,該算法將對應(yīng)時間尺度的特征子樹序列視為觀測序列,從中學(xué)習(xí)得到一個HMM,利用HMM的預(yù)測功能實現(xiàn)不同時間尺度上的趨勢預(yù)測。但是,本文算法對頻繁震蕩的序列數(shù)據(jù)無法有效預(yù)測,因此采用自適應(yīng)的聚類算法和概率圖模型解決此類問題是下一步的研究重點,另外本文研究時間序列的趨勢預(yù)測,未來將研究多時間尺度的時間序列點預(yù)測。
參考文獻(xiàn)(References)
[1] 張普, 吳沖鋒. 股票價格波動: 風(fēng)險還是價值?[J]. 管理世界, 2010(11): 52-60. (ZHANG P, WU C F. Stock price volatility: risk or value [J]. Management World, 2010(11): 52-60.)
[2] 唐黎.金融時間序列預(yù)測的信息融合與計算智能模型[D]. 成都: 電子科技大學(xué), 2018: 1-4. (TANG L. Information fusion and computational intelligence models for financial time series prediction[D]. Chengdu: University of Electronic Science and Technology of China, 2018: 1-4.)
[3] KEOGH E, CHU S, HART D, et al. An online algorithm for segmenting time series [C]// Proceedings of the 2001 IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2001: 89-296.
[4] CHANG P C, LIAO T W, LIN J J, et al. A dynamic threshold decision system for stock trading signal detection [J]. Applied Soft Computing, 2011, 11(5): 3998-4010.
[5] 梁強, 范英, 魏一鳴. 基于小波分析的石油價格長期趨勢預(yù)測方法及其實證研究[J]. 中國管理科學(xué), 2005, 13(1): 30-39. (LIANG Q, FAN Y, WEI Y M. Long term trend forecasting method of oil price based on wavelet analysis and empirical study [J]. Chinese Journal of Management Science, 2005, 13(1): 30-39.)
[6] MORCHEN F. Time series feature extraction for data mining using DWT and DFT [EB/OL]. [2018-05-10]. http://mybytes.de/papers/moerchen03time.pdf.
[7] SUN Y Q, WANG R J, SUN B Y, et al. Prediction about time series based on updated prediction ARMA model [C]// Proceedings of the 2013 10th International Conference on Fuzzy Systems and Knowledge Discovery. Piscataway, NJ: IEEE, 2013: 680-684.
[8] ZHANG D E H, LI G C L, WONG A K C. Discovery of temporal associations in multivariate time series [J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(12): 2969-2982.
[9] WANG P, WANG H X, WANG W. Finding semantics in time series[C]// Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2011: 385-396.
[10] HAN Z, CHEN H F, YAN T, et al. Time series segmentation to discover behavior switching in complex physical systems [C]// Proceedings of the 2015 IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2015: 161-170.
[11] CREAMER G, FREUND Y. Automated trading with boosting and expert weighting [J]. Quantitative Finance, 2009, 10(4): 401-420.
[12] KAASTRA I, BOYD M. Designing a neural network for forecasting financial and economic time series [J]. Neurocomputing, 1996, 10(3): 215-236.
[13] ZIAT A, DELASALLES E, DENOVER L, et al. Spatio-temporal neural networks for space-time series forecasting and relations discovery[C]// Proceedings of the 2017 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2017: 705-714.
[14] DANELMAYR G, GADALETA S, HUNDLEY D, et al. Time series prediction by estimating Markov probabilities through topology preserving maps[EB/OL]. [2018-05-10]. https://doi.org/10.1117/12.367685.
[15] 王雙成, 高瑞, 杜瑞杰. 具有超父結(jié)點時間序列貝葉斯網(wǎng)絡(luò)集成回歸模型[J]. 計算機學(xué)報, 2017, 40(12): 2748-2761. (WANG S C, GAO R, DU R J. With super parent node Bayesian network ensemble regression model for time series[J]. Chinese Journal of Computers, 2017, 40(12): 2748-2761.)
[16] BOX G, JENKINS G, REINSEL G, et al. Time Series Analysis: Forecasting and Control[M]. New York: Wiley, 2015: 2-17.