葉建萍
(廣西大學(xué)行健文理學(xué)院,南寧530000)
因?yàn)楝F(xiàn)在是金融全球化的社會(huì),國(guó)家的經(jīng)濟(jì)優(yōu)勢(shì)或多或少需要依靠金融行業(yè)的運(yùn)轉(zhuǎn)和質(zhì)量,但影響其創(chuàng)新水平和發(fā)展程度的關(guān)鍵原因即金融的信息化技術(shù)?,F(xiàn)在,高頻金融時(shí)間序列預(yù)測(cè)手段是大熱趨勢(shì),有不少學(xué)者開(kāi)始研究該問(wèn)題。通過(guò)預(yù)測(cè)高頻金融時(shí)間序列,本文總結(jié)出以回歸系數(shù)為基礎(chǔ)的高頻金融時(shí)間序列手段,對(duì)均值平穩(wěn)的距離噪聲不敏感[1]。但是,高頻金融時(shí)間序列預(yù)測(cè)手段還是有缺陷,不能一次性針對(duì)處理太多數(shù)據(jù),同時(shí)由于不同領(lǐng)域的高頻金融時(shí)間序列特征不同,所以不同測(cè)試數(shù)據(jù)需要先分清特征。
現(xiàn)在部分高頻金融時(shí)間序列預(yù)測(cè)手段有缺陷,不能準(zhǔn)確指導(dǎo)現(xiàn)實(shí)中的研究。本文先是闡述了何謂高頻金融時(shí)間序列,利用研究實(shí)際數(shù)據(jù),總結(jié)出高頻金融時(shí)間序列的兩個(gè)關(guān)鍵特征,相似性與非平穩(wěn)性。另外,因?yàn)檫@些特征,正交小波變換,可用分型維估計(jì)。通過(guò)實(shí)證分析國(guó)內(nèi)金融市場(chǎng)的微觀結(jié)構(gòu),得出指數(shù)序列的分型維。實(shí)驗(yàn)對(duì)證券指數(shù)進(jìn)行高頻金融時(shí)間序列預(yù)測(cè),和神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)相比較的話,提高了金融數(shù)據(jù)高頻金融時(shí)間序列預(yù)測(cè)效率,減小了預(yù)測(cè)誤差。
建立決策樹(shù)其實(shí)是建立對(duì)象屬性與對(duì)象值間的映射,通過(guò)輸出決策樹(shù)指導(dǎo)決策。重點(diǎn)在于一組沒(méi)有規(guī)律可循的事例推理決策樹(shù)對(duì)形式的分類,通過(guò)自上而下,于決策樹(shù)的內(nèi)部比較屬性值,按照不同屬性判斷后得出決策樹(shù)的葉節(jié)點(diǎn)結(jié)論?,F(xiàn)實(shí)中經(jīng)常用到?jīng)Q策樹(shù),其特征明顯,首先結(jié)構(gòu)與手段簡(jiǎn)單,很好明白;方法里準(zhǔn)備數(shù)據(jù)不復(fù)雜;學(xué)習(xí)時(shí),使用決策樹(shù)可以不訓(xùn)練不屬于數(shù)據(jù)的知識(shí);模型效率高,很短時(shí)間里分析規(guī)模很大的數(shù)據(jù)源;比較精準(zhǔn)。構(gòu)建決策樹(shù)其實(shí)就是選擇與分割樹(shù)的節(jié)點(diǎn),能夠知道,決策樹(shù)構(gòu)建算法本質(zhì)在于分割[2]。按照分割手段不同,可分成兩類:第一類是最小GINI的指標(biāo),第二類以信息論為基礎(chǔ)。因?yàn)榻鹑谛袠I(yè)很重視信息,本文通過(guò)信息論,針對(duì)離散屬性構(gòu)建決策樹(shù),解答為何缺失數(shù)據(jù)以及屬性值的范圍連續(xù)等問(wèn)題。
也就是說(shuō),ID3 算法通過(guò)屬性計(jì)算有關(guān)的樣本熵值,采用里面最小的熵值或最大信息增益的屬性當(dāng)成下一結(jié)點(diǎn)的屬性,循環(huán)往復(fù),形成最終的決策樹(shù)。設(shè)訓(xùn)練數(shù)據(jù)集是D,里面有N個(gè)元素,按照不同取值,把D 分成k個(gè)子集,記D1,D2,…,Dk,不同子集都是n1,n2,…,nk個(gè),同時(shí)k Σi=1 ni=N。那么定義數(shù)據(jù)集D 里面的信息熵是Entropy(D)=k Σs=1nsNlog(2nsN)。
①需要注意,信息熵是0 時(shí),即D 中全部元素屬于同一子集,訓(xùn)練集D 歸類完畢。分類時(shí)經(jīng)常k=2,訓(xùn)練集D 有正例與反例兩類。但I(xiàn)D3 算法,習(xí)慣通過(guò)信息增益,評(píng)判一個(gè)已知屬性有沒(méi)有很好歸類訓(xùn)練集。
②其中ETi 表示訓(xùn)練集{ω|ω∈D,ω∈Ti }的信息熵,di,s =card {ω| ω∈D,ω∈Ti },A與D 相比較的話,信息增益Gain(D,A),Entropy(D)降低的數(shù)量是Gain(D,A)=Entropy(D)-new_Entropy(D,A)。
Step 1:確定不同屬性的數(shù)值區(qū)間,分別設(shè)為集合S1,S2,S3,S4,S5,S6,S7,各自取值,按照不同定義,取值差異很小,定義 (2000,2200)(2200,2400)(2400,2600)(2600,2800)(2800,3000)(3000,3200)為數(shù)值分類區(qū)間,記不同屬性的區(qū)間為S11~S16,S21~S26,S31~S36,S41~S46,S71~S76。
Step 2:計(jì)算收盤(pán)價(jià)漲幅在區(qū)間S71,S72,S73,S74,S75中,交易天數(shù)為11,56,64,50,50,14,記d1,d2,d3,d4,d5,共為243天,總天數(shù)為N。按照公式有上證指數(shù)集S的信息熵[3]。
Step 3:計(jì)算不同屬性的信息增益,統(tǒng)計(jì)每天開(kāi)盤(pán)價(jià)在區(qū)間 S11,S12,S13,S14,S15,S16的交 易天數(shù) 分 別 是11,56,64,50,50,14,記為D1,D2,D3,D4,D5,D6,共245天;下一日收盤(pán)價(jià)屬于區(qū)間S71,S72,S73,S74,S75,S76的天數(shù)分別是3,48,5,0,0,0,有上證指數(shù)集的信息熵。那么能夠計(jì)算開(kāi)盤(pán) 價(jià) 屬 于 區(qū) 間S12,S13,S14,S15,S16的信 息 熵 :ES11=0.8454,ES13 =0.5992,ES14 =0.5661,ES15 =0.5579,ES16 =0.5917。
重復(fù)上面的三個(gè)步驟,得到的信息增益分別為1.7992、2.0572、1.8181、0.5882、0.6758。
實(shí)驗(yàn)表明了ID3 算法以信息增益為測(cè)試屬性的規(guī)范,樹(shù)節(jié)點(diǎn)的選擇策略。ID3的根節(jié)點(diǎn)是信息增益最大的屬性,和數(shù)據(jù)分類貢獻(xiàn)呈正比關(guān)系,最有利于輔助決策,也最為關(guān)鍵。因?yàn)槌山涣?、成交額的信息增益值最小,同時(shí)和其余的特征屬性差距很大,去掉成交量與成交額。因?yàn)樽罡邇r(jià)的信息增益最大,可知對(duì)下一日收盤(pán)價(jià)影響最大的是前一天的最高價(jià)。
支持向量機(jī)最早由20 世紀(jì)90年代提出,以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),是全新的機(jī)器學(xué)習(xí)方法。利用核函數(shù)非線性變換,將原始數(shù)據(jù)映射到高為特征空間,然后在里面通過(guò)結(jié)構(gòu)風(fēng)險(xiǎn)最小化,構(gòu)造線性決策函數(shù),把低維問(wèn)題變成簡(jiǎn)單的高維問(wèn)題。支持向量機(jī)中最方便的模型為最大間隔分類器,用來(lái)解決特征空間里分類線性數(shù)據(jù),提高支持向量機(jī)理論水平。本文通過(guò)支持向量回歸機(jī)應(yīng)用,逼近函數(shù)。給定訓(xùn)練數(shù)據(jù)集S={xi,yi}ni(xi 是輸入向量,yi 是輸出向量,n 為訓(xùn)練數(shù)據(jù)集樣本總量),支持向量機(jī)通過(guò)公式逼近函數(shù)(fx)。
本文采用上證指數(shù)共245個(gè)交易日數(shù)據(jù)為樣本,在前面十分之九的交易天數(shù)中作為訓(xùn)練樣本估計(jì)支持向量機(jī)的參數(shù),后面的十分之一交易天數(shù)是測(cè)試樣本,評(píng)價(jià)預(yù)測(cè)水平[4]。選擇特征屬性比較抽取與特征屬性。分別采用多項(xiàng)式核K(x,y)=(x*y+1)d 和高斯RBF 核K(x,y)=exp(-γ||x-y||2)比較分析,取 ε=0.1,C=1,通過(guò)R 語(yǔ)言函數(shù)編程。取d=3,γ=1/nVal,其中nV 是變量個(gè)數(shù)。不管在抽取特征屬性前還是在之后,高斯RBF 核函數(shù)可以順利逼近原數(shù)據(jù),而后者雖然也能無(wú)限逼近,但不夠準(zhǔn)確,實(shí)驗(yàn)結(jié)果體現(xiàn)就算提高多項(xiàng)式次數(shù),也無(wú)法較好改善,所以對(duì)上證指數(shù)訓(xùn)練數(shù)據(jù)集而言,高斯RBF 核函數(shù)是最適宜的。
為驗(yàn)證本文方法,采用共245個(gè)交易日的指數(shù)試驗(yàn)。抽取結(jié)果體現(xiàn)出,指數(shù)抽取的特征屬性均是開(kāi)盤(pán)價(jià)、收盤(pán)價(jià)、最高價(jià)、最低價(jià)。表明這些指數(shù)對(duì)我國(guó)股票市場(chǎng)的綜合指向能力很相似,通過(guò)不同算法獲得不同指數(shù)值,反映出股票市場(chǎng)的變化情況。實(shí)驗(yàn)表示,抽取特征向量后RBF 核支持向量機(jī)可以提高逼近能力與預(yù)測(cè)效果??隙吮疚奶岬降母哳l金融時(shí)間序列預(yù)測(cè)方法,通過(guò)決策樹(shù)提取特征屬性,以支持向量機(jī)的預(yù)測(cè)為基礎(chǔ),讓預(yù)測(cè)數(shù)據(jù)更精確,便于更好地分析與挖掘現(xiàn)實(shí)數(shù)據(jù)。