• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVR的股市預(yù)測與擇時研究

      2016-04-11 01:13:41
      關(guān)鍵詞:時間序列機器學(xué)習

      張 鵬

      (太原工業(yè)學(xué)院理學(xué)系, 山西 太原 030008)

      ?

      基于SVR的股市預(yù)測與擇時研究

      張鵬

      (太原工業(yè)學(xué)院理學(xué)系, 山西太原030008)

      [摘要]本文首先闡述支持向量回歸機原理,在此基礎(chǔ)上建立了SVR預(yù)測模型,以HS300指數(shù)數(shù)據(jù)為測試樣本,分析了SVR模型在時間序列預(yù)測問題中的優(yōu)勢,并在此基礎(chǔ)上進行了交易實驗.結(jié)果表明:支持向量回歸機適用于預(yù)測股市大盤的短期走勢,并能夠得到比較好的預(yù)測效果.

      [關(guān)鍵詞]機器學(xué)習;支持向量回歸機;時間序列

      眾所周知,股票市場是非線性動態(tài)的復(fù)雜系統(tǒng),利用傳統(tǒng)的線性時間序列分析方法(如ARMA、GARCH等)對其研究并不能得到理想效果,而近些年興起的機器學(xué)習算法在對非線性時間序列的分析中表現(xiàn)出極大優(yōu)勢.作為在數(shù)據(jù)挖掘算法中較為成熟的支持向量機算法,其在很多領(lǐng)域均能成功處理非線性回歸(時間序列)和分類(判別)等諸多問題.

      1支持向量回歸機基本原理

      支持向量機算法(support vector machines,SVM)最初是解決模式識別、特征提取等問題,都屬于支持向量機分類(SVC)問題[1].由于它具有強泛化能力而被推廣應(yīng)用于解決預(yù)測類問題,稱為支持向量回歸機(SVR).該理論將回歸問題轉(zhuǎn)化為二次規(guī)劃(quadratic programming,QP)問題,屬于黑匣子理論.

      1.1支持向量機SVM的基本思想

      首先將低維線性不可分訓(xùn)練數(shù)據(jù)集通過核函數(shù)映射到一高維特征空間(稱為Hilbert空間);然后在特征空間進行線性可分的分類或回歸,這樣高維空間輸出層上的線性回歸或分類就對應(yīng)著低維空間輸入層的非線性回歸或分類.大量理論已經(jīng)證明,隱藏層維數(shù)如果足夠高,支持向量機就能夠逼近任意的非線性關(guān)系,并且核函數(shù)的使用能減少隱層的高維所帶來的計算復(fù)雜性等一系列問題[2].

      該算法的基本原理即為在所有的超平面中搜索一個最優(yōu)分離面.該超平面不僅能準確分類,還能使超平面兩側(cè)的間距達到最大化.

      1.2支持向量回歸機SVR

      利用支持向量機做回歸與做分類大體相同,區(qū)別在于:SVC的輸出變量是分類型,而SVR的輸出變量是連續(xù)型.SVC是通過最優(yōu)分離超平面使兩類樣本盡可能分開,而SVR是希望所有樣本點距離超平面的總偏差最小,由此看出SVR實質(zhì)上就是一個最優(yōu)規(guī)劃問題.

      1.2.1線性回歸情形

      s.t. f(xi)-yi≤ε+ξi

      ξi≥0,ξi′≥0,i=1,2,…,n

      其中C(大于0) 是對ε以外樣本的懲罰,故稱為懲罰參數(shù)[4];ξi,ξi′稱為松弛變量,表示訓(xùn)練樣本擬合誤差ε時的損失.

      根據(jù)Karush-Kuhn-Tucker條件[5],通過引入拉格朗日乘數(shù),上述問題就轉(zhuǎn)化為對偶問題(dual problem):

      αi′,αi∈[0,C],i,j=1,2,…,n

      1.2.2非線性回歸情形

      非線性回歸首先是通過核函數(shù)將低維非線性問題轉(zhuǎn)化為高維空間的線性問題,然后再利用線性回歸情形分析.

      αi′,αi∈[0,C].i,j=1,2,…,n

      目前該算法中常用的核函數(shù)有3種類型,分別為線性核、多項式核、高斯核,一般形式分別為

      2構(gòu)建SVR預(yù)測模型

      2.1建模前的準備

      (1)數(shù)據(jù)的選取.由于時間序列的特殊性,數(shù)據(jù)的選取是建模前需考慮的一個重要問題,尤其不能選取特殊時段,這樣將會失去一般性.本文數(shù)據(jù)來源于wind資訊,原始數(shù)據(jù)指標體系為滬深300指數(shù)2010年1月4日到2012年12月31日的收盤價等時間序列,如表1所示.相關(guān)指標有基礎(chǔ)指標的前5日收盤價、最高價、最低價、成交量的對數(shù),技術(shù)指標MA(10)、KDJ、RSI、BIAS、WR、PSY共計14個因子.

      表1 數(shù)據(jù)集

      (2)滾動預(yù)測.為了能將最新的市場信息及時反映在模型中,并且消除市場周期性的影響,本文采用滾動時間窗口進行建模,又考慮到時間窗口最好不要超過一個交易年,故選取240個交易日作為時間窗口,即若當前日期為T,則樣本期選為T-1到T-240,找到樣本期內(nèi)最優(yōu)參數(shù),進而利用T日的數(shù)據(jù)預(yù)測T+1日的收盤價.

      上述公式表示基于t時期的j步向前的價格預(yù)測值為給定t時期前所有信息的j步向前真實價格的期望值.這里,t=N1,…,N-j,且令j=1,…,5,也就是說,最短預(yù)測未來一天的收盤價,最長預(yù)測5天的收盤價(如果t表示每日).可見,預(yù)測區(qū)間固定為j向前,而預(yù)測起點t擇時逐步向后推移,因而是動態(tài)的.

      2.2建立SVR預(yù)測模型

      (1)數(shù)據(jù)清洗.本文采用Pearson相關(guān)性檢驗對解釋變量進行篩選.鑒于股市中的變量之間可能存在非線性關(guān)系,本文對原始數(shù)據(jù)不完全直接進行Pearson檢驗,而對于線性不明顯的變量采取一些變換,最終確定因子備選庫中含有13個解釋變量,基礎(chǔ)指標的前5日收盤價、最高價、最低價、成交量的對數(shù),技術(shù)指標MA(10)、KDJ、RSI、BIAS、PSY共計13個因子.

      (2)數(shù)據(jù)標準化.為避免因為變量間因數(shù)量級差別較大而造成模型預(yù)測誤差失真的現(xiàn)象,本文統(tǒng)一對數(shù)據(jù)采用極差標準化處理.

      (3)變量的優(yōu)化組合——主成分分析.如果要真實、完整地反映實際問題,往往需要很多變量以及樣本,而各個變量之間并非獨立的,它們之間或多或少存在相關(guān)性.這樣不僅使得研究變得復(fù)雜,還可能導(dǎo)致預(yù)測精度降低.本文運用主成分分析法將規(guī)范化后的變量壓縮為少量幾個互不相關(guān)的變量,計算每日的13個指標值,并對其運用主成分分析.當主成分個數(shù)為6個時,累計方差貢獻率達到98.79﹪,包含信息的完整性程度較好,因而選取前6個主成分作為輸入變量.

      (4)核函數(shù)和有關(guān)參數(shù)的選擇.本文尋找最優(yōu)的C和ε的主要思想是:首先將C和ε界定在一定范圍以內(nèi)([2-6,26]),然后用交叉驗證進行搜索使得MSE達到最小.為了避免因為懲罰參數(shù)C太大引起過學(xué)習,所以本文選擇的是具有最小C的組合C和ε.這樣可以在一定程度上利于外推.篩選結(jié)果為Gaussian核函數(shù),C和ε都是0.25.

      2.3結(jié)果分析

      經(jīng)過變量的篩選組合以及模型參數(shù)的選取最終完成模型的建立,并用2012年的數(shù)據(jù)進行測試.SVR預(yù)測值與真實值及相對誤差比較結(jié)果如圖1、圖2所示.

      圖1 預(yù)測值與真實值對比

      圖2 SVR預(yù)測相對誤差

      從圖1可以看出,SVR的預(yù)測值基本靠近真實值.圖2顯示,預(yù)測值相對于真實值的誤差絕大多數(shù)在2﹪以內(nèi),說明本文建立的SVR預(yù)測模型是有效的.

      2.4構(gòu)建時隔一周交易日的預(yù)測模型

      假設(shè)當前日為T日,本文以第T+1、T+2、T+3、T+4、T+5日的收盤價分別作為輸出變量構(gòu)建5個模型,仍然采取240個交易日為滾動時間窗口,然后對這5個模型進行比較,如表2所示.

      表2 五種預(yù)測結(jié)果與真實對比

      從表2看出,SVR擇時模型在T+1、T+2、T+3、T+4和T+5日5種情況下,都是對下跌的預(yù)測精度要高于上漲的.在1年的測試數(shù)據(jù)下,SVR擇時模型均能保持較高的準確率,5種類型的預(yù)測中,對于下跌的預(yù)測準確率均能保持在0.65以上,對于上漲的預(yù)測準確率保持在0.6以上,對整個市場的預(yù)測則能保持在0.62以上.所以,該模型對預(yù)測HS300指數(shù)具有可行性.

      2.5模擬交易

      擇時本質(zhì)上是預(yù)測,即在預(yù)測的基礎(chǔ)上做擇時策略.SVR模型預(yù)測的結(jié)果只是給出一個漲跌的信號,然后在此基礎(chǔ)上選擇合適的時刻進行交易.

      基于一般性的考慮,本文以HS300指數(shù)作為標的資產(chǎn),在實際操作中,考慮到?jīng)_擊成本與交易成本,選擇T+5日作為實際的交易時間,指定如下交易規(guī)則:

      (1)如果預(yù)測標的是上漲的記為1,相反下跌的記為-1;

      (2)如果預(yù)測為上漲,并在市場行情低于T日的收盤價時買入并持有;

      (3)如果漲幅超過2﹪(止盈點)則賣出,否則到T+5日自動平倉;

      (4)設(shè)定止損點為2﹪,即如果虧損2﹪則平倉.

      (5)對于反向操作——做空,2和3則采取相反的操作,其余亦同.

      這樣的交易規(guī)則可以避免因為股市的暴漲或暴跌帶給人們一時的收益或損失,該操作進行的是長期交易.圖3表示在2012-02-01至2012-12-31期間的按照上述策略進行交易的累計凈值情況.

      圖3 2012年HS300和SVR擇時策略的累計凈值

      T+5日SVR擇時策略對HS300指數(shù)同時采用多空操作, 通過利用被動掛單的方法, 只要價格達到合適的位置則選擇開倉,如果沒有達到開倉條件則繼續(xù)等待,如果開倉后價格沒有觸及止盈點或止損點則以最后時刻平倉.從圖3看出,從2012年2月1日至2012年12月31日,HS300凈值從1增長到1.054,而通過SVM擇時策略進行交易,凈值從1增長到1.576.

      3結(jié)語

      本文所構(gòu)建的SVR預(yù)測模型創(chuàng)新點是采用滾動預(yù)測方案,即不同于處理靜態(tài)數(shù)據(jù)那樣所采用的固定預(yù)測方案.該預(yù)測方案采用迭代估計而非一次性估計和預(yù)測.

      [參考文獻]

      [1]ETHEM ALPAYDIN.機器學(xué)習導(dǎo)論[M].范明,昝紅英,牛常勇,譯.北京:機械工業(yè)出版社,2014.

      [2]KIM K J. Financial time series forecasting using vector machines[J]. Neurocomputing,2003 (55):307-319.

      [3]邊肇祺,張學(xué)工.模式識別[M].北京:清華大學(xué)出版社,2002.

      [4]田盛豐. 基于核函數(shù)的學(xué)習算法[J]. 北方交通大學(xué)學(xué)報, 2003(2):1-8.

      [5]BURBIDGE R, TROTTER M, BUXTON B, et al. Drug design by machine learning: support vector machines for pharmaceutical data analysis[J].Computer and Chemistry, 2001(1):5-14.

      [6]TROTTER M W B, BUXTON B F, HOLDEN S B. Support vector machines in combinatorial chemistry[J]. Measurement and Control, 2001(8):235-239.

      (責任編輯穆剛)

      Research of forecasting and timing in stock market based on SVR

      ZHANG Peng

      (Science Department, Taiyuan Institute of Technology, Taiyuan Shanxi 030008, China)

      Abstract:This paper firstly expounds the principle of support vector regression machine, on the basis of which SVR forecasting model is established and then the advantages of SVR model are analyzed in time series prediction problem, regarding HS300 index as the test sample. Based on this, trading experiment is conducted to show that SVR is applicable to predict the short-term trends of stock market, and it can get a better prediction effect.

      Key words:machine learning; support vector regression; time series

      [中圖分類號]C812

      [文獻標志碼]A

      [文章編號]1673-8004(2016)02-0148-04

      [作者簡介]張鵬(1989—),男,山西長治人,助教,碩士,主要從事數(shù)據(jù)分析、統(tǒng)計決策方面的研究.

      [收稿日期]2015-10-18

      猜你喜歡
      時間序列機器學(xué)習
      基于詞典與機器學(xué)習的中文微博情感分析
      基于機器學(xué)習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      上證綜指收益率的影響因素分析
      時代金融(2016年27期)2016-11-25 17:21:02
      基于指數(shù)平滑的電站設(shè)備故障時間序列預(yù)測研究
      基于時間序列的我國人均GDP分析與預(yù)測
      商(2016年32期)2016-11-24 16:20:57
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于線性散列索引的時間序列查詢方法研究
      軟件工程(2016年8期)2016-10-25 15:43:57
      基于支持向量機的金融數(shù)據(jù)分析研究
      機器學(xué)習理論在高中自主學(xué)習中的應(yīng)用
      五家渠市| 新巴尔虎左旗| 临武县| 原平市| 将乐县| 开鲁县| 德化县| 金溪县| 厦门市| 建瓯市| 四子王旗| 娱乐| 宽城| 咸阳市| 华亭县| 旬阳县| 文山县| 田阳县| 临颍县| 郴州市| 徐水县| 罗甸县| 公安县| 商城县| 武陟县| 潍坊市| 新疆| 石阡县| 南平市| 大邑县| 桦南县| 安顺市| 灌云县| 江口县| 佛坪县| 乐至县| 盱眙县| 南澳县| 岗巴县| 巴彦淖尔市| 南川市|