馬耀蘭
(北方民族大學(xué) 信息與計(jì)算科學(xué)學(xué)院,寧夏 銀川 750021)
基于支持向量機(jī)方法的股票預(yù)測(cè)模型
馬耀蘭
(北方民族大學(xué) 信息與計(jì)算科學(xué)學(xué)院,寧夏 銀川 750021)
利用支持向量機(jī)方法建立股票投資預(yù)測(cè)模型,經(jīng)過(guò)與多項(xiàng)式函數(shù)及Sigmoid核函數(shù)的對(duì)比,選用Gauss徑向基函數(shù)作為SVM核函數(shù);抽取223支上市公司的股票作為研究樣本,并選取對(duì)股票投資影響顯著的財(cái)務(wù)指標(biāo)構(gòu)造樣本數(shù)據(jù)集,代入支持向量機(jī)模型進(jìn)行實(shí)證測(cè)算;實(shí)驗(yàn)表明,與BP神經(jīng)網(wǎng)絡(luò)模型相比,在樣本有限的情況下,基于支持向量機(jī)的股票投資模型預(yù)測(cè)精度更高。
支持向量機(jī);BP神經(jīng)網(wǎng)絡(luò);預(yù)測(cè)模型
目前,在我國(guó)上海和深圳兩家證券交易所上市的公司已達(dá)兩千多家,投資者購(gòu)買其中的一種股票,就等于選擇了這家上市公司,投資者投資股市如何合理規(guī)避風(fēng)險(xiǎn)、獲得一定的投資收益呢,除進(jìn)行宏觀經(jīng)濟(jì)分析和行業(yè)經(jīng)濟(jì)分析外,還必須對(duì)上市公司本身進(jìn)行科學(xué)合理的分析,其中上市公司的內(nèi)部財(cái)務(wù)狀況是構(gòu)成分析的主要內(nèi)容。但是由于股票價(jià)格現(xiàn)象是一個(gè)非線性的復(fù)雜系統(tǒng),傳統(tǒng)的股票投資研究方法有諸多不足,其中計(jì)量模型方法或是用簡(jiǎn)單的財(cái)務(wù)指標(biāo)做影響因子來(lái)解釋股票收益,或是用未來(lái)現(xiàn)金流的貼現(xiàn)值來(lái)估計(jì)股票的內(nèi)在價(jià)值,因此采用傳統(tǒng)的模型方法研究股票投資問(wèn)題,無(wú)法克服模型檢驗(yàn)困難和推廣泛化能力差這兩個(gè)難題。[1]
隨著非線性技術(shù)的發(fā)展,人們提出了神經(jīng)網(wǎng)絡(luò)( ANN )方法,在實(shí)際應(yīng)用中80%90%的人工神經(jīng)網(wǎng)絡(luò)模型是采用誤差反傳算法或其變化形式的網(wǎng)絡(luò)模型(簡(jiǎn)稱BP神經(jīng)網(wǎng)絡(luò))。許多學(xué)者對(duì)經(jīng)典ANN 進(jìn)行改進(jìn),將其應(yīng)用于股票預(yù)測(cè),相對(duì)于經(jīng)典的ANN,在收斂精度、收斂速度和全局優(yōu)化方面有所改善,但ANN方法是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小原則,最終解過(guò)于依賴初值,存在過(guò)學(xué)習(xí)的現(xiàn)象,訓(xùn)練過(guò)程中容易陷入局部最優(yōu)問(wèn)題等。[2-3]
支持向量機(jī)(簡(jiǎn)稱SVM)方法是統(tǒng)計(jì)學(xué)習(xí)理論的一種實(shí)現(xiàn)方法,它也是一種前向型神經(jīng)網(wǎng)絡(luò),可以用于分類和非線性回歸。SVM方法的基本思想是:基于Mercer核展開(kāi)定理,通過(guò)非線性映射把特征空間映射到Hilbert空間,在Hilbert空間中用線性學(xué)習(xí)機(jī)方法解決非線性分類和回歸等問(wèn)題。此外,SVM還是一種專門研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論,[4-5]被認(rèn)為是目前針對(duì)小樣本統(tǒng)計(jì)估計(jì)和預(yù)測(cè)學(xué)習(xí)的最佳理論。本文嘗試采用支持向量機(jī)方法建立股票投資預(yù)測(cè)模型,并重點(diǎn)考察支持向量機(jī)股票投資模型的預(yù)測(cè)效果。
支持向量機(jī)(SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)原則的學(xué)習(xí)機(jī)器。而SRM原則是針對(duì)二值分類問(wèn)題(兩類的分類問(wèn)題)提出的,因此,關(guān)于SVM的基本問(wèn)題是二值分類問(wèn)題,有關(guān)SVM的詳細(xì)介紹,請(qǐng)參考文獻(xiàn)。[4-5]
設(shè)線性可分樣本集T={(x1,y1),(x2,y2),…,(xn,yn)}∈(X×Y)n,其中xi∈X=Rn,
yi∈Y={-1,1},是類別標(biāo)號(hào),i=1,2,…,n,要求在X=Rn上找一個(gè)實(shí)值函數(shù)g(x),使之可以用決策函數(shù)f (x)=sgn(g(x))推斷每一個(gè)x相對(duì)應(yīng)的y,也就是找到一個(gè)把Rn上的點(diǎn)分成兩部分的規(guī)則。
下式定義一個(gè)判別函數(shù),它是n維向量空間中的一個(gè)超平面:
g(x)=(w·x)+b=0
(1)
(2)
(2)式可統(tǒng)一表示為:
yi[(w·xi)+b]≥1 i=1,2,…,n
(3)
(4)
則稱τ為判別函數(shù)(1)式的余量,它表示樣本點(diǎn)與超平面之間的最小距離。余量越大,基于該超平面的分類推廣能力越好。對(duì)同一組分類樣本,可做出許多超平面,其中余量最大者稱為最優(yōu)分類超平面。從(4)式可知,余量最大即表示‖w‖最小,因此求最優(yōu)分類超平面的問(wèn)題可表述為下列二次優(yōu)化問(wèn)題。
s.t. yi[(w·xi)+b]≥1 i=1,2,…,n
(5)
以上目標(biāo)函數(shù)是嚴(yán)格上凹的二次型,約束函數(shù)是下凹的,這是一個(gè)嚴(yán)格凸規(guī)劃問(wèn)題,可以轉(zhuǎn)換成拉格朗日(Lagrange)問(wèn)題進(jìn)行求解。因此,可以定義如下的Lagrange函數(shù):
(6)
其中αi≥0為L(zhǎng)agrange乘子。由Karush-Kuhn-Tucker(KKT)條件,可將(6)式中的w和b僅用αi表示,得到原優(yōu)化問(wèn)題的對(duì)偶優(yōu)化問(wèn)題如下:
(7)
訓(xùn)練集線性不可分時(shí),任何超平面都不可能完全正確的劃分,此時(shí)對(duì)第i個(gè)訓(xùn)練點(diǎn)(xi,yi)引入松弛變量ξi≥0,把約束條件yi[(w·xi)+b]≥1放松為
yi[(w·xi)+b]+ξi≥1
(8)
s.t. yi[(w·xi)+b]+ξi≥1, i=1,2,…,n
(9)
其中懲罰參數(shù)Cgt;0為某個(gè)指定的常數(shù),這一優(yōu)化問(wèn)題同樣需要變換為用拉格朗日乘子表示的對(duì)偶問(wèn)題,在高維情況下才容易求解。變換的過(guò)程與前面推導(dǎo)線性可分樣本的對(duì)偶問(wèn)題類似,得到如下對(duì)偶優(yōu)化問(wèn)題
其結(jié)果和可分的情況幾乎完全相同,只是αi的條件有所不同。
對(duì)非線性分類問(wèn)題,通過(guò)引入核函數(shù)K(xi,xj)轉(zhuǎn)化為線性分類,優(yōu)化問(wèn)題如下:
1.SVM模型輸入變量的選取。
文中訓(xùn)練樣本的指標(biāo)數(shù)據(jù)來(lái)自于清華大學(xué)中國(guó)金融研究數(shù)據(jù)庫(kù)公布的上市公司2008年年報(bào)的財(cái)務(wù)數(shù)據(jù)。我們隨機(jī)抽取了除ST、*ST和B股以外的223支股票作為訓(xùn)練數(shù)據(jù)集進(jìn)行分類研究,即共有223條記錄,每一條記錄由9個(gè)屬性組成,其中前8個(gè)屬性是模型的輸入變量,它們是公司盈利能力、資產(chǎn)管理能力、償債能力和成長(zhǎng)能力的描述,包括:每股收益、主營(yíng)業(yè)務(wù)凈利率、凈資產(chǎn)收益率、市盈率、流動(dòng)比率、速動(dòng)比率、總資產(chǎn)周轉(zhuǎn)率以及資產(chǎn)負(fù)債率。最后一個(gè)屬性,即輸出變量,是對(duì)股票類別的定義,我們構(gòu)造的SVM模型共分為2個(gè)類別:其中“1” 表示績(jī)優(yōu)股,“-1”表示非績(jī)優(yōu)股。有關(guān)績(jī)優(yōu)股和非績(jī)優(yōu)股的定義為:“績(jī)優(yōu)股”是指每股稅后利潤(rùn)在全體上市公司中處于中上地位,公司上市后凈資產(chǎn)收益率連續(xù)三年顯著超過(guò)10%的股票,“非績(jī)優(yōu)股”則是不滿足以上約束條件的股票。受篇幅所限,這里只給出一部分股票訓(xùn)練數(shù)據(jù),如表1所示。
表1 部分股票訓(xùn)練數(shù)據(jù)
2.預(yù)測(cè)結(jié)果。
本文采用SVM模型、決策樹和改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),利用基于損失函數(shù)的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)模型的預(yù)測(cè)精度,也就是用混淆矩陣作為分類規(guī)則特征的表示,它是分析分類器識(shí)別不同樣本情況的有用工具。BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)為8×24×1,決策樹采用的是C5.0算法,由于處理實(shí)際問(wèn)題中的樣本信息量較大,我們利用數(shù)據(jù)挖掘軟件SPSS Clementine12.0進(jìn)行模型的構(gòu)建,預(yù)測(cè)結(jié)果如表2所示。
表2 SVM、BP神經(jīng)網(wǎng)絡(luò)和決策樹對(duì)訓(xùn)練樣本的分類結(jié)果
3.實(shí)驗(yàn)結(jié)果分析。
由表2可以看出:在利用SVM建立的預(yù)測(cè)模型對(duì)股票投資價(jià)值進(jìn)行預(yù)測(cè)時(shí),其預(yù)測(cè)的正確率和誤差率分別是96.86%和3.14%,223支股票中有216支分類正確,7支分類錯(cuò)誤。而用BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的正確率和誤差率分別是94.62%和5.38%,223支股票中有211支分類正確,12支分類錯(cuò)誤。決策樹模型預(yù)測(cè)的正確率為96.86%,誤差率3.14%。預(yù)測(cè)結(jié)果表明:與神經(jīng)網(wǎng)絡(luò)方法相比,基于SVM股票投資模型的預(yù)測(cè)在平均正確性和平均錯(cuò)誤性都有明顯提高。另外一方面也說(shuō)明,在本文中SVM模型的預(yù)測(cè)精度與決策樹模型的預(yù)測(cè)精度一樣。
本文嘗試用支持向量機(jī)來(lái)預(yù)測(cè)公司股票是否有投資價(jià)值,以上市公司財(cái)務(wù)指標(biāo)作為輸入變量,以績(jī)優(yōu)股作為輸出變量,并與BP神經(jīng)網(wǎng)絡(luò)和決策樹股票投資預(yù)測(cè)模型的實(shí)證結(jié)果進(jìn)行對(duì)比。最后得出支持向量機(jī)股票投資模型的預(yù)測(cè)效果較優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。同時(shí)該研究結(jié)果也表明,在模型建立過(guò)程中,最重要的四個(gè)輸入變量依次為每股收益、凈資產(chǎn)收益率、市盈率(PEI)和總資產(chǎn)周轉(zhuǎn)率。利用支持向量機(jī)來(lái)挑選優(yōu)質(zhì)股票的預(yù)測(cè)模型具有一定的科學(xué)性和可行性。
[1]韓兆洲,謝銘杰.上市公司投資價(jià)值評(píng)價(jià)模型及其實(shí)證分析[J].中央財(cái)經(jīng)大學(xué)學(xué)報(bào),2004, 24(11):71-75.
[2]C Burges.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-127.
[3]Francis E H Tay, Cao Li- juan. Application of Support Vector Machines in Financial Time Series Forecasting[J].The International Journal of Management Science, 2001(29):309-317.
[4]Vladimir N. Vapnik. The nature of statistical learning theory[M].New York: Springer-Verlag,1995.
[5]Cortes C, Vapnik V. Support vector machine [J].Machine Learning,1995(20):273-297.
[6]吳曉求,等.證券投資分析[M].北京:中國(guó)人民大學(xué)出版社,2001.
[7]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法—支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[8]張秋水,羅林開(kāi),劉晉明.基于支持向量機(jī)的中國(guó)上市公司財(cái)務(wù)困境預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用,2006,26(6):105-107.
ClassNo.:O212DocumentMark:A
(責(zé)任編輯:蔡雪嵐)
ForecastModelsforStocksBasedontheSupportVectorMachineApproach
Ma Yaolan
(College of Information and Computing Science, Bei Fang University of Nationality, Yinchuan, Ningxia, 750021,China)
With the SVM approach , a forecast model of stock investment value was built . By comparing with polynomial function and sigmoid function, radial basic function was selected as the kernel function of SVM. 223 stocks of Listed Companies was selected as research sample, and the financial data which influenced the stock investment value was selected to construct the sample feature set which is put into the SVM model for empirical calculation. Experimental results show that SVM-based model performed significantly better than the neural network based model in both prediction precision and speed, especially under the condition of limited training samples.
SVM; BP neural network; prediction model
馬耀蘭,碩士,講師,北方民族大學(xué)。研究方向:應(yīng)用概率統(tǒng)計(jì)。
北方民族大學(xué)科學(xué)研究項(xiàng)目(項(xiàng)目編號(hào):2010Y040)資助。
1672-6758(2013)04-0124-2
O212
A