肖陽 丁琦
摘 要:本文首先基于信息系數(shù)構(gòu)建了單因子策略,并利用近年來中國A股數(shù)據(jù)對市場上12大類共500多個因子進行評分篩選,得到了22個有效因子。其次,結(jié)合上述有效因子,并基于三種不同的核函數(shù)建立了支持向量機多因子選股模型。最后,利用真實市場數(shù)據(jù)對上述模型進行了回測,并通過網(wǎng)格搜索和交叉驗證法確定了模型參數(shù)的最優(yōu)取值,實驗結(jié)果表明三種核函數(shù)都有獲得超額收益的表現(xiàn)。其中線性核函數(shù)具有高貝塔性,多項式核函數(shù)具有高的信息比率,而高斯核函數(shù)績效表現(xiàn)最優(yōu),年化收益達到24.76%。
關鍵詞:量化投資? 支持向量機? 多因子模型? 股票
中圖分類號:F832.51 文獻標識碼:A 文章編號:2096-0298(2020)08(a)--03
目前,國內(nèi)學術界對機器學習應用在金融投資中的研究逐漸增加,對比判斷哪種因子和哪類模型在金融市場中是有效的,成為人們的研究目標。歐陽中等對支持向量機的LS、OSU和SteveGunn三種不同核函數(shù)進行了分類精度的比較,發(fā)現(xiàn)OSU分類性能最優(yōu)。劉佳祺等將BP神經(jīng)網(wǎng)絡算法與主成分分析法和遺傳算法相結(jié)合,對股票價格進行預測。謝翔探究了七種機器學習算法在中國A股市場中的適應效果。
綜上,隨著數(shù)據(jù)和方法的增加,如何更有效的運用使之與當今的金融市場相匹配成為目前人們的主流研究方向。本文基于支持向量機方法和多因子選股模型,利用近年真實市場數(shù)據(jù)對三種不同的核函數(shù)和500個股票因子進行實證研究,獲得了性能最優(yōu)的核函數(shù)模型和有效選股因子。
1 文獻綜述
多因子模型的適用性與收益率依賴于模型中所使用股票因子的有效性。劉帥針對 2848只股票和 20 個指標,提出了缺失數(shù)據(jù)的完備化過程,并以相對于大盤的漲跌概率為因變量分析有效因子。魏欣欣等從會計信息質(zhì)量以及中國股票特征兩個角度對50指數(shù)進行了優(yōu)化研究。總之,國內(nèi)學者正逐漸運用多因子模型對大盤指數(shù)型成分股進行實證分析,本文則在此基礎上運用市場上500多不同類型的因子,并利用單因子策略給出股票因子的得分,以深挖A股市場中的有效因子。
基于支持向量機模型的選股策略的超額收益率則取決于核函數(shù)和代入特征因子的有效性。陳陽將支持向量機與決策樹、隨機森林相結(jié)合,建立了滬深300指數(shù)的三分類預測模型,并選用了23個量價初始特征。江鵬選取了權(quán)益回報率、市盈率、換手率等價值,質(zhì)量、風險、動量、情緒、收益等6大類共38個特征因子,將支持向量機與主成分分析相結(jié)合,開發(fā)了針對平安銀行股票的擇時策略。總之,支持向量機與多因子模型有著多種結(jié)合方式與評價體系,并對滬深300指數(shù)的預測和股票擇時策略的設計提供了有力的技術支撐。本文利用所選出的有效因子與滬深300指數(shù)的成分股,對基于不同核函數(shù)的支持向量機選股模型進行實證分析,以比較各個核函數(shù)的有效性與適用性。
2 有效因子篩選
本文從點寬網(wǎng)獲取了12類共500多個因子在2016年1月4日至2018年9月28日的真實市場數(shù)據(jù),并通過去極值、標準化和同趨化處理,將全部數(shù)據(jù)統(tǒng)一到相同維度。信息系數(shù)(IC,Information Coefficient)可以反映因子與股票收益之間的關系,其為所選因子在當期(時)的值與股票下期(時)收益率的截面相關關系:
進而,將IC值與因子值的乘積作為買進股票的選股標準,稱其為排序因子:
由此可以構(gòu)建單因子模型:在月初計算排序因子,選取因子值較大的前1/15只股票作為本月的目標標的,并在月底平倉,以后每月重復上述過程。
針對所有因子,對上述模型進行回測,可以得到相應的阿爾法、夏普比率、年化收益率、盈利因子等數(shù)據(jù),進一步將上述數(shù)據(jù)進行標準化處理,并以其等權(quán)重加總作為該因子的得分。本文最終選取得分最高的22個因子作為有效因子(表1)。
3 支持向量機多因子選股模型
支持向量機是一類按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器。在分類過程中,記()為輸入的因子數(shù)據(jù), 為每類因子的特征構(gòu)成的特征空間,將其作為決策邊界的超平面,把學習目標按正負類分開,而學習股票的漲跌記為(),其中上漲為正類,下跌為負類。從而得到支持向量機模型:
其中, 為超平面的法向量,為截距。分類后,在上間隔邊界上方的標的屬于上漲類型,在下間隔邊界下方的標的屬于下跌類型,而在間隔邊界上的漲跌類標的為支持向量。
在使用超平面作為決策邊界分類時會帶來損失,即部分支持向量在間隔邊界內(nèi),而不是在邊界上。這時鉸鏈損失函數(shù)可以對這類損失進行量化,其公式為:
在使用分類器學習并應用新數(shù)據(jù)時會產(chǎn)生風險,根據(jù)風險的類型可分為結(jié)構(gòu)風險和經(jīng)驗風險:
其中,表示分類器。
通常我們對于風險都希望其能最小化,可以通過最小化結(jié)構(gòu)風險和經(jīng)驗風險的線性組合以確定模型參數(shù),此時對該分類器的求解轉(zhuǎn)化為一個正則化問題:
其中,常數(shù)為是正則化系數(shù),表示模型對錯誤分類的容忍度;而時即為正則化。
在一些線性不可分的問題上,使用非線性函數(shù)可以將問題從原始的特征空間映射至更高維的空間,從而轉(zhuǎn)化為線性可分問題,其決策邊界的超平面表達式為:
其中為映射函數(shù)。定義映射函數(shù)的內(nèi)積為核函數(shù),記為:
常用的核函數(shù)有線性核、多項式核和高斯核。
線性核解析式為:
其中,為因子的特征空間數(shù)量。線性核主要用于線性可分的情況,特征空間到輸入空間的維度是一樣的。
多項式核解析式為:
其中,為原始數(shù)據(jù)映射到高維數(shù)據(jù)后,在高維特征空間中的分布,為映射的維度。主要用于正交歸一化數(shù)據(jù),可以實現(xiàn)將低維的輸入空間映射到高緯的特征空間。
高斯核解析式為:
是一種局部性強的核函數(shù),能夠?qū)颖居成涞礁呔S的空間內(nèi)。
根據(jù)上述三類核函數(shù),分別建立支持向量機多因子選股模型:在月初利用支持向量機模型對滬深300股票池中股票進行分類,選出為上漲形態(tài)的股票,對篩選出的股票進行等權(quán)重買入,并將前一個月所持有的股票進行平倉,以后每月重復上述過程。
4 實證分析
2016年1月至2018年9月可以按行情分為三個時期:2016年1月至2017年5月為震蕩市場;2017年5月至2018年2月為上漲市場;2018年2月至2018年10月為下跌市場。因而此時的市場具有很強的多變性與普適性,利用該時間段的真實市場數(shù)據(jù)進行回測,更能檢測出模型的優(yōu)劣。
首先運用網(wǎng)格搜索和交叉驗證法確定不同核函數(shù)中參數(shù)的最優(yōu)取值。在線性核中取;在多項式核中取且;在高斯核中取且。
進而對本文所建多因子模型進行回測,回測績效見表2。
由此可見,在累計收益率方面,高斯核最高,而線性核最低;在最大回測方面,則是線性核最高,而高斯核最低。因而高斯核在收益和風險兩方面均表現(xiàn)最優(yōu)。這一結(jié)果說明因子數(shù)據(jù)是十分多樣化的,極少存在線性可分和正交歸一化的情況,從而使得線性核和多項式核的表現(xiàn)弱于高斯核。
按回測順序(線性核、多項式核和高斯核函數(shù)),阿爾法、夏普比率依次升高,最低年化收益率為14.56%,而基準收益率僅為-0.87%,說明支持向量機策略在不同核函數(shù)上能夠同時獲得超額收益。多項式核和高斯核的夏普比率和信息比率均大于1,表現(xiàn)出策略每承擔1個單位的風險得到的收益大于風險。三種核對應的貝塔均大于0.7,說明股票收益率與市場收益率是高度相關的。
2016年1月至2018年9月的回測曲線如下:
其中下方為滬深300指數(shù)走勢,上方為支持向量機模型策略走勢。
通過不同核函數(shù)策略之間對比回測曲線可以發(fā)現(xiàn),支持向量機模型在前期震蕩市場中,線性核和高斯核函數(shù)均能獲得明顯超額收益;在上漲市場中多項式核函數(shù)獲得超額收益的能力較強;在下跌市場中線性核和多項式核都出現(xiàn)不同程度的下跌,而高斯核函數(shù)很快的適應市場行情,收益創(chuàng)出新高。由此可見,基于高斯核函數(shù)的支持向量機選股策略不僅能夠在短期投資中獲得極大收益,在長期投資中穩(wěn)健獲利,而且能夠極好的適應各種市場行情。
5 結(jié)語
綜上所述,本文首先利用單因子模型從市場上12大類共計500多個因子中篩選出22個有效因子。然后,利用篩選出的有效因子構(gòu)建了基于不同核函數(shù)的支持向量機選股模型,并利用近年真實市場數(shù)據(jù)對該模型進行了回測。從績效報告和回測曲線可以看出,基于高斯核函數(shù)的模型相比于其余兩種核函數(shù)表現(xiàn)更佳,能夠在不同的行情下獲得穩(wěn)健收益,以及較低的風險控制。
參考文獻
歐陽中,王育齊,俞梅洪.基于不同核函數(shù)的支持向量機的分析與比較[J].福建電腦,2013(10).
劉佳祺,劉德紅,林甜甜.基于BP神經(jīng)網(wǎng)絡模型的股票價格研究[J].中國商論,2018(08).
謝翔.機器學習算法對中國A股的適應性比較[D].廣州:暨南大學,2017.
劉帥.量化投資:若干金融衍生品的定價模型及投資策略研究[D].上海:上海大學,2016.
魏欣欣,徐悅,張詩雅.股票基本面指數(shù)的優(yōu)化研究[J].中國商論,2019(14).
朱晨曦.我國A股市場多因子量化選股模型實證分析[D].北京:首都經(jīng)濟貿(mào)易大學,2017.
陳陽.基于SVM的滬深300指數(shù)漲跌預測及量化策略研究[D].西安:西北大學,2019.
江鵬.基于支持向量機(SVM)股票擇時策略的研究[D].南昌:江西財經(jīng)大學,2019.