王敏源 王 璨 李 浩*
(浙江萬里學(xué)院商學(xué)院 浙江·寧波 315100)
如今我國證券市場不斷開拓,投資者大幅增加,海量市場信息源源不斷?;诖髷?shù)據(jù)智能化時代背景下計算機技術(shù)的量化投資方法,表現(xiàn)出了其高效處理大量信息的手段優(yōu)勢,一方面能快速有效地把握市場的有利信號,另一方面能減少市場參與者的行為偏好、主觀情緒帶來的影響,以實現(xiàn)長期穩(wěn)定的證券市場投資收益和風(fēng)險控制[1]。
近些年,機器學(xué)習(xí)算法被廣泛使用在量化投資策略設(shè)計中。史衛(wèi)峰(2017)利用隨機森林,將基于BARRA量化對沖模型的多因子模型中的多個同類因子,進行選取,后使用PCA進行處理,得到各個因子的信息貢獻率和線性相關(guān)性,是模型整體的估計準確值可以進行提高。謝翔(2017)的研究表明,SVM算法比較適合上漲趨勢的行情,隨機森林算法適合下降趨勢,在預(yù)測上漲趨勢時,決策樹表現(xiàn)優(yōu)異,預(yù)測下降趨勢,神經(jīng)網(wǎng)絡(luò)算法占優(yōu)。林啟敏(2016)將支持向量回歸機、隨機森林和量子遺傳算法相接軌,構(gòu)建了一個獨特的綜合選股模型,隨機森林主要應(yīng)用于財務(wù)指標的篩選,而支持向量機和遺傳算法將因子的參數(shù)優(yōu)化,得到最優(yōu)組合。吳衛(wèi)星(2018)通過選取不同的技術(shù)指標,即 KDJ、RSI、MACD 和布林等指標,將這些指標與隨機森林相結(jié)合,構(gòu)建相關(guān)的多因子選股模型。
本文將運用大數(shù)據(jù)、金融、數(shù)學(xué)工具構(gòu)建一套心得量化交易策略體系,保證投資者收益以及資金的合理運用。通過算法優(yōu)化和不同因子選取的方法得到多因子模型,結(jié)合隨機森林、PCA模型兩大模型提高準確值,并不斷優(yōu)化,用BOLL和KDJ技術(shù)指標進行擇時,回測檢驗調(diào)參后得到滿意結(jié)果。
異常值是指樣本中個別不太合群的值,也稱其為離群點,其值明顯偏離大部分觀測值。對異常值的處理有利于策略模型使用合理的統(tǒng)計數(shù)據(jù)。我們使用原則和箱型圖檢測離散值。我們采用的處理策略是:把數(shù)據(jù)中大于95%分位點數(shù)據(jù)用95%分位點替換;小于5%分位點的數(shù)據(jù)用5%分位點替換。
本文的研究股票池采用滬深300,我們選擇iFind(金融數(shù)據(jù)報告)作為我們的數(shù)據(jù)來源,其中對于特征值缺失過多的股票刪除,特征值缺失不多的股票使用數(shù)值插值來進行填補。通過缺失值處理,選出224只股票。
隨機森林是用于對數(shù)據(jù)進行分析預(yù)測的算法。為了能取得更加準確以及穩(wěn)定的預(yù)測,它建立了很多個決策樹,并將他們分類組合。隨機森林算法中的分支代表隨機性。這些分支產(chǎn)生的節(jié)點會被分為誤差最小的特征,我們利用這些節(jié)點來選出最優(yōu)分割點,僅考慮分割節(jié)點的隨機子集。
PCA算法是用于統(tǒng)計數(shù)據(jù)的工具,已經(jīng)得到了廣泛的應(yīng)用。本策略采取的數(shù)據(jù)具有復(fù)雜性并且信息與數(shù)據(jù)庫較大,并且有部分冗余數(shù)據(jù)和噪聲,所以使用主成分分析來對產(chǎn)品的數(shù)據(jù)進行處理,達到篩選并刪除冗余數(shù)據(jù)、降低噪聲、減少計算量、盡可能的降低實驗結(jié)果的影響。
BOLL指標決定了本策略的買賣時機。它主要由上軌,中軌以及下軌組成。三軌主要由標準差計算而來。股票價格主要在這三條線里進行浮動,當股價在上軌及中軌之間運行時,表示在上漲時期,持股可以獲取收益;當股價在中軌及下軌時期,現(xiàn)在空倉止損較為合理。
KDJ指標KDJ指標又叫隨機指標,它是屬于超買超賣的指標,所以它更適合短線操作。KDJ指標主要有K值,D值,J值,這三個值主要是根據(jù)股票價格的最高價,最低價以及收盤價進行計算得到的。
本文的量化策略構(gòu)建流程如見圖1。
圖1:研究技術(shù)路線圖
Step1:從營運能力、成長能力、估值能力、償還能力和盈利能力這五大方面中篩取63個因子作為初級因子池;
Step2:利用Spearman相關(guān)系數(shù)分析,在一定程度上剔除因子相關(guān)性,得到獨立性較強的34個二級因子;
Step3:使用隨機森林算法篩選出2016-2020年五年特征值都大于0.3且每年都出現(xiàn)的16個因子作為最終因子池,見表1。
表1:最終選取的16個因子
Step4:使用PCA分析計算各因子權(quán)重,得到5個公因子以及因子方程:
Step5:使用MindGo平臺進行alphalens檢驗,結(jié)果表明模擬收益高于基準收益,并且信息系數(shù)為正,因子有效。再按照因子方程計算股票因子得分,選取分數(shù)最高的50支股票作為投資股票池。
Step6:在確定買賣時機方面,通過結(jié)合BOLL和KDJ兩個指標來決定交易時機和方向。通過反復(fù)回測和實驗調(diào)參,確定股價上穿BOLL線中軌,KDJ指標中K值大于D值,K線上穿D線,當條件滿足時,買入。當股價下穿BOLL線中軌,KDJ指標中K值小于D值,K線下穿D線,或者K值大于65時,賣出。
Step7:進一步優(yōu)化,通過MindGo平臺來對有效因子打分并判斷停牌和ST股,將高分股票放入股票池中,更新股票池頻率為30天。
Step8:通過反復(fù)回測實驗,對大盤及個股分別設(shè)置了止盈止損點。當大盤過去5天下跌總數(shù)的5%時,將所有股票全部賣出。對于個股,近三天下跌合計超過5%,平倉。
圖2:策略回測表現(xiàn)(基于同花順MindGo平臺)
我們使用同花順Mindgo平臺回測得到策略的年化收益率為11.41%,遠高于基準年化收益率0.26%,最大回撤為12.69%,Sharpe比率和信息比等指標均表現(xiàn)良好。并且在大盤指數(shù)呈現(xiàn)下跌趨勢時仍能獲得較穩(wěn)定的收益。說明我們的策略有不錯的實施價值。
隨著我國經(jīng)濟的快速發(fā)展,證券市場也不斷地完善,量化投資技術(shù)也不斷發(fā)展,激發(fā)交易市場活力。國內(nèi)的投資者越來越傾向于量化投資這一理性的投資方式,尤其是機構(gòu)投資者的更加重視,近年來涌現(xiàn)出了越來越多的創(chuàng)新型公司以量化交易作為公司產(chǎn)品核心。
本文選擇滬深300成分股為研究對象,結(jié)合PCA算法和機器學(xué)習(xí)的優(yōu)勢構(gòu)建多因子選股模型?;趦r值投資理念,通過機器學(xué)習(xí)智能化層層篩選,得到有效的、獨立的收益影響因子;使用PAC方法計算因子方程,量化評價股票的因子表現(xiàn),排序得到投資標的股票。最后使用技術(shù)指標和止盈止損策略,進行策略回測,表現(xiàn)良好穩(wěn)定,實驗證明可通過策略獲得超額收益。相對比單一模型的使用,本文提出的策略模型運行效率更高,預(yù)測準確性更好,多個數(shù)學(xué)模型的結(jié)合有利于提高因子選擇效率,通過計算主因子特征值貢獻率進行因子打分,降低了人為主觀的影響,提高了股票選擇的科學(xué)性。