閆明杰(通訊作者) 石云瑞 .首都經(jīng)濟(jì)貿(mào)易大學(xué)管理工程學(xué)院 .河北科技工程職業(yè)技術(shù)大學(xué)
量化選股,簡單來說就是數(shù)據(jù)挖掘領(lǐng)域的分類問題。其基本步驟為首先構(gòu)建合適的指標(biāo)體系,其次利用量化的數(shù)據(jù)統(tǒng)計(jì)分析工具判斷和選擇最優(yōu)的股票進(jìn)行投資等金融活動(dòng)。然而近幾年,中國股票市場規(guī)模逐漸壯大,市場內(nèi)在不足和問題也不斷暴露(如投資者盲目投資股票等),甚至影響了股票市場的發(fā)展。因而如何引導(dǎo)和幫助投資者轉(zhuǎn)向理性的股票投資活動(dòng),是當(dāng)前相關(guān)部門最為重視的難題。在股市決策中,理性投資的核心就是量化選股。因此,如何探索一個(gè)更為有效的選股模型,是當(dāng)前急需應(yīng)對(duì)的挑戰(zhàn)。
目前中國股票市場形式多樣化,影響投資者進(jìn)行金融投資選股等活動(dòng)的因素多元化,例如突發(fā)的社會(huì)事件、企業(yè)新提出的政策、利率的變動(dòng)、空氣質(zhì)量、心里的情緒波動(dòng)和業(yè)界人士的建議等等。基于此,如何構(gòu)建一個(gè)更為有效的選股模型尤為重要。同時(shí),京津冀協(xié)同發(fā)展政策的提出,極大地促進(jìn)的當(dāng)?shù)禺a(chǎn)業(yè)經(jīng)濟(jì)的發(fā)展,也帶動(dòng)了京津冀地區(qū)股市的發(fā)展,甚至影響著中國股票市場的波動(dòng)。那么如何在波動(dòng)的京津冀地區(qū)的股市中更好地進(jìn)行金融投資選股等活動(dòng),便成為了大多數(shù)投資者的一大難題。
針對(duì)以上問題,本文主要基于京津冀地區(qū)部分股票數(shù)據(jù)介紹了三種量化選股模型,即SVM、PCA-SVM以及RF-SVM模型,并對(duì)其選股結(jié)果進(jìn)行了分析與討論,為不同投資者選擇合適的選股模型提供了新思路。
本文主要基于京津冀地區(qū)部分股票數(shù)據(jù)對(duì)選股模型進(jìn)行分析與討論。因此,本文選取了國泰安數(shù)據(jù)庫中京津冀地區(qū)部分上證A股2018年的財(cái)務(wù)指標(biāo),并從7個(gè)方面一共選取了19個(gè)指標(biāo)表示股票的整體狀態(tài),詳細(xì)指標(biāo)見表1。
表1 指標(biāo)說明
本文剔除ST(破產(chǎn)、虧損等)股票和部分?jǐn)?shù)據(jù)缺失的股票后,保留了150只股票數(shù)據(jù),并對(duì)其數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。其次,本文隨機(jī)劃分130條數(shù)據(jù)作為訓(xùn)練集,其余20條數(shù)據(jù)作為測試集。其中,我們默認(rèn)選股模型為二分類模型,即通過分析股票的收益狀況判斷是否對(duì)該股票進(jìn)行投資等金融活動(dòng)。若分析該股票收益狀況良好,我們便認(rèn)為該股為優(yōu)股,適合投資;若該股票收益狀況較差,則認(rèn)為該股為劣股,不適合投資。因此,我們將訓(xùn)練集中每股收益位于前30%和后 30% 的股票分別認(rèn)為優(yōu)股和劣股,并刪除每股收益處于中間部分的股票,即實(shí)際訓(xùn)練集中為78只股票。由于本次報(bào)告?zhèn)戎赜陬A(yù)測結(jié)果,因此在此主要列舉測試集中的股票代碼如表2。
表2 測試集股票代碼
支持向量機(jī)(SVM)是最為常用的監(jiān)督學(xué)習(xí)分類模型之一,其效果優(yōu)于其他多數(shù)分類模型,因此本文選擇對(duì)其進(jìn)行研究分析。該模型的核心在于構(gòu)建一個(gè)分離超平面,并最大化不同類別的邊界距離。在本文中,首先通過訓(xùn)練集得到訓(xùn)練后的分類器,然后對(duì)測試集的20只股票進(jìn)行預(yù)測判斷其是否適合進(jìn)行投資,結(jié)果可得預(yù)測的準(zhǔn)確率為65%,其中劣股預(yù)測的準(zhǔn)確率為90%,優(yōu)股預(yù)測的準(zhǔn)確率為40%。同時(shí),預(yù)測為優(yōu)股中實(shí)際為優(yōu)股的準(zhǔn)確率為80%。預(yù)測為優(yōu)股的股票代碼分別為:600560、600158、600361、600011、603127。即投資者可以在20只股票池中,選擇以上5只股票進(jìn)行投資等金融活動(dòng),獲益的準(zhǔn)確率可達(dá)80%。
主成分分析(PCA)是最重要的降維統(tǒng)計(jì)方法之一,主要是將多個(gè)特征通過某種要求轉(zhuǎn)變成較少的主成分。其應(yīng)用較為廣泛,例如對(duì)信號(hào)進(jìn)行降噪處理等。本文首先對(duì)數(shù)據(jù)進(jìn)行PCA處理,其目的在于使得降維后的特征累計(jì)方差貢獻(xiàn)率大于85%,最終本實(shí)驗(yàn)通過PCA方法提取了七個(gè)主成分。其次再利用提取主成分后的數(shù)據(jù)訓(xùn)練模型并對(duì)20只股票進(jìn)行預(yù)測。結(jié)果可得預(yù)測準(zhǔn)確率為75%,其中劣股預(yù)測準(zhǔn)確率為90%,優(yōu)股預(yù)測準(zhǔn)確率為60%。預(yù)測為優(yōu)股中實(shí)際為優(yōu)股的準(zhǔn)確率為85.7%。預(yù)測為優(yōu)股的股票代碼分別為:601991、603533、600011、603127、600800、601669、603096。即投資者可以在20只股票池中,選擇以上7只股票進(jìn)行投資等金融活動(dòng),獲益的準(zhǔn)確率可達(dá)85.7%。其中600011和603127股票與上個(gè)模型預(yù)測結(jié)果相同。同時(shí),投資者也可以在20只股票池中,選擇600011和603127股票進(jìn)行投資等金融活動(dòng)。
隨機(jī)森林(RF)是一種集成機(jī)器學(xué)習(xí)的方法,可以度量變量的重要性,并通過將其重要性排序后,選擇出重要性較高的特征進(jìn)行下一步的模型訓(xùn)練過程。根據(jù)基于SVM量化選股模型結(jié)果和基于PCA-SVM量化選股模型結(jié)果的對(duì)比,可以猜想降維在提高模型準(zhǔn)確率上具有一定作用。為了進(jìn)一步驗(yàn)證我們的猜想,本文還通過隨機(jī)森林與SVM的結(jié)合模型進(jìn)行了對(duì)比。首先通過隨機(jī)森林對(duì)數(shù)據(jù)進(jìn)行特征選擇,選取了最重要的十個(gè)特征,然后建立RF-SVM模型。結(jié)果可得實(shí)際預(yù)測準(zhǔn)確率為75%,其中劣股預(yù)測準(zhǔn)確率為100%,優(yōu)股預(yù)測準(zhǔn)確率為50%。預(yù)測為優(yōu)股中實(shí)際為優(yōu)股的準(zhǔn)確率為100%。預(yù)測為優(yōu)股的股票代碼分別為:603533、600011、603127、600800,603096。即投資者可以在20只股票池中,選擇以上5只股票進(jìn)行投資等金融活動(dòng),獲益的準(zhǔn)確率可達(dá)100%。其中600011和603127股票與上兩個(gè)模型預(yù)測結(jié)果相同。同時(shí),投資者也可以在20只股票池中,選擇600011和603127股票進(jìn)行投資等金融活動(dòng)。
本文利用公司財(cái)務(wù)指標(biāo)建立了SVM、PCA-SVM以及RF-SVM選股模型,并將其分類結(jié)果進(jìn)行比較。結(jié)果發(fā)現(xiàn)數(shù)據(jù)的降維處理對(duì)優(yōu)化SVM量化選股模型具有一定的作用,即PCA-SVM的選股模型和基于RF-SVM的選股模型均優(yōu)于SVM選股模型。其次,基于PCA-SVM的選股模型和基于RF-SVM的選股模型在綜合預(yù)測準(zhǔn)確率上是持平的。最后,從預(yù)測為優(yōu)股實(shí)際為優(yōu)股的準(zhǔn)確率的角度出發(fā),基于RF-SVM的選股模型準(zhǔn)確率高達(dá)100%,遠(yuǎn)優(yōu)于基于PCA-SVM的選股模型(85.7%)和基于SVM量化選股模型(80%)。
因此,基于本文中的20只股票池,投資者有兩種投資方案:1.激進(jìn)投資者可以根據(jù)RF-SVM選股模型,投資股票代碼為603533、600011、603127、600800和603096的股票。2.保守投資者可以根據(jù)這三個(gè)模型預(yù)測為優(yōu)股的交集進(jìn)行投資,即選擇股票代碼為600011和603127的股票進(jìn)行投資等金融活動(dòng)。