周嘉灝 張明福 冷鴻杰
(華南農(nóng)業(yè)大學(xué)電子工程學(xué)院(人工智能學(xué)院),廣東 廣州 510642)
隨著經(jīng)濟(jì)社會(huì)的不斷發(fā)展,為了使自身獲取更多的收益,關(guān)于投資選擇的研究和實(shí)踐一直是社會(huì)的熱門話題。國際上關(guān)于投資選股的方法層出不窮,其中以多因子模型為代表的量化選股技術(shù)更是被廣泛運(yùn)用,其運(yùn)用主要在于選股、對沖和統(tǒng)計(jì)套利三個(gè)方面。多因子模型傳入我國的時(shí)間相對較晚,但目前有關(guān)多因子模型的研究與實(shí)踐與日俱增[1],其主要運(yùn)用在量化選股、量化擇時(shí)、預(yù)測漲跌方面。因此本文從研報(bào)中提取特征指標(biāo)進(jìn)行機(jī)器學(xué)習(xí),研究多因子量化模型,有助于在保留傳統(tǒng)多因子模型投資視角廣、投資紀(jì)律性強(qiáng)、對歷史數(shù)據(jù)利用率高等特點(diǎn)的同時(shí),將證券研究機(jī)構(gòu)的選股預(yù)測能力轉(zhuǎn)化為現(xiàn)實(shí)的投資價(jià)值,擴(kuò)寬多因子選股策略的分析方法,充實(shí)我國多因子模型相關(guān)的理論研究。
本次券商信息收集在國信證券的金太陽交易軟件上完成,其對各股票的評價(jià)內(nèi)容較為完整,且有專欄總結(jié),容易查詢。在數(shù)據(jù)收集過程中,由于部分股票的券商研報(bào)信息中存在著一些較為明顯且重要的缺漏,為了保證模型的合理性,我們對相關(guān)不完整股票進(jìn)行了剔除。其中包括:(002060)粵水電,(601318)中國平安,(000921)海信家電,(600048)保利發(fā)展共4 家公司。
經(jīng)過對相關(guān)數(shù)據(jù)的分析,本文初步構(gòu)建了估值因子、成長因子、盈利能力因子等七大方面?zhèn)€特征指標(biāo),總體結(jié)構(gòu)如圖1 所示。
圖1 初步提取的29 個(gè)特征指標(biāo)
為了進(jìn)一步分析各股票之間凈利率的線性關(guān)系的強(qiáng)度,排除走勢相似的股票類型,本文先進(jìn)行了pearson 的相關(guān)性分析,用Python 編程計(jì)算系數(shù),繪制出30 支股票近六年來凈利率的相關(guān)性熱力圖,根據(jù)以上熱力圖矩陣,優(yōu)先排除與其他股票的相關(guān)系數(shù)較高的個(gè)股,選取與其他股票相關(guān)系數(shù)較小的個(gè)股,我們最終選出了10 支特征最明顯的灣區(qū)指數(shù)股票。
表1 相關(guān)股票符號的定義
在回歸分析中,如果有兩個(gè)或兩個(gè)以上的自變量,就稱為多元回歸,由多個(gè)自變量的最優(yōu)組合共同來預(yù)測或估計(jì)因變量,比只用一個(gè)自變量進(jìn)行預(yù)測或估計(jì)更有效,更符合實(shí)際。
設(shè)隨機(jī)變量y 與一般變量x1,x2…,xp的線性回歸模型[2]為:
整理可得, 當(dāng)(X'X)-1存在時(shí),即得回歸參數(shù)的最小二乘估計(jì)為:
為定量分析29 個(gè)特征指標(biāo)與股票凈利潤的關(guān)系,我們在這10 支股票近6 年共60 組數(shù)據(jù)的基礎(chǔ)上,以不同的29個(gè)特征指標(biāo)來作為自變量,以股票凈利潤作為因變量y,利用Python 求解多元線性回歸模型,得到多元線性回歸方程為:
R 方為0.988,表示自變量一共可以解釋因變量98.8%的變化,可以認(rèn)為該模型的擬合優(yōu)度良好。
以所選的10 個(gè)特征指標(biāo)為自變量,股票的凈利潤為因變量,對所選10 支股票列出多元線性回歸方程,得到析研報(bào)特征指標(biāo)對股票走勢的影響,結(jié)果如下所示:
各回歸方程中系數(shù)絕對值越大的項(xiàng),對股票的凈利潤的影響也越大,總結(jié)主要影響因子如表2 所示。
表2 影響各股票凈利潤的主要特征指標(biāo)
根據(jù)股票趨勢圖與相關(guān)特征指數(shù),可以對股票的未來趨勢進(jìn)行一定程度的預(yù)測。在此我們忽略以下因素影響:
3.2.1 市場風(fēng)格特征
在證券市場上,投資風(fēng)格是指某類股票具有相同的回報(bào)特點(diǎn)或者類似的價(jià)格趨勢特征,比如大盤股和小盤股就是兩類投資風(fēng)格,市場有時(shí)傾向大盤股,有時(shí)又傾向小盤股,某段時(shí)期市場上投資者不同的偏好形成了不同的市場風(fēng)格[3]。
3.2.2 行業(yè)輪動(dòng)趨勢
行業(yè)輪動(dòng)與風(fēng)格輪動(dòng)類似,受經(jīng)濟(jì)波動(dòng)周期的影響,市場上一些行業(yè)會(huì)比其他行業(yè)優(yōu)先發(fā)展起來。根據(jù)經(jīng)濟(jì)周期對行業(yè)輪動(dòng)的趨勢進(jìn)行研究,在輪動(dòng)趨勢開始前對投資組合進(jìn)行配置,或在輪動(dòng)結(jié)束后對選股組合進(jìn)行調(diào)整,都將會(huì)得到不同的收益。
3.2.3 資金流動(dòng)
圖2 10 支股票年凈利潤的趨勢圖
本文圍繞選股問題,首先需要深入挖掘所采集的30 支股票詳細(xì)特征,通過相關(guān)的收集到的股票研報(bào)中初步提取出特征指標(biāo),共篩選出29 個(gè)普遍意義指標(biāo),進(jìn)行pearson相關(guān)性分析,而后采用多元線性回歸與等權(quán)重法,對這些股票的特征指標(biāo)進(jìn)行打分,構(gòu)造基于研報(bào)的量化選股模型,提取出最重要的10 個(gè)特征指標(biāo)作為最終有效因子。之后以凈利率為目標(biāo)函數(shù),利用多元線性分析對10 支股票分別列出多元線性回歸方程,從而繪制出曲線圖來分析股票凈利率走勢,篩選出高利潤和一般利潤股票。通過以上分析給出對這10 支股票的下年度的持倉策略。