梁曉穎
[摘 要]股票收益受很多因素影響,比如市場環(huán)境、行業(yè)發(fā)展、投資者預(yù)期等。“多因子模型”中的因子即影響因素,該模型就是尋找對股票收益率影響顯著的因素,用這些因素來分解股票收益并進行選股。在量化選股的實踐中,由于市場環(huán)境的多變性及市場參與者或分析師的不同理解,會構(gòu)建出不同的多因子模型。文章在簡述多因子模型的理論基礎(chǔ)后,敘述了多因子模型構(gòu)建過程,從而為量化選股提供方法。
[關(guān)鍵詞]量化選股;多因子模型;因子有效性
[DOI]10.13939/j.cnki.zgsc.2021.25.031
隨著大數(shù)據(jù)時代的來臨以及多種基礎(chǔ)金融理論的不斷發(fā)展,量化投資獲得了必要的理論來源和支持,而多因子模型也順勢成為量化投資選股的重要方法。
1 多因子模型概述
1.1 多因子模型的基本概念
多因子量化選股模型指的是在選股過程中利用多個對股價走勢有顯著且有效影響的因子,通過量化不同因子對股票收益率的影響,建立起選股模型。
1.2 多因子模型的理論基礎(chǔ)
1.2.1 CAPM模型
1952年馬柯維茨用均值和方差來定量描述資產(chǎn)的收益和風(fēng)險,建立了基本模型以用于確定最佳資產(chǎn)組合。后來,夏普等人在他的理論基礎(chǔ)上,發(fā)展出了CAPM模型。模型公式:E(ri)=rf+βi(E(rm)-rf), 該模型表明資產(chǎn)的預(yù)期超額收益與市場超額收益成正比,股票的價格只與市場風(fēng)險有關(guān),跟上市公司基本面并沒有關(guān)系,并且高的股價需要高的β值來支撐。
1.2.2 套利定價理論
由于CAPM模型假設(shè)條件過于苛刻,后來的學(xué)者們打破原有假設(shè),導(dǎo)出套利定價理論(APT模型)。模型公式:E(ri)=rf+bi1F1+bi2F2+…+binFn, binFn為證券i第n個因素的敏感度。該模型比CAPM模型的假設(shè)更寬松,但是無法從模型中獲知哪些因子起到?jīng)Q定性的作用。
1.2.3 Fama-French三因子模型
經(jīng)過學(xué)者們的研究,很多現(xiàn)象不再可以用CAPM模型來解釋,比如市場中的小市值、價值股表現(xiàn)明顯超過市場。故Fama及French在CAPM模型的基礎(chǔ)上加入了新的因子來解釋資產(chǎn)的收益率。三因素模型表明收益率不僅與市場風(fēng)險有關(guān),還與賬面市值比的模擬組合的收益率、市值因子的模擬組合的收益率有關(guān)。
1.2.4 四因子模型
研究者后發(fā)現(xiàn)市場中的動量現(xiàn)象無法用三因子模型解釋,所以在原有三因子的基礎(chǔ)上加入動量效應(yīng),即某個時段連續(xù)上漲或下跌的股票往往會沿著原來的方向繼續(xù)波動,由此構(gòu)建四因子模型。
1.2.5 五因子模型
先前的模型并沒有引入刻畫公司資產(chǎn)質(zhì)量的因子來解釋資產(chǎn)收益率,由此加入了代表盈利能力的RMW因子和代表投資模式的CMA因子,提出了五因子模型。
2 多因子模型的構(gòu)建
2.1 模型構(gòu)建前的數(shù)據(jù)處理
原始數(shù)據(jù)的選取是多因子模型的基礎(chǔ),只有高質(zhì)量的數(shù)據(jù)才能保證后續(xù)研究的準確,數(shù)據(jù)預(yù)處理的好壞很大程度上決定了模型分析結(jié)果的可靠與否,所以在模型構(gòu)建前需要對基礎(chǔ)數(shù)據(jù)進行處理。
2.1.1 異常值處理
在實際使用過程中,應(yīng)該根據(jù)具體情況來選取合適的方法。
(1)均值標準差修正法(3σ)。在統(tǒng)計學(xué)上,由于在正態(tài)分布下正負3倍標準差以外的數(shù)值發(fā)生的概率極小,可以視作小概率事件,小概率事件幾乎不可能發(fā)生,因此這一部分值可以被視作異常值。
該方法實用性強,可以識別出較大的異常值。但是缺點也顯而易見,首先是基于異常值數(shù)據(jù)計算的均值和方差,會造成μ的不準確,且可能會放大σ,導(dǎo)致上下界過寬,無法篩選部分異常值。其次是不適用于非正態(tài)的數(shù)據(jù)集。
(2)MAD 法??紤]到上種方法判斷異常值時均值和方差的計算容易受到異常值的影響,使得識別異常值不準確,進而考慮使用中位數(shù)對均值進行替代、絕對值的中位數(shù)對標準差進行替代,是一種更穩(wěn)健的異常值識別方法。
(3)固定比率修正法。該方法是根據(jù)一定的比例對異常值識別,即認為一定百分比的數(shù)為異常值。因此該方法定義的異常值為:x∈(-∞, P2)∪(P98, +∞), 其中P2、 P98分別代表排序最接近2%和98%的值。該方法處理方便,適用于兩端都存在異常值的情況。但是僅通過比例來篩選異常值,而不以異常偏離程度篩選異常值會導(dǎo)致異常值識別不準確。
(4)箱型圖法。箱型圖判斷異常值也是統(tǒng)計中常用的方法,其主要通過利用上下四分位數(shù)構(gòu)造了上下界,并據(jù)此定義異常值,也是一個較為穩(wěn)健的方法。該方法定義的異常值為:x∈(-∞, L-n×IQR)∪(U+n×IQR, +∞), IQR=U-L, U=上四分位數(shù), L=下四分位數(shù)。
(5)偏度調(diào)整后的箱型圖法。由于上面提到的箱線圖法不適用于分布呈偏態(tài)的因子數(shù)據(jù),假設(shè)因子值呈現(xiàn)明顯的左偏,而這些因子值基于一定的經(jīng)濟背景是合理的,使用箱型圖法會將左邊過多的數(shù)據(jù)識別為異常值。因此對原有箱線圖法進行了偏度調(diào)整。調(diào)整后的箱線圖法當(dāng)數(shù)據(jù)左偏時會降低下界,數(shù)據(jù)右偏時會提高上界。
2.1.2 缺失值的處理方法
含較多缺失值的因子通常被認為是一個質(zhì)量不佳的因子數(shù)據(jù)集,主要是因為缺失值會導(dǎo)致丟失部分有用的信息,而且會使得系統(tǒng)的不確定性更加顯著。因此對缺失值采用合理的處理方法,提升因子數(shù)據(jù)質(zhì)量為后續(xù)步驟打下堅實的基礎(chǔ)。
(1)剔除法。將存在遺漏數(shù)據(jù)的元素進行刪除,得到一個完備的信息表,這是最為簡單的一種處理方法。這種方法適用于有大量缺失值的因子,或者存在大量缺失值的股票對象,但前提是這類因子或股票對象相對所有的數(shù)據(jù)量而言是很小的,否則會因為丟掉這些信息影響到結(jié)果的正確性。