余應(yīng)敏 劉 婧 余浩文
1.中央財經(jīng)大學(xué)會計學(xué)院 2.中央財經(jīng)大學(xué)粵港澳大灣區(qū)(黃埔)研究院
我國經(jīng)濟處于蓬勃發(fā)展階段,資本市場規(guī)模日趨龐大。然而毋庸諱言,某些金融產(chǎn)品的定價與其內(nèi)在價值存在一定的偏差,而該偏差的出現(xiàn)會導(dǎo)致量化投資。量化投資是使用計算機科學(xué)技術(shù)結(jié)合金融學(xué)及數(shù)學(xué)模型的相關(guān)理論用以實現(xiàn)投資理念及投資策略的相關(guān)過程。相較于傳統(tǒng)投資模型:主要以基本面分析法及量化分析法為主,量化投資主要基于數(shù)據(jù)及模型探尋相應(yīng)的投資方式。其分類如表1所示。
表1 量化投資研究方向
伴隨著投資分析技術(shù)的不斷進步,量化投資發(fā)展迅速,量化因子數(shù)量也隨之激增,2022年國泰安量化因子庫相關(guān)數(shù)據(jù)顯示,其數(shù)據(jù)庫主要量化因子數(shù)已達10類,共計254個因子;2018年清華大學(xué)國家金融研究院民生財富管理研究中心推出的《中國A股市場量化因子白皮書》顯示,符合中國市場行情的因子大約為56個,主要包括交易摩擦類因子、動量類因子、價值類因子、成長類因子、盈利類因子和財務(wù)流動性類因子等;同時,隨著量化研究的逐漸深入,各種因子數(shù)量也正呈井噴式涌現(xiàn)。有鑒于此,對量化因子進行篩選顯得尤為必要。
本文基于遺傳算法,通過對所選取的32個市場主流因子進行有效性分析,篩選出符合我國資本市場的量化投資因子,由此建立相對優(yōu)異的投資選股策略。筆者認為,該策略具備一定優(yōu)勢:(1)信息客觀及時:以計算機與數(shù)學(xué)模型為主要工具,將人為情緒與投資系統(tǒng)區(qū)分開;(2)立足市場現(xiàn)實:結(jié)合市場數(shù)據(jù)對模型進行訓(xùn)練,結(jié)合實際選擇最符合市場現(xiàn)實的量化因子,從而構(gòu)建最終選股策略;(3)結(jié)合優(yōu)秀理論:遺傳算法有效結(jié)合生物進化理論,對較大規(guī)模的量化因子庫進行篩選,選取有效因子(適者生存);(4)可調(diào)節(jié)性強:程序化算法可以依據(jù)研究需求,相機調(diào)節(jié)基因因子的個數(shù)及相應(yīng)時間窗格大小。
量化思想最先起源于國外,是數(shù)理工具運用于金融學(xué)上產(chǎn)生的一種新的思考方式,并非伴隨著金融學(xué)產(chǎn)生。1952年美國經(jīng)濟學(xué)家馬科維茨(Markowitz)發(fā)表的《投資組合選擇理論》一文首次提出將定量研究引入當(dāng)時只存在定性描述的投資組合理論中,利用證券一段時間的平均收益率作為收益率衡量,使用標(biāo)準差作為風(fēng)險度量的均值-方差模型由此誕生?;谀P图僭O(shè),Markowitz確立了有效邊際理論,建立了資產(chǎn)優(yōu)化配置模型?;贛arkowitz的資產(chǎn)組合理論基礎(chǔ),William Sharpe、John Lintner和Jan Mossin先后對資本資產(chǎn)定價模型(CAPM)進行檢驗和改良,形成了現(xiàn)代CAPM。
其中:r表示組合S的收益變量;r表示市場組合的收益變量;r表示當(dāng)前市場的無風(fēng)險收益率;β表示組合S對于市場風(fēng)險的敏感度,計算公式為:
Ross受CAPM模型啟發(fā)建立了套利定價理論(Arbitrage Pricing Theory,APT),多因子定價為APT理論的典型代表,從而為后期多因子選股策略的誕生奠定了理論基礎(chǔ)。
據(jù)統(tǒng)計,量化投資在美國已經(jīng)有40余年的歷史。1970年,量化投資剛剛興起,而在2001年,量化投資規(guī)模已超過880億美元;之后更是增長迅猛,諸如James Simons和David Shaw等更是名聲大噪。近年來,隨著科技進步與機器學(xué)習(xí)的日益發(fā)展,量化投資與算法的結(jié)合逐漸緊密,Vrontos et al.采用機器學(xué)習(xí)構(gòu)建模型,不僅利用了各類統(tǒng)計指標(biāo)評判模型預(yù)測的能力,還結(jié)合大量的投資策略評估模型結(jié)果的經(jīng)濟意義,研究結(jié)果表明,不論是在統(tǒng)計意義上還是經(jīng)濟意義上,文中所用的機器模型在隱含波動率預(yù)測方面都要比主流計量模型更有效。Markus et al.構(gòu)建了一系列復(fù)雜的預(yù)測指標(biāo),采用不同機器學(xué)習(xí)模型測試。研究發(fā)現(xiàn),流動性指標(biāo)在不同機器學(xué)習(xí)模型中都表現(xiàn)出一致的重要性,而反映價值的基本面指標(biāo)則顯次要;散戶的存在,使得股價在短期變得更容易預(yù)測(在小盤股表現(xiàn)更為突出);長期而言,大盤股和國有企業(yè)可預(yù)測性更好;僅多頭的策略,在考慮交易成本后,仍然可以取得顯著的收益。
1975年美國密歇根大學(xué)霍蘭德(Holland)教授基于生物進化理論提出了遺傳算法,在之后幾十年中,很快在各個領(lǐng)域中得到了廣泛的應(yīng)用,在金融投資領(lǐng)域更是有著重要的作用,如Hyejung Chung et al.利用現(xiàn)有的財務(wù)數(shù)據(jù)建立了長短時記憶網(wǎng)絡(luò)和遺傳算法融合的股票市場預(yù)測模型,提出使用遺傳算法(GA)確定LSTM網(wǎng)絡(luò)的時間窗口大小和拓撲結(jié)構(gòu)的系統(tǒng)方法,研究股票市場數(shù)據(jù)的時間特性,進行投資時間窗口的優(yōu)化;Bonde et al.使用遺傳算法和進化策略進行特征選擇及權(quán)重優(yōu)化,每個屬性的輸入在根據(jù)其連接權(quán)重進行放大后被賦予一個sigmoid函數(shù),試圖找到每個屬性的連接權(quán)重,以預(yù)測股票的最高價格,實驗結(jié)果表明,在每種情況下,算法都能夠以至少70%的準確度進行預(yù)測。國內(nèi)學(xué)者陳詩樂提出了基于遺傳算法(GA)的股票特征選擇方法,并結(jié)合股票數(shù)據(jù)時序性和非線性特點,實現(xiàn)了基于LSTM與Transformer模型的深度學(xué)習(xí)股票預(yù)測方法;何盼等提出運用遺傳算法(GA)與模擬退火算法相結(jié)合的方式,建立股票走勢預(yù)估模型,有效弱化了各自的缺陷,避免了局部最優(yōu)解的情況,提高了股票走勢預(yù)估的精準度。
本文將遺傳算法作為主要研究算法,對染色體上不同基因個數(shù)和不同投資周期條件下對因子有效性的影響及對策略收益的影響進行研究。借鑒梁曉穎的因子篩選思想,并在其基礎(chǔ)上引入遺傳算法對篩選的因子進行迭代,完成了策略的優(yōu)化。首先,對所選因子庫進行相應(yīng)分類,劃分為盈利因子、估值因子、成長因子、分紅因子、杠桿因子、規(guī)模因子、流動性因子、動量因子8類;其次,以個股因子得分為依據(jù),選出得分較高的個股進行投資組合的構(gòu)建,以投資組合收益的高低作為該因子組合好壞的評價指標(biāo);最后,基于遺傳算法,將表現(xiàn)優(yōu)異的因子組合盡可能地保留并遺傳給后代,在多次迭代后,滿足終止遺傳迭代的條件下,選出最優(yōu)因子組合;本文選取時間窗口為2016—2020年,在基本的因子基礎(chǔ)上加入遺傳算法的因子選擇技術(shù),通過運用前24個月度滬深300指數(shù)成分股數(shù)據(jù),對各因子進行篩選和檢驗,構(gòu)建相對有效的多因子選股模型,并使模型更加穩(wěn)健和實用。
基于多因子量化選股理論,本文從Wind金融終端導(dǎo)出市值、總資產(chǎn)、凈資產(chǎn)等32個因子數(shù)據(jù);根據(jù)因子代表的含義,將32個因子劃分成盈利因子、估值因子、成長因子、分紅因子、杠桿因子、規(guī)模因子、流動性因子、動量因子8類。
1.盈利因子。盈利因子旨在選擇具有較強獲利能力的優(yōu)秀公司,本文選取的盈利因子有:(1)凈資產(chǎn)收益率=凈利潤/凈資產(chǎn);(2)銷售毛利率=毛利/銷售收入×100%;(3)銷售凈利率=凈利潤/銷售收入×100%;(4)經(jīng)營性現(xiàn)金凈流量=(凈利潤+折舊-稅收)/營業(yè)總收入;(5)息稅前利潤=(凈利潤+利息+所得稅)/營業(yè)總收入;(6)總資產(chǎn)收益率=凈利潤/年均資產(chǎn)額×100%;(7)投入資本回報率=息前稅后經(jīng)營利潤/投入資本×100%;(8)銷售費用率=銷售費用/營業(yè)總收入×100%。
2.估值因子。估值因子包括:(1)市盈率=每股市價/每股收益;(2)市凈率=每股市價/每股凈資產(chǎn);(3)市現(xiàn)率=每股市價/每股現(xiàn)金流;(4)市銷率=每股市價/主營業(yè)務(wù)收入。
3.成長因子。增長率=(本期對象值-上期對象值)/上期對象值×100%;公司最根本價值在其凈資產(chǎn)和持續(xù)不斷創(chuàng)造價值的能力,成長因子的主要作用是選擇能持續(xù)創(chuàng)造價值的股票,創(chuàng)造能力越強則說明成長性越好,公司價值越高。本文選取的成長性因子有:(1)基本每股收益增長率=(本期每股收益-上期每股收益)/上期每股收益×100%;(2)凈利潤增長率=(本期凈利潤-上期凈利潤)/上期凈利潤×100%;(3)營業(yè)收入增長率=(本期營業(yè)收入-上期營業(yè)收入)/上期營業(yè)收入×100%;(4)營業(yè)利潤增長率=(本期營業(yè)利潤-上期營業(yè)利潤)/上期營業(yè)利潤×100%;(5)凈資產(chǎn)收益率增長率=留存收益增加量/年初凈資產(chǎn)×100%;(6)凈資產(chǎn)增長率=資產(chǎn)增加額/凈資產(chǎn)總額×100%;(7)每股經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額增長率=(本期經(jīng)營活動現(xiàn)金凈流量-上期經(jīng)營活動現(xiàn)金凈流量)/上期經(jīng)營活動現(xiàn)金凈流量×100%。
4.分紅因子。分紅因子反映公司對股東的分紅情況。本文選取的分紅因子有:股息率、每股股利=股利總額/流通股數(shù)。
5.杠桿因子。杠桿因子用來衡量公司整體運行的負債與權(quán)益配比情況的因子。本文選取的杠桿因子有:(1)長期負債占比;(2)資產(chǎn)負債率=負債/資產(chǎn)總額;(3)全部資產(chǎn)現(xiàn)金回收率=經(jīng)營活動現(xiàn)金凈流量/平均資產(chǎn)總額×100%;(4)股東權(quán)益比=股東權(quán)益/資產(chǎn)總額。
6.規(guī)模因子。規(guī)模因子旨在找尋較大規(guī)模公司的股票建立投資組合。本文選取的規(guī)模因子有:(1)市值=市場價格×發(fā)行總股數(shù);(2)總資產(chǎn);(3)凈資產(chǎn)即股東權(quán)益=總資產(chǎn)-總負債。
7.流動性因子。流動性因子旨在找尋流動性較好的股票建立投資組合。本文選取的流動性因子有:(1)換手率=成交量/發(fā)行總股數(shù)×100%;(2)流通市值:一般由當(dāng)前可交易流通股股數(shù)×當(dāng)前股價計算獲得;(3)流通股本:上市公司發(fā)行在外的流通股股數(shù)。
8.動量因子。動量因子旨在找尋在前期具有一定漲幅,從而擁有上漲慣性的股票建立投資組合。本文選取的動量因子為漲跌幅,即股票股價的漲跌幅度。
根據(jù)達爾文進化論的思想,種群是生物進化的基本單位,種群一旦產(chǎn)生,就受到自然界的選擇作用,不適應(yīng)自然環(huán)境的個體會被自然界不斷地淘汰,整個種群的基因頻率向適應(yīng)環(huán)境的方向發(fā)展,此種選擇淘汰機理即為自然選擇。遺傳算法(GA)是基于生物進化論的自然選擇和基于遺傳機理的生物進化過程的算法模型,主要是通過計算機模擬仿真自然界物種的進化過程尋求問題的最優(yōu)解;從一個初始種群出發(fā),種群由基因編碼而來的個體組成;個體攜帶會決定其個體表現(xiàn)的染色體,一條染色體上有多個基因,基因在染色體上呈直線排列;為了研究基因頻率,遺傳算法需要完成從表現(xiàn)型到基因型的編碼工作,編碼方法主要有二進制編碼、格雷碼編碼、浮點編碼、符號編碼等;初始種群產(chǎn)生后,就可以開始進行模擬生物進化過程,在每一輪的進化中,適應(yīng)力強的個體更容易將基因遺傳給下一代,并通過組合交叉、基因變異等方式,演化出新一代種群;這個不斷繁衍、演化、進化的過程,會使得后生代生物更加適應(yīng)于環(huán)境。遺傳算法的基本運算過程如圖1所示:(1)編碼、初始化種群:將實際問題編碼,隨機生成N個個體作為初始種群;(2)個體適應(yīng)度計算:根據(jù)求解的問題,設(shè)置有一定意義的適應(yīng)度函數(shù),計算種群中每個個體的適應(yīng)度大?。唬?)選擇運算:基于個體適應(yīng)度,通過某種篩選原則作用于群體,目的是使當(dāng)代較優(yōu)的個體將基因直接遺傳或交叉配對至下一代;(4)交叉運算:基于單點交叉、兩點交叉、多點交叉等交叉算子,作用于群體父代,將基因部分交叉重組遺傳至下一代;(5)變異運算:設(shè)定基因變異概率,基于個體編碼方法的不同,有二進制變異和實值變異等變異算法;(6)終止條件判斷:可以設(shè)置最大進化代數(shù)T,當(dāng)?shù)螖?shù)等于T時終止,也可以設(shè)置其他的終止條件。通過編碼工作能夠?qū)栴}解決方案轉(zhuǎn)化成遺傳學(xué)概念中的染色體,染色體和問題解決方案之間一一對應(yīng)。隨后,設(shè)定適應(yīng)度函數(shù)計算各個解決方案對求解問題的適應(yīng)能力,適應(yīng)力高的解決方案更容易采用。最后,在迭代(iterate)計算過程中,求解問題最優(yōu)解就猶如生物進化論中生物不斷進化的過程,在滿足一定條件后,迭代過程所得到的個體通過解碼,即為所需要求解的問題最優(yōu)解決方案。
圖1 遺傳算法流程
基于多因子量化選股,本文引入遺傳算法的應(yīng)用:從因子庫中挑選32個因子,將其劃分為盈利因子、估值因子、成長因子、分紅因子、杠桿因子、規(guī)模因子、流動性因子、動量因子8類;將部分因子作為一個因子組合,以個股因子得分為依據(jù),選出得分較高的個股進行投資組合的構(gòu)建,以投資組合的收益率作為該因子組合好壞的評價指標(biāo);基于遺傳算法,將表現(xiàn)優(yōu)異的因子組合盡可能地保留并遺傳給后代,在多次迭代后,滿足終止遺傳迭代的條件下,選出最優(yōu)因子組合。
⒈編碼、種群初始化規(guī)則:本文采用多層嵌套字典的方式,將32個因子數(shù)據(jù)構(gòu)建成一個因子庫數(shù)據(jù)。隨后,將因子名稱存放于一個列表當(dāng)中,通過產(chǎn)生0—31范圍內(nèi)的5、8、10個隨機整數(shù)作索引與字典鍵值對應(yīng)的機制,實現(xiàn)從因子庫中隨機抽取5、8、10個因子,對初始種群染色體進行編碼。因子庫數(shù)據(jù)結(jié)構(gòu)如圖2所示。
圖2 因子庫數(shù)據(jù)結(jié)構(gòu)圖
⒉淘汰機制:在種群進行繁衍前,需要選擇一個評估種群個體適應(yīng)度并進行自然選擇淘汰。本文以投資組合收益率為基礎(chǔ),構(gòu)建得分函數(shù)作為適應(yīng)度函數(shù);在自然選擇過程中,淘汰得分位于初始種群數(shù)量后10%以外的個體,保留得分位于前10%的個體。
⒊繁衍機制:每代繁衍中,從當(dāng)代種群保留個體中隨機抽取兩條染色體進行組合交叉繁衍,組合交叉方式采取單點交叉,每代繁衍100個子染色體。在繁衍過程中,有一定概率(本文設(shè)置為5%),產(chǎn)生基因突變。
⒋繁衍過程:種群在進行繁衍時,組合交叉方式采用單點交叉,在染色體上隨機選擇一個位置點,與另一條染色體交換該位置點右側(cè)的第一個基因,實現(xiàn)兩條染色體之間的基因互換,單點交叉過程具體如圖3。
圖3 單點交叉方式
⒈投資組合的構(gòu)建過程。在確定因子所組成的因子組合后,對樣本池中各股進行因子打分,為了消除量綱的影響,需要對各因子打分進行標(biāo)準化處理;股票與該因子組合的得分即為該股票各因子得分之和,投資組合由因子得分位于前30的股票組成。
⒉得分函數(shù)設(shè)置:鑒于本文旨在構(gòu)建組合收益最大化的投資策略,故設(shè)置與投資組合收益率相關(guān)的得分函數(shù)。(1)設(shè)置時間觀察窗口:自2016年2月至2018年1月,即24個月度(M)的股票收益數(shù)據(jù);(2)股票選取原則:投資組合由因子得分位于前30的股票構(gòu)成;(3)投資組合調(diào)整周期:分別以1、3、6月(M)為一個調(diào)倉周期,在周期開始的首月,根據(jù)上一周期末最后一月的實時因子得分和上一年度財報因子構(gòu)建新的投資組合;(4)投資組合倉位權(quán)重設(shè)置:采用等權(quán)倉位控制,將資金均勻分布至投資組合中30只股票;(5)投資組合買賣倉位總額設(shè)置:每一期調(diào)倉,買賣新的投資組合時,倉位總額為上期期末倉位余額;(6)因子組合得分:將因子組合得分等價于在2016年2月至2018年1月各投資周期基于該因子組合構(gòu)建的投資組合的累計收益率。
⒈因子庫。個數(shù)為32,劃分為盈利因子、估值因子、成長因子、分紅因子、杠桿因子、規(guī)模因子、流動性因子、動量因子8類。
⒉樣本池。樣本池(股票池)大小為300只個股,個股來源于Wind所示滬深300指數(shù)成分;樣本池數(shù)據(jù)選樣時間區(qū)間為2016年1月1日至2020年12月31日,共五年;樣本數(shù)據(jù)字段主要涉及日期、前收盤價(元)、開盤價(元)、最高價(元)、最低價(元)、收盤價(元)等;樣本數(shù)據(jù)為月度數(shù)據(jù)。
⒊遺傳設(shè)置。染色體:每條染色體上都攜帶基因,一個基因?qū)?yīng)一個因子。本文設(shè)置染色體上可攜帶基因個數(shù)分別為5、8、10,分別探究在上述情況下,最佳因子組合所對應(yīng)的收益率,并進行比較,得出構(gòu)成最佳因子組合的因子個數(shù)與因子成分;種群個數(shù):種群個數(shù)N初始設(shè)置為1 000;每代保留個數(shù):每一代經(jīng)過自然選擇淘汰后保留的種 群 個 數(shù) 為N×10%,N為初始種群數(shù),自然選擇淘汰即按所設(shè)置的得分函數(shù)進行排序,選出得分在前10%的個體;突變概率:設(shè)置基因突變概率為5%;交叉方式:采用“單點交叉”,通過在當(dāng)代種群中隨機選擇兩條染色體,在隨機選擇的位置點上進行分割并交換右側(cè)的部分交叉一個基因;繁衍速度:每代繁衍、產(chǎn)生100個染色體;最大迭代次數(shù):設(shè)置最大繁衍迭代次數(shù)為100;終止判定條件:(1)遺傳迭代次數(shù)達到100次。(2)在連續(xù)8次迭代過程中,具有最佳投資收益的投資組合所對應(yīng)的因子組合不變。
本文基于遺傳算法對染色體上不同基因個數(shù)和不同投資周期條件下對因子有效性的影響及對策略收益的影響進行研究;以個股因子得分為依據(jù),選出得分較高的個股進行投資組合的構(gòu)建;探究了投資周期為1/3/6的周期跨度和5/8/10個因子組合的策略方案、共計9種超參數(shù)組合。總體而言,在算法迭代過程中,出現(xiàn)了優(yōu)勝劣汰即子代策略收益率大于父代的現(xiàn)象,符合遺傳算法基于生物進化論的基本思想,再次印證了使用遺傳算法作為基本研究范式的可行性。以下是針對不同周期跨度及不同因子組合數(shù)的詳細分析。
⒈選取1個月(1M)為投資間隔策略
從圖4中可以發(fā)現(xiàn),在每次迭代過程中,子代基本展現(xiàn)出優(yōu)于父代的優(yōu)良特性,尤其是在迭代初期,性狀得到快速優(yōu)化,優(yōu)化過程在后期趨近于平緩。本文選取8代為迭代停止界限,即在迭代過程中若8代內(nèi)未出現(xiàn)基因的進一步優(yōu)化則說明基因性狀已經(jīng)達成局部最優(yōu),染色體基因趨近穩(wěn)定。從染色體基因個數(shù)來看,迭代速率與染色體個數(shù)之間未表現(xiàn)出顯性關(guān)系,可能是由于5—8個、8—10個之間增加的基因?qū)δP托Ч绊戄^為隨機且難以測量,由此就目前研究情況來看,染色體基因個數(shù)與模型效果之間關(guān)系并不明顯,可在后續(xù)展開更多樣本的研究。同時,由圖4可以發(fā)現(xiàn),基因個數(shù)為8和10的迭代次數(shù)多于5,可初步認為迭代次數(shù)與基因個數(shù)間呈現(xiàn)一定正相關(guān)關(guān)系,其原因可能在于策略廣度的增加導(dǎo)致了基因互換過程的排列組合數(shù)增加。
圖4 投資間隔為1狀態(tài)下不同基因數(shù)迭代收益情況走勢圖
2.選取3個月(3M)為投資間隔策略
類似于選取1個月(1M)為投資間隔的情況,從圖5中可以發(fā)現(xiàn),在每次迭代過程中,子代基本展現(xiàn)出優(yōu)于父代的優(yōu)良特性,同樣是在迭代初期,性狀得到快速優(yōu)化,后期趨近于平緩。通過組間對比可以發(fā)現(xiàn),相較于投資間隔為1個月(1M)的情況,在策略收益上出現(xiàn)了明顯的降低,可以初步認定投資期間隔對策略收益影響較大;同樣,基于組(1)中的相關(guān)結(jié)論,依然可以判定,染色體基因個數(shù)與策略收益之間沒有明顯的相關(guān)關(guān)系;基因個數(shù)與和迭代次數(shù)之間呈現(xiàn)正相關(guān),投資間隔不會對迭代次數(shù)產(chǎn)生明顯影響。
圖5 投資間隔為3狀態(tài)下不同基因數(shù)迭代收益情況走勢圖
⒊選取6個月(6M)為投資間隔策略
在第(3)組中,由于生物進化論中基因性狀的隨機性,導(dǎo)致選取6個月為投資間隔周期,基因個數(shù)為5時在初始情況出現(xiàn)接近局部最優(yōu)的情況,因此也導(dǎo)致了圖6的出現(xiàn),同樣驗證了遺傳算法與生物進化論的相似性,體現(xiàn)了實驗的科學(xué)性;另外,投資間隔變化后又一次出現(xiàn)了總體收益降低的情況,驗證了前文投資周期越長、策略總體收益會降低的假設(shè),其他結(jié)論與前文所述結(jié)論無沖突之處。
圖6 投資間隔為6狀態(tài)下不同基因數(shù)迭代收益情況走勢圖
綜上所述,通過圖形本文可得到初步結(jié)論:(1)投資間隔較長時,策略總體的超額收益會出現(xiàn)降低。(2)策略的優(yōu)化速率在迭代過程中會表現(xiàn)出先快速增長后趨向于平緩的狀態(tài)。(3)基因個數(shù)與收益率水平未體現(xiàn)出明顯關(guān)系,可能是由于基因個數(shù)由5個增長到更多的過程中,后續(xù)增長基因?qū)Σ呗詢?yōu)化效果的影響較為隨機導(dǎo)致。(4)由于生物進化論的隨機性,使用遺傳算法在某些情況下可能會出現(xiàn)初始基因性狀接近局部最優(yōu)的情況,迭代曲線趨近于平緩。(5)一般情況下,基因個數(shù)較多時,生物進化需要的迭代次數(shù)隨之增加。
本文遺傳參數(shù)組合中,分別將投資間隔設(shè)置為1個月(1M)、3個月(3M)、6個月(6M),染色體基因個數(shù)設(shè)置為5、8、10,為了實現(xiàn)投資組合收益最大化,探討了不同投資間隔、不同染色體基因個數(shù)情況下,投資組合的收益率變化情況;對所有可能的遺傳參數(shù)組合進行了因子回測,將各種情況下的收益率同滬深300指數(shù)收益率進行比較,得出最優(yōu)遺傳參數(shù)組合。
如圖7所示,當(dāng)投資間隔為1個月(1M),染色體基因個數(shù)分別為5、8、10時,因子策略最終累計收益率分別可達504.46%、459.39%、416.69%,同期市場(滬深300)累計收益率為25.17%;選出的投資組合表現(xiàn)都遠遠高于市場(滬深300)表現(xiàn)。本文采用的是復(fù)利型投資策略,累計收益率變化幅度較大,但從多因子策略每一周期平均收益率看,不同染色體數(shù)所對應(yīng)的多因子策略每一周期平均收益率都分布于5%左右,差異不大。
圖7 投資間隔1M、染色體基因個數(shù)不同情況下的投資組合收益率
如圖8所示,當(dāng)投資間隔為3個月(3M),染色體基因個數(shù)分別為5、8、10時,因子策略最終累計收益率分別可達210.13%、239.06%、226.33%,同期市場(滬深300)累計收益率為25.17%;在投資間隔3個月(3M)時,基于遺傳算法構(gòu)建的因子組合選出的投資組合表現(xiàn)都遠遠高于市場(滬深300)表現(xiàn)。從多因子策略每一周期平均收益率看,不同染色體數(shù)所對應(yīng)的多因子策略每一周期平均收益率都分布于11.5%左右,差異不大。
圖8 投資間隔3M、染色體基因個數(shù)10投資組合收益率比對
如圖9所示,當(dāng)投資間隔為3個月(3M),染色體基因個數(shù)分別為5、8、10時,因子策略最終累計收益率分別可達172.43%、181.87%、182.09%,同期市場(滬深300)累計收益率為-39.06%;在投資間隔1個月(1M)時,基于遺傳算法構(gòu)建的因子組合選出的投資組合表現(xiàn)都遠遠高于市場(滬深300)表現(xiàn);三種因子策略因子個數(shù)的變化對策略最終累計收益率影響更小,策略間最大變動幅度僅為9.66%。
圖9 投資間隔6M、染色體基因個數(shù)10投資組合收益率比對
基于上述分析,(1)在同一投資間隔下,因子個數(shù)分別于5、8、10構(gòu)成的最佳因子組合所選取的投資組合收益率變動不大;可能是由于各個因子反映的信息可能存在一定的重合,如“總資產(chǎn)”同“凈資產(chǎn)”之間有著一定的相關(guān)關(guān)系,導(dǎo)致選出的股票組合差異不大。因子個數(shù)跨度不大的情況下,遺傳算法所提取的信息有限,對投資組合收益率影響也有限。(2)在同一投資間隔下,三種因子策略的平均收益率變化情況較為一致,上漲期同時上漲、下跌期同時下跌,最終三種策略的累計收益率不同源于其上漲期各自的上漲幅度不同。(3)投資間隔期越大,因子個數(shù)的變動對投資組合收益率的影響也越大。這主要是因為投資間隔期越小時,能夠及時根據(jù)上期表現(xiàn)最好的因子進行當(dāng)期的投資組合構(gòu)建,倘若投資間隔期增大,則會造成“鎖倉”的現(xiàn)象,不能及時調(diào)整有效的投資組合,一旦因子表現(xiàn)不佳,則投資組合收益率影響波動較大。(4)本文采取遺傳算法篩選最優(yōu)因子組合與復(fù)利型投資策略組合進行量化投資。遺傳算法依據(jù)每一代優(yōu)勝劣汰的機制,最終所得到的最佳因子組合在大多數(shù)投資周期都能實現(xiàn)正收益。
本文將Wind滬深300指數(shù)成分股作為股票池,利用遺傳算法對凈資產(chǎn)收益率、銷售毛利率等32個因子所組成的多因子策略進行研究,探究在不同投資期中,選擇不同的多因子策略進行投資的收益分布情況,得出不同投資期所對應(yīng)的最佳多因子策略,并得出以下結(jié)論:(1)遺傳算法能在眾多因子策略組合選出局部最優(yōu)策略。在訓(xùn)練期,本文選取1個月(1M)、3個月(3M)和6個月(6M)三種投資周期與五因子策略、八因子策略和十因子策略組成的九種策略組合進行分析,發(fā)現(xiàn)在迭代過程中每組策略組合均實現(xiàn)一定程度的進化,其中進化次數(shù)最多的策略組合為投資周期為一季度加十因子投資策略,迭代46次達到局部最優(yōu),在因子組合和投資周期的選擇問題中,遺傳算法有助于投資者選擇相對而言收益更高的策略組合。(2)同一周期內(nèi)因子個數(shù)對收益率影響不大。本文根據(jù)所選1個月、3個月和6個月三種投資周期不同因子個數(shù)的策略組合投資收益得出,同一周期內(nèi)因子個數(shù)若未出現(xiàn)較大幅度的提升,其所選出股票獲得的收益也并沒有較多的提升;可能是各個因子反映的信息存在一定的重合,因子個數(shù)跨度不大可能造成從因子提取的信息沒有較大的提升,所選出的股票組合差異不大的問題。故因子個數(shù)差異不大的因子策略具有一定的無差異性。(3)不同投資周期和因子組合的選擇對應(yīng)的投資收益率也不同。本文采取復(fù)利型投資策略進行研究,即將本金和上一投資周期所獲得收益全部作為下一投資周期本金進行投資。研究發(fā)現(xiàn),遺傳算法通過每一代優(yōu)勝劣汰機制,選擇出的因子組合能在大多數(shù)周期內(nèi)實現(xiàn)正收益,而當(dāng)所選因子組合在大部分周期能實現(xiàn)正收益的情況下,投資周期越短,最終投資者的收益率將越高,故本文投資周期為1個月的收益率普遍大于投資周期為3個月和6個月的策略組合。同時投資信息的及時性也是導(dǎo)致投資周期為1個月的收益率普遍大于投資周期為3個月和6個月的策略組合的原因之一,投資周期較短的策略組合,能夠根據(jù)較新的信息進行決策,所選出的股票組合在短時期內(nèi)收益更趨近穩(wěn)定,同一時間段內(nèi)復(fù)利得到收益也就高于投資周期較長的投資收益。
本文的局限:(1)數(shù)據(jù)來源可進一步擴充。本文選取Wind滬深300指數(shù)成分股作為股票池,凈資產(chǎn)收益率、銷售毛利率等32個因子作為因子池進行研究,所得出的策略組合可能會出現(xiàn)在其他股票中失效的情況,策略組合的普遍性還有待研究;同時,本研究所選因子池仍存在可以優(yōu)化的空間,可能存在優(yōu)秀因子沒有入池的風(fēng)險;可考慮選擇更多的因子加入因子池,增加因子組合的豐富度,以選出投資收益表現(xiàn)最為優(yōu)異的因子組合。(2)受限于遺傳算法的固有局限,初始種群采用隨機選取的方法取得,可能存在收益最高的因子群未被選中且后續(xù)雜交和基因突變?nèi)匀晃传@取的風(fēng)險,而錯失最佳因子組合策略。(3)計算資源的限制。受限于計算資源,本文只選取了選取1個月、3個月和6個月三種投資周期與五因子策略、八因子策略和十因子策略組成的九種策略組合進行分析,超參組合測試尚不完善,仍存在一些策略組合未被考慮模型內(nèi);同時,染色體數(shù)量、因子數(shù)量、種群數(shù)量、繁衍速度和種群保留數(shù)量等超參的選取可以進一步優(yōu)化,使用更大的染色體數(shù)量、因子數(shù)量、種群數(shù)量、種群保留數(shù)量和更快的繁衍速度,可能會得到更好的結(jié)果。(4)采取復(fù)利型投資策略進行研究,具有嚴格的周期性。眾所周知,投資者情緒易受股價波動的影響,當(dāng)某一周期多因子策略組合給投資者帶來損失時,投資者對策略組合的信任度可能會下降,最終可能無法獲得較好的收益;同時,復(fù)利型投資策略風(fēng)險較高、未考慮到避險的情形。(5)因子得分權(quán)重關(guān)系有待進一步優(yōu)化。資源所限,采用了最高每條染色體上10個基因個數(shù)的組合,雖能體現(xiàn)因子之間一定的權(quán)重關(guān)系,但存在可優(yōu)化的空間。(6)采用等比例方式進行股票投資,股票收益率按照所選股票每個股票買進一股的模式進行計算,未將各個股票具體股價考慮進去,實務(wù)中,可能存在對不同股價的股票采用對應(yīng)的權(quán)重,所獲投資收益更高的情形。