何英潔 王世民
(北京工商大學電商與物流學院 北京 100048)
混合型基金作為開放式證券基金的一種,因其復雜多變的組織形式和介于股票和債券之間的投資風險受到廣大人名群眾的追捧。同時在推動我國經濟發(fā)展之中,相對于股票的不穩(wěn)定性而言,數量龐大的混合型基金以其靈活多變的投資風格也發(fā)揮著更大的作用?;鹗袌鲎鳛橐粋€開放性的大市場,不僅受到系統(tǒng)性的風險,還受到投資者心理,基金公司財務狀況等非系統(tǒng)性的風險。因此,大多數的基民在投資基金時,往往很難選擇,或者人云亦云,造成了巨大的損失,也造成了我國證券市場的不健康發(fā)展。
混合型基金凈值波動的研究主要集中在對基金預測方法的應用上,如于立媛、宋鋒把灰色模型與馬爾科夫鏈組合起來,其組合模型要優(yōu)于單一的灰色模型[1];向瑩、王雅萍把ARIMA 模型應用到華安上證180ETF、預測效果較好[2];肖國榮證明了改進型BP 神經網絡的預測精度要優(yōu)于傳統(tǒng)的BP 神經網絡[3];翟育明、鄒亞平、周俊文、馮旖旎提出將遺傳算法(GA)與傳統(tǒng)BP 神經網絡組合成一種自適應遺傳神經網絡模型來對基金凈值進行了預測[4];何樹、紅吳迪、張月秋證明了RBF神經網絡的預測效果要優(yōu)于BP 神經網絡[5];崔琳證明了PSO優(yōu)化后RBF 神經網絡模型要優(yōu)于傳統(tǒng)的BP、RBF模型[6]。喬寶明、黃晶、范雯將改進的小波閾值理論與自回歸模型相結合,其預測效果要優(yōu)于單一的自回歸模型[7];景陽將小波分解理論與多元回歸算法相結合成一種新的基金預測模型,其預測效果要好于傳統(tǒng)ARMA、小波去噪自回歸模型[8]。綜上所述,這些方法主要集中在對方法的改進以及應用上,但是實際的應用場景并沒有考慮?;鸬姆N類繁多,指標和方法的選擇不當會影響預測的精度,甚至是導致預測失敗。
在結合前人對于基金凈值預測研究的基礎上,提出將隨機森林算法與改進型的BP神經網絡組合成RF-BP 模型來對混合式基金進行預測。結果證明該模型對于混合型基金凈值的預測要優(yōu)于傳統(tǒng)的BP神經網絡。
隨機森林算法能夠處理高維度的數據,且具有較強的泛化性,能夠兼顧基金凈值各影響指標之間的耦合作用,消除冗余度大和不相關的屬性。采用隨機森林算法從構建的特征庫中,能夠篩選出對基金凈值有重要影響的指標。
選擇分類回歸樹(CART)作為決策森林的基樹。采用MSE(均方誤差)作為結點分裂的依據來搭建隨機森林做特征重要性度量。計算方法如下[9~10]:
1)對于隨機森林中的每一棵回歸樹,使用相應的OOB(袋外數據)數據來計算它的誤差(預測值與真實值之間的誤差),記為error1。袋外數據指的是,每次建立決策樹時,以重復抽樣的方式得到一批數據用于訓練決策樹,最終會留下大約1/3 的袋外數據沒有被利用。
2)隨機對袋外數據D2的所有樣本的特征加入噪聲干擾(隨機改變樣本在特征x 處的值),再次計算袋外數據誤差,記為而error2。
3)假設我們構造的隨機森林有n 棵基樹,則特征的重要性為
feature_importances=∑(abs(error2-error1))/n
用它來判斷每個特征的重要性,是因為在加入隨機噪聲后,袋外數據(OOB)的準確率會大幅度減少,減少越多說明對預測結果的影響越大,就越重要。
4)利用上述方法計算出所有特征的重要性,并按升序進行排列,然后采用后向迭代的方法,每次去掉一個重要性最低的特征,再對剩余的特征進行重要性評估,重復進行上述操作,直到遍歷完所有特征,然后選取袋外誤差最小(OOB_SCORE_分數最高)時的特征,作為最后選定的指標體系。
利用隨機森林對特征進行提取后,采用BP 神經網絡作為預測模型,相較于ARIMA、灰色模型、回歸模型[3],其能夠較好地擬合出基金凈值的波動規(guī)律。
BP 神經網絡是一種按預測誤差不斷進行反向調節(jié)的多層前饋神經網絡。其結構如圖1所示。
圖1 BP神經網絡結構圖
針對傳統(tǒng)的BP算法,訓練時間長、梯度消失造成訓練失敗等問題,本研究采用改進型的BP算法,以變學習率動量梯度下降算法為優(yōu)化算法,TANSIG 為輸出層到隱層的激活函數,PURELIN 為隱層到輸出層的激活函數,經證明,在隱層采用S 型函數,在輸出層采用線性函數具有逼近任何連續(xù)函數的特性。其算法又分為前向傳遞和后向傳遞兩部分,如過程1)、2)所示。設有12個特征變量Xi(i=1,2…12),一個輸出Y,共有(Xik,Yk)(k=1,2,…N)個樣本,隱藏層節(jié)點輸入O(j(1)),輸出為Oj(j 為隱藏層節(jié)點數),隱藏層和輸出層偏置bj和b2。
1)前向傳遞過程如下:
隱藏層輸入為
隱藏層輸出為
輸出層為
隱層激活函數(TANSIG)
輸出層激活函數(PURELIN)
平方誤差公式為(MSE)[11]
其中Yk(t)為網絡實際輸出??删唧w表示為
2)反向傳遞過程(根據鏈式法則,損失函數對各個需要更新的參數求偏導,反復迭代,直至損失誤差達到預期值):
可以推出,隱藏層到輸出層權重更新公式以及輸出層到隱藏層的為
對偏置b 采取同樣的更新方式,這里不再贅述。
改進在于對反向求導過程,選擇變學習率動量梯度下降算法。動量梯度下降算法降低了網絡對于誤差曲面局部細節(jié)的敏感性,而且把動量項作為阻尼項,在綜合考慮上幾次權值的基礎上,減小了學習過程中的振蕩趨勢。同時,在動量梯度下降算法中引入自適應學習速率,根據所處的不同誤差曲面區(qū)域,學習率能夠實時自主調節(jié),降低訓練次數,能夠避免跳出最佳極小值的情況。對比原始的梯度下降法,變學習率動量梯度下降算法能夠克服在訓練過程中發(fā)生的震蕩,且具有訓練時間快、泛化性強,不易陷入極小值等特點,具體算法又可分為兩部分。
1)增加動量項:
W(k)為連接權系數;Dk=-?Ek/?Wk為k 時刻的負梯度;D(K-1)是k-1 時刻的負梯度,u 為學習速率,u>0;a是動量因子。
2)自適應調節(jié)學習率:
設一初始學習率u,若經過一批次權值調整后使總誤差E 變大,則本次調整無效,且μ(k+1)=βμk(β<1);若經過一次權值調整后使總誤差E變小,則本次調整有效,且μ(k=1)=θμk(θ>1)。
在參考王敏基于BP神經網絡對基金凈值預測研究[13];張綱等從基金經理特征和基金公司特征的雙重視角下對基金業(yè)績的研究[14];張潔瓊、楊孔雨基于面板數據的開放式基金凈值影響因素的研究[15];朱冰、朱洪亮對積極開放式基金的規(guī)模與收益的關系研究[16];高金窯、張曉雪對我國證券投資基金預測能力的決定因素研究[17],以及國泰數據庫、天天基金、晨星網對于相關數據的解讀的基礎上,初步選取了基金份額凈值、基金份額累計凈值、基金份額復權單位凈值、基金份額累計凈值周增長率(%)、基金份額復權單位凈值周增長率(%)、滬深300 指數、持股比例、持債比例、現金比例、凈資產規(guī)模(億元)、基金換手率(%)、持倉行業(yè)集中度(%)、上一周凈值、上一周累計凈值、基金份額復權單位凈值'(上一周)、收益率標準差(%)、Sharpe率、市場組合平均收益率(%)、Beta 值、詹森指數-Alpha 值、特雷諾指數(%)、TM 模型擇時能力gamma、TM 模型選股能力alpha'、CL 模型熊市擇時能力gamma1'、CL 模型牛市擇時 能 力gamma2'、CL 模型擇時能力gamma'、CL 模型選股能力alpha'、CPI(居民消費價格指數),28 項作為研究基金凈值波動的指標庫。
如圖2 所示,初步選取的28 個特征,進一步采用隨機森林回歸做出的特征重要性圖表(以對混合型A(平衡)基金第一次迭代為例)。
圖2 特征重要性(混合型A(平衡)基金)
為消除研究樣本的單一性這里增選混合型(偏股)B、(偏債)C 兩只基金進行對比和泛化研究,依據袋外數據誤差最?。∣OB_SCORE_分數最高)準則,見圖3,發(fā)現當特征數為12 時,OOB_SCORE_分數最高,預測結果的準確性主要與基金份額凈值(X1)有關,其次是上一周的凈值(X2)、市場組合平均收益率(X3)、基金換手率(X4)、基金份額累計凈值(X5)、基金份額復權單位凈值(X6),CL 模型熊市擇時能力(X7)、上一周累計凈值(X8)、滬深300指數(X9)、特雷諾指數(X10)、收益率標準差(X11)、居民消費價格指數(X12)。
以混合型A(平衡)基金為例,參照(偏股)B、(偏債)C兩只混合式基金,截取從2013年3月22號到2019年6月30號共323周的數據作為樣本,最終篩選出3.2小節(jié)所示的(X1~X12)共12個特征作為BP神經網絡的輸入變量。
由于選取的特征具有不同的物理意義和量綱,為使訓練伊始各輸入分量同等重要,避免輸入數據落入飽和區(qū)域,本文將原始數據利用式(12)進行[0,1]歸一化[4]。
選取已處理數據中的前315 周數據為訓練集,余下8 周為測試集,以X1~X12為輸入變量,以Y為輸出變量。在BP 神經網絡訓練中,隱藏節(jié)點的選取參考經驗式(13)[11]:
其中:n 為輸入節(jié)點數;m 為輸出節(jié)點數,a 為1~10之間的整數。本文中n為12,m 為1,則節(jié)點的取值范圍是[4,13],分別取該范圍內的值建立神經網絡,其他參數,學習率設為0.25,訓練次數為10000,精度設為0.0012,動量因子設為0.95。經驗證,當節(jié)點為4時,預測值的均方誤差最小為0.00678。
本研究采用時間移動仿真法,每次僅預測一周,預測完后,該周加入訓練,從而預測下一周,直至第八周預測結束,可以充分考慮到基金凈值近期波動影響因素,減小預測誤差[11]。
利用Matlab R2019a 軟件編程實現RF-BP 組合模型,對混合型A(平衡)基金進行了預測并與參考文獻[13]中固定指標的傳統(tǒng)BP神經網絡進行了對比。同時對偏股型B 和偏債型C 兩只混合型基金進行了預測。
1)混合型A(平衡)基金的預測結果及分析RF-BP 模型與傳統(tǒng)BP 預測的擬合效果如圖4 所示。
圖4 改進型BP與BP預測擬合效果圖(混合型A(平衡)基金)
RF-BP組合模型相較于傳統(tǒng)的BP算法對混合型A基金凈值的預測有明顯的優(yōu)勢,結果驗證其平均絕對誤差降低了340%。
2)模型的泛化性和樣本的多樣性
增選偏股型B 和偏債型C 兩只混合型基金的預測效果圖,如圖5、6 所示,發(fā)現RF-BP 算法要優(yōu)于傳統(tǒng)BP算法。
圖5 預測結果對比(混合式B(偏股)基金)
圖6 預測結果對比(混合式C(偏債)基金)
綜上所述,通過構建指標庫,并利用隨機森林對特征進行優(yōu)化與改進BP 神經網絡的組合(RF-BP 模型)要優(yōu)于傳統(tǒng)固定指標的BP 算法,提高了方法的普適性,也提高了模型的預測精度以及泛化能力,能夠較好地預測不同混合型基金凈值的變化,預測值與真實值之間基本吻合,平均絕對誤差基本上控制在2%以內。
針對前人單純基于BP、RBF、ARAMA 等方法的組合改進應用,存在收斂速度慢,陷入極小值,效果不穩(wěn)定以及特征與樣本數不滿足要求等問題,在構建特征庫,增加樣本量的基礎上,提出將隨機森算法與改進型的BP 神經網絡組合成RF-BP 模型。經實證分析,該模型對混合型基金具有較高的預測精度,具有較好的泛化性、普適性等,大幅度縮減了訓練時間,能為基民合理選擇混合式基金提供一定的數據參考。