海琴 謝懷軍
【摘要】公募基金倉位是機構投資者對市場的預期,也是投資者判斷后市走向的指標,其增減倉動作一直受到投資者的高度關注。本文在比較各種倉位預測方法后選擇基于數(shù)據(jù)挖掘的BP神經(jīng)網(wǎng)絡作為建模方法,收集華夏基金年報倉位數(shù)據(jù),利用數(shù)據(jù)挖掘技術分析選擇出相關性最優(yōu)的變量,在MATLAB中設計優(yōu)化出基金倉位預測模型,簡化網(wǎng)絡結構,提高預測精度,并證明了神經(jīng)網(wǎng)絡在投資風格預測中的有效性和普適性。
【關鍵詞】基金倉位;神經(jīng)網(wǎng)絡;投資風格
一、引言
公募基金行業(yè)作為我國迅猛發(fā)展的金融理財行業(yè),規(guī)模不斷擴大,投資者隊伍迅速壯大?;饌}位反映市場信心,可以作為投資者判斷后市走向的重要指標。對基金倉位的預測一直是學術界和投資者感興趣的問題之一,具有實際應用價值。對于關于基金倉位預測模型的研究,目前國內(nèi)還局限于傳統(tǒng)線性回歸方法,前提假設過于苛刻,忽略了很多影響倉位的動態(tài)因素,造成無法容忍的誤差。目前公募基金的倉位數(shù)據(jù)僅在每年發(fā)布的定期報告中有所體現(xiàn),但是按照年報頻率公布的基金倉位并不能作為一個連續(xù)的后市預期指標,我們希望能夠得到即時基金倉位,幫助投資者規(guī)避風險。本文運用神經(jīng)網(wǎng)絡建立倉位預測模型,利用現(xiàn)有基金市場行為的樣本,從中自主尋找規(guī)律逼近復雜的倉位走勢曲線,達到更好的預期效果。
二、基金倉位預測方法綜述
目前,關于基金倉位預測的方法主要包括以下三種。
1.基于收益的基金倉位分析方法,是以夏普在1992年提出的基于收益的基金投資風格分析理論為基礎,通過對基金收益與市場風格指數(shù)漲跌幅進行統(tǒng)計計算,估算出基金在不同風格資產(chǎn)上的配置比例,從而獲得基金投入股市的倉位值。該方法可以在一個中觀的維度上為基金投資者提供較為長期的和可持續(xù)的投資建議,但是在回歸過程中存在多重共線問題,可能產(chǎn)生較大的參數(shù)估計標準差,使得預測誤差較大。
2.傳統(tǒng)的線性預測模型,經(jīng)歷了三個發(fā)展階段,由于理論和算法的創(chuàng)新,測算準確性也有了明顯提高。第一階段的模型,將樣本基金收益率均值除以基準指數(shù)收益率得到基金平均倉位,其過程簡單,處理步驟少,但是測算結果跳躍性較大,并且對基金市場指數(shù)的選取依賴性強。第二階段的模型,對基金收益、市場指數(shù)收益時間序列數(shù)據(jù)進行回歸測算,初步消除了第一階段模型的噪聲,但是回歸期限過長或過短都會對倉位測算結果帶來較大的誤差,且固定的回歸期限使測算與實際結果之間產(chǎn)生時滯。第三階段的模型,對單只基金與其基準的收益序列進行動態(tài)回歸,通過對回歸期限的動態(tài)調整,實現(xiàn)倉位測算工作的智能化和自動化,由于測算的樣本是基金倉位數(shù)據(jù)的云重心,因此能有效消除了前兩個階段測算模型帶來的系統(tǒng)誤差。
3.非線性數(shù)據(jù)挖掘分析法,是直接對基金持股情況進行數(shù)據(jù)挖掘,深入剖析基金組合中各類別資產(chǎn)的增持減持情況,依據(jù)對基金行業(yè)資產(chǎn)的中觀分析,最終實現(xiàn)對基金大類資產(chǎn)倉位的宏觀分析。此測算模型打破了RSV法僅僅依據(jù)收益數(shù)值來進行測算、結果不具可對比性的缺陷,引入收益分布、波動率等多個指標,動態(tài)測算各分類資產(chǎn)相應指標對基金該指標的貢獻度,提高了測算的可對比度,過濾了單一指標會引起系統(tǒng)性誤差的缺陷,并引入因子分析、聚類分析、最優(yōu)化等方法,進一步提高計算結果的精確性。
本文將結合基于收益的基金倉位分析方法和非線性數(shù)據(jù)挖掘分析法,借鑒基金倉位測算模型回歸方法中的自變量取值和影響因素,運用非線性系統(tǒng)分析法中的BP神經(jīng)網(wǎng)絡建立倉位預測模型。
三、基于BP神經(jīng)網(wǎng)絡的倉位模型構建
1.影響基金倉位變動的主要因素
本文選取的基金倉位是基于基金投入股市的資金市值和基金總資產(chǎn)現(xiàn)值,因此,所有會影響股票價格和基金價格的因素都會影響基金倉位的變動,并且,各因素之間的相互作用也會對基金倉位產(chǎn)生影響。
從基金凈值方面考慮,基金總資產(chǎn)的現(xiàn)值與基金交易價格密切相關。影響基金凈值的因素包括三個方面,即基金單位資產(chǎn)凈值、基金市場的活躍程度和銀行存款利率。其他各種政治、經(jīng)濟和人文因素,例如外匯市場匯率變化、資金市場利率變化、投資者的心理因素也會影響倉位。這些數(shù)據(jù)在基金定期報告中具體表現(xiàn)為:期末基金份額凈值、基金市值、期末基金資產(chǎn)凈值、基金收益率、基金單位交易開盤價、基金持股集中度、基金的持倉行業(yè)集中度,收市基金指數(shù)、基金換手率、基金折價率、居民價格消費指數(shù)、銀行利率。
從股票市場價格方面考慮,股票的市場價格最直接的影響因素是供求關系,市場內(nèi)部因素、基本面因素和政策因素通過作用于供求關系而影響股票價格。具體表現(xiàn)為基金持有股票組合的收益率、股票市值增長率,持有股票的開盤價、最高價、最低價、成交量、收盤價及MACD、KDJ、RSI、PSY技術分析指標。
2.因素相關性分析及邊界劃分
結合數(shù)據(jù)特征,本文選取2008年10月1日至2012年10月1日時間段,在此期間,已經(jīng)歷過金融危機,國內(nèi)經(jīng)濟緩慢復蘇,宏觀政策調控沒有巨大變化,華夏基金度過了2008年第三季度的最強金融危機沖擊后,持續(xù)保持平穩(wěn)發(fā)展。由于國際貿(mào)易收支、國際金融市場等因素不足以影響具體倉位值,政治局勢、突發(fā)事件等因素不在預測范圍內(nèi),所以都劃在本研究邊界之外。
將以上基金年報中的具體數(shù)據(jù)期末基金份額凈值、基金市值、期末基金資產(chǎn)凈值等和最終倉位值導入excel中的data analysis模塊進行相關性分析。用Correlation工具算出Pearson相關系數(shù),可得到期末基金份額凈值、基金市值、期末基金資產(chǎn)凈值、基金收益率、基金單位交易開盤價、基金折價率、基金換手率、收市基金指數(shù)、股票組合的收益率、股票市值增長率、股票市值加權、MACD倉位值的Pearson相關系數(shù)超過0.5,將這12個變量劃在最終邊界內(nèi)作為研究因素。
3.數(shù)據(jù)采集與預處理
本文選擇華夏基金旗下華夏成長證券投資基金、華夏大盤精選證券投資基金、華夏優(yōu)勢增長股票型證券投資基金等10種基金在2008年10月1日至2012年10月1日的數(shù)據(jù),作為建立模型和網(wǎng)絡訓練的樣本集。
根據(jù)模型建立的需要,BP神經(jīng)網(wǎng)絡要求樣本集合理區(qū)間為[0,1],本文運用公式X=(X-Xmin)/(Xmax-Xmin)對樣本集進行歸一化處理。其中Xmax、Xmin為最大值和最小值,X為原始數(shù)據(jù),X為轉換后數(shù)據(jù)。將數(shù)據(jù)預處理后分為兩部分,前250個數(shù)據(jù)作為模型的訓練集,剩余的50個數(shù)據(jù)作為模型的測試集。
圖1 預測模型的網(wǎng)絡結構
4.BP神經(jīng)網(wǎng)絡建模
本文構建基金倉位預測模型,側重研究基金一個周期中倉位走勢的變化,所采集的數(shù)據(jù)無法達到海量。根據(jù)Kosmogorov定理基本原則,在有合理結構和恰當權值時,有三層結構的前饋網(wǎng)絡就能逼近任意的連續(xù)函數(shù),模型設計為單隱含層和輸出層兩個網(wǎng)絡層次。選擇期末基金份額凈值、基金市值、期末基金資產(chǎn)凈值、基金收益率、基金單位交易開盤價、基金折價率、基金換手率、收市基金指數(shù)、股票組合的收益率、股票市值增長率、股票市值加權、MACD指標作為神經(jīng)網(wǎng)絡的12個輸入向量,基金倉位作為唯一輸出向量。根據(jù)Kosmogorov定理,初步設定隱含層結點數(shù)為2n+l即25個,并利用BP網(wǎng)絡默認初始化函數(shù)initnw設計初始權值??紤]到本研究的原始數(shù)據(jù)經(jīng)過歸一化處理后符合S型對數(shù)函數(shù)的取值范圍,選擇tansig作為隱含層傳遞函數(shù),logsig作為輸出層傳遞函數(shù)。學習函數(shù)選擇學習率可變的動量BP算法traingdx及梯度下降動量學習函數(shù)learngdm。性能函數(shù)選用誤差性能函數(shù)為均方的誤差函數(shù)mse。模型網(wǎng)絡結構如圖1所示。
根據(jù)以上結構和參數(shù),在MATLAB中建立起基金倉位預測模型,在訓練200,000次,隱含層節(jié)點數(shù)目為25的情況下,訓練目標達到0.0001,但是收斂速度較緩慢,未達最優(yōu)模型。
5.優(yōu)化模型
在優(yōu)化階段,初始節(jié)點數(shù)在[15,25]范圍之間進行多次嘗試比對。根據(jù)仿真輸出結果與真實值間的擬合程度及誤差大小,最終確定隱含層節(jié)點數(shù)目為22,其預測誤差為0.29998達到最小,并且均方誤差為0.000999315也為最小,收斂速度較快,達到誤差目標值需經(jīng)過2338次訓練,訓練時間適中。同時選擇嘗試法確定初始權值。由于網(wǎng)絡中隱含層和輸出層節(jié)點的范圍在0到1之間,初始權值選擇為分布在e0.1num22之間的隨機數(shù),其中num為該連接權值的輸入節(jié)點數(shù)。觀察監(jiān)測網(wǎng)絡的訓練效果、擬合效果后,基金倉位預測模型確定最終初始權值矩陣。
建立隱含層節(jié)點數(shù)為22,優(yōu)化初始權值的BP神經(jīng)網(wǎng)絡后,經(jīng)過30萬次訓練達到訓練目標,完成學習成熟的倉位預測網(wǎng)絡。
四、實證結果分析
將50組測試集數(shù)據(jù)輸入模型,在MATLAB中將預測仿真結果和實際數(shù)據(jù)進行對比,如圖2所示。
1.擬合:從擬合效果圖觀察,每個測試基金的倉位預測結果與真實值間的偏差在可承受范圍之內(nèi)。獲得判定系數(shù)為0.69261,擬合程度遠遠高于相同樣本線性回歸預測結果0.389。在同一預測期下不同基金的倉位預測值與真實值的相對關系是一致的,說明預測模型對于所研究的行業(yè)內(nèi)的不同基金走勢判斷都有良好適用性,所建立的預測模型是具有一定意義和價值的。
圖2 模型測試數(shù)據(jù)輸入輸出擬合效果
2.偏差:模型偏差表現(xiàn)為存在預測值高于實際計算值的現(xiàn)象。原因在于數(shù)據(jù)時間跨度較大,期間經(jīng)歷奧運、世博等重大活動影響到股市和基金市場的活動,所有經(jīng)濟主體、金融市場都受到了不同程度的沖擊,間接帶動先前劃在邊界外的貨幣政策、財政政策、際貿(mào)易收支等因素的變動,影響了模型擬合度。另外邊界外的基金持股集中度、居民價格消費指數(shù)、銀行利率等弱相關因素的積累和相互作用都會帶來擬合的偏差。關于單支基金,基金倉位在不同投資風格中也有相對差別,造成預測的偏差大于其他基金公司的原因,是華夏基金公司總體基金狀況都處于市場風口浪尖的位置,這一帶頭特性導致預測的不可控性增強。
五、結論
本文將傳統(tǒng)的基金倉位測算理念及影響因素同BP神經(jīng)網(wǎng)絡方法相結合,選擇基于數(shù)據(jù)挖掘的BP神經(jīng)網(wǎng)絡作為基金倉位預測模型建立的基本方法,通過數(shù)據(jù)挖掘技術找出相關因素集,建立神經(jīng)網(wǎng)絡,相對于線性模型,提高了預測的準確性,同時對結果的擬合與偏差都能夠獲得合理的解釋。本研究使信息技術更好的應用于基金投資風格研究,實現(xiàn)對基金倉位的科學預測,同時對于神經(jīng)網(wǎng)絡的預測應用也做出了新的探索。
參考文獻
[1]王敏.基于神經(jīng)網(wǎng)絡的基金凈值預測研究[J].天津大學學報,2008(5).
[2]肖國榮.BP神經(jīng)網(wǎng)絡在基金價格預測中的應用研究[J].計算機仿真,2011(3).
[3]李學峰,徐華,李榮霞.基金投資風格一致性及其對基金績效的影響[J].財貿(mào)研究,2010(2).
[4]董鐵牛,楊乃定,邵予工.中國開放式基金投資風格分析[J].管理評論,2008(7).
[5]J.Clay Singleton編.賈維國,張曉林譯.基金組合投資管理[M].中國人民大學出版社,2007(10):14-28.
[6]Sharpe,W.F.Asset Allocation.Management style and performance measurement.Journal of Portfolio Management,1992,18(2):7-19.