王 琪,冷林峰,常永蓮
(重慶大學 數(shù)學與統(tǒng)計學院, 重慶 401331)
近年來,隨著我國證券市場的不斷發(fā)展,證券投資已成為投資者的主要途徑之一。投資者在追求收益最大化的同時,應當警惕由于市場的劇烈變化為其帶來的巨額損失。因此,在保值的前提下,如何實現(xiàn)增值的最大化是當前證券投資者關注的焦點之一。股票指數(shù)是選取具有代表性的一組股票,將其股價進行加權平均得到,反映了股票市場中各種股票價格總體水平及變動情況,以此作為評價一個投資組合預期收益的基準指標。自2016年以來,中國股指溫和上揚,券商指數(shù)基金收益領先。一個業(yè)績表現(xiàn)突出的指數(shù)基金,其超額收益在很大程度上取決于跟蹤指數(shù)的表現(xiàn)。跟蹤指數(shù)表現(xiàn)是指試圖令資產(chǎn)組合的價值緊貼某一市場指數(shù)的表現(xiàn),通常是建立相關模型進行回歸分析?;貧w方法的選取多種多樣,而選取何種方法能更好地跟蹤指數(shù)動態(tài)、幫助投資者更好把握股價的波動性與走勢成為亟待解決的問題。
2004年楊楠[1]通過對多元線性回歸中的多重共線性問題的研究,得出了嶺回歸分析在解決多重共線性問題中具有獨特優(yōu)勢。吳仍康[2]將嶺回歸應用于我國上證綜合指數(shù)的預測分析。薛宏剛[3]利用滬深300股指的實證研究,建立了基于嶺回歸的套期保值模型。姬春煦等[4]將主成分回歸運用在滬深綜合指數(shù)的預測研究中,并取得了較好的預測效果。王成震[5]采用主成分回歸對股票價格指數(shù)進行預測與風險分析。本文分別對嶺回歸與主成分回歸進行改進,并將改進后的方法應用于上證50指數(shù)及其成分股的回歸分析及跟蹤研究,從跟蹤誤差的角度得出了改進嶺回歸的跟蹤效果更佳的結論。
股票價格指數(shù)是描述股票市場總的價格水平變化的指標。它是選取有代表性的一組股票,將其價格進行加權平均計算得到,用以表示整個市場的股票價格總趨勢及漲跌幅度。在我國,上證50指數(shù)是反映整個股市行情最重要的指標之一。上證50 指數(shù)是根據(jù)科學的統(tǒng)計方法,挑選上海證券市場規(guī)模大、流動性好的最具有代表性的50 只股票組成樣本股,意在建立一個主要作為衍生金融工具基礎的投資指數(shù)。因此,如何判斷和預測股票指數(shù)的走勢引起了研究者的極大興趣。由于影響上證指數(shù)的因素眾多,且其作用機制較為復雜,使得預測股指的長期走勢變得十分困難。然而,通過建立線性模型,在短期股指預測中往往能夠取得較好效果。
建立在一定時期內(nèi)上證50指數(shù)與其50個成分股的收盤價之間的多元線性回歸模型:
Y=β0+β1X1+β2X2+…+β50X50+ε
其中:Y表示上證50指數(shù);X1,X2,….,X50分別表示50個成分股的收盤價;β0,β1,…,β50表示多元回歸的參數(shù)估計;ε為估計誤差。
2.1.1 嶺回歸原理
嶺回歸是 1970年由Hoerl和Kennard提出的一種有偏估計方法。假定自變量數(shù)據(jù)矩陣X=xij}為n×p的,最小二乘估計尋求使殘差平方和達到最小時的系數(shù),即
(1)
而嶺回歸需要一個懲罰項來約束系數(shù)的大小,即嶺回歸的系數(shù)既要使得殘差平方和小,又不能使得系數(shù)太膨脹,即
(2)
2.1.2 嶺回歸的改進
對嶺參數(shù)的選取方法在前人研究的基礎上做一些改進。在線性回歸模型的設計陣X存在多重共線性時,XTX的特征值至少有一個很小,接近于0,即
(3)
因此,可用XTX行列式的大小來判斷自變量的多重共線性強弱。令
(4)
再將式(4)改為
(5)
分別運用兩個公式選取嶺系數(shù),并將預測誤差進行對比。其中,k為選擇的嶺參數(shù),I為p×p單位陣,易見D(k)關于k單調(diào)遞增。規(guī)定若0
2.2.1 主成分回歸原理
主成分估計是在1965年瑪西提出的一種線性有偏估計,主要思想是將原來的回歸自變量變換到另一組變量,即主成分,選擇其中一部分重要的主成分作為新的自變量,以達到降維的目的。運用最小二乘法對選取主成分后的模型進行參數(shù)估計,最后再變換到原來的模型求出參數(shù)的估計。
主成分回歸主要步驟如下:
1) 對原始數(shù)據(jù)標準化處理,消除量綱不一致的影響。設有p個自變量X1,…,Xp,在第i次實驗中取值為xi1,…,xip,i=1,…,n。矩陣形式為
(6)
對樣本矩陣標準化可得
2) 計算相關系數(shù)矩陣R。
3) 求相關系數(shù)矩陣R的特征根和特征向量。求解R的特征方程|λE-R|=0,得到p個特征值λ1≥λ2≥…≥λp≥0,由(λE-R)X=0得到對應的標準化正交特征向量η1,η1,…,ηp。
4) 建立主成分特征函數(shù)。將x1,…,xp變換為主成分z1,…,zp,令
(7)
記標準化正交陣Q=(η1,η2,…,ηP)p×p,Z=XQ,引入?yún)?shù)α=QTβ,得到主成分特征函數(shù)
Y=β01+ZQTβ+ε=β01+Zα+ε
2.2.2 主成分回歸的改進
在進行主成分篩選時,如何確定選取主成分的個數(shù)是問題的關鍵。因此,提出將RMS、AIC與SSE 這3個準則相結合,聯(lián)合選取主成分,考慮同時滿足3個準則的模型為最優(yōu)模型。
1) RMS準則,RMS=SSE/(n-k)。其中:SSE為殘差平方和;n為觀測值的個數(shù);k為選取的主成分個數(shù)。選取使RMS達到最小值的k值,即RMS越小越好。
2) AIC準則,AIC=2k+nln(SSE)。AIC是衡量統(tǒng)計模型擬合優(yōu)良性的一種標準,可以權衡所估計模型的復雜度和此模型的擬合優(yōu)度。其中:n為觀測值的個數(shù);k為選取的主成分個數(shù)。AIC鼓勵數(shù)據(jù)具有擬合優(yōu)良性的同時,盡量避免出現(xiàn)過度擬合的情況,因此優(yōu)先考慮AIC值最小的的模型。
3) SSE準則。優(yōu)先選擇有最小殘差平方和的主成分模型。
2.5.1 彈性約束估計
在金融大數(shù)據(jù)統(tǒng)計分析中,由于變量的影響大小不同,加上數(shù)據(jù)收集的成本和分析的時效,并不總是需要盡可能多地收集全部變量。因此,當處理實際問題時,首要的問題就是變量選擇問題。
2005年Zou與Hastie將嶺回歸與Lasso方法合并,提出彈性約束估計,即Elastic Net。彈性約束的參數(shù)估計為
(8)
等價于找到
滿足當
達到最小的βj,j=1,2,…,p。易見,當λ=1時,彈性約束估計就是嶺回歸;當λ=0時,彈性約束估計就是絕對約束估計。因此,彈性約束估計同時具有絕對約束估計與嶺估計的特點。
2.5.2 兩步估計方法
在證券市場中,很多變量都是相互依存的,沒有必要將高度關聯(lián)的變量都考慮進來。此時,我們需要做兩步估計,即先篩選出一部分變量,再做回歸。針對本文的數(shù)據(jù),考慮先用彈性約束估計方法篩選出變量,再將得到的變量做最小二乘估計。
本文數(shù)據(jù)來源于2017年1月3日至2017年3月20日的上證50指數(shù)及其成分股的5分鐘線收盤價數(shù)據(jù),剔除兩支有嚴重缺失值的股票。通過Wind金融資訊軟件獲得了2 352組觀測值數(shù)據(jù)。選取前2 064組觀測值為訓練集,將剩下的288組觀測值作為測試集。本文擬通過對上證50指數(shù)與其成分股進行回歸分析,從估計誤差的角度,試圖尋找最佳估計方法,并依據(jù)未來短期內(nèi)的成分股波動對上證50指數(shù)進行短期預測。
3.2.1 數(shù)據(jù)的標準化及異常點處理
在做數(shù)據(jù)分析時,引入的各變量常有不同的單位和不同的變異程度。為了消除量綱影響,將數(shù)據(jù)進行標準化處理。統(tǒng)計中常采用 Z-score 標準化,即
3.2.2 診斷多重共線性
多重共線性即變量間高度相關,導致樣本協(xié)方差矩陣奇異或不穩(wěn)定,此時依賴協(xié)方差矩陣的最小二乘估計變得無意義。度量多重共線性嚴重程度的一個重要指標是計算變量相關系數(shù)矩陣的條件數(shù)k,即矩陣最大特征值與最小特征值之比。如果k值小于100認為變量間共線性程度較輕,大于1 000則認為存在嚴重共線性。相關系數(shù)矩陣最大特征值為22.819 9,最小特征值僅0.003 684,計算k值為6 193.64,可見變量間存在比較嚴重的多重共線性。
3.3.1 最小二乘法
經(jīng)最小二乘估計,計算出訓練集SSE為234.054,MSE為0.113 508;測試集SSE為294.115 4,MSE為1.021 234。
3.3.2 迭代加權最小二乘法
在不符合方差齊性的模型中,迭代重復加權最小二乘法估計效果良好。由于本文數(shù)據(jù)未通過Shapiro-wilk檢驗,可以嘗試此方法。在R軟件中使用MASS包的rlm函數(shù)來實現(xiàn)Huber與Bisquare兩種方法計算每個自變量的權重,并將得出的權重分別乘以原始自變量數(shù)據(jù),形成加權處理的新數(shù)據(jù),再進行最小二乘法估計。由Huber法,利用R程序計算,可獲得上證50指數(shù)與成分股之間的回歸方程:
計算得訓練集SSE為234.718 3,MSE為0.113 8;測試集SSE為325.884 3,MSE為1.131 5。由Bisquare法得上證50指數(shù)與成分股之間的回歸方程:
計算得訓練集SSE為235.163 7,MSE為0.295 9;測試集SSE為340.817 1,MSE為1.183 3。可見,Bisquare法和Huber法的估計誤差均大于最小二乘法。
3.4.1 嶺回歸
首先選擇嶺參數(shù),通過R程序繪出嶺跡圖,見圖1。
由R程序MASS包中l(wèi)m.ridge函數(shù),得HKB法給出的k值為0.080 2,L-W法給出的k值為0.007 6,GCV法給出的k值為0.04,選擇最小的k值0.007 6,得到嶺回歸方程
圖1 嶺跡圖
易見,殘差的趨勢性基本被消除了,嶺估計給出的嶺回歸方程較好地刻畫了上證50指數(shù)的變化趨勢。
3.4.2 嶺回歸的改進
首先考慮第1種情況,即
由R程序自編函數(shù),得到在D(k)>0.001的范圍內(nèi)最小k值為0.583 4,作為選取的嶺參數(shù)。得到嶺回歸方程為
分析殘差,得到訓練集SSE為234.255 8,MSE為0.113 606 1,測試集SSE為286.884 2,MSE為0.996 125 5。易見,經(jīng)過嶺參數(shù)選擇方法的改進,特別是測試集的估計誤差,與L-W法相比有所減小,甚至小于最小二乘估計誤差。因此,改進的嶺回歸使估計誤差得到減小,預測精度得到提升。訓練集與測試集觀測值與預測值的擬合曲線分別如圖3、4所示。
圖3 改進嶺回歸訓練集實際值與預測值擬合曲線
從2017年1月3日至2017年3月20日兩個多月的時間,通過改進嶺回歸模型跟蹤上證50指數(shù)的走勢比較成功,說明通過數(shù)據(jù)擬合的模型用于股票指數(shù)跟蹤是完全可行的。
其次考慮第2種情況,即
由R程序自編函數(shù),得到在D(k)>0.001范圍內(nèi)的最小k值為0.099,作為選取的嶺參數(shù)。得到嶺回歸方程為
分析殘差,得到訓練集SSE為234.078 3,MSE為0.113 52,測試集SSE為291.495 9,MSE為1.012 138。與第一種改進方法比較,第二種方法得到的測試集殘差略大于第一種方法的殘差,但仍小于L-W法選取嶺參數(shù)的殘差以及最小二乘估計殘差。綜合來看,從預測誤差的角度,改進的嶺回歸降低了殘差,取得了一定的改進效果。
3.5.1 主成分回歸
使用R程序的主成分函數(shù)princomp( )進行主成分分析,得到前32個主成分的累計貢獻率如圖5所示。設置特征值門限值為0.05,第24個特征值小于0.05,因此選取前24個主成分進行分析,累積貢獻率為99.05%。得到主成分回歸方程為
經(jīng)殘差分析,計算得訓練集SSE為548.99,MSE為0.26,測試集SSE為854.33,MSE為2.96。殘差趨勢見圖6,易見殘差的趨勢性基本被消除。
3.5.2 主成分回歸的改進
經(jīng)R程序自編函數(shù)計算,當k=32時RMS和AIC同時達到最小,SSE亦為最小取值之一,因此選取前32個主成分進行回歸分析。得到主成分回歸方程為
經(jīng)計算得到:訓練集SSE為389.856 2,MSE為0.189 0,測試集SSE為611.629 4,MSE為2.123 7。此時,條件數(shù)為989.215,與原始數(shù)據(jù)的條件數(shù)6 193.64相比,顯著降低。因此,經(jīng)改進的主成分回歸,相對削弱了變量間的共線性,且估計誤差與改進前相比有所減小。訓練集與測試集的觀測值與預測值的擬合曲線分別如圖7、8所示。
圖5 前32個主成分的累計貢獻率
圖6 主成分回歸殘差圖
表1 殘差分析
圖7 改進主成分回歸訓練集實際值與預測值擬合曲線
3.6.1 彈性約束估計與最小二乘的結合
首先經(jīng)彈性約束估計對上證50及其成份股進行變量選擇,由R程序中cv.glmnet函數(shù)進行交叉驗證,以確定最佳的λ值。λ選擇如圖9所示,橫軸是λ對數(shù)值,縱軸是均方誤差。
圖9 彈性約束估計λ選擇圖
經(jīng)計算,易得λmin=0.093 4。按此參數(shù)值,保留變量個數(shù)是34個,分別是第1,2,3,4,5,6,7,8,10,12,14,15,16,17,19,21,23,24,25,27,28,29,30,32,35,37,38,39,41,43,45,46,47,48個成分股自變量。計算得訓練集SSE為1 476.961。
對彈性約束估計選出的34個變量進行最小二乘估計,由shapiro-wilk檢驗,得到p值為0.349 8,因此殘差經(jīng)檢驗符合正太性假定。計算得訓練集SSE為639.467 5, MSE為0.310 1,與彈性約束估計相比有所減小。
3.6.2 彈性約束估計與主成分估計的結合
對經(jīng)過彈性約束估計篩選出的34個變量進行主成分回歸,訓練集SSE為1 278.469,MSE為0.620 014。易見,由于主成分估計是有偏估計,估計誤差明顯增大。
綜上,針對本文的數(shù)據(jù)進行的兩步估計嘗試,尚未從估計誤差的角度找到更優(yōu)于單步估計的方法。但是,對于基金公司來說,往往需要用最少的變量達到對指數(shù)的準確跟蹤,從而實現(xiàn)股票與股指期貨的對沖,達到保值目的。這時,全部持有股票幾乎不可能,因此有必要在變量選擇的基礎上再對股指進行回歸分析。
本文所用的每種方法的估計誤差匯總如表1所示。由表1可得,單步估計方面,改進嶺回歸的訓練集和測試集的估計誤差最小,特是在測試集中,改進嶺回歸法1和改進嶺回歸法2的估計誤差小于嶺回歸與最小二乘估計。易見,改進嶺回歸取得了降低預測誤差的效果,是不錯的嘗試。而主成分回歸的預測誤差最大,因此針對本文數(shù)據(jù),改進的嶺回歸方法最適用。當不適合考慮全部股票時,需要進行變量選擇,因此考慮兩步估計。針對本文的數(shù)據(jù),先用彈性約束估計篩選變量,再做最小二乘法的無偏估計。但不可避免的,估計誤差會高于單步估計的結果。
本文仍然存在一些不足之處。例如,由于數(shù)據(jù)、指標和估計方法的選取具有一定局限性,有待進一步拓展??傊?,要更加透徹地研究和預測股票指數(shù)的趨勢,不僅需要進一步深化統(tǒng)計理論的學習,還應追蹤當前國內(nèi)外研究成果,通過對股票指數(shù)趨勢的深入分析,結合我國股市特點,形成一套行之有效的股指預測體系。
[1] 楊楠.嶺回歸分析在解決多重共線性問題中的獨特作用[J].統(tǒng)計與決策,2004(3):14-15.
[2] 吳仍康.基于嶺回歸的證券指數(shù)的預測分析——以上證綜合指數(shù)為例[J].商業(yè)全球化,2016,4(2),47-55.
[3] 薛宏剛.基于嶺回歸的套期保值方法[J].統(tǒng)計與決策,2012(5):77-79.
[4] 姬春煦,張駿.基于主成分分析的股票指數(shù)預測研究[J].計算機工程與科學,2006,28(8):122-124.
[5] 王成震.股票價格指數(shù)的預測與風險分析[D].南京:東南大學,2003.
[6] 何秀麗.多元線性模型與嶺回歸分析[D].武漢:華中科技大學,2005.
[7] 鄧春亮.嶺參數(shù)選取的行列式法[J].嘉應學院報,2015,33(8):8-10.
[8] 高少龍.幾種變量選擇方法的模擬研究和實證分析[D].濟南:山東大學,2014.
[9] 龔樂春,鄭寧國.多元線性模型系數(shù)的主成分估計及其篩選[J].中國計量學院學報,2000,11(1):87-90.
[10] 鄭寧國.多元統(tǒng)計分析線性模型主成分篩選準則研究[J].沈陽航空航天大學學報,2002,19(2):70-71.
[11] 曹芳,朱永忠.基于多重共線性的Lasso方法[J].江南大學學報,2012,11(1):87-90.
[12] 楊虎.金融大數(shù)據(jù)統(tǒng)計方法與實證[M].北京:科學出版社,2016.
[13] 湯銀才.R語言與統(tǒng)計分析[M].北京:高等教育出版社,2008:316-324.
[14] 王學民.應用多元分析[M].上海:上海財經(jīng)大學出版社,2009.
[15] 張興鳳.基于Lasso的我國股票價格影響因素分析[D].成都:西南財經(jīng)大學,2016.
[16] 余新宏.多元線性模型系數(shù)嶺估計的改進研究[J].合肥工業(yè)大學學報,2009,32(10):1620-1622.