楊小卜
蘭州財經大學 統計學院,蘭州 730030
隨著信息技術的發(fā)展與數據可獲取性的提高,金融資產的維度也隨即呈現出爆炸增長的趨勢.金融資產維度的增加會給資產協方差矩陣的估計帶來困難,甚至會導致病態(tài)協方差矩陣的產生.而資產協方差矩陣又是投資組合理論的基礎,其估計的精確與否最終會直接干擾與影響投資組合模型.
為了對高維協方差矩陣進行精準的估計,學者們進行了許多相關的研究,主要的思想是對矩陣進行稀疏與降維處理.如文獻[1-2]通過引入不同的門限函數把總體協方差矩陣的一些非對角線元素替換為0,在保留對角線元素的基礎上來避免維數詛咒.文獻[3-4]使用因子模型來降低數據維度,提升其估計效率.上述2類方法雖然可以提升協方差矩陣的估計精確性,但沒有從時間變化的角度去分析與研究協方差矩陣,沒有將不同時間段的協方差矩陣看成是一組時間序列,也沒有考慮因時間變化而產生的信息對于協方差矩陣估計的影響.
文獻[5]發(fā)現協方差矩陣隨著時間的推移有著較強的自回歸結構,并且發(fā)現預期收益與這一變化密切相關.隨著這一發(fā)現,學者們開始將時間序列的估計方法運用于協方差矩陣的估計中,如文獻[6]提出的條件自回歸威沙特(CAW)模型、文獻[7]提出的結合DCC框架的雙不對稱GARCH-MIDAS模型、文獻[8]提出的DCC-GARCH模型.但上述模型所估計的協方差矩陣維度較低,沒有考慮高維的情況.此外,高頻數據也逐漸成為近些年來的研究熱點.文獻[9]的研究表明低頻協方差矩陣轉化為高頻協方差矩陣的經濟價值是巨大的,但是文中也只是討論了低維資產配置的問題.文獻[10]提出了基于高頻數據的高維協方差矩陣估計模型——VAR-LASSO模型,該模型在VAR模型的基礎上,引入LASSO懲罰函數,對待估向量的參數進行稀疏處理,來提高模型估計的精確性.通過實證分析發(fā)現,該模型的估計精確性明顯優(yōu)于傳統的DCC模型與EWMA模型.雖然VAR-LASSO模型可以估計高維協方差矩陣,但由于LASSO懲罰函數不滿足Oracle性質,當面對較大的真實未知參數時,會產生較大的估計誤差,導致參數估計為有偏估計.
因此,本文擬借鑒文獻[10]提出的VAR-LASSO方法,嘗試對高維已實現協方差矩陣進行建模.為了克服LASSO懲罰函數不滿足Oracle性質的缺陷,將滿足Oracle性質的SCAD懲罰函數與MCP懲罰函數引入VAR模型中,提出VAR-SCAD模型與VAR-MCP模型,并證明兩種模型估計參數的Oracle性質.最后用實際高頻股票數據對高維已實現協方差矩陣進行建模,使用文獻[11]提出的特征值替換方法來確保預測協方差矩陣的正定性,并對模型構建最小方差投資組合模型,探究其在實際投資組合中的應用.
與傳統的低頻數據相比,高頻數據會包含更為細致與豐富的數據信息,其估計值也更接近真實的協方差矩陣.本文采用文獻[12]提出的方法來構造已實現協方差矩陣(RCOV,簡記為R).假設一個投資組合具有n維資產,則其已實現協方差矩陣構造為
(1)
觀察(1)式可以發(fā)現,自回歸模型中的待估參數的個數k以n2的速度增加,會產生大量的待估參數,導致最小二乘估計懲罰函數的精確度大幅度下降.為了解決這一問題,文獻[11]使用文獻[13]提出的LASSO懲罰函數來提升估計的精確度.為了方便模型的估計與計算,在使用LASSO懲罰函數之前,可以先對模型進行如下的改寫:
y=Xβ*+ε
(2)
變換模型之后,引入LASSO懲罰函數,該懲罰函數不但可以將不重要的參數壓縮為0,同時還可以同步進行特征選擇,實現數據的降維.文獻[10]中模型(1)的參數β*通過最小化
(3)
進行估計.
為了改進LASSO懲罰函數不滿足Oracle性質的缺點,本文使用滿足無偏性的MCP懲罰函數與SCAD懲罰函數來對VAR-LASSO模型進行改進.
1.4.1SCAD懲罰函數與MCP懲罰函數
文獻[14]基于LASSO懲罰函數不滿足Oracle性質提出了如下的SCAD懲罰函數:
(4)
其中a>2,λT≥0.為了更進一步了解其懲罰的背后含義,可以對(4)式求導,得
(5)
可以發(fā)現,當|βi|≤λT時,SCAD懲罰函數與LASSO懲罰函數擁有相同的懲罰力度,但是隨著|βi|的增加,SCAD懲罰函數的懲罰力度會逐漸降低,當|βi|>aλT時,懲罰力度降為0,這保證了較大的|β|不會被過度地懲罰,確保了較大參數估計的無偏性.
文獻[15]提出的MCP懲罰函數也同樣滿足Oracle性質,且在處理特征之間有很高相關性數據時,表現要比SCAD懲罰函數更好.MCP懲罰函數的懲罰項為
(6)
其中a>1,λT≥0.
(7)
MCP懲罰函數與SCAD懲罰函數的懲罰邏輯類似,隨著|βi|的增加,懲罰力度會逐漸地降低到0.
1.4.2VAR-SCAD模型與VAR-MCP模型
在VAR-LASSO模型的基礎上,將(3)式中的λT‖βi‖l1項代換為(4)式,則VAR-SCAD模型的參數可通過如下函數估計:
(8)
將(6)式代換為(3)式中的λT‖βi‖l1項,可以得出VAR-MCP模型的參數估計函數為
(9)
在(8)式與(9)式中,還有未知的參數a需要進行估計.不同參數a的取值會直接影響(8)式與(9)式的估計性能.對于(8)式中的參數a,文獻[14]通過蒙特卡洛模擬得出a的最優(yōu)值約等于3.7,(9)式的a在實際的使用中通常默認為3.通常使用CV法、L曲線法[16]、AIC信息準則等方法對λT進行估計,本文使用CV法進行估計.
1.4.3VAR-SCAD模型與VAR-MCP模型估計參數的Oracle性質
為了后續(xù)估計參數Oracle性質的證明,先給出如下4個正則條件:
1)εi,1具有有限四階矩,i=1,…,k;
按照施工比例配置并用電動攪拌機充分攪拌均勻。保持均勻速度噴涂多彩印象石專用面漆,提供涂層表面光潔明快的手感以及涂層更具耐污、耐擦洗、耐候、耐變色性能力。
定理1在條件1)-4)成立的情況下,當T→∞時,VAR-SCAD模型的估計參數滿足如下性質:
定義
由文獻[17]中的定理11.2.1與文獻[18]中第十章的定理1可得
則
綜上所述,由Slutsky定理可得
由于VT(μ)是一個凸函數,且V(μ)有唯一最小值點(Ik?C)-1w,可得
定理1(ii)得證,下面證明定理1(i).
由假設4)可得
綜上所述,可以得
定理2在條件1)-4)成立的情況下,當T→∞時,VAR-MCP模型的估計參數滿足如下性質:
定理2的證明過程與定理1類似,區(qū)別在于兩種模型的懲罰項,結合定理1的證明過程可得證定理2.
上述4種指標越小,代表模型的估計精確度越高,l2測試誤差對比如圖1、圖2所示.
將清洗后的數據劃分為訓練集與測試集兩個部分,其中訓練集404天,測試集100天.在VAR模型的擬合中,默認VAR模型的滯后階數為1.
表1 3種模型的測試誤差比較
觀察表1可得,VAR-LASSO模型在h=1,5的情況下,F范數(F)分別為26.925 0,29.577 9,而VAR-SCAD模型僅為27.036 8,29.599 3,VAR-LASSO模型的表現要優(yōu)于VAR-SCAD模型.但在平均最大絕對誤差(AMaxE)與平均測試誤差中位數(AMedE)這兩項指標上,VAR-LASSO模型均最大,表現遜色于VAR-MCP模型與VAR-SCAD模型.當h=10,20時,VAR-LASSO模型的F范數(F)分別為29.070 3與27.992 8,擁有3種模型中最差的測試精度.雖然VAR-SCAD模型在h=1,5時,從指標F范數(F)來看,VAR-SCAD模型的優(yōu)勢相較于VAR-LASSO模型不明顯,但是h=10,20時,從表1的3種指標來看,VAR-SCAD模型的測試精確度僅次于VAR-MCP模型.無論h取何值,VAR-MCP模型均擁有最優(yōu)的估計精確性,3種評價指標均最?。?/p>
更為直觀的信息可以從圖1與圖2中獲得.觀察圖1可以發(fā)現,當h=1時,3種模型的測試誤差差異不大,VAR-LASSO模型與VAR-SCAD模型在前期的測試誤差幾乎重合,VAR-MCP模型的測試誤差與其誤差曲線都明顯較低,在測試的后期,3種模型的測試誤差十分貼近,3條線幾乎重合.h=5,10時,3種模型的測試誤差光滑曲線走勢相同,在測試前期,VAR-MCP模型與VAR-SCAD模型的測試誤差點與其誤差曲線較低,但當T=50時,VAR-LASSO模型的表現反而會優(yōu)于VAR-MCP模型與VAR-SCAD模型.當h=20時,可以明顯看出VAR-MCP模型與VAR-SCAD模型的測試誤差要小于VAR-LASSO模型.不同h情況下的3種模型的測試誤差光滑曲線走勢大致相同,都是在測試前期誤差較大,測試中期誤差會逐漸減小,到了測試后期,誤差又會慢慢增大.
圖1 3種模型在不同h下的誤差光滑曲線圖
圖2是小提琴圖,圖形內部是一個箱線圖,箱線圖外部顏色的寬度代表著數值分布的密集程度.由圖2可知,相較于VAR-LASSO模型,VAR-MCP模型的異常值較小且集中.VAR-SCAD模型在h=1,5時,異常值的大小與分布與VAR-LASSO模型類似,而當h=10,20時,VAR-SCAD模型的異常值的大小與分布和VAR-MCP模型類似.同時也可以發(fā)現,當h=20時,VAR-LASSO模型的上四分位數偏大,說明VAR-LASSO模型較大測試誤差值的數量要多于VAR-SCAD模型與VAR-MCP模型.VAR-SCAD模型與VAR-MCP模型的小提琴圖的底部相較于VAR-LASSO模型來說更為圓潤與寬大,表明這兩種模型的測試誤差分布相對集中,模型也更為穩(wěn)?。?/p>
圖2 3種模型在不同h下的小提琴圖
綜上所述,相較于VAR-LASSO模型,VAR-SCAD模型與VAR-MCP模型的測試精確性有著明顯的提升,VAR-SCAD模型與VAR-MCP模型的穩(wěn)健性也要優(yōu)于VAR-LASSO模型.VAR-SCAD模型在h較大的情況下表現較好,VAR-MCP模型全局表現最優(yōu).
文獻[19]研究指出,在變量具有相關性的情況下,SCAD懲罰函數的表現會不如LASSO懲罰函數,下面從股票相關性角度分析VAR-SCAD模型表現不佳的原因.
圖3 18種股票的相關性圖
圖3中間為股票名,上三角單元格餅圖的填充程度代表相關系數的大小,下三角單元格為相關系數熱力圖.18支股票的最低相關度為0.16,51%的股票之間的相關性要高于0.5,這導致VAR-SCAD模型的參數雖然具有Oracle性質,但測試精確性在h較小的情況下不如VAR-LASSO模型,更不如可以較好處理相關性數據的VAR-MCP模型,這也與文獻[19]的研究結果保持一致.
采用上文18種股票的已實現協方差矩陣構建均值—方差投資組合模型.選取100個已實現協方差矩陣進行投資組合模型的模擬研究,在投資組合分析中,將h分別設置為1與10.
假定股票交易中沒有手續(xù)費的產生,無風險收益為0.投資組合模型的表達式為
為了對比3種模型構建的投資組合模型的績效,選用夏普比率(SP)這一指標對投資組合模型進行評價.夏普比率表示單位風險所帶來的收益,夏普比率值越大表示投資組合的收益越好.
通過表2可以發(fā)現,在各種情況之下,VAR-MCP模型構建的投資組合均擁有最大的夏普比率.在h=1時,VAR-LASSO模型構建的投資組合的夏普比率為0.101 010 1,僅略大于VAR-SCAD模型構建的投資組合的夏普比率.當h=10時,VAR-SCAD模型構建的投資組合的夏普比率為0.101 037 2,略小于VAR-MCP模型構建的投資組合的夏普比率0.102 079 6,此時VAR-LASSO模型構建的投資組合的表現最差,擁有最小的夏普比率0.101 003 9.
表2 3種模型的投資組合的夏普比率
隨著信息技術的發(fā)展與數據可獲取性的提高,金融數據的維度與頻率都呈現出快速增長的趨勢.基于高頻金融數據,本文在VAR-LASSO模型的基礎上,將非凸懲罰函數即MCP懲罰函數與SCAD懲罰函數引入VAR-LASSO模型,得到了新的VAR-SCAD模型與VAR-MCP模型,并證明了VAR-SCAD模型與VAR-MCP模型估計參數的Oracle性質.使用VAR-SCAD模型與VAR-MCP模型對高維已實現協方差矩陣進行建模,通過高頻股票數據的實證研究,發(fā)現將SCAD懲罰函數與MCP懲罰函數引入VAR模型后,較好地克服了LASSO懲罰函數面對較大真實未知參數會產生較大估計誤差的缺點,VAR-MCP模型在不同h的情況下均擁有最小的測試誤差.VAR-SCAD模型在h較大的情況下表現優(yōu)于VAR-LASSO模型,但在h較小的情況下,因為股票數據之間的高相關性,VAR-SCAD模型的表現不如VAR-LASSO模型.
最后通過構建均值—方差投資組合模型可以發(fā)現,VAR-MCP模型構建的投資組合可以為投資人帶來最高的經濟收益.VAR-SCAD模型構造的投資組合在h較大的情況下,表現僅次于VAR-MCP模型構造的投資組合.