• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機器學習驅動的大類資產因子配置研究

      2022-09-17 03:42:16
      金融發(fā)展研究 2022年8期
      關鍵詞:森林預測因子

      周 亮 蔣 練

      (1.湖南財政經濟學院財政金融學院,湖南 長沙 410205;2.湖南師范大學商學院,湖南 長沙 410081)

      一、引言

      自Fama 和French (1993)提出三因子模型以來,因子投資便成為投資理論研究及實踐應用的焦點,之后大量新的因子被提出并得到廣泛應用。如Carhart(1997)基于美國共同基金數據提出了動量因子(李富軍等,2019),Amihud(2002)基于換手率數據提出了非流動性因子,Ang 等(2006)在發(fā)現低風險異象的基礎上提出了異質波動率因子,Fama和French(2015)在三因子的基礎上增加了投資因子和盈利因子構造了五因子模型等(趙勝民等,2016)。除此以外,行為金融學的大量研究成果也被應用到因子構建上,最具代表性的是投資者情緒因子(Sun 等,2016;余傳明等,2018)。隨著數據的豐富和計算機性能的提高,越來越多的因子被挖掘出來,形成了Cochrane(2011)所說的“因子動物園”。Harvey 等(2016)發(fā)現在頂級金融學術期刊和SSRN 高評價工作論文上的定價因子多達316 個,其中59 個新因子是在2010—2012年短短三年間提出的。但是這么多因子并不都是有效的,Green 等(2017)和Hou等(2020)的研究發(fā)現,大部分因子在后續(xù)的樣本外檢驗中難以持續(xù)地提供超額收益。因此,在處理如此眾多的因子時,必須使用不同的研究工具(Cochrane,2011)。在此背景下,在處理非線性及共線性關系方面表現頗佳的機器學習模型得到了金融理論界和實務界的廣泛關注。

      機器學習具有以下優(yōu)勢,使得其在金融領域表現出顯著優(yōu)于傳統(tǒng)計量建模技術的能力:第一,大部分機器學習技術設計的初衷就是用來進行預測,如多層神經網絡能夠逼近任意非線性函數,基于樹模型的boosting 算法能夠根據預測誤差不斷更新樣本權重,因此,相比于傳統(tǒng)的計量經濟模型,機器學習模型的預測能力顯著較高(Gu 等,2020)。第二,傳統(tǒng)計量經濟模型只能處理有限變量,當變量數量較多且存在共線性等問題時,模型擬合能力及外推能力將會大幅降低,但是機器學習模型利用變量篩選及降維等技術,可以有效解決共線性問題,從而可以向模型中添加大量變量,保證模型輸入信息的全面性、系統(tǒng)性(Bluwstein 等,2020)。第三,決策樹、支持向量機、神經網絡和集成學習等機器學習算法均能對非線性函數進行逼近,能夠通過參數尋優(yōu)擬合變量間的非線性關系,而傳統(tǒng)的計量建模技術只能擬合線性關系,或者通過在模型中添加變量的高階項或交互項對非線性關系進行部分擬合。具體到因子投資領域,國內外大量學者利用各種公司特征或技術指標作為自變量,構造了機器學習的選股模型,無一例外,均發(fā)現模型具有較好的選股或擇時能力(李斌等,2019)。

      綜上,學者們對因子投資以及機器學習選股進行了大量研究,但是存在著兩方面的改進空間:一是現有研究大部分聚焦于直接進行資產配置,但是正如Bass 等(2017)和Bender 等(2019)所指出的,基于因子的配置方法將資產配置的決策過程從資產層面轉向更為微觀的因子層面,投資者能夠通過其對因子收益分布以及相關性的預測更好地進行資產配置(周亮和李寧,2021)。二是現有研究較少涉及機器學習最廣受詬病的“黑箱”屬性,對于金融投資而言,如果不清楚模型的內部構造及運行機制,必然導致投資者在模型失效時容易喪失信心,從而不敢輕易使用。

      基于此,本文選取2004年1月—2021年12月我國股票市場、債券市場及商品期貨市場的8 個大類資產因子作為研究對象,利用隨機森林(Random Forrest,RF)模型構造了因子配置模型,并利用特征重要性及部分依賴圖(Partial Dependence Plot,以下簡稱PDP)等方法對模型進行解構,以打開機器學習的“黑箱”。相對于已有研究,本文的可能貢獻在于:一方面,不同于常見的多因子模型或二次規(guī)劃,本文利用機器學習模型,從非線性角度構造投資組合,拓展了投資組合理論的研究邊界,同時通過解構變量的相對重要性、非線性影響以及交互作用,部分打開了機器學習的“黑箱”;另一方面,將資產配置的研究視角拓展到因子層面,有助于投資者深入理解投資收益和風險的關鍵驅動因素,明確風險和收益的來源。

      二、研究設計

      (一)隨機森林模型

      機器學習模型眾多,不存在所謂的最強模型,不同的數據、不同的問題適用不同的模型。其中,隨機森林方法結構簡單,參數少,過擬合概率低,同時還具有非常強的樣本外預測能力。實證顯示,隨機森林模型得到的多空組合在收益性和穩(wěn)健性上都優(yōu)于傳統(tǒng)的線性模型,更重要的是它可以幫助我們省去“因子篩選”“因子加權”和“線性轉換”的中間過程,提升預測效率。

      圖1:隨機森林模型原理圖

      CART 對數據很敏感,隨機森林算法使得它生成的決策樹預測結果的相關性很低,但偏差變化不大,因此,把多個低相關性的預測結果組合在一起,方差會明顯降低。隨機森林是通過降低預測結果的波動性來提升樣本外預測的準確度,其性能通常要比單個決策樹和許多其他機器學習算法好得多(Fernández-Delgado 等,2014;周亮,2021)。隨機森林有兩個重要參數,分別是決策樹的數量以及每個決策樹所使用的特征數量。為了避免模型過擬合,本文均使用模型的默認參數,決策樹數量為500 棵,每個決策樹所使用的特征數量為6 個(即18/3,本文共選擇了18個特征)。

      (二)模型檢驗指標

      為了對模型預測績效進行評估,本文除選擇常見的RMSE、MAE 及Theil-U 進行評估外,還選擇了方向預測準確度DAR 及可決系數,計算公式分別如式(2)—(6)所示。

      (三) PDP方法

      本文除了采用特征重要性分析評估隨機森林模型中各特征的相對重要程度外,還利用PDP方法探討了特征的非線性影響以及特征間的交互作用。PDP的核心思想是考察某項特征的不同取值對模型輸出值的影響,如圖2所示。將某項特征X全部設為常數,其余特征保持不變,可得到一組新的模型輸入值X,再利用原模型進行預測,比較預測值與初始預測值的差異,從而可以觀察到每個變量的相對重要性。

      圖2:PDP方法檢測特征重要性

      (四) 指標選取及樣本說明

      為了檢驗隨機森林模型在大類因子配置上的預測能力,本文選擇了6 個常見的股票類因子(包括市場因子MKT、規(guī)模因子SMB、估值因子HML、盈利因子RMW、投資因子CMA、動量因子UMD)、1 個債券因子(BOND)、1 個商品期貨因子(METAL)的周數據作為分析對象,樣本周期為2004年1月至2021年12月。股票類因子中市場因子為滬深300指數的收益率,規(guī)模因子、估值因子、盈利因子、投資因子的構造方法參照Fama-French 五因子模型,動量因子參照Carhart 四因子模型;債券因子用中證全債指數收益率衡量;商品因子選擇了收益相對較高的南華金屬期貨指數收益率來衡量。隨機森林模型中,因變量為因子當期收益率r,在特征(自變量)選取上,我們選擇了18 個常見的指標,包括動量、波動率、技術面指標以及宏觀指標等,具體如表1所示,其中ˉ為收益率均值。因子數據來自BetaPlus 小組(www.factorwar.com),其他數據來自萬得數據庫。

      表1:指標及其說明

      三、實證結果及分析

      (一)因子描述性統(tǒng)計

      表2報告了所選因子的描述性統(tǒng)計結果??梢钥吹?,在所選樣本期內,估值因子HML 和投資因子CMA 表現不佳,年化收益率均為負值,說明二者在我國股票市場的整體有效性不強;動量因子UMD 表現也較為一般,年化收益率僅為0.33%,這符合大部分學者的研究結論,即動量效應在我國股市并不明顯;市場因子MKT 和商品期貨因子METAL 表現較好,年化收益率分別達到了9.51%和9.38%,說明整體來看,我國的股市及商品期貨(有色金屬)市場保持了穩(wěn)定的上升趨勢;除此以外,規(guī)模因子SMB 及盈利因子RMW 在樣本區(qū)間也具有一定的有效性;債券因子BOND 雖然年化收益率只有4.44%,但是其風險遠低于股票類和商品期貨類因子,年化波動率僅為2.13%,最大回撤也僅為4.06%,因此,其風險調整后收益(用夏普比率、索提諾比率及卡爾瑪比率衡量)遠高于其他因子。

      表2:因子描述性統(tǒng)計

      圖3展示了部分因子的凈值曲線,可以看到,相對于其他因子,盈利因子RMW 及債券因子BOND 表現較為穩(wěn)定,但是由于收益不高,最終凈值遠低于其他三個因子;規(guī)模因子SMB 在2016年以前有效性非常強,但是從2017年開始出現了顯著回撤;商品因子METAL 在2015年以前波動較為劇烈,凈值幾乎沒有上漲,但是從2016年開始進入大牛市,最終凈值高達5.37;市場因子MKT 雖然最終凈值高達5.5,但是波動也非常劇烈。從圖3總體來看,各因子之間的相關性較低,更詳細的相關性分析結果見表3。從表3可以看到,大部分因子間的相關系數很低,只有規(guī)模因子SMB 和投資因子CMA 的相關系數略高于0.4;很多因子間的相關系數顯著為負,盈利因子RMW 與規(guī)模因子SMB、投資因子CMA 間的相關系數分別為-0.75 和-0.63,負相關性非常顯著。綜合來看,本文所選的8 個因子相關性較低,適合通過分散化投資降低風險,提高投資收益。

      表3:因子相關系數矩陣

      圖3:因子凈值曲線

      (二)隨機森林模型預測及變量重要性分析

      1.模型預測能力分析。我們利用縮尾及標準化處理后的特征值對同樣經過縮尾和標準化處理后的因子收益率進行隨機森林回歸。具體而言,我們采用第t-250期至第t-1期的數據作為滾動訓練樣本,在訓練樣本中采用第h-1 期(t-249

      表4:模型預測能力分析

      2.特征重要性分析。機器學習模型最廣受詬病的問題在于其“黑箱”屬性,即無法知道特征與因變量之間的關系。隨機森林模型可以通過基尼系數評估變量的相對重要性,相對于神經網絡、支持向量機等其他機器學習算法,更像一個“白箱”。圖4給出了本文的特征重要性研究結果,其中上圖是將所有數據構造靜態(tài)隨機森林計算出的結果,下圖是采用滾動方法構造隨機森林,根據最后一個隨機森林計算出的結果。通過整體和最后一個隨機森林的對比,可以判斷特征的相對重要程度以及特征重要性的變化??梢钥吹?,在整體的分析結果中,動量指標起到了最重要的作用,其次是波動率指標,宏觀指標的預測能力較弱;最后一個隨機森林的分析結果中,動量指標和波動率指標的預測能力仍然是最強的,只是25 周波動率的預測能力有所降低,大部分宏觀指標的預測能力仍然很弱??傮w而言,雖然不同的隨機森林中變量重要性并不完全一致,但是動量和波動率等量價指標的重要性相對更強,而宏觀指標的作用微乎其微。

      圖4:特征重要性分析

      (三)變量非線性及交互作用分析

      機器學習模型的預測精度之所以遠遠好于普通的線性模型,除了其能輸入大量特征而不會導致共線性外,更關鍵在于它能處理特征與因變量之間的非線性關系以及特征之間的交互作用。我們采用PDP 方法計算特征不同取值對預測能力的影響,并根據預測能力的改變程度評估特征的重要性以及影響的非線性;同時,我們還可以對不同特征同時進行賦值,從而觀察特征間的交互影響。圖5和圖6報告了研究結果,其中圖5是部分特征(選取了重要性較高的四個特征,包括動量、波動率及宏觀特征)的特征依賴圖,可以觀察特征的非線性影響;圖6是部分特征預測能力的熱力圖,可以觀察特征間的交互作用。

      1.非線性作用分析。從圖5可以看到,所有特征的非線性都非常明顯,如兩周動量指標MOM2 取值在0.6附近時對因變量的預測能力最強,取值趨向于0或1 時預測能力較弱,取值在0.4 附近時預測能力最弱;一周動量指標MOM1 取值在0.4 附近時預測能力最弱,但是當取值趨向于0 時預測能力較強;十二周波動率指標VOL12 的預測能力波動較強,隨著取值的升高,經歷了幾輪上漲再下跌的趨勢;匯率Exchange 對因變量的影響則符合兩端高、中間低的特征。綜合來看,所有特征的非線性均非常明顯,這也是機器學習模型預測能力普遍較強的原因之一。

      圖5:變量非線性影響分析

      2.交互作用分析。圖6中上圖報告了一周動量指標MOM1 和兩周動量指標MOM2 的交互作用,下圖報告了十二周波動率VOL12 和匯率Exchange 的交互作用,顏色越深說明模型預測能力越強,變量越重要。從上圖可以看到,當MOM2 取值較高、MOM1取值趨向于兩端的時候,模型預測能力最強;當MOM2 取值較低、MOM1 取值趨向于兩端的時候,模型預測能力較強;而在MOM1 和MOM2 取值都中等的時候,模型預測能力很弱。從下圖可以看到,當VOL12取值較高、Exchange取值較低的時候,模型預測能力最強;當VOL12 和Exchange 取值均較高的時候,模型預測能力較強;在VOL12 取值較低、Exchange取值中等的時候,模型預測能力最差。綜合來看,變量間的交互作用非常明顯,機器學習模型對交互作用的識別同樣是其預測能力強于線性模型的關鍵原因之一。

      圖6:變量間交互作用分析

      (四)投資績效分析

      除了利用預測誤差來檢驗隨機森林模型的預測能力外,我們還利用構造投資組合的非參數方法來對隨機森林模型的有效性進行檢驗。具體而言,根據隨機森林模型的滾動預測結果(滾動樣本為100 周,即約2年的建模周期),每期選擇表現最好的3個因子進行等權投資。作為對比,我們考慮了隨機森林分類(以下簡稱RF分類)模型、等權重、均值—方差(MV組合)、最小風險、風險平價及Faber 策略等投資組合。其中RF 分類模型是對每個因子建立分類模型,配置概率最高的3 個因子;等權重組合是將8 個因子進行等權配置;均值—方差及最小風險組合采用馬科維茨方法構造;風險平價組合是每期使8 個因子的風險貢獻相一致的組合;Faber 策略是趨勢投資組合,每期選擇在120 周均線以上的資產進行等權投資(Faber,2007)。表5報告了不同投資組合的績效表現,可以看到,隨機森林模型的收益最高,達到了8.29%,雖然其波動率較高,但是最大回撤反而低于等權重、MV 和Faber 策略組合,較高的收益加上適當的風險水平,使得其風險調整后收益普遍高于其他策略;最小風險及風險平價組合的波動及回撤均較低,主要是因為這兩個組合中債券因子的權重較高;RF 分類模型的收益率雖然相對于其他模型較優(yōu),但是遠遜于RF 模型,可能的原因在于RF 分類模型相對于隨機森林模型損失了過多信息。圖7展示了各策略的凈值曲線,因為在構建預測指標的時候用到了50 周的數據(1年),在建模的時候需要用到100 周的滾動樣本(2年),因此,凈值計算從2007年6月開始??梢钥吹?,隨機森林和RF 分類策略的凈值高于其他策略,但是RF 分類策略的凈值從2018年開始持續(xù)震蕩,而隨機森林策略的凈值保持了持續(xù)上升趨勢,最終達到3.25,遠高于其他策略。

      圖7:策略凈值曲線

      表5:投資績效分析

      (五)穩(wěn)健性檢驗

      1.分階段檢驗。我們先將樣本時間段分為2007—2011年、2012—2016年和2017—2021年三個跨度大致相等的時間段,每段包含五年的交易時間,并分別統(tǒng)計不同時間段內各策略的投資績效,結果如表6所示。可以看到,除了2012—2016年RF 分類策略的收益率略高于RF策略外,其他時間段RF策略的收益率均高于其他所有策略,且RF 策略的最大回撤在大部分時間內好于RF 分類、等權重、MV 及Faber 策略組合。因此,綜合來看,前文的研究結論是穩(wěn)健的,相對于其他策略,隨機森林策略由于考慮了特征的非線性影響及交互作用,能夠顯著提高投資策略的績效表現。

      表6:分階段穩(wěn)健性檢驗

      2.更改策略特征的穩(wěn)健性檢驗。除了分階段進行檢驗,我們還針對因子數量及變量特征進行了穩(wěn)健性分析,表7報告了分析結果。其中,“2因子”是指選擇每期僅選擇表現最好的2 個因子進行等權配置;“5 因子”是僅利用市場因子MKT、規(guī)模因子SMB、盈利因子RMW、債券因子BOND、商品期貨因子METAL 五個表現較好的因子,每期從中選擇表現最好的2個因子進行配置;“10特征”是指從18個特征中選擇重要性最強的10個特征建立隨機森林模型,再滾動建模構造投資組合;“技術特征”指僅利用12 個技術特征進行建模;“宏觀特征”指僅利用6個宏觀經濟指標進行建模;“偏態(tài)特征”指在18個特征的基礎上,增加上行波動率、下行波動率、偏度和峰度(均包括25周和50周兩個周期)特征進行建模;“正交特征”是指對18個特征進行施密特正交化后再進行建模。

      表7:更改因子和特征的穩(wěn)健性檢驗

      可以看到,“2 因子”策略提高了策略收益率,但是波動率和最大回撤也有所增加,風險調整后收益略微不及原始的RF 策略,說明集中化投資對結果的影響并不大;“5因子”策略在降低收益的同時反而提高了風險,說明雖然其他3 個因子(HML、CMA 和UMD)整體投資收益不高,但是其階段性表現可以提高整個策略的投資績效。對特征進行篩選對投資績效有一定影響,“10 特征”策略略微降低了投資風險,但是投資收益也出現了一定下滑;“技術特征”策略則在略微降低投資風險的同時,使收益發(fā)生了輕微上升,從而導致夏普比率從0.94 提高到0.95;宏觀特征在隨機森林模型中的重要性并不高,故“宏觀特征”策略表現遠差于原始隨機森林策略;加入偏態(tài)特征因子是無效的,“偏態(tài)特征”策略的收益率反而大幅低于原始隨機森林策略,說明向機器學習模型中加入過多的、效果不強的因子,并不能提高模型的預測能力;將特征進行正交化有助于提高收益,但是風險也隨之升高,從風險調整后的收益來看,這樣的操作得不償失。綜合來看,無論是改變因子的組合,還是對特征進行重新篩選,隨機森林策略均能表現出較高的投資績效,前文的研究結論是穩(wěn)健的,而且在建模前進行一定的特征工程(如精選技術特征)對于進一步提高投資績效可能是有幫助的。

      四、結論與展望

      機器學習模型能夠有效解決變量間的共線性問題,處理變量間的非線性關系及交互影響,故其預測能力顯著高于普通的線性模型。選取2004—2021年8個大類資產因子(包括股票市場的MKT、SMB、HML、RMW、CMA 和UMD 因子,債券市場的BOND 因子,商品期貨市場的METAL 因子)以及18個量價及宏觀特征,構造隨機森林模型,考察了模型的預測能力、特征的重要性和影響,以及所構造投資組合的投資績效。研究結果表明:第一,相較于普通OLS 及LASSO 模型,隨機森林模型預測能力顯著提高;第二,量價特征尤其是動量因子在隨機森林模型中的重要性遠高于宏觀特征;第三,特征對因變量的影響是非線性的,且特征之間存在著顯著的交互作用,這也是機器學習模型能夠取得較好預測效果的重要原因;第四,隨機森林模型構造的投資組合的投資績效遠好于常見的等權重、MV、最小風險、風險平價及趨勢投資組合,也要好于RF 分類算法構造的投資組合;第五,研究結論在不同的樣本期內均是穩(wěn)健的,更改因子或特征的性質后的結果依然穩(wěn)健,在建模前進行一定的特征工程(如精選技術特征)對于進一步提高投資績效可能是有幫助的。

      本文的研究結論是對投資組合理論以及人工智能理論的有益補充,對于投資實踐也具有較強的借鑒意義。未來可以從以下方面進一步開展深入研究:首先,本文選擇了8 個常見的大類資產因子,但是實際上發(fā)表在金融學期刊的因子成百上千(Harvey 等,2016),未來的研究可以選擇更多、更為有效的因子進行配置,通過分散化投資的方法可以實現更穩(wěn)健的收益;其次,正如本文穩(wěn)健性檢驗中所發(fā)現的,對特征進行特征工程有利于提高投資績效,未來可以嘗試降維、降噪等更多方法進行先期的特征工程,使特征的提取及輸入更有效,必將帶來更高的投資績效;再次,可以對所選因子進行更為有效的配置,而不是簡單的等權重,如均值—方差優(yōu)化、風險平價、尾部風險優(yōu)化等方法均可以用來構造更穩(wěn)健的組合;最后,本文研究的是因子配置,但是實際上,本文提出的8 個因子中,只有債券因子BOND 和商品期貨因子METAL是可以直接投資的,6個股票類因子并非可以直接投資,因此,可以進一步研究如何利用可投資資產進行因子的投資和配置,代表性方法包括但不限于因子映射、組合優(yōu)化等。

      猜你喜歡
      森林預測因子
      無可預測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預測卷(A卷)
      選修2-2期中考試預測卷(B卷)
      因子von Neumann代數上的非線性ξ-Jordan*-三重可導映射
      一些關于無窮多個素因子的問題
      中等數學(2020年1期)2020-08-24 07:57:42
      影響因子
      影響因子
      不必預測未來,只需把握現在
      哈Q森林
      哈Q森林
      福州市| 六安市| 广饶县| 蒙阴县| 界首市| 河东区| 丰宁| 南京市| 镇江市| 东乌珠穆沁旗| 贵溪市| 马龙县| 大渡口区| 精河县| 合江县| 汝南县| 新营市| 乌拉特中旗| 江陵县| 上栗县| 安平县| 陆川县| 庄浪县| 金昌市| 凤冈县| 五大连池市| 南华县| 永福县| 伊宁市| 普兰店市| 科技| 新化县| 永定县| 富锦市| 井陉县| 新沂市| 枞阳县| 蚌埠市| 呼和浩特市| 临漳县| 桂平市|